CN101286317B

CN101286317B - 语音识别装置、模型训练方法、及交通信息服务平台

Info

Publication number: CN101286317B
Application number: CN2008100383709A
Authority: CN
Inventors: 蒋昌俊; 曾国荪; 陈闳中; 苗夺谦; 闫春钢; 方钰; 吴俊伟; 白星振
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2008-05-30
Filing date: 2008-05-30
Publication date: 2011-07-27
Anticipated expiration: 2028-05-30
Also published as: CN101286317A

Abstract

本发明揭示了一种语音识别装置，包括数据采集管理模块、语音识别模块、模型训练模块，数据采集管理模块、模型训练模块分别与语音识别模块连接；模型训练模块用于产生可供识别器识别的HMM模型，其包括训练配置信息单元、语音编码转换单元、训练过程控制单元、训练强度控制单元；数据采集管理模块包括录制单元、数据存储整理单元；语音识别模块包括数据预处理单元、语音回放单元、识别单元。由于本发明不但提供语音识别模块，还提供了配套的数据采集管理模块和模型训练模块，因此可方便地根据不同城市的交通路名情况配置相应识别装置，达到通行性的效果。在训练数据充足的情况下，使用本发明训练过程得到的HMM模型识别正确率也将得到保证。

Description

语音识别装置、模型训练方法、及交通信息服务平台

技术领域

本发明属于语音信号处理技术领域，涉及一种智能交通信息服务应用系统，尤其涉及一种语音识别装置，此外，本发明还涉及一种上述语音识别装置的模型训练方法，同时还涉及使用上述语音识别装置的交通智能信息服务平台。

背景技术

智能交通信息服务应用领域中，手机、PDA等信息服务手持终端由于环境、使用者自身素质等条件限制，使得人机信息交互及为不便，于是通过语音识别完成客户端向服务器端信息输入成为了交通信息服务应用的重要功能之一。

语音识别当前的应用焦点集中在大词汇量非特定人连续语音识别上。一般来说，较为可靠的音识别系统都只能应用在小词汇量(＜1000)范围内，一但词汇条目数量增加，语音识别的正确率和正确速度都将有明显下降。随着语音技术的发展和成熟，语音识别的词汇量，正确率已有了明显提高。以语音合成、语音识别、语音编解码为代表的智能语音技术正逐渐开始向其他应用领域渗透，特别的，在交通信息服务应用领域中，用户通过语音完成人机信息交流方式，大大简化了原本复杂的操作过程，使得交通信息服务更具人性化魅力和个性化特色。该技术已引起国内外计算机、消费电子业界的广泛关注，尤其在美国、欧洲、日本等工业发达国家，都在不断加大研究和产业化的力度。

发明内容

本发明所要解决的技术问题是：提供一种可以方便用户与城市交通智能信息服务平台信息交互的语音识别装置。

另外，本发明还提供了使用上述语音识别装置的交通智能信息服务平台。

另外，本发明还提供了上述语音识别装置的模型训练方法。

为解决上述技术问题，本发明采用如下技术方案：

一种语音识别装置，包括数据采集管理模块、语音识别模块，所述语音识别装置还包括模型训练模块，所述数据采集管理模块、模型训练模块分别与所述语音识别模块连接；

所述模型训练模块用于产生可供识别器识别的HMM模型；

所述数据采集管理模块包括数据存储命名规则单元、数据拆分单元；数据存储命名规则单元用于制定特定的数据存储命名格式规范；数据拆分单元用于将录制的完整语音数据实体根据命名格式规范以具体每一条路名为单位拆分成对应的小的语音单位；所述数据存储整理单元根据设定的规则，将所述数据拆分单元拆分完毕的小语音单元保存在数据库对应位置中；

语音识别模块包括数据预处理单元、识别单元、汉字与拼音字母转换单元；数据预处理单元用于为待识别人实时语音录制，同时实现语音编码转换；识别单元通过HMM模型，得到识别概率，并列举出概率较大的若干项条目作为识别结果；汉字与拼音字母转换单元用于将识别出的一系列字母按照拼音和声调规则映射到对应汉字，并向用户呈现最终结果。

作为本发明的一种优选方案，所述模型训练模块包括：

训练配置信息单元，用于为训练准备必要的初始化数据，包括交通路名字典文件、发音文件、HMM模型原形文件、中文拼音转换文件、训练计划文件；

语音编码转换单元，用于将音频的时域波形转换为用于描述语音频域特征参数，将WAV格式音频转换为MFCC、一阶、二阶差分MFCC系数，用于描述语音信号频域特征；

训练过程控制单元，用于控制实施训练具体步骤流程，包括初始化MHH模型过程、字间音素停顿训练过程、音素组合训练过程、添加复合转移概率训练过程、加入声调训练过程；

训练强度控制单元，用于控制训练过程中重复叠代训练次数，通过训练模块各单元配合最终产生可供识别器使用的HMM模型。

作为本发明的一种优选方案，所述语音识别模块还包括语音回放单元，用于实时采集的语音数据并向客户回放。

作为本发明的一种优选方案，所述语音识别模块还包括有限状态自动机，语音识别装置在识别过程中，按照所述有限状态自动机设定的路线判别；识别单元根据HMM模型得出对应由音素组合而成的字概率并按照自动机模型设计的识别路线得到最终识别概率输出，并列举出概率较大的若干项条目作为识别结果。

作为本发明的一种优选方案，所述识别单元通过HMM模型和自动机模型，得到识别概率，并列举出概率较大的前五项条目作为识别结果。

作为本发明的一种优选方案，所述数据采集管理模块还包括：录制单元，以便录音人员根据软件给出的相应提示朗读对应词条，记录对应语音数据；数据存储整理单元，用于记录语音数据存放信息，并根据该信息将数据存储在数据库相应位置中。

作为本发明的一种优选方案，所述数据存储整理单元记录的语音数据存放信息至少包括录音人姓名、性别、录制时间、数据存储路径、完成路名条目、录音人发音是否标准等信息。

作为本发明的一种优选方案，所述语音识别装置用于智能交通信息服务平台中，所述录制单元用于保存待录音者录制的城市交通路名语音信息，以WAV音频格式作为训练样本，录制过程中录制单元提供待对应路名的中文提示，录制者按照提示使用麦克风朗读，系统自动保存朗读结果，所有路名的音频数据保存在一个完整的WAV文件中。

作为本发明的一种优选方案，所述语音编码转换单元将WAV波形数据转换到频域的Mel频率倒谱系数MFCC，并求得其一阶和二阶差分和频域能量，以供训练和识别使用。

一种交通智能信息服务平台，使用上述的语音识别装置。

一种语音识别装置的模型训练方法，包括如下步骤：

步骤S10、读入交通路名字典文件、发音文件、HMM模型原形文件、中文与汉语拼音转换文件、训练计划文件并配置基本数据；

步骤11，将WAV音频数据转换成MFCC系数，并求得其一阶和二阶差分和频域能量；

步骤S12，根据HMM模型原形文件，计算音频编码后MFCC系数的均值和方差初始化HMM模型；

步骤S13，根据强度设定要求进行指定次数训练；

步骤S00，训练结束，产生最终可供识别的HMM模型。

作为本发明的一种优选方案，所述方法在步骤S00前还包括如下步骤：

步骤S14，判断是否已经达到训练计划要求，如果是则转入S00结束训练，得到最终的HMM模型；否则进入S15；

步骤S15，在字与字之间加入停顿符号sp，并且在每一句话结束后加入结束符号sil，并且在S5得到的训练模型中在停顿状态和结束状态之间加入转移概率；

步骤S16，根据强度设定要求进行指定次数训练。

步骤S17，判断是否已经达到训练计划要求，如果是则转入S00结束训练，得到最终的HMM模型，否则进入S18；

步骤S18，为加快识别速度，需尽可能减少音素数量，一些因素是可以组合形成一个整体；

步骤S19，在HMM中音素组合后添加可转移状态的转移概率；

步骤S20，根据强度设定要求进行指定次数训练。

步骤S21，判断是否已经达到训练计划要求，如果是则转入S00结束训练，得到最终的HMM模型，否则进入S22；

步骤S22，但是为了能更进一步减少音素数量，把不影响发音的因素组合在一起；

步骤S23，在HMM中第二次音素组合后添加可转移状态的转移概率；

步骤S24，根据强度设定要求进行指定次数训练。

步骤S25，判断是否已经达到训练计划要求，如果是则转入S00结束训练，得到最终的HMM模型，否则进入S26；

步骤S26，在HMM中每个字发音音素最后加入拼音声调；

步骤S27，根据强度设定要求进行指定次数训练。

本发明的有益效果在于：由于本发明不但提供语音识别模块，还提供了配套的数据采集管理模块和模型训练模块，因此可以方便的根据不同城市的交通路名情况配置相应识别装置，达到通行性的效果。并且在训练数据充足的情况下，使用本发明训练过程得到的HMM模型识别正确率也将得到保证。

附图说明

图1为本发明语音识别装置的组成示意图。

图2为模型训练方法的工作流程图。

具体实施方式

为了更清楚地说明本发明的技术方案以及技术效果，以下结合附图说明本发明的中文城市交通路名语音识别装置、语音识别训练方法以及具有该语音识别装置的智能交通信息服务系统的较佳实例。

请参阅图1，其中显示本发明的较佳实施例的语音识别装置的方框图。如图所示，本发明的语音识别装置10，用于智能交通信息服务平台1中，为交通服务20提供信息输入，该语音识别装置10包括，数据采集管理模块100、模型训练模块110、以及语音识别模块120，本实例中该智能交通信息服务平台采用隐马尔可夫模型HMM语音识别技术。

本实施例中数据采集管理模块100进一步包括：录制单元1001，用于保存待录音者录制的城市交通路名语音信息，以WAV音频格式作为训练样本，录制过程中录制单元提供待对应路名的中文提示，录制者按照提示使用麦克风朗读，系统自动保存朗读结果，所有路名的音频数据保存在一个完整的WAV文件中，更详细地说，考虑到存储空间的大小，本实施例中是采用22050Hz和单声道的采样格式对道路信息进行采样录制；存储命名规则单元1002，根据录音人姓名、性别、录制时间、声调、语速、路名数据库内容特征设定命名规则，供数据拆分单元和数据存储整理单元使用；数据拆分单元1003，将1001录制的大块完整语音数据，以路名数据库中每一条路为单位拆分为小的单位，并对根据设定的命名规则和路名称对其重新命名；数据存储整理单元1004，将数据拆分单元1003拆分完毕的小语音单元，根据设定的规则保存在数据库对应位置中。

训练模块110涉及到四个主要单元，首先根据训练所需要的配置信息检查相关文件是否存在1101，不符合要求则给出提示信息。配置信息需要使用到的文件有：交通路名字典文件，该文件存放实例城市所有交通道路的路名中文数据库，所有待识别的路名都必须出现在该数据库中，但是由于本识别装置是面向中文语音识别的，因此排除实例城市中带有英文字母符号的路名，如“A20公路”；发音文件，该文件记录上述字典文件中出现的中文路名字符按照汉语拼音规则拆分成音素序列，如“四平路”按照规则拆分成音素后应该为“sipinglu”；HMM模型原形文件，该文件给出HMM模型信息记录格式及初始化值，包括模型对应音素，状态数，状态均值和方差，以及各状态之间的转移概率，在后续训练过程中将不断更新上述值；中文拼音转换文件，该文件记录字典文件中所有出现中文字符对应的拼音字符，包括声调信息，使用‘1’‘2’‘3’‘4’四个符号分别表示声调的第一声、第二声、第三声、第四声，如“建国路”对应的记录应该为“jian4 guo2 lu4”；训练计划，该文件主要记录训练过程的每一个具体实施步骤，及训练次数，如进行加入声调的训练，训练次数为3等等；语音编码1102，将WAV波形数据转换到频域的Mel频率倒谱系数(MFCC)并求出其一阶和二阶差分和频域能量，使用上述四种特征参数描述一段具体语音的性质，供训练和识别使用。通过训练过程控制单元1103和训练强度控制单元1104实施具体训练。

请参阅图2，其中显示本发明的语音训练方法的工作流程图，以下结合具体实施例进行说明。模型训练使用Baum-Welch算法估计模型参数，使用Viterbi解码算法给出最佳状态序列。

步骤S10，读入交通路名字典文件、发音文件、HMM模型原形文件、中文与汉语拼音转换文件、训练计划文件并配置基本数据。

步骤S11，将WAY音频数据转换成MFCC系数，并计算ΔMFCC’、ΔMFCC’’、和Energy。

步骤S12，根据HMM模型原形文件，计算音频编码后MFCC系数的均值和方差初始化HMM模型。

步骤S13，根据强度设定要求进行指定次数训练。

步骤S14，判断是否已经达到训练计划要求，如果是则转入S28结束训练，得到最终的HMM模型，否则进入S15。

步骤S15，在字与字之间加入停顿sp，并且在每一句话结束后加入结束符号sil，并且在S14得到的训练模型中在状态sp和状态sil之间加入转移概率。

步骤S16，根据强度设定要求进行指定次数训练。

步骤S17，判断是否已经达到训练计划要求，如果是则转入S28结束训练，得到最终的HMM模型，否则进入S18。

步骤S18，为加快识别速度，需尽可能减少音素数量，一些因素是可以组合形成一个整体，如“好”按照音素划分应该为‘h’、‘a’、‘o’，但是可以把后面两个音素组合成一个因素“ao”，该步骤对可以合并组合的因素进行整理，减少路名中出现的总音素数量。

步骤S19，在HMM中音素组合后添加可转移状态的转移概率。

步骤S20，根据强度设定要求进行指定次数训练。

步骤S21，判断是否已经达到训练计划要求，如果是则转入S28结束训练，得到最终的HMM模型，否则进入S22。

步骤S22，但是为了能更进一步减少音素数量，可以把一些不影响发音的因素也组合在一起，如‘了’按照前述S18规则可以把音素划分为‘l’、‘i’、‘ao’，但是‘i’、‘ao’两个因素在发音时可连续发音，因此可以将它们看作统一整体“iao”，我们将这些情况的音素也组合在一起进一步减少路名中出现的总音素数量。

步骤S23，在HMM中第二次音素组合后添加可转移状态的转移概率。

步骤S24，根据强度设定要求进行指定次数训练。

步骤S25，判断是否已经达到训练计划要求，如果是则转入S28结束训练，得到最终的HMM模型，否则进入S26。

步骤S26，在HMM中每个字发音音素最后加入拼音声调。

步骤S27，根据强度设定要求进行指定次数训练。

步骤S28，训练结束，产生最终可供识别的HMM模型。

语音识别模块120主要涉及四个单元，包括：预处理单元1201，通过数据采集装置把实时采集到的待识别者输入语音信号保存在本地临时缓冲中，语音回放单元1202在主进程中创建一个子进程，用于回放刚输入的语音信号。另一方面，调用1102单元的编码转换单元将其转换成MFCC特征。调用识别单元1203，其中识别单元必须具备已经训练完毕的HMM模型文件和自动机模型文件，HMM模型文件在前面已经详细阐述过，这里不再重复；自动机模型文件定义了简化语音识别过程的状态转移路线，比如字典文件中所有的路名以‘四’开头的路线只有“四平路”和“四川路”两条，如果识别装置识别出第一个字为‘四’时，下一步识别就只有‘平’和‘川’两种可能，其他任何输入都将被忽略，因此可大大节省匹配计算所消耗的时间。最后调用汉字与拼音字母转换单元1204，将识别得到的结果都转换成对应汉字，将概率最大的前五项结果呈现给识别者，识别者可以通过触摸屏或鼠标等器械从五个条目中选择最后结果，系统将该结果输入智能交通信息服务平台，为客户提供进一步服务。客户通过语音，方便输入起点和终点路段名称，获得最短路径出行方案、最短时间出行方案、公交线路查询、出行导航等等服务。

由于本发明不但提供语音识别模块，还提供了配套的数据采集管理模块和模型训练模块，因此可以方便的根据不同城市的交通路名情况配置相应识别装置，达到通行性的效果。并且在训练数据充足的情况下，使用本发明训练过程得到的HMM模型识别正确率也将得到保证。

以上实施例仅用以说明而非限制本发明的技术方案。如本实施例仅以交通领域为例介绍了本发明语音识别装置，本发明可以用于其他领域。不脱离本发明精神和范围的任何修改或局部替换，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种语音识别装置，包括数据采集管理模块、语音识别模块，其特征在于：所述语音识别装置还包括模型训练模块，所述数据采集管理模块、模型训练模块分别与所述语音识别模块连接；

所述模型训练模块用于产生可供识别器识别的HMM模型；

所述数据采集管理模块包括数据存储命名规则单元、数据拆分单元；数据存储命名规则单元用于制定特定的数据存储命名格式规范；数据拆分单元用于将语音数据实体根据命名格式规范以具体每一条路名为单位拆分成对应的小的语音单位；

2.根据权利要求1所述的语音识别装置，其特征在于：所述模型训练模块包括：

训练配置信息单元，用于为训练准备必要的初始化数据；

语音编码转换单元，用于将音频的时域波形转换为用于描述语音频域特征参数；

训练过程控制单元，用于控制实施训练具体步骤流程；

训练强度控制单元，用于控制训练过程中重复叠代训练次数。

3.根据权利要求1所述的语音识别装置，其特征在于：所述语音识别模块还包括语音回放单元，用于实时采集的语音数据并向客户回放。

4.根据权利要求1所述的语音识别装置，其特征在于：所述语音识别模块还包括有限状态自动机，语音识别装置在识别过程中，按照所述有限状态自动机设定的路线判别；识别单元通过HMM模型和有限状态自动机，得到识别概率，并列举出概率较大的若干项条目作为识别结果。

5.根据权利要求4所述的语音识别装置，其特征在于：所述识别单元根据HMM模型得出对应由音素组合而成的字概率并按照有限状态自动机设计的识别路线得到最终识别概率输出，并列举出概率较大的前五项条目作为识别结果。

6.根据权利要求1所述的语音识别装置，其特征在于：所述数据采集管理模块还包括：

录制单元，用于在录音人员朗读词条时记录对应语音数据；

数据存储整理单元，用于记录语音数据存放信息，并根据设定的规则，将所述数据拆分单元拆分完毕的小语音单元保存在数据库对应位置中。

7.根据权利要求6所述的语音识别装置，其特征在于：所述数据存储整理单元记录的语音数据存放信息至少包括录音人姓名、性别、录制时间、数据存储路径、完成路名条目、录音人发音是否标准的信息。

8.根据权利要求6所述的语音识别装置，其特征在于：所述语音识别装置用于智能交通信息服务平台中，所述录制单元用于保存待录音者录制的城市交通路名语音信息，以WAV音频格式作为训练样本，录制过程中录制单元提供待对应路名的中文提示，录制者按照提示使用麦克风朗读，系统自动保存朗读结果，所有路名的音频数据保存在一个完整的WAV文件中。

9.根据权利要求2所述的语音识别装置，其特征在于：所述语音编码转换单元将WAV波形数据转换到频域的Mel频率倒谱系数MFCC，并求得其一阶和二阶差分和频域能量，以供训练和识别使用。

10.一种交通智能信息服务平台，其特征在于，使用权利要求1至9任意一项所述的语音识别装置。

11.一种语音识别装置的模型训练方法，其特征在于：包括如下步骤：

步骤S10，读入交通路名字典文件、发音文件、HMM模型原形文件、中文与汉语拼音转换文件、训练计划文件并配置基本数据；

步骤S11，将WAV音频数据转换成MFCC系数，并求得其一阶和二阶差分和频域能量；

步骤S13，根据强度设定要求进行指定次数训练；

步骤S14，判断是否已经达到训练计划要求，如果是则转入S28结束训练，得到最终的HMM模型；否则进入S15；

步骤S15，在字与字之间加入停顿符号sp，并且在每一句话结束后加入结束符号sil，并且在S14得到的训练模型中在停顿状态和结束状态之间加入转移概率；

步骤S16，根据强度设定要求进行指定次数训练；

步骤S28，训练结束，产生最终可供识别的HMM模型。

12.根据权利要求11所述的模型训练方法，其特征在于：还包括如下步骤：

步骤S17，判断是否已经达到训练计划要求，如果是则转入S28结束训练，得到最终的HMM模型，否则进入S18；

步骤S18，为加快识别速度，需尽可能减少音素数量，把一些不影响发音的音素组合形成一个整体；

步骤S19，在HMM中音素组合后添加可转移状态的转移概率；

步骤S20，根据强度设定要求进行指定次数训练。

13.根据权利要求12所述的模型训练方法，其特征在于：还包括如下步骤：

步骤S21，判断是否已经达到训练计划要求，如果是则转入S28结束训练，得到最终的HMM模型，否则进入S22；

步骤S22，但是为了能更进一步减少音素数量，把不影响发音的音素组合在一起；

步骤S24，根据强度设定要求进行指定次数训练。

14.根据权利要求13所述的模型训练方法，其特征在于：还包括如下步骤：

步骤S25，判断是否已经达到训练计划要求，如果是则转入S28结束训练，得到最终的HMM模型，否则进入S26；

步骤S26，在HMM中每个字发音音素最后加入拼音声调；

步骤S27，根据强度设定要求进行指定次数训练。