CN101281745A

CN101281745A - 一种车载语音交互系统

Info

Publication number: CN101281745A
Application number: CNA2008100673561A
Authority: CN
Inventors: 刘轶; 杨永胜
Original assignee: SHENGANG MANUFACTURE-LEARNING-RESEARCH BASE INDUSTRY DEVELOPMENT CENTER; SHENZHEN BEIKE RUISHENG TECHNOLOGY Co Ltd
Current assignee: SHENGANG MANUFACTURE-LEARNING-RESEARCH BASE INDUSTRY DEVELOPMENT CENTER; SHENZHEN BEIKE RUISHENG TECHNOLOGY Co Ltd
Priority date: 2008-05-23
Filing date: 2008-05-23
Publication date: 2008-10-08
Anticipated expiration: 2028-05-23
Also published as: CN101281745B; WO2009140884A1

Abstract

本发明公开了一种车载语音交互系统，包括语音采集模块、语音识别核心模块和语音反馈模块，所述语音识别核心模块包括声学模型和发音字典模块、上下文不相关文法模块，以及路径搜索模块，所述声学模型和发音字典模块用于根据统计算法建立一套对应于口音等变化特点的映射对应表；所述上下文不相关文法模块，用于构建待识别的自然连续语音的文法和规则结构；所述路径搜索模块用于对计算量最大的观察概率计算部分进行近似简化。本发明实现用自然语音(包括命令短语、连接词和具有一定规则的连续语音)对车载信息系统的控制和操作，提高了驾车的安全性能并实现了车载信息系统中与汽车安全行驶和动力性能无关的智能人机交互。

Description

一种车载语音交互系统

【技术领域】

本发明涉及语音识别技术领域，尤其涉及一种车载语音交互系统。

【背景技术】

随着汽车电子技术的飞速发展，车载信息娱乐和信息通讯系统正逐渐成为汽车厂商追捧的热点。车载信息娱乐和信息通讯系统是为了给汽车提供更多的娱乐、通信及移动办公功能，它和汽车本身的安全、动力性能并无直接关系，包括车载通讯系统、电子导航系统(GPS，Global Positioning System)、智能交通系统、车载网络、汽车音响系统(车载MP3)、车载电视娱乐系统(车载DVD)等等。

语音交互技术在这些系统扮演着十分重要的角色，语音交互技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令，实现人与机器的交流。在车载信息娱乐和信息通讯系统中，采用语音交互技术利用语音代替手操作具有安全、方便等优点。

1、车载信息娱乐和信息通讯系统的语音控制和交互：对于汽车环境中的移动终端用户，基于开车时安全性和便捷性的要求，语音控制取代手操作无疑最佳的解决方案。语音控制发出各种质量开启、修改或关闭信息娱乐和信息通讯系统，语音控制检索信息娱乐和信息通讯系统的多媒体内容，如歌曲、视频、电视节目、导航指令、导航地名等等。

2、车载信息娱乐和信息通讯系统中的语音“免提”通讯：通过语音命令接通手机或其他车载通信设备，建立通信链接后，采用免提通话方式，整个过程避免手的复杂操作，同时不需要眼睛离开路面，无疑是最为安全、快捷、方便的车载通信方式。

3、GPS导航系统的自然语音输入地名查询、人机交互等功能：随着城市道路地方和人员流动性不断增加，GPS导航技术成为驾车人士的必备之物。特别是驾车到陌生的大中城市，GPS导航更成为到达目的地的必备依赖设备。采用语音输入地名，并且分层人机交互，最终确定目的地将极大的方便GPS的使用，同时可以达到在开车过程中随时确定和修改目的地。

但是，由于每个用户的口音各不相同，并且实际车载环境较为复杂，要提高车载语音交互的识别率和识别内容，提高其在实际车载环境下工作的性能，需要提高车载系统的运算能力。另一方面，基于汽车电子中微处理芯片的硬件资源是有限的，其芯片的运算能力非常有限，一般只有100MIPS，且不支持浮点运算；另外芯片的存储空间也很小，一般为128KByte的ROM和32KByte的RAM。这就导致目前的车载声控产品的功能单一，语音识别率低，识别内容少而简单，在实际车载环境工作的性能差。

【发明内容】

本发明的目的是提供一种车载语音交互系统，以达到在复杂真实的车载环境下，在硬件资源有限的嵌入式平台上实现高性能语音交互引擎，以智能人机交互为核心，实现用自然语音方便地控制与汽车安全行驶无关的车载信息系统模块。

为达到上述目的，本发明提出以下的技术方案：

一种车载语音交互系统，包括语音采集模块，用于采集模拟语音信号，并转换成数字语音信号；语音识别核心模块，用于对输入的数字语音信号进行概率计算和搜索匹配，得到语音识别结果；语音反馈模块，用于将所述语音识别结果以文本或语音的方式与用户交互；

所述语音识别核心模块包括声学模型和发音字典模块、上下文不相关文法CFG模块，以及路径搜索模块，所述声学模型和发音字典模块用于根据统计算法建立一套对应于口音等变化特点的映射对应表；所述上下文不相关文法CFG模块，用于构建待识别的自然连续语音的文法和规则结构；所述路径搜索模块用于对计算量最大的观察概率计算部分进行近似简化。

其中，在所述声学模型和发音字典模块中：根据统计算法建立一套对应于口音等变化特点的映射对应表；上下文相关和上下文不相关的单元混合使用，并采用有效的自适应和平滑算法；对声学模型建立和发音字典生成采用离线生成的方式，对传统的声学单元进行分类处理；

上下文不相关文法CFG模块，用于构建待识别的自然连续语音的文法和规则结构；所述CFG模块包括规则单元和子规则单元，通过使用正则表达式语言来描述自然语言；

在所述路径搜索模块中：采用概率动态剪枝的方法进行路径搜索识别，对设计路径动态扩展算法和/或多高斯分布近似简化成单高斯计算进行近似简化；根据芯片硬件条件和计算能力，在搜索识别过程中采用改进的动态丢帧以及高斯分布有选择计算的算法。

优选地，所述语音核心模块还包括：

噪声模型模块，通过相关的录音设备，在实际的车载环境下采集数据样本，对所述数据样本进行处理和参数提取，采用概率统计模型的方法构建车载环境噪声模型。

优选地，所述语音核心模块还包括口音处理模块，从训练数据和样本中，利用统计方法得出适应口音处理的模型，并结合声学模型进行重建：

基于口音和发音特点的变化，建立辅助决策树声学聚类模型，通过辅助树中参数信息描述实际语音中各种变化的特征，再通过声学模型重建，将该特征通过高斯分布和声学参数引入；

基于统计的数据驱动方法找出训练数据中的发音变异映射，并利用置信度测量对其过滤；

对语音层发音变异混淆度度量，用非对称距离度量准则对声学层发音变异混淆度度量，根据声学层和语音层混淆度高低的分类信息，在语音识别系统中建立选择性多发音字典和采用声学模型重建的发法处理多口音和混合口音中的发音变异。

优选地，还包括：

语音激活检测模块，用于判断是否为有效的语音或音频输入信号，并判断是否启动语音识别引擎。

优选地，还包括：

语音信号定点处理模块，用于对语音信号进行定点处理，大幅度降低计算消耗；

语音参数提取及降维处理模块，用于对语音参数在保证充分的语音信息的情况下，采用LDA方法对多维参数进行压缩，同时结合汉语的特点，维持声调维的信息。

优选地，还包括：实时语音端点检测模块，用于对语音、噪声、非正常语音等输入响应的动态判断；对语音信号的进行非平均分帧处理和分帧计算；动态阈值设定和调整。

优选地，还包括：抗噪声模块，与所述噪声模型模块结合，采用语音增强算法，在时域和频域对语音信号进行预处理，利用自适应算法和归一化算法对语音识别的声学模型进行噪声处理，同时采用区分性训练和混合训练相结合的方法进行抗噪声处理。

优选地，还包括：拒识别模块，用于对相关的语音控制命令或定义的词汇/短语进行识别，对无关的语音进行拒识别，所述无关语音包括音乐声、人群谈话声和环境噪声；声学模型和垃圾模型的建立、训练、区分以及在识别过程中概率比较；语音输入分帧处理技术，对每一帧语音输入进行识别/拒识别判断，并累积概率。

优选地，还包括：识别结果处理模块，用于按照需要对识别结果进行处理，结合自然语言理解技术，对不同用户不同的语音输入方法进行自动理解，自然归类及模糊匹配技术。

从以上技术方案可以看出，在本发明技术方案中，面对芯片有限的计算能力和存储空间，在嵌入式语音识别系统中，简化语音参数的维数并做压缩处理，采用动态帧间重叠方式对语音输入进行分帧处理；对声学模型建立和发音字典生成采用离线生成的方式，同时，对传统的声学单元进行分类处理，达到识别率和识别速度以及存储单元大小的一个平衡；对最关键的路径搜索识别方法采用概率动态剪枝的方法，同时对计算量最大的观察概率计算部分进行近似简化，包括设计路径动态扩展算法，多高斯分布近似简化成单高斯计算等。同时，根据芯片硬件条件和计算能力，在搜索识别过程中采用改进的动态丢帧以及高斯分布有选择计算的算法，达到算法和芯片硬件条件相结合的平衡。

同时，高性能语音交互系统包括了独特的抗噪声模块和抗口音变化模块，可以在实际车载环境下，不同说话人特点和口音的情况下，仍能进行自然语音交互。

语音交互系统采用CFG文法结构的语音识别器，可以接受短语、命令、连接词、具有一定文法结构的连续语音，真正实现自然人机交互过程。在本发明的使用中，用户可以很方面的只使用语音交互系统模块完成对车载信息系统相关模块的控制和操作，不需要眼和手的参与。在汽车电子附加功能上，让用户充分感觉到以语音交互系统为核心构建的车载信息系统具有高智能、方便、安全、简单的现代高科技产品。用户可以在驾车的任何时间，在任何路况和环境的情况下，在无需眼和手操作的安全模式下，实现对车载信息系统和与安全驾驶无关的模块的高智能控制。

通过本发明摆脱了以往车载声控产品的功能单一，识别率低，识别内容少而简单，在实际车载环境工作性能差等致命缺点，实现了短语命令、连接词和自然语音输入的人机交互并具有初步的自然语言理解的能力，具有很好的抗各种车载噪声和不同用户口音的能力，可实时分层识别达到10000词字典大小的能力等。通过本发明完全摆脱了驾车时候操作控制汽车电子附件的危险性和避免了驾车时分心造成的事故危险性，降低交通事故。

【附图说明】

图1为本发明系统的基本结构框图；

图2为本发明系统优选实施例的结构框图。

【具体实施方式】

下面结合具体的实施例对本发明的技术方案进行详细描述。本发明系统主要包括离线部分和在线部分两部分，离线部分各个模块的主要功能是提供语音交互系统工作所必需的资源，保证语音交互系统在实际车载环境情况和不同的用户使用过程中能够正常工作。在线模块主要完成语音处理和识别。语音识别的结果根据不同的需要可以反馈用户或作为输出的标志控制相关的车载信息系统模块。

本发明提供一种车载语音交互系统，如图1所示，一种车载语音交互系统，包括语音采集模块，用于采集模拟语音信号，并转换成数字语音信号；语音识别核心模块，用于对输入的数字语音信号进行概率计算和搜索匹配，得到语音识别结果；语音反馈模块，用于将所述语音识别结果以文本或语音的方式与用户交互；

所述语音识别核心模块包括声学模型和发音字典模块、上下文不相关文法(Context-Free-Grammar，CFG)模块，以及路径搜索模块，所述声学模型和发音字典模块用于根据统计算法建立一套对应于口音等变化特点的映射对应表；所述上下文不相关文法CFG模块，用于构建待识别的自然连续语音的文法和规则结构；所述路径搜索模块用于对计算量最大的观察概率计算部分进行近似简化。

在所述声学模型和发音字典模块中：根据统计算法建立一套对应于口音等变化特点的映射对应表；上下文相关和上下文不相关的单元混合使用，并采用有效的自适应和平滑算法以降低数据稀疏的问题；对声学模型建立和发音字典生成采用离线生成的方式，对传统的声学单元进行分类处理；

所述上下文不相关文法模块用于构建待识别的自然连续语音的文法和规则结构；所述CFG模块包括规则单元和子规则单元，通过使用正则表达式语言来描述自然语言；

对于声学模型模块，声学模型是具有鲁棒性的声学模型。多高斯分布的Triphone语音声学模型的调整和重建。目前最先进的基于Triphone模型和连续隐马尔可夫模型的语音识别方法，不能全部覆盖实际用户不同发音特点和口音等造成的复杂发音变化。特别是在进行数据聚类时，一方面造成Triphone模型中大量的高斯分布的效率低下甚至成为冗余参数，另外一方面，相当多的混合发音模式无法用相关的参数进行表示，声学模型的分辨率大幅度下降，从而引起识别器无法给出正确的概率分，造成识别错误。为解决此问题，建立鲁棒性的声学模型采用的方法是：

1、通过统计算法和计算语言学知识，建立一套对应于口音等变化特点的判断规则。

2、上下文相关和上下文不相关的单元混合使用，并采用有效的自适应和平滑算法以降低数据稀疏的问题。

对于发音字典模块，发音字典采用基于决策树结构的多发音概率字典。基于嵌入硬件条件，采用离线生成的方式，同时，对传统的声学单元进行分类处理，达到识别率和识别速度以及存储单元大小的一个平衡。

对于所述语音核心模块：上下文不相关文法(CFG)模块，用于构建待识别的自然连续语音的文法和规则结构；所述CFG模块包括规则单元和子规则单元，通过使用正则表达式语言来描述自然语言。

对于CFG模块：构建待识别的自然连续语音的文法和规则结构。典型的CFG文法由两部分组成：规则和子规则，一个CFG文法中可以没有子规则，但是必须存在规则的定义。规则可以引用子规划，一个子规则也可以被另外的子规则引用，但是不能出现递归引用的情况。这规则和子规则体中，通过使用类似“正则表达式”语言，描述自然语言。在实际应用中经常涉及语言的语义描述，例如：“香格里拉饭店”和“香格里拉大酒店”是一个概念，一个语音描述“一百二十六”，在计算机中，这个字符串本身不能进行数据的运算，包括大小比较等操作。通过语义操作可以把它转变为数字“126”，就可以进行相应的操作。为了方便这方面的处理，在CFG文法中包含了语义操作的功能。CFG文法构建的详细样例如下所示：

例一：

.Rule(_Sil Name:$V1_Sil{″$V1″:person})

Name([总经理 {王经文} 王经文王总 {王经文} 刘闪张前]))

子规则变量化处理也可以出现在子规则中，通过层次性的转递，最后返回到规则中。另外，在规则中，也可以采用下面的方法处理同一语义不同语言描述的问题，例如，在上面的例子中，“总经理”和“王总”都表示一个人“王经文”，可以在变化说法的后面直接给出代表的人名“{王经文}”。

例二：

语音交互系统支持以CFG(context-free-grammar)文法为原型语音识别器，根据设定的CFG文法和模板，支持自然语音输入能力，包括连接词和具有一定文法结构的连续语音。同时采用自然语言理解技术，具有初步理解功能。如理解“南山科技园附近的湘菜馆”的真实用户命令要求(即“附近”的含义)。

语音交互系统还支持单一命令中中英文双语混合的短语和GPS地名识别及人名语音识别功能(如打开CD，Sigma大厦)。中文命令，英文命令和中英文双语混合命令可以同时存在于同一命令集合。

核心算法采用协同设计并与芯片硬件条件相结合的方法

嵌入式语音识别系统核心主要由四大部分组成，参数提取，声学模型建立，发音字典生成和路径搜索识别。在本项目中，语音识别核心算法采用目前世界上最流行最常用的基于隐马尔可夫模型统计算法，基于汽车电子中微处理芯片的有限硬件资源，如CPU运算速度，RAM和ROM的存储单元大小，采用协同设计的方法，对核心组件的四大模块进行移植和优化。由于芯片的运算能力非常有限(如只有100MIPS，PC的CPU为3GHz)，芯片的运算能力不到PC的1/30，并且不支持浮点运算等；芯片的存储空间很小(如为128KByte的ROM和32KByte的RAM，PC一般为512M/1G RAM，硬盘空间相当于芯片的ROM，可高达500G)。

面对芯片有限的计算能力和存储空间，在嵌入式语音识别系统中，简化语音参数的维数并做压缩处理，采用动态帧间重叠方式对语音输入进行分帧处理；

对声学模型建立和发音字典生成采用离线生成的方式，同时，对传统的声学单元进行分类处理，达到识别率和识别速度以及存储单元大小的一个平衡；

对最关键的路径搜索识别方法采用概率动态剪枝的方法，同时对计算量最大的观察概率计算部分进行近似简化，包括设计路径动态扩展算法，多高斯分布近似简化成单高斯计算等。

同时，根据芯片硬件条件和计算能力，在搜索识别过程中采用改进的动态丢帧(Frame Dropping)以及高斯分布有选择计算(Gaussian Selection)的算法，达到算法和芯片硬件条件相结合的平衡。

系统软件工程实现坚持效率优先，核心模块通用化的原则

为提高语音识别系统的效率，程序采用模块化设计，并以标准C语言书写为主，汇编语言为辅的原则。对于运算量大并会反复调用的部分，例如语音识别的参数提取模块中的频域特征计算和抽取，路径搜索识别模块中的观察概率的计算，结合芯片硬件的特点，用汇编完成，并给出通用的调用函数接口，集成到标准C程序中。在工程实现中，基于效率优先的准则，对系统的计算进行优化，同时采用存储单元复用技术实现在芯片有限存储空间上保存足够的声学信息，发音信息及其他资源信息。本着效率优先的原则，嵌入式语音识别系统采用先进的实时处理技术(基于硬件条件限制，目前很多嵌入式识别系统只能做到语音输入完后才能开始进行识别)。本系统采用语音信号分帧计算，以及采用动态丢帧(Frame Dropping)以及动态阈值调整进行端点检测的方法，对输入语音进行实时计算，大大提高了识别效率和识别速度。另外，嵌入式语音识别的核心采用模块化的设计思想和通用接口调用技术，实现通用化，以及灵活和可扩展的体系结构。

语音识别核心模块。综合以上不同流程和模块，包括离线生成的各种资源模型，如噪声模型，声学模型，CFG文法，发音字典和口音处理模型等，联合拒识别模块和输入的语音参数，对其进行概率计算，得到语音识别结果。对最关键的路径搜索识别方法采用概率动态剪枝的方法，同时对计算量最大的观察概率计算部分进行近似简化，包括设计路径动态扩展算法，多高斯分布近似简化成单高斯计算等。同时，根据芯片硬件条件和计算能力，在搜索识别过程中采用改进的动态丢帧(Frame Dropping)以及高斯分布有选择计算(GaussianSelection)的算法，达到算法和芯片硬件条件相结合的平衡。

如图2所示，在较优的实施例中，本发明系统的语音识别核心模块还包括噪声模型模块，通过相关的录音设备，在实际的车载环境下采集数据样本，对所述数据样本进行处理和参数提取，采用概率统计模型的方法构建车载环境噪声模型。

对于噪声模型模块，其是适用于车载环境的噪声模型。噪声模型采用统计的方法构建。通过相关的录音设备，在实际的车载环境下采集大量的数据样本，包括各种真实的车载环境和车载信息系统使用环境，如高速公路/市区等不同时速，100公里，80公里，60公里，40公里及以下；不同路况，高速公路路况，市区路况等；车内不同情况，不同背景声音，车内只有发动机及汽车驾驶声音，音乐背景声音，不同人员等；汽车窗户不同状态等，完全封闭，一般及大部分摇下等情况。通过对数据的处理和参数提取，并采用概率统计模型的方法构建车载环境噪声模型，应用于语音识别时的抗噪声处理。

在较优的实施例中，本发明系统的语音识别核心模块还包括口音处理模块，从训练数据和样本中，利用统计方法得出适应口音处理的模型，并结合声学模型进行重建：

对于口音处理模块：口音处理采用概率统计方法，即从训练数据和样本中，利用统计方法得出适应口音处理的模型，并结合声学模型进行重建。如基于口音和发音特点的变化，建立辅助决策树声学聚类模型，通过辅助树中参数信息描述实际语音中各种变化的特征，再通过声学模型重建，将该特征通过高斯分布和声学参数引入。基于统计的数据驱动方法找出训练数据中的发音变异映射，并利用置信度测量对其过滤。采用log likelihood ratio test准则对语音层发音变异混淆度度量，用非对称距离度量准则对声学层发音变异混淆度度量。根据声学层和语音层混淆度高低的分类信息，在语音识别系统中建立选择性多发音字典和采用声学模型重建的发法处理多口音和混合口音中的发音变异。

语音交互系统具有特制的口音处理模块。采用单一识别引擎能同时接受带多种口音和普通话输入对带有口音的语音输入自动进行口音自适应，对于混合口音等，识别率无显著降低，不超过5％

离线处理部分的工作流程为：

A、训练声学模型

对收集到的大量语音先进性内容标注，然后提取隐马可夫模型(HMM)参数，为语音和噪声分别建立一个HMM数学统计模型。

B、编译CFG文法

根据CFG文法规则编写好的文法文件，可以经由的CFG文法编译器，生成一个二进制的CFG文法文件，供在线处理模块进行语音识别之用。

工作环境：

用户人数：无限；

识别技术：基于隐马尔可夫模型的嵌入式非特定人语音识别；

识别芯片处理能力要求：200MIPS或以上

ROM：2M字节或以上

RAM：1M字节或以上

使用电压：外置电源直流5伏，内置电源3.7伏

功率：不超过600毫瓦

识别速度：1秒内；

识别效果：识别准确率95％以上

使用距离：0.5米到1米

使用环境：安静或带有车内关窗时的噪声环境

以上是离线部分的模块，下面介绍在线部分的模块。

一、语音输入和输出模块：录音模块用于采集人声和外界环境声音的模拟语音信号，并且通过AD转换器转换成数字语音信号，供语音识别引擎进行处理。放音模块用于将各种数字语音信号转换成模拟语音信号，经过放大后输出到喇叭，反馈给用户。实现驾车时，无需用手，通过自然语音控制汽车电子产品，以及通过语音播报，给出电子产品的反馈(如包括短信等)。

二、语音激活检测模块，用于判断是否为有效的语音或音频输入信号，并判断是否启动语音识别引擎。

三、语音信号定点处理模块和语音参数提取及降维处理模块。语音信号定点处理模块用于对语音信号进行定点处理，大幅度降低计算消耗：基于嵌入式平台有限的计算和处理能力，必须对语音信号进行定点处理，大幅度降低计算消耗以达到识别率和识别速度的平衡。

语音参数提取及降维处理模块，用于对语音参数在保证充分的语音信息的情况下，采用LDA方法对多维参数进行压缩，同时结合汉语的特点，维持声调维的信息：语音参数提取及嵌入式资源环境下降维处理。基于嵌入车载硬件条件的限制，对语音参数在保证充分的语音信息的情况下，采用LDA方法对多维参数进行压缩，同时结合汉语的特点，保留声调维的信息不压缩。

四、实时语音端点检测模块，用于对语音、噪声、非正常语音等输入响应的动态判断；对语音信号的进行非平均分帧处理和分帧计算；动态阈值设定和调整。实时语音端点检测和处理技术。动态语音端点检测技术，包括对语音、噪声、非正常语音等输入响应的动态判断；语音信号的非平均分帧处理和分帧计算技术，包括帧间重叠及实时计算技术；动态阈值设定和调整，避免冲击信号的误触发以及无关信号的干扰，提高系统的抗噪性能。

五、抗噪声模块，与所述噪声模型模块结合，针对实际车载噪声的特点，采用语音增强算法，在时域和频域对语音信号进行预处理，利用自适应算法和归一化算法对语音识别的声学模型进行噪声处理，同时采用区分性训练和混合训练相结合的方法进行抗噪声处理。

抗噪声处理。结合离线处理部分完成的车载环境噪声模型，针对实际车载噪声的特点，采用语音增强算法，在时域和频域对语音信号进行预处理，去除噪声利用自适应算法和归一化算法对语音识别的声学模型进行处理，增加声学模型的鲁棒性和抗噪声能力，同时采用区分性训练和混合训练相结合的方法进行抗噪声处理。实际车载环境下(如高速公路/市区等不同时速，100公里，80公里，60公里，40公里及以下；不同路况，高速公路路况，市区路况等；车内不同情况，不同背景声音，车内只有发动机及汽车驾驶声音，音乐背景声音，不同人员等；汽车窗户不同状态等，完全封闭，一般及大部分摇下；)，车载环境下高性能的自适应麦克风阵列、自适应回声消除、混响抑制算法以及整合以上算法和语音识别交互系统；车载环境下的自适应回声消除：回声抑制增益达到20dB。

六、拒识别模块，用于对相关的语音控制命令或定义的词汇/短语进行识别，对无关的语音进行拒识别，所述无关语音包括音乐声、人群谈话声和环境噪声；声学模型和垃圾模型的建立、训练、区分以及在识别过程中概率比较；语音输入分帧处理技术，对每一帧语音输入进行识别/拒识别判断，并累积概率。

语音交互系统具有智能拒绝功能。对不相关的语音输入，噪声输入，无关的命令等能够拒绝，不进行识别或提示用户输入正确语音。正确拒绝率超过90％；拒识别模块。只对相关的语音控制命令或定义的词汇/短语进行识别，对无关的语音进行拒识别。无关语音包括各种垃圾声音(如音乐声，人群谈话声，环境噪声)等；声学模型和垃圾模型的建立、训练、区分以及在识别过程中概率比较；语音输入分帧处理技术，对每一帧语音输入进行识别/拒识别判断，并累积概率。

七、识别结果处理模块，用于按照需要对识别结果进行处理，结合自然语言理解技术，对不同用户不同的语音输入方法进行自动理解，自然归类及模糊匹配技术。识别结果处理模块。按照需要，对识别结果进行不同的处理。同时结合自然语言理解技术，对不同用户不同的语音输入方法(即对每一个目标命令或连续语音)，进行自动理解，并自然归类。如“南山医院”，“南山区人民医院”，“南山区医院”“深圳市南山区人民医院”，“南山的医院”等是具有同一概念的地名。

八、接口模块：嵌入式语音交互系统的模块化设计以及与其他模块的有机结合。系统的模块化设计。不同模块间的通讯和互相调用方法；接口连接，中断控制，多外围接口设计和集成，控制单元和存储单元的协同工作。

在线处理部分的工作流程为：

每接收到一帧语音数据之后，就启动语音处理模块，先进行抗噪声处理，利用反相波抵消原理进行降噪处理，然后将降噪后的语音送入参数提取模块，计算得到39维语音参数，再通过LDA降维处理，将维数降低至16-20维。根据离线训练的声学模型和噪声模型的参数以及指定的CFG文法，语音识别的核心模块对16-20维的语音参数进行概率运算，得到一个候选结果列表。拒识别模块对这个候选结果列表进行评分，最后得到一个按分数从高到低排序的候选结果列表，如果拒识别模块判定该条语音为噪音或者非法命令，则返回语音被拒绝的结果，否则，语音识别引擎从其中选出分数最高的若干个结果，反馈给系统接口模块，系统接口模块使用文字或语音提示的方式将结果呈现给用户进行确认。

系统对用户确认的结果，通过硬件接口控制各种GPS、蓝牙、音视频播放模块、移动电话、移动电视等外部设备。

模块化设计与实现

软硬件部分全部采用模块化设计，硬件部分包括：

CPU控制和存储模块：CPU处理器是嵌入式系统的核心器件，用于运行控制程序和语音识别引擎。系统上电后，CPU处理器就从存储模块中读取程序指令，根据特定的流程进行运行。

录音放音模块：录音模块用于采集人声和外界环境声音的模拟语音信号，并且通过AD转换器转换成数字语音信号，供语音识别引擎进行处理。放音模块用于将各种数字语音信号转换成模拟语音信号，经过放大后输出到喇叭，反馈给用户。实现驾车时，无需用手，通过自然语音控制汽车电子产品，以及通过语音播报，给出电子产品的反馈(如包括短信等)。

通讯模块：通讯模块用于嵌入式系统和其他外部电子设备进行通讯，使多个电子设备连接成一个网络，以蓝牙模块微核心，协同工作。

外设接口模块：外设接口模块，用于控制各种外部设备，比如马达，LED发光管等，使嵌入式系统具备灵活的控制功能。

嵌入式语音识别引擎：嵌入式语音识别引擎是软件部分的核心模块，它对录音模块提供的数字语音信号进行声学特征提取，通过语音识别算法与声学模型进行比较运算，选取最优的识别结果。嵌入式语音识别引擎针对不同的CPU处理器进行算法优化，能够实时运行在各种低端低成本的芯片上。

控制程序：控制程序用于控制嵌入式系统的任务调度和命令控制。

硬件设备驱动程序：硬件设备驱动程序为各个硬件模块提供统一的驱动支持，降低开发维护成本。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1、一种车载语音交互系统，包括语音采集模块，用于采集模拟语音信号，并转换成数字语音信号；语音识别核心模块，用于对输入的数字语音信号进行概率计算和搜索匹配，得到语音识别结果；语音反馈模块，用于将所述语音识别结果以文本或语音的方式与用户交互，其特征在于：

所述语音识别核心模块包括声学模型和发音字典模块、上下文不相关文法CFG模块，以及路径搜索模块，所述声学模型和发音字典模块用于根据统计算法建立一套对应于口音等变化特点的映射对应表；所述CFG模块用于构建待识别的自然连续语音的文法和规则结构；所述路径搜索模块用于对计算量最大的观察概率计算部分进行近似简化。

2、根据权利要求1所述的一种车载语音交互系统，其特征在于：

在所述声学模型和发音字典模块中：根据统计算法建立一套对应于口音等变化特点的映射对应表；上下文相关和上下文不相关的单元混合使用，并采用有效的自适应和平滑算法；对声学模型建立和发音字典生成采用离线生成的方式，对传统的声学单元进行分类处理；

3、根据权利要求2所述的一种车载语音交互系统，其特征在于，所述语音核心模块还包括：

4、根据权利要求2所述的一种车载语音交互系统，其特征在于，所述语音核心模块还包括口音处理模块，从训练数据和样本中，利用统计方法得出适应口音处理的模型，并结合声学模型进行重建：

5、根据权利要求1～4中任一项所述的一种车载语音交互系统，其特征在于，还包括：

6、根据权利要求1～4中任一项所述的一种车载语音交互系统，其特征在于，还包括：

7、根据权利要求1～4中任一项所述的一种车载语音交互系统，其特征在于，还包括：

实时语音端点检测模块，用于对语音、噪声、非正常语音等输入响应的动态判断；对语音信号的进行非平均分帧处理和分帧计算；动态阈值设定和调整。

8、根据权利要求7中任一项所述的一种车载语音交互系统，其特征在于，还包括：

抗噪声模块，与所述噪声模型模块结合，采用语音增强算法，在时域和频域对语音信号进行预处理，利用自适应算法和归一化算法对语音识别的声学模型进行噪声处理，同时采用区分性训练和混合训练相结合的方法进行抗噪声处理。

9、根据权利要求8中任一项所述的一种车载语音交互系统，其特征在于，还包括：

拒识别模块，用于对相关的语音控制命令或定义的词汇/短语进行识别，对无关的语音进行拒识别，所述无关语音包括音乐声、人群谈话声和环境噪声；声学模型和垃圾模型的建立、训练、区分以及在识别过程中概率比较；语音输入分帧处理技术，对每一帧语音输入进行识别/拒识别判断，并累积概率。

10、根据权利要求9中任一项所述的一种车载语音交互系统，其特征在于，还包括：

识别结果处理模块，用于按照需要对识别结果进行处理，结合自然语言理解技术，对不同用户不同的语音输入方法进行自动理解，自然归类及模糊匹配技术。