CN101256769A

CN101256769A - 语音识别装置及其方法

Info

Publication number: CN101256769A
Application number: CNA2008100269309A
Authority: CN
Inventors: 管桂宝
Original assignee: GUANGZHOU HANYIN ELECTRONIC TECHNOLOGY Co Ltd
Current assignee: GUANGZHOU HANYIN ELECTRONIC TECHNOLOGY Co Ltd
Priority date: 2008-03-21
Filing date: 2008-03-21
Publication date: 2008-09-03
Anticipated expiration: 2028-03-21
Also published as: CN101256769B

Abstract

本发明公开了一种语音识别装置，包括接收待识别的用户语音的语音接收单元；对所述待识别的用户语音分别进行相似性、相异性识别处理后，获取与所述用户语音对应的识别结果的识别处理单元；以及输出所述识别结果的输出单元。另外，还公开了一种语音识别方法。采用本发明提高了语音识别的成功率，减轻了语音识别的运算负荷。

Description

语音识别装置及其方法

技术领域

本发明涉及语音识别领域，特别涉及一种语音识别装置及其识别方法。

背景技术

随着科学技术日新月异的发展与层出不穷的创新，越来越多的新型智能化电子设备不断涌现于世。因其不仅能够实现轻松办公的目的，而且具有简化工作流程，减轻工作负荷，提高工作效率，节省人力成本，操作简便快捷等诸多优越性，因此这些新型智能化电子设备被广泛应用于各行各业，倍受人们关注和青睐，而语音识别设备便是这些新型智能化电子设备之一典型代表。

目前，语音识别设备从声学上分析基于使用者所发出的声音而产生语音输入信号，然后将该语音输入信号与先前准备好的词模型的多个候选者比较，以计算相应的声学似然性(即相似性)，确定具有最高声学似然性的候选者(以下称为“第一候选者”)为识别结果。当第一候选者不具有足够高的识别可靠性时，判断没有正确的识别结果存在，用“请再说一次”的语音消息执行回话操作，提示用户再发声，进行再次的识别处理，但当使用者再次发声时，仍利用与先前所使用的相同候选者进行再次的识别处理，因此，获得与先前相同的识别结果，所以再发声的识别率不能被显著提高。

另外，由于上述语音识别设备在实际应用过程中需要预先存储大量的候选词模型，而当候选词模型库大到一定程度时会导致语音识别设备挑选出很多相似或相近的候选者，如此一来很容易造成由于候选者的多个相似而导致识别的最终结果出现很大误差，并且当候选词模型库足够大时整个程序的遍历时间长度会显著增加，由此使得整个语音识别设备无法真正得到实际应用。

发明内容

本发明解决的技术问题是语音识别装置及其识别方法，由于提供了相似相异性的比较，从而提高了识别的成功率，而且根据不同的设备所使用的场合和目的的不同，提供针对性的目标库，减少了不必要的运算提高了可用性。

为解决上述问题，本发明提供一种语音识别装置，该装置主要包括：

语音接收单元，用于接收待识别的用户语音；

识别处理单元，用于对所述待识别的用户语音分别进行相似性、相异性识别处理后，获取与所述用户语音对应的识别结果；

输出单元，用于输出所述识别结果。

所述的识别处理单元具体包括：

第一语音识别单元，用于将用户语言的格式文件与已存储预设语音的格式文件进行相似性比较，得到与所述用户语音相似的预设语音的格式文件；

第二语音识别单元，用于接收所述的相似的预设语音格式文件以及用户语音文件格式文件，并将所述用户语音格式文件与所述相似的预设语音格式文件进行相异性比较，获取两者相异度值，即准成功值；

准成功值按照由低到高进行升序排列，经过相似性对比和相异性对比后所得的准成功值，如无近似语音的存在的情况下，则准成功值的最低值为用户语应的对应值；如在预设语音有近似目标存在的情况下，针对不同的环境、使用概率进行加权处理后，准确率会更高。

加权处理单元，对第二语音识别单元得出的准成功值与加权变量进行叠加，并得出成功值。

第一语音处理单元进行相似性比较后得出相应的比较结果，该比较结果为一组格式文件，并按照相似度由高到低进行降序排列。

第二语音处理单元进行相异性比较后会得出相应的比较结果，该比较结果为一组数值——准成功值，并按照相异度由低到高进行升序排列。

在加权处理单元内预设有一加权变量，该加权变量依据语词的常用度、使用频率等通过算法得出，且该加权变量在执行每次识别任务过程中依所述语音接收装置接收到的使用者发出的语音信号的不同而不断变化。

当准成功加权处理单元接收到由语音识别单元II传送来的一组准成功值后，将每个准成功值与准成功加权值单元内预设的加权变量进行叠加，计算出最终的成功值，并按照成功值由高到低进行降序排列。

另外，还包括，一目标库，即语音识别装置进行比较的所有预设语音的集合，所述目标库为有限的词和/或短语；字、词的集合；字、词、短句的集合。且为所述相似性、相异性比较识别提供比较对象。本发明所指的目标库不是所有字、词的集合，是对特定的使用环境以及使用目的而设定的，其数量有限且具有很强的针对性，是有限且所述的目标库中的目标语言为字、词、短语和其之间的结合，从而省略对非关键词句的判断，提高了可用性。用户可以将希望进行比较识别的所有目标输入其中。该目标库可以由任何一个非特定使用者进行定义操作而无需专业人员进行，可以依据用户的需要随时设置随时更新，也可以依据用户的需要随时删除一些不需要的目标，由此确定进行识别比较的目标范围，有针对性的进行识别，从而减轻了语音识别的运算负荷，提高了语音识别的成功率。

另外，还包括，语音转换处理单元，转换用户语音的格式，并在保存所述转换格式的用户语音后发送给所述识别处理单元，可用于在所述语音接收单元之后，识别处理单元之前；

语音逆转处理单元，用于转换预设语音的格式，并保存所述转换格式的预设语音。

另外，所述语音逆转处理单元具体包括：

一语库，用于存储大量的字词及短语，为所述预设语音提供格式转换的依据；

逆转器，用于根据所述语库转换预设语音文件的格式；

第二存储器，用于存储所述格式转换后的预设语音文件。

所述语音转换处理单元具体包括：

转换器，用于将接收到的用户语音信息的格式转换为与所述预设语音对应的格式；

第一存储器，用于保存格式转换的用户语音信息，并发送所述用户语音。

第一存储器与第二存储器的作用相同，也可以合并为一个存储器。

另外，所述的识别处理单元具体包括：

第一语音识别单元，用于接收来自第一存储器的用户语音，将所述用户语音与第二存储器中的目标语音进行相似性比较，获取与所述用户语音相似的预设语音，并发送所述相似的预设语音以及用户语音；

第二语音识别单元，用于接收所述相似的预设语音以及用户语音，并将所述用户语音与所述相似的预设语音进行相异性比较，获取相似预设语音的相异度值，并以所述相异度值作为准成功值与预设的阈值进行比较，若所述准成功值小于或等于预设的阈值，则以所述预设语音作为与用户语音对应的目标语音，否则，指示第一、第二语音识别单元重新进行比较识别，直到比较识别的准成功值小于或等于所述预设阈值为止。设定阈值，可使得识别比较更加有效和快速。

相应地，本发明还提供一种语音识别方法，该方法包括：

a、接收待识别的用户语音；

b、对所述待识别的用户语音分别进行相似性、相异性识别处理后，获取与所述用户语音对应的识别结果；

c、输出所述识别结果。

其中，在步骤a之前还包括：为所述相似性、相异性比较识别预设比较对象，所述比较对象为包括有限的词和/或短语的预设语音格式文件。

其中，在步骤a之后，步骤b之前还包括：

转换用户语音的格式，并在将所述转换格式的用户语音保存到第一存储器中后发送；

根据预设语库中预设的字词及短语转换预设语音的格式，转换格式的预设语音保存到第二存储器中。

其中，所述的b步骤具体包括：

b1、接收用户语音与预设语音进行相似性比较，获取与所述用户语音相似的预设语音，并发送所述相似的预设语音以及用户语音；

b2、接收所述相似的预设语音以及用户语音，并将所述用户语音与所述相似的预设语音进行相异性比较，获取相似语音的相异度值，并以所述相异度值作为准成功值；

将所述准成功值与预设的阈值进行比较，若所述准成功值小于或等于预设的阈值，则以所述预设语音作为与用户语音对应的目标语音；否则，返回步骤b1，直到比较识别的准成功值小于或等于所述预设阈值为止后执行b3；

b3、对得出的准成功值与加权变量进行叠加，并得出成功值。

相似性比较后得出相应的比较结果，该比较结果为一组格式文件，并按照相似度由高到低进行降序排列；

相异性比较后会得出相应的比较结果，该比较结果为一组数值——准成功值，并按照相异度由低到高进行升序排列。从原则上也明白，如两者相差的越小，就近似度越高，准确率也就越高。

预设有一加权变量，该加权变量依据语词的常用度、使用频率等通过算法得出，将每个准成功值与准成功加权值单元内预设的加权变量进行叠加，计算出最终的成功值，并按照成功值由高到低进行降序排列。

如无相近的干扰词汇的存在，则加权处理并非必要环节；加入加权计算会使得准确率更高。

其中，c步骤还具体包括：还原处理，预设有一对映还原表，用于接收准成功加权值单元传送来的成功值并还原为由使用者事先定义好的目标；以及

一输出装置，用于输出最高成功值所对映的目标；若出现两个最高成功值，则所述输出装置将默认输出第一个最高成功值所对映的目标。

在步骤a之前还包括：为所述相似性、相异性比较识别预设比较对象，所述比较对象为包括有限的词和/或短语；字、词的集合；字、词、短句的集合。

所述的步骤a之后，步骤b之前还包括：

与现有技术相比，本发明具有以下有益效果：

本发明的语音识别装置对所述待识别的用户语音分别进行相似性、相异性识别处理后，获取与所述用户语音对应的识别结果，提高了语音识别的成功率；另外，由用户在目标库中预设语音格式文件，所述预设语音为有限的词和/或短语，且为所述相似性、相异性比较识别提供比较对象，进行语音识别时，比较识别的目标范围限定在目标库内各预设语音文件范围内，因而极大地减轻了语音识别的运算负荷。

附图说明

图1是本发明语音识别装置的第一实施例示意图；

图2是发明语音识别装置的第二实施例示意图；

图3是本发明语音识别装置的语音转换处理单元与第一语音识别单元和第二语音识单元的相互关系示意图；

图4是本发明语音识别装置的语音逆转处理单元与第一语音识别单元和目标库的相互关系示意图。

具体实施方式

下面结合附图对本发明的优选实施例进行说明。

参考图1，该图为本发明语音识别装置的第一实施例示意图，其包括：语音接收单元11、识别处理单元12以及输出单元13；

具体实现时，首先，由语音接收单元11接收待识别的用户语音，然后，由识别处理单元12对所述待识别的用户语音分别进行相似性、相异性识别处理后，获取与所述用户语音对应的识别结果，最后，由输出单元13输出所述识别结果。

参考图2-4，该图为本发明语音识加装置的第二实施例示意图，该实施例中以用户语音信号为AA，目标库中的预设语音为文本格式文件(与后面的强调部分呼应)TA、TB、TC为例进行说明，其包括：目标库101，语音接收单元108，语音转换处理单元102，语音逆转处理单元103，第一语音识别单元104，第二语音识别单元105，加权处理单元106，还原处理单元107以及输出单元109。该语音识别装置能够接收用户语音信号AA并对该语音信号AA进行识别比较，进而输出与该语音信号AA相对应的文本信号TA。

具体说明如下：首先由使用者对目标库101进行定义，该目标库由使用者依据自身需要自由定义，使用者可以将希望语音识别装置进行比较识别的所有目标输入其中。该目标库101可以依据使用者的需要随时设置随时更新，也可以依据使用者的需要随时删除一些不需要的目标。当使用者发出语音信号a时，语音接收转换单元102会接收使用者发出的该语音信号，并将其转换为专用格式数字信号文件SDa；与此同时，语音逆转单元103会将目标库101中所有的目标文本文件TA、TB、TC等依据语音逆转单元103内预设的语库分别转换为专用格式文件SDA、SDB、SDC等。随后第一语音识别单元104将接收到的由语音逆转单元103及语音接收转换单元102分别传送来的专用格式文件进行相似性比较，得出一与SDa最为近似的专用格式文件SDA；紧接着第二语音识别单元105将接收到的由第一语音识别单元104及语音接收转换单元102分别传送来的专用格式文件进行相异性比较，并得出一准成功值xA，然后由准成功加权值单元106接收由第二语音识别单元105传送来的准成功值，并将其分别与准成功加权值单元内预设的加权变量yA进行对应叠加以得出最终的成功值zA。最后，由还原处理单元107接收由准成功加权值单元106传送来的成功值，并依据还原处理单元107内预设的对映还原表将成功值xA还原为由使用者事先定义好的目标库中存储的相对映的文本文件TA并输出该文本文件TA(即目标)。

语音转换处理单元102包括两部分：语音转换器301以及第一存储器302。当使用者发出语音信号AA时，语音接收单元108会自动接收使用者发出的该语音信号AA，然后将语音信号AA传送给语音转换器301。语音转换器301在接收到语音信号AA后会将该语音信号AA转换为专用格式数字信号SDA，并将转换后的专用格式数字信号SDA传送给第一存储器302。最后，通过第一存储器302将专用格式数字信号SDA分别传送给第一语音识别单元104和第二语音识别单元105以进行后续的识别比较处理。

该语音逆转处理单元也包括三个部分：语音逆转器401，语库402以及第二存储器403。所述语库中存储大量的字词及短语，用于在语音逆转器401对使用者已事先定义好的并存储于目标库402中的文本文件进行逆转换时提供切实可靠的逆转换依据。具体实现时，首先由语音逆转器401读取目标库内的所有预设语音文本文件，由此确定后续识别比较的范围。然后由语音逆转器401将预设语音文本文件依据语库402内对应的字词或短语分别逆转换为专用格式文件，随后语音逆转器401将这组经过逆转换后的专用格式文件传送给第二存储器403。

下面以用户语音为：a“苹果”，预设文本格式语音文件为：TA香蕉，TB苹果，TC桔子为例，对本发明语音识别装置进行语音识别的过程进行详细说明，同样参考图2-4：

当用户发出语音a“苹果”后，语音接收单元108接收该语音，并传送给语音转换处理单元102，由语音转换处理单元102将语音a“苹果”转换为专用格式文件SDa苹果，然后在将转换后的专用格式文件存储至第一存储器302内的同时将SDa苹果传送给第一语音识别单元104。

与此同时，语音逆转处理单元103将目标库中三个文本格式分别转换为专用格式文件SDA香蕉，SDB苹果，SDC桔子，然后将转换后的专用格式文件存储至第二存储器403中。

当第一语音识别单元104接收到由语音转换处理单元102传送来的专用格式文件SDa苹果后，即在语音逆转处理单元103内的第二存储器403中进行搜寻识别，将SDa苹果与各逆转的预设语音进行相似性比较，找出与SDa苹果最相似的专用格式文件SDB苹果，并将其输出到第二语音识别单元105。

第二语音识别单元105接收到语音转换处理单元102传送来的SDa苹果与第一语音识别单元104传送来的SDB苹果后，对这两者进行相异性比较，经比较得出一个相异度值即准成功值xB。

然后第二语音识别单元105再将准成功值xB与预设的阈值M进行比较，得出xB＜M或xB＝M，由此第二语音识别单元105发出命令，要求停止继续比较识别，随后将准成功值xB输出到加权处理单元106以计算成功值。

当加权处理单元接收到准成功值xB后会将xB与经计算得出的加权变量yB进行相应的叠加运算，从而得出成功值zB。

随后加权处理单元会将zB所对应的专用格式文件SDB苹果输出到还原处理单元，由还原处理单元将SDB苹果还原为目标库中的目标之一TB苹果，并输出该文本文件TB。

需要说明的，最终输出识别结果TB为文本文件，而不是预设语音，因为目标库中事先设定的目标是文本格式的。当然，若目标库中的目标为声音格式，则输出目标时为目标语音。所以，目标库中目标的表现形式多样，包括但不限于文本格式、声音格式，依据用户自身需要而设定。本发明在相似性相异性比较的过程中，所涉及的格式文件也不限于文本格式。另外，我们可以在输出目标文本文件TB之后加装一些装置，如发音装置，光电信号控制装置等等，这时目标文本文件TB也可以表现为语音“苹果”，还可以表现为灯泡点亮的光电信号，等等。

上述为在无干扰的情况下本发明语音识别装置进行语音识别的过程，下面对存在干扰的情况下本发明语音识别装置语音识别的过程进行说明，同样参考图2-4所示：

与此同时，语音逆转处理单元103将目标库中三个文本格式分别转换为专用格式文件SDA芒果，SDB苹果，SDC桔子，然后将转换后的专用格式文件存储至第二存储器403中。

当第一语音识别单元104接收到由语音转换处理单元102传送来的专用格式文件SDa苹果后，即在语音逆转处理单元103内的第二存储器403中进行搜寻识别，将SDa苹果与各逆转的预设语音进行相似性比较，找出与SDa苹果最相似的专用格式文件SDA芒果，并将其输出到第二语音识别单元105。

第二语音识别单元105接收到语音转换处理单元102传送来的SDa苹果与第一语音识别单元104传送来的SDA芒果后，对这两者进行相异性比较，经比较得出一个相异度值即准成功值xA。

然后第二语音识别单元105再将准成功值xA与预设的阈值M进行比较，得出xA＞M，于是第二语音识别单元105发出命令，要求继续进行下一轮比较识别，由此语音识别进入到由第一语音识别单元104进行下一轮相似性比较识别的过程。

第一语音识别单元104从语音转换处理单元102内的第一存储器中读取SDa苹果，然后将SDa苹果与语音逆转处理单元103内第二存储器中的各逆转目标进行相似性比较，找出第二个与SDa苹果最为相似的专用格式文件SDB苹果，并将其输出到第二语音识别单元105。

第二语音识别单元105从语音转换处理单元内的第一存储器中读取SDa苹果，然后将其与第一语音识别单元104传送来的SDB苹果进行相异性比较，经比较得出一个相异度值即准成功值xB。

然后第二语音识别单元105再将准成功值xB与预设的阈值M进行比较，得出xB＜M或xB＝M，由此第二语音识别单元发出命令，要求停止继续比较识别。随后第二语音识别单元105将准成功值xA与xB进行比较(xB＜xA)，并按照相异度由低到高进行排列并输出到加权处理单元106以计算成功值。

当加权处理单元106接收到准成功值xB与xA后，会将xB、xA分别与经计算得出的加权变量yB、yA进行相应的叠加运算，从而得出成功值zB与zA。接着再将zB与zA进行比较(zB＞zA)，并按照成功值由高到低进行排列。

随后加权处理单元会将最高成功值即zB所对应的专用格式文件SDB苹果输出到还原处理单元，由还原处理单元将SDB苹果还原为目标库中的目标之一TB苹果，并输出该文本文件TB。与实施例1相同，这里输出的是目标库中的目标文本文件TB，而不是直接输出目标内容所对应的语音，因为目标库中事先设定的目标是文本格式的。

与语音识别装置相对应的，本发明还提供一种语音识别方法，该方法包括：a、接收待识别的用户语音；b、对所述待识别的用户语音分别进行相似性、相异性识别处理后，获取与所述用户语音对应的识别结果，其中相似性比较为所述用户语音的格式文件与预设语音的格式文件进行相似性比较，获取与所述用户语音相似的预设语音格式文件，相异性比较为将所述相似的预设语音格式文件与预设语音的格式文件进行相异性比较，获取相异度值；c、输出所述识别结果。

其中，所述的b步骤具体包括：

b1、接收用户语音，与预设语音进行相似性比较，获取与所述用户语音相似的预设语音，并发送所述相似的预设语音以及用户语音；

相异性比较后会得出相应的比较结果，该比较结果为一组数值——准成功值，并按照相异度由低到高进行升序排列。

其中，c步骤还具体包括：还原处理，预设有一对映还原表，用于接收准成功加权值单元传送来的成功值并还原为由使用者事先定义好的语音目标库中存储的相对映的文本文件；以及

一输出装置，用于输出最高成功值所对映的目标库中的文本文件；若出现两个最高成功值，则所述输出装置将默认输出第一个最高成功值所对映的文本文件。

所述的步骤a之后，步骤b之前还包括：

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1、一种语音识别装置，其特征在于，包括：

语音接收单元，用于接收待识别的用户语音；

输出单元，用于输出所述识别结果。

2、根据权利要求1所述的语音识别装置，其特征在于，所述的识别处理单元具体包括：

第二语音识别单元，用于将所述用户语音格式文件与所述相似的预设语音格式文件进行相异性比较，获取两者相异度值，即准成功值。

3、根据权利要求2所述的语音识别装置，其特征在于，所述的识别处理单元具体还包括：

4、根据权利要求2或3所述的语音识别装置，其特征在于，

第二语音识别单元，用于将所述用户语音格式文件与所述相似的预设语音格式文件进行相异性比较，获取相异度值，并以所述相异度值作为准成功值与预设的阈值进行比较，若所述准成功值小于或等于预设的阈值，则进入加权处理单元，否则，指示第一、第二语音识别单元继续进行比较识别，直到比较识别的准成功值小于或等于所述预设阈值为止。

5、根据权利要求3所述的语音识别装置，其特征在于，还包括：

加权处理单元，用于在第二语音识别单元判断准成功值小于或等于预设阈值时，将准成功值与预设的加变量对应叠加，获取所述准成功值的成功值；

或在第二语音识别单元判断准成功值大于预设阈值后重新进行语音识别，直到所述准成功值小于或等于预设阈值时，将每次识别后获取的准成功值与预设的加权变量对应叠加，获取各准成功值的成功值，并按照成功值由高到低进行降序排列，获取最高值。

6、根据权利要求1所述的语音识别装置，其特征在于，其输出单元还包括：还原处理单元，所述的还原处理单元内预设有一对映还原表，用于接收准成功加权值单元传送来的成功值并还原为由使用者事先定义好的对应的目标；以及

7、根据权利要求1所述的语音识别装置，其特征在于，还包括：

一目标库，即语音识别装置进行比较的所有预设语音的集合，所述目标库为有限的词和/或短语；字、词的集合；字、词、短句的集合。

8、根据权利要求1所述的语音识别装置，其特征在于，还包括：

语音转换处理单元，用于转换用户语音的格式，并在保存所述转换格式的用户语音后发送给所述识别处理单元；

9、根据权利要求2所述的语音识别装置，其特征在于，第一语音处理单元进行相似性比较后得出相应的比较结果，该比较结果为一组格式文件，并按照相似度由高到低进行降序排列；

10、根据权利要求3所述的语音识别装置，其特征在于，在加权处理单元内预设有一加权变量，将每个准成功值与准成功加权值单元内预设的加权变量进行叠加，计算出最终的成功值，并按照成功值由高到低进行降序排列。

11、一种语音识别方法，其特征在于，包括：

a、接收待识别的用户语音；

c、输出所述识别结果。

12、根据权利要求11所述的语音识别方法，其特征在于，所述的b步骤具体包括：

b1、将所述用户语音的格式文件与预设语音格式文件进行相似性比较，获取与所述用户语音相似的预设语音的格式文件；

b2、接收上述相似的预设语音格式文件以及用户语音的格式文件，并将二者进行相异性比较，获得的相异度值，并以所述相异度值作为准成功值；

13、根据权利要求12所述的语音识别方法，其特征在于，所述的b步骤还具体包括：

14、根据权利要求13所述的语音识别方法，其特征在于，所述的b步骤具体包括：

将所述准成功值与预设的阈值进行比较，若所述准成功值小于或等于预设的阈值，则停止比较识别，对得出的准成功值与加权变量进行叠加，得出成功值，否则，返回步骤b1，直到比较识别的准成功值小于或等于所述预设阈值为止后执行b3。

15、根据权利要求12所述的语音识别方法，其特征在于，相似性比较后得出相应的比较结果，该比较结果为一组格式文件，并按照相似度由高到低进行降序排列；

16、根据权利要求11所述的语音识别方法，其特征在于，还原处理，预设有一对映还原表，用于接收准成功加权值单元传送来的成功值并还原为由使用者事先定义好的语音目标库中存储的相对映的文本文件；以及

17、根据权利要求11所述的语音识别方法，其特征在于，在步骤a之前还包括：为所述相似性、相异性比较识别预设比较对象，所述比较对象为包括有限的词和/或短语；字、词的集合；字、词、短句的集合。