CN108899017A

CN108899017A - 一种基于环境数据的投票式多层次语音识别架构

Info

Publication number: CN108899017A
Application number: CN201810648214.8A
Authority: CN
Inventors: 高裕翔
Original assignee: Shenzhen Hongji Technology Co Ltd
Current assignee: Shenzhen Hongji Technology Co Ltd
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2018-11-27
Anticipated expiration: 2038-06-22
Also published as: CN108899017B

Abstract

本发明公开一种基于环境数据的投票式多层次语音识别架构，包括：数据搜集层，用于音源数据的采集与纯化处理；环境判断层，通过若干传感器采集不同的环境变量，存储到对应的环境特征值数据库中，同时配合若干语音识别引擎进行特征值比对，得出命令文本的辨识概率并输出；仲裁层，根据所述环境判断层提供的数据采用若干投票机制进行若干轮投票，并将得到的命令文本进行排序，得出最优辨识结果并输出给用户端。本发明三个层次的架构配合多个能够自我更新完善的环境特征值数据库，在特定使用的环境下，降低了环境变量对辨识结果的影响，减少了辨识的错误概率，最后利用投票机制得出最优结果，提高了辨识可靠度以及服务效率。

Description

一种基于环境数据的投票式多层次语音识别架构

技术领域

本发明及语音识别技术领域，尤其涉及一种基于环境数据的投票式多层次语音识别架构。

背景技术

语音识别技术是针对用户的语音进行特征值比对，最终转成命令文本的技术，语音识别是降低人机接口操作复杂度的重要技术。目前市场上的主流产品是根据所使用的场景提供单一的语音识别引擎，没有考虑到环境变量的改变对语音识别的影响，仅就语音识别技术本身去优化，这种固定场景下的产品只能达到特定的辨识概率，当环境发生变化时，辨识概率就会受到严重影响；而且这种单一的语音识别引擎，也无法根据不同的用户提供不同的服务，服务效率比较低。

因此，现有技术存在缺陷，需要改进。

发明内容

本发明的目的是克服现有技术的不足，提供一种基于环境数据的投票式多层次语音识别架构。

本发明的技术方案如下：本发明提供了一种基于环境数据的投票式多层次语音识别架构，包括：

数据搜集层，用于音源数据的采集与纯化处理；

环境判断层，通过若干传感器采集不同的环境变量，存储到对应的环境特征值数据库中，同时配合若干语音识别引擎进行特征值比对，得出命令文本的辨识概率并输出；

仲裁层，根据所述环境判断层提供的数据采用若干投票机制进行若干轮投票，并将得到的命令文本进行排序，得出最优辨识结果并输出给用户端。

所述数据搜集层还包括性别年龄特征值数据库，通过与所述性别年龄特征值数据库中特征值进行比对可做出用户的性别与年龄预估。

所述环境判断层具体用于：不同所述传感器收集到当时环境下的环境变量并存入对应的所述环境特征值数据库；所述语音识别引擎会结合所述数据搜集层做出的用户性别与年龄层预估，将命令文本与添加了环境变量的所述环境特征值数据库依序比对，不同的所述语音识别引擎会得到不同的比对结果，然后产生对应的辨识概率；根据所得到的辨识概率，设定入选门槛，删除低于入选门槛的命令文本。

所述语音识别引擎与所述传感器配套使用，不同所述语音识别引擎分别连接对应所述环境特征值数据库，不同所述环境特征值数据库还分别与对应的所述传感器相连接且同时存储对应所述传感器搜集到的环境数据，所述环境特征值数据库所提供比对的特征值会根据所述传感器搜集到的实时数据而发生变化。

所述仲裁层具体用于：将所述环境判断层筛选后的命令文本对应的辨识概率进行区间划分，根据若干不同所述投票机制对各个辨识概率区间内的命令文本进行投票；

将所获得的投票结果反馈给用户端，同时将投票结果记录在历史特征值数据库中，供下一次比对时调用。

所述投票机制有三种，包括：第一种所述投票机制是针对辨识概率最高的3个命令文本进行投票，且只能有3票；第二种所述投票机制是针对辨识概率总和最高的命令文本进行投票，且只有2票；第三种所述投票机制是针对辨识概率高于95％的命令文本进行投票，总共有5票，且只能投在一个命令文本上，如果没有辨识概率超过95％的命令文本，则这一轮投票机制弃权；

通过上述三种投票机制投票之后，如果最高票数低于票数最低门槛，则这一轮投票作废。

所述投票结果为单一命令文本时，此命令文本即为最优结果并输出给用户端。

所述投票结果为多个命令文本得票数相同时，就需要再定义出规则，来找出最佳结果，所述规则为两种：第一种规则为找出最高的辨识概率相互比较，最高辨识概率最大的命令文本即为最优命令文本；第二种规则为利用同一命令文本在所有所述语音识别引擎中所得到的辨识概率的平均值进行比较，得出平均辨识概率最高的命令文本即为最优命令文本。

采用上述方案，本发明三个层次的架构配合多个能够自我更新的环境特征值数据库，在特定使用的环境下(如车内、客厅或浴室等封闭空间)，降低了环境变量对辨识结果的影响，减少了辨识的错误概率，最后利用投票机制得出最优命令文本，并且将此结果放入所述历史特征值数据库中等待下一次的调用。本发明的有益效果为：

1、所述数据搜集层除了基本的数据收集和纯化处理之外，还增加了性别与年龄的筛选过程，根据不同的用户进行后续筛选，提高了语音识别的可靠度，同时也提高了服务效率；

2、所述环境判断层具有多个所述语音识别引擎、多个所述传感器以及多个所述环境特征值数据库，三者一一对应，不同的所述传感器能够将不同的环境变量引入不同的所述环境特征值数据库中，所述语音识别引擎根据实时变化的所述环境特征值数据库进行数据比对，环境变量的改变对语音识别的影响考虑到识别过程，有效提高了辨识结果的可靠度，结合环境变量进行不对提高了服务效率；

3、引入了所述仲裁层，采用多种投票机制进行比对结果的筛选，增加了辨识结果的可靠度。

4、所述环境特征值数据库可存入传感器实时采集的环境变量，所述历史特征值数据库可以存储投票结果供下一次比对时调用，这种可以自动更新完善的特征值数据库能够有效提高辨识的可靠度以及服务效率。

附图说明

图1为本发明语音识别架构的三层架构示意图；

图2为本发明语音识别架构的语音识别流程示意图；

图3为本发明语音识别架构的性别与年龄预估流程示意图。

具体实施方式

以下结合附图和具体实施例，对本发明进行详细说明。

请参阅图1，本发明提供一种基于环境数据的投票式多层次语音识别架构，这是一种对环境变量敏感的三层式语音识别架构，配合能够自动更新的特征值数据库，可在特定封闭环境下(如车内、客厅或浴室等)，提高语音辨识的准确率及服务效率，具体包括：数据搜集层、环境判断层以及仲裁层。

请参阅图1与图2，所述数据搜集层：用于音源数据采集与纯化处理，通常的纯化处理包括回音消除和降噪，所述回音消除和降噪采用现有技术即可，本发明不做详细阐述。所述数据搜集层还包含性别年龄特征值数据库，经过纯化处理后的语音数据会根据音频的范围预估用户的性别与年龄层。

下表1为用户的性别与年龄层预估结果，其中性别分为男和女，年龄层分为少年、成年人和老年人，整个表格的概率加起来为100％，如果某一项的辨识概率低于某个设定的门限值(例如20％)时，则可以忽略这一个数值当成0％来处理；反之，如果某一项的辨识概率高于某个门限值(例如90％)时，则可以当成100％来处理。

表1：性别与年龄层预估结果一

当整个表格中所有辨识概率加起来不是100％时，则取介于高低门限值中间的值，再依照比率分摊这一中间值与高低门限值之间的差值，超过高门限值或低于低门限值的辨识概率值都维持不动。例如表2中,假设最低门限值为20％，这时候成年女人与老年男人所得到的辨识概率都低于这一个数字，因此10％将会被修正为0％。

表2：性别与年龄层预估结果二

	男	女
			少年	30％	0％
成年人	50％	10％
			老年人	10％	0％

表2中被剔除的辨识概率总合为10％+10％＝20％，这20％将会被以3:5的比率平均分配到少年男人与成年男人中，最终结果如表3所示，整个表格的辨识概率总合维持100％不变。

表3：性别与年龄层预估结果三

	男	女
			少年	37.5％	0％
成年人	62.5％	0％
			老年人	0％	0％

用户性别与年龄层预估的分析基础是假设用户的音频针对性别与年龄层都有一定的特征值，利用这一特征值进行比对，例如：男低音82～392Hz，基准音区64～523Hz，男中音123～493Hz，男高音164～698Hz；女低音82～392Hz，基准音区160～1200Hz，女中音123～493Hz，女高音220～1.1KHz。本实施例中可以假设年龄层越低音频越高，年龄层越高音频相对越低。根据以上预估方式将语音数据进行性别与年龄层预估，同时将预估结果存入相应特征值数据库中，待下一层使用，如图3所示。

请参阅图1与图2，所述环境判断层：包括若干语音识别引擎、若干传感器以及若干环境特征值数据库。所述语音识别引擎与所述传感器配套使用，每个所述语音引擎连接着一个所述环境特征值数据库，这个所述环境特征值数据库也会同时连接一个所述传感器并储存这个所述传感器搜集到的环境实时数据，所述环境特征值数据库所提供比对的特征值会根据所述传感器搜集到的实时数据而发生变化，实现了所述环境特征值数据库的自动更新。具体的，所述环境判断曾通过所述传感器采集不同的环境变量，存储到对应的所述环境特征值数据库中，结合所述数据搜集层做出的性别与年龄预估，再通过若干所述语音识别引擎对所述数据搜集层提供的语音数据进行特征值比对，得出命令文本的辨识概率，再根据所得到的辨识概率，设定入选门槛，删除低于入选门槛的命令文本，最终将入选的命令文本的辨识概率数据输出到下一层。

语音识别与情境的交互非常密切，不同的情境会有不同语音识别文本的优先顺序，所述数据搜集层会先预估用户的可能性别与年龄层，再根据这个性别与年龄层的预估结果进一步选定所述环境特征值数据库。根据贝叶斯定理的几率公式P(B|A)，即在A已经发生的状况下B发生的几率，很明显A就是环境变量，B就是命令在A的条件下发生的几率。在不同A的状况下，比对文本的优先顺序将会有很大的不同。举个例子来说，如表1所示，预估结果为60％为男性成年人，40％为男性少年，意思就是说，所述环境特征值数据库产生的比对文本中10个命令将会有6个从男性成年人的特征值数据库中取得来进行比对，4个会从男性少年的特征值数据库中取得来进行比对。这10个命令将会进一步考虑所述传感器搜集到的环境数据，例如，当天气是30摄氏度，在一个特定的车内空间里，命令本文为“降低温度”就会比“升高温度”的几率来得高。再例如，当所述传感器探知用户是利用蓝芽无线耳机接听电话时候，命令文本为“调整音量大小”就比“打开车窗”的几率高。这就意味着几率高的命令文本所在的所述环境特征值数据库将优先给对应的所述语音识别引擎来做比对。

如表4所示，本实施例假设有四个所述语音识别引擎，所述环境特征值数据库会根据所述数据搜集层做出的用户性别与年龄层预估结果以及对应的所述传感器搜集到的环境变量，对每一个所述语音识别引擎提供需要比对的特征值数据。每一个所述语音识别引擎都会设定一个特定的比对时间，这样的动态数据库所提供的特征值数据将会降低比对所需要的时间，从而降低用户等待的时间，提高服务效率。表4中的四个所述语音识别引擎在一定的时间内比对了不用的命令文本，得出了相应的概率，表中数据命名采用文本+(文本序号)+(概率)的方式来表述。

表4：第一步中贝叶斯数据库

语音识别引擎一	语音识别引擎二	语音识别引擎三	语音识别引擎四
				文本(1)(60％)	文本(18)(75％)	文本(4)(90％)	文本(25)(3％)
文本(2)(30％)	文本(5)(18％)	文本(18)(70％)	文本(60)(56％)
				文本(21)(45％)	文本(3)(70％)	文本(22)(60％)	文本(5)(20％)
文本(18)(80％)	文本(4)(75％)	文本(25)(67％)	文本(4)(80％)
				文本(5)(20％)	文本(5)(25％)	文本(33)(80％)	文本(56)(30％)
文本(4)(85％)	文本(32)(90％)	文本(9)(56％)	文本(3)(25％)
				文本(33)(90％)	文本(19)(30％)	文本(14)(20％)	文本(9)(50％)

表4中的所述语音识别引擎一辨识了七个命令文本，其中文本(33)的辨识概率为90％，接下来是文本(4)，文本(18)分别为85％与80％的辨识概率，接下来三个所述语音识别引擎中也有一个中的文本(4)达到了90％的辨识概率，文本(33)达到了80％的辨识概率。所述环境判断层最后一个过程就是将没有达到既定入选门槛的命令文本数据剔除，本实施例中设定70％为入选门槛，将低于70％的文本数据删除得到表5，超过70％的命令文本将会被送至下一层，如果所有的命令文本都没超过入选门槛70％时，所述环境判断层将会响应用户“无法辨识命令”。

表5：第二步中贝叶斯数据库

辨识引擎一	辨识引擎二	辨识引擎三	辨识引擎四
				文本(33)(90％)	文本(32)(90％)	文本(4)(90％)	文本(4)(80％)
文本(4)(85％)	文本(18)(75％)	文本(33)(80％)
				文本(18)(80％)	文本(4)(75％)

本实施例中所述传感器搜集的环境数据可以为，第一类的传感数据针对温度与湿度，第二类的传感器根据时间与地理坐标，第三类的传感器根据气体的浓度如一氧化碳或是含氧量，第四类的传感器则根据如轮胎胎压、能源车的电池电量或是行车的速度。

请参阅图1与图2，所述仲裁层，根据所述环境判断层提供的数据采用若干投票机制进行若干轮投票，并将得到的命令文本进行排序，得出最优辨识结果并输出给用户端，同时将投票结果记录在所述历史特征值数据库中，做为下一次辨识的基础。

根据表5所述仲裁层将所述环境判断层筛选后的命令文本对应的辨识概率进行概率区间划分得到表6，如表6所述，本实施例将表5中的辨识概率划分为三个区间，其中辨识概率高于90％的有三个命令文本，辨识概率在80-90％之间的有4个命令文本，辨识概率在70-79％之间的则有2个命令文本。

表6：投票区间分类

90％以上	80-89％	70-79％之间
			文本(32)	文本(4)	文本(18)
文本(33)	文本(33)	文本(4)
			文本(4)	文本(4)
	文本(18)

根据表6所划分的区间，所述仲裁层设定三个投票机制，最终将选出一个最有可能的命令文本。第一种所述投票机制是针对辨识概率最高的3个命令文本进行投票，且只能有3票；第二种所述投票机制是针对辨识概率总和最高的命令文本进行投票，且只有2票；第三种所述投票机制是针对辨识概率高于95％的命令文本进行投票，总共有5票，且只能投在一个命令文本上，如果没有辨识概率超过95％的命令文本，则这一轮投票机制弃权。通过上述三种投票机制投票之后，如果最高票数低于票数最低门槛，则这一轮投票作废，本实施例中，所述票数最低门槛为2票，则有命令文本所得票数等于所述票数最低门槛，所以此轮投票有效。按以上三种所述投票机制，第一轮根据第一种投票规则将会投在(32)、(33)和(4)上，其他的命令文本不得票，最终得到的结果如表7所示：

表7：第一轮投票结果

文本	票数
		32	1
33	1
		4	1

第二轮根据第二种投票规则，首先根据表3统计每个命令文本在四个所述语音识别引擎中所得辨识概率的总和得到的结果如表8所示：

表8：累计辨识概率总合

文本	4	18	32	33
					累计辨识概率总合	350％	155％	90％	170％

表8中，按第二种投票规则将会把票投在(4)和(33)上，结合第一轮投票结果表7计算各个文本累积的票数如表9所示：

表9：第二轮投票结果

第三轮根据第三种投票机制进行投票，发现在表5中没有命令文本的辨识概率高于95％，则第三种投票机制弃权，也就是维持表9的投票结果，(4)和(33)都为两票。当最终出现所选出的命令文本得票相同的情况时，就需要再定义出一个可以接受的规则，来找出最佳结果。这种规则可以是找出辨识概率最高的命令文本相互比较，看哪个命令文本的最高辨识概率大，这个命令文本即为最优结果；或是利用同一命令文本在所有所述语音识别引擎中所得到的辨识概率的平均值进行比较，得出平均辨识概率最高的命令文本即为最优命令文本。本实施例中选择采用平均辨识概率的规则进行比较的，命令文本(4)的平均辨识概率为82.5％，命令文本(33)的平均辨识概率为85％，所以最终的结论是命令文本(33)为最佳辨识结果。此时命令文本(33)会输出给用户端，同时命令文本(4)、命令文本(32)和命令文本(33)都会被记入该环境变量下的所述历史特征值数据库中，供下一次比对时调用。这种方式可以使辨识结果越来越准确且服务效率越来越高。

综上所述，本发明三个层次的架构配合多个能够自我更新的环境特征值数据库，在特定使用的环境下(如车内、客厅或浴室等封闭空间)，降低了环境变量对辨识结果的影响，减少了辨识的错误概率，最后利用投票机制得出最优命令文本，并且将此结果放入所述历史特征值数据库中等待下一次的调用。本发明的有益效果为：

以上仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于环境数据的投票式多层次语音识别架构，其特征在于，包括：

数据搜集层，用于音源数据的采集与纯化处理；

2.根据权利要求1所述的语音识别架构，其特征在于，所述数据搜集层还包括性别年龄特征值数据库，通过与所述性别年龄特征值数据库中特征值进行比对可做出用户的性别与年龄预估。

3.根据权利要求1所述的语音识别架构，其特征在于，所述环境判断层具体用于：

不同所述传感器收集到当时环境下的环境变量并存入对应的所述环境特征值数据库；

所述语音识别引擎结合所述数据搜集层做出的用户性别与年龄层预估，将命令文本与添加了环境变量的所述环境特征值数据库依序比对，不同的所述语音识别引擎会得到不同的比对结果，然后产生对应的辨识概率；

根据所得到的辨识概率，设定入选门槛，删除低于入选门槛的命令文本。

4.根据权利要求3所述的语音识别架构，其特征在于，所述语音识别引擎与所述传感器配套使用，不同所述语音识别引擎分别连接对应所述环境特征值数据库，不同所述环境特征值数据库还分别与对应的所述传感器相连接且同时存储对应所述传感器搜集到的环境数据，所述环境特征值数据库所提供比对的特征值会根据所述传感器搜集到的实时数据而发生变化。

5.根据权利要求1所述的语音识别架构，其特征在于，所述仲裁层具体用于：

将所述环境判断层筛选后的命令文本对应的辨识概率进行区间划分，根据若干不同所述投票机制对各个辨识概率区间内的命令文本进行投票；

6.根据权利要求5所述的语音识别架构，其特征在于，所述投票机制有三种，包括：

第一种所述投票机制是针对辨识概率最高的3个命令文本进行投票，且只能有3票；

第二种所述投票机制是针对辨识概率总和最高的命令文本进行投票，且只有2票；

第三种所述投票机制是针对辨识概率高于95％的命令文本进行投票，总共有5票，且只能投在一个命令文本上，如果没有辨识概率超过95％的命令文本，则这一轮投票机制弃权；

7.根据权利要求5所述的语音识别架构，其特征在于，所述投票结果为单一命令文本时，此命令文本即为最优结果并输出给用户端。

8.根据权利要求5所述的语音识别架构，其特征在于，所述投票结果为多个命令文本得票数相同时，就需要再定义出规则，来找出最佳结果，所述规则为两种：

第一种规则：找出最高的辨识概率相互比较，最高辨识概率最大的命令文本即为最优命令文本；

第二种规则：利用同一命令文本在所有所述语音识别引擎中所得到的辨识概率的平均值进行比较，得出平均辨识概率最高的命令文本即为最优命令文本。