CN108122556B

CN108122556B - 减少驾驶人语音唤醒指令词误触发的方法及装置

Info

Publication number: CN108122556B
Application number: CN201710669617.6A
Authority: CN
Inventors: 胡亚光; 栗强
Original assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Current assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority date: 2017-08-08
Filing date: 2017-08-08
Publication date: 2021-09-24
Anticipated expiration: 2037-08-08
Also published as: CN108122556A

Abstract

本发明公开了一种减少驾驶人语音唤醒指令词误触发的方法及装置，涉及汽车智能技术领域，为解决现有的减少语音识别系统中语音唤醒指令词误触发的方式无法在保证触发灵敏度的基础上更简便的降低误触发率的问题而发明。本发明的方法包括：对接收的语音信号进行语音活动检测，过滤掉语音信号中非人声区得到过滤后的语音信号；获取过滤后的语音信号对应文本中包含的语音唤醒指令词的第一后验概率；根据所述语音唤醒指令词以及所述语音唤醒指令词的第二后验概率来计算所述语音唤醒指令词的置信度；根据所述第一后验概率以及所述置信度确定所述语音唤醒指令词是否为驾驶人语音唤醒指令词。本发明适合应用在人与设备通过语音进行交互的过程中。

Description

减少驾驶人语音唤醒指令词误触发的方法及装置

技术领域

本发明涉及汽车智能技术领域，尤其涉及一种减少驾驶人语音唤醒指令词误触发的方法及装置。

背景技术

目前，为了使驾驶人在使用车载设备时更加的安全便捷，一些车载设备中增加了语音识别系统，使驾驶人无需手动而使用语音唤醒指令词与车载设备进行交互，比如在导航设备中通过对应的搜索语音唤醒指令词进行搜索，在汽车智能控制装置中通过对应的控制语音唤醒指令词控制汽车中的空调或者其它设备的开关等功能。

发明人在实现本发明的过程中发现，现有技术中存在以下问题，通过语音唤醒指令词与车载设备进行实际交互的过程中，由于环境中的干扰因素较多，比如汽车中其他人谈话的声音、汽车里外的非人声等等，因此在通过语音进行交互的过程中，必然存在语音唤醒指令词误触发的问题，影响车载设备的性能，同时给驾驶人带来不必要的麻烦。为了减少驾驶人在通过语音唤醒指令词与车载设备交互的过程中语音唤醒指令词误触发的现象，现有技术中通常使用的两种方式为：一种是通过提高语音识别系统中识别的阈值，即提高语音匹配的精度，这样会导致语音识别系统触发的灵敏度降低；另一种，是通过在语音识别系统中引入更多的误触发数据训练模型来降低误触发率，但是更多的误触发数据收集起来较困难，而且对于更多的误触发数据的训练建模的过程较复杂，需要花费更多的人力和时间进行数据的处理，因此该种方式成本比较高，另外在实际的应用中该种方式对于降低误触发率的效果并不明显。

综上，现有的减少语音识别系统中语音唤醒指令词误触发的方式无法在保证触发灵敏度的基础上更简便的降低误触发率。

发明内容

鉴于上述问题，本发明提供一种减少驾驶人语音唤醒指令词误触发的方法及装置，为了在保证触发灵敏度的基础上更简便的降低语音唤醒指令词误触发率。

为解决上述技术问题，第一方面，本发明提供了一种减少驾驶人语音唤醒指令词误触发的方法，该方法包括：

对接收的语音信号进行语音活动检测，过滤掉语音信号中非人声区得到过滤后的语音信号；

获取过滤后的语音信号对应文本中包含的语音唤醒指令词的第一后验概率；

根据所述语音唤醒指令词以及所述语音唤醒指令词的第二后验概率来计算所述语音唤醒指令词的置信度；

根据所述第一后验概率以及所述置信度确定所述语音唤醒指令词是否为驾驶人语音唤醒指令词。

第二方面，本发明还提供了一种减少驾驶人语音唤醒指令词误触发的装置，该装置包括：

语音活动检测单元，用于对接收的语音信号进行语音活动检测，过滤掉语音信号中非人声区得到过滤后的语音信号；

获取单元，用于获取过滤后的语音信号对应文本中包含的语音唤醒指令词的第一后验概率；

置信度计算单元，用于根据所述语音唤醒指令词以及所述语音唤醒指令词的第二后验概率来计算所述语音唤醒指令词的置信度；

确定单元，用于根据所述第一后验概率以及所述置信度确定所述语音唤醒指令词是否为驾驶人语音唤醒指令词。

为了实现上述目的，根据本发明的第三方面，提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述所述的减少驾驶人语音唤醒指令词误触发的方法。

为了实现上述目的，根据本发明的第四方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述所述的减少驾驶人语音唤醒指令词误触发的方法。

借由上述技术方案，本发明提供的减少驾驶人语音唤醒指令词误触发的方法及装置，能够在对原始语音信号进行过滤并最终确定驾驶人语音唤醒指令词的过程中先对语音信号进行了粗略的过滤，然后对过滤后的语音信号进行处理，在处理的过程中不仅考虑了语音唤醒指令词的第一后验概率还综合了语音唤醒指令词的置信度，根据多方面的因素来确定驾驶人语音唤醒指令词。相比于现有技术没有提高匹配的阈值，因此没有降低触发的灵敏度，而且通过多层过滤以及多种因素综合来确定驾驶人语音唤醒指令词，所以能够使最终确定的驾驶人语音唤醒指令词更加的准确，因此可以更好的降低语音唤醒指令词的误触发率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种减少驾驶人语音唤醒指令词误触发的方法流程图；

图2示出了本发明实施例提供的另一种减少驾驶人语音唤醒指令词误触发的方法流程图；

图3示出了本发明实施例提供的一种减少驾驶人语音唤醒指令词误触发的方法对应的系统示意图；

图4示出了本发明实施例提供的一种减少驾驶人语音唤醒指令词误触发的装置的组成框图；

图5示出了本发明实施例提供的另一种减少驾驶人语音唤醒指令词误触发的装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了提高在保证触发灵敏度的基础上更简便的降低语音唤醒指令词的误触发率，本发明实施例提供了一种减少驾驶人语音唤醒指令词误触发的方法，如图1所示，该方法包括：

101、对接收的语音信号进行语音活动检测，过滤掉语音信号中非人声区得到过滤后的语音信号。

其中，语音信号为在通过语音进行人与设备交互时直接收集的原始语音信号，本实施例中人与设备的交互主要是指驾驶人与车载设备之间的交互。原始语音信号中包含驾驶人的语音信号以及外界环境中的一切声音信号，通常的直接获取到的原始语音信号中只有一部分的区域是包含驾驶人的声音的信号，其他的部分区域中全部都是外界的噪音。因此为了减少后续的数据处理的复杂程度，本步骤先对原始语音信号进行过滤，过滤掉原始语音信号中的全部都是外界的噪音的声音区域，本实施例中将全部都是外界的噪音的声音区域定义为非人声区，对应的将包含驾驶人的声音信号的声音区域定义为人声区。

具体的过滤非人声区是通过将原始语音信号输入到神经网络模型中，根据该神经网络模型进行过滤。具体的，该神经网络模型用于对语音信号中的人声区以及非人声区进行区分，因此将原始语音信号输入到该神经网络模型后对应的输出的结果是对原始语音信号的人声区和非人声区进行了分类区分。因此能够将非人声区对应的声音信号从原始语音信号中过滤掉，只保留人声区的声音信号，将过滤后的结果记作过滤后的语音信号。

另外需要说明的是，本步骤中的神经网络模型是提前建立的，建立的过程具体是：收集用于进行模型训练的训练数据，具体的训练数据是实际收集的原始语音信号，并且原始语音信号中的人声区和非人声区也是已知的，然后将实际收集的原始语音信号作为神经网络模型的输入层，对应的原始语音信号中的人声区和非人声区作为输出层，在输出层的各神经元获得网络的输入响应后，按照减少期望输出与实际输出之间误差的方向，从输出层经过各中间隐含层逐层修正个连接权值，最后回到输入层，随着期望输出与实际输出之间这种误差的逆传播不断修正，最终得到误差最小的输入与输出之间的关系模型，该关系模型即为本步骤中的用于对语音信号中的人声区以及非人声区进行区分的神经网络模型。

102、获取过滤后的语音信号对应文本中包含的语音唤醒指令词的第一后验概率。

由步骤101可知，由步骤101得到的过滤后的语音信号中只包含了人声区的声音信号，这样在进行语音识别解码时可以降低处理的难度。由于在驾驶人与车载设备进行语音交互时，首先需要让车载设备知道驾驶人说的是什么词或句子，因此需要对过滤后的语音信号进行语音识别解码，将过滤后的语音信号转换为文本，由于驾驶人的声音并不是标准的或者始终稳定的，因此过滤后的语音信号不一定能够被正确的识别为驾驶人想说词或句子，还是存在一定概率的。本步骤中用第一后验概率来评价过滤后的语音信号的语音识别解码情况。具体的本步骤中的第一后验概率即为能够将某一段语音信号识别为某一语音唤醒指令词的概率，语音唤醒指令词为初步确定的用于与设备进行语音交互的指令词。由上述的叙述可知，经过语音识别解码后，可以得到过滤后的语音信号被识别成的文本以及文本中包含的语音唤醒指令词的第一后验概率，其中过滤后的语音信号被识别成的文本即为与过滤后的语音信号对应的文本。

另外，对过滤后的语音信号进行语音识别解码时，第一后验概率是以先验概率为基础得到的，先验概率是已知的概率，本步骤中的先验概率是指在实验数据中实际计算得到的某一字出现的概率，其中实验数据是实际收集的在驾驶场景中，驾驶人可能使用的所有的字。

103、根据语音唤醒指令词以及语音唤醒指令词的第二后验概率来计算语音唤醒指令词的置信度。

为了进一步判断语音唤醒指令词的可靠性，还需要计算得到的语音唤醒指令词的置信度。本实施例中对于语音唤醒指令词置信度的计算是通过对步骤102确定的语音唤醒指令词以及语音唤醒指令词中每个字在语音识别解码时被区别的开朗程度来确定的。给出具体的示例进行说明：假设某一语音唤醒指令词为“你好”，其中“你”对应的语音在语音识别时，被识别为“你”的概率为90％，被识别为“以”的概率为3％，被识别为“衣”的概率为7％，可以看到被识别为“你”字的概率远远大于被识别为其他的字的概率，则表示“你”字被区别的开朗程度高，若语音唤醒指令词中每个字被区别的开朗程度较高，则对应的该语音唤醒指令词的置信度较高。其中每个被识别的字的概率即为语音唤醒指令词的第二后验概率，因此语音唤醒指令词的置信度的计算是根据得到的语音唤醒指令词以及语音唤醒指令词的第二后验概率确定的。需要说明的是，第二后验概率也是以步骤102中的先验概率为基础得到的。

104、根据第一后验概率以及置信度确定语音唤醒指令词是否为驾驶人语音唤醒指令词。

在确定驾驶人语音唤醒指令词时，考虑的因素越多，最终确定的结果越准确。本实施例中在确定驾驶人语音唤醒指令词时既考虑了语音唤醒指令词的第一后验概率还考虑了对应的置信度，综合两个因素比只以某一因素来确定驾驶人语音唤醒指令词的方式更准确。具体的在确定驾驶人语音唤醒指令词时是将前述两个考虑的因素进行加权求和，根据加权求和之后的结果来确定语音唤醒指令词是否能够作为驾驶人语音唤醒指令词，在根据加权求和之后的结果来确定语音唤醒指令词是否能够作为驾驶人语音唤醒指令词时通常会设置一个预设阈值，然后将加权求和之后的结果与预设阈值进行比较，将符合比较规则的加权求和之后的结果对应的语音唤醒指令词确定为驾驶人语音唤醒指令词。需要说明的是，进行加权时每一个因素对应的权重通常是根据经验确定的，对于不同的业务需求对应的经验值可能是不同的。另外，驾驶人语音唤醒指令词是最终确定的与设备进行语音交互的指令词。

本发明实施例提供的减少驾驶人语音唤醒指令词误触发的方法，能够在对原始语音信号进行过滤并最终确定驾驶人语音唤醒指令词的过程中先对语音信号进行了粗略的过滤，然后对过滤后的语音信号进行处理，在处理的过程中不仅考虑了语音唤醒指令词的第一后验概率还综合了语音唤醒指令词的置信度，根据多方面的因素来确定驾驶人语音唤醒指令词。相比于现有技术没有提高匹配的阈值，因此没有降低触发的灵敏度，而且通过多层过滤以及多种因素综合来确定驾驶人语音唤醒指令词，所以能够使最终确定的驾驶人语音唤醒指令词更加的准确，因此可以更好的降低语音唤醒指令词的误触发率。

进一步的，作为对图1所示实施例的细化及扩展，本发明实施例还提供了另一种减少驾驶人语音唤醒指令词误触发的方法，如图2所示。

201、根据语音信号的能量值或信噪比对语音信号进行过滤。

本实施例中的语音信号与图1步骤101中的语音信号是相同的，此处不再赘述。为了在降低步骤202具体实施时的难度，本实施例在步骤202之前，先对语音信号进行更粗略的过滤。具体的过滤过程包括：

首先，以帧为单位计算语音信号的能量值和信噪比，能量值和信噪比是通过现有的计算能量值以及信噪比的算法计算得到的，本实施例中对能量值和信噪比的计算方法不做具体的限制。

其次，将能量值小于预设能量阈值或者信噪比小于预设预设信噪比阈值的帧从语音信号中滤除。由于正常的包含驾驶人声音信号的声音信号中既包含了驾驶人的声音信号还包括了外界的噪音信号，因此包含驾驶人声音信号的能量值通常较高，而能量值较低的声音信号有可能是无声信号或者是只包含微弱的外界噪音的声音信号，所以可以将能量值小于预设能量阈值的帧滤除；另外，信噪比是有效成分与噪音成分的功率之比。信噪比越低，表示噪音成分越大；相反信噪比越高，表示噪音成分越小，对于信噪比过低的超过预设信噪比阈值的则表示该信号为无用的信号，因此可以将信噪比小于预设信噪比阈值的帧从语音信号中滤除。其中预设能量阈值以及预设预设信噪比阈值可以根据实际的需求自由设定。

202、对接收的语音信号进行语音活动检测，过滤掉语音信号中非人声区得到过滤后的语音信号。

本步骤中的进行语音活动检测的语音信号为步骤201中滤除能量值小于预设能量阈值或者信噪比小于预设预设信噪比阈值的帧的语音信号。具体的对本步骤中的语音信号进行语音活动检测的实现方式与图1步骤101中的实现方式是相同的，此处不再赘述。

203、根据常用驾驶人的声音特征建立声纹识别模型。

本实施例中常用驾驶人为通过语音进行交互的车载设备所在的车辆的常用驾驶人，由于车辆的常用驾驶人通常是固定的，因此可以以车辆的常用驾驶人的声音进行建模，并以此作为语音信号声纹评分的依据。对语音信号进行声纹评分是为了后续在确定驾驶人语音唤醒指令词时也将声纹评分作为一个考虑的因素。具体的根据常用驾驶人的声音进行建模是根据常用驾驶人的声音特征(音色、音调等特征)建立声纹识别模型。声纹识别模型的输入为语音信号，输出为与常用驾驶人声音的匹配度。声纹识别模型可以使用传统的高斯混合模型建立方法进行建模也可以使用神经网络等自学习的方式进行建模。在建模时，所需要的建模数据是收集的当前车辆常用驾驶人的声音数据。另外，需要说明的是，假如当前驾驶人不是当前车辆的常用驾驶人，可以现收集当前驾驶人的声音数据并将其声音特征添加到声纹识别模型中。

204、根据声纹识别模型将过滤后的语音信号中的声音特征与常用驾驶人的声音特征进行匹配，得到过滤后的语音信号的声纹评分。

将由步骤202中得到的过滤后的语音信号输入到声纹识别模型中，使过滤后的语音信号中的声音特征与常用驾驶人的声音特征进行匹配，得到过滤后的语音信号与常用驾驶人的声音的匹配度，匹配度越高，声纹评分越高。

205、将过滤后的语音信号输入到语音识别解码模型，得到语音唤醒指令词的第二后验概率。

其中，语音识别解码模型用于对过滤后的语音信号进行识别解码，得到语音信号对应的文本中包含的字以及字的后验概率，字的后验概率即为语音唤醒指令词的第二后验概率。具体的语音识别解码模型是需要提前建立的模型，本实施例中建立的语音识别解码模型是一种神经网络模型。具体的建立步骤包括：收集用于进行模型训练的训练数据，本步骤中具体的训练数据是实际收集的原始语音信号，并且原始语音信号中的某一语音被识别为具体某个字的后验概率是已知的，每个字的后验概率是根据每个字对应的先验概率得到的，先验概率是指在实验数据中实际计算得到的某一字出现的概率，其中实验数据是实际收集的在驾驶场景中，驾驶人可能使用的所有的字的集合。然后将实际收集的原始语音信号作为神经网络模型的输入层，对应的原始语音信号中的某一语音被识别为具体某个字的后验概率作为输出层，在输出层的各神经元获得网络的输入响应后，按照减少期望输出与实际输出之间误差的方向，从输出层经过各中间隐含层逐层修正个连接权值，最后回到输入层，随着期望输出与实际输出之间这种误差的逆传播不断修正，最终得到误差最小的输入与输出之间的关系模型，该关系模型即为本步骤中的语音识别解码模型。

206、根据第二后验概率计算由字组成的语音唤醒指令词的第一后验概率。

由步骤205得到的第二后验概率是每个字的后验概率，还需要对其进行处理得到由字组成的语音唤醒指令词的后验概率即第一后验概率。具体的计算第一后验概率包括：根据预设规则对得到的字进行组合，组合后对每个语音唤醒指令词中的字的后验概率进行加权求和，最终得到每个语音唤醒指令词对应的第一后验概率。需要说明的是，预设规则中至少规定了组合的顺序以及字能够组合时所要求的字与字之间的间隔时长。其中组合的顺序为语音信号中对应的每个语音的顺序，字与字之间的间隔时长即字对应的语音之间的间隔时长，通常间隔时长过长的字不能进行组合。

207、根据语音唤醒指令词以及语音唤醒指令词的第二后验概率来计算语音唤醒指令词的置信度。

本步骤的实现方式图1步骤103的实现方式相同，此处不再赘述。

208、根据语音信号的声纹评分、第一后验概率以及置信度确定语音唤醒指令词是否为驾驶人语音唤醒指令词。

具体的，确定语音唤醒指令词是否能够作为驾驶人语音唤醒指令词的过程包括：

第一，对语音唤醒指令词的第一后验概率、语音唤醒指令词的置信度以及语音信号的声纹评分进行加权求和得到每个语音唤醒指令词的识别得分。其中进行加权求和时语音唤醒指令词的第一后验概率、语音唤醒指令词的置信度以及语音信号的声纹评分分别对应的权重通常是根据经验确定的，对于不同的业务需求对应的经验值可能使不同的。每个语音唤醒指令词得到一个识别得分。

第二，将每个识别得分与预设得分阈值进行比较；

第三，若识别得分大于预设得分阈值，则将识别得分对应的语音唤醒指令词确定为驾驶人语音唤醒指令词。若识别得分不大于预设得分阈值，则对应的语音唤醒指令词不能作为驾驶人语音唤醒指令词。驾驶人语音唤醒指令词是最终确定的与设备进行语音交互的指令词。

另外，针对上述图2减少驾驶人语音唤醒指令词误触发的方法，给出对应的系统示意图进行说明，具体的如图3所示。将语音信号输入到系统后，首先进行能量/信噪比过滤，过滤掉能量值或信噪比较低的信号，具体的过滤过程对应上述步骤201；然后进行语音活动检测，过滤掉语音信号中的非人声区，具体的过滤过程对应上述步骤202；然后将得到的过滤后的语音信号分别进行声纹评分以及语音识别解码，两个过程没有先后顺序，进行声纹评分得到的结果是过滤后的语音信号的声纹评分，进行语音识别解码得到的结果是过滤后的语音信号被识别成的文本中包含的语音唤醒指令词及其对应的第一后验概率，具体的进行声纹评分的过程对应上述步骤203以及步骤204，进行语音识别解码的过程对应上述步骤205以及步骤206；然后根据语音识别解码得到的语音唤醒指令词以及语音唤醒指令词的第二后验概率计算语音唤醒指令词的置信度，具体的计算语音唤醒指令词的置信度的过程对应上述步骤207；最后将得到的声纹评分、进行语音识别解码得到的语音唤醒指令词的第一后验概率以及进行置信度计算得到的语音唤醒指令词的置信度三者进行综合最终确定驾驶人语音唤醒指令词，具体的确定驾驶人语音唤醒指令词的过程对应上述步骤208；最后将驾驶人语音唤醒指令词作为系统的输出，以使用驾驶人语音唤醒指令词与车载设备进行语音交互。

进一步的，作为对上述图1和图2所示方法的实现，本发明实施例另一实施例还提供了一种减少驾驶人语音唤醒指令词误触发的装置，用于对上述图1和图2所示的方法进行实现。该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图4所示，该装置包括：语音活动检测单元31、获取单元32、置信度计算单元33以及确定单元34。

语音活动检测单元31，用于对接收的语音信号进行语音活动检测，过滤掉语音信号中非人声区得到过滤后的语音信号；

获取单元32，用于获取过滤后的语音信号对应文本中包含的语音唤醒指令词的第一后验概率；

由语音活动检测单元31得到的过滤后的语音信号中只包含了人声区的声音信号，这样在进行语音识别解码时可以降低处理的难度。由于在驾驶人与车载设备进行语音交互时，首先需要让车载设备知道驾驶人说的是什么词或句子，因此需要对过滤后的语音信号进行语音识别解码，将过滤后的语音信号转换为文本，由于驾驶人的声音并不是标准的或者始终稳定的，因此过滤后的语音信号不一定能够被正确的识别为驾驶人想说词或句子，还是存在一定概率的。本步骤中用第一后验概率来评价过滤后的语音信号的语音识别解码情况。具体的本步骤中的第一后验概率即为能够将某一段语音信号识别为某一语音唤醒指令词的概率，语音唤醒指令词为初步确定的用于与设备进行语音交互的指令词。由上述的叙述可知，经过语音识别解码后，可以得到过滤后的语音信号被识别成的文本以及文本中包含的语音唤醒指令词的第一后验概率，其中过滤后的语音信号被识别成的文本即为与过滤后的语音信号对应的文本。

置信度计算单元33，用于根据所述语音唤醒指令词以及所述语音唤醒指令词的第二后验概率来计算所述语音唤醒指令词的置信度；

为了进一步判断初步得到的语音唤醒指令词的可靠性，还需要计算得到的语音唤醒指令词的置信度。本实施例中对于语音唤醒指令词置信度的计算是通过对获取单元32确定的语音唤醒指令词以及语音唤醒指令词中每个字在语音识别解码时被区别的开朗程度来确定的。给出具体的示例进行说明：假设某一语音唤醒指令词为“你好”，其中“你”对应的语音在语音识别时，被识别为“你”的概率为90％，被识别为“以”的概率为3％，被识别为“衣”的概率为7％，可以看到被识别为“你”字的概率远远大于被识别为其他的字的概率，则表示“你”字被区别的开朗程度高，若语音唤醒指令词中每个字被区别的开朗程度较高，则对应的该语音唤醒指令词的置信度较高。其中每个被识别的字的概率即为语音唤醒指令词的第二后验概率，因此语音唤醒指令词的置信度的计算是根据得到的语音唤醒指令词以及语音唤醒指令词的第二后验概率确定的。需要说明的是，第二后验概率也是以获取单元32中涉及到的先验概率为基础得到的

确定单元34，用于根据所述第一后验概率以及所述置信度确定所述语音唤醒指令词是否为驾驶人语音唤醒指令词。

在确定驾驶人语音唤醒指令词时，考虑的因素越多，最终确定的结果越准确。本实施例中在确定驾驶人语音唤醒指令词时既考虑了语音唤醒指令词的第一后验概率还考虑了对应的置信度，综合两个因素比只以某一因素来确定驾驶人语音唤醒指令词的方式更准确。具体的在确定驾驶人语音唤醒指令词时是将前述两个考虑的因素进行加权求和，根据加权求和之后的结果来确定语音唤醒指令词是否能够作为驾驶人语音唤醒指令词，在根据加权求和之后的结果来确定语音唤醒指令词是否能够作为驾驶人语音唤醒指令词时通常会设置一个预设阈值，然后将加权求和之后的结果与预设阈值进行比较，将符合比较规则的加权求和之后的结果对应的语音唤醒指令词确定为驾驶人语音唤醒指令词。需要说明的是，进行加权时每一个因素对应的权重通常是根据经验确定的，对于不同的业务需求对应的经验值可能是不同的。

如图5所示，所述装置还包括：

建立单元35，用于根据常用驾驶人的声音特征建立声纹识别模型；

匹配单元36，用于根据所述声纹识别模型将所述过滤后的语音信号中的声音特征与所述常用驾驶人的声音特征进行匹配，得到过滤后的语音信号的声纹评分。

将得到的过滤后的语音信号输入到声纹识别模型中，使过滤后的语音信号中的声音特征与常用驾驶人的声音特征进行匹配，得到过滤后的语音信号与常用驾驶人的声音的匹配度，匹配度越高，声纹评分越高。

所述确定单元34，还用于：

根据所述语音信号的声纹评分、所述第一后验概率以及所述置信度确定所述语音唤醒指令词是否为驾驶人语音唤醒指令词。

如图5所示，所述装置还包括：

能量/信噪比计算单元37，用于在对接收的语音信号进行语音活动检测，过滤掉语音信号中非人声区得到过滤后的语音信号之前，以帧为单位计算所述语音信号的能量值和信噪比；

能量值和信噪比是通过现有的计算能量值以及信噪比的算法计算得到的，本实施例中对能量值和信噪比的计算方法不做具体的限制。

滤除单元38，用于将能量值小于预设能量阈值或者信噪比小于预设预设信噪比阈值的帧从所述语音信号中滤除。

如图5所示，所述获取单元32包括：

识别解码模块321，用于将过滤后的语音信号输入到语音识别解码模型，得到所述语音唤醒指令词的第二后验概率，所述第二后验概率为所述语音信号对应被识别成的文本中每个字的后验概率；

计算模块322，用于根据第二后验概率计算由字组成的语音唤醒指令词的第一后验概率。

具体的计算由字组成的语音唤醒指令词的后验概率包括：根据预设规则对得到的字进行组合，组合后对每个语音唤醒指令词中的字的后验概率进行加权求和，最终得到每个语音唤醒指令词对应的第一后验概率。需要说明的是，预设规则中至少规定了组合的顺序以及字能够组合时所要求的字与字之间的间隔时长。其中组合的顺序为语音信号中对应的每个语音的顺序，字与字之间的间隔时长即字对应的语音之间的间隔时长，通常间隔时长过长的字不能进行组合。

如图5所示，所述确定单元34包括：

识别得分确定模块341，用于对所述语音唤醒指令词的第一后验概率以及所述语音唤醒指令词的置信度进行加权求和得到每个语音唤醒指令词的识别得分；对所述语音唤醒指令词的第一后验概率、所述语音唤醒指令词的置信度以及所述语音信号的声纹评分进行加权求和得到每个语音唤醒指令词的识别得分；

比较模块342，用于将识别得分与预设得分阈值进行比较；

确定模块343，用于若识别得分大于所述预设得分阈值，则将识别得分对应的语音唤醒指令词确定为驾驶人语音唤醒指令词。

本发明实施例提供的减少驾驶人语音唤醒指令词误触发的装置，能够在对原始语音信号进行过滤并最终确定驾驶人语音唤醒指令词的过程中先对语音信号进行了粗略的过滤，然后对过滤后的语音信号进行处理，在处理的过程中不仅考虑了语音唤醒指令词的第一后验概率还综合了语音唤醒指令词的置信度，根据多方面的因素来确定驾驶人语音唤醒指令词。相比于现有技术没有提高匹配的阈值，因此没有降低触发的灵敏度，而且通过多层过滤以及多种因素综合来确定驾驶人语音唤醒指令词，所以能够使最终确定的驾驶人语音唤醒指令词更加的准确，因此可以更好的降低语音唤醒指令词的误触发率。

所述减少驾驶人语音唤醒指令词误触发装置包括处理器和存储器，上述语音活动检测单元31、获取单元32、置信度计算单元33以及确定单元34等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来提高用户需求分析结果的准确性。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述减少驾驶人语音唤醒指令词误触发的方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述减少驾驶人语音唤醒指令词误触发的方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：对接收的语音信号进行语音活动检测，过滤掉语音信号中非人声区得到过滤后的语音信号；获取过滤后的语音信号对应文本中包含的语音唤醒指令词的第一后验概率；根据所述语音唤醒指令词以及所述语音唤醒指令词的第二后验概率来计算所述语音唤醒指令词的置信度；根据所述第一后验概率以及所述置信度确定所述语音唤醒指令词是否为驾驶人语音唤醒指令词。

进一步的，根据常用驾驶人的声音特征建立声纹识别模型；

根据所述声纹识别模型将所述过滤后的语音信号中的声音特征与所述常用驾驶人的声音特征进行匹配，得到过滤后的语音信号的声纹评分。

进一步的，所述根据所述第一后验概率以及所述置信度确定所述语音唤醒指令词是否为驾驶人语音唤醒指令词，包括：

进一步的，在对接收的语音信号进行语音活动检测，过滤掉语音信号中非人声区得到过滤后的语音信号之前，所述方法还包括：

以帧为单位计算所述语音信号的能量值和信噪比；

将能量值小于预设能量阈值或者信噪比小于预设预设信噪比阈值的帧从所述语音信号中滤除。

进一步的，所述获取过滤后的语音信号对应文本中包含的语音唤醒指令词的第一后验概率包括：

将过滤后的语音信号输入到语音识别解码模型，得到所述语音唤醒指令词的第二后验概率，所述第二后验概率为所述语音信号对应被识别成的文本中每个字的后验概率；

根据第二后验概率计算由字组成的语音唤醒指令词的第一后验概率。

进一步的，所述确定所述语音唤醒指令词是否为驾驶人语音唤醒指令词包括：

对所述语音唤醒指令词的第一后验概率以及所述语音唤醒指令词的置信度进行加权求和得到每个语音唤醒指令词的识别得分；或，对所述语音唤醒指令词的第一后验概率、所述语音唤醒指令词的置信度以及所述语音信号的声纹评分进行加权求和得到每个语音唤醒指令词的识别得分；

将识别得分与预设得分阈值进行比较；

若识别得分大于所述预设得分阈值，则将识别得分对应的语音唤醒指令词确定为驾驶人语音唤醒指令词。

本发明实施例中的设备可以是服务器、PC、PAD、手机等。

本发明实施例还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：对接收的语音信号进行语音活动检测，过滤掉语音信号中非人声区得到过滤后的语音信号；获取过滤后的语音信号对应文本中包含的语音唤醒指令词的第一后验概率；根据所述语音唤醒指令词以及所述语音唤醒指令词的第二后验概率来计算所述语音唤醒指令词的置信度；根据所述第一后验概率以及所述置信度确定所述语音唤醒指令词是否为驾驶人语音唤醒指令词。

进一步的，根据常用驾驶人的声音特征建立声纹识别模型；

以帧为单位计算所述语音信号的能量值和信噪比；

将识别得分与预设得分阈值进行比较；

本发明公开了一种

A1、一种减少驾驶人语音唤醒指令词误触发的方法，所述方法包括：

A2、如A1所述的方法，所述方法还包括：

根据常用驾驶人的声音特征建立声纹识别模型；

A3、如A2所述的方法，所述根据所述第一后验概率以及所述置信度确定所述语音唤醒指令词是否为驾驶人语音唤醒指令词，包括：

A4、如A1-A3中任一项所述的方法，在对接收的语音信号进行语音活动检测，过滤掉语音信号中非人声区得到过滤后的语音信号之前，所述方法还包括：

以帧为单位计算所述语音信号的能量值和信噪比；

A5、如A4所述的方法，所述获取过滤后的语音信号对应文本中包含的语音唤醒指令词的第一后验概率包括：

A6、如A5所述的方法，所述确定所述语音唤醒指令词是否为驾驶人语音唤醒指令词包括：

将识别得分与预设得分阈值进行比较；

B7、一种减少驾驶人语音唤醒指令词误触发的装置，所述装置包括：

B8、如B7所述的装置，所述装置还包括：

建立单元，用于根据常用驾驶人的声音特征建立声纹识别模型；

匹配单元，用于根据所述声纹识别模型将所述过滤后的语音信号中的声音特征与所述常用驾驶人的声音特征进行匹配，得到过滤后的语音信号的声纹评分。

B9、如B8所述的装置，所述确定单元，还用于：

B10、如B7-B9中任一项所述的装置，所述装置还包括：

能量/信噪比计算单元，用于在对接收的语音信号进行语音活动检测，过滤掉语音信号中非人声区得到过滤后的语音信号之前，以帧为单位计算所述语音信号的能量值和信噪比；

滤除单元，用于将能量值小于预设能量阈值或者信噪比小于预设预设信噪比阈值的帧从所述语音信号中滤除。

B11、如B10所述的装置，所述获取单元包括：

识别解码模块，用于将过滤后的语音信号输入到语音识别解码模型，得到所述语音唤醒指令词的第二后验概率，所述第二后验概率为所述语音信号对应被识别成的文本中每个字的后验概率；

计算模块，用于根据第二后验概率计算由字组成的语音唤醒指令词的第一后验概率。

B12、如B11所述的装置，所述确定单元包括：

识别得分确定模块，用于对所述语音唤醒指令词的第一后验概率以及所述语音唤醒指令词的置信度进行加权求和得到每个语音唤醒指令词的识别得分；对所述语音唤醒指令词的第一后验概率、所述语音唤醒指令词的置信度以及所述语音信号的声纹评分进行加权求和得到每个语音唤醒指令词的识别得分；

比较模块，用于将识别得分与预设得分阈值进行比较；

确定模块，用于若识别得分大于所述预设得分阈值，则将识别得分对应的语音唤醒指令词确定为驾驶人语音唤醒指令词。

C13、一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述A1至A6中所述的减少驾驶人语音唤醒指令词误触发的方法。

D14、一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述A1至A6中所述的减少驾驶人语音唤醒指令词误触发的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种减少驾驶人语音唤醒指令词误触发的方法，其特征在于，所述方法包括：

获取过滤后的语音信号对应文本中包含的语音唤醒指令词的第一后验概率，所述第一后验概率为将一段语音信号识别为语音唤醒词的概率；

根据所述语音唤醒指令词以及所述语音唤醒指令词的第二后验概率来计算所述语音唤醒指令词的置信度，所述第二后验概率为所述语音信号对应被识别成的文本中每个字的后验概率；

根据所述第一后验概率以及所述置信度确定所述语音唤醒指令词是否为驾驶人语音唤醒指令词，包括：综合所述第一后验概率和所述置信度两个因素，将所述两个因素进行加权求和，根据所述加权求和之后的结果与一个预设阈值比较，将符合比较规则的所述加权求和之后的结果对应的语音唤醒指令词确定为驾驶人语音唤醒指令词。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据常用驾驶人的声音特征建立声纹识别模型；

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一后验概率以及所述置信度确定所述语音唤醒指令词是否为驾驶人语音唤醒指令词，包括：

4.根据权利要求1-3中任一项所述的方法，其特征在于，在对接收的语音信号进行语音活动检测，过滤掉语音信号中非人声区得到过滤后的语音信号之前，所述方法还包括：

以帧为单位计算所述语音信号的能量值和信噪比；

5.根据权利要求4所述的方法，其特征在于，所述获取过滤后的语音信号对应文本中包含的语音唤醒指令词的第一后验概率包括：

6.根据权利要求5所述的方法，其特征在于，所述确定所述语音唤醒指令词是否为驾驶人语音唤醒指令词包括：

将识别得分与预设得分阈值进行比较；

7.一种减少驾驶人语音唤醒指令词误触发的装置，其特征在于，所述装置包括：

获取单元，用于获取过滤后的语音信号对应文本中包含的语音唤醒指令词的第一后验概率，所述第一后验概率为将一段语音信号识别为语音唤醒词的概率；

置信度计算单元，用于根据所述语音唤醒指令词以及所述语音唤醒指令词的第二后验概率来计算所述语音唤醒指令词的置信度，所述第二后验概率为所述语音信号对应被识别成的文本中每个字的后验概率；

确定单元，用于根据所述第一后验概率以及所述置信度确定所述语音唤醒指令词是否为驾驶人语音唤醒指令词，包括：综合所述第一后验概率和所述置信度两个因素，将所述两个因素进行加权求和，根据所述加权求和之后的结果与一个预设阈值比较，将符合比较规则的所述加权求和之后的结果对应的语音唤醒指令词确定为驾驶人语音唤醒指令词。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述权利要求1至6中所述的减少驾驶人语音唤醒指令词误触发的方法。

10.一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述权利要求1至6中所述的减少驾驶人语音唤醒指令词误触发的方法。