CN105869622A

CN105869622A - 中文热词检测方法和装置

Info

Publication number: CN105869622A
Application number: CN201510031181.9A
Authority: CN
Inventors: 雷欣; 李倩
Original assignee: Shanghai Yishanzhi Information Technology Co Ltd
Current assignee: Volkswagen China Investment Co Ltd; Mobvoi Innovation Technology Co Ltd
Priority date: 2015-01-21
Filing date: 2015-01-21
Publication date: 2016-08-17
Anticipated expiration: 2035-01-21
Also published as: CN105869622B

Abstract

本发明提供了一种中文热词检测方法和装置。该方法包括：收集用户语音的连续的多个片段；参照目标中文热词中每个字的标准语音特征，获取目标中文热词中各个字在每个片段中出现的概率；基于上述目标中文热词中各个字在每个片段中出现的概率，获取在不违背目标中文热词的字的标准前后顺序的前提下所述多个片段中出现该目标中文热词的最大概率；基于所述最大概率检测在用户语音中是否有目标中文热词。本发明能够支持以字为分割单位的中文热词检测，并保证检测出的热词与目标中文热词中的字的顺序一致。

Description

中文热词检测方法和装置

技术领域

本发明涉及语音检测技术，特别涉及以字为分割单位中文语音热词检测技术。

背景技术

语音热词检测技术日益发展，并在语音搜索以及热词唤醒等方面开始广泛应用。现有的热词检测技术多是基于音节对目标热词进行分割，这种基于音节的热词分割非常适用于英文单词的提取，但不适用于中文语言材料的分析。此外，目前的语音热词检测方法无法在中文热词检测中保证测出的热词与目标中文热词中的字的顺序一致。

发明内容

本发明解决的技术问题之一是，能够支持以字为分割单位的中文热词检测，并保证检测出的热词与目标中文热词中的字的顺序一致。

根据本发明的一个实施例，提供了一种中文热词检测方法，包括：收集用户语音的连续的多个片段；参照目标中文热词中每个字的标准语音特征，获取目标中文热词中各个字在每个片段中出现的概率；基于上述目标中文热词中各个字在每个片段中出现的概率，获取在不违背目标中文热词的字的标准前后顺序的前提下所述多个片段中出现该目标中文热词的最大概率；基于所述最大概率检测在用户语音中是否有目标中文热词。

根据本发明的一个实施例，提供了一种中文热词检测装置，包括：收集模块，被配置为收集用户语音的连续的多个片段；第一获取模块，被配置为参照目标中文热词中每个字的标准语音特征，获取目标中文热词中各个字在每个片段中出现的概率；第二获取模块，被配置为基于上述目标中文热词中各个字在每个片段中出现的概率，获取在不违背目标中文热词的字的标准前后顺序的前提下所述多个片段中出现该目标中文热词的最大概率；检测模块，被配置为基于所述最大概率检测在用户语音中是否有目标中文热词。

由于本发明实施例中，判断目标中文热词在用户语音中是否出现是通过在不违背目标中文热词的字的标准前后顺序的前提下计算最大概率进行的，这样就保证了所检测出的热词与目标中文热词中的字的顺序一致。另外，现有技术的热词检测方法中，多数是以音节为基本单位对语音进行分割的，这种分割方法不利于中文形式的用户热词语音的识别。中文的词语、短语、语句等语言资料是由“字”按照一定的顺序连接而成，从而表达一定语义的。因此“字”是中文词语和语句的基本单位。对于不同的人，说话的快慢，停顿的方式可能不同，但针对每个字而言，发音的基本特征是非常相近的(这里不考虑方言带来的干扰)，因此通过以字为单位对目标中文热词进行分割，提取每个字的标准语音特征作为参照，可以有效地抓住目标中文热词的基本特征，降低错误检测率。

本领域普通技术人员将了解，虽然下面的详细说明将参考图示实施例、附图进行，但本发明并不仅限于这些实施例。而是，本发明的范围是广泛的，且意在仅通过后附的权利要求限定本发明的范围。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是根据本发明的一个实施例的一种中文热词检测方法的流程图。

图2是根据本发明的另一个实施例的一种中文热词检测装置的框图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1是根据本发明的一个实施例的一种中文热词检测方法1的流程图。本发明的方法主要通过计算机设备上的处理器或操作程序来完成，将该处理器或操作程序称为一种中文热词检测装置，以下简称检测装置。该计算机设备包括但不限于电脑、手机、平板电脑，以及带有该处理器或操作程序的智能可穿戴设备，如智能手环，智能手表，以及智能眼镜等。

热词是指与用于发出的常规语音指令不同的一些特殊的语音指令，它们通常与应用或计算机设备的总体状态相关而不涉及用户的具体语音指令。例如，对于应用的唤醒、关闭、计算机设备的开启、关闭等。举一个具体的例子。对于应用“出门问问”来说，只要用户在计算机设备上安装了“出门问问”，即使该应用在未开启的状态下它也以低功耗不停定时检测是否用户说出了热词“你好问问”，一旦例如通过本发明实施例的中文热词检测方法1检测到了用户语音中有目标中文热词“你好问问”，就自动唤醒或开启该应用。用户就可以针对该应用发出各种具体的语音查询等。

中文热词是指一切中文形式的热词。

步骤110，收集用户语音的连续的多个片段。

用户语音是指用户发出的语音，它可能是中文热词(诸如“你好问问”)，也可能是其它语音。本发明的实施例用来从用户语音中检测出它是否是中文热词或包括中文热词。

所述多个片段可以是等时间长度的多个片段，也可以是不等时间长度的多个片段。

在所述多个片段可以是等时间长度的多个片段的情况下，例如，将检测到有用户的声音出现的一刻设为0，多个片段可以为0-0.5s、0.5s-1s、1s-1.5s、1.5s-2s、2s-2.5s等。一般来说，根据人的正常语速，让每个片段的时间长度不大于正常人说一个中文字的时间长度。

用户语音的连续的多个片段可以通过计算机设备的音频接收器等收集。

步骤120，参照目标中文热词中每个字的标准语音特征，获取目标中文热词中各个字在每个片段中出现的概率。

目标中文热词是指预先设定的中文形式的热词，例如预先设定“你好问问”作为开启“出门问问”应用的热词。

字的标准语音特征可以是这个字发音的声波波形，也可以是对该字发音声波波形处理后的数据，该语音特征的出现就代表了该字的出现。

目标中文热词中每个字的标准语音特征可以是从不同的人说目标中文热词中每个字的语音的样本中利用已知的机器学习方法得到的。

例如，目标中文热词是“你好问问”。将大量的人说“你”、“好”、“问1”、“问2”中的每个字的语音作为样本输入机器学习的一个模型，该模型从大量的人说“你”的语音样本的声波波形中进行学习，学习所有这些“你”的语音样本的声波波形的规律，经处理后就得到了共性的语音特征作为“你”的标准语音特征。当该模型再接收到一个新的字的语音后，该模型就能识别出该新的字是不是“你”、以及是“你”的概率。“好”、“问1”、“问2”的标准语音特征也可以类似地得到。

目标中文热词中每个字的标准语音特征也可以是事先规定的，例如来自于教科书。

在一种实施方式中，参照目标中文热词中每个字的标准语音特征获取目标中文热词中各个字在每个片段中出现的概率是通过深层神经网络训练方法实现的。

深层神经网络训练以目标中文热词中每个字的标准语音特征为标准，通过差值优化，不断地对每个片段是否出现目标中文热词中的字进行分析，最终得到目标中文热词中各个字在每个片段中出现的概率。深层神经网络训练方法是成熟的现有技术，在这里就不再详细表述。当然本领域的技术人员也可采用其他机器学习方法作为该步骤的分析方法，比如多层神经网络训练等。

步骤130，基于上述目标中文热词中各个字在每个片段中出现的概率，获取在不违背目标中文热词的字的标准前后顺序的前提下所述多个片段中出现该目标中文热词的最大概率。

在一种实施方式中，步骤130是通过基于时间的隐藏马尔科夫模型实现的，其中在所述基于时间的隐藏马尔科夫模型中，以目标中文热词的字的标准前后顺序，限制所述基于时间的隐藏马尔科夫模型在各个连续片段间出现的目标中文热词中的字之间的转移路径。

目标中文热词的字的标准前后顺序是指规定的目标中文热词中字的前后顺序。例如，规定“你好问问”是启动应用“出门问问”的热词，则标准前后顺序就是“你”、“好”、“问1”、“问2”。转移路径是隐藏马尔科夫模型中的术语，是将各个片段中判断出来的字和相应概率相连接形成的路径。

为了清晰而简洁的描述基于时间的隐藏马尔科夫模型的工作流程，建立以下表格进行阐释，该表格仅作为示例，而不作为对本发明的限制。

	你	好	问	问
					片段n	…	…	…	…
片段n1	0.1	0.5	0.02	0.1

片段n2	0.6	0.1	0.02	0.02
					片段n3	0.4	0.4	0.01	0.01
片段n4	0.1	0.2	0.6	0.01
					片段n5	0.01	0.05	0.8	0.1
片段n6	0	0.01	0.4	0.4
					片段n7	0	0	0.5	0.5
片段n8	…	…	…	…

该表中，目标中文热词为“你好问问”。每一行的数字表示在每一片段中，出现目标中文热词中各个相应字的概率。

对片段n1至n7这个7个连续的片段，按照目标中文热词“你好问问”的顺序，在片段n1中应当找到“你”，而不是概率更高的“好”，作为基于时间的隐藏马尔科夫模型的起始；由于必须以“你好问问”为顺序，因此由片段n1向片段n2的转移路径只有“你”到“你”，“你”到“好”两种，又因为要找最大概率转移路径，片段n2中“你”的概率大于“好”，因此由语音单元n1到语音单元n2的转移路径是“你”到“你”；基于以上原理，由语音单元n2到语音单元n3的转移路径有“你”到“你”，“你”到“好”两种，因为在语音单元n3中“你”和“好”概率相等，因此由语音单元n2到语音单元n3的转移路径有两种“你”到“你”和“你”到“好”；那么接下来的路径就有“你”到“你”，“你”到“好”，“好”到“问”三种，根据概率最大来判断，应为“好”到“问”；其后的按此原则依次类推，就可以得到该七个连续片段中，目标中文热词中的字的转移路径为：“你”—>“你”—>“好”—>“问”—>“问”—>“问”—>“问”，该路径出现的概率为与在不违背目标中文热词的字的标准前后顺序的前提下所述多个片段中出现该目标中文热词的最大概率。

根据本发明的一个实施例，所述最大概率的算法是将转移路径中所有字出现概率进行等权相加再除以转移路径中字的个数。比如，在上述表格中，所述最大概率为(0.1+0.6+0.4+0.6+0.8+0.4+0.5)/7＝0.49。当然，最大概率的算法也可以是其他合理的形式。

步骤140，基于所述最大概率检测在用户语音中是否有目标中文热词。

在一种实施方式中，可以将所述最大概率与预定阈值相比较，大于预定阈值的，认为在所述用户语音中有目标中文热词。

例如，该预定阈值设置为1除以目标中文热词中的个数。比如，在上述表格中，所述接受概率阈值为1/4＝0.25。将步骤130中获取的最大概率与该预定阈值比较。由于0.49大于0.25，那么认为在上述表格的例子中，片段n1至n7这7个连续的片段中出现了目标中文热词“你好问问”。当然，预定阈值也可以通过其他合理的形式设定。

如果只应用深层神经网络训练对片段进行分析，就会对收集片段的时间长度加以限制。因为深层神经网络训练智能在语音层面上保证一个小时间片段上的顺序，最多300ms左右。如果欲在语音层面上保证长时间的顺序，就要加长检测时间长度，比如大于300ms，这种加长检测时间长度，即加长检测延迟的手段不但会给之后的分析带来更高的能耗，而且依然不能保证字层面上的顺序。本发明实施例获取在不违背目标中文热词的字的标准前后顺序的前提下所述多个片段中出现该目标中文热词的最大概率从而检测用户语音中是否有目标中文热词的方式还减轻了加长检测时间长度的负面影响。

如图2所示，本发明的另一个实施例提供了一种中文热词检测装置2，包括：收集模块210，被配置为收集用户语音的连续的多个片段；第一获取模块220，被配置为参照目标中文热词中每个字的标准语音特征，获取目标中文热词中各个字在每个片段中出现的概率；第二获取模块230，被配置为基于上述目标中文热词中各个字在每个片段中出现的概率，获取在不违背目标中文热词的字的标准前后顺序的前提下所述多个片段中出现该目标中文热词的最大概率；检测模块240，被配置为基于所述最大概率检测在用户语音中是否有目标中文热词。上述各模块可以通过软件、硬件(FPGA、集成电路等)或软硬件结合的方式实现。

可选地，所述多个片段是等时间长度的多个片段。

可选地，目标中文热词中每个字的标准语音特征是从不同的人说目标中文热词中每个字的语音的样本中利用机器学习得到的。

可选地，检测模块240进一步被配置为：将所述最大概率与预定阈值相比较，大于预定阈值的，认为在所述用户语音中有目标中文热词。

可选地，第一获取模块220通过深层神经网络训练方法获取目标中文热词中各个字在每个片段中出现的概率。

可选地，第二获取模块230通过基于时间的隐藏马尔科夫模型获取在不违背目标中文热词的字的标准前后顺序的前提下所述多个片段中出现该目标中文热词的最大概率，其中在所述基于时间的隐藏马尔科夫模型中，以目标中文热词的字的标准前后顺序，限制所述基于时间的隐藏马尔科夫模型在各个连续片段间出现的目标中文热词中的字之间的转移路径。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种中文热词检测方法(1)，包括：

收集用户语音的连续的多个片段(110)；

参照目标中文热词中每个字的标准语音特征，获取目标中文热词中各个字在每个片段中出现的概率(120)；

基于上述目标中文热词中各个字在每个片段中出现的概率，获取在不违背目标中文热词的字的标准前后顺序的前提下所述多个片段中出现该目标中文热词的最大概率(130)；

基于所述最大概率检测在用户语音中是否有目标中文热词(140)。

2.根据权利要求1的中文热词检测方法，其中所述多个片段是等时间长度的多个片段。

3.根据权利要求1的中文热词检测方法，其中目标中文热词中每个字的标准语音特征是从不同的人说目标中文热词中每个字的语音的样本中利用机器学习得到的。

4.根据权利要求1的中文热词检测方法，其中基于所述最大概率检测在用户语音中是否有目标中文热词的步骤(140)包括：将所述最大概率与预定阈值相比较，大于预定阈值的，认为在所述用户语音中有目标中文热词。

5.根据权利要求1的中文热词检测方法，其中获取目标中文热词中各个字在每个片段中出现的概率的步骤(120)是通过深层神经网络训练方法实现的。

6.根据权利要求1的中文热词检测方法，其中获取在不违背目标中文热词的字的标准前后顺序的前提下所述多个片段中出现该目标中文热词的最大概率的步骤(130)是通过基于时间的隐藏马尔科夫模型实现的，其中在所述基于时间的隐藏马尔科夫模型中，以目标中文热词的字的标准前后顺序，限制所述基于时间的隐藏马尔科夫模型在各个连续片段间出现的目标中文热词中的字之间的转移路径。

7.一种中文热词检测装置(2)，包括：

收集模块(210)，被配置为收集用户语音的连续的多个片段；

第一获取模块(220)，被配置为参照目标中文热词中每个字的标准语音特征，获取目标中文热词中各个字在每个片段中出现的概率；

第二获取模块(230)，被配置为基于上述目标中文热词中各个字在每个片段中出现的概率，获取在不违背目标中文热词的字的标准前后顺序的前提下所述多个片段中出现该目标中文热词的最大概率；

检测模块(240)，被配置为基于所述最大概率检测在用户语音中是否有目标中文热词。

8.根据权利要求7的中文热词检测装置，其中所述多个片段是等时间长度的多个片段。

9.根据权利要求7的中文热词检测装置，其中目标中文热词中每个字的标准语音特征是从不同的人说目标中文热词中每个字的语音的样本中利用机器学习得到的。

10.根据权利要求7的中文热词检测装置，其中检测模块(240)进一步被配置为：将所述最大概率与预定阈值相比较，大于预定阈值的，认为在所述用户语音中有目标中文热词。