CN110570861B

CN110570861B - 用于语音唤醒的方法、装置、终端设备及可读存储介质

Info

Publication number: CN110570861B
Application number: CN201910906253.8A
Authority: CN
Inventors: 曹冰
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2022-02-25
Anticipated expiration: 2039-09-24
Also published as: CN110570861A

Abstract

本申请公开一种用于语音唤醒的方法、装置、设备及可读存储介质。该方法包括：获取语音数据；基于经训练的第一唤醒词识别模型，对语音数据进行唤醒词识别，获得第一识别结果及其对应的第一置信度；根据第一置信度与第一可信度阈值的比较结果，确定是否需要再次对语音数据进行唤醒词识别；当确定需要再次对语音数据进行唤醒词识别时，基于经训练的第二唤醒词识别模型，对语音数据进行唤醒词识别，获得第二识别结果及其对应的第二置信度；根据第二置信度与第二可信度阈值的比较结果，确定是否需要调整第一可信度阈值，并确定是否进行语音唤醒；以及在确定进行语音唤醒后，根据是否在预设的时间范围内接收到语音指令，确定是否调整第二可信度阈值。

Description

用于语音唤醒的方法、装置、终端设备及可读存储介质

技术领域

本公开涉及语音识别技术领域，具体而言，涉及一种用于语音唤醒的方法、装置、终端设备及可读存储介质。

背景技术

随着智能语音技术的发展，用户可以使用语音对智能设备进行唤醒，以使智能设备能够根据用户的语音指令执行相应操作。

目前，在对唤醒词进行识别时，还存在因识别准确度不高，导致智能设备不能被唤醒，或者智能设备被误唤醒的问题，影响了用户体验。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供一种用于语音唤醒的方法、装置、设备及可读存储介质。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种用于语音唤醒的方法，包括：获取被采集到的语音数据；基于经训练的第一唤醒词识别模型，对所述语音数据进行唤醒词识别，获得第一识别结果及其对应的第一置信度；根据所述第一置信度与第一可信度阈值的比较结果，确定是否需要再次对所述语音数据进行唤醒词识别；当确定需要再次对所述语音数据进行唤醒词识别时，基于经训练的第二唤醒词识别模型，对所述语音数据进行唤醒词识别，获得第二识别结果及其对应的第二置信度；根据所述第二置信度与第二可信度阈值的比较结果，确定是否需要调整所述第一可信度阈值，并确定是否进行语音唤醒；以及在确定进行语音唤醒后，根据是否在预设的时间范围内接收到语音指令，确定是否调整所述第二可信度阈值。

根据本公开的第二方面，提供一种用于语音唤醒的装置，包括：语音采集模块，用于获取被采集到的语音数据；第一识别模块，用于基于经训练的第一唤醒词识别模型，对所述语音数据进行唤醒词识别，获得第一识别结果及其对应的第一置信度；第一确定模块，用于根据所述第一置信度与第一可信度阈值的比较结果，确定是否需要再次对所述语音数据进行唤醒词识别；第二识别模块，用于当所述第一确定模块确定需要再次对所述语音数据进行唤醒词识别时，基于经训练的第二唤醒词识别模型，对所述语音数据进行唤醒词识别，获得第二识别结果及其对应的第二置信度；第二确定模块，用于根据所述第二置信度与第二可信度阈值的比较结果，确定是否需要调整所述第一可信度阈值，并确定是否进行语音唤醒；以及第三确定模块，用于在所述第二确定模块确定进行语音唤醒后，根据是否在预设的时间范围内接收到语音指令，确定是否调整所述第二可信度阈值。

根据本公开的第三方面，提供一种终端设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，所述处理器执行所述可执行指令时实现如上述用于语音唤醒的方法。

根据本公开的第四方面，提供一种计算机可读存储介质，其上存储有计算机可执行指令，所述可执行指令被处理器执行时实现如上述用于语音唤醒的方法。

根据本公开实施方式提供的用于语音唤醒的方法，提供了多级唤醒机制，基于第一唤醒词识别模型进行第一次唤醒词识别，如果通过本次唤醒词识别，则基于第二唤醒词识别模型再进行第二次唤醒词识别，从而降低误唤醒的概率；此外，在每次唤醒词识别时，使用不同的可信度阈值进行判断，并可以动态地对第一可信度阈值和第二可信度阈值进行调整，以满足用户语音差异化较大的特点。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例，本公开的上述和其它目标、特征及优点将变得更加显而易见。

图1是根据一示例性实施方式示出的一种用于语音唤醒的方法的流程图。

图2是根据一示例性实施方式示出的另一种用于语音唤醒的方法的流程图。

图3是根据一示例性实施方式示出的再一种用于语音唤醒的方法的流程图。

图4是根据一示例性实施方式示出的再一种用于语音唤醒的方法的的流程图。

图5是根据一示例性实施方式示出的一种用于语音唤醒的装置的框图。

图6是根据一示例性实施方式示出的另一种用于语音唤醒的装置的框图。

图7是根据一示例性实施方式示出的一种终端设备的结构示意图。

图8是根据一示例性实施方式示出的一种计算机可读存储介质的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，在本公开的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

如前所述，目前的语音唤醒技术还存在因识别准确度不高而导致的无法唤醒智能设备或者智能设备被误唤醒的问题。

在相关技术中，通常使用固定的阈值来与语音识别结果的置信度进行比较，以确定其是否为唤醒词语音。但固定的阈值通常不能很好满足不同用户的差异化特点，导致有些用户的声音比较容易被准确识别，而有些用户的声音则不容易被准确识别。即使使用多组固定阈值来进行识别判断，但由于用户差异化的范围很大，也很难获得更为准确的识别结果。

图1所示的用于语音唤醒的方法10例如可以应用于终端设备中。该终端设备例如可以是终端或通信终端，该终端或通信终端包括但不限于被设置成经由有线线路连接，如经由公共交换电话网络(public switched telephone network，PSTN)、数字用户线路(digital subscriber line，DSL)、数字电缆、直接电缆连接，以及/或另一数据连接/网络和/或经由例如，针对蜂窝网络、无线局域网(wireless local area network，WLAN)、诸如手持数字视频广播(digital video broadcasting handheld，DVB-H)网络的数字电视网络、卫星网络、调幅-调频(amplitude modulation-frequency modulation，AM-FM)广播发送器，以及/或另一通信终端的无线接口接收/发送通信信号的装置。被设置成通过无线接口通信的通信终端可以被称为“无线通信终端”、“无线终端”以及/或“移动终端”。移动终端的示例包括，但不限于卫星或蜂窝电话；可以组合蜂窝无线电电话与数据处理、传真以及数据通信能力的个人通信系统(personal communication system，PCS)终端；可以包括无线电电话、寻呼机、因特网/内联网接入、Web浏览器、记事簿、日历以及/或全球定位系统(global positioning system，GPS)接收器的个人数字助理(Personal DigitalAssistant，PDA)；以及常规膝上型和/或掌上型接收器或包括无线电电话收发器的其它电子装置。此外，该终端还可以包括但不限于诸如电子书阅读器、智能穿戴设备、无线鼠标、无线键盘、无线耳机、蓝牙音箱等电子设备。

参考图1，用于语音唤醒的方法10包括：

在步骤S102中，获取被采集到的语音数据。

例如可以使用终端设备的音频组件中的麦克风或麦克风阵列来采集用户的语音数据。

在步骤S104中，基于经训练的第一唤醒词识别模型，对语音数据进行唤醒词识别，获得第一识别结果及其对应的第一置信度。

第一唤醒词识别模型可以为深度神经网络，如卷积神经网络(ConvolutionalNeural Networks,CNN)。卷积神经网络仿造生物的视知觉机制构建，可以进行监督学习和非监督学习，其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征进行学习、有稳定的效果且对数据没有额外的特征工程要求。

基于经训练的第一唤醒词识别模型，对获取到的语音数据进行唤醒词识别，获得是否为预设的唤醒词的第一识别结果及其对应的第一置信度。第一置信度如可以以百分数形式表示，但本发明不以此为限。

在步骤S106中，根据第一置信度与第一可信度阈值的比较结果，确定是否需要再次对语音数据进行唤醒词识别。

将获得的第一置信度与预设的第一可信度阈值进行比较，并根据比较结果来确定是否需要再次对语音数据进行唤醒词识别。

在步骤S108中，当确定需要再次对语音数据进行唤醒词识别时，基于经训练的第二唤醒词识别模型，对语音数据进行唤醒词识别，获得第二识别结果及其对应的第二置信度。

第二唤醒词识别模块例如也可以为深度神经网络。经过训练后，可以用于再次对获取的语音数据进行唤醒词识别，以获得是否为唤醒词的第二识别结果及其对应的第二置信度。第二置信度如也可以以百分数形式表示，但本发明不以此为限。

在一些实施例中，第二唤醒词识别模型的识别精度可以高于第一唤醒词识别模型的识别精度。如第二唤醒词识别模型中的识别参数大于第一唤醒词识别模型。也即，第一唤醒词识别模型的计算量低于第二唤醒词识别模型的计算量。第一唤醒词识别模型可以用于在终端设备处于休眠状态时的初步识别，因其计算量很低，可以在终端设备中部分处于激活状态的计算部件中进行，如果经第一唤醒词识别模型识别的结果不符合一级唤醒的条件，则无需对终端设备进行深度唤醒，从而可以节省终端设备的电量。而如果经第一唤醒词识别模型识别的结果符合一级唤醒的条件，则可以深度唤醒终端设备，以基于第二唤醒词识别模型进行更为精确的唤醒词识别判断。

在步骤S110中，根据第二置信度与第二可信度阈值的比较结果，确定是否需要调整第一可信度阈值，并确定是否进行语音唤醒。

在本公开实施例中，第一可信度阈值不是固定值，其可以根据第二置信度与第二可信度阈值的比较结果来进行动态调整，从而满足用户语音差异化较大的特点。

在步骤S112中，在确定进行语音唤醒后，根据是否在预设的时间范围内接收到语音指令，确定是否调整第二可信度阈值。

进一步地，在确定进行语音唤醒后，还可以根据是否收到用户的语音指令来进一步动态调整第二可信度阈值。

例如可以由安装于终端设备中的语音助手应用程序来执行语音唤醒操作。

该预设的时间范围可以在应用中根据实际需求而设定，本发明不以此为限。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施方式。

图2是根据一示例性实施方式示出的另一种用于语音唤醒的方法的流程图。图2所示的用于语音唤醒的方法20，同样可以应用于上述的终端设备中。

参考图2，用于语音唤醒的方法20包括：

在步骤S202中，获取被采集到的语音数据。

在步骤S204中，基于经训练的第一唤醒词识别模型，对语音数据进行唤醒词识别，获得第一识别结果及其对应的第一置信度。

步骤S202及步骤S204与方法10中的步骤S102及步骤S104相同，在此不再赘述。

在步骤S206中，判断第一置信度是否大于第一可信度阈值；如果是，进入步骤S208；否则，进入步骤S222。

当第一置信度大于第一可信度阈值时，确定通过基于第一唤醒词识别模型的第一次唤醒词识别，进入步骤S208。否则，进入步骤S222，继续判断第一置信度是否接近但未达到第一可信度阈值，也即判断第一置信度是否存疑。

在步骤S208中，基于经训练的第二唤醒词识别模型，对语音数据进行唤醒词识别，获得第二识别结果及其对应的第二置信度。

继续基于第二唤醒词识别模型，进行第二次唤醒词识别。

在步骤S210中，判断第二置信度是否大于第二可信度阈值；如果是，进入步骤S212；否则，进入步骤S224。

当第二置信度大于第二可信度时，确定通过上述第二次唤醒词识别，进入步骤S212，以调整第一可信度阈值；否则，进入步骤S224，继续判断第二置信度是否接近但未达到第二可信度阈值，也即判断第二置信度是否存疑。

在步骤S212中，当第一置信度小于第一可信度阈值且大于第一接近阈值时，降低第一可信度阈值。

当通过了上述的第二次唤醒词识别，但在上述的第一次唤醒词识别中第一置信度存疑时，降低第一可信度阈值。例如可以以一预设的固定步长降低该第一可信度阈值，或者还可以根据第一置信度与第一可信度阈值之间的接近程度来动态地确定调整步长。

在步骤S214中，进行语音唤醒。

在步骤S216中，判断是否在预设的时间范围内接收到语音指令，如果是，进入步骤S218；否则，进入步骤S220。

在进行语音唤醒后，继续判断此次唤醒是否有效，如可以通过判断是否在预设的时间范围内接收到语音指令，来判断此次唤醒是否有效。

在步骤S218中，当第二置信度小于第二可信度阈值且大于第二接近阈值时，降低第二可信度阈值。

当确定此次唤醒有效，但在上述的第二次唤醒词识别中第二置信度存疑时，降低第二可信度阈值。例如可以以一预设的固定步长降低该第二可信度阈值，或者还可以根据第二置信度与第二可信度阈值之间的接近程度来动态地确定调整步长。

在步骤S220中，当第二置信度大于第二可信度阈值时，提升第二可信度阈值。

当确定此次无效，也即没有在预设的时间范围内收到用户的语音指令，但通过了上述的第二次唤醒词识别时，提升第二可信度阈值。例如可以以一预设的固定步长提升该第二可信度阈值，或者还可以根据第二置信度与第二可信度阈值之间的接近程度来动态地确定调整步长。

在步骤S222中，判断第一置信度是否小于第一可信度阈值且大于第一接近阈值；如果是，则进入步骤S208；否则，返回步骤S202。

在步骤S224中，判断第二置信度是否小于第二可信度阈值且大于第二接近阈值；如果是，则进入步骤S226；否则，返回步骤S202。

在步骤S226，当第一置信度大于第一可信度阈值时，提升第一可信度阈值。

当第二置信度存疑，但第一置信度大于第一可信度阈值(也即通过了第一次唤醒词识别)时，提升第一可信度阈值。例如可以以一预设的固定步长提升该第一可信度阈值，或者还可以根据第一置信度与第一可信度阈值之间的接近程度来动态地确定调整步长。

上述的第一接近阈值和第二接近阈值也可以根据预设时间内满足置信度存疑条件的次数进行动态调整。例如，满足第一置信度存疑条件的次数越多则接近程度越低(也即第一接近阈值越高)，而满足第一置信度条件的次数越少则接近程度越高(也即第一接近阈值越低)。同样地，满足第二置信度存疑条件的次数越多则接近程度越低(也即第二接近阈值越高)，而满足第二置信度条件的次数越少则接近程度越高(也即第二接近阈值越低)。

本公开实施例除了根据上述的第一次唤醒词识别结果和第二次唤醒词识别结果来动态调整第一可信度阈值外，还可以根据此次唤醒是否有效来调整第二可信度阈值，这样的可信度阈值调整方式无需用户的主动参与，仅根据用户正常的语音唤醒操作即可以进行，降低了对用户的操作要求。

图3是根据一示例性实施方式示出的再一种用于语音唤醒的方法的流程图。与图1所示的用于语音唤醒的方法10不同之处在于，图3所示的用于语音唤醒的方法还提供了根据第二置信度与第二可信度阈值的比较结果，确定是否进行语音唤醒的又一个实施例，也即图3所示的方法是方法10中步骤S110的说明。

参考图3，步骤S110包括：

在步骤S1102中，当第二置信度大于第二可信度阈值，或者第二置信度小于第二可信度且大于第二接近阈值时，对语音数据进行声纹识别，以确定语音数据的发音者是否与预录制的唤醒词的发音者是否属于同一个人。

在通过了上述的第二次唤醒词识别或者对第二次唤醒词识别结果存疑时，还可以继续对语音数据进行声纹识别。上述的唤醒词识别主要用于识别语音数据中是否包括了预设的唤醒词，而声纹识别则用于确定语音数据的发音者是否与预录制的唤醒词的发音者是否属于同一个人。

声纹识别例如可以通过经训练的声纹识别模型来进行识别，或者也可以根据上述的第二唤醒词识别模型来进行识别，也即在上述第二唤醒词识别模型训练过程中，除了对唤醒词进行训练学习外，还对语音的声纹进行训练学习，从而可以对语音数据的声纹进行识别。

在步骤S1104中，当语音数据的发音者是否与预录制的唤醒词的发音者属于同一个人时，进行语音唤醒。

本公开实施例进一步提供了声纹识别方法，也即在前述二次唤醒词识别的基础上，还需要通过声纹识别，也即确定语音数据的发音者是否与预录制的唤醒词的发音者属于同一个人时，才可以进行语音唤醒，从而提升了语音唤醒的安全性。

图4是根据一示例性实施方式示出的再一种用于语音唤醒的方法的的流程图。与图1所示的方法10不同之处在于，在方法10的步骤S102之前，图4还进一步提供了对唤醒词的获取方法。

参考图4，用于语音唤醒的方法40还进一步包括：

在步骤S402中，获取被采集到的唤醒词语音数据。

例如，可以在用户初次启用语音唤醒功能(如初次启动语音助手)时，或者在用户需要更换唤醒词时，通过如上述的麦克风来采集用户输入的唤醒词语音数据。

在步骤S404中，提取唤醒词语音数据中的语音特征。

语音特征可以包括：唤醒词语音特征和/或声纹语音特征。其中，唤醒词语音特征可以被深度神经网络学习后，用于上述的识别唤醒词。声纹语音特征可以被深度神经网络学习后，用于上述的声纹识别。

在步骤S406中，基于提取的语音特征建立语音模型。

其中，第一唤醒词识别模型与第二唤醒词模型均基于该语音模型进行学习。

在对第一唤醒词识别模型和/或第二唤醒词模型进行训练时，例如可以获取大量的训练样本，每个训练样本包括：样本语音信息和对该样本语音信息是否为上述语音模型的标注信息。将大量的训练样本分别输入至初始神经网络模型，可以得到各样本语音信息对应的预测信息，其中，预测信息可以表征样本语音信息为唤醒语音信息的概率。之后，将各样本语音信息对应的预测信息与标注信息进行比较。根据比较结果确定初始神经网络模型是否达到预设的优化目标，从而将达到预设目标的初始神经网络模型作为训练完成的神经网络模型。

上述对第一唤醒词识别模型和/或第二唤醒词识别模型的训练过程可以在上述终端设备中进行，或者也可以在其他计算设备(如服务器等)上进行，在终端设备出厂时，将其预置于终端设备中。或者，通过网络连接，将上述模型传输给终端设备。

本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由处理器执行的计算机程序。在该计算机程序被处理器执行时，执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施方式的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图5是根据一示例性实施方式示出的一种用于语音唤醒的装置的框图。图5所示的用于语音唤醒的装置50如可以应用或被包含于上述的终端设备中。

参考图5，用于语音唤醒的装置50包括：语音采集模块502、第一识别模块504、第一确定模块506、第二识别模块508、第二确定模块510及第三确定模块512。

其中，语音采集模块502用于获取被采集到的语音数据。

第一识别模块504用于基于经训练的第一唤醒词识别模型，对语音数据进行唤醒词识别，获得第一识别结果及其对应的第一置信度。

第一确定模块506用于根据第一置信度与第一可信度阈值的比较结果，确定是否需要再次对语音数据进行唤醒词识别。

第二识别模块508用于当第一确定模块506确定需要再次对语音数据进行唤醒词识别时，基于经训练的第二唤醒词识别模型，对语音数据进行唤醒词识别，获得第二识别结果及其对应的第二置信度。

第二确定模块510用于根据第二置信度与第二可信度阈值的比较结果，确定是否需要调整第一可信度阈值，并确定是否进行语音唤醒。

第三确定模块512用于在第二确定模块510确定进行语音唤醒后，根据是否在预设的时间范围内接收到语音指令，确定是否调整第二可信度阈值。

在一些实施例中，第一确定模块506用于当第一置信度大于第一可信度阈值时，确定需要再次对语音数据进行唤醒词识别；第二确定模块510用于当第二置信度小于第二可信度阈值且大于第二接近阈值时，提升第一可信度阈值。

在一些实施例中，第一确定模块506用于当第一置信度小于第一可信度阈值且大于第一接近阈值时，确定需要再次对语音数据进行唤醒词识别；第二确定模块510用于当第二置信度大于第二可信度阈值时，降低第一可信度阈值。

在一些实施例中，第二确定模块510用于当第二置信度大于第二可信度阈值时，确定进行语音唤醒；第三确定模块512用于当没有在时间范围内接收到语音指令时，提升第二可信度阈值。

在一些实施例中，第二确定模块510用于当第二置信度小于第二可信度阈值且大于第二接近阈值时，确定进行语音唤醒；第三确定模块512用于当在时间范围内接收到了语音指令时，降低第二可信度阈值。

在一些实施例中，第二确定模块510包括：声纹识别单元及语音唤醒单元；声纹识别单元用于当第二置信度大于第二可信度阈值，或者第二置信度小于第二可信度且大于第二接近阈值时，对语音数据进行声纹识别，以确定语音数据的发音者是否与预录制的唤醒词的发音者是否属于同一个人；语音唤醒单元用于当语音数据的发音者是否与预录制的唤醒词的发音者属于同一个人时，进行语音唤醒。

根据本公开实施方式提供的用于语音唤醒的装置，提供了多级唤醒机制，基于第一唤醒词识别模型进行第一次唤醒词识别，如果通过本次唤醒词识别，则基于第二唤醒词识别模型再进行第二次唤醒词识别，从而降低误唤醒的概率；此外，在每次唤醒词识别时，使用不同的可信度阈值进行判断，并可以动态地对第一可信度阈值和第二可信度阈值进行调整，以满足用户语音差异化较大的特点。

图6是根据一示例性实施方式示出的另一种用于语音唤醒的装置的框图。与图5所示的用于语音唤醒的装置50不同之处在于，如图6所示用于语音唤醒的装置60还进一步包括：第二语音获取模块602、语音特征提取模块604及语音模型建立模块606。

其中，第二语音获取模块602用于获取被采集到的唤醒词语音数据。

语音特征提取模块604用于提取唤醒词语音数据中的语音特征。

语音模型建立模块606用于基于提取的语音特征建立语音模型。

其中，第一唤醒词识别模型与第二唤醒词模型均基于语音模型进行学习。

在一些实施例中，第二唤醒词识别模型的识别精度高于第一唤醒词识别模型的识别精度。

需要注意的是，上述附图中所示的框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图7是根据一示例性实施方式示出的一种终端设备的结构示意图。图7中所示的设备700例如可以是上述执行本公开方法实施例的终端设备。

参照图7，设备700可以包括以下一个或多个组件：处理组件702，存储器704，电源电力组件706，多媒体组件708，音频组件710，输入/输出(I/O)的接口712，传感器组件714，以及通信组件716。

处理组件702通常控制设备700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件组件702可以包括一个或多个处理器720来执行指令，以完成上述本公开各实施方式的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理部件组件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在设备700上的操作。这些数据的示例包括用于在设备700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件706为设备700的各种组件提供电力。电源组件706可以包括电源管理系统，一个或多个电源，及其他与为设备700生成、管理和分配电力相关联的组件。

多媒体组件708包括在所述设备700和用户之间提供的一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708还可以包括一个前置摄像头和/或后置摄像头。当设备700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风(MIC)，当设备700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号。

音频组件710如可以用于采集上述的语音数据和/或唤醒词语音数据。

输入/输出(I/O)接口712为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器，用于为设备700提供各个方面的状态评估。例如，传感器组件714可以检测到设备700的打开/关闭状态，组件的相对定位，例如所述组件为设备700的显示器和小键盘，传感器组件714还可以检测设备700或设备700一个组件的位置改变，用户与设备700接触的存在或不存在，设备700方位或加速/减速和设备700的温度变化。传感器组件714可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件716被配置为便于设备700和其他设备之间有线或无线方式的通信。设备700可以接入基于通信标准的无线网络，如WiFi、2G、3G、4G或5G，或它们的组合。在一个示例性实施例中，通信部件组件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件组件716还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

参考图8所示，描述了根据本公开的实施方式的设置为实现上述方法的程序产品900，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如上述本公开各实施方式的方法的全部或部分步骤中所示的功能。

以上具体地示出和描述了本公开的示例性实施方式。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种用于语音唤醒的方法，其特征在于，包括：

获取被采集到的语音数据；

基于经训练的第一唤醒词识别模型，对所述语音数据进行唤醒词识别，获得第一识别结果及其对应的第一置信度；

根据所述第一置信度与第一可信度阈值的比较结果，确定是否需要再次对所述语音数据进行唤醒词识别；

当确定需要再次对所述语音数据进行唤醒词识别时，基于经训练的第二唤醒词识别模型，对所述语音数据进行唤醒词识别，获得第二识别结果及其对应的第二置信度；其中，所述第二唤醒词识别模型的识别精度高于所述第一唤醒词识别模型的识别精度；

根据所述第二置信度与第二可信度阈值的比较结果，确定是否需要调整所述第一可信度阈值，并确定是否进行语音唤醒；以及

在确定进行语音唤醒后，根据是否在预设的时间范围内接收到语音指令，确定是否调整所述第二可信度阈值。

2.根据权利要求1所述的方法，其特征在于，根据所述第一置信度与第一可信度阈值的比较结果，确定是否需要再次对所述语音数据进行唤醒词识别，包括：当所述第一置信度大于所述第一可信度阈值时，确定需要再次对所述语音数据进行唤醒词识别；

根据所述第二置信度与第二可信度阈值的比较结果，确定是否需要调整所述第一可信度阈值，包括：当所述第二置信度小于所述第二可信度阈值且大于第二接近阈值时，提升所述第一可信度阈值。

3.根据权利要求1所述的方法，其特征在于，根据所述第一置信度与第一可信度阈值的比较结果，确定是否需要再次对所述语音数据进行唤醒词识别，包括：当所述第一置信度小于所述第一可信度阈值且大于第一接近阈值时，确定需要再次对所述所述语音数据进行唤醒词识别；

根据所述第二置信度与第二可信度阈值的比较结果，确定是否需要调整所述第一可信度阈值，包括：当所述第二置信度大于所述第二可信度阈值时，降低所述第一可信度阈值。

4.根据权利要求1-3任一项所述的方法，其特征在于，根据所述第二置信度与第二可信度阈值的比较结果，确定是否进行语音唤醒，包括：当所述第二置信度大于所述第二可信度阈值时，确定进行语音唤醒；

根据是否在预设的时间范围内接收到语音指令，确定是否调整所述第二可信度阈值，包括：当没有在所述时间范围内接收到语音指令时，提升所述第二可信度阈值。

5.根据权利要求1-3任一项所述的方法，其特征在于，根据所述第二置信度与第二可信度阈值的比较结果，确定是否进行语音唤醒，包括：当所述第二置信度小于所述第二可信度阈值且大于第二接近阈值时，确定进行语音唤醒；

根据是否在预设的时间范围内接收到语音指令，确定是否调整所述第二可信度阈值，包括：当在所述时间范围内接收到了语音指令时，降低所述第二可信度阈值。

6.根据权利要求1所述的方法，其特征在于，根据所述第二置信度与第二可信度阈值的比较结果，确定是否进行语音唤醒，包括：

当所述第二置信度大于所述第二可信度阈值，或者所述第二置信度小于所述第二可信度且大于第二接近阈值时，对所述语音数据进行声纹识别，以确定所述语音数据的发音者是否与预录制的唤醒词的发音者是否属于同一个人；以及

当所述语音数据的发音者是否与预录制的唤醒词的发音者属于同一个人时，进行语音唤醒。

7.根据权利要求1所述的方法，其特征在于，还包括：

获取被采集到的唤醒词语音数据；

提取所述唤醒词语音数据中的语音特征；以及

基于提取的语音特征建立语音模型；

其中，所述第一唤醒词识别模型与所述第二唤醒词模型均基于所述语音模型进行学习。

8.一种用于语音唤醒的装置，其特征在于，包括：

语音采集模块，用于获取被采集到的语音数据；

第一识别模块，用于基于经训练的第一唤醒词识别模型，对所述语音数据进行唤醒词识别，获得第一识别结果及其对应的第一置信度；

第一确定模块，用于根据所述第一置信度与第一可信度阈值的比较结果，确定是否需要再次对所述语音数据进行唤醒词识别；

第二识别模块，用于当所述第一确定模块确定需要再次对所述语音数据进行唤醒词识别时，基于经训练的第二唤醒词识别模型，对所述语音数据进行唤醒词识别，获得第二识别结果及其对应的第二置信度；其中，所述第二唤醒词识别模型的识别精度高于所述第一唤醒词识别模型的识别精度；

第二确定模块，用于根据所述第二置信度与第二可信度阈值的比较结果，确定是否需要调整所述第一可信度阈值，并确定是否进行语音唤醒；以及

第三确定模块，用于在所述第二确定模块确定进行语音唤醒后，根据是否在预设的时间范围内接收到语音指令，确定是否调整所述第二可信度阈值。

9.一种终端设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，其特征在于，所述处理器执行所述可执行指令时实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机可执行指令，其特征在于，所述可执行指令被处理器执行时实现如权利要求1-7任一项所述的方法。