CN113539257A

CN113539257A - 一种语音唤醒方法及装置

Info

Publication number: CN113539257A
Application number: CN202110662649.XA
Authority: CN
Inventors: 王奕; 王坚; 常才; 黄宗浩; 李渊; 张晖; 朱敏俊; 厉励; 张逸鲁; 高宇; 戴梅; 黄麒玮; 蔡云飞; 曹斌; 石强; 王正源; 王骏杰; 于镆铘; 崔敏杰
Original assignee: Fudan University Shanghai Cancer Center
Current assignee: Fudan University Shanghai Cancer Center
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-10-22

Abstract

本发明公开了一种语音唤醒方法及装置，用于提高利用语音唤醒终端设备的准确度，所述方法包括：当终端设备接收到用户输入的包含预设唤醒词的第一语音数据时，对所述第一语音数据和预设语言模型进行匹配，获得所述第一语音数据的置信度；判断所述置信度是否小于预设置信度阈值；当所述置信度小于所述预设置信度阈值时，执行预设操作；当所述置信度大于或等于所述预设置信度阈值时，唤醒所述终端设备的语音控制功能。该技术方案使得用户利用语音唤醒终端设备失败时，终端设备能够通过执行预设操作来提高第一语音数据的置信度，从而提高用户利用语音唤醒终端设备的准确度以及用户的体验度。

Description

一种语音唤醒方法及装置

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音唤醒方法及装置。

背景技术

语音识别技术在近些年取得了显著的进步，该技术已进入工业、家电、智能家居等各个领域。语音唤醒即是语音识别技术的一种形式，其不直接接触硬件设备，通过语音即可将设备唤醒运行。一般情况下，大部分设备都是靠物理按键实现设备的唤醒或者运行。然而，这对于用户体验来说并不好。语音作为人们最自然的交流方式，通过语音唤醒这种非接触式的方式启动设备无疑是更友好的。

发明内容

本发明实施例提供一种语音唤醒方法及装置，用于提高利用语音唤醒终端设备的准确度。

一种语音唤醒方法，包括以下步骤：

当终端设备接收到用户输入的包含预设唤醒词的第一语音数据时，对所述第一语音数据和预设语言模型进行匹配，获得所述第一语音数据的置信度；

判断所述置信度是否小于预设置信度阈值；

当所述置信度小于所述预设置信度阈值时，执行预设操作；

当所述置信度大于或等于所述预设置信度阈值时，唤醒所述终端设备的语音控制功能。

本发明实施例的一些有益效果可以包括：

上述技术方案，通过确定包含预设唤醒词的第一语音数据的置信度，并在该置信度小于预设置信度阈值时执行预设操作，同时在该置信度大于或等于预设置信度阈值时唤醒终端设备的语音控制功能，使得用户利用语音唤醒终端设备失败时，终端设备能够通过执行预设操作来提高第一语音数据的置信度，从而提高用户利用语音唤醒终端设备的准确度以及用户的体验度。

在一个实施例中，所述执行预设操作之后，所述方法还包括：

输出第一提示信息，所述第一提示信息用于提示所述用户再次输入所述第一语音数据，直至接收到的所述第一语音数据的置信度大于或等于所述预设置信度阈值。

该实施例中，能够在执行预设操作之后提示用户再次输入语音数据，使得用户重新输入的语音数据的置信度能够达到预设置信度阈值，从而提高用户利用语音唤醒终端设备的准确度以及用户的体验度。

在一个实施例中，所述执行预设操作，包括：

判断所述终端设备当前是否正输出第二语音数据；

当所述终端设备当前正输出所述第二语音数据时，调低所述第二语音数据的音量值。

该实施例中，能够在终端设备当前正输出语音数据时调低该语音数据的音量值，从而使得用户输入的语音数据的置信度能够达到预设置信度阈值，提高用户利用语音唤醒终端设备的准确度以及用户的体验度。

在一个实施例中，所述执行预设操作，包括：

输出第二提示信息，所述第二提示信息用于提示所述用户提高所述第一语音数据的音量值。

该实施例中，通过提示用户提高输入语音数据的音量值，使得用户输入的语音数据的置信度能够达到预设置信度阈值，提高了用户利用语音唤醒终端设备的准确度以及用户的体验度。

在一个实施例中，所述执行预设操作，包括：

降低所述预设置信度阈值。

该实施例中，通过降低预设置信度阈值，使得用户输入的语音数据的置信度更容易达到预设置信度阈值，提高了用户利用语音唤醒终端设备的准确度以及用户的体验度。

一种语音唤醒装置，包括：

匹配模块，用于当终端设备接收到用户输入的包含预设唤醒词的第一语音数据时，对所述第一语音数据和预设语言模型进行匹配，获得所述第一语音数据的置信度；

判断模块，用于判断所述置信度是否小于预设置信度阈值；

执行模块，用于当所述置信度小于所述预设置信度阈值时，执行预设操作；

唤醒模块，用于当所述置信度大于或等于所述预设置信度阈值时，唤醒所述终端设备的语音控制功能。

在一个实施例中，所述装置还包括：

输出模块，用于所述执行预设操作之后，输出第一提示信息，所述第一提示信息用于提示所述用户再次输入所述第一语音数据，直至接收到的所述第一语音数据的置信度大于或等于所述预设置信度阈值。

在一个实施例中，所述执行模块包括：

判断子模块，用于判断所述终端设备当前是否正输出第二语音数据；

调低子模块，用于当所述终端设备当前正输出所述第二语音数据时，调低所述第二语音数据的音量值。

在一个实施例中，所述执行模块包括：

输出子模块，用于输出第二提示信息，所述第二提示信息用于提示所述用户提高所述第一语音数据的音量值。

在一个实施例中，所述执行模块包括：

降低子模块，用于降低所述预设置信度阈值。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种语音唤醒方法的流程图；

图2为本发明实施例中一种语音唤醒方法中步骤S13的流程图；

图3为本发明实施例中一种语音唤醒装置的框图；

图4为本发明实施例中一种语音唤醒装置的框图；

图5为本发明实施例中一种语音唤醒装置中执行模块的框图；

图6为本发明实施例中一种语音唤醒装置中执行模块的框图；

图7为本发明实施例中一种语音唤醒装置中执行模块的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1为本发明实施例中一种语音唤醒方法的流程图。该语音唤醒方法应用于终端设备中，该终端设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等任一具有语音控制功能的设备。如图1所示，该方法包括以下步骤S11-S14：

步骤S11，当终端设备接收到用户输入的包含预设唤醒词的第一语音数据时，对第一语音数据和预设语言模型进行匹配，获得第一语音数据的置信度。

其中，预设唤醒词为与终端设备的语音控制功能相关的词语，由用户预先设定。例如，如果终端设备的语音控制功能包括控制智能家居时，预设唤醒词可包括空调、电视、窗帘等与智能家居有关的词；再例如，如果终端设备的语音控制功能包括连接至云端服务器、并通过云端服务器搜索网络信息时，预设唤醒词可包括搜索、查询、天气、火车票等与网络服务相关的词。

在执行该步骤时，终端设备会首先对用户输入的语音数据进行识别，识别该语音数据中是否包含预设唤醒词，如果该语音数据中包含预设唤醒词，则继续执行步骤S11-S14，如果该语音数据中不包含预设唤醒词，说明用户没有唤醒终端设备的语音控制功能的意愿，此时终端设备不对用户输入的语音数据作任何反馈。

预设语言模型可以是通用语言模型。

步骤S12，判断置信度是否小于预设置信度阈值。

步骤S13，当置信度小于预设置信度阈值时，执行预设操作。

步骤S14，当置信度大于或等于预设置信度阈值时，唤醒终端设备的语音控制功能。

本发明实施例的一些有益效果可以包括：

在一个实施例中，第一语音数据的置信度可通过第一语音数据的以下特征的至少一种来确定：

(1)语速；即单位字的时长。

(2)N-best特征。

(3)位置；即每个词在句子中所处的位置，包括句首、句中和句末。

(4)词长；即每个词包括的字符个数。

(5)时长；即每个词所持续的帧数。

(6)竞争词个数：混淆网络上两个相邻结点间的弧个数，即一段时间内有几个词在竞争。

(7)词的ngram语言模型得分。

(8)竞争词后验概率的差；即混淆网络上两个相邻结点间的两个后验概率最大的竞争词的后验概率的差。

(9)句长。

针对第一语音数据的以上特征，可通过基于预测特征分类的方法或者基于后验概率的方法来确定第一语音数据的置信度，由于该两种方法均为现有技术，因此不再赘述。

上述实施例中，置信度的取值位于0～1的范围之间，由于置信度是用来评估语音识别结果的可靠性的，因此置信度越高，说明语音识别结果越准确。预设置信度阈值的取值位于0～1的范围之间。

在一个实施例中，步骤S13之后，上述方法还包括以下步骤：

输出第一提示信息，该第一提示信息用于提示用户再次输入第一语音数据，直至接收到的第一语音数据的置信度大于或等于预设置信度阈值。

终端设备可通过语音输出的方式输出第一提示信息，例如语音输出“请再次输入语音内容”。用户再次输入第一语音数据时，终端设备根据执行预设操作之后的结果，再次对第一语音数据的置信度进行确定，直至第一语音数据的置信度大于或等于预设置信度阈值。

该实施例中，能够在执行预设操作之后提示用户再次输入语音数据，使得用户重新输入的语音数据的置信度能够达到预设置信度阈值，从而提高用户利用语音唤醒终端设备的成功率。

上述步骤S13中，终端设备可根据不同情况执行不同的预设操作。以下通过几个实施例来说明终端设备所执行的具体操作。

在一个实施例中，如图2所示，步骤S13包括以下步骤S21-S23：

步骤S21，判断终端设备当前是否正输出第二语音数据；如果终端设备当前正输出第二语音数据，则执行步骤S22；如果终端设备当前未输出第二语音数据，则执行步骤S23。

步骤S22，调低第二语音数据的音量值。

其中，音量值可通过分贝值来表征。终端设备可确定第一语音数据和第二语音数据中声音的分贝值。

对音量值的降低幅度可按照预设幅度来调低，例如，预设幅度为25分贝，终端设备正在播放音乐，且已确定该音乐的分贝值为60分贝，则按照预设幅度将音乐的分贝值降低25分贝，降低后的音乐的分贝值为35分贝。对音量值的降低幅度可按照第二语音数据的声音分贝值和第一语音数据的声音分贝值之间的差值来调低，例如，终端设备正在播放音乐，且已确定该音乐(即第二语音数据)的分贝值为60分贝，而用户输入的第一语音数据的声音分贝值为40分贝，则可将音乐的分贝值降低至40分贝以下，以使第一语音数据的声音分贝值高于音乐的分贝值，从而增加对第一语音数据的识别的准确率，提高第一语音数据的置信度。

步骤S23，输出提示信息；该提示信息用于提示用户提高第一语音数据的音量值。

终端设备可通过语音输出的方式输出该提示信息，例如，终端设备语音输出“您的声音过小，请大声说话”。

该实施例中，能够在终端设备当前正输出语音数据时调低该语音数据的音量值，并在终端设备当前未输出第二语音数据时提示用户降低音量，从而使得用户输入的语音数据的置信度能够达到预设置信度阈值，提高了用户利用语音唤醒终端设备的准确度以及用户的体验度。

在一个实施例中，执行步骤S13时，无论终端设备当前是否正输出语音数据，都可直接输出提示信息，以提示用户提高第一语音数据的音量值。

在一个实施例中，步骤S13还可实施为以下步骤：降低预设置信度阈值。

该实施例中，通过降低预设置信度阈值，使得用户输入的语音数据的置信度更容易达到预设置信度阈值，尤其是在终端设备当前正输出第二语音数据的情况下，第二语音数据使得用户输入的第一语音数据受到干扰，不容易被识别成功，因此降低预设置信度阈值可使得终端设备对第一语音数据识别的成功率增大，从而提高了用户利用语音唤醒终端设备的准确度以及用户的体验度。

图3为本发明实施例中一种语音唤醒装置的框图。如图3所示，该装置包括：

匹配模块31，用于当终端设备接收到用户输入的包含预设唤醒词的第一语音数据时，对第一语音数据和预设语言模型进行匹配，获得第一语音数据的置信度；

判断模块32，用于判断置信度是否小于预设置信度阈值；

执行模块33，用于当置信度小于预设置信度阈值时，执行预设操作；

唤醒模块34，用于当置信度大于或等于预设置信度阈值时，唤醒终端设备的语音控制功能。

在一个实施例中，如图4所示，上述装置还包括：

输出模块35，用于执行预设操作之后，输出第一提示信息，第一提示信息用于提示用户再次输入第一语音数据，直至接收到的第一语音数据的置信度大于或等于预设置信度阈值。

在一个实施例中，如图5所示，执行模块33包括：

判断子模块331，用于判断终端设备当前是否正输出第二语音数据；

调低子模块332，用于当终端设备当前正输出第二语音数据时，调低第二语音数据的音量值。

在一个实施例中，如图6所示，执行模块33包括：

输出子模块333，用于输出第二提示信息，第二提示信息用于提示用户提高第一语音数据的音量值。

在一个实施例中，如图7所示，执行模块33包括：

降低子模块334，用于降低预设置信度阈值。

本发明实施例的一些有益效果可以包括：

上述装置，通过确定包含预设唤醒词的第一语音数据的置信度，并在该置信度小于预设置信度阈值时执行预设操作，同时在该置信度大于或等于预设置信度阈值时唤醒终端设备的语音控制功能，使得用户利用语音唤醒终端设备失败时，终端设备能够通过执行预设操作来提高第一语音数据的置信度，从而提高用户利用语音唤醒终端设备的准确度以及用户的体验度。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音唤醒方法，其特征在于，包括：

判断所述置信度是否小于预设置信度阈值；

当所述置信度小于所述预设置信度阈值时，执行预设操作；

2.根据权利要求1所述的一种语音唤醒方法，其特征在于，所述执行预设操作之后，所述方法还包括：

3.根据权利要求1所述的一种语音唤醒方法，其特征在于，所述执行预设操作，包括：

判断所述终端设备当前是否正输出第二语音数据；

4.根据权利要求1或3所述的任一种语音唤醒方法，其特征在于，所述执行预设操作，包括：

5.根据权利要求1所述的一种语音唤醒方法，其特征在于，所述执行预设操作，包括：

降低所述预设置信度阈值。

6.一种语音唤醒装置，其特征在于，包括：

判断模块，用于判断所述置信度是否小于预设置信度阈值；

7.根据权利要求6所述的一种语音唤醒装置，其特征在于，所述装置还包括：

8.根据权利要求6所述的一种语音唤醒装置，其特征在于，所述执行模块包括：

9.根据权利要求6或8所述的任一种语音唤醒装置，其特征在于，所述执行模块包括：

10.根据权利要求6所述的一种语音唤醒装置，其特征在于，所述执行模块包括：

降低子模块，用于降低所述预设置信度阈值。