CN111933138B

CN111933138B - 语音控制方法、装置、终端及存储介质

Info

Publication number: CN111933138B
Application number: CN202010841107.4A
Authority: CN
Inventors: 杨颂
Original assignee: Oppo Chongqing Intelligent Technology Co Ltd
Current assignee: Oppo Chongqing Intelligent Technology Co Ltd
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2022-10-21
Anticipated expiration: 2040-08-20
Also published as: CN111933138A

Abstract

本申请涉及一种语音控制方法、装置、终端及存储介质，属于终端技术领域。该方法包括：根据本地存储的第一语音信号，对接收到的第二语音信号进行声纹匹配，得到第二语音信号与第一语音信号之间的声纹匹配度；根据声纹匹配度以及交互信息库中的每个交互信息的语气特征，从交互信息库中确定语气特征与声纹匹配度匹配的目标交互信息，任一交互信息的语气特征用于表示任一交互信息的语气强度；输出目标交互信息，目标交互信息用于提示用户通过语音信号对终端进行控制，从而保证了准确唤醒语音助手的情况下，能有效减少语音助手的误唤醒操作。

Description

语音控制方法、装置、终端及存储介质

技术领域

本申请实施例涉及终端技术领域，特别涉及一种语音控制方法、装置、终端及存储介质。

背景技术

通过语音对终端进行控制的方法成为了一种常见的终端控制方法。一般终端中安装语音助手应用程序，通过包含唤醒词的语音信号唤醒终端中的语音助手应用程序，通过语音信号与语音助手应用程序进行交互，实现控制终端。

发明内容

本申请实施例提供了一种语音控制方法、装置、终端及存储介质，能够有效减少语音助手的误唤醒操作。所述技术方案如下：

一方面，提供了一种语音控制方法，所述方法包括：

根据本地存储的第一语音信号，对接收到的第二语音信号进行声纹匹配，得到所述第二语音信号与所述第一语音信号之间的声纹匹配度；

根据所述声纹匹配度以及交互信息库中的每个交互信息的语气特征，从所述交互信息库中确定语气特征与所述声纹匹配度匹配的目标交互信息，任一交互信息的语气特征用于表示所述任一交互信息的语气强度；

输出所述目标交互信息，所述目标交互信息用于提示用户通过语音信号对终端进行控制。

在一种可能的实现方式中，所述根据所述声纹匹配度以及交互信息库中的每个交互信息的语气特征，从所述交互信息库中确定语气特征与所述声纹匹配度匹配的目标交互信息，包括：

根据所述声纹匹配度，确定所述声纹匹配度对应的匹配度级别；

根据所述匹配度级别，确定与所述匹配度级别对应的第一目标语气特征；

从所述交互信息库中确定语气特征为所述第一目标语气特征的所述目标交互信息。

在另一种可能的实现方式中，所述根据所述声纹匹配度，确定所述声纹匹配度对应的匹配度级别，包括：

响应于所述声纹匹配度大于第一预设阈值，确定所述声纹匹配度对应的匹配度级别为第一级；或者，

响应于所述声纹匹配度大于第二预设阈值，且，所述声纹匹配度不大于所述第一预设阈值，确定所述声纹匹配度对应的匹配度级别为第二级别，所述第二预设阈值小于所述第一预设阈值。

在另一种可能的实现方式中，所述根据所述声纹匹配度以及交互信息库中的每个交互信息的语气特征，从所述交互信息库中确定语气特征与所述声纹匹配度匹配的目标交互信息，包括：

根据所述声纹匹配度，从声纹匹配度和语气特征的对应关系中确定与所述声纹匹配度对应的第二目标语气特征；

从所述交互信息库中确定语气特征为所述第二目标语气特征的所述目标交互信息。

在另一种可能的实现方式中，所述输出所述目标交互信息，包括：

响应于所述目标交互信息的语气强度超过预设强度，唤醒当前终端；

在所述终端处于唤醒状态下，输出所述目标交互信息。

在另一种可能的实现方式中，所述根据所述声纹匹配度以及交互信息库中的每个交互信息的语气特征，从所述交互信息库中确定语气特征与所述声纹匹配度匹配的目标交互信息之前，所述方法还包括：

响应于所述声纹匹配度大于第三预设阈值，执行所述根据所述声纹匹配度以及交互信息库中的每个交互信息的语气特征，从所述交互信息库中确定语气特征与所述声纹匹配度匹配的目标交互信息的步骤。

在另一种可能的实现方式中，输出所述目标交互信息之后，所述方法还包括：

接收第三语音信号；

对所述第三语音信号进行意图识别，得到控制命令；

执行所述控制命令。

在另一种可能的实现方式中，所述根据本地存储的第一语音信号，对接收到的第二语音信号进行声纹匹配，得到所述第二语音信号与所述第一语音信号之间的声纹匹配度之前，所述方法还包括：

接收所述第二语音信号；

响应于所述第二语音信号包括目标唤醒词，执行所述根据本地存储的第一语音信号，对接收到的第二语音信号进行声纹匹配，得到所述第二语音信号与所述第一语音信号之间的声纹匹配度的步骤。

另一方面，提供了一种语音控制装置，所述装置包括：

声纹匹配模块，用于根据本地存储的第一语音信号，对接收到的第二语音信号进行声纹匹配，得到所述第二语音信号与所述第一语音信号之间的声纹匹配度；

确定模块，用于根据所述声纹匹配度以及交互信息库中的每个交互信息的语气特征，从所述交互信息库中确定语气特征与所述声纹匹配度匹配的目标交互信息，任一交互信息的语气特征用于表示所述任一交互信息的语气强度；

输出模块，用于输出所述目标交互信息，所述目标交互信息用于提示用户通过语音信号对终端进行控制。

在一种可能的实现方式中，所述确定模块包括：

第一确定子模块，用于根据所述声纹匹配度，确定所述声纹匹配度对应的匹配度级别；

第二确定子模块，用于根据所述匹配度级别，确定与所述匹配度级别对应的第一目标语气特征；

第三确定子模块，用于从所述交互信息库中确定语气特征为所述第一目标语气特征的所述目标交互信息。

在另一种可能的实现方式中，所述第一确定子模块，用于响应于所述声纹匹配度大于第一预设阈值，确定所述声纹匹配度对应的匹配度级别为第一级；或者，

所述第一确定子模块，用于响应于所述声纹匹配度大于第二预设阈值，且，所述声纹匹配度不大于所述第一预设阈值，确定所述声纹匹配度对应的匹配度级别为第二级别，所述第二预设阈值小于所述第一预设阈值。

在另一种可能的实现方式中，所述确定模块包括：

第四确定子模块，用于根据所述声纹匹配度，从声纹匹配度和语气特征的对应关系中确定与所述声纹匹配度对应的第二目标语气特征；

第五确定子模块，用于从所述交互信息库中确定语气特征为所述第二目标语气特征的所述目标交互信息。

在另一种可能的实现方式中，所述输出模块包括：

唤醒单元，用于响应于所述目标交互信息的语气强度超过预设强度，唤醒当前终端；

输出单元，用于在所述终端处于唤醒状态下，输出所述目标交互信息。

在另一种可能的实现方式中，所述确定模块，还用于响应于所述声纹匹配度大于第三预设阈值，执行根据所述声纹匹配度以及交互信息库中的每个交互信息的语气特征，从所述交互信息库中确定语气特征与所述声纹匹配度匹配的目标交互信息。

在另一种可能的实现方式中，所述装置还包括：

第一接收模块，用于接收第三语音信号；

意图识别模块，用于对所述第三语音信号进行意图识别，得到控制命令；

执行模块，用于执行所述控制命令。

在另一种可能的实现方式中，所述装置还包括：

第二接收模块，用于接收所述第二语音信号；

所述声纹匹配模块，还用于响应于所述第二语音信号包括目标唤醒词，执行根据本地存储的第一语音信号，对接收到的第二语音信号进行声纹匹配，得到所述第二语音信号与所述第一语音信号之间的声纹匹配度。

另一方面，提供了一种终端，所述终端包括处理器和存储器；所述存储器存储有至少一条程序代码，所述至少一条程序代码用于被所述处理器执行以实现如上述方面所述的语音控制方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质存储有至少一条程序代码，所述至少一条程序代码用于被处理器执行以实现如上述方面所述的语音控制方法。

另一方面，还提供了一种计算机程序产品，该计算机程序产品存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现上述方面所述的语音控制方法。

在本申请实施例中，交互信息库中存储多个交互信息，每个交互信息有其对应的语气特征，在通过第二语音信号唤醒语音助手对终端进行控制时，根据第二语音信号与本地存储的第一语音信号的声纹匹配度，确定匹配度对应的语气特征的目标交互信息，从而防止了将预设阈值和声纹匹配度进行比较，来确定是否唤醒语音助手时，预设阈值较高导致不易唤醒语音助手或者预设阈值较低语音助手容易被误唤醒的问题，进而保证了准确唤醒语音助手的情况下，能有效减少语音助手的误唤醒操作。

附图说明

图1示出了本申请一个示例性实施例所提供的终端的结构示意图；

图2示出了本申请一个示例性实施例示出的语音控制方法的流程图；

图3示出了本申请一个示例性实施例示出的语音控制方法的流程图；

图4示出了本申请一个示例性实施例示出的语音控制方法的流程图；

图5示出了本申请一个示例性实施例示出的语音控制方法的流程图；

图6示出了本申请一个示例性实施例示出的语音控制方法的流程图；

图7示出了本申请一个示例性实施例提供的语音控制装置的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示存在三种关系，例如，A和/或B，能够表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

请参考图1，其示出了本申请一个示例性实施例所提供的终端100的结构示意图。可选地，终端100是智能手机、平板电脑等具有语音信号处理功能的终端。可选地，本申请中的终端100包括一个或多个如下部件：处理器110、存储器120、显示屏130。

可选地，处理器110包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个终端100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行终端100的各种功能和处理数据。可选地，处理器110采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)、神经网络处理器(Neural-network Processing Unit，NPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏130所需要显示的内容的渲染和绘制；NPU用于实现人工智能(Artificial Intelligence，AI)功能；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也能不集成到处理器110中，单独通过一块芯片进行实现。

在本申请中处理器110还用于对语音信号进行处理，根据语音信号的处理结果对终端进行控制。

可选地，存储器120包括随机存储器(Random Access Memory，RAM)，或者包括只读存储器(Read-Only Memory)。可选地，该存储器120包括非瞬时性计算机可读介质(Non-Transitory Computer-Readable Storage Medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等；存储数据区可存储根据终端100的使用所创建的数据(比如音频数据、电话本)等。

在本申请中，存储器120还用于存储唤醒词、交互信息和声纹信息等数据。

显示屏130是用于显示用户界面的显示组件。可选的，该显示屏130为具有触控功能的显示屏，通过触控功能，用户能够使用手指、触摸笔等任何适合的物体在显示屏130上进行触控操作。

显示屏130通常设置在终端100的前面板。显示屏130可被设计成为全面屏、曲面屏、异型屏、双面屏或折叠屏。显示屏130还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合等，本实施例对此不加以限定。

除此之外，本领域技术人员可以理解，上述附图所示出的终端100的结构并不构成对终端100的限定，终端100能够包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端100中还包括麦克风、扬声器、射频电路、输入单元、传感器、音频电路、无线保真(Wireless Fidelity，Wi-Fi)模块、电源、蓝牙模块等部件，在此不再赘述。

另外，终端100中设置有语音助手，该语音助手为一种终端中的应用程序，能够通过语音信号进行唤醒，还能够根据接收到的语音信号对终端100进行控制，例如，根据接收到的语音信号启动终端中的目标应用程序、拨打电话等。

请参考图2，其示出了本申请一个示例性实施例示出的语音控制方法的流程图。可选地，本申请实施例中的执行主体为终端100，或者，为终端100中的处理器110或终端100中的操作系统，本实施例以执行主体为终端100为例进行说明。在本申请实施例中，为例进行说明。该方法包括：

步骤201，根据本地存储的第一语音信号，对接收到的第二语音信号进行声纹匹配，得到该第二语音信号与该第一语音信号之间的声纹匹配度。

步骤202，根据该声纹匹配度以及交互信息库中的每个交互信息的语气特征，从该交互信息库中确定语气特征与该声纹匹配度匹配的目标交互信息，任一交互信息的语气特征用于表示该任一交互信息的语气强度。

步骤203，输出该目标交互信息，该目标交互信息用于提示用户通过语音信号对终端进行控制。

在一种可能的实现方式中，该根据该声纹匹配度以及交互信息库中的每个交互信息的语气特征，从该交互信息库中确定语气特征与该声纹匹配度匹配的目标交互信息，包括：

根据该声纹匹配度，确定该声纹匹配度对应的匹配度级别；

根据该匹配度级别，确定与该匹配度级别对应的第一目标语气特征；

从该交互信息库中确定语气特征为该第一目标语气特征的该目标交互信息。

在另一种可能的实现方式中，该根据该声纹匹配度，确定该声纹匹配度对应的匹配度级别，包括：

响应于该声纹匹配度大于第一预设阈值，确定该声纹匹配度对应的匹配度级别为第一级；或者，

响应于该声纹匹配度大于第二预设阈值，且，该声纹匹配度不大于该第一预设阈值，确定该声纹匹配度对应的匹配度级别为第二级别，该第二预设阈值小于该第一预设阈值。

在另一种可能的实现方式中，该根据该声纹匹配度以及交互信息库中的每个交互信息的语气特征，从该交互信息库中确定语气特征与该声纹匹配度匹配的目标交互信息，包括：

根据该声纹匹配度，从声纹匹配度和语气特征的对应关系中确定与该声纹匹配度对应的第二目标语气特征；

从该交互信息库中确定语气特征为该第二目标语气特征的该目标交互信息。

在另一种可能的实现方式中，该输出该目标交互信息，包括：

响应于该目标交互信息的语气强度超过预设强度，唤醒当前终端；

在该终端处于唤醒状态下，输出该目标交互信息。

在另一种可能的实现方式中，该根据该声纹匹配度以及交互信息库中的每个交互信息的语气特征，从该交互信息库中确定语气特征与该声纹匹配度匹配的目标交互信息之前，该方法还包括：

响应于该声纹匹配度大于第三预设阈值，执行该根据该声纹匹配度以及交互信息库中的每个交互信息的语气特征，从该交互信息库中确定语气特征与该声纹匹配度匹配的目标交互信息的步骤。

在另一种可能的实现方式中，输出该目标交互信息之后，该方法还包括：

接收第三语音信号；

对该第三语音信号进行意图识别，得到控制命令；

执行该控制命令。

在另一种可能的实现方式中，该根据本地存储的第一语音信号，对接收到的第二语音信号进行声纹匹配，得到该第二语音信号与该第一语音信号之间的声纹匹配度之前，该方法还包括：

接收该第二语音信号；

响应于该第二语音信号包括目标唤醒词，执行该根据本地存储的第一语音信号，对接收到的第二语音信号进行声纹匹配，得到该第二语音信号与该第一语音信号之间的声纹匹配度的步骤。

请参考图3，其示出了本申请一个示例性实施例示出的语音控制方法的流程图。可选地，本申请实施例中的执行主体为终端100，或者为终端100中的处理器110或终端100中的操作系统，本实施例以执行主体为终端100为例进行说明。在本申请实施例中，为例进行说明。该方法包括：

步骤301，终端根据本地存储的第一语音信号，对接收到的第二语音信号进行声纹匹配，得到该第二语音信号与该第一语音信号之间的声纹匹配度。

其中，第一语音信号为当前使用终端的用户事先输入的语音信号，用于提供当前使用终端的用户的声纹信息。第二语音信号为终端在当前环境下采集到的语音信号。

在一种可能的实现方式中，终端采集到第二语音信号后，直接将该第二语音信号与终端中存储的第一语音信号进行声纹匹配。在另一种可能的实现方式中，终端对接收到的第二语音信号进行唤醒词检测，响应于第二语音信号中含有目标唤醒词，此执行本步骤301，相应的，该过程为：终端接收该第二语音信号；响应于该第二语音信号包括目标唤醒词，终端执行步骤301。

其中，该目标唤醒词为开发人员事先设置的用于唤醒终端中的语音助手的唤醒词。可选地，该目标唤醒词为语音助手的名称、指定语气助词、打招呼用词等。例如，该目标唤醒词为“小A”、“哈喽”、“嘿”或“你好”等，在本申请实施例中，对指定词语不作具体限定。另外，该目标唤醒词的数量根据需要进行设置，在本申请实施例中对目标唤醒词的数量也不作具体限定。例如，该目标唤醒词的数量为1、2、3等。

在本实现方式中，通过检测接收到的第二语音信号中的目标唤醒词，只有在检测到目标唤醒词的情况下，才执行本步骤，从而防止了误唤醒语音助手，提高了唤醒语音助手的准确性。

在本步骤中，终端对接收到的第二语音信号进行声纹信息提取，将该第二语音信号的与终端中存储的第一语音信号进行声纹匹配。该过程通过以下步骤(A1)-(A3)实现，参见图4，包括：

(A1)终端获取本地存储的该第一语音信号的第一声纹信息。

第一声纹信息为终端本地存储的当前使用终端的用户的声纹特征。其中，在本步骤中，终端通过数据接口调用本地存储的第一声纹信息。该第一声纹信息为用于表示第一语音信号的信号特征。在本步骤之前，终端采集第一语音信号，提取第一语音信号的第一声纹特征。该过程通过以下步骤(B1)-(B3)实现，包括：

(B1)终端接收第一语音信号。

该第一语音信号为使用终端的用户的语音信号。在一种可能的实现方式中，在首次启用语音助手时，终端展示声纹录入界面，该声纹录入界面中包括录音按钮，响应于该录音按钮被触发，终端开始采集用户输入的第一语音信号。

可选地，第一语音信号为用户输入的任一语音信号。或者，该第一语音信号为包含目标唤醒词的语音信号。在本申请实施例中，对此不作具体限定。

需要说明的一点是，在第一语音信号中包括指定词语的情况下，包含的指定词语的数量根据需要进行设置，在本申请实施例中，对指定词语的数量不作具体限定。

需要说明的另一点是，响应于采集到用户输入的语音信号，终端确定采集到的语音信号是否符合条件，响应于采集到的语音信号符合条件，将该语音信号确定为第一语音信号；响应于采集到的语音信号不符合条件时，展示重新录制提示信息，重新采集语音信号。其中，终端根据语音信号的清晰度、语音信号中是否包含目标唤醒词等信息确定语音信号是否符合条件。

(B2)终端对该第一语音信号进行声纹信息提取，得到该第一语音信号对应的第一声纹信息。

其中，终端能够通过任一声纹提取方式提取第一语音信号的第一声纹信息。例如，终端通过声纹识别模型提取第一语音信号中的第一声纹信息。

(B3)终端将该第一声纹信息存储在本地。

在本步骤中，终端将识别到的第一声纹信息存储在本地的存储器中。

在本实现方式中，事先采集使用终端的用户的第一语音信号，根据采集到的第一语音信号存储用户的第一声纹信息，以便根据第一声纹信息对之后接收到的第二语音信号进行识别，防止了除使用终端的用户以外的用户唤醒终端的语音助手，对终端进行控制，提高了对终端进行控制的准确性。

另外，需要说明的一点是，终端在采集第一语音信号的第一声纹信息的过程中，能够多次采集第一语音信号，录入多个第一声纹信息。可选地，终端将多次录入的第一声纹信息分别进行存储，或者，终端结合录入的多个第一声纹信息生成该第一语音信号对应的声纹信息。在本申请实施例中，对此不作具体限定。其中，每个声纹信息的录入过程都通过(B1)-(B3)实现，在此不再赘述。

(A2)终端提取该第二语音信号的第二声纹信息。

本步骤与步骤(B2)相似，在此不再赘述。

(A3)终端将该第一声纹信息和该第二声纹信息进行对比，得到该第二语音信号与第一语音信号之间的声纹匹配度。

声纹匹配度用于表示第一语音信号与第二语音信号的相似程度，第一语音信号与第二语音信号相似程度越高，第一语音信号和第二语音信号的声纹匹配度越高。其中，终端对第一声纹信息和第二声纹信息中包含的语音信号的特征进行对比，得到第一声纹信息和第二声纹信息的声纹匹配度。

在本实现方式中，通过对比终端中事先存储的第一语音信号与当前采集到的第二语音信号的声纹信息，得到第二语音信号与第一语音信号的声纹匹配程度，从而防止了除使用终端的用户以外的用户唤醒终端的语音助手，对终端进行控制，提高了对终端进行控制的准确性。

步骤302：终端根据该声纹匹配度以及交互信息库中的每个交互信息的语气特征，从该交互信息库中确定语气特征与该声纹匹配度匹配的目标交互信息。

其中，任一交互信息的语气特征用于表示该任一交互信息的语气强度。交互信息库中存储多个交互信息，不同的交互信息对应的语气特征相同或者不同。在本步骤中，终端根据该声纹匹配度选择语气特征与该匹配度匹配的目标交互信息。在一种可能的实现方式中，终端根据声纹匹配度所属的匹配度级别，从加护信息库中选择则目标交互信息。参见图5，该过程通过以下步骤(A1)-(A3)实现，包括：

(A1)终端根据该声纹匹配度，确定该声纹匹配度对应的匹配度级别。

可选地，终端根据声纹匹配度与预设阈值的关系，确定声纹匹配度对应的匹配度级别。其中，匹配度级别的数量根据需要进行设置并更改，相应的，预设阈值的数量也根据匹配度级别的数量进行更改。在本申请实施例中，对此不作具体限定。例如，匹配度级别的数量为两个，则预设阈值的数量为2个。

相应的，匹配度级别分别为第一级和第二级，预设阈值分别为第一预设阈值和第二预设阈值，其中，第一预设阈值大于第二预设阈值。则终端将声纹匹配度与第一预设阈值和第二预设阈值进行比较，响应于该声纹匹配度大于第一预设阈值，终端确定该声纹匹配度对应的匹配度级别为第一级；或者，响应于该声纹匹配度大于第二预设阈值，且，该声纹匹配度不大于该第一预设阈值，终端确定该声纹匹配度对应的匹配度级别为第二级别。

(A2)终端根据该匹配度级别，确定与该匹配度级别对应的第一目标语气特征。

不同的匹配度级别对应不同的语气特征。其中，匹配度级别越高第一目标语气特征越明确。例如，匹配度级别为第一级，则第一目标语气特征为语气强度最高的语气特征，如肯定语气；匹配度级别为第二级，则第一目标语气特征为语气强度较低的语气特征，如疑问语气。

(A3)终端从该交互信息库中确定语气特征为该第一目标语气特征的该目标交互信息。

交互信息库中存储多个交互信息以及每个交互信息的语气特征。在本步骤中，终端从交互信息库中确定语气特征为第一目标语气特征的所有交互信息，从该语气特征为第一目标语气特征的所有交互信息中确定目标交互信息。可选地，终端从该语气特征为第一目标语气特征的所有交互信息中随机选择一个交互信息作为该目标交互信息。或者，终端确定该语气特征为第一目标语气特征的所有交互信息中每个交互信息的被使用概率，从而选择使用概率最低的目标交互信息。在本实现方式中，通过选择当前使用频率最低的交互信息作为目标交互信息，从而保证了目标交互信息的视频频率较平均，防止相邻两次输出的目标交互信息相同，提高了趣味性。

另外，不同级别的匹配度对应的交互信息不同。参见表1。

表1

匹配度级别	第一级	第二级
			交互信息	在，请说	是在叫我吗？

参见表1，第一级匹配度对应的交互信息为语气强度最高的语气特征，如提示用户进行下一步指示的信息。例如，第一级匹配度对应的交互信息为“在，请说”、“怎么了”、“是，请继续”、“有什么能帮你的吗？”或者“需要我做什么吗？”等打招呼语。第二级匹配度对应的交互信息的语气强度较低的语气特征，如疑问语气。例如，第二级匹配度对应的交互信息为“是在叫我吗？”等打招呼语。

在本实现方式中，通过对声纹匹配度划分不同的等级，从而添加了语气较为不明确的交互信息，防止了用户在误触发语义助手时，因交互信息引起的用户的方案情绪，提高了用户体验。

需要说明的一点是，响应于该声纹匹配度低于第二预设阈值，则确定该匹配度级别为第三级，可选地，响应于匹配度级别为第三级，终端不对该第二语音信号做出应答，保持当前运行状态。或者，响应于匹配度级别为第三级，终端确定该第三级对应的第一目标语气特征，第三级匹配度对应的第一目标语气特征为请求重复的语气特征，例如，第三级匹配度对应的交互信息为“您说什么”或“可以重复一遍吗”等。

在本实现方式中，响应于声纹匹配度地域第二预设阈值，终端不对第二语音信号作出应答，或者，请求用户重复，防止了用户错误触发语音助手，提高了唤醒语音助手的准确性。

在另一种可能的实现方式中，终端中存储声纹匹配度和预期特征的对应关系，相应的，终端根据该对应关系确定声纹匹配度对应的目标交互信息。参见图6，该过程通过以下步骤(B1)-(B2)实现，包括：

(B1)终端根据该声纹匹配度，从声纹匹配度和语气特征的对应关系中确定与该声纹匹配度对应的第二目标语气特征。

其中，第二目标语气特征和第一目标语气特征相同，都是交互信息库中交互信息的语气强度。在本实现方式中，每个声纹匹配度都对应一个第二目标语气特征。

(B2)终端从该交互信息库中确定语气特征为该第二目标语气特征的该目标交互信息。

本步骤与步骤(A3)相似，在此不再赘述。

在本实现方式中，终端确定声纹匹配度对应的第二目标语气特征，提高了声纹匹配度与目标语气特征的针对性，进而提高了确定目标交互信息的准确性。

另外，在一种可能的实现方式中，终端在确定第一语音信号和第二语音信号之间的声纹匹配度之后，直接根据第一预设阈值和第二预设阈值进行比较，从而确定出声纹匹配度的匹配度级别。在另一种可能的实现方式中，终端确定第一语音信号和第二语音信号之间的声纹匹配度之后，先确定该声纹匹配度是否大于第三预设阈值，响应于所述声纹匹配度大于第三预设阈值，执行该根据该声纹匹配度以及交互信息库中的每个交互信息的语气特征，从该交互信息库中确定语气特征与该声纹匹配度匹配的目标交互信息的步骤。

在本实现方式中，终端确定声纹匹配度是否大于第三预设阈值，行英语不大于第三预设阈值时，不对该声纹匹配度进行操作，进而防止了对任一声纹匹配度进行预设阈值比较，提高了唤醒语音助手的效率。

步骤303：终端输出该目标交互信息。

其中，该目标交互信息用于提示用户通过语音信号对终端进行控制。该目标交互信息包括音频信息和/或文本信息。在一种可能的实现方式中，该目标交互信息包括音频信息，则本步骤为：终端播放目标交互信息中的音频信息。在另一种可能的实现方式中，该目标交互信息包括文本信息，则本步骤为：终端展示该目标交互信息中的文本信息。在另一种可能的实现方式中，该目标交互信息中包括音频信息和文本信息，则本步骤为终端播放目标交互信息中的音频信息，以及，展示目标交互信息中的文本信息。

另外，终端在输出该目标交互信息时，能够一任一状态输出。可选地，终端确定目标交互信息后，直接通过终端当前状态输出该目标交互信息。可选地，终在确定目标交互信息后，直接唤醒终端，通过唤醒的终端输出该目标交互信息。可选地，终端确定目标交互信息后，根据目标交互信息的预期强度确定是否唤醒终端，响应于该目标交互信息的语气强度超过预设强度，唤醒当前终端；在该终端处于唤醒状态下，输出该目标交互信息。例如，该语气强度为语气明确的预期强度，则确定唤醒终端；语气强度为疑问语气，则确定不唤醒终端。

在本实现方式中，根据目标交互信息的预期强度确定是否唤醒终端，从而防止了在误触发语音助手的情况下唤醒终端，进而防止对用户造成打扰，提高了用户体验。

需要说明的一点是，终端输出目标交互信息后，终端还接收用户输入的第三语音信号，根据该第三语音信号对终端进行控制。

其中，响应于该目标交互信息为第一级匹配度对应的交互信息，则该第三语音信号用于指示语音助手对终端进行控制，相应的，终端根据该第三语音信号的意图对该终端进行控制。该过程为：终端接收第三语音信号；对该第三语音信号进行意图识别，得到控制命令；执行该控制命令。

例如，该第三语音信号为“给B打电话”、“播放音乐”的语音信号，则终端根据该第三语音信号启动拨号应用，拨打B的电话，或者，启动音频播放应用，播放音频。

响应于该目标交互信息为第二级匹配度对应的交互信息，则终端先接收第四语音信号，通过该第四语音信号进一步确定是否唤醒语音助手，响应于唤醒语音助手时，才接收该第三语音信号。相应的，终端接收用户输入的第四语音信号。其中，该第三语音信号为携带有表示肯定或否定的语音信号，例如，该第二语音信号中还包括“是”、“对”或“没有”等词。响应于终端识别出第四语音信号中包括“是”或“对”等表示确认的词语，终端确定继续运行该语音助手，继续执行接收第三语音信号；对该第三语音信号进行意图识别，得到控制命令；执行该控制命令的步骤。例如，终端识别到的词为“是”，则终端继续对第三语音信号进行识别，识别出语音信号中的目标应用程序，以及对该目标应用程序执行的操作。例如，该第二语音信号为“播放音乐”，则终端确定音频播放应用程序，通过音频播放程序播放音乐。

而响应于终端识别出第三语音信号中包括“没有”或“不”等词，终端确定误触发了语音助手，关闭语音助手，直到再次采集到第二语音信号。

另外，响应于第一交互信息中包括文本信息，终端展示语音控制结果选项，该语音控制结果选项包括确认选项和取消选项。

可选地，终端展示消息对话框，该消息对话框中展示语音控制结果选项。响应于确定选项被触发终端执行接收第三语音信号的步骤；响应于取消选项被触发，终端停止运行语音控制。例如，终端中消息对话框，消息对话框中展示“是在叫我吗”，以及，“是的”和“没有”选项。响应于“是的”被触发，终端确定确认选项被触发。

请参考图7，其示出了本申请一个示例性实施例提供的语音控制装置的结构框图。该语音控制装置可以通过软件、硬件或者两者的结合实现成为处理器110的全部或一部分。该装置包括：

声纹匹配模块701，用于根据本地存储的第一语音信号，对接收到的第二语音信号进行声纹匹配，得到该第二语音信号与该第一语音信号之间的声纹匹配度；

确定模块702，用于根据该声纹匹配度以及交互信息库中的每个交互信息的语气特征，从该交互信息库中确定语气特征与该声纹匹配度匹配的目标交互信息，任一交互信息的语气特征用于表示该任一交互信息的语气强度；

输出模块703，用于输出该目标交互信息，该目标交互信息用于提示用户通过语音信号对终端进行控制。

在一种可能的实现方式中，该确定模块702包括：

第一确定子模块，用于根据该声纹匹配度，确定该声纹匹配度对应的匹配度级别；

第二确定子模块，用于根据该匹配度级别，确定与该匹配度级别对应的第一目标语气特征；

第三确定子模块，用于从该交互信息库中确定语气特征为该第一目标语气特征的该目标交互信息。

在另一种可能的实现方式中，该第一确定子模块，用于响应于该声纹匹配度大于第一预设阈值，确定该声纹匹配度对应的匹配度级别为第一级；或者，

该第一确定子模块，用于响应于该声纹匹配度大于第二预设阈值，且，该声纹匹配度不大于该第一预设阈值，确定该声纹匹配度对应的匹配度级别为第二级别，该第二预设阈值小于该第一预设阈值。

在另一种可能的实现方式中，该确定模块702包括：

第四确定子模块，用于根据该声纹匹配度，从声纹匹配度和语气特征的对应关系中确定与该声纹匹配度对应的第二目标语气特征；

第五确定子模块，用于从该交互信息库中确定语气特征为该第二目标语气特征的该目标交互信息。

在另一种可能的实现方式中，该输出模块703包括：

唤醒单元，用于响应于该目标交互信息的语气强度超过预设强度，唤醒当前终端；

输出单元，用于在该终端处于唤醒状态下，输出该目标交互信息。

在另一种可能的实现方式中，该确定模块702，还用于响应于该声纹匹配度大于第三预设阈值，执行根据该声纹匹配度以及交互信息库中的每个交互信息的语气特征，从该交互信息库中确定语气特征与该声纹匹配度匹配的目标交互信息。

在另一种可能的实现方式中，该装置还包括：

第一接收模块，用于接收第三语音信号；

意图识别模块，用于对该第三语音信号进行意图识别，得到控制命令；

执行模块，用于执行该控制命令。

在另一种可能的实现方式中，该装置还包括：

第二接收模块，用于接收该第二语音信号；

该声纹匹配模块701，还用于响应于该第二语音信号包括目标唤醒词，执行根据本地存储的第一语音信号，对接收到的第二语音信号进行声纹匹配，得到该第二语音信号与该第一语音信号之间的声纹匹配度。

本申请实施例还提供了一种计算机可读介质，该计算机可读介质存储有至少一条程序代码，该至少一条程序代码由该处理器加载并执行以实现如上各个实施例示出的语音控制方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品存储有至少一条程序代码，该至少一条程序代码由该处理器加载并执行以实现如上各个实施例示出的语音控制方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述声纹匹配度以及交互信息库中的每个交互信息的语气特征，从所述交互信息库中确定语气特征与所述声纹匹配度匹配的目标交互信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述声纹匹配度，确定所述声纹匹配度对应的匹配度级别，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述声纹匹配度以及交互信息库中的每个交互信息的语气特征，从所述交互信息库中确定语气特征与所述声纹匹配度匹配的目标交互信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述输出所述目标交互信息，包括：

在所述终端处于唤醒状态下，输出所述目标交互信息。

6.根据权利要求1所述的方法，其特征在于，所述根据所述声纹匹配度以及交互信息库中的每个交互信息的语气特征，从所述交互信息库中确定语气特征与所述声纹匹配度匹配的目标交互信息之前，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，输出所述目标交互信息之后，所述方法还包括：

接收第三语音信号；

对所述第三语音信号进行意图识别，得到控制命令；

执行所述控制命令。

8.根据权利要求1所述的方法，其特征在于，所述根据本地存储的第一语音信号，对接收到的第二语音信号进行声纹匹配，得到所述第二语音信号与所述第一语音信号之间的声纹匹配度之前，所述方法还包括：

接收所述第二语音信号；

9.一种语音控制装置，其特征在于，所述装置包括：

10.一种终端，其特征在于，所述终端包括处理器和存储器；所述存储器存储有至少一条程序代码，所述至少一条程序代码用于被所述处理器执行以实现如权利要求1至8任一所述的语音控制方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条程序代码，所述至少一条程序代码用于被处理器执行以实现如权利要求1至8任一所述的语音控制方法。