CN111768783A

CN111768783A - 语音交互控制方法、装置、电子设备、存储介质和系统

Info

Publication number: CN111768783A
Application number: CN202010622594.5A
Authority: CN
Inventors: 高聪; 邹赛赛; 白锦峰; 贾磊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-13
Anticipated expiration: 2040-06-30
Also published as: US11615784B2; CN111768783B; KR102706163B1; US11823662B2; EP3933831A1; JP7328265B2; JP2022013610A; KR20210088467A; US20210407494A1; US20210407496A1; EP3933831B1

Abstract

本申请公开了一种语音交互控制方法、装置、电子设备、存储介质和系统，涉及语音识别、人机交互和深度学习技术领域。其中，一种语音交互控制方法的具体实现方案为：采集音频信号；检测所述音频信号中的唤醒词；基于检测的唤醒词结果，播放提示音和/或执行音频信号中的语音指令。本申请实施例简化了交互流程。

Description

语音交互控制方法、装置、电子设备、存储介质和系统

技术领域

本申请涉及计算机技术领域，尤其涉及语音识别、人机交互和深度学习技术领域。

背景技术

随着语音技术和人机交互技术的发展，出现了可以与用户进行语音交互的智能终端设备(简称语音交互终端)，例如智能音箱、智能家居和智能手表等。

现有的语音交互终端在使用时，一般采用四音节的唤醒词，例如“小小度小度”等。语音交互终端识别到唤醒词后，发出提示音，以提示用户可以继续发送语音指令；然后，语音交互终端再对用户发送的语音指令进行响应。通常需要两轮交互才能响应一个指令。可见，现有的唤醒词较长且交互流程繁琐。

发明内容

本申请提供了一种语音交互控制方法、装置、电子设备、存储介质和系统。

根据本申请的一方面，提供了一种语音交互控制方法，包括：

采集音频信号；

检测所述音频信号中的唤醒词；

基于检测的唤醒词结果，播放提示音和/或执行音频信号中的语音指令。

根据本申请的另一方面，提供了一种语音交互控制方法，包括：

获取音频信号；

检测所述音频信号首部的唤醒词和所述唤醒词之后的语音指令；

基于检测的唤醒词结果和语音指令结果中的至少一项，控制语音交互终端播放提示音和/或执行语音指令。

根据本申请的另一方面，提供了一种语音交互控制装置，包括：

采集模块，用于采集音频信号；

检测模块，用于检测所述音频信号中的唤醒词；

执行模块，用于基于检测的唤醒词结果，播放提示音和/或执行音频信号中的语音指令。

获取模块，用于获取音频信号；

检测模块，用于检测所述音频信号首部的唤醒词和所述唤醒词之后的语音指令；

控制模块，用于基于检测的唤醒词结果和语音指令结果中的至少一项，控制语音交互终端播放提示音和/或执行语音指令。

根据本申请的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行任一实施例所述的语音交互控制方法。

根据本申请的另一方面，提供了另一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行任一实施例所述的语音交互控制方法。

根据本申请的另一方面，提供了一种语音交互控制系统，包括：语音交互终端和服务器；

所述语音交互终端，用于采集音频信号；检测所述音频信号中的唤醒词；基于检测的唤醒词结果，将唤醒词对应的音频信号和后续音频信号发送至所述服务器，和/或播放提示音；接收并执行所述服务器返回的语音指令和/或提示音播放指令；

所述服务器，用于接收所述语音交互终端发送的音频信号；检测接收到的所述音频信号首部的唤醒词和所述唤醒词之后的语音指令；基于检测的唤醒词结果和语音指令结果中的至少一项，向所述语音交互终端下发语音指令和/或提示音播放指令。

根据本申请实施例的技术简化了交互流程。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例中的第一种语音交互控制方法的流程图；

图2是本申请实施例中的第二种语音交互控制方法的流程图；

图3是本申请实施例中的第三种语音交互控制方法的流程图；

图4a是本申请实施例中的音频信号示意图；

图4b是本申请实施例中的第四种语音交互控制方法的流程图；

图4c是本申请实施例提供的智能音箱与云端服务器的交互示意图；

图5是本申请实施例中的第五种语音交互控制方法的流程图；

图6是本申请实施例中的第六种语音交互控制方法的流程图；

图7是本申请实施例中的第七种语音交互控制方法的流程图；

图8是本申请实施例中的第一种语音交互控制装置的结构图；

图9是本申请实施例中的第二种语音交互控制装置的结构图；

图10是用来实现本申请实施例的语音交互控制方法的电子设备的框图；

图11是本申请实施例中的语音交互控制系统的结构示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

根据本申请的实施例，图1是本申请实施例中的第一种语音交互控制方法的流程图，本申请实施例适用于从音频信号中检测唤醒词的情况。该方法通过语音交互控制装置执行，该装置采用软件和/或硬件实现，并具体配置于具备一定数据运算能力的电子设备中，电子设备包括但不限于语音交互终端、服务器和其它智能设备，语音交互终端包括但不限于智能音箱、智能家居和智能手表。

如图1所示的语音交互控制方法，包括：

S110、采集音频信号。

电子设备配置有麦克风，实时采集设备周围的音频信号。考虑到多种情况，设备可能采集到用户与语音交互终端进行交互的语音指令(query)、用户与其它人、物之间交流的语音信号，或者非语音信号，如下雨声或电视机发出的声音，这些统称为音频信号。

为了便于设备从音频信号中检测出用户与设备交互的语音指令，并使语音指令与其它信号相区别，业内普遍的做法是在语音指令之前添加唤醒词，当检测到唤醒词后，则认为唤醒词之后的音频信号为语音指令。

在一应用场景中，用户向设备一次性发出语音“小度关灯”，其中，小度为唤醒词，关灯为语音指令。“小度关灯”对应的音频信号被设备采集。

S120、检测音频信号中的唤醒词。

设备预先设置有至少一个唤醒词。本实施例对唤醒词的内容和音节数不作限定，在一些实施例中，用户可以自主设置唤醒词的内容和音节数。

这里的音节(Syllable)是表音语系中单个元音音素和辅音音素组合发音的最小语音单位。音节可以是汉语音节或者英语音节。汉语音节(也是一个汉字的发音音节)通常是声母和韵母组合的拼读音节，也有两个韵母组合的拼读音节，还有单个韵母的音节；借用表音语系中的辅音音素标注汉语的声母音素，元音音素和辅音音素组合标注汉语的韵母音素。在英语中元音字母特别响亮，一个元音音素可构成一个音节，一个元音音素和一个或几个辅音音素结合也可以构成一个音节。示例性的，唤醒词的音节数可以简单理解为汉字字数或者元音音素的个数。

本实施例采用语音识别技术对采集到的音频信号中的唤醒词进行检测，具体提取音频信号中的声学特征，并输入至预先训练好的唤醒词检测模型中，该唤醒词检测模型通过多种唤醒词对应的音频信号进行训练得到，以检测音频信号是否包括唤醒词，检测到的唤醒词内容和音节数。

接着上述应用场景，如果音频信号为“小度关灯”，则从该音频信号中检测到唤醒词“小度”；如果音频信号为“小度小度关灯”，则从该音频信号中检测到唤醒词“小度小度”。

S130、基于检测的唤醒词结果，播放提示音和/或执行音频信号中的语音指令。

唤醒词结果包括音频信号中是否包括唤醒词以及包括的唤醒词内容；不同的唤醒词结果与所需要执行的操作具有对应关系，可根据不同的唤醒词结果执行播放提示音和执行语音指令中的至少一项操作。

本实施例中的提示音为设备响应于唤醒词向用户发出的应答语音，以提示用户设备已被唤醒，可以说出语音指令，例如“在”、“怎么了”和“请说”等。语音指令来源于音频信号，语音指令类型包括但不限于设备本身的功能执行指令和对外界智能设备的控制指令，例如，当设备是智能音箱时，如果唤醒词结果包括“小度”则可仅执行语音指令；如果唤醒词包括“小度小度”，可仅播放提示音，或者既播放提示音又执行语音指令；如果唤醒词结果不包括任何唤醒词，则可不执行任何操作。需要说明的是，当播放提示音和语音指令均执行时，语音指令可以在提示音播放完毕后执行。

本实施例提供的语音交互控制方法允许用户发出唤醒词+语音指令，通过检测音频信号中的唤醒词，并基于检测的唤醒词结果播放提示音和/或执行语音指令，从而通过一轮交互完成语音指令的响应，满足用户诉求，减少交互长度，使得语音指令快速到达，快速响应。

此外，本实施例还达到了如下技术效果：降低新用户使用成本，让所有新使用语音交互终端的用户不用经过熟悉练习就可以自如的体验设备。

根据本申请的实施例，图2是本申请实施例中的第二种语音交互控制方法的流程图，本实施例在上述实施例的基础上优化。

可选的，将操作“基于检测的唤醒词结果，播放提示音和/或执行音频信号中的语音指令”细化为“如果第一置信度满足第一置信度阈值要求，执行语音指令；如果第一置信度不满足第一置信度阈值要求，播放提示音”。

在操作“基于检测的唤醒词结果，执行语音指令”之时或之前，追加操作“不播放提示音”。

如图2所示的语音交互控制方法，包括：

S210、采集音频信号。

S220、检测音频信号中的唤醒词。

本实施例中，检测的唤醒词结果包括第一置信度，第一置信度用于表征音频信号包括目标唤醒词的可信度。其中，目标唤醒词为设定的一唤醒词，为了方便描述和区分，将表征音频信号包括目标唤醒词的可信度称为第一置信度。可选的，采用唤醒词检测模型检测得到第一置信度，具体将在下述实施例中详细介绍。

S230、判断第一置信度是否满足第一置信度阈值要求，如果判断结果为是，即检测到目标唤醒词，跳转到S240和S250；如果判断结果为否，即未检测到目标唤醒词，跳转到S260。

第一置信度阈值要求可以是一个置信度阈值或者一个置信度区间，表征了音频信号包括目标唤醒词的可信度的临界点。如果第一置信度满足第一置信度阈值要求，如超过第一置信度阈值，认为检测到目标唤醒词；如果第一置信度不满足第一置信度阈值要求，如未超过第一置信度阈值，认为未检测到目标唤醒词。

S240、不播放提示音。

当设备检测到目标唤醒词后，其后面大概率紧跟着语音指令，因此不播放提示音，以避免给用户造成显著的打扰，同时避免后续语音指令与提示音重叠造成“抢话”的状态，也避免了语音指令被干扰影响检测精度。

S250、执行音频信号中的语音指令。

值得说明的是，S240和S250执行先后顺序不限，可以并行执行，或者先执行S240再执行S250，或者先执行S250再执行S240。

S260、播放提示音。

当未检测到目标唤醒词，可能用户说出了其它唤醒词或者未说出唤醒词，则可以播放提示音。用户在收听到提示音后，说出语音指令，进而执行语音指令。本步骤实质实现了二轮交互。

本实施例设计了独特的提示音响应机制，在检测到目标唤醒词后不再发出提示音；同时支持传统的普通唤醒词的提示音响应流程和语音交互流程，以及目标唤醒词的非提示音流程，提高容错能力，满足用户的多样化使用习惯。

根据本申请的实施例，图3是本申请实施例中的第三种语音交互控制方法的流程图，本实施例在上述实施例的基础上进一步优化。

可选的，将操作“基于检测的唤醒词结果，播放提示音”细化为“如果第二置信度满足第二置信度阈值要求且第一置信度不满足第一置信度阈值要求，播放提示音”。

如图3所示的语音交互控制方法，包括：

S310、采集音频信号。

S320、检测音频信号中的唤醒词。

可选的，采用唤醒词检测模型检测唤醒词，唤醒词检测模型包括但不限于混合高斯模型、马尔可夫链和隐马尔可夫模型。具体的，将音频信号输入至唤醒词检测模型，输出唤醒词结果，包括：用于表征音频信号包括目标唤醒词的可信度的第一置信度，以及用于表征音频信号包括普通唤醒词的可信度的第二置信度。为了方便描述和区分，将表征音频信号包括普通唤醒词的可信度称为第二置信度。可选的，采用唤醒词检测模型检测得到第二置信度，

S330、判断第一置信度是否满足第一置信度阈值要求，以及第二置信度是否满足第二置信度阈值要求。如果第一置信度满足第一置信度阈值要求，跳转到S340和S350；如果第一置信度不满足第一置信度阈值要求且第二置信度满足第二置信度阈值要求，则跳转到S360。

可选的，本操作也可以采用唤醒词检测模型完成，可将唤醒词检测模型最后一层设置为分类层，用于输入第一置信度和第二置信度，通过与各自的置信度阈值要求相比，输出是否满足置信度阈值要求的分类结果。

与第一置信度阈值要求类似，第二置信度阈值要求可以是一个置信度阈值或者一个置信度区间，表征了音频信号包括普通唤醒词的可信度的临界点。如果第二置信度满足第二置信度阈值要求，如超过第二置信度阈值，认为检测到普通唤醒词；如果第二置信度不满足第二置信度阈值要求，如未超过第二置信度阈值，认为未检测到普通唤醒词。

根据上述描述，唤醒词检测模型需要解决的问题包括：1)检测出目标唤醒词；2)检测出普通唤醒词；3)对目标唤醒词和普通唤醒词进行区别。基于此，在实际应用场景中可采用一个、两个或多个唤醒词检测模型解决上述问题。

在采用一个唤醒词检测模型时，该唤醒词检测模型检测音频信号中的目标唤醒词和普通唤醒词，同时得到第一置信度和第二置信度；进而基于第一置信度和第二置信度确定是否检测到唤醒词以及唤醒词为目标唤醒词或普通唤醒词。

在采用两个唤醒词检测模型时，一个唤醒词检测模型检测音频信号中的目标唤醒词，得到第一置信度；另一个唤醒词检测模型检测音频信号中的普通唤醒词，得到第二置信度。然后，基于第一置信度和第二置信度，确定是否检测到唤醒词以及唤醒词为目标唤醒词或普通唤醒词。

在采用三个唤醒词检测模型时，一个唤醒词检测模型检测音频信号中的目标唤醒词，得到第一置信度；另一个唤醒词检测模型检测音频信号中的普通唤醒词，得到第二置信度。又一个唤醒词检测模型根据第一置信度和第二置信度，确定是否检测到唤醒词以及唤醒词为目标唤醒词或普通唤醒词。

S340、不播放提示音。

S350、执行音频信号中的语音指令。

值得说明的是，S340和S350执行先后顺序不限，可以并行执行，或者先执行S340再执行S350，或者先执行S350再执行S340。

S360、播放提示音。

本实施例采用唤醒词检测模型同时检测目标唤醒词和普通唤醒词，并通过置信度确定是否检测到唤醒词以及唤醒词为目标唤醒词或普通唤醒词，从而保证目标唤醒词和普通唤醒词的一定的检测精度，避免唤醒词的误报对用户造成提示音打搅。

在上述实施例和下述实施例中，可设置目标唤醒词和普通唤醒词的内容和音节数；相应的，当设置不同内容和音节数时，唤醒词检测方法也相应不同。下面基于目标唤醒词与普通唤醒词相同，以及不同时的几种情况，详细介绍几种唤醒词及可选的检测方法。

情况一：目标唤醒词与普通唤醒词的音节数相同。

本情况中，目标唤醒词与普通唤醒词的音节数相同但内容不同，例如目标唤醒词为“一二三”，普通唤醒词为“四五六”。对于音节的描述参数上述实施例，此处不再赘述。在检测时，可采用一个唤醒词检测模型同时检测音频信号中的目标唤醒词和普通唤醒词，并提供第一置信度和第二置信度；或者，采用两个唤醒词检测模型分别检测音频信号中的目标唤醒词和普通唤醒词，并分别提供第一置信度和第二置信度。进一步的，采用另一唤醒词检测模型根据第一置信度和第二置信度，确定是否检测到唤醒词以及唤醒词为目标唤醒词或普通唤醒词。

情况二：普通唤醒词包括一个目标唤醒词。

目标唤醒词是普通唤醒词的一部分，目标唤醒词的音节数少于普通唤醒词的音节数。例如，目标唤醒词为“小五”，普通唤醒词为“小五同学”。这种情况下，可以采用情况一提供的方法检测。考虑到目标唤醒词与普通唤醒词的包含关系，则可根据目标唤醒词在普通唤醒词中的位置，通过一个唤醒词检测模型先后检测目标唤醒词和普通唤醒词。可选的，如果目标唤醒词在普通唤醒词头部，例如“小五”和“小五同学”，则采用唤醒词检测模型对音频信号中的目标唤醒词进行初次检测，得到初次检测结果；在初次检测后的设定时长内对普通唤醒词中除目标唤醒词之外剩余的部分(如“同学”)进行再次检测，得到再次检测结果；根据初次检测结果和再次检测结果，确定第一置信度和第二置信度。假设设定时长可以为0.5秒，即如果检测到目标唤醒词后0.5秒内又检测到剩余的部分，则第二置信度较高；如果检测到目标唤醒词后的0.5秒内未检测到剩余的部分，则第一置信度较高；如果初次检测时未检测到目标唤醒词，则也不会检测到普通唤醒词，则第一置信度和第二置信度均较低。

如果目标唤醒词在普通唤醒词的尾部，例如“同学”和“小五同学”，则采用唤醒词检测模型对普通唤醒词中除目标唤醒词之外剩余的部分(如“小五”)进行初次检测，得到初次检测结果；在初次检测后的设定时长内对目标唤醒词进行再次检测，得到再次检测结果；根据初次检测结果和再次检测结果，确定第一置信度和第二置信度。假设设定时长可以为0.5秒，即如果检测到剩余的部分后0.5秒内又检测到目标唤醒词，则第二置信度较高；如果检测到剩余的部分后的0.5秒内未检测到目标唤醒词，则第一置信度和第二置信度均较低；如果初次检测时未检测到剩余的部分，但0.5秒后检测到目标唤醒词，则第一置信度较高。

情况三：普通唤醒词包括至少两个目标唤醒词。

目标唤醒词是普通唤醒词的一部分，目标唤醒词的音节数少于普通唤醒词的音节数。与情况二不同之处在于，普通唤醒词含有两个以上的目标唤醒词。这种情况下，可以采用情况一提供的方法检测。考虑到目标唤醒词与普通唤醒词的包含关系，则可通过一个唤醒词检测模型先后检测目标唤醒词和普通唤醒词。在一应用场景中，普通唤醒词仅包括两个目标唤醒词，例如，普通唤醒词为“小A小A”，目标唤醒词为“小A”；又例如，普通唤醒词为“大帅哥大帅哥”，目标唤醒词为“大帅哥”。基于普通唤醒词和目标唤醒词的这种数量设定，对唤醒词检测过程进行如下限定。具体的，采用唤醒词检测模型对音频信号中的目标唤醒词进行初次检测；并在初次检测到后的设定时长内对目标唤醒词进行再次检测；根据初次检测结果和再次检测结果，确定第一置信度和第二置信度。假设设定时长可以为0.5秒，即如果检测到目标唤醒词后0.5秒内又检测到目标唤醒词，则第二置信度较高；如果检测到目标唤醒词后的0.5秒内未检测到目标唤醒词，则第一置信度较高；如果初次检测时未检测到目标唤醒词，则也不会检测到普通唤醒词，则第一置信度和第二置信度均较低。本实施例中，普通唤醒词包括两个目标唤醒词，方便用户接收；而且通过对目标唤醒词二次检测，从而准确区分出目标唤醒词和普通唤醒词。

情况四：普通唤醒词为四音节以上的词，目标唤醒词为小于四音节的词。

本情况对普通唤醒词与目标唤醒词的内容不作限定，参见情况二和情况三，目标唤醒词包含在普通唤醒词中。此外，目标唤醒词和普通唤醒词的内容可完全不同，例如，目标唤醒词为“小度”，普通唤醒词为“小五同学”。这种情况下，可以采用情况一提供的方法检测。

本实施例中的目标唤醒词的音节数减少，尤其是由四音节减少为双音节，更符合现实生活中用户的使用习惯，例如发出2个汉字的使用习惯，直观体验更加人性化，与设备交流更自然，更符合人类自然的交流方式。

在上述检测过程中需要说明的是，考虑到可能同时存在第一置信度阈值要求和第二置信度阈值要求均满足的情况，需要明确区分普通唤醒词和目标唤醒词，避免产生混淆；同时由于目前的语音检测技术水平所限，小于四音节的目标唤醒词的误报率比较高，所以不能发现疑似普通唤醒就给出提示音，否则对用户会形成显著的打搅。除此之外，为了进一步避免提示音对用户造成打搅，同时也是为了“目标唤醒词+语音指令”的方式能够最大程度便于用户操作设备，如果实际是目标唤醒词，一定不能被检测为普通唤醒词；如果实际是普通唤醒词，允许少部分被检测为目标唤醒词。基于此，如果第一置信度满足第一置信度阈值要求，不论第二置信度是否满足第二置信度阈值要求，则检测为目标唤醒词；如果第一置信度不满足第一置信度阈值要求且第二置信度满足第二置信度阈值要求，确定检测到普通唤醒词；如果第一置信度不满足第一置信度阈值要求且第二置信度也不满足第二置信度阈值要求，确定未检测到任何唤醒词。

在上述实施例和下述实施例中，语音指令通过对音频信号中唤醒词之后的部分进行检测得到。图4a是本申请实施例中的音频信号示意图。唤醒词之前和之后均分布有音频信号，唤醒词对应的音频信号为L1，唤醒词之后的音频信号为L2，直到音频信号消失。语音指令是通过对L2进行检测得到。可选的，通过语音活性检测(Voice activity detection，VAD)技术来检测音频信号是否消失。

本实施例允许用户一次性、不停顿地说出唤醒词+语音指令，仅需要一轮交互完成语音指令的响应，简化了交互流程。值得说明的是，此处的唤醒词不限于目标唤醒词和普通唤醒词。

图4b是本申请实施例中的第四种语音交互控制方法的流程图，可选的，执行主体限定为语音交互终端；将操作“如果第一置信度满足第一置信度阈值要求，执行语音指令”细化为“如果第一置信度满足第一置信度阈值要求，将目标唤醒词对应的音频信号和后续音频信号发送至服务器，以供服务器检测接收到的音频信号首部的唤醒词和唤醒词之后的语音指令；从服务器获取语音指令并执行”。

如图4b所示的语音交互控制方法，包括：

S410、采集音频信号。

S420、检测音频信号中的唤醒词。

语音交互终端实时采集音频信号，并对采集到的音频信号进行检测。检测方法详见上述实施例的记载，此处不再赘述。由于语音交互终端的检测能力有限，小于四音节的目标唤醒词的误报率比较高，需要服务器对唤醒词进一步检测。

S430、判断第一置信度是否满足第一置信度阈值要求，如果判断结果为是，即检测到目标唤醒词，跳转到S440；如果判断结果为否，即未检测到目标唤醒词，跳转到S460。

S440、将目标唤醒词对应的音频信号和后续音频信号发送至服务器，以供服务器检测接收到的音频信号首部的唤醒词和唤醒词之后的语音指令。继续执行S450。

当检测到目标唤醒词后，不播放提示音，实现无提示音透传目标唤醒词对应的音频信号和后续音频信号。

图4c是本申请实施例提供的智能音箱与云端服务器的交互示意图。智能音箱将目标唤醒词对应的音频信号和后续音频信号发送至云端服务器，云端服务器检测接收到的音频信号首部的唤醒词和唤醒词之后的语音指令。由于目标唤醒词的音节数少，终端的误判率高(可能存在普通唤醒词或噪音的情况)，云端服务器需要再次检测音频信号首部是否包括唤醒词以及唤醒词后的语音指令。对音频信号首部中唤醒词的再次检测将在下述实施例中说明。

S450、从服务器获取语音指令并执行。

在一应用场景中，用户向语音交互终端一次性发出语音“小度关灯”，终端检测到目标唤醒词“小度”后，不发出提示音，而是直接将“小度关灯”的音频信号发送至服务器。服务器再次检测到目标唤醒词，并同时检测到目标唤醒词后的关灯指令，控制语音交互终端关灯。在一可选实施方式中，如果灯有红外开关，智能音箱有红外发射装置，这种情况下，云端服务器检测到了关灯指令，然后把关灯的红外码反馈到智能音箱，智能音箱发射红外码关灯，以控制关灯。另一可选实施方式中，灯是通过局域网接入智能音箱的网络，云端服务器检测到了关灯指令，向智能音箱下发关灯指令，智能音箱通过局域网将关灯指令发送至灯，以控制关灯。

S460、播放提示音。

本实施例将目标唤醒词和语音指令对应的音频信号发送至服务器，从而服务器对音频信号首部中的唤醒词+语音指令进行检测，在语音交互终端发送的疑似“目标唤醒词+语音指令”的音频信号，以音频信号整体(即目标唤醒词+语音指令)进行检测，通过对语音指令的检测有效辅助首部唤醒词的检测，如果未检测到语音指令，则间接说明目标唤醒词的检测是错误的，从而减少误报率。

根据本申请的实施例，图5是本申请实施例中的第五种语音交互控制方法的流程图，本申请实施例适用于对音频信号整体进行检测的情况。该方法通过语音交互控制装置执行，该装置采用软件和/或硬件实现，并具体配置于具备一定数据运算能力的电子设备中，电子设备包括但不限于语音交互终端、服务器和其它智能设备，语音交互终端包括但不限于智能音箱、智能家居和智能手表，服务器优选部署在云端。

如图5所示的语音交互控制方法，包括：

S510、获取音频信号。

本实施例中的音频信号可以是采集的音频信号，也可以是接收语音交互终端发送的音频信号。根据上述实施例的描述，本实施例在由服务器执行时，语音交互终端发送的音频信号包括目标唤醒词对应的音频信号和后续音频信号，从而通过与语音交互终端交互的方式完成指令响应，将对音频信号再次检测的高精、复杂又庞大的算法部署在服务器，利用服务器的巨大存储容量和计算效率有利于提高再次检测的精度，进而提高指令响应的精度。

S520、检测音频信号首部的唤醒词和唤醒词之后的语音指令。

如果如上述实施例一般简单地仅对唤醒词进行检测，由于唤醒词的音节数较少，尤其是目标唤醒词，则误报率较高。为了降低误报率，本实施例对音频信号整体进行检测。

可选的，首先检测音频信号首部是否包括唤醒词，如果包括唤醒词，还需要检测该唤醒词是目标唤醒词还是普通唤醒词。对目标唤醒词和普通唤醒词的描述参数上述各实施例，此处不再赘述。

其中，音频信号的首部可以是设定时长的信号，例如2秒或3秒长度的信号。

根据首部的唤醒词检测结果分三种情况对后续音频进行语音指令检测。可选的，如果唤醒词检测结果指示检测到目标唤醒词，则可以从音频信号中剔除目标唤醒词对应的部分，对剩余的音频信号进行检测得到语音指令或者非交互语音信号(即非语音信号或用户与其它人、物之间的交流信号)。如果唤醒词检测结果指示检测到普通唤醒词，则可以从音频信号中剔除普通唤醒词对应的部分，对剩余的音频信号进行检测得到语音指令或者非交互语音信号。如果唤醒词检测结果指示未检测到任何唤醒词而为噪音，则不再对后续音频信号检测。

S530、基于检测的唤醒词结果和语音指令结果中的至少一项，控制语音交互终端播放提示音和/或执行语音指令。

是否检测到唤醒词表明用户是否期望设备响应，目标唤醒词和普通唤醒词表明用户以何种方式交互，如一轮交互或二轮交互。基于此，执行播放提示音和执行语音指令中的至少一项操作。

可选的，如果唤醒词检测结果指示检测到目标唤醒词，且语音指令结果指示检测到语音指令，则控制语音交互终端执行语音指令。如果唤醒词检测结果指示检测到普通唤醒词，且语音指令结果指示检测到语音指令，则控制语音交互终端播放提示音。如果唤醒词检测结果指示检测到目标唤醒词或普通唤醒词，但语音指令结果指示检测到非交互语音信号，则控制语音交互终端播放提示音，引导用户澄清对语音交互终端的期望命令，例如发出进一步的询问语音“请再说一遍”，作为一种响应。可选的，如果唤醒词检测结果指示未检测到任何唤醒词而为噪音，则直接向语音交互终端发送空指令，终端对空指令不作响应，从而成功解决唤醒词误报对系统造成的干扰。

在一些情况下，如果唤醒词检测结果指示检测到普通唤醒词，可以不再对剩余的音频信号检测，而是直接控制语音交互终端播放提示音；或者既控制语音交互终端播放提示音又控制语音交互终端执行语音指令。

可选的，本实施例的执行主体为服务器时，可以向语音交互终端下发语音指令和/或提示音播放指令，以控制语音交互终端播放提示音和执行语音指令中的至少一项。

本实施例以音频信号整体进行检测，通过对语音指令的检测有效辅助首部唤醒词的检测，如果未检测到语音指令，则间接说明目标唤醒词的检测是错误的，从而减少误报率。

根据本申请的实施例，图6是本申请实施例中的第六种语音交互控制方法的流程图，本实施例在上述实施例的基础上对语音交互终端的控制过程进行优化，

可选的，将操作“基于检测的唤醒词结果和语音指令结果中的至少一项，控制语音交互终端播放提示音和/或执行语音指令”细化为“如果第三置信度满足第三置信度阈值要求，基于语音指令结果控制语音交互终端执行语音指令；如果第三置信度不满足第三置信度阈值要求，控制语音交互终端播放提示音”。

可选的，将操作“基于检测的唤醒词结果和语音指令结果中的至少一项，控制语音交互终端播放提示音和/或执行语音指令”细化为“如果第四置信度满足第四置信度阈值要求，基于语音指令结果控制语音交互终端执行语音指令或者控制语音交互终端播放提示音；如果第四置信度不满足第四置信度阈值要求且第三置信度不满足第三置信度阈值要求，向语音交互终端发送空指令”。

如图6所示的语音交互控制方法，包括：

S610、获取音频信号。

S620、检测音频信号首部的唤醒词和唤醒词之后的语音指令。

S630、判断第三置信度是否满足第三置信度阈值要求，以及第四置信度是否满足第四置信度阈值要求。如果第三置信度满足第三置信度阈值要求，跳转到S640；如果第三置信度不满足第三置信度阈值要求，则跳转到S650；如果第四置信度满足第四置信度阈值要求，跳转到S640和/或S650；如果第四置信度不满足第四置信度阈值要求，且第三置信度不满足第三置信度阈值要求，跳转到S660。

唤醒词结果包括第三置信度和第四置信度。第三置信度用于表征所述音频信号首部包括目标唤醒词的可信度，第四置信度用于表征所述音频信号首部包括普通唤醒词的可信度。

第三(或四)置信度阈值要求可以是一个置信度阈值或者一个置信度区间，表征了音频信号首部包括目标唤醒词(或普通唤醒词)的可信度的临界点。如果第三(或四)置信度满足第三(或四)置信度阈值要求，如超过第三(或四)置信度阈值，认为检测到目标唤醒词(或普通唤醒词)；如果第三(或四)置信度不满足第三(或四)置信度阈值要求，如未超过第三(或四)置信度阈值，认为未检测到目标唤醒词(或普通唤醒词)。

S640、基于语音指令结果控制语音交互终端执行语音指令。

S650、控制语音交互终端播放提示音。

S660、向语音交互终端发送空指令。

如果判别是噪音引起的误报，而没有发生唤醒，直接向语音交互终端发送空指令，终端对空指令不作响应，从而成功解决唤醒词误报对系统造成的干扰。

唤醒词结果和语音指令结果的检测具体将在下述实施例中详细介绍。

本实施例通过置信度的判断能够明确是否检测到唤醒词，以及唤醒词为目标唤醒词或普通唤醒词，进而结合语音指令结果决定对终端的控制方式，提高了唤醒词和语音指令的检测精度。

根据本申请的实施例，图7是本申请实施例中的第七种语音交互控制方法的流程图，本实施例在上述实施例的基础上对唤醒词和语音指令的检测过程进行优化，

如图7所示的语音交互控制方法，包括：

S710、获取音频信号。

S720、对音频信号的识别文本首部进行唤醒词检测。

设备部署有解码器，用于识别音频信号对应的文本，称为识别文本。由于唤醒词位于音频信号首部，则唤醒词也会位于识别文本首部。因此从识别文本首部检测其中的目标唤醒词或普通唤醒词。

S730、根据音频信号的声学特征表示和与音频信号的识别文本相关联的文本特征表示中的至少一项，确定音频信号的交互置信度，交互置信度指示音频信号是用于与终端进行交互的语音指令的可靠程度。

在语音交互控制的过程中，期望对用户真正的语音命令进行及时、正确的响应，需要对音频信号的置信度执行判断。具体地，可以从音频信号和/或识别文本的整体角度确定交互置信度，该交互置信度可以指示：该音频信号是真实语音，并且该音频信号是用于进行交互的，即语音指令。判断音频信号是否属于真实语音可以防止在之前的处理过程中将没有语音的声音(例如各种环境声)检测成语音并且还从中识别出文本。判断音频信号是否用于进行交互是为了区别用户是在与语音交互终端交互还是在跟周围其他人交互。

对于总体的交互置信度的确定可以基于音频信号的声学特征表示和/或基于识别文本的文本特征表示。声学特征表示有助于捕捉语音与非语音之间的区别，并且也能够区分用于交互的语音与非用于交互的语音。识别文本的文本特征表示则可以从语义层面上进行判断，因为从非语音的声音信号中识别的文本通常将是无意义的，而人与语音交互终端的交互在语义上也可以区分。在一些实施例中，可以借助机器学习模型来实现对音频信号和识别文本的分析。

S740、确定识别文本与音频信号的匹配状况，匹配状况指示识别文本正确反映音频信号包含的信息的程度。

确定识别文本与声音信号的匹配状况，匹配状况指示识别文本正确反映音频信号包含的信息的程度。因为交互置信度是从概率上来确定音频信号是否是用于与语音交互终端进行交互的语音指令，但在确定如何对语音指令进行响应时，通常需要基于识别文本来理解用户意图。

识别文本可以按不同粒度表示为一个或多个单元的序列，每个单元可以是词、音节、图素、音素、亚音素或者前述各项的组合。识别文本与音频信号的匹配状况可以识别音频信号与识别文本在识别文本的单元级别上是否一一匹配。这也将决定如何进行响应。在一些实施例中，也可以借助机器学习模型来实现对识别文本与音频信号的匹配状况的确定。

S750、根据交互置信度、匹配状况和唤醒词检测结果，得到唤醒词结果和语音指令结果。

可选的，S720～S750的操作可以分别由多个基于深度学习的神经网络模型实现。

S760、基于检测的唤醒词结果和语音指令结果中的至少一项，控制语音交互终端播放提示音和/或执行语音指令。

可选的，如果从识别文本首部检测到目标唤醒词，音频信号的交互置信度大于设定阈值，且确定识别文本与音频信号一一匹配，则目标唤醒词对应的第三置信度较高，并检测到语音指令。如果从识别文本首部检测到目标唤醒词，音频信号的交互置信度大于设定阈值，则目标唤醒词对应的第三置信度较高，但识别文本与音频信号未匹配时，如果从识别文本仍然能够正确确定用户意图，则依然可以立刻进行响应；如果从识别文本不能够准确判断用户意图，则可以根据匹配状况确定对用户的引导反馈，以引导用户澄清对语音交互终端的期望命令，作为响应。如果从识别文本首部检测到目标唤醒词，但音频信号的交互置信度小于或等于设定阈值，则第三置信度较低，可控制语音交互终端播放提示音。

可选的，如果从识别文本首部检测到普通唤醒词，音频信号的交互置信度大于设定阈值，且确定识别文本与音频信号一一匹配，则目标唤醒词对应的第四置信度较高，并检测到语音指令，则可以对普通唤醒词后的语音指令进行响应，和/或控制语音交互终端播放提示音。如果从识别文本首部检测到普通唤醒词，但是音频信号的交互置信度小于或等于设定阈值，或者确定识别文本与音频信号未匹配，则第四置信度较低，则向语音交互终端发送空指令。

如果从识别文本首部未检测到任何唤醒词，则第三置信度和第四置信度均较低，向语音交互终端发送空指令。

本实施例中，如果检测到普通唤醒词，控制语音交互终端播放提示音，或者对音频信号中普通唤醒词后的语音指令进行响应，使得兼容普通唤醒词的提示音响应流程和语音交互流程，而且提供了普通唤醒词+语音指令的语音交互流程，提高容错能力，满足用户的多样化使用习惯。

进一步的，由于交互置信度和匹配状况分别从交互语音的判断和对识别文本的精细评估两方面进行衡量，这有助于进行语音交互控制，从而准确、快速地进行响应，对非语音信号不进行响应，并且对属于语音指令但没能够从中准确识别文本的情况，还可以根据匹配状况进一步确定如何响应。作为一个具体示例，当用户说的是“小度我想听周杰伦的稻香”，而识别文本是“小度我想听周杰伦的塔下”，一方面识别文本首部的目标唤醒词“小度”，另一方面，交互置信度通过声音信号和/或识别文本确定当前是用户正在与语音交互终端进行交互，但识别文本中“我想听周杰伦的”的匹配置信度很高，而“塔下”的匹配置信度较低。根据这样的情况，可以根据识别文本与音频信号的匹配状况引导用户进一步澄清其意图，作为一种响应。

根据本申请的实施例，图8是本申请实施例中的第一种语音交互控制装置的结构图，本申请实施例适用于从音频信号中检测唤醒词的情况，该装置采用软件和/或硬件实现，并具体配置于具备一定数据运算能力的电子设备中。

如图8所示的一种语音交互控制装置800，包括：采集模块801、检测模块802和执行模块803；其中，

采集模块801，用于采集音频信号；

检测模块802，用于检测音频信号中的唤醒词；

执行模块803，用于基于检测的唤醒词结果，播放提示音和/或执行音频信号中的语音指令。

进一步的，唤醒词结果包括第一置信度，第一置信度用于表征音频信号包括目标唤醒词的可信度；执行模块803包括指令执行单元，用于如果第一置信度满足第一置信度阈值要求，执行音频信号中的语音指令；播放单元，用于如果第一置信度不满足第一置信度阈值要求，播放提示音。

进一步的，该装置800还包括不播放模块，用于在基于检测的唤醒词结果，执行音频信号中的语音指令之前或之时，不播放提示音。

进一步的，唤醒词结果包括第二置信度，第二置信度用于表征音频信号包括普通唤醒词的可信度；执行模块803在基于检测的唤醒词结果，播放提示音时，具体用于如果第二置信度满足第二置信度阈值要求且第一置信度不满足第一置信度阈值要求，播放提示音。

进一步的，普通唤醒词包括至少一个目标唤醒词；检测模块802，包括：初次检测模块，用于采用唤醒词检测模型对音频信号中的目标唤醒词进行初次检测，得到初次检测结果；再次检测模块，用于在初次检测后的设定时长内对目标唤醒词进行再次检测，得到再次检测结果；确定模块，用于根据初次检测结果和再次检测结果，确定第一置信度和第二置信度。

进一步的，语音指令通过对音频信号中唤醒词之后的部分进行检测得到。

进一步的，该装置800配置在语音交互终端中；指令执行单元，包括：发送子单元，用于如果第一置信度满足第一置信度阈值要求，将目标唤醒词对应的音频信号和后续音频信号发送至服务器，以供服务器检测接收到的音频信号首部的唤醒词和唤醒词之后的语音指令；获取子单元，用于从服务器获取语音指令并执行。

进一步的，目标唤醒词为小于四音节的词；普通唤醒词为四音节及以上的词。

进一步的，目标唤醒词与普通唤醒词的音节数相同。

上述语音交互控制装置可执行本申请任意实施例所提供的语音交互控制方法，具备执行语音交互控制方法相应的功能模块和有益效果。

根据本申请的实施例，图9是本申请实施例中的第二种语音交互控制装置的结构图，本申请实施例适用于对音频信号整体进行检测的情况，该装置采用软件和/或硬件实现，并具体配置于具备一定数据运算能力的电子设备中。

如图9所示的一种语音交互控制装置900，包括：获取模块901、检测模块902和控制模块903；其中，

获取模块901，用于获取音频信号；

检测模块902，用于检测音频信号首部的唤醒词和唤醒词之后的语音指令；

控制模块903，用于基于检测的唤醒词结果和语音指令结果中的至少一项，控制语音交互终端播放提示音和/或执行语音指令。

进一步的，唤醒词结果包括第三置信度，第三置信度用于表征所述音频信号首部包括目标唤醒词的可信度；控制模块903包括：第一执行单元，用于如果第三置信度满足第三置信度阈值要求，基于语音指令结果控制语音交互终端执行语音指令；控制单元，用于如果第三置信度不满足第三置信度阈值要求，控制语音交互终端播放提示音。

进一步的，唤醒词结果包括第四置信度，第四置信度用于表征所述音频信号首部包括普通唤醒词的可信度；控制模块903包括：第二执行单元，用于如果第四置信度满足第四置信度阈值要求，基于语音指令结果控制语音交互终端执行语音指令和/或控制语音交互终端播放提示音；发送单元，用于如果第四置信度不满足第四置信度阈值要求且第三置信度不满足第三置信度阈值要求，向语音交互终端发送空指令。

进一步的，检测模块902，包括：检测单元，用于对音频信号的识别文本首部进行唤醒词检测；交互置信度确定单元，用于根据音频信号的声学特征表示和与音频信号的识别文本相关联的文本特征表示中的至少一项，确定音频信号的交互置信度，交互置信度指示音频信号是用于与终端进行交互的语音指令的可靠程度；匹配状况确定单元，用于确定识别文本与音频信号的匹配状况，匹配状况指示识别文本正确反映音频信号包含的信息的程度；结果获取单元，用于根据交互置信度、匹配状况和唤醒词检测结果，得到唤醒词结果和语音指令结果。

进一步的，该装置900配置在服务器中；获取模块901，具体用于接收语音交互终端发送的音频信号。

根据本申请的实施例，本申请还提供了两种电子设备和一种可读存储介质。

如图10所示，是根据本申请实施例的语音交互控制的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图10所示，该电子设备包括：一个或多个处理器1001、存储器1002，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器1001为例。

存储器1002即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的语音交互控制的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音交互控制方法。

存储器1002作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音交互控制方法对应的程序指令/模块(例如，附图8所示的采集模块801、检测模块802和执行模块803；又例如，附图9所示的获取模块901、检测模块902和控制模块903)。处理器1001通过运行存储在存储器1002中的非瞬时软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例中的语音交互控制方法。

存储器1002可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音交互控制的电子设备的使用所创建的数据等。此外，存储器1002可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1002可选包括相对于处理器1001远程设置的存储器，这些远程存储器可以通过网络连接至语音交互控制的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

语音交互控制方法的电子设备还可以包括：输入装置1003和输出装置1004。处理器1001、存储器1002、输入装置1003和输出装置1004可以通过总线或者其他方式连接，图10中以通过总线连接为例。

输入装置1003可接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1004可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

根据本申请的实施例，图11是本申请实施例中的语音交互控制系统的结构示意图，本实施例提供一种语音交互控制系统100，包括通信连接的语音交互终端10和服务器20，服务器20可以部署在云端，语音交互终端10包括但不限于智能音箱、智能家居和智能手表。结合图11详细介绍语音交互终端10和服务器20。

如图11所示，语音交互终端10用于采集音频信号；检测所述音频信号中的唤醒词；基于检测的唤醒词结果，将唤醒词对应的音频信号和后续音频信号发送至服务器20，和/或播放提示音；接收并执行服务器20返回的语音指令和/或提示音播放指令。

可选的，此处的唤醒词可以是目标唤醒词或普通唤醒词。对于目标唤醒词和普通唤醒词的描述详见上述实施例的记载，此处不再赘述。

语音交互终端10通过执行提示音播放指令，播放提示音。

服务器20用于接收所述语音交互终端10发送的音频信号；检测接收到的所述音频信号首部的唤醒词和所述唤醒词之后的语音指令；基于检测的唤醒词结果和语音指令结果中的至少一项，向所述语音交互终端10下发语音指令和/或提示音播放指令。

本实施例提供的语音交互控制系统允许用户发出唤醒词+语音指令，从而通过一轮交互完成语音指令的响应，满足用户诉求，减少交互长度，使得语音指令快速到达，快速响应。终端10对音频信号中的唤醒词进行一次检测，并将唤醒词对应的音频信号和后续音频信号发送至服务器20，从而由服务器20对接收到的音频信号的整体再次检测，提高唤醒词和语音指令的识别精度。

可选的，唤醒词结果包括第一置信度，所述第一置信度用于表征所述音频信号包括目标唤醒词的可信度；相应的，语音交互终端10在基于检测的唤醒词结果，将唤醒词对应的音频信号和后续音频信号发送至所述服务器20时，具体用于如果所述第一置信度满足第一置信度阈值要求，将目标唤醒词对应的音频信号和后续音频信号发送至所述服务器20；语音交互终端10在基于检测的唤醒词结果，播放提示音时，具体用于如果所述第一置信度不满足所述第一置信度阈值要求，播放所述提示音。

可选的，语音交互终端10在执行所述服务器20返回的语音指令之前或之时，用于不播放所述提示音。

可选的，唤醒词结果包括第二置信度，所述第二置信度用于表征所述音频信号包括普通唤醒词的可信度；相应的，语音交互终端10在基于检测的唤醒词结果，播放提示音时，具体用于如果所述第二置信度满足第二置信度阈值要求且所述第一置信度不满足所述第一置信度阈值要求，播放所述提示音。

可选的，普通唤醒词包括至少一个所述目标唤醒词；语音交互终端10在检测所述音频信号中的唤醒词时，具体用于：采用唤醒词检测模型对所述音频信号中的目标唤醒词进行初次检测，得到初次检测结果；在所述初次检测后的设定时长内对所述目标唤醒词进行再次检测，得到再次检测结果；根据所述初次检测结果和所述再次检测结果，确定所述第一置信度和所述第二置信度。

可选的，语音指令通过对所述音频信号中所述唤醒词之后的部分进行检测得到。

可选的，目标唤醒词为小于四音节的词；普通唤醒词为四音节及以上的词。

可选的，目标唤醒词与所述普通唤醒词的音节数相同。

可选的，唤醒词结果包括第三置信度，所述第三置信度用于表征所述音频信号首部包括目标唤醒词的可信度；服务器20在基于检测的唤醒词结果和语音指令结果中的至少一项，向所述语音交互终端10下发所述语音指令和/或所述提示音播放指令时，具体用于：如果所述第三置信度满足第三置信度阈值要求，基于所述语音指令结果向所述语音交互终端10下发所述语音指令；如果所述第三置信度不满足所述第三置信度阈值要求，向所述语音交互终端10下发提示音播放指令。

可选的，唤醒词结果包括第四置信度，所述第四置信度用于表征所述音频信号首部包括普通唤醒词的可信度；服务器20在基于检测的唤醒词结果和语音指令结果中的至少一项，向所述语音交互终端10下发所述语音指令和/或所述提示音播放指令时，具体用于：如果所述第四置信度满足第四置信度阈值要求，基于所述语音指令结果向所述语音交互终端10下发所述语音指令和/或所述提示音播放指令；如果所述第四置信度不满足所述第四置信度阈值要求且所述第三置信度不满足所述第三置信度阈值要求，向所述语音交互终端10下发空指令。

可选的，服务器20在检测接收到的所述音频信号首部的唤醒词和所述唤醒词之后的语音指令时，具体用于：对所述音频信号的识别文本首部进行唤醒词检测；根据所述音频信号的声学特征表示和与所述音频信号的识别文本相关联的文本特征表示中的至少一项，确定所述音频信号的交互置信度，所述交互置信度指示所述音频信号是用于与所述终端进行交互的语音指令的可靠程度；确定所述识别文本与所述音频信号的匹配状况，所述匹配状况指示所述识别文本正确反映所述音频信号包含的信息的程度；根据所述交互置信度、所述匹配状况和唤醒词检测结果，得到所述唤醒词结果和所述语音指令结果。

本实施例提供的系统中对语音交互终端10和服务器20的未详尽之处参见上述实施例的记载，并具备上述实施例的技术效果，此处不再赘述。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音交互控制方法，包括：

采集音频信号；

检测所述音频信号中的唤醒词；

基于检测的唤醒词结果，播放提示音和/或执行所述音频信号中的语音指令。

2.根据权利要求1所述的方法，其中，所述唤醒词结果包括第一置信度，所述第一置信度用于表征所述音频信号包括目标唤醒词的可信度；

所述基于检测的唤醒词结果，播放提示音和/或执行所述音频信号中的语音指令，包括：

如果所述第一置信度满足第一置信度阈值要求，执行所述语音指令；

如果所述第一置信度不满足所述第一置信度阈值要求，播放所述提示音。

3.根据权利要求1或2所述的方法，在所述基于检测的唤醒词结果，执行所述音频信号中的语音指令之前或之时，还包括：

不播放所述提示音。

4.根据权利要求2所述的方法，其中，所述唤醒词结果包括第二置信度，所述第二置信度用于表征所述音频信号包括普通唤醒词的可信度；

所述基于检测的唤醒词结果，播放提示音，包括：

如果所述第二置信度满足第二置信度阈值要求且所述第一置信度不满足所述第一置信度阈值要求，播放所述提示音。

5.根据权利要求4所述的方法，其中，所述普通唤醒词包括至少一个所述目标唤醒词；

所述检测所述音频信号中的唤醒词，包括：

采用唤醒词检测模型对所述音频信号中的目标唤醒词进行初次检测，得到初次检测结果；

在所述初次检测后的设定时长内对所述目标唤醒词进行再次检测，得到再次检测结果；

根据所述初次检测结果和所述再次检测结果，确定所述第一置信度和所述第二置信度。

6.根据权利要求1或2所述的方法，其中，所述语音指令通过对所述音频信号中所述唤醒词之后的部分进行检测得到。

7.根据权利要求2所述的方法，其中，所述方法由语音交互终端执行；

所述如果所述第一置信度满足第一置信度阈值要求，执行所述语音指令，包括：

如果所述第一置信度满足第一置信度阈值要求，将所述目标唤醒词对应的音频信号和后续音频信号发送至服务器，以供所述服务器检测接收到的音频信号首部的唤醒词和所述唤醒词之后的语音指令；

从所述服务器获取所述语音指令并执行。

8.根据权利要求2、4、5或7所述的方法，其中，

所述目标唤醒词为小于四音节的词；

所述普通唤醒词为四音节及以上的词。

9.根据权利要求2、4、5或7所述的方法，其中，所述目标唤醒词与所述普通唤醒词的音节数相同。

10.一种语音交互控制方法，包括：

获取音频信号；

11.根据权利要求10所述的方法，其中，所述唤醒词结果包括第三置信度，所述第三置信度用于表征所述音频信号首部包括目标唤醒词的可信度；

所述基于检测的唤醒词结果和语音指令结果中的至少一项，控制语音交互终端播放提示音和/或执行语音指令，包括：

如果所述第三置信度满足第三置信度阈值要求，基于所述语音指令结果控制所述语音交互终端执行所述语音指令；

如果所述第三置信度不满足所述第三置信度阈值要求，控制所述语音交互终端播放所述提示音。

12.根据权利要求11所述的方法，其中，所述唤醒词结果包括第四置信度，所述第四置信度用于表征所述音频信号首部包括普通唤醒词的可信度；

如果所述第四置信度满足第四置信度阈值要求，基于所述语音指令结果控制所述语音交互终端执行所述语音指令和/或控制所述语音交互终端播放所述提示音；

如果所述第四置信度不满足所述第四置信度阈值要求且所述第三置信度不满足所述第三置信度阈值要求，向所述语音交互终端发送空指令。

13.根据权利要求10所述的方法，其中，所述检测所述音频信号首部的唤醒词和所述唤醒词之后的语音指令，包括：

对所述音频信号的识别文本首部进行唤醒词检测；

根据所述音频信号的声学特征表示和与所述音频信号的识别文本相关联的文本特征表示中的至少一项，确定所述音频信号的交互置信度，所述交互置信度指示所述音频信号是用于与所述终端进行交互的语音指令的可靠程度；

确定所述识别文本与所述音频信号的匹配状况，所述匹配状况指示所述识别文本正确反映所述音频信号包含的信息的程度；

根据所述交互置信度、所述匹配状况和唤醒词检测结果，得到所述唤醒词结果和所述语音指令结果。

14.根据权利要求10-13任一项所述的方法，其中，所述方法由服务器执行；

所述获取音频信号，包括：

接收语音交互终端发送的所述音频信号。

15.一种语音交互控制装置，包括：

采集模块，用于采集音频信号；

检测模块，用于检测所述音频信号中的唤醒词；

执行模块，用于基于检测的唤醒词结果，播放提示音和/或执行所述音频信号中的语音指令。

16.根据权利要求15所述的装置，其中，所述唤醒词结果包括第一置信度，所述第一置信度用于表征所述音频信号包括目标唤醒词的可信度；

所述执行模块，包括：

指令执行单元，用于如果所述第一置信度满足第一置信度阈值要求，执行所述语音指令；

播放单元，用于如果所述第一置信度不满足所述第一置信度阈值要求，播放所述提示音。

17.根据权利要求15或16所述的装置，所述装置还包括：

不播放模块，用于在所述基于检测的唤醒词结果，执行所述音频信号中的语音指令之前或之时，不播放所述提示音。

18.根据权利要求16所述的装置，其中，所述唤醒词结果包括第二置信度，所述第二置信度用于表征所述音频信号包括普通唤醒词的可信度；

所述执行模块在基于检测的唤醒词结果，播放提示音时，具体用于如果所述第二置信度满足第二置信度阈值要求且所述第一置信度不满足所述第一置信度阈值要求，播放所述提示音。

19.根据权利要求18所述的装置，其中，所述普通唤醒词包括至少一个所述目标唤醒词；

所述检测模块，包括：

初次检测模块，用于采用唤醒词检测模型对所述音频信号中的目标唤醒词进行初次检测，得到初次检测结果；

再次检测模块，用于在所述初次检测后的设定时长内对所述目标唤醒词进行再次检测，得到再次检测结果；

确定模块，用于根据所述初次检测结果和所述再次检测结果，确定所述第一置信度和所述第二置信度。

20.根据权利要求15或16所述的装置，其中，所述语音指令通过对所述音频信号中所述唤醒词之后的部分进行检测得到。

21.根据权利要求16所述的装置，其中，所述装置配置在语音交互终端中；

所述指令执行单元，包括：

发送子单元，用于如果所述第一置信度满足第一置信度阈值要求，将所述目标唤醒词对应的音频信号和后续音频信号发送至服务器，以供所述服务器检测接收到的音频信号首部的唤醒词和所述唤醒词之后的语音指令；

获取子单元，用于从所述服务器获取所述语音指令并执行。

22.根据权利要求16、18、19或21所述的装置，其中，

所述目标唤醒词为小于四音节的词；

所述普通唤醒词为四音节及以上的词。

23.根据权利要求16、18、19或21所述的装置，其中，所述目标唤醒词与所述普通唤醒词的音节数相同。

24.一种语音交互控制装置，包括：

获取模块，用于获取音频信号；

25.根据权利要求24所述的装置，其中，所述唤醒词结果包括第三置信度，所述第三置信度用于表征所述音频信号首部包括目标唤醒词的可信度；

所述控制模块，包括：

第一执行单元，用于如果所述第三置信度满足第三置信度阈值要求，基于所述语音指令结果控制所述语音交互终端执行所述语音指令；

控制单元，用于如果所述第三置信度不满足所述第三置信度阈值要求，控制所述语音交互终端播放所述提示音。

26.根据权利要求25所述的装置，其中，所述唤醒词结果包括第四置信度，所述第四置信度用于表征所述音频信号首部包括普通唤醒词的可信度；

所述控制模块，包括：

第二执行单元，用于如果所述第四置信度满足第四置信度阈值要求，基于所述语音指令结果控制所述语音交互终端执行所述语音指令和/或控制所述语音交互终端播放所述提示音；

发送单元，用于如果所述第四置信度不满足所述第四置信度阈值要求且所述第三置信度不满足所述第三置信度阈值要求，向所述语音交互终端发送空指令。

27.根据权利要求24所述的装置，其中，所述检测模块，包括：

检测单元，用于对所述音频信号的识别文本首部进行唤醒词检测；

交互置信度确定单元，用于根据所述音频信号的声学特征表示和与所述音频信号的识别文本相关联的文本特征表示中的至少一项，确定所述音频信号的交互置信度，所述交互置信度指示所述音频信号是用于与所述终端进行交互的语音指令的可靠程度；

匹配状况确定单元，用于确定所述识别文本与所述音频信号的匹配状况，所述匹配状况指示所述识别文本正确反映所述音频信号包含的信息的程度；

结果获取单元，用于根据所述交互置信度、所述匹配状况和唤醒词检测结果，得到所述唤醒词结果和所述语音指令结果。

28.根据权利要求24-27任一项所述的装置，其中，所述装置配置在服务器中；

所述获取模块，具体用于接收语音交互终端发送的所述音频信号。

29.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的语音交互控制方法。

30.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求10-14中任一项所述的语音交互控制方法。

31.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-14中任一项所述的语音交互控制方法。

32.一种语音交互控制系统，包括：语音交互终端和服务器；

所述服务器，用于接收所述语音交互终端发送的音频信号；检测接收到的所述音频信号首部的唤醒词和所述唤醒词之后的语音指令；基于检测的唤醒词结果和语音指令结果中的至少一项，向所述语音交互终端下发所述语音指令和/或所述提示音播放指令。

33.根据权利要求32所述的系统，其中，所述唤醒词结果包括第一置信度，所述第一置信度用于表征所述音频信号包括目标唤醒词的可信度；

所述语音交互终端在基于检测的唤醒词结果，将唤醒词对应的音频信号和后续音频信号发送至所述服务器时，具体用于如果所述第一置信度满足第一置信度阈值要求，将目标唤醒词对应的音频信号和后续音频信号发送至所述服务器；

所述语音交互终端在基于检测的唤醒词结果，播放提示音时，具体用于如果所述第一置信度不满足所述第一置信度阈值要求，播放所述提示音。

34.根据权利要求32或33所述的系统，其中，

所述语音交互终端在执行所述服务器返回的语音指令之前或之时，用于不播放所述提示音。

35.根据权利要求33所述的系统，其中，所述唤醒词结果包括第二置信度，所述第二置信度用于表征所述音频信号包括普通唤醒词的可信度；

所述语音交互终端在基于检测的唤醒词结果，播放提示音时，具体用于如果所述第二置信度满足第二置信度阈值要求且所述第一置信度不满足所述第一置信度阈值要求，播放所述提示音。

36.根据权利要求35所述的系统，其中，所述普通唤醒词包括至少一个所述目标唤醒词；

所述语音交互终端在检测所述音频信号中的唤醒词时，具体用于：

37.根据权利要求32或33所述的系统，其中，所述语音指令通过对所述音频信号中所述唤醒词之后的部分进行检测得到。

38.根据权利要求33、35或36所述的系统，其中，

所述目标唤醒词为小于四音节的词；

所述普通唤醒词为四音节及以上的词。

39.根据权利要求33、35或36所述的系统，其中，

所述目标唤醒词与所述普通唤醒词的音节数相同。

40.根据权利要求32所述的系统，其中，所述唤醒词结果包括第三置信度，所述第三置信度用于表征所述音频信号首部包括目标唤醒词的可信度；

所述服务器在基于检测的唤醒词结果和语音指令结果中的至少一项，向所述语音交互终端下发所述语音指令和/或所述提示音播放指令时，具体用于：

如果所述第三置信度满足第三置信度阈值要求，基于所述语音指令结果向所述语音交互终端下发所述语音指令；

如果所述第三置信度不满足所述第三置信度阈值要求，向所述语音交互终端下发提示音播放指令。

41.根据权利要求40所述的系统，其中，所述唤醒词结果包括第四置信度，所述第四置信度用于表征所述音频信号首部包括普通唤醒词的可信度；

如果所述第四置信度满足第四置信度阈值要求，基于所述语音指令结果向所述语音交互终端下发所述语音指令和/或所述提示音播放指令；

如果所述第四置信度不满足所述第四置信度阈值要求且所述第三置信度不满足所述第三置信度阈值要求，向所述语音交互终端下发空指令。

42.根据权利要求32所述的系统，其中，所述服务器在检测接收到的所述音频信号首部的唤醒词和所述唤醒词之后的语音指令时，具体用于：

对所述音频信号的识别文本首部进行唤醒词检测；