CN113242163B

CN113242163B - 语音唤醒方法和装置

Info

Publication number: CN113242163B
Application number: CN202110650963.6A
Authority: CN
Inventors: 徐超
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2022-04-12
Anticipated expiration: 2041-06-09
Also published as: CN113242163A

Abstract

本发明公开语音唤醒方法和装置，其中，一种语音唤醒方法，用于主设备，包括：响应于获取的第一音频信息中包含唤醒词，进入预唤醒状态；基于获取的第一音频信息和与第一音频信息对应的第一视频信息计算并融合得到第一音视频指标；接收从设备反馈的至少一个第二音视频指标；比较第一音视频指标和第二音频指标并基于比较结果确定响应设备，使响应设备进入唤醒状态以与所述用户进行语音交互。通过计算融合第一音频指标和第一视频指标并接受从设备发送的融合后的第二音视频指标，判断每一设备计算融合的音视频指标之间的值判定距离用户最近的设备，从而可以准确的就近唤醒设备，保证数据传输的安全性和降低数据传输的延时性。

Description

语音唤醒方法和装置

技术领域

本发明属于语音唤醒技术领域，尤其涉及语音唤醒方法和装置。

背景技术

基本场景描述：在智能家居的解决方案中，存在多个具备语音唤醒功能的家居智能设备，当用户说出指定的唤醒词时，可能存在多个设备同时响应用户的应答的情况，而用户仅希望距离自己最近且正对的设备响应自己的需求。就近唤醒就是面对这样的场景需求而衍生出的一种技术方案。目前已知的方案主要基于语音技术的就近唤醒方案、基于距离传感器的就近唤醒方案和基于多类特征数据的就近唤醒方案。

其中，基于语音技术的就近唤醒方案：

随着智能语音技术的发展与普及，在某些智能音箱助手上已经出现了就近唤醒的功能，即距离用户越近的设备，才能够响应用户的需求(或指令)。例如目前市面上现有的亚马逊音箱产品以及国内的小爱同学音箱，均通过采集用户的语音信息来进行处理并判断哪一台设备距离用户最近；

首先，常见的唤醒技术都是基于语音来进行的，因此利用语音处理技术来额外地判断说话人的距离，是一种相对低成本的方案。用户说出特定的唤醒词，当多台设备各自检测到唤醒词之后，会将包含唤醒词的音频进一步处理，进而得出与距离相关的语音指标。通过比较同一网络中不同设备的语音指标值，来决策出离用户最近的设备，进而只有唯一一台的设备响应用户的需求；

首先，由于语音技术仅通过语音来判断用户距离设备的远近，因此在一些复杂的家居场景，如多人聊天场景、音箱电视播放大音量的场景等，相应的效果就会大打折扣；其次，用户不同的声音响度、音色等，均可能影响到语音指标的计算；最后，不同的设备选择的麦克风型号不同，虽然语音处理技术一定程度上可以改善这样的差异，但却无法做到所有设备的一致性，因此在进行比较的时候，仍存在误判的可能性。

基于距离传感器的就近唤醒方案：

基于传统主动式的距离探测方案，如采用超声波、雷达等声波技术，在设备被成功唤醒之后，可利用此类传感器主动探测前方用户的距离，进而依据距离直接判断距离用户最近的设备，进而进行下一步的语音交互；

用于短距离测量的传感器相对较多，如红外、超声波、雷达等，同语音技术的就近唤醒方案相似，当多台设备各自检测到唤醒词之后，会立即触发距离传感器进行工作，依据计算得出的距离值，在同一网络中比较距离用户最近的设备，进而让唯一一台设备响应用户的需求；

其中，距离传感器，当用到就近唤醒的方案中时，由于其仅具备测量距离的功能，因此仅通过该方法并不能够判断用户是正对着设备还是背对着设备，而用户期望的是用户正对着的设备来响应用户的需求；其次，该类传感器在测量较大物体或是平面时，其计算出来的距离相对准确，精度也相对较高，而对于像人体这样的不规则表面，由于反射回来信号的差异性，会影响实际的距离测量。

基于多类特征数据的就近唤醒方案：

基于多类特征数据的就近唤醒方案，主要就是依赖于本地设备中采集的多类距离特征数据，将其直接送至上层通信网络中进行决策，以此来判断用户与哪一个本地设备距离最近；

在语音唤醒之后，采集此时与距离相关的特征数据，再将所有本地的特征数据上传至服务器，通过服务器来进行综合决策；

基于多类特征数据的就近方案，其将采集到的本地特征数据直接送至服务器进行决策判断，一方面，由于多类数据对网络带宽的依赖性较强，如图像数据需要较高的带宽，因此直接传送多类特征数据会带来极大的时延，最终影响用户体验；另一方面，多类特征数据直接上传至服务器进行决策，会带来多余的冗余信息，不便于上层的决策。

发明内容

本发明实施例提供一种语音唤醒方法和装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音唤醒方法，用于主设备，包括：响应于获取的第一音频信息中包含唤醒词，进入预唤醒状态，其中，在所述预唤醒状态下所述主设备没有与所述用户进行语音交互的能力；基于获取的所述第一音频信息和与所述第一音频信息对应的第一视频信息计算并融合得到第一音视频指标；接收从设备反馈的至少一个第二音视频指标；比较所述第一音视频指标和所述第二音频指标并基于比较结果确定响应设备，使所述响应设备进入唤醒状态以与所述用户进行语音交互。

第二方面，本发明实施例提供一种语音唤醒方法，用于从设备，包括：响应于获取的第二音频信息中包含唤醒词，进入预唤醒状态；基于获取的所述第二音频信息和与所述第二音频信息对应的第二视频信息计算并融合得到第二音视频指标；将所述第二音视频指标经由局域网发送给主设备接收。

第三方面，本发明实施例提供一种语音唤醒装置，用于主设备，包括：第一预唤醒程序模块，配置为响应于获取的第一音频信息中包含唤醒词，进入预唤醒状态，其中，在所述预唤醒状态下所述主设备没有与所述用户进行语音交互的能力；第一计算融合程序模块，配置为基于获取的所述第一音频信息和与所述第一音频信息对应的第一视频信息计算并融合得到第一音视频指标；接受程序模块，配置为接收从设备反馈的至少一个第二音视频指标；比较唤醒程序模块，配置为比较所述第一音视频指标和所述第二音频指标并基于比较结果确定响应设备，使所述响应设备进入唤醒状态以与所述用户进行语音交互。

第四方面，本发明实施例提供一种语音唤醒装置，用于从设备，包括：第二预唤醒程序模块，配置为响应于获取的第二音频信息中包含唤醒词，进入预唤醒状态；第二计算融合程序模块，配置为基于获取的所述第二音频信息和与所述第二音频信息对应的第二视频信息计算并融合得到第二音视频指标；发送程序模块，配置为将所述第二音视频指标经由局域网发送给主设备接收。

第五方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的语音唤醒方法的步骤。

第六方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行本发明任一实施例的语音唤醒方法的步骤。

本申请的方法和装置通过在预唤醒状态下计算融合第一音频指标和第一视频指标并接受从设备发送的融合后的第二音视频指标，判断每一设备计算融合的音视频指标之间的值判定距离用户最近的设备，从而可以更加准确的就近唤醒设备，同时还能够保证数据传输的安全性和降低数据传输的延时性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种语音唤醒方法的流程图，用于主设备；

图2为本发明一实施例提供的另一种语音唤醒方法的流程图；

图3为本发明一实施例提供的又一种语音唤醒方法的流程图；

图4为本发明一实施例提供的一种语音唤醒方法的流程图，用于从设备；

图5为本发明一实施例提供的语音唤醒方法的一个具体示例的整体功能框图；

图6为本发明一实施例提供的语音唤醒方法的一个具体示例的语音唤醒流程图；

图7为本发明一实施例提供的语音唤醒方法的一个具体示例的数据融合图；

图8为本发明一实施例提供的语音唤醒方法的一个具体示例的部分技术替代图；

图9为本发明一实施例提供的语音唤醒方法的一个具体示例的备选方案整体功能框图；

图10为本发明一实施例提供的一种语音唤醒装置的框图，用于主设备；

图11为本发明一实施例提供的一种语音唤醒装置的框图，用于从设备；

图12是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本申请的语音唤醒方法一实施例的流程图，用于主设备。

如图1所示，在步骤101中，响应于获取的第一音频信息中包含唤醒词，进入预唤醒状态，其中，在所述预唤醒状态下所述主设备没有与所述用户进行语音交互的能力；

在步骤102中，基于获取的所述第一音频信息和与所述第一音频信息对应的第一视频信息计算并融合得到第一音视频指标；

在步骤103中，接收从设备反馈的至少一个第二音视频指标；

在步骤104中，比较所述第一音视频指标和所述第二音频指标并基于比较结果确定响应设备，使所述响应设备进入唤醒状态以与所述用户进行语音交互。

在本实施例中，对于步骤101，语音唤醒装置响应于取的第一音频信息中包含唤醒词，进入预唤醒状态，例如，多个设备监测唤醒词之后，还未判断哪一台设备距离用户较近，因此每一台设备初次唤醒时均为预唤醒状态，其中，在预唤醒状态下主设备没有与用户进行语音交互的能力。

然后，对于步骤102，语音唤醒装置基于获取的第一音频信息和与第一音频信息对应的第一视频信息计算并融合得到第一音视频指标，例如，将第一音频信息基于音频距离计算得到第一音频指标，将与第一音频信息对应的第一视频基于图像距离计算得到第一视频指标，之后将第一音频指标和第一视频指标进行数据融合获得第一音视频指标。

之后，对于步骤103，语音唤醒装置接受从设备反馈的至少一个第二音视频指标，例如，主设备切换为预唤醒状态之后计算主设备获取的第一音频信息和第一视频信息，再接受由每一台切换为预唤醒状态之后计算各自获取的第二音频指标和第二视频指标以及将其融合处理之后发送至局域网的第二音视频指标。

最后，对于步骤104，语音唤醒装置比较第一音视频指标和第二音频指标并基于比较结果确定响应设备，使响应设备进入唤醒状态以与用户进行语音交互，例如，主设备比较每一设备计算融合的第一音视频指标后，通过每一第一音视频指标之间的值来判断哪一台设备距离用户最近。之后，将距离用户最近的设备由预唤醒状态切换为唤醒状态与用户进行语音交互。

本实施例的方法通过在预唤醒状态下计算融合第一音频指标和第一视频指标并接受从设备发送的融合后的第二音视频指标，判断每一设备计算融合的音视频指标之间的值判定距离用户最近的设备，从而可以更加准确的就近唤醒设备，同时还能够保证数据传输的安全性和降低数据传输的延时性。

进一步参考图2，其示出了本申请一实施例提供的另一种语音唤醒方法的流程图。该流程图主要是对流程图1“响应于获取的第一音频信息中包含唤醒词，进入预唤醒状态”的流程进一步限定的步骤的流程图。

如图2所示，在步骤201中，响应于获取的第一音频信息，判断所述第一音频信息是否包含唤醒词；

在步骤202中，若包含唤醒词，所述主设备开启预唤醒状态。

在本实施例中，对于步骤201，语音唤醒装置响应于获取的第一音频信息，判断第一音频信息是否包含唤醒词；之后，对于步骤202，若第一音频信息中包含唤醒，主设备开启预唤醒状态，例如，唤醒词是小驰，只有获取的第一音频信息中包含小驰才将主设备开启预唤醒状态，不包含小驰的第一音频信息则被消除和屏蔽。

本实施例的方法通过判断第一音频信息中是否包含唤醒词从而可以判断设备是否需要开启预唤醒状态，进一步地实现降低设备的功耗。

进一步参考图3，其示出了本申请一实施例提供的又一种语音唤醒方法的流程图。该流程图主要是对流程图1“基于获取的所述第一音频信息和与所述第一音频信息对应的第一视频信息计算并融合得到第一音视频指标”的流程进一步限定的步骤的流程图。

如图3所示，在步骤301中，将所述第一音频信息进行音频距离计算处理获取第一音频指标，并将与所述第一音频信息对应的第一视频信息进行图像距离计算获取第一视频指标；

在步骤302中，基于所述第一音频指标和所述第一视频指标融合处理得到第一音视频指标。

在本实施例中，对于步骤301，语音唤醒装置将第一音频信息进行音频距离计算处理获取第一音频指标，并将与第一音频信息对应的第一视频信息进行图像距离计算获取第一视频指标，例如，将第一音频信息送送入音频距离计算模块中，得出表征距离信息的第一语音指标，将与第一音频信息对应的第一视频信息送入图像距离计算模块中，得出表征距离信息的第一视频指标。

然后，对于步骤302，语音唤醒装置基于第一音频指标和第一视频指标融合处理得到第一音视频指标，例如，基于归一化和数据加权或人工神经网络的融合算法将第一音频指标和第一视频指标进行融合。

本实施例的方法通过融合算法将第一音频指标和第一视频指标进行融合，从而可以实现降低单一语音距离指标的波动性，使得设备更加准确的判断。

在上述实施例所述的方法中，所述基于所述第一音频指标和所述第一视频指标融合处理得到第一音视频指标包括：

利用数据加权和/或人工神经网络方法将第一语音指标和所述第一视频指标进行融合处理得到第一音视频指标。

请参考图4，其示出了本申请的语音唤醒方法一实施例的流程图，用于从设备。

如图4所示，在步骤401中，响应于获取的第二音频信息中包含唤醒词，进入预唤醒状态；

在步骤402中，基于获取的所述第二音频信息和与所述第二音频信息对应的第二视频信息计算并融合得到第二音视频指标；

在步骤403中，将所述第二音视频指标经由局域网发送给主设备接收。

在本实施例中，对于步骤401，语音唤醒装置响应于获取的第二音频信息中包含唤醒词，进入预唤醒状态，其中，在预唤醒状态下从设备没有与用户进行语音交互的能力。

然后，对于步骤402，语音唤醒装置基于获取的第二音频信息和与第二音频信息对应的第二视频信息计算并融合得到第二音视频指标，例如，将第二音频信息送送入音频距离计算模块中，得出表征距离信息的第二语音指标，将与第二音频信息对应的第二视频信息送入图像距离计算模块中，得出表征距离信息的第二视频指标，并将第二音频指标和第二视频指标进行融合得到第二音视频指标。

最后，对于步骤403，语音唤醒装置将第二音视频指标经由局域网发送给主设备接收。

本实施例的方法通过在预唤醒状态下融合第二音频指标和第二视频指标并将融合后的第二音视频指标发送至局域网给主设备接收，从而可以保证数据传输的安全性和降低数据传输的延时性。

在上述实施例所述的方法中，所述方法还包括：

将在预设时间内第一个被唤醒的设备设定为主设备，之后被唤醒的设备为从设备。

本实施例的方法通过将在预设时间内第一个被唤醒的设备设定为主设备，从而可以进一步提高唤醒的准确率。

需要说明的是，上述方法步骤并不用于限制各步骤的执行顺序，实际上，某些步骤可能会同时执行或者以与步骤限定的相反的顺序执行，本申请在此没有限制。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本申请的过程中发现现有技术中存在的缺陷主要是由以下原因导致的：

基于语音技术的就近唤醒方案：

语音信号质量的优劣决定语音算法效果的鲁棒性。在强语音干扰或是高环境噪声的情况下，语音会被淹没在环境中，进而通过语音计算距离会产生较大偏差；

人类语音的频率成分相对丰富，不同性别、不同年龄段的人，其发音特色、声音响度均不同，而语音算法又是基于相对理想的模型，因此，基于语音的就近唤醒方案，其适应性不够全面；

语音设备的硬件设计均不相同，主要体现在麦克风采集得到的音频存在差异性，这也使得单纯基于语音技术的就近唤醒方案，不具备很强的效果一致性，即在同类型硬件设备可能取得不错的效果，而在不同设备上的效果会打折扣。

基于距离传感器的就近唤醒方案：

距离传感器未用到用户的语音信息，因此其仅能判断当前指向方向是否存在用户，而无法判断用户是正对设备还是背对设备；

距离传感器大多利用波的形式进行测量，而不同的反射面会影响波的反射，由于人的身体表面的不规则性，会导致该类传感器的测量存在波动；

基于多类特征数据的就近唤醒方案：

原始特征数据的直接传输，在数据量较大时且当前网络拥堵时，会极大地降低数据传输的效率；

原始特征数据之间包含冗余的距离信息，直接上传至服务器，会带来决策的波动性与复杂性。

发明人还发现，一般地，在语音信号处理领域，麦克风阵列的阵型设计以及麦克风的数量，直接决定了语音算法的处理能力。也就是说，阵型越复杂，数量越多，越能够改善语音处理后的质量，进而提高语音距离指标的准确性；

为了保证不同设备中信号采集的一致性，像某些企业那样，会构建出家居的生态产品，这样不同设备的信号采集能够尽可能地做到一致性，即在麦克风的采集和处理上会采用相同的标准；

由于单个距离传感器会存在测量的波动性，因此，增加距离传感器的个数，能够提高距离测量的准确性，降低单次测量的波动性。

本申请的方案主要从以下几个方面入手进行设计和优化：

目前市面上现有的就近唤醒方案主要是基于语音信号处理技术，在实际的体验过程中，在相对安静的场景下，现有的技术能够获得较好的就近唤醒体验；而当周围的环境存在多点干扰或环境噪声时，就近唤醒的准确率就会下降，影响交互的体验。

启发于人在进行距离感知的时候，不仅通过耳朵收到的声音来判断方位和距离，此外还会通过视觉来感知，最终将所有数据送入大脑进行融合之后再进行判断。因此在进行用户距离感知的时候，有必要融合多类传感器设备。

由于设备唤醒是基于语音技术，因此初期的想法便是通过多类型的语音唤醒指标来作为距离远近的判断，即通过不同维度的语音指标来增强距离判断的鲁棒性；然而，由于语音的固有局限性，通过增加视觉感知来进一步给出视觉感知后的距离指标，综合语音指标和图像指标，来给出最终的距离指标。

请参考图5，其示出了本发明一实施例提供的语音唤醒方法的一个具体示例的整体功能框图。

如图5所示，主要包含音/视频采集模块、语音唤醒模块、语音距离计算模块、图像距离计算模块。

其中，音/视频采集模块：

该模块主要负责原始数据的采集与预处理，其中音频数据由麦克风阵列进行采集，视频图像数据主要由摄像头来进行采集，其中摄像头的数据采集前需要进行自校准。

语音唤醒模块：

语音唤醒模块主要是指基于语音信号处理技术的关键词唤醒，利用语音信号处理技术对原始音频进行降噪处理，然后将降噪之后的语音送入唤醒模块进行关键词的识别，若检测到关键词，则认为当前设备被用户所唤醒。

语音距离计算模块：

该模块将包含唤醒词的音频进行处理，得出表征距离的语音指标。

图像距离计算模块：

该模块在确认本设备被唤醒之后，会利用当前一段时间内的图像数据，来分析当前图像中是否包含人脸信息，以及通过人脸在图像中的比例来估算出表征距离的图像指标。

数据融合模块：

将语音距离指标与图像距离指标进行融合计算，目前对于多类数据融合的算法相对成熟，其按照分类方法主要可以分为三类：

基于像元级的融合：即直接采用最原始的语音、视频数据；

基于特征级的融合：即在原始数据上进行特征提取，再进行数据融合；

基于决策级的融合：即基于过往经验以及深度提取之后的特征，进行综合决策；

接着，从实际应用的方法来看，数据融合主要包含如下几类：

代数法：如数据加权等；

主成分分析法：提取原始数据中的主要成分来作为距离特征；

空间变换法：如小波变换等，在不同的维度提取距离特征；

神经网络法：如深度神经网络等，基于大数据来训练出单一距离特征与多类原始特征之间的关系；

最后将融合后的单一距离值送入局域网中。

请参考图6，其示出了本发明一实施例提供的语音唤醒方法的一个具体示例的语音唤醒流程图。

如图6所示，步骤1：设备采集模块初始化：

考虑到本专利使用音视频信息来进行空间距离的计算，因此，首先需要初始化麦克风阵列的音频采集，包含相关的滤波、增益调节等手段；其次，需要初始化摄像头图像采集模块，针对同一款摄像头，需进行设备的自校准工作；

步骤2：音/视频算法初始化：

音/视频算法的初始化，负责启动相关的软件线程来为即将到来的数据处理做准备，主要包含配置的初始化、内存的初始化等；

步骤3：设备接入局域网并组网：

由于就近唤醒是在多个设备中决策出距离用户最近的设备，因此，多个设备必须组建一个局域网，进而在网络中传递必要的指标数据；此外，由于传输的数据少且在同一个内部的局域网中，保证了传输的低延时；

步骤4：音/视频数据侦听：

设备每隔固定的时间来侦听采集到的数据，当检测到有预设的唤醒词时，便将当前设备的状态切换到预唤醒的状态。由于还未判断哪个设备距离用户较近，因此每个设备初次唤醒时，均为预唤醒状态。

步骤5：设定主/从网络设备：

一段时间内，当网络中有第一个设备唤醒时，默认该设备为主设备，接收其他设备的指标信息；而随后被预唤醒的设备，则作为从设备，会将距离指标信息送入局域网，最后依据路由关系，被主设备所接收到。因此，该过程用于确定设备的主从关系。

步骤6：音/视频距离指标计算：

将唤醒之后的音频送入音频距离计算模块中，得出表征距离信息的语音距离指标；将唤醒之后的图像帧信息送入图像距离计算模块中，得出表征距离信息的图像距离指标；

步骤7：数据融合：

主要是将上一过程计算所得的语音距离指标和图像距离指标进行算法融合，简易的融合算法包括归一化以及数据加权，复杂的融合算法包括人工神经网络等。融合算法越复杂，其融合之后的距离指标越稳定。此处对提及的数据加权方案以及人工神经网络方案作进一步的阐述。

数据加权方案：

给定单个设备计算所得的语音距离指标，记为voiceIndexi(i＝1,2,3)，并且该语音指标的最大、最小值记为voiceIndexMax、voiceIndexMin；同理，给定单个设备计算所得的图像距离指标，记为imageIndexj(j＝1,2)，并且该图像指标的最大、最小值分别记为imageIndexMax、imageIndexMin。上述指标的个数(i、j)仅作举例说明，实际个数依本身指标算法所定。

第一步：归一化：

归一化语音距离指标voiceIndexNormi＝(voiceIndexi–voiceIndexMin)/(voiceIndexMax–voiceIndexMin)，i＝1,2,3

归一化图像距离指标imageIndexNormj＝(imageIndexj–imageIndexMin)/(imageIndexMax–imageIndexMin)，j＝1,2,

第二步：加权求和：

考虑到上述指标总个数为5，给定加权求和的权重系数ck,(k＝1,2,3,4,5)，且c1+c2+c3+c4+c5＝1，即所有加权系数之和为1。那么，融合后的语音指标:

FusionIndex＝c1*voiceIndexNorm1+c2*voiceIndexNorm2+c3*voiceIndexNorm3+c4*imageIndexNorm1+c5*imageIndexNorm1

人工神经网络方案：

人工神经网络方案的具体操作流程如图7所示：

采集一批语音及图像数据集，并且标注每条数据集对应的声源距离麦克风和摄像头之间的距离，记为Label，默认情况下，摄像头与麦克风处于同一位置，这样每一条样本集中声源距离麦克风(或者摄像头)的距离均相同；

依据步骤6中提及的距离指标提取方式，对所有采集得到的音视频逐条进行指标提取；

确定基本的网络模型，为作说明使用，此处以三层网络模型(该网络名字记为indexNN)为例进行说明，实际网络模型并不仅限于此：

将网络indexNN的输出结果FusionIndexNN与1)的标注Label进行比较(神经网络中常称此比较结果为Loss值)，并依据Loss值来反向更新网络indexNN。随着输入数据样本的迭代，网络最终会收敛到一个稳定的Loss值；

当网络训练完成，依据输入的voiceIndexi(i＝1,2,3)和imageIndexj(j＝1,2)，送入网络indexNN计算，得出唯一的融合指标FusionIndexNN，用此单个指标在多个设备之间进行比较。

步骤8：融合指标的发送与接收：

作为主设备，在设定的窗口期间内(从主设备唤醒开始计时)，接收其他设备的融合距离指标；而作为从设备，在被预唤醒之后，将融合之后的距离指标发送至局域网。

步骤9：就近唤醒决策：

主设备在窗口期间内接收到所有有效的指标之后，通过判断最大值(或是最小值)，来决定哪一个在网设备为距离用户最近的设备，最后激活离用户最近的设备。

步骤10：响应用户的需求：

距离用户最近的设备，由预唤醒状态切换到已唤醒的状态，跟用户进行下一步的语音交互。

发明人在实现本发明的过程中发现达到的效果：

音频距离指标与图像距离指标的融合：

相比于目前市面上仅通过音频距离指标来判断哪一个设备距离用户最近，本专利通过将图像距离指标与现有音频指标进行融合，一方面，该融合后的指标具备语音指标的所有优点；另一方面，图像技术的引入，进一步降低了单一语音距离指标的波动性，而且图像指标可以直观地记录用户的朝向信息、距离信息等，优化了语音无法准确地判断用户为正对的场景。

局域网组网，传输指标信息：

由于在局域网内进行组网，因此，指标数据的传输相对安全可控；另外，由于传输的信息为若干个指标数据而非音/视频数据流，因此可以极大地降低传输的延时性。

融合算法的持续优化：

由于表征距离信息的指标存在若干个，通过归一化可以降低不同单位带来的影响，而融合算法的多样性，也为后续的升级优化提供了足够的空间。

特征融合的本地化：

由于原始数据经过本地的特征数据融合，因此上传至本地网络中的数据仅为每个本地设备单一的距离值，因此对当前网络带宽的依赖性大大降低，也更加利于实际产品的落地与体验；进而，在上层网络进行决策时，仅需比较每个设备对应的单一距离值，而无需再进行复杂的决策，因此新增的就近唤醒功能不会给网络带来较大的压力。

发明人在实现本发明的过程中形成的beta版：

请参考图8，其示出了本发明一实施例提供的语音唤醒方法的一个具体示例的部分技术替代图。

如图8所示，在本专利的设计中，针对不同设备间的数据传输，主要是基于以太网的方式进行组网，而对于一些本地离线的应用场景，设备可不通过以太网组建一个小型的局域网。在目前现有的短距离传输中，如红外、蓝牙等无线电通信技术，其通信范围基本可覆盖常见的家居场景，且传输数据也相对稳定可靠。

融合传感器数据的数量。在本专利中，考虑到当前可能达到的软硬件成本，将语音距离指标和图像距离指标进行融合，以期达到优于目前仅依靠语音指标所带来的效果。但本专利并未限制传感器的个数与种类，如在成本可控的基础上，后期也可将距离传感器等其他传感器也融合进来，以达到更加精准的距离定位信息。

请参考图图9，其示出了本发明一实施例提供的语音唤醒方法的一个具体示例的备选方案整体功能框图。

如图9所示，该方案中，不再将语音距离指标与图像距离指标进行融合，而是直接将这两类指标进行上传。在主设备进行决策的时候，不再是比较N个融合后的指标，而是按照如下的方式进行决策(为说明简易性，此处以3设备决策为例，且指标值越大则距离越近)：

比较3个语音距离指标m1、m2、m3，得出距离用户最近的设备为第i个；

比较3个图像距离指标n1、n2、n3，得出距离用户最近的设备为第j个；

若i＝＝j，则第i(j)个设备为距离最近的设备；

若i与j不相等，如i＝1，j＝2，计算dm＝3*m1–(m1+m2+m3)，dn＝3*n2–(n1+n2+n3)。若dm>dn，则第i个设备为最近设备；反之，则第j个设备为最近设备。

发明人在实现本发明的过程中发现达到更深层次的效果：

随着数字家居生活的普及，各类传感器的使用也逐渐出现在现在的智能家居产品中，而语音和图像采集恰是最常见的两种方式，因此，在硬件成本逐渐可控、软件算法逐渐高效的情况下，基于多传感器融合的就近唤醒方案，具备一定的落地前景；而由多传感器融合带来的显著效果提升，也使得就近唤醒的方案更加的成熟，能够应付日常生活中更加复杂的场景，最终让用户真正体会到智慧生活所带来的便利与温馨。

请参考图10，其示出了本发明一实施例提供的语音唤醒装置的框图，用于主设备。

如图10所示，语音唤醒装置1000，包括第一预唤醒程序模块1010、第一计算融合程序模块1020、接受程序模块1030和比较唤醒程序模块1040。

其中，第一预唤醒程序模块1010，配置为响应于获取的第一音频信息中包含唤醒词，进入预唤醒状态，其中，在所述预唤醒状态下所述主设备没有与所述用户进行语音交互的能力；第一计算融合程序模块1020，配置为基于获取的所述第一音频信息和与所述第一音频信息对应的第一视频信息计算并融合得到第一音视频指标；接受程序模块1030，配置为接收从设备反馈的至少一个第二音视频指标；比较唤醒程序模块1040，配置为比较所述第一音视频指标和所述第二音频指标并基于比较结果确定响应设备，使所述响应设备进入唤醒状态以与所述用户进行语音交互。

请参考图11，其示出了本发明一实施例提供的语音唤醒装置的框图，用于从设备。

如图11所示，语音唤醒装置1100，包括第二预唤醒程序模块1110、第二计算融合程序模块1120和发送程序模块1130。

其中，第二预唤醒程序模块1110，配置为响应于获取的第二音频信息中包含唤醒词，进入预唤醒状态；第二计算融合程序模块1120，配置为基于获取的所述第二音频信息和与所述第二音频信息对应的第二视频信息计算并融合得到第二音视频指标；发送程序模块1130，配置为将所述第二音视频指标经由局域网发送给主设备接收。

应当理解，图10和图11中记载的诸模块与参考图1、图2、图3和图4中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图10和图11中的诸模块，在此不再赘述。

值得注意的是，本公开的实施例中的模块并不用于限制本公开的方案，例如第一预唤醒程序模块可以描述为响应于获取的第一音频信息中包含唤醒词，进入预唤醒状态，其中，在所述预唤醒状态下所述主设备没有与所述用户进行语音交互的能力的模块。另外，还可以通过硬件处理器来实现相关功能模块，例如第一预唤醒程序模块也可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音唤醒方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于获取的第一音频信息中包含唤醒词，进入预唤醒状态，其中，在所述预唤醒状态下所述主设备没有与所述用户进行语音交互的能力；

基于获取的所述第一音频信息和与所述第一音频信息对应的第一视频信息计算并融合得到第一音视频指标；

接收从设备反馈的至少一个第二音视频指标；

比较所述第一音视频指标和所述第二音频指标并基于比较结果确定响应设备，使所述响应设备进入唤醒状态以与所述用户进行语音交互。

作为另一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于获取的第二音频信息中包含唤醒词，进入预唤醒状态；

基于获取的所述第二音频信息和与所述第二音频信息对应的第二视频信息计算并融合得到第二音视频指标；

将所述第二音视频指标经由局域网发送给主设备接收。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音唤醒装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至语音唤醒装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项语音唤醒方法。

图12是本发明实施例提供的电子设备的结构示意图，如图12所示，该设备包括：一个或多个处理器1210以及存储器1220，图12中以一个处理器1210为例。语音唤醒方法的设备还可以包括：输入装置1230和输出装置1240。处理器1210、存储器1220、输入装置1230和输出装置1240可以通过总线或者其他方式连接，图12中以通过总线连接为例。存储器1220为上述的非易失性计算机可读存储介质。处理器1210通过运行存储在存储器1220中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音唤醒方法。输入装置1230可接收输入的数字或字符信息，以及产生与通讯补偿装置的用户设置以及功能控制有关的键信号输入。输出装置1240可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于语音唤醒装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

接收从设备反馈的至少一个第二音视频指标；

作为另一种实施方式，上述电子设备应用于语音唤醒装置中，用于客户端，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

将所述第二音视频指标经由局域网发送给主设备接收。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音唤醒方法，用于主设备，包括：

响应于获取的第一音频信息中包含唤醒词，进入预唤醒状态，其中，在所述预唤醒状态下所述主设备没有与用户进行语音交互的能力；

接收从设备反馈的至少一个第二音视频指标；

比较所述第一音视频指标和所述第二音视频指标并基于比较结果确定响应设备，使所述响应设备进入唤醒状态以与所述用户进行语音交互；

其中，所述音视频指标为以所述音频信息进行音频距离计算获得的音频指标和以与所述音频信息对应的所述视频信息进行图像距离计算获得的视频指标融合得到。

2.根据权利要求1所述的方法，其中，所述响应于获取的第一音频信息中包含唤醒词，进入预唤醒状态包括：

响应于获取的第一音频信息，判断所述第一音频信息是否包含唤醒词；

若包含唤醒词，所述主设备开启预唤醒状态。

3.根据权利要求1所述的方法，其中，所述基于获取的所述第一音频信息和与所述第一音频信息对应的第一视频信息计算并融合得到第一音视频指标，包括：

将所述第一音频信息进行音频距离计算处理获取第一音频指标，并将与所述第一音频信息对应的第一视频信息进行图像距离计算获取第一视频指标；

基于所述第一音频指标和所述第一视频指标融合处理得到第一音视频指标。

4.根据权利要求3所述的方法，其中，所述基于所述第一音频指标和所述第一视频指标融合处理得到第一音视频指标包括：

5.一种语音唤醒方法，用于从设备，包括：

基于获取的所述第二音频信息和与所述第二音频信息对应的第二视频信息计算并融合得到第二音视频指标，其中，所述第二音视频指标为以所述第二音频信息进行音频距离计算获得的音频指标和以与所述第二音频信息对应的所述第二视频信息进行图像距离计算获得的视频指标融合得到；

将所述第二音视频指标经由局域网发送给主设备接收。

6.根据权利要求5所述的方法，其中，所述方法还包括：

7.一种语音唤醒装置，用于主设备，包括：

第一预唤醒程序模块，配置为响应于获取的第一音频信息中包含唤醒词，进入预唤醒状态，其中，在所述预唤醒状态下所述主设备没有与用户进行语音交互的能力；

第一计算融合程序模块，配置为基于获取的所述第一音频信息和与所述第一音频信息对应的第一视频信息计算并融合得到第一音视频指标；

接受程序模块，配置为接收从设备反馈的至少一个第二音视频指标；

比较唤醒程序模块，配置为比较所述第一音视频指标和所述第二音视频指标并基于比较结果确定响应设备，使所述响应设备进入唤醒状态以与所述用户进行语音交互；

8.一种语音唤醒装置，用于从设备，包括：

第二预唤醒程序模块，配置为响应于获取的第二音频信息中包含唤醒词，进入预唤醒状态；

第二计算融合程序模块，配置为基于获取的所述第二音频信息和与所述第二音频信息对应的第二视频信息计算并融合得到第二音视频指标，其中，所述第二音视频指标为以所述第二音频信息进行音频距离计算获得的音频指标和以与所述第二音频信息对应的所述第二视频信息进行图像距离计算获得的视频指标融合得到；

发送程序模块，配置为将所述第二音视频指标经由局域网发送给主设备接收。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。