CN111081246B

CN111081246B - 直播机器人唤醒方法、装置、电子设备及存储介质

Info

Publication number: CN111081246B
Application number: CN201911349884.0A
Authority: CN
Inventors: 陈翔宇; 张晨; 邢文浩
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2022-06-24
Anticipated expiration: 2039-12-24
Also published as: CN111081246A

Abstract

本公开关于一种直播机器人唤醒方法、装置、电子设备及存储介质，所述方法包括：获取通过麦克风采集的第一音频信号，所述第一音频信号中包括通过扬声器播放的第二音频信号扩散后产生的回声信号；根据所述第一音频信号和所述第二音频信号确定对所述直播机器人的识别阈值；以所述第二音频信号为参考信号，对所述第一音频信号进行回声消除处理，得到消除回声信号后的目标音频信号；根据所述识别阈值和所述目标音频信号对所述直播机器人进行唤醒。本公开根据第一音频信号和第二音频信号确定对直播机器人的识别阈值，并根据目标音频信号和识别阈值对直播机器人进行唤醒，对直播机器人不使用固定的识别阈值，可以提高直播机器人的唤醒准确率和识别率。

Description

直播机器人唤醒方法、装置、电子设备及存储介质

技术领域

本公开涉及终端技术领域，尤其涉及一种直播机器人唤醒方法、装置、电子设备及存储介质。

背景技术

直播是可以同一时间透过网络系统在不同的交流平台观看影片，是一种新兴的网络社交方式，网络直播平台也成为了一种崭新的社交媒体。在直播进行中直播机器人可以提供语音助手功能以帮助主播方便的使用直播系统，例如播放音乐、讲故事、讲笑话和机器人聊天等功能，主播只需要通过麦克风说出唤醒词即可唤醒直播机器人，避免了直播过程中操作手机，提高直播效率和改善用户体验。

然而，在直播进行中播放音乐或者用户连麦(通话)的过程中，经常会出现扬声器播放的声音经过多种路径传播后被麦克风拾取，并传回到系统形成回声现象。如果不对回声进行处理，将会影响通话质量和用户体验，严重时还会形成震荡，产生啸叫。为了避免回声带来的不利影响，通常采用AEC(Acoustic Echo Cancellation，回声消除)将扬声器播放出来的声音从麦克风采集的声音中消除，使得麦克风采集的声音只有用户说话的声音。

目前语音助手大多出现在智能音箱产品中，由于大多数智能音箱产品使用定制的硬件方案，所以AEC的效果比较理想，回声残留较少，语音损伤也较少，但在手机上很难做这一点，这是因为与其他语音助手类产品相比，手机的种类比较多，声学结构千差万别，直播中又有播放音乐/与用户连麦(通话)核多人语音聊天等各种使用场景，因此麦克风采集的声音中包含有扬声器播放的声音存在的情况，由于扬声器播放的声音可能包括唤醒词，如果AEC的NLP(Non-linear Process，非线性处理)处理量级较轻，麦克风播放的声音经过AEC处理会残留较多，如果播放的声音包含唤醒词，就会误唤醒直播机器人，如果NLP处理量级较重，又会导致语音损伤较多，无法识别唤醒词以唤醒直播机器人，导致存在唤醒准确率和识别率低的问题。

发明内容

本公开提供一种直播机器人唤醒方法、装置、电子设备及存储介质，以至少解决相关技术中直播机器人的唤醒准确率和识别率低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种直播机器人唤醒方法，所述方法包括：

获取通过麦克风采集的第一音频信号，所述第一音频信号中包括通过扬声器播放的第二音频信号扩散后产生的回声信号；

根据所述第一音频信号和所述第二音频信号确定对所述直播机器人的识别阈值；

以所述第二音频信号为参考信号，对所述第一音频信号进行回声消除处理，得到消除回声信号后的目标音频信号；

根据所述识别阈值和所述目标音频信号对所述直播机器人进行唤醒。

可选地，所述根据所述第一音频信号和所述第二音频信号确定对所述直播机器人的识别阈值包括：

计算所述第一音频信号和所述第二音频信号之间的相似度；

根据所述相似度确定对所述直播机器人的识别阈值。

根据所述第一音频信号计算第一音频能量，以及，根据所述第二音频信号计算第二音频能量；

根据所述第一音频能量和所述第二音频能量确定对所述直播机器人的识别阈值。

可选地，所述根据所述第一音频能量和所述第二音频能量确定对所述直播机器人的识别阈值包括：

当所述第一音频能量没有落入预设能量区间，且所述第二音频信号能量落入预设能量区间时，确定识别阈值为预设识别阈值；

当所述第一音频能量和所述第二音频信号能量均没有落入所述预设能量区间时，计算所述第一音频信号和所述第二音频信号之间的相似度，并根据所述相似度确定对所述直播机器人的识别阈值；

当所述第一音频能量和所述第二音频信号能量均落入预设能量区间时，不对所述直播机器人进行唤醒。

可选地，所述计算所述第一音频信号和所述第二音频信号之间的相似度包括：

将所述第一音频信号和所述第二音频信号输入互相关函数进行卷积运算得到输出数据；

对所输出数据进行归一化处理，得到所述第一音频信号和所述第二音频信号之间的相似度。

可选地，所述根据所述相似度确定对所述直播机器人的识别阈值包括：

当所述相似度落入第一预设相似度区间时，确定不对所述直播机器人进行唤醒；

当所述相似度落入第二预设相似度区间时，确定对所述直播机器人的识别阈值为第二预设识别阈值；

当所述相似度落入第三预设相似度区间时，确定对所述直播机器人的识别阈值为第三预设识别阈值；

其中，所述第二预设识别阈值小于所述第三预设识别阈值。

根据本公开实施例的第二方面，提供一种直播机器人唤醒装置，所述装置包括：

音频信号获取模块，被配置为执行获取通过麦克风采集的第一音频信号，所述第一音频信号中包括通过扬声器播放的第二音频信号扩散后产生的回声信号；

识别阈值确定模块，被配置为执行根据所述第一音频信号和所述第二音频信号确定对所述直播机器人的识别阈值；

目标音频信号获得模块，被配置为执行以所述第二音频信号为参考信号，对所述第一音频信号进行回声消除处理，得到消除回声信号后的目标音频信号；

直播机器人唤醒模块，被配置为执行根据所述识别阈值和所述目标音频信号对所述直播机器人进行唤醒。

可选地，所述识别阈值确定模块，被配置为执行计算所述第一音频信号和所述第二音频信号之间的相似度；根据所述相似度确定对所述直播机器人的识别阈值。

可选地，所述识别阈值确定模块，被配置为执行根据所述第一音频信号计算第一音频能量，以及，根据所述第二音频信号计算第二音频能量；根据所述第一音频能量和所述第二音频能量确定对所述直播机器人的识别阈值。

可选地，所述识别阈值确定模块，被配置为执行当所述第一音频能量没有落入预设能量区间，且所述第二音频信号能量落入预设能量区间时，确定识别阈值为预设识别阈值；当所述第一音频能量和所述第二音频信号能量均没有落入所述预设能量区间时，计算所述第一音频信号和所述第二音频信号之间的相似度，并根据所述相似度确定对所述直播机器人的识别阈值；当所述第一音频能量和所述第二音频信号能量均落入预设能量区间时，不对所述直播机器人进行唤醒。

可选地，所述识别阈值确定模块，被配置为执行将所述第一音频信号和所述第二音频信号输入互相关函数进行卷积运算得到输出数据；对所输出数据进行归一化处理，得到所述第一音频信号和所述第二音频信号之间的相似度。

可选地，所述识别阈值确定模块，被配置为执行确定所述相似度所属的预设相似度区间；将所述预设相似度区间对应的预设识别阈值确定为所述直播机器人的识别阈值；其中，所述预设相似度区间包括第一预设相似度区间，第二预设相似度区间和第三预设相似度区间，所述第一预设相似度区间对应的预设识别阈值不唤醒所述直播机器人，所述第二预设相似度区间对应的预设识别阈值小于所述第三预设相似度区间对应的预设识别阈值。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面的实施方式中的方法。

据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由计算机设备的处理器执行时，使得计算机设备能够执行如第一方面的实施方式中的方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括：计算机程序代码，当所述计算机程序代码被计算机运行时，使得所述计算机执行上述各方面中的方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开的实施例在进行诸如直播、语音聊天等业务过程中，可以获取麦克风采集的第一音频信号对直播机器人进行唤醒，但是由于存在回声现象，故麦克风采集的第一音频信号中可能包括通过扬声器播放的第二音频信号扩散后产生的回声信号，故本公开的实施例根据第一音频信号和第二音频信号确定对直播机器人的识别阈值，然后结合以第二音频信号为参考信号对第一音频信号进行回声消除处理后得到目标音频信号，对直播机器人进行唤醒。本公开的实施例对直播机器人不使用固定的识别阈值，可以提高直播机器人的唤醒准确率和识别率。

需要说明的是，由于本公开的实施例是根据第一音频信号和第二音频信号来确定识别阈值，因此可以应用于各种声学结构的电子设备，即便电子设备的种类众多，本公开也可以通过结合第一音频信号和第二音频信号来选择合适的识别阈值对直播机器人进行唤醒，提高直播机器人的唤醒准确率和识别率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种直播机器人唤醒方法的流程图。

图2是根据一示例性实施例示出的一种直播机器人唤醒系统。

图3是根据一示例性实施例示出的一种根据第一音频信号和第二音频信号确定对直播机器人的识别阈值流程图。

图4是根据一示例性实施例示出的另一种根据第一音频信号和第二音频信号确定对直播机器人的识别阈值流程图。

图5是根据一示例性实施例示出的一种用于直播机器人唤醒装置的框图。

图6为一个实施例中电子设备的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种直播机器人唤醒方法的流程图，本公开可以应用于电子设备中，所述电子设备具体可以包括手机、平板电脑、笔记本电脑等中的至少一种，该电子设备具有扬声器和麦克风，可以进行直播、语音聊天等业务。具体来说，所述直播机器人唤醒方法可以包括以下步骤：

在步骤S11中，获取通过麦克风采集的第一音频信号，所述第一音频信号中包括通过扬声器播放的第二音频信号扩散后产生的回声信号。

在具体实现中，电子设备可以通过麦克风采集第一音频信号，比如主播说话产生的语音信号，以及通过扬声器可以播放第二音频信号，比如背景音乐。

由于存在回声现象，因此通过麦克风采集的第一音频信号中，有可能包括通过扬声器播放的第二音频信号扩散后产生的回声信号。比如在直播过程中，麦克风采集的第一音频信号除了包括主播说话产生的语音信号之外，还可能包括主播说话产生的语音信号通过扬声器扩散后产生的回声信号。

在步骤S12中，根据所述第一音频信号和所述第二音频信号确定对所述直播机器人的识别阈值。

在直播过程中，可以通过麦克风采集第一音频信号，如果识别到第一音频信号中包括有唤醒词，那么将基于唤醒词唤醒直播机器人。比如，假设直播机器人的唤醒词为“小快小快”，如果识别到麦克风采集的第一音频信号中包括关键词“小快小快”，确定为识别到唤醒词，则可以唤醒直播机器人为主播提供语音助手功能。

在实际中针对直播机器人设置不同识别阈值，识别阈值越高，直播机器人的唤醒准确率越高，但是如果一味设置较高的识别阈值，则会导致唤醒率低，因此需要设置一个合适的识别阈值，可以在一定唤醒率的情况下保证直播机器人的唤醒准确率。

可以理解，第二音频信号对于第一音频信号的影响并非是一成不变，比如扬声器的音量可以调小，那么第二音频信号对于第一音频信号的影响也将变小。具体地，本实施例可以将第二音频信号对于第一音频信号的影响分为三种情况，分别是近端状态、远端状态和双讲状态。

其中，近端状态是指第二音频信号对于第一音频信号的影响较小的状态，这种状态相当于将扬声器的音量调整到零的情况，麦克风采集到的第一音频信号不存在第二音频信号扩散后产生的回声信号，只有主播说话产生的语音信号；远端状态是指第二音频信号对于第一音频信号的影响较大的状态，这种状态相当于麦克风采集到的第一音频信号中只有第二音频信号扩散后产生的回声信号，没有主播说话产生的语音信号；近端状态是指第二音频信号对于第一音频信号的影响中等的状态，这时候麦克风采集到的第一音频信号，即包括了扬声器播放第二音频信号产生的回声信号，也包括了主播说话产生的语音信号。

在步骤S13中，以所述第二音频信号为参考信号，对所述第一音频信号进行回声消除处理，得到消除回声信号后的目标音频信号。

其中，第二音频信号是指未经扬声器播放的原始信号，麦克风采集的第一音频信号中包括了经扬声器播放的第二音频信号扩散后产生的回声信号，如果将麦克风采集的第一音频信号直接用于对直播机器人的唤醒，由于存在较大的回声，将导致唤醒词的识别率不高。因此，在本实施例中将原始的第二音频信号作为参考信号，对第一音频信号进行回声消除处理，以消除第一音频信号中因第二音频信号产生的回声信号，得到目标音频信号。其中，该目标音频信号将用于后续对直播机器人的唤醒识别。

可选地，本实施例可以启用较轻度AEC NLP(Non-linear Process，非线性处理)对第一音频信号进行回声消除，NLP是AEC的非线形失真的处理，用来处理AEC线形处理部分消除不掉的回声信号。AEC在线形处理后，大多会有非线形失真导致的回声残留，主要是由于电子设备的声学结构不同导致的。由于本实施例可以启用较轻度AEC NLP对第一音频信号进行回声消除处理，因此既能消除掉第一音频信号中的回声信号，同时又能尽可能保留语音信号，从而可以保证基于回声消除后的目标音频信号对直播机器人唤醒时唤醒词的识别率。

在步骤S14中，根据所述识别阈值和所述目标音频信号对所述直播机器人进行唤醒。

在本实施例中，在确定识别阈值后，就可以基于消除回声信号后的目标音频信号对直播机器人进行唤醒识别，当从目标音频信号识别出唤醒词后，就可以唤醒直播机器人。

由于本实施例中基于第一音频信号和第二音频信号确定合适的识别阈值，因此可以提高一定唤醒率的情况下保证直播机器人的唤醒准确率，此外，本实施例启用较轻度AECNLP对第一音频信号进行回声消除处理得到目标音频信号，由于目标音频信号中即消除了回声又尽可能保留了语音信号，因此保证目标音频信号对直播机器人唤醒时唤醒词的识别率。

参照图2，所示为本实施例的一种直播机器人的唤醒系统，包括麦克风、扬声器、回声消除模块、直播模块、播放模块和机器人唤醒模块。其中，麦克风可以采集第一音频信号，扬声器可以播放第二音频信号，播放模块则可以将第二音频信号传输到扬声器进行播放。

本实施例将扬声器播放的第二音频信号作为参考信号，并且，对于麦克风采集的第一音频信号将进行复制，一份作为主路数据，用于发送到直播模块进行直播，另一份作为支路数据，用于在回声消除模块进行回声消除后得到目标音频信号，以及结合参考信号以确定针对目标音频信号的识别阈值，最后根据目标音频信号和识别阈值对通过机器人唤醒模块对直播机器人进行唤醒。

本公开的实施例在进行诸如直播、语音聊天等业务过程中，可以获取麦克风采集的第一音频信号对直播机器人进行唤醒，但是由于存在回声现象，故麦克风采集的第一音频信号中可能包括通过扬声器播放的第二音频信号扩散后产生的回声信号，故本公开的实施例根据第一音频信号和所述第二音频信号确定对直播机器人的识别阈值，然后结合以第二音频信号为参考信号对第一音频信号进行回声消除处理后得到目标音频信号，对直播机器人进行唤醒。本公开的实施例对直播机器人不使用固定的识别阈值，可以提高直播机器人的唤醒准确率和识别率。

在一个实施例中，如图3所示，所述根据所述第一音频信号和所述第二音频信号确定对所述直播机器人的识别阈值包括如下步骤：

在步骤S31中，计算所述第一音频信号和所述第二音频信号之间的相似度。

在实际中，通过相似度可以确定出第二音频信号对于第一音频信号的影响，即是近端状态、远端状态或者双讲状态。具体地，基于第一音频信号和第二音频信号所得的相似度可以区分出如下几种状态：

远端状态：麦克风采集到的第一音频信号基本只有扬声器播放第二音频信号产生的回声信号，没有语音信号，那么计算得到第一音频信号和第二音频信号的相似度会比较高，即第二音频信号对于第一音频信号的影响较大；

双讲状态：麦克风采集到的第一音频信号包含扬声器播放的第二音频信号产生的回声信号和语音信号，那么计算得到第一音频信号和第二音频信号的相似度为中等，即第二音频信号对于第一音频信号的影响较为中等。

近端状态：扬声器播放的第二音频信号几乎没有，相当于此时几乎没有回声信号，麦克风采集的第一音频信号中只有语音信号，这个情况类似于将扬声器音量调到零，那么计算得到第一音频信号和第二音频信号的相似度比较低，即第二音频信号对于第一音频信号的影响较小。

在信号处理领域中，可以采用互相关(也称为互协方差)来表示两个信号之间相似度，互相关实质上类似于两个信号函数的卷积。

在一个可选实施例中，所述计算所述第一音频信号和所述第二音频信号之间的相似度包括：将所述第一音频信号和所述第二音频信号输入互相关函数进行卷积运算得到输出数据；对所输出数据进行归一化处理，得到所述第一音频信号和所述第二音频信号之间的相似度。

本实施例可以根据互相关函数r＝xcorr(a，b)计算相似度，其中，a和b分别为第一音频信号和第二音频信号，r为相似度。将第一音频信号和第二音频信号输入到互相关函数后，可以计算得到一个输出数据，随后可以对输出数据进行归一化处理，将输出数据映射到[0-1]范围之内进行后续处理。当然，在实际中还可以采用其他方式来计算信号之间的相似度，本实施例对此并不加以限制。

在步骤S32中，根据所述相似度确定对所述直播机器人的识别阈值。

在一个可选实施例中，所述根据所述相似度确定对所述直播机器人的识别阈值包括：确定所述相似度所属的预设相似度区间；将所述预设相似度区间对应的预设识别阈值确定为所述直播机器人的识别阈值；其中，所述预设相似度区间包括第一预设相似度区间，第二预设相似度区间和第三预设相似度区间，所述第一预设相似度区间对应的预设识别阈值不唤醒所述直播机器人，所述第二预设相似度区间对应的预设识别阈值小于所述第三预设相似度区间对应的预设识别阈值。

在一种示例中，近端状态、远端状态和双讲状态这三种状态可以用分别一个相似度区间来表示。具体地，远端状态对应第一预设相似度区间，表示相似度高，双讲状态对应第二预设相似度区间，表示相似度中等，近端状态对应第三预设相似度区间，表示相似度低。

举例来说，近端状态的相似度接近于0，远端状态的相似度接近于1，双讲状态的相似度在0.0至1.0之间，则可以设置为，近端状态的相似度区间为[0.0–0.1)，远端状态的相似度区间为(0.9–1.0]，双讲状态的相似度区间为(0.1–0.9)。

因此，如果第一音频信号和第二音频信号的相似度属于远端状态，说明麦克风几乎没有采集到语音信号，此时可以不对直播机器人进行唤醒，如果第一音频信号和第二音频信号的相似度属于近端状态，说明扬声器几乎没有信号，可能此时扬声器处于关闭状态，则可以确定对直播机器人的识别阈值为近端状态对应的识别阈值，如果第一音频信号和第二音频信号的相似度属于双讲状态，说明扬声器和麦克风都有音频信号，则可以确定对直播机器人的识别阈值为双讲状态对应的识别阈值。

由于近端状态下没有回声信号的影响，因此可以设置近端状态的识别阈值大于远端状态的识别阈值，以保证直播机器人的唤准确醒率。

可选地，双讲状态因为具有相比于近端状态和远端状态较大的相似度区间，因此可以进一步针对双讲状态进一步设置不同的识别阈值，例如相似度可以每隔0.2分一个档次，总共分四个档次，相似度越高对应的识别阈值越高。当然，也可以按照其他方式进行设置，按照实际需求设置即可，本实施例对此不作限制。

在一个实施例中，如图4所示，所述根据所述第一音频信号和所述第二音频信号确定对所述直播机器人的识别阈值包括如下步骤：

在步骤S41中，根据所述第一音频信号计算第一音频能量，以及，根据所述第二音频信号计算第二音频能量。

其中，能量可以是指音频信号的声音分贝数。可选地，采用以下公式计算第一音频信号的第一音频能量，以及第二音频信号的第二音频能量：

其中，E(n)代表第n个音频帧的能量；L代表音频帧的长度，S代表音频信号。

在步骤S42中，根据所述第一音频能量和所述第二音频能量确定对所述直播机器人的识别阈值。

在一个可选实施例中，所述根据所述第一音频能量和所述第二音频能量确定对所述直播机器人的识别阈值包括：当所述第一音频能量没有落入预设能量区间，且所述第二音频信号能量落入预设能量区间时，确定识别阈值为预设识别阈值；当所述第一音频能量和所述第二音频信号能量均没有落入所述预设能量区间时，计算所述第一音频信号和所述第二音频信号之间的相似度，并根据所述相似度确定对所述直播机器人的识别阈值；当所述第一音频能量和所述第二音频信号能量均落入预设能量区间时，不对所述直播机器人进行唤醒。

本实施例可以根据第一音频能量和第二音频能量确定是1、近端状态和2、远端状态和双讲状态，从而可以进一步确定对直播机器人的识别阈值。

在一种示例中，1、近端状态和2、远端状态和双讲状态可以根据第一音频能量和第二音频能量所属的能量区间来确定。其中，当音频能量落入预设能量区间时，表示该音频能量接近零。

具体地，如果第一音频能量没有落入预设能量区间且第二音频信号能量落入预设能量区间，即表示扬声器几乎没有信号，因此可以确定为属于近端状态，则可以确定对直播机器人设置近端状态对应的识别阈值，如果第一音频能和第二音频信号能量均没有落入预设能量区间，说明第一音频信号和第二音频信号均有能量，因此可以确定为属于远端状态或者双讲状态，则需要进一步计算出第一音频信号和第二音频信号的相似度来进一步确定识别阈值，如果第一音频能和第二音频信号能量均落入预设能量区间，说明第一音频信号和第二音频信号均无能量，因此可以不对直播机器人进行唤醒。

本实施例可以在确定为近端状态后，无需进一步确定是远端状态或者双讲状态来确定对直播机器人的识别阈值，可以减少不必要的计算量，提高处理效率。

图5是根据一示例性实施例示出的一种直播机器人唤醒装置框图，应用于电子设备中，参照图5，该装置包括音频信号获取模块51，识别阈值确定模块52、目标音频信号获得模块53、直播机器人唤醒模块54。

音频信号获取模块51，被配置为执行获取通过麦克风采集的第一音频信号，所述第一音频信号中包括通过扬声器播放的第二音频信号扩散后产生的回声信号。

识别阈值确定模块52，被配置为执行根据所述第一音频信号和所述第二音频信号确定对所述直播机器人的识别阈值。

目标音频信号获得模块53，被配置为执行以所述第二音频信号为参考信号，对所述第一音频信号进行回声消除处理，得到消除回声信号后的目标音频信号。

直播机器人唤醒模块54，被配置为执行根据所述识别阈值和所述目标音频信号对所述直播机器人进行唤醒。

可选地，所述识别阈值确定模块52，被配置为执行计算所述第一音频信号和所述第二音频信号之间的相似度；根据所述相似度确定对所述直播机器人的识别阈值。

可选地，所述识别阈值确定模块52，被配置为执行根据所述第一音频信号计算第一音频能量，以及，根据所述第二音频信号计算第二音频能量；根据所述第一音频能量和所述第二音频能量确定对所述直播机器人的识别阈值。

可选地，所述识别阈值确定模块52，被配置为执行当所述第一音频能量没有落入预设能量区间，且所述第二音频信号能量落入预设能量区间时，确定识别阈值为预设识别阈值；当所述第一音频能量和所述第二音频信号能量均没有落入所述预设能量区间时，计算所述第一音频信号和所述第二音频信号之间的相似度，并根据所述相似度确定对所述直播机器人的识别阈值；当所述第一音频能量和所述第二音频信号能量均落入预设能量区间时，不对所述直播机器人进行唤醒。

可选地，所述识别阈值确定模块52，被配置为执行将所述第一音频信号和所述第二音频信号输入互相关函数进行卷积运算得到输出数据；对所输出数据进行归一化处理，得到所述第一音频信号和所述第二音频信号之间的相似度。

可选地，所述识别阈值确定模块52，被配置为执行确定所述相似度所属的预设相似度区间；将所述预设相似度区间对应的预设识别阈值确定为所述直播机器人的识别阈值；其中，所述预设相似度区间包括第一预设相似度区间，第二预设相似度区间和第三预设相似度区间，所述第一预设相似度区间对应的预设识别阈值不唤醒所述直播机器人，所述第二预设相似度区间对应的预设识别阈值小于所述第三预设相似度区间对应的预设识别阈值。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在一个实施例中，提供了一种电子设备，该电子设备可以是终端，其内部结构图可以如图6所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和指令。该内存储器为非易失性存储介质中的操作系统和指令的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该指令被处理器执行时以实现一种直播机器人唤醒方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本公开还提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现上述直播机器人唤醒方法实施例中对应的各个步骤和/或流程。

本公开还提供了一种存储介质，包括：当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述直播机器人唤醒方法实施例中对应的各个步骤和/或流程。

本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序代码，当计算机程序代码被计算机运行时，使得计算机执行上述直播机器人唤醒方法实施例中对应的各个步骤和/或流程。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过指令来完成，所述的指令可存储于一非易失性计算机可读取存储介质中，该指令在执行时，可包括如上述各方法的实施例的流程。其中，本公开所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本公开的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本公开构思的前提下，还可以做出若干变形和改进，这些都属于本公开的保护范围。因此，本公开专利的保护范围应以所附权利要求为准。

Claims

1.一种直播机器人唤醒方法，其特征在于，所述方法包括：

计算所述第一音频信号和所述第二音频信号之间的相似度，并根据所述相似度确定对所述直播机器人的识别阈值，或者，根据所述第一音频信号的第一音频能量以及所述第二音频信号的第二音频能量，确定对所述直播机器人的识别阈值；

2.根据权利要求1所述直播机器人唤醒方法，其特征在于，在所述根据所述第一音频信号的第一音频能量以及所述第二音频信号的第二音频能量，确定对所述直播机器人的识别阈值之前，还包括：

获取预设的公式，所述公式用于表征音频帧的能量、音频帧长度以及音频信号之间的关联关系；

根据所述公式和所述第一音频信号计算第一音频能量，以及，根据所述公式和所述第二音频信号计算第二音频能量。

3.根据权利要求1所述直播机器人唤醒方法，其特征在于，所述根据所述第一音频信号的第一音频能量以及所述第二音频信号的第二音频能量，确定对所述直播机器人的识别阈值包括：

当所述第一音频信号的第一音频能量没有落入预设能量区间，且所述第二音频信号的第二音频信号能量落入预设能量区间时，确定识别阈值为预设识别阈值；

4.根据权利要求1所述直播机器人唤醒方法，其特征在于，所述计算所述第一音频信号和所述第二音频信号之间的相似度包括：

5.根据权利要求1所述直播机器人唤醒方法，其特征在于，所述根据所述相似度确定对所述直播机器人的识别阈值包括：

确定所述相似度所属的预设相似度区间；

将所述预设相似度区间对应的预设识别阈值确定为所述直播机器人的识别阈值；其中，所述预设相似度区间包括第一预设相似度区间，第二预设相似度区间和第三预设相似度区间，所述第一预设相似度区间对应的预设识别阈值不唤醒所述直播机器人，所述第二预设相似度区间对应的预设识别阈值小于所述第三预设相似度区间对应的预设识别阈值。

6.一种直播机器人唤醒装置，其特征在于，所述装置包括：

识别阈值确定模块，被配置为执行计算所述第一音频信号和所述第二音频信号之间的相似度，并根据所述相似度确定对所述直播机器人的识别阈值，或者，根据所述第一音频信号的第一音频能量以及所述第二音频信号的第二音频能量，确定对所述直播机器人的识别阈值；

7.根据权利要求6所述直播机器人唤醒装置，其特征在于，所述识别阈值确定模块，还被配置为执行获取预设的公式，所述公式用于表征音频帧的能量、音频帧长度以及音频信号之间的关联关系；根据所述公式和所述第一音频信号计算第一音频能量，以及，根据所述公式和所述第二音频信号计算第二音频能量。

8.根据权利要求6所述直播机器人唤醒装置，其特征在于，所述识别阈值确定模块，被配置为执行当所述第一音频能量没有落入预设能量区间，且所述第二音频信号能量落入预设能量区间时，确定识别阈值为预设识别阈值；当所述第一音频能量和所述第二音频信号能量均没有落入所述预设能量区间时，计算所述第一音频信号和所述第二音频信号之间的相似度，并根据所述相似度确定对所述直播机器人的识别阈值；当所述第一音频能量和所述第二音频信号能量均落入预设能量区间时，不对所述直播机器人进行唤醒。

9.根据权利要求6所述直播机器人唤醒装置，其特征在于，所述识别阈值确定模块，被配置为执行将所述第一音频信号和所述第二音频信号输入互相关函数进行卷积运算得到输出数据；对所输出数据进行归一化处理，得到所述第一音频信号和所述第二音频信号之间的相似度。

10.根据权利要求6所述直播机器人唤醒装置，其特征在于，所述识别阈值确定模块，被配置为执行确定所述相似度所属的预设相似度区间；将所述预设相似度区间对应的预设识别阈值确定为所述直播机器人的识别阈值；其中，所述预设相似度区间包括第一预设相似度区间，第二预设相似度区间和第三预设相似度区间，所述第一预设相似度区间对应的预设识别阈值不唤醒所述直播机器人，所述第二预设相似度区间对应的预设识别阈值小于所述第三预设相似度区间对应的预设识别阈值。

11.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至5中任一项所述的直播机器人唤醒方法。

12.一种存储介质，当所述存储介质中的指令由电子设备执行时，使得所述电子设备能够执行如权利要求1至5中任一项所述的直播机器人唤醒方法。