CN111223497A

CN111223497A - 一种终端的就近唤醒方法、装置、计算设备及存储介质

Info

Publication number: CN111223497A
Application number: CN202010009091.0A
Authority: CN
Inventors: 苏梦娜; 张华兵; 周强
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2020-06-02
Anticipated expiration: 2040-01-06
Also published as: CN111223497B

Abstract

本发明公开了一种终端的就近唤醒方法、装置、计算设备及存储介质，该方法包括：目标终端接收到用户的唤醒词时获取设定时长的目标音频；目标终端根据目标音频计算出唤醒语音信噪比并发送至中控设备，以指示中控设备根据至少一个终端发送的唤醒语音信噪比确定用户的就近终端，并向就近终端发送允许唤醒指令；目标终端如果接收到允许唤醒指令，则对用户进行响应。本发明实施例采用唤醒语音信噪比作为就近终端的选择依据，计算复杂度较低，相比于判断唤醒音频的能量值而言，准确性更高；其次，本发明实施例仅需要向中控设备反馈唤醒语音信噪比，对网络的稳定性要求较低，实时性较好，提高了用户的体验感。

Description

一种终端的就近唤醒方法、装置、计算设备及存储介质

技术领域

本发明实施例涉及数据采集与处理技术，尤其涉及一种终端的就近唤醒方法、装置、计算设备及存储介质。

背景技术

目前用户输入唤醒音频后，在多个智能设备中筛选就近的智能设备的方法已经比较普遍，现有的智能设备的就近唤醒方法主要分为两种，第一种是计算唤醒音频的能量信息，并引入设备补偿因子和环境影响因子修正唤醒音频的能量值，将各个智能设备修正后的唤醒音频的能量值发送至第三方设备，由第三方设备根据各个能量值筛选就近的智能设备；第二种是计算唤醒音频的置信度、待响应智能设备与用户的距离和方向以及各智能设备的增益参数，然后利用预先训练的神经网络对上述参量进行特征融合分析，最后根据神经网络的输出结果选择用于响应用户的智能设备。

上述方法虽然都能够在多个智能设备中筛选出就近的智能设备，但是第一种方法采用预设的设备补偿因子和环境影响因子后无法适应新的智能设备和应用场景，增加了算法的复杂度；其次，采用能量值作为判决依据时未考虑本设备播放自身音频时对唤醒音频能量信息的影响，在实际使用环境中容易引起第三方设备误判；第二种方法需要计算和传输多个参量，对智能设备的存储器、运算速度以及网络的稳定性要求较高；其次，利用神经网络对多个参量进行特征融合分析，实时性较差，降低了用户的体验感。

发明内容

本发明实施例提供一种终端的就近唤醒方法、装置、计算设备及存储介质，提高了终端就近唤醒的准确性，降低了对网络稳定性的要求，实时性较好。

第一方面，本发明实施例提供了一种终端的就近唤醒方法，所述方法包括：

目标终端接收到用户的唤醒词时，以唤醒词的截止时间点为起点，沿时间延伸方向的反方向获取设定时长的目标音频，所述目标音频包括静音区音频和语音区音频；

所述目标终端根据语音区音频和静音区音频分别计算语音信号功率和噪音信号功率，并根据所述语音信号功率和所述噪音信号功率计算唤醒语音信噪比；

所述目标终端将所述唤醒语音信噪比发送至中控设备，以指示所述中控设备根据至少一个终端发送的唤醒语音信噪比，确定所述用户的就近终端，并向所述就近终端发送允许唤醒指令；

所述目标终端如果接收到所述允许唤醒指令，则对所述用户进行响应。

第二方面，本发明实施例还提供了一种终端的就近唤醒方法，所述方法包括：

中控设备如果检测到一个终端发送的唤醒语音信噪比，则以所述唤醒语音信噪比的接收时间为时间起点，设置设定时长的第一定时器；

其中，所述唤醒语音信噪比为终端接收到用户的唤醒词时，以唤醒词的截止时间点为起点，沿时间延伸方向反方向获取设定时长的目标音频生成的，所述目标音频包括静音区音频和语音区音频；

所述中控设备在所述第一定时器的定时时间段内，获取到至少一个唤醒语音信噪比，并在所述至少一个唤醒语音信噪比中选取最大唤醒语音信噪比；

所述中控设备将发送最大唤醒语音信噪比的终端作为用户的就近终端，并向所述就近终端发送允许唤醒指令，以指示所述就近终端对所述用户进行响应。

第三方面，本发明实施例提供了一种终端的就近唤醒装置，应用于目标终端中，该装置包括：

目标音频获取模块，用于接收到用户的唤醒词时，以唤醒词的截止时间点为起点，沿时间延伸方向的反方向获取设定时长的目标音频，所述目标音频包括静音区音频和语音区音频；

唤醒语音信噪比计算模块，用于根据语音区音频和静音区音频分别计算语音信号功率和噪音信号功率，并根据所述语音信号功率和所述噪音信号功率计算唤醒语音信噪比；

唤醒语音信噪比发送模块，用于将所述唤醒语音信噪比发送至中控设备，以指示所述中控设备根据至少一个终端发送的唤醒语音信噪比，确定所述用户的就近终端，并向所述就近终端发送允许唤醒指令；

响应模块，用于如果接收到所述允许唤醒指令，则对所述用户进行响应。

第四方面，本发明实施例还提供了一种终端的就近唤醒装置，应用于中控设备中，该装置包括：

第一定时器设置模块，用于如果检测到一个终端发送的唤醒语音信噪比，则以所述唤醒语音信噪比的接收时间为时间起点，设置设定时长的第一定时器；

其中，所述唤醒语音信噪比为终端根据在被用户的唤醒词唤醒时，以唤醒时间点为起点，沿时间延伸方向反方向获取设定时长目标音频生成的，所述目标音频包括静音区音频和语音区音频；

最大唤醒语音信噪比选取模块，用于在所述第一定时器的定时时间段内，获取到至少一个唤醒语音信噪比，并在所述至少一个唤醒语音信噪比中选取最大唤醒语音信噪比；

允许唤醒指令发送模块，用于将发送最大唤醒语音信噪比的终端作为用户的就近终端，并向所述就近终端发送允许唤醒指令，以指示所述就近终端对所述用户进行响应。

第五方面，本发明实施例还提供了一种计算设备，该计算设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例提供的一种终端的就近唤醒方法。

第六方面，本发明实施例还提供了一种计算机可读存储介质，该存储介质上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例提供的一种终端的就近唤醒方法。

本发明实施例的技术方案通过接收用户的唤醒词，根据唤醒词获取目标音频包括的静音区音频和语音区音频，然后根据语音区音频和静音区音频计算出唤醒语音信噪比并发送至中控设备，如果接收到允许唤醒指令则对用户进行响应。本发明实施例采用唤醒语音信噪比作为就近终端的选择依据，计算复杂度较低，相比于判断唤醒音频的能量值而言，准确性更高；其次，本发明实施例仅需要向中控设备反馈唤醒语音信噪比，对网络的稳定性要求较低，实时性较好，提高了用户的体验感。

附图说明

图1是本发明实施例一中的一种终端的就近唤醒方法的流程图；

图2是本发明实施例二中的一种终端的就近唤醒方法的流程图；

图3是本发明实施例三中的一种终端的就近唤醒方法的流程图；

图4是本发明实施例四中的一种终端的就近唤醒装置的结构图；

图5是本发明实施例五中的一种终端的就近唤醒装置的结构图；

图6是本发明实施例六中的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种终端的就近唤醒方法的流程图，本实施例可适用于用户说出唤醒词后，多个目标终端将与本机设备对应的唤醒语音信噪比分别发送至中控设备，中控设备向就近的终端发送允许唤醒指令后，就近的终端对用户进行响应的情形，该方法可以由终端的就近唤醒装置来执行，该装置可以由软件和/或硬件来实现，并一般可以集成在目标终端中，且所述目标终端能够与所述中控设备通信，所述方法具体包括如下步骤：

步骤110、目标终端接收到用户的唤醒词时，以唤醒词的截止时间点为起点，沿时间延伸方向的反方向获取设定时长的目标音频，所述目标音频包括静音区音频和语音区音频。

在本实施例中，目标终端的个数至少为两个，所述目标终端可以为智能音箱或智能闹钟等具备语音识别与播放功能的智能设备。所述静音区音频为不包括有用户语音的音频，该静音区音频可以反映目标终端周围的环境噪音，所述语音区音频为包括用户语音的音频，该语音区音频可以反映目标终端接收到的用户语音的能量值。

可选的，当用户说出唤醒词后，目标终端通过语音录入模块(比如麦克风)接收到用户的唤醒词，然后获取所述唤醒词的持续时间，并提取所述唤醒词的截止时间点之前的设定时长内的音频作为目标音频。其中，所述设定时长大于所述唤醒词的持续时间。

在一个具体的实施例中，例如用户说出“XX，XX”的唤醒词后，多个目标终端同时接收到该唤醒词，每个目标终端均获取到该唤醒词的持续时间，假设为500ms，并提取该唤醒词的截止时间点之前的700ms内的音频作为目标音频，该目标音频包括200ms的静音区音频和500ms语音区音频。

其中，设定时长根据实际要求进行预设，本实施例对此并不进行限制。

可选的，可以预先获取用户单次语音信号的最长输入时间的经验值，例如，5s，进而可以设定一个长于该最长输入时间的经验值的时间，例如7s作为设定时长，以保证每次获取到的目标音频都包括有静音区音频。

步骤120、目标终端根据语音区音频和静音区音频分别计算语音信号功率和噪音信号功率，并根据所述语音信号功率和所述噪音信号功率计算唤醒语音信噪比。

在此步骤中，目标终端获取到目标音频的语音区音频和静音区音频后，对所述语音区音频和静音区音频分别进行频谱分析，获取到语音区功率谱和静音区功率谱，然后将语音区功率谱对应的功率值作为语音信号功率，将静音区功率谱对应的功率值作为噪音信号功率，通过计算语音信号功率与噪音信号功率的比值得到唤醒语音信噪比。

步骤130、目标终端将所述唤醒语音信噪比发送至中控设备，以指示所述中控设备根据至少一个终端发送的唤醒语音信噪比，确定所述用户的就近终端，并向所述就近终端发送允许唤醒指令。

在此步骤中，所述中控设备可以为第三方智能设备，比如手机终端，也可以为上述多个目标终端中的任意智能设备。

在本实施例中，多个目标终端同时将各自计算的唤醒语音信噪比发送至中控设备后，中控设备在多个唤醒语音信噪比中筛选出最大唤醒语音信噪比对应的目标终端，并将此目标终端确定为用户的就近终端，然后向该就近终端发送允许唤醒指令。

步骤140、目标终端如果接收到所述允许唤醒指令，则对所述用户进行响应。

在本实施例中，目标终端如果接收到用户的唤醒词和中控设备发送的允许唤醒指令后，被用户输入的唤醒词唤醒，并进行相应的响应。例如“我在”或者“有什么事吗”。进而，用户可以直接输入需求语音，比如“告诉我现在时间”，然后目标终端可以根据此语音信息响应对应的操作模块，比如利用麦克风播放当前时间。

本发明实施例通过接收用户的唤醒词，根据唤醒词获取目标音频包括的静音区音频和语音区音频，然后根据语音区音频和静音区音频计算出唤醒语音信噪比并发送至中控设备，如果接收到允许唤醒指令则对用户进行响应。本发明实施例采用唤醒语音信噪比作为就近终端的选择依据，计算复杂度较低，相比于判断唤醒音频的能量值而言，准确性更高；其次，本发明实施例仅需要向中控设备反馈唤醒语音信噪比，对网络的稳定性要求较低，实时性较好，提高了用户的体验感。

实施例二

图2是本发明实施例二提供的一种终端的就近唤醒方法的流程图，本实施例是对上述实施例的进一步细化，与上述实施例相同或相应的术语解释，本实施例不再赘述。该方法包括如下步骤：

步骤210、目标终端接收到用户的唤醒词时，以唤醒词的截止时间点为起点，沿时间延伸方向的反方向获取设定时长的目标音频，所述目标音频包括静音区音频和语音区音频。

步骤220、判断在目标音频匹配的音频时间区间内，目标终端是否播放本机音频。

在此步骤中，目标终端获取到目标音频后，判断在目标音频匹配的音频时间区间内，目标终端是否播放本机音频。具体的，判断方式可以为查看此目标音频的参考通道是否为空。

在一个具体的实施例中，目标终端在目标音频的整个音频时间区间内计算目标音频的能量值，然后判断目标音频的能量值中是否包括除噪音信号能量和语音信号能量以外的能量信息。如果是，则说明目标音频的参考通道不为空，也即目标终端检测到在目标音频匹配的音频时间区间内，目标终端播放本机音频，并执行步骤230；如果否，则说明目标音频的参考通道为空，也即目标终端检测到在目标音频匹配的音频时间区间内，目标终端没有播放本机音频，并执行步骤240。

步骤230、根据本机音频对目标音频进行回波对消处理。

在此步骤中，目标终端通过分析本机音频的能量信息，利用回波对消技术对目标音频进行处理，消除掉了目标终端上麦克风接收到的本机音频，生成了不包括本机音频的目标音频。

步骤240、判断目标音频是否为单通道音频：若是，执行步骤260；否则，执行步骤250。

在此步骤中，目标终端获取到不包括本机音频的目标音频后，判断此目标音频对应的音频向量的行数和列数是否都为一，如果是，则说明此目标音频为单通道音频，执行步骤260；如果否，则说明此目标音频为多通道音频，执行步骤250。

步骤250、采用设定音频处理算法将目标音频转换为单通道音频。

在本实施例中，目标终端可以利用MVDR(Minimum Variance DistortionlessResponse，最小方差无失真响应)算法将步骤240中的多通道音频生成自适应波束，也即将目标音频转换为单通道音频。MVDR算法降低了目标音频中环境噪音的功率值，减小了目标音频中环境噪音对唤醒词的污染。

步骤260、目标终端根据语音区音频和静音区音频分别计算语音信号功率和噪音信号功率，并根据所述语音信号功率和所述噪音信号功率计算唤醒语音信噪比。

在此步骤中，目标终端获取到上述步骤中的单通道的目标音频后，对此目标音频中的语音区音频和静音区音频分别进行频谱分析，获取到语音区功率谱和静音区功率谱，然后将语音区功率谱对应的功率值作为语音信号功率，将静音区功率谱对应的功率值作为噪音信号功率，通过计算语音信号功率与噪音信号功率的比值得到唤醒语音信噪比。

步骤270、目标终端将所述唤醒语音信噪比发送至中控设备，以指示所述中控设备根据至少一个终端发送的唤醒语音信噪比，确定所述用户的就近终端，并向所述就近终端发送允许唤醒指令。

步骤280、目标终端如果接收到所述允许唤醒指令，则对所述用户进行响应。

本发明实施例首先根据用户的唤醒词获取目标音频，如果目标终端在目标音频匹配的音频时间区间内播放本机音频，则对目标音频进行回波对消处理，如果目标音频为多通道音频，则采用设定音频处理算法将目标音频转换为单通道音频，最后根据此单通道音频计算唤醒语音信噪比并发送至中控设备，如果接收到允许唤醒指令则对用户进行响应。本发明实施例减小了本机音频和环境噪音对唤醒词的影响，采用唤醒语音信噪比作为就近终端的选择依据，计算复杂度较低，相比于判断唤醒音频的能量值而言，准确性更高；其次，本发明实施例仅需要向中控设备反馈唤醒语音信噪比，对网络的稳定性要求较低，实时性较好，提高了用户的体验感。

实施例三

图3为本发明实施例三提供的一种终端的就近唤醒方法的流程图，本实施例可适用于中控设备接收到多个终端发送的唤醒语音信噪比后，选择用户的就近终端并向就近终端发送允许唤醒指令，以使就近终端对用户进行响应的情形，该方法可以由中控设备的就近唤醒装置来执行，该装置可以由软件和/或硬件来实现，并一般可以集成在中控设备中，且所述中控设备能够与所述终端通信，所述方法具体包括如下步骤：

步骤310、中控设备如果检测到一个终端发送的唤醒语音信噪比，则以所述唤醒语音信噪比的接收时间为时间起点，设置设定时长的第一定时器。

在本实施例中，终端的个数至少为两个，所述终端可以为智能音箱或智能闹钟等具备语音识别与播放功能的智能设备。所述中控设备可以为第三方智能设备，比如手机终端，也可以为上述多个终端中的任意智能设备。

唤醒语音信噪比为终端根据在被用户的唤醒词唤醒时，以唤醒时间点为起点，沿时间延伸方向反方向获取设定时长目标音频生成的，所述目标音频包括静音区音频和语音区音频。

具体的，终端获取到目标音频的语音区音频和静音区音频后，对所述语音区音频和静音区音频分别进行频谱分析，获取到语音区功率谱和静音区功率谱，然后将语音区功率谱对应的功率值作为语音信号功率，将静音区功率谱对应的功率值作为噪音信号功率，通过计算语音信号功率与噪音信号功率的比值得到唤醒语音信噪比。

在此步骤中，中控设备如果检测到一个终端发送的唤醒语音信噪比，则在第一定时器的定时时间段内开启判决窗，利用判决窗接收至少一个终端发送的唤醒语音信噪比。其中，判决窗的开启时刻与与第一定时器的开启时刻一致，相应的，判决窗的关闭时刻与与第一定时器的关闭时刻一致。

步骤320、中控设备在第一定时器的定时时间段内，获取到至少一个唤醒语音信噪比，并在所述至少一个唤醒语音信噪比中选取最大唤醒语音信噪比。

在此步骤中，中控设备比较判决窗内接收到的至少一个唤醒语音信噪比，在至少一个唤醒语音信噪比中筛选出最大的唤醒语音信噪比。

步骤330、中控设备将发送最大唤醒语音信噪比的终端作为用户的就近终端，并向所述就近终端发送允许唤醒指令，以指示所述就近终端对所述用户进行响应。

就近终端接收到用户的唤醒词(比如“XX，XX”)和允许唤醒指令后，被用户输入的唤醒词唤醒，并进行相应的响应。例如“我在”或者“有什么事吗”。进而，用户可以直接输入需求语音，比如“告诉我现在时间”，然后就近终端可以根据此语音信息响应对应的操作模块，比如利用麦克风播放当前时间。

在本实施例中，中控设备向就近终端发送允许唤醒指令之后，还以允许唤醒指令的发送时间为时间起点，设置了设定时长的第二定时器，中控终端在第二定时器的定时时间段内，拒绝对任何终端发送的唤醒语音信噪比进行响应。

在一个具体的实施例中，当用户连续说出两次唤醒词后，中控设备向就近终端发送第一次允许唤醒指令之后，某些终端会向中控设备发送第二次唤醒语音信噪比，为了防止终端的二次唤醒导致的响应混乱，本实施例设置了第二定时器，在此定时器的定时时间段内，即使多个终端向中控设备发送唤醒语音信噪比，中控设备都会停止向终端发送允许唤醒指令的操作。

本发明实施例的中控设备如果检测到一个终端发送的唤醒语音信噪比，则设置第一定时器，在第一定时器的定时时间段内接收终端发送的至少一个唤醒语音信噪比，并选取最大唤醒语音信噪比对应的终端作为用户的就近终端，然后向就近终端发送允许唤醒指令，以指示就近终端对用户进行响应。本发明实施例采用唤醒语音信噪比作为就近终端的选择依据，计算复杂度较低，相比于判断唤醒音频的能量值而言，准确性更高；其次，本发明实施例仅需要接收终端反馈的唤醒语音信噪比，对网络的稳定性要求较低，实时性较好，提高了用户的体验感。

实施例四

图4为本发明实施例四提供的一种终端的就近唤醒装置的结构图，应用与目标终端中，该装置包括：目标音频获取模块410、唤醒语音信噪比计算模块420、唤醒语音信噪比发送模块430和响应模块440。

其中，目标音频获取模块410，用于接收到用户的唤醒词时，以唤醒词的截止时间点为起点，沿时间延伸方向的反方向获取设定时长的目标音频，所述目标音频包括静音区音频和语音区音频；唤醒语音信噪比计算模块420，用于根据语音区音频和静音区音频分别计算语音信号功率和噪音信号功率，并根据所述语音信号功率和所述噪音信号功率计算唤醒语音信噪比；唤醒语音信噪比发送模块430，用于将所述唤醒语音信噪比发送至中控设备，以指示所述中控设备根据至少一个终端发送的唤醒语音信噪比，确定所述用户的就近终端，并向所述就近终端发送允许唤醒指令；响应模块440，用于如果接收到所述允许唤醒指令，则对所述用户进行响应。

本实施例的技术方案通过接收用户的唤醒词，根据唤醒词获取目标音频包括的静音区音频和语音区音频，然后根据语音区音频和静音区音频计算出唤醒语音信噪比并发送至中控设备，如果接收到允许唤醒指令则对用户进行响应。本发明实施例采用唤醒语音信噪比作为就近终端的选择依据，计算复杂度较低，相比于判断唤醒音频的能量值而言，准确性更高；其次，本发明实施例仅需要向中控设备反馈唤醒语音信噪比，对网络的稳定性要求较低，实时性较好，提高了用户的体验感。

在上述各实施例的基础上，目标音频获取模块410，可以包括：

回波对消处理单元，用于如果检测到在目标音频匹配的音频时间区间内，目标终端播放本机音频，则根据所述本机音频对目标音频进行回波对消处理；

单通道音频转换单元，用于如果确定所述目标音频为多通道音频，则采用设定音频处理算法将所述目标音频转换为单通道音频；

唤醒词的持续时间获取单元，用于获取所述唤醒词的持续时间；

目标音频确定单元，用于提取所述唤醒词的截止时间点之前的预设时间内的音频作为目标音频；

其中，所述预设时间大于所述唤醒词的持续时间。

本发明实施例所提供的终端的就近唤醒装置可执行本发明任意实施例所提供的终端的就近唤醒方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5为本发明实施例五提供的一种终端的就近唤醒装置的结构图，应用于中控设备中，该装置包括：第一定时器设置模块510、最大唤醒语音信噪比选取模块520和允许唤醒指令发送模块530。

其中，第一定时器设置模块510，用于如果检测到一个终端发送的唤醒语音信噪比，则以所述唤醒语音信噪比的接收时间为时间起点，设置设定时长的第一定时器；其中，所述唤醒语音信噪比为终端根据在被用户的唤醒词唤醒时，以唤醒时间点为起点，沿时间延伸方向反方向获取设定时长目标音频生成的，所述目标音频包括静音区音频和语音区音频；最大唤醒语音信噪比选取模块520，用于在所述第一定时器的定时时间段内，获取到至少一个唤醒语音信噪比，并在所述至少一个唤醒语音信噪比中选取最大唤醒语音信噪比；允许唤醒指令发送模块530，用于将发送最大唤醒语音信噪比的终端作为用户的就近终端，并向所述就近终端发送允许唤醒指令，以指示所述就近终端对所述用户进行响应。

在上述各实施例的基础上，允许唤醒指令发送模块530，可以包括：

第二定时器设置单元，用于以允许唤醒指令的发送时间为时间起点，设置设定时长的第二定时器；

拒绝响应单元，用于在所述第二定时器的定时时间段内，拒绝对任何终端发送的唤醒语音信噪比进行响应。

实施例六

图6为本发明实施例六提供的一种计算设备的结构示意图，如图6所示，该计算设备包括处理器610、存储器620、输入装置630和输出装置640；计算设备中处理器610的数量可以是一个或多个，图6中以一个处理器610为例；计算设备中的处理器610、存储器620、输入装置630和输出装置640可以通过总线或其他方式连接，图6中以通过总线连接为例。

存储器620作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的由目标终端执行的一种终端的就近唤醒方法对应的程序指令/模块(例如，一种终端的就近唤醒装置中的目标音频获取模块410、唤醒语音信噪比计算模块420、唤醒语音信噪比发送模块430和响应模块440)。处理器610通过运行存储在存储器620中的软件程序、指令以及模块，从而执行计算设备的各种功能应用以及数据处理，即实现上述的一种终端的就近唤醒方法。也即，该程序被处理器执行时实现：

存储器620作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中由中控设备执行的一种终端的就近唤醒方法对应的程序指令/模块(例如，一种终端的就近唤醒装置中的第一定时器设置模块510、最大唤醒语音信噪比选取模块520和允许唤醒指令发送模块530)。处理器610通过运行存储在存储器620中的软件程序、指令以及模块，从而执行计算设备的各种功能应用以及数据处理，即实现上述的一种终端的就近唤醒方法。也即，该程序被处理器执行时实现：

存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器620可进一步包括相对于处理器610远程设置的存储器，这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置630可用于接收输入的数字或字符信息，以及产生与计算设备的用户设置以及功能控制有关的键信号输入，可以包括键盘和鼠标等。输出装置640可包括显示屏等显示设备。

实施例七

本发明实施例七还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述方法。当然，本发明实施例所提供的一种计算机可读存储介质，其可以执行本发明实施例中由目标终端执行的一种终端的就近唤醒方法中的相关操作。也即，该程序被处理器执行时实现：

本发明实施例所提供的一种计算机可读存储介质，其还可以执行本发明实施例中由中控设备执行的一种终端的就近唤醒方法中的相关操作。也即，该程序被处理器执行时实现：

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述终端的就近唤醒装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种终端的就近唤醒方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述目标终端根据语音区音频和静音区音频分别计算语音信号功率和噪音信号功率之前，还包括：

所述目标终端如果检测到在所述目标音频匹配的音频时间区间内，所述目标终端播放本机音频，则根据所述本机音频对所述目标音频进行回波对消处理。

3.根据权利要求1或2所述的方法，其特征在于，在所述目标终端根据语音区音频和静音区音频分别计算语音信号功率和噪音信号功率之前，还包括：

所述目标终端如果确定所述目标音频为多通道音频，则采用设定音频处理算法将所述目标音频转换为单通道音频。

4.根据权利要求1所述的方法，其特征在于，目标终端接收到用户的唤醒词时，以唤醒词的截止时间点为起点，沿时间延伸方向的反方向获取设定时长的目标音频包括：

所述目标终端获取所述唤醒词的持续时间；

所述目标终端提取所述唤醒词的截止时间点之前的预设时间内的音频作为目标音频；

其中，所述预设时间大于所述唤醒词的持续时间。

5.一种终端的就近唤醒方法，其特征在于，包括：

6.根据权利要求5所述的方法，其特征在于，在所述中控设备向所述就近终端发送允许唤醒指令之后，还包括：

所述中控终端以所述允许唤醒指令的发送时间为时间起点，设置设定时长的第二定时器；

所述中控终端在所述第二定时器的定时时间段内，拒绝对任何终端发送的唤醒语音信噪比进行响应。

7.一种终端的就近唤醒装置，应用于目标终端中，其特征在于，包括：

8.一种终端的就近唤醒装置，应用于中控设备中，其特征在于，包括：

9.一种计算设备，其特征在于，所述计算设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的一种终端的就近唤醒方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的一种终端的就近唤醒方法。