CN112086097B

CN112086097B - 语音终端的指令响应方法、电子设备及计算机存储介质

Info

Publication number: CN112086097B
Application number: CN202010745872.6A
Authority: CN
Inventors: 刘永红; 伍云云
Original assignee: Midea Group Co Ltd; Guangdong Midea White Goods Technology Innovation Center Co Ltd
Current assignee: Midea Group Co Ltd; Guangdong Midea White Goods Technology Innovation Center Co Ltd
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2023-11-10
Anticipated expiration: 2040-07-29
Also published as: CN112086097A

Abstract

本申请公开了一种语音终端的指令响应方法、电子设备及计算机存储介质。其中，指令响应方法包括：为至少两个语音终端确定一个统一对齐时刻；通知各个语音终端从各自缓存的音频信号中，以统一对齐时刻为起点，沿时间延伸方向的反方向截取预定时间段的音频信号；获取各个语音终端的预定时间段的音频信号的信噪比表征数据；基于各个语音终端的信噪比表征数据生成响应决策；通知各个语音终端执行响应决策。本申请指令响应方法能够在多个待响应的语音终端中确定一个响应该语音指令的终端。

Description

语音终端的指令响应方法、电子设备及计算机存储介质

技术领域

本申请涉及语音响应领域，特别是涉及一种语音终端的指令响应方法、电子设备及计算机存储介质。

背景技术

语音识别，语音交互等技术已应用在多个领域，对于搭载了语音识别系统的设备一般在收到语音信号时会对语音信号进行响应。

对于同一区域内或多个相邻区域内的多个语音终端，可能出现同时需响应该语音信号的情况，而在一般的应用场景中，用户显然只会对一个语音终端给出语音指令，并且多个语音终端的同时响应会导致多个语音终端之间相互干扰的问题，例如一个语音终端响应所述语音信号而播报的声音会被另一个语音终端接收并响应，反之亦然，即产生相互干扰的问题。

发明内容

本申请提供一种语音终端的指令响应方法、电子设备及计算机存储介质，以解决现有技术中多个语音终端同时响应语音指令而造成的相互干扰问题。

为解决上述技术问题，本申请提供一种语音终端的指令响应方法，包括：为至少两个语音终端确定一个统一对齐时刻；通知各个所述语音终端从各自缓存的音频信号中，以所述统一对齐时刻为起点，沿时间延伸方向的反方向截取预定时间段的音频信号；获取各个所述语音终端的所述预定时间段的音频信号的信噪比表征数据；基于各个所述语音终端的信噪比表征数据生成响应决策；通知各个所述语音终端执行所述响应决策。

其中，为至少两个语音终端确定一个统一对齐时刻，包括：获取至少一个语音终端的指令反应时刻，指令反应时刻为语音终端从所接收的音频信号中识别出语音指令的时刻；基于指令反应时刻确定统一对齐时刻。

其中，基于指令反应时刻确定统一对齐时刻，包括：从至少两个指令反应时刻中选择一个指令反应时刻作为统一对齐时刻；或者，利用至少两个指令反应时刻计算出统一对齐时刻。

其中，基于各个语音终端的信噪比表征数据生成响应决策，包括：确定各个语音终端的信噪比表征数据中的最大信噪比表征数据；基于所最大信噪比表征数据生成响应决策，响应决策指示最大信噪比表征数据所对应的语音终端对音频信号进行响应，其他的语音终端对音频信号不进行响应。

其中，响应决策指示最大信噪比表征数据所对应的语音终端中优先级最高的语音终端对音频信号进行响应。

其中，沿时间延伸方向的反方向截取预定时间段的音频信号，包括：沿时间延伸方向的反方向依序截取第一时间段的第一音频信号，第二时间段的第二音频信号；获取各个所述语音终端的预定时间段的音频信号的信噪比表征数据，包括：以第一音频信号为指令语音信号，第二音频信号为环境噪声信号，根据指令语音信号和环境噪声信号计算各自的信噪比表征数据。

其中，计算信噪比表征数据，包括：结合语音终端的校准因子计算信噪比表征数据，校准因子用于使所有语音终端的信噪比误差一致。

为解决上述技术问题，本申请提供一种语音终端的指令响应方法，包括：接收控制终端确定的一个统一对齐时刻；在缓存的音频信号中，以统一对齐时刻为起点，沿时间延伸方向的反方向截取预定时间段的音频信号，以使控制终端获取预定时间段的音频信号的信噪比表征数据；执行控制终端发送的响应决策，响应决策由控制终端基于信噪比表征数据生成。

其中，所述沿时间延伸方向的反方向截取预定时间段的音频信号，以使所述控制终端获取所述预定时间段的音频信号的信噪比表征数据，包括：沿所述时间延伸方向的反方向依序截取第一时间段的第一音频信号，第二时间段的第二音频信号；以所述第一音频信号为指令语音信号，所述第二音频信号为环境噪声信号，根据所述指令语音信号和所述环境噪声信号计算所述信噪比表征数据。

为解决上述技术问题，本申请提供一种电子设备，包括处理器和存储器，存储器中存储有计算机程序，处理器用于执行计算机程序以实现上述唤醒响应方法的步骤。

为解决上述技术问题，本申请提供一种计算机存储介质，其中存储有计算机程序，计算机程序被执行时实现上述唤醒响应方法的步骤。

本申请指令响应方法为至少两个语音终端确定一个统一对齐时刻，然后通知各个语音终端从各自缓存的音频信号中，以统一对齐时刻为起点，沿时间延伸方向的反方向截取预定时间段的音频信号，并获取各个语音终端的该预定时间段的音频信号的信噪比表征数据，再根据该信噪比表征数据生成响应决策，各个语音终端则根据该响应决策来确定是否响应该音频信号。本申请中基于统一对齐时刻去截取音频信号，使得每一语音终端截取的音频信号是一致的，计算的是同一段音频信号的信噪比，信噪比之间具有可比性，最终确定响应音频信号的语音终端也更加准确。

附图说明

图1是本申请语音终端的指令响应方法第一实施例的流程示意图；

图2是本申请语音终端的指令响应方法中语音终端截取音频信号的示意图；

图3是本申请语音终端相互连接所构成网络的结构示意图；

图4是本申请语音终端的指令响应方法中控制终端的工作流程示意图；

图5是本申请语音终端的指令响应方法中语音终端的工作流程示意图；

图6是本申请电子设备一实施例的结构示意图；

图7是本申请计算机存储介质一实施例的结构示意图。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本申请所提供的一种语音终端的指令响应方法、电子设备及计算机存储介质做进一步详细描述。

本申请指令响应方法应用于多个语音终端均可对同一语音指令进行响应的情况，对于这种情况，以家电领域为例，在同一区域存在多个家电设备，其中家电设备均具有语音识别功能，即作为语音终端。例如客厅区域存在电视机、空调、冰箱等语音终端。当用户在客厅区域发出语音指令时，由于声音传播特性，在客厅区域内的多个家电设备均可能接收到该语音指令，并对该语音指令进行响应，此时则会出现多个家电设备均进行回应的情况，而一般来说用户仅仅需要一个家电设备对其进行回应。并且，如果多个家电设备对该语音指令进行语音回复，例如A家电设备回应的声音可能又被B家电设备接收并响应，继而导致家电设备之间相互干扰，而无法正常回应用户的需求。通过本申请的指令响应方法则可准确的确定用户所想要发出语音指令的语音终端。

语音指令可以是唤醒指令，例如“小爱”“siri”等唤醒指令。对于待唤醒的本申请语音终端来说，为先唤醒后响应的模式，即先对用户发出的语音信号进行唤醒反应，然后再对该语音信号进行响应回复。对此，本申请在唤醒和响应之间引入选择确定机制，即在被语音信号唤醒后，暂时不响应，在确定需要响应时再回复。

语音指令还可以是控制指令，例如“增大风速”等控制指令，可能出现空调和风扇都响应的情况。对于已经被唤醒的语音终端或者无需唤醒的语音终端，也是在识别语音指令后暂不回应，待确定需要响应时再回应。

本申请语音终端的指令响应方法主要通过比较各个语音终端的信噪比，将信噪比最大的确定为最应该响应语音指令的语音终端，信噪比最大即表示该语音终端接收到的语音指令的能量最大，可能是发出语音指令的用户距离该语音终端最近，也可能是用户朝向该语音终端发出语音指令，即该语音终端最可能是用户的目标设备。在本申请的方法中，比较信噪比为重要步骤，而信噪比的计算尽量统一标准也能够使得最终确定的语音终端更为准确。

具体请参阅图1，图1是本申请语音终端的指令响应方法一实施例的流程示意图，本申请中存在一控制端，用于比较各个语音终端的信噪比，并确定具体由哪个语音终端来响应语音指令。控制端可以是独立于语音终端的一个终端，也可以是语音终端本身。

为了方便理解，本实施例以唤醒响应为例进行说明，其他控制指令的响应同理。本实施例中语音指令为唤醒指令，指令反应时刻为唤醒反应时刻，指令语音信号为唤醒语音信号。本实施例指令响应方法包括以下步骤。

S101：语音终端采集音频信号，从所述音频信号中识别出唤醒指令，将唤醒反应时刻发送至控制终端。

语音终端持续获取音频信号，进行缓存，采用先进先出的方式，持续保存一定时间段的音频信号。采集并保存音频信号，保存一定时间长度的音频信号，保存的时间长度大于后续截取步骤中预定时间段的长度。

语音终端在采集音频信号的同时，对采集到的音频信号进行识别，以判断音频信号的语音内容中是否存在唤醒指令。在语音终端确定采集到的音频信号内包含唤醒指令时，产生唤醒反应，并将唤醒反应时刻发送至控制终端。

可以理解的是，语音终端产生的唤醒反应，可以是语音终端从待机状态转换为激活状态的切换反应，或者可以是语音终端开始知晓音频信号内包含唤醒指令的状态。

另外，唤醒反应时刻，可以是语音终端对采集到的音频信号进行识别而确定语音信号内包含唤醒词的时刻，或者可以是语音终端采集到的音频信号中唤醒指令的截止时间点，或者可以是语音终端响应于音频信号内包含唤醒指令而从待机状态转换为激活状态的时刻。

可选地，每一语音终端的唤醒指令可以是出厂前设定的，或者由用户根据实际需要预先设定，例如，用户或厂商可将语音终端的唤醒指令设置为“小爱”或“siri”等任意词汇。

S102：控制终端获取至少一个语音终端的唤醒反应时刻，基于唤醒反应时刻确定统一对齐时刻。

本步骤中控制终端本身可以是语音终端，其在识别到唤醒指令时也会产生一个唤醒反应时刻，此时基于其他语音终端的唤醒反应时刻以及其本身的唤醒反应时刻来确定统一对齐时刻。

若控制终端本身不是语音终端，或其并没有接收到音频信号，或没有识别到唤醒指令，及其没有产生唤醒反应时刻。此时则基于语音终端的唤醒反应时刻来确定统一对齐时刻。

在一实现场景中，控制终端获取到至少一个语音终端的唤醒反应时刻后，可以将获取到的至少一个唤醒反应时刻中的任意一个作为统一对齐时刻，例如将最早的唤醒反应时刻作为统一对齐时刻。

在另一实现场景中，控制终端还可以利用至少两个唤醒反应时刻计算出一个统一对齐时刻，例如取至少两个唤醒反应时刻的平均值作为统一对齐时刻。

S103：将统一对齐时刻通知给各个语音终端。

控制终端确定统一对齐时刻后，将统一对齐时刻通知给每一语音终端，以让每一语音终端基于统一对齐时刻截取音频信息。

可以理解的是，控制终端可以存储有每个语音终端的相关信息，以基于语音终端的相关信息将统一对齐时刻通知给每个语音终端。例如，控制终端存储有语音终端和控制终端进行通信的频道信息和/或时隙信息，控制终端可以在相应频道和/或相应时隙上进行广播或组播，以让每一语音终端都能获取到统一对齐时刻。又例如，控制终端可以存储有每一语音终端的通信号，这样控制终端可以基于每一语音终端的通信号将统一对齐时刻通知给每一语音终端。

这样在步骤S101中，语音终端除了将唤醒反应时刻反送给控制终端外，还可将语音终端的设备信息发送给控制终端，以让控制终端基于设备信息确定唤醒反应时刻对应的语音终端。

S104：语音终端以统一对齐时刻为起点，沿时间延伸方向的反方向截取预定时间段的音频信号。

在一实现方式中，语音终端可以将统一对齐时刻为起点，沿时间延伸方向的反方向获取预定时间段的音频信号。可以理解的是，所有语音终端截取的音频信号的时长相同，以基于预定时间段的语音信号计算信噪比。

在又一实现方式中，如图2所示，语音终端可以由统一对齐时刻T2往前依次截取第一时间段(T3-T2)的第一音频信号，和第二时间段(T4-T3)的第二音频信号，将第一音频信号作为唤醒语音信号，第二音频信号作为环境噪声信号，以基于唤醒语音信号和环境噪声信号计算信噪比表征数据。其中，第一时间段可以基于唤醒词的长度进行调整，一般第一时间段比读“唤醒词”耗费的时间长，但是会比语音终端内存储的音频信号的时长短。可选地，第一时间段可以为500ms、600ms或450ms等任意时间。第二时间段可以为600ms、700ms或1000ms等任意时间。

S105：控制终端或语音终端根据截取的音频信号计算信噪比表征数据。

在一实现方式中，语音终端截取相同时间段的音频信号后，可以基于截取的音频信号计算信噪比表征数据，接着可以将计算出的信噪比表征数据发送给控制终端。

在另一实现方式中，语音终端截取相同时间段的音频信号后，可以将截取的音频信号发送给控制终端，控制终端会基于每一语音终端截取的音频信号计算每一语音终端的信噪比。

在一应用场景中，控制终端或语音终端还可以利用语音分离技术将截取的音频信号中唤醒词内容和环境噪声分离开来，然后基于唤醒词内容的强度和环境噪声的强度的比值确定截取的音频信号的信噪比。

在另一应用场景中，截取的音频信号包括唤醒语音信号和环境噪声信号时，控制终端或语音终端可以基于唤醒语音信号的强度和环境噪声信号的强度的比值确定截取的音频信号的信噪比。信噪比的计算公式可如下所示：

其中，Energy(Singal)为唤醒语音信号的强度；Energy(Noise)为环境噪声信号的强度。

进一步地，考虑到不同的语音终端，在麦克风的孔径、深浅、表面平整性、密封性等存在差异，在计算信噪比之前，可以先确定每一语音终端的校准因子，然后控制终端或语音终端可以根据所截取的音频信号和校准因子计算信噪比，以将单个语音终端的外界影响因素降到较低水平，使得所有语音终端的信噪比误差一致。信噪比的计算公式可如下所示：

其中，k为语音终端的校准因子，Energy(Singal)为唤醒语音信号的强度；Energy(Noise)为环境噪声信号的强度。

在其他实现方式中，信噪比的计算公式还可如下所示：

其中，语音终端的校准因子可以是在语音终端出厂前，基于同一标准进行测试得到的。例如，可以将不同的语音终端，放在同样的环境下播放同样的音频，每一次均基于信噪比的真实值和测试值得到校准因子，通过累积计算得到多个校准因子，最终计算所有校准因子的均值，以得到最终的校准因子。

S106：控制终端比较所有语音终端的信噪比表征数据，生成响应决策。

其中，响应决策指示信噪比表征数据最大的语音终端响应音频信号，当信噪比表征数据最大的语音终端的数量为至少两个时，可以确定信噪比表征数据最大的语音终端中任意一个来响应语音信号。当然，较为优选的是，在信噪比表征数据最大的语音终端中，确定唤醒优先级最高的语音终端来响应语音信号，使得确定的语音终端也更加准确。

可以理解的是，语音终端的唤醒优先级可以是出厂前预先设定的，也可是用户基于实际情况设定的，或者可以是在使用过程中控制终端综合各个语音终端的使用情况确定。

可选地，控制终端可以基于所有语音终端的名称排序、所有语音终端的响应时间排序或语音终端的响应次数排序等各种情况排序确定所有语音终端的唤醒优先级。例如，语音终端的上一次响应时间越近，语音终端的唤醒优先级越高，即上一次响应时间比较近，则该语音终端很可能会需要再次使用，因此将其优先级设置较高。或者，语音终端的响应次数越多，语音终端的唤醒优先级越高，即次数越多，语音终端应用越频繁，因此优先级也越高。

信噪比表征数据最大即表示信号强度最大，即距离用户最近，也最可能是用户想要唤醒的语音终端，因此基于各个语音终端截取的音频信号的信噪比确定的响应语音信号的语音终端较为准确，并且基于统一对齐时刻去截取语音信号，使得每一语音终端截取的音频信号是一致的，计算的是同一段语音信号的信噪比，信噪比之间具有可比性，最终确定的语音终端也更加准确。

控制终端将生成的响应决策发送至语音终端，在一实现方式中，控制终端可以只向所确定的响应语音信号的语音终端发送响应决策，不向其他的语音终端发送响应决策，这样语音终端接收到响应决策可以直接响应语音信号，未收到响应决策的则不响应。

在另一实现方式中，控制终端可以向所有的语音终端都发送响应决策。所有语音终端收到的具体通知信号的内容可以相同或不相同。

例如，控制终端可以直接将包含所确定的响应语音信号的语音终端的设备信息的通知信号发送给所有语音终端，这样所有语音终端判断自身的设备信息与所确定的响应语音信号的语音终端的设备信息是否一致，判断一致的语音终端为所确定的响应语音信号的语音终端。

又例如，控制终端可以将相应语音终端是否需要响应的情况发送给语音终端，具体地，控制终端可以将响应语音信号的通知信号发送给所确定的响应语音信号的语音终端，控制终端可以将不响应语音信号的通知信号发送给其余语音终端。

S107：语音终端执行响应决策。

语音终端可以根据响应决策来确定是否进行响应。

例如，语音终端判断所确定的响应语音信号的语音终端的设备信息与自身的设备信息不一致时，不响应；语音终端判断所确定的响应语音信号的语音终端的设备信息与自身的设备信息一致时，进行响应。

又例如，语音终端确定响应决策的内容为响应语音信息时，进行响应；语音终端确定响应决策的内容为不响应语音信息时，不响应。

如前所述，上述控制终端可以为非语音终端的智能终端，例如手机等，语音终端均连接至手机，由手机来确定响应语音信号的语音终端。

上述控制终端还可以是语音终端本身，唤醒响应方法应用于存在至少两个语音终端的情况，至少两个语音终端构成区域网络，至少两个语音终端中包括一个主语音终端，主语音终端作为控制终端。

所构成的区域网络包括并不仅限于WIFI无线网络组成的局域网、有线网络组成的局域网、蓝牙mesh组成的局域网、zigbee组成的局域网、RS485组成的局域网、LoRa组成的局域网、1394组成的局域网、CAN组成的局域网等等。所构成网络的通讯机制包括并不仅限于UDP、TCP/IP、HTTP、MQTT、CoAP等等，确保同一网络的每个语音识别设备能够快速和可靠地进行信息交互。

主语音终端和区域网络中的其余语音终端之间可以实时保持通信连接，或者在语音终端在确认音频信号内包含唤醒词时主动建立和主语音终端的通信连接。

建网后可随机指定一个作为主语音终端，在实际应用中，主语音终端可能采集到音频信号，也作为语音终端；也可能未采集到的音频信号，不作为语音终端。

例如在家庭网络中，客厅、卧室、厨房的语音终端组成一个网络，以客厅中的某个作为主语音终端。当在厨房进行语音唤醒时，客厅中的主语音终端未采集到音频信号，作为控制终端进行以上唤醒响应方法。当在客厅进行语音唤醒时，客厅中的主语音终端也可能采集到音频信号，客厅中的主语音终端基于自身的唤醒反应时刻和其余语音终端的唤醒反应时刻确定统一对齐时刻，然后基于统一对齐时刻截取自身的音频信号，并确定自身的信噪比，继而基于自身的信噪比和其余语音终端的信噪比确定响应音频信号的语音终端。

在其他实现方式中，建网后可以基于区域网络中的所有语音终端的处理能力选择一个处理能力强的语音终端作为主语音终端，以使控制终端能够较为快速地确定响应音频信号的语音终端。

区域网络的结构可参阅图3，图3是本申请语音终端相互连接所构成的区域网络的结构示意图。区域网络包括主语音终端和至少一个从语音终端，主语音终端基于上述方法确定响应音频信号的语音终端，并将通知信号通知所确定的响应音频信号的语音终端，以让所确定的音频信号的语音终端进行响应。

上述实施例以唤醒响应为例对本申请的发明思路进行了说明，其他控制指令同理，不再赘述。

对于控制终端，其实现指令响应方法的步骤请参阅图4，图4是本申请语音终端的指令响应方法中控制终端的工作流程示意图，具体如下。

S201：为至少两个语音终端确定一个统一对齐时刻。

S202：通知各个语音终端从各自缓存的音频信号中，以统一对齐时刻为起点，沿时间延伸方向的反方向截取预定时间段的音频信号。

可以理解的是，步骤S202可以在步骤S201之后执行，或者与步骤S201同时执行。

S203：获取各个语音终端的预定时间段的音频信号的信噪比表征数据。

S204：基于各个语音终端的信噪比表征数据生成响应决策。

S205：通知各个语音终端执行响应决策。

本实施方式中上述步骤与图1所示实施例中的相关步骤类似，具体不再赘述。控制终端为语音终端确定一个统一对齐时刻；通知每一语音终端根据该统一对齐时刻截取预定时间段的音频信号，以计算获得每一语音终端的信噪比表征数据；控制终端再对信噪比表征数据进行比较，从而确定响应决策，即响应该音频信号的语音终端，这样各个语音终端可以基于统一对齐时刻去截取音频信号，使得每一语音终端截取的音频信号是一致的，计算的是同一段音频信号的信噪比，信噪比之间具有可比性，最终确定的语音终端也更加准确。

对于语音终端，其实现指令响应方法的步骤请参阅图5，图5是本申请语音终端的指令响应方法中语音终端的工作流程示意图，具体如下。

S301：接收控制终端确定的一个统一对齐时刻。

S302：在缓存的音频信号中，以统一对齐时刻为起点，沿时间延伸方向的反方向截取预定时间段的音频信号，以使控制终端获取预定时间段的音频信号的信噪比表征数据。

S303：执行控制终端发送的响应决策，响应决策由控制终端基于信噪比表征数据生成。

上述步骤与图1所示实施例中的相关步骤类似，具体不再赘述。语音终端根据统一对齐时刻截取相同时间段的音频信号，以计算出信噪比。通过比较所有语音终端的信噪比表征数据，确定响应决策，即由哪个语音终端来响应音频信号，语音终端即可根据该响应决策来判断是否响应音频信号。

上述指令响应方法由终端设备10实现。终端设备10可以是智能终端，例如手机等。终端设备10还可以是语音终端，例如电冰箱、空调、闹钟或微波炉等家用电器。

如图6所示，终端设备10可以包括处理器12和存储器11。存储器11中存储有计算机程序。处理器12用于执行计算机程序以实现上述方法中的步骤。具体实施过程请参阅上述实施方式的描述，在此不再赘述。该终端设备10能够使得信噪比之间具有可比性，最终确定的语音终端也更加准确。

对于上述实施例的方法，其可以计算机程序的形式存在，因而本申请提出一种计算机存储介质，请参阅图7，图7是本申请计算机存储介质一实施例的结构示意图。本实施例计算机存储介质20中存储有计算机程序21，其可被执行以实现上述实施例中的方法。

本实施例计算机存储介质20可以是U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等可以存储程序指令的介质，或者也可以为存储有该程序指令的服务器，该服务器可将存储的程序指令发送给其他设备运行，或者也可以自运行该存储的程序指令。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音终端的指令响应方法，其特征在于，所述指令响应方法包括：

为至少两个语音终端确定一个统一对齐时刻；

通知各个所述语音终端从各自缓存的音频信号中，以所述统一对齐时刻为起点，沿时间延伸方向的反方向截取预定时间段的音频信号；

获取各个所述语音终端的所述预定时间段的音频信号的信噪比表征数据；

基于各个所述语音终端的信噪比表征数据生成响应决策；

通知各个所述语音终端执行所述响应决策。

2.根据权利要求1所述的指令响应方法，其特征在于，所述为至少两个语音终端确定一个统一对齐时刻，包括：

获取至少一个所述语音终端的指令反应时刻，所述指令反应时刻为所述语音终端从所接收的音频信号中识别出语音指令的时刻；

基于所述指令反应时刻确定所述统一对齐时刻。

3.根据权利要求2所述的指令响应方法，其特征在于，所述基于所述指令反应时刻确定所述统一对齐时刻，包括：

从至少两个所述指令反应时刻中选择一个所述指令反应时刻作为所述统一对齐时刻；或者，

利用至少两个所述指令反应时刻计算出所述统一对齐时刻。

4.根据权利要求1所述的指令响应方法，其特征在于，所述基于各个所述语音终端的信噪比表征数据生成响应决策，包括：

确定各个所述语音终端的信噪比表征数据中的最大信噪比表征数据；

基于所述最大信噪比表征数据生成所述响应决策，所述响应决策指示所述最大信噪比表征数据所对应的所述语音终端对所述音频信号进行响应，其他的所述语音终端对所述音频信号不进行响应。

5.根据权利要求4所述的指令响应方法，其特征在于，所述响应决策指示所述最大信噪比表征数据所对应的所述语音终端中优先级最高的语音终端对所述音频信号进行响应。

6.根据权利要求1所述的指令响应方法，其特征在于，所述沿时间延伸方向的反方向截取预定时间段的音频信号，包括：

沿所述时间延伸方向的反方向依序截取第一时间段的第一音频信号，第二时间段的第二音频信号；

所述获取各个所述语音终端的所述预定时间段的音频信号的信噪比表征数据，包括：

以所述第一音频信号为指令语音信号，所述第二音频信号为环境噪声信号，根据所述指令语音信号和所述环境噪声信号计算所述信噪比表征数据。

7.根据权利要求6所述的指令响应方法，其特征在于，所述计算所述信噪比表征数据，包括：

结合所述语音终端的校准因子计算所述信噪比表征数据，所述校准因子用于使所有语音终端的信噪比误差一致。

8.一种语音终端的指令响应方法，其特征在于，所述指令响应方法包括：

接收控制终端确定的一个统一对齐时刻；

在缓存的音频信号中，以所述统一对齐时刻为起点，沿时间延伸方向的反方向截取预定时间段的音频信号，以使所述控制终端获取所述预定时间段的音频信号的信噪比表征数据；

执行所述控制终端发送的响应决策，所述响应决策由所述控制终端基于所述信噪比表征数据生成。

9.根据权利要求8所述的指令响应方法，其特征在于，所述沿时间延伸方向的反方向截取预定时间段的音频信号，以使所述控制终端获取所述预定时间段的音频信号的信噪比表征数据，包括：

10.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器用于执行所述计算机程序以实现权利要求1-9中任一项所述方法的步骤。

11.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序被执行以实现如权利要求1-9中任一项所述方法的步骤。