CN109994112A

CN109994112A - 语音识别设备的控制方法、服务器、语音识别设备及介质

Info

Publication number: CN109994112A
Application number: CN201910187760.0A
Authority: CN
Inventors: 梁文华
Original assignee: Midea Group Co Ltd; Guangdong Midea Refrigeration Equipment Co Ltd
Current assignee: Midea Group Co Ltd; GD Midea Air Conditioning Equipment Co Ltd
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2019-07-09

Abstract

本发明公开了一种语音识别设备的控制方法，包括以下步骤：获取各个语音识别设备检测到的语音信号的语音能量值；根据各个所述语音识别设备对应的语音能量值确定目标语音识别设备；控制所述目标语音识别设备对所述语音信号进行响应。本发明还公开了一种服务器、语音识别设备以及计算机可读存储介质。本发明旨在提高用户语音指令在多个语音识别设备中控制的准确度。

Description

语音识别设备的控制方法、服务器、语音识别设备及介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别设备的控制方法、服务器、语音识别设备以及计算机可读存储介质。

背景技术

随着时代的发展，语音识别技术在各种电子设备中得到广泛应用。在实际应用中，当多台具有语音识别功能的电子设备设置的距离较近的时候，用户使用语音指令对某一电子设备进行操作时，其他电子设备可能会同时接收到该语音命令，这就导致其他电子设备作出不必要的响应。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种语音识别设备的控制方法、服务器、语音识别设备以及计算机可读存储介质，旨在提高用户语音指令在多个语音识别设备中控制的准确度。

为实现上述目的，本发明提供一种语音识别设备的控制方法，所述语音识别设备的控制方法包括以下步骤：

获取各个语音识别设备检测到的语音信号的语音能量值；

根据各个所述语音识别设备对应的语音能量值确定目标语音识别设备；

控制所述目标语音识别设备对所述语音信号进行响应。

优选地，所述获取各个语音识别设备检测到的语音信号的语音能量值的步骤包括：

服务器在接收到各个语音识别设备检测到的语音信号时，根据所述语音信号计算并获得语音能量值；或者，

服务器接收各个语音识别设备发送的语音能量值，所述语音能量值为所述语音识别设备根据所检测的语音信号计算获得的。

优选地，所述根据各个所述语音识别设备对应的语音能量值确定目标语音识别设备的步骤包括：

所述服务器根据各个语音识别设备对应的语音能量值确定目标语音识别设备；或者，

所述服务器将所有所述语音识别设备对应的语音能量值下发至各个语音识别设备，使各个所述语音识别设备根据接收到的语音能量值确定目标语音识别设备。

各个语音识别设备根据所检测的语音信号计算获得语音能量值，并将所述语音能量值发送至其他的语音识别设备。

优选地，所述语音能量值的计算步骤包括：

根据所述语音信号计算所述语音信号每帧的短时能量；

根据各帧的所述短时能量，获得所述语音识别设备对应的语音能量值。

比较各个语音识别设备对应的语音能量值，将所述语音能量值最高的语音识别设备作为所述目标语音识别设备。

优选地，所述控制所述目标语音识别设备对所述语音信号进行响应的步骤包括：

服务器根据语音信号生成控制指令，并向所述目标语音识别设备发送该控制指令，以使所述目标语音识别设备执行所述控制指令。

所述目标语音识别设备对所述语音信号进行响应。

为实现上述目的，本发明还提供一种服务器，所述服务器包括：

所述服务器包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别设备的控制程序，所述语音识别设备的控制程序被所述处理器执行时实现如上述语音识别设备的控制方法的步骤。

为实现上述目的，本发明还提供一种语音识别设备，所述语音识别设备包括：

所述语音识别设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别设备的控制程序，所述语音识别设备的控制程序被所述处理器执行时实现如上述语音识别设备的控制方法的步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语音识别设备的控制程序，所述语音识别设备的控制程序被处理器执行时实现如上述语音识别设备的控制方法的步骤。

本发明提供的语音识别设备的控制方法、服务器以及计算机可读存储介质，获取各个语音识别设备检测到的语音信号的语音能量值；根据各个所述语音识别设备对应的语音能量值确定目标语音识别设备；控制所述目标语音识别设备对所述语音信号进行响应。这样，实现用户使用语音指令仅对所需的设备进行控制，避免其他设备不必要的响应，使设置较近的语音识别设备不会相互干扰，提高用户语音命令控制的准确度。

附图说明

图1为本发明实施例方案涉及的实施例终端的硬件运行环境示意图；

图2为本发明语音识别设备的控制方法第一实施例的流程示意图；

图3为本发明语音识别设备的控制方法第二实施例的流程示意图；

图4为本发明语音识别设备的控制方法第三实施例的流程示意图；

图5为本发明语音识别设备的控制方法第四实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种语音识别设备的控制方法，旨在提高用户语音指令在多个语音识别设备中控制的准确度。

如图1所示，图1是本发明实施例方案涉及的实施例终端的硬件运行环境示意图；

本发明实施例终端可以是服务器、控制终端，也可以是语音识别设备，语音识别设备可具体为具有语音识别功能并作出响应的冰箱、空调、音箱、电脑、电灯等家电设备。

如图1所示，该终端可以包括：处理器1001，例如CPU中央处理器(centralprocessing unit)，存储器1002，通信总线1003。其中，通信总线1003用于实现该终端中各组成部件之间的连接通信。存储器1002可以是高速RAM随机存储器(random-accessmemory)，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1002可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端的结构并不构成对本发明实施例终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1002中可以包括语音识别设备的控制程序。

在图1所示的终端中，处理器1001可以用于调用存储器1002中存储的语音识别设备的控制程序，并执行以下操作：

获取各个语音识别设备检测到的语音信号的语音能量值；

控制所述目标语音识别设备对所述语音信号进行响应。

进一步地，处理器1001可以调用存储器1002中存储的语音识别设备的控制程序，还执行以下操作：

根据所述语音信号计算所述语音信号每帧的短时能量；

所述目标语音识别设备对所述语音信号进行响应。

参照图2，在一实施例中，所述语音识别设备的控制方法包括：

步骤S10、获取各个语音识别设备检测到的语音信号的语音能量值。

本实施例中，实施例终端可以是服务器(如云服务器)，该服务器可与多个语音识别设备进行通信连接；实施例终端也可以是一种控制系统，该控制控制系统中包括有多个语音识别设备；实施例终端也可以是语音识别设备。

需要说明的是，语音识别设备可具体为具有语音识别功能并作出响应的冰箱、空调、音箱、电脑、电灯等家电设备。

在用户想要向某一特定的语音识别设备发出语音命令时，当存在有与该语音识别设备设置位置较近的语音识别设备时，这个用户当前并不想要控制的语音识别设备也有可能接收到语音指令并作出响应；或者，在用户向某一特定的语音识别设备发出语音命令时，可能会因环境因素(如房间回响)导致其余用户当前并不想要控制的语音识别设备也接收到该语音命令并作出响应。为了避免这些情况的发生，因此需要在控制语音识别设备执行语音命令前，先确定用户当前想要控制的目标语音识别设备，再控制对应的目标语音识别设备执行该语音命令对应的控制指令。

可选地，在用户发出语音命令时，各个语音识别设备将检测到的与该语音命令对应的语音信号发送至服务器，以供服务器获取。服务器在获取到各个语音识别设备发送的语音信号时，可根据语音信号计算各个语音识别设备对应的语音能量值；在终端为语音识别设备时，各个语音识别设备在检测到的与该语音命令对应的语音信号后，根据该语音信号计算语音能量值，并将计算得到的语音能量值发送至其余各个语音识别设备，这样，每个语音识别设备均可获取所有语音识别设备对应的语音能量值。

可选地，在用户发出语音命令时，各个语音识别设备在检测到的与该语音命令对应的语音信号后，根据该语音信号计算语音能量值，并将计算得到的语音能量值发送至服务器，以供服务器获取得到与语音识别设备对应的语音能量值。

可选地，语音信号的语音能量值可通过计算语音信号的短时能量获得。一般地，一帧语音信号时间内的语音能量就是短时能量，语音的短时能量就是将语音中每一帧的短时能量都计算出来。

可选地，可通过计算语音信号每一帧信号的短时能量，然后对该语音信号所有帧的短时能量进行累计求和，将求和结果作为该语音信号的语音能量值。

可选地，可通过计算语音信号每一帧信号的短时能量，然后对该语音信号所有帧的短时能量进行计算求和，再对结果求平均，得到每帧信号的短时能量平均值作为该语音信号的语音能量值。

每帧语音信号的短时能量E_n为在一帧信号中，n个采样点的采样值平方和：

其中，ω()是窗口函数(因为在公式中为平方和，则是“ω(m)”的形式)，由于短时能量是语音的时域特征，因此，在不使用傅里叶变换的情况下，这里的窗口函数是一种方窗，即：

需要说明的是，一般地，检测到的语音信号的语音能量值越高，即能够表明用户距离语音识别设备越近，和/或语音识别设备的收音越好(如用户的发音方向越偏向该语音识别设备)，因为用户会更习惯靠近以及面向当前想要控制的设备。

步骤S20、根据各个所述语音识别设备对应的语音能量值确定目标语音识别设备。

步骤S30、控制所述目标语音识别设备对所述语音信号进行响应。

可选地，服务器(或者控制系统)在获取得到各个语音识别设备对应的语音能量值时，可以是将所有语音能量值进行比对，并将语音能量值数值最高的语音识别设备作为目标语音识别设备(需要说明的是，目标语音识别设备即为负责对用户当前发出的语音命令进行响应的语音识别设备)。服务器生成与该语音信号对应的响应指令，并将响应指令发送至目标语音识别设备，以控制目标语音识别设备对该语音信号进行响应。在目标语音识别设备接收到响应指令时，则识别语音信号，根据识别结果确定与语音信号对应的控制指令并执行该控制指令。

可选地，若语音识别设备对应的语音能量值是语音识别设备通过向服务器端发送语音信号，由服务器根据语音信号计算得到的，在服务器确定得到目标语音识别设备后，可直接由服务器根据该语音信号生成语音控制指令，并将该控制指令发送至目标语音识别设备，以供目标语音识别设备执行与所述语音信号对应的控制指令，实现目标语音识别设备对语音信号的响应。

可选地，服务器(或者控制系统)在获取得到各个语音识别设备对应的语音能量值时，可以是将所有语音能量值进行比对，并生成一个语音能量值数值高低的比对结果。服务器将比对结果发送至各个有向服务器发语音能量值或语音信号的语音识别设备，让各个语音识别设备根据比对结果自行判断本端是否为目标语音识别设备。在语音识别设备接收到比对结果后，可根据与本端对应的语音能量值在比对结果中查找，若其语音能量值在比对结果中数值最高，则可判定本端设备即为目标语音识别设备。在语音识别设备在判定本端即为目标语音识别设备后，即可对语音信号作出响应：识别语音信号，根据识别结果确定与语音信号对应的控制指令并执行该控制指令。当然，在语音识别设备在判定本端非目标语音识别设备时，则对语音信号不作响应。需要说明的是，也可以是在服务器得到各个语音识别设备的语音能量值后，直接将所有语音能量值发送至各个语音识别设备，由各个语音识别设备自行生成语音能量值的比对结果。

可选地，在实施例终端为语音识别设备时，在语音识别设备获取到所有语音识别设备对应的语音能量值后，语音识别设备可将所有语音能量值进行对比，生成语音能量值数值高低的比对结果，语音识别设备根据比对结果自行判断本端是否为目标语音识别设备。若与当前语音识别设备对应的语音能量值在比对结果中数值最高，则可判定本端设备即为目标语音识别设备。在语音识别设备在判定本端即为目标语音识别设备后，即可对语音信号作出响应：识别语音信号，根据识别结果确定与语音信号对应的控制指令并执行该控制指令。当然，在语音识别设备在判定本端非目标语音识别设备时，则对语音信号不作响应。这样，每个语音识别设备均可作为一个执行终端生成语音能量值的比对结果，并基于比对结果判断本端是否为目标语音识别设备。

在一实施例中，获取各个语音识别设备检测到的语音信号的语音能量值；根据各个所述语音识别设备对应的语音能量值确定目标语音识别设备；控制所述目标语音识别设备对所述语音信号进行响应。这样，在各语音识别设备分别检测用户发出的同一语音信号，由于各语音设备与用户距离的差异会导致各语音识别设备检测到的语音信号的语音能量值存在差异，根据语音能量值来选择用户发出的语音信号所对应的目标语音识别设备，控制目标语音设备对其检测到的语音信号进行识别，使用户使用语音指令仅对所需的设备进行控制，避免其他设备不必要的响应，使设置较近的语音识别设备不会相互干扰，提高用户语音命令控制的准确度。

在第二实施例中，如图3所示，在上述图2所示的实施例基础上，所述获取各个语音识别设备检测到的语音信号的语音能量值的步骤包括：

步骤S40、服务器在接收到各个语音识别设备检测到的语音信号时，根据所述语音信号计算并获得语音能量值。

本实施例中，实施例终端可以是服务器(如云服务器)，该服务器可与多个语音识别设备进行通信连接；实施例终端也可以是一种控制系统，该控制控制系统中包括有多个语音识别设备。以下以实施例终端为服务器为例进行说明。

可选地，在用户发出语音命令时，各个语音识别设备将检测到的与该语音命令对应的语音信号发送至服务器，以供服务器获取。服务器在获取到各个语音识别设备发送的语音信号时，可根据语音信号计算各个语音识别设备对应的语音能量值。

需要说明的是，在服务器只接收到一个语音识别设备发送的语音信号，即可确定该语音识别设备为目标语音识别设置。

可选地，服务器在获取得到各个语音识别设备对应的语音能量值时，可以是将所有语音能量值进行比对，并将语音能量值数值最高的语音识别设备作为目标语音识别设备(需要说明的是，目标语音识别设备即为负责对用户当前发出的语音命令进行响应的语音识别设备)。服务器生成与该语音信号对应的响应指令，并将响应指令发送至目标语音识别设备，以控制目标语音识别设备对该语音信号进行响应。在目标语音识别设备接收到响应指令时，则识别语音信号，根据识别结果确定与语音信号对应的控制指令并执行该控制指令。

可选地，服务器在获取得到各个语音识别设备对应的语音能量值时，可以是将所有语音能量值进行比对，并生成一个语音能量值数值高低的比对结果。服务器将比对结果发送至各个有向服务器发语音能量值或语音信号的语音识别设备，让各个语音识别设备根据比对结果自行判断本端是否为目标语音识别设备。在语音识别设备接收到比对结果后，可根据与本端对应的语音能量值在比对结果中查找，若其语音能量值在比对结果中数值最高，则可判定本端设备即为目标语音识别设备。在语音识别设备在判定本端即为目标语音识别设备后，即可对语音信号作出响应：识别语音信号，根据识别结果确定与语音信号对应的控制指令并执行该控制指令。当然，在语音识别设备在判定本端非目标语音识别设备时，则对语音信号不作响应。需要说明的是，也可以是在服务器得到各个语音识别设备的语音能量值后，直接将所有语音能量值发送至各个语音识别设备，由各个语音识别设备自行生成语音能量值的比对结果。

在第三实施例中，如图4所示，在上述图2所示的实施例基础上，所述获取各个语音识别设备检测到的语音信号的语音能量值的步骤包括：

步骤S41、服务器接收各个语音识别设备发送的语音能量值，所述语音能量值为所述语音识别设备根据所检测的语音信号计算获得的。

需要说明的是，在服务器只接收到一个语音识别设备发送的语音能量值，即可确定该语音识别设备为目标语音识别设置。

在第四实施例中，如图5所示，在上述图2所示的实施例基础上，所述获取各个语音识别设备检测到的语音信号的语音能量值的步骤包括：

步骤S50、各个语音识别设备根据所检测的语音信号计算获得语音能量值，并将所述语音能量值发送至其他的语音识别设备。

本实施例中，实施例终端可以是语音识别设备。以下以实施例终端为服务器为例进行说明。需要说明的是，语音识别设备可具体为具有语音识别功能并作出响应的冰箱、空调、音箱、电脑、电灯等家电设备。

可选地，在用户发出语音命令时，各个语音识别设备在检测到的与该语音命令对应的语音信号后，根据该语音信号计算语音能量值，并将计算得到的语音能量值发送至其余各个语音识别设备，这样，每个语音识别设备均可获取所有语音识别设备对应的语音能量值。

其中，ω(n)是窗口函数(因为在公式中为平方和，则是“ω(m)”的形式)，由于短时能量是语音的时域特征，因此，在不使用傅里叶变换的情况下，这里的窗口函数是一种方窗，即：

在语音识别设备获取到所有语音识别设备对应的语音能量值后，语音识别设备可将所有语音能量值进行对比，生成语音能量值数值高低的比对结果，语音识别设备根据比对结果自行判断本端是否为目标语音识别设备。若与当前语音识别设备对应的语音能量值在比对结果中数值最高，则可判定本端设备即为目标语音识别设备。在语音识别设备在判定本端即为目标语音识别设备后，即可对语音信号作出响应：识别语音信号，根据识别结果确定与语音信号对应的控制指令并执行该控制指令。当然，在语音识别设备在判定本端非目标语音识别设备时，则对语音信号不作响应。

这样，每个语音识别设备均可作为一个执行终端生成语音能量值的比对结果，并基于比对结果判断本端是否为目标语音识别设备。

可选地，为了解决每个语音识别设备难以得知其他语音识别设备是否也检测到语音信号的问题，避免未检测到语音信号的语音识别设备也接收其他语音识别设备发送的语音能量值，则可以是在语音识别设备计算得到语音能量值后，将语音能量值发送至服务器，由服务器转发至各个有向服务器发语音能量值的语音识别设备。

当然，也可以是在语音识别设备检测到语音信号后，直接将语音信号发送至服务器，由服务器根据语音信号计算生成语音能量值，并将语音能量值发送至各个有向服务器发语音信号的语音识别设备。这样，可以减少语音识别设备的在计算语音能量值方面的投入，从而降低语音识别设备的制造成本。

在一实施例中，各个语音识别设备根据所检测的语音信号计算获得语音能量值，并将所述语音能量值发送至其他的语音识别设备；根据各个所述语音识别设备对应的语音能量值确定目标语音识别设备；控制所述目标语音识别设备对所述语音信号进行响应。这样，在各语音识别设备分别检测用户发出的同一语音信号，由于各语音设备与用户距离的差异会导致各语音识别设备检测到的语音信号的语音能量值存在差异，根据语音能量值来选择用户发出的语音信号所对应的目标语音识别设备，控制目标语音设备对其检测到的语音信号进行识别，使用户使用语音指令仅对所需的设备进行控制，避免其他设备不必要的响应，使设置较近的语音识别设备不会相互干扰，提高用户语音命令控制的准确度。

此外，本发明还提出一种服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的语音识别设备的控制程序，所述处理器执行所述语音识别设备的控制程序时实现如以上实施例所述的语音识别设备的控制方法的步骤。

此外，本发明还提出一种语音识别设备，所述语音识别设备包括存储器、处理器及存储在存储器上并可在处理器上运行的语音识别设备的控制程序，所述处理器执行所述语音识别设备的控制程序时实现如以上实施例所述的语音识别设备的控制方法的步骤。

此外，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质包括语音识别设备的控制程序，所述语音识别设备的控制程序被处理器执行时实现如以上实施例所述的语音识别设备的控制方法的步骤。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是电视机，手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音识别设备的控制方法，其特征在于，所述语音识别设备的控制方法包括以下步骤：

获取各个语音识别设备检测到的语音信号的语音能量值；

控制所述目标语音识别设备对所述语音信号进行响应。

2.如权利要求1所述的语音识别设备的控制方法，其特征在于，所述获取各个语音识别设备检测到的语音信号的语音能量值的步骤包括：

3.如权利要求2所述的语音识别设备的控制方法，其特征在于，所述根据各个所述语音识别设备对应的语音能量值确定目标语音识别设备的步骤包括：

4.如权利要求1所述的语音识别设备的控制方法，其特征在于，所述获取各个语音识别设备检测到的语音信号的语音能量值的步骤包括：

5.如权利要求1所述的语音识别设备的控制方法，其特征在于，所述语音能量值的计算步骤包括：

根据所述语音信号计算所述语音信号每帧的短时能量；

6.如权利要求1所述的语音识别设备的控制方法，其特征在于，所述根据各个所述语音识别设备对应的语音能量值确定目标语音识别设备的步骤包括：

7.如权利要求1、2、3、5或6所述的语音识别设备的控制方法，其特征在于，所述控制所述目标语音识别设备对所述语音信号进行响应的步骤包括：

8.如权利要求1、4、5或6所述的语音识别设备的控制方法，其特征在于，所述控制所述目标语音识别设备对所述语音信号进行响应的步骤包括：

所述目标语音识别设备对所述语音信号进行响应。

9.一种服务器，其特征在于，所述服务器包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别设备的控制程序，所述语音识别设备的控制程序被所述处理器执行时实现如权利要求1、2、3、5、6或7所述的语音识别设备的控制方法的步骤。

10.一种语音识别设备，其特征在于，所述语音识别设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音识别设备的控制程序，所述语音识别设备的控制程序被所述处理器执行时实现1、4、5、6或8所述的语音识别设备的控制方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音识别设备的控制程序，所述语音识别设备的控制程序被处理器执行时实现如权利要求1至8中任一项所述的语音识别设备的控制方法的步骤。