CN108831474B

CN108831474B - 语音识别设备及其语音信号捕获方法、装置和存储介质

Info

Publication number: CN108831474B
Application number: CN201810426065.0A
Authority: CN
Inventors: 何瑞澄; 李开
Original assignee: Midea Group Co Ltd; GD Midea Air Conditioning Equipment Co Ltd
Current assignee: Midea Group Co Ltd; GD Midea Air Conditioning Equipment Co Ltd
Priority date: 2018-05-04
Filing date: 2018-05-04
Publication date: 2021-05-25
Anticipated expiration: 2038-05-04
Also published as: CN108831474A

Abstract

本发明公开了一种语音信号捕获方法，该语音信号捕获方法包括以下步骤：获取语音识别设备作用空间内用户的位置；根据用户的位置确定拾音波束的形成参数；按照拾音波束的形成参数形成拾音波束，拾音波束指向用户的位置，以通过拾音波束收集用户发出的语音信号。本发明还公开了一种语音信号捕获设备、语音识别装置以及计算机可读存储介质。本发明可实现无需依靠用户发出的语音对用户进行定位，可提高拾音波束方向的准确性，减少其他方向上噪声的影响，以增加语音识别在噪声场景中应用的可靠性。

Description

语音识别设备及其语音信号捕获方法、装置和存储介质

技术领域

本发明涉及人机交互技术领域，尤其涉及语音信号捕获方法、语音信号捕获装置、语音识别设备以及计算机可读存储介质。

背景技术

随着技术的发展，语音识别系统的应用越来越普遍。现在的语音识别设备中一般采用麦克风阵列中的波束成形技术，以提高噪声环境下使用的成功率。

然而，在目前的应用场合中，都需要用户先发出语音指令之后，麦克风阵列再对用户的位置进行定位，在噪声较为复杂的场景，会造成无法很好的对用户的位置进行判定，使形成的拾音波束指向不准确，从而影响到后续语音识别的可靠性。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种语音信号捕获方法，旨在提高拾音波束方向的准确性，减少其他方向上噪声的影响，增加语音识别在噪声场景中应用的可靠性。

为实现上述目的，本发明提供一种语音信号捕获方法，所述语音信号捕获方法包括以下步骤：

获取语音识别设备作用空间内用户的位置；

根据所述用户的位置确定拾音波束的形成参数；

按照所述拾音波束的形成参数形成拾音波束，所述拾音波束指向所述用户，以通过所述拾音波束收集所述用户发出的语音信号。

优选地，当所述语音识别设备作用空间内的用户为多个时，获取每个用户的位置；

根据各所述用户的位置分别确定对应的拾音波束的形成参数；

按照确定的形成参数分别形成拾音波束，形成的拾音波束分别指向每个用户，以通过所述形成的拾音波束收集各所述用户发出的语音信号。

优选地，所述根据各所述用户的位置分别确定对应的拾音波束的形成参数的步骤之前，还包括:

获取各所述用户的特征信息；

获取各所述用户的特征信息之间的差异；

根据获取的特征信息差异，确定各所述用户的位置对应的拾音波束的优先级；

所述根据各所述用户的位置分别确定对应的拾音波束的形成参数的步骤包括：

根据各所述用户的位置及其对应的拾音波束的优先级，分别确定对应的拾音波束的形成参数。

优选地，所述用户的特征信息包括用户的面部朝向或用户的口部特征信息。

优选地，所述根据各所述用户的位置分别确定对应的拾音波束的形成参数的步骤之前，还包括：

获取各所述用户与所述语音识别设备之间的距离；

获取各所述距离之间的差异；

根据获取的距离差异，确定各所述用户的位置对应的拾音波束的优先级；

优选地，所述形成参数包括形成方向和形成强度，所述根据各所述用户的位置及其对应的拾音波束的优先级，确定对应的拾音波束的形成参数的步骤包括：

根据各所述用户的位置确定指向相应位置的拾音波束的形成方向；

根据各所述优先级确定指向相应位置的拾音波束的形成强度。

优选地，所述按照所述拾音波束的形成参数形成拾音波束的步骤之后，还包括：

当所述语音识别设备的作用空间内用户的数量和/或位置发生改变时，根据所述改变的用户的数量和/或位置调整所述拾音波束的形成参数。

此外，为实现上述目的，本发明还提供一种语音信号捕获装置，所述语音信号捕获装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音信号捕获程序，所述语音信号捕获程序被所述处理器执行时实现如上任一项所述的语音信号捕获方法的步骤。

此外，为实现上述目的，本发明还提供一种语音识别设备，所述语音识别设备包括如上所述的语音信号捕获装置。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语音信号捕获程序，所述语音信号捕获程序被处理器执行时实现如上任一项所述的语音信号捕获方法的步骤。

本发明实施例提出的一种语音信号捕获方法，通过人体信息检测设备获取语音识别设备作用空间内用户的位置，根据获取到的用户的位置确定拾音波束的形成参数，按照确定的拾音波束的形成参数形成拾音波束，形成的拾音波束指向用户，以通过拾音波束收集用户发出的语音信号，无需依靠用户发出的语音对用户进行定位，可提高拾音波束方向的准确性，减少其他方向上噪声的影响，以增加语音识别在噪声场景中应用的可靠性。

附图说明

图1是本发明实施例涉及的硬件运行环境的装置结构示意图；

图2是本发明实施例涉及的硬件运行环境的设备结构示意图；

图3为本发明实施例中语音信号捕获方法的第一流程示意图；

图4为本发明实施例中语音信号捕获方法的第二流程示意图；

图5为本发明实施例中语音信号捕获方法的第三流程示意图；

图6为本发明实施例中语音信号捕获方法的第四流程示意图；

图7为本发明实施例中语音信号捕获方法的第五流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：获取所述语音识别设备作用空间内用户的位置；根据所述用户的位置确定拾音波束的形成参数；按照所述拾音波束的形成参数形成拾音波束，所述拾音波束指向所述用户，以通过所述拾音波束收集所述用户发出的语音信号。

由于现有技术中，需要用户先发出语音指令之后，麦克风阵列再对用户的位置进行定位，在噪声较为复杂的场景，会造成无法很好的对用户的位置进行判定，使发出的拾音波束指向不准确，从而影响到后续语音识别的可靠性。

本发明提供一种解决方案，可提高拾音波束方向的准确性，减少其他方向上噪声的影响，以增加语音识别在噪声场景中应用的可靠性。

在本发明实施例中，如图1所示，语音信号捕获装置1可具体为麦克风阵列系统等可发出指向性拾音波束捕获语音信号的装置。在该语音信号捕获装置中可以包括：处理器1001，例如CPU，存储器1002，麦克风阵列1003，人体信息检测模块1004以及通信总线1005。其中，通信总线1005用于实现这些组件之间的连接通信。存储器1002可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1002可选的还可以是独立于前述处理器1001的存储装置。

其中，麦克风阵列1003包括若干个排列的声学传感器(如麦克风)，可根据指令向特定方向发出拾音波束。人体信息检测模块1003可具体为红外传感器、图像传感器或声呐传感器等，用于检测语音信号捕获装置1作用空间内的用户的位置、距离、正面或口部特征信息等人体信息。

本领域技术人员可以理解，图1中示出的装置结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1002中可以语音信号捕获程序。

在图1所示的装置中，处理器1001可以用于调用存储器1002中存储的语音信号捕获程序，并执行以下实施例中语音信号捕获方法的相关步骤操作。

参照图2，本发明实施例还提出一种语音识别设备，该语音识别设备包括上述的语音信号捕获装置1和与该语音捕获装置1通讯连接的语音识别装置2。

语音识别设备可具体为智能空调、智能电视、智能冰箱、智能音响等具有语音识别功能的设备。

语音识别装置2可将从语音信号捕获装置1中获取捕获到的语音信号进行处理、识别得到语音控制指令，以实现用户对语音识别设备的控制。语音识别装置2可为独立于语音信号捕获装置1的装置，也可为整合于语音信号捕获装置1中的语音识别模块。

语音信号捕获装置1和/或语音识别装置2可安装于语音识别设备中，也可根据实际需求独立于语音识别设备设于语音识别设备所需识别的空间范围中。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有语音信号捕获程序，所述语音信号捕获程序被处理器执行时实现执行以下实施例中语音信号捕获方法的相关步骤操作。

参照图3，本发明实施例提供一种语音信号捕获方法，应用于上述语音识别设备，所述语音信号捕获方法包括：

步骤S10，获取语音识别设备作用空间内用户的位置；

语音识别设备作用空间可具体为语音识别设备所在的室内环境，也可根据实际需求将语音识别设备中的语音信号捕获装置1设于所需识别的空间范围中。

人体信息检测模块1003实时检测语音识别设备作用空间内的人体信息，判断语音识别设备作用空间内是否存在用户，当存在用户时可认为该用户为语音识别设备的潜在用户，并获取用户的当前位置。当不存在用户时，可认为不存在需要对语音识别设备进行控制的用户。

其中，当判定语音识别设备作用空间内存在用户时，可认为空间内的所有用户皆为潜在用户并获取空间内的所有用户的当前位置；此外，可通过获取用户图像或其他用户的特征信息，与预存信息做比较，当获取用户特征信息与预存信息匹配时才获取用户的当前位置，可保证所获取的用户的当前位置是特定用户的当前位置，特定用户可具体为预设的拥有权限对语音识别设备进行控制的用户。

步骤S20，根据所述用户的位置确定拾音波束的形成参数；

预先空间内用户的位置与拾音波束的形成参数之间的对应关系，拾音波束的形成参数可具体为波束的方向、波束的数量、波束的强度、波束的宽度等，可根据具体需求进行设置。例如，用户相对于语音识别设备所在的方向对应拾音波束的形成方向，用户相对于语音识别设备的距离对应拾音波束的强度或宽度，此外，同一个用户的位置可根据实际需求对应一个或多个拾音波束等。

在获取到用户的位置后，可根据用户的位置和上述对应关系确定拾音波束的形成参数。

语音识别设备通过语音捕获装置捕获声音信号，并通过波束形成算法调节语音捕获设备中麦克风所拾取声音信号的相位与波幅，使得最终形成的声音信号可以在特定方向范围内具有较高的信噪比，从而达到保留特定方向范围内传播来的声音，并衰减或屏蔽其他方向传播来的声音信号，以实现目标声音信号的获取。由于声音信号被保留的方向范围通常为一个锥形区域，此锥形区域通常被形象的称为拾音波束。其中，拾音波束的方向可表征上述特定方向，拾音波束的强度可表征信噪比的高低，波束的宽度可表征上述锥形区域的大小。

步骤S30，按照所述拾音波束的形成拾音波束，所述拾音波束指向所述用户，以通过所述拾音波束收集所述用户发出的语音信号。

在拾音波束的形成参数确定后，控制麦克风阵列按照上述拾音波束的形成参数持续的发出指向性的拾音波束，使拾音波束指向上述用户，在该用户发出语音信号时，拾音波束可立即收集到用户发出的语音信号。

对拾音波束所收集到的语音信号进行处理和识别其中的语音命令，根据语音命令对语音识别设备进行控制，如空调、冰箱、电视等具有语音识别功能的设备。

在本实施例中，通过人体信息检测设备获取语音识别设备作用空间内用户的位置，根据获取到的用户的位置确定拾音波束的形成参数，按照确定的拾音波束的形成参数形成拾音波束，拾音波束指向用户，以通过拾音波束收集用户发出的语音信号，无需依靠用户发出的语音对用户进行定位，可提高拾音波束方向的准确性，减少其他方向上噪声的影响，以增加语音识别在噪声场景中应用的可靠性。

进一步的，参照图4，在语音识别设备作用空间内用户为多个时，语音信号捕获方法包括以下步骤：

步骤S40，获取每个用户的位置；

步骤S50，根据各所述用户的位置分别确定对应的拾音波束的形成参数；

步骤S60，按照确定的形成参数分别形成拾音波束，形成的拾音波束分别指向每个用户，以通过所述形成的拾音波束收集各所述用户发出的语音信号。

当语音识别设备作用空间内用户为多个(2个或2个以上)时，获取作用空间内用户的数量，这里的用户可以是所有用户，可为特定用户，并且获取每个用户的所在位置。

根据每个用户的位置分别确定一个与该用户的位置对应的拾音波束的形成参数。根据获取到的多个用户的位置对应确定有多个拾音波束的形成参数。每个用户所在位置所对应的拾音波束的形成参数具体根据每个用户各自所在的位置进行确定，这里的形成参数可具体为数量、方向、强度、宽度等。

需要说明的是，每个用户可对应一个或多个拾音波束，一个拾音波束可指向一个用户或多个用户，具体可根据实际需求进行设置。在相邻的用户的距离小于或等于预设距离时，该相邻的用户可共用同一个的拾音波束，在相邻的用户的距离大于预设距离时，该相邻的用户分别独立使用两个或两个以上的拾音波束，只需以保证拾音波束可指向每个用户即可。每个用户的位置对应确定指向该用户的拾音波束的形成方向及形成数量，保证拾音波束可指向作用空间内的每个用户。

在多个与用户位置对应的拾音波束的形成参数确定后，控制麦克风阵列按照确定的形成参数分别形成拾音波束，使形成的拾音波束可分别指向每个用户，在其中一个或几个用户发出语音信号时，拾音波束可立即收集到用户所发出的语音信号。

在本实施例中，在语音识别设备作用空间内用户为多个时，获取每个用户的位置，根据各所述用户的位置分别确定对应的拾音波束的形成参数，按照确定的形成参数分别形成拾音波束，形成的拾音波束分别指向每个用户的位置，以通过形成的拾音波束收集每个用户发出的语音信号，通过此方式，可保证在语音识别设备作用空间内用户为多个时，无需依靠用户发出的语音对用户进行定位，便可对作用空间内的多个用户的位置进行确定，可提高每个拾音波束方向的准确性，减少其他方向上噪声的影响，以增加语音识别在噪声场景中应用的可靠性。

进一步的，参照图5，所述根据各所述用户的位置分别确定对应的拾音波束的形成参数的步骤之前，还包括:

步骤S01，获取各所述用户的特征信息；

步骤S02，获取各所述用户的特征信息之间的差异；

步骤S03，根据获取的特征信息差异，确定各所述用户的位置对应的拾音波束的优先级；

步骤S51，根据各所述用户的位置及其对应的拾音波束的优先级，分别确定对应的每个拾音波束的形成参数。

其中，用户的特征信息可包括用户的面部朝向、用户的口部特征、用户的眼睛等可用于判定用户使用语音识别设备的可能性大小的用户特征信息。

通过人体信息检测模块获取语音识别设备作用空间内的每个用户的图像，对所获取的用户图像的图像特征进行分析并判定每个用户的面部朝向、用户的口部特征信息等。

获取每个用户的面部朝向的差异，根据获取到的面部朝向的差异确定分别指向每个用户所在位置的拾音波束的优先级。具体的，判断用户的面部朝向相对于语音识别设备的角度，定义面部朝向正对语音识别设备时的角度为0度，用户的面部朝向相对于语音识别设备的角度越小，表明对应的用户使用语音识别设备的可能性越高，则拾音波束的优先级对应的越高。通过将语音识别设备作用空间内的每个用户的面部朝向相对于语音识别设备的角度的大小进行比较、排序，便可对应确定每个用户所对应的拾音波束的优先级的高低。

获取每个用户口部特征的的差异，根据获取到的用户的口部特征的差异确定分别指向每个用户所在位置的拾音波束的优先级。具体的判断获取的图像中用户嘴唇的完整度，完整度越高，表明对应的用户使用语音识别设备的可能性越高，则拾音波束的优先级应对应的越高。通过将语音识别设备作用空间内的每个用户的嘴唇的完整度进行比较、排序，便可对应确定每个用户的位置所对应的拾音波束的优先级的高低。

结合每个用户的位置和上述确定的指向该位置的拾音波束的优先级高低，可确定每个指向用户所在位置的拾音波束的形成参数。其中，根据拾音波束的优先级可对应确定拾音波束的强度或宽度等形成参数，优先级越高拾音波束的强度或宽度越大。

通过结合用户的位置以及上述确定的拾音波束的优先级，确定每个用户的位置对应的的拾音波束的形成参数，根据确定的形成参数分别形成拾音波束，可从多个用户中筛选出更有可能对语音识别设备进行控制的目标用户并获取其语音信号进行识别，以获得准确有效的语音识别指令，提高语音识别设备语音识别设备的准确度。其中，使用用户的面部朝向、用户的口部特征信息等对用户使用语音识别设备的可能性大小进行判断，可适应于用户的常用习惯直观判定多个用户中对语音识别设控制的用户。

进一步的，参照图6，所述根据各每个用户的位置及其对应的拾音波束的优先级，确定对应的拾音波束的形成参数的步骤之前，还包括：

步骤S04，获取各所述用户与所述语音识别设备之间的距离；

步骤S05，获取各所述距离之间的差异；

步骤S06，根据获取的距离差异，确定各所述用户的位置对应的拾音波束的优先级；

步骤S52，根据各所述用户的位置及其对应的拾音波束的优先级，确定对应的拾音波束的形成参数。

其中，用户与语音识别设备之间的距离的差异可用于判定用户使用语音识别设备的可能性大小，该距离可通过获取到各个用户所在位置后通过计算得到。将每个用户与语音识别设备之间的距离大小进行比较，得到每个用户距离之间的大小差异，根据所得到的大小差异可对应确定分别指向用户所在位置的拾音波束的优先级。具体的，可定义距离越近，用户使用语音识别设备的可能性越大，则对应指向相应的用户的位置的拾音波束的优先级应越高。

通过结合用户的位置以及上述确定的拾音波束的优先级来确定指向每个用户的位置的拾音波束的形成参数，根据确定的形成参数分别形成拾音波束，可从多个用户中筛选出更有可能对语音识别设备进行控制的目标用户并获取其语音信号进行识别，以获得准确有效的语音识别指令，提高语音识别设备语音识别设备的准确度。其中，使用用户与语音识别设备之间的距离大小来对用户使用语音识别设备的可能性大小进行判断，可使用同一个检测设备在获取到用户位置的同时得到用户的距离数据，简单方便地实现对多个用户中对语音识别设控制的用户进行判定，无需添加其他的检测设备。

需要说明的是，根据实际使用需求，用户的位置所对应的拾音波束的优先级还可结合用户的特征信息以及与语音识别设备之间的距离，按照一定的权重进行确定。

具体的，参照图7，所述形成参数包括形成方向和形成强度，所述根据各所述用户的位置及其对应的拾音波束的优先级，确定对应的拾音波束的形成参数的步骤包括：

步骤S53，根据各所述用户的位置确定指向相应位置的拾音波束的形成方向；

步骤S54，根据各所述优先级确定指向相应位置的拾音波束的形成强度。

根据每个用户的位置确定对应的拾音波束的形成方向，使拾音波束指向每个用户，在此基础上，通过每个拾音波束的优先级，可确定指向相应位置的拾音波束的形成强度。通过上述方式，可实现从多个用户中筛选出更有可能对语音识别设备进行控制的目标用户后，有效的获取到目标用户发出的语音信号，使目标用户的语音指令可优先对语音识别设备进行控制。

进一步的，所述按照所述拾音波束的形成参数形成拾音波束的步骤之后，还包括：

语音识别设备的作用空间内用户的数量和/或位置发生改变，如用户移动到别的位置、用户离开语音识别设备的作用空间或存在新增的用户进入语音识别设备的作用空间内。此时，根据改变的用户的数量和/或位置调整拾音波束的形成参数，如用户的数量增大时对应的增多拾音波束的形成数量，用户的数量减少时对应的减少拾音波束的形成数量，用户的位置移动时对应的改变拾音波束的形成方向、强度或宽度等。

通过上述方式，可形成追踪用户的拾音波束，无论语音识别设备的作用空间内用户的数量和/或位置发生改变，均可形成指向每个用户的拾音波束以获取语音信号，提高语音信号识别设备适应不同场景使用的灵活性。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音信号捕获方法，其特征在于，所述语音信号捕获方法包括以下步骤：

获取语音识别设备作用空间内用户的位置；

根据所述用户的位置确定拾音波束的形成参数；

按照所述拾音波束的形成参数形成拾音波束，所述拾音波束指向所述用户，以通过所述拾音波束收集所述用户发出的语音信号；

当所述语音识别设备作用空间内的用户为多个时，获取每个用户的位置；

获取各所述用户的特征信息，和/或各所述用户与所述语音识别设备之间的距离；

获取各所述用户的特征信息之间和/或各所述距离之间的差异；

根据获取的特征信息差异和/或距离差异，确定各所述用户的位置对应的拾音波束的优先级；

根据各所述用户的位置及其对应的拾音波束的优先级，分别确定对应的拾音波束的形成参数；所述形成参数包括形成方向和形成强度，根据各所述用户的位置确定指向相应位置的拾音波束的形成方向；根据各所述优先级确定指向相应位置的拾音波束的形成强度；

2.如权利要求1所述的语音信号捕获方法，其特征在于，所述用户的特征信息包括用户的面部朝向或用户的口部特征信息。

3.如权利要求1至2中任一项所述的语音信号捕获方法，其特征在于，所述按照所述拾音波束的形成参数形成拾音波束的步骤之后，还包括：

4.一种语音信号捕获装置，其特征在于，所述语音信号捕获装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音信号捕获程序，所述语音信号捕获程序被所述处理器执行时实现如权利要求1至3中任一项所述的语音信号捕获方法的步骤。

5.一种语音识别设备，其特征在于，所述语音识别设备包括如权利要求4所述的语音信号捕获装置。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音信号捕获程序，所述语音信号捕获程序被处理器执行时实现如权利要求1至3中任一项所述的语音信号捕获方法的步骤。