CN107221324B

CN107221324B - 语音处理方法及装置

Info

Publication number: CN107221324B
Application number: CN201710652375.XA
Authority: CN
Inventors: 蒋化冰; 朱一菁; 郝明瑞; 罗承雄; 谭舟; 梁兰; 徐志强; 严婷; 郦莉
Original assignee: Shanghai Zhihuilin Medical Technology Co ltd
Current assignee: Shanghai Noah Wood Robot Technology Co ltd
Priority date: 2017-08-02
Filing date: 2017-08-02
Publication date: 2021-03-16
Anticipated expiration: 2037-08-02
Also published as: CN107221324A

Abstract

本发明涉及语音识别技术领域，尤其涉及一种语音处理方法及装置。本发明解决现有技术中，对非用户发出的音频信号进行识别的技术问题。本发明提供的语音处理方法包括：在采集音频信号的过程中，对音频信号所在方向上的用户拍摄多张图像；从多张图像中，识别用户的唇部动作频率；根据唇部动作频率，处理音频信号。本发明提供的方法可以准确辨别用户发出的音频信号和非用户发出的音频信号，进而解决了音频信号误识别的技术问题。

Description

语音处理方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音处理方法及装置。

背景技术

随着语音识别技术的发展，可以向具有语音识别功能的语音识别设备发送音频信号。语音识别设备可以识别接收到的音频信号，进而根据识别结果进行相应的操作。

现有技术中，语音识别设备难以辨别用户发出的音频信号和非用户发出的音频信号，例如语音识别设备难以辨别用户发出的音频信号和电视中的人声、歌曲等音频信号。因此，如果语音识别设备接收到非用户发出的音频信号，也会识别接收到的音频信号，从而导致音频信号误识别。

发明内容

本发明的多个方面提供一种语音处理方法及装置，用以解决现有技术中，对非用户发出的音频信号进行识别的技术问题。

本发明实施例提供一种语音处理方法，包括：

在采集音频信号的过程中，对所述音频信号所在方向上的用户拍摄多张图像；

从所述多张图像中，识别所述用户的唇部动作频率；

根据所述唇部动作频率，处理所述音频信号。

可选地，所述根据所述唇部动作频率，处理所述音频信号，包括：

若所述唇部动作频率在吐字频率范围之内，对所述音频信号进行语音识别；或者

若所述唇部动作频率在吐字频率范围之外，丢弃所述音频信号。

可选地，所述在采集音频信号的过程中，对所述音频信号所在方向上的用户拍摄多张图像，包括：

在采集音频信号的过程中，在所述音频信号所在方向所属的区域范围内拍摄初始图像；

根据所述初始图像确定所述音频信号所在方向上存在所述用户；

对所述音频信号所在方向上的所述用户拍摄所述多张图像。

可选地，所述从所述多张图像中，识别所述用户的唇部动作频率，包括：

识别所述多张图像中每张图像里面所述用户的唇部动作状态；

根据每张图像里面所述用户的唇部动作状态以及所述多张图像的拍摄时间，计算所述用户的唇部动作频率。

可选地，所述用户的唇部动作状态为张开状态或闭合状态；

所述根据每张图像里面所述用户的唇部动作状态以及所述多张图像的拍摄时间，计算所述用户的唇部动作频率，包括：

根据每张图像里面所述用户的唇部动作状态，统计所述用户的唇部在张开状态和闭合状态之间的变化次数；

根据所述变化次数和所述多张图像的拍摄时间，计算所述用户的唇部开合频率。

可选地，所述识别所述多张图像中每张图像里面所述用户的唇部动作状态，包括：

通过预先训练的图像分类器，识别出每张图像的状态类别，所述状态类别包括张开态或闭合态；

根据每张图像的状态类别，确定每张图像中所述用户的唇部动作状态为张开状态或闭合状态；

其中，所述张开态是指图像中所述用户的唇部特征点符合张开条件的图像状态，所述闭合态是指图像中所述用户的唇部特征点符合闭合条件的图像状态。

本发明实施例还提供一种语音处理装置，包括：

拍摄模块，用于在采集音频信号的过程中，对所述音频信号所在方向上的用户拍摄多张图像；

识别模块，用于从所述多张图像中，识别所述用户的唇部动作频率；

处理模块，用于根据所述唇部动作频率，处理所述音频信号。

可选地，所述处理模块，具体用于：

可选地，所述拍摄模块，具体用于：

对所述音频信号所在方向上的所述用户拍摄所述多张图像。

可选地，所述识别模块包括：

状态识别单元，用于识别所述多张图像中每张图像里面所述用户的唇部动作状态；

频率计算单元，用于根据每张图像里面所述用户的唇部动作状态以及所述多张图像的拍摄时间，计算所述用户的唇部动作频率。

在本发明实施例中，通过在采集音频信号的过程中，对音频信号所在方向上的用户拍摄多张图像；再根据多张图像中用户的唇部动作频率，处理音频信号，使得在采集音频信号的过程中，能够根据用户的唇部动作频率判断音频信号所在方向上的用户是否处于发声状态，从而可以准确辨别音频信号为用户发出的音频信号还是非用户发出的音频信号，进而对音频信号进行相应地处理，解决了现有技术中音频信号误识别的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一实施例提供的语音处理方法的流程示意图；

图2为本发明又一实施例提供的语音处理方法的流程示意图；

图3为本发明又一实施例提供的语音处理装置的模块结构图；

图4为本发明又一实施例提供的语音处理装置的模块结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合附图，详细说明本发明各实施例提供的技术方案。

图1为本发明一实施例提供的语音处理方法的流程示意图。如图1所示，该方法包括以下步骤。

S101：在采集音频信号的过程中，对音频信号所在方向上的用户拍摄多张图像。

S102：从多张图像中，识别用户的唇部动作频率。

S103：根据唇部动作频率，处理音频信号。

在步骤S101中，通过音频信号采集设备监听音频信号，当监听到音频信号时，对音频信号进行采集。在采集音频信号的过程中，可以对音频信号所在方向上的用户拍摄多张图像。其中，多张图像可以指至少两张图像。

可选地，音频信号采集设备可以独立存在，也可以集成到其他设备中。例如，环形麦克分阵列属于独立存在的音频信号采集设备，具备语音识别功能的机器人、手机等设备则集成了音频信号采集设备。基于此，可以在独立的音频信号采集设备上，或者具有语音识别功能的设备上安装图像拍摄设备，进而通过图像拍摄设备对音频信号所在方向上的用户拍摄多张图像。

可选地，图像拍摄设备包括但不限于摄像头、相机、图像扫描器等。

可选地，在音频信号采集设备开始采集音频信号时，通过图像采集设备对音频信号所在方向上的用户拍摄多张图像。在音频信号采集设备停止采集音频信号时，停止拍摄操作。这样，可以实现在同一时间段采集音频信号和拍摄多张图像。

为了对音频信号所在方向上的用户拍摄图像，可以采用声源定位技术，定位出音频信号所在方向，进而对音频信号所在方向上的用户拍摄多张图像。其中，声源定位技术包括但不限于基于可控波束形成器的源定位技术、基于高分辨率谱估计的源定位技术、基于时延估计的源定位技术等。

其中，多张图像是识别用户的唇部动作频率的依据。为了准确识别用户的唇部动作频率，优选地，可以在采集音频信号的过程中，连续拍摄多张图像。也可以在采集音频信号的过程中，间隔指定时间，对音频信号所在方向上的用户拍摄多张图像。

人在发声时与人不发声时，唇部的动作频率是不同的。例如，人在说“点歌”、“我在上班路上”时唇部的动作频率较快，人在闭嘴或者打哈欠时，唇部的动作频率较慢或者几乎为零。基于此，可以从多张图像中，识别用户的唇部动作频率；进而根据唇部动作频率，处理音频信号。

可选地，可以根据唇部动作频率判断用户是否处于发声状态。若判断出用户处于发声状态，则音频信号为用户的语音信号，进而对音频信号进行语音识别；

若根据唇部动作频率判断出用户不处于发声状态，则音频信号不是用户的语音信号，进而不对音频信号进行语音识别。

本实施例中，通过在采集音频信号的过程中，对音频信号所在方向上的用户拍摄多张图像；再根据多张图像中用户的唇部动作频率，处理音频信号，使得在采集音频信号的过程中，能够根据用户的唇部动作频率判断音频信号所在方向上的用户是否处于发声状态，从而可以准确辨别音频信号为用户发出的音频信号还是非用户发出的音频信号，进而对音频信号进行相应地处理，解决了现有技术中音频信号误识别的技术问题。

在上述实施例或下述实施例中，根据唇部动作频率，处理音频信号，包括以下两种实施方式。

第一种实施方式：若唇部动作频率在吐字频率范围之内，对音频信号进行语音识别。

第二种实施方式：若唇部动作频率在吐字频率范围之外，丢弃音频信号。

可选地，吐字频率可以指人们在说话时，发出单音节或者单字的频率。以中文为例，一秒钟的时间内发出2个单字，则吐字频率为2个/秒。考虑到有的人吐字频率快、有的人吐字频率慢，可以设置一吐字频率范围，例如0.5个/秒～4个/秒。吐字频率范围为人们处于发声状态时最大的吐字频率与最小的吐字频率之间的频率范围。

一般来说，人们每发出一个字，唇部就会动作一次。基于此，可以比较唇部动作频率和吐字频率范围。若唇部动作频率在吐字频率范围之内，意味着用户处于发声状态。此时，采集的音频信号可以认为是用户发出的音频信号，则对音频信号进行语音识别。

若唇部动作频率在吐字频率范围之外，也就是唇部动作频率小于吐字频率范围的最小值，或者唇部动作频率大于吐字频率范围的最大值时，意味着用户在打哈欠或唇部抽搐，不处于发声状态，进而音频信号为非用户发出的音频信号，则丢弃音频信号，不对音频信号进行语音识别。

本实施例中，通过将唇部动作频率与吐字频率范围相比，进而能够准确辨别音频信号是否为用户发出的音频信号，进而识别或丢弃音频信号。

在上述实施例或下述实施例中，在采集音频信号的过程中，可以首先判定音频信号所在方向上存在用户，进而对音频信号所在方向上的用户拍摄多张图像。

首先，在采集音频信号的过程中，在音频信号所在方向所属的区域范围内拍摄初始图像；根据初始图像确定音频信号所在方向上存在用户；对音频信号所在方向上的用户拍摄多张图像。

在图像拍摄设备来说，有些可以360度全景拍摄，但大部分的图像拍摄设备的视角小于360度，只能拍摄到部分空间图像。为了能够拍摄到用户，可以定位音频信号所在方向，进而对音频信号所在方向所属的区域范围内拍摄初始图像。

可选地，音频信号所在方向所属的区域范围可以指以音频信号所在方向为中心，以指定距离为半径的球体区域。

初始图像用于判断该区域范围内是否存在用户。可选地，通过图像识别技术，识别初始图像中是否存在用户图像。若存在，则判定音频信号所在方向上存在用户；若不存在，则判定音频信号所在方向上不存在用户。

当音频信号所在方向上存在用户时，根据用户图像在初始图像上的位置，确定用户在音频信号所在方向所属的区域范围内的位置，进而对音频信号所在方向上的用户拍摄多张图像。

当音频信号所在方向上不存在用户时，可以认为采集到的音频信号为非用户发出的音频信号，并丢弃该音频信号。进一步地，可以停止拍摄图像。当然，考虑到用户可能暂时离开或者不久后出现在音频信号所在方向上，则可以以低于拍摄多张图像的频率继续拍摄音频信号所在方向所属的区域范围内的初始图像，直到停止采集音频信号。

在上述实施例或下述实施例中，唇部的动作频率可以为唇部的动作状态变化的频率。基于此，从多张图像中，识别用户的唇部动作频率包括：识别多张图像中每张图像里面用户的唇部动作状态；根据每张图像里面用户的唇部动作状态以及多张图像的拍摄时间，计算用户的唇部动作频率。

可选地，可以通过人脸识别技术从每张图像里面识别出正面面部图像，进而分析正面面部图像，以得到用户的唇部特征点。然后，从唇部特征点中，提取唇部的形状、轮廓等信息。再根据唇部的形状、轮廓等信息确定唇部运动状态。

可选地，唇部运动状态包括但不限于抿嘴状态、打开状态、缩起状态、撅起状态等。

然后，根据每张图像里面用户的唇部动作状态，统计唇部动作状态之间的变化次数。在一示例中，在采集音频的过程中，共拍摄3张图像。第1张图像中用户的唇部动作状态为抿嘴状态，第二张图像中用户的唇部动作状态为撅起状态，第三张图像中用户的唇部动作状态为打开状态。经统计，在采集音频的过程中，唇部动作状态变化了两次。

在统计出多张图像中，唇部动作状态之间的变化次数后，结合多张图像的拍摄时间，计算用户的唇部动作频率。在一示例中，在采集音频的过程中，拍摄3张图像。唇部动作状态之间的变化次数为3次，3张图像的拍摄时间为1秒。则唇部动作频率为3次/秒。

在上述实施例或下述实施例中，唇部动作状态可以大体归纳为张开状态或闭合状态。基于此，可以识别多张图像中每张图像里面用户唇部的张开状态或闭合状态；然后，根据每张图像里面用户唇部的张开状态或闭合状态，以及多张图像的拍摄时间，计算用户的唇部动作频率。

图2为本发明又一实施例提供的语音处理方法的流程示意图。如图2所示，该方法包括以下步骤：

S201：在采集音频信号的过程中，对音频信号所在方向上的用户拍摄多张图像。

S202：通过预先训练的图像分类器，识别出每张图像的状态类别，状态类别包括张开态或闭合态。

S203：根据每张图像的状态类别，确定每张图像中用户的唇部动作状态为张开状态或闭合状态。

S204：根据每张图像里面用户的唇部动作状态，统计用户的唇部在张开状态和闭合状态之间的变化次数。

S205：根据变化次数和多张图像的拍摄时间，计算用户的唇部开合频率。

S206：根据唇部动作频率，处理音频信号。

步骤S201与步骤S101相同，此处不再赘述。

在拍摄多张图像之后，可以通过预先训练的图像分类器识别出每张图像的状态类别，状态类别包括张开态或闭合态(即步骤时S202)。其中，张开态是指图像中用户的唇部特征点符合张开条件的图像状态，闭合态是指图像中用户的唇部特征点符合闭合条件的图像状态。

可选地，张开条件指唇部的开合幅度大于张开阈值；闭合条件指唇部的开合幅度小于闭合阈值。其中，可以根据唇部特征点确定唇部轮廓，进而根据唇部轮廓得到唇部的开合幅度。

在使用图像分类器识别每张图像的状态类别之前，可以先训练图像分类器。可选地，可以将唇部特征点符合张开条件的图像标记为张开态，将唇部特征点符合闭合条件的图像标记为闭合态。

然后，将张开态和闭合态的图像作为训练集，训练图像分类器，直到图像分类器对图像状态进行识别的准确率达到指定比率，例如95％。

其中，图像分类器可以包括但不限于支持向量机(Support Vector Machine，SVM)分类器、深度神经网络分类器、朴素贝叶斯分类器等。开发人员可以根据拍摄图像的数据量、分类的实时性要求、硬件性能等因素综合选择合适的图像分类器。

在使用图像分类器识别每张图像的状态类别时，可以首先识别用户的正面面部图像；然后从正面面部图像中，提取唇部特征点；再根据唇部特征点，将每张图像的状态类别分类为张开态或闭合态。

接着，根据每张图像的状态类别，确定每张图像中用户的唇部动作状态为张开状态或闭合状态(即步骤S203)。也就是，若图像的状态类别为张开态，则该图像中用户的唇部动作状态为张开状态；若图像的状态类别为闭合态，则该图像中用户的唇部动作状态为闭合状态。

接着，根据每张图像里面用户的唇部动作状态，统计用户的唇部在张开状态和闭合状态之间的变化次数(即步骤S204)，进而，根据变化次数和多张图像的拍摄时间，计算用户的唇部开合频率(即步骤S205)。

在一示例中，在采集音频信号的过程中，拍摄4张图像。每张图像的用户的唇部动作状态依次为张开状态、张开状态、闭合状态、张开状态。经统计，用户的唇部在张开状态和闭合状态之间的变化次数为2次。结合4张图像的拍摄时间1秒，计算出用户的唇部开合频率为2次/秒。

接着，根据唇部动作频率，处理音频信号(即步骤S206)。步骤S206与步骤S203相同，此处不再赘述。

本发明实施例还提供一种语音处理装置300，如图3所示，包括：拍摄模块301、识别模块302以及处理模块303。

拍摄模块301，用于在采集音频信号的过程中，对音频信号所在方向上的用户拍摄多张图像。

识别模块302，用于从拍摄模块301拍摄的多张图像中，识别用户的唇部动作频率。

处理模块303，用于根据识别模块302识别出的唇部动作频率，处理音频信号。

可选地，处理模块303在根据识别模块302识别出的唇部动作频率，处理音频信号时，具体用于：若唇部动作频率在吐字频率范围之内，对音频信号进行语音识别；或者若唇部动作频率在吐字频率范围之外，丢弃音频信号。

可选地，拍摄模块301在在采集音频信号的过程中，对音频信号所在方向上的用户拍摄多张图像时，具体用于：在采集音频信号的过程中，在音频信号所在方向所属的区域范围内拍摄初始图像；根据初始图像确定音频信号所在方向上存在用户；对音频信号所在方向上的用户拍摄多张图像。

可选地，如图4所示，识别模块302包括状态识别单元3021和频率计算单元3022。

其中，状态识别单元3021，用于识别多张图像中每张图像里面用户的唇部动作状态；

频率计算单元3022，用于根据每张图像里面用户的唇部动作状态以及多张图像的拍摄时间，计算用户的唇部动作频率。

可选地，频率计算单元3022具体用于根据每张图像里面用户的唇部动作状态，统计用户的唇部在张开状态和闭合状态之间的变化次数；根据变化次数和多张图像的拍摄时间，计算用户的唇部开合频率。其中，用户的唇部动作状态为张开状态或闭合状态。

可选地，状态识别单元3021，具体用于通过预先训练的图像分类器，识别出每张图像的状态类别，状态类别包括张开态或闭合态；根据每张图像的状态类别，确定每张图像中用户的唇部动作状态为张开状态或闭合状态；其中，张开态是指图像中用户的唇部特征点符合张开条件的图像状态，闭合态是指图像中用户的唇部特征点符合闭合条件的图像状态。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种语音处理方法，用于辨别用户发出的音频信号和非用户发出的音频信号，其特征在于，包括：

从所述多张图像中，识别所述用户的唇部动作频率；

根据所述唇部动作频率，处理所述音频信号；

所述根据所述唇部动作频率，处理所述音频信号，包括：

2.根据权利要求1所述的方法，其特征在于，所述在采集音频信号的过程中，对所述音频信号所在方向上的用户拍摄多张图像，包括：

对所述音频信号所在方向上的所述用户拍摄所述多张图像。

3.根据权利要求1所述的方法，其特征在于，所述从所述多张图像中，识别所述用户的唇部动作频率，包括：

4.根据权利要求3所述的方法，其特征在于，所述用户的唇部动作状态为张开状态或闭合状态；

5.根据权利要求4所述的方法，其特征在于，所述识别所述多张图像中每张图像里面所述用户的唇部动作状态，包括：

6.一种语音处理装置，用于辨别用户发出的音频信号和非用户发出的音频信号，其特征在于，包括：

处理模块，用于根据所述唇部动作频率，处理所述音频信号；

所述处理模块，具体用于：

7.根据权利要求6所述的装置，其特征在于，所述拍摄模块，具体用于：

对所述音频信号所在方向上的所述用户拍摄所述多张图像。

8.根据权利要求6所述的装置，其特征在于，所述识别模块包括：