CN107437420A

CN107437420A - 语音信息的接收方法、系统及装置

Info

Publication number: CN107437420A
Application number: CN201610368408.3A
Authority: CN
Inventors: 张玉
Original assignee: Shenzhen Yuzhan Precision Technology Co ltd; Hon Hai Precision Industry Co Ltd
Current assignee: Shenzhen Yuzhan Precision Technology Co ltd; Hon Hai Precision Industry Co Ltd
Priority date: 2016-05-27
Filing date: 2016-05-27
Publication date: 2017-12-05
Also published as: TWI678696B; US20170345437A1; TW201801069A

Abstract

本发明涉及语音信息的接收方法、系统及装置。该语音信息的接收方法包括步骤：利用所述麦克阵列采集一第一语音信息并将所采集到的第一语音信息转化为一第一语音信号及利用一摄像单元采集一用户的多个嘴部图像，其中，所述第一语音信息包括一目标语音及环境背景语音；将所述第一语音信号与一预设的语音信号进行比较，并根据比较结果确定一目标语音信号；获取所述麦克阵列中的不同麦克采集所述目标语音信号的延迟时间；根据所获取的延迟时间，计算所述目标语音信号的声源的位置；利用所述麦克阵列采集一第二语音信息并将所接收到的第二语音信息转化为一第二语音信号；及根据所计算出的目标语音信息的声源的位置对所述第二语音信号进行降噪处理。

Description

语音信息的接收方法、系统及装置

技术领域

本发明涉及语音信号的降噪处理技术领域，具体涉及一种语音信息的接收方法、系统及装置。

背景技术

随着技术的发展，手机等电子产品已成为人们日常生活中不可或缺的工具。为了保证在嘈杂的环境下，通话时对方能不被噪音影响，通常会对手机所接收到的语音信息进行降噪处理。

现有技术中，降噪方法为双mic(麦克)降噪方法。这种方法会用到两个麦克风，其中一麦克风被设定为接收主要语音，另一麦克风被设定为接收非主要语音，其中，该接收主要语音的麦克风设置在更靠近用户的位置，而接收非主要语音设置在距离用户更远的位置。将这两个麦克风分别连接至噪音消除器。该噪音消除器根据接收非主要语音的麦克风所接收到的语音信号来消除接收主要语音的麦克风所接收到的语音信号中的噪音部分，以获得较清楚的语音信号。

然而，在实际应用中，不见得用户就距离一麦克风近而距离另一麦克风远。因此，现有技术中的上述方法并不能确保通话的对方一定能接收到清楚的语音信号。

发明内容

有鉴于此，有必要提供一种语音信息的接收方法、系统及装置，以解决上述问题。

为达到上述目的，本发明所提供的语音信息的接收方法，适用于一语音采集装置，所述语音采集装置配置有麦克阵列。所述语音信息的接收方法包括以下步骤：

利用所述麦克阵列采集一第一语音信息并将所采集到第一语音信息转化为一第一语音信号及利用一摄像单元采集一用户的多个嘴部图像，其中，所述第一语音信息包括目标语音及环境背景语音；

将所述第一语音信号与一预设的语音信号进行比较，并根据比较结果确定一目标语音信号；

获取所述麦克阵列中的不同麦克采集所述目标语音信号的延迟时间；

根据所获取的延迟时间，计算所述目标语音信号的声源的位置；

利用所述麦克阵列采集一第二语音信息并将所接收到第二语音信息转化为一第二语音信号；及

根据所计算出的目标语音信息的声源的位置对所述第二语音信号进行降噪处理。

进一步地，所述麦克阵列中至少包括2个分布在所述语音采集装置的不同位置的麦克。

进一步地，所述声源的位置为声源距离所述麦克的距离及方位。进一步地，步骤“根据所计算出的目标语音信息的声源的位置对采集到的第二语音信号进行降噪处理”具体为：

将所述第二语音信号中来自所述声源的语音信号传递给语音传送通道及将第二语音信号中非来自所述声源的语音信号传递给杂音传送通道；及

根据杂音传送通道中的语音信号降低语音传送通道中的目标语音信号中的杂音信号。

进一步地，步骤“根据所计算出的目标语音信号的声源的位置对采集到的第二语音信号进行降噪处理”具体为：

根据声源距离所述麦克的距离确定所述目标语音信息的振幅区间；及

从所述第二语音信号中虑除掉振幅区间不在所述目标语音信息的振幅区间内的语音信息。

进一步地，所述预设的语音信号为预先存储的一用户的语音信号。进一步地，步骤“将所采集到的语音信息与一预设的语音信息进行比较，并根据比较结果确定一目标语音”具体为：

将采集到的语音信息的频率区间与所述用户的语音信息的频率区间进行比较；

当采集到的语音信息的频率区间落在所述预设的用户的语音信号的频率区间内时，判断所述采集到的语音信息中包含了一目标语音信息，该目标语音信息由所述用户发出。

进一步地，步骤“将所采集到的语音信息与一预设的语音信息进行比较，并根据比较结果确定一目标语音”具体为：

将采集到的语音信息的振幅区间与所述用户的语音信息的振幅区间进行比较；

当采集到的语音信息的振幅区间落在所述用户的语音信息的振幅区间内时，判断该采集到的语音信息中包含了一目标语音信息，该目标语音信息由所述用户发出。

本发明所提供的语音信息的接收系统，运行于一语音采集装置。所述语音采集装置配置有麦克阵列。所述语音信息的接收系统包括：

一采集模块，用于利用所述麦克阵列采集一第一语音信息并将所采集到第一语音信息转化为一第一语音信号及利用一摄像单元采集一用户的多个嘴部图像，其中，所述第一语音信息包括一目标语音及环境背景语音；一确定模块，用于将所述第一语音信号与一预设的语音信号进行比较，并根据比较结果确定一目标语音信号；

一计时模块，用于获取所述麦克阵列中的不同麦克采集所述目标语音信号的延迟时间；

一计算模块，用于根据所获取的延迟时间计算所述目标语音信号的声源的位置；

所述采集模块，还用于利用所述麦克阵列采集一第二语音信号并将所接收到第一语音信息转化为一第二语音信号；及

一降噪模块，用于根据所计算出的目标语音信息的声源的位置对所述第二语音信号进行降噪处理。

此外，本发明所提供的语音信息的采集装置，配置有麦克阵列及一语音信息的接收系统。所述语音信息的接收系统包括：

一采集模块，用于利用所述麦克阵列采集一第一语音信息并将所采集到第一语音信息转化为一第一语音信号及利用一摄像单元采集一用户的多个嘴部图像，其中，所述第一语音信息包括一目标语音及环境背景语音；

一确定模块，用于将所述第一语音信号与一预设的语音信号进行比较，并根据比较结果确定一目标语音信号；

相对于现有技术，本发明所提供的语音信号的接收方法与系统通过对所述目标声源进行定位，以提高接收到的语音信号的质量，以便接收到清楚的语音信息。

附图说明

图1为本发明一实施方式中的语音信息的接收系统所运行的硬件环境的示意图。

图2为图1中语音信息的接收系统的功能模块示意图。

图3为本发明一实施方式中语音信息的接收方法的步骤流程图。主要元件符号说明

以下具体实施方式将结合上述附图进一步说明本发明。应当理解，以下所说明的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

具体实施方式

如图1所示，其示出了本发明一实施方式中的语音信息的接收系统10所运行的硬件环境的示意图。在本实施方式中，该语音信息的接收系统10安装并运行于一语音采集装置20中。在本实施方式中，该语音采集装置20为手机。在另一实施方式中，该语音采集装置20为平板电脑、录音笔、电话等。在其他实施方式中，语音信息的接收系统10安装并运行于一由多个语音采集装置20所构成的通话或电话会议系统中。

所述语音采集装置20还包括，但不限于，一麦克阵列21、一存储器22、一控制器23及一摄像单元24。所述麦克阵列21用于接收语音信息。在本实施方式中，麦克阵列21至少包括2个分布在语音采集装置20的不同位置的麦克。所述存储器22可以是语音采集装置20本身的内存，也可以是安全数字卡、智能媒体卡、快闪存储器卡等外部存储设备，用于存储所述语音信息的接收系统10的程序代码及其他数据。在本实施方式中，存储器22中预先存储有目标用户的语音信息。该预先存储的语音信息用于确定麦克阵列21所接收的语音信息中是否包含有该目标用户的语音信息(以下简称目标语音信息)。在另一实施方式中，存储器22还预先存储有用户说话时的不同嘴型的图像。如，用户说话时嘴型呈张开状的图像。所述控制器23用于控制所述语音采集装置20工作。所述控制器23可为中央处理器(Central ProcessingUnit,CPU)、微处理器(Micro Processing Unit,MPU)、数字信号处理器(Digital Signal Processor,DSP)或可编程逻辑阵列(Field-Programmable Gate Array,FPGA)等。摄像单元24用于拍摄用户嘴部的图像。在本实施方式中，该摄像单元24设置在距离所述麦克阵列21一预设距离范围内如2cm。在其他实施方式中，摄像单元24还可拍摄用户嘴部的视频。

所述语音信息的接收系统10通过利用麦克阵列21采集一第一语音信息并将所接收到第一语音信息转化为一第一语音信号。其中，所述第一语音信息包括目标语音及环境背景语音。所述语音信息的接收系统10在接收到第一语音信号时，还判断摄像单元24所拍摄到的用户嘴部的形状是否有变化。当有变化时，语音信息的接收系统10将该第一语音信号与存储在存储器22中的预设的语音信号进行比较并根据比较结果确定一目标语音信号。所述语音信息的接收系统10还获取麦克阵列21中的不同麦克采集所述目标语音信号的延迟时间，并根据所获取的延迟时间计算目标语音信息的声源的位置。在目标语音信息的声源位置确定之后，语音信息的接收系统10利用麦克阵列21采集一第二语音信息并将所接收到第二语音信息转化为一第二语音信号，及根据所计算出的目标语音信息的声源的位置对所述第二语音信号进行降噪处理。

请参见图2，其示出了本发明一实施方式中的语音信息的接收系统10的功能模块示意图。该语音信息的接收系统10包括一采集模块11、一确定模块12、一计时模块13、一计算模块14及一降噪模块15。本发明所称的模块是指一种能够被语音采集装置20的控制器23所执行并且能够完成特定功能的一系列程序命令段或固化于控制器23中的固件。

采集模块11响应用户的操作利用所述麦克阵列21采集一第一语音信息并将所采集到第一语音信息转化为一第一语音信号及利用摄像单元24采集一用户的多个嘴部图像。所述第一语音信息包括一目标语音及环境背景语音。

在本实施方式中，采集模块11响应用户的操作控制麦克阵列21采集语音信息及控制摄像单元24采集用户的嘴部图像。具体的，用户的操作为拨打电话或开启录音功能的操作。在本实施方式中,摄像单元24安装在语音采集装置20上能摄取到该语音采集装置20前一预设区域内的图像。当用户在该预设区域内说话，即说话时用户的嘴部恰好位于该预设的区域内时，摄像单元24便可拍摄到该用户说话时的多个嘴部图像。

确定模块12判断采集模块11采集到的第一语音信号与摄像单元24所采集到的嘴部图像是否同步。在本实施方式中，当在摄像单元24所采集到的该多个嘴部图像中，用户的嘴型有改变时，则表明用户正在说话，采集模块11所采集到的语音信息来源于该用户的可能性比较大。因此，当所述采集模块11采集到第一语音信息，且在所述摄像单元24所采集到的嘴部图像中的嘴型有变化时，确定模块12确定采集模块11采集到的第一语音信息与所述摄像单元24所采集到的嘴部图像是同步的。

具体的，在摄像单元24所采集到的该多个嘴部图像中，当至少一图像中的嘴型是闭合的且至少一图像中的嘴型是张开时，确定模块12判定用户的嘴型有变化。

确定模块12还将采集模块11所采集到的第一语音信号与一预设的语音信号进行比较，并根据比较结果确定一目标语音信号。

该预设的语音信号为预先存储在存储器22中的一用户的语音信号。该语音信号包括该用户的语音频率及/或语音振幅。在一实施方式中，确定模块12将采集模块11所采集到的语音信息的频率区间与所述用户的语音信息的频率区间进行比较。当采集模块11所采集到的语音信息的频率区间落在预设的用户的语音信号的频率区间内时，确定模块12判断采集模块11所采集到的语音信号中包含了一目标语音信号。其中，该目标语音信息由所述用户发出的。

在其他实施方式中，确定模块12将采集模块11所采集到的语音信息的振幅区间与所述用户的语音信息的振幅区间进行比较。当采集到的语音信息的幅度区间与预设的语音信息的幅度区间相匹配时，判断模块12判断采集模块11所获取的语音信息中包含有一目标语音信息。

计时模块13获取麦克阵列21中的不同麦克采集所述目标语音信息的延迟时间。在本实施方式中，麦克阵列21至少包括2个分布在语音采集装置20的不同位置的麦克。鉴于，麦克阵列21的每一麦克分布在不同的位置，故此，同一目标声源发出的声音传递到每一麦克的时间是不同的，即，每一麦克接收到目标声源发出的声音的时间是不同的。故此，计时模块13能根据麦克阵列21中的不同麦克接收到的目标语音信息的时间来获取该延迟时间。

计算模块14根据计时模块13所获取到的延迟时间计算目标语音信号的声源的位置。在本实施方式中，该目标语音信号的声源的位置包括声源距离所述麦克阵列21的每一麦克的距离及方位。此外，根据延迟时间计算出目标语音信号的声源的位置为现有技术，在此不作赘述。

采集模块11利用麦克阵列21采集一第二语音信息并将所接收到第二语音信息转化为一第二语音信号。

降噪模块15根据计算模块14所计算出的目标语音信息的声源的位置对所述第二语音信号进行降噪处理。

在一实施方式中，降噪模块15将所述第二语音信号中来自所述声源的语音信号传递给语音传送通道及将第二语音信号中非来自所述声源的语音信号传递给杂音传送通道；及根据杂音传送通道中的语音信号降低语音传送通道中的目标语音信号中的杂音信号。在本实施方式中，降噪模块15将所接收到的第二语音信号中的频率区间范围落入所预设的频率区间范围内的语音信号认定该语音信号是来自所述声源的语音信号；及将所接收到的第二语音信号中的频率区间范围未落入所预设的频率区间范围内的语音信号认定该语音信号是非来自所述声源的语音信号。

在另一实施方式中，降噪模块15将根据所述声源距离所述麦克的距离确定所述目标语音信号的振幅区间，及从所述第二语音信号中滤除掉振幅区间不在所述目标语音信号的振幅区间内的语音信号。

如图3所示，是本发明一实施方式中的语音信息的接收方法的步骤流程图。根据具体的情况，该流程图步骤的顺序可以改变，某些步骤可以省略。

步骤301：采集模块11响应用户的操作利用所述麦克阵列21采集一第一语音信息并将所采集到第一语音信息转化为一第一语音信号及利用摄像单元24采集一用户的多个嘴部图像。所述第一语音信息包括一目标语音及环境背景语音。

步骤302：确定模块12判断采集模块11采集到的第一语音信号与摄像单元24所采集到的嘴部图像是否同步。若是，则进入步骤303；若否，则流程结束。

具体的，若在摄像单元24所采集到的该多个嘴部图像中，用户的嘴型有改变时，则表明用户正在说话，采集模块11所采集到的语音信息来源于该用户的可能性比较大。因此，当所述采集模块11采集到第一语音信息，且在所述摄像单元24所采集到的嘴部图像中的嘴型有变化时，确定模块12确定采集模块11采集到的第一语音信息与所述摄像单元24所采集到的嘴部图像是同步的。

在本实施方式中，在摄像单元24所采集到的该多个嘴部图像中，当至少一图像中的嘴型是闭合的且至少一图像中的嘴型是张开时，确定模块12判定用户的嘴型有变化。步骤303：确定模块12将采集模块11所采集到的第一语音信号与一预设的语音信号进行比较，并根据比较结果确定一目标语音信号。

步骤304：计时模块13获取麦克阵列21中的不同麦克采集所述目标语音信息的延迟时间。

在本实施方式中，麦克阵列21至少包括2个分布在语音采集装置20的不同位置的麦克。鉴于，麦克阵列21的每一麦克分布在不同的位置，故此，同一目标声源发出的声音传递到每一麦克的时间是不同的，即，每一麦克接收到目标声源发出的声音的时间是不同的。故此，计时模块13能根据麦克阵列21中的不同麦克接收到的目标语音信息的时间来获取该延迟时间。

步骤305：计算模块14根据计时模块13所获取到的延迟时间计算目标语音信号的声源的位置。

在本实施方式中，该目标语音信号的声源的位置包括声源距离所述麦克阵列21的每一麦克的距离及方位。此外，根据延迟时间计算出目标语音信号的声源的位置为现有技术，在此不作赘述。

步骤306：采集模块11利用麦克阵列21采集一第二语音信息并将所接收到第二语音信息转化为一第二语音信号。

步骤307：降噪模块15根据计算模块14所计算出的目标语音信息的声源的位置对所述第二语音信号进行降噪处理。

本发明所提供的语音信息的接收方法、系统与装置，利用麦克阵列对目标声源进行定位，以提高接收到的语音信号的质量，以便接收者能接收到清楚的语音信息。

本技术领域的普通技术人员应当认识到，以上的实施方式仅是用来说明本发明，而并非用作为对本发明的限定，只要在本发明的实质精神范围之内，对以上实施例所作的适当改变和变化都落在本发明要求保护的范围之内。

Claims

1.一种语音信息的接收方法，适用于一语音采集装置，所述语音采集装置配置有麦克阵列；其特征在于，所述语音信息的接收方法包括步骤：

利用所述麦克阵列采集一第一语音信息并将所采集到的第一语音信息转化为一第一语音信号及摄取一用户的多个嘴部图像，其中，所述第一语音信息包括一目标语音及环境背景语音；

判断所采集到的第一语音信号与所采集到的嘴部图像是否同步；

当第一语音信号与所述嘴部图像同步时，将所述第一语音信号与一预设的语音信号进行比较并根据比较结果确定一目标语音信号；

根据所获取的延迟时间计算所述目标语音信号的声源的位置；

利用所述麦克阵列采集一第二语音信息并将所接收到的第二语音信息转化为一第二语音信号；及

2.如权利要求1所述的方法，其特征在于，所述麦克阵列中至少包括2个分布在所述语音采集装置的不同位置的麦克。

3.如权利要求2所述的方法，其特征在于，所述声源的位置为声源距离所述麦克的距离及方位。

4.如权利要求1所述的方法，其特征在于，步骤“根据所计算出的目标语音信息的声源的位置对采集到的第二语音信号进行降噪处理”具体为：

5.如权利要求1所述的方法，其特征在于，步骤“根据所计算出的目标语音信息的声源的位置对采集到的第二语音信号进行降噪处理”具体为：

从所述第二语音信号中滤除掉振幅区间不在所述目标语音信息的振幅区间内的语音信息。

6.如权利要求1所述的方法，其特征在于，所述预设的语音信号为预先存储的一用户的语音信号。

7.如权利要求4所述的方法，其特征在于，步骤“将所采集到的语音信息与一预设的语音信息进行比较，并根据比较结果确定一目标语音信号”具体为：

8.如权利要求4所述的方法，其特征在于，步骤“将所采集到的语音信息与一预设的语音信息进行比较，并根据比较结果确定一目标语音信号”具体为：

9.一种语音信息的接收系统，运行于一语音采集装置，所述语音采集装置配置有麦克阵列，其特征在于，所述语音信息的接收系统包括：

一采集模块，用于利用所述麦克阵列采集一第一语音信息并将所采集到的第一语音信息转化为一第一语音信号及利用一摄像单元采集一用户的多个嘴部图像，其中，所述第一语音信息包括一目标语音及环境背景语音；

一确定模块，用于判断所述采集模块所采集到的第一语音信号与所采集到的嘴部图像是否同步；当第一语音信号与嘴部图像同步时，所述确定模块还用于将所述第一语音信号与一预设的语音信号进行比较并根据比较结果确定一目标语音信号；

所述采集模块，还用于利用所述麦克阵列采集一第二语音信息并将所接收到的第二语音信息转化为一第二语音信号；及

10.一种语音信息的采集装置，配置有麦克阵列及一语音信息的接收系统，其特征在于，所述语音信息的接收系统包括：