CN105321523A

CN105321523A - 噪音抑制方法和装置

Info

Publication number: CN105321523A
Application number: CN201410353699.XA
Authority: CN
Inventors: 颜蓓
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2014-07-23
Filing date: 2014-07-23
Publication date: 2016-02-10
Also published as: WO2015117403A1

Abstract

本发明提供了一种噪音抑制方法和装置。涉及移动通信领域；解决了现有的抑噪方式应用范围较小的问题。该方法包括：在语音通话时，同步采集记录用户嘴部动作的视频流数据和记录所述用户通话的音频数据；根据所述视频流数据，确定所述音频数据的语音噪音叠加部分和纯环境噪音部分；分别对所述语音嗓音叠加部分和纯环境噪音部分进行处理，得到纯净的语音成分。本发明提供的技术方案适用于智能终端通话降噪，实现了适用于不同场景的高效准确的噪音抑制。

Description

噪音抑制方法和装置

技术领域

本发明涉及移动通信领域，尤其涉及一种噪音抑制方法和装置。

背景技术

目前市面上的智能终端越来越多，评测智能终端性能一个非常重要的指标就是此终端的背景噪音抑制功能是否强大。背景噪音抑制的理想状态是当手机用户处于很嘈杂的环境中时，对方听到的传送过去的语音效果非常清晰，而背景噪音部分几乎完全被滤掉。目前市面上的智能终端绝大部分采用多麦克抑噪方案，其中又以双麦克抑噪方案用的最为广泛。双麦克抑噪方案的原理是认为手机前面板的主麦克采集的是噪音和语音，而后面板的辅麦克采集的是噪音，将两者采取的部分通过某种算法处理后得到纯语音部分后传送到对方手机，则对方手机接收到的是抑制了背景噪音的语音部分。

这种方案的抑噪效果在大部分的嘈杂环境情况下都很不错，但却有一个缺点就是：当背景噪音传过来的方向和语音传过来的方向接近一致时，这种方案就不太好区分噪音和语音，会把一部分的噪音传过去或者会把一部分的语音也当成噪音也过滤处理掉，导致对方样机听到的语音部分失真甚至发生断续并伴随有一定的背景噪音。

因此必须找到一种方法既可以还原清晰的语音，又可以滤掉从四面八方传过来的环境噪声，从而实现在嘈杂环境中较好的语音的发送方向的用户体验的目的。

发明内容

本发明提供了一种噪音抑制方法和装置，解决了现有的抑噪方式应用范围较小的问题。

一种噪音抑制方法，包括：

在语音通话时，同步采集记录用户嘴部动作的视频流数据和记录所述用户通话的音频数据；

根据所述视频流数据，确定所述音频数据的语音噪音叠加部分和纯环境噪音部分；

分别对所述语音嗓音叠加部分和纯环境噪音部分进行处理，得到纯净的语音成分。

优选的，同步采集记录用户嘴部动作的视频流数据和记录所述用户通话的音频数据具体为：

将采集所述音频数据和所述视频流数据的起始点在时间上对齐；

同步进行所述视频流数据和所述音频数据的采集。

优选的，根据所述视频流数据，确定所述音频数据的语音噪音叠加部分和纯环境噪音部分包括：

将所述视频流数据和所述音频数据进行同步切片，视频流数据的切片与音频数据的切片一一对应；

逐个分析所述视频流数据的切片；

在所述视频流数据的切片中存在嘴部动作时，判定对应的所述音频数据的切片属于语音噪音叠加的部分；

在所述视频流数据的切片中不存在嘴部动作时，判定对应的所述音频数据的切片属于纯环境噪音部分。

优选的，分别对所述语音嗓音叠加部分和纯环境噪音部分进行处理，得到纯净的语音成分包括：

对所述语音噪音叠加的部分，进行去环境噪音处理，得到纯净的语音成分；

对于所述纯环境噪音的部分，进行直接删除的处理。

优选的，分别对所述语音嗓音叠加部分和纯环境噪音部分进行处理，得到纯净的语音成分的步骤之后，还包括：

即刻向通话对方发送处理得到的纯净的语音成分。

本发明还提供了一种噪音抑制装置，包括：

数据采集模块，用于在语音通话时，同步采集记录用户嘴部动作的视频流数据和记录所述用户通话的音频数据；

第一基带处理模块，用于根据所述视频流数据，确定所述音频数据的语音噪音叠加部分和纯环境噪音部分；

第二基带处理模块，用于分别对所述语音嗓音叠加部分和纯环境噪音部分进行处理，得到纯净的语音成分。

优选的，所述数据采集模块包括：

对齐单元，用于将采集所述音频数据和所述视频流数据的起始点在时间上对齐；

同步采集单元，用于以所述同步基准线为准，同步进行所述视频流数据和所述音频数据的采集。

优选的，所述第一基带处理模块包括：

切片单元，用于将所述视频流数据和所述音频数据进行同步切片，视频流数据的切片与音频数据的切片一一对应；

视频流数据分析单元，用于逐个分析所述视频流数据的切片；

音频数据分析单元，用于在所述视频流数据的切片中存在嘴部动作时，判定对应的所述音频数据的切片属于语音噪音叠加的部分，

优选的，所述第二基带处理模块包括：

语音去噪处理单元，用于对所述语音噪音叠加的部分，进行去环境噪音处理，得到纯净的语音成分；

环境噪音处理单元，用于对所述纯环境噪音的部分，进行直接删除的处理。

优选的，该装置还包括：

语音发送模块，用于即刻向通话对方发送处理得到的纯净的语音成分。

本发明提供了一种噪音抑制方法和装置，在语音通话时，同步采集记录用户嘴部动作的视频流数据和记录所述用户通话的音频数据，然后根据所述视频流数据，确定所述音频数据的语音噪音叠加部分和纯环境噪音部分，再分别对所述语音嗓音叠加部分和纯环境噪音部分进行处理，得到纯净的语音成分。实现了适用于不同场景的高效准确的噪音抑制，解决了现有的抑噪方式应用范围较小的问题。

附图说明

图1为本发明的实施例一提供的噪音抑制系统的结构示意图；

图2为本发明的实施例二提供的终端的结构示意图；

图3为本发明的实施例三提供的一种噪音抑制方法的流程图；

图4为本发明的实施例四提供的一种噪音抑制装置的结构示意图；

图5为图4中数据采集模块401的结构示意图；

图6为图4中第一基带处理模块402的结构示意图；

图7为图4中第二基带处理模块403的结构示意图。

具体实施方式

现有的抑制噪音的方案适用范围较小，在很多场景下对语音通话中的噪音过滤效果较差。

为了解决上述问题，本发明的实施例提供了一种噪音抑制方法和装置。下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

首先，结合附图，对本发明的实施例一进行说明。

本发明实施例提供了一种噪音抑制系统，整个系统的结构如图1所示，分为四部分：

嘴部动作采集模块101：功能是采集使用者的嘴部动作，并传送到基带处理模块103进行后续识别分析处理；

语音噪音采集模块102：功能是采集使用者通话时的语音，同时也采集背景噪音，此模块工作需要和针孔摄像头101及其附属电路201同步进行，采集的数据也会传送到基带处理模块103和针孔摄像头101同时产生的数据一起进行综合处理；

基带处理模块103：此模块的功能是对针孔摄像头101产生的嘴部动作数据进行处理和分析，判断是否使用者是否有嘴部动作；此模块并对同时刻102模块发过来的音频数据也进行处理。对音频数据处理采用的方式取决于对针孔摄像头101产生的嘴部动作数据的识别、分析判断结果，将有嘴部动作产生时的语音加噪音部分用某种算法减去没有嘴部动作时的噪音部分，即可得到纯净的语音部分数据；

上行语音通路104：接收来自基带处理模块103处理过后的语音，并传送到对方用户终端的一个功能模块。

下面结合附图，对本发明的实施例二进行说明。

本发明实施例提供了一种终端，如图2所示：主麦克202和针孔摄像头201均安装在手机的正面，当然主麦克202也可安装在手机的右下侧，只要尽量靠近嘴部即可。而针孔摄像头201的位置应该装在手机正面的下方，最好居中一些，这样不管用户使用左手握或者右手握的姿势，针孔摄像头201都不会被脸部挡住，可以清晰地拍摄到嘴部动作。若手机本身设计有前置摄像头，那么可以考虑就采用前置摄像头来完成此功能也可，当然这种情况下前置摄像头的位置不能安装在手机正面的左上方，必须设计在手机正面下方，因为有屏幕旋转等成熟技术，所有这种设计也不会影响到前置摄像拍照的功能本身的。这种设计考虑覆盖到了到了手持和免提通话两种模式。并且由于此实施例只需要一个麦克，不再需要另外的消噪辅助麦克，而摄像头又可以直接使用前置摄像头，所以会大大节省手机布局的空间，也会大大降低制作成本。

本发明实施例二的方案分为如下几部分：

针孔摄像头及其附属电路201：功能是将使用者的嘴部动作拍摄下来，并将拍摄的内容传送到基带处理主芯片203中的视频数据存储器204中准备进行后续识别分析处理；

主麦克及其附属电路202：功能是采集使用者通话时的语音，同时也采集周围的背景噪音，采集的音频数据也会传送到基带处理主芯片203的音频数据存储器205中留待与针孔摄像头及其附属电路201产生的视频数据一起进行综合处理；

基带处理主芯片203：功能是对视频数据存储器204中的视频数据进行处理和分析，通过对视频流数据进行切片，对每个小切片内的内容判断是否使用者是否有嘴部动作，由于嘴部动作的图像识别技术已是成熟技术，就不在此文中进行赘述了；同时并对音频数据存储器205中的语音加噪音的音频数据也进行切片处理。对音频数据处理采用的方式取决于对视频数据存储器204中相对应的视频数据切片的识别、分析判断结果，将有嘴部动作产生时的语音加噪音部分用算法减去没有嘴部动作时的噪音部分，即可得到纯净的语音部分数据；由于目前应用于分离语音噪音技术的算法已非常多，本文中不再赘述；

视频数据存储器204：用于存放针孔摄像头及其附属电路201产生的视频数据流；

音频数据存储器205：用于存放主麦克及其附属电路202产生的音频数据流；

CODEC和MODEM206:将基带处理主芯片203处理好后的音频数据流进行编码和调制并传送到上行通话链路207；

上行通话链路207：连接会话双方的空中链路。

本发明的实施例所涉及的终端，可以是手机、平板电脑、笔记本电脑等可移动设备，本发明实施例对此不作限定。

下面结合附图，对本发明的实施例三进行说明。

本发明实施例提供了一种噪音抑制方法，与图2所示的噪音抑制装置相结合，处理流程如图3所示，包括：

步骤301：开始。

步骤302：判断语音通话是否开始，开始则走向步骤303。

在语音通话时，同步采集记录用户嘴部动作的视频流数据和记录所述用户通话的音频数据。先将采集所述音频数据和所述视频流数据的起始点在时间上对齐，然后同步进行所述视频流数据和所述音频数据的采集。在本步骤中，采集的音频数据和视频流数据已经是同步的了，即音频数据和视频数据在时间上是对齐的，以便于后续的进一步同步处理。

步骤303：针孔摄像头及其附属电路201开始工作，对使用者嘴部动作进行视频数据的持续采集。

步骤304：主麦克及其附属电路202开始与针孔摄像头及其附属电路201同步工作，持续采集音频数据和视频流数据，音频数据中包含使用者的语音成分以及背景噪音的成分。

步骤305：针孔摄像头及其附属电路201采集的视频流数据存入视频数据存储器204。一般情况下，人说完一个字的时间最短是200ms左右，故可以在存储的视频流数据和音频数据的长度达到200ms后就开始进行处理。

步骤306：主麦克及其附属电路202采集的视频流数据存入视频数据存储器204。

步骤307：基带处理主芯片203将视频数据存储器204和音频数据存储器205同步切片分析处理，自摄像头的视频数据和来自麦克的语音数据，同步分析处理。如果将视频切片N中的视频数据判断为有嘴部动作时，则将相应音频切片N产生的音频数据定义为语音加噪音的叠加成分；如果将视频切片N中的视频数据判断为无嘴部动作时，则将相应音频切片N产生的音频数据定义为单纯的背景噪音成分。并将此此两种情况下的音频数据通过算法进行相减得到纯净的语音成分。

具体的处理方法如下：

首先，根据所述视频流数据，确定所述音频数据的语音噪音叠加部分和纯环境噪音部分。包括：

1、本发明实施例中，视频流和音频流的采集与存储必须绝对同步，将所述视频流数据和所述音频数据进行同步切片，视频流数据的切片与音频数据的切片一一对应。具体的，从采集音频数据和视频流数据的对齐的起始点开始对视频数据和音频数据进行切片，切片也必须是同步的，比如说每0.3秒一个切片，那么视频数据和音频数据都必须同步进行这个长度的切片(正常人的语速，一分钟可以说100字到300字之间，那么就是说一个字花费的时间在200ms到600ms之间，可以将切片长度定为200ms到600ms之间，能达到可识别的程度即可，本发明对此不作具体限定)。将视频数据的第一个切片定义为S1，将音频数据的第一个切片定义为Y1，后续的依次类推，视频数据的第n个切片定义为Sn，将音频数据的第n个切片定义为Yn。

2、分析视频流数据的嘴部动作，并且将有嘴部动作的切片定义为1，无嘴部动作的切片定义为0，将语音噪音叠加的部分定义为S，纯环境噪音部分定义为N。在所述视频流数据的切片中存在嘴部动作时，判定对应的所述音频数据的切片属于语音噪音叠加的部分；在所述视频流数据的切片中不存在嘴部动作时，判定对应的所述音频数据的切片属于纯环境噪音部分。

在区分语音口音叠加的部分和纯环境噪音的部分之后，即可分别对所述语音嗓音叠加部分和纯环境噪音部分进行处理，得到纯净的语音成分。具体的，对所述语音噪音叠加的部分，进行去环境噪音处理，得到纯净的语音成分；对于所述纯环境噪音的部分，进行直接删除的处理。

例如，当Sn＝0时，则Yn＝N；当Sn＝1时，Yn＝N+S。那么N的部分就可以很容易的提取出来，从而得到语音噪音叠加的S部分，再对S部分进行去环境噪音处理，得到纯净的语音成分。

步骤308：即刻向通话对方发送处理得到的纯净的语音成分；

本步骤中，将处理后得到的纯净的语音成分发送到CODEC和MODEM206进行编码和调制后传送到上行通话链路207，到达对方终端，对方终端则可听到去除了环境噪音的纯净语音部分。为避免通话延时过长，可在得到一个纯净的语音切片时即刻将该切片发送。

步骤309：判断语音通话是否结束，如没结束则返回执行步骤302；

步骤310：语音通话结束，整个实施例装置也随之停止工作。

下面结合附图，对本发明的实施例四进行说明。

本发明实施例提供了一种噪音抑制装置，该装置的结构如图4所示，包括：

数据采集模块401，用于在语音通话时，同步采集记录用户嘴部动作的视频流数据和记录所述用户通话的音频数据；

第一基带处理模块402，用于根据所述视频流数据，确定所述音频数据的语音噪音叠加部分和纯环境噪音部分；

第二基带处理模块403，用于分别对所述语音嗓音叠加部分和纯环境噪音部分进行处理，得到纯净的语音成分。

优选的，所述数据采集模块401的结构如图5所示，包括：

对齐单元4011，用于将采集所述音频数据和所述视频流数据的起始点在时间上对齐；

同步采集单元4012，用于以所述同步基准线为准，同步进行所述视频流数据和所述音频数据的采集。

优选的，所述第一基带处理模块402的结构如图6所示，包括：

切片单元4021，用于将所述视频流数据和所述音频数据进行同步切片，视频流数据的切片与音频数据的切片一一对应；

视频流数据分析单元4022，用于逐个分析所述视频流数据的切片；

音频数据分析单元4023，用于在所述视频流数据的切片中存在嘴部动作时，判定对应的所述音频数据的切片属于语音噪音叠加的部分，

优选的，所述第二基带处理模块403的结构如图7所示，包括：

语音去噪处理单元4031，用于对所述语音噪音叠加的部分，进行去环境噪音处理，得到纯净的语音成分；

环境噪音处理单元4032，用于对所述纯环境噪音的部分，进行直接删除的处理。

优选的，该装置还包括：

语音发送模块404，用于即刻向通话对方发送处理得到的纯净的语音成分。

本发明的实施例提供了一种噪音抑制方法和装置，在语音通话时，同步采集记录用户嘴部动作的视频流数据和记录所述用户通话的音频数据，然后根据所述视频流数据，确定所述音频数据的语音噪音叠加部分和纯环境噪音部分，再分别对所述语音嗓音叠加部分和纯环境噪音部分进行处理，得到纯净的语音成分。实现了适用于不同场景的高效准确的噪音抑制，解决了现有的抑噪方式应用范围较小的问题。

本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现，所述计算机程序可以存储于一计算机可读存储介质中，所述计算机程序在相应的硬件平台上(如系统、设备、装置、器件等)执行，在执行时，包括方法实施例的步骤之一或其组合。

可选地，上述实施例的全部或部分步骤也可以使用集成电路来实现，这些步骤可以被分别制作成一个个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

上述实施例中的各装置/功能模块/功能单元可以采用通用的计算装置来实现，它们可以集中在单个的计算装置上，也可以分布在多个计算装置所组成的网络上。

上述实施例中的各装置/功能模块/功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器，磁盘或光盘等。

任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求所述的保护范围为准。

Claims

1.一种噪音抑制方法，其特征在于，包括：

2.根据权利要求1所述的噪音抑制方法，其特征在于，同步采集记录用户嘴部动作的视频流数据和记录所述用户通话的音频数据具体为：

同步进行所述视频流数据和所述音频数据的采集。

3.根据权利要求2所述的噪音抑制方法，其特征在于，根据所述视频流数据，确定所述音频数据的语音噪音叠加部分和纯环境噪音部分包括：

逐个分析所述视频流数据的切片；

4.根据权利要求1或2或3所述的噪音抑制方法，其特征在于，分别对所述语音嗓音叠加部分和纯环境噪音部分进行处理，得到纯净的语音成分包括：

对于所述纯环境噪音的部分，进行直接删除的处理。

5.根据权利要求1所述的噪音抵制方法，其特征在于，分别对所述语音嗓音叠加部分和纯环境噪音部分进行处理，得到纯净的语音成分的步骤之后，还包括：

即刻向通话对方发送处理得到的纯净的语音成分。

6.一种噪音抑制装置，其特征在于，包括：

7.根据权利要求6所述的噪音抑制装置，其特征在于，所述数据采集模块包括：

8.根据权利要求7所述的噪音抑制装置，其特征在于，所述第一基带处理模块包括：

9.根据权利要求6或7或8所述的噪音抑制装置，其特征在于，所述第二基带处理模块包括：

10.根据权利要求6所述的噪音抑制装置，其特征在于，该装置还包括：