CN111402912A

CN111402912A - 一种语音信号降噪方法及装置

Info

Publication number: CN111402912A
Application number: CN202010099456.3A
Authority: CN
Inventors: 李鹏; 马金龙
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2020-07-10

Abstract

本发明公开了一种语音信号降噪方法及装置，包括：获取实时图像；分析实时图像，从预设图像确定出多个声源方向；对声源方向进行标注以区分人声方向信息和噪声方向信息；根据所述人声方向信息和噪声方向信息对所述实时图像内的声音数据进行降噪；输出降噪后的声音数据。通过利用实时图像中人声方向信息和噪声方向信息对实时图像内的声音数据进行降噪，使得处理的过程中提供多个方向的声音数据来进行降噪，并且利用了实时图像中的人声方向和噪声方向来对声音数据进行降噪，通过人声和噪声的方向可以将声音数据中的人声和噪声分离开来，使得最终的去噪效果更加明显和高效。

Description

一种语音信号降噪方法及装置

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种语音信号降噪方法及装置。

背景技术

目前，随着科技的进步和发展，人们的生活质量越来越高，在享受物质生活的基础上去追求更高的精神生活，在他们的闲暇时间去KTV和酒吧等娱乐设施去放松身心，但由于上述环境中的声音都比较嘈杂，在人们说话的过程中会有大量的噪音乱入，对于人们之间的交流有很大的影响，于是针对这项问题研究出了降噪方法，现有的降噪方法为通过确定发音人的方位，采集发音人的发音信息，基于此信息指导波束形成做固定方向的语音增强，进而实现降噪。上述技术方法存在以下缺点，单纯的对人声语音进行增强，实际的原理是通过提高人声语音来降低噪音的干扰，从本质上没有去处噪音使得固定波束形成方法无法获得令人满意的噪声抑制效果，并且上述方法在低信噪比的环境下语音的增强效果不强，影响了用户的使用体验。

发明内容

针对上述所显示出来的问题，本方法基于从实时图像中确定人声和噪声方向信息进而根据人声和噪声方向信息对声音数据进行降噪，最后输出降噪后的声音数据，获得纯净的人声。

一种语音信号降噪方法，包括以下步骤：

获取实时图像；

分析所述实时图像，从所述实时图像确定出多个声源方向；

对所述声源方向进行标注以区分人声方向信息和噪声方向信息；

根据所述人声方向信息和噪声方向信息对所述实时图像内的声音数据进行降噪；

输出降噪后的声音数据。

优选的，所述获取实时图像，包括：

在实时环境中心设置一个能够360°旋转的摄像头；

启动所述摄像头，利用所述摄像头获取所述实时环境内整体的图像；

确定所述整体的图像为所述实时图像。

优选的，所述分析所述实时图像，从所述实时图像确定出多个声源方向，包括：

利用目标检测算法识别出所述实时图像内的能够发音的物体，所述能够发音的物体包括用户在内；

记录所述能够发音的物体中每个物体的具体位置；

基于所述具体位置，利用波向传达算法确定出所述各物体的声源方向。

优选的，所述根据所述人声方向信息和噪声方向信息对所述实时图像内的声音数据进行降噪，包括：

利用固定方向波束形成算法对所述声音数据作增强处理；

将增强处理后的所述声音数据中的人声数据确认为当前带噪信号；

将增强处理后的所述声音数据中的噪声数据确认为噪声参考信号；

将所述当前带噪信号和所述噪声参考信号输入到波束形成器中作自适应降噪处理。

优选的，所述输出降噪后的声音数据，包括：；

利用所述波束形成器将所述当前带噪语音中的当前人声成分和当前噪声成分分离；

剔除所述当前噪声成分，保留所述当前人声成分；

降噪完成，输出所述当前人声成分。

一种语音信号降噪装置，该装置包括：

获取模块，用于获取实时图像；

确定模块，用于分析所述实时图像，从所述实时图像确定出多个声源方向；

标注模块，用于对所述声源方向进行标注以区分人声方向信息和噪声方向信息；

降噪模块，用于根据所述人声方向信息和噪声方向信息对所述实时图像内的声音数据进行降噪；

输出模块，用于输出降噪后的声音数据。

优选的，所述获取模块，包括：

设置子模块，用于在实时环境中心设置一个能够360°旋转的摄像头；

获取子模块，用于启动所述摄像头，利用所述摄像头获取所述实时环境内整体的图像；

第一确定子模块，用于确定所述整体的图像为所述实时图像。

优选的，所述确定模块，包括：

识别子模块，用于利用目标检测算法识别出所述实时图像内的能够发音的物体，所述能够发音的物体包括用户在内；

记录子模块，用于记录所述能够发音的物体中每个物体的具体位置；

第二确定子模块，用于基于所述具体位置，利用波向传达算法确定出所述各物体的声源方向。

优选的，所述降噪模块，包括：

处理子模块，用于利用固定方向波束形成算法对所述声音数据作增强处理；

第一确认子模块，用于将增强处理后的所述声音数据中的人声数据确认为当前带噪信号；

第二确认子模块，用于将增强处理后的所述声音数据中的噪声数据确认为噪声参考信号；

降噪子模块，将所述当前带噪信号和所述噪声参考信号输入到波束形成器中作自适应降噪处理。

优选的，所述输出模块，包括：

分离子模块，用于利用所波束形成器将所述当前带噪语音中的当前人声成分和当前噪声成分分离；

剔除子模块，用于剔除所述当前噪声成分，保留所述当前人声成分；

输出子模块，用于降噪完成，输出所述当前人声成分。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明所提供的一种语音信号降噪方法的工作流程图；

图2为本发明所提供的一种语音信号降噪方法的另一工作流程图；

图3为本发明所提供的一种语音信号降噪装置的结构图；

图4为本发明所提供的一种语音信号降噪装置的另一结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

目前，随着科技的进步和发展，人们的生活质量越来越高，在享受物质生活的基础上去追求更高的精神生活，在他们的闲暇时间去KTV和酒吧等娱乐设施去放松身心，但由于上述环境中的声音都比较嘈杂，在人们说话的过程中会有大量的噪音乱入，对于人们之间的交流有很大的影响，于是针对这项问题研究出了降噪方法，现有的降噪方法为通过确定发音人的方位，采集发音人的发音信息，基于此信息指导波束形成做固定方向的语音增强，进而实现降噪。上述技术方法存在以下缺点，单纯的对人声语音进行增强，实际的原理是通过提高人声语音来降低噪音的干扰，从本质上没有去处噪音使得固定波束形成方法无法获得令人满意的噪声抑制效果，并且上述方法在低信噪比的环境下语音的增强效果不强，影响了用户的使用体验。为了解决上述问题，本实实施例公开了一种基于从实时图像中确定人声和噪声方向信息进而根据人声和噪声方向信息对声音数据进行降噪，最后输出降噪后的声音数据，获得纯净的人声的方法。

一种语音信号降噪方法，如图1所示，包括以下步骤：

步骤S101、获取实时图像；

步骤S102、分析实时图像，从实时图像确定出多个声源方向；

步骤S103、对声源方向进行标注以区分人声方向信息和噪声方向信息；

步骤S104、根据所述人声方向信息和噪声方向信息对所述实时图像内的声音数据进行降噪；

步骤S105、输出降噪后的声音数据。

上述技术方案的工作原理为:获取实时图像，从实时图像中确定多个声源方向，然后就每个声源方向进行标注来确定人声方向信息和噪声方向信息，然后根据人声方向信息和噪声方向信息对实时图像内的声音数据进行降噪，最后输出降噪后的声音数据。

上述技术方案的有益效果为：通过利用实时图像中人声方向信息和噪声方向信息对实时图像内的声音数据进行降噪，使得处理的过程中提供多个方向的声音数据来进行降噪，并且利用了实时图像中的人声方向和噪声方向来对声音数据进行降噪，通过人声和噪声的方向可以将声音数据中的人声和噪声分离开来，使得最终的去噪效果更加明显和高效，解决了现有技术中由于单纯的对人声语音进行增强，从本质上没有去处噪音使得固定波束形成方法无法获得令人满意的噪声抑制效果的问题，同时，由于利用了人声方向和噪声方向进行降噪，在低信噪比的环境下同样不影响降噪效果，极大地提高了用户的体验感。

在一个实施例中，如图2所示，获取预设图像，包括：

步骤S201、在实时环境中心设置一个能够360°旋转的摄像头；

步骤S202、启动摄像头，利用摄像头获取实时环境内整体的图像；

步骤S203、确定整体的图像为实时图像。

上述技术方案的有益效果为：全方位的采集实时环境内的图像，可以无死角的得到实时图像内所有的图像内容，避免错失一些重要的图像内容而使得后边无法有效的确定多个声源方向，提高了精度和准确率。

在一个实施例中，分析实时图像，从实时图像确定出多个声源方向，包括：

利用目标检测算法识别出实时图像内的能够发音的物体，能够发音的物体包括用户在内；

记录能够发音的物体中每个物体的具体位置；

基于具体位置，利用波向传达算法确定出各物体的声源方向。

上述技术方案的有益效果为：根据具体位置来判断声源方向使得判断的结果更加准确，并且确定每个物体的具体位置可以判断其声源方向是否有重叠或者交叉进而可以选择性的剔除某些声源方向。

在一个实施例中，根据人声方向信息和噪声方向信息对实时图像内的声音数据进行降噪，包括：

利用固定方向波束形成算法对声音数据作增强处理；

将增强处理后的声音数据中的人声数据确认为当前带噪信号；

将增强处理后的声音数据中的噪声数据确认为噪声参考信号；

将当前带噪信号和噪声参考信号输入到波束形成器中作自适应降噪处理。

上述技术方案的有益效果为：通过对声音数据作增强处理可以更直观的分辨出声音数据中的人声数据和噪声数据，并且噪声数据更明显可以更好的作为噪声参考信号，波束形成器可以进行自适应噪声抵消处理，相比于现有技术具有更加完善的去噪效果，提高了用户的体验感。

在一个实施例中，输出降噪后的声音数据，包括：

利用波束形成器将当前带噪语音中的当前人声成分和当前噪声成分分离；

剔除当前噪声成分，保留当前人声成分；

降噪完成，输出当前人声成分。

上述技术方案的有益效果为：明显的去除了当前带噪语音中的噪音成分，只保留当前人声成分，使得当前带噪信号的去噪效果实现完美，无任何噪音成分，进一步使得最终的去噪效果更加明显和高效。

在一个实施例中，包括：

1.通过摄像头，采集360度的图像信息；

2.基于图像目标检测算法分析图像，识别出人和一些典型的能发声的物体，比如电视机、音箱等，并记录它们的方位；

3.波束形成算法开始工作时，基于此前一个很短时刻的声学信息，利用DOA(波达方向)估计算法，估计出多个可能的声源方向；

4.利用第2步中的信息，将第3步中估计出的几个方向分别标注为人声或噪声方向；

利用第4步的标注，采用固定方向波束形成算法，分别对人声和噪声方向做增强，之后将对人声增强后的数据作为下一级的含噪信号输入，对噪声方向做增强之后的数据作为噪声参考信号，进一步进行GSC波束形成器中的自适应噪声抵消(ANC)处理，从而获得低信噪比环境下更为理想的噪声抑制效果。

上述技术方案的有益效果为:通过图像识别，不但获得人的方位，同时获得可能的噪声源的方位，在构建波束时，可以同时精准地增强人声和抑制噪声，解决了现有技术在低信噪比场景下无法准确降噪的问题。

本实施例还公开了一种语音信号降噪装置，如图3所示，该装置包括：

获取模块301，用于获取实时图像；

确定模块302，用于分析实时图像，从实时图像确定出多个声源方向；

标注模块303，用于对声源方向进行标注以区分人声方向信息和噪声方向信息；

降噪模块304，用于根据人声方向信息和噪声方向信息对实时图像内的声音数据进行降噪；

输出模块305，用于输出降噪后的声音数据。

在一个实施例中，如图4所示，获取模块，包括：

设置子模块3011，用于在实时环境中心设置一个能够360°旋转的摄像头；

获取子模块3012，用于启动摄像头，利用摄像头获取实时环境内整体的图像；

第一确定子模块3013，用于确定整体的图像为实时图像。

在一个实施例中，确定模块，包括：

识别子模块，用于利用目标检测算法识别出实时图像内的能够发音的物体，能够发音的物体包括用户在内；

记录子模块，用于记录能够发音的物体中每个物体的具体位置；

第二确定子模块，用于基于具体位置，利用波向传达算法确定出各物体的声源方向。

在一个实施例中，降噪模块，包括：

处理子模块，用于利用固定方向波束形成算法对声音数据作增强处理；

第一确认子模块，用于将增强处理后的声音数据中的人声数据确认为当前带噪信号；

第二确认子模块，用于将增强处理后的声音数据中的噪声数据确认为噪声参考信号；

降噪子模块，用于将当前带噪信号和噪声参考信号输入到波束形成器中作自适应降噪处理。

在一个实施例中，输出模块，包括：

分离子模块，用于利用波束形成器将当前带噪语音中的当前人声成分和当前噪声成分分离；

剔除子模块，用于剔除当前噪声成分，保留当前人声成分；

输出子模块，用于降噪完成，输出当前人声成分。

本领域技术人员应当理解的是，本发明中的第一、第二指的是不同应用阶段而已。

本领域技术用户员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音信号降噪方法，其特征在于，包括以下步骤：

获取实时图像；

分析所述实时图像，从所述实时图像确定出多个声源方向；

输出降噪后的声音数据。

2.根据权利要求1所述语音信号降噪方法，其特征在于，所述获取实时图像，包括：

在实时环境中心设置一个能够360°旋转的摄像头；

确定所述整体的图像为所述实时图像。

3.根据权利要求1所述语音信号降噪方法，其特征在于，所述分析所述实时图像，从所述实时图像确定出多个声源方向，包括：

记录所述能够发音的物体中每个物体的具体位置；

4.根据权利要求1所述语音信号降噪方法，其特征在于，所述根据所述人声方向信息和噪声方向信息对所述实时图像内的声音数据进行降噪，包括：

利用固定方向波束形成算法对所述声音数据作增强处理；

5.根据权利要求4所述语音信号降噪方法，其特征在于，所述输出降噪后的声音数据，包括：

剔除所述当前噪声成分，保留所述当前人声成分；

降噪完成，输出所述当前人声成分。

6.一种语音信号降噪装置，其特征在于，该装置包括：

获取模块，用于获取实时图像；

输出模块，用于输出降噪后的声音数据。

7.根据权利要求6所述语音信号降噪装置，其特征在于，所述获取模块，包括：

8.根据权利要求6所述语音信号降噪装置，其特征在于，所述确定模块，包括：

9.根据权利要求6所述语音信号降噪装置，其特征在于，所述降噪模块，包括：

降噪子模块，用于将所述当前带噪信号和所述噪声参考信号输入到波束形成器中作自适应降噪处理。

10.根据权利要求9所述语音信号降噪装置，其特征在于，所述输出模块，包括：

分离子模块，用于利用所述波束形成器将所述当前带噪语音中的当前人声成分和当前噪声成分分离；

输出子模块，用于降噪完成，输出所述当前人声成分。