CN112543302B

CN112543302B - 一种多人远程会议中智能降噪的方法和设备

Info

Publication number: CN112543302B
Application number: CN202011396403.4A
Authority: CN
Inventors: 蒋莹
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2023-01-31
Anticipated expiration: 2040-12-03
Also published as: CN112543302A

Abstract

本发明涉及一种多人远程会议中智能降噪的方法和设备，该方法包括：通过人脸识别的方式确定发言者在会议室的方位信息；将方位信息输入会议机中的语音降噪模块，以完成定向拾音方向的配置；通过配置完成的会议机中的麦克风阵列采集发言者的语音，并将采集到的语音输入语音降噪模块；通过语音降噪模块对发言者的方向的语音进行增强，同时对方向以外的其他方向的语音进行抑制；将语音降噪模块处理后的语音传输至其他会议机，并通过所述其他会议机中的扬声器进行播放。本方案可以不用强制禁止非发言人不说话，甚至支持非发言人对发言人进行必要的语音交互，同时不会影响远程会议另一端用户的听感，提升了会议的体验感。

Description

一种多人远程会议中智能降噪的方法和设备

技术领域

本发明涉及降噪技术领域，具体涉及一种多人远程会议中智能降噪的方法和设备。

背景技术

目前，随着商务活动的日益频繁，多人远程会议应用的也越来越广泛，通过多人远程会议，不同的人在不同的位置可以基于网络实现在线会议，不必要所有与会人员都聚集在一起，而多人会议，顾名思义会有多人发言，且需要将发言进行远距离传输，而发言者在发言时，其他与会人员说话会带来噪声，不利于远端的与会人员获取到准确的会议语音信息。

针对这种情况，现有的降噪方法是通过语音信号前端处理的，无法区分目标说话者声音和非目标说话者声音，因此无法将非目标说话者的声音进行有效抑制，具体的当目标说话者发言时只能通过禁止其他人说话的方式降低人声噪声干扰，否则会严重影响会议另一端用户的听感，这种方式对会议的进行造成了影响，需要频繁禁止其他人说话，导致会议体验很不好。

由此，目前需要一种更好的方案来解决现有技术中的问题。

发明内容

本发明提供一种多人远程会议中智能降噪的方法和设备，能够解决目前会议降噪需要禁止其他人发言的方式所造成的会议体验不好的技术问题。

本发明解决上述技术问题的技术方案如下：

本发明实施例提出了一种多人远程会议应用于包括麦克风阵列、语音降噪模块、扬声器的会议机；所述会议机设置在会议室中的固定位置，该方法包括：通过人脸识别的方式确定发言者在会议室的方位信息；将所述方位信息输入所述会议机中的语音降噪模块，以完成定向拾音方向的配置；通过配置完成的所述会议机中的麦克风阵列采集所述发言者的语音，并将采集到的语音输入所述语音降噪模块；通过所述语音降噪模块对所述发言者的方向的语音进行增强，同时对所述方向以外的其他方向的语音进行抑制；将所述语音降噪模块处理后的语音传输至其他会议机，并通过所述其他会议机中的扬声器进行播放。

在一个具体的实施例中，所述会议室还包括：语音识别模块及带有人脸识别模块的抓拍机；所述“通过人脸识别的方式确定发言者在会议室的方位信息”，包括：通过所述语音识别模块以语音识别的方式确定发言者的标识信息；基于所述标识信息在注册数据库中进行查找，确定发言者的人脸图像；其中，注册数据库中包含有各会议参与者的人脸图像与标识信息之间的对应关系；基于所述抓拍机对所述会议室进行拍摄，得到会议现场图片；通过人脸识别模块对所述会议现场图片进行人脸识别，以确定各所述会议参与者的人脸图像；基于所述注册数据库以及各所述会议参与者的人脸图像确定各所述会议参与者的标识信息；基于各所述会议参与者的标识信息以及所述发言者的标识信息确定所述发言者的人脸图像；基于所述发言者的人脸图像确定所述发言者在会议室的方位信息。

在一个具体的实施例中，所述“基于所述发言者的人脸图像确定所述发言者在会议室的方位信息”，包括：基于所述发言者的人脸图像确定所述发言者在所述会议现场图片的位置信息；基于所述位置信息、所述发言者在所述会议现场图片中人脸大小、人脸距离图片中心线的夹角确定所述发言者在会议室的方位信息。

在一个具体的实施例中，所述标识信息包括：姓名。

在一个具体的实施例中，还包括：针对各所述会议参与者，对所述会议参与者进行拍摄，以获取所述会议参与者的人脸图像；将所述会议参与者的人脸图像与所述会议参与者的标识信息进行关联，生成注册数据库。

在一个具体的实施例中，所述“确定发言者的标识信息”，包括：通过提示语音以指定发言者；其中，所述提示语音中包含有标识信息；对所述提示语音进行语音识别，以获取发言者的标识信息。

在一个具体的实施例中，所述会议机中还包括语音识别模块；所述“对所述提示语音进行语音识别，以获取发言者的标识信息”，包括：通过所述语音识别模块对所述提示语音进行语音识别，以确定发言者的标识信息。

本发明实施例还提出了一种多人远程会议中智能降噪的设备，应用于包括麦克风阵列、语音降噪模块、扬声器的会议机；所述会议机设置在会议室中的固定位置，该装置包括：确定模块，用于通过人脸识别的方式确定发言者在会议室的方位信息；配置模块，用于将所述方位信息输入所述会议机中的语音降噪模块，以完成定向拾音方向的配置；输入模块，用于通过配置完成的所述会议机中的麦克风阵列采集所述发言者的语音，并将采集到的语音输入所述语音降噪模块；降噪模块，用于通过所述语音降噪模块对所述发言者的方向的语音进行增强，同时对所述方向以外的其他方向的语音进行抑制；播放模块，用于将所述语音降噪模块处理后的语音传输至其他会议机，并通过所述其他会议机中的扬声器进行播放。

在一个具体的实施例中，所述会议室还包括：带有人脸识别模块的抓拍机；所述确定模块，用于：通过所述语音识别模块以语音识别的方式确定发言者的标识信息；基于所述标识信息在注册数据库中进行查找，确定发言者的人脸图像；其中，注册数据库中包含有各会议参与者的人脸图像与标识信息之间的对应关系；基于所述抓拍机对所述会议室进行拍摄，得到会议现场图片；通过人脸识别模块对所述会议现场图片进行人脸识别，以确定各所述会议参与者的人脸图像；基于所述注册数据库以及各所述会议参与者的人脸图像确定各所述会议参与者的标识信息；

基于各所述会议参与者的标识信息以及所述发言者的标识信息确定所述发言者的人脸图像；基于所述发言者的人脸图像确定所述发言者在会议室的方位信息。

在一个具体的实施例中，所述确定模块“基于所述发言者的人脸图像确定所述发言者在会议室的方位信息”，包括：基于所述发言者的人脸图像确定所述发言者在所述会议现场图片的位置信息；基于所述位置信息、所述发言者在所述会议现场图片中人脸大小、人脸距离图片中心线的夹角确定所述发言者在会议室的方位信息。

本发明的有益效果是：通过人脸识别技术获取发言人的方位信息，根据该方位信息设置定向拾音的方向，进而通过定向拾音技术实现对输入音频的针对性降噪处理。本方案可以不用强制禁止非发言人不说话，甚至支持非发言人对发言人进行必要的语音交互，同时不会影响远程会议另一端用户的听感，提升了会议的体验感。

附图说明

图1为本发明实施例提供的一种多人远程会议中智能降噪的方法的流程示意图；

图2为本发明实施例提供的一种多人远程会议中智能降噪的方法所应用的会议室的结构示意图；

图3为本发明实施例提供的一种多人远程会议中智能降噪的方法中方位信息的获取流程示意图；

图4为本发明实施例提供的一种多人远程会议中智能降噪的方法的示意图；

图5为本发明实施例提供的一种多人远程会议中智能降噪的设备的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

本发明实施例1提供的一种多人远程会议中智能降噪的方法，其特征在于，应用于包括麦克风阵列、语音降噪模块、语音识别模块、扬声器的会议机；所述会议机设置在会议室中的固定位置，如图1所示，该方法包括以下步骤：

步骤101、通过人脸识别的方式确定发言者在会议室的方位信息；

具体的，会议室内的格局如图2所示，涉及到的硬件装置主要包括：抓拍机、会议机，其中抓拍机中包含人脸识别模块，会议机包含麦克风阵列、语音降噪模块、语音识别模块、扬声器，硬件安装或摆放位置如图2所示，会议室内进行会议时，各会议参与者的位置一般是固定的，为此，当有人发言，成为发言者时，可以采用人脸识别的方式识别该发言者，且进一步确定该发言者在会议室的方位信息。

步骤102、将所述方位信息输入所述会议机中的语音降噪模块，以完成定向拾音方向的配置；

具体的，在获取到方位信息后，在语音降噪模块中完成定向拾音方向的配置，以便后续步骤进行降噪处理。

步骤103、通过配置完成的所述会议机中的麦克风阵列采集所述发言者的语音，并将采集到的语音输入所述语音降噪模块；

通过麦克风阵列采集发言者的语音，并将获取到的该语音输入语音降噪模块进行处理，具体的处理如步骤104所示。

步骤104、通过所述语音降噪模块对所述发言者的方向的语音进行增强，同时对所述方向以外的其他方向的语音进行抑制；

具体的，基于步骤103的配置，可以对发言者方向的语音进行定向增强，与此同时，对其他方向的语音进行抑制，可以提高发言人语音的降噪效果。

步骤105、将所述语音降噪模块处理后的语音传输至其他会议机，并通过所述其他会议机中的扬声器进行播放。

基于前述步骤101-104，提高了发言人语音的降噪效果，大大提升会议另一端用户的听感。

可选的，所述会议室还包括：带有人脸识别模块的抓拍机；步骤101中所述“通过人脸识别的方式确定发言者在会议室的方位信息”，如图3所示，包括：

步骤1011、通过所述语音识别模块以语音识别的方式确定发言者的标识信息；

步骤1012、基于所述标识信息在注册数据库中进行查找，确定发言者的人脸图像；其中，注册数据库中包含有各会议参与者的人脸图像与标识信息之间的对应关系；

步骤1013、基于所述抓拍机对所述会议室进行拍摄，得到会议现场图片；

步骤1014、通过人脸识别模块对所述会议现场图片进行人脸识别，以确定各所述会议参与者的人脸图像；

步骤1015、基于所述注册数据库以及各所述会议参与者的人脸图像确定各所述会议参与者的标识信息；

步骤1016、基于各所述会议参与者的标识信息以及所述发言者的标识信息确定所述发言者的人脸图像；

步骤1017、基于所述发言者的人脸图像确定所述发言者在会议室的方位信息。

具体的，所述标识信息包括：姓名。以此，在一个实际的应用场景中，事先建立有注册数据库，该注册数据库中存储有各会议参与者，也可以公司的成员的人脸图像以及标识信息之间的关联关系，后续当确定了发言者的标识信息后，可以基于当前会议所有参与者的人脸图像以及注册数据库进行比对确定哪位参与者作为发言者，进而确定发言者在会议室的方位信息，通过这种方式可以实现对发言者的自动化位置识别，而不需要增加其他额外的设备，且识别的流程简单有效。

可选的，所述“基于所述发言者的人脸图像确定所述发言者在会议室的方位信息”，包括：基于所述发言者的人脸图像确定所述发言者在所述会议现场图片的位置信息；基于所述位置信息、所述发言者在所述会议现场图片中人脸大小、人脸距离图片中心线的夹角确定所述发言者在会议室的方位信息。

具体的，以图形化的方式确定发言者在会议室的方位信息，不需要增加多余的设备，只需要利用本来基于有设置的抓拍设备进行人脸图像的获取，然后通过位置定位的算法，例如三角定位的方法确定发言者在会议室的方位信息，简单有效，且不需要成本降低适应性好。

可选的，还包括：针对各所述会议参与者，对所述会议参与者进行拍摄，以获取所述会议参与者的人脸图像；将所述会议参与者的人脸图像与所述会议参与者的标识信息进行关联，生成注册数据库。

具体的拍摄过程可以为自身通过移动终端进行拍摄后，然后手动输入自身的标识信息，进行关联，最终汇总所有会议参与者得到注册数据库。

可选的，所述“确定发言者的标识信息”，包括：通过提示语音以指定发言者；其中，所述提示语音中包含有标识信息；对所述提示语音进行语音识别，以获取发言者的标识信息(例如为姓名)。通过语音识别(也即把语音信号转变为相应的文本或命令)的这种方式可以很简单有效的确定发言者，也可以有效对发言流程进行控制。

可选的，所述会议机中还包括语音识别模块；所述“对所述提示语音进行语音识别，以获取发言者的标识信息”，包括：通过所述语音识别模块对所述提示语音进行语音识别，以确定发言者的标识信息。

在一个具体的应用场景下，本方案的具体流程，如图4所示，包括如下步骤：

第1步：公司成员在终端设备上通过摄像头拍摄人脸图像，用于不同用户ID(例如为用户的姓名)的注册，最终生成注册数据库，注册数据库中包含有该成员的人脸图像与ID之间的关联关系；

第2步：用户通过特定语音“请XXX发言”指定特定人员发言；

第3步：将第2步的音频传入会议机中的语音识别模块进行识别，得到发言人ID信息；

第4步：会议室抓拍机定期拍摄会议现场图片；

第5步：将抓拍机拍摄的图片送入人脸识别模块进行人脸识别，得到图片中各员工的ID信息；

第6步：将第3步得到的ID信息与第5步得到的ID信息进行匹配，找出发言人在图片中的位置；

第7步：根据发言人在图片中的人脸大小、人脸距离图片中心线的夹角，计算得到发言人在会议室的方位信息；

第8步：将第7步得到的方位信息送入会议机中的语音降噪模块，完成定向拾音方向的配置；

第9步：会议机上的麦克风阵列采集发言人语音，并将采集到的语音送入语音降噪模块；

第10步：语音降噪模块对发言人方向的语音信号进行增强，对其他方向的噪声进行有效抑制；

第11步：将语音降噪模块处理后的音频传入另一端会议机，并通过扬声器进行播放。

本方案通过引入人脸识别技术获取发言人的方位信息，根据该方位信息设置定向拾音的方向，进而基于固定波束形成与广义旁瓣相消算法相结合的定向拾音技术进行有效降噪。

进一步的，本发明实施例2还提出了一种多人远程会议中智能降噪的设备，应用于包括麦克风阵列、语音降噪模块、扬声器的会议机；所述会议机设置在会议室中的固定位置，如图5所示。该装置包括：

确定模块201，用于通过人脸识别的方式确定发言者在会议室的方位信息；

配置模块202，用于将所述方位信息输入所述会议机中的语音降噪模块，以完成定向拾音方向的配置；

输入模块203，用于通过配置完成的所述会议机中的麦克风阵列采集所述发言者的语音，并将采集到的语音输入所述语音降噪模块；

降噪模块204，用于通过所述语音降噪模块对所述发言者的方向的语音进行增强，同时对所述方向以外的其他方向的语音进行抑制；

播放模块205，用于将所述语音降噪模块处理后的语音传输至其他会议机，并通过所述其他会议机中的扬声器进行播放。

在一个具体的实施例中，所述会议室还包括：语音识别模块及带有人脸识别模块的抓拍机；

所述确定模块201，用于：

通过所述语音识别模块以语音识别的方式确定发言者的标识信息；

基于所述标识信息在注册数据库中进行查找，确定发言者的人脸图像；其中，注册数据库中包含有各会议参与者的人脸图像与标识信息之间的对应关系；

基于所述抓拍机对所述会议室进行拍摄，得到会议现场图片；

通过人脸识别模块对所述会议现场图片进行人脸识别，以确定各所述会议参与者的人脸图像；

基于所述注册数据库以及各所述会议参与者的人脸图像确定各所述会议参与者的标识信息；

基于各所述会议参与者的标识信息以及所述发言者的标识信息确定所述发言者的人脸图像；

基于所述发言者的人脸图像确定所述发言者在会议室的方位信息。

在一个具体的实施例中，所述确定模块201“基于所述发言者的人脸图像确定所述发言者在会议室的方位信息”，包括：

基于所述发言者的人脸图像确定所述发言者在所述会议现场图片的位置信息；

基于所述位置信息、所述发言者在所述会议现场图片中人脸大小、人脸距离图片中心线的夹角确定所述发言者在会议室的方位信息。

在一个具体的实施例中，所述标识信息包括：姓名。

在一个具体的实施例中，还包括：注册模块，用于针对各所述会议参与者，对所述会议参与者进行拍摄，以获取所述会议参与者的人脸图像；

将所述会议参与者的人脸图像与所述会议参与者的标识信息进行关联，生成注册数据库。

在一个具体的实施例中，所述确定模块201“确定发言者的标识信息”，包括：

通过提示语音以指定发言者；其中，所述提示语音中包含有标识信息；

对所述提示语音进行语音识别，以获取发言者的标识信息。

在一个具体的实施例中，所述确定模块201“对所述提示语音进行语音识别，以获取发言者的标识信息”，包括：

通过所述语音识别模块对所述提示语音进行语音识别，以确定发言者的标识信息。

目前的语音降噪算法仅通过单一的音频输入，无法对音频中非目标说话者的语音进行针对性消除，而本方案通过人脸识别算法确定发言人方位，并将该方位信息输入至语音降噪算法，通过定向拾音技术实现对输入音频的针对性降噪处理，本方案可以不用强制禁止非发言人不说话，甚至支持非发言人对发言人进行必要的语音交互，但不会影响远程会议另一端用户的听感。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种多人远程会议中智能降噪的方法，其特征在于，应用于包括麦克风阵列、语音降噪模块、扬声器的会议机；所述会议机设置在会议室中的固定位置，该方法包括：

通过人脸识别的方式确定发言者在会议室的方位信息；

将所述方位信息输入所述会议机中的语音降噪模块，以完成定向拾音方向的配置；

通过配置完成的所述会议机中的麦克风阵列采集所述发言者的语音，并将采集到的语音输入所述语音降噪模块；

通过所述语音降噪模块对所述发言者的方向的语音进行增强，同时对所述方向以外的其他方向的语音进行抑制；

将所述语音降噪模块处理后的语音传输至其他会议机，并通过所述其他会议机中的扬声器进行播放；

所述会议室还包括：语音识别模块及带有人脸识别模块的抓拍机；所述“通过人脸识别的方式确定发言者在会议室的方位信息”，包括：通过所述语音识别模块以语音识别的方式确定发言者的标识信息；基于所述标识信息在注册数据库中进行查找，确定发言者的人脸图像；其中，注册数据库中包含有各会议参与者的人脸图像与标识信息之间的对应关系；基于所述抓拍机对所述会议室进行拍摄，得到会议现场图片；通过人脸识别模块对所述会议现场图片进行人脸识别，以确定各所述会议参与者的人脸图像；基于所述注册数据库以及各所述会议参与者的人脸图像确定各所述会议参与者的标识信息；基于各所述会议参与者的标识信息以及所述发言者的标识信息确定所述发言者的人脸图像；基于所述发言者的人脸图像确定所述发言者在会议室的方位信息。

2.根据权利要求1所述的方法，其特征在于，所述“基于所述发言者的人脸图像确定所述发言者在会议室的方位信息”，包括：

3.如权利要求1所述的方法，其特征在于，所述标识信息包括：姓名。

4.如权利要求1所述的方法，其特征在于，还包括：

针对各所述会议参与者，对所述会议参与者进行拍摄，以获取所述会议参与者的人脸图像；

5.如权利要求1所述的方法，其特征在于，所述“确定发言者的标识信息”，包括：

对所述提示语音进行语音识别，以获取发言者的标识信息。

6.如权利要求5所述的方法，其特征在于，

所述“对所述提示语音进行语音识别，以获取发言者的标识信息”，包括：

7.一种多人远程会议中智能降噪的系统，其特征在于，应用于包括麦克风阵列、语音降噪模块、扬声器的会议机；所述会议机设置在会议室中的固定位置，该系统包括：

确定模块，用于通过人脸识别的方式确定发言者在会议室的方位信息；配置模块，用于将所述方位信息输入所述会议机中的语音降噪模块，以完成定向拾音方向的配置；

输入模块，用于通过配置完成的所述会议机中的麦克风阵列采集所述发言者的语音，并将采集到的语音输入所述语音降噪模块；

降噪模块，用于通过所述语音降噪模块对所述发言者的方向的语音进行增强，同时对所述方向以外的其他方向的语音进行抑制；

播放模块，用于将所述语音降噪模块处理后的语音传输至其他会议机，并通过所述其他会议机中的扬声器进行播放；

所述会议室还包括：语音识别模块及带有人脸识别模块的抓拍机；所述确定模块，用于：通过所述语音识别模块以语音识别的方式确定发言者的标识信息；基于所述标识信息在注册数据库中进行查找，确定发言者的人脸图像；其中，注册数据库中包含有各会议参与者的人脸图像与标识信息之间的对应关系；基于所述抓拍机对所述会议室进行拍摄，得到会议现场图片；通过人脸识别模块对所述会议现场图片进行人脸识别，以确定各所述会议参与者的人脸图像；基于所述注册数据库以及各所述会议参与者的人脸图像确定各所述会议参与者的标识信息；基于各所述会议参与者的标识信息以及所述发言者的标识信息确定所述发言者的人脸图像；基于所述发言者的人脸图像确定所述发言者在会议室的方位信息。

8.根据权利要求7所述的系统，其特征在于，所述确定模块“基于所述发言者的人脸图像确定所述发言者在会议室的方位信息”，包括：