CN113628633A

CN113628633A - 用于企业多方会晤的多通道信息传输的降噪方法

Info

Publication number: CN113628633A
Application number: CN202111197519.XA
Authority: CN
Inventors: 徐员梅
Original assignee: Chenfeng Planning Shenzhen Co ltd
Current assignee: Chenfeng Planning Shenzhen Co ltd
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2021-11-09

Abstract

本发明涉及通信降噪处理技术领域，具体涉及用于企业多方会晤的多通道信息传输的降噪方法，包括以下步骤：通过人脸识别的方式确定发言者，随后通过麦克风阵列采集发言者的声音数据；利用神经网络计算出声音数据预设时长所划分的声音区间，并依据声音区间中的噪音概率计算出噪音协方差矩阵；根据中噪音的协方差矩阵以及噪音的协方差矩阵的特征向量计算合并多通道的权值；本发明中通过麦克风阵列采集多通道信号，并利用单个滤波器或者多个滤波器组将时域信号转换成频域信号，以此可以有效地保留声音区间中各个频段信号，再利用神经网络计算出各个频段上存在的噪音概率，可以更加快速有效地计算出噪音的协方差矩阵，提高了原始声音的恢复。

Description

用于企业多方会晤的多通道信息传输的降噪方法

技术领域

本发明涉及通信降噪处理技术领域，具体涉及用于企业多方会晤的多通道信息传输的降噪方法。

背景技术

随着商务活动的日益频繁，企业多方会晤的展开也越来越广泛，在多方会晤中，不同的人在不同的位置并基于会议机中的麦克风进行发言，也就是要所有与会晤有关人员都聚集在一起进行多方会晤，顾名思义会有多人发言，且需要将发言进行一定距离的传输并从扬声器播出，而发言者在发言时，其他与会晤无关的人声、桌椅及拍桌等都会带来噪声，不利于会晤人员获取到准确的会议语音信息，还会导致会晤人员疲惫。

但是，目前的降噪方法是通过语音信号前端处理的，无法区分目标发言者声音和发言者以外的声音，因此无法将发言者以外的声音进行有效抑制，而现有的降噪技术是当发言者发言时，只能通过禁止其他人说话的方式降低人声噪声干扰，这种方式对会晤的进行造成了影响，需要频繁禁止其他人说话，导致会议体验很不好。

发明内容

解决的技术问题

针对现有技术所存在的上述缺点，本发明提供了用于企业多方会晤的多通道信息传输的降噪方法，解决了降噪方法是通过语音信号前端处理的，无法区分目标发言者声音和发言者以外的声音，因此无法将发言者以外的声音进行有效抑制，而现有的降噪技术是当发言者发言时，只能通过禁止其他人说话的方式降低人声噪声干扰，这种方式对会晤的进行造成了影响，需要频繁禁止其他人说话，导致会议体验很不好的问题。

技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

第一方面，用于企业多方会晤的多通道信息传输的降噪方法，包括以下步骤：

S1：通过人脸识别的方式确定发言者，随后通过麦克风阵列采集发言者的声音数据；

S2：利用神经网络计算出声音数据预设时长所划分的声音区间，并依据声音区间中的噪音概率计算出噪音协方差矩阵；

S3：根据S2中噪音的协方差矩阵以及噪音的协方差矩阵的特征向量计算合并多通道的权值；

S4：随后会议机中的麦克风阵列采集发言者的语音，并将采集到的语音输入语音降噪模块；

S5：根据S3中的权值判断声音频段是否为发言者；若声音频段是发言者，语音降噪模块增强发言者的语音，若声音频段不是发言者，语音模块对发言者以外的语音进行屏蔽；

S6：根据S5中若声音频段为发言者，语音降噪模块处理后的语音传输至企业会议机中，并通过扬声器进行播放。

更进一步地，所述麦克风阵列采集发言者的声音数据，并利用单个滤波器或者多个滤波器通过快速傅里叶变换，随后将多通道信号中采集的时域信号转换成频域信号，以获取各个频段的信号。

更进一步地，当采集所述发言者的声音数据前，所述发言者通过麦克风朗读一段文字，随后企业登录设备接收所述发言者的声音数据。

更进一步地，所述声音数据包括语音数据和背景声音，并通过声纹信息从所述声音数据中获取所述发言者的语音数据；其中，从所述声音数据中提取声音特征以形成所述声纹信息中的识别集合，随后企业终端设备通过识别集合识别声音数据中的语音数据。

更进一步地，当利用神经网络计算预设时长所划分的声音区间中各个频段的噪音概率方法时，将提前标注好的所述语音数据输入至所述神经网络中，通过所述神经网络的计算后并输出在声音区间中各个频段上存在的噪音概率。

更进一步地，所述噪音的协方差矩阵的计算方法为：若所述噪音的协方差矩阵为 Φ_f，频域信号为Y_it，则Φ_f=

，其中Y_it表示第i个信道在t时刻的频域信号，则 P_it表示i个信道在t时刻的频域信号概率，N表示通道的数量，

是Y_it的共轭转置：

所述噪音的协方差矩阵的特征向量计算方法为φ_fW_f＝W_f∧，其中所述噪音的协方差矩阵的特征向量为W_f，噪音的协方差矩阵为Φ_f，∧表示特征值的矩阵。

更进一步地，所述计算合并多通道的权值的方法为：

，所述合并多通道的权值为

，

是W_f的共轭转置；

根据所述合并多通道的权值以及所述语音降噪模块输出降噪结果的方法为：

。

第二方面，本发明公开了用于企业多方会晤的多通道信息传输的降噪方法，所述方法用于辅助第一方面所述的用于企业多方会晤的多通道信息传输的降噪方法，包括以下子步骤：

S11：发言者在企业终端设备上通过摄像头拍摄图像，并实名注册；

S12：根据S11注册所生成的注册数据库中包含发言者的图像及用户信息；

S13：发言者通过企业登录设备登录个人用户信息，并进行人脸识别认证，以获取发言登录权限。

更进一步地，所述企业终端设备包括注册模块、自动识别模块、录入模块和数据库存储模块；所述注册模块对首次进入企业多方会晤的所述发言者进行注册，并经所述自动识别模块对所述发言者的身份信息进行验证。

更进一步地，所述录入模块将所述自动识别模块所验证的发言者身份信息进行录入，并将录入的信息储存到所述数据库存储模块中，以获取发言登录权限。

有益效果

采用本发明提供的技术方案，与已知的公有技术相比，具有如下有益效果：

1、本发明中通过麦克风阵列采集多通道信号，并利用单个滤波器或者多个滤波器组将时域信号转换成频域信号，以此可以有效地保留声音区间中各个频段信号，再利用神经网络计算出各个频段上存在的噪音概率，可以更加快速有效地计算出噪音的协方差矩阵，并将噪音概率合并得出合并多通道的权值带入到传统的信号处理框架中，可以快速收敛，计算出噪音的频谱矩阵，而利用具有物理意义的传统信号处理框架，提高了原始声音的恢复，更加真实。

2、本发明中通过用户登录及人脸识别技术验证发言者，并根据发言者的方位及声音频段设置定向拾音的方向，进而通过语音降噪模块增强发言者的语音，同时屏蔽发言者以外的语音进行处理噪音；另外，本案支持发言人与发言人之间的语言交互，同时不会影响会晤室非发言者的听感，提升了企业多方会晤的体验感。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的企业多方会晤降噪方法流程示意图；

图2为本发明的企业多方会晤发言者信息注册流程示意图；

图3为本发明的声音频段线性示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合实施例对本发明作进一步的描述。

实施例1

本实施例的用于企业多方会晤的多通道信息传输的降噪方法，如图1所示，包括以下步骤：

本实施例通过用户登录及人脸识别技术验证发言者，并根据发言者的方位及声音频段设置定向拾音的方向，进而通过语音降噪模块增强发言者的语音，同时屏蔽发言者以外的语音进行处理噪音。

本实施例支持发言人与发言人之间的语言交互，同时不会影响会晤室非发言者的听感，提升了企业多方会晤的体验感。

本发明中，通过麦克风阵列采集多通道信号，并利用单个滤波器或者多个滤波器组将时域信号转换成频域信号，以此可以有效地保留声音区间中各个频段信号，再利用神经网络计算出各个频段上存在的噪音概率，可以更加快速有效地计算出噪音的协方差矩阵，并将噪音概率合并得出合并多通道的权值带入到传统的信号处理框架中，可以快速收敛，计算出噪音的频谱矩阵，而利用具有物理意义的传统信号处理框架，提高了原始声音的恢复，更加真实。

实施例2

如图1至图2所示，麦克风阵列采集发言者的声音数据，并利用单个滤波器或者多个滤波器通过快速傅里叶变换，随后将多通道信号中采集的时域信号转换成频域信号，以获取各个频段的信号。

本实施例当采集发言者的声音数据前，发言者通过麦克风朗读一段文字，随后企业登录设备接收发言者的声音数据。

本实施例声音数据包括语音数据和背景声音，并通过声纹信息从声音数据中获取发言者的语音数据；其中，从声音数据中提取声音特征以形成声纹信息中的识别集合，随后企业终端设备通过识别集合识别声音数据中的语音数据。

本实施例当利用神经网络计算预设时长所划分的声音区间中各个频段的噪音概率方法时，将提前标注好的语音数据输入至神经网络中，通过神经网络的计算后并输出在声音区间中各个频段上存在的噪音概率。

本实施例噪音的协方差矩阵的计算方法为：若噪音的协方差矩阵为Φ_f，频域信号为Y_it，则Φ_f=

，其中Y_it表示第i个信道在t时刻的频域信号，则P_it表示i个信道在t时刻的频域信号概率，N表示通道的数量，

是Y_it的共轭转置：

本实施例噪音的协方差矩阵的特征向量计算方法为φ_fW_f＝W_f∧，其中噪音的协方差矩阵的特征向量为W_f，噪音的协方差矩阵为Φ_f，∧表示特征值的矩阵。

本实施例计算合并多通道的权值的方法为：

，所述合并多通道的权值为

，

是W_f的共轭转置。

本实施例合并多通道的权值以及所述语音降噪模块输出降噪结果的方法为：

。

如图3所示，用于表示甲、乙发言者在同一时间区间中，两者的声音频率，以此会议机中的麦克风根据会晤室内声音区间中的频率进行判断是否为发言者，若是则增强发言者的语音，反之则屏蔽非发言者语音。

本实施例中，通过麦克风阵列采集多通道信号，并利用单个滤波器或者多个滤波器组将时域信号转换成频域信号，以此可以有效地保留声音区间中各个频段信号。

本实施例中，利用神经网络计算出各个频段上存在的噪音概率，可以更加快速有效地计算出噪音的协方差矩阵，并将噪音概率合并得出合并多通道的权值带入到传统的信号处理框架中，可以快速收敛，计算出噪音的频谱矩阵，而利用具有物理意义的传统信号处理框架，提高了原始声音的恢复，更加真实。

本发明中，通过用户登录及人脸识别技术验证发言者，并根据发言者的方位及声音频段设置定向拾音的方向，进而通过语音降噪模块增强发言者的语音，同时屏蔽发言者以外的语音进行处理噪音；另外，本案支持发言人与发言人之间的语言交互，同时不会影响会晤室非发言者的听感，提升了企业多方会晤的体验感。

实施例3

本实施例的用于企业多方会晤的多通道信息传输的降噪方法，方法用于辅助实施例1及实施例2的用于企业多方会晤的多通道信息传输的降噪方法，其用于注册并录入发言者的身份信息，如图2所示，其注册并录入发言者的身份信息方法，包括以下子步骤：

本实施例企业终端设备包括注册模块、自动识别模块、录入模块和数据库存储模块；注册模块对首次进入企业多方会晤的发言者进行注册，并经自动识别模块对发言者的身份信息进行验证。

本实施例录入模块将自动识别模块所验证的发言者身份信息进行录入，并将录入的信息储存到数据库存储模块中，以获取发言登录权限。

本实施例中，通过用户登录及人脸识别技术验证发言者，并根据发言者的方位及声音频段设置定向拾音的方向，进而通过语音降噪模块增强发言者的语音，同时屏蔽发言者以外的语音进行处理噪音。

本实施例中，支持发言人与发言人之间的语言交互，同时不会影响会晤室非发言者的听感，提升了企业多方会晤的体验感。

综上，通过麦克风阵列采集多通道信号，并利用单个滤波器或者多个滤波器组将时域信号转换成频域信号，以此可以有效地保留声音区间中各个频段信号，再利用神经网络计算出各个频段上存在的噪音概率，可以更加快速有效地计算出噪音的协方差矩阵，并将噪音概率合并得出合并多通道的权值带入到传统的信号处理框架中，可以快速收敛，计算出噪音的频谱矩阵，而利用具有物理意义的传统信号处理框架，提高了原始声音的恢复，更加真实；通过用户登录及人脸识别技术验证发言者，并根据发言者的方位及声音频段设置定向拾音的方向，进而通过语音降噪模块增强发言者的语音，同时屏蔽发言者以外的语音进行处理噪音；另外，本案支持发言人与发言人之间的语言交互，同时不会影响会晤室非发言者的听感，提升了企业多方会晤的体验感。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.用于企业多方会晤的多通道信息传输的降噪方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的用于企业多方会晤的多通道信息传输的降噪方法，其特征在于，所述麦克风阵列采集发言者的声音数据，并利用单个滤波器或者多个滤波器通过快速傅里叶变换，随后将多通道信号中采集的时域信号转换成频域信号，以获取各个频段的信号。

3.根据权利要求1所述的用于企业多方会晤的多通道信息传输的降噪方法，其特征在于，当采集所述发言者的声音数据前，所述发言者通过麦克风朗读一段文字，随后企业登录设备接收所述发言者的声音数据。

4.根据权利要求1所述的用于企业多方会晤的多通道信息传输的降噪方法，其特征在于，所述声音数据包括语音数据和背景声音，并通过声纹信息从所述声音数据中获取所述发言者的语音数据；其中，从所述声音数据中提取声音特征以形成所述声纹信息中的识别集合，随后企业终端设备通过识别集合识别声音数据中的语音数据。

5.根据权利要求4所述的用于企业多方会晤的多通道信息传输的降噪方法，其特征在于，当利用神经网络计算预设时长所划分的声音区间中各个频段的噪音概率方法时，将提前标注好的所述语音数据输入至所述神经网络中，通过所述神经网络的计算后并输出在声音区间中各个频段上存在的噪音概率。

6.根据权利要求1所述的用于企业多方会晤的多通道信息传输的降噪方法，其特征在于，所述噪音的协方差矩阵的计算方法为：若所述噪音的协方差矩阵为Φ_f，频域信号为Y_it，则Φ_f=

,其中Y_it表示第i个信道在t时刻的频域信号，则P_it表示i个信道在t时刻的频域信号概率，N表示通道的数量，

是Y_it的共轭转置：

7.根据权利要求6所述的用于企业多方会晤的多通道信息传输的降噪方法，其特征在于，所述计算合并多通道的权值的方法为：

，所述合并多通道的权值为

，

是W_f的共轭转置；

。

8.根据权利要求1所述的用于企业多方会晤的多通道信息传输的降噪方法，所述方法用于辅助如权利要求1-7任一项所述的用于企业多方会晤的多通道信息传输的降噪方法，其特征在于，包括以下子步骤：

9.根据权利要求8所述的用于企业多方会晤的多通道信息传输的降噪方法，其特征在于，所述企业终端设备包括注册模块、自动识别模块、录入模块和数据库存储模块；所述注册模块对首次进入企业多方会晤的所述发言者进行注册，并经所述自动识别模块对所述发言者的身份信息进行验证。

10.根据权利要求9所述的用于企业多方会晤的多通道信息传输的降噪方法，其特征在于，所述录入模块将所述自动识别模块所验证的发言者身份信息进行录入，并将录入的信息储存到所述数据库存储模块中，以获取发言登录权限。