CN113163152B

CN113163152B - 一种多维拾音降噪方法、视频电话会议系统和计算机存储介质

Info

Publication number: CN113163152B
Application number: CN202110343553.7A
Authority: CN
Inventors: 孙宇峰
Original assignee: Jiuyin Nanjing Integrated Circuit Technology Co ltd
Current assignee: Jiuyin Nanjing Integrated Circuit Technology Co ltd
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2022-08-16
Anticipated expiration: 2041-03-30
Also published as: CN113163152A

Abstract

本申请提供一种多维拾音降噪方法、视频电话会议系统和计算机存储介质，该多维拾音降噪方法应用于视频电话会议系统，视频电话会议系统包括麦克风和扬声器，语音的多维拾音降噪方法包括：根据麦克风得到多个不同方位的第一语音信号，对多个第一语音信号分别进行波束合成得到对应的多个第二语音信号，对扬声器发出的声音进行优化处理，再根据麦克风得到第三语音信号，多个第二语音信号分别和第三语音信号进行滤波处理并对应得到多个第四语音信号，对多个第四语音信号进行处理得到通话语音信号。通过上述方式，能够实现通话过程的回声消除和噪音消除，降低了通话噪音，提高了通话质量和效率。

Description

一种多维拾音降噪方法、视频电话会议系统和计算机存储介质

技术领域

本申请涉及通信技术领域，具体涉及一种多维拾音降噪方法、视频电话会议系统和计算机存储介质。

背景技术

随着通信设备在人们日常生活中的广泛普及和使用，人机语音的交互应用技术也越来越成熟和完善，在日常生活和工作中，不可避免的会存在各个企业或个人之间的语音通话，而在通话过程中就会存在回声和噪音，这会极大影响通话各方的通信体验。

因此，如何让多方的通话过程中语音更加清晰，减少通话的回声和噪音是本技术领域的技术人员需要解决的技术问题。

发明内容

本申请提供一种多维拾音降噪方法、视频电话会议系统和计算机存储介质，以解决现有技术中通话过程存在回声及噪音而使得通信效果不佳的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种语音的多维拾音降噪方法，应用于视频电话会议系统，视频电话会议系统包括麦克风和扬声器，语音的多维拾音降噪方法包括：

根据麦克风得到多个不同方位的第一语音信号，对多个第一语音信号分别进行波束合成得到对应的多个第二语音信号。

对扬声器发出的声音进行优化处理，再根据麦克风得到第三语音信号。

多个第二语音信号分别和第三语音信号进行滤波处理并对应得到多个第四语音信号。

对多个第四语音信号进行处理得到通话语音信号。

优选的，对扬声器发出的声音进行优化处理，再根据麦克风得到第三语音信号的步骤包括：

对扬声器发出的扬声器声信号进行谐波计算，并对其进行失真优化处理。

优选的，失真优化处理是在480Hz、960Hz和1440Hz下进行。

优选的，在对扬声器发出的声音进行谐波计算，并对进行失真优化处理的步骤之后还包括：

预设第一频率，在第一频率内对扬声器声信号进行声响提升处理，并通过数模转换发送到扬声器，麦克风拾取其声音信号得到第三语音信号。

优选的，第一频率的范围是3KHz-5KHz。

优选的，对多个第四语音信号进行处理得到通话语音信号的步骤包括：

将多个第四语音信号进行加权处理得到一阶第四语音信号，对一阶第四语音信号进行增益控制后得到通话语音信号。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种视频电话会议系统，包括麦克风、扬声器、存储器和处理器，扬声器用于发声，麦克风用于拾取语音信号，麦克风包括左通道麦克风和右通道麦克风，且左通道麦克风和右通道麦克风呈左右对称，存储器用于存储计算机程序，处理器用于执行计算机程序时实现如上述的多维拾音降噪方法的步骤。

优选的，左通道麦克风和右通道麦克风均为麦克风阵列，麦克风阵列包括至少一个侧部麦克风和一个顶部麦克风，侧部麦克风设置在视频电话会议系统的侧壁，顶部麦克风设置在视频电话会议系统的顶壁。

优选的，相邻两个麦克风的中心点的间距在7mm-37mm范围内。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机存储介质，其特征在于，计算机存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述的多维拾音降噪方法的步骤。

本申请的有益效果是：区别于现有技术的情况，本申请提供一种多维拾音降噪方法、视频电话会议系统和计算机存储介质，该多维拾音降噪方法应用于视频电话会议系统，视频电话会议系统包括麦克风和扬声器，语音的多维拾音降噪方法包括：根据麦克风得到多个不同方位的第一语音信号，对多个第一语音信号分别进行波束合成得到对应的多个第二语音信号，对扬声器发出的声音进行优化处理，再根据麦克风得到第三语音信号，多个第二语音信号分别和第三语音信号进行滤波处理并对应得到多个第四语音信号，对多个第四语音信号进行处理得到通话语音信号。通过上述方式，能够实现通话过程的回声消除和噪音消除，降低了通话噪音，提高了通话质量和效率。

附图说明

为了更清楚地说明申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的情况下，还可以根据这些附图获得其他的附图，其中：

图1是本申请语音的多维拾音降噪方法一实施例的流程示意图；

图2是本申请语音的多维拾音降噪方法又一实施例的流程示意图；

图3是本申请视频电话会议系统一实施例示意图；

图4是本申请视频电话会议系统另一实施例结构示意图；

图5是图4所示实施例中A部分放大示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动情况下所获得的所有其他实施例，均属于本申请保护的范围。

需要说明，若本申请实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本申请实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

请参阅图1，图1是本申请一种语音的多维拾音降噪方法一实施例的流程示意图。本实施例揭示的方法应用于视频电话会议系统，视频电话会议系统包括麦克风和扬声器，语音的多维拾音降噪方法包括：

S1：根据麦克风得到多个不同方位的第一语音信号，对多个第一语音信号分别进行波束合成得到对应的多个第二语音信号。

具体的，波束合成的公式表达为：

y(t)＝W ^H X(t)＝s(t)W ^H α(θ)

上述公式中，W ^H是波束形成权重的最优权值，X(t)是信号源的无偏、最小方差预估值，s(t)是麦克风阵元接收信号，α(θ)是相位差值。

优选的，麦克风为多路和多维度布置，可对不同方向上的声音信号进行360°全方位的拾取。

S2：对扬声器发出的声音进行优化处理，再根据麦克风得到第三语音信号。

S3：多个第二语音信号分别和第三语音信号进行滤波处理并对应得到多个第四语音信号。

具体的，滤波处理的算法为：

h(n+1)＝h(n)+μ(n)e(n)x(n)(1)

上式中，μ是步长因子，h是权向量，X是输入信号向量。

使用滤波算法估算出耳道内的噪音，并生成一个与噪声幅度相同，相位相反的音频信号，抵消耳道内的噪音。

在实际通话过程中，还会存在回声，举例说明，用户A与用户B通话，用户A发出的声信号传输给用户B，用户B耳机的麦克风接收该声波信号，通过用户B的耳机扬声器传出声音后被用户B听取，而用户B发出声波被用户B的麦克风接收，再传输给用户A，实现用户A和B的通话，但在此过程中有可能用户B的麦克风会同时收集到用户B的扬声器发出的用户A的声音，如此一来，用户A也会听取到自己所发出的声音。

而滤波处理是利用滤波器将信号中特定波段频率滤除，可以用来消除回声，同时起到信号抑制和防干扰的作用，且滤波算法有多种，如维纳滤波方法、卡尔曼滤波方法和自适应滤波算法等等，通过滤波处理可以去除掉特定频段的信号，即将通话过程中存在的一些“杂波”进行滤除，举例说明，对海面上的渔船发出的声波信号进行监测时，主要是获取渔船的声波信号，而对于大海的海浪声波信号则是要滤除的“杂波”，通过滤除这些“杂波”，用户彼此通话中可以让想要得到的频段信号重点突显出来，利于增强通话过程中的语音信号清晰度，让用户彼此间能够更清楚的听到通话内容，而非通话内容的频段信号通过该滤波处理去除。

S4：对多个第四语音信号进行处理得到通话语音信号。

优选的，结合图1和图2，对扬声器发出的声音进行优化处理，再根据麦克风得到第三语音信号的步骤包括：

进一步优选的，失真优化处理是在480Hz、960Hz和1440Hz下进行。

优选的，结合图1和图2，在对扬声器发出的声音进行谐波计算，并对进行失真优化处理的步骤之后还包括：

预设第一频率，在第一频率内对扬声器声信号进行声响提升处理，并通过数模转换发送到扬声器，麦克风拾取其声音信号得到第三语音信号。通过声响提升处理，可提高声音的响度，再通过数模转换技术发送到扬声器，由扬声器发出声音信号，再由麦克风拾取该声音信号为第三语音信号。

优选的，第一频率的范围是3KHz-5KHz。

优选的，结合图1和图2，对多个第四语音信号进行处理得到通话语音信号的步骤包括：

进一步优选的，在对一阶第四语音信号进行增益控制后得到通话语音信号的步骤之后，将通话语音信号输出到数模转换器并发送出去。

具体的，权即由测量值精度的不同在平差计算中所取的权重不同，精度越高，权就越大。“加权”的意思就是“乘以权重”，即“乘以系数”的意思，通过加权处理，降低了风噪，可将所需要信号的比重增大，将不需要信号的比重缩小，从而突显重要信号，而滤除“杂质”信号。

权的基本公式为：

在上式中，u是任意常数，是中误差。由此可见，权与中误差平方成反比，即精度越高，权越大。应用上式求一组观测值的权时，必须采用同一个u值。

可以写出各观测值的权之间的比例关系：

可知，一组观测值的权之比等于他们的中误差平方的倒数之比。不论假设u取何值，这组权之间的比例关系不变。所以，权反映了观测值之间的相互精度关系。就计算p值来说，不在乎权本身数值的大小，而在于确定他们之间的比例关系。可以是同一个量的观测中误差，也可以是不同量的观测中误差，即权可以反映同一量的若干个观测值之间的精度高低，也可以反映不同量的观测值之间的精度高低。

加权法举例说明，给出一组数据，其中3出现6次，4出现3次，2出现1次。6、3、1就叫权数。这种方法叫加权法。一般说的平均数，就是把所有的数加起来，再除以这些数的总个数。表示为：(p1+p2+p3+…+pn)/n。但有的数据记录中有一些相同的数据，在计算的时候，哪一个数有几个相同数，就把这个数乘上几，这个几，就叫权，加权，就是乘上几后再加。平均数还是要除以总个数。

还是以上面的各个数为例：

各个数字的个数分别表示为：k1,k2,k3……kn；

加权平均的公式是：(k1p1+k2p2+……knpn)/(k1+k2+……kn)。

进一步举例说明：

学校算期末成绩，期中考试占30％，期末考试占50％，作业占20％，假如某人期中考试得了84，期末92，作业分91，如果是算数平均，那么就是(84+92+91)/3＝89；

那么加权处理后就是84×30％+92×50％+91×20％＝89.4，这是在已知权重的情况下，其中的权重就是30％、50％和20％；那么未知权重的情况下呢？想知道两个班的加权平均值，一班50人，平均80，二班60人，平均82，算数平均是(80+82)/2＝81，加权后是(50*80+60*82)/(50+60)＝81.09。

还有一种情况类似上述，也是人为规定，例如按照专家的分量比较大，老师其次，学生最低，就某观点，满分10分的情况下，专家打8分，老师打6分，学生打7分，但你认为专家权重和老师及学生权重应为0.5:0.3:0.2，那么加权后就是8*0.5+6*0.3+7*0.2＝7.2，而算数平均的话就是(8+6+7)/3＝7，即通过设置不同的权重，让所想要得到的语音信号的比重增加，把那些不需要的“杂波”的比重缩小，进而降低噪音，提升用户通话体验。

进一步优选的，增益控制为自动增益控制，包括AGC环，即闭环电子电路，分为增益受控放大电路和控制电压形成电路两部分，而增益控制可有效对信号的强度进行调节，当信号较弱时，可利用放大电路对信号进行强度的增大，当信号到达一定强度，可对放大电路进行压缩，从而使信号强度降低，以此来达到控制信号强弱的目的，保证输出信号的强弱合适，便于通话各方能够接收到更为清晰的语音。

具体的，放大电路的输出信号u0经检波并经滤波器滤除低频调制分量和噪声后，产生用以控制增益受控放大器的电压uc。当输入信号ui增大时，u0和uc亦随之增大。uc增大使放大电路的增益下降，从而使输出信号的变化量显著小于输入信号的变化量，达到自动增益控制的目的。

优选的，结合图3和图4，本发明还提出了一种视频电话会议系统，包括麦克风1、扬声器2、存储器和处理器3，扬声器2用于发声，麦克风1用于拾取语音信号，麦克风1包括左通道麦克风和右通道麦克风，且左通道麦克风和右通道麦克风呈左右对称，存储器用于存储计算机程序，处理器用于执行计算机程序时实现如上述的多维拾音降噪方法的步骤。

优选的，如图5所示，左通道麦克风和右通道麦克风均为麦克风阵列，麦克风阵列包括至少一个侧部麦克风11和一个顶部麦克风12，侧部麦克风11设置在视频电话会议系统的侧壁，顶部麦克风12设置在视频电话会议系统的顶壁，这种多方向和多维度的麦克风设置形式，会让麦克风的拾音范围和角度增大，能够使得拾取的声信号更加的清晰明确。

进一步优选的，在视频电话会议系统的前壁还设置有前部麦克风13，结合侧部麦克风11和顶部麦克风12实现在三维坐标系三个不同方向上的拾音，使得麦克风拾音的范围达到360°，这在多人通话环境中，不同方位和不同距离的人的语音信号均可以被清晰的拾取，达到全向和全方位的拾音，同时，可根据麦克风的朝向设置，来让拾音变得具有指向性，即麦克风可对特定方向进行指向性拾音。

进一步优选的，如图5所示，每一个麦克风阵列由四个麦克风或六个麦克风组成，分布在不同方向，每个麦克风阵列都是一个方向阵，麦克风阵列相当于一个空间滤波器，可把定位区域进行网格化划分，每个网格点的延迟时间对各个麦克风进行时域的延迟，当通话方发出语音信号时，通过全向或指向性麦克风拾取到不同的入射角度的声音的声波强度是不同的，根据这些声波中声波最强的角度来判断通话过程中发出语音信号那一方的方向。

进一步优选的，扬声器为喇叭阵列，两个喇叭或三个喇叭为一组喇叭阵列。

优选的，根据不同的空间和距离的需求，选取不同的麦克风数量和不同的灵敏度，根据不同的空间和距离的需求，选择不同功率的扬声器或不同数量的扬声器单元组成扬声器组。

优选的，相邻两个麦克风的中心点的间距在7mm-37mm范围内，可最大程度减少麦克风之间的拾音干扰。

本发明还提出了一种计算机存储介质，计算机存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述的多维拾音降噪方法的步骤。

在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音的多维拾音降噪方法，应用于视频电话会议系统，其特征在于，所述视频电话会议系统包括麦克风和扬声器，所述语音的多维拾音降噪方法包括：

根据所述麦克风得到多个不同方位的第一语音信号，对多个所述第一语音信号分别进行波束合成得到对应的多个第二语音信号；

对所述扬声器发出的声音进行优化处理，再根据所述麦克风得到第三语音信号；

多个所述第二语音信号分别和所述第三语音信号进行滤波处理并对应得到多个第四语音信号；

对多个所述第四语音信号进行处理得到通话语音信号；

所述波束合成的公式表达为：

y(t)＝W ^H X(t)＝s(t)W ^H α(θ)

其中，W ^H是波束形成权重的最优权值，X(t)是信号源的无偏、最小方差预估值，s(t)是麦克风阵元接收信号，α(θ)是相位差值。

2.根据权利要求1所述的语音的多维拾音降噪方法，其特征在于，对所述扬声器发出的声音进行优化处理，再根据所述麦克风得到第三语音信号的步骤包括：

对所述扬声器发出的扬声器声信号进行谐波计算，并对其进行失真优化处理。

3.根据权利要求2所述的语音的多维拾音降噪方法，其特征在于，所述失真优化处理是在480Hz、960Hz和1440Hz下进行。

4.根据权利要求2所述的语音的多维拾音降噪方法，其特征在于，在对所述扬声器发出的声音进行谐波计算，并对进行失真优化处理的步骤之后还包括：

预设第一频率，在所述第一频率内对所述扬声器声信号进行声响提升处理，并通过数模转换发送到所述扬声器，所述麦克风拾取其声音信号得到所述第三语音信号。

5.根据权利要求4所述的语音的多维拾音降噪方法，其特征在于，所述第一频率的范围是3KHz-5KHz。

6.根据权利要求1-5任一项所述的多维拾音降噪方法，其特征在于，对多个所述第四语音信号进行处理得到通话语音信号的步骤包括：

将多个所述第四语音信号进行加权处理得到一阶第四语音信号，对所述一阶第四语音信号进行增益控制后得到所述通话语音信号。

7.一种视频电话会议系统，其特征在于，包括麦克风、扬声器、存储器和处理器，所述扬声器用于发声，所述麦克风用于拾取语音信号，所述麦克风包括左通道麦克风和右通道麦克风，且所述左通道麦克风和右通道麦克风呈左右对称，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序时实现如权利要求1-6任一项所述的多维拾音降噪方法的步骤。

8.根据权利要求7所述的视频电话会议系统，其特征在于，所述左通道麦克风和右通道麦克风均为麦克风阵列，所述麦克风阵列包括至少一个侧部麦克风和一个顶部麦克风，所述侧部麦克风设置在所述视频电话会议系统的侧壁，所述顶部麦克风设置在所述视频电话会议系统的顶壁。

9.根据权利要求8所述的视频电话会议系统，其特征在于，相邻两个所述麦克风的中心点的间距在7mm-37mm范围内。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的多维拾音降噪方法的步骤。