CN112911198B

CN112911198B - 一种视频通信中的音频智能降噪的处理系统

Info

Publication number: CN112911198B
Application number: CN202110063901.5A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Guangzhou Bairui Network Technology Co ltd
Current assignee: Guangzhou Bairui Network Technology Co ltd
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2023-04-14
Anticipated expiration: 2041-01-18
Also published as: CN112911198A

Abstract

本发明涉及一种视频通信中的音频智能降噪的处理系统，包括：包括远端服务器、音视频采集客户端；所述音视频采集客户端能够通过网络与所述远端服务器相连，用以将采集到的视频传递至远端服务器；所述远端服务器内设音频智能分析模块，用以分析带有音频的视频并获取音频位置信息。本发明通过分析实时通信视频中音频的直达声信息、反射声信息、声音的高频衰减量比、混响声信息和声响强度计算发言人的声音清晰度并根据清晰度参数和声音降噪参数对发言人声音进行智能降噪，加强了发言时声音辨识度，减少了视频通信中声音失真、模糊不清的现象。

Description

一种视频通信中的音频智能降噪的处理系统

技术领域

本发明涉及网络通信技术领域，尤其涉及一种视频通信中的音频智能降噪的处理系统。

背景技术

视讯会议业务是一种多媒体通信手段，利用电视设备和通信网络召开会议，可以同时实现两地或多地之间的图像、语音、数据的交互功能。视讯会议业务一般由视讯终端设备、传输网络、多点控制单元(Multipoint Control Units，以下简称为：MCU)等几部分组成。视讯终端设备主要包括视频输入 /输出设备、音频输入/输出设备、视频编解码器、音频编解码器、信息通信设备及多路复用/信号分线设备等。视讯终端设备的基本功能是将本地摄像机拍摄的图像信号、麦克风拾取的声音信号进行压缩编码，然后发送给传输网络，以传至远方会场；同时，接收远方会场传来的数字信号，经解码后，还原成模拟的图像和声音信号。

视讯会议业务实现了远距离的音视频交流，随着技术的不断进步和发展，出现了可以使远程交流达到面对面的交流效果的网真系统。目前的网真系统利用视讯会议技术实现图像与声音的远程传输，再配上整体的会议室装修方案，使得远程呈现出逼真的效果。当前多人视频会议中由于发言人所处环境不同，常常出现声音失真、模糊不清的现象。

发明内容

为此，本发明提供一种视频通信中的音频智能降噪的处理系统，用以克服现有技术中多人会议音频失真模糊的问题。

为实现上述目的，本发明提供一种视频通信中的音频智能降噪的处理系统，包括：包括远端服务器、音视频采集客户端；

所述音视频采集客户端能够通过网络与所述远端服务器相连，用以将采集到的视频传递至远端服务器；

所述远端服务器内设音频智能分析模块，用以分析带有音频的视频并获取音频位置信息；

当采用一种视频通信中的音频智能降噪的处理系统时，所述音频智能分析模块提取发言的通信视频内人体轮廓，当在通信视频只提取到一位人体轮廓时，音频智能分析模块判定该人体轮廓为发言人，音频智能分析模块采集发言人音频信息生成音频矩阵F1（F11,F12,F13,F14,F15），其中，F11为音频矩阵F1直达声信息，F12为音频矩阵F1反射声信息，F13为音频矩阵F1声音的高频衰减量比，F14为音频矩阵F1混响声信息,F15为音频矩阵F1声响强度；

所述音频智能分析模块计算声音清晰度g并对清晰度g进行调节,g=F15÷（F11×f11+F12×f12+F13×f13+F14×f14）,其中，f11为F11对清晰度g的补偿参数，f12为F12对清晰度g的补偿参数，f13为F13对清晰度g的补偿参数，f14为F14对清晰度g的补偿参数；

所述音频智能分析模块内设有背景识别矩阵A0、视频纵深距离矩阵B0、背景对音频补偿参数矩阵C0和视频纵深距离补偿参数矩阵D0，当采用所述视频通信中的音频智能降噪的处理系统时，用户通过所述视频采集客户端将通讯视频上传至所述远端服务器，所述音频智能分析模块对提取待识别视频中的背景信息A并将A与矩阵A0内参数作对比，以确定背景对音频补偿参数；音频智能分析模块判断视频纵深距离B并将B与BO内参数作对比以选取视频纵深距离补偿参数；根据背景对音频补偿参数和视频纵深距离补偿参数所述音频智能分析模块计算视频中音频分析纵深补偿参数E；

所述音频智能分析模块内设有视频通信发言人距离矩阵W0和声响补偿参数矩阵Y0；音频智能分析模块通过人体轮廓大小判断发言人与视频采集客户端距离W并将W和矩阵W0内参数做对比以选取声响补偿参数，根据声响补偿参数与音频分析纵深补偿参数E音频智能分析模块对音频矩阵F1声响强度F15进行补偿；

当在通信视频中提取到多个人体轮廓时，所述音频智能分析模块提取视频中所有音频并对音频进行提取，生成音频矩阵组F0(F1,F2,F3,…Fn),其中，F1为视频中第一条音频矩阵，F2为视频中第二条音频矩阵，F3为视频中第三条音频矩阵，…Fn为视频中第n条音频矩阵；音频智能分析模块选取矩阵组F0中最为平稳连续的音频矩阵Fk为发言人音频矩阵，对于视频中第k条音频矩阵Fk,k=1,2,3…n；音频智能分析模块通过直达声信息Fk1、反射声信息Fk2和音频分析纵深补偿参数E计算发言人距离范围以确定发言人并对音频矩阵Fk进行降噪和调节声响强度。

进一步地，所述音频智能分析模块中还设有音频清晰度参数矩阵G0和声音降噪参数矩阵H0,对于音频清晰度参数矩阵G0，G0（G1,G2,G3,G4）,其中，G1为第一预设音频清晰度参数，G2为第二预设音频清晰度参数，G3为第三预设音频清晰度参数，G4为第四预设音频清晰度参数，各所述清晰度参数按照顺序依次增大；

对于声音降噪参数矩阵H0，H0(H1,H2,H3,H4),其中，H1为第一预设声音降噪参数，H2为第二预设声音降噪参数，H3为第三预设声音降噪参数，H4为第四预设声音降噪参数，各所述声音降噪参数按照顺序依次减小；

音频智能分析模块对计算音频矩阵F1的清晰度g并将g与矩阵G0内参数作对比：

当g＜G1时，音频智能分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H1作为声音降噪参数；

当G1≤g＜G2时，音频智能分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H2作为声音降噪参数；

当G2≤g＜G3时，音频智能分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H3作为声音降噪参数；

当G3≤g＜G4时，音频智能分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H4作为声音降噪参数；

当g≥G4时，音频智能分析模块判定音频矩阵F1清晰度合格；

当音频智能分析模块判定音频F1清晰度不合格时，音频智能分析模块对音频矩阵F1进行降噪，降噪后音频矩阵为F1’（F11’,F12’,F13’,F14’,F15），其中，F11’=F11×f1×（G4-g）×Hp,p=1,2,3,4,f1为F11’降噪补偿参数；F12’=F12×f2×（G4-g）×Hp，f2为F12’降噪补偿参数；F13’=F13×f3×（G4-g）×f3为F13’降噪补偿参数；F14’=F14×f4×（G4-g）×Hp,f4为F14’降噪补偿参数；

所述音频智能分析模块检测音频矩阵F1’清晰度g’并将g’与矩阵G0内参数作对比，当g’≥G4时，音频智能分析模块判定音频矩阵F1’清晰度合格；当g’＜G4时，重复上述操作，直至g’≥G4。

进一步地，对于背景识别矩阵A0（A1,A2,A3,A4）,其中，A1为第一预设视频背景，A2为第二预设视频背景，A3为第三预设视频背景，A4为第四预设视频背景，所述视频背景；

对于视频纵深距离矩阵B0，BO（B1,B2,B3,B4）,其中，B1为第一预设视频纵深距离，B2为第二预设视频纵深距离，B3为第三预设视频纵深距离，B4为第四预设视频纵深距离，各所述纵深距离按照顺序依次增大；

对于背景对音频补偿参数矩阵C0，C0(C1,C2,C3,C4),其中，C1为第一预视频设背景对音频补偿参数，C2为第二预视频设背景对音频补偿参数，C3为第三预视频设背景对音频补偿参数，C4为第四预视频设背景对音频补偿参数；

对于视频纵深距离补偿参数矩阵D0，D0(D1,D2,D3,D4),其中，D1为第一预设视频纵深距离补偿参数,D2为第二预设视频纵深距离补偿参数,D3为第三预设视频纵深距离补偿参数,D4为第四预设视频纵深距离补偿参数；

当采用所述视频通信中的音频智能降噪的处理系统时，用户通过所述视频采集客户端将通讯视频上传至所述远端服务器，所述音频智能分析模块对提取待识别视频中的背景信息A并将A与矩阵A0内参数作对比，以确定背景对音频补偿参数：

当A为第一预设视频背景A1时，音频智能分析模块从C0矩阵中选取C1作为视频设背景对音频补偿参数；

当A为第一预设视频背景A2时，音频智能分析模块从C0矩阵中选取C2作为视频设背景对音频补偿参数；

当A为第一预设视频背景A3时，音频智能分析模块从C0矩阵中选取C3作为视频设背景对音频补偿参数；

当A为第一预设视频背景A4时，音频智能分析模块从C0矩阵中选取C4作为视频设背景对音频补偿参数；

当所述音频智能分析模块选取Ci作为视频设背景对音频补偿参数时，i=1,2,3,4,音频智能分析模块判断视频纵深距离B并将B与BO内参数作对比：

当B≤B1时，音频智能分析模块从D0矩阵中选取D1作为视频纵深距离补偿参数；

当B1＜B≤B2时，音频智能分析模块从D0矩阵中选取D2作为视频纵深距离补偿参数；

当B2＜B≤B3时，音频智能分析模块从D0矩阵中选取D3作为视频纵深距离补偿参数；

当B3＜B≤B4时，音频智能分析模块从D0矩阵中选取D4作为视频纵深距离补偿参数；

当音频智能分析模块选取Ci作为视频设背景对音频补偿参数且选取Dj作为视频纵深距离补偿参数时，音频智能分析模块计算视频中音频分析纵深补偿参数E，E=Ci×cz+Dj×dz，其中，cz为Ci对深补偿参数E的权重参数，dz为Di对深补偿参数E的权重参数。

进一步地，对于频通信发言人距离矩阵W0，W0(W1,W2,W3),W1为第一预设频通信发言人距离，W2为第二预设频通信发言人距离，W3为第三预设频通信发言人距离，各所述距离参数按照顺序依次增大；

对于声响补偿参数矩阵Y0，Y0（Y1,Y2,Y3,Y4）,其中，Y1为第一预设声响补偿参数，Y2为第二预设声响补偿参数，Y3为第三预设声响补偿参数，Y4为第四预设声响补偿参数；

音频智能分析模块通过人体轮廓大小判断发言人与视频采集客户端距离W并将W与矩阵W0内参数做对比：

当W≤W1时，音频智能分析模块从矩阵Y0中选取Y1作为声响补偿参数；

当W1＜W≤W2时，音频智能分析模块从矩阵Y0中选取Y2作为声响补偿参数；

当W2＜W≤W3时，音频智能分析模块从矩阵Y0中选取Y3作为声响补偿参数；

当W＞W3时，音频智能分析模块从矩阵Y0中选取Y4作为声响补偿参数；

当音频智能分析模块从矩阵选取Yq作为声响补偿参数时，q=1,2,3,4,音频智能分析模块将音频矩阵F1’的声响强度补偿至F15’,F15’=F15×Yq×E。

进一步地，所音频智能分析模块中还设有声响标准矩阵Fz和声响调节参数矩阵N0;

对于声响标准矩阵Fz，（Fz1，Fz2），其中，Fz1为第一预设声响强度，Fz2为第二预设声响强度，Fz1＜Fz2；

对于声响调节参数矩阵N0，（N1，N2）,其中，N1为第一预设声响调节参数，N2为第二预设声响调节参数；

所述音频智能分析模块将F15’与矩阵Fz内参数做对比：

当F15’＜Fz1时，音频智能分析模块判定F15’声响强度过低并将声响强度调节至F15”，F15”=F15’+（Fz1-F15’）×N1；

当Fz1≤F15’＜Fz2时，音频智能分析模块判定F15’声响强度合格；

当F15’≥Fz2时，音频智能分析模块判定F15’声响强度过高并将声响强度调节至F15”，F15”=F15’-（F15’-Fz2）×N2；

当音频智能分析模块将声响强度调节至F15”时，音频智能分析模块将F15”与矩阵Fz内参数做对比，当Fz1≤F15”＜Fz2时，音频智能分析模块判定F15”声响强度合格；当F15”不在Fz1~Fz2范围时，重复上述操作，直至Fz1≤F15”＜Fz2。

进一步地，当音频智能分析模块判定声响强度合格时，音频智能分析模块将音频矩阵F1’嵌入到视频中并通过网络实时传送至视频通信接收方。

进一步地，当通信视频提取到多个人体轮廓时，所述音频智能分析模块提取视频中所有音频并对音频进行提取，生成音频矩阵组F0；

对于音频矩阵Fk，Fk（Fk1,Fk2,Fk3,Fk4，Fk5）,其中，Fk1为音频矩阵Fk直达声信息，Fk2为音频矩阵Fk反射声信息，Fk3为音频矩阵Fk声音的高频衰减量比，Fk4为音频矩阵Fk混响声信息，FK5为音频矩阵FK声响强度矩阵；

音频智能分析模块对音频Fk进行纵深处理，获取直达声信息Fk1与反射声信息Fk2,所述音频智能分析模块计算直达声信息Fk1与反射声信息Fk2的时间差t1,音频智能分析模块通过所述时间差t1与纵深补偿参数E计算音频Fk纵深距离L,L= t1×E×Z，Z为音频纵深距离补偿参数。

进一步地，所述音频智能分析模块还设有发言人距离范围第一计算参数V1和发言人距离范围第二计算参数V2，V1＜V2；所述音频智能分析模块根据纵深距离L计算发言人与音视频采集客户端距离范围[L1,L2]，L1=L×V1,L2=L×V2;

所述音频智能分析模块提取发言的通信视频中距离视频采集客户端范围[L1,L2]内的人体轮廓，当距离范围[L1,L2]只存在一个人体轮廓时，音频智能分析模块判定此人为发言人。

进一步地，当距离范围[L1,L2]存在多个人体轮廓时，音频智能分析模块统计所有轮廓的距离信息，生成多人距离矩阵M0(M1,M2,M3…),M1为第一人体轮廓到视频采集客户端距离，M2为第二人体轮廓到视频采集客户端距离，M3为第三人体轮廓到视频采集客户端距离，音频智能分析模块分别计算范围[L1,L2]内各人体轮廓距离匹配度Pm,Pm= Mm×z2+F11×f21+F12×f22+F13×f23+F14×f24+F15×f25，其中，z2为Mm 对距离匹配度Pm补偿参数，f21为F11对距离匹配度Pm补偿参数，f22为F12对距离匹配度Pm补偿参数，f23为F13对距离匹配度Pm补偿参数，f24为F14对距离匹配度Pm补偿参数，f25为F15对距离匹配度Pm补偿参数，m=1,2,3…；音频智能分析模块将所有距离匹配度进行对比选取匹配度最高的作为发言人。

进一步地，当在多个人体轮廓中确定发言人后，音频智能分析模块对音频矩阵Fk进行降噪和调节声响强度操作并将将调节好的音频矩阵Fk’嵌入到视频中并通过网络实时传送至视频通信接收方。

与现有技术相比，本发明的有益效果在于，本发明通过分析实时通信视频中音频的直达声信息、反射声信息、声音的高频衰减量比、混响声信息和声响强度计算发言人的声音清晰度并根据清晰度参数和声音降噪参数对发言人声音进行智能降噪，加强了发言时声音辨识度，减少了视频通信中声音失真、模糊不清的现象。

进一步地，本发明通过判断视频背景与视频纵深情况计算音频分析纵深补偿参数，通过纵深补偿参数对视频中的音频声响强度进行针对性调节，进一步加强了发言时声音辨识度，减少了视频通信中声音失真、模糊不清的现象。

进一步地，当通信视频提取到多个人体轮廓时，本发明通过音频智能分析模块对音频Fk进行纵深处理，确定发言人距离范围，从而针对性对音频矩阵Fk进行降噪和调节声响强度操作，进一步加强了发言时声音辨识度，减少了视频通信中声音失真、模糊不清的现象。

附图说明

图1为本发明所述视频通信中的音频智能降噪的处理系统的流程示意图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系，这仅仅是为了便于描述，而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1所示，其为本发明所述视频通信中的音频智能降噪的处理系统的流程示意图。

本发明提供一种视频通信中的音频智能降噪的处理系统，包括：包括远端服务器、音视频采集客户端；

当采用一种视频通信中的音频智能降噪的处理系统时，所述音频智能分析模块提取发言的通信视频内人体轮廓。

实施例一，当在通信视频只提取到一位人体轮廓时，音频智能分析模块判定该人体轮廓为发言人，音频智能分析模块采集发言人音频信息生成音频矩阵F1（F11,F12,F13,F14,F15），其中， F11为音频矩阵F1直达声信息，F12为音频矩阵F1反射声信息，F13为音频矩阵F1声音的高频衰减量比，F14为音频矩阵F1混响声信息,F15为音频矩阵F1声响强度；

所述音频智能分析模块计算声音清晰度g并对清晰度g进行调节,g=f（F11,F12,F13,F14,F15）；

具体而言，所述音频智能分析模块中还设有音频清晰度参数矩阵G0和声音降噪参数矩阵H0,对于音频清晰度参数矩阵G0，G0（G1,G2,G3,G4）,其中，G1为第一预设音频清晰度参数，G2为第二预设音频清晰度参数，G3为第三预设音频清晰度参数，G4为第四预设音频清晰度参数，各所述清晰度参数按照顺序依次增大；

当g≥G4时，音频智能分析模块判定音频矩阵F1清晰度合格；

当音频智能分析模块判定音频F1清晰度不合格时，音频智能分析模块对音频矩阵F1进行降噪，降噪后音频矩阵为F1’，F1’=（F1，Gp）,p=1,2,3,4,音频智能分析模块检测音频矩阵F1’清晰度g’并将g’与矩阵G0内参数作对比，当g’≥G4时，音频智能分析模块判定音频矩阵F1’清晰度合格；当g’＜G4时，重复上述操作，直至g’≥G4；

具体而言，对于背景识别矩阵A0（A1,A2,A3,A4）,其中，A1为第一预设视频背景，A2为第二预设视频背景，A3为第三预设视频背景，A4为第四预设视频背景，所述视频背景；

当音频智能分析模块选取Ci作为视频设背景对音频补偿参数且选取Dj作为视频纵深距离补偿参数时，音频智能分析模块计算视频中音频分析纵深补偿参数E，E=f（Ci，Dj）。

具体而言，对于频通信发言人距离矩阵W0，W0(W1,W2,W3),W1为第一预设频通信发言人距离，W2为第二预设频通信发言人距离，W3为第三预设频通信发言人距离，各所述距离参数按照顺序依次增大；

具体而言，所音频智能分析模块中还设有声响标准矩阵Fz和声响调节参数矩阵N0;

所述音频智能分析模块将F15’与矩阵Fz内参数做对比：

具体而言，当音频智能分析模块判定声响强度合格时，音频智能分析模块将音频矩阵F1’嵌入到视频中并通过网络实时传送至视频通信接收方。

实施例二，当通信视频提取到多个人体轮廓时，所述音频智能分析模块提取视频中所有音频并对音频进行提取，生成音频矩阵组F0(F1,F2,F3,…Fn),其中，F1为视频中第一条音频矩阵，F2为视频中第二条音频矩阵，F3为视频中第三条音频矩阵，…Fn为视频中第n条音频矩阵；

音频智能分析模块选取矩阵组F0中最为平稳连续的音频矩阵Fk为发言人音频矩阵，对于视频中第k条音频矩阵Fk,k=1,2,3…n,Fk（Fk1,Fk2,Fk3,Fk4，Fk5，）,其中， Fk1为音频矩阵Fk直达声信息，Fk2为音频矩阵Fk反射声信息，Fk3为音频矩阵Fk声音的高频衰减量比，Fk4为音频矩阵Fk混响声信息，FK5为音频矩阵FK声响强度矩阵；

音频智能分析模块对音频Fk进行纵深处理，获取直达声信息Fk1与反射声信息Fk2,所述音频智能分析模块计算直达声信息Fk1与反射声信息Fk2的时间差t1,音频智能分析模块通过所述时间差t1与纵深补偿参数E计算音频Fk纵深距离L,L=f(t1,E,Z)，Z为音频纵深距离补偿参数。

具体而言，所述音频智能分析模块还设有发言人距离范围第一计算参数V1和发言人距离范围第二计算参数V2，V1＜V2；所述音频智能分析模块根据纵深距离L计算发言人与音视频采集客户端距离范围[L1,L2]，L1=L×V1,L2=L×V2;

具体而言，当距离范围[L1,L2]存在多个人体轮廓时，音频智能分析模块统计所有轮廓的距离信息，生成多人距离矩阵M0(M1,M2,M3…),M1为第一人体轮廓到视频采集客户端距离，M2为第二人体轮廓到视频采集客户端距离，M3为第三人体轮廓到视频采集客户端距离，音频智能分析模块分别计算范围[L1,L2]内各人体轮廓距离匹配度Pm,Pm=f(Mm,F11,F12,F13,F14,F15），m=1,2,3…；音频智能分析模块将所有距离匹配度进行对比选取匹配度最高的作为发言人。

具体而言，当在多个人体轮廓中确定发言人后，音频智能分析模块对音频矩阵Fk进行降噪和调节声响强度操作并将将调节好的音频矩阵Fk’嵌入到视频中并通过网络实时传送至视频通信接收方。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种视频通信中的音频处理系统，其特征在于，包括：包括远端服务器、视频采集客户端设备；

所述视频采集客户端设备能够通过网络与所述远端服务器相连，用以将采集到的视频传递至云端服务器；

所述云端服务器内设中控分析模块，用以分析带有音频的视频并获取音频位置信息；

当采用一种视频通信中的音频处理系统时，所述中控分析模块提取发言的通信视频内人体轮廓，当在通信视频只提取到一位人体轮廓时，中控分析模块判定该人体轮廓为发言人，中控分析模块采集发言人音频信息生成音频矩阵F1（F1₁,F1₂,F1₃,F1₄,F1₅），其中，F1₁为音频矩阵F1直达声信息，F1₂为音频矩阵F1反射声信息，F1₃为音频矩阵F1声音的高频衰减量比，F1₄为音频矩阵F1混响声信息,F1₅为音频矩阵F1声响强度；

所述中控分析模块计算声音清晰度g并对清晰度g进行调节,g=F1₅÷（F1₁×f11+F1₂×f12+F1₃×f13+F1₄×f14）,其中，f11为F1₁对清晰度g的补偿参数，f12为F1₂对清晰度g的补偿参数，f13为F1₃对清晰度g的补偿参数，f14为F1₄对清晰度g的补偿参数；

所述中控分析模块内设有背景识别矩阵A0、视频纵深距离矩阵B0、背景对音频补偿参数矩阵C0和视频纵深距离补偿参数矩阵D0，所述背景对音频补偿参数矩阵C0中包括若干背景对音频补偿参数，所述视频纵深距离补偿参数矩阵D0中包括若干视频纵深距离补偿参数；

当采用所述视频通信中的音频处理系统时，用户通过所述视频采集客户端将通讯视频上传至所述远端服务器，所述中控分析模块对提取待识别视频中的背景信息A并将A与矩阵A0内参数作对比，以确定背景对音频补偿参数；中控分析模块判断视频纵深距离B并将B与B0内参数作对比以选取视频纵深距离补偿参数；根据背景对音频补偿参数和视频纵深距离补偿参数所述中控分析模块计算音频分析纵深补偿参数E；

所述中控分析模块内设有视频通信发言人距离矩阵W0和声响补偿参数矩阵Y0；所述声响补偿参数矩阵Y0中包含若干声响补偿参数；中控分析模块通过人体轮廓大小判断发言人与视频采集客户端距离W并将W和矩阵W0内参数做对比以选取声响补偿参数，根据声响补偿参数与音频分析纵深补偿参数E中控分析模块对音频矩阵F1声响强度F1₅进行补偿；

当在通信视频中提取到多个人体轮廓时，所述中控分析模块提取视频中所有音频并对音频进行提取，生成音频矩阵组F0(F1,F2,F3,…Fn),其中，F1为视频中第一条音频矩阵，F2为视频中第二条音频矩阵，F3为视频中第三条音频矩阵，…Fn为视频中第n条音频矩阵；中控分析模块选取矩阵组F0中最为平稳连续的音频矩阵Fk为发言人音频矩阵，对于视频中第k条音频矩阵Fk,k=1,2,3…n；中控分析模块通过直达声信息Fk₁、反射声信息Fk₂和音频分析纵深补偿参数E计算发言人距离范围以确定发言人并对音频矩阵Fk进行降噪和调节声响强度；

所述中控分析模块中还设有音频清晰度参数矩阵G0和声音降噪参数矩阵H0,对于音频清晰度参数矩阵G0，G0（G1,G2,G3,G4）,其中，G1为第一预设音频清晰度参数，G2为第二预设音频清晰度参数，G3为第三预设音频清晰度参数，G4为第四预设音频清晰度参数，各所述清晰度参数按照顺序依次增大；

对于声音降噪参数矩阵H0，H0(H1,H2,H3,H4)，其中，H1为第一预设声音降噪参数，H2为第二预设声音降噪参数，H3为第三预设声音降噪参数，H4为第四预设声音降噪参数，各所述声音降噪参数按照顺序依次减小；

中控分析模块计算音频矩阵F1的清晰度g并将g与矩阵G0内参数作对比：

当g＜G1时，中控分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H1作为声音降噪参数；

当G1≤g＜G2时，中控分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H2作为声音降噪参数；

当G2≤g＜G3时，中控分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H3作为声音降噪参数；

当G3≤g＜G4时，中控分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H4作为声音降噪参数；

当g≥G4时，中控分析模块判定音频矩阵F1清晰度合格；

当中控分析模块判定音频F1清晰度不合格时，中控分析模块对音频矩阵F1进行降噪，降噪后音频矩阵为F1’（F1₁’,F1₂’,F1₃’,F1₄’,F1₅），其中，F1₁’=F1₁×f1×（G4-g）×Hp,p=1,2,3,4, f1为F1₁’ 降噪补偿参数；F1₂’=F1₂×f2×（G4-g）×Hp，f2为F1₂’ 降噪补偿参数；F1₃’=F1₃×f3×（G4-g）×Hp，f3为F1₃’降噪补偿参数；F1₄’=F1₄×f4×（G4-g）×Hp, f4为F1₄’ 降噪补偿参数；

所述中控分析模块检测音频矩阵F1’清晰度g’并将g’与矩阵G0内参数作对比，当g’≥G4时，中控分析模块判定音频矩阵F1’清晰度合格；当g’＜G4时，重复上述操作，直至g’≥G4。

2.根据权利要求1所述的视频通信中的音频处理系统，其特征在于，对于背景识别矩阵A0（A1,A2,A3,A4）,其中，A1为第一预设视频背景，A2为第二预设视频背景，A3为第三预设视频背景，A4为第四预设视频背景；

对于背景对音频补偿参数矩阵C0，C0(C1,C2,C3,C4),其中，C1为第一预设视频背景对音频补偿参数，C2为第二预设视频背景对音频补偿参数，C3为第三预设视频背景对音频补偿参数，C4为第一预设视频背景对音频补偿参数；

当采用所述视频通信中的音频处理系统时，用户通过所述视频采集客户端将通讯视频上传至所述远端服务器，所述中控分析模块提取待识别视频中的背景信息A，并将A与矩阵A0内参数作对比，以确定背景对音频补偿参数：

当A为第一预设视频背景A1时，中控分析模块从C0矩阵中选取C1作为背景对音频补偿参数；

当A为第一预设视频背景A2时，中控分析模块从C0矩阵中选取C2作为背景对音频补偿参数；

当A为第一预设视频背景A3时，中控分析模块从C0矩阵中选取C3作为背景对音频补偿参数；

当A为第一预设视频背景A4时，中控分析模块从C0矩阵中选取C4作为背景对音频补偿参数；

当所述中控分析模块选取Ci作为背景对音频补偿参数时，i=1,2,3,4,中控分析模块判断视频纵深距离B并将B与BO内参数作对比：

当B≤B1时，中控分析模块从D0矩阵中选取D1作为视频纵深距离补偿参数；

当B1＜B≤B2时，中控分析模块从D0矩阵中选取D2作为视频纵深距离补偿参数；

当B2＜B≤B3时，中控分析模块从D0矩阵中选取D3作为视频纵深距离补偿参数；

当B3＜B≤B4时，中控分析模块从D0矩阵中选取D4作为视频纵深距离补偿参数；

当中控分析模块选取Ci作为背景对音频补偿参数且选取Dj作为视频纵深距离补偿参数时，中控分析模块计算音频分析纵深补偿参数E，E=Ci×cz+Dj×dz，其中，cz为Ci对音频分析纵深补偿参数E的权重参数，dz为Dj对音频分析纵深补偿参数E的权重参数。

3.根据权利要求2所述的视频通信中的音频处理系统，其特征在于，对于视频通信发言人距离矩阵W0，W0(W1,W2,W3),W1为第一预设视频通信发言人距离，W2为第二预设视频通信发言人距离，W3为第三预设视频通信发言人距离，各所述距离参数按照顺序依次增大；

中控分析模通过人体轮廓大小判断发言人与视频采集客户端距离W并将W与矩阵W0内参数做对比：

当W≤W1时，中控分析模块从矩阵Y0中选取Y1作为声响补偿参数；

当W1＜W≤W2时，中控分析模块从矩阵Y0中选取Y2作为声响补偿参数；

当W2＜W≤W3时，中控分析模块从矩阵Y0中选取Y3作为声响补偿参数；

当W＞W3时，中控分析模块从矩阵Y0中选取Y4作为声响补偿参数；

当中控分析模块从矩阵选取Yq作为声响补偿参数时，q=1,2,3,4,中控分析模块将音频矩阵F1’的声响强度补偿至F1₅’,F1₅’=F1₅×Yq×E。

4.根据权利要求3所述的视频通信中的音频处理系统，其特征在于，所述中控分析模块中还设有声响标准矩阵Fz和声响调节参数矩阵N0；

对于声响标准矩阵Fz，（Fz1,Fz2），其中，Fz1为第一预设声响强度，Fz2为第二预设声响强度，Fz1＜Fz2；

对于声响调节参数矩阵N0，（N1,N2）,其中，N1为第一预设声响调节参数，N2为第二预设声响调节参数；

所述中控分析模块将F1₅’与矩阵Fz内参数做对比：

当F1₅’＜Fz1时，中控分析模块判定F1₅’声响强度过低并将声响强度调节至F1₅”，F1₅”=F1₅’+（Fz1-F1₅’）×N1；

当Fz1≤F1₅’＜Fz2时，中控分析模块判定F1₅’声响强度合格；

当F1₅’≥Fz2时，中控分析模块判定F1₅’声响强度过高并将声响强度调节至F1₅”，F1₅”=F1₅’-（F1₅’-Fz2）×N2；

当中控分析模将声响强度调节至F1₅”时，中控分析模块将F1₅”与矩阵Fz内参数做对比，当Fz1≤F1₅”＜Fz2时，中控分析模块判定F1₅”声响强度合格；当F1₅”不在Fz1~Fz2范围时，重复上述操作，直至Fz1≤F1₅”＜Fz2。

5.根据权利要求4所述的视频通信中的音频处理系统，其特征在于，当中控分析模块判定声响强度合格时，中控分析模块将音频矩阵F1’嵌入到视频中并通过网络实时传送至视频通信接收方。

6.根据权利要求1所述的视频通信中的音频处理系统，其特征在于，当通信视频提取到多个人体轮廓时，所述中控分析模块提取视频中所有音频并对音频进行提取，生成音频矩阵组F0；

对于音频矩阵Fk，Fk（Fk₁,Fk₂,Fk₃,Fk₄,Fk₅），其中，Fk₁为音频矩阵Fk直达声信息，Fk₂为音频矩阵Fk反射声信息，Fk₃为音频矩阵Fk声音的高频衰减量比，Fk₄为音频矩阵Fk混响声信息，Fk₅为音频矩阵Fk声响强度矩阵；

中控分析模块对音频Fk进行纵深处理，获取直达声信息Fk₁与反射声信息Fk₂，所述中控分析模块计算直达声信息Fk₁与反射声信息Fk₂的时间差t1，中控分析模块通过所述时间差t1与音频分析纵深补偿参数E计算音频Fk纵深距离L,L= t1×E×Z，Z为音频纵深距离补偿参数。

7.根据权利要求6所述的视频通信中的音频处理系统，其特征在于，所述中控分析模块还设有发言人距离范围第一计算参数V1和发言人距离范围第二计算参数V2，V1＜V2；所述中控分析模块根据纵深距离L计算发言人与视频采集客户端设备距离范围[L1,L2]，L1=L×V1,L2=L×V2；

所述中控分析模块提取发言的通信视频中距离视频采集客户端范围[L1,L2]内的人体轮廓，当距离范围[L1,L2]只存在一个人体轮廓时，中控分析模块判定此人为发言人。

8.根据权利要求7所述的视频通信中的音频处理系统，其特征在于，当距离范围[L1,L2]存在多个人体轮廓时，中控分析模块统计所有轮廓的距离信息，生成多人距离矩阵M0(M1,M2,M3…)，M1为第一人体轮廓到视频采集客户端距离，M2为第二人体轮廓到视频采集客户端距离，M3为第三人体轮廓到视频采集客户端距离，中控分析模块分别计算范围[L1,L2]内各人体轮廓距离匹配度Pm,Pm= Mm×z2+F1₁×f21+F1₂×f22+F1₃×f23+F1₄×f24+F1₅×f25，其中，z2为Mm 对距离匹配度Pm补偿参数，f21为F1₁对距离匹配度Pm补偿参数，f22为F1₂对距离匹配度Pm补偿参数，f23为F1₃对距离匹配度Pm补偿参数，f24为F1₄对距离匹配度Pm补偿参数，f25为F1₅对距离匹配度Pm补偿参数，m=1,2,3…；中控分析模块将所有距离匹配度进行对比选取匹配度最高的作为发言人。

9.根据权利要求8所述的视频通信中的音频处理系统，其特征在于，当在多个人体轮廓中确定发言人后，中控分析模块对音频矩阵Fk进行降噪和调节声响强度操作并将调节好的音频矩阵Fk’嵌入到视频中并通过网络实时传送至视频通信接收方。