CN117119138A

CN117119138A - 一种自动调节会议室环境的控制方法及智能感知会议系统

Info

Publication number: CN117119138A
Application number: CN202311086409.5A
Authority: CN
Inventors: 朱正辉; 单锐杰; 黄小强
Original assignee: Guangdong Baolun Electronics Co ltd
Current assignee: Guangdong Baolun Electronics Co ltd
Priority date: 2023-08-25
Filing date: 2023-08-25
Publication date: 2023-11-24

Abstract

本发明涉及视频会议技术领域，尤其涉及一种自动调节会议室环境的控制方法及智能感知会议系统，方法包括：步骤S1，确定发言人所在视频的背景与纵深，计算纵深补偿参数；步骤S2，确定发言人与发言人到视频采集客户端设备的距离；步骤S3，对发言人的音频信息进行降噪和声响强度调节；步骤S4，将调节好的音频嵌入到视频中并通过网络实时传送至视频通信接收方。本发明通过本发明通过判断视频背景与视频纵深情况计算音频分析纵深补偿参数，通过纵深补偿参数对视频中的音频声响强度进行针对性调节，加强了发言时声音辨识度，减少了视频通信中声音失真、模糊不清的现象。

Description

一种自动调节会议室环境的控制方法及智能感知会议系统

技术领域

本发明涉及视频会议技术领域，尤其涉及一种自动调节会议室环境的控制方法及智能感知会议系统。

背景技术

视讯会议业务是一种多媒体通信手段，利用电视设备和通信网络召开会议，可以同时实现两地或多地之间的图像、语音、数据的交互功能。视讯会议业务一般由视讯终端设备、传输网络、多点控制单元(Mu lt ipo int Contro l Un its，以下简称为：MCU)等几部分组成。视讯终端设备主要包括视频输入/输出设备、音频输入/输出设备、视频编解码器、音频编解码器、信息通信设备及多路复用/信号分线设备等。视讯终端设备的基本功能是将本地摄像机拍摄的图像信号、麦克风拾取的声音信号进行压缩编码，然后发送给传输网络，以传至远方会场；同时，接收远方会场传来的数字信号，经解码后，还原成模拟的图像和声音信号。

视讯会议业务实现了远距离的音视频交流，随着技术的不断进步和发展，出现了可以使远程交流达到面对面的交流效果的网真系统。目前的网真系统利用视讯会议技术实现图像与声音的远程传输，配合整体的外设例如采用尺寸较大的液晶电视机实现”真人大小”，并通过一定的摄像头处理技术实现人们交流时的”眼对眼”，再配上整体的会议室装修方案，使得远程呈现出逼真的效果。当前多人视频会议中由于发言人所处环境不同，常常出现声音失真、模糊不清的现象。

发明内容

为此，本发明提供一种自动调节会议室环境的控制方法及智能感知会议系统，用以克服现有技术中多人会议音频失真模糊的问题。

为实现上述目的，本发明提供一种智能感知会议系统，包括：包括远端服务器、视频采集客户端设备；

所述视频采集客户端设备能够通过网络与所述远端服务器相连，用以将采集到的视频传递至云端服务器；

所述云端服务器内设智能感知分析模块，用以分析带有音频的视频并获取音频位置信息；

智能感知分析模块能够判断视频背景与视频纵深情况计算音频分析纵深补偿参数，通过纵深补偿参数对视频中的音频声响强度进行针对性调节。

进一步地，所述智能感知分析模块内设有背景识别矩阵A0、视频纵深距离矩阵B0、背景对音频补偿参数矩阵C0和视频纵深距离补偿参数矩阵D0，当采用所述智能感知会议系统时，用户通过所述视频采集客户端将通讯视频上传至所述远端服务器，所述智能感知分析模块对提取待识别视频中的背景信息A并将A与矩阵A0内参数作对比，以确定背景对音频补偿参数；智能感知分析模块判断视频纵深距离B并将B与BO内参数作对比以选取视频纵深距离补偿参数；根据背景对音频补偿参数和视频纵深距离补偿参数所述智能感知分析模块计算视频中音频分析纵深补偿参数E。

进一步地，对于背景识别矩阵A0(A1,A2,A3,A4),其中，A1为第一预设视频背景，A2为第二预设视频背景，A3为第三预设视频背景，A4为第四预设视频背景，所述视频背景；

对于视频纵深距离矩阵B0，BO(B1,B2,B3,B4),其中，B1为第一预设视频纵深距离，B2为第二预设视频纵深距离，B3为第三预设视频纵深距离，B4为第四预设视频纵深距离，各所述纵深距离按照顺序依次增大；

对于背景对音频补偿参数矩阵C0，C0(C1,C2,C3,C4),其中，C1为第一预视频设背景对音频补偿参数，C2为第二预视频设背景对音频补偿参数，C3为第三预视频设背景对音频补偿参数，C4为第四预视频设背景对音频补偿参数；

对于视频纵深距离补偿参数矩阵D0，D0(D1,D2,D3,D4),其中，D1为第一预设视频纵深距离补偿参数,D2为第二预设视频纵深距离补偿参数,D3为第三预设视频纵深距离补偿参数,D4为第四预设视频纵深距离补偿参数；

进一步地，当采用所述智能感知会议系统时，用户通过所述视频采集客户端将通讯视频上传至所述远端服务器，所述智能感知分析模块对提取待识别视频中的背景信息A并将A与矩阵A0内参数作对比，以确定背景对音频补偿参数：

当A为第一预设视频背景A1时，智能感知分析模块从C0矩阵中选取C1作为视频设背景对音频补偿参数；

当A为第一预设视频背景A2时，智能感知分析模块从C0矩阵中选取C2作为视频设背景对音频补偿参数；

当A为第一预设视频背景A3时，智能感知分析模块从C0矩阵中选取C3作为视频设背景对音频补偿参数；

当A为第一预设视频背景A4时，智能感知分析模块从C0矩阵中选取C4作为视频设背景对音频补偿参数。

进一步地，当所述智能感知分析模块选取Ci作为视频设背景对音频补偿参数时，i＝1,2,3,4,智能感知分析模块判断视频纵深距离B并将B与BO内参数作对比：

当B≤B1时，智能感知分析模块从D0矩阵中选取D1作为视频纵深距离补偿参数；

当B1＜B≤B2时，智能感知分析模块从D0矩阵中选取D2作为视频纵深距离补偿参数；

当B2＜B≤B3时，智能感知分析模块从D0矩阵中选取D3作为视频纵深距离补偿参数；

当B3＜B≤B4时，智能感知分析模块从D0矩阵中选取D4作为视频纵深距离补偿参数；

当智能感知分析模块选取Ci作为视频设背景对音频补偿参数且选取Dj作为视频纵深距离补偿参数时，智能感知分析模块计算视频中音频分析纵深补偿参数E，E＝f(Ci，Dj)。

进一步地，当采用智能感知会议系统时，所述智能感知分析模块提取发言的通信视频内人体轮廓，当在通信视频只提取到一位人体轮廓时，智能感知分析模块判定该人体轮廓为发言人，智能感知分析模块采集发言人音频信息生成音频矩阵F1(F11,F12,F13,F14,F15)，其中，F11为音频矩阵F1直达声信息，F12为音频矩阵F1反射声信息，F13为音频矩阵F1声音的高频衰减量比，F14为音频矩阵F1混响声信息,F15为音频矩阵F1声响强度；

所述智能感知分析模块计算声音清晰度g并对清晰度g进行调节,g＝f(F11,F12,F13,F14,F15)。

进一步地，所述智能感知分析模块内设有视频通信发言人距离矩阵W0和声响补偿参数矩阵Y0；智能感知分析模块过人体轮廓大小判断发言人与视频采集客户端距离W并将W和矩阵W0内参数做对比以选取声响补偿参数，根据声响补偿参数与音频分析纵深补偿参数E智能感知分析模块对音频矩阵F1声响强度F15进行补偿；

当在通信视频中提取到多个人体轮廓时，所述智能感知分析模块提取视频中所有音频并对音频进行提取，生成音频矩阵组F0(F1,F2,F3,…Fn),其中，F1为视频中第一条音频矩阵，F2为视频中第二条音频矩阵，F3为视频中第三条音频矩阵，…Fn为视频中第n条音频矩阵；智能感知分析模块选取矩阵组F0中最为平稳连续的音频矩阵Fk为发言人音频矩阵，对于视频中第k条音频矩阵Fk,k＝1,2,3…n；智能感知分析模块通过直达声信息Fk1、反射声信息Fk2和音频分析纵深补偿参数E计算发言人距离范围以确定发言人并对音频矩阵Fk进行降噪和调节声响强度。

进一步地，所述智能感知分析模块中还设有音频清晰度参数矩阵G0和声音降噪参数矩阵H0,对于音频清晰度参数矩阵G0，G0(G1,G2,G3,G4),其中，G1为第一预设音频清晰度参数，G2为第二预设音频清晰度参数，G3为第三预设音频清晰度参数，G4为第四预设音频清晰度参数，各所述清晰度参数按照顺序依次增大；

对于声音降噪参数矩阵H0，H0(H1,H2,H3,H4),其中，H1为第一预设声音降噪参数，H2为第二预设声音降噪参数，H3为第三预设声音降噪参数，H4为第四预设声音降噪参数，各所述声音降噪参数按照顺序依次减小；

智能感知分析模块对计算音频矩阵F1的清晰度g并将g与矩阵G0内参数作对比：

当g＜G1时，智能感知分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H1作为声音降噪参数；

当G1≤g＜G2时，智能感知分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H2作为声音降噪参数；

当G2≤g＜G3时，智能感知分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H3作为声音降噪参数；

当G3≤g＜G4时，智能感知分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H4作为声音降噪参数；

当g≥G4时，智能感知分析模块判定音频矩阵F1清晰度合格；

当智能感知分析模块判定音频F1清晰度不合格时，智能感知分析模块对音频矩阵F1进行降噪，降噪后音频矩阵为F1’，F1’＝(F1，Gp),p＝1,2,3,4,智能感知分析模块检测音频矩阵F1’清晰度g’并将g’与矩阵G0内参数作对比，当g’≥G4时，智能感知分析模块判定音频矩阵F1’清晰度合格；当g’＜G4时，重复上述操作，直至g’≥G4。

进一步地，对于频通信发言人距离矩阵W0，W0(W1,W2,W3),W1为第一预设频通信发言人距离，W2为第二预设频通信发言人距离，W3为第三预设频通信发言人距离，各所述距离参数按照顺序依次增大；

对于声响补偿参数矩阵Y0，Y0(Y1,Y2,Y3,Y4),其中，Y1为第一预设声响补偿参数，Y2为第二预设声响补偿参数，Y3为第三预设声响补偿参数，Y4为第四预设声响补偿参数；

智能感知分析模块过人体轮廓大小判断发言人与视频采集客户端距离W并将W与矩阵W0内参数做对比：

当W≤W1时，智能感知分析模块从矩阵Y0中选取Y1作为声响补偿参数；

当W1＜W≤W2时，智能感知分析模块从矩阵Y0中选取Y2作为声响补偿参数；

当W2＜W≤W3时，智能感知分析模块从矩阵Y0中选取Y3作为声响补偿参数；

当W＞W3时，智能感知分析模块从矩阵Y0中选取Y4作为声响补偿参数；

当智能感知分析模块从矩阵选取Yq作为声响补偿参数时，q＝1,2,3,4,智能感知分析模块将音频矩阵F1’的声响强度补偿至F15’,F15’＝F15×Yq×E。

进一步地，所智能感知分析模块中还设有声响标准矩阵Fz和声响调节参数矩阵N0；

对于声响标准矩阵Fz，(Fz1，Fz2)，其中，Fz1为第一预设声响强度，Fz2为第二预设声响强度，Fz1＜Fz2；

对于声响调节参数矩阵N0，(N1，N2),其中，N1为第一预设声响调节参数，N2为第二预设声响调节参数；

所述智能感知分析模块将F15’与矩阵Fz内参数做对比：

当F15’＜Fz1时，智能感知分析模块判定F15’声响强度过低并将声响强度调节至F15”，F15”＝F15’+(Fz1-F15’)×N1；

当Fz1≤F15’＜Fz2时，智能感知分析模块判定F15’声响强度合格；

当F15’≥Fz2时，智能感知分析模块判定F15’声响强度过高并将声响强度调节至F15”，F15”＝F15’-(F15’-Fz2)×N2，

当中控分析模将声响强度调节至F15”时，智能感知分析模块将F15”与矩阵Fz内参数做对比，当Fz1≤F15”＜Fz2时，智能感知分析模块判定F15”声响强度合格；当F15”不在Fz1～Fz2范围时，重复上述操作，直至Fz1≤F15”＜Fz2。

本发明还一种自动调节会议室环境的控制方法，基于上述的智能感知会议系统，包括，

步骤S1，确定发言人所在视频的背景与纵深，计算纵深补偿参数；

步骤S2，确定发言人与发言人到视频采集客户端设备的距离；

步骤S3，对发言人的音频信息进行降噪和声响强度调节；

步骤S4，将调节好的音频嵌入到视频中并通过网络实时传送至视频通信接收方。

与现有技术相比，本发明的有益效果在于，本发明通过分析实时通信视频中音频的直达声信息、反射声信息、声音的高频衰减量比、混响声信息和声响强度计算发言人的声音清晰度并根据清晰度参数和声音降噪参数对发言人声音进行智能降噪，加强了发言时声音辨识度，减少了视频通信中声音失真、模糊不清的现象。

进一步地，本发明通过判断视频背景与视频纵深情况计算音频分析纵深补偿参数，通过纵深补偿参数对视频中的音频声响强度进行针对性调节，进一步加强了发言时声音辨识度，减少了视频通信中声音失真、模糊不清的现象。

进一步地，当通信视频提取到多个人体轮廓时，本发明通过智能感知分析模块对音频Fk进行纵深处理，确定发言人距离范围，从而针对性对音频矩阵Fk进行降噪和调节声响强度操作，进一步加强了发言时声音辨识度，减少了视频通信中声音失真、模糊不清的现象。

附图说明

图1为本发明所述自动调节会议室环境的控制方法的流程示意图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系，这仅仅是为了便于描述，而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1所示，本发明提供一种智能感知会议系统，包括：包括远端服务器、视频采集客户端设备；

具体而言，当采用智能感知会议系统时，所述智能感知分析模块提取发言的通信视频内人体轮廓，当在通信视频只提取到一位人体轮廓时，智能感知分析模块判定该人体轮廓为发言人，智能感知分析模块采集发言人音频信息生成音频矩阵F1(F11,F12,F13,F14,F15)，其中，F11为音频矩阵F1直达声信息，F12为音频矩阵F1反射声信息，F13为音频矩阵F1声音的高频衰减量比，F14为音频矩阵F1混响声信息,F15为音频矩阵F1声响强度；

具体而言，所述智能感知分析模块内设有视频通信发言人距离矩阵W0和声响补偿参数矩阵Y0；智能感知分析模块过人体轮廓大小判断发言人与视频采集客户端距离W并将W和矩阵W0内参数做对比以选取声响补偿参数，根据声响补偿参数与音频分析纵深补偿参数E智能感知分析模块对音频矩阵F1声响强度F15进行补偿；

具体而言，所述智能感知分析模块中还设有音频清晰度参数矩阵G0和声音降噪参数矩阵H0,对于音频清晰度参数矩阵G0，G0(G1,G2,G3,G4),其中，G1为第一预设音频清晰度参数，G2为第二预设音频清晰度参数，G3为第三预设音频清晰度参数，G4为第四预设音频清晰度参数，各所述清晰度参数按照顺序依次增大；

当g≥G4时，智能感知分析模块判定音频矩阵F1清晰度合格；

具体而言，对于频通信发言人距离矩阵W0，W0(W1,W2,W3),W1为第一预设频通信发言人距离，W2为第二预设频通信发言人距离，W3为第三预设频通信发言人距离，各所述距离参数按照顺序依次增大；

具体而言，所智能感知分析模块中还设有声响标准矩阵Fz和声响调节参数矩阵N0；

所述智能感知分析模块将F15’与矩阵Fz内参数做对比：

步骤S3，对发言人的音频信息进行降噪和声响强度调节；

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种智能感知会议系统，其特征在于，包括：包括远端服务器、视频采集客户端设备；

2.根据权利要求1所述的智能感知会议系统，其特征在于，所述智能感知分析模块内设有背景识别矩阵A0、视频纵深距离矩阵B0、背景对音频补偿参数矩阵C0和视频纵深距离补偿参数矩阵D0，当采用所述智能感知会议系统时，用户通过所述视频采集客户端将通讯视频上传至所述远端服务器，所述智能感知分析模块对提取待识别视频中的背景信息A并将A与矩阵A0内参数作对比，以确定背景对音频补偿参数；智能感知分析模块判断视频纵深距离B并将B与BO内参数作对比以选取视频纵深距离补偿参数；根据背景对音频补偿参数和视频纵深距离补偿参数所述智能感知分析模块计算视频中音频分析纵深补偿参数E。

3.根据权利要求2所述的智能感知会议系统，其特征在于，对于背景识别矩阵A0(A1,A2,A3,A4),其中，A1为第一预设视频背景，A2为第二预设视频背景，A3为第三预设视频背景，A4为第四预设视频背景，所述视频背景；

对于视频纵深距离补偿参数矩阵D0，D0(D1,D2,D3,D4),其中，D1为第一预设视频纵深距离补偿参数,D2为第二预设视频纵深距离补偿参数,D3为第三预设视频纵深距离补偿参数,D4为第四预设视频纵深距离补偿参数。

4.根据权利要求3所述的智能感知会议系统，其特征在于，当采用所述智能感知会议系统时，用户通过所述视频采集客户端将通讯视频上传至所述远端服务器，所述智能感知分析模块对提取待识别视频中的背景信息A并将A与矩阵A0内参数作对比，以确定背景对音频补偿参数：

5.根据权利要求4所述的智能感知会议系统，其特征在于，当所述智能感知分析模块选取Ci作为视频设背景对音频补偿参数时，i＝1,2,3,4,智能感知分析模块判断视频纵深距离B并将B与BO内参数作对比：

6.根据权利要求5所述的智能感知会议系统，其特征在于，当采用智能感知会议系统时，所述智能感知分析模块提取发言的通信视频内人体轮廓，当在通信视频只提取到一位人体轮廓时，智能感知分析模块判定该人体轮廓为发言人，智能感知分析模块采集发言人音频信息生成音频矩阵F1(F11,F12,F13,F14,F15)，其中，F11为音频矩阵F1直达声信息，F12为音频矩阵F1反射声信息，F13为音频矩阵F1声音的高频衰减量比，F14为音频矩阵F1混响声信息,F15为音频矩阵F1声响强度；

所述智能感知分析模块计算声音清晰度g并对清晰度g进行调节,g＝f(F11,F12,F13,F14,F15)；

所述智能感知分析模块内设有视频通信发言人距离矩阵W0和声响补偿参数矩阵Y0；智能感知分析模块过人体轮廓大小判断发言人与视频采集客户端距离W并将W和矩阵W0内参数做对比以选取声响补偿参数，根据声响补偿参数与音频分析纵深补偿参数E智能感知分析模块对音频矩阵F1声响强度F15进行补偿；

7.根据权利要求6所述的智能感知会议系统，其特征在于，所述智能感知分析模块中还设有音频清晰度参数矩阵G0和声音降噪参数矩阵H0,对于音频清晰度参数矩阵G0，G0(G1,G2,G3,G4),其中，G1为第一预设音频清晰度参数，G2为第二预设音频清晰度参数，G3为第三预设音频清晰度参数，G4为第四预设音频清晰度参数，各所述清晰度参数按照顺序依次增大；

当g≥G4时，智能感知分析模块判定音频矩阵F1清晰度合格；

8.根据权利要求6所述的智能感知会议系统，其特征在于，对于频通信发言人距离矩阵W0，W0(W1,W2,W3),W1为第一预设频通信发言人距离，W2为第二预设频通信发言人距离，W3为第三预设频通信发言人距离，各所述距离参数按照顺序依次增大；

9.根据权利要求8所述的智能感知会议系统，其特征在于，所智能感知分析模块中还设有声响标准矩阵Fz和声响调节参数矩阵N0；

所述智能感知分析模块将F15’与矩阵Fz内参数做对比：

10.一种自动调节会议室环境的控制方法，基于权利要求1-9任一项所述的智能感知会议系统，其特征在于，包括，

步骤S3，对发言人的音频信息进行降噪和声响强度调节；