CN117119138A - 一种自动调节会议室环境的控制方法及智能感知会议系统 - Google Patents

一种自动调节会议室环境的控制方法及智能感知会议系统 Download PDF

Info

Publication number
CN117119138A
CN117119138A CN202311086409.5A CN202311086409A CN117119138A CN 117119138 A CN117119138 A CN 117119138A CN 202311086409 A CN202311086409 A CN 202311086409A CN 117119138 A CN117119138 A CN 117119138A
Authority
CN
China
Prior art keywords
video
matrix
audio
analysis module
intelligent perception
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202311086409.5A
Other languages
English (en)
Inventor
朱正辉
单锐杰
黄小强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Baolun Electronics Co ltd
Original Assignee
Guangdong Baolun Electronics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Baolun Electronics Co ltd filed Critical Guangdong Baolun Electronics Co ltd
Priority to CN202311086409.5A priority Critical patent/CN117119138A/zh
Publication of CN117119138A publication Critical patent/CN117119138A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明涉及视频会议技术领域,尤其涉及一种自动调节会议室环境的控制方法及智能感知会议系统,方法包括:步骤S1,确定发言人所在视频的背景与纵深,计算纵深补偿参数;步骤S2,确定发言人与发言人到视频采集客户端设备的距离;步骤S3,对发言人的音频信息进行降噪和声响强度调节;步骤S4,将调节好的音频嵌入到视频中并通过网络实时传送至视频通信接收方。本发明通过本发明通过判断视频背景与视频纵深情况计算音频分析纵深补偿参数,通过纵深补偿参数对视频中的音频声响强度进行针对性调节,加强了发言时声音辨识度,减少了视频通信中声音失真、模糊不清的现象。

Description

一种自动调节会议室环境的控制方法及智能感知会议系统
技术领域
本发明涉及视频会议技术领域,尤其涉及一种自动调节会议室环境的控制方法及智能感知会议系统。
背景技术
视讯会议业务是一种多媒体通信手段,利用电视设备和通信网络召开会议,可以同时实现两地或多地之间的图像、语音、数据的交互功能。视讯会议业务一般由视讯终端设备、传输网络、多点控制单元(Mu lt ipo int Contro l Un its,以下简称为:MCU)等几部分组成。视讯终端设备主要包括视频输入/输出设备、音频输入/输出设备、视频编解码器、音频编解码器、信息通信设备及多路复用/信号分线设备等。视讯终端设备的基本功能是将本地摄像机拍摄的图像信号、麦克风拾取的声音信号进行压缩编码,然后发送给传输网络,以传至远方会场;同时,接收远方会场传来的数字信号,经解码后,还原成模拟的图像和声音信号。
视讯会议业务实现了远距离的音视频交流,随着技术的不断进步和发展,出现了可以使远程交流达到面对面的交流效果的网真系统。目前的网真系统利用视讯会议技术实现图像与声音的远程传输,配合整体的外设例如采用尺寸较大的液晶电视机实现”真人大小”,并通过一定的摄像头处理技术实现人们交流时的”眼对眼”,再配上整体的会议室装修方案,使得远程呈现出逼真的效果。当前多人视频会议中由于发言人所处环境不同,常常出现声音失真、模糊不清的现象。
发明内容
为此,本发明提供一种自动调节会议室环境的控制方法及智能感知会议系统,用以克服现有技术中多人会议音频失真模糊的问题。
为实现上述目的,本发明提供一种智能感知会议系统,包括:包括远端服务器、视频采集客户端设备;
所述视频采集客户端设备能够通过网络与所述远端服务器相连,用以将采集到的视频传递至云端服务器;
所述云端服务器内设智能感知分析模块,用以分析带有音频的视频并获取音频位置信息;
智能感知分析模块能够判断视频背景与视频纵深情况计算音频分析纵深补偿参数,通过纵深补偿参数对视频中的音频声响强度进行针对性调节。
进一步地,所述智能感知分析模块内设有背景识别矩阵A0、视频纵深距离矩阵B0、背景对音频补偿参数矩阵C0和视频纵深距离补偿参数矩阵D0,当采用所述智能感知会议系统时,用户通过所述视频采集客户端将通讯视频上传至所述远端服务器,所述智能感知分析模块对提取待识别视频中的背景信息A并将A与矩阵A0内参数作对比,以确定背景对音频补偿参数;智能感知分析模块判断视频纵深距离B并将B与BO内参数作对比以选取视频纵深距离补偿参数;根据背景对音频补偿参数和视频纵深距离补偿参数所述智能感知分析模块计算视频中音频分析纵深补偿参数E。
进一步地,对于背景识别矩阵A0(A1,A2,A3,A4),其中,A1为第一预设视频背景,A2为第二预设视频背景,A3为第三预设视频背景,A4为第四预设视频背景,所述视频背景;
对于视频纵深距离矩阵B0,BO(B1,B2,B3,B4),其中,B1为第一预设视频纵深距离,B2为第二预设视频纵深距离,B3为第三预设视频纵深距离,B4为第四预设视频纵深距离,各所述纵深距离按照顺序依次增大;
对于背景对音频补偿参数矩阵C0,C0(C1,C2,C3,C4),其中,C1为第一预视频设背景对音频补偿参数,C2为第二预视频设背景对音频补偿参数,C3为第三预视频设背景对音频补偿参数,C4为第四预视频设背景对音频补偿参数;
对于视频纵深距离补偿参数矩阵D0,D0(D1,D2,D3,D4),其中,D1为第一预设视频纵深距离补偿参数,D2为第二预设视频纵深距离补偿参数,D3为第三预设视频纵深距离补偿参数,D4为第四预设视频纵深距离补偿参数;
进一步地,当采用所述智能感知会议系统时,用户通过所述视频采集客户端将通讯视频上传至所述远端服务器,所述智能感知分析模块对提取待识别视频中的背景信息A并将A与矩阵A0内参数作对比,以确定背景对音频补偿参数:
当A为第一预设视频背景A1时,智能感知分析模块从C0矩阵中选取C1作为视频设背景对音频补偿参数;
当A为第一预设视频背景A2时,智能感知分析模块从C0矩阵中选取C2作为视频设背景对音频补偿参数;
当A为第一预设视频背景A3时,智能感知分析模块从C0矩阵中选取C3作为视频设背景对音频补偿参数;
当A为第一预设视频背景A4时,智能感知分析模块从C0矩阵中选取C4作为视频设背景对音频补偿参数。
进一步地,当所述智能感知分析模块选取Ci作为视频设背景对音频补偿参数时,i=1,2,3,4,智能感知分析模块判断视频纵深距离B并将B与BO内参数作对比:
当B≤B1时,智能感知分析模块从D0矩阵中选取D1作为视频纵深距离补偿参数;
当B1<B≤B2时,智能感知分析模块从D0矩阵中选取D2作为视频纵深距离补偿参数;
当B2<B≤B3时,智能感知分析模块从D0矩阵中选取D3作为视频纵深距离补偿参数;
当B3<B≤B4时,智能感知分析模块从D0矩阵中选取D4作为视频纵深距离补偿参数;
当智能感知分析模块选取Ci作为视频设背景对音频补偿参数且选取Dj作为视频纵深距离补偿参数时,智能感知分析模块计算视频中音频分析纵深补偿参数E,E=f(Ci,Dj)。
进一步地,当采用智能感知会议系统时,所述智能感知分析模块提取发言的通信视频内人体轮廓,当在通信视频只提取到一位人体轮廓时,智能感知分析模块判定该人体轮廓为发言人,智能感知分析模块采集发言人音频信息生成音频矩阵F1(F11,F12,F13,F14,F15),其中,F11为音频矩阵F1直达声信息,F12为音频矩阵F1反射声信息,F13为音频矩阵F1声音的高频衰减量比,F14为音频矩阵F1混响声信息,F15为音频矩阵F1声响强度;
所述智能感知分析模块计算声音清晰度g并对清晰度g进行调节,g=f(F11,F12,F13,F14,F15)。
进一步地,所述智能感知分析模块内设有视频通信发言人距离矩阵W0和声响补偿参数矩阵Y0;智能感知分析模块过人体轮廓大小判断发言人与视频采集客户端距离W并将W和矩阵W0内参数做对比以选取声响补偿参数,根据声响补偿参数与音频分析纵深补偿参数E智能感知分析模块对音频矩阵F1声响强度F15进行补偿;
当在通信视频中提取到多个人体轮廓时,所述智能感知分析模块提取视频中所有音频并对音频进行提取,生成音频矩阵组F0(F1,F2,F3,…Fn),其中,F1为视频中第一条音频矩阵,F2为视频中第二条音频矩阵,F3为视频中第三条音频矩阵,…Fn为视频中第n条音频矩阵;智能感知分析模块选取矩阵组F0中最为平稳连续的音频矩阵Fk为发言人音频矩阵,对于视频中第k条音频矩阵Fk,k=1,2,3…n;智能感知分析模块通过直达声信息Fk1、反射声信息Fk2和音频分析纵深补偿参数E计算发言人距离范围以确定发言人并对音频矩阵Fk进行降噪和调节声响强度。
进一步地,所述智能感知分析模块中还设有音频清晰度参数矩阵G0和声音降噪参数矩阵H0,对于音频清晰度参数矩阵G0,G0(G1,G2,G3,G4),其中,G1为第一预设音频清晰度参数,G2为第二预设音频清晰度参数,G3为第三预设音频清晰度参数,G4为第四预设音频清晰度参数,各所述清晰度参数按照顺序依次增大;
对于声音降噪参数矩阵H0,H0(H1,H2,H3,H4),其中,H1为第一预设声音降噪参数,H2为第二预设声音降噪参数,H3为第三预设声音降噪参数,H4为第四预设声音降噪参数,各所述声音降噪参数按照顺序依次减小;
智能感知分析模块对计算音频矩阵F1的清晰度g并将g与矩阵G0内参数作对比:
当g<G1时,智能感知分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H1作为声音降噪参数;
当G1≤g<G2时,智能感知分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H2作为声音降噪参数;
当G2≤g<G3时,智能感知分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H3作为声音降噪参数;
当G3≤g<G4时,智能感知分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H4作为声音降噪参数;
当g≥G4时,智能感知分析模块判定音频矩阵F1清晰度合格;
当智能感知分析模块判定音频F1清晰度不合格时,智能感知分析模块对音频矩阵F1进行降噪,降噪后音频矩阵为F1’,F1’=(F1,Gp),p=1,2,3,4,智能感知分析模块检测音频矩阵F1’清晰度g’并将g’与矩阵G0内参数作对比,当g’≥G4时,智能感知分析模块判定音频矩阵F1’清晰度合格;当g’<G4时,重复上述操作,直至g’≥G4。
进一步地,对于频通信发言人距离矩阵W0,W0(W1,W2,W3),W1为第一预设频通信发言人距离,W2为第二预设频通信发言人距离,W3为第三预设频通信发言人距离,各所述距离参数按照顺序依次增大;
对于声响补偿参数矩阵Y0,Y0(Y1,Y2,Y3,Y4),其中,Y1为第一预设声响补偿参数,Y2为第二预设声响补偿参数,Y3为第三预设声响补偿参数,Y4为第四预设声响补偿参数;
智能感知分析模块过人体轮廓大小判断发言人与视频采集客户端距离W并将W与矩阵W0内参数做对比:
当W≤W1时,智能感知分析模块从矩阵Y0中选取Y1作为声响补偿参数;
当W1<W≤W2时,智能感知分析模块从矩阵Y0中选取Y2作为声响补偿参数;
当W2<W≤W3时,智能感知分析模块从矩阵Y0中选取Y3作为声响补偿参数;
当W>W3时,智能感知分析模块从矩阵Y0中选取Y4作为声响补偿参数;
当智能感知分析模块从矩阵选取Yq作为声响补偿参数时,q=1,2,3,4,智能感知分析模块将音频矩阵F1’的声响强度补偿至F15’,F15’=F15×Yq×E。
进一步地,所智能感知分析模块中还设有声响标准矩阵Fz和声响调节参数矩阵N0;
对于声响标准矩阵Fz,(Fz1,Fz2),其中,Fz1为第一预设声响强度,Fz2为第二预设声响强度,Fz1<Fz2;
对于声响调节参数矩阵N0,(N1,N2),其中,N1为第一预设声响调节参数,N2为第二预设声响调节参数;
所述智能感知分析模块将F15’与矩阵Fz内参数做对比:
当F15’<Fz1时,智能感知分析模块判定F15’声响强度过低并将声响强度调节至F15”,F15”=F15’+(Fz1-F15’)×N1;
当Fz1≤F15’<Fz2时,智能感知分析模块判定F15’声响强度合格;
当F15’≥Fz2时,智能感知分析模块判定F15’声响强度过高并将声响强度调节至F15”,F15”=F15’-(F15’-Fz2)×N2,
当中控分析模将声响强度调节至F15”时,智能感知分析模块将F15”与矩阵Fz内参数做对比,当Fz1≤F15”<Fz2时,智能感知分析模块判定F15”声响强度合格;当F15”不在Fz1~Fz2范围时,重复上述操作,直至Fz1≤F15”<Fz2。
本发明还一种自动调节会议室环境的控制方法,基于上述的智能感知会议系统,包括,
步骤S1,确定发言人所在视频的背景与纵深,计算纵深补偿参数;
步骤S2,确定发言人与发言人到视频采集客户端设备的距离;
步骤S3,对发言人的音频信息进行降噪和声响强度调节;
步骤S4,将调节好的音频嵌入到视频中并通过网络实时传送至视频通信接收方。
与现有技术相比,本发明的有益效果在于,本发明通过分析实时通信视频中音频的直达声信息、反射声信息、声音的高频衰减量比、混响声信息和声响强度计算发言人的声音清晰度并根据清晰度参数和声音降噪参数对发言人声音进行智能降噪,加强了发言时声音辨识度,减少了视频通信中声音失真、模糊不清的现象。
进一步地,本发明通过判断视频背景与视频纵深情况计算音频分析纵深补偿参数,通过纵深补偿参数对视频中的音频声响强度进行针对性调节,进一步加强了发言时声音辨识度,减少了视频通信中声音失真、模糊不清的现象。
进一步地,当通信视频提取到多个人体轮廓时,本发明通过智能感知分析模块对音频Fk进行纵深处理,确定发言人距离范围,从而针对性对音频矩阵Fk进行降噪和调节声响强度操作,进一步加强了发言时声音辨识度,减少了视频通信中声音失真、模糊不清的现象。
附图说明
图1为本发明所述自动调节会议室环境的控制方法的流程示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,本发明提供一种智能感知会议系统,包括:包括远端服务器、视频采集客户端设备;
所述视频采集客户端设备能够通过网络与所述远端服务器相连,用以将采集到的视频传递至云端服务器;
所述云端服务器内设智能感知分析模块,用以分析带有音频的视频并获取音频位置信息;
智能感知分析模块能够判断视频背景与视频纵深情况计算音频分析纵深补偿参数,通过纵深补偿参数对视频中的音频声响强度进行针对性调节。
进一步地,所述智能感知分析模块内设有背景识别矩阵A0、视频纵深距离矩阵B0、背景对音频补偿参数矩阵C0和视频纵深距离补偿参数矩阵D0,当采用所述智能感知会议系统时,用户通过所述视频采集客户端将通讯视频上传至所述远端服务器,所述智能感知分析模块对提取待识别视频中的背景信息A并将A与矩阵A0内参数作对比,以确定背景对音频补偿参数;智能感知分析模块判断视频纵深距离B并将B与BO内参数作对比以选取视频纵深距离补偿参数;根据背景对音频补偿参数和视频纵深距离补偿参数所述智能感知分析模块计算视频中音频分析纵深补偿参数E。
进一步地,对于背景识别矩阵A0(A1,A2,A3,A4),其中,A1为第一预设视频背景,A2为第二预设视频背景,A3为第三预设视频背景,A4为第四预设视频背景,所述视频背景;
对于视频纵深距离矩阵B0,BO(B1,B2,B3,B4),其中,B1为第一预设视频纵深距离,B2为第二预设视频纵深距离,B3为第三预设视频纵深距离,B4为第四预设视频纵深距离,各所述纵深距离按照顺序依次增大;
对于背景对音频补偿参数矩阵C0,C0(C1,C2,C3,C4),其中,C1为第一预视频设背景对音频补偿参数,C2为第二预视频设背景对音频补偿参数,C3为第三预视频设背景对音频补偿参数,C4为第四预视频设背景对音频补偿参数;
对于视频纵深距离补偿参数矩阵D0,D0(D1,D2,D3,D4),其中,D1为第一预设视频纵深距离补偿参数,D2为第二预设视频纵深距离补偿参数,D3为第三预设视频纵深距离补偿参数,D4为第四预设视频纵深距离补偿参数;
进一步地,当采用所述智能感知会议系统时,用户通过所述视频采集客户端将通讯视频上传至所述远端服务器,所述智能感知分析模块对提取待识别视频中的背景信息A并将A与矩阵A0内参数作对比,以确定背景对音频补偿参数:
当A为第一预设视频背景A1时,智能感知分析模块从C0矩阵中选取C1作为视频设背景对音频补偿参数;
当A为第一预设视频背景A2时,智能感知分析模块从C0矩阵中选取C2作为视频设背景对音频补偿参数;
当A为第一预设视频背景A3时,智能感知分析模块从C0矩阵中选取C3作为视频设背景对音频补偿参数;
当A为第一预设视频背景A4时,智能感知分析模块从C0矩阵中选取C4作为视频设背景对音频补偿参数。
进一步地,当所述智能感知分析模块选取Ci作为视频设背景对音频补偿参数时,i=1,2,3,4,智能感知分析模块判断视频纵深距离B并将B与BO内参数作对比:
当B≤B1时,智能感知分析模块从D0矩阵中选取D1作为视频纵深距离补偿参数;
当B1<B≤B2时,智能感知分析模块从D0矩阵中选取D2作为视频纵深距离补偿参数;
当B2<B≤B3时,智能感知分析模块从D0矩阵中选取D3作为视频纵深距离补偿参数;
当B3<B≤B4时,智能感知分析模块从D0矩阵中选取D4作为视频纵深距离补偿参数;
当智能感知分析模块选取Ci作为视频设背景对音频补偿参数且选取Dj作为视频纵深距离补偿参数时,智能感知分析模块计算视频中音频分析纵深补偿参数E,E=f(Ci,Dj)。
具体而言,当采用智能感知会议系统时,所述智能感知分析模块提取发言的通信视频内人体轮廓,当在通信视频只提取到一位人体轮廓时,智能感知分析模块判定该人体轮廓为发言人,智能感知分析模块采集发言人音频信息生成音频矩阵F1(F11,F12,F13,F14,F15),其中,F11为音频矩阵F1直达声信息,F12为音频矩阵F1反射声信息,F13为音频矩阵F1声音的高频衰减量比,F14为音频矩阵F1混响声信息,F15为音频矩阵F1声响强度;
所述智能感知分析模块计算声音清晰度g并对清晰度g进行调节,g=f(F11,F12,F13,F14,F15)。
具体而言,所述智能感知分析模块内设有视频通信发言人距离矩阵W0和声响补偿参数矩阵Y0;智能感知分析模块过人体轮廓大小判断发言人与视频采集客户端距离W并将W和矩阵W0内参数做对比以选取声响补偿参数,根据声响补偿参数与音频分析纵深补偿参数E智能感知分析模块对音频矩阵F1声响强度F15进行补偿;
当在通信视频中提取到多个人体轮廓时,所述智能感知分析模块提取视频中所有音频并对音频进行提取,生成音频矩阵组F0(F1,F2,F3,…Fn),其中,F1为视频中第一条音频矩阵,F2为视频中第二条音频矩阵,F3为视频中第三条音频矩阵,…Fn为视频中第n条音频矩阵;智能感知分析模块选取矩阵组F0中最为平稳连续的音频矩阵Fk为发言人音频矩阵,对于视频中第k条音频矩阵Fk,k=1,2,3…n;智能感知分析模块通过直达声信息Fk1、反射声信息Fk2和音频分析纵深补偿参数E计算发言人距离范围以确定发言人并对音频矩阵Fk进行降噪和调节声响强度。
具体而言,所述智能感知分析模块中还设有音频清晰度参数矩阵G0和声音降噪参数矩阵H0,对于音频清晰度参数矩阵G0,G0(G1,G2,G3,G4),其中,G1为第一预设音频清晰度参数,G2为第二预设音频清晰度参数,G3为第三预设音频清晰度参数,G4为第四预设音频清晰度参数,各所述清晰度参数按照顺序依次增大;
对于声音降噪参数矩阵H0,H0(H1,H2,H3,H4),其中,H1为第一预设声音降噪参数,H2为第二预设声音降噪参数,H3为第三预设声音降噪参数,H4为第四预设声音降噪参数,各所述声音降噪参数按照顺序依次减小;
智能感知分析模块对计算音频矩阵F1的清晰度g并将g与矩阵G0内参数作对比:
当g<G1时,智能感知分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H1作为声音降噪参数;
当G1≤g<G2时,智能感知分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H2作为声音降噪参数;
当G2≤g<G3时,智能感知分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H3作为声音降噪参数;
当G3≤g<G4时,智能感知分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H4作为声音降噪参数;
当g≥G4时,智能感知分析模块判定音频矩阵F1清晰度合格;
当智能感知分析模块判定音频F1清晰度不合格时,智能感知分析模块对音频矩阵F1进行降噪,降噪后音频矩阵为F1’,F1’=(F1,Gp),p=1,2,3,4,智能感知分析模块检测音频矩阵F1’清晰度g’并将g’与矩阵G0内参数作对比,当g’≥G4时,智能感知分析模块判定音频矩阵F1’清晰度合格;当g’<G4时,重复上述操作,直至g’≥G4。
具体而言,对于频通信发言人距离矩阵W0,W0(W1,W2,W3),W1为第一预设频通信发言人距离,W2为第二预设频通信发言人距离,W3为第三预设频通信发言人距离,各所述距离参数按照顺序依次增大;
对于声响补偿参数矩阵Y0,Y0(Y1,Y2,Y3,Y4),其中,Y1为第一预设声响补偿参数,Y2为第二预设声响补偿参数,Y3为第三预设声响补偿参数,Y4为第四预设声响补偿参数;
智能感知分析模块过人体轮廓大小判断发言人与视频采集客户端距离W并将W与矩阵W0内参数做对比:
当W≤W1时,智能感知分析模块从矩阵Y0中选取Y1作为声响补偿参数;
当W1<W≤W2时,智能感知分析模块从矩阵Y0中选取Y2作为声响补偿参数;
当W2<W≤W3时,智能感知分析模块从矩阵Y0中选取Y3作为声响补偿参数;
当W>W3时,智能感知分析模块从矩阵Y0中选取Y4作为声响补偿参数;
当智能感知分析模块从矩阵选取Yq作为声响补偿参数时,q=1,2,3,4,智能感知分析模块将音频矩阵F1’的声响强度补偿至F15’,F15’=F15×Yq×E。
具体而言,所智能感知分析模块中还设有声响标准矩阵Fz和声响调节参数矩阵N0;
对于声响标准矩阵Fz,(Fz1,Fz2),其中,Fz1为第一预设声响强度,Fz2为第二预设声响强度,Fz1<Fz2;
对于声响调节参数矩阵N0,(N1,N2),其中,N1为第一预设声响调节参数,N2为第二预设声响调节参数;
所述智能感知分析模块将F15’与矩阵Fz内参数做对比:
当F15’<Fz1时,智能感知分析模块判定F15’声响强度过低并将声响强度调节至F15”,F15”=F15’+(Fz1-F15’)×N1;
当Fz1≤F15’<Fz2时,智能感知分析模块判定F15’声响强度合格;
当F15’≥Fz2时,智能感知分析模块判定F15’声响强度过高并将声响强度调节至F15”,F15”=F15’-(F15’-Fz2)×N2,
当中控分析模将声响强度调节至F15”时,智能感知分析模块将F15”与矩阵Fz内参数做对比,当Fz1≤F15”<Fz2时,智能感知分析模块判定F15”声响强度合格;当F15”不在Fz1~Fz2范围时,重复上述操作,直至Fz1≤F15”<Fz2。
本发明还一种自动调节会议室环境的控制方法,基于上述的智能感知会议系统,包括,
步骤S1,确定发言人所在视频的背景与纵深,计算纵深补偿参数;
步骤S2,确定发言人与发言人到视频采集客户端设备的距离;
步骤S3,对发言人的音频信息进行降噪和声响强度调节;
步骤S4,将调节好的音频嵌入到视频中并通过网络实时传送至视频通信接收方。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种智能感知会议系统,其特征在于,包括:包括远端服务器、视频采集客户端设备;
所述视频采集客户端设备能够通过网络与所述远端服务器相连,用以将采集到的视频传递至云端服务器;
所述云端服务器内设智能感知分析模块,用以分析带有音频的视频并获取音频位置信息;
智能感知分析模块能够判断视频背景与视频纵深情况计算音频分析纵深补偿参数,通过纵深补偿参数对视频中的音频声响强度进行针对性调节。
2.根据权利要求1所述的智能感知会议系统,其特征在于,所述智能感知分析模块内设有背景识别矩阵A0、视频纵深距离矩阵B0、背景对音频补偿参数矩阵C0和视频纵深距离补偿参数矩阵D0,当采用所述智能感知会议系统时,用户通过所述视频采集客户端将通讯视频上传至所述远端服务器,所述智能感知分析模块对提取待识别视频中的背景信息A并将A与矩阵A0内参数作对比,以确定背景对音频补偿参数;智能感知分析模块判断视频纵深距离B并将B与BO内参数作对比以选取视频纵深距离补偿参数;根据背景对音频补偿参数和视频纵深距离补偿参数所述智能感知分析模块计算视频中音频分析纵深补偿参数E。
3.根据权利要求2所述的智能感知会议系统,其特征在于,对于背景识别矩阵A0(A1,A2,A3,A4),其中,A1为第一预设视频背景,A2为第二预设视频背景,A3为第三预设视频背景,A4为第四预设视频背景,所述视频背景;
对于视频纵深距离矩阵B0,BO(B1,B2,B3,B4),其中,B1为第一预设视频纵深距离,B2为第二预设视频纵深距离,B3为第三预设视频纵深距离,B4为第四预设视频纵深距离,各所述纵深距离按照顺序依次增大;
对于背景对音频补偿参数矩阵C0,C0(C1,C2,C3,C4),其中,C1为第一预视频设背景对音频补偿参数,C2为第二预视频设背景对音频补偿参数,C3为第三预视频设背景对音频补偿参数,C4为第四预视频设背景对音频补偿参数;
对于视频纵深距离补偿参数矩阵D0,D0(D1,D2,D3,D4),其中,D1为第一预设视频纵深距离补偿参数,D2为第二预设视频纵深距离补偿参数,D3为第三预设视频纵深距离补偿参数,D4为第四预设视频纵深距离补偿参数。
4.根据权利要求3所述的智能感知会议系统,其特征在于,当采用所述智能感知会议系统时,用户通过所述视频采集客户端将通讯视频上传至所述远端服务器,所述智能感知分析模块对提取待识别视频中的背景信息A并将A与矩阵A0内参数作对比,以确定背景对音频补偿参数:
当A为第一预设视频背景A1时,智能感知分析模块从C0矩阵中选取C1作为视频设背景对音频补偿参数;
当A为第一预设视频背景A2时,智能感知分析模块从C0矩阵中选取C2作为视频设背景对音频补偿参数;
当A为第一预设视频背景A3时,智能感知分析模块从C0矩阵中选取C3作为视频设背景对音频补偿参数;
当A为第一预设视频背景A4时,智能感知分析模块从C0矩阵中选取C4作为视频设背景对音频补偿参数。
5.根据权利要求4所述的智能感知会议系统,其特征在于,当所述智能感知分析模块选取Ci作为视频设背景对音频补偿参数时,i=1,2,3,4,智能感知分析模块判断视频纵深距离B并将B与BO内参数作对比:
当B≤B1时,智能感知分析模块从D0矩阵中选取D1作为视频纵深距离补偿参数;
当B1<B≤B2时,智能感知分析模块从D0矩阵中选取D2作为视频纵深距离补偿参数;
当B2<B≤B3时,智能感知分析模块从D0矩阵中选取D3作为视频纵深距离补偿参数;
当B3<B≤B4时,智能感知分析模块从D0矩阵中选取D4作为视频纵深距离补偿参数;
当智能感知分析模块选取Ci作为视频设背景对音频补偿参数且选取Dj作为视频纵深距离补偿参数时,智能感知分析模块计算视频中音频分析纵深补偿参数E,E=f(Ci,Dj)。
6.根据权利要求5所述的智能感知会议系统,其特征在于,当采用智能感知会议系统时,所述智能感知分析模块提取发言的通信视频内人体轮廓,当在通信视频只提取到一位人体轮廓时,智能感知分析模块判定该人体轮廓为发言人,智能感知分析模块采集发言人音频信息生成音频矩阵F1(F11,F12,F13,F14,F15),其中,F11为音频矩阵F1直达声信息,F12为音频矩阵F1反射声信息,F13为音频矩阵F1声音的高频衰减量比,F14为音频矩阵F1混响声信息,F15为音频矩阵F1声响强度;
所述智能感知分析模块计算声音清晰度g并对清晰度g进行调节,g=f(F11,F12,F13,F14,F15);
所述智能感知分析模块内设有视频通信发言人距离矩阵W0和声响补偿参数矩阵Y0;智能感知分析模块过人体轮廓大小判断发言人与视频采集客户端距离W并将W和矩阵W0内参数做对比以选取声响补偿参数,根据声响补偿参数与音频分析纵深补偿参数E智能感知分析模块对音频矩阵F1声响强度F15进行补偿;
当在通信视频中提取到多个人体轮廓时,所述智能感知分析模块提取视频中所有音频并对音频进行提取,生成音频矩阵组F0(F1,F2,F3,…Fn),其中,F1为视频中第一条音频矩阵,F2为视频中第二条音频矩阵,F3为视频中第三条音频矩阵,…Fn为视频中第n条音频矩阵;智能感知分析模块选取矩阵组F0中最为平稳连续的音频矩阵Fk为发言人音频矩阵,对于视频中第k条音频矩阵Fk,k=1,2,3…n;智能感知分析模块通过直达声信息Fk1、反射声信息Fk2和音频分析纵深补偿参数E计算发言人距离范围以确定发言人并对音频矩阵Fk进行降噪和调节声响强度。
7.根据权利要求6所述的智能感知会议系统,其特征在于,所述智能感知分析模块中还设有音频清晰度参数矩阵G0和声音降噪参数矩阵H0,对于音频清晰度参数矩阵G0,G0(G1,G2,G3,G4),其中,G1为第一预设音频清晰度参数,G2为第二预设音频清晰度参数,G3为第三预设音频清晰度参数,G4为第四预设音频清晰度参数,各所述清晰度参数按照顺序依次增大;
对于声音降噪参数矩阵H0,H0(H1,H2,H3,H4),其中,H1为第一预设声音降噪参数,H2为第二预设声音降噪参数,H3为第三预设声音降噪参数,H4为第四预设声音降噪参数,各所述声音降噪参数按照顺序依次减小;
智能感知分析模块对计算音频矩阵F1的清晰度g并将g与矩阵G0内参数作对比:
当g<G1时,智能感知分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H1作为声音降噪参数;
当G1≤g<G2时,智能感知分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H2作为声音降噪参数;
当G2≤g<G3时,智能感知分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H3作为声音降噪参数;
当G3≤g<G4时,智能感知分析模块判定音频矩阵F1清晰度不合格并从矩阵H0中选取H4作为声音降噪参数;
当g≥G4时,智能感知分析模块判定音频矩阵F1清晰度合格;
当智能感知分析模块判定音频F1清晰度不合格时,智能感知分析模块对音频矩阵F1进行降噪,降噪后音频矩阵为F1’,F1’=(F1,Gp),p=1,2,3,4,智能感知分析模块检测音频矩阵F1’清晰度g’并将g’与矩阵G0内参数作对比,当g’≥G4时,智能感知分析模块判定音频矩阵F1’清晰度合格;当g’<G4时,重复上述操作,直至g’≥G4。
8.根据权利要求6所述的智能感知会议系统,其特征在于,对于频通信发言人距离矩阵W0,W0(W1,W2,W3),W1为第一预设频通信发言人距离,W2为第二预设频通信发言人距离,W3为第三预设频通信发言人距离,各所述距离参数按照顺序依次增大;
对于声响补偿参数矩阵Y0,Y0(Y1,Y2,Y3,Y4),其中,Y1为第一预设声响补偿参数,Y2为第二预设声响补偿参数,Y3为第三预设声响补偿参数,Y4为第四预设声响补偿参数;
智能感知分析模块过人体轮廓大小判断发言人与视频采集客户端距离W并将W与矩阵W0内参数做对比:
当W≤W1时,智能感知分析模块从矩阵Y0中选取Y1作为声响补偿参数;
当W1<W≤W2时,智能感知分析模块从矩阵Y0中选取Y2作为声响补偿参数;
当W2<W≤W3时,智能感知分析模块从矩阵Y0中选取Y3作为声响补偿参数;
当W>W3时,智能感知分析模块从矩阵Y0中选取Y4作为声响补偿参数;
当智能感知分析模块从矩阵选取Yq作为声响补偿参数时,q=1,2,3,4,智能感知分析模块将音频矩阵F1’的声响强度补偿至F15’,F15’=F15×Yq×E。
9.根据权利要求8所述的智能感知会议系统,其特征在于,所智能感知分析模块中还设有声响标准矩阵Fz和声响调节参数矩阵N0;
对于声响标准矩阵Fz,(Fz1,Fz2),其中,Fz1为第一预设声响强度,Fz2为第二预设声响强度,Fz1<Fz2;
对于声响调节参数矩阵N0,(N1,N2),其中,N1为第一预设声响调节参数,N2为第二预设声响调节参数;
所述智能感知分析模块将F15’与矩阵Fz内参数做对比:
当F15’<Fz1时,智能感知分析模块判定F15’声响强度过低并将声响强度调节至F15”,F15”=F15’+(Fz1-F15’)×N1;
当Fz1≤F15’<Fz2时,智能感知分析模块判定F15’声响强度合格;
当F15’≥Fz2时,智能感知分析模块判定F15’声响强度过高并将声响强度调节至F15”,F15”=F15’-(F15’-Fz2)×N2,
当中控分析模将声响强度调节至F15”时,智能感知分析模块将F15”与矩阵Fz内参数做对比,当Fz1≤F15”<Fz2时,智能感知分析模块判定F15”声响强度合格;当F15”不在Fz1~Fz2范围时,重复上述操作,直至Fz1≤F15”<Fz2。
10.一种自动调节会议室环境的控制方法,基于权利要求1-9任一项所述的智能感知会议系统,其特征在于,包括,
步骤S1,确定发言人所在视频的背景与纵深,计算纵深补偿参数;
步骤S2,确定发言人与发言人到视频采集客户端设备的距离;
步骤S3,对发言人的音频信息进行降噪和声响强度调节;
步骤S4,将调节好的音频嵌入到视频中并通过网络实时传送至视频通信接收方。
CN202311086409.5A 2023-08-25 2023-08-25 一种自动调节会议室环境的控制方法及智能感知会议系统 Withdrawn CN117119138A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311086409.5A CN117119138A (zh) 2023-08-25 2023-08-25 一种自动调节会议室环境的控制方法及智能感知会议系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311086409.5A CN117119138A (zh) 2023-08-25 2023-08-25 一种自动调节会议室环境的控制方法及智能感知会议系统

Publications (1)

Publication Number Publication Date
CN117119138A true CN117119138A (zh) 2023-11-24

Family

ID=88803500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311086409.5A Withdrawn CN117119138A (zh) 2023-08-25 2023-08-25 一种自动调节会议室环境的控制方法及智能感知会议系统

Country Status (1)

Country Link
CN (1) CN117119138A (zh)

Similar Documents

Publication Publication Date Title
EP1613124B1 (en) Processing of stereo microphone signals for teleconferencing
US9113034B2 (en) Method and apparatus for processing audio in video communication
US7012630B2 (en) Spatial sound conference system and apparatus
US7184559B2 (en) System and method for audio telepresence
EP1449369B1 (en) A system and method for providing an awareness of remote people in the room during a videoconference
US10728662B2 (en) Audio mixing for distributed audio sensors
US20230251819A1 (en) Audio apparatus, audio distribution system and method of operation therefor
US20080071861A1 (en) System and method for harmonizing calibration of audio between networked conference rooms
CN104580764A (zh) 电话会议系统中的超声配对信号控制
CN112911198B (zh) 一种视频通信中的音频智能降噪的处理系统
JP4501037B2 (ja) 通信制御システムと通信装置および通信方法
CN100420298C (zh) 摄像机拍摄方位数字声控定向方法
JP5120020B2 (ja) 画像付音声通信システム、画像付音声通信方法およびプログラム
CN117119138A (zh) 一种自动调节会议室环境的控制方法及智能感知会议系统
CN117079661A (zh) 一种声源处理方法及相关装置
JP2008034979A (ja) 音声通信装置、および音声通信システム
JP2005151002A (ja) 遠隔会議システム
CN116015993B (zh) 一种音频信号处理方法及终端
CN115002401B (zh) 一种信息处理方法、电子设备、会议系统及介质
CN116866321B (zh) 一种无中心多路声音一致性选择方法及系统
US11019216B1 (en) System and method for acoustically defined remote audience positions
JPH07162827A (ja) 多地点通信方法および通信端末
JPH0888692A (ja) 送信装置、受信装置及び送受信装置
CN114530159A (zh) 一种基于WebRTC技术的多媒体资源整合调度方法
CN115150580A (zh) 一种信息处理方法、电子设备、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20231124

WW01 Invention patent application withdrawn after publication