CN118042329A - 基于会议场景的多麦克风阵列降噪方法及其系统 - Google Patents

基于会议场景的多麦克风阵列降噪方法及其系统 Download PDF

Info

Publication number
CN118042329A
CN118042329A CN202410430687.6A CN202410430687A CN118042329A CN 118042329 A CN118042329 A CN 118042329A CN 202410430687 A CN202410430687 A CN 202410430687A CN 118042329 A CN118042329 A CN 118042329A
Authority
CN
China
Prior art keywords
noise reduction
microphone
face image
ratio
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410430687.6A
Other languages
English (en)
Other versions
CN118042329B (zh
Inventor
魏祥成
胡程远
吴真飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Boluosi Technology Co ltd
Original Assignee
Shenzhen Boluosi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Boluosi Technology Co ltd filed Critical Shenzhen Boluosi Technology Co ltd
Priority to CN202410430687.6A priority Critical patent/CN118042329B/zh
Publication of CN118042329A publication Critical patent/CN118042329A/zh
Application granted granted Critical
Publication of CN118042329B publication Critical patent/CN118042329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/01Noise reduction using microphones having different directional characteristics

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请公开了一种基于会议场景的多麦克风阵列降噪方法及系统,应用于配置有多麦克风阵列、麦克风降噪系统的终端,方法包括:在开始会议前,通过预设的校准界面获取与会者的脸部图像在终端屏幕中的标准比值;会议开始时,实时采集视频图像,并对视频图像进行实时人脸检测,得到与会者的脸部图像;根据视频图像中的脸部图像,确定与会者的声源方向,并增强麦克风降噪系统对声源方向上声音信号的敏感度;根据预设的算法计算得到脸部图像与视频图像大小的目标比值;将目标比值与标准比值进行比对,确定麦克风降噪系统的工作模式。由此,能够利用视频图像中与会者脸部图像的比值,准确进行麦克风降噪系统的工作模式的切换,提高降噪效果和通话质量。

Description

基于会议场景的多麦克风阵列降噪方法及其系统
技术领域
本发明涉及麦克风控制技术领域,尤其涉及一种基于会议场景的多麦克风阵列降噪方法及其系统。
背景技术
目前,随着商务活动的日益频繁,多人远程会议应用的也越来越广泛,通过具备视频语音通话功能的终端,不同的人在不同的位置可以基于网络实现在线会议,所有与会人员不需要都聚集在一起,只需要将音频信息进行远距离传输,而发言者在发言时,常常伴随着周围环境与发言内容不相关的噪音,不利于远端的与会人员获取到准确的会议语音信息。
为了提高语音通话质量,越来越多的会议系统或者终端都配置有麦克风降噪系统,采用多麦克风阵列来捕捉和处理声音,但是由于与会者的移动性更高,当与会者远离主麦克风时,主麦克风和副麦克风所采集到的语音信号可能差异不大,语音信号的强度会显著降低,导致降噪效果受限,甚至可能将有用的语音信号过滤掉。
所以,在会议场景下,如何控制多麦克风阵列降噪系统成为亟待解决的技术问题。
发明内容
本申请通过提供一种基于会议场景的多麦克风阵列降噪方法,能够利用视频图像中与会者脸部图像的比值,准确进行麦克风降噪系统的工作模式的切换,提高降噪效果和通话质量。
本申请提供了一种基于会议场景的多麦克风阵列降噪方法,包括:
S101,在开始会议前,通过预设的校准界面获取与会者的脸部图像在终端屏幕中的标准比值;
S102,会议开始时,实时采集视频图像,通过人脸识别单元对视频图像进行实时人脸检测,得到与会者的脸部图像;
S103,根据视频图像中的脸部图像,确定与会者的声源方向,并增强麦克风降噪系统对声源方向上声音信号的敏感度;
S104,根据预设的算法计算得到脸部图像与视频图像大小的目标比值;
S105,将目标比值与标准比值进行比对,确定麦克风降噪系统的工作模式。
优选地,所述麦克风降噪系统的工作模式为单麦克风模式、双麦克风模式;当目标比值大于或等于标准比值时,确定麦克风降噪系统的工作模式为双麦克风模式;当目标比值小于标准比值时,确定麦克风降噪系统的工作模式为单麦克风模式。
优选地,所述预设的校准界面包括说明信息和轮廓图,说明信息用以指导与会者将脸部对准轮廓图内;
轮廓图的形状设置为椭圆形,轮廓图的大小根据终端屏幕大小和预设的标准距离值进行确定;
所述与会者在终端屏幕中的标准比值为:轮廓图的大小与屏幕大小的比值,标准比值与标准距离值对应。
优选地,所述轮廓图的大小根据终端屏幕大小和预设的标准距离值进行确定,包括:
根据会议开始前的声音测试和历史经验,确定标准距离值,标准距离值设置为30厘米;
在预设的校准界面进行轮廓图的绘制,使得与屏幕距离为标准距离值的与会者的脸部图像能够与轮廓图进行对准。
优选地,所述确定与会者的声源方向,包括:
以视频图像的左下角顶点为原点构建坐标系;其中,坐标系X轴的正方向沿视频图像的宽度方向,坐标系Y轴的正方向沿视频图像的高度方向;
获取脸部图像在坐标系中的目标坐标;
根据目标坐标确定与会者的声源方向;
其中,脸部图像在坐标系中的目标坐标为脸部图像的中心点对应的坐标信息。
优选地,在所述S105步骤之前,所述方法还包括:
在预设时间窗口内,监测目标比值的变化情况,若目标比值的变化量在目标阈值内,则继续实时监测并保持当前麦克风降噪系统的工作模式;否则,执行步骤S105。
优选地,所述轮廓图内还设置有子轮廓,子轮廓设置为一个点、一条线中的任意一种;所述说明信息还包括第二指示信息,第二指示信息用以指导与会者将嘴巴的中心点对准子轮廓;
所述方法还包括:计算轮廓图的中心点与子轮廓之间的距离值,记为第一偏移量。
优选地,在所述获取脸部图像在坐标系中的目标坐标之后,还包括:
计算实时获取的脸部图像的高度与轮廓图高度的比值,得到第一比例值;
将第一比例值与第一偏移量相乘,得到第二偏移量;
将脸部图像在坐标系中的目标坐标,在垂直方向上减去第二偏移量,得到新的目标坐标替代原来的目标坐标。
优选地,所述终端还配置有图像处理单元,当与会者将脸部对准轮廓图后,所述方法还包括:
提取轮廓图作为第一脸部图像,对第一脸部图像进行特征提取得到第一特征信息,并存储至图像处理单元;
所述S102步骤,还包括:
对视频图像进行实时人脸检测,得到第二脸部图像;
分别对第二脸部图像进行特征提取,得到对应的第二特征信息;
调取第一特征信息,分别与第二特征信息进行相似度计算,得到第一特征信息与第二特征信息的匹配值;
将匹配值大于第一匹配阈值的第二特征信息对应的第二脸部图像作为与会者的脸部图像;
若不存在匹配值大于第一匹配阈值的第二特征信息,且存在匹配值大于第二匹配阈值,发送第一警告信息至与终端进行远程连接的其他设备终端;否则,发送第二警告信息至与终端进行远程连接的其他设备终端;其中,第一匹配阈值大于第二匹配阈值。
本申请提供了一种基于会议场景的多麦克风阵列降噪系统,包括:校准模块、采集模块、确定模块和处理模块;
校准模块用以在开始会议前,通过预设的校准界面获取与会者的脸部图像在终端屏幕中的标准比值;
采集模块用以在会议开始时,实时采集视频图像,并对视频图像进行实时人脸检测,得到与会者的脸部图像;
确定模块用以根据视频图像中的脸部图像,确定与会者的声源方向,并增强麦克风降噪系统对声源方向上声音信号的敏感度;
处理模块用以根据预设的算法计算得到脸部图像与视频图像大小的目标比值,将目标比值与标准比值进行比对,确定麦克风降噪系统的工作模式。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
通过预设的校准界面,提供了标准化的校准过程,可以确保获取到与会者在标准距离下的脸部图像与屏幕大小的目标比值,为后续的距离判断和麦克风降噪系统的工作模式提供可靠的判断基准;并且该校准界面能够确保获得的标准比值能够适应不同的设备和环境,解决了不同设备和环境下脸部图像大小与屏幕大小比值不一致的问题;通过实时计算的脸部图像与整个视频图像大小的比值,反映与会者与屏幕之间的距离变化情况,解决了如何量化脸部图像与视频图像大小比值的问题,并将该比值与标准比值进行比对,实现对麦克风降噪系统的工作模式的动态调整,提高麦克风降噪效果和会议通话质量。
通过在校准阶段的轮廓图中添加子轮廓,引入嘴巴与脸部图像中心点的第一偏移量,并根据第一偏移量对后续实时获得的目标坐标进行修正校准,减少了仅依赖脸部图像中心点对声源方向带来的误差,使得声源方向的确定更加准确,从而提高会议通话质量;由于在会议开始前获取了与会者在标准距离下的标准比值、嘴巴第一偏移量,在会议进行中可以直接利用第一偏移量进行目标坐标的修正,避免了每次获取脸部图像都需要重新进行偏移量的计算,只需要利用已知的图像高度进行比例计算即可,可以便面在实时处理中进行复杂的计算,减轻计算负担,提高处理效率,由于减少了实时计算中的变量和不确定性,麦克风降噪系统的稳定性也得到提升。
通过利用轮廓图得到第一脸部图像及其第一特征信息,能够在后续实时获取的视频图像中利用相似度计算准确区分与会者和其他背景中出现的人脸,这大大减少了人脸误识别的可能性,从而确保了声源方向的准确度。
附图说明
图1为本发明实施例的一种基于会议场景的多麦克风阵列降噪方法的流程示意图;
图2为本发明实施例的确定与会者的声源方向的流程示意图;
图3为本发明实施例的对视频图像进行实时人脸检测得到与会者的脸部图像的流程示意图;
图4为本发明实施例的基于会议场景的多麦克风阵列降噪系统的结构示意图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本申请进行更全面的描述;附图中给出了本发明的较佳实施方式,但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施方式;相反地,提供这些实施方式的目的是使对本发明的公开内容理解的更加透彻全面。
需要说明的是,本文所使用的术语“垂直”、“水平”、“上”、“下”、“左”、“右”以及类似的表述只是为了说明的目的,并不表示是唯一的实施方式。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同;本文中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本发明;本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例一:用于参加会议的终端配置有麦克风降噪系统,包括多麦克风阵列,具体为若干主麦克风和副麦克风,主麦克风用于采集用户的语音信号,副麦克风用于采集终端周边的环境噪声。正常通话时,用户靠近主麦克风进行发言,主麦克风采集到较大的语音信号Va和环境噪音Vn,与此同时,副麦克风会采集到较小的语音信号Vb,但语音信号Vb的强度要比Va的强度小,同时也会采集到环境噪声Vn;麦克风降噪系统用以将主麦克风采集到的信号和副麦克风采集到的信号输入处理器,处理器内的差分放大器把两路信号相减后再放大,得到信号Vm=(Va+Vn)-(Vb+Vn),这样环境噪音Vn就被有效地消除掉,同时语音信号Va的清晰度会被大大提高。但是,若用户的嘴巴离主麦克风较远,到达主麦克风和副麦克风时的语音信号的强度几乎是一样的,即Va≈Vb,这时,Vm=(Va+Vn)-(Vb+Vn)≈0,显然,不仅不能提高通话质量,甚至会把有用的语音信号滤除导致通话声音变小。所以,具有麦克风降噪系统的终端对用户的嘴巴到主麦克风的距离检测的准确性要求较高,一旦用户的嘴巴离主麦克风的距离较远,麦克风降噪效果受限。
图1是本发明实施例的一种基于会议场景的多麦克风阵列降噪方法的流程示意图。
如图1所示,一种基于会议场景的多麦克风阵列降噪方法,应用于配置有多麦克风阵列、麦克风降噪系统的终端,包括以下步骤:
S101,在开始会议前,通过预设的校准界面获取与会者的脸部图像在终端屏幕中的标准比值。
一些实施例中,终端还具备视频通话功能,设置为手机、电脑、平板电脑、车载智能终端中的任意一种。
一些实施例中,预设的校准界面包括说明信息和轮廓图,说明信息用以指导与会者将脸部对准轮廓图内。
其中,轮廓图的形状设置为椭圆形,用以适应不同与会者的脸部特征;说明信息可以设置为“请将脸部对准轮廓图并保持静止3秒”。
一些实施例中,轮廓图的大小根据终端屏幕大小和预设的标准距离值进行确定,具体为:
A1、根据会议开始前的声音测试和历史经验,确定标准距离值,该标准距离值被判定为麦克风降噪系统切换工作模式的一个临界标准值,也可以理解为,当与会者与屏幕的距离接近标准距离值时,需要调整麦克风降噪系统的工作模式;其中,标准距离值设置为30厘米。
A2、在预设的校准界面进行轮廓图的绘制,使得与屏幕距离为标准距离值的与会者的脸部图像能够与轮廓图进行对准。
需要说明的是,与会者在终端屏幕中的标准比值具体为:计算轮廓图的大小与屏幕大小的比值,即轮廓图的占屏比,并且标准比值与标准距离值对应,其中,可以通过轮廓图和屏幕的面积大小进行标准比值的计算。
S102,会议开始时,实时采集视频图像,并对视频图像进行实时人脸检测,得到与会者的脸部图像。
一些实施例中,终端配置有人脸识别单元,具备人脸识别功能。当检测到开启视频通话功能时,同步开启人脸识别功能,在视频通话过程中,通过人脸识别功能实时对终端采集到的视频图像进行实时人脸检测,得到与会者的脸部图像。
其中,视频图像包括脸部图像和背景图像,视频图像被实时显示在终端屏幕上,视频图像的大小可以被看作为屏幕大小。
S103,根据视频图像中的脸部图像,确定与会者的声源方向,并增强麦克风降噪系统对声源方向上声音信号的敏感度。
具体而言,麦克风降噪系统对不同方向的声音信号具有不同的敏感度,某一方向的敏感度越高,麦克风降噪系统采集的声音信号中来源于该方向的信号越多,所以,为了尽可能地多地采集与会者的语音信号,通过识别与会者的声源方向,控制麦克风降噪系统增强对与会者的声源方向的敏感度。
一些实施例中,确定与会者的声源方向,如图2所示,包括:
S201,视频图像包括脸部图像和背景图像,并以视频图像的左下角顶点为原点构建坐标系;其中,坐标系X轴的正方向沿视频图像的宽度方向,坐标系Y轴的正方向沿视频图像的高度方向。
S202,获取脸部图像在坐标系中的目标坐标。
S203,根据目标坐标确定与会者的声源方向。
一些实施例中,脸部图像在坐标系中的目标坐标为脸部图像的中心点对应的坐标信息。
具体而言,根据脸部图像的左上角顶点的坐标信息、右上角顶点的坐标信息、左下角顶点的坐标信息、右下角顶点的坐标信息计算得到脸部图像的中心点的坐标信息,即目标坐标;根据脸部图像的目标坐标信息以及视频图像中心点的坐标信息,确定脸部图像的目标坐标点与视频图像中心点构成的连线与X轴正方向形成的夹角,该夹角即为与会者的声源方向。
S104,根据预设的算法得到脸部图像与视频图像大小的目标比值。
一些实施例中,步骤S104具体包括:
根据脸部图像的大小与视频图像的大小计算得到目标比值。
具体而言,脸部图像的大小的获取方式不限,本发明对此不作限制。举例而言,在某些编程环境中,如图像处理库,可以将脸部图像转成Bitmap对象的形式存在,使用Bitmap对象提供的getWidth()方法获取脸部图像的宽度,使用getHeight()方法获取脸部图像的高度。
具体而言,视频图像的大小的获取方式不限。举例而言,在某些编程环境中,利用JavaScript的window.screen.height方法获取终端屏幕的高度,window.screen.width方法获取终端屏幕的宽度。
需要说明的是,当目标比值越大时,与会者与屏幕的距离越小;当目标比值越小时,与会者与屏幕的距离越大。
S105,将目标比值与标准比值进行比对,确定麦克风降噪系统的工作模式。
具体而言,当目标比值大于或等于标准比值时,确定麦克风降噪系统的工作模式为双麦克风模式;当目标比值小于标准比值时,确定麦克风降噪系统的工作模式为单麦克风模式。
其中,麦克风降噪系统的工作模式为单麦克风模式、双麦克风模式。当麦克风降噪系统的工作模式为单麦克风模式时,打开主麦克风中的任一个麦克风,关闭副麦克风,此时,麦克风降噪系统的降噪功能关闭;当麦克风降噪系统的工作模式为双麦克风模式时,打开主麦克风中的任一个麦克风和打开副麦克风中的任一个麦克风,这时麦克风降噪系统的降噪功能开启。
在实际应用中,由于人的随意性,在短时间内,可能出现与会者与终端之间的距离波动较大的情形,从而导致目标比值的变化过于频繁。为了尽可能避免在短时间内麦克风降噪系统频繁切换工作模式,影响终端使用寿命,在根据目标比值确定麦克风降噪系统的工作模式之前,确定目标比值在预设的时间段内未发生变化。
所以,一些实施例中,在步骤S105之前,还包括:
在预设时间窗口内,监测目标比值的变化情况,若目标比值的变化量在目标阈值内,则继续实时监测并保持当前麦克风降噪系统的工作模式;否则,执行步骤S105。
其中,目标阈值根据实际情况进行设置,能够反映目标比值变化程度高低的临界值即可。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
通过预设的校准界面,提供了标准化的校准过程,可以确保获取到与会者在标准距离下的脸部图像与屏幕大小的目标比值,为后续的距离判断和麦克风降噪系统的工作模式提供可靠的判断基准;并且该校准界面能够确保获得的标准比值能够适应不同的设备和环境,解决了不同设备和环境下脸部图像大小与屏幕大小比值不一致的问题。
通过实时计算的脸部图像与整个视频图像大小的比值,反映与会者与屏幕之间的距离变化情况,解决了如何量化脸部图像与视频图像大小比值的问题,并将该比值与标准比值进行比对,实现对麦克风降噪系统的工作模式的动态调整,提高麦克风降噪效果和会议通话质量。
实施例二:在远程会议场景中,确保清晰、无干扰的语音传输是至关重要的。然而,在实施例一中,由于与会者的移动性,为了确保对声源方向的精准把握,仅依赖脸部图像的中心点来模糊确定声源方向往往会导致较大的误差,影响会议通话质量。
所以,本申请实施例在上述实施例的基础上进行一定的优化。
一些实施例中,在步骤S101中,轮廓图内还设置有子轮廓,子轮廓设置为一个点、一条线中的任意一种。
一些实施例中,说明信息还包括第二指示信息,第二指示信息用以指导与会者将嘴巴的中心点对准子轮廓。
需要说明的是,子轮廓在轮廓图中的位置根据已有的黄金比例脸进行确定,具体为:
根据轮廓图的总高度和已有的黄金比例脸的原则,计算嘴巴在轮廓图中的位置,并标记为子轮廓。
一些实施例中,步骤S101还包括:
计算轮廓图的中心点与子轮廓之间的距离值,记为第一偏移量。
一些实施例中,在步骤S202之后,还包括:
计算实时获取的脸部图像的高度与轮廓图高度的比值,得到第一比例值;
将第一比例值与第一偏移量相乘,得到第二偏移量;
将脸部图像在坐标系中的目标坐标,在垂直方向上减去第二偏移量,得到新的目标坐标替代原来的目标坐标。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
通过在校准阶段的轮廓图中添加子轮廓,引入嘴巴与脸部图像中心点的第一偏移量,并根据第一偏移量对后续实时获得的目标坐标进行修正校准,减少了仅依赖脸部图像中心点对声源方向带来的误差,使得声源方向的确定更加准确,从而提高会议通话质量。
由于在会议开始前获取了与会者在标准距离下的标准比值、嘴巴第一偏移量,在会议进行中可以直接利用第一偏移量进行目标坐标的修正,避免了每次获取脸部图像都需要重新进行偏移量的计算,只需要利用已知的图像高度进行比例计算即可,可以避免在实时处理中进行复杂的计算,减轻计算负担,提高处理效率,由于减少了实时计算中的变量和不确定性,麦克风降噪系统的稳定性也得到提升。
实施例三:由于与会者进行远程会议的场景存在复杂性和多变性,在会议过程中实时采集的视频图像可能不仅仅包括与会者的人脸信息,还可能在某个时间背景出现其他的人脸图像,由于生源方向是根据脸部图像与视频图像进行确定的,这可能会影响声源方向的确定,从而导致麦克风降噪系统的工作模式的切换和确认,影响会议的质量。
所以,本申请实施例在上述实施例的基础上进行一定的优化。
一些实施例中,终端还配置有图像处理单元,步骤S101中,当与会者将脸部对准轮廓图后,所述方法还包括:
提取轮廓图作为第一脸部图像,对第一脸部图像进行特征提取得到第一特征信息,并存储至图像处理单元。
一些实施例中,步骤S102,实时采集视频图像,并对视频图像进行实时人脸检测,得到与会者的脸部图像,如图3所示,具体包括:
S301,对视频图像进行实时人脸检测,得到第二脸部图像。
其中,第二脸部图像的数量不做限定,可能包括与会者的脸部图像,也可能包括背景中出现的其他人的脸部图像,利用人脸检测功能进行人脸识别得到的所有脸部图像被作为第二脸部图像。
S302,分别对第二脸部图像进行特征提取,得到对应的第二特征信息。
S303,调取第一特征信息,分别与第二特征信息进行相似度计算,得到第一特征信息与第二特征信息的匹配值。
S304,将匹配值大于第一匹配阈值的第二特征信息对应的第二脸部图像作为与会者的脸部图像。
S305,若不存在匹配值大于第一匹配阈值的第二特征信息,且存在匹配值大于第二匹配阈值,发送第一警告信息至与终端进行远程连接的其他设备终端,用以提示与会者正视屏幕;否则,发送第二警告信息至与终端进行远程连接的其他设备终端,用以提示该与会者身份不实。其中,第一匹配阈值大于第二匹配阈值。
需要说明的是,进行步骤S303,能够在视频图像中出现多个人脸时,能够准确判断出与会者的脸部图像,避免人脸识别错误,导致声源方向的误判;另外,即使视频图像中仅仅有一个人脸,该步骤还能够对与会者的真实性进行判断,避免会议中途与会者为了逃避会议内容而选择其他人进行替代,对于重要学习型的会议,能够督促与会者;另外,由于与会者的移动性,可能会存在不专注注视屏幕的情况,例如与会者将脸部偏向一侧,导致采集到的脸部图像对应的第二特征信息与第一特征信息的相似度小于匹配阈值,从而导致声源方向确定的不准确性,所以通过警告信息的发送,能够即使提醒正在发言的与会者将脸部正对屏幕。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
通过利用轮廓图得到第一脸部图像及其第一特征信息,能够在后续实时获取的视频图像中利用相似度计算准确区分与会者和其他背景中出现的人脸,这大大减少了人脸误识别的可能性,从而确保了声源方向的准确度。
还通过匹配值大小的判断,引入警告信息,对于不专注屏幕进行发言和与会者身份不实的情况进行警示作用,能够及时纠正,不仅能提高会议的通话质量和降噪效果,还能提升会议的参与度。
实施例四:图4是本发明一个实施例的基于会议场景的多麦克风阵列降噪系统的结构示意图。
如图4所示,基于会议场景的多麦克风阵列降噪系统,应用在配置有多麦克风阵列、麦克风降噪系统的终端,包括:校准模块、采集模块、确定模块和处理模块。
校准模块用以在开始会议前,通过预设的校准界面获取与会者的脸部图像在终端屏幕中的标准比值;采集模块用以在会议开始时,实时采集视频图像,并对视频图像进行实时人脸检测,得到与会者的脸部图像;确定模块用以根据视频图像中的脸部图像,确定与会者的声源方向,并增强麦克风降噪系统对声源方向上声音信号的敏感度;处理模块用以根据预设的算法计算得到脸部图像与视频图像大小的目标比值,将目标比值与标准比值进行比对,确定麦克风降噪系统的工作模式。
需要说明的是,本发明实施例的基于会议场景的多麦克风阵列降噪系统的其他具体实施方式,可以参见上述的基于会议场景的多麦克风阵列降噪方法。
以上所述仅为本发明的优选实施方式,并不用于限制本发明,对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明精神和原则内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于会议场景的多麦克风阵列降噪方法,应用于配置有多麦克风阵列、麦克风降噪系统、人脸识别单元的终端,其特征在于,包括:
S101,在开始会议前,通过预设的校准界面获取与会者的脸部图像在终端屏幕中的标准比值;
S102,会议开始时,实时采集视频图像,通过人脸识别单元对视频图像进行实时人脸检测,得到与会者的脸部图像;
S103,根据视频图像中的脸部图像,确定与会者的声源方向,并增强麦克风降噪系统对声源方向上声音信号的敏感度;
S104,根据预设的算法计算得到脸部图像与视频图像大小的目标比值;
S105,将目标比值与标准比值进行比对,确定麦克风降噪系统的工作模式。
2.如权利要求1所述的基于会议场景的多麦克风阵列降噪方法,其特征在于,所述麦克风降噪系统的工作模式为单麦克风模式、双麦克风模式;当目标比值大于或等于标准比值时,确定麦克风降噪系统的工作模式为双麦克风模式;当目标比值小于标准比值时,确定麦克风降噪系统的工作模式为单麦克风模式。
3.如权利要求1所述的基于会议场景的多麦克风阵列降噪方法,其特征在于,所述预设的校准界面包括说明信息和轮廓图,说明信息用以指导与会者将脸部对准轮廓图内;
轮廓图的形状设置为椭圆形,轮廓图的大小根据终端屏幕大小和预设的标准距离值进行确定;
所述与会者在终端屏幕中的标准比值为:轮廓图的大小与屏幕大小的比值,标准比值与标准距离值对应。
4.如权利要求3所述的基于会议场景的多麦克风阵列降噪方法,其特征在于,所述轮廓图的大小根据终端屏幕大小和预设的标准距离值进行确定,包括:
根据会议开始前的声音测试和历史经验,确定标准距离值,标准距离值设置为30厘米;
在预设的校准界面进行轮廓图的绘制,使得与屏幕距离为标准距离值的与会者的脸部图像能够与轮廓图进行对准。
5.如权利要求3所述的基于会议场景的多麦克风阵列降噪方法,其特征在于,所述确定与会者的声源方向,包括:
以视频图像的左下角顶点为原点构建坐标系;其中,坐标系X轴的正方向沿视频图像的宽度方向,坐标系Y轴的正方向沿视频图像的高度方向;
获取脸部图像在坐标系中的目标坐标;
根据目标坐标确定与会者的声源方向;
其中,脸部图像在坐标系中的目标坐标为脸部图像的中心点对应的坐标信息。
6.如权利要求1所述的基于会议场景的多麦克风阵列降噪方法,其特征在于,在所述S105步骤之前,所述方法还包括:
在预设时间窗口内,监测目标比值的变化情况,若目标比值的变化量在目标阈值内,则继续实时监测并保持当前麦克风降噪系统的工作模式;否则,执行步骤S105。
7.如权利要求5所述的基于会议场景的多麦克风阵列降噪方法,其特征在于,所述轮廓图内还设置有子轮廓,子轮廓设置为一个点、一条线中的任意一种;所述说明信息还包括第二指示信息,第二指示信息用以指导与会者将嘴巴的中心点对准子轮廓;
所述方法还包括:计算轮廓图的中心点与子轮廓之间的距离值,记为第一偏移量。
8.如权利要求7所述的基于会议场景的多麦克风阵列降噪方法,其特征在于,在所述获取脸部图像在坐标系中的目标坐标之后,还包括:
计算实时获取的脸部图像的高度与轮廓图高度的比值,得到第一比例值;
将第一比例值与第一偏移量相乘,得到第二偏移量;
将脸部图像在坐标系中的目标坐标,在垂直方向上减去第二偏移量,得到新的目标坐标替代原来的目标坐标。
9.如权利要求3所述的基于会议场景的多麦克风阵列降噪方法,其特征在于,所述终端还配置有图像处理单元,当与会者将脸部对准轮廓图后,所述方法还包括:
提取轮廓图作为第一脸部图像,对第一脸部图像进行特征提取得到第一特征信息,并存储至图像处理单元;
所述S102步骤,还包括:
对视频图像进行实时人脸检测,得到第二脸部图像;
分别对第二脸部图像进行特征提取,得到对应的第二特征信息;
调取第一特征信息,分别与第二特征信息进行相似度计算,得到第一特征信息与第二特征信息的匹配值;
将匹配值大于第一匹配阈值的第二特征信息对应的第二脸部图像作为与会者的脸部图像;
若不存在匹配值大于第一匹配阈值的第二特征信息,且存在匹配值大于第二匹配阈值,发送第一警告信息至与终端进行远程连接的其他设备终端;否则,发送第二警告信息至与终端进行远程连接的其他设备终端;其中,第一匹配阈值大于第二匹配阈值。
10.一种基于会议场景的多麦克风阵列降噪系统,应用于配置有多麦克风阵列、麦克风降噪系统的终端,其特征在于,包括:校准模块、采集模块、确定模块和处理模块;
校准模块用以在开始会议前,通过预设的校准界面获取与会者的脸部图像在终端屏幕中的标准比值;
采集模块用以在会议开始时,实时采集视频图像,并对视频图像进行实时人脸检测,得到与会者的脸部图像;
确定模块用以根据视频图像中的脸部图像,确定与会者的声源方向,并增强麦克风降噪系统对声源方向上声音信号的敏感度;
处理模块用以根据预设的算法计算得到脸部图像与视频图像大小的目标比值,将目标比值与标准比值进行比对,确定麦克风降噪系统的工作模式。
CN202410430687.6A 2024-04-11 2024-04-11 基于会议场景的多麦克风阵列降噪方法及其系统 Active CN118042329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410430687.6A CN118042329B (zh) 2024-04-11 2024-04-11 基于会议场景的多麦克风阵列降噪方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410430687.6A CN118042329B (zh) 2024-04-11 2024-04-11 基于会议场景的多麦克风阵列降噪方法及其系统

Publications (2)

Publication Number Publication Date
CN118042329A true CN118042329A (zh) 2024-05-14
CN118042329B CN118042329B (zh) 2024-07-02

Family

ID=90997274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410430687.6A Active CN118042329B (zh) 2024-04-11 2024-04-11 基于会议场景的多麦克风阵列降噪方法及其系统

Country Status (1)

Country Link
CN (1) CN118042329B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017108240A (ja) * 2015-12-08 2017-06-15 シャープ株式会社 情報処理装置、及び情報処理方法
CN111741402A (zh) * 2019-03-25 2020-10-02 比亚迪股份有限公司 麦克风降噪控制方法及装置
CN114338965A (zh) * 2020-09-30 2022-04-12 荣耀终端有限公司 音频处理的方法及电子设备
CN116016836A (zh) * 2022-12-02 2023-04-25 支付宝(杭州)信息技术有限公司 会议视频处理方法及系统
US20230328429A1 (en) * 2020-08-26 2023-10-12 Huawei Technologies Co., Ltd. Audio processing method and electronic device
US20240064449A1 (en) * 2020-12-29 2024-02-22 Huawei Technologies Co., Ltd. Sound Collecting Method, Electronic Device, and System

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017108240A (ja) * 2015-12-08 2017-06-15 シャープ株式会社 情報処理装置、及び情報処理方法
CN111741402A (zh) * 2019-03-25 2020-10-02 比亚迪股份有限公司 麦克风降噪控制方法及装置
US20230328429A1 (en) * 2020-08-26 2023-10-12 Huawei Technologies Co., Ltd. Audio processing method and electronic device
CN114338965A (zh) * 2020-09-30 2022-04-12 荣耀终端有限公司 音频处理的方法及电子设备
US20240064449A1 (en) * 2020-12-29 2024-02-22 Huawei Technologies Co., Ltd. Sound Collecting Method, Electronic Device, and System
CN116016836A (zh) * 2022-12-02 2023-04-25 支付宝(杭州)信息技术有限公司 会议视频处理方法及系统

Also Published As

Publication number Publication date
CN118042329B (zh) 2024-07-02

Similar Documents

Publication Publication Date Title
US10264210B2 (en) Video processing apparatus, method, and system
TW201923737A (zh) 交互方法和設備
CN113676592B (zh) 录音方法、装置、电子设备及计算机可读介质
EP2814244A1 (en) A method and a system for improving communication quality of a video conference
KR101840594B1 (ko) 영상 회의 참여도 평가 방법
CN112380972A (zh) 一种应用于电视场景的音量调节方法
EP4064692A1 (en) Smart audio muting in a videoconferencing system
CN108712627A (zh) 视频会议内容和质量检测设备及检测方法
CN113052127A (zh) 一种行为检测方法、系统、计算机设备及机器可读介质
CN111551921A (zh) 一种声像联动的声源定向系统及方法
US20230362332A1 (en) Detailed Videoconference Viewpoint Generation
CN114333853A (zh) 一种音频数据的处理方法、设备和系统
CN115706774A (zh) 相机视图声学栅栏
CN110188179A (zh) 语音定向识别交互方法、装置、设备及介质
CN118042329B (zh) 基于会议场景的多麦克风阵列降噪方法及其系统
CN112015364A (zh) 拾音灵敏度的调整方法、装置
US11875800B2 (en) Talker prediction method, talker prediction device, and communication system
CN113012700B (zh) 语音信号处理方法、装置、系统及计算机可读存储介质
CN114422743A (zh) 视频流显示方法、装置、计算机设备和存储介质
CN112788280A (zh) 基于云计算和语音特征分析的智能会议媒体管理云平台
JP5151131B2 (ja) テレビ会議装置
CN103856740B (zh) 一种信息处理的方法及视频会议系统
CN113301294B (zh) 一种通话控制方法、装置及智能终端
CN217546174U (zh) 智能会议系统
US11783837B2 (en) Transcription generation technique selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant