CN112015364A - 拾音灵敏度的调整方法、装置 - Google Patents
拾音灵敏度的调整方法、装置 Download PDFInfo
- Publication number
- CN112015364A CN112015364A CN202010873943.0A CN202010873943A CN112015364A CN 112015364 A CN112015364 A CN 112015364A CN 202010873943 A CN202010873943 A CN 202010873943A CN 112015364 A CN112015364 A CN 112015364A
- Authority
- CN
- China
- Prior art keywords
- lips
- adjusting
- microphone array
- determining
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000035945 sensitivity Effects 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000000694 effects Effects 0.000 claims description 25
- 230000009471 action Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 abstract description 12
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241001342895 Chorus Species 0.000 description 1
- 229920000535 Tan II Polymers 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
Landscapes
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Studio Devices (AREA)
Abstract
本申请公开了一种拾音灵敏度的调整方法、装置。其中,该方法包括:确定麦克风阵列检测到的声源位置;依据声源位置,调整图像采集装置的拍摄角度;在图像采集装置在拍摄角度采集到多张人脸图像的情况下,识别多张人脸图像中的多个嘴唇;依据多个嘴唇的权重从多个嘴唇中确定目标嘴唇;确定目标嘴唇与麦克风阵列的相对方位;依据相对方位调整麦克风阵列的拾音灵敏度。本申请解决了相关技术中依靠麦克风阵列定位技术和人脸识别检测造成的无法准确定位真正讲话人,并调整该讲话人对应的方位拾音灵敏度的技术问题。
Description
技术领域
本申请涉及拾音领域,具体而言,涉及一种拾音灵敏度的调整方法、装置。
背景技术
相关技术中一般采用声音识别加上人脸检测定位讲话人的位置,例如,采用麦克风阵列确定声源位置,再结合图像采集装置采集人脸信息,并通过人脸识别技术捕捉讲话的人,但是由于在多人场合存在多张人脸,因此,在依靠麦克风阵列初步确定声源的位置后,再依靠人脸检测技术存在无法准确捕捉讲话的人,即无法准确定位真正讲话人,并调整该讲话人对应的方位拾音灵敏度的技术问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种拾音灵敏度的调整方法、装置,以至少解决相关技术中依靠麦克风阵列定位技术和人脸识别检测造成的无法准确定位真正讲话人,并调整该讲话人对应的方位拾音灵敏度的技术问题。
根据本申请实施例的一个方面,提供了一种拾音灵敏度的调整方法,包括:确定麦克风阵列检测到的声源位置;依据声源位置,调整图像采集装置的拍摄角度;在图像采集装置在拍摄角度采集到多张人脸图像的情况下,识别多张人脸图像中的多个嘴唇;依据多个嘴唇的权重从多个嘴唇中确定目标嘴唇;确定目标嘴唇与麦克风阵列的相对方位;依据相对方位调整麦克风阵列的拾音灵敏度。
可选地,依据多个嘴唇的权重从多个嘴唇中确定目标嘴唇之前,方法还包括:获取预定时长内多个嘴唇的动作频率,其中,预定时长为采集多张人脸图像的当前时刻之前的预定时长;依据动作频率确定多个嘴唇对应的权重。
可选地,依据动作频率确定多个嘴唇对应的权重,包括:动作频率越大,嘴唇对应的权重越大。
可选地,获取预定时间段内多个嘴唇的动作频率之前,方法还包括:确定当前的会议场景类型;确定与会议场景类型对应的时长,并将与会议场景类型对应的时长作为预定时长。
可选地,麦克风阵列与图像采集装置位于同一方位;确定目标嘴唇与麦克风阵列的相对方位,包括:获取目标嘴唇与图像采集装置的相对位置;根据相对位置确定目标嘴唇与图像采集装置的相对方位;将目标嘴唇与图像采集装置的相对方位作为目标嘴唇与麦克风阵列的相对方位。
可选地,调整麦克风阵列在相对方位上的拾音灵敏度,包括:调整麦克风阵列的拾音角度,以采集来自相对方位的声音;根据麦克风阵列的拾音效果调整拾音角度,拾音效果包括以下之一:音量增大或音量减小;根据拾音效果确定拾音灵敏度。
可选地,根据拾音效果调整拾音灵敏度,包括:根据拾音效果调整麦克风阵列的增益值,以调整拾音灵敏度。
可选地,根据拾音效果调整麦克风阵列的增益值,包括:若声音减小,则将拾音角度按照前一次调整方向的相反方向进行调整,直到声音增大;当声音增大,则调整增益值,若增益值未达到目标增益值,则按照前一次调整方向的相同方向进行调整,直至增益值达到目标增益。
可选地,依据多个嘴唇的权重从多个嘴唇中确定目标嘴唇,包括:确定多个嘴唇的权重的最大权重;将最大权重对应的嘴唇作为目标嘴唇。
根据本申请实施例的一个方面,提供了一种拾音灵敏度的调整方法,包括:在图像采集装置采集到多张人脸图像的情况下,识别多张人脸图像中的多个嘴唇;确定多个嘴唇的优先级;依据多个嘴唇的优先级调整麦克风阵列的拾音灵敏度。
根据本申请实施例的一个方面,提供了一种拾音灵敏度的调整装置,包括:第一确定模块,用于确定麦克风阵列检测到的声源位置;第一调整模块,用于依据声源位置,调整图像采集装置的拍摄角度;识别模块,用于在图像采集装置在拍摄角度采集到多张人脸图像的情况下,识别多张人脸图像中的多个嘴唇;第二确定模块,用于依据多个嘴唇的权重从多个嘴唇中确定目标嘴唇;第三确定模块,用于确定目标嘴唇与麦克风阵列的相对方位;第二调整模块,用于依据相对方位调整麦克风阵列的拾音灵敏度。
根据本申请实施例的一个方面,提供了一种拾音灵敏度的调整装置,包括:识别模块,用于在图像采集装置采集到多张人脸图像的情况下,识别多张人脸图像中的多个嘴唇;
确定模块,用于确定多个嘴唇的优先级;
调整模块,用于依据多个嘴唇的优先级调整麦克风阵列的拾音灵敏度。
根据本申请实施例的另一个方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,在程序运行时控制非易失性存储介质所在设备执行任意一种拾音灵敏度的调整方法。
根据本申请实施例的另一个方面,还提供了一种处理器,处理器用于运行存储在存储器中的程序,其中,程序运行时执行任意一种拾音灵敏度的调整方法。
在本申请实施例中,采用对嘴唇进行识别,确定权重最高的嘴唇的方式,通过确定麦克风阵列检测到的声源位置;依据声源位置,调整图像采集装置的拍摄角度;在图像采集装置在拍摄角度采集到多张人脸图像的情况下,识别多张人脸图像中的多个嘴唇,再依据多个嘴唇的权重从多个嘴唇中确定目标嘴唇;确定目标嘴唇与麦克风阵列的相对方位,达到了依据相对方位调整麦克风阵列的拾音灵敏度的目的,从而实现了更加准确识别讲话人,并对该讲话人相对方位处的麦克风阵列进行拾音灵敏度调节,使得讲话人的拾音效果适中的技术效果,进而解决了相关技术中依靠麦克风阵列定位技术和人脸识别检测造成的无法准确定位真正讲话人,并调整该讲话人对应的方位拾音灵敏度的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是相关技术中一种常见的视频会议场景的示意图;
图2是根据本申请实施例的一种可选的拾音灵敏度的调整方法的流程示意图;
图3是根据本申请实施例的一种执行上述拾音灵敏度的调整方法的执行流程示意图;
图4是根据本申请实施例的一种计算嘴唇与摄像机的相对角度的方法示意图;
图5是根据本申请实施例的一种调整麦克风阵列增益值的流程示意图;
图6是根据本申请实施例的另一种可选的拾音灵敏度的调整方法的流程示意图;
图7是根据本申请实施例的一种拾音灵敏度的调整装置的结构示意图;
图8是是根据本申请实施例的另一种拾音灵敏度的调整装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了方便本领域技术人员更好地理解本申请实施例,现将本申请实施例涉及的技术术语或者部分名词解释如下:
拾音:拾音就是把声音收集的过程。简单分为单个人拾音,和声演唱拾音或合唱拾音,还有简单的常用乐器拾音。
视场角:视场角在光学工程中又称视场,视场角的大小决定了光学仪器的视野范围,在显示系统中,视场角就是显示器边缘与观察点(眼睛)连线的夹角,在光学仪器中,以光学仪器的镜头为顶点,以被测目标的物像可通过镜头的最大范围的两条边缘构成的夹角,称为视场角。
根据本申请实施例,提供了一种拾音灵敏度的调整方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是一种常见的视频会议的场景的示意图,如图1所示,这个视频会议场景中有多个与会人员、并设置有麦克风阵列、摄像机、显示屏等,为了便于做换面特写或者场景噪声过滤等,相关技术中,一般采用声音识别加上人脸检测定位讲话人的位置,例如,采用麦克风阵列确定声源位置,再结合图像采集装置采集人脸信息,例如采用摄像机采集人脸信息,并通过人脸识别技术捕捉讲话的人,这样双重过滤后,有效消除噪声的影响以及大范围人脸检测带来的消耗问题,但是由于麦克风阵列容易受声音强度以及角度的影响,因此这种方式中对麦克风阵列数量和检测精度要求较高,进而需要更高的成本,并且由于这种方式中,麦克风阵列的拾音灵敏度缺乏输入条件,无法根据与参会人员的距离或者方位进行增益调节,且在这种多人场合中,由于有多张人脸,无法精准识别真正讲话的人,因此,在多人场景下,依靠麦克风阵列初步确定声源的位置后,再依靠人脸检测技术,存在无法准确定位真正讲话人,并调整该讲话人对应的方位拾音灵敏度的技术问题。
图2是根据本申请实施例的拾音灵敏度的调整方法,如图2所示,该方法包括如下步骤:
步骤S102,确定麦克风阵列检测到的声源位置;
步骤S104,依据声源位置,调整图像采集装置的拍摄角度;
步骤S106,在图像采集装置在拍摄角度采集到多张人脸图像的情况下,识别多张人脸图像中的多个嘴唇;
步骤S108,依据多个嘴唇的权重从多个嘴唇中确定目标嘴唇;
步骤S110,确定目标嘴唇与麦克风阵列的相对方位;
步骤S112,依据相对方位调整麦克风阵列的拾音灵敏度。
该拾音灵敏度的调整方法中,首先,可以先确定麦克风阵列检测到的声源位置;然后依据声源位置,调整图像采集装置的拍摄角度,并在图像采集装置在拍摄角度采集到多张人脸图像的情况下,识别多张人脸图像中的多个嘴唇;再依据多个嘴唇的权重从多个嘴唇中确定目标嘴唇,再确定目标嘴唇与麦克风阵列的相对方位,最后依据相对方位调整麦克风阵列的拾音灵敏度,达到了依据相对方位调整麦克风阵列的拾音灵敏度的目的,从而实现了更加准确识别讲话人,并对该讲话人相对方位处的麦克风阵列进行拾音灵敏度调节,使得讲话人的拾音效果适中的技术效果,进而解决了相关技术中依靠麦克风阵列定位技术和人脸识别检测造成的无法准确定位真正讲话人,并调整该讲话人对应的方位拾音灵敏度的技术问题。
需要说明的是,麦克风阵列是指将多个麦克风按照某种空间结构进行排列,根据阵列结构的空间特性,能够对不同方向采集的声音在时域和频域上进行联合处理,通过声音信号达到不同麦克风的时间不同,以及麦克风阵列的拓扑结构即可计算出声源的位置信息,即基于麦克风阵列的声源定位,根据发射和接收信号的不同,声源定位主要可以分为主动声源定位和被动声源定位,主动声源定位由信号发出装置主动发出信号,并通过信号接收装置接收反射信号判断声源位置,如雷达和声呐等。被动声源定位只接受声源信号判断声源方位,本申请实施例一些实施例中,可采用被动声源定位,来确定麦克风阵列的声源位置。
如图3所示,本申请实施例还提供了一种执行上述拾音灵敏度的调整方法的执行流程图,该执行流程包括以下步骤:
S302,开始;
S304,利用麦克风阵列声音检测;
S306,判断是否有声音;
S308,当判断到有声音时,计算该声音对应的声源位置;
S310,根据声源位置计算摄像头画面上的角度;
S312,根据画面角度范围人脸检测;
S314,判断是否存在多张人脸;
S316,当检测有多张人脸时,进行嘴唇识别;
S318,计算人的位置角度;
S320,根据人的位置角度调整麦克风阵列拾音灵敏度。
该执行流程中,首先利用麦克风阵列进行声音检测,当判断到有声音时,计算该声音对应的声源位置,然后在计算摄像头画面上的角度,根据画面角度范围进行人脸检测,当检测到多张人脸图像时,进行嘴唇识别,然后计算人的位置角度,调整麦克风阵列的拾音灵敏度。
在图像采集装置在拍摄角度采集到多张人脸图像的情况下,可以直接识别出现在视场范围内所有人脸的对应的嘴唇,然后从上述所有人脸对应的嘴唇中,确定目标嘴唇,也可以识别所有人脸图像,基于连续采集到的人脸图像,确定嘴唇有动作的人脸图像,从而确定目标嘴唇。
本申请一些可选的实施例中,依据多个嘴唇的权重从多个嘴唇中确定目标嘴唇之前,可以获取预定时长内多个嘴唇的动作频率,其中,预定时长为采集多张人脸图像的当前时刻之前的预定时长,例如,利用图像采集装置(例如采用摄像机),采集多张人脸图像的当前时刻为14:00,若预定时长为30S,则可获取13:59:30至14:00内嘴唇的动过频率;然后依据动作频率确定多个嘴唇对应的权重,其中,动作频率越大,嘴唇对应的权重越大,需要说明的是,嘴唇的动作频率可以根据嘴唇是否处于闭合状态确定,例如通过图像识别算法得到某个嘴唇在预定时长内一直保持闭合状态,则可以确定在该预定时长内该嘴唇动作频率为零,嘴唇的动作频率还可以通过嘴唇区域相对人脸区域,在不同的时刻的位置偏移情况来确定,具体的,在t1时刻,嘴唇区域在人脸区域所对应的位置为A1,在t2时刻嘴唇区域在人脸区域所对应的位置为A2,若位置A2相对于位置A1发生了偏移,则可以认为当前嘴唇处于发音状态,进而将动作频率设置的较大。
本申请一些可选的实施例中,获取预定时间段内多个嘴唇的动作频率之前,还可以确定当前的会议场景类型;确定与会议场景类型对应的时长,并将与会议场景类型对应的时长作为预定时长。比如,根据参会人员的数量确定当前的会议场景,在参会人员较多的情况下,可以将预定时长设置的较短一些,以提高识别的准确性;也可以根据当前会议中,历史时间内多人讲话的场景来确定,具体的,当在多人讲话的场景中,历史时间段内仅有一个人讲话,而其他参会人员处于倾听状态,则可以将预定时长设置的稍长一些,即历史时间段内讲话的人数越多,预定时长设置得越短,否则预设时长设置得越长。
需要说明的是,麦克风阵列与图像采集装置位于同一方位;可以通过以下步骤确定目标嘴唇与麦克风阵列的相对方位,首先可以获取目标嘴唇与图像采集装置的相对位置,然后根据相对位置确定目标嘴唇与图像采集装置的相对方位,又因为麦克风阵列与图像采集装置位于同一方位,因此可将目标嘴唇与图像采集装置的相对方位作为目标嘴唇与麦克风阵列的相对方位。
具体地,如图4所示,当图像采集装置为摄像机时,本申请实施例还提供了一种计算嘴唇与摄像机的相对角度的方法示意图,其中,摄像机的视场角α为摄像机的固有参数,摄像机拍摄到的画面宽度W已知,其中,画面宽度的单位为像素单位px,嘴唇偏离画面中心位置距离x也已知,然后根据α、画面宽度W、x可通过如下公式,计算得到嘴唇与摄像机的相对角度β,该相对角度可以确定出上述相对方位;该公式为:β=arc tan(2*x/(W*tan(α/2))。
在得到目标嘴唇与麦克风阵列的相对方位之后,可以通过以下步骤调整麦克风阵列在相对方位上的拾音灵敏度,具体地:可先调整麦克风阵列的拾音角度,以采集来自该相对方位的声音,然后根据麦克风阵列的拾音效果调整拾音角度,根据拾音效果确定拾音灵敏度,容易注意到的是,拾音效果包括以下之一:音量增大或音量减小。
本申请一些可选的实施例中,可以根据拾音效果调整麦克风阵列的增益值,以调整拾音灵敏度。具体地,图5所示,为调整麦克风阵列增益值的流程示意图,该流程图中包括如下步骤:
S402,计算各个嘴唇的权重;
S404,获取权重最高的嘴唇角度,即目标嘴唇;
S406,对目标嘴唇进行拾音;
S408,声音变小,反方向微调角度;
S410,声音变大;
S412,调大声音增益;
S414,继续同方向微调角度;
S416,达到理想增益值;
S418,结束。
该执行流程中,首先计算各个嘴唇的权重,然后获取权重最高的嘴唇角度,即目标嘴唇,若声音减小,则将拾音角度按照前一次调整方向的相反方向进行调整,直到声音增大;当声音增大,则调整增益值,若增益值未达到目标增益值,则按照前一次调整方向的相同方向进行调整,直至增益值达到目标增益。
容易注意到的是,依据多个嘴唇的权重从多个嘴唇中确定目标嘴唇时,确定多个嘴唇的权重的最大权重,将最大权重对应的嘴唇作为目标嘴唇。
图6是根据本申请实施例的另一种拾音灵敏度的调整方法,如图6所示,该方法包括如下步骤:
步骤S202,在图像采集装置采集到多张人脸图像的情况下,识别多张人脸图像中的多个嘴唇;
步骤S204,确定多个嘴唇的优先级;
步骤S206,依据多个嘴唇的优先级调整麦克风阵列的拾音灵敏度。
该拾音灵敏度的调整方法中,首先,可以在图像采集装置采集到多张人脸图像的情况下,识别多张人脸图像中的多个嘴唇;然后确定多个嘴唇的优先级;最后,依据多个嘴唇的优先级调整麦克风阵列的拾音灵敏度,达到了针对嘴唇的优先级调整麦克风阵列的拾音灵敏度,从而实现了更加准确识别讲话人,并按照优先级有针对性地调节麦克风阵列的拾音灵敏度,使得讲话人的拾音效果适中的技术效果,进而解决了相关技术中依靠麦克风阵列定位技术和人脸识别检测造成的无法针对不同的讲话人调整相应的拾音灵敏度的技术问题。
本申请一些可选的实施例中,在图像采集装置采集到多张人脸图像的情况下,识别多张人脸图像中的多个嘴唇后,可以依据多个嘴唇的权重确定多个嘴唇的优先级,然后依据优先级从多个嘴唇中确定目标嘴唇,再确定目标嘴唇与麦克风阵列的相对方位,最后依据相对方位调整麦克风阵列的拾音灵敏度。
本申请一些可选的实施例中,依据多个嘴唇的权重确定优先级,依据优先级从多个嘴唇中确定目标嘴唇之前,可以获取预定时长内多个嘴唇的动作频率,其中,预定时长为采集多张人脸图像的当前时刻之前的预定时长,例如,利用图像采集装置(例如采用摄像机),采集多张人脸图像的当前时刻为14:00,若预定时长为30S,则可获取13:59:30至14:00内嘴唇的动过频率;然后依据动作频率确定多个嘴唇对应的权重,其中,动作频率越大,嘴唇对应的权重越大,相应的嘴唇对应的优先级越高,需要说明的是,嘴唇的动作频率可以根据嘴唇是否处于闭合状态确定,例如通过图像识别算法得到某个嘴唇在预定时长内一直保持闭合状态,则可以确定在该预定时长内该嘴唇动作频率为零,嘴唇的动作频率还可以通过嘴唇区域相对人脸区域,在不同的时刻的位置偏移情况来确定,具体的,在t1时刻,嘴唇区域在人脸区域所对应的位置为A1,在t2时刻嘴唇区域在人脸区域所对应的位置为A2,若位置A2相对于位置A1发生了偏移,则可以认为当前嘴唇处于发音状态,进而将动作频率设置的较大。
本申请一些可选的实施例中,依据多个嘴唇的优先级调整麦克风阵列的拾音灵敏度,可以通过拾音效果调整麦克风阵列的增益值,以调整拾音灵敏度。具体地,图6所示,若声音减小,则将拾音角度按照前一次调整方向的相反方向进行调整,直到声音增大;当声音增大,则调整增益值,若增益值未达到目标增益值,则按照前一次调整方向的相同方向进行调整,直至增益值达到目标增益。
图7是根据本申请实施例的一种拾音灵敏度的调整装置,如图7所示,该装置包括:
第一确定模块40,用于确定麦克风阵列检测到的声源位置;
第一调整模块42,用于依据声源位置,调整图像采集装置的拍摄角度;
识别模块44,用于在图像采集装置在拍摄角度采集到多张人脸图像的情况下,识别多张人脸图像中的多个嘴唇;
第二确定模块46,用于依据多个嘴唇的权重从多个嘴唇中确定目标嘴唇;
第三确定模块48,用于确定目标嘴唇与麦克风阵列的相对方位;
第二调整模块50,用于依据相对方位调整麦克风阵列的拾音灵敏度。
该拾音灵敏度的调整装置中,第一确定模块40,用于确定麦克风阵列检测到的声源位置,第一调整模块42,用于依据声源位置,调整图像采集装置的拍摄角度,识别模块44,用于在图像采集装置在拍摄角度采集到多张人脸图像的情况下,识别多张人脸图像中的多个嘴唇;第二确定模块46,用于依据多个嘴唇的权重从多个嘴唇中确定目标嘴唇;第三确定模块48,用于确定目标嘴唇与麦克风阵列的相对方位;第二调整模块50,用于依据相对方位调整麦克风阵列的拾音灵敏度,达到了依据相对方位调整麦克风阵列的拾音灵敏度的目的,从而实现了更加准确识别讲话人,并对该讲话人相对方位处的麦克风阵列进行拾音灵敏度调节,使得讲话人的拾音效果适中的技术效果,进而解决了相关技术中依靠麦克风阵列定位技术和人脸识别检测造成的无法准确定位真正讲话人,并调整该讲话人对应的方位拾音灵敏度的技术问题。
图8是是根据本申请实施例的另一种拾音灵敏度的调整装置,如图8所示,该装置包括:
识别模块50,用于在图像采集装置采集到多张人脸图像的情况下,识别多张人脸图像中的多个嘴唇;
确定模块52,用于确定多个嘴唇的优先级;
调整模块54,用于依据多个嘴唇的优先级调整麦克风阵列的拾音灵敏度。
该拾音灵敏度的调整装置中,识别模块50,用于在图像采集装置采集到多张人脸图像的情况下,识别多张人脸图像中的多个嘴唇;确定模块52,用于确定多个嘴唇的优先级;调整模块54,用于依据多个嘴唇的优先级调整麦克风阵列的拾音灵敏度,达到了针对嘴唇的优先级调整麦克风阵列的拾音灵敏度,从而实现了更加准确识别讲话人,并按照优先级有针对性地调节麦克风阵列的拾音灵敏度,使得讲话人的拾音效果适中的技术效果,进而解决了相关技术中依靠麦克风阵列定位技术和人脸识别检测造成的无法针对不同的讲话人调整相应的拾音灵敏度的技术问题。
本申请实施例,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,在程序运行时控制非易失性存储介质所在设备执行任意一种拾音灵敏度的调整方法。
具体地,上述存储介质用于存储执行以下功能的程序指令,实现以下功能:
确定麦克风阵列检测到的声源位置;依据声源位置,调整图像采集装置的拍摄角度;在图像采集装置在拍摄角度采集到多张人脸图像的情况下,识别多张人脸图像中的多个嘴唇;依据多个嘴唇的权重从多个嘴唇中确定目标嘴唇;确定目标嘴唇与麦克风阵列的相对方位;依据相对方位调整麦克风阵列的拾音灵敏度。
本申请实施例,还提供了一种处理器,处理器用于运行存储在存储器中的程序,其中,程序运行时执行任意一种拾音灵敏度的调整方法。
具体地,上述处理器用于调用存储器中的程序指令,实现以下功能:
确定麦克风阵列检测到的声源位置;依据声源位置,调整图像采集装置的拍摄角度;在图像采集装置在拍摄角度采集到多张人脸图像的情况下,识别多张人脸图像中的多个嘴唇;依据多个嘴唇的权重从多个嘴唇中确定目标嘴唇;确定目标嘴唇与麦克风阵列的相对方位;依据相对方位调整麦克风阵列的拾音灵敏度。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (14)
1.一种拾音灵敏度的调整方法,其特征在于,包括:
确定麦克风阵列检测到的声源位置;
依据所述声源位置,调整图像采集装置的拍摄角度;
在所述图像采集装置在所述拍摄角度采集到多张人脸图像的情况下,识别所述多张人脸图像中的多个嘴唇;
依据所述多个嘴唇的权重从所述多个嘴唇中确定目标嘴唇;
确定所述目标嘴唇与所述麦克风阵列的相对方位;
依据所述相对方位调整所述麦克风阵列的拾音灵敏度。
2.根据权利要求1所述的方法,其特征在于,依据所述多个嘴唇的权重从所述多个嘴唇中确定目标嘴唇之前,所述方法还包括:
获取预定时长内所述多个嘴唇的动作频率,其中,所述预定时长为采集所述多张人脸图像的当前时刻之前的预定时长;
依据所述动作频率确定所述多个嘴唇对应的权重。
3.根据权利要求2所述的方法,其特征在于,依据所述动作频率确定所述多个嘴唇对应的权重,包括:
所述动作频率越大,嘴唇对应的权重越大。
4.根据权利要求2所述的方法,其特征在于,获取预定时间段内所述多个嘴唇的动作频率之前,所述方法还包括:
确定当前的会议场景类型;
确定与所述会议场景类型对应的时长,并将与所述会议场景类型对应的时长作为所述预定时长。
5.根据权利要求1所述的方法,其特征在于,所述麦克风阵列与所述图像采集装置位于同一方位;确定所述目标嘴唇与所述麦克风阵列的相对方位,包括:
获取所述目标嘴唇与所述图像采集装置的相对位置;
根据所述相对位置确定所述目标嘴唇与所述图像采集装置的相对方位;
将所述目标嘴唇与所述图像采集装置的相对方位作为所述目标嘴唇与所述麦克风阵列的相对方位。
6.根据权利要求1所述的方法,其特征在于,调整所述麦克风阵列在所述相对方位上的拾音灵敏度,包括:
调整所述麦克风阵列的拾音角度,以采集来自所述相对方位的声音;
根据所述麦克风阵列的拾音效果调整所述拾音角度,所述拾音效果包括以下之一:音量增大或音量减小;
根据所述拾音效果确定所述拾音灵敏度。
7.根据权利要求6所述的方法,其特征在于,根据所述拾音效果调整所述拾音灵敏度,包括:
根据所述拾音效果调整所述麦克风阵列的增益值,以调整所述拾音灵敏度。
8.根据权利要求7所述的方法,其特征在于,根据所述拾音效果调整所述麦克风阵列的增益值,包括:
若所述声音减小,则将所述拾音角度按照前一次调整方向的相反方向进行调整,直到所述声音增大;
当所述声音增大,则调整所述增益值,若所述增益值未达到目标增益值,则按照所述前一次调整方向的相同方向进行调整,直至所述增益值达到所述目标增益。
9.根据权利要求1至8中任意一项所述的方法,其特征在于,依据所述多个嘴唇的权重从所述多个嘴唇中确定目标嘴唇,包括:
确定所述多个嘴唇的权重的最大权重;将所述最大权重对应的嘴唇作为所述目标嘴唇。
10.一种拾音灵敏度的调整方法,其特征在于,包括:
在图像采集装置采集到多张人脸图像的情况下,识别所述多张人脸图像中的多个嘴唇;
确定所述多个嘴唇的优先级;
依据所述多个嘴唇的优先级调整麦克风阵列的拾音灵敏度。
11.一种拾音灵敏度的调整装置,其特征在于,包括:
第一确定模块,用于确定麦克风阵列检测到的声源位置;
第一调整模块,用于依据所述声源位置,调整图像采集装置的拍摄角度;
识别模块,用于在所述图像采集装置在所述拍摄角度采集到多张人脸图像的情况下,识别所述多张人脸图像中的多个嘴唇;
第二确定模块,用于依据所述多个嘴唇的权重从所述多个嘴唇中确定目标嘴唇;
第三确定模块,用于确定所述目标嘴唇与所述麦克风阵列的相对方位;
第二调整模块,用于依据所述相对方位调整所述麦克风阵列的拾音灵敏度。
12.一种拾音灵敏度的调整装置,其特征在于,包括:
识别模块,用于在图像采集装置采集到多张人脸图像的情况下,识别所述多张人脸图像中的多个嘴唇;
确定模块,用于确定所述多个嘴唇的优先级;
调整模块,用于依据所述多个嘴唇的优先级调整麦克风阵列的拾音灵敏度。
13.一种非易失性存储介质,其特征在于,所述非易失性存储介质包括存储的程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至10中任意一项所述拾音灵敏度的调整方法。
14.一种处理器,其特征在于,所述处理器用于运行存储在存储器中的程序,其中,所述程序运行时执行权利要求1至10中任意一项所述拾音灵敏度的调整方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010873943.0A CN112015364B (zh) | 2020-08-26 | 2020-08-26 | 拾音灵敏度的调整方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010873943.0A CN112015364B (zh) | 2020-08-26 | 2020-08-26 | 拾音灵敏度的调整方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112015364A true CN112015364A (zh) | 2020-12-01 |
CN112015364B CN112015364B (zh) | 2024-08-09 |
Family
ID=73502704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010873943.0A Active CN112015364B (zh) | 2020-08-26 | 2020-08-26 | 拾音灵敏度的调整方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112015364B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114245065A (zh) * | 2021-12-20 | 2022-03-25 | 深圳市音络科技有限公司 | 用于会议系统的定位跟踪方法、系统及电子设备 |
TWI799165B (zh) * | 2022-03-04 | 2023-04-11 | 圓展科技股份有限公司 | 拍攝發聲目標的系統及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU174044U1 (ru) * | 2017-05-29 | 2017-09-27 | Общество с ограниченной ответственностью ЛЕКСИ (ООО ЛЕКСИ) | Аудиовизуальный многоканальный детектор наличия голоса |
WO2019044157A1 (ja) * | 2017-08-30 | 2019-03-07 | パナソニックIpマネジメント株式会社 | 収音装置、収音方法、及びプログラム |
CN110082723A (zh) * | 2019-05-16 | 2019-08-02 | 浙江大华技术股份有限公司 | 一种声源定位方法、装置、设备及存储介质 |
CN110691196A (zh) * | 2019-10-30 | 2020-01-14 | 歌尔股份有限公司 | 一种音频设备的声源定位的方法及音频设备 |
CN110750152A (zh) * | 2019-09-11 | 2020-02-04 | 云知声智能科技股份有限公司 | 一种基于唇部动作的人机交互方法和系统 |
-
2020
- 2020-08-26 CN CN202010873943.0A patent/CN112015364B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU174044U1 (ru) * | 2017-05-29 | 2017-09-27 | Общество с ограниченной ответственностью ЛЕКСИ (ООО ЛЕКСИ) | Аудиовизуальный многоканальный детектор наличия голоса |
WO2019044157A1 (ja) * | 2017-08-30 | 2019-03-07 | パナソニックIpマネジメント株式会社 | 収音装置、収音方法、及びプログラム |
CN110082723A (zh) * | 2019-05-16 | 2019-08-02 | 浙江大华技术股份有限公司 | 一种声源定位方法、装置、设备及存储介质 |
CN110750152A (zh) * | 2019-09-11 | 2020-02-04 | 云知声智能科技股份有限公司 | 一种基于唇部动作的人机交互方法和系统 |
CN110691196A (zh) * | 2019-10-30 | 2020-01-14 | 歌尔股份有限公司 | 一种音频设备的声源定位的方法及音频设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114245065A (zh) * | 2021-12-20 | 2022-03-25 | 深圳市音络科技有限公司 | 用于会议系统的定位跟踪方法、系统及电子设备 |
TWI799165B (zh) * | 2022-03-04 | 2023-04-11 | 圓展科技股份有限公司 | 拍攝發聲目標的系統及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112015364B (zh) | 2024-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107534725B (zh) | 一种语音信号处理方法及装置 | |
CN111034222B (zh) | 拾音装置、拾音方法以及计算机程序产品 | |
US20100123785A1 (en) | Graphic Control for Directional Audio Input | |
CN105554443B (zh) | 视频图像中异响来源的定位方法及装置 | |
US20090015681A1 (en) | Multipoint autofocus for adjusting depth of field | |
CN110808048A (zh) | 语音处理方法、装置、系统及存储介质 | |
WO2018049957A1 (zh) | 音频信号、图像处理的方法、装置和系统 | |
JP2006525743A (ja) | 音源追跡のための配置及び方法 | |
KR20110038313A (ko) | 영상촬영장치 및 그 제어방법 | |
CN108682032B (zh) | 控制视频图像输出的方法、装置、可读存储介质及终端 | |
CN112015364B (zh) | 拾音灵敏度的调整方法、装置 | |
CN113014844A (zh) | 一种音频处理方法、装置、存储介质及电子设备 | |
US20170215005A1 (en) | Audio refocusing methods and electronic devices utilizing the same | |
CN113596240B (zh) | 录音方法、装置、电子设备及计算机可读介质 | |
JP2011041096A (ja) | 携帯端末、並びにこれに用いる集音制御方法及びプログラム | |
JPH06351015A (ja) | テレビジョン会議システム用の撮像システム | |
RU174044U1 (ru) | Аудиовизуальный многоканальный детектор наличия голоса | |
CN113542466A (zh) | 音频处理方法、电子设备及存储介质 | |
CN113329138A (zh) | 视频拍摄方法、视频播放方法和电子设备 | |
WO2023164814A1 (zh) | 媒体设备及其控制方法和装置、目标跟踪方法和装置 | |
CN110933254B (zh) | 一种基于图像分析的声音过滤系统及其声音过滤方法 | |
CN113707165B (zh) | 音频处理方法、装置及电子设备和存储介质 | |
JP2000152109A (ja) | テレビ受像機 | |
CN111933174B (zh) | 语音处理方法、装置、设备和系统 | |
CN114422743A (zh) | 视频流显示方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |