CN113099160A - 基于麦克风阵列的视频会议方法、系统、设备及存储介质 - Google Patents

基于麦克风阵列的视频会议方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN113099160A
CN113099160A CN202110335367.9A CN202110335367A CN113099160A CN 113099160 A CN113099160 A CN 113099160A CN 202110335367 A CN202110335367 A CN 202110335367A CN 113099160 A CN113099160 A CN 113099160A
Authority
CN
China
Prior art keywords
microphone array
variable
camera
sound source
fixed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110335367.9A
Other languages
English (en)
Other versions
CN113099160B (zh
Inventor
赵玉垒
浦宏杰
薛莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Keda Technology Co Ltd
Original Assignee
Suzhou Keda Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Keda Technology Co Ltd filed Critical Suzhou Keda Technology Co Ltd
Priority to CN202110335367.9A priority Critical patent/CN113099160B/zh
Publication of CN113099160A publication Critical patent/CN113099160A/zh
Application granted granted Critical
Publication of CN113099160B publication Critical patent/CN113099160B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明提供了一种基于麦克风阵列的视频会议方法、系统、设备及存储介质,所述系统包括摄像机、固定位置麦克风阵列和可变位置麦克风阵列;所述方法包括:通过固定位置麦克风阵列和可变位置麦克风阵列采集声音,并确定声源位置;根据声源位置控制摄像机带动可变位置麦克风阵列同步旋转;根据摄像机的旋转角度确定可变位置麦克风阵列的更新位置;根据固定位置麦克风阵列的位置和可变位置麦克风阵列的更新位置形成指向声源位置的指向性波束。本发明有效解决了当前线型麦克风阵列无法实现二维声源定位和线型麦克风阵列波束形成算法中高频性能差的问题,同时解决视频会议系统中多维麦克风阵列构建成本高,且算法开发难度大的问题。

Description

基于麦克风阵列的视频会议方法、系统、设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于麦克风阵列的视频会议方法、系统、设备及存储介质。
背景技术
在视频会议、安防、交通、军事或一些工业应用各领域中,常常需要用到麦克风阵列,例如在视频会议系统中,可通过麦克风阵列对说话人的位置进行定位,控制摄像头转向说话人进行特写图像采集,并在说话人方向形成指向性波束进行语音增强。
在视频会议系统中,常用的线型麦克风阵列,由于阵型维度和算法性能的约束,只能实现水平方向的声源定位,无法实现垂直方向的声源定位,这使得线型麦克风阵列进行波束形成语音增强时,缺少垂直方向的约束条件,无法实现对垂直方向的噪声抑制。因此需要采用二维或者三维形状的麦克风阵列进行声源定位和波束形成。
在视频会议系统中,一般采用固定阵型的麦克风阵列,比如固定线型麦克风阵列,无法实现垂直方向的声源定位和波束约束;对于固定二维或立体麦克风阵列,在视频会议系统中,需对第二维度或第三维度的麦克风阵列进行单独安装与设计,这增加了开发成本以及视频会议系统的美观,同时视频会议系统中摄像机的旋转,对第二维度或第三维度麦克风阵列的直达声拾取产生一定的影响,增加算法开发的难度。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种基于麦克风阵列的视频会议方法、系统、设备及存储介质,有效解决当前线型麦克风阵列无法实现二维声源定位和线型麦克风阵列波束形成算法中高频性能差的问题。同时解决视频会议系统中多维麦克风阵列构建成本高,且算法开发难度大的问题。
本发明实施例提供一种基于麦克风阵列的视频会议方法,采用基于麦克风阵列的视频会议系统,所述系统包括摄像机、固定位置麦克风阵列和可变位置麦克风阵列,所述可变位置麦克风阵列固定于所述摄像机上;
所述方法包括如下步骤:
通过所述固定位置麦克风阵列和所述可变位置麦克风阵列采集声音,并确定声源位置;
根据所述声源位置控制所述摄像机带动所述可变位置麦克风阵列同步旋转;
根据所述摄像机的旋转角度确定所述可变位置麦克风阵列的更新位置;
根据所述固定位置麦克风阵列的位置和所述可变位置麦克风阵列的更新位置形成指向所述声源位置的指向性波束。
本发明通过采用该视频会议方法,首先确定声源位置,由于麦克风阵列包括固定位置麦克风阵列和可变位置麦克风阵列,可以形成二维声源定位结果,然后控制摄像机带动可变位置麦克风阵列同步旋转,更方便捕捉人脸和声音,在摄像机旋转后,可以确定可变位置麦克风阵列的更新位置,并可以形成指向声源位置的指向性波束,从而可以加强声音采集效果。本发明有效解决了当前线型麦克风阵列无法实现二维声源定位和线型麦克风阵列波束形成算法中高频性能差的问题,同时解决了视频会议系统中多维麦克风阵列构建成本高,且算法开发难度大的问题,可减少大型立体麦克风阵列的使用,节约生产成本,并且可以提升波束形成算法中高频主瓣的性能。
在一些实施例中,通过所述固定位置麦克风阵列和所述可变位置麦克风阵列采集声音,并确定声源位置,包括如下步骤:
获取所述固定位置麦克风阵列中各个固定位置阵元的当前位置和所述可变位置麦克风阵列中各个可变位置阵元的当前位置;
根据采集到的声音方向、所述固定位置阵元的当前位置和所述可变位置阵元的当前位置,基于声源定位算法确定声源位置的水平方向角度和垂直方向角度。
在一些实施例中,通过所述固定位置麦克风阵列和所述可变位置麦克风阵列采集声音,并确定声源位置,包括如下步骤:
基于所述固定位置麦克风阵列确定固定坐标系,并确定所述固定位置麦克风阵列中各个固定位置阵元在所述固定坐标系中的坐标;
基于所述可变位置麦克风阵列确定可变坐标系,所述可变坐标系以所述摄像机的机身中心为原点,且各个坐标轴与所述固定坐标系的各个坐标轴分别平行;
确定所述固定坐标系和所述可变坐标系的坐标转换关系;获取当前位置时所述可变位置麦克风阵列中各个可变位置阵元在所述可变坐标系中的坐标;
根据所述固定坐标系和所述可变坐标系的坐标转换关系,将所述各个可变位置阵元在所述可变坐标系中的坐标转换为各个可变位置阵元在所述固定坐标系中的坐标;
根据采集到的声音方向、所述各个固定位置阵元在所述固定坐标系中的坐标以及所述各个可变位置阵元在所述固定坐标系中的坐标,基于声源定位算法确定声源位置的水平方向角度和垂直方向角度。
在一些实施例中,根据所述声源位置控制所述摄像机带动所述可变位置麦克风阵列同步旋转,包括如下步骤:
获取所述摄像机采集的人脸图像;
根据所述人脸图像分析得到人脸识别水平方向角度和人脸识别垂直方向角度;
根据所述声源位置的水平方向角度和垂直方向角度以及所述人脸识别水平方向角度和人脸识别垂直方向角度确定所述摄像机的旋转角度;
根据所述旋转角度控制所述摄像机带动所述可变位置麦克风阵列同步旋转。
在一些实施例中,根据所述声源位置的水平方向角度和垂直方向角度以及所述人脸识别水平方向角度和人脸识别垂直方向角度确定所述摄像机的旋转角度,包括如下步骤:
计算所述声源位置的水平方向角度和所述人脸识别水平方向角度的第一误差,并计算所述声源位置的垂直方向角度和所述人脸识别垂直方向角度的第二误差;
如果所述第一误差和所述第二误差均小于预设的误差阈值,则允许所述摄像机旋转,并基于所述声源位置的水平方向角度和所述人脸识别水平方向角度的平均值计算所述摄像机的水平方向旋转角度,基于所述声源位置的垂直方向角度和所述人脸识别垂直方向角度的平均值计算所述摄像机的垂直方向旋转角度。
在一些实施例中,根据所述摄像机的旋转角度确定所述可变位置麦克风阵列的更新位置,包括:根据所述摄像机的旋转角度确定所述可变位置麦克风阵列在所述固定坐标系中的更新坐标。
在一些实施例中,根据所述摄像机的旋转角度确定所述可变位置麦克风阵列的更新位置,包括如下步骤:
获取所述可变位置麦克风阵列中各个可变位置阵元与所述摄像机的机身中心的距离;
基于各个可变位置阵元与所述摄像机的机身中心的距离以及所述摄像机的旋转角度确定所述可变位置阵元在所述可变坐标系中的更新坐标;
基于所述可变坐标系和所述固定坐标系的坐标转换关系,确定所述可变位置阵元在所述固定坐标系中的更新坐标。
在一些实施例中,根据所述固定位置麦克风阵列的位置和所述可变位置麦克风阵列的更新位置形成指向所述声源位置的指向性波束,包括如下步骤:
根据所述固定位置阵元在所述固定坐标系中的坐标以及所述可变位置阵元在所述固定坐标系中的更新坐标形成指向所述声源位置的指向性波束,以对所述声源位置的方向的声音增强,其他方向的声音抑制。
本发明实施例还提供一种基于麦克风阵列的视频会议系统,应用于所述的基于麦克风阵列的视频会议方法,所述系统包括摄像机、固定位置麦克风阵列、可变位置麦克风阵列和控制器,所述可变位置麦克风阵列固定于所述摄像机上,所述控制器包括:
声源位置确定模块,用于通过所述固定位置麦克风阵列和所述可变位置麦克风阵列采集声音,并确定声源位置;
摄像机旋转控制模块,用于根据所述声源位置控制所述摄像机带动所述可变位置麦克风阵列同步旋转;
阵列位置更新模块,用于根据所述摄像机的旋转角度确定所述可变位置麦克风阵列的更新位置;
指向性波束形成模块,用于根据所述固定位置麦克风阵列的位置和所述可变位置麦克风阵列的更新位置,控制所述固定位置麦克风阵列和所述可变位置麦克风阵列形成指向所述声源位置的指向性波束。
本发明通过采用该视频会议系统,首先通过声源位置确定模块确定声源位置,由于麦克风阵列包括固定位置麦克风阵列和可变位置麦克风阵列,可以形成二维声源定位结果,然后通过摄像机旋转控制模块控制摄像机带动可变位置麦克风阵列同步旋转,更方便捕捉人脸和声音,在摄像机旋转后,通过阵列位置更新模块可以确定可变位置麦克风阵列的更新位置,并通过指向性波束形成模块可以形成指向声源位置的指向性波束,从而可以加强声音采集效果。本发明有效解决了当前线型麦克风阵列无法实现二维声源定位和线型麦克风阵列波束形成算法中高频性能差的问题,同时解决了视频会议系统中多维麦克风阵列构建成本高,且算法开发难度大的问题,可减少大型立体麦克风阵列的使用,节约生产成本,并且可以提升波束形成算法中高频主瓣的性能。
本发明实施例还提供一种基于麦克风阵列的视频会议设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述的基于麦克风阵列的视频会议方法的步骤。
通过采用本发明所提供的基于麦克风阵列的视频会议设备,所述处理器在执行所述可执行指令时执行所述的基于麦克风阵列的视频会议方法,由此可以获得上述基于麦克风阵列的视频会议方法的有益效果。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被处理器执行时实现所述的基于麦克风阵列的视频会议方法的步骤。
通过采用本发明所提供的计算机可读存储介质,其中存储的程序在被执行时实现所述的基于麦克风阵列的视频会议方法的步骤,由此可以获得上述基于麦克风阵列的视频会议方法的有益效果。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明一实施例的基于麦克风阵列的视频会议方法的流程图;
图2是本发明一实施例的基于麦克风阵列的视频会议系统中麦克风阵列的结构示意图;
图3是本发明一实施例的确定声源位置的流程图;
图4是本发明一实施例的声源位置的角度示意图;
图5是本发明一实施例的控制摄像机旋转的流程图;
图6是本发明一实施例的确定所述可变位置麦克风阵列的更新位置的流程图;
图7是本发明一实施例的基于麦克风阵列的视频会议系统中控制器的结构示意图;
图8是本发明一实施例的基于麦克风阵列的视频会议设备的结构示意图;
图9是本发明一实施例的计算机存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而将省略对它们的重复描述。
如图1所示,在一实施例中,本发明提供了一种基于麦克风阵列的视频会议方法,采用基于麦克风阵列的视频会议系统,所述系统包括摄像机、固定位置麦克风阵列和可变位置麦克风阵列,所述可变位置麦克风阵列固定于所述摄像机上。
如图1所示,所述基于麦克风阵列的视频会议方法包括如下步骤:
S100:通过所述固定位置麦克风阵列和所述可变位置麦克风阵列采集声音,并确定声源位置;
S200:根据所述声源位置控制所述摄像机带动所述可变位置麦克风阵列同步旋转;
S300:根据所述摄像机的旋转角度确定所述可变位置麦克风阵列的更新位置;
S400:根据所述固定位置麦克风阵列的位置和所述可变位置麦克风阵列的更新位置形成指向所述声源位置的指向性波束。
本发明通过采用该视频会议方法,首先通过步骤S100确定声源位置,由于麦克风阵列包括固定位置麦克风阵列和可变位置麦克风阵列,可以形成二维声源定位结果,然后通过步骤S200控制摄像机带动可变位置麦克风阵列同步旋转,更方便捕捉人脸和声音,在摄像机旋转后,通过步骤S300可以确定可变位置麦克风阵列的更新位置,并通过步骤S400可以形成指向声源位置的指向性波束,从而可以加强声音采集效果。本发明有效解决了当前线型麦克风阵列无法实现二维声源定位和线型麦克风阵列波束形成算法中高频性能差的问题,同时解决了视频会议系统中多维麦克风阵列构建成本高,且算法开发难度大的问题,可减少大型立体麦克风阵列的使用,节约生产成本,并且可以提升波束形成算法中高频主瓣的性能。
此处以图2中的麦克风阵列为例进行说明,所述固定位置麦克风阵列为固定位置线型麦克风阵列A,所述可变位置麦克风阵列为圆型可变位置麦克风阵列B。麦克风阵列A和麦克风阵列B组成一个立体阵列,可以得到二维声源定位结果,包括水平角和俯仰角,即声源位置的水平方向角度和垂直方向角度。麦克风阵列B固定于摄像机上,随摄像机的转动而一起转动。在该实施例中,麦克风阵列A为9阵元的固定位置线型麦克风阵列A,麦克风阵列B为6阵元的圆型可变位置麦克风阵列B,但本发明不限于此。
具体地,所述步骤S100:通过所述固定位置麦克风阵列和所述可变位置麦克风阵列采集声音,并确定声源位置,包括如下步骤:
获取所述固定位置麦克风阵列中各个固定位置阵元的当前位置和所述可变位置麦克风阵列中各个可变位置阵元的当前位置;
根据采集到的声音方向、所述固定位置阵元的当前位置和所述可变位置阵元的当前位置,基于声源定位算法确定声源位置的水平方向角度和垂直方向角度。
下面结合图2中所示的坐标系来具体说明声源位置确定的方法。如图3所示,在该实施例中,所述步骤S100:通过所述固定位置麦克风阵列和所述可变位置麦克风阵列采集声音,并确定声源位置,包括如下步骤:
S110:基于所述固定位置麦克风阵列确定固定坐标系,并确定所述固定位置麦克风阵列中各个固定位置阵元在所述固定坐标系中的坐标。
以图2中麦克风阵列为例,固定位置麦克风阵列A所在的坐标系为固定坐标系,以阵元m5所在位置为坐标原点O,以线型麦克风阵列所在直线为x轴,其阵元m1所在方向为x轴正半轴;以线型麦克风阵列垂直方向为y轴,且摄像机指向的方向为y轴的正半轴;以垂直于x轴和y轴,且过阵元m5的方向为z轴,以图2中示出的麦克风阵列的上部为z轴正半轴;
固定位置麦克风阵列A中各阵元位置在系统使用过程中,不会发生改变,定义各阵元的坐标点分别为mj(xfj,0,0),其中j=1~9,xfj为固定位置麦克风阵列A的第j个阵元mj的横坐标,其中fj中的f用于与下文中可变位置麦克风阵列B中阵元横坐标xci中的c进行区分,以表明其属于固定位置麦克风阵列A;
S120:基于所述可变位置麦克风阵列确定可变坐标系,所述可变坐标系以所述摄像机的机身中心为原点,且各个坐标轴与所述固定坐标系的各个坐标轴分别平行。
以图2中麦克风阵列为例,可变位置麦克风阵列B所在的坐标系为可变坐标系,以摄像机机身的中心为坐标原点O',可变坐标系的坐标轴方向与固定坐标系中各坐标轴方向一致,且可变坐标系的各个坐标轴x’,y’,z’与固定坐标系的各个坐标轴x,y,z平行;
S130:确定所述固定坐标系和所述可变坐标系的坐标转换关系;
由于可变坐标系和固定坐标系的各个坐标轴是对应平行的,因此此坐标转换关系可以通过可变位置麦克风阵列B的坐标系原点在固定坐标系中的位置P表示。
S140:获取当前位置时所述可变位置麦克风阵列中各个可变位置阵元在所述可变坐标系中的坐标;
S150:根据所述固定坐标系和所述可变坐标系的坐标转换关系,将所述各个可变位置阵元在所述可变坐标系中的坐标转换为各个可变位置阵元在所述固定坐标系中的坐标;
例如,将当前所述各个可变位置阵元在所述可变坐标系中的坐标加上P,即得到当前各个可变位置阵元在所述固定坐标系中的坐标。
所述视频会议系统在启动时,摄像机转动会转至初始化位置,此时可通过步骤S140和步骤S150获得初始状态下,可变位置麦克风阵列B中第i个阵元ni在固定坐标系中的位置为ni(xci,yci,zci),其中i=1~6;可变坐标系的坐标原点O'在固定坐标系中的位置为Ρ,其中ni(xci,yci,zci)中的c用于与上文中固定位置麦克风阵列A中阵元横坐标xfj中的f进行区分,以表明其属于可变位置麦克风阵列B;
同时获取摄像机的机身心位置距离可变位置麦克风阵列B的各个阵元的位置的距离为di
在其他非初始状态下的时刻,即摄像机已经相比于初始状态旋转一定角度时,同样可以通过步骤S140和S150获取当前各个所述各个可变位置阵元在所述固定坐标系中的坐标。
当前位置时所述固定位置麦克风阵列和所述可变位置麦克风阵列组成一个立体形状的麦克风阵列C,由该麦克风阵列C采集声音。
S160:根据采集到的声音方向、所述各个固定位置阵元在所述固定坐标系中的坐标以及所述各个可变位置阵元在所述固定坐标系中的坐标,基于声源定位算法确定声源位置的水平方向角度θ和垂直方向角度
Figure BDA0002997705350000091
在该实施例中,声源定位算法是基于麦克风阵列中各个阵元的位置以及各个阵元采集的声音信号对声源进行定位的算法。此处所采用的声源定位算法可以是现有技术中的时延估计算法、可控功率响应算法和子空间分类算法。
如图4所示,为一种定位得到的声源位置的角度示意图。在图4中,采用的为基于固定位置麦克风阵列建立的固定坐标系,即阵元m5所在的位置为坐标原点O;以固定位置麦克风阵列所在的直线为固定坐标系的x轴,且以阵元m1所在的方向为x轴正半轴;以摄像机的正前方为y轴正半轴;以摄像机的正上方为z轴的正半轴。水平角为声源位置与坐标原点的连线在xOy平面的投影,与x轴正半轴的夹角;俯仰角为声源位置与坐标原点O的连线与z轴正半轴的夹角。
如图5所示,在该实施例中,所述步骤S200:根据所述声源位置控制所述摄像机带动所述可变位置麦克风阵列同步旋转,包括如下步骤:
S210:获取所述摄像机采集的人脸图像;
S220:根据所述人脸图像分析得到人脸识别水平方向角度和人脸识别垂直方向角度;
S230:根据所述声源位置的水平方向角度和垂直方向角度以及所述人脸识别水平方向角度和人脸识别垂直方向角度确定所述摄像机的旋转角度;
S240:根据所述旋转角度控制所述摄像机带动所述可变位置麦克风阵列同步旋转。
在该实施例中,所述步骤S230中,根据所述声源位置的水平方向角度和垂直方向角度以及所述人脸识别水平方向角度和人脸识别垂直方向角度确定所述摄像机的旋转角度,包括如下步骤:
计算所述声源位置的水平方向角度和所述人脸识别水平方向角度的第一误差,并计算所述声源位置的垂直方向角度和所述人脸识别垂直方向角度的第二误差;
如果所述第一误差和所述第二误差均小于预设的误差阈值,则允许所述摄像机旋转,并基于所述声源位置的水平方向角度和所述人脸识别水平方向角度的平均值计算所述摄像机的水平方向旋转角度θ’,基于所述声源位置的垂直方向角度和所述人脸识别垂直方向角度的平均值计算所述摄像机的垂直方向旋转角度
Figure BDA0002997705350000101
由于摄像机的转动角度由人脸识别和声源位置共同确定,所以摄像机的转动角度与声源位置的角度可能不同。
如果所述第一误差大于等于所述误差阈值和/或所述第二误差大于等于所述误差阈值,则所述摄像机不旋转,可以继续保持当前的麦克风阵列C,麦克风阵列C可以继续根据声源位置的水平方向角度θ和垂直方向角度
Figure BDA0002997705350000102
来形成指向性波束,对波束内的声音进行增强,波束外的声音作为噪声进行抑制。
在该实施例中,根据所述摄像机的旋转角度确定所述可变位置麦克风阵列的更新位置,包括根据所述摄像机的旋转角度确定所述可变位置麦克风阵列在所述固定坐标系中的更新坐标。
如图6所示,在该实施例中,所述步骤S300:根据所述摄像机的旋转角度确定所述可变位置麦克风阵列的更新位置,包括如下步骤:
S310:获取所述可变位置麦克风阵列中各个可变位置阵元与所述摄像机的机身中心的距离;
以图2中麦克风阵列为例,所述可变位置麦克风阵列中各个可变位置阵元与所述摄像机的机身中心的距离为di,其中i=1~6;
S320:基于各个可变位置阵元与所述摄像机的机身中心的距离以及所述摄像机的旋转角度确定所述可变位置阵元在所述可变坐标系中的更新坐标;
以图2中麦克风阵列为例,将摄像机转动后可变位置麦克风阵列中各阵元的位置,在可变坐标系中,转换到笛卡尔坐标值u为:
Figure BDA0002997705350000111
S330:基于所述可变坐标系和所述固定坐标系的坐标转换关系,确定所述可变位置阵元在所述固定坐标系中的更新坐标;
以图2中麦克风阵列为例,所述可变坐标系和所述固定坐标系的坐标转换关系可以基于初始化位置时,可变坐标系的坐标原点O'在固定坐标系中的位置Ρ来得到,同时根据如下公式确定所述可变位置阵元在所述固定坐标系中的更新坐标u'为:
u'=Ρ+u。
在此情况下,可变麦克风阵列B的阵元位置发生变化,则立体麦克风阵列C更新为立体麦克风阵列C'。
在该实施例中,所述步骤S400:根据所述固定位置麦克风阵列的位置和所述可变位置麦克风阵列的更新位置形成指向所述声源位置的指向性波束,即根据立体麦克风阵列C'中各个阵元的位置更新在声源位置
Figure BDA0002997705350000112
形成指向性波束,具体包括如下步骤:
根据所述固定位置阵元在所述固定坐标系中的坐标以及所述可变位置阵元在所述固定坐标系中的更新坐标形成指向所述声源位置的指向性波束,以对所述声源位置的方向的声音增强,其他方向的声音抑制。
此处形成指向性波束的方法可以采用现有技术中的指向性波束形成方法,例如延迟累加求和(DS)、最小方差信号无畸变响应(MVDR)、广义旁瓣相消(GSC)等,且不限于此处列举的几种方法。
本发明实施例还提供一种基于麦克风阵列的视频会议系统,应用于所述的基于麦克风阵列的视频会议方法,所述系统包括如图2所示的摄像机、固定位置麦克风阵列和可变位置麦克风阵列,所述可变位置麦克风阵列固定于所述摄像机上,所述系统还包括控制器,如图7所示,所述控制器包括:
声源位置确定模块M100,用于通过所述固定位置麦克风阵列和所述可变位置麦克风阵列采集声音,并确定声源位置;
摄像机旋转控制模块M200,用于根据所述声源位置控制所述摄像机带动所述可变位置麦克风阵列同步旋转;
阵列位置更新模块M300,用于根据所述摄像机的旋转角度确定所述可变位置麦克风阵列的更新位置;
指向性波束形成模块M400,用于根据所述固定位置麦克风阵列的位置和所述可变位置麦克风阵列的更新位置,控制所述固定位置麦克风阵列和所述可变位置麦克风阵列形成指向所述声源位置的指向性波束。
本发明通过采用该视频会议系统,首先通过声源位置确定模块M100确定声源位置,由于麦克风阵列包括固定位置麦克风阵列和可变位置麦克风阵列,可以形成二维声源定位结果,然后通过摄像机旋转控制模块M200控制摄像机带动可变位置麦克风阵列同步旋转,更方便捕捉人脸和声音,在摄像机旋转后,通过阵列位置更新模块M300可以确定可变位置麦克风阵列的更新位置,并通过指向性波束形成模块M400可以形成指向声源位置的指向性波束,从而可以加强声音采集效果。本发明有效解决了当前线型麦克风阵列无法实现二维声源定位和线型麦克风阵列波束形成算法中高频性能差的问题,同时解决了视频会议系统中多维麦克风阵列构建成本高,且算法开发难度大的问题,可减少大型立体麦克风阵列的使用,节约生产成本,并且可以提升波束形成算法中高频主瓣的性能。
本发明实施例还提供一种基于麦克风阵列的视频会议设备,包括处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述的基于麦克风阵列的视频会议方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图8来描述根据本发明的这种实施方式的电子设备600。图8显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过采用本发明所提供的基于麦克风阵列的视频会议设备,所述处理器在执行所述可执行指令时执行所述的基于麦克风阵列的视频会议方法,由此可以获得上述基于麦克风阵列的视频会议方法的有益效果。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被处理器执行时实现所述的基于麦克风阵列的视频会议方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图9所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或集群上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
通过采用本发明所提供的计算机可读存储介质,其中存储的程序在被执行时实现所述的基于麦克风阵列的视频会议方法的步骤,由此可以获得上述基于麦克风阵列的视频会议方法的有益效果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (11)

1.一种基于麦克风阵列的视频会议方法,其特征在于,采用基于麦克风阵列的视频会议系统,所述系统包括摄像机、固定位置麦克风阵列和可变位置麦克风阵列,所述可变位置麦克风阵列固定于所述摄像机上;
所述方法包括如下步骤:
通过所述固定位置麦克风阵列和所述可变位置麦克风阵列采集声音,并确定声源位置;
根据所述声源位置控制所述摄像机带动所述可变位置麦克风阵列同步旋转;
根据所述摄像机的旋转角度确定所述可变位置麦克风阵列的更新位置;
根据所述固定位置麦克风阵列的位置和所述可变位置麦克风阵列的更新位置形成指向所述声源位置的指向性波束。
2.根据权利要求1所述的基于麦克风阵列的视频会议方法,其特征在于,通过所述固定位置麦克风阵列和所述可变位置麦克风阵列采集声音,并确定声源位置,包括如下步骤:
获取所述固定位置麦克风阵列中各个固定位置阵元的当前位置和所述可变位置麦克风阵列中各个可变位置阵元的当前位置;
根据采集到的声音方向、所述固定位置阵元的当前位置和所述可变位置阵元的当前位置,基于声源定位算法确定声源位置的水平方向角度和垂直方向角度。
3.根据权利要求2所述的基于麦克风阵列的视频会议方法,其特征在于,通过所述固定位置麦克风阵列和所述可变位置麦克风阵列采集声音,并确定声源位置,包括如下步骤:
基于所述固定位置麦克风阵列确定固定坐标系,并确定所述固定位置麦克风阵列中各个固定位置阵元在所述固定坐标系中的坐标;
基于所述可变位置麦克风阵列确定可变坐标系,所述可变坐标系以所述摄像机的机身中心为原点,且各个坐标轴与所述固定坐标系的各个坐标轴分别平行;
确定所述固定坐标系和所述可变坐标系的坐标转换关系;
获取当前位置时所述可变位置麦克风阵列中各个可变位置阵元在所述可变坐标系中的坐标;
根据所述固定坐标系和所述可变坐标系的坐标转换关系,将所述各个可变位置阵元在所述可变坐标系中的坐标转换为各个可变位置阵元在所述固定坐标系中的坐标;
根据采集到的声音方向、所述各个固定位置阵元在所述固定坐标系中的坐标以及所述各个可变位置阵元在所述固定坐标系中的坐标,基于声源定位算法确定声源位置的水平方向角度和垂直方向角度。
4.根据权利要求3所述的基于麦克风阵列的视频会议方法,其特征在于,根据所述声源位置控制所述摄像机带动所述可变位置麦克风阵列同步旋转,包括如下步骤:
获取所述摄像机采集的人脸图像;
根据所述人脸图像分析得到人脸识别水平方向角度和人脸识别垂直方向角度;
根据所述声源位置的水平方向角度和垂直方向角度以及所述人脸识别水平方向角度和人脸识别垂直方向角度确定所述摄像机的旋转角度;
根据所述旋转角度控制所述摄像机带动所述可变位置麦克风阵列同步旋转。
5.根据权利要求4所述的基于麦克风阵列的视频会议方法,其特征在于,根据所述声源位置的水平方向角度和垂直方向角度以及所述人脸识别水平方向角度和人脸识别垂直方向角度确定所述摄像机的旋转角度,包括如下步骤:
计算所述声源位置的水平方向角度和所述人脸识别水平方向角度的第一误差,并计算所述声源位置的垂直方向角度和所述人脸识别垂直方向角度的第二误差;
如果所述第一误差和所述第二误差均小于预设的误差阈值,则允许所述摄像机旋转,并基于所述声源位置的水平方向角度和所述人脸识别水平方向角度的平均值计算所述摄像机的水平方向旋转角度,基于所述声源位置的垂直方向角度和所述人脸识别垂直方向角度的平均值计算所述摄像机的垂直方向旋转角度。
6.根据权利要求3所述的基于麦克风阵列的视频会议方法,其特征在于,根据所述摄像机的旋转角度确定所述可变位置麦克风阵列的更新位置,包括:根据所述摄像机的旋转角度确定所述可变位置麦克风阵列在所述固定坐标系中的更新坐标。
7.根据权利要求6所述的基于麦克风阵列的视频会议方法,其特征在于,根据所述摄像机的旋转角度确定所述可变位置麦克风阵列的更新位置,包括如下步骤:
获取所述可变位置麦克风阵列中各个可变位置阵元与所述摄像机的机身中心的距离;
基于各个可变位置阵元与所述摄像机的机身中心的距离以及所述摄像机的旋转角度确定所述可变位置阵元在所述可变坐标系中的更新坐标;
基于所述可变坐标系和所述固定坐标系的坐标转换关系,确定所述可变位置阵元在所述固定坐标系中的更新坐标。
8.根据权利要求6所述的基于麦克风阵列的视频会议方法,其特征在于,根据所述固定位置麦克风阵列的位置和所述可变位置麦克风阵列的更新位置形成指向所述声源位置的指向性波束,包括如下步骤:
根据所述固定位置阵元在所述固定坐标系中的坐标以及所述可变位置阵元在所述固定坐标系中的更新坐标形成指向所述声源位置的指向性波束,以对所述声源位置的方向的声音增强,其他方向的声音抑制。
9.一种基于麦克风阵列的视频会议系统,其特征在于,应用于权利要求1至8中任一项所述的基于麦克风阵列的视频会议方法,所述系统包括摄像机、固定位置麦克风阵列、可变位置麦克风阵列和控制器,所述可变位置麦克风阵列固定于所述摄像机上,所述控制器包括:
声源位置确定模块,用于通过所述固定位置麦克风阵列和所述可变位置麦克风阵列采集声音,并确定声源位置;
摄像机旋转控制模块,用于根据所述声源位置控制所述摄像机带动所述可变位置麦克风阵列同步旋转;
阵列位置更新模块,用于根据所述摄像机的旋转角度确定所述可变位置麦克风阵列的更新位置;
指向性波束形成模块,用于根据所述固定位置麦克风阵列的位置和所述可变位置麦克风阵列的更新位置,控制所述固定位置麦克风阵列和所述可变位置麦克风阵列形成指向所述声源位置的指向性波束。
10.一种基于麦克风阵列的视频会议设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至8中任一项所述的基于麦克风阵列的视频会议方法的步骤。
11.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现权利要求1至8中任一项所述的基于麦克风阵列的视频会议方法的步骤。
CN202110335367.9A 2021-03-29 2021-03-29 基于麦克风阵列的视频会议方法、系统、设备及存储介质 Active CN113099160B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110335367.9A CN113099160B (zh) 2021-03-29 2021-03-29 基于麦克风阵列的视频会议方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110335367.9A CN113099160B (zh) 2021-03-29 2021-03-29 基于麦克风阵列的视频会议方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113099160A true CN113099160A (zh) 2021-07-09
CN113099160B CN113099160B (zh) 2023-04-07

Family

ID=76670515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110335367.9A Active CN113099160B (zh) 2021-03-29 2021-03-29 基于麦克风阵列的视频会议方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113099160B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023049773A1 (en) * 2021-09-21 2023-03-30 Shure Acquisition Holdings, Inc. Conferencing systems and methods for room intelligence

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107333120A (zh) * 2017-08-11 2017-11-07 吉林大学 一种基于麦克风阵列和立体视觉的集成传感器
CN107809596A (zh) * 2017-11-15 2018-03-16 重庆科技学院 基于麦克风阵列的视频会议跟踪系统及方法
CN109254266A (zh) * 2018-11-07 2019-01-22 苏州科达科技股份有限公司 基于麦克风阵列的声源定位方法、装置及存储介质
CN209579577U (zh) * 2018-12-11 2019-11-05 珠海市一微半导体有限公司 一种视觉机器人的声源跟踪系统和清洁机器人
CN111343411A (zh) * 2020-03-20 2020-06-26 青岛海信智慧家居系统股份有限公司 一种智能远程视频会议系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107333120A (zh) * 2017-08-11 2017-11-07 吉林大学 一种基于麦克风阵列和立体视觉的集成传感器
CN107809596A (zh) * 2017-11-15 2018-03-16 重庆科技学院 基于麦克风阵列的视频会议跟踪系统及方法
CN109254266A (zh) * 2018-11-07 2019-01-22 苏州科达科技股份有限公司 基于麦克风阵列的声源定位方法、装置及存储介质
CN209579577U (zh) * 2018-12-11 2019-11-05 珠海市一微半导体有限公司 一种视觉机器人的声源跟踪系统和清洁机器人
CN111343411A (zh) * 2020-03-20 2020-06-26 青岛海信智慧家居系统股份有限公司 一种智能远程视频会议系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023049773A1 (en) * 2021-09-21 2023-03-30 Shure Acquisition Holdings, Inc. Conferencing systems and methods for room intelligence

Also Published As

Publication number Publication date
CN113099160B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN109344755B (zh) 视频动作的识别方法、装置、设备及存储介质
KR102175602B1 (ko) 다수의 마이크로폰들을 통한 오디오 포커싱
CN110082724B (zh) 一种声源定位方法、装置及存储介质
JP2020042818A (ja) 3次元データの生成方法、3次元データの生成装置、コンピュータ機器及びコンピュータ読み取り可能な記憶媒体
TWI748409B (zh) 資料處理方法、處理器、電子設備和電腦可讀媒體
US10515636B2 (en) Speech recognition using depth information
CN113823001A (zh) 户型图生成方法、装置、设备及介质
US9571930B2 (en) Audio data detection with a computing device
JP7228623B2 (ja) 障害物検出方法、装置、設備、記憶媒体、及びプログラム
WO2022214037A1 (zh) 视频防抖处理方法、装置、电子设备和存储介质
CN113053368A (zh) 语音增强方法、电子设备和存储介质
CN112492207B (zh) 一种基于声源定位控制摄像头转动的方法和装置
CN113989696B (zh) 目标跟踪方法、装置、电子设备及存储介质
CN113099160B (zh) 基于麦克风阵列的视频会议方法、系统、设备及存储介质
CN112652320B (zh) 声源定位方法和装置、计算机可读存储介质、电子设备
CN116077182B (zh) 一种医用手术机器人控制方法、装置、设备及介质
CN110929564A (zh) 基于对抗网络的指纹模型生成方法以及相关装置
Zhang et al. AcousticFusion: Fusing sound source localization to visual SLAM in dynamic environments
CN114167356A (zh) 一种基于多面体麦克风阵列的声源定位方法和系统
CN112466327B (zh) 语音处理方法、装置和电子设备
CN113129366B (zh) 单目slam初始化方法、装置及电子设备
CN113920282A (zh) 图像处理方法和装置、计算机可读存储介质、电子设备
CN113778078A (zh) 定位信息生成方法、装置、电子设备和计算机可读介质
CN112880675A (zh) 用于视觉定位的位姿平滑方法、装置、终端和移动机器人
CN115409880B (zh) 工件数据配准方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant