CN108734733B - 一种基于麦克风阵列与双目摄像头的说话人定位与识别方法 - Google Patents

一种基于麦克风阵列与双目摄像头的说话人定位与识别方法 Download PDF

Info

Publication number
CN108734733B
CN108734733B CN201810473571.5A CN201810473571A CN108734733B CN 108734733 B CN108734733 B CN 108734733B CN 201810473571 A CN201810473571 A CN 201810473571A CN 108734733 B CN108734733 B CN 108734733B
Authority
CN
China
Prior art keywords
speaker
binocular camera
microphone array
recognition model
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810473571.5A
Other languages
English (en)
Other versions
CN108734733A (zh
Inventor
莫凌飞
李英昊
厉叶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201810473571.5A priority Critical patent/CN108734733B/zh
Publication of CN108734733A publication Critical patent/CN108734733A/zh
Application granted granted Critical
Publication of CN108734733B publication Critical patent/CN108734733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于麦克风阵列与双目摄像头的说话人定位与识别方法,主要依托麦克风阵列和占用资源较少的TDOA方法进行说话人粗定位,之后再结合精度更高但是视野狭小的双目摄像头进行准确定位,在实现了精准的360°全方位声源定位的基础上大幅减少了软件开销,使得系统能够获得更高的刷新率,或者在空闲时间内执行其他任务;同时,本发明还利用了动态调整的加权平均方法来权衡声音和图像的识别结果使得最终系统输出的识别结果更为准确可靠。

Description

一种基于麦克风阵列与双目摄像头的说话人定位与识别方法
技术领域
本发明涉及声音与图像信息融合技术领域,尤其是一种基于麦克风阵列与双目摄像头的说话人定位与识别方法。
背景技术
目前,基于麦克风阵列的声源定位技术已经比较成熟,市面上也能够看到有基于该技术的商品出售,如亚马逊公司的Alexa和科大讯飞公司的六麦环形阵列语音定位与识别模块。目前最为常用的声源定位方法为TDOA(Time Difference of Arrival)方法,即使用GCC(Generalized Cross Correlation)判断通过声源到达阵列中不同麦克风的时间差,结合麦克风在阵列中的位置运用几何定位法进行定位。然而,GCC方法的性能在混响条件下会下降,其产生的误差会对传递到定位过程,造成定位精度降低。同时,定位过程也容易出现存在多个解的情况。
基于神经网络的图像中物体定位、检测与人脸识别系统近年来也是热门的研究与应用领域之一。尽管神经网络算法的精度很高,但它同时也占用了很多系统资源。受制于摄像头的特性,可以被定位与识别的物体被限制在摄像头可以拍摄到的区域。单摄像头的拍摄区域十分有限,而增加摄像头则会大幅增加硬件成本与图像处理时的软件资源占用。不仅如此,图像处理的精度也会受到光照等环境变化的影响。
发明内容
本发明所要解决的技术问题在于,提供一种基于麦克风阵列与双目摄像头的说话人定位与识别方法,能够实现精准的360°全方位声源定位且大幅减少了软件开销,识别结果准确可靠。
为解决上述技术问题,本发明提供一种基于麦克风阵列与双目摄像头的说话人定位与识别方法,包括如下步骤:
(1)设置麦克风阵列、双目摄像头和双目摄像头所处的转动平台,分别构建目标人脸与i-vector数据库并训练基于图像的人脸识别模型与基于音频的说话人识别模型;
(2)将双目摄像头与麦克风阵列固定于旋转平台上,计算在当前环境中人脸识别模型与说话人识别模型的置信度wV与wA
(3)麦克风阵列首先记录一段音频,计算其平均功率作为环境功率;
(4)当麦克风阵列检测到当前功率与环境功率的差值大于某阈值时,且持续时间大于某阈值时,系统开始记录声音,并使用TDOA方法计算声源坐标和该点与双目摄像头镜头方向在水平面内的夹角θ;
(5)将旋转平台旋转θ角,双目摄像头采集图像信息,并使用Google提供的TensorFlow Object Detection API中的Single Shot MultiBox Detector inTensorFlow框架与模型识别图片中物体信息;若识别结果中不存在人体,则认为所记录声音音源非人,系统恢复待机;
(6)对采集到的音频使用步骤(1)中构建的说话人识别模型进行说话人识别,取置信度最高的前五个结果A1,A2,···,A5;对采集到的图像中的所有n个“人体”部分使用步骤(1)中构建的人脸识别模型进行人脸识别,每个人体取置信度最高的前五个结果,最终为
Figure GDA0003462184630000021
并将两种识别结果通过wA与wV进行加权平均,即对i=1~5与j=1~n,计算
Figure GDA0003462184630000022
Figure GDA0003462184630000023
最大值
Figure GDA0003462184630000024
则最终结果为:说话人是目标y,其身份为x;
(7)利用双目定位技术确定目标当前位置,并结合θ角计算出目标在世界坐标系下的坐标。
优选的,步骤(1)中,麦克风阵列中包含不少于三颗麦克风。
优选的,步骤(1)中,使用CNN训练人脸识别模型,CNN的结构为依次输入层、卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、全连接层1、全连接层2、输出层;其中,所有卷积层的卷积核大小为3×3,步长为1;池化层的池化方式为最大池化,核的大小为2×2,步长为2;卷积层1的深度为16,卷积层2的深度为32,卷积层3的深度为64;两层全连接层的神经元数量都为256个。
优选的,步骤(1)中,使用DNN训练说话人识别模型,DNN有四层全连接层,每层的神经元数量为256个。
优选的,步骤(2)中,计算在当前环境中人脸识别模型与说话人识别模型的置信度wV与wA具体为:在当前环境下使双目摄像头对准数据库中存在人脸数据的说话人甲,运行人脸识别程序n次,得到n个人脸识别输出为“甲”的置信度
Figure GDA0003462184630000025
计算人脸识别的平均置信度
Figure GDA0003462184630000026
接着,让甲开始不停说话,运行说话人识别程序n次,得到n个说话人识别输出为“甲”的置信度
Figure GDA0003462184630000027
计算人脸识别的平均置信度
Figure GDA0003462184630000028
最后,计算出人脸识别模型与说话人识别模型的置信度wV与wA分别为
Figure GDA0003462184630000029
Figure GDA0003462184630000031
优选的,步骤(4)中,当前功率与环境功率的差值大于的阈值为1kW,持续时间大于的阈值为50ms。
本发明的有益效果为:本发明主要依托麦克风阵列和占用资源较少的TDOA方法进行说话人粗定位,之后再结合精度更高但是视野狭小的双目摄像头进行准确定位,在实现了精准的360°全方位声源定位的基础上大幅减少了软件开销,使得系统能够获得更高的刷新率,或者在空闲时间内执行其他任务;同时本发明还利用了动态调整的加权平均方法来权衡声音和图像的识别结果使得最终系统输出的识别结果更为准确可靠。
附图说明
图1为本发明的方法流程示意图。
图2为本发明的硬件结构示意图。
具体实施方式
如图1所示,一种基于麦克风阵列与双目摄像头的说话人定位与识别方法,包括如下步骤:
(1)设置麦克风阵列、双目摄像头和双目摄像头所处的转动平台,分别构建目标人脸与i-vector数据库并训练基于图像的人脸识别模型与基于音频的说话人识别模型;
(2)将双目摄像头与麦克风阵列固定于旋转平台上,计算在当前环境中人脸识别模型与说话人识别模型的置信度wV与wA
(3)麦克风阵列首先记录一段音频,计算其平均功率作为环境功率;
(4)当麦克风阵列检测到当前功率与环境功率的差值大于某阈值时,且持续时间大于某阈值时,系统开始记录声音,并使用TDOA方法计算声源坐标和该点与双目摄像头镜头方向在水平面内的夹角θ;
(5)将旋转平台旋转θ角,双目摄像头采集图像信息,并使用Google提供的TensorFlow Object Detection API中的Single Shot MultiBox Detector inTensorFlow框架与模型识别图片中物体信息;若识别结果中不存在人体,则认为所记录声音音源非人,系统恢复待机;
(6)对采集到的音频使用步骤(1)中构建的说话人识别模型进行说话人识别,取置信度最高的前五个结果A1,A2,···,A5;对采集到的图像中的所有n个“人体”部分使用步骤(1)中构建的人脸识别模型进行人脸识别,每个人体取置信度最高的前五个结果,最终为
Figure GDA0003462184630000041
并将两种识别结果通过wA与wV进行加权平均,即对i=1~5与j=1~n,计算
Figure GDA0003462184630000042
Figure GDA0003462184630000043
最大值
Figure GDA0003462184630000044
则最终结果为:说话人是目标y,其身份为x;
(7)利用双目定位技术确定目标当前位置,并结合θ角计算出目标在世界坐标系下的坐标。
本发明首先构建包含麦克风阵列与双目摄像头的旋转平台,使用麦克风阵列以TDOA方法对说话人进行粗定位,并转动双目摄像头至粗定位位置,对此时双目摄像头采集到的图像进行物体检测,判断是否有人体位于双目摄像头视野当中。如果此时有人体被检测到,则进行说话人识别和人脸识别,将二者结果加权平均后作为最终识别结果,并返回该结果的位置。如果没有检测到人体,则系统恢复待机。该过程流程图如图1所示,包含如下过程:
构建包含待识别说话人的面部图像和i-vector特征的数据库。用图像数据库训练用于人脸识别的CNN模型;用i-vector特征数据库训练用于说话人识别的DNN模型。
将双目摄像头固定在旋转平台中心,以双目摄像头中心为原点,镜头方向为Z轴正方向、竖直向下为Y轴正方向建立三维双目摄像头坐标系XYZ,设其和世界坐标系的变换已知,为为
Figure GDA0003462184630000045
其中R为旋转矩阵,t为三维平移向量。旋转平台的旋转轴应尽量与双目摄像头的Y轴重合。将四颗麦克风以正方形固定在平台四角,正方形对角线的焦点应尽量位于双目摄像头坐标系的Y轴上。四颗麦克风应处于同一水平面上,但不一定要与双目摄像头处于统一水平位置。麦克风不能遮挡双目摄像头视野。硬件放置方式如图2所示。
开启音视频处理程序,系统待机,等待说话人的语音信号输入。若接收到说话人的语音信号输入,在记录处理后的语音信号的同时进行下面步骤。
系统采用TDOA方法计算声源,在此应为说话人,相对于双目摄像头坐标系原点的三维坐标(x,y,z),当z>0和z<0时,分别通过arctan(x/z)和π+arctan(x/z)来计算旋转角YAW的值θ,并记录θ值。
将旋转平台旋转角度θ。此时,双目摄像头坐标系变化为X’YZ’,如果声源定位没有误差,说话人在XZ平面内的投影应位于双目摄像头矩阵的Z轴上。此时,双目摄像头获取一张图片,并运行图像物体识别程序。若程序识别到了一个或多个人体目标,则进行下一步骤,否则认为采集到的音频信号并非由说话人发出,旋转平台绕Y轴旋转-θ,系统释放采集到的音频信号,恢复待机状态。
使用步骤(1)中训练好的DNN说话人识别模型对采集到的语音进行评分,取top3结果作为说话人识别的结果。同时,通过预先训练好的CNN人脸识别模型对双目摄像头采集到的所有人体的面部分别进行评分,同样取top5结果作为所有人脸目标的人脸识别结果。最后,通过加权平均法将说话人识别的top5结果和所有人脸识别结果进行融合,生成最终的top3检测结果。最后,取最终检测结果中评分最高项作为识别结果。
利用双目定位技术确定步骤六中的识别结果在当前双目摄像头坐标系X’YZ’中的位置(x′,y′,z′),通过
Figure GDA0003462184630000051
可以得到识别结果在世界坐标系中的位置。
本发明主要依托麦克风阵列和占用资源较少的TDOA方法进行说话人粗定位,之后再结合精度更高但是视野狭小的双目摄像头进行准确定位,在实现了精准的360°全方位声源定位的基础上大幅减少了软件开销,使得系统能够获得更高的刷新率,或者在空闲时间内执行其他任务;同时本发明还利用了动态调整的加权平均方法来权衡声音和图像的识别结果使得最终系统输出的识别结果更为准确可靠。

Claims (6)

1.一种基于麦克风阵列与双目摄像头的说话人定位与识别方法,其特征在于,包括如下步骤:
(1)设置麦克风阵列、双目摄像头和双目摄像头所处的转动平台,分别构建目标人脸与i-vector数据库并训练基于图像的人脸识别模型与基于音频的说话人识别模型;
(2)将双目摄像头与麦克风阵列固定于旋转平台上,计算在当前环境中人脸识别模型与说话人识别模型的置信度wV与wA
(3)麦克风阵列首先记录一段音频,计算其平均功率作为环境功率;
(4)当麦克风阵列检测到当前功率与环境功率的差值大于某阈值,且持续时间大于某阈值时,系统开始记录声音,并使用TDOA方法计算声源坐标和该点与双目摄像头镜头方向在水平面内的夹角θ;
(5)将旋转平台旋转θ角,双目摄像头采集图像信息,并使用Google提供的TensorFlowObject Detection API中的Single Shot MultiBox Detector in TensorFlow框架与模型识别图片中物体信息;若识别结果中不存在人体,则认为所记录声音音源非人,系统恢复待机;
(6)对采集到的音频使用步骤(1)中构建的说话人识别模型进行说话人识别,取置信度最高的前五个结果A1,A2,···,A5;对采集到的图像中的所有n个“人体”部分使用步骤(1)中构建的人脸识别模型进行人脸识别,每个人体取置信度最高的前五个结果,最终为
Figure FDA0003462184620000011
并将两种识别结果通过wA与wV进行加权平均,即对i=1~5与j=1~n,计算
Figure FDA0003462184620000012
Figure FDA0003462184620000013
最大值
Figure FDA0003462184620000014
则最终结果为:说话人是目标y,其身份为x;
(7)利用双目定位技术确定目标当前位置,并结合θ角计算出目标在世界坐标系下的坐标。
2.如权利要求1所述的基于麦克风阵列与双目摄像头的说话人定位与识别方法,其特征在于,步骤(1)中,麦克风阵列中包含不少于三颗麦克风。
3.如权利要求1所述的基于麦克风阵列与双目摄像头的说话人定位与识别方法,其特征在于,步骤(1)中,使用CNN训练人脸识别模型,CNN的结构依次为输入层、卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、全连接层1、全连接层2、输出层;其中,所有卷积层的卷积核大小为3×3,步长为1;池化层的池化方式为最大池化,核的大小为2×2,步长为2;卷积层1的深度为16,卷积层2的深度为32,卷积层3的深度为64;两层全连接层的神经元数量都为256个。
4.如权利要求1所述的基于麦克风阵列与双目摄像头的说话人定位与识别方法,其特征在于,步骤(1)中,使用DNN训练说话人识别模型,DNN有四层全连接层,每层的神经元数量为256个。
5.如权利要求1所述的基于麦克风阵列与双目摄像头的说话人定位与识别方法,其特征在于,步骤(2)中,计算在当前环境中人脸识别模型与说话人识别模型的置信度wV与wA具体为:在当前环境下使双目摄像头对准数据库中存在人脸数据的说话人甲,运行人脸识别程序n次,得到n个人脸识别输出为“甲”的置信度
Figure FDA0003462184620000021
计算人脸识别的平均置信度
Figure FDA0003462184620000022
接着,让甲开始不停说话,运行说话人识别程序n次,得到n个说话人识别输出为“甲”的置信度
Figure FDA0003462184620000023
计算人脸识别的平均置信度
Figure FDA0003462184620000024
最后,计算出人脸识别模型与说话人识别模型的置信度wV与wA分别为
Figure FDA0003462184620000025
Figure FDA0003462184620000026
6.如权利要求1所述的基于麦克风阵列与双目摄像头的说话人定位与识别方法,其特征在于,步骤(4)中,当前功率与环境功率的差值大于的阈值为1kW,持续时间大于的阈值为50ms。
CN201810473571.5A 2018-05-17 2018-05-17 一种基于麦克风阵列与双目摄像头的说话人定位与识别方法 Active CN108734733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810473571.5A CN108734733B (zh) 2018-05-17 2018-05-17 一种基于麦克风阵列与双目摄像头的说话人定位与识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810473571.5A CN108734733B (zh) 2018-05-17 2018-05-17 一种基于麦克风阵列与双目摄像头的说话人定位与识别方法

Publications (2)

Publication Number Publication Date
CN108734733A CN108734733A (zh) 2018-11-02
CN108734733B true CN108734733B (zh) 2022-04-26

Family

ID=63938517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810473571.5A Active CN108734733B (zh) 2018-05-17 2018-05-17 一种基于麦克风阵列与双目摄像头的说话人定位与识别方法

Country Status (1)

Country Link
CN (1) CN108734733B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109512571B (zh) * 2018-11-09 2021-08-27 京东方科技集团股份有限公司 止鼾装置及方法、计算机可读存储介质
CN109318243B (zh) * 2018-12-11 2023-07-07 珠海一微半导体股份有限公司 一种视觉机器人的声源跟踪系统、方法和清洁机器人
CN109712188A (zh) * 2018-12-28 2019-05-03 科大讯飞股份有限公司 一种目标跟踪方法及装置
CN109683135A (zh) * 2018-12-28 2019-04-26 科大讯飞股份有限公司 一种声源定位方法及装置、目标抓拍系统
CN109782231B (zh) * 2019-01-17 2020-11-20 北京大学 一种基于多任务学习的端到端声源定位方法及系统
CN110660102B (zh) * 2019-06-17 2020-10-27 腾讯科技(深圳)有限公司 基于人工智能的说话人识别方法及装置、系统
CN110443371B (zh) * 2019-06-25 2023-07-25 深圳欧克曼技术有限公司 一种人工智能设备和方法
US11295543B2 (en) 2020-03-31 2022-04-05 International Business Machines Corporation Object detection in an image
CN111551921A (zh) * 2020-05-19 2020-08-18 北京中电慧声科技有限公司 一种声像联动的声源定向系统及方法
CN112487978B (zh) * 2020-11-30 2024-04-16 清华珠三角研究院 一种视频中说话人定位的方法、装置及计算机存储介质
CN113093106A (zh) * 2021-04-09 2021-07-09 北京华捷艾米科技有限公司 一种声源定位方法及系统
CN113327286B (zh) * 2021-05-10 2023-05-19 中国地质大学(武汉) 一种360度全方位的说话人视觉空间定位方法
CN113312985B (zh) * 2021-05-10 2023-05-26 中国地质大学(武汉) 一种视听双模态的360度全方位说话人定位方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902963A (zh) * 2012-12-28 2014-07-02 联想(北京)有限公司 一种识别方位及身份的方法和电子设备
CN106653041A (zh) * 2017-01-17 2017-05-10 北京地平线信息技术有限公司 音频信号处理设备、方法和电子设备
CN107026934A (zh) * 2016-10-27 2017-08-08 华为技术有限公司 一种声源定位方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902963A (zh) * 2012-12-28 2014-07-02 联想(北京)有限公司 一种识别方位及身份的方法和电子设备
CN107026934A (zh) * 2016-10-27 2017-08-08 华为技术有限公司 一种声源定位方法和装置
CN106653041A (zh) * 2017-01-17 2017-05-10 北京地平线信息技术有限公司 音频信号处理设备、方法和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Audiovisual Spatial-Audio Analysis by Means of Sound Localization and Imaging: A Multimedia Healthcare Framework in Abdominal Sound Mapping》;Charalampos A. Dimoulas 等;《IEEE TRANSACTIONS ON MULTIMEDIA》;20161031;第18卷(第10期);全文 *
《基于听觉感知-视觉追踪的服务机器人声源目标定位方法的研究》;李立鹏;《万方学位论文》;20141130;全文 *

Also Published As

Publication number Publication date
CN108734733A (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN108734733B (zh) 一种基于麦克风阵列与双目摄像头的说话人定位与识别方法
US10027888B1 (en) Determining area of interest in a panoramic video or photo
EP2509070B1 (en) Apparatus and method for determining relevance of input speech
US8363848B2 (en) Method, computer readable storage medium and system for localizing acoustic source
US6005610A (en) Audio-visual object localization and tracking system and method therefor
US9633270B1 (en) Using speaker clustering to switch between different camera views in a video conference system
WO2016183791A1 (zh) 一种语音信号处理方法及装置
US20220319032A1 (en) Optimal view selection in a teleconferencing system with cascaded cameras
CN112423191B (zh) 一种视频通话设备和音频增益方法
Kapralos et al. Audiovisual localization of multiple speakers in a video teleconferencing setting
CN113312985B (zh) 一种视听双模态的360度全方位说话人定位方法
CN110188179B (zh) 语音定向识别交互方法、装置、设备及介质
CN110554356A (zh) 一种可见光通信中设备定位方法及系统
CN110718227A (zh) 一种基于多模态交互的分布式物联网设备协同方法及其系统
CN112711974A (zh) 人脸辨识方法及装置
Kirchmaier et al. Dynamical information fusion of heterogeneous sensors for 3D tracking using particle swarm optimization
Zhao et al. Audio Visual Speaker Localization from EgoCentric Views
US20230254639A1 (en) Sound Pickup Method and Apparatus
CN117153177A (zh) Ar眼镜、拾音降噪方法、装置及可读存储介质
Ding et al. Microphone array acoustic source localization system based on deep learning
Zhu et al. Speaker localization based on audio-visual bimodal fusion
Kim et al. Auditory and visual integration based localization and tracking of humans in daily-life environments
CN114038452A (zh) 一种语音分离方法和设备
Wang et al. Real-time automated video and audio capture with multiple cameras and microphones
CN110730378A (zh) 一种信息处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant