CN108734733B - 一种基于麦克风阵列与双目摄像头的说话人定位与识别方法 - Google Patents
一种基于麦克风阵列与双目摄像头的说话人定位与识别方法 Download PDFInfo
- Publication number
- CN108734733B CN108734733B CN201810473571.5A CN201810473571A CN108734733B CN 108734733 B CN108734733 B CN 108734733B CN 201810473571 A CN201810473571 A CN 201810473571A CN 108734733 B CN108734733 B CN 108734733B
- Authority
- CN
- China
- Prior art keywords
- speaker
- binocular camera
- microphone array
- recognition model
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000011176 pooling Methods 0.000 claims description 12
- 230000007613 environmental effect Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- 230000004807 localization Effects 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 101100261006 Salmonella typhi topB gene Proteins 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 101150032437 top-3 gene Proteins 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Life Sciences & Earth Sciences (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于麦克风阵列与双目摄像头的说话人定位与识别方法,主要依托麦克风阵列和占用资源较少的TDOA方法进行说话人粗定位,之后再结合精度更高但是视野狭小的双目摄像头进行准确定位,在实现了精准的360°全方位声源定位的基础上大幅减少了软件开销,使得系统能够获得更高的刷新率,或者在空闲时间内执行其他任务;同时,本发明还利用了动态调整的加权平均方法来权衡声音和图像的识别结果使得最终系统输出的识别结果更为准确可靠。
Description
技术领域
本发明涉及声音与图像信息融合技术领域,尤其是一种基于麦克风阵列与双目摄像头的说话人定位与识别方法。
背景技术
目前,基于麦克风阵列的声源定位技术已经比较成熟,市面上也能够看到有基于该技术的商品出售,如亚马逊公司的Alexa和科大讯飞公司的六麦环形阵列语音定位与识别模块。目前最为常用的声源定位方法为TDOA(Time Difference of Arrival)方法,即使用GCC(Generalized Cross Correlation)判断通过声源到达阵列中不同麦克风的时间差,结合麦克风在阵列中的位置运用几何定位法进行定位。然而,GCC方法的性能在混响条件下会下降,其产生的误差会对传递到定位过程,造成定位精度降低。同时,定位过程也容易出现存在多个解的情况。
基于神经网络的图像中物体定位、检测与人脸识别系统近年来也是热门的研究与应用领域之一。尽管神经网络算法的精度很高,但它同时也占用了很多系统资源。受制于摄像头的特性,可以被定位与识别的物体被限制在摄像头可以拍摄到的区域。单摄像头的拍摄区域十分有限,而增加摄像头则会大幅增加硬件成本与图像处理时的软件资源占用。不仅如此,图像处理的精度也会受到光照等环境变化的影响。
发明内容
本发明所要解决的技术问题在于,提供一种基于麦克风阵列与双目摄像头的说话人定位与识别方法,能够实现精准的360°全方位声源定位且大幅减少了软件开销,识别结果准确可靠。
为解决上述技术问题,本发明提供一种基于麦克风阵列与双目摄像头的说话人定位与识别方法,包括如下步骤:
(1)设置麦克风阵列、双目摄像头和双目摄像头所处的转动平台,分别构建目标人脸与i-vector数据库并训练基于图像的人脸识别模型与基于音频的说话人识别模型;
(2)将双目摄像头与麦克风阵列固定于旋转平台上,计算在当前环境中人脸识别模型与说话人识别模型的置信度wV与wA;
(3)麦克风阵列首先记录一段音频,计算其平均功率作为环境功率;
(4)当麦克风阵列检测到当前功率与环境功率的差值大于某阈值时,且持续时间大于某阈值时,系统开始记录声音,并使用TDOA方法计算声源坐标和该点与双目摄像头镜头方向在水平面内的夹角θ;
(5)将旋转平台旋转θ角,双目摄像头采集图像信息,并使用Google提供的TensorFlow Object Detection API中的Single Shot MultiBox Detector inTensorFlow框架与模型识别图片中物体信息;若识别结果中不存在人体,则认为所记录声音音源非人,系统恢复待机;
(6)对采集到的音频使用步骤(1)中构建的说话人识别模型进行说话人识别,取置信度最高的前五个结果A1,A2,···,A5;对采集到的图像中的所有n个“人体”部分使用步骤(1)中构建的人脸识别模型进行人脸识别,每个人体取置信度最高的前五个结果,最终为并将两种识别结果通过wA与wV进行加权平均,即对i=1~5与j=1~n,计算取最大值则最终结果为:说话人是目标y,其身份为x;
(7)利用双目定位技术确定目标当前位置,并结合θ角计算出目标在世界坐标系下的坐标。
优选的,步骤(1)中,麦克风阵列中包含不少于三颗麦克风。
优选的,步骤(1)中,使用CNN训练人脸识别模型,CNN的结构为依次输入层、卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、全连接层1、全连接层2、输出层;其中,所有卷积层的卷积核大小为3×3,步长为1;池化层的池化方式为最大池化,核的大小为2×2,步长为2;卷积层1的深度为16,卷积层2的深度为32,卷积层3的深度为64;两层全连接层的神经元数量都为256个。
优选的,步骤(1)中,使用DNN训练说话人识别模型,DNN有四层全连接层,每层的神经元数量为256个。
优选的,步骤(2)中,计算在当前环境中人脸识别模型与说话人识别模型的置信度wV与wA具体为:在当前环境下使双目摄像头对准数据库中存在人脸数据的说话人甲,运行人脸识别程序n次,得到n个人脸识别输出为“甲”的置信度计算人脸识别的平均置信度接着,让甲开始不停说话,运行说话人识别程序n次,得到n个说话人识别输出为“甲”的置信度计算人脸识别的平均置信度最后,计算出人脸识别模型与说话人识别模型的置信度wV与wA分别为
优选的,步骤(4)中,当前功率与环境功率的差值大于的阈值为1kW,持续时间大于的阈值为50ms。
本发明的有益效果为:本发明主要依托麦克风阵列和占用资源较少的TDOA方法进行说话人粗定位,之后再结合精度更高但是视野狭小的双目摄像头进行准确定位,在实现了精准的360°全方位声源定位的基础上大幅减少了软件开销,使得系统能够获得更高的刷新率,或者在空闲时间内执行其他任务;同时本发明还利用了动态调整的加权平均方法来权衡声音和图像的识别结果使得最终系统输出的识别结果更为准确可靠。
附图说明
图1为本发明的方法流程示意图。
图2为本发明的硬件结构示意图。
具体实施方式
如图1所示,一种基于麦克风阵列与双目摄像头的说话人定位与识别方法,包括如下步骤:
(1)设置麦克风阵列、双目摄像头和双目摄像头所处的转动平台,分别构建目标人脸与i-vector数据库并训练基于图像的人脸识别模型与基于音频的说话人识别模型;
(2)将双目摄像头与麦克风阵列固定于旋转平台上,计算在当前环境中人脸识别模型与说话人识别模型的置信度wV与wA;
(3)麦克风阵列首先记录一段音频,计算其平均功率作为环境功率;
(4)当麦克风阵列检测到当前功率与环境功率的差值大于某阈值时,且持续时间大于某阈值时,系统开始记录声音,并使用TDOA方法计算声源坐标和该点与双目摄像头镜头方向在水平面内的夹角θ;
(5)将旋转平台旋转θ角,双目摄像头采集图像信息,并使用Google提供的TensorFlow Object Detection API中的Single Shot MultiBox Detector inTensorFlow框架与模型识别图片中物体信息;若识别结果中不存在人体,则认为所记录声音音源非人,系统恢复待机;
(6)对采集到的音频使用步骤(1)中构建的说话人识别模型进行说话人识别,取置信度最高的前五个结果A1,A2,···,A5;对采集到的图像中的所有n个“人体”部分使用步骤(1)中构建的人脸识别模型进行人脸识别,每个人体取置信度最高的前五个结果,最终为并将两种识别结果通过wA与wV进行加权平均,即对i=1~5与j=1~n,计算取最大值则最终结果为:说话人是目标y,其身份为x;
(7)利用双目定位技术确定目标当前位置,并结合θ角计算出目标在世界坐标系下的坐标。
本发明首先构建包含麦克风阵列与双目摄像头的旋转平台,使用麦克风阵列以TDOA方法对说话人进行粗定位,并转动双目摄像头至粗定位位置,对此时双目摄像头采集到的图像进行物体检测,判断是否有人体位于双目摄像头视野当中。如果此时有人体被检测到,则进行说话人识别和人脸识别,将二者结果加权平均后作为最终识别结果,并返回该结果的位置。如果没有检测到人体,则系统恢复待机。该过程流程图如图1所示,包含如下过程:
构建包含待识别说话人的面部图像和i-vector特征的数据库。用图像数据库训练用于人脸识别的CNN模型;用i-vector特征数据库训练用于说话人识别的DNN模型。
将双目摄像头固定在旋转平台中心,以双目摄像头中心为原点,镜头方向为Z轴正方向、竖直向下为Y轴正方向建立三维双目摄像头坐标系XYZ,设其和世界坐标系的变换已知,为为其中R为旋转矩阵,t为三维平移向量。旋转平台的旋转轴应尽量与双目摄像头的Y轴重合。将四颗麦克风以正方形固定在平台四角,正方形对角线的焦点应尽量位于双目摄像头坐标系的Y轴上。四颗麦克风应处于同一水平面上,但不一定要与双目摄像头处于统一水平位置。麦克风不能遮挡双目摄像头视野。硬件放置方式如图2所示。
开启音视频处理程序,系统待机,等待说话人的语音信号输入。若接收到说话人的语音信号输入,在记录处理后的语音信号的同时进行下面步骤。
系统采用TDOA方法计算声源,在此应为说话人,相对于双目摄像头坐标系原点的三维坐标(x,y,z),当z>0和z<0时,分别通过arctan(x/z)和π+arctan(x/z)来计算旋转角YAW的值θ,并记录θ值。
将旋转平台旋转角度θ。此时,双目摄像头坐标系变化为X’YZ’,如果声源定位没有误差,说话人在XZ平面内的投影应位于双目摄像头矩阵的Z轴上。此时,双目摄像头获取一张图片,并运行图像物体识别程序。若程序识别到了一个或多个人体目标,则进行下一步骤,否则认为采集到的音频信号并非由说话人发出,旋转平台绕Y轴旋转-θ,系统释放采集到的音频信号,恢复待机状态。
使用步骤(1)中训练好的DNN说话人识别模型对采集到的语音进行评分,取top3结果作为说话人识别的结果。同时,通过预先训练好的CNN人脸识别模型对双目摄像头采集到的所有人体的面部分别进行评分,同样取top5结果作为所有人脸目标的人脸识别结果。最后,通过加权平均法将说话人识别的top5结果和所有人脸识别结果进行融合,生成最终的top3检测结果。最后,取最终检测结果中评分最高项作为识别结果。
本发明主要依托麦克风阵列和占用资源较少的TDOA方法进行说话人粗定位,之后再结合精度更高但是视野狭小的双目摄像头进行准确定位,在实现了精准的360°全方位声源定位的基础上大幅减少了软件开销,使得系统能够获得更高的刷新率,或者在空闲时间内执行其他任务;同时本发明还利用了动态调整的加权平均方法来权衡声音和图像的识别结果使得最终系统输出的识别结果更为准确可靠。
Claims (6)
1.一种基于麦克风阵列与双目摄像头的说话人定位与识别方法,其特征在于,包括如下步骤:
(1)设置麦克风阵列、双目摄像头和双目摄像头所处的转动平台,分别构建目标人脸与i-vector数据库并训练基于图像的人脸识别模型与基于音频的说话人识别模型;
(2)将双目摄像头与麦克风阵列固定于旋转平台上,计算在当前环境中人脸识别模型与说话人识别模型的置信度wV与wA;
(3)麦克风阵列首先记录一段音频,计算其平均功率作为环境功率;
(4)当麦克风阵列检测到当前功率与环境功率的差值大于某阈值,且持续时间大于某阈值时,系统开始记录声音,并使用TDOA方法计算声源坐标和该点与双目摄像头镜头方向在水平面内的夹角θ;
(5)将旋转平台旋转θ角,双目摄像头采集图像信息,并使用Google提供的TensorFlowObject Detection API中的Single Shot MultiBox Detector in TensorFlow框架与模型识别图片中物体信息;若识别结果中不存在人体,则认为所记录声音音源非人,系统恢复待机;
(6)对采集到的音频使用步骤(1)中构建的说话人识别模型进行说话人识别,取置信度最高的前五个结果A1,A2,···,A5;对采集到的图像中的所有n个“人体”部分使用步骤(1)中构建的人脸识别模型进行人脸识别,每个人体取置信度最高的前五个结果,最终为并将两种识别结果通过wA与wV进行加权平均,即对i=1~5与j=1~n,计算取最大值则最终结果为:说话人是目标y,其身份为x;
(7)利用双目定位技术确定目标当前位置,并结合θ角计算出目标在世界坐标系下的坐标。
2.如权利要求1所述的基于麦克风阵列与双目摄像头的说话人定位与识别方法,其特征在于,步骤(1)中,麦克风阵列中包含不少于三颗麦克风。
3.如权利要求1所述的基于麦克风阵列与双目摄像头的说话人定位与识别方法,其特征在于,步骤(1)中,使用CNN训练人脸识别模型,CNN的结构依次为输入层、卷积层1、池化层1、卷积层2、池化层2、卷积层3、池化层3、全连接层1、全连接层2、输出层;其中,所有卷积层的卷积核大小为3×3,步长为1;池化层的池化方式为最大池化,核的大小为2×2,步长为2;卷积层1的深度为16,卷积层2的深度为32,卷积层3的深度为64;两层全连接层的神经元数量都为256个。
4.如权利要求1所述的基于麦克风阵列与双目摄像头的说话人定位与识别方法,其特征在于,步骤(1)中,使用DNN训练说话人识别模型,DNN有四层全连接层,每层的神经元数量为256个。
6.如权利要求1所述的基于麦克风阵列与双目摄像头的说话人定位与识别方法,其特征在于,步骤(4)中,当前功率与环境功率的差值大于的阈值为1kW,持续时间大于的阈值为50ms。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810473571.5A CN108734733B (zh) | 2018-05-17 | 2018-05-17 | 一种基于麦克风阵列与双目摄像头的说话人定位与识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810473571.5A CN108734733B (zh) | 2018-05-17 | 2018-05-17 | 一种基于麦克风阵列与双目摄像头的说话人定位与识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108734733A CN108734733A (zh) | 2018-11-02 |
CN108734733B true CN108734733B (zh) | 2022-04-26 |
Family
ID=63938517
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810473571.5A Active CN108734733B (zh) | 2018-05-17 | 2018-05-17 | 一种基于麦克风阵列与双目摄像头的说话人定位与识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108734733B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109512571B (zh) * | 2018-11-09 | 2021-08-27 | 京东方科技集团股份有限公司 | 止鼾装置及方法、计算机可读存储介质 |
CN109318243B (zh) * | 2018-12-11 | 2023-07-07 | 珠海一微半导体股份有限公司 | 一种视觉机器人的声源跟踪系统、方法和清洁机器人 |
CN109712188A (zh) * | 2018-12-28 | 2019-05-03 | 科大讯飞股份有限公司 | 一种目标跟踪方法及装置 |
CN109683135A (zh) * | 2018-12-28 | 2019-04-26 | 科大讯飞股份有限公司 | 一种声源定位方法及装置、目标抓拍系统 |
CN109782231B (zh) * | 2019-01-17 | 2020-11-20 | 北京大学 | 一种基于多任务学习的端到端声源定位方法及系统 |
CN110660102B (zh) * | 2019-06-17 | 2020-10-27 | 腾讯科技(深圳)有限公司 | 基于人工智能的说话人识别方法及装置、系统 |
CN110443371B (zh) * | 2019-06-25 | 2023-07-25 | 深圳欧克曼技术有限公司 | 一种人工智能设备和方法 |
US11295543B2 (en) | 2020-03-31 | 2022-04-05 | International Business Machines Corporation | Object detection in an image |
CN111551921A (zh) * | 2020-05-19 | 2020-08-18 | 北京中电慧声科技有限公司 | 一种声像联动的声源定向系统及方法 |
CN112487978B (zh) * | 2020-11-30 | 2024-04-16 | 清华珠三角研究院 | 一种视频中说话人定位的方法、装置及计算机存储介质 |
CN113093106A (zh) * | 2021-04-09 | 2021-07-09 | 北京华捷艾米科技有限公司 | 一种声源定位方法及系统 |
CN113327286B (zh) * | 2021-05-10 | 2023-05-19 | 中国地质大学(武汉) | 一种360度全方位的说话人视觉空间定位方法 |
CN113312985B (zh) * | 2021-05-10 | 2023-05-26 | 中国地质大学(武汉) | 一种视听双模态的360度全方位说话人定位方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902963A (zh) * | 2012-12-28 | 2014-07-02 | 联想(北京)有限公司 | 一种识别方位及身份的方法和电子设备 |
CN106653041A (zh) * | 2017-01-17 | 2017-05-10 | 北京地平线信息技术有限公司 | 音频信号处理设备、方法和电子设备 |
CN107026934A (zh) * | 2016-10-27 | 2017-08-08 | 华为技术有限公司 | 一种声源定位方法和装置 |
-
2018
- 2018-05-17 CN CN201810473571.5A patent/CN108734733B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902963A (zh) * | 2012-12-28 | 2014-07-02 | 联想(北京)有限公司 | 一种识别方位及身份的方法和电子设备 |
CN107026934A (zh) * | 2016-10-27 | 2017-08-08 | 华为技术有限公司 | 一种声源定位方法和装置 |
CN106653041A (zh) * | 2017-01-17 | 2017-05-10 | 北京地平线信息技术有限公司 | 音频信号处理设备、方法和电子设备 |
Non-Patent Citations (2)
Title |
---|
《Audiovisual Spatial-Audio Analysis by Means of Sound Localization and Imaging: A Multimedia Healthcare Framework in Abdominal Sound Mapping》;Charalampos A. Dimoulas 等;《IEEE TRANSACTIONS ON MULTIMEDIA》;20161031;第18卷(第10期);全文 * |
《基于听觉感知-视觉追踪的服务机器人声源目标定位方法的研究》;李立鹏;《万方学位论文》;20141130;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108734733A (zh) | 2018-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108734733B (zh) | 一种基于麦克风阵列与双目摄像头的说话人定位与识别方法 | |
US10027888B1 (en) | Determining area of interest in a panoramic video or photo | |
EP2509070B1 (en) | Apparatus and method for determining relevance of input speech | |
US8363848B2 (en) | Method, computer readable storage medium and system for localizing acoustic source | |
US6005610A (en) | Audio-visual object localization and tracking system and method therefor | |
US9633270B1 (en) | Using speaker clustering to switch between different camera views in a video conference system | |
WO2016183791A1 (zh) | 一种语音信号处理方法及装置 | |
US20220319032A1 (en) | Optimal view selection in a teleconferencing system with cascaded cameras | |
CN112423191B (zh) | 一种视频通话设备和音频增益方法 | |
Kapralos et al. | Audiovisual localization of multiple speakers in a video teleconferencing setting | |
CN113312985B (zh) | 一种视听双模态的360度全方位说话人定位方法 | |
CN110188179B (zh) | 语音定向识别交互方法、装置、设备及介质 | |
CN110554356A (zh) | 一种可见光通信中设备定位方法及系统 | |
CN110718227A (zh) | 一种基于多模态交互的分布式物联网设备协同方法及其系统 | |
CN112711974A (zh) | 人脸辨识方法及装置 | |
Kirchmaier et al. | Dynamical information fusion of heterogeneous sensors for 3D tracking using particle swarm optimization | |
Zhao et al. | Audio Visual Speaker Localization from EgoCentric Views | |
US20230254639A1 (en) | Sound Pickup Method and Apparatus | |
CN117153177A (zh) | Ar眼镜、拾音降噪方法、装置及可读存储介质 | |
Ding et al. | Microphone array acoustic source localization system based on deep learning | |
Zhu et al. | Speaker localization based on audio-visual bimodal fusion | |
Kim et al. | Auditory and visual integration based localization and tracking of humans in daily-life environments | |
CN114038452A (zh) | 一种语音分离方法和设备 | |
Wang et al. | Real-time automated video and audio capture with multiple cameras and microphones | |
CN110730378A (zh) | 一种信息处理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |