CN113312985B - 一种视听双模态的360度全方位说话人定位方法 - Google Patents
一种视听双模态的360度全方位说话人定位方法 Download PDFInfo
- Publication number
- CN113312985B CN113312985B CN202110504371.3A CN202110504371A CN113312985B CN 113312985 B CN113312985 B CN 113312985B CN 202110504371 A CN202110504371 A CN 202110504371A CN 113312985 B CN113312985 B CN 113312985B
- Authority
- CN
- China
- Prior art keywords
- positioning
- image
- speaker
- sound source
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
Landscapes
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种视听双模态的360度全方位说话人定位方法,所述方法包括:启用环形麦克风阵列接收声音信号并进行声音信息降维和声源粗定位;依据声源粗定位结果启用环形摄像头组中部分摄像头进行图像拼接决策和利用处理后的摄像画面进行视觉空间定位;使用信息融合方法完成视听双模态融合定位,本发明可以在360全方位的环境下准确高效的定位到目标说话人。
Description
技术领域
本发明涉及说话人定位的技术领域,具体涉及一种视听双模态的360度全方位说话人定位方法。
背景技术
随着互联网、移动智能终端和智能机器人的快速发展,人与机器之间的交互也越来越频繁,以人为中心、自然、高效是发展新一代人机交互方式的主要目标。而在实际的人机交互系统中,目标定位功能是交互系统中的第一个需要解决的重要问题。获取了目标用户位置后,机器可以进行后续的定向语音识别、情感识别以及为用户提供定向服务等操作,且交互系统可以在期望方向上拾取更准确的目标信息,从而提供精准的服务和反馈。
现有的目标说话人定位方法往往依赖于计算机视觉或是基于计算机听觉的方法,这些单模态的定位方法容易受到噪声、光线等环境因素的影响,系统的可靠性较低。
一些方法把图像和声源进行融合,但这些方法往往受限于定位设备的有限的定位方位角,无法对其他位置的说话人进行定位。
已公开的改进方案注重利用麦克风或者其他传感器进行辅助定位,之后利用转动平台等带动摄像头进行视觉空间定位。但这些方法存在一定的定位延时,如果目标说话人移位则定位效率、定位精度都存在不确定性。
已公开的全景深度图像拼接生成方法往往需要大量的时间完成,对说话人定位的时效性存在不利影响。
在基于计算机视觉的人脸图像定位中,当人脸位于图像中心区域附近时定位效果好,而远离中心区域时,定位精度会明显降低,甚至出现定位错误。
在基于线性麦克风阵列的说话人定位中,当说话人的方位与线性麦克风阵列的中垂线接近时,定位效果好;而当说话人远离线性麦克风的中垂线时,定位精度会明显降低,甚至出现定位错误。
发明内容
有鉴于此,本发明提供了一种视听双模态的360度全方位说话人定位方法,包括以下步骤:
S1、依据说话人语音信号到达环形麦克风阵列所在圆直径的麦克风上的时间差,获取声源信息降维;利用降维后的声源信息对目标说话人进行声源粗定位;
S2、图像拼接决策与视觉空间定位:基于所述声源粗定位的结果判断说话人是否位于说话人所在方位最近两枚摄像头的摄像画面交接区域,并决策开启的所述环形摄像头组中摄像头的方位、数量以及是否进行图像拼接;之后基于所述图像拼接处理后的摄像画面进行视觉空间定位;
S3、多模态融合定位:基于所述声源粗定位和视觉空间定位中对说话人的定位结果,进行视听模态的决策级融合,计算出视听模态融合定位结果。
实施本发明的技术方案带来的有益效果是:本发明可以在360全方位的环境下准确高效的定位到目标说话人。
附图说明
图1为本发明所述视听双模态的360度全方位说话人定位方法的流程图;
图2为语音信号过环形麦克风阵列所在圆直径的麦克风的示意图;
图3为摄像画面的交接区域示意图。
具体实施方式
本发明是为了解决现有基于现有的单模态说话人定位方法可靠性低,以及现有的多模态说话人定位方法受限于有限的定位方位角、需要依赖转动平台才能完成定位的问题,提出了一种视听双模态的360度全方位说话人定位方法。
请参考图1,一种视听双模态的360度全方位说话人定位方法,包括以下步骤:
S1:依据说话人语音信号到达环形麦克风阵列中麦克风A和麦克风B的时间差,其中,A和B是环形麦克风阵列所在圆的直径上的麦克风,且目标说话人与圆心的连线和直径AB形成的夹角,相较与其他位于直径的麦克风形成的夹角更接近于直角;请参考图2,以进行声源信息降维;利用降维后的声源信息对目标说话人进行声源粗定位;
所述的声源粗定位采用的环形麦克风阵列含有偶数个数的麦克风,选取环形麦克风阵列中合适的两枚麦克风,进行时延估计和位置估计已完成声源定位,可以通过到达时间差(Time Difference of Arrival,TDOA)声源定位的方法对目标说话人进行粗定位;
其中,所述的麦克选取部分的主要目的减少定位麦克风以简化声源定位步骤,将环形麦克风的说话人定位问题降维至线性麦克风阵列的说话人定位问题,声源信息降维方法的主要内容如下:
S112:用环形麦克风阵列接收说话人的声音信号,计算每组麦克风中的两枚麦克风接收到说话人声音信号的时间差,设时间差最大的麦克风组为λ,则选取编号为的麦克风组中的两枚麦克风,作为线性麦克风阵列进行后续的声源定位;(P不为整数时向下取整)。
以所述麦克选择方法选取的两枚麦克风作为线性麦克风阵列,在进行说话人声源定位时,因为说话人的方位相对于该组线性麦克风阵列的中垂线最近,所以利用这两个麦克风进行声源定位的定位精度相对较高。
所述TDOA声源定位方法中时延估计部分的主要内容如下:
S121:假设步骤S112中所选取的两枚麦克风Mi和Mj接收的音频信号分别表示为:xi(t)=Ais(t-τi)+ni(t),xj(t)=Ajs(t-τj)+nj(t),设两个麦克风接收的信号xi(t)和xj(t)的相关函数为:
上式中s(t)表示声源信号,τi和τj分别表示声源信号到两个麦克风Mi和Mj的传播时间,Ai和Aj分别表示两路声音信号传播过程中的衰减因子,ni(t)和nj(t)分别表示两路信号引入的噪声。
所述的TDOA声源定位方法中所述位置估计的主要内容如下:
S131:将声波简化为平面波,忽略声波的振幅差,则可以近似地认为传声器阵列单元接收到的地面信号之间只有一个简单的延迟差,在环形麦克风阵列内一个麦克风接收到的信号作为参考信号,则另一个麦克风接收到的信号的延迟计算为:
式中,d是两个麦克风之间的距离(即环形麦克风阵列所在圆直径),c是声波在空气中的传播速度。
S2:依据生源粗定位得到的目标说话人方位,以及环形摄像头组中摄像头的规格、拍摄角、摆放,判断目标说话人是否位于其所在方位最近两枚摄像头的摄像画面交接区域,如图3所示,当说话人位于摄像画面交接区域时,唤醒说话人所在方位的两个相邻摄像头,并对这两个摄像头的摄像画面进行图像拼接;否则直接唤醒说话人所在方位摄像头,不进行图像拼接。
所采用的环形摄像头组为由三个以上(N个)摄像头组成,设每个所述摄像头的拍摄范围角度为Q,要求Q×N>360°。
所述的视觉空间定位中,采用人脸检测算法、进行人脸检测并定位,并将定位结果转换到世界坐标系。具体视觉空间定位方法如下:
S221:选取人脸检测算法,调用人脸检测分类器,捕捉目标人脸并用矩形框画出;
S222:记录当前画面帧人脸矩形框四个角的位置坐标(x1,y1),(x1,y2),(x2,y1),(x2,y2),坐标系中心为当前摄像画面中心点;
S226:将人脸图像定位结果转换到世界坐标系(俯仰角不变);设环形规则分布的360度全景摄像头组共有N个摄像头,以顺时针方向从1到N给摄像头编号,方向1号摄像头拍摄中心为世界坐标系中心,则由在第k个摄像机拍摄到的人脸由图像坐标转换世界坐标时,有
其中,km指图像拼接时取得的编号较小的摄像头编号。
S3:基于所述声源粗定位和视觉空间定位中对说话人的定位结果,进行视听模态的决策级融合,计算出视听模态融合定位结果;
所述的多模态融合定位主要包含帧率跟踪、坐标映射以及决策级视听模态定位结果融合。其详细内容如下:
S31:使用帧率跟踪等方法,将图像和声音信号两者数据在时间上保持同步传输和处理,保证视觉空间定位结果与声源定位结果在时间上的一致性;
S32:完成全方位坐标映射,由于在S226中已经把视角空间定位结果转换到世界坐标系,当前仅需将声源定位结果转换到世界坐标系即可完成坐标映射,将声源定位转换到世界坐标的结果转换到如下:
θsound=θt+θω
式中,θω为所选取麦克风组的近世界坐标系麦克风修正到世界坐标系原点的角度补偿值;
S33:所述的决策级视听模态定位结果融合主要通过依据环境噪声、环境亮度等条件的条件独立,计算出所述声源定位结果、视频定位得到的方位角的融合权重γimage、γsound,从而得到目标说话人融合定位的方位角,并取视觉空间定位的得到的目标说话人俯仰角为最终融合的俯仰角,其中,γsound+γimage=1,且0≤γsound≤1,0≤γimage≤1。
具体内容如下:
S334:计算视觉空间定位的融合权重:γimage=ω1γ1+ω2γ2+ω3γ3,并计算出声源定位结果的融合权重γsound=1-γimage,其中ωi为权重补偿值,且ω1+ω2+ω3=1;
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种视听双模态的360度全方位说话人定位方法,其特征在于,包括以下步骤:
S1、依据说话人语音信号到达环形麦克风阵列所在圆直径麦克风上的时间差,进行声源信息降维;利用降维后的声源信息对目标说话人进行声源粗定位;
S2、图像拼接决策与视觉空间定位:基于所述声源粗定位的结果判断说话人是否位于说话人所在方位最近两枚摄像头的摄像画面交接区域,并决策开启的环形摄像头组中摄像头的方位、数量以及是否进行图像拼接;之后基于所述图像拼接处理后的摄像画面进行视觉空间定位;
S3、多模态融合定位:基于所述声源粗定位和视觉空间定位中对说话人的定位结果,进行视听模态的决策级融合,计算出视听模态融合定位结果;
所述S1具体为:选取环形麦克风阵列中合适的两枚麦克风,通过到达时间差TDOA声源定位的方法进行时延估计和位置估计以完成声源定位;
所述声源信息降维具体步骤如下:
S112:用环形麦克风阵列接收说话人的声音信号,计算每组麦克风中的两枚麦克风接收到说话人声音信号的时间差,设时间差最大的麦克风组为λ,则选取编号为的麦克风组中的两枚麦克风,作为线性麦克风阵列进行后续的声源定位,P不为整数时向下取整;
S2所述图像拼接决策是依据S1中声源粗定位的结果,判断说话人是否位于说话人所在方位最近两枚摄像头的摄像画面交接区域,当说话人位于摄像画面交接区域时,唤醒说话人所在方位的两个相邻摄像头,并对这两个摄像头的摄像画面进行图像拼接;否则直接唤醒说话人所在方位摄像头,不进行图像拼接;
S2所述的视觉空间定位方法如下:
S221:使用人脸检测算法,调用人脸检测分类器,捕捉目标人脸并用矩形框画出;
S222:记录当前画面帧人脸矩形框四个角的位置坐标(x1,y1),(x1,y2),(x2,y1),(x2,y2),坐标系中心为当前摄像画面中心点;
S226:将人脸图像定位结果转换到世界坐标系,俯仰角不变;设环形规则分布的360度全景摄像头组共有N个摄像头,以顺时针方向从1到N给摄像头编号,方向1号摄像头拍摄中心为世界坐标系中心,则由在第k个摄像机拍摄到的人脸由图像坐标转换世界坐标时,有
其中,km指图像拼接时取得的编号较小的摄像头编号;
S3所述多模态融合定位主要包含帧率跟踪、坐标映射以及决策级视听模态定位结果融合,具体内容如下:
S31:使用帧率跟踪方法,将图像和声音信号两者数据在时间上保持同步传输和处理,保证视觉空间定位结果与声源定位结果在时间上的一致性;
S32:将声源定位结果转换到世界坐标系即完成坐标映射,将声源定位转换到世界坐标的结果转换到如下:
θsound=θt+θω
式中,θω为所选取麦克风组的近世界坐标系麦克风修正到世界坐标系原点的角度补偿值;
S33:分别计算出声源定位结果和视频定位得到的方位角的融合权重γimage、γsound,从而得到目标说话人融合定位的方位角,并取视觉空间定位的得到的目标说话人俯仰角为最终融合的俯仰角,其中,γsound+γimage=1;且0≤γsound≤1,0≤γimage≤1;
所述S33具体如下:
S334:计算视觉空间定位的融合权重:γimage=ω1γ1+ω2γ2+ω3γ3,并计算出声源定位结果的融合权重γsound=1-γimage,其中ωi为权重补偿值,且ω1+ω2+ω3=1;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110504371.3A CN113312985B (zh) | 2021-05-10 | 2021-05-10 | 一种视听双模态的360度全方位说话人定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110504371.3A CN113312985B (zh) | 2021-05-10 | 2021-05-10 | 一种视听双模态的360度全方位说话人定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113312985A CN113312985A (zh) | 2021-08-27 |
CN113312985B true CN113312985B (zh) | 2023-05-26 |
Family
ID=77371800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110504371.3A Active CN113312985B (zh) | 2021-05-10 | 2021-05-10 | 一种视听双模态的360度全方位说话人定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113312985B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113838128B (zh) * | 2021-11-23 | 2022-03-08 | 珠海视熙科技有限公司 | 视频图像音画映射的方法、系统、装置及视频会议设备 |
CN117037844A (zh) * | 2023-10-10 | 2023-11-10 | 中国传媒大学 | 基于全景视频的全景音频生成方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002135642A (ja) * | 2000-10-24 | 2002-05-10 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声翻訳システム |
CN106328156A (zh) * | 2016-08-22 | 2017-01-11 | 华南理工大学 | 一种音视频信息融合的麦克风阵列语音增强系统及方法 |
CN109474797A (zh) * | 2019-01-04 | 2019-03-15 | 北京快鱼电子股份公司 | 基于全景摄像头和麦克风阵列的会议转录系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503615B (zh) * | 2016-09-20 | 2019-10-08 | 北京工业大学 | 基于多传感器的室内人体检测跟踪和身份识别系统 |
US10847162B2 (en) * | 2018-05-07 | 2020-11-24 | Microsoft Technology Licensing, Llc | Multi-modal speech localization |
CN108734733B (zh) * | 2018-05-17 | 2022-04-26 | 东南大学 | 一种基于麦克风阵列与双目摄像头的说话人定位与识别方法 |
CN108986838B (zh) * | 2018-09-18 | 2023-01-20 | 东北大学 | 一种基于声源定位的自适应语音分离方法 |
CN111273231A (zh) * | 2020-03-23 | 2020-06-12 | 桂林电子科技大学 | 基于不同麦克风阵列拓扑结构分析的室内声源定位方法 |
-
2021
- 2021-05-10 CN CN202110504371.3A patent/CN113312985B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002135642A (ja) * | 2000-10-24 | 2002-05-10 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声翻訳システム |
CN106328156A (zh) * | 2016-08-22 | 2017-01-11 | 华南理工大学 | 一种音视频信息融合的麦克风阵列语音增强系统及方法 |
CN109474797A (zh) * | 2019-01-04 | 2019-03-15 | 北京快鱼电子股份公司 | 基于全景摄像头和麦克风阵列的会议转录系统 |
Non-Patent Citations (1)
Title |
---|
Look, Listen and Learn - A Multimodal LSTM for Speaker Identification;Jimmy Ren et al.;《arxiv.org》;第1-7页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113312985A (zh) | 2021-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108734733B (zh) | 一种基于麦克风阵列与双目摄像头的说话人定位与识别方法 | |
CN104106267B (zh) | 在增强现实环境中的信号增强波束成形 | |
CN113312985B (zh) | 一种视听双模态的360度全方位说话人定位方法 | |
US20210306744A1 (en) | Audio system for dynamic determination of personalized acoustic transfer functions | |
US10616706B1 (en) | Estimating room acoustic properties using microphone arrays | |
JP4296197B2 (ja) | 音源追跡のための配置及び方法 | |
US7403217B2 (en) | System and method of self-discovery and self-calibration in a video conferencing system | |
US6005610A (en) | Audio-visual object localization and tracking system and method therefor | |
US11997472B2 (en) | Signal processing device, signal processing method, and program | |
TWI396862B (zh) | 聲源定位系統、方法及電腦可讀取儲存媒體 | |
US20050117033A1 (en) | Image processing device, calibration method thereof, and image processing | |
CN108432272A (zh) | 用于回放控制的多装置分布式媒体捕获 | |
JP2017118375A (ja) | 電子機器及び音出力制御方法 | |
TW201734948A (zh) | 用於在廣角圖像系統中生成相關的音頻和視覺信號的方法、系統及設備 | |
CN110554356A (zh) | 一种可见光通信中设备定位方法及系统 | |
WO2022227893A1 (zh) | 图像拍摄方法、装置、终端及存储介质 | |
CN110441737B (zh) | 一种采用鱼眼镜头的声源定位方法及其设备 | |
CN111031468B (zh) | 一种基于个体化hrtf立体声的视觉辅助方法与设备 | |
Legg et al. | A combined microphone and camera calibration technique with application to acoustic imaging | |
WO2020255766A1 (ja) | 情報処理装置、情報処理方法、プログラム、投映装置、および情報処理システム | |
CN108604453B (zh) | 一种定向录音方法及电子设备 | |
JP2018019295A (ja) | 情報処理システム及びその制御方法、コンピュータプログラム | |
CN111325790A (zh) | 目标追踪方法、设备及系统 | |
CN115361636A (zh) | 声音信号调整方法、装置、终端设备及存储介质 | |
CN111982293B (zh) | 体温测量方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |