CN113312985B - 一种视听双模态的360度全方位说话人定位方法 - Google Patents

一种视听双模态的360度全方位说话人定位方法 Download PDF

Info

Publication number
CN113312985B
CN113312985B CN202110504371.3A CN202110504371A CN113312985B CN 113312985 B CN113312985 B CN 113312985B CN 202110504371 A CN202110504371 A CN 202110504371A CN 113312985 B CN113312985 B CN 113312985B
Authority
CN
China
Prior art keywords
positioning
image
speaker
sound source
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110504371.3A
Other languages
English (en)
Other versions
CN113312985A (zh
Inventor
刘振焘
龙映佐
吴敏
曹卫华
陈略峰
蹇栎为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN202110504371.3A priority Critical patent/CN113312985B/zh
Publication of CN113312985A publication Critical patent/CN113312985A/zh
Application granted granted Critical
Publication of CN113312985B publication Critical patent/CN113312985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements

Landscapes

  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种视听双模态的360度全方位说话人定位方法,所述方法包括:启用环形麦克风阵列接收声音信号并进行声音信息降维和声源粗定位;依据声源粗定位结果启用环形摄像头组中部分摄像头进行图像拼接决策和利用处理后的摄像画面进行视觉空间定位;使用信息融合方法完成视听双模态融合定位,本发明可以在360全方位的环境下准确高效的定位到目标说话人。

Description

一种视听双模态的360度全方位说话人定位方法
技术领域
本发明涉及说话人定位的技术领域,具体涉及一种视听双模态的360度全方位说话人定位方法。
背景技术
随着互联网、移动智能终端和智能机器人的快速发展,人与机器之间的交互也越来越频繁,以人为中心、自然、高效是发展新一代人机交互方式的主要目标。而在实际的人机交互系统中,目标定位功能是交互系统中的第一个需要解决的重要问题。获取了目标用户位置后,机器可以进行后续的定向语音识别、情感识别以及为用户提供定向服务等操作,且交互系统可以在期望方向上拾取更准确的目标信息,从而提供精准的服务和反馈。
现有的目标说话人定位方法往往依赖于计算机视觉或是基于计算机听觉的方法,这些单模态的定位方法容易受到噪声、光线等环境因素的影响,系统的可靠性较低。
一些方法把图像和声源进行融合,但这些方法往往受限于定位设备的有限的定位方位角,无法对其他位置的说话人进行定位。
已公开的改进方案注重利用麦克风或者其他传感器进行辅助定位,之后利用转动平台等带动摄像头进行视觉空间定位。但这些方法存在一定的定位延时,如果目标说话人移位则定位效率、定位精度都存在不确定性。
已公开的全景深度图像拼接生成方法往往需要大量的时间完成,对说话人定位的时效性存在不利影响。
在基于计算机视觉的人脸图像定位中,当人脸位于图像中心区域附近时定位效果好,而远离中心区域时,定位精度会明显降低,甚至出现定位错误。
在基于线性麦克风阵列的说话人定位中,当说话人的方位与线性麦克风阵列的中垂线接近时,定位效果好;而当说话人远离线性麦克风的中垂线时,定位精度会明显降低,甚至出现定位错误。
发明内容
有鉴于此,本发明提供了一种视听双模态的360度全方位说话人定位方法,包括以下步骤:
S1、依据说话人语音信号到达环形麦克风阵列所在圆直径的麦克风上的时间差,获取声源信息降维;利用降维后的声源信息对目标说话人进行声源粗定位;
S2、图像拼接决策与视觉空间定位:基于所述声源粗定位的结果判断说话人是否位于说话人所在方位最近两枚摄像头的摄像画面交接区域,并决策开启的所述环形摄像头组中摄像头的方位、数量以及是否进行图像拼接;之后基于所述图像拼接处理后的摄像画面进行视觉空间定位;
S3、多模态融合定位:基于所述声源粗定位和视觉空间定位中对说话人的定位结果,进行视听模态的决策级融合,计算出视听模态融合定位结果。
实施本发明的技术方案带来的有益效果是:本发明可以在360全方位的环境下准确高效的定位到目标说话人。
附图说明
图1为本发明所述视听双模态的360度全方位说话人定位方法的流程图;
图2为语音信号过环形麦克风阵列所在圆直径的麦克风的示意图;
图3为摄像画面的交接区域示意图。
具体实施方式
本发明是为了解决现有基于现有的单模态说话人定位方法可靠性低,以及现有的多模态说话人定位方法受限于有限的定位方位角、需要依赖转动平台才能完成定位的问题,提出了一种视听双模态的360度全方位说话人定位方法。
请参考图1,一种视听双模态的360度全方位说话人定位方法,包括以下步骤:
S1:依据说话人语音信号到达环形麦克风阵列中麦克风A和麦克风B的时间差,其中,A和B是环形麦克风阵列所在圆的直径上的麦克风,且目标说话人与圆心的连线和直径AB形成的夹角,相较与其他位于直径的麦克风形成的夹角更接近于直角;请参考图2,以进行声源信息降维;利用降维后的声源信息对目标说话人进行声源粗定位;
所述的声源粗定位采用的环形麦克风阵列含有偶数个数的麦克风,选取环形麦克风阵列中合适的两枚麦克风,进行时延估计和位置估计已完成声源定位,可以通过到达时间差(Time Difference of Arrival,TDOA)声源定位的方法对目标说话人进行粗定位;
其中,所述的麦克选取部分的主要目的减少定位麦克风以简化声源定位步骤,将环形麦克风的说话人定位问题降维至线性麦克风阵列的说话人定位问题,声源信息降维方法的主要内容如下:
S111:标记所述的环形麦克风阵列中的所有麦克风并分组,过环形麦克风阵列同一直径上的两枚麦克风记为同一组,设环形麦克风阵列中的麦克风总数为M,设各个麦克风分组的编号为
Figure GDA0004180650480000041
S112:用环形麦克风阵列接收说话人的声音信号,计算每组麦克风中的两枚麦克风接收到说话人声音信号的时间差,设时间差最大的麦克风组为λ,则选取编号为
Figure GDA0004180650480000042
的麦克风组中的两枚麦克风,作为线性麦克风阵列进行后续的声源定位;(P不为整数时向下取整)。
以所述麦克选择方法选取的两枚麦克风作为线性麦克风阵列,在进行说话人声源定位时,因为说话人的方位相对于该组线性麦克风阵列的中垂线最近,所以利用这两个麦克风进行声源定位的定位精度相对较高。
所述TDOA声源定位方法中时延估计部分的主要内容如下:
S121:假设步骤S112中所选取的两枚麦克风Mi和Mj接收的音频信号分别表示为:xi(t)=Ais(t-τi)+ni(t),xj(t)=Ajs(t-τj)+nj(t),设两个麦克风接收的信号xi(t)和xj(t)的相关函数为:
Figure GDA0004180650480000051
S122:假设声源信号与噪声相互独立,且两路噪声ni(t)和nj(t)互不相关,信号s(t)是平稳随机信号,则可将相关函数化为:
Figure GDA0004180650480000052
S123:当τ=τij时,
Figure GDA0004180650480000053
取最大值,τij即表示两个麦克风接收的音频信号之间的时间差。则时延估计的结果为:/>
Figure GDA0004180650480000054
上式中s(t)表示声源信号,τi和τj分别表示声源信号到两个麦克风Mi和Mj的传播时间,Ai和Aj分别表示两路声音信号传播过程中的衰减因子,ni(t)和nj(t)分别表示两路信号引入的噪声。
所述的TDOA声源定位方法中所述位置估计的主要内容如下:
S131:将声波简化为平面波,忽略声波的振幅差,则可以近似地认为传声器阵列单元接收到的地面信号之间只有一个简单的延迟差,在环形麦克风阵列内一个麦克风接收到的信号作为参考信号,则另一个麦克风接收到的信号的延迟计算为:
Figure GDA0004180650480000055
S132:将将S131的计算结果代入S123中时延估计的计算公式,则可计算声源相对于麦克风阵列的方位角:
Figure GDA0004180650480000056
式中,d是两个麦克风之间的距离(即环形麦克风阵列所在圆直径),c是声波在空气中的传播速度。
S2:依据生源粗定位得到的目标说话人方位,以及环形摄像头组中摄像头的规格、拍摄角、摆放,判断目标说话人是否位于其所在方位最近两枚摄像头的摄像画面交接区域,如图3所示,当说话人位于摄像画面交接区域时,唤醒说话人所在方位的两个相邻摄像头,并对这两个摄像头的摄像画面进行图像拼接;否则直接唤醒说话人所在方位摄像头,不进行图像拼接。
所采用的环形摄像头组为由三个以上(N个)摄像头组成,设每个所述摄像头的拍摄范围角度为Q,要求Q×N>360°。
所述的视觉空间定位中,采用人脸检测算法、进行人脸检测并定位,并将定位结果转换到世界坐标系。具体视觉空间定位方法如下:
S221:选取人脸检测算法,调用人脸检测分类器,捕捉目标人脸并用矩形框画出;
S222:记录当前画面帧人脸矩形框四个角的位置坐标(x1,y1),(x1,y2),(x2,y1),(x2,y2),坐标系中心为当前摄像画面中心点;
S223:计算人脸中心位置
Figure GDA0004180650480000061
S224:计算人脸方位角:
Figure GDA0004180650480000062
其中α为当前摄像画面所占的范围角,X为当前摄像画面的横向像素总长度;
S225:计算人脸俯仰角:
Figure GDA0004180650480000063
其中β为摄像头的俯仰角,Y为当前摄像画面纵向像素总长度;
S226:将人脸图像定位结果转换到世界坐标系(俯仰角不变);设环形规则分布的360度全景摄像头组共有N个摄像头,以顺时针方向从1到N给摄像头编号,方向1号摄像头拍摄中心为世界坐标系中心,则由在第k个摄像机拍摄到的人脸由图像坐标转换世界坐标时,有
Figure GDA0004180650480000071
其中,km指图像拼接时取得的编号较小的摄像头编号。
S3:基于所述声源粗定位和视觉空间定位中对说话人的定位结果,进行视听模态的决策级融合,计算出视听模态融合定位结果;
所述的多模态融合定位主要包含帧率跟踪、坐标映射以及决策级视听模态定位结果融合。其详细内容如下:
S31:使用帧率跟踪等方法,将图像和声音信号两者数据在时间上保持同步传输和处理,保证视觉空间定位结果与声源定位结果在时间上的一致性;
S32:完成全方位坐标映射,由于在S226中已经把视角空间定位结果转换到世界坐标系,当前仅需将声源定位结果转换到世界坐标系即可完成坐标映射,将声源定位转换到世界坐标的结果转换到如下:
θsound=θtω
式中,θω为所选取麦克风组的近世界坐标系麦克风修正到世界坐标系原点的角度补偿值;
S33:所述的决策级视听模态定位结果融合主要通过依据环境噪声、环境亮度等条件的条件独立,计算出所述声源定位结果、视频定位得到的方位角的融合权重γimage、γsound,从而得到目标说话人融合定位的方位角,并取视觉空间定位的得到的目标说话人俯仰角为最终融合的俯仰角,其中,γsoundimage=1,且0≤γsound≤1,0≤γimage≤1。
具体内容如下:
S331:由人脸矩阵框四角坐标计算人脸大小在整幅图像的占比,即人脸大小评价系数:
Figure GDA0004180650480000081
Sall为摄像画面总大小,Sface为画面中的目标人脸大小;
S332:由双眼坐标(xel,yel),(xer,yer)计算人脸角度评价系数
Figure GDA0004180650480000082
xel和ye1是左眼的横纵坐标,xer和yer是右眼的横纵坐标;
S333:由图像平均亮度Bave计算图像明亮度系数
Figure GDA0004180650480000083
其中/>
Figure GDA0004180650480000085
为预设亮度值;
S334:计算视觉空间定位的融合权重:γimage=ω1γ12γ23γ3,并计算出声源定位结果的融合权重γsound=1-γimage,其中ωi为权重补偿值,且ω123=1;
S335:计算融合后的目标说话人方位角:θ=γsoundθsoundimageθimage;而目标说话人的俯仰角为视觉空间定位得到的俯仰角
Figure GDA0004180650480000084
/>
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种视听双模态的360度全方位说话人定位方法,其特征在于,包括以下步骤:
S1、依据说话人语音信号到达环形麦克风阵列所在圆直径麦克风上的时间差,进行声源信息降维;利用降维后的声源信息对目标说话人进行声源粗定位;
S2、图像拼接决策与视觉空间定位:基于所述声源粗定位的结果判断说话人是否位于说话人所在方位最近两枚摄像头的摄像画面交接区域,并决策开启的环形摄像头组中摄像头的方位、数量以及是否进行图像拼接;之后基于所述图像拼接处理后的摄像画面进行视觉空间定位;
S3、多模态融合定位:基于所述声源粗定位和视觉空间定位中对说话人的定位结果,进行视听模态的决策级融合,计算出视听模态融合定位结果;
所述S1具体为:选取环形麦克风阵列中合适的两枚麦克风,通过到达时间差TDOA声源定位的方法进行时延估计和位置估计以完成声源定位;
所述声源信息降维具体步骤如下:
S111:标记所述的环形麦克风阵列中的所有麦克风并分组,过环形麦克风阵列同一直径上的两枚麦克风记为同一组,设环形麦克风阵列中的麦克风总数为M,M为2的倍数,设各个麦克风分组的编号为
Figure FDA0004180650460000011
S112:用环形麦克风阵列接收说话人的声音信号,计算每组麦克风中的两枚麦克风接收到说话人声音信号的时间差,设时间差最大的麦克风组为λ,则选取编号为
Figure FDA0004180650460000021
的麦克风组中的两枚麦克风,作为线性麦克风阵列进行后续的声源定位,P不为整数时向下取整;
S2所述图像拼接决策是依据S1中声源粗定位的结果,判断说话人是否位于说话人所在方位最近两枚摄像头的摄像画面交接区域,当说话人位于摄像画面交接区域时,唤醒说话人所在方位的两个相邻摄像头,并对这两个摄像头的摄像画面进行图像拼接;否则直接唤醒说话人所在方位摄像头,不进行图像拼接;
S2所述的视觉空间定位方法如下:
S221:使用人脸检测算法,调用人脸检测分类器,捕捉目标人脸并用矩形框画出;
S222:记录当前画面帧人脸矩形框四个角的位置坐标(x1,y1),(x1,y2),(x2,y1),(x2,y2),坐标系中心为当前摄像画面中心点;
S223:计算人脸中心位置
Figure FDA0004180650460000022
S224:计算人脸方位角:
Figure FDA0004180650460000023
其中α为当前摄像画面所占的范围角,X为当前摄像画面的横向像素总长度;
S225:计算人脸俯仰角:
Figure FDA0004180650460000024
其中β为摄像头的俯仰角,Y为当前摄像画面纵向像素总长度;
S226:将人脸图像定位结果转换到世界坐标系,俯仰角不变;设环形规则分布的360度全景摄像头组共有N个摄像头,以顺时针方向从1到N给摄像头编号,方向1号摄像头拍摄中心为世界坐标系中心,则由在第k个摄像机拍摄到的人脸由图像坐标转换世界坐标时,有
Figure FDA0004180650460000031
其中,km指图像拼接时取得的编号较小的摄像头编号;
S3所述多模态融合定位主要包含帧率跟踪、坐标映射以及决策级视听模态定位结果融合,具体内容如下:
S31:使用帧率跟踪方法,将图像和声音信号两者数据在时间上保持同步传输和处理,保证视觉空间定位结果与声源定位结果在时间上的一致性;
S32:将声源定位结果转换到世界坐标系即完成坐标映射,将声源定位转换到世界坐标的结果转换到如下:
θsound=θtω
式中,θω为所选取麦克风组的近世界坐标系麦克风修正到世界坐标系原点的角度补偿值;
S33:分别计算出声源定位结果和视频定位得到的方位角的融合权重γimage、γsound,从而得到目标说话人融合定位的方位角,并取视觉空间定位的得到的目标说话人俯仰角为最终融合的俯仰角,其中,γsoundimage=1;且0≤γsound≤1,0≤γimage≤1;
所述S33具体如下:
S331:由人脸矩阵框四角坐标计算人脸大小在整幅图像的占比,即人脸大小评价系数:
Figure FDA0004180650460000041
Sall为摄像画面总大小,Sface为画面中的目标人脸大小;
S332:由双眼坐标(xel,yel),(xer,yer)计算人脸角度评价系数
Figure FDA0004180650460000042
xel和ye1是左眼的横纵坐标,xer和yer是右眼的横纵坐标;
S333:由图像平均亮度Bave计算图像明亮度系数
Figure FDA0004180650460000043
其中/>
Figure FDA0004180650460000044
为预设亮度值;
S334:计算视觉空间定位的融合权重:γimage=ω1γ12γ23γ3,并计算出声源定位结果的融合权重γsound=1-γimage,其中ωi为权重补偿值,且ω123=1;
S335:计算融合后的目标说话人方位角:θ=γsoundθsoundimageθimage;目标说话人的俯仰角为视觉空间定位得到的俯仰角
Figure FDA0004180650460000045
/>
CN202110504371.3A 2021-05-10 2021-05-10 一种视听双模态的360度全方位说话人定位方法 Active CN113312985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110504371.3A CN113312985B (zh) 2021-05-10 2021-05-10 一种视听双模态的360度全方位说话人定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110504371.3A CN113312985B (zh) 2021-05-10 2021-05-10 一种视听双模态的360度全方位说话人定位方法

Publications (2)

Publication Number Publication Date
CN113312985A CN113312985A (zh) 2021-08-27
CN113312985B true CN113312985B (zh) 2023-05-26

Family

ID=77371800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110504371.3A Active CN113312985B (zh) 2021-05-10 2021-05-10 一种视听双模态的360度全方位说话人定位方法

Country Status (1)

Country Link
CN (1) CN113312985B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838128B (zh) * 2021-11-23 2022-03-08 珠海视熙科技有限公司 视频图像音画映射的方法、系统、装置及视频会议设备
CN117037844A (zh) * 2023-10-10 2023-11-10 中国传媒大学 基于全景视频的全景音频生成方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002135642A (ja) * 2000-10-24 2002-05-10 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声翻訳システム
CN106328156A (zh) * 2016-08-22 2017-01-11 华南理工大学 一种音视频信息融合的麦克风阵列语音增强系统及方法
CN109474797A (zh) * 2019-01-04 2019-03-15 北京快鱼电子股份公司 基于全景摄像头和麦克风阵列的会议转录系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503615B (zh) * 2016-09-20 2019-10-08 北京工业大学 基于多传感器的室内人体检测跟踪和身份识别系统
US10847162B2 (en) * 2018-05-07 2020-11-24 Microsoft Technology Licensing, Llc Multi-modal speech localization
CN108734733B (zh) * 2018-05-17 2022-04-26 东南大学 一种基于麦克风阵列与双目摄像头的说话人定位与识别方法
CN108986838B (zh) * 2018-09-18 2023-01-20 东北大学 一种基于声源定位的自适应语音分离方法
CN111273231A (zh) * 2020-03-23 2020-06-12 桂林电子科技大学 基于不同麦克风阵列拓扑结构分析的室内声源定位方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002135642A (ja) * 2000-10-24 2002-05-10 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声翻訳システム
CN106328156A (zh) * 2016-08-22 2017-01-11 华南理工大学 一种音视频信息融合的麦克风阵列语音增强系统及方法
CN109474797A (zh) * 2019-01-04 2019-03-15 北京快鱼电子股份公司 基于全景摄像头和麦克风阵列的会议转录系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Look, Listen and Learn - A Multimodal LSTM for Speaker Identification;Jimmy Ren et al.;《arxiv.org》;第1-7页 *

Also Published As

Publication number Publication date
CN113312985A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN108734733B (zh) 一种基于麦克风阵列与双目摄像头的说话人定位与识别方法
CN104106267B (zh) 在增强现实环境中的信号增强波束成形
CN113312985B (zh) 一种视听双模态的360度全方位说话人定位方法
US20210306744A1 (en) Audio system for dynamic determination of personalized acoustic transfer functions
US10616706B1 (en) Estimating room acoustic properties using microphone arrays
JP4296197B2 (ja) 音源追跡のための配置及び方法
US7403217B2 (en) System and method of self-discovery and self-calibration in a video conferencing system
US6005610A (en) Audio-visual object localization and tracking system and method therefor
US11997472B2 (en) Signal processing device, signal processing method, and program
TWI396862B (zh) 聲源定位系統、方法及電腦可讀取儲存媒體
US20050117033A1 (en) Image processing device, calibration method thereof, and image processing
CN108432272A (zh) 用于回放控制的多装置分布式媒体捕获
JP2017118375A (ja) 電子機器及び音出力制御方法
TW201734948A (zh) 用於在廣角圖像系統中生成相關的音頻和視覺信號的方法、系統及設備
CN110554356A (zh) 一种可见光通信中设备定位方法及系统
WO2022227893A1 (zh) 图像拍摄方法、装置、终端及存储介质
CN110441737B (zh) 一种采用鱼眼镜头的声源定位方法及其设备
CN111031468B (zh) 一种基于个体化hrtf立体声的视觉辅助方法与设备
Legg et al. A combined microphone and camera calibration technique with application to acoustic imaging
WO2020255766A1 (ja) 情報処理装置、情報処理方法、プログラム、投映装置、および情報処理システム
CN108604453B (zh) 一种定向录音方法及电子设备
JP2018019295A (ja) 情報処理システム及びその制御方法、コンピュータプログラム
CN111325790A (zh) 目标追踪方法、设备及系统
CN115361636A (zh) 声音信号调整方法、装置、终端设备及存储介质
CN111982293B (zh) 体温测量方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant