CN116224230A - 声学相机的实现方法、装置及电子设备 - Google Patents
声学相机的实现方法、装置及电子设备 Download PDFInfo
- Publication number
- CN116224230A CN116224230A CN202211737274.XA CN202211737274A CN116224230A CN 116224230 A CN116224230 A CN 116224230A CN 202211737274 A CN202211737274 A CN 202211737274A CN 116224230 A CN116224230 A CN 116224230A
- Authority
- CN
- China
- Prior art keywords
- microphone
- phase compensation
- pixel point
- tensor
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Studio Devices (AREA)
Abstract
本发明公开了一种声学相机的实现方法、装置及电子设备,所述方法包括以下步骤:步骤S1,根据声学相机的麦克风位置、拾取角度和像素点划分,计算出相位补偿斜率张量;步骤S2,将每个麦克风时域信号进行分帧加窗,根据需要处理的帧数将加窗结果求和,对求和结果进行时频分析,得到每个麦克风的频域信号;步骤S3,用分位数方法,将所述相位补偿斜率张量对每个麦克风频谱进行相位补偿,基于补偿后的频谱更新显示矩阵;步骤S4,将显示矩阵与实际的图形进行匹配,精确定位发声物体,通过本发明,提供一种计算量小的声学相机的实现方法。
Description
技术领域
本发明涉及音频和图像信号处理技术领域,尤其是一种声学相机的实现方法、装置及电子设备。
背景技术
麦克风阵列可通过声源到达麦克风的时间差信息反推出声源所在方位。麦克风数量越多,则定位的精度也越高。当麦克风数量足够多时,则能比较精确的定位出声源的位置,且能生成空间的声场分布。结合光学图像信息,对声源进行成像,便于直观的获得声场中声源的分布信息。
声学相机也叫声像仪,目前已在车辆鸣笛违规抓拍等领域大展手脚:通常是求各个麦克风信号频域的加权互功率谱,然后将互功率谱通过逆傅里叶变换得出信号的互相关函数,根据互相关函数的最大值得出麦克风信号的延迟,从而求出信号方位。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种声学相机的实现方法、装置及电子设备,以提供一种计算量小的声学相机的实现方法。
为达到上述目的,本发明提供一种声学相机的实现方法,包括以下步骤:
步骤S1,根据声学相机的麦克风位置、拾取角度和像素点划分,计算出相位补偿斜率张量;
步骤S2,将每个麦克风时域信号进行分帧加窗,根据需要处理的帧数将加窗结果求和,对求和结果进行时频分析,得到每个麦克风的频域信号;
步骤S3,用分位数方法,将所述相位补偿斜率张量对每个麦克风频谱进行相位补偿,基于补偿后的频谱更新显示矩阵;
步骤S4,将显示矩阵与实际的图形进行匹配,精确定位发声物体。
可选地,步骤S1进一步包括:
步骤S100,获取声学相机麦克风阵列的各个麦克风具体位置、需要拾取的角度范围和需要的分辨率;
步骤S101,将需要拾取的范围投影到一个平面上,根据分辨率将平面分成若干像素点;
步骤S102,计算每个像素点到每个麦克风的距离,每个像素点规定一个基准距离,求出每个麦克风与该基准距离的差值,并根据差值计算出相位补偿斜率;
步骤S103,将所述相位补偿斜率放入对应的像素点,得到所述相位补偿斜率张量。
可选地,所述相位补偿斜率张量通过如下公式获得:
slopeMatrix(i,j,k)=dMatrix(i,j,k)*fs*2π/(c*N)
其中,dMatrix(i,j,k)表示第i,j个像素点到第k个麦克风的距离与到阵列中心的距离的差值,fs为信号采样率,c为声速,N为FFT长度。
可选地,步骤S2进一步包括:
步骤S200,对每一个麦克风时域信号进行分帧加窗,然后根据需要同时处理的帧数,将加窗后的时域信号求和,得到求和信号dm;
步骤S201,将每个麦克风的求和信号dm进行时频分析,得到每个麦克风的频域信号Dm。
可选地,步骤S3进一步包括:
将每个麦克风的频域信号Dm根据所述相位补偿斜率张量对相应的像素点进行相位补偿,得到每个像素点的补偿频谱DCm;
对M个麦克风的补偿频谱进行求和,然后取求和后频谱幅值的均值作为第(i,j)像素点的显示,得到所述显示矩阵。
可选地,步骤S3进一步包括:
将每个麦克风的频域信号Dm根据所述相位补偿斜率张量对相应的像素点进行相位补偿,得到每个像素点的补偿频谱DCm;
对M个麦克风的补偿频谱进行求和与差分,然后取求和与差分的比值作为第(i,j)像素点的显示,得到所述显示矩阵。
可选地,所述将每个麦克风的频域信号Dm根据所述相位补偿斜率张量对相应的像素点进行相位补偿,得到每个像素点的补偿频谱DCm,具体为:
DCm(k)=Dm(k)*exp(j*slopeMatrix(i,j,m)*k)
其中,DCm是第m个麦克风的补偿频谱,k是频点索引,k∈[0,N/2]。
可选地,所述显示矩阵获取如下:
其中,k1~k2表示对频点的选择。
为达到上述目的,本发明还提供一种声学相机的实现装置,包括:
相位补偿斜率张量计算单元,用于根据声学相机的麦克风位置、拾取角度和像素点划分,计算出相位补偿斜率张量;
频域信号获取单元,用于将每个麦克风时域信号进行分帧加窗,根据需要处理的帧数将加窗结果求和,对求和结果进行时频分析,得到每个麦克风的频域信号;
相位补偿及像素计算单元,用于将每个麦克风的频域信号根据所述相位补偿斜率张量对相应的像素点进行相位补偿,得到每个像素点的补偿频谱,并基于补偿后的频谱更新显示矩阵;
定位单元,用于将显示矩阵与实际的图形进行匹配,精确定位发声物体。
为达到上述目的,本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述的声学相机的实现方法的步骤。
与现有技术相比,本发明一种声学相机的实现方法、装置及电子设备,通过预先确定出空间范围,将空间划分成一个个像素点,计算出每个像素点的麦克风延迟关系,通过分位数法扫描像素点,补齐延迟,找到输出最大的空间节点作为声源位置,从而提供了一种计算量小的声学相机的实现方法,本发明在频域进行处理,但平均下来每帧用到的FFT个数很少。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本发明实施例一提供的声学相机的实现方法的流程示意图;
图2是本实施例中麦克风方位估计示意图
图3是本实施例中声学相机示意图;
图4是本实施例中声源入射平面像素划分示意图;
图5为本实施例中声学相机实现流程图;
图6为本发明实施例中声学相机仿真效果展示图;
图7是本发明实施例二提供的声学相机的实现装置的系统结构图;
图8是本发明一示例性实施例提供的电子设备的结构。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
实施例一:
图1是本发明示例性实施例提供的声学相机的实现方法的流程示意图。本实施例可应用在电子设备上,如图1所示,所述声学相机的实现方法,包括以下步骤:
步骤S1,根据声学相机的麦克风位置、拾取角度和像素点划分,计算出相位补偿斜率张量。
具体地,步骤S1进一步包括:
步骤S100,明确声学相机麦克风阵列的各个麦克风具体位置、需要拾取的角度范围和需要的分辨率。
步骤S101,将需要拾取的范围投影到一个平面上,根据分辨率将平面分成若干像素点。
步骤S102,计算每个像素点到每个麦克风的距离,每个像素点规定一个基准距离,求出每个麦克风与该基准距离的差值,并根据差值计算出相位补偿斜率。
步骤S103,将相位补偿斜率放入对应的像素点,得到相位补偿斜率张量slopeMatrix。
上述步骤只需在算法初始化进行一次,所占计算量可忽略。
图2是两个麦克风情况下,远场声源入射角度θ和时延的关系,由图2可知,入射角度θ和时延有一一对应的关系,即:
θ=arcsin(cτ/L),
其中,c是声速,L是两个麦克风的间距。对于多个麦克风的阵列,入射角度和各个麦克风之间的相位差仍然有一一对应关系,图3是本实施例中声学相机示意图,麦克风阵列位于一个平面内,平面前方与平面法线呈一定角度的方向入射一平面声波,当声波的入射方向一定时,麦克风阵列的相位关系也是一定的,也就是说入射方向和麦克风间的相位差也具有一一对应的关系。光学镜头所呈现的视角具有一定的范围,类似的,麦克风阵列所接收的声源角度也需规定范围,因为随着角度的变大,定位准确度将会逐渐降低。
假定阵列上下左右的最大视角为θm,则阵列所能展示的声源入射角度范围是[-θm,θm]。如果声源在麦克风阵列前垂直于法线的平面上入射,入射平面到阵列距离为d,则声源的入射平面的长宽范围为[-tan(θm)*d,tan(θm)*d],如图4所示。可将入射平面的长和宽均划分成2*dpi+1份,相邻两点的间距为tan(θm)*d/dpi,其中dpi可等效成分辨率,值越大,表示分辨率越高。每个点可等效为像素点,对于每个像素点的声源,在麦克风阵列均有唯一的相位关系与之对应。
将麦克风阵列在笛卡尔坐标系中置于原点,阵列的法线当做x轴,则入射平面的空间坐标为(d,y,z),其中d是入射平面到阵列的距离,y和z的取值范围是[-tan(θm)*d,tan(θm)*d]。求出每个像素点(d,y,z)到麦克风阵列每个麦克风的欧氏距离,可得到张量distMatrix。distMatrix维度是(2*dpi+1)*(2*dpi+1)*M,其中M表示麦克风数量。
dMatrix(i,j,k)=distMatrix(i,j,k)-d0Matrix(i,j)
(i,j∈[1,2*dpi+1],k∈[1,M]) (1)
其中,dMatrix(i,j,k)表示第i,j个像素点到第k个麦克风的距离与到阵列中心的距离的差值。当距离d趋于无穷大时,该差值等效于平面波的入射时的距离差。距离差值得到后,便可计算出在频域的相位差斜率:
slopeMatrix(i,j,k)=dMatrix(i,j,k)*fs*2π/(c*N) (2)
其中,fs是信号采样率,c是声速,N是已知的FFT长度。slopeMatrix(i,j,k)乘上频点索引k,则表示具体频点的相位差。
以上便得到了相位差斜率张量slopeMatrix(i,j,k),用于后续对麦克风相位差进行补偿。可见,当阵列的麦克风位置固定,选取的最大视角为θm确定,以及分辨率值确定后,相位差斜率张量slopeMatrix就唯一确定了,所以只需在算法初始化的时候计算一次即可。
步骤S2,将每个麦克风时域信号进行分帧加窗,根据需要处理的帧数将加窗结果求和,对求和结果进行DFT,得到每个麦克风的频域信号。
具体地,如图5所示,步骤S2进一步包括:
步骤S200,对每一个麦克风时域信号进行分帧加窗,然后根据需要同时处理的帧数,将加窗后的时域信号求和,得到求和信号dm。
步骤S201,将每个麦克风的求和信号dm进行时频分析,得到每个麦克风的频域信号Dm,下标m表示麦克风索引,m∈[1,M]。
此时麦克风频谱Dm之间的相位差与单个帧的频谱之间的相位差满足同样的关系,这是进行本发明优化的基础。
在本发明中,对于每个麦克风信号,如果每帧都进行单独计算,容易产生声源位置不稳定的结果,且计算量很大;如果将每帧信号先转换到频域,再同时考虑多帧进行计算,可以改善声源位置不稳定的现象,但是计算量仍旧很大;
因此,为了解决上述问题,本实施例做了如下处理:
首先是多帧同时考虑。利用DFT的线性性质DFT(x)+DFT(y)=DFT(x+y),将多帧信号在频域的求和转变成在时域求和,然后转换到频域。用dm(l)表示第m个麦克风第l个时间帧的加窗信号,对dm(l)进行求和:
dm是L帧时域加窗信号的求和,L越大,表示同时考虑的帧数越多。声源位置信息可以越稳定,但取值太大也会造成刷新率不够的问题。为了兼顾稳定性和刷新率,在帧移10ms的情况下,L取值可为10,这样每秒可刷新10次,DFT个数可降低为之前1/10。对dm进行DFT操作,得到第m个麦克风的频域信号Dm。然后进行后续式(4)的相位补偿和式(5)的显示矩阵每个像素的计算。
步骤S3,用分位数方法,将所述相位补偿斜率张量对每个麦克风频谱进行相位补偿,将补偿后的频谱进行求和并放入对应像素位置,获得显示矩阵。
具体地,将每个麦克风的频域信号Dm根据相位补偿斜率张量slopeMatrix对相应的像素点进行相位补偿,得到每个像素点的补偿频谱DCm。也就是说,经过步骤S2得到每个麦克风的频谱信号Dm后,将相位补偿斜率张量补偿到麦克风的频谱信号中:
DCm(k)=Dm(k)*exp(j*slopeMatrix(i,j,m)*k) (4)
其中,DCm是第m个麦克风的补偿频谱,k是频点索引,k∈[0,N/2]。
然后,对M个麦克风的补偿频谱进行求和,然后取求和后频谱幅值的均值作为第(i,j)像素点的显示:
其中,dispMatrix就是最终输出的显示矩阵,k1~k2表示对频点的选择,因为低频信号的波长远大于麦克风间距,导致每个像素点相位差变化极小,定位效果有限,而高频信号容易在传播途中衰减,到达麦克风后,信噪比过低,相位关系已不值得信任,所以需要选择合适的频率进行定位分析。频率可以实时地人为选择,也可以设计算法自适应的选择。当相应像素点位置有声源时,dispMatrix(i,j)对应像素点的值会相对较大,当归一化后进行显示时,该位置的颜色则相对较深。将dispMatrix矩阵的像素与图像的像素进行匹配,便可以精确显示声源的位置,实现声学相机的功能。
步骤S4,将显示矩阵与实际的图形进行匹配,精确定位发声物体。
虽然每个像素点都需要显示,但大多数像素点其实不是我们关心的。我们仅仅需要关注声源所在像素点和声源附近的像素点,于是我们可采用分位数的方法,逐级对声源进行定位和声源附近像素点的计算。总的像素点有(2*dpi+1)*(2*dpi+1)个,如果每个像素点都用(5)式进行计算,则计算量是巨大的。为了降低计算量,每间隔dpis1个像素点用(5)式计算一次,将会计算(2*dpi/dpis1+1)*(2*dpi/dpis1+1)个像素点,找到像素点最大值maxValue并记录下最大值所在位置(maxi,maxj)。这样一来,声源的位置就被定位在了像素点(maxi,maxj)附近;然后再进行二次搜索,在像素点区间(maxi-dpis1,maxi+dpis1)、(maxj-dpis1,maxj+dpis1)进行类似的间隔计算操作,间隔点数为dpis2,同时更新像素点最大值maxValue和最大值所在位置(maxi,maxj),这里需要计算的像素点个数为(2*dpis1/dpis2+1)*(2*dpis1/dpis2+1)。最后计算素点区间(maxi-dpis2,maxi+dpis2)、(maxj-dpis2,maxj+dpis2)所有像素点,这里需要计算的个数为(2*dpis2+1)*(2*dpis2+1)。
经过优化后,像素点计算个数从(2*dpi+1)*(2*dpi+1)变成了(2*dpi/dpis1+1)*( 2*dpi/dpis1+1)+(2*dpis1/dpis2+1)*( 2*dpis1/dpis2+1)+
(2*dpis2+1)*( 2*dpis2+1)。若分辨率dpi为128,dpis1值为32,dpis2值为8,则像素点计算个数从66049降至451,计算量降低至1/100以下。加上DFT部分的计算量优化,即便是麦克风数量很多的场景下,CPU端的部署也不再是大问题。
另外为了优化成像效果,对公式(5)给出了优化方案。在声源方向对应的像素点上,各个麦克风频谱经相位补偿后的相位是一致的,所以相加后具有极大值。另一方面,相减后,也应该具有最小值,因此,也可将M个麦克风的补偿频谱求和的均值除以M个麦克风的补偿频谱差分的均值作为像素点输出,即作为第(i,j)像素点的显示:
通过上述公式(6)可提升算法鲁棒性,也不必再额外对结果归一化操作。
图6则是本发明,麦克风数量M=8的环形阵列,阵列尺寸大约2.5dm,最大拾取角度θm=45度,dpi=128,dpis1=32,dpis2=8时,得到的声源定位的显示截图。
实施例二:
图7是本发明一示例性实施例提供的声学相机的实现装置的系统结构图。本实施例可应用在电子设备上,如图7所示,包括:
相位补偿斜率张量计算单元701,用于根据声学相机的麦克风位置、拾取角度和像素点划分,计算出相位补偿斜率张量。
具体地,相位补偿斜率张量计算单元701进一步包括:
信息获取单元,用于获取声学相机麦克风阵列的各个麦克风具体位置、需要拾取的角度范围和需要的分辨率。
投影单元,用于将需要拾取的范围投影到一个平面上,根据分辨率将平面分成若干像素点。
相位补偿斜率计算单元,用于计算每个像素点到每个麦克风的距离,每个像素点规定一个基准距离,求出每个麦克风与该基准距离的差值,并根据差值计算出相位补偿斜率。
相位补偿斜率张量计算单元,用于将相位补偿斜率放入对应的像素点,得到相位补偿斜率张量slopeMatrix。
频域信号获取单元702,用于将每个麦克风时域信号进行分帧加窗,根据需要处理的帧数将加窗结果求和,对求和结果进行DFT,得到每个麦克风的频域信号。
具体地,频域信号获取单元702进一步包括:
时域分帧加窗求和单元,对每一个麦克风时域信号进行分帧加窗,然后根据需要同时处理的帧数,将加窗后的时域信号求和,得到信号dm;
时频分析单元,用于将每个麦克风的求和信号dm进行时频分析,得到频域信号Dm。
相位补偿及像素计算单元703,用于将每个麦克风的频域信号Dm根据相位补偿斜率张量slopeMatrix对相应的像素点进行相位补偿,得到每个像素点的补偿频谱DCm,并将补偿后的频谱进行求和并放入对应像素位置,获得显示矩阵。
具体地,
相位补偿单元,用于将每个麦克风的频域信号Dm根据相位补偿斜率张量slopeMatrix对相应的像素点进行相位补偿,得到每个像素点的补偿频谱DCm;
像素计算单元,用于将相应像素点的补偿频谱DCm按照麦克风数量进行求和,得到显示矩阵dispMatrix。可选的,求和可以替换成求和与差分的比值,增加算法鲁棒性。
定位单元704,用于将显示矩阵与实际的图形进行匹配,精确定位发声物体。
示例性电子设备
图8是本发明一示例性实施例提供的电子设备的结构。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。图8图示了根据本公开实施例的电子设备的框图。如图8所示,电子设备包括一个或多个处理器81和存储器82。
处理器81可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器82可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器81可以运行所述程序指令,以实现上文所述的本公开的各个实施例的软件程序的声学相机的实现方法以及/或者其他期望的功能。在一个示例中,电子设备还可以包括:输入装置83和输出装置84,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
此外,该输入装置83还可以包括例如键盘、鼠标等等。
该输出装置84可以向外部输出各种信息。该输出设备84可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图8中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的声学相机的实现方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的声学相机的实现方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种声学相机的实现方法,包括以下步骤:
步骤S1,根据声学相机的麦克风位置、拾取角度和像素点划分,计算出相位补偿斜率张量;
步骤S2,将每个麦克风时域信号进行分帧加窗,根据需要处理的帧数将加窗结果求和,对求和结果进行时频分析,得到每个麦克风的频域信号;
步骤S3,用分位数方法,将所述相位补偿斜率张量对每个麦克风频谱进行相位补偿,基于补偿后的频谱更新显示矩阵;
步骤S4,将显示矩阵与实际的图形进行匹配,精确定位发声物体。
2.如权利要求1所述的声学相机的实现方法,其特征在于,步骤S1进一步包括:
步骤S100,获取声学相机麦克风阵列的各个麦克风具体位置、需要拾取的角度范围和需要的分辨率;
步骤S101,将需要拾取的范围投影到一个平面上,根据分辨率将平面分成若干像素点;
步骤S102,计算每个像素点到每个麦克风的距离,每个像素点规定一个基准距离,求出每个麦克风与该基准距离的差值,并根据差值计算出相位补偿斜率;
步骤S103,将所述相位补偿斜率放入对应的像素点,得到所述相位补偿斜率张量。
3.如权利要求2所述的声学相机的实现方法,其特征在于,所述相位补偿斜率张量通过如下公式获得:
slopeMatrix(i,j,k)=dMatrix(i,j,k)*fs*2π/(c*N)
其中,dMatrix(i,j,k)表示第i,j个像素点到第k个麦克风的距离与到阵列中心的距离的差值,fs为信号采样率,c为声速,N为FFT长度。
4.如权利要求3所述的声学相机的实现方法,其特征在于,步骤S2进一步包括:
步骤S200,对每一个麦克风时域信号进行分帧加窗,然后根据需要同时处理的帧数,将加窗后的时域信号求和,得到求和信号dm;
步骤S201,将每个麦克风的求和信号dm进行时频分析,得到每个麦克风的频域信号Dm。
5.如权利要求4所述的声学相机的实现方法,其特征在于,步骤S3进一步包括:
将每个麦克风的频域信号Dm根据所述相位补偿斜率张量对相应的像素点进行相位补偿,得到每个像素点的补偿频谱DCm;
对M个麦克风的补偿频谱进行求和,然后取求和后频谱幅值的均值作为第(i,j)像素点的显示,得到所述显示矩阵。
6.如权利要求4所述的声学相机的实现方法,其特征在于,步骤S3进一步包括:
将每个麦克风的频域信号Dm根据所述相位补偿斜率张量对相应的像素点进行相位补偿,得到每个像素点的补偿频谱DCm;
对M个麦克风的补偿频谱进行求和与差分,然后取求和与差分的比值作为第(i,j)像素点的显示,得到所述显示矩阵。
7.如权利要求5或6所述的声学相机的实现方法,其特征在于,所述将每个麦克风的频域信号Dm根据所述相位补偿斜率张量对相应的像素点进行相位补偿,得到每个像素点的补偿频谱DCm,具体为:
DCm(k)=Dm(k)*exp(j*slopeMatrix(i,j,m)*k)
其中,DCm是第m个麦克风的补偿频谱,k是频点索引,k∈[0,N/2]。
9.一种声学相机的实现装置,包括:
相位补偿斜率张量计算单元,用于根据声学相机的麦克风位置、拾取角度和像素点划分,计算出相位补偿斜率张量;
频域信号获取单元,用于将每个麦克风时域信号进行分帧加窗,根据需要处理的帧数将加窗结果求和,对求和结果进行时频分析,得到每个麦克风的频域信号;
相位补偿及像素计算单元,用于将每个麦克风的频域信号根据所述相位补偿斜率张量对相应的像素点进行相位补偿,得到每个像素点的补偿频谱,并基于补偿后的频谱更新显示矩阵;
定位单元,用于将显示矩阵与实际的图形进行匹配,精确定位发声物体。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8任意一项所述的声学相机的实现方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211737274.XA CN116224230A (zh) | 2022-12-30 | 2022-12-30 | 声学相机的实现方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211737274.XA CN116224230A (zh) | 2022-12-30 | 2022-12-30 | 声学相机的实现方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116224230A true CN116224230A (zh) | 2023-06-06 |
Family
ID=86588370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211737274.XA Pending CN116224230A (zh) | 2022-12-30 | 2022-12-30 | 声学相机的实现方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116224230A (zh) |
-
2022
- 2022-12-30 CN CN202211737274.XA patent/CN116224230A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9099096B2 (en) | Source separation by independent component analysis with moving constraint | |
JP2018077479A (ja) | マルチモーダル整合方式を使用するオブジェクト認識 | |
CN110491403A (zh) | 音频信号的处理方法、装置、介质和音频交互设备 | |
US20130297296A1 (en) | Source separation by independent component analysis in conjunction with source direction information | |
WO2016100460A1 (en) | Systems and methods for source localization and separation | |
US20130294611A1 (en) | Source separation by independent component analysis in conjuction with optimization of acoustic echo cancellation | |
US20120099732A1 (en) | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation | |
WO2014147442A1 (en) | Spatial audio apparatus | |
CN113030862B (zh) | 一种多通道语音增强方法及装置 | |
CN109074818B (zh) | 音频源参数化 | |
US9966081B2 (en) | Method and apparatus for synthesizing separated sound source | |
Kotus | Multiple sound sources localization in free field using acoustic vector sensor | |
Liao et al. | An effective low complexity binaural beamforming algorithm for hearing aids | |
US11694707B2 (en) | Online target-speech extraction method based on auxiliary function for robust automatic speech recognition | |
CN116224230A (zh) | 声学相机的实现方法、装置及电子设备 | |
CN111755021A (zh) | 基于二元麦克风阵列的语音增强方法和装置 | |
Cai et al. | Accelerated steered response power method for sound source localization using orthogonal linear array | |
Bianchi et al. | High resolution imaging of acoustic reflections with spherical microphone arrays | |
JP2010206449A (ja) | 発話向き推定装置、方法及びプログラム | |
Astapov et al. | Far field speech enhancement at low SNR in presence of nonstationary noise based on spectral masking and MVDR beamforming | |
CN108353241A (zh) | 渲染系统 | |
US11152014B2 (en) | Audio source parameterization | |
CN115665606B (zh) | 基于四麦克风的收音方法和收音装置 | |
CN112151061B (zh) | 信号排序方法和装置、计算机可读存储介质、电子设备 | |
CN117935835B (zh) | 音频降噪方法、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |