CN118018896A - 一种立体结构的麦克风阵列拾音装置及方法 - Google Patents
一种立体结构的麦克风阵列拾音装置及方法 Download PDFInfo
- Publication number
- CN118018896A CN118018896A CN202410055126.2A CN202410055126A CN118018896A CN 118018896 A CN118018896 A CN 118018896A CN 202410055126 A CN202410055126 A CN 202410055126A CN 118018896 A CN118018896 A CN 118018896A
- Authority
- CN
- China
- Prior art keywords
- sound source
- microphone
- microphones
- microphone array
- folding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012545 processing Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 8
- 230000004807 localization Effects 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 claims description 7
- 230000009467 reduction Effects 0.000 abstract description 12
- 238000003491 array Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005314 correlation function Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种立体结构的麦克风阵列拾音装置及方法,其装置设置在折叠设备中,所述折叠设备设置包括平台以及与平台可转动连接的上盖;其中,设置包括至少四个麦克风用于拾音,并且四个麦克风不共面设置。本发明所提供的一种立体结构的麦克风阵列拾音装置及方法,由于采用了不共面的立体结构麦克风阵列,实现对空间内任何位置的声源方位进行定位,因而可以实现更为精准的降噪处理。
Description
技术领域
本发明涉及一种多麦克风拾音识别技术领域,尤其涉及的是,一种采用立体结构实现的麦克风阵列拾音的方法及系统。
背景技术
现有技术的麦克风设置方式一般是采用一个或两个以上的麦克风数量,由于设置的数量越多,其硬件成本越高,因此通常在没有特别的处理功能需求情况下,一般是采用一至两个麦克风进行拾音或降噪。
普通麦克风的设置方式一般都是再物理空间内的平行设置方式,例如应用到笔记本电脑上,一般会在上盖的显示屏上方设置摄像头,在摄像头的一侧或两侧各设置一个麦克风,最多再在下盖的基体一侧再设置第三个麦克风。
这些麦克风的设置方式一般仅是为提升识别的清晰度,但由于在一个、两个或三个的麦克风设置方式中,一般存在对称性质的区域,例如,以一个麦克风为中心的同等半径球面上的声源,由于其幅度基本一致,就无法进行方位区分;而如果采用的两个麦克风则形成的是通过这两个麦克风的一条虚拟直线轴,而围绕直线轴的圆形分布声源,对这两个麦克风来说就难于识别和区分其方位;而如果采用的是三个麦克风空间分布,则由于三点定面,在该面两侧的对称位置声源,也无法进行方位识别。
在现有技术日常使用的通讯设备中,例如常见的翻折式移动终端,例如笔记本和开合式pad、开合式手机等,为实现准确识别声音,常应用多个麦克风进行拾音的技术。其中麦克风阵列一般为线性麦克风阵列(通常由2个麦克风或者4个麦克风排列在一条线上)和平面麦克风阵列(通常由3个麦克风组成的不共线平面)。
在通话应用场景中,其中一项重要任务是从环境声中能够准确拾取出目标声源的声音信号。应用线性麦克风阵列和平面麦克风阵列能够将目标声源定位在某一空间范围,但无法准备定位到空间的某一点。如果能够将目标声源准确进行定位,就能够极大地提升通话场景中拾取信号的信噪比,有效提升通话质量和通话体验。
麦克风阵列定位拾音技术主要依靠的是声源到达不同麦克风间的到达延时来定位声源位置。在麦克风数量较少时,就存在方位区分的挑战。
如前所述,在一个麦克风的设置方案中,同等半径球面上的所有声源都难以进行方位区分。而在两个麦克风构成的线性阵列中,如图1所示,在空间中存在声源A’的情况下,该声源位置到达麦克风M1和M2间的延时与声源A是一致的。在此场景中,两个麦克风M1和M2形成一条虚拟的直线轴,使得围绕该直线轴圆周分布的声源都难以被识别其方位的不同,如图1中所示的A和A’之间就难以通过相位差进行区分和识别,两者的相位差是一样的。通过到达延时算法无法区分具体声源点位置,从而导致通话算法处理场景更加复杂,难以实现对声源方位的准确识别。
如图2中所示,展示了由麦克风M1,M2和M3构成的平面麦克风阵列,声源点A仍然存在有到达各个麦克风的延时一致模式的声源点A’。在此场景中,三个麦克风的设置也可能无法准确识别两侧对称的声源,仍然无法准确定位声源位置。
因此,现有技术还有待于改进和发展。
发明内容
本发明的目的在于提供一种立体结构的麦克风阵列拾音装置及方法,针对现有技术线性麦克风阵列及平面麦克风阵列都无法准确定位空间中的声源位置,提供一种立体麦克风阵列定向拾音方法及装置,该拾音方法能够准确定位空间中的声源位置,并由此进行降噪处理,极大提升信噪比,使得在通话应用的诸多问题上都能够得到改善,有效提升通话质量。
本发明的技术方案如下:
一种立体结构的麦克风阵列拾音装置,其设置在折叠设备中,所述折叠设备设置包括平台以及与平台可转动连接的上盖;其特征在于,设置包括至少四个麦克风用于拾音,并且四个麦克风不共面设置。
所述的立体结构的麦克风阵列拾音装置,其中,在所述平台及上盖上分别设置有两个麦克风,且分别两个麦克风的连线不平行设置。
所述的立体结构的麦克风阵列拾音装置,其中,所说平台和上盖上其中一侧设置有三个麦克风,且不共线设置,在另一侧设置有第四麦克风。
一种应用于任一所述立体结构的麦克风阵列拾音装置的方法,其包括以下步骤:
A、获取麦克风阵列在设备中的部署位置信息;
B、获取麦克风阵列接受的声音信号;
C、根据该麦克风阵列的立体结构确定出声源位置;
D、对定位出的声源信号进行处理。
所述的方法,其中,在所述折叠设备上还设置有一用于对折叠角度进行传感的角度传感器,所述步骤A还包括:
A1、依照预先设计的立体结构麦克风阵列,确定算法基础;
A2、根据所述角度传感器获取的折叠角度确定所述麦克风阵列的立体结构。
所述的方法,其中,所述步骤C还包括:对所述声源位置的定位过程包括TDOA估计和TDOA定位的步骤。
所述的方法,其中,所述TDOA估计的步骤包括:
C1、获取不同位置麦克风的信号;
C2、应用延迟估计算法估计声源到达不同麦克风的时间差。
所述的方法,其中,所述TDOA定位的步骤包括:
C3、通过球形插值法对声源的轴向角、俯角以及距离进行定位;
C4、通过波束形成得出波束增强后的语音信号。
所述的方法,其中,所述步骤C3还包括:
选取其中一个麦克风作为参考麦克风,并作为坐标原点M0=q0=(0,0,0)T,第i个麦克风Mi的坐标为qi=(xi,yi,zi)T,声源空间矢量s的坐标为qs=(xs,ys,zs)T,其他麦克风及声源点到参考麦克风的距离记为为Ri和Rs,声源到达参考麦克风M0与Mi的距离差可以通过GCC方法得到:
di=‖qi-qs‖-‖q0-qs‖
确定声源位置为:
其中,
所述的方法,其中,所述步骤C4还包括:通过计算导向矢量,利用MVDR滤波器获取目标声源方位的人声。
本发明所提供的一种立体结构的麦克风阵列拾音装置及方法,由于采用了不共面的立体结构麦克风阵列,实现对空间内任何位置的声源方位进行定位,因而可以实现更为精准的降噪处理。
附图说明
图1为现有技术的线性阵列两个麦克风工作原理示意图。
图2为现有技术的共面麦克风阵列工作原理示意图。
图3为本发明所述立体结构的麦克风阵列拾音装置及方法较佳实施例一的示意图。
图4为本发明所述立体结构的麦克风阵列拾音装置及方法较佳实施例二的示意图。
图5为本发明所述立体结构的麦克风阵列拾音装置及方法实现流程示意图。
图6为本发明所述立体结构的麦克风阵列拾音装置及方法中的定向拾音算法流程示意图。
图7为本发明所述立体结构的麦克风阵列拾音装置及方法中的TDOA声源定位在空间中数学表示示意图。
具体实施方式
以下对本发明的较佳实施例加以详细说明。
本发明所提供的一种立体结构的麦克风阵列拾音装置及方法,较佳实施例中,主要针对可折叠式的移动终端,如笔记本电脑或折叠手机、pad等,设置至少四个及以上的麦克风,并形成阵列,其中三个形成不共线的平面,即三点定面,至少设置第四个麦克风在不与上述平面共面的立体空间内,从而形成三维立体排布结构。
在具体示例中,可以在移动终端的一侧盖件上,如上盖上设置横向的两个麦克风,而在另一侧盖件上,如下盖的平台上设置纵向的两个麦克风布局,这样通过两两不平行设置的四个麦克风,就可以形成在空间上不共面的布局方式,并根据每个麦克风的空间位置和拾音频谱,计算不同麦克风之间的同一声源频谱的时间差(相位差),从而可以计算声源的方位和空间分布位置。本发明采用的计算原理依然是现有技术常见的到达时延定位算法,但以不共面的多个麦克风采集同一音频的相位差进行计算,就可以唯一确定声源的位置。
本发明预先设置的驱动程序可以识别声源音频的频谱特点,并根据其拾取音频的时间差,通过预先的空间布局模型,进行方位和位置距离计算,从而可以确定唯一的声源定位位置。
此外,在对折叠的终端翻转角度进行识别的情况下,例如在转轴上设置转动角位移传感器,就可以在软件驱动系统中相应进行初始化,以确定初始的四个麦克风相对位置,以简化后续的声源方位确定和调整过程。在本发明较佳实施例方法及系统确定声源位置的计算后,还可以根据计算所得方位进行有针对性的降噪处理,从而实现在同样是人声的环境噪音情况下,依然可以单向精准指向声源以实现针对性拾音,从而实现更精确地降噪和提高声音识别的能力。
本发明所述立体麦克风阵列包括若干麦克风构成的不共线阵列(最少由三颗不共线的麦克风组成)和另一颗不同平面的第四麦克风,他们共同组成了立体麦克风阵列。在本发明具体实施场景中,非单一平面类通信设备(如折叠类设备)在立体麦克风阵列部署中存在有天然优势,能够有效地形成立体式麦克风阵列结构,因此,本发明较佳实施例中,还包括有采用上述立体结构的麦克风阵列拾音装置及方法的移动终端。
如图3所示为本发明的一实施例提供的立体麦克风定向拾音装置,该拾音装置在该实施例中应用于笔记本电脑,但在本发明保护的移动终端中的立体结构麦克风定向拾音装置不局限于应用到笔记本电脑上。在该实施例中,位于所述笔记本电脑屏幕面顶端部署有两个线性麦克风:第一麦克风101和第二麦克风102,而位于键盘面顶部居中边缘处部署有一个第三麦克风103,位于触摸板底部侧边缘居中位置部署有第四麦克风104,该四个麦克风共同形成了该实施例的麦克风阵列立体结构。
如前所述,本发明上述实施例中的各个麦克风的设置方式并不局限于前述设置方式,还可以设置采用在同一侧如上盖或平台上设置三个麦克风,形成三角形,也即处于一侧的平面内,而第四麦克风设置另一侧如平台或上盖上,形成立体结构布置。具体但不限于,可以在上盖的四周选择呈三角形布置的位置上设置三个麦克风,例如可以在平行于转轴方向上设置两个,在顶端设置第三麦克风,或者相反,将第三麦克风设置在与折叠移动终端的转轴附近中央,而将另两个麦克风设置到远离转轴的位置上。
由于本发明较佳实施例中预先设置有音频识别算法,根据折叠移动终端形状和尺寸,以及多个麦克风的设置位置,预先建模形成其立体结构的位置关系;并在使用过程中,根据折叠移动终端打开一定角度时,将打开角度一并输入系统进行参数初始化,从而匹配多个麦克风所形成的相互结构关系,以方便根据算法进行音频识别判断。
所述麦克风的数量可以超过四个,但数量越多,计算量将越大,当然识别精度也会更高,且对系统有冗余度,防止其中某一个或一些麦克风出现故障时,对音频的识别和降噪运用依然可以保持正常工作功能。在设置四个麦克风形成立体结构时,并不限于前述纵横的形成方式,在两两形成线性麦克风阵列的情况下,还可以采用任意形成一定角度的方式构建麦克风立体结构,预先形成特定角度的方式可以方便算法的运行和处理,这将在实际产品的设计中进行选择和构建,并预先形成麦克风立体结构的构建参数基础。
如图4所示为本发明的另一实施例提供的立体麦克风定向拾音装置,该实施例将图3所展示的实施例中位于键盘面顶部麦克风移至键盘面右侧边缘处,可构成另一种不同形态的立体式麦克风阵列结构。
每一麦克风在折叠移动终端的上盖或平台对应位置上时,须根据设计位置,预先设置容纳麦克风的空间结构,如卧槽和透音孔,并对应设置走线槽,从终端内部与对应的电路板进行通讯连接,并预先设置好对应的驱动程序软件系统,并运行本发明所述拾音处理方法,从而实现对声源的识别,并针对来自对应声源位置的语音进行降噪处理,仅接受来自于声源位置的语音,从而可以实现利用方位识别进行精准降噪的过程。
在本发明上述实施例采用的折叠设备中,立体阵列结构的麦克风阵列除了预先设定的空间布局外例如在同侧折叠部件上的位置关系是固定的,两个折叠部件之间还会随着折叠设备在工作状态所形成的折叠角度不同,而形成不同的立体结构。为了方便折叠设备在使用过程中根据开合角度进行处理和计算,不同开合角度形成的麦克风阵列立体结构不同,相应可以计算得出精确的声源位置,因此需要在折叠设备的转轴位置内置有角度传感器,从而获取到设备两部分结构之间的折叠角度,通过折叠角度可准确得出折叠设备在使用时的立体麦克风阵列结构参数,以便进一步准确计算声源位置。
本发明较佳实施例中折叠设备的麦克风阵列结构处理方法中,随着折叠设备在不同工作位置的折叠角度变化,麦克风阵列的结构也会发生变化。这意味着麦克风的相对位置和方向会随着设备的折叠状态而调整,形成不同的立体结构。通过预先的设计参数以及对应音频识别算法,可以预先将驱动算法设置在折叠移动终端设备的处理电路中,形成软件处理系统。
本发明较佳实施例的折叠处理设备中,需要获取在工作状态不同开合程度的角度传感器获知的折叠角度。这个角度传感器可以检测折叠设备在使用过程中的每一次物理状态变化,特别是折叠的程度改变,并向处理系统发送相应的参数。
本发明较佳实施例的折叠处理设备中,还计算折叠设备的立体麦克风阵列结构:利用获取到的折叠角度信息,能够计算出折叠设备在使用时的立体麦克风阵列结构。这是通过将角度信息与预先定义的麦克风布局模型结合起来实现的。
通过这种方式,在本发明较佳实施例的折叠设备物理状态改变的情况下,可以动态地根据麦克风阵列结构改变情况,相应驱动算法可以自动适应立体麦克风结构参数。这种自适应性有助于确保在不同折叠状态下仍然能够准确地计算声源的位置,利用所获取的声源位置,仅针对声源位置的音频进行记录,从而提高声音捕捉的效果。本发明较佳实施例可以采用运行在设备操控系统中的软件或硬件功能模块,例如电脑操作系统中运行的软件或硬件芯片等,通过系统控制单元实现对应流程步骤的运算和处理。
如图5所示,本发明所述立体结构的麦克风阵列拾音装置及方法实施例的具体实施方法流程,本发明提供的立体式麦克风阵列定向拾音方法步骤包括:
首先,依照预先设计的立体结构麦克风阵列,确定算法基础。其中可以预先确定某一个麦克风作为参考麦克风。
其次,获取折叠设备角度传感器角度信息,形成某一开合角度的折叠状态下麦克风阵列在实施设备中的部署结构。以图3实施例为例,通过角度传感器获取的设备屏幕面和键盘面间的角度信息,并在所述折叠设备中建立三维坐标系,分别获取部署于折叠设备的上盖屏幕顶部两个麦克风及折叠设备平台键盘面两个麦克风基于三维坐标系下的具体位置,形成在某折叠角度下固定三维空间中的立体式麦克风阵列。
基于上述步骤构建出的立体式麦克风阵列获取各个麦克风在各个立体空间点位置采集到的声源信号,进行音频识别;根据各个麦克风的相位差,也就是到达麦克风的音频频谱时延确定声源的方位和位置。
基于前述立体式麦克风阵列,将采集到的各个麦克风获取到的声源信号传入定向拾音处理模块中,通过声源到达各个麦克风间的时间差异,可以得出该声源的具体准确位置,并针对该拾取声源位置进行定向拾音。
在确定声源的具体位置后,可以对拾取到的定向声音进行针对性的信号处理,如进行降噪处理,以提高在特定方向上的声音捕捉效果。这有助于在同样是人声的情况下,实现对特定方向声源的单向拾音,从而提高声音识别的准确性,消除同样是人声的环境噪音所造成的影响。
在本发明具体实施例中,所述构建立体式麦克风阵列的处理过程,示例如下:
具体的声源定位算法如图6所示步骤,首先应用到达时间差(Time Delay ofArrival,TDOA)的定位技术,TDOA是先后估计声源到达不同麦克风的时延差,通过时延来计算距离差,再利用距离差和麦克风阵列的空间几何位置拟合来确定声源的位置。该方法计算量小,估计精度较高,比较适合在实时系统中应用。定位过程分为TDOA估计和TDOA定位两步;紧接着使用最小方差无失真相应(Minimum Variance Distortionless Response,MVDR)波束形成器完成对声源位置的信号增强,从而提取出声源信号。
所述的TDOA估计:可以但不限于采用的广义互相关法(Generalized Cross-Correlation,GCC)是一种最常用的延迟估计算法,通过最大化一对麦克风信号在频域上的互相关函数就可以估计出声音信号到达麦克风的时间差。
具体地,获取立体麦克风信号,即不同位置麦克风的信号,假设两颗麦克风收到的声音信号x1(n)和x2(n)分别为:
x1(m)=α1s(n-τ1)+n1(m)
x2(n)=α2s(n-τ2)+n2(n)
式中:s(n)为声源的原始信号;α1和α2分别为声音从声源传播到阵列麦克风的衰减;τ1和τ2分别为从声源传播到两个阵元麦克风的时间;n1(n)和n2(n)分别为两路声音信号的加性噪声(即不管是否有信号,都存在的噪声)。
由于声音信号与噪声互不相关,所以x1(n)和x2(n)互相关函数可表示为:
R12(τ)=α1α2E[x1(n-τ1)x2(n-τ2-τ)]+Rn1n2(τ)
在噪声强度小于声源强度的情况下,两路信号中的加性噪声不相关,即Rn1n2(τ)=0,则可以进一步简化为:
R12(τ)=α1α2E[x1(n-τ1)x2(n-τ2-τ)]
当τ=τ1-τ2时,R12(τ)取得最大值,因此通过搜索互相关函数最大值,就可以得到两路信号之间的时间差τ。
所述的TDOA定位:可以但不限于采用球形插值法进行定位。基本思想是选取阵列中的一个麦克风作为参考麦克风,通过最小化麦克风对之间距离的估计值与实际值的误差平方和,利用最小二乘的方法,求得声源位置。利用如图3实施例的立体麦克风阵列可以进行声源坐标的唯一定位。球形插值法对麦克风的摆放位置没有严格要求,其定位误差小。
如图7所示,选取底部的麦克风作为参考麦克风(也可以选择其他麦克风做参考麦克风),并作为坐标原点M0=q0=(0,0,0)T,则第i个麦克风Mi的坐标为qi=(xi,yi,zi)T,i为计数自然数,声源空间矢量s的坐标为qs=(xs,ys,zs)T,其他麦克风及声源点到参考麦克风的距离记为为Ri和Rs,声源到达参考麦克风M0与Mi的距离差可以通过GCC方法得到:
di=||qi-qs||-||q0-qs||
其中‖qi-qs‖表示第i个麦克风到声源点的空间距离,‖q0-qs‖表示参考麦克风到声源点的空间距离,两者差值记为di。可以建立如下等式:
(Rs+di)2=||qi-qs||2
=Ri 2+Rs 2-2qi Tqs
进一步地,可以将上式简化为:
Ri 2-di 2-2Rsdi-2qi Tqs=0
由于GCC估计过程会存在一定误差ε,所以将该因素考虑到该式当中可得:
Ri 2-di 2-2Rsdi–2qi Tqs-ε=0
为了简化推理过程,将式中涉及各个麦克风的变量进行简化表示,Ri 2-di 2项用δ进行表示,di项用D进行表示,qi T项用MT进行表示,上式可简化表示为
ε=δ-2RsD-2MTqs
其中:
进一步地为了简化推理和计算处理,上式可简化为:
EAW-b
其中
为了使得误差最小,对于更定的声源点到参考麦克风距离Rs,使用最小二乘法处理,当W=(ATA)-1ATb时,让ε均方差最小,可构建如下式:
将分子部分展开即可得到声源位置为:
根据笛卡尔坐标系与球坐标系的转换关系,可将上述声源坐标转换为球坐标系,可求出声源对应的轴向角,俯角以及距离。
进一步地,采用最小方差无失真相应(Minimum Variance DistortionlessResponse,MVDR)波束形成器,其基本原理是在期望方向信号无失真的约束条件下,使得阵列输出平均功率最小,优化表达式为
其中,为根据TDOA的结果计算得到的导向矢量,若存在多个声源,则存在多个声源的导向矢量。Rx为输入麦克风信号的协方差矩阵,利用拉格朗日乘子法,将上述约束问题转化为无约束问题,拉格朗日公式为
Lw=wHRxw+λ[wHa-1]
其中λ为复数拉格朗日乘子。对上式求偏导并使其等于零,可得到
2Rxω+2λa=0
该式可简化为:
将上式带入到约束条件中,可得
进一步可得到最优权重为:
通过对输入信号利用上述系数进行滤波就可以得到波束增强之后的语音信号。
该方案通过计算导向矢量,利用MVDR滤波器,可获取目标声源方向的人声,该定位不仅确定方向,而且确定声源距离立体结构麦克风阵列的空间位置,因此降噪效果更加精准,同样是人声的情况下,偏离方位(包括角度和距离)的同样人声就可以被过滤掉。采用几何的定位估计,算力小,定位误差小,能够定位到多个声源位置,MVDR滤波器能够尽可能的保留目标声源。
经过上述波束处理后的信号可以做到抑制声源位置以外的声音,虽仍需要进行其他噪声消除处理,但可以根据声源位置实现针对性的降噪处理,同时利用其他可选择的噪声频谱估计模型,可进行噪声估计,进而得到降噪后更精准清晰的语音。
在实际不同应用场景中可能存在有多声源场景,可通过TDOA完成多声源定位后,构建多个波束,分别完成对相应声源语音信号的增强,增强的结果会得到多个声源;在具体的应用中,可以选择将多个声源直接叠加进行语音输出,也可以通过声纹识别等技术完成对多声源的选择,或者提供给使用者界面内供选择的选项,以实现更为灵活的不同声源选择,实现对应的语音增强输出。
本发明所述立体结构的麦克风阵列装置及方法较佳实施例中,实际上可以形成包括四个以上的麦克风以及对应的硬件驱动芯片,形成硬件系统;并配备运行的驱动控制软件,通过本发明上述实施例的软件处理实现算法进行语音降噪和精准拾音处理。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种立体结构的麦克风阵列拾音装置,其设置在折叠设备中,所述折叠设备设置包括平台以及与平台可转动连接的上盖;其特征在于,设置包括至少四个麦克风用于拾音,并且四个麦克风不共面设置。
2.根据权利要求1所述的立体结构的麦克风阵列拾音装置,其特征在于,在所述平台及上盖上分别设置有两个麦克风,且分别两个麦克风的连线不平行设置。
3.根据权利要求1所述的立体结构的麦克风阵列拾音装置,其特征在于,所说平台和上盖上其中一侧设置有三个麦克风,且不共线设置,在另一侧设置有第四麦克风。
4.一种应用于权利要求1至3任一所述立体结构的麦克风阵列拾音装置的方法,其包括以下步骤:
A、获取麦克风阵列在设备中的部署位置信息;
B、获取麦克风阵列接受的声音信号;
C、根据该麦克风阵列的立体结构确定出声源位置;
D、对定位出的声源信号进行处理。
5.根据权利要求4所述的方法,其特征在于,在所述折叠设备上还设置有一用于对折叠角度进行传感的角度传感器,所述步骤A还包括:
A1、依照预先设计的立体结构麦克风阵列,确定算法基础;
A2、根据所述角度传感器获取的折叠角度确定所述麦克风阵列的立体结构。
6.根据权利要求5所述的方法,其特征在于,所述步骤C还包括:对所述声源位置的定位过程包括TDOA估计和TDOA定位的步骤。
7.根据权利要求6所述的方法,其特征在于,所述TDOA估计的步骤包括:
C1、获取不同位置麦克风的信号;
C2、应用延迟估计算法估计声源到达不同麦克风的时间差。
8.根据权利要求7所述的方法,其特征在于,所述TDOA定位的步骤包括:
C3、通过球形插值法对声源的轴向角、俯角以及距离进行定位;
C4、通过波束形成得出波束增强后的语音信号。
9.根据权利要求8所述的方法,其特征在于,所述步骤C3还包括:
选取其中一个麦克风作为参考麦克风,并作为坐标原点M0=q0=(0,0,0)T,第i个麦克风Mi的坐标为qi=(xi,yi,zi)T,声源空间矢量s的坐标为qs=(xs,ys,zs)T,其他麦克风及声源点到参考麦克风的距离记为为Ri和Rs,声源到达参考麦克风M0与Mi的距离差可以通过GCC方法得到:
di=||qi-qs||-||q0-qs||
确定声源位置为:
其中,
10.根据权利要求9所述的方法,其特征在于,所述步骤C4还包括:通过计算导向矢量,利用MVDR滤波器获取目标声源方位的人声。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410055126.2A CN118018896A (zh) | 2024-01-12 | 2024-01-12 | 一种立体结构的麦克风阵列拾音装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410055126.2A CN118018896A (zh) | 2024-01-12 | 2024-01-12 | 一种立体结构的麦克风阵列拾音装置及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118018896A true CN118018896A (zh) | 2024-05-10 |
Family
ID=90959845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410055126.2A Pending CN118018896A (zh) | 2024-01-12 | 2024-01-12 | 一种立体结构的麦克风阵列拾音装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118018896A (zh) |
-
2024
- 2024-01-12 CN CN202410055126.2A patent/CN118018896A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220240045A1 (en) | Audio Source Spatialization Relative to Orientation Sensor and Output | |
CN111025233B (zh) | 一种声源方向定位方法和装置、语音设备和系统 | |
Brandstein et al. | A practical methodology for speech source localization with microphone arrays | |
US7613310B2 (en) | Audio input system | |
JP4675381B2 (ja) | 音源特性推定装置 | |
CN102447697B (zh) | 开放环境中的半私人通信的方法及系统 | |
EP1856948B1 (en) | Position-independent microphone system | |
CN108353244A (zh) | 差分头部追踪装置 | |
JPWO2004034734A1 (ja) | アレイ装置および携帯端末 | |
Dey et al. | Direction of arrival estimation and localization of multi-speech sources | |
CN103181190A (zh) | 用于远场多源追踪和分离的系统、方法、设备和计算机可读媒体 | |
KR20140089580A (ko) | 근거리 널 및 빔 형성 | |
CN102209290A (zh) | 音频再现装置和音频再现方法 | |
CN108604453B (zh) | 一种定向录音方法及电子设备 | |
Gala et al. | Realtime active sound source localization for unmanned ground robots using a self-rotational bi-microphone array | |
Hu et al. | Sound source localization using relative harmonic coefficients in modal domain | |
Nakadai et al. | Sound source tracking with directivity pattern estimation using a 64 ch microphone array | |
Liu et al. | Acoustic positioning using multiple microphone arrays | |
CN118018896A (zh) | 一种立体结构的麦克风阵列拾音装置及方法 | |
CN110517703B (zh) | 一种声音采集方法、装置及介质 | |
WO2022042864A1 (en) | Method and apparatus for measuring directions of arrival of multiple sound sources | |
CN211047148U (zh) | 一种录音电路控制板及录音设备 | |
CN113068101A (zh) | 指环阵列拾音控制方法、装置、存储介质及指环阵列 | |
CN113014797B (zh) | 用于空间音频信号捕获和处理的装置和方法 | |
Gamboa-Montero et al. | Real-Time Acoustic Touch Localization in Human-Robot Interaction based on Steered Response Power |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |