CN111489753A - 抗噪声的声源定位方法、装置和计算机设备 - Google Patents
抗噪声的声源定位方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN111489753A CN111489753A CN202010583990.1A CN202010583990A CN111489753A CN 111489753 A CN111489753 A CN 111489753A CN 202010583990 A CN202010583990 A CN 202010583990A CN 111489753 A CN111489753 A CN 111489753A
- Authority
- CN
- China
- Prior art keywords
- sound source
- frame
- specified number
- calculating
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000001960 triggered effect Effects 0.000 claims abstract description 20
- 230000004044 response Effects 0.000 claims description 142
- 239000013598 vector Substances 0.000 claims description 121
- 238000001228 spectrum Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 20
- 239000011358 absorbing material Substances 0.000 claims description 19
- 230000004807 localization Effects 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 10
- 238000009499 grossing Methods 0.000 claims description 9
- 230000021615 conjugation Effects 0.000 claims description 8
- 238000010521 absorption reaction Methods 0.000 claims description 5
- 239000000463 material Substances 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 19
- 238000012935 Averaging Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 239000012814 acoustic material Substances 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请涉及抗噪声的声源定位方法,用于具有唤醒功能的智能设备,方法包括:判断当前音频数据是否可触发唤醒;若是,则根据当前音频数据对应的频域信号,估测指定数量的声源方向;对指定数量的声源方向,分别进行波束成形,得到指定数量的输出结果;根据指定数量的输出结果,计算峰度值;将峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。通过对当前音频数据的各频域信号进行波束成形,并结合波束成形的峰度值计算精准确定声源定位方向,提高唤醒过程中声源定位的精准性。
Description
技术领域
本申请涉及到智能设备领域,特别是涉及到抗噪声的声源定位方法、装置和计算机设备。
背景技术
大多数带唤醒词的智能语音设备,降噪过程依赖于对唤醒语音的声源定位,如果唤醒的时候定位发生错误,则会导致后续的降噪性能大大降低甚至出现反效果,导致损伤语音、放大噪声。现有带唤醒功能的智能音箱,声源定位受噪声影响,降低定位的准确性,在唤醒的同时出现播放噪声时,唤醒之后指示的唤醒方向朝向噪声,而不是朝向携带唤醒词的人声方向。尤其在空调、电扇等家电的远场拾音模块,其旁边天然有一个较强的噪声源,很容易使唤醒之后的声源定位结果指向噪声源,严重影响声源定位的准确性。
发明内容
本申请的主要目的为提供抗噪声的声源定位方法,旨在解决现有带唤醒功能的智能设备在存在噪声影响时定位补准确的技术问题。
本申请提供了抗噪声的声源定位方法,用于具有唤醒功能的智能设备,方法包括:
判断当前音频数据是否可触发唤醒;
若是,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向;
对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果;
根据所述指定数量的输出结果,计算峰度值;
将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
优选地,所述根据所述当前音频数据对应的频域信号,估测指定数量的声源方向的步骤,包括:
按照预设角度范围,在当前空间内均匀选取N个方向向量dn,n=1,2,...,N;
计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,n=1,2,...,N,所述指定帧为所述当前音频数据的所有帧数据中的任一帧;
根据帧响应值平滑后得到所述当前音频数据分别在所述N个方向向量dn上的N个响应值,n=1,2,...,N;
将所述N个响应值按照各自对应的空间位置,平铺得到角度谱angular spectrum;
在所述角度谱angular spectrum中搜索所有的响应值峰值点;
在所有所述响应值峰值点中,按照响应值由大至小选取所述指定数量的响应值峰值点;
根据,计算所述当前音频数据对应的指定帧的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差,其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,表示向量的2-范数;
判断所述当前空间的顶面和底面是否通过吸音材料围成,其中,所述顶面为所述当前空间位于直角坐标系Z轴的正方向的端面,所述底面为所述当前空间位于直角坐标系Z轴的负方向的端面,所述直角坐标系的原点为所述麦克风阵列的圆心,以平行于地平面的平面为直角坐标系的X轴和Y轴所在平面;
若是,则设定,并通过,计算所述第i个麦克风和所述第j个麦克风,接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比,其中,是第个麦克风到第个麦克风的距离,是第一类零阶贝塞尔函数,,real(·)表示取实部,,表示求共轭,,Fs为采样频率,ε为任意正实数;
优选地,所述判断所述当前空间的顶面和底面是否通过吸音材料围成的步骤之后,包括:
若所述当前空间的顶面和底面不是吸音材料围成,则设定,并通过,计算所述第i个麦克风和所述第j个麦克风,接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比,其中,是第i个麦克风到第j个麦克风的距离,,real(·)表示取实部,,表示求共轭,,Fs为采样频率,ε为任意正实数;
优选地,所述智能设备上设置多个麦克风组成的麦克风阵列,所述计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,n=1,2,...,N的步骤,包括:
根据,计算所述当前音频数据的指定帧对应的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差,其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,表示向量的2-范数;
根据,计算所述指定帧在所述N个方向向量dn的基于相位变换加权的互相关函数值基于相位变换加权的可控响应功率, 作为所述帧响应值,其中,n=1,2,...,N,表示所述当前音频数据对应的所述指定帧为第帧频域信号。
优选地,所述对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果的步骤,包括:
根据所述方向向量集合,利用做波束成形,得到所述指定数量的方向上的波束输出,,其中,为空域滤波系数,是的共轭转置,,为与第a个方向向量对应的导向向量,为散射噪声场的互相关矩阵,,其中,若所述当前空间的顶面和底面是吸音材料围成,若所述当前空间的顶面和底面不是吸音材料围成,表示第i个麦克风到第j个麦克风的距离。
优选地,所述根据所述指定数量的输出结果,计算峰度值的步骤,包括:
本申请还提供了一种抗噪声的声源定位装置,集成于具有唤醒功能的智能设备,装置包括:
判断模块,用于判断当前音频数据是否可触发唤醒;
估测模块,用于若可触发唤醒,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向;
波束成形模块,用于对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果;
计算模块,用于根据所述指定数量的输出结果,计算峰度值;
作为模块,用于将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本申请通过对当前音频数据的各频域信号进行波束成形,避免了噪声源的干扰,并结合波束成形的峰度值计算精准确定声源定位方向,即便智能设备旁边存在噪声源,也不会影响智能设备的声源定位,依然正确地指向发出当前音频数据的人声所处方位,提高唤醒过程中声源定位的精准性。
附图说明
图1 是本申请一实施例的抗噪声的声源定位方法流程示意图;
图2是本申请一实施例的angular spectrum中的峰值分布状态示意图;
图3是本申请一实施例的抗噪声的声源定位装置结构示意图;
图4是本申请一实施例的计算机设备内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例的抗噪声的声源定位方法,用于具有唤醒功能的智能设备,方法包括:
S1:判断当前音频数据是否可触发唤醒。
本申请的当前音频数据为缓存于数据通道对应的缓存器中的音频数据,具有唤醒功能的智能设备内设置麦克风阵列,不同麦克风对应不同的数据通道。通过识别当前音频数据是否具有预设的唤醒词,判断是否可触发唤醒,具有预设的唤醒词,则可触发唤醒,反之则不能唤醒。
本申请通过时域信号,输入到唤醒系统,识别是否具有预设唤醒词,并在存在预设唤醒词,可进行唤醒后,通过对缓存于缓存器的时域信号,在声源定位阶段,通过估测指定数量的声源方向,然后利用峰值确定声源所在的声源定位方向。举例地,输入时域信号xm(t),m=1,2,...,M,t=1,2,...,T,M是麦克风阵列中麦克风的个数,T是一帧时域信号的长度。把xm(t)放入缓存器y中,y={y1;y2;...;ym}。其中,ym={ym(1),ym(2),...,ym(L)},ym(1)={ym(1,1),ym(1,2),...,ym(1,T)},缓存器内的元素赋初值为0。L是缓存器中存放的时域信号的帧数。每次新输入一帧时域信号xm(t),则赋值过程:ym(1,t)=ym(2,t),ym(2,t)=ym(3,t),...,ym(L-1,t)=ym(L,t),ym(L,t)=xm(t),以实现时域信号的接续更新和缓存。将时域信号xm(t)输入到唤醒系统中,判断是否具有预设的唤醒词,若唤醒系统被触发,则进入声源定位阶段。
S2:若可触发唤醒,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向。
S3:对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果。
本申请在触发唤醒之后,为避免噪声源的影响精准的声源定位,通过多路波束成形,提高声源定位的精准性。本申请的波束成形的方式优选以SDBF(SuperDirectiveBeamforming,超指向型波束成形),根据A个方向向量,利用做波束成形,以进一步提高声源定位的精准性。
S4:根据所述指定数量的输出结果,计算峰度值。
本申请通过对A个选定的方向上,分别计算波束的峰度值,以通过峰度值的大小确定声源定位的方向。
S5:将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
本申请通过对A个方向上所有的峰度值求平均,找出峰度值最大对应的方向,并将该方向作为声源定位的方向。根据每个方向的各帧数据的峰度值求平均得到A个方向上所有的峰度值。本申请通过对当前音频数据的各频域信号进行波束成形,避免了噪声源的干扰,并结合波束成形的峰度值计算精准确定声源定位方向,即便智能设备旁边存在噪声源,也不会影响智能设备的声源定位,依然正确地指向发出当前音频数据的人声所处方位,提高唤醒过程中声源定位的精准性。
进一步地,所述根据所述当前音频数据对应的频域信号,估测指定数量的声源方向的步骤S2,包括:
S21:按照预设角度范围,在当前空间内均匀选取N个方向向量dn,n=1,2,...,N;
S22:计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,n=1,2,...,N,其中,所述指定帧为所述当前音频数据的所有帧数据中的任一帧;
S23:根据帧响应值平滑后得到所述当前音频数据分别在所述N个方向向量dn上的N个响应值,n=1,2,...,N;
S24:将所述N个响应值按照各自对应的空间位置,平铺得到角度谱angularspectrum;
S25:在所述角度谱angularspectrum中搜索所有的响应值峰值点;
S26:在所有所述响应值峰值点中,按照响应值由大至小选取所述指定数量的响应值峰值点;
本申请通过按照预设的角度范围,在当前空间中均匀选取N个方向向量dn,n=1,2,...,N,方向向量就是一个单位球上面均匀选择的经纬点,单位球的原点和这些经纬点的连线组成的向量就是方向向量。本申请通过特定的计算方式求取各方向向量上对当前音频数据的指定帧的帧响应值,然后通过平滑帧响应值形成当前音频数据在各方向向量的响应值,上述平滑过程可理解为求平均值的过程。然后将获得的N个响应值按照各自对应的空间位置,平铺得到角度谱angular spectrum,上述各空间位置由固定的俯仰角Φ和方位角θ决定,第n个响应值所在的空间位置为方向向量dn的终点。然后通过3×3邻域或5×5邻域等搜索所有的响应值峰值点,或者以聚类的方法搜索所有的响应值峰值点,比如聚类得到的类中心即为响应值峰值点。本实施例以3×3邻域搜索的方式进行详细说明,上述3×3邻域包括9宫格的选定框,当选定框的中心格对应的响应值均大于其他格对应的响应值,则认为筛选到了响应值峰值点,此时中心格对应的点成为响应值峰值点,响应值峰值点不单单与数值的大小相关,还与具体的位置相关。从N个方向向量dn中筛选响应值排前的A个响应值峰值点所对应的方向向量集合dpeak,作为指定数量为A个的声源方向,。通过所述指定数量的响应值峰值点所在角度对应的方向向量,形成所述指定数量的声源方向的方向向量集合dpeak,响应值峰值点所在的角度(θ、φ),有其对应的方向向量,角度转为方向向量的方法为:方向向量d=(x,y,z),其中,x=cosφcosθ,y=cosφsinθ,z=sinφ。上述特定的计算方式包括但不限于计算基于相位变换加权的可控响应功率,以及计算可控响应信噪比等,在可控响应信噪比的计算过程中,优选最小方差无失真响应加权。本申请通过将帧频域信号的响应值结果进行平滑,比如通过求平均的方式进行平滑,并搜索A个响应值峰值点,得到L`帧频域信号对应的方向向量集合dpeak。在空间坐标系下,每个方向向量dn都可以分解为俯仰角φ和方位角θ,将(θ,φ,响应值)三者的对应表,在二维平面上平铺、并可视化,可以得到角度谱angular spectrum。如图2所示,在angular spectrum 中找出5个响应值峰值点的示意图,图中5个“*”标注位置为响应值峰值点:横坐标为(-180°,180°)的方位角、纵坐标为(-90°,90°)俯仰角,角度分辨率为1°,角度谱angular spectrum上灰度的深浅表示每个位置上对应的响应值的大小,越深则值越小。
进一步地,所述智能设备上设置多个麦克风组成的麦克风阵列,所述计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,n=1,2,...,N的步骤S22,包括:
S221:根据,计算所述当前音频数据对应的指定帧的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差,其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,表示向量的2-范数;
S222:判断所述当前空间的顶面和底面是否通过吸音材料围成,其中,所述顶面为所述当前空间位于直角坐标系Z轴的正方向的端面,所述底面为所述当前空间位于直角坐标系Z轴的负方向的端面,所述直角坐标系的原点为所述麦克风阵列的圆心,以平行于地平面的平面为直角坐标系的X轴和Y轴所在平面;
S223:若是,则设定,并通过,计算所述第i个麦克风和所述第j个麦克风,接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比,其中,是第i个麦克风到第j个麦克风的距离,是第一类零阶贝塞尔函数,,real(·)表示取实部,,表示求共轭,,Fs为采样频率,ε为任意正实数;
本申请优先选择通过计算可控响应信噪比的方式,作为帧响应值,通过对L`帧的帧响应值进行平滑(比如求平均)得到N个方向上的响应值,并通过N个方向上的响应值,得到角度谱,然后通过搜索的方式确定响应值峰值点。上述计算可控响应信噪比的方式,得到的峰值更尖锐,更适合于多声源定位。上述正实数的ε用来防止除零,上述直角坐标向量为坐标原点指向麦克风所在坐标点的向量。本申请中需要通过识别当前空间的顶面和地面是否存在吸音材料,来选择合适的散射噪声公式,比如天花板和地板为直角坐标系内当前空间的两个对称的端面,若均噪声为吸音材料材质,则对音频信号的散射效果有较大影响。比如通过识别应用场景,确定空间内是否需要吸音材料,也可通过回声测试等方式,估测是否存在吸音材料,比如根据空间大小判断发射音频和接收音频的差异量,是否小于预测标准衰减,若是,则判定存在吸音材料,则调用本实施例的散射噪声公式,否则调用下一实施例的散射噪声公式。不存在吸音材料时,计算可控响应信噪比的方式,除散射噪声公式不同之外,其他过程均类似,不赘述。
进一步地,判断所述当前空间的顶面和底面是否通过吸音材料围成的步骤S222之后,包括:
S225:若所述当前空间的顶面和底面不是吸音材料围成,则设定,并通过,计算所述第i个麦克风和所述第j个麦克风,接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比,其中,是第i个麦克风到第j个麦克风的距离,,real(·)表示取实部,,表示求共轭,,Fs为采样频率,ε为任意正实数;
进一步地,所述智能设备上设置多个麦克风组成的麦克风阵列,所述计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,n=1,2,...,N的步骤S22,包括:
S2201:根据,计算所述当前音频数据的指定帧对应的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差,其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,表示向量的2-范数;
本申请通过计算基于相位变换加权的可控响应功率的方式,作为帧响应值,进而分别平滑得到N个方向上的响应值,并通过N个方向上的响应值,得到角度谱,并搜索出响应值峰值点。本实施例的计算方式相比于计算可控响应信噪比的方式,计算量小,声源定位响应快,且对智能设备的计算能力要求低,方便更广泛地应用于大多数的智能设备上。
进一步地,所述对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果的步骤S3,包括:
S31:根据所述方向向量集合,利用做波束成形,得到所述指定数量的方向上的波束输出,,其中,为空域滤波系数,是的共轭转置,,为与第a个方向向量对应的导向向量,为散射噪声场的互相关矩阵,,其中,若所述当前空间的顶面和底面是吸音材料围成,若所述当前空间的顶面和底面不是吸音材料围成,表示第i个麦克风到第j个麦克风的距离。
本申请优选通过超指向型波束成形,求得每个方向的波束,以提高指向声源定位方向的准确性。通过上述计算过程得到帧、A个方向波束成形之后的输出信号,利用逆快速傅里叶变换(IFFT),令其回到时域,得到,以方便计算峰度值。其他实施例也可采用MVDR(Minimum Variance Distortionless Response)、DMA(differentialmicrophone array)、GSC(Generalized Side-lobe Canceller)等等来代替。
进一步地,所述根据所述指定数量的输出结果,计算峰度值的步骤S4,包括:
本申请在计算峰度值的过程中,利用求峰度值的方法对非高斯性进行度量,其他实施例可以用求负熵(Negentropy)的方法来代替。通过对每个方向的个峰度值进行求平均,即。在中找出最大值所对应方向,作为最终的声源定位方向:。本申请在声源定位算法的基础上,增加了波束成形以及峰度值计算的过程,以峰度值最大的方向作为最终的声源定位方向,降低了噪声对声源定位的影响,大大增加了声源定位的抗干扰性能,解决了带唤醒词的智能设备在唤醒时的声源定位受噪声影响而降低声源定位的准确性的问题。
参照图3,本申请一实施例的抗噪声的声源定位装置,集成于具有唤醒功能的智能设备,装置包括:
判断模块1,用于判断当前音频数据是否可触发唤醒。
本申请的当前音频数据为缓存于数据通道对应的缓存器中的音频数据,具有唤醒功能的智能设备内设置麦克风阵列,不同麦克风对应不同的数据通道。通过识别当前音频数据是否具有预设的唤醒词,判断是否可触发唤醒,具有预设的唤醒词,则可触发唤醒,反之则不能唤醒。
本申请通过时域信号,输入到唤醒系统,识别是否具有预设唤醒词,并在存在预设唤醒词,可进行唤醒后,通过对缓存于缓存器的时域信号,在声源定位阶段,通过估测指定数量的声源方向,然后利用峰值确定声源所在的声源定位方向。举例地,输入时域信号xm(t),m=1,2,...,M,t=1,2,...,T,M是麦克风阵列中麦克风的个数,T是一帧时域信号的长度。把xm(t)放入缓存器y中,y={y1;y2;...;ym}。其中,ym={ym(1),ym(2),...,ym(L)},ym(1)={ym(1,1),ym(1,2),...,ym(1,T)},缓存器内的元素赋初值为0。L是缓存器中存放的时域信号的帧数。每次新输入一帧时域信号xm(t),则赋值过程:ym(1,t)=ym(2,t),ym(2,t)=ym(3,t),...,ym(L-1,t)=ym(L,t),ym(L,t)=xm(t),以实现时域信号的接续更新和缓存。将时域信号xm(t)输入到唤醒系统中,判断是否具有预设的唤醒词,若唤醒系统被触发,则进入声源定位阶段。
估测模块2,用于若可触发唤醒,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向。
波束成形模块3,用于对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果。
本申请在触发唤醒之后,为避免噪声源的影响精准的声源定位,通过多路波束成形,提高声源定位的精准性。本申请的波束成形的方式优选以SDBF(Super DirectiveBeamforming,超指向型波束成形),根据A个方向向量,利用做波束成形,以进一步提高声源定位的精准性。
计算模块4,用于根据所述指定数量的输出结果,计算峰度值。
本申请通过对A个选定的方向上,分别计算波束的峰度值,以通过峰度值的大小确定声源定位的方向。
作为模块5,用于将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
本申请通过对A个方向上所有的峰度值求平均,找出峰度值最大对应的方向,并将该方向作为声源定位的方向。根据每个方向的各帧数据的峰度值求平均得到A个方向上所有的峰度值。本申请通过对当前音频数据的各频域信号进行波束成形,避免了噪声源的干扰,并结合波束成形的峰度值计算精准确定声源定位方向,即便智能设备旁边存在噪声源,也不会影响智能设备的声源定位,依然正确地指向发出当前音频数据的人声所处方位,提高唤醒过程中声源定位的精准性。
进一步地,估测模块2,包括:
第一选取单元,用于按照预设角度范围,在当前空间内均匀选取N个方向向量dn,n=1,2,...,N;
计算单元,用于计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,n=1,2,...,N,其中,所述指定帧为所述当前音频数据的所有帧数据中的任一帧;
第一平滑单元,用于根据帧响应值平滑后得到所述当前音频数据分别在所述N个方向向量dn上的N个响应值,n=1,2,...,N;
平铺单元,用于将所述N个响应值按照各自对应的空间位置,平铺得到角度谱angularspectrum;
搜索单元,用于在所述角度谱angular spectrum中搜索所有的响应值峰值点;
第二选取单元,用于在所有所述响应值峰值点中,按照响应值由大至小选取所述指定数量的响应值峰值点;
本申请通过按照预设的角度范围,在当前空间中均匀选取N个方向向量dn,n=1,2,...,N,方向向量就是一个单位球上面均匀选择的经纬点,单位球的原点和这些经纬点的连线组成的向量就是方向向量。本申请通过特定的计算方式求取各方向向量上对当前音频数据的指定帧的帧响应值,然后通过平滑帧响应值形成当前音频数据在各方向向量的响应值,上述平滑过程可理解为求平均值的过程。然后将获得的N个响应值按照各自对应的空间位置,平铺得到角度谱angular spectrum,上述各空间位置由固定的俯仰角Φ和方位角θ决定,第n个响应值所在的空间位置为方向向量dn的终点。然后通过3×3邻域或5×5邻域等搜索所有的响应值峰值点,或者以聚类的方法搜索所有的响应值峰值点,比如聚类得到的类中心即为响应值峰值点。本实施例以3×3邻域搜索的方式进行详细说明,上述3×3邻域包括9宫格的选定框,当选定框的中心格对应的响应值均大于其他格对应的响应值,则认为筛选到了响应值峰值点,此时中心格对应的点成为响应值峰值点,响应值峰值点不单单与数值的大小相关,还与具体的位置相关。从N个方向向量dn中筛选响应值排前的A个响应值峰值点所对应的方向向量集合dpeak,作为指定数量为A个的声源方向,。通过所述指定数量的响应值峰值点所在角度对应的方向向量,形成所述指定数量的声源方向的方向向量集合dpeak,响应值峰值点所在的角度(θ、φ),有其对应的方向向量,角度转为方向向量的方法为:方向向量d=(x,y,z),其中,x=cosφcosθ,y=cosφsinθ,z=sinφ。上述特定的计算方式包括但不限于计算基于相位变换加权的可控响应功率,以及计算可控响应信噪比等,在可控响应信噪比的计算过程中,优选最小方差无失真响应加权。本申请通过将L`帧频域信号的响应值结果进行平滑,比如通过求平均的方式进行平滑,并搜索A个响应值峰值点,得到L`帧频域信号对应的方向向量集合dpeak。在空间坐标系下,每个方向向量dn都可以分解为俯仰角φ和方位角θ,将(θ,φ,响应值)三者的对应表,在二维平面上平铺、并可视化,可以得到角度谱angular spectrum。如图2所示,在angular spectrum 中找出5个响应值峰值点的示意图,图中5个“*”标注位置为响应值峰值点:横坐标为(-180°,180°)的方位角、纵坐标为(-90°,90°)俯仰角,角度分辨率为1°,角度谱angular spectrum上灰度的深浅表示每个位置上对应的响应值的大小,越深则值越小。
进一步地,所述智能设备上设置多个麦克风组成的麦克风阵列,计算单元,包括:
第一计算子单元,用于根据,计算所述当前音频数据对应的指定帧的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差,其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,表示向量的2-范数;
判断子单元,用于判断所述当前空间的顶面和底面是否通过吸音材料围成,其中,所述顶面为所述当前空间位于直角坐标系Z轴的正方向的端面,所述底面为所述当前空间位于直角坐标系Z轴的负方向的端面,所述直角坐标系的原点为所述麦克风阵列的圆心,以平行于地平面的平面为直角坐标系的X轴和Y轴所在平面;
第一设定子单元,用于若通过吸音材料围成,则设定,并通过,计算所述第i个麦克风和所述第j个麦克风,接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比,其中,是第i个麦克风到第j个麦克风的距离,是第一类零阶贝塞尔函数,,real(·)表示取实部,,表示求共轭,,Fs为采样频率,ε为任意正实数;
本申请优先选择通过计算可控响应信噪比的方式,作为帧响应值,通过对l`帧的响应值进行平滑(比如求平均)得到N个方向上的响应值,并通过N个方向上的响应值,得到角度谱,然后通过搜索的方式确定响应值峰值点。上述计算可控响应信噪比的方式,得到的峰值更尖锐,更适合于多声源定位。上述正实数的ε用来防止除零,上述直角坐标向量为坐标原点指向麦克风所在坐标点的向量。本申请中需要通过识别当前空间的顶面和地面是否存在吸音材料,来选择合适的散射噪声公式,比如天花板和地板为直角坐标系内当前空间的两个对称的端面,若均为吸音材料材质,则对音频信号的散射效果有较大影响。比如通过识别应用场景,确定空间内是否需要吸音材料,也可通过回声测试等方式,估测是否存在吸音材料,比如根据空间大小判断发射音频和接收音频的差异量,是否小于预测标准衰减,若是,则判定存在吸音材料,则调用本实施例的散射噪声公式,否则调用下一实施例的散射噪声公式。不存在吸音材料时,计算可控响应信噪比的方式,除散射噪声公式不同之外,其他过程均类似,不赘述。
进一步地,计算单元,包括:
第二设定子单元,用于若所述当前空间的顶面和底面不是吸音材料围成,则设定,并通过,计算所述第i个麦克风和所述第j个麦克风,接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比,其中,是第i个麦克风到第j个麦克风的距离,,real(·)表示取实部,,表示求共轭,,Fs为采样频率,ε为任意正实数;
进一步地,所述智能设备上设置多个麦克风组成的麦克风阵列,计算单元,包括:
第四计算子单元,用于根据,计算所述当前音频数据的指定帧对应的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差,其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,表示向量的2-范数;
本申请通过计算基于相位变换加权的可控响应功率的方式,作为帧响应值,进而分别平滑得到N个方向上的响应值,并通过N个方向上的响应值,得到角度谱,并搜索出A个响应值峰值点,作为A个方向的终点。本实施例的计算方式相比于计算可控响应信噪比的方式,计算量小,声源定位响应快,且对智能设备的计算能力要求低,方便更广泛地应用于大多数的智能设备上。
进一步地,波束成形模块3,包括:
得到单元,用于根据所述方向向量集合,利用做波束成形,得到所述指定数量的方向上的波束输出,,其中,为空域滤波系数,是的共轭转置,,为与第个方向向量对应的导向向量,为散射噪声场的互相关矩阵,,其中,若所述当前空间的顶面和底面是吸音材料围成,若所述当前空间的顶面和底面不是吸音材料围成,表示第i个麦克风到第j个麦克风的距离。
本申请优选通过超指向型波束成形,求得每个方向的波束,以提高指向声源定位方向的准确性。通过上述计算过程得到帧、A个方向波束成形之后的输出信号,利用逆快速傅里叶变换(IFFT),令其回到时域,得到,以方便计算峰度值。其他实施例也可采用MVDR(Minimum Variance Distortionless Response)、DMA(differentialmicrophone array)、GSC(Generalized Side-lobe Canceller)等等来代替。
进一步地,计算模块4,包括:
本申请在计算峰度值的过程中,利用求峰度值的方法对非高斯性进行度量,其他实施例可以用求负熵(Negentropy)的方法来代替。通过对每个方向的个峰度值进行求平均,即。在中找出最大值所对应方向,作为最终的声源定位方向:。本申请在声源定位算法的基础上,增加了波束成形以及峰度值计算的过程,以峰度值最大的方向作为最终的声源定位方向,降低了噪声对声源定位的影响,大大增加了声源定位的抗干扰性能,解决了带唤醒词的智能设备在唤醒时的声源定位受噪声影响而降低声源定位的准确性的问题。
参照图4,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、显示屏、输入装置、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储抗噪声的声源定位过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现抗噪声的声源定位方法。
上述处理器执行上述抗噪声的声源定位方法,用于具有唤醒功能的智能设备,方法包括:判断当前音频数据是否可触发唤醒;若是,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向;对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果;根据所述指定数量的输出结果,计算峰度值;将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
上述计算机设备,通过对当前音频数据的各频域信号进行波束成形,避免了噪声源的干扰,并结合波束成形的峰度值计算精准确定声源定位方向,即便智能设备旁边存在噪声源,也不会影响智能设备的声源定位,依然正确地指向发出当前音频数据的人声所处方位,提高唤醒过程中声源定位的精准性。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现抗噪声的声源定位方法,用于具有唤醒功能的智能设备,方法包括:判断当前音频数据是否可触发唤醒;若是,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向;对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果;根据所述指定数量的输出结果,计算峰度值;将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
上述计算机可读存储介质,通过对当前音频数据的各频域信号进行波束成形,避免了噪声源的干扰,并结合波束成形的峰度值计算精准确定声源定位方向,即便智能设备旁边存在噪声源,也不会影响智能设备的声源定位,依然正确地指向发出当前音频数据的人声所处方位,提高唤醒过程中声源定位的精准性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种抗噪声的声源定位方法,其特征在于,用于具有唤醒功能的智能设备,方法包括:
判断当前音频数据是否可触发唤醒;
若是,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向;
对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果;
根据所述指定数量的输出结果,计算峰度值;
将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
2.根据权利要求1所述的抗噪声的声源定位方法,其特征在于,所述根据所述当前音频数据对应的频域信号,估测指定数量的声源方向的步骤,包括:
按照预设角度范围,在当前空间内均匀选取N个方向向量dn,n=1,2,...,N;
计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,n=1,2,...,N,其中,所述指定帧为所述当前音频数据的所有帧数据中的任一帧;
根据帧响应值平滑后得到所述当前音频数据分别在所述N个方向向量dn上的N个响应值,n=1,2,...,N;
将所述N个响应值按照各自对应的空间位置,平铺得到角度谱angularspectrum;
在所述角度谱angularspectrum中搜索所有的响应值峰值点;
在所有所述响应值峰值点中,按照响应值由大至小选取所述指定数量的响应值峰值点;
3.根据权利要求2所述的抗噪声的声源定位方法,其特征在于,所述智能设备上设置多个麦克风组成的麦克风阵列,所述计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,n=1,2,...,N的步骤,包括:
根据,计算所述当前音频数据对应的指定帧的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差,其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,表示向量的2-范数;
判断所述当前空间的顶面和底面是否通过吸音材料围成,其中,所述顶面为所述当前空间位于直角坐标系Z轴的正方向的端面,所述底面为所述当前空间位于直角坐标系Z轴的负方向的端面,所述直角坐标系的原点为所述麦克风阵列的圆心,以平行于地平面的平面为直角坐标系的X轴和Y轴所在平面;
若是,则设定,并通过,计算所述第i个麦克风和所述第j个麦克风,接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比,其中,是第i个麦克风到第j个麦克风的距离,是第一类零阶贝塞尔函数,,real(·)表示取实部,,表示求共轭,,Fs为采样频率,ε为任意正实数;
6.根据权利要求2所述的抗噪声的声源定位方法,其特征在于,所述智能设备上设置多个麦克风组成的麦克风阵列,所述计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,n=1,2,...,N的步骤,包括:
根据,计算所述当前音频数据的指定帧对应的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差,其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,表示向量的2-范数;
8.一种抗噪声的声源定位装置,其特征在于,集成于具有唤醒功能的智能设备,装置包括:
判断模块,用于判断当前音频数据是否可触发唤醒;
估测模块,用于若可触发唤醒,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向;
波束成形模块,用于对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果;
计算模块,用于根据所述指定数量的输出结果,计算峰度值;
作为模块,用于将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010583990.1A CN111489753B (zh) | 2020-06-24 | 2020-06-24 | 抗噪声的声源定位方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010583990.1A CN111489753B (zh) | 2020-06-24 | 2020-06-24 | 抗噪声的声源定位方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111489753A true CN111489753A (zh) | 2020-08-04 |
CN111489753B CN111489753B (zh) | 2020-11-03 |
Family
ID=71810543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010583990.1A Active CN111489753B (zh) | 2020-06-24 | 2020-06-24 | 抗噪声的声源定位方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111489753B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111929645A (zh) * | 2020-09-23 | 2020-11-13 | 深圳市友杰智新科技有限公司 | 特定人声的声源定位方法、装置和计算机设备 |
CN113314135A (zh) * | 2021-05-25 | 2021-08-27 | 北京小米移动软件有限公司 | 声音信号识别方法及装置 |
CN113419216A (zh) * | 2021-06-21 | 2021-09-21 | 南京信息工程大学 | 一种适用于混响环境的多声源定位方法 |
CN114136434A (zh) * | 2021-11-12 | 2022-03-04 | 国网湖南省电力有限公司 | 一种变电站站界噪声抗干扰估算方法和系统 |
CN114678021A (zh) * | 2022-03-23 | 2022-06-28 | 小米汽车科技有限公司 | 音频信号的处理方法、装置、存储介质及车辆 |
CN115620727A (zh) * | 2022-11-14 | 2023-01-17 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及智能眼镜 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105283775A (zh) * | 2013-04-12 | 2016-01-27 | 株式会社日立制作所 | 移动机器人以及音源位置推定系统 |
CN106863320A (zh) * | 2017-01-18 | 2017-06-20 | 北京光年无限科技有限公司 | 一种用于智能机器人的语音交互数据获取方法及装置 |
WO2018222610A1 (en) * | 2017-05-29 | 2018-12-06 | Staton Techiya, Llc | Method and device to determine sound source direction and speech quality enhancement using small microphone arrays |
CN109346100A (zh) * | 2018-10-25 | 2019-02-15 | 烟台市奥境数字科技有限公司 | 一种数字媒体交互式教学系统的网络传输方法 |
US10304475B1 (en) * | 2017-08-14 | 2019-05-28 | Amazon Technologies, Inc. | Trigger word based beam selection |
CN110261816A (zh) * | 2019-07-10 | 2019-09-20 | 苏州思必驰信息科技有限公司 | 语音波达方向估计方法及装置 |
CN110534126A (zh) * | 2019-09-07 | 2019-12-03 | 广州智伴人工智能科技有限公司 | 一种基于固定波束形成的声源定位和语音增强方法及系统 |
CN110794368A (zh) * | 2019-10-28 | 2020-02-14 | 星络智能科技有限公司 | 一种声源定位方法、装置、智能音箱及存储介质 |
CN111048106A (zh) * | 2020-03-12 | 2020-04-21 | 深圳市友杰智新科技有限公司 | 基于双麦克风的拾音方法、装置和计算机设备 |
CN111060872A (zh) * | 2020-03-17 | 2020-04-24 | 深圳市友杰智新科技有限公司 | 基于麦克风阵列的声源定位方法、装置和计算机设备 |
-
2020
- 2020-06-24 CN CN202010583990.1A patent/CN111489753B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105283775A (zh) * | 2013-04-12 | 2016-01-27 | 株式会社日立制作所 | 移动机器人以及音源位置推定系统 |
CN106863320A (zh) * | 2017-01-18 | 2017-06-20 | 北京光年无限科技有限公司 | 一种用于智能机器人的语音交互数据获取方法及装置 |
WO2018222610A1 (en) * | 2017-05-29 | 2018-12-06 | Staton Techiya, Llc | Method and device to determine sound source direction and speech quality enhancement using small microphone arrays |
US10304475B1 (en) * | 2017-08-14 | 2019-05-28 | Amazon Technologies, Inc. | Trigger word based beam selection |
CN109346100A (zh) * | 2018-10-25 | 2019-02-15 | 烟台市奥境数字科技有限公司 | 一种数字媒体交互式教学系统的网络传输方法 |
CN110261816A (zh) * | 2019-07-10 | 2019-09-20 | 苏州思必驰信息科技有限公司 | 语音波达方向估计方法及装置 |
CN110534126A (zh) * | 2019-09-07 | 2019-12-03 | 广州智伴人工智能科技有限公司 | 一种基于固定波束形成的声源定位和语音增强方法及系统 |
CN110794368A (zh) * | 2019-10-28 | 2020-02-14 | 星络智能科技有限公司 | 一种声源定位方法、装置、智能音箱及存储介质 |
CN111048106A (zh) * | 2020-03-12 | 2020-04-21 | 深圳市友杰智新科技有限公司 | 基于双麦克风的拾音方法、装置和计算机设备 |
CN111060872A (zh) * | 2020-03-17 | 2020-04-24 | 深圳市友杰智新科技有限公司 | 基于麦克风阵列的声源定位方法、装置和计算机设备 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111929645A (zh) * | 2020-09-23 | 2020-11-13 | 深圳市友杰智新科技有限公司 | 特定人声的声源定位方法、装置和计算机设备 |
CN113314135A (zh) * | 2021-05-25 | 2021-08-27 | 北京小米移动软件有限公司 | 声音信号识别方法及装置 |
CN113314135B (zh) * | 2021-05-25 | 2024-04-26 | 北京小米移动软件有限公司 | 声音信号识别方法及装置 |
CN113419216A (zh) * | 2021-06-21 | 2021-09-21 | 南京信息工程大学 | 一种适用于混响环境的多声源定位方法 |
CN113419216B (zh) * | 2021-06-21 | 2023-10-31 | 南京信息工程大学 | 一种适用于混响环境的多声源定位方法 |
CN114136434A (zh) * | 2021-11-12 | 2022-03-04 | 国网湖南省电力有限公司 | 一种变电站站界噪声抗干扰估算方法和系统 |
CN114136434B (zh) * | 2021-11-12 | 2023-09-12 | 国网湖南省电力有限公司 | 一种变电站站界噪声抗干扰估算方法和系统 |
CN114678021A (zh) * | 2022-03-23 | 2022-06-28 | 小米汽车科技有限公司 | 音频信号的处理方法、装置、存储介质及车辆 |
CN114678021B (zh) * | 2022-03-23 | 2023-03-10 | 小米汽车科技有限公司 | 音频信号的处理方法、装置、存储介质及车辆 |
CN115620727A (zh) * | 2022-11-14 | 2023-01-17 | 北京探境科技有限公司 | 音频处理方法、装置、存储介质及智能眼镜 |
Also Published As
Publication number | Publication date |
---|---|
CN111489753B (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111489753B (zh) | 抗噪声的声源定位方法、装置和计算机设备 | |
CN109597022B (zh) | 声源方位角运算、定位目标音频的方法、装置和设备 | |
CN104220896B (zh) | 用于估计到达方向的系统、方法和设备 | |
Khaykin et al. | Acoustic analysis by spherical microphone array processing of room impulse responses | |
RU2570359C2 (ru) | Прием звука посредством выделения геометрической информации из оценок направления его поступления | |
RU2555188C2 (ru) | Устройство, система (варианты), способ получения информации о направлении и компьютерный программный продукт | |
RU2642353C2 (ru) | Устройство и способ для обеспечения информированной оценки вероятности и присутствия многоканальной речи | |
US9042573B2 (en) | Processing signals | |
CN103181190A (zh) | 用于远场多源追踪和分离的系统、方法、设备和计算机可读媒体 | |
Jensen et al. | Nonlinear least squares methods for joint DOA and pitch estimation | |
Huang et al. | A flexible high directivity beamformer with spherical microphone arrays | |
JP5123595B2 (ja) | 近傍場音源分離プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体、並びに近傍場音源分離方法 | |
Bush et al. | Broadband implementation of coprime linear microphone arrays for direction of arrival estimation | |
JP2014098568A (ja) | 音源位置推定装置、音源位置推定方法および音源位置推定プログラム | |
WO2020079957A1 (ja) | 音声信号処理装置、雑音抑圧方法 | |
JP2023550434A (ja) | 改良型音響源測位法 | |
US11830471B1 (en) | Surface augmented ray-based acoustic modeling | |
Zhang et al. | Deep learning-based direction-of-arrival estimation for multiple speech sources using a small scale array | |
Cho et al. | Sound source localization for robot auditory systems | |
Canclini et al. | A methodology for the robust estimation of the radiation pattern of acoustic sources | |
Cho et al. | Adaptive near-field beamforming techniques for sound source imaging | |
Bouchard et al. | Beamforming with microphone arrays for directional sources | |
WO2022105571A1 (zh) | 语音增强方法、装置、设备及计算机可读存储介质 | |
Rathsam et al. | Analysis of absorption in situ with a spherical microphone array | |
JP3862685B2 (ja) | 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Anti noise sound source localization method, device, and computer equipment Granted publication date: 20201103 Pledgee: Shenzhen Shunshui Incubation Management Co.,Ltd. Pledgor: SHENZHEN YOUJIE ZHIXIN TECHNOLOGY Co.,Ltd. Registration number: Y2024980029366 |