CN106023996A - 基于十字形声阵列宽带波束形成的声识别方法 - Google Patents

基于十字形声阵列宽带波束形成的声识别方法 Download PDF

Info

Publication number
CN106023996A
CN106023996A CN201610409905.3A CN201610409905A CN106023996A CN 106023996 A CN106023996 A CN 106023996A CN 201610409905 A CN201610409905 A CN 201610409905A CN 106023996 A CN106023996 A CN 106023996A
Authority
CN
China
Prior art keywords
theta
signal
frame
tau
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610409905.3A
Other languages
English (en)
Other versions
CN106023996B (zh
Inventor
王天磊
王建中
曹九稳
赖晓平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Hangzhou Electronic Science and Technology University
Original Assignee
Hangzhou Electronic Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Electronic Science and Technology University filed Critical Hangzhou Electronic Science and Technology University
Priority to CN201610409905.3A priority Critical patent/CN106023996B/zh
Publication of CN106023996A publication Critical patent/CN106023996A/zh
Application granted granted Critical
Publication of CN106023996B publication Critical patent/CN106023996B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H17/00Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves, not provided for in the preceding groups

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于十字形声阵列宽带波束形成的声识别方法。本发明包括如下步骤:1、将十字形声阵列对准所需方向采集声音信号;2、对采集到声音信号进行预处理;3、对预处理后的每一帧数据进行离散傅里叶变换,然后根据需要的频带进行频带提取;4、提取的各频带分别在所需方向上进行LSMI‑MVDR波束形成。5、将波束形成后的频域信号进行逆离散傅里叶变换;6、对应分帧时的原则进行帧重叠合成,输出信号;7、对输出信号进行特征提取和分类学习、识别。本发明能够提高期望方向接收信号的信噪比并且抑制其他方向的干扰信号,将其用于声音识别系统的信号处理阶段,能够有效的提高识别系统对识别对象的识别率和可靠性。

Description

基于十字形声阵列宽带波束形成的声识别方法
技术领域
本发明属于信号处理技术领域,尤其涉及一种基于十字形声阵列宽带波束形成的声识别方法。
背景技术
传统的单传声器声识别系统中,存在以下几个问题:
1.声识别系统只需要对某一个方向的信号进行识别,然而由于单个传声器的全向性,当识别对象并不在该方向附近时,识别系统依然会被触发,从而造成了误警。
2.在真实的复杂环境中,识别对象附近存在多种干扰声源以及严重的背景噪声,这就会造成系统的整体识别率急剧下降,误警率、漏警率会急剧上升。
3.在实际应用中,为了提高识别系统的作用区域的极限距离,就会使用高灵敏度的传声器,然而高灵敏的传声器势必会导致背景噪声的增强,从而造成对远距离的识别率并不会有着明显的增高,反而会下降。
发明内容
针对以上问题,本发明提供了一种基于十字形声阵列宽带波束形成的声识别方法。
为了实现上述目的,本发明采用的技术方案包括如下步骤:
步骤1、将十字形声阵列对准所需方向采集4通道声音信号;
步骤2、对采集到的4通道声音信号进行预处理,包括分帧、加窗;
步骤3、对预处理后的每一帧数据进行离散傅里叶变换,离散傅里叶变换后的4通道声音信号根据需要的频带进行频带提取;
步骤4、提取的各频带分别在所需方向上进行LSMI-MVDR波束形成;
步骤5、将波束形成后的频域信号进行逆离散傅里叶变换;
步骤6、对应分帧时的原则进行帧重叠合成,输出信号;
步骤7、对输出信号进行特征提取和分类学习、识别。
所述的步骤1:将十字形声阵列的其中一个通道对准声源方向,作为LSMI-MVDR宽带波束形成的方向,采集4通道声音信号,采样频率记为fs
所述的步骤2:预处理包括数据的分帧、加窗,对声音信号进行分帧,声音信号每帧选取1024个采样点,帧移为512个采样点;然后采用汉明窗对声音信号进行加窗;
所述的步骤3:通过FFT来实现信号的离散傅里叶变换,其中,每一帧信号经过FFT后频率分辨率为第p个通道的第m帧信号经过FFT后的结果为:
其中,L=1024为每一帧的长度,为第p个通道第m帧的信号,k为是各个频带的编号,其对应的中心频率为:
然后,根据声音信号的频率特性,选取相应的频率带,比如信号所在的频率带为[f1,f2],则我们提取FFT后的k所在的区间为
所述的步骤4:设第k个频带的中心频率为fk,则对于十字形阵列,首先将十字形阵列建立在直角坐标系下,则十字形阵列接收到的第m帧信号在时域内表示为:
其中,S(t)为声源信号,它的方位角为θ;为方向矢量;是噪声向量;ω为S(t)的中心角频率,τp(θ)(p=1,2,3,4)是第p个阵元相对于参考点即坐标原点的延时,对于十字形声阵列,其值为:
c是声音在空气中的传播速度,r是十字形声阵列的半径。
将(1)式进行离散傅里叶变换得到在频域下表示方式为
其中,k=0,1,...,L-1;a(θ,fk)是中心频率为fk的第k个频带所对应的方向矢量,即
对于MVDR波束形成原理,表述为在保证期望方向θde的信号功率不变的情况下,使得阵列输出的功率最小,即
其中,R=E[X(k)XH(k)]是接收信号在频域下的自相关矩阵。在实际应用中,用估计值来替代R,估计值的计算如下:
其中NF表示声音信号的帧数。
因此,MVDR波束形成的最佳权矢量wopt为:
是一个比例系数。
为了提高MVDR波束形成的稳健性,我们使用基于对角加载的改进MVDR波束形成算法,其原理是在自相关矩阵的对角线上增加一个加载量,即
R ^ L S M I = R ^ + λ I
从而,改进的最佳权矢量wLSMI变为
波束形成后的第m帧频域信号Y(m)(k)为:
Y ( m ) ( k ) = W L S M I H X ( m ) ( k )
所述的步骤5:将第m帧频域信号Y(m)(k)通过逆离散傅里叶变换转换到时域,其中逆离散傅里叶变换通过IFFT来实现,其中第m帧时域信号y(m)(i)为:
所述的步骤6:将经过逆离散傅里叶变换的各帧声音信号按照分帧时的原则进行重叠,然后再输出信号;其中:第一帧信号不变,后面每一帧信号去掉前面的512个点,只保留后512点,然后再添加到前一帧信 号后面。
所述的步骤7:将输出信号作为原始信号,进行特征提取和分类学习、识别。其中,声音的特征提取算法主要有线性预测倒谱系数(Linear Prediction CepstralCoefficients,LPCC)或者梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)等,而分类学习识别算法主要有支持向量机(Support Vector Machine,SVM)或者极限学习机(Extreme Learning Machine,ELM)等。
本发明有益效果如下:
本发明使用4通道十字形声阵列采集声音信号数据进行LSMI-MVDR宽带波束形成,能够提高期望方向接收信号的信噪比并且抑制其他方向的干扰信号,达到空间滤波和噪声抑制的效果,提高的接收信号的信干噪比,非常有效的解决了上述的提到的缺陷,将其用于声音识别系统的信号处理阶段,可以有效的提高识别系统对识别对象的识别率和可靠性。
附图说明
图1是本发明提出的基于4通道十字形声阵列LSMI-MVDR宽带波束形成的声识别方法的流程图
图2是基于LSMI-MVDR算法的宽带波束形成的流程图
图3是识别系统的特征提取、模型库建立和识别部分的流程示意图
图4为4通道十字形声阵列建立在直角坐标系下的结构图
具体实施方式
下面结合附图和具体实施方式对本发明作详细说明,以下描述仅作为示范和解释,并不对本发明作任何形式上的限制。
如图4所示为4通道十字形声阵列建立在直角坐标系下的结构图,其中d为两个相邻传声器的间距;r为十字形阵列的半径;S(t)为声源,它的方向为θ;图中的A、B、C、D分别对应于通道1、通道2、通道3、 通道4。假设只需要识别0度方向的信号,则将十字形声阵列的通道1对准0度方向,即在图4中,使得声源位于x轴正半轴上,然后采集信号,总共会采集到4个通道的信号,分别记为x1(t),x2(t),x3(t),x4(t)。
图2展示了基于LSMI-MVDR算法的宽带波束形成的实现流程图,按照图2中的步骤,我们首先将4通道信号分别进行分帧加窗,其中帧长为1024,帧移为512,加汉明窗。
将4通道的每一帧后的数据通过FFT算法进行离散傅里叶变换。第p个通道的第m帧信号FFT后的结果为,
第k个频带对应的中心频率为
假设,我们需要进行波束形成的信号频带的区间为[f1,f2],则对应的频带编号k的区间为其中floor为向下取整函数。然后取出各通道同一帧下k对应的FFT结果写成向量形式,比如我们取出各通道第m帧信号第k个频带为
接下来以第k个频带为例来讲述LSMI-MVDR波束形成,其他的频带都通过同样的方法来进行LSMI-MVDR波束形成。
首先,我们需要估计接收信号的自相关矩阵,通过
来进行估计,其中NF为采集的信号分帧后的总帧帧数。然后计算期望方向(本例中是0度方向)的方向矢量a(0°,fk),其中fk表示第k个频带的中心频率,a(0°,fk)的计算公式为
得到自相关矩阵和方向矢量后,就可以计算LSMI-MVDR波束形成的最优权矢量的比例系数μ,其值为
然后我们需要确认对角加载量λ的值,该值可以通过组成十字形声阵列的传声器参数以及各传声器的幅相响应的差别来确定,或者也可以根据LSMI-MVDR波束形成后的波束响应图来不断进行调整以确定一个比较好的加载量λ。当λ被确定后,就可以计算LSMI-MVDR波束形成的最优权矢量,公式为
将第k个频带下求出的最优权矢量分别对每一帧信号的第k个频带信号进行处理,得到这一帧信号的LSMI-MVDR波束形成结果
通过同样的方法对其他频带进行LSMI-MVDR波束形成。
将各帧下LSMI-MVDR波束形成后的各频带合成在一起进行逆离散傅里叶变换,通过IFFT进行,IFFT后的第m帧信号结果为
最后,需要将各帧信号进行合成输出,由于我们分帧时采取的帧移是512个点,即有512个点的重叠。因此,在将各帧信号进行重叠输出 时,也需要采取同样的方式。首先,第1帧信号不做改变,从第二帧信号开始,我们只取后512个点,而前512个点我去舍去,然后将后512个采样点叠加到上一帧的尾端。通过这种方式就完成了信号的合成。
经过LSMI-MVDR波束形成后的数据就可以作为声识别系统的输入进行特征提取以及分类学习识别的输入。图3展示了识别系统的特征提取、模型库建立和识别部分的流程示意图。在这里我们以LPCC特征提取和SVM分类学习算法为例来说明,其中,我们使用16阶LPCC系数,SVM的核函数我们选取径向基函数(Radial Basis Function,RBF),需要进行识别的声音类型有A1,A2,A3三种类型。
首先,我们将经过LSMI-MVDR波束形成后的声音进行分帧加窗。然后求得每帧信号的12阶线性预测系数(Linear Prediction Coefficients,LPC)值,其中LPC值可以采用Levinson-Durbin算法来求解。接下来通过LPCC值与LPC值的对应关系求得16阶的LPCC值。
所述的声指纹库建立方法如下:
对每帧信号提取出来的16阶LPCC值按行排列,然后在前面加入一列作为类标,标号‘0’代表A1,‘1’代表A2,‘2’代表A3。从而构成一个17阶的特征向量。
用现有的libsvm库来实现SVM算法,选取RBF作为分类器函数;RBF有两个参数:惩罚因子c以及参数gamma,可以通过libsvm的网格搜索函数opti_svm_coeff选取出最优数值。
训练过程使用libsvm库中的svmtrain函数,包含四个参数:特征向量,用上述提取出的有标号的LPCC值;核函数类型,选用RBF核函数;RBF核函数参数c和gamma,使用网格搜索法确定;调用svmtrain后会得到一个名为model的变量,这一变量保存了训练所得模型信息,即所述的声指纹库,将这一变量保存下来供下一步识别用。
而声音的识别是通过libsvm库中的svmtest来实现的,将每帧信号得到的LPCC值用libsvm的svmtest函数进行智能分类,svmtest有三个参数:第一个为类标,用来测试识别率用的(在对未知类型的声音进行识别时,该参数不具有实际意义);第二个为特征向量,即存储LPCC值的变量,第三个为匹配模型,就是上述步骤训练过程svmtrain函数的返回值。调用svmtest得到的返回值就是分类所得结果,即类标,从而能确定产生这一声音的设备类型。
在实际应用中时,将实际采集到的声信号先进行LSMI-MVDR波束形成算法进行滤波,然后提取特征与已建立的声指纹库进行比较,来做到识别。其具体流程图见图1。

Claims (4)

1.基于十字形声阵列宽带波束形成的声识别方法,其特征在于包括如下步骤:
步骤1、将十字形声阵列对准所需方向采集4通道声音信号;
步骤2、对采集到的4通道声音信号进行预处理,包括分帧、加窗;
步骤3、对预处理后的每一帧数据进行离散傅里叶变换,离散傅里叶变换后的4通道声音信号根据需要的频带进行频带提取;
步骤4、提取的各频带分别在所需方向上进行LSMI-MVDR波束形成;
步骤5、将波束形成后的频域信号进行逆离散傅里叶变换;
步骤6、对应分帧时的原则进行帧重叠合成,输出信号;
步骤7、对输出信号进行特征提取和分类学习、识别;
所述的步骤1:将十字形声阵列的其中一个通道对准声源方向,作为LSMI-MVDR宽带波束形成的方向,采集4通道声音信号,采样频率记为fs
所述的步骤2:预处理包括数据的分帧、加窗,对声音信号进行分帧,声音信号每帧选取1024个采样点,帧移为512个采样点;然后采用汉明窗对声音信号进行加窗;
所述的步骤3:通过FFT来实现信号的离散傅里叶变换,其中,每一帧信号经过FFT后频率分辨率为第p个通道的第m帧信号经过FFT后的结果为:
X p ( m ) ( k ) = Σ i = 0 L - 1 x p ( m ) ( i ) exp ( - j 2 π i k L ) , k = 0 , 1 , ... , L - 1
其中,L=1024为每一帧的长度,为第p个通道第m帧的信号,k为是各个频带的编号,其对应的中心频率为:
f k = f s L × k
然后,根据声音信号的频率特性,选取相应的频率带,比如信号所在的频率带为[f1,f2],则我们提取FFT后的k所在的区间为
2.根据权利要求1所述的基于十字形声阵列宽带波束形成的声识别方法,其特征在于所述的步骤4:设第k个频带的中心频率为fk,则对于十字形阵列,首先将十字形阵列建立在直角坐标系下,则十字形阵列接收到的第m帧信号在时域内表示为:
x ( m ) ( t ) = x 1 ( m ) ( t ) x 2 ( m ) ( t ) x 3 ( m ) ( t ) x 4 ( m ) ( t ) = a ( θ ) S ( t ) + n ( t ) = e - jωτ 1 ( θ ) e - jωτ 2 ( θ ) e - jωτ 3 ( θ ) e - jωτ 4 ( θ ) S ( t ) + n 1 ( t ) n 2 ( t ) n 3 ( t ) n 4 ( t ) - - - ( 1 )
其中,S(t)为声源信号,它的方位角为θ;为方向矢量;是噪声向量;ω为S(t)的中心角频率,τp(θ)(p=1,2,3,4)是第p个阵元相对于参考点即坐标原点的延时,对于十字形声阵列,其值为:
τ ( θ ) = τ 1 ( θ ) τ 2 ( θ ) τ 3 ( θ ) τ 4 ( θ ) = - r cos θ c - r sin θ c r cos θ c r sin θ c
c是声音在空气中的传播速度,r是十字形声阵列的半径;
将(1)式进行离散傅里叶变换得到在频域下表示方式为
X ( m ) ( k ) = X 1 ( m ) ( k ) X 2 ( m ) ( k ) X 3 ( m ) ( k ) X 4 ( m ) ( k ) = a ( θ , f k ) S ( k ) + n ( k ) = e - jωτ 1 ( θ ) e - jωτ 2 ( θ ) e - jωτ 3 ( θ ) e - jωτ 4 ( θ ) S ( k ) + n 1 ( k ) n 2 ( k ) n 3 ( k ) n 4 ( k )
其中,k=0,1,...,L-1;a(θ,fk)是中心频率为fk的第k个频带所对应的方向矢量,即
a ( θ , f k ) = e - j 2 πf k τ 1 ( θ ) e - j 2 πf k τ 2 ( θ ) e - j 2 πf k τ 3 ( θ ) e - j 2 πf k τ 4 ( θ )
对于MVDR波束形成原理,表述为在保证期望方向θde的信号功率不变的情况下,使得阵列输出的功率最小,即
min w w H R w , s . t . w H a ( θ d e , f k ) = 1
其中,R=E[X(k)XH(k)]是接收信号在频域下的自相关矩阵;在实际应用中,用估计值来替代R,估计值的计算如下:
R ^ = 1 N F Σ m = 1 N F X ( m ) ( k ) X ( m ) H ( k )
其中NF表示声音信号的帧数;
因此,MVDR波束形成的最佳权矢量wopt为:
w o p t = μ R ^ - 1 a ( θ d e , f k ) = R ^ - 1 a ( θ d e , f k ) a H ( θ d e , f k ) R ^ - 1 a ( θ d e , f k )
是一个比例系数;
为了提高MVDR波束形成的稳健性,我们使用基于对角加载的改进MVDR波束形成算法,其原理是在自相关矩阵的对角线上增加一个加载量,即
R ^ L S M I = R ^ + λ I
从而,改进的最佳权矢量wLSMI变为
w L S M I = μ ( R ^ + λ I ) - 1 α ( θ d e , f k )
波束形成后的第m帧频域信号Y(m)(k)为:
Y ( m ) ( k ) = w L S M I H X ( m ) ( k ) .
3.根据权利要求2所述的基于十字形声阵列宽带波束形成的声识别方法,其特征在于所述的步骤5:将第m帧频域信号Y(m)(k)通过逆离散傅里叶变换转换到时域,其中逆离散傅里叶变换通过IFFT来实现,其中第m帧时域信号y(m)(i)为:
y ( m ) ( i ) = 1 L Σ k = 0 L - 1 Y ( m ) ( k ) exp ( j 2 π i k L ) , i = 0 , ... , L - 1.
4.根据权利要求3所述的基于十字形声阵列宽带波束形成的声识别方法,其特征在于所述的步骤6:将经过逆离散傅里叶变换的各帧声音信号按照分帧时的原则进行重叠,然后再输出信号;其中:第一帧信号不变,后面每一帧信号去掉前面的512个点,只保留后512点,然后再添加到前一帧信号后面。
CN201610409905.3A 2016-06-12 2016-06-12 基于十字形声阵列宽带波束形成的声识别方法 Active CN106023996B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610409905.3A CN106023996B (zh) 2016-06-12 2016-06-12 基于十字形声阵列宽带波束形成的声识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610409905.3A CN106023996B (zh) 2016-06-12 2016-06-12 基于十字形声阵列宽带波束形成的声识别方法

Publications (2)

Publication Number Publication Date
CN106023996A true CN106023996A (zh) 2016-10-12
CN106023996B CN106023996B (zh) 2019-08-27

Family

ID=57091200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610409905.3A Active CN106023996B (zh) 2016-06-12 2016-06-12 基于十字形声阵列宽带波束形成的声识别方法

Country Status (1)

Country Link
CN (1) CN106023996B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106526541A (zh) * 2016-10-13 2017-03-22 杭州电子科技大学 基于分布矩阵决策的声音定位方法
CN107749305A (zh) * 2017-09-29 2018-03-02 百度在线网络技术(北京)有限公司 语音处理方法及其装置
CN108551625A (zh) * 2018-05-22 2018-09-18 出门问问信息科技有限公司 波束成形的方法、装置及电子设备
CN108831498A (zh) * 2018-05-22 2018-11-16 出门问问信息科技有限公司 多波束波束成形的方法、装置及电子设备
CN109599104A (zh) * 2018-11-20 2019-04-09 北京小米智能科技有限公司 多波束选取方法及装置
CN110133595A (zh) * 2018-02-09 2019-08-16 北京搜狗科技发展有限公司 一种声源测向方法、装置和用于声源测向的装置
WO2019223650A1 (zh) * 2018-05-22 2019-11-28 出门问问信息科技有限公司 一种波束成形方法、多波束成形方法、装置及电子设备
CN110530510A (zh) * 2019-09-24 2019-12-03 西北工业大学 一种利用线性声阵列波束形成的声源辐射声功率测量方法
CN111413649A (zh) * 2020-04-23 2020-07-14 中国科学技术大学 基于近场宽带波束形成的大型电抗器故障检测方法及系统
CN111693131A (zh) * 2019-03-14 2020-09-22 中国科学院上海光学精密机械研究所 一种基于分布式光纤声传感器的信号处理方法
CN112420068A (zh) * 2020-10-23 2021-02-26 四川长虹电器股份有限公司 一种基于Mel频率尺度分频的快速自适应波束形成方法
WO2022127819A1 (en) * 2020-12-15 2022-06-23 Qualcomm Incorporated Sequence processing for a dataset with frame dropping

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1697018A (zh) * 2005-06-07 2005-11-16 苏州海瑞电子科技有限公司 一种利用改进的谱相减法提高语音识别精度的方法
CN102664010B (zh) * 2012-05-04 2014-04-16 山东大学 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法
US20140278412A1 (en) * 2013-03-15 2014-09-18 Sri International Method and apparatus for audio characterization
CN105139852A (zh) * 2015-07-30 2015-12-09 浙江图维电力科技有限公司 一种基于改进的mfcc声音特征的工程机械识别方法及识别装置
CN105445723A (zh) * 2015-12-22 2016-03-30 中国船舶重工集团公司第七一五研究所 一种基于背景噪声频谱起伏特性的宽带阵列信号处理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1697018A (zh) * 2005-06-07 2005-11-16 苏州海瑞电子科技有限公司 一种利用改进的谱相减法提高语音识别精度的方法
CN102664010B (zh) * 2012-05-04 2014-04-16 山东大学 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法
US20140278412A1 (en) * 2013-03-15 2014-09-18 Sri International Method and apparatus for audio characterization
CN105139852A (zh) * 2015-07-30 2015-12-09 浙江图维电力科技有限公司 一种基于改进的mfcc声音特征的工程机械识别方法及识别装置
CN105445723A (zh) * 2015-12-22 2016-03-30 中国船舶重工集团公司第七一五研究所 一种基于背景噪声频谱起伏特性的宽带阵列信号处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
EMANUËL A. P. HABETS 等: "Multi-microphone noise reduction using interchannel and interframe correlations", 《2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING 》 *
赵拓等: "基于△MFCC和KNN的挖掘设备声音识别", 《工业控制计算机》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106526541B (zh) * 2016-10-13 2019-01-18 杭州电子科技大学 基于分布矩阵决策的声音定位方法
CN106526541A (zh) * 2016-10-13 2017-03-22 杭州电子科技大学 基于分布矩阵决策的声音定位方法
CN107749305B (zh) * 2017-09-29 2021-08-24 百度在线网络技术(北京)有限公司 语音处理方法及其装置
CN107749305A (zh) * 2017-09-29 2018-03-02 百度在线网络技术(北京)有限公司 语音处理方法及其装置
CN110133595A (zh) * 2018-02-09 2019-08-16 北京搜狗科技发展有限公司 一种声源测向方法、装置和用于声源测向的装置
CN108831498A (zh) * 2018-05-22 2018-11-16 出门问问信息科技有限公司 多波束波束成形的方法、装置及电子设备
WO2019223650A1 (zh) * 2018-05-22 2019-11-28 出门问问信息科技有限公司 一种波束成形方法、多波束成形方法、装置及电子设备
CN108551625A (zh) * 2018-05-22 2018-09-18 出门问问信息科技有限公司 波束成形的方法、装置及电子设备
CN109599104A (zh) * 2018-11-20 2019-04-09 北京小米智能科技有限公司 多波束选取方法及装置
CN109599104B (zh) * 2018-11-20 2022-04-01 北京小米智能科技有限公司 多波束选取方法及装置
CN111693131A (zh) * 2019-03-14 2020-09-22 中国科学院上海光学精密机械研究所 一种基于分布式光纤声传感器的信号处理方法
CN110530510A (zh) * 2019-09-24 2019-12-03 西北工业大学 一种利用线性声阵列波束形成的声源辐射声功率测量方法
CN111413649A (zh) * 2020-04-23 2020-07-14 中国科学技术大学 基于近场宽带波束形成的大型电抗器故障检测方法及系统
CN112420068A (zh) * 2020-10-23 2021-02-26 四川长虹电器股份有限公司 一种基于Mel频率尺度分频的快速自适应波束形成方法
CN112420068B (zh) * 2020-10-23 2022-05-03 四川长虹电器股份有限公司 一种基于Mel频率尺度分频的快速自适应波束形成方法
WO2022127819A1 (en) * 2020-12-15 2022-06-23 Qualcomm Incorporated Sequence processing for a dataset with frame dropping
WO2022126367A1 (en) * 2020-12-15 2022-06-23 Qualcomm Incorporated Sequence processing for a dataset with frame dropping

Also Published As

Publication number Publication date
CN106023996B (zh) 2019-08-27

Similar Documents

Publication Publication Date Title
CN106023996B (zh) 基于十字形声阵列宽带波束形成的声识别方法
US20040175006A1 (en) Microphone array, method and apparatus for forming constant directivity beams using the same, and method and apparatus for estimating acoustic source direction using the same
CN102968990B (zh) 说话人识别方法和系统
Skowronski et al. Acoustic detection and classification of microchiroptera using machine learning: lessons learned from automatic speech recognition
CN111239680B (zh) 一种基于差分阵列的波达方向估计方法
CN103854660B (zh) 一种基于独立成分分析的四麦克语音增强方法
CN111261189B (zh) 一种车辆声音信号特征提取方法
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN112735473B (zh) 基于声音识别无人机的方法及系统
CN112183225B (zh) 一种基于概率潜在语义分析的水下目标信号特征提取方法
CN105825857A (zh) 基于声纹识别帮助失聪患者判断声音类别的方法
CN112394324A (zh) 一种基于麦克风阵列的远距离声源定位的方法及系统
Al-Hattab et al. Rethinking environmental sound classification using convolutional neural networks: optimized parameter tuning of single feature extraction
CN107229044A (zh) 一种基于特征子空间方位稳定性的强弱目标检测方法
CN110838303B (zh) 一种利用传声器阵列的语音声源定位方法
CN108269566B (zh) 一种基于多尺度子带能量集特征的膛口波识别方法
CN111352075B (zh) 一种基于深度学习的水下多声源定位方法及系统
CN116910690A (zh) 一种基于数据融合的目标分类系统
CN111968671B (zh) 基于多维特征空间的低空声目标综合识别方法及装置
CN115456029A (zh) 基于1dcnn-tsa-gru的传送带滚筒故障识别方法和系统
CN106526541B (zh) 基于分布矩阵决策的声音定位方法
Bai et al. CIAIC-BAD system for DCASE2018 challenge task 3
CN115064182A (zh) 自适应梅尔滤波器在强噪声环境下风机故障特征识别方法
CN114420161A (zh) 一种基于音频特征的工程车辆工况识别方法
Tahliramani et al. Performance analysis of speaker identification system with and without spoofing attack of voice conversion

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant