CN109427328A - 一种基于滤波网络声学模型的多通道语音识别方法 - Google Patents
一种基于滤波网络声学模型的多通道语音识别方法 Download PDFInfo
- Publication number
- CN109427328A CN109427328A CN201710750635.7A CN201710750635A CN109427328A CN 109427328 A CN109427328 A CN 109427328A CN 201710750635 A CN201710750635 A CN 201710750635A CN 109427328 A CN109427328 A CN 109427328A
- Authority
- CN
- China
- Prior art keywords
- acoustic model
- network
- filter network
- feature
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 39
- 238000001914 filtration Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 230000001737 promoting effect Effects 0.000 claims description 3
- 238000010183 spectrum analysis Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 238000005457 optimization Methods 0.000 abstract description 4
- 238000007796 conventional method Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 9
- 238000000605 extraction Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 239000004568 cement Substances 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于滤波网络声学模型的多通道语音识别方法,所述方法包括:步骤1)对于给定的麦克风阵列,建立和训练基于滤波网络的声学模型;所述模型为一个滤波网络连接一个LSTM声学模型;步骤2)采集给定麦克风阵列中的每个单通道语音信号作为待识别语音信号;步骤3)对采集的每个单通道语音信号进行预处理;然后,提取每个单通道语音信号的log‑mel特征以及麦克风之间的交叉相关向量;将处理得到的特征输入训练好的基于滤波网络的声学模型,将输出的状态后验概率用于后续的语音识别过程,最终获得语音识别结果。本发明的方法将自适应滤波网络与声学模型联合优化,避免了传统方法中前后端分开优化导致的次优解。
Description
技术领域
本发明涉及语音识别领域,特别涉及一种基于滤波网络声学模型的多通道语音识别方法。
背景技术
近年来,基于深度神经网络(Deep Neural Network,DNN)的声学模型建模方法已经在语音识别领域取得了突出的成果。长短时记忆模型(Long Short Term Memory,LSTM)等复杂神经网络的提出进一步提升了声学模型的能力。然而,由于背景噪声,混响以及人声干扰等因素,远场语音识别任务仍然充满挑战。
与单麦克风采集语音信号相比,使用麦克风阵列可以改善远场语音识别系统的鲁棒性,因其能够提供空间上的区分度。传统的多通道语音识别系统一般采用两部分架构,首先,利用波束形成算法将多通道语音信号形成一个语音信号实现语音增强,然后,利用增强后的语音信号进行声学模型训练。前端波束形成算法的优化准则是信号级别的准则,后端声学模型的优化标准是识别的准确率。
由于前端的语音增强与后端的识别模块分开优化,整个系统未能针对最终目标(语音识别准确率)进行优化。因此,上述方法得到的模型为次优解,从而影响最终的识别准确率。
发明内容
本发明的目的在于克服已有的多通道语音识别方法中的前端和后端分开优化的缺陷,提出一种基于滤波网络声学模型的多通道语音识别方法,将自适应滤波网络与声学模型联合优化,避免了传统方法中前后端分开优化导致的次优解。
为了实现上述目的,本发明提出了一种基于滤波网络声学模型的多通道语音识别方法,所述方法包括:
步骤1)对于给定的麦克风阵列,建立和训练基于滤波网络的声学模型;所述模型为一个滤波网络连接一个LSTM声学模型;
步骤2)采集给定麦克风阵列中的每个单通道语音信号作为待识别语音信号;
步骤3)对采集的每个单通道语音信号进行预处理;然后,提取每个单通道语音信号的log-mel特征以及麦克风之间的交叉相关向量;将处理得到的特征输入训练好的基于滤波网络的声学模型,将输出的状态后验概率用于后续的语音识别过程,最终获得语音识别结果。
作为上述方法的一种改进,所述步骤1)具体包括:
步骤1-1)对于给定的麦克风阵列,建立基于滤波网络的声学模型;所述模型为一个自适应滤波网络连接一个LSTM声学模型;
步骤1-2)基于给定的麦克风阵列建立的训练集,对基于滤波网络的声学模型进行训练;模型的训练方式为模型参数利用训练目标函数做误差反向传播联合更新。
作为上述方法的一种改进,所述步骤1-2)具体包括:
步骤1-2-1)建立训练集,所述训练集包括若干个通过所述麦克风阵列采集的训练语音及其对应的标注;所述麦克风阵列包括M个麦克风;
步骤1-2-2)对每个训练语音的每个单通道语音信号进行预处理,然后,提取每个单通道语音信号的40维log-mel特征;
步骤1-2-3)将M个通道的40维log-mel特征并联得到特征向量,然后,对此特征向量做均值方差规整去除信道不同所带来的影响,使规整后的特征服从N(0,1)分布,得到规整的多通道log-mel特征xt;
步骤1-2-4)计算麦克风阵列中麦克风对之间的交叉相关向量,提取中心的21个相关系数;
步骤1-2-5)将交叉相关向量输入到自适应滤波网络,自适应滤波网络的输出值ft限制在0到1之间;
其网络表达式如下:
ht=Filter(gcct)
ft=sigmoid(Wfhht+bfh)
其中,Filter(.)是DNN或LSTM神经网络,gcct为t时刻的GCC特征,Wfh和bfh分别为自适应滤波网络的权重矩阵和偏置向量,sigmoid函数将网络输出限制在0和1之间,输出滤波系数ft;
步骤1-2-6)将步骤1-2-3)生成的log-mel特征向量xt与步骤1-2-5)得到的滤波系数向量ft逐元素相乘,得到滤波后的向量此操作表达式为:
其中,⊙代表两向量之间的逐元素相乘;
步骤1-2-7)将步骤1-2-6)生成的滤波特征做上下文扩展,插入上下文信息;
步骤1-2-8)将扩展后的特征输入LSTM声学模型,LSTM的输出为预测的声学状态后验概率;
步骤1-2-9)利用帧级别的状态标注结果和交叉熵目标函数,通过误差反向回传算法对基于滤波网络的声学模型做参数迭代更新,迭代更新完毕得到训练好的基于滤波网络的声学模型。
作为上述方法的一种改进,所述步骤1-2-2)的预处理过程为:首先对语音信号做预加重处理,预加重用于提升高频部分,使频谱更为平坦,以便于进行频谱分析;然后对语音信号分帧,每帧取25ms采样点,将单帧数字信号补零到512点;最后,对每帧信号加窗,加窗函数采用汉明窗;
作为上述方法的一种改进,所述步骤1-2-4)中计算麦克风阵列中麦克风对之间的交叉相关向量的过程为:
M个麦克风之间存在组麦克风对,两通道离散信号xi(n)和xj(n)之间交叉相关向量计算公式如下:
其中,IFFT为逆傅里叶变换,Xi(f)和Xj(f)为离散信号xi(n)和xj(n)的傅里叶变换,*表示取复数共轭。
本发明的优点在于:
1、本发明的方法将自适应滤波网络与声学模型联合优化,避免了传统方法中前后端分开优化导致的次优解;
2、本发明通过神经网络结构有效的利用麦克风阵列提供的空间区分度信息,改善了多通道语音识别系统的鲁棒性。
附图说明
图1是本发明所提出的应用于多通道语音识别任务中的基于自适应滤波网络的声学模型的示意图;
图2是本发明中使用的特征提取流程图。
具体实施方式
现结合附图和具体实施例对本发明做进一步的描述。
一种基于滤波网络声学模型的多通道语音识别方法,所述方法包括:
步骤1)对于给定的麦克风阵列,建立和训练基于滤波网络的多通道声学模型;具体包括:
步骤1-1)对于给定的麦克风阵列,建立基于滤波网络的多通道声学模型;所述模型为一个滤波网络连接一个LSTM声学模型;
如图1所示,自适应滤波网络的多通道声学模型的结构图。图中的自适应滤波网络为深度神经网络或LSTM神经网络模型。整个框架利用麦克风信道间的广义交叉相关向量(Generalized Cross Correlation,GCC)通过自适应滤波网络预测语音信号在log-mel域的时变滤波系数。使用估计的滤波系数对多通道语音信号的log-mel特征做滤波。得到的滤波后的特征作为传统神经网络声学模型的输入。
步骤1-2)基于给定的麦克风阵列建立的训练集,对基于滤波网络的声学模型进行训练;
模型的训练方式为自适应滤波网络与LSTM(Long-short-Term-Memory,长短时记忆)声学模型参数利用训练目标函数做误差反向传播联合更新。因此,整个结构的优化目标为语音识别准确率。
已知麦克风阵列(包括M个麦克风,即M个语音通道)的两个通道i和j的离散信号为xi(n)和xj(n),GCC的计算公式可以表示为如下:
其中,Xi(f)和Xj(f)为离散信号xi(n)和xj(n)的傅里叶变换,*表示取复数共轭,IFFT为逆傅里叶变换。GCC表示两信道间的相关性,自变量n在两信道间的延时点处取到最大值。它包含麦克风信道间接收信号的时延信息,而信道间的时延是一种对空间信息的编码表示。因此,通常使用GCC对说话人定位。本发明的方法通过GCC向量将空间信息加入到神经网络声学建模中,利用空间信息直接对语音信号的特征做滤波。一般在声学建模中,log-mel特征的提取采用25ms帧长和10ms帧移。为了匹配特征提取的时间尺度,GCC的提取采用同样的参数。GCC维度的选取与麦克风数目,语音采样率,以及阵列中两麦克风间的最大距离有关。
为了处理一句话中说话位置人变化的问题,模型采用自适应滤波网络,即每帧预测的滤波系数随着GCC向量的变化而变化。自适应滤波网络可描述为如下公式:
ht=Filter(gcct)
ft=sigmoid(Wfhht+bfh)
其中,Filter(.)表示前向DNN或LSTM神经网络,gcct为t时刻的GCC特征,Wfh和bfh分别为可训练自适应滤波网络的权重矩阵和偏置向量,⊙代表两向量之间的逐元素相乘操作。sigmoid函数将输出的滤波系数限制在0和1之间。xt为均值方差规整后的log-mel特征,由多通道语音信号提取的特征并联构成。例如,对8个麦克风组成的阵列中的每个单通道信号提取40维的log-mel特征,特征xt为320维的log-mel特征。滤波后的特征经过上下文扩展之后输入到LSTM声学模型,模型的输出即为预测的声学状态后验概率。自适应滤波网络和声学模型的参数可通过交叉熵(Cross Entropy,CE)准则或鉴别性序列级准则优化。
所述步骤1-2)具体包括:
步骤1-2-1)建立训练集,所述训练集包括若干个通过所述麦克风阵列采集的训练语音及其对应的标注;
所述麦克风阵列为8个麦克风10厘米半径均匀的圆形麦克风阵列和16khz的麦克风采样频率。
步骤1-2-2)对每个训练语音的每个单通道语音信号进行预处理,然后,提取每个单通道语音信号的40维log-mel特征;具体流程如图2所示;
所述对语音信号的预处理包括:首先,对语音信号预加重处理,预加重用于提升高频部分,使频谱更为平坦,以便于进行频谱分析;然后,对语音信号分帧,每帧取25ms采样点,将单帧数字信号补零到512点;最后,为抑制吉布斯效应对每帧信号加窗,加窗函数采用汉明窗(hamming)。
预处理操作之后,对每帧语音信号进行快速傅里叶变换,得到其离散频谱;然后,使用40组Mel刻度滤波器对离散频谱做滤波,滤波后的输出为40维Mel域频谱;最后,对Mel域频谱取log对数压缩其动态范围,输出结果即为40维log-mel特征。
步骤1-2-3)将8个通道的40维log-mel特征并联,得到320维的特征向量,然后,对此特征向量做均值方差规整去除信道不同所带来的影响,使规整后的特征服从N(0,1)分布,得到规整的多通道log-mel特征xt;
步骤1-2-4)计算麦克风阵列中麦克风对之间的交叉相关向量,提取中心的21个相关系数;
阵列中麦克风对的数目为任意两麦克风间的最大时延为τ=0.2m/340m/s=0.588ms,在16khz的采样率时,它对应着10个采样点的延迟。因此,每对麦克风的中心21个相关系数足够用来预测滤波系数。
8个麦克风之间存在组麦克风对,因此,输入的GCC特征的维度是28*21=588。两通道离散信号xi(n)和xj(n)之间GCC向量计算公式如下:
其中,Xi(f)和Xj(f)为信号的傅里叶变换,*表示取复数共轭。
步骤1-2-5)将588维GCC向量输入到自适应滤波网络,自适应滤波网络的输出值ft限制在0到1之间;
其网络表达式如下:
ht=Filter(gcct)
ft=sigmoid(Wfhht+bfh)
其中,Filter(.)是DNN或LSTM神经网络,gcct为t时刻的GCC特征,Wfh和bfh分别为自适应滤波网络的权重矩阵和偏置向量,sigmoid函数将网络输出限制在0和1之间,输出为320维的滤波系数ft。
步骤1-2-6)将步骤1-2-3)生成的320维多通道log-mel特征向量xt与步骤1-2-5)得到的320维滤波系数向量ft逐元素相乘,得到滤波后的向量此操作表达式为
其中,⊙代表两向量之间的逐元素相乘;
步骤1-2-7)将步骤1-2-6)生成的320维滤波特征做上下文扩展,插入上下文信息,扩展帧数为5帧,左右各取2帧;
步骤1-2-8)扩展后的1600维特征输入LSTM声学模型,LSTM的输出为预测的声学状态后验概率;
步骤1-2-9)利用帧级别的状态标注结果和交叉熵目标函数,通过误差反向回传算法对基于滤波网络的声学模型做参数迭代更新,迭代更新完毕得到训练好的基于滤波网络的声学模型;
步骤2)采集给定麦克风阵列中的每个单通道语音信号作为待识别语音信号;
步骤3)对采集的每个单通道语音信号进行预处理。然后,提取每个单通道语音信号的40维log-mel特征以及麦克风之间的交叉相关向量;将按照步骤1-2-3)得到特征输入训练好的基于滤波网络的声学模型,将输出的状态后验概率用于后续的语音识别过程,最终获得语音识别结果。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (5)
1.一种基于滤波网络声学模型的多通道语音识别方法,所述方法包括:
步骤1)对于给定的麦克风阵列,建立和训练基于滤波网络的声学模型;所述模型为一个滤波网络连接一个LSTM声学模型;
步骤2)采集给定麦克风阵列中的每个单通道语音信号作为待识别语音信号;
步骤3)对采集的每个单通道语音信号进行预处理;然后,提取每个单通道语音信号的log-mel特征以及麦克风之间的交叉相关向量;将处理得到的特征输入训练好的基于滤波网络的声学模型,将输出的状态后验概率用于后续的语音识别过程,最终获得语音识别结果。
2.根据权利要求1所述的基于滤波网络声学模型的多通道语音识别方法,其特征在于,所述步骤1)具体包括:
步骤1-1)对于给定的麦克风阵列,建立基于滤波网络的声学模型;所述模型为一个自适应滤波网络连接一个LSTM声学模型;
步骤1-2)基于给定的麦克风阵列建立的训练集,对基于滤波网络的声学模型进行训练;模型的训练方式为模型参数利用训练目标函数做误差反向传播联合更新。
3.根据权利要求2所述的基于滤波网络声学模型的多通道语音识别方法,其特征在于,所述步骤1-2)具体包括:
步骤1-2-1)建立训练集,所述训练集包括若干个通过所述麦克风阵列采集的训练语音及其对应的标注;所述麦克风阵列包括M个麦克风;
步骤1-2-2)对每个训练语音的每个单通道语音信号进行预处理,然后,提取每个单通道语音信号的40维log-mel特征;
步骤1-2-3)将M个通道的40维log-mel特征并联得到特征向量,然后,对此特征向量做均值方差规整去除信道不同所带来的影响,使规整后的特征服从N(0,1)分布,得到规整的多通道log-mel特征xt;
步骤1-2-4)计算麦克风阵列中麦克风对之间的交叉相关向量,提取中心的21个相关系数;
步骤1-2-5)将交叉相关向量输入到自适应滤波网络,自适应滤波网络的输出值ft限制在0到1之间;
其网络表达式如下:
ht=Filter(gcct)
ft=sigmoid(Wfhht+bfh)
其中,Filter(.)是DNN或LSTM神经网络,gcct为t时刻的GCC特征,Wfh和bfh分别为自适应滤波网络的权重矩阵和偏置向量,sigmoid函数将网络输出限制在0和1之间,输出滤波系数ft;
步骤1-2-6)将步骤1-2-3)生成的log-mel特征向量xt与步骤1-2-5)得到的滤波系数向量ft逐元素相乘,得到滤波后的向量此操作表达式为:
其中,⊙代表两向量之间的逐元素相乘;
步骤1-2-7)将步骤1-2-6)生成的滤波特征做上下文扩展,插入上下文信息;
步骤1-2-8)将扩展后的特征输入LSTM声学模型,LSTM的输出为预测的声学状态后验概率;
步骤1-2-9)利用帧级别的状态标注结果和交叉熵目标函数,通过误差反向回传算法对基于滤波网络的声学模型做参数迭代更新,迭代更新完毕得到训练好的基于滤波网络的声学模型。
4.根据权利要求3所述的基于滤波网络声学模型的多通道语音识别方法,其特征在于,所述步骤1-2-2)的预处理过程为:首先对语音信号做预加重处理,预加重用于提升高频部分,使频谱更为平坦,以便于进行频谱分析;然后对语音信号分帧,每帧取25ms采样点,将单帧数字信号补零到512点;最后,对每帧信号加窗,加窗函数采用汉明窗。
5.根据权利要求4所述的基于滤波网络声学模型的多通道语音识别方法,其特征在于,所述步骤1-2-4)中计算麦克风阵列中麦克风对之间的交叉相关向量的过程为:
M个麦克风之间存在组麦克风对,两通道离散信号xi(n)和xj(n)之间交叉相关向量计算公式如下:
其中,IFFT为逆傅里叶变换,Xi(f)和Xj(f)为离散信号xi(n)和xj(n)的傅里叶变换,*表示取复数共轭。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710750635.7A CN109427328B (zh) | 2017-08-28 | 2017-08-28 | 一种基于滤波网络声学模型的多通道语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710750635.7A CN109427328B (zh) | 2017-08-28 | 2017-08-28 | 一种基于滤波网络声学模型的多通道语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109427328A true CN109427328A (zh) | 2019-03-05 |
CN109427328B CN109427328B (zh) | 2023-04-28 |
Family
ID=65501729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710750635.7A Active CN109427328B (zh) | 2017-08-28 | 2017-08-28 | 一种基于滤波网络声学模型的多通道语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109427328B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047478A (zh) * | 2018-01-16 | 2019-07-23 | 中国科学院声学研究所 | 基于空间特征补偿的多通道语音识别声学建模方法及装置 |
CN111916101A (zh) * | 2020-08-06 | 2020-11-10 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 |
CN112270506A (zh) * | 2020-11-20 | 2021-01-26 | 浙江大学 | 一种基于设备超限脆弱性的超限信息获取方法 |
CN112669881A (zh) * | 2020-12-25 | 2021-04-16 | 北京融讯科创技术有限公司 | 一种语音检测方法、装置、终端及存储介质 |
CN113111765A (zh) * | 2021-04-08 | 2021-07-13 | 浙江大学 | 一种基于深度学习的多语音源计数和定位方法 |
CN113270097A (zh) * | 2021-05-18 | 2021-08-17 | 成都傅立叶电子科技有限公司 | 无人机械控制方法、电台语音指令转换方法及装置 |
CN113744732A (zh) * | 2020-05-28 | 2021-12-03 | 阿里巴巴集团控股有限公司 | 设备唤醒相关方法、装置及故事机 |
CN113808581A (zh) * | 2021-08-17 | 2021-12-17 | 山东大学 | 一种声学和语言模型训练及联合优化的中文语音识别方法 |
TWI759591B (zh) * | 2019-04-01 | 2022-04-01 | 威聯通科技股份有限公司 | 語音增強方法及系統 |
WO2023056920A1 (en) * | 2021-10-05 | 2023-04-13 | Huawei Technologies Co., Ltd. | Multilayer perceptron neural network for speech processing |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1647158A (zh) * | 2002-04-10 | 2005-07-27 | 皇家飞利浦电子股份有限公司 | 立体声信号编码 |
WO2011004503A1 (ja) * | 2009-07-08 | 2011-01-13 | 株式会社日立製作所 | 雑音除去装置及び雑音除去方法 |
US20150058018A1 (en) * | 2013-08-23 | 2015-02-26 | Nuance Communications, Inc. | Multiple pass automatic speech recognition methods and apparatus |
US8983844B1 (en) * | 2012-07-31 | 2015-03-17 | Amazon Technologies, Inc. | Transmission of noise parameters for improving automatic speech recognition |
CN105845127A (zh) * | 2015-01-13 | 2016-08-10 | 阿里巴巴集团控股有限公司 | 语音识别方法及其系统 |
US20160322055A1 (en) * | 2015-03-27 | 2016-11-03 | Google Inc. | Processing multi-channel audio waveforms |
CN106157953A (zh) * | 2015-04-16 | 2016-11-23 | 科大讯飞股份有限公司 | 连续语音识别方法及系统 |
-
2017
- 2017-08-28 CN CN201710750635.7A patent/CN109427328B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1647158A (zh) * | 2002-04-10 | 2005-07-27 | 皇家飞利浦电子股份有限公司 | 立体声信号编码 |
WO2011004503A1 (ja) * | 2009-07-08 | 2011-01-13 | 株式会社日立製作所 | 雑音除去装置及び雑音除去方法 |
US8983844B1 (en) * | 2012-07-31 | 2015-03-17 | Amazon Technologies, Inc. | Transmission of noise parameters for improving automatic speech recognition |
US20150058018A1 (en) * | 2013-08-23 | 2015-02-26 | Nuance Communications, Inc. | Multiple pass automatic speech recognition methods and apparatus |
CN105845127A (zh) * | 2015-01-13 | 2016-08-10 | 阿里巴巴集团控股有限公司 | 语音识别方法及其系统 |
US20160322055A1 (en) * | 2015-03-27 | 2016-11-03 | Google Inc. | Processing multi-channel audio waveforms |
CN106157953A (zh) * | 2015-04-16 | 2016-11-23 | 科大讯飞股份有限公司 | 连续语音识别方法及系统 |
Non-Patent Citations (4)
Title |
---|
左玲云 等: "电话交谈语音识别中基于LSTM-DNN语言模型的重评估方法研究", 《重庆邮电大学学报(自然科学版)》 * |
戴礼荣等: "基于深度学习的语音识别技术现状与展望", 《数据采集与处理》 * |
柯登峰等: "互联网时代语音识别基本问题", 《中国科学:信息科学》 * |
罗金玉等: "麦克风阵列信号处理的研究现状与应用", 《现代电子技术》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047478A (zh) * | 2018-01-16 | 2019-07-23 | 中国科学院声学研究所 | 基于空间特征补偿的多通道语音识别声学建模方法及装置 |
CN110047478B (zh) * | 2018-01-16 | 2021-06-08 | 中国科学院声学研究所 | 基于空间特征补偿的多通道语音识别声学建模方法及装置 |
US11482235B2 (en) | 2019-04-01 | 2022-10-25 | Qnap Systems, Inc. | Speech enhancement method and system |
TWI759591B (zh) * | 2019-04-01 | 2022-04-01 | 威聯通科技股份有限公司 | 語音增強方法及系統 |
CN113744732A (zh) * | 2020-05-28 | 2021-12-03 | 阿里巴巴集团控股有限公司 | 设备唤醒相关方法、装置及故事机 |
CN111916101A (zh) * | 2020-08-06 | 2020-11-10 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 |
CN111916101B (zh) * | 2020-08-06 | 2022-01-21 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 |
CN112270506B (zh) * | 2020-11-20 | 2022-08-26 | 浙江大学 | 一种基于设备超限脆弱性的超限信息获取方法 |
CN112270506A (zh) * | 2020-11-20 | 2021-01-26 | 浙江大学 | 一种基于设备超限脆弱性的超限信息获取方法 |
CN112669881A (zh) * | 2020-12-25 | 2021-04-16 | 北京融讯科创技术有限公司 | 一种语音检测方法、装置、终端及存储介质 |
CN113111765A (zh) * | 2021-04-08 | 2021-07-13 | 浙江大学 | 一种基于深度学习的多语音源计数和定位方法 |
CN113270097A (zh) * | 2021-05-18 | 2021-08-17 | 成都傅立叶电子科技有限公司 | 无人机械控制方法、电台语音指令转换方法及装置 |
CN113270097B (zh) * | 2021-05-18 | 2022-05-17 | 成都傅立叶电子科技有限公司 | 无人机械控制方法、电台语音指令转换方法及装置 |
CN113808581A (zh) * | 2021-08-17 | 2021-12-17 | 山东大学 | 一种声学和语言模型训练及联合优化的中文语音识别方法 |
CN113808581B (zh) * | 2021-08-17 | 2024-03-12 | 山东大学 | 一种声学和语言模型训练及联合优化的中文语音识别方法 |
WO2023056920A1 (en) * | 2021-10-05 | 2023-04-13 | Huawei Technologies Co., Ltd. | Multilayer perceptron neural network for speech processing |
Also Published As
Publication number | Publication date |
---|---|
CN109427328B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109427328A (zh) | 一种基于滤波网络声学模型的多通道语音识别方法 | |
Hoshen et al. | Speech acoustic modeling from raw multichannel waveforms | |
Ishii et al. | Reverberant speech recognition based on denoising autoencoder. | |
Gao et al. | Joint training of front-end and back-end deep neural networks for robust speech recognition | |
US9336777B2 (en) | Speech processing device, speech processing method, and speech processing program | |
Prasad et al. | Improved cepstral mean and variance normalization using Bayesian framework | |
US20160189730A1 (en) | Speech separation method and system | |
CN110047478B (zh) | 基于空间特征补偿的多通道语音识别声学建模方法及装置 | |
CN106782565A (zh) | 一种声纹特征识别方法及系统 | |
CN109887489B (zh) | 基于生成对抗网络的深度特征的语音去混响方法 | |
CN112331216A (zh) | 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 | |
CN109192213A (zh) | 庭审语音实时转写方法、装置、计算机设备及存储介质 | |
CN111341319B (zh) | 一种基于局部纹理特征的音频场景识别方法及系统 | |
CN112331218B (zh) | 一种针对多说话人的单通道语音分离方法和装置 | |
CN111899757A (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN111128229A (zh) | 语音分类方法、装置及计算机存储介质 | |
Walter et al. | Source counting in speech mixtures by nonparametric Bayesian estimation of an infinite Gaussian mixture model | |
Lv et al. | A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation | |
Sainath et al. | Reducing the Computational Complexity of Multimicrophone Acoustic Models with Integrated Feature Extraction. | |
Li et al. | The PCG-AIID system for L3DAS22 challenge: MIMO and MISO convolutional recurrent network for multi channel speech enhancement and speech recognition | |
CN112180318B (zh) | 声源波达方向估计模型训练和声源波达方向估计方法 | |
CN112201276B (zh) | 基于TC-ResNet网络的麦克风阵列语音分离方法 | |
CN112037813B (zh) | 一种针对大功率目标信号的语音提取方法 | |
JP6910609B2 (ja) | 信号解析装置、方法、及びプログラム | |
KR101593672B1 (ko) | 음향 분리 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |