CN110047478A - 基于空间特征补偿的多通道语音识别声学建模方法及装置 - Google Patents
基于空间特征补偿的多通道语音识别声学建模方法及装置 Download PDFInfo
- Publication number
- CN110047478A CN110047478A CN201810040168.3A CN201810040168A CN110047478A CN 110047478 A CN110047478 A CN 110047478A CN 201810040168 A CN201810040168 A CN 201810040168A CN 110047478 A CN110047478 A CN 110047478A
- Authority
- CN
- China
- Prior art keywords
- acoustic
- microphone array
- feature
- model
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000001228 spectrum Methods 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 17
- 238000009432 framing Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 241000209140 Triticum Species 0.000 claims description 5
- 235000021307 Triticum Nutrition 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 208000035126 Facies Diseases 0.000 claims 1
- 238000007796 conventional method Methods 0.000 abstract description 3
- 230000006872 improvement Effects 0.000 description 13
- 238000005457 optimization Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 239000004568 cement Substances 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
本发明涉及一种基于空间特征补偿的多通道语音识别声学建模方法及装置,所提出的模型基于传统的混合声学建模框架,即神经网络声学模型预测隐马尔科夫模型状态后验概率,该方法包括:提取麦克风阵列中的每个单通道录制的语音信号的声学特征和麦克风阵列中空间信息特征;将所述声学特征和所述空间信息特征,输入神经网络声学模型训练;所述神经网络声学模型输出预测的声学状态后验概率,使用声学模型优化准则对所述神经网络参数做迭代更新,生成基于空间特征补偿的多通道语音识别声学模型。该方法避免了传统方法中前后端分开优化导致的次优解;使神经网络声学模型有效的利用麦克风阵列提供的空间信息,提升了对多通道语音信号的声学建模能力。
Description
技术领域
本发明涉及语音识别领域,特别涉及一种基于空间特征补偿的多通道语音识别声学建模方法及装置。
背景技术
近年来,基于深度神经网络(Deep Neural Network,DNN)的声学建模方法已经在语音识别领域取得了突破性的成果。长短时记忆模型(Long Short-Term Memory,LSTM)等复杂神经网络的提出进一步提升了声学建模能力。然而,由于背景噪声,混响以及人声干扰等因素,远场语音识别任务仍然充满挑战。
与单麦克风采集语音信号相比,多麦克风录制的数据可以提供额外的空间信息。因此,通常采用麦克风阵列提升对远场语音信号的识别准确率。传统的多通道语音识别系统一般采用两部分架构,首先,利用波束形成算法实现语音增强,然后,利用增强后的语音信号进行声学模型训练。前端波束形成算法的优化准则是信号级别的准则,后端声学模型的优化标准是识别的准确率。由于前端的语音增强与后端的识别模块分开优化,整个系统未能针对最终目标(语音识别准确率)进行优化。虽然,研究表明DNN可以通过直接使用多通道输出并联做为网络输入建模声学状态后验概率,但此方法仍然没有充分利用麦克风阵列引入的空间信息,即说话人的位置信息。
发明内容
本发明的目的在于,克服已有的多通道语音识别方法中的前端和后端分开优化的缺陷,提出一种基于空间特征补偿的多通道声学建模方法及装置。
为了解决上述技术问题,第一方面,本发明实施例提供一种基于空间特征补偿的多通道声学建模方法,包括:
提取麦克风阵列中的每个单通道录制的语音信号的声学特征和麦克风阵列中空间信息特征;
将所述声学特征和所述空间信息特征,输入神经网络声学模型训练;
所述神经网络声学模型输出预测的声学状态后验概率,使用声学模型优化准则对所述神经网络参数做迭代更新,生成基于空间特征补偿的多通道语音识别声学模型。
作为上述方法的一种改进,提取麦克风阵列中的每个单通道录制的语音信号的声学特征,包括:
对麦克风阵列中的每个单通道录制的语音信号进行预处理,根据所述麦克风阵列中麦克风相关参数提取预设维声学特征;
将所述麦克风阵列中各个通道提取的预设维声学特征并联,计算获得规整的多通道预设维声学特征,并做上下文扩展,得到扩展后的多维度声学特征。
作为上述方法的再一种改进,对麦克风阵列中的每个单通道录制的语音信号进行预处理,包括;
对麦克风阵列中的每个单通道录制的语音信号预加重处理和分帧,对分帧后的每帧语音信号加窗,加窗函数采用汉明窗。
作为上述方法的还一种改进,据所述麦克风阵列中麦克风相关参数提取预设维声学特征,包括:
对每帧语音信号进行快速傅里叶变换,得到离散频谱;
使用Mel滤波器对所述离散频谱做滤波,滤波后的输出为预设维Mel域频谱;
对所述预设维Mel域频谱取log对数,输出结果为预设维log-mel特征。
作为上述方法的进一步改进,提取麦克风阵列中空间信息特征,包括:
计算麦克风阵列中麦克风对之间的交叉相关GCC向量,根据所述GCC向量,得到麦克风阵列中空间信息特征;
计算两通道信号xi(n)和xj(n)之间GCC向量公式如下:
其中,Xi(f)和Xj(f)为信号的傅里叶变换,*表示取复数共轭。
第二方面,本发明还提供一种基于空间特征补偿的多通道语音识别声学建模装置,包括:
第一提取模块,用于提取麦克风阵列中的每个单通道录制的语音信号的声学特征;
第二提取模块,用于提取麦克风阵列中空间信息特征;
输入模块,用于将所述声学特征和所述空间信息特征,输入神经网络声学模型训练;
生成模块,用于所述神经网络声学模型输出预测的声学状态后验概率,使用声学模型优化准则对所述神经网络参数做迭代更新,生成基于空间特征补偿的多通道语音识别声学模型。
作为上述装置的一种改进,所述第一提取模块,包括:
预处理子模块,用于对麦克风阵列中的每个单通道录制的语音信号进行预处理;
提取子模块,用于根据所述麦克风阵列中麦克风相关参数提取预设维声学特征;
扩展模块,用于将所述麦克风阵列中各个通道提取的预设维声学特征并联,计算获得规整的多通道预设维声学特征,并做上下文扩展,得到扩展后的多维度声学特征。
作为上述装置的再一种改进,所述预处理模块,具体用于对麦克风阵列中的每个单通道录制的语音信号预加重处理和分帧,对分帧后的每帧语音信号加窗,加窗函数采用汉明窗。
作为上述装置的还一种改进,所述提取子模块,具体用于对每帧语音信号进行快速傅里叶变换,得到离散频谱;使用Mel滤波器对所述离散频谱做滤波,滤波后的输出为预设维Mel域频谱;对所述预设维Mel域频谱取log对数,输出结果为预设维log-mel特征。
作为上述装置的进一步改进,所述第二提取模块,具体用于计算麦克风阵列中麦克风对之间的交叉相关GCC向量,根据所述GCC向量,得到麦克风阵列中空间信息特征;
计算两通道信号xi(n)和xj(n)之间GCC向量公式如下:
其中,Xi(f)和Xj(f)为信号的傅里叶变换,*表示取复数共轭。
本发明的优点在于,本发明的一种基于空间特征补偿的多通道语音识别声学建模方法,所提出的模型基于传统的混合声学建模框架,即神经网络声学模型预测隐马尔科夫模型(hidden Markov model,HMM)状态后验概率,该方法包括:提取麦克风阵列中的每个单通道录制的语音信号的声学特征和麦克风阵列中空间信息特征;将所述声学特征和所述空间信息特征,输入神经网络声学模型训练;所述神经网络声学模型输出预测的声学状态后验概率,使用声学模型优化准则对上述神经网络参数做迭代更新,生成基于空间特征补偿的多通道语音识别声学模型。该方法避免了传统方法中前后端分开优化导致的次优解;使神经网络声学模型有效的利用麦克风阵列提供的空间信息,提升了对多通道语音信号的声学建模能力。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明实施例提供的基于空间特征补偿的多通道语音识别声学建模方法的流程图;
图2为本发明实施例提供的步骤S101中提取声学特征的流程图;
图3为本发明实施例提供的步骤S201中提取预设维声学特征的流程图;
图4为本发明实施例提供的基于空间特征补偿的声学模型示意图;
图5为本发明实施例提供的基于空间特征补偿的多通道语音识别声学建模装置的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种基于空间特征补偿的多通道语音识别声学建模方法,参照图1所示,包括:
S101、提取麦克风阵列中的每个单通道录制的语音信号的声学特征和麦克风阵列中空间信息特征;
S102、将所述声学特征和所述空间信息特征,输入神经网络声学模型训练;
S103、所述神经网络声学模型输出预测的声学状态后验概率,使用声学模型优化准则对所述神经网络参数做迭代更新,生成基于空间特征补偿的多通道语音识别声学模型。
本发明的一种基于空间特征补偿的多通道语音识别声学建模方法,所提出的模型基于传统的混合声学建模框架,即神经网络声学模型预测隐马尔科夫模型(hidden Markovmodel,HMM)状态后验概率,该方法避免了传统方法中前后端分开优化导致的次优解;使神经网络声学模型有效的利用麦克风阵列提供的空间信息,提升了对多通道语音信号的声学建模能力。
下面分别对上述步骤进行详细的说明。
作为上述方法的一种改进,步骤S101中提取麦克风阵列中的每个单通道录制的语音信号的声学特征,参照图2所示,包括:
S201、对麦克风阵列中的每个单通道录制的语音信号进行预处理,根据所述麦克风阵列中麦克风相关参数提取预设维声学特征;
S202、将所述麦克风阵列中各个通道提取的预设维声学特征并联,计算获得规整的多通道预设维声学特征,并做上下文扩展,得到扩展后的多维度声学特征。
上述步骤S201中,对麦克风阵列中的每个单通道录制的语音信号进行预处理,具体包括:对麦克风阵列中的每个单通道录制的语音信号预加重处理和分帧,对分帧后的每帧语音信号加窗,加窗函数采用汉明窗。
步骤S201中根据所述麦克风阵列中麦克风相关参数提取预设维声学特征,参照图3所示,具体包括:
S301、对每帧语音信号进行快速傅里叶变换,得到离散频谱;
S302、使用Mel滤波器对所述离散频谱做滤波,滤波后的输出为预设维Mel域频谱;
S303、对所述预设维Mel域频谱取log对数,输出结果为预设维log-mel特征。
步骤S101中,提取麦克风阵列中空间信息特征,包括:
计算麦克风阵列中麦克风对之间的交叉相关GCC向量,根据所述GCC向量,得到麦克风阵列中空间信息特征;
计算两通道信号xi(n)和xj(n)之间GCC向量公式如下:
其中,Xi(f)和Xj(f)为信号的傅里叶变换,*表示取复数共轭。
参照图4所示,为基于空间特征补偿的声学模型示意图。图中的声学建模采用DNN模型。麦克风信道间的广义交叉相关(Generalized Cross Correlation,GCC)向量作为空间信息的特征补偿输入到神经网络。
GCC一般用于确定两个空间分离麦克风之间接收声波的到达时延,多个麦克风对间的到达时延可以用来参数化声源位置。
本实施例中,由于说话人到每个麦克风的距离不同,语音信号到达不同麦克风时会有时延差,因而Xi(f)与Xj(f)之间存在相位差。经过傅里叶逆变换得到的GCC在变量n为两信道间的延时处取得最大值。它包含麦克风信道间接收信号的时延信息,是一种对说话人位置信息编码的表达。
因此,本发明中使用GCC做为空间信息的特征补偿输入神经网络声学模型。在模型的训练和测试阶段,麦克风阵列录制的语音信号提取的声学特征与相应的GCC特征并联输入神经网络。GCC的输入有益于神经网络更有效的利用来自不同信道的声学特征。模型的训练方式为利用训练目标函数做误差反向传播更新。因此,整个过程的优化目标为语音识别准确率。
本发明通过GCC向量将空间信息加入到神经网络声学建模中,利用加入的空间特征提升对多通道语音信号的建模能力。语音信号的特征提取一般采用25ms窗长和10ms帧移。为了匹配每句话提取的特征帧数,GCC的提取同样采用10ms帧移。另一方面,为权衡相关性计算的准确度与分辨率,GCC的提取窗长选用75ms。模型输入的GCC特征的维度选取与麦克风数目,语音采样率,以及阵列中两麦克风间的最大距离有关。
例如,麦克风阵列为8个麦克风10厘米半径均匀的圆形阵列,阵列中麦克风对的数目为任意两麦克风间的最大时延为τ=0.2m/340m/s=0.588ms,在16khz的采样率时,它对应着10个采样点的延迟。
因此,每对麦克风间的中心21个相关系数足够用来编码说话人位置,21*28=588维度的GCC向量被用作神经网络声学模型的空间特征补偿。神经网络输入的声学特征由多通道语音信号提取的特征经过均值方差规整后并联构成。
例如,对8个麦克风组成的阵列中的每个单通道信号提取40维的log-mel特征,组成单帧维度为320的多通道声学特征。上下文扩展后的声学特征与588维度的空间特征并联输入神经网络声学模型,模型的输出即为预测的声学状态后验概率。声学模型的参数可通过交叉熵(Cross Entropy,CE)准则或鉴别性序列级准则优化。
为了更详细的说明本发明提供的方法,以一个具体实施例予以说明。
还是以8个麦克风10厘米半径均匀的圆形麦克风阵列和16khz的麦克风采样频率为例,本发明的方法可以包含以下8个步骤:
步骤1),对麦克风阵列中的每个单通道语音信号进行预处理。然后,提取40维log-mel特征。
对语音信号的预处理包括:首先,对语音信号预加重处理,预加重旨在提升高频部分,使频谱更为平坦,以便于进行频谱分析;然后,对语音信号分帧,每帧取25ms采样点,将单帧数字信号补零到512点;最后,为抑制吉布斯效应对每帧信号加窗,加窗函数采用汉明(hamming)窗。
预处理操作之后,对每帧语音信号进行快速傅里叶变换,得到其离散频谱;然后,使用40组Mel刻度滤波器对离散频谱做滤波,滤波后的输出为40维Mel域频谱;最后,对Mel域频谱取log对数压缩其动态范围,输出结果即为40维log-mel特征。
步骤2),将8通道的log-mel特征并联,得到320维的特征向量。然后,对此特征向量做均值方差规整去除信道不同所带来的影响,使规整后的特征服从N(0,1)分布,得到规整的多通道log-mel特征。
步骤3),使用75ms窗长10ms帧移计算阵列中麦克风对之间的交叉相关向量,提取中心的21个相关系数作为自适应滤波网络的输入特征。8个麦克风之间存在组麦克风对。因此,输入的GCC特征的维度是28*21=588。两通道信号xi(n)和xj(n)之间GCC向量计算公式如下:
其中,Xi(f)和Xj(f)为信号的傅里叶变换,*表示取复数共轭。
步骤4),将步骤2)生成的320维多通道log-mel特征向量做上下文扩展。扩展帧数为5帧,左右各取2帧。
步骤5),扩展后的1600维多通道声学特征与步骤3)得到的588维空间相关性特征做为神经网络声学模型的输入,如图4所示。神经网络的输出即为预测的声学状态后验概率。
步骤6),利用帧级别的状态标注结果和交叉熵目标函数,通过误差反向回传算法对图1中的模型结果做参数迭代更新。迭代更新完毕得到的模型即为应用于多通道语音识别任务的声学模型。
步骤7)采集给定麦克风阵列中的每个单通道语音信号作为待识别语音信号;
步骤8)对采集的每个单通道语音信号进行预处理。然后,提取每个单通道语音信号的40维log-mel特征以及麦克风之间的交叉相关向量;将多通道声学特征与交叉相关向量并联输入到步骤6)得到的声学模型,将输出的状态后验概率用于后续的语音识别过程,最终获得语音识别结果。
基于同一发明构思,本发明实施例还提供了基于空间特征补偿的多通道语音识别声学建模装置,由于该装置所解决问题的原理与前述基于空间特征补偿的多通道语音识别声学建模方法相似,因此该装置的实施可以参见前述方法的实施,重复之处不再赘述。
本发明还提供一种基于空间特征补偿的多通道语音识别声学建模装置,参照图5所示,包括:
第一提取模块51,用于提取麦克风阵列中的每个单通道录制的语音信号的声学特征;
第二提取模块52,用于提取麦克风阵列中空间信息特征;
输入模块53,用于将所述声学特征和所述空间信息特征,输入神经网络声学模型训练;
生成模块54,用于所述神经网络声学模型输出预测的声学状态后验概率,使用声学模型优化准则对所述神经网络参数做迭代更新,生成基于空间特征补偿的多通道语音识别声学模型。
作为上述装置的一种改进,所述第一提取模块51,包括:
预处理子模块511,用于对麦克风阵列中的每个单通道录制的语音信号进行预处理;
提取子模块512,用于根据所述麦克风阵列中麦克风相关参数提取预设维声学特征;
扩展模块513,用于将所述麦克风阵列中各个通道提取的预设维声学特征并联,计算获得规整的多通道预设维声学特征,并做上下文扩展,得到扩展后的多维度声学特征。
作为上述装置的再一种改进,所述预处理模块511,具体用于对麦克风阵列中的每个单通道录制的语音信号预加重处理和分帧,对分帧后的每帧语音信号加窗,加窗函数采用汉明窗。
作为上述装置的还一种改进,所述提取子模块512,具体用于对每帧语音信号进行快速傅里叶变换,得到离散频谱;使用Mel滤波器对所述离散频谱做滤波,滤波后的输出为预设维Mel域频谱;对所述预设维Mel域频谱取log对数,输出结果为预设维log-mel特征。
作为上述装置的进一步改进,所述第二提取模块52,具体用于计算麦克风阵列中麦克风对之间的交叉相关GCC向量,根据所述GCC向量,得到麦克风阵列中空间信息特征;
计算两通道信号xi(n)和xj(n)之间GCC向量公式如下:
其中,Xi(f)和Xj(f)为信号的傅里叶变换,*表示取复数共轭。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于空间特征补偿的多通道语音识别声学建模方法,其特征在于,包括:
提取麦克风阵列中的每个单通道录制的语音信号的声学特征和麦克风阵列中空间信息特征;
将所述声学特征和所述空间信息特征,输入神经网络声学模型训练;
所述神经网络声学模型输出预测的声学状态后验概率,使用声学模型优化准则对所述神经网络参数做迭代更新,生成基于空间特征补偿的多通道语音识别声学模型。
2.如权利要求1所述的建模方法,其特征在于,提取麦克风阵列中的每个单通道录制的语音信号的声学特征,包括:
对麦克风阵列中的每个单通道录制的语音信号进行预处理,根据所述麦克风阵列中麦克风相关参数提取预设维声学特征;
将所述麦克风阵列中各个通道提取的预设维声学特征并联,计算获得规整的多通道预设维声学特征,并做上下文扩展,得到扩展后的多维度声学特征。
3.如权利要求2所述的建模方法,其特征在于,对麦克风阵列中的每个单通道录制的语音信号进行预处理,包括;
对麦克风阵列中的每个单通道录制的语音信号预加重处理和分帧,对分帧后的每帧语音信号加窗,加窗函数采用汉明窗。
4.如权利要求3所述的建模方法,其特征在于,据所述麦克风阵列中麦克风相关参数提取预设维声学特征,包括:
对每帧语音信号进行快速傅里叶变换,得到离散频谱;
使用Mel滤波器对所述离散频谱做滤波,滤波后的输出为预设维Mel域频谱;
对所述预设维Mel域频谱取log对数,输出结果为预设维log-mel特征。
5.如权利要求1-4任一项所述的建模方法,其特征在于,提取麦克风阵列中空间信息特征,包括:
计算麦克风阵列中麦克风对之间的交叉相关GCC向量,根据所述GCC向量,得到麦克风阵列中空间信息特征;
计算两通道信号xi(n)和xj(n)之间GCC向量公式如下:
其中,Xi(f)和Xj(f)为信号的傅里叶变换,*表示取复数共轭。
6.一种基于空间特征补偿的多通道语音识别声学建模装置,其特征在于,包括:
第一提取模块,用于提取麦克风阵列中的每个单通道录制的语音信号的声学特征;
第二提取模块,用于提取麦克风阵列中空间信息特征;
输入模块,用于将所述声学特征和所述空间信息特征,输入神经网络声学模型训练;
生成模块,用于所述神经网络声学模型输出预测的声学状态后验概率,使用声学模型优化准则对所述神经网络参数做迭代更新,生成基于空间特征补偿的多通道语音识别声学模型。
7.如权利要求6所述的建模装置,其特征在于,所述第一提取模块,包括:
预处理子模块,用于对麦克风阵列中的每个单通道录制的语音信号进行预处理;
提取子模块,用于根据所述麦克风阵列中麦克风相关参数提取预设维声学特征;
扩展模块,用于将所述麦克风阵列中各个通道提取的预设维声学特征并联,计算获得规整的多通道预设维声学特征,并做上下文扩展,得到扩展后的多维度声学特征。
8.如权利要求7所述的建模装置,其特征在于,所述预处理模块,具体用于对麦克风阵列中的每个单通道录制的语音信号预加重处理和分帧,对分帧后的每帧语音信号加窗,加窗函数采用汉明窗。
9.如权利要求8所述的建模装置,其特征在于,所述提取子模块,具体用于对每帧语音信号进行快速傅里叶变换,得到离散频谱;使用Mel滤波器对所述离散频谱做滤波,滤波后的输出为预设维Mel域频谱;对所述预设维Mel域频谱取log对数,输出结果为预设维log-mel特征。
10.如权利要求6-9任一项所述的建模装置,其特征在于,所述第二提取模块,具体用于计算麦克风阵列中麦克风对之间的交叉相关GCC向量,根据所述GCC向量,得到麦克风阵列中空间信息特征;
计算两通道信号xi(n)和xj(n)之间GCC向量公式如下:
其中,Xi(f)和Xj(f)为信号的傅里叶变换,*表示取复数共轭。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810040168.3A CN110047478B (zh) | 2018-01-16 | 2018-01-16 | 基于空间特征补偿的多通道语音识别声学建模方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810040168.3A CN110047478B (zh) | 2018-01-16 | 2018-01-16 | 基于空间特征补偿的多通道语音识别声学建模方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110047478A true CN110047478A (zh) | 2019-07-23 |
CN110047478B CN110047478B (zh) | 2021-06-08 |
Family
ID=67272906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810040168.3A Active CN110047478B (zh) | 2018-01-16 | 2018-01-16 | 基于空间特征补偿的多通道语音识别声学建模方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110047478B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111883135A (zh) * | 2020-07-28 | 2020-11-03 | 北京声智科技有限公司 | 语音转写方法、装置和电子设备 |
CN111916101A (zh) * | 2020-08-06 | 2020-11-10 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 |
CN112951263A (zh) * | 2021-03-17 | 2021-06-11 | 云知声智能科技股份有限公司 | 语音增强方法、装置、设备和存储介质 |
CN112951264A (zh) * | 2019-12-10 | 2021-06-11 | 中国科学院声学研究所 | 一种基于混合式概率模型的多通道声源分离方法 |
CN113035177A (zh) * | 2021-03-11 | 2021-06-25 | 平安科技(深圳)有限公司 | 声学模型训练方法及装置 |
US20220028404A1 (en) * | 2019-02-12 | 2022-01-27 | Alibaba Group Holding Limited | Method and system for speech recognition |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7224981B2 (en) * | 2002-06-20 | 2007-05-29 | Intel Corporation | Speech recognition of mobile devices |
CN102543073A (zh) * | 2010-12-10 | 2012-07-04 | 上海上大海润信息系统有限公司 | 一种沪语语音识别信息处理方法 |
CN102859590A (zh) * | 2010-02-24 | 2013-01-02 | 弗劳恩霍夫应用研究促进协会 | 产生增强下混频信号的装置、产生增强下混频信号的方法以及计算机程序 |
CN104025188A (zh) * | 2011-12-29 | 2014-09-03 | 英特尔公司 | 声学信号修改 |
US20150039299A1 (en) * | 2013-07-31 | 2015-02-05 | Google Inc. | Context-based speech recognition |
US20150095026A1 (en) * | 2013-09-27 | 2015-04-02 | Amazon Technologies, Inc. | Speech recognizer with multi-directional decoding |
CN104575493A (zh) * | 2010-05-26 | 2015-04-29 | 谷歌公司 | 使用地理信息的声学模型适配 |
CN105427860A (zh) * | 2015-11-11 | 2016-03-23 | 百度在线网络技术(北京)有限公司 | 远场语音识别方法和装置 |
CN105578115A (zh) * | 2015-12-22 | 2016-05-11 | 深圳市鹰硕音频科技有限公司 | 一种具有语音评估功能的网络教学方法及系统 |
CN105845127A (zh) * | 2015-01-13 | 2016-08-10 | 阿里巴巴集团控股有限公司 | 语音识别方法及其系统 |
CN106328126A (zh) * | 2016-10-20 | 2017-01-11 | 北京云知声信息技术有限公司 | 远场语音识别处理方法及装置 |
CN107146601A (zh) * | 2017-04-07 | 2017-09-08 | 南京邮电大学 | 一种用于说话人识别系统的后端i‑vector增强方法 |
US20170278519A1 (en) * | 2016-03-25 | 2017-09-28 | Qualcomm Incorporated | Audio processing for an acoustical environment |
US20170353789A1 (en) * | 2016-06-01 | 2017-12-07 | Google Inc. | Sound source estimation using neural networks |
CN109427328A (zh) * | 2017-08-28 | 2019-03-05 | 中国科学院声学研究所 | 一种基于滤波网络声学模型的多通道语音识别方法 |
-
2018
- 2018-01-16 CN CN201810040168.3A patent/CN110047478B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7224981B2 (en) * | 2002-06-20 | 2007-05-29 | Intel Corporation | Speech recognition of mobile devices |
CN102859590A (zh) * | 2010-02-24 | 2013-01-02 | 弗劳恩霍夫应用研究促进协会 | 产生增强下混频信号的装置、产生增强下混频信号的方法以及计算机程序 |
CN104575493A (zh) * | 2010-05-26 | 2015-04-29 | 谷歌公司 | 使用地理信息的声学模型适配 |
CN102543073A (zh) * | 2010-12-10 | 2012-07-04 | 上海上大海润信息系统有限公司 | 一种沪语语音识别信息处理方法 |
CN104025188A (zh) * | 2011-12-29 | 2014-09-03 | 英特尔公司 | 声学信号修改 |
US20150039299A1 (en) * | 2013-07-31 | 2015-02-05 | Google Inc. | Context-based speech recognition |
US20150095026A1 (en) * | 2013-09-27 | 2015-04-02 | Amazon Technologies, Inc. | Speech recognizer with multi-directional decoding |
CN105765650A (zh) * | 2013-09-27 | 2016-07-13 | 亚马逊技术公司 | 带有多向解码的语音辨识器 |
CN105845127A (zh) * | 2015-01-13 | 2016-08-10 | 阿里巴巴集团控股有限公司 | 语音识别方法及其系统 |
CN105427860A (zh) * | 2015-11-11 | 2016-03-23 | 百度在线网络技术(北京)有限公司 | 远场语音识别方法和装置 |
CN105578115A (zh) * | 2015-12-22 | 2016-05-11 | 深圳市鹰硕音频科技有限公司 | 一种具有语音评估功能的网络教学方法及系统 |
US20170278519A1 (en) * | 2016-03-25 | 2017-09-28 | Qualcomm Incorporated | Audio processing for an acoustical environment |
US20170353789A1 (en) * | 2016-06-01 | 2017-12-07 | Google Inc. | Sound source estimation using neural networks |
CN106328126A (zh) * | 2016-10-20 | 2017-01-11 | 北京云知声信息技术有限公司 | 远场语音识别处理方法及装置 |
CN107146601A (zh) * | 2017-04-07 | 2017-09-08 | 南京邮电大学 | 一种用于说话人识别系统的后端i‑vector增强方法 |
CN109427328A (zh) * | 2017-08-28 | 2019-03-05 | 中国科学院声学研究所 | 一种基于滤波网络声学模型的多通道语音识别方法 |
Non-Patent Citations (3)
Title |
---|
TA RA N. SAINATH ET AL: "Multichannel Signal Processing With Deep Neural Networks for Automatic Speech Recognition", 《IEEE/ACM TRANSAC TIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
TARA N. SAINATH ET AL: "FACTORED SPATIAL AND SPECTRAL MULTICHANNEL RAW WAVEFORM CLDNNS", 《ICASSP 2016》 * |
XIONG XIAO ET AL: "A learning-based approach to direction of arrival estimation in noisy and reverberant environments", 《ICASSP 2015》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220028404A1 (en) * | 2019-02-12 | 2022-01-27 | Alibaba Group Holding Limited | Method and system for speech recognition |
CN112951264A (zh) * | 2019-12-10 | 2021-06-11 | 中国科学院声学研究所 | 一种基于混合式概率模型的多通道声源分离方法 |
CN112951264B (zh) * | 2019-12-10 | 2022-05-17 | 中国科学院声学研究所 | 一种基于混合式概率模型的多通道声源分离方法 |
CN111883135A (zh) * | 2020-07-28 | 2020-11-03 | 北京声智科技有限公司 | 语音转写方法、装置和电子设备 |
CN111916101A (zh) * | 2020-08-06 | 2020-11-10 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 |
CN111916101B (zh) * | 2020-08-06 | 2022-01-21 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 |
CN113035177A (zh) * | 2021-03-11 | 2021-06-25 | 平安科技(深圳)有限公司 | 声学模型训练方法及装置 |
CN113035177B (zh) * | 2021-03-11 | 2024-02-09 | 平安科技(深圳)有限公司 | 声学模型训练方法及装置 |
CN112951263A (zh) * | 2021-03-17 | 2021-06-11 | 云知声智能科技股份有限公司 | 语音增强方法、装置、设备和存储介质 |
CN112951263B (zh) * | 2021-03-17 | 2022-08-02 | 云知声智能科技股份有限公司 | 语音增强方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110047478B (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110047478A (zh) | 基于空间特征补偿的多通道语音识别声学建模方法及装置 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
Li et al. | Neural network adaptive beamforming for robust multichannel speech recognition. | |
Tan et al. | Real-time speech enhancement using an efficient convolutional recurrent network for dual-microphone mobile phones in close-talk scenarios | |
Sainath et al. | Factored spatial and spectral multichannel raw waveform CLDNNs | |
Hoshen et al. | Speech acoustic modeling from raw multichannel waveforms | |
CN103426435B (zh) | 具有移动约束的通过独立分量分析的源分离 | |
CN109584903B (zh) | 一种基于深度学习的多人语音分离方法 | |
CN109427328B (zh) | 一种基于滤波网络声学模型的多通道语音识别方法 | |
US20160189730A1 (en) | Speech separation method and system | |
Zhang et al. | On loss functions and recurrency training for GAN-based speech enhancement systems | |
Kinoshita et al. | Text-informed speech enhancement with deep neural networks. | |
Sheikhan et al. | Using DTW neural–based MFCC warping to improve emotional speech recognition | |
CN105845128A (zh) | 基于动态剪枝束宽预测的语音识别效率优化方法 | |
CN111899756B (zh) | 一种单通道语音分离方法和装置 | |
CN109949821B (zh) | 一种利用cnn的u-net结构进行远场语音去混响的方法 | |
Jiang et al. | Geometric methods for spectral analysis | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN113053407B (zh) | 一种针对多说话人的单通道语音分离方法及系统 | |
CN112331218B (zh) | 一种针对多说话人的单通道语音分离方法和装置 | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
Sainath et al. | Reducing the Computational Complexity of Multimicrophone Acoustic Models with Integrated Feature Extraction. | |
KR101236539B1 (ko) | 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법 | |
Lv et al. | A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation | |
CN109461447B (zh) | 一种基于深度学习的端到端说话人分割方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |