CN109427328B - 一种基于滤波网络声学模型的多通道语音识别方法 - Google Patents

一种基于滤波网络声学模型的多通道语音识别方法 Download PDF

Info

Publication number
CN109427328B
CN109427328B CN201710750635.7A CN201710750635A CN109427328B CN 109427328 B CN109427328 B CN 109427328B CN 201710750635 A CN201710750635 A CN 201710750635A CN 109427328 B CN109427328 B CN 109427328B
Authority
CN
China
Prior art keywords
acoustic model
filter network
voice signal
channel
microphone array
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710750635.7A
Other languages
English (en)
Other versions
CN109427328A (zh
Inventor
张鹏远
张宇
潘接林
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201710750635.7A priority Critical patent/CN109427328B/zh
Publication of CN109427328A publication Critical patent/CN109427328A/zh
Application granted granted Critical
Publication of CN109427328B publication Critical patent/CN109427328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种基于滤波网络声学模型的多通道语音识别方法,所述方法包括:步骤1)对于给定的麦克风阵列,建立和训练基于滤波网络的声学模型;所述模型为一个滤波网络连接一个LSTM声学模型;步骤2)采集给定麦克风阵列中的每个单通道语音信号作为待识别语音信号;步骤3)对采集的每个单通道语音信号进行预处理;然后,提取每个单通道语音信号的log‑mel特征以及麦克风之间的交叉相关向量;将处理得到的特征输入训练好的基于滤波网络的声学模型,将输出的状态后验概率用于后续的语音识别过程,最终获得语音识别结果。本发明的方法将自适应滤波网络与声学模型联合优化,避免了传统方法中前后端分开优化导致的次优解。

Description

一种基于滤波网络声学模型的多通道语音识别方法
技术领域
本发明涉及语音识别领域,特别涉及一种基于滤波网络声学模型的多通道语音识别方法。
背景技术
近年来,基于深度神经网络(Deep Neural Network,DNN)的声学模型建模方法已经在语音识别领域取得了突出的成果。长短时记忆模型(Long Short Term Memory,LSTM)等复杂神经网络的提出进一步提升了声学模型的能力。然而,由于背景噪声,混响以及人声干扰等因素,远场语音识别任务仍然充满挑战。
与单麦克风采集语音信号相比,使用麦克风阵列可以改善远场语音识别系统的鲁棒性,因其能够提供空间上的区分度。传统的多通道语音识别系统一般采用两部分架构,首先,利用波束形成算法将多通道语音信号形成一个语音信号实现语音增强,然后,利用增强后的语音信号进行声学模型训练。前端波束形成算法的优化准则是信号级别的准则,后端声学模型的优化标准是识别的准确率。
由于前端的语音增强与后端的识别模块分开优化,整个系统未能针对最终目标(语音识别准确率)进行优化。因此,上述方法得到的模型为次优解,从而影响最终的识别准确率。
发明内容
本发明的目的在于克服已有的多通道语音识别方法中的前端和后端分开优化的缺陷,提出一种基于滤波网络声学模型的多通道语音识别方法,将自适应滤波网络与声学模型联合优化,避免了传统方法中前后端分开优化导致的次优解。
为了实现上述目的,本发明提出了一种基于滤波网络声学模型的多通道语音识别方法,所述方法包括:
步骤1)对于给定的麦克风阵列,建立和训练基于滤波网络的声学模型;所述模型为一个滤波网络连接一个LSTM声学模型;
步骤2)采集给定麦克风阵列中的每个单通道语音信号作为待识别语音信号;
步骤3)对采集的每个单通道语音信号进行预处理;然后,提取每个单通道语音信号的log-mel特征以及麦克风之间的交叉相关向量;将处理得到的特征输入训练好的基于滤波网络的声学模型,将输出的状态后验概率用于后续的语音识别过程,最终获得语音识别结果。
作为上述方法的一种改进,所述步骤1)具体包括:
步骤1-1)对于给定的麦克风阵列,建立基于滤波网络的声学模型;所述模型为一个自适应滤波网络连接一个LSTM声学模型;
步骤1-2)基于给定的麦克风阵列建立的训练集,对基于滤波网络的声学模型进行训练;模型的训练方式为模型参数利用训练目标函数做误差反向传播联合更新。
作为上述方法的一种改进,所述步骤1-2)具体包括:
步骤1-2-1)建立训练集,所述训练集包括若干个通过所述麦克风阵列采集的训练语音及其对应的标注;所述麦克风阵列包括M个麦克风;
步骤1-2-2)对每个训练语音的每个单通道语音信号进行预处理,然后,提取每个单通道语音信号的40维log-mel特征;
步骤1-2-3)将M个通道的40维log-mel特征并联得到特征向量,然后,对此特征向量做均值方差规整去除信道不同所带来的影响,使规整后的特征服从N(0,1)分布,得到规整的多通道log-mel特征xt
步骤1-2-4)计算麦克风阵列中麦克风对之间的交叉相关向量,提取中心的21个相关系数;
步骤1-2-5)将交叉相关向量输入到自适应滤波网络,自适应滤波网络的输出值ft限制在0到1之间;
其网络表达式如下:
ht=Filter(gcct)
ft=sigmoid(Wfhht+bfh)
其中,Filter(.)是DNN或LSTM神经网络,gcct为t时刻的GCC特征,Wfh和bfh分别为自适应滤波网络的权重矩阵和偏置向量,sigmoid函数将网络输出限制在0和1之间,输出滤波系数ft
步骤1-2-6)将步骤1-2-3)生成的log-mel特征向量xt与步骤1-2-5)得到的滤波系数向量ft逐元素相乘,得到滤波后的向量
Figure BDA0001391043470000021
此操作表达式为:
Figure BDA0001391043470000031
其中,⊙代表两向量之间的逐元素相乘;
步骤1-2-7)将步骤1-2-6)生成的滤波特征
Figure BDA0001391043470000032
做上下文扩展,插入上下文信息;
步骤1-2-8)将扩展后的特征输入LSTM声学模型,LSTM的输出为预测的声学状态后验概率;
步骤1-2-9)利用帧级别的状态标注结果和交叉熵目标函数,通过误差反向回传算法对基于滤波网络的声学模型做参数迭代更新,迭代更新完毕得到训练好的基于滤波网络的声学模型。
作为上述方法的一种改进,所述步骤1-2-2)的预处理过程为:首先对语音信号做预加重处理,预加重用于提升高频部分,使频谱更为平坦,以便于进行频谱分析;然后对语音信号分帧,每帧取25ms采样点,将单帧数字信号补零到512点;最后,对每帧信号加窗,加窗函数采用汉明窗;
作为上述方法的一种改进,所述步骤1-2-4)中计算麦克风阵列中麦克风对之间的交叉相关向量的过程为:
M个麦克风之间存在
Figure BDA0001391043470000033
组麦克风对,两通道离散信号xi(n)和xj(n)之间交叉相关向量计算公式如下:
Figure BDA0001391043470000034
其中,IFFT为逆傅里叶变换,Xi(f)和Xj(f)为离散信号xi(n)和xj(n)的傅里叶变换,*表示取复数共轭。
本发明的优点在于:
1、本发明的方法将自适应滤波网络与声学模型联合优化,避免了传统方法中前后端分开优化导致的次优解;
2、本发明通过神经网络结构有效的利用麦克风阵列提供的空间区分度信息,改善了多通道语音识别系统的鲁棒性。
附图说明
图1是本发明所提出的应用于多通道语音识别任务中的基于自适应滤波网络的声学模型的示意图;
图2是本发明中使用的特征提取流程图。
具体实施方式
现结合附图和具体实施例对本发明做进一步的描述。
一种基于滤波网络声学模型的多通道语音识别方法,所述方法包括:
步骤1)对于给定的麦克风阵列,建立和训练基于滤波网络的多通道声学模型;具体包括:
步骤1-1)对于给定的麦克风阵列,建立基于滤波网络的多通道声学模型;所述模型为一个滤波网络连接一个LSTM声学模型;
如图1所示,自适应滤波网络的多通道声学模型的结构图。图中的自适应滤波网络为深度神经网络或LSTM神经网络模型。整个框架利用麦克风信道间的广义交叉相关向量(Generalized Cross Correlation,GCC)通过自适应滤波网络预测语音信号在log-mel域的时变滤波系数。使用估计的滤波系数对多通道语音信号的log-mel特征做滤波。得到的滤波后的特征作为传统神经网络声学模型的输入。
步骤1-2)基于给定的麦克风阵列建立的训练集,对基于滤波网络的声学模型进行训练;
模型的训练方式为自适应滤波网络与LSTM(Long-short-Term-Memory,长短时记忆)声学模型参数利用训练目标函数做误差反向传播联合更新。因此,整个结构的优化目标为语音识别准确率。
已知麦克风阵列(包括M个麦克风,即M个语音通道)的两个通道i和j的离散信号为xi(n)和xj(n),GCC的计算公式可以表示为如下:
Figure BDA0001391043470000041
其中,Xi(f)和Xj(f)为离散信号xi(n)和xj(n)的傅里叶变换,*表示取复数共轭,IFFT为逆傅里叶变换。GCC表示两信道间的相关性,自变量n在两信道间的延时点处取到最大值。它包含麦克风信道间接收信号的时延信息,而信道间的时延是一种对空间信息的编码表示。因此,通常使用GCC对说话人定位。本发明的方法通过GCC向量将空间信息加入到神经网络声学建模中,利用空间信息直接对语音信号的特征做滤波。一般在声学建模中,log-mel特征的提取采用25ms帧长和10ms帧移。为了匹配特征提取的时间尺度,GCC的提取采用同样的参数。GCC维度的选取与麦克风数目,语音采样率,以及阵列中两麦克风间的最大距离有关。
为了处理一句话中说话位置人变化的问题,模型采用自适应滤波网络,即每帧预测的滤波系数随着GCC向量的变化而变化。自适应滤波网络可描述为如下公式:
ht=Filter(gcct)
ft=sigmoid(Wfhht+bfh)
Figure BDA0001391043470000051
其中,Filter(.)表示前向DNN或LSTM神经网络,gcct为t时刻的GCC特征,Wfh和bfh分别为可训练自适应滤波网络的权重矩阵和偏置向量,⊙代表两向量之间的逐元素相乘操作。sigmoid函数将输出的滤波系数限制在0和1之间。xt为均值方差规整后的log-mel特征,由多通道语音信号提取的特征并联构成。例如,对8个麦克风组成的阵列中的每个单通道信号提取40维的log-mel特征,特征xt为320维的log-mel特征。滤波后的特征
Figure BDA0001391043470000052
经过上下文扩展之后输入到LSTM声学模型,模型的输出即为预测的声学状态后验概率。自适应滤波网络和声学模型的参数可通过交叉熵(Cross Entropy,CE)准则或鉴别性序列级准则优化。
所述步骤1-2)具体包括:
步骤1-2-1)建立训练集,所述训练集包括若干个通过所述麦克风阵列采集的训练语音及其对应的标注;
所述麦克风阵列为8个麦克风10厘米半径均匀的圆形麦克风阵列和16khz的麦克风采样频率。
步骤1-2-2)对每个训练语音的每个单通道语音信号进行预处理,然后,提取每个单通道语音信号的40维log-mel特征;具体流程如图2所示;
所述对语音信号的预处理包括:首先,对语音信号预加重处理,预加重用于提升高频部分,使频谱更为平坦,以便于进行频谱分析;然后,对语音信号分帧,每帧取25ms采样点,将单帧数字信号补零到512点;最后,为抑制吉布斯效应对每帧信号加窗,加窗函数采用汉明窗(hamming)。
预处理操作之后,对每帧语音信号进行快速傅里叶变换,得到其离散频谱;然后,使用40组Mel刻度滤波器对离散频谱做滤波,滤波后的输出为40维Mel域频谱;最后,对Mel域频谱取log对数压缩其动态范围,输出结果即为40维log-mel特征。
步骤1-2-3)将8个通道的40维log-mel特征并联,得到320维的特征向量,然后,对此特征向量做均值方差规整去除信道不同所带来的影响,使规整后的特征服从N(0,1)分布,得到规整的多通道log-mel特征xt
步骤1-2-4)计算麦克风阵列中麦克风对之间的交叉相关向量,提取中心的21个相关系数;
阵列中麦克风对的数目为
Figure BDA0001391043470000061
任意两麦克风间的最大时延为τ=0.2m/340m/s=0.588ms,在16khz的采样率时,它对应着10个采样点的延迟。因此,每对麦克风的中心21个相关系数足够用来预测滤波系数。
8个麦克风之间存在
Figure BDA0001391043470000062
组麦克风对,因此,输入的GCC特征的维度是28*21=588。两通道离散信号xi(n)和xj(n)之间GCC向量计算公式如下:
Figure BDA0001391043470000063
其中,Xi(f)和Xj(f)为信号的傅里叶变换,*表示取复数共轭。
步骤1-2-5)将588维GCC向量输入到自适应滤波网络,自适应滤波网络的输出值ft限制在0到1之间;
其网络表达式如下:
ht=Filter(gcct)
ft=sigmoid(Wfhht+bfh)
其中,Filter(.)是DNN或LSTM神经网络,gcct为t时刻的GCC特征,Wfh和bfh分别为自适应滤波网络的权重矩阵和偏置向量,sigmoid函数将网络输出限制在0和1之间,输出为320维的滤波系数ft
步骤1-2-6)将步骤1-2-3)生成的320维多通道log-mel特征向量xt与步骤1-2-5)得到的320维滤波系数向量ft逐元素相乘,得到滤波后的向量
Figure BDA0001391043470000064
此操作表达式为
Figure BDA0001391043470000065
其中,⊙代表两向量之间的逐元素相乘;
步骤1-2-7)将步骤1-2-6)生成的320维滤波特征
Figure BDA0001391043470000071
做上下文扩展,插入上下文信息,扩展帧数为5帧,左右各取2帧;
步骤1-2-8)扩展后的1600维特征输入LSTM声学模型,LSTM的输出为预测的声学状态后验概率;
步骤1-2-9)利用帧级别的状态标注结果和交叉熵目标函数,通过误差反向回传算法对基于滤波网络的声学模型做参数迭代更新,迭代更新完毕得到训练好的基于滤波网络的声学模型;
步骤2)采集给定麦克风阵列中的每个单通道语音信号作为待识别语音信号;
步骤3)对采集的每个单通道语音信号进行预处理。然后,提取每个单通道语音信号的40维log-mel特征以及麦克风之间的交叉相关向量;将按照步骤1-2-3)得到特征输入训练好的基于滤波网络的声学模型,将输出的状态后验概率用于后续的语音识别过程,最终获得语音识别结果。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种基于滤波网络的声学模型的多通道语音识别方法,所述方法包括:
步骤1)对于给定的麦克风阵列,建立和训练基于滤波网络的声学模型;所述模型为一个滤波网络连接一个LSTM声学模型;
步骤2)采集给定麦克风阵列中的每个单通道语音信号作为待识别语音信号;
步骤3)对采集的每个单通道语音信号进行预处理;然后,提取每个单通道语音信号的log-mel特征以及麦克风之间的交叉相关向量;将处理得到的特征输入训练好的基于滤波网络的声学模型,将输出的状态后验概率用于后续的语音识别过程,最终获得语音识别结果;
所述步骤1)具体包括:
步骤1-1)对于给定的麦克风阵列,建立基于滤波网络的声学模型;所述模型为一个自适应滤波网络连接一个LSTM声学模型;
步骤1-2)基于给定的麦克风阵列建立的训练集,对基于滤波网络的声学模型进行训练;模型的训练方式为模型参数利用训练目标函数做误差反向传播联合更新;
所述步骤1-2)具体包括:
步骤1-2-1)建立训练集,所述训练集包括若干个通过所述麦克风阵列采集的训练语音及其对应的标注;所述麦克风阵列包括M个麦克风;
步骤1-2-2)对每个训练语音的每个单通道语音信号进行预处理,然后,提取每个单通道语音信号的40维log-mel特征;
步骤1-2-3)将M个通道的40维log-mel特征并联得到特征向量,然后,对此特征向量做均值方差规整去除信道不同所带来的影响,使规整后的特征服从N(0,1)分布,得到规整的多通道log-mel特征xt
步骤1-2-4)计算麦克风阵列中麦克风对之间的交叉相关向量,提取中心的21个相关系数;
步骤1-2-5)将交叉相关向量输入到自适应滤波网络,自适应滤波网络的输出值ft限制在0到1之间;
其网络表达式如下:
ht=Filter(gcct)
ft=sigmoid(Wfhht+bfh)
其中,Filter(.)是DNN或LSTM神经网络,gcct为t时刻的GCC特征,Wfh和bfh分别为自适应滤波网络的权重矩阵和偏置向量,sigmoid函数将网络输出限制在0和1之间,输出滤波系数ft
步骤1-2-6)将步骤1-2-3)生成的log-mel特征向量xt与步骤1-2-5)得到的滤波系数向量ft逐元素相乘,得到滤波后的向量
Figure QLYQS_1
此操作表达式为:
Figure QLYQS_2
其中,⊙代表两向量之间的逐元素相乘;
步骤1-2-7)将步骤1-2-6)生成的滤波特征
Figure QLYQS_3
做上下文扩展,插入上下文信息;
步骤1-2-8)将扩展后的特征输入LSTM声学模型,LSTM的输出为预测的声学状态后验概率;
步骤1-2-9)利用帧级别的状态标注结果和交叉熵目标函数,通过误差反向回传算法对基于滤波网络的声学模型做参数迭代更新,迭代更新完毕得到训练好的基于滤波网络的声学模型。
2.根据权利要求1所述的基于滤波网络的声学模型的多通道语音识别方法,其特征在于,所述步骤1-2-2)的预处理过程为:首先对语音信号做预加重处理,预加重用于提升高频部分,使频谱更为平坦,以便于进行频谱分析;然后对语音信号分帧,每帧取25ms采样点,将单帧数字信号补零到512点;最后,对每帧信号加窗,加窗函数采用汉明窗。
3.根据权利要求2所述的基于滤波网络的声学模型的多通道语音识别方法,其特征在于,所述步骤1-2-4)中计算麦克风阵列中麦克风对之间的交叉相关向量的过程为:
M个麦克风之间存在
Figure QLYQS_4
组麦克风对,两通道离散信号xi(n)和xj(n)之间交叉相关向量计算公式如下:
Figure QLYQS_5
其中,IFFT为逆傅里叶变换,Xi(f)和Xj(f)为离散信号xi(n)和xj(n)的傅里叶变换,*表示取复数共轭。
CN201710750635.7A 2017-08-28 2017-08-28 一种基于滤波网络声学模型的多通道语音识别方法 Active CN109427328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710750635.7A CN109427328B (zh) 2017-08-28 2017-08-28 一种基于滤波网络声学模型的多通道语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710750635.7A CN109427328B (zh) 2017-08-28 2017-08-28 一种基于滤波网络声学模型的多通道语音识别方法

Publications (2)

Publication Number Publication Date
CN109427328A CN109427328A (zh) 2019-03-05
CN109427328B true CN109427328B (zh) 2023-04-28

Family

ID=65501729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710750635.7A Active CN109427328B (zh) 2017-08-28 2017-08-28 一种基于滤波网络声学模型的多通道语音识别方法

Country Status (1)

Country Link
CN (1) CN109427328B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110047478B (zh) * 2018-01-16 2021-06-08 中国科学院声学研究所 基于空间特征补偿的多通道语音识别声学建模方法及装置
TWI759591B (zh) * 2019-04-01 2022-04-01 威聯通科技股份有限公司 語音增強方法及系統
CN113744732A (zh) * 2020-05-28 2021-12-03 阿里巴巴集团控股有限公司 设备唤醒相关方法、装置及故事机
CN111916101B (zh) * 2020-08-06 2022-01-21 大象声科(深圳)科技有限公司 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统
CN112270506B (zh) * 2020-11-20 2022-08-26 浙江大学 一种基于设备超限脆弱性的超限信息获取方法
CN112669881B (zh) * 2020-12-25 2023-02-28 北京融讯科创技术有限公司 一种语音检测方法、装置、终端及存储介质
CN113111765B (zh) * 2021-04-08 2023-04-18 浙江大学 一种基于深度学习的多语音源计数和定位方法
CN113270097B (zh) * 2021-05-18 2022-05-17 成都傅立叶电子科技有限公司 无人机械控制方法、电台语音指令转换方法及装置
CN113808581B (zh) * 2021-08-17 2024-03-12 山东大学 一种声学和语言模型训练及联合优化的中文语音识别方法
WO2023056920A1 (en) * 2021-10-05 2023-04-13 Huawei Technologies Co., Ltd. Multilayer perceptron neural network for speech processing

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1647158A (zh) * 2002-04-10 2005-07-27 皇家飞利浦电子股份有限公司 立体声信号编码

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011004503A1 (ja) * 2009-07-08 2011-01-13 株式会社日立製作所 雑音除去装置及び雑音除去方法
US8983844B1 (en) * 2012-07-31 2015-03-17 Amazon Technologies, Inc. Transmission of noise parameters for improving automatic speech recognition
WO2015026366A1 (en) * 2013-08-23 2015-02-26 Nuance Communications, Inc. Multiple pass automatic speech recognition methods and apparatus
CN105845127B (zh) * 2015-01-13 2019-10-01 阿里巴巴集团控股有限公司 语音识别方法及其系统
US9697826B2 (en) * 2015-03-27 2017-07-04 Google Inc. Processing multi-channel audio waveforms
CN106157953B (zh) * 2015-04-16 2020-02-07 科大讯飞股份有限公司 连续语音识别方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1647158A (zh) * 2002-04-10 2005-07-27 皇家飞利浦电子股份有限公司 立体声信号编码

Also Published As

Publication number Publication date
CN109427328A (zh) 2019-03-05

Similar Documents

Publication Publication Date Title
CN109427328B (zh) 一种基于滤波网络声学模型的多通道语音识别方法
CN109326302B (zh) 一种基于声纹比对和生成对抗网络的语音增强方法
CN108766419B (zh) 一种基于深度学习的非常态语音区别方法
US11908455B2 (en) Speech separation model training method and apparatus, storage medium and computer device
CN108172238B (zh) 一种语音识别系统中基于多个卷积神经网络的语音增强算法
CN110610715B (zh) 一种基于cnn-dnn混合神经网络的降噪方法
CN110047478B (zh) 基于空间特征补偿的多通道语音识别声学建模方法及装置
CN109584896A (zh) 一种语音芯片及电子设备
US20160189730A1 (en) Speech separation method and system
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN106782565A (zh) 一种声纹特征识别方法及系统
CN111899756B (zh) 一种单通道语音分离方法和装置
CN111341319B (zh) 一种基于局部纹理特征的音频场景识别方法及系统
CN113096684A (zh) 一种基于双麦克风阵列的目标语音提取方法
CN109192200A (zh) 一种语音识别方法
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
CN112180318A (zh) 声源波达方向估计模型训练和声源波达方向估计方法
CN114387997A (zh) 一种基于深度学习的语音情感识别方法
CN112201276B (zh) 基于TC-ResNet网络的麦克风阵列语音分离方法
CN112037813B (zh) 一种针对大功率目标信号的语音提取方法
CN114189781A (zh) 双麦神经网络降噪耳机的降噪方法及系统
CN111916060B (zh) 一种基于谱减的深度学习语音端点检测方法和系统
CN112908340A (zh) 一种基于全局-局部加窗的声音特征快速提取方法
CN108573698B (zh) 一种基于性别融合信息的语音降噪方法
CN116030824A (zh) 一种基于深度神经网络的定向语音分离方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20241010

Address after: 100190, No. 21 West Fourth Ring Road, Beijing, Haidian District

Patentee after: INSTITUTE OF ACOUSTICS, CHINESE ACADEMY OF SCIENCES

Country or region after: China

Address before: 100190, No. 21 West Fourth Ring Road, Beijing, Haidian District

Patentee before: INSTITUTE OF ACOUSTICS, CHINESE ACADEMY OF SCIENCES

Country or region before: China

Patentee before: BEIJING KEXIN TECHNOLOGY Co.,Ltd.