CN113808581A - 一种声学和语言模型训练及联合优化的中文语音识别方法 - Google Patents

一种声学和语言模型训练及联合优化的中文语音识别方法 Download PDF

Info

Publication number
CN113808581A
CN113808581A CN202110943687.2A CN202110943687A CN113808581A CN 113808581 A CN113808581 A CN 113808581A CN 202110943687 A CN202110943687 A CN 202110943687A CN 113808581 A CN113808581 A CN 113808581A
Authority
CN
China
Prior art keywords
training
layer
network
model
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110943687.2A
Other languages
English (en)
Other versions
CN113808581B (zh
Inventor
熊海良
刘凯
朱维红
周洪超
周斌
周智伟
许玉丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202110943687.2A priority Critical patent/CN113808581B/zh
Publication of CN113808581A publication Critical patent/CN113808581A/zh
Application granted granted Critical
Publication of CN113808581B publication Critical patent/CN113808581B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种声学和语言模型训练及联合优化的中文语音识别方法,分别对声学模型和预训练语言模型进行训练,将得到的声学模型和预训练语言模型的输出特征同时输入联合优化网络,训练得到声学模型与语言模型联合优化的中文语音识别算法,然后输入语音经过上述处理获得最终的识别结果。本发明采用预训练语言模型训练、声学模型与语言模型联合优化训练的方式,将大量语音训练转变为部分语音训练与大量易于得到中文语料训练,降低了训练难度,还可以根据特殊场景中文训练语料训练定制语音情景,增大了特定场景中文语音识别的适用性,且通过联合优化网络充分利用声学和语言特征信息,解决了输出之间无关联问题,极大的提高了模型整体的识别效果。

Description

一种声学和语言模型训练及联合优化的中文语音识别方法
技术领域
本发明涉及中文语音处理技术领域,尤其是一种声学和语言模型训练及 联合优化的中文语音识别方法。
背景技术
语音是人类最自然的交互方式。计算机发明之后让机器能够“听懂”人 类的语言、理解语言含义,并能做出正确回答就成为了人们追求的目标。随 着科学技术的不断发展,语音识别技术的出现使人类的这一理想得以实现。
现有技术中将CNN、RNN、LSTM等网络结构应用于语音识别,但是这 些方法都需要大量的中文语音数据进行训练,存储和计算成本过高,且这些 模型对于特征信息的提取仍然有待提高。此外,语音识别场景中的噪声、口 音等因素,也在一定程度上影响着模型的准确率。
发明内容
为了克服现有技术中存在的上述问题,本发明提出一种声学和语言模型 训练及联合优化的中文语音识别方法。
本发明解决其技术问题所采用的技术方案是:一种声学和语言模型训练 及联合优化的中文语音识别方法,包括如下步骤:
步骤一,对声学模型进行训练;
步骤二,对预训练语言模型进行训练;
步骤三,将得到的声学模型输出特征与预训练语言模型的输出特征同时 输入联合优化网络,通过训练得到网络权重与偏置,最后使用CTC损失函数 得到模型预测值和训练样本之间的差异,将得到的损失信息利用后向传播算 法计算梯度优化网络模型参数,训练得到声学模型与语言模型联合优化的中 文语音识别算法;
步骤四,输入语音通过步骤一到步骤三输入训练好的模型,获得最终的 识别结果。
声学模型的具体训练方法如下:
(1.1)对于输入训练语音,使用滤波器放大高频,随后通过窗长度为 25ms,步长为10ms的滑动窗口截取语音信号作为一帧,将得到的每帧信号进 行短时傅里叶变换,得到语音信号的声谱图,将得到的声谱图经过mel-80滤 波器组得到符合人耳听觉习惯的声谱,取log得到输入语音信号的80-channel Fbank特征;
(1.2)将步骤(1.1)中得到的80-channel Fbank特征通过AmPreNet网 络进行预处理;
(1.3)AmPreNet输出的数据进入16层ConformerBlock进行解码。数据 依次通过前馈神经网络、多头注意力层、卷积块、层归一化得到输出,层与 层之间加入ResNet加速神经网络的收敛。
预训练语言模型的具体训练方法如下:
(2.1)对于输入的中文语料,首先根据汉字与拼音的映射关系建立语料 库,然后通过one-hot编码转换为语料向量,语料向量进入LmPreNet,通过 两层的前馈神经网络将网络原始输入映射到特征空间;
(2.2)处理后的中文语料特征向量输入LmFeatureMap网络;
(2.3)经过LmFeatureMap网络的数据进入LSTM网络模型进行解码, 得到语言模型的特征输出信息。
上述的一种声学和语言模型训练及联合优化的中文语音识别方法,所述 步骤(1.1)中使用的滤波器为Pre-Emphasis滤波器,滤波器公式如下:
x(n)′=x(n)-λ*x(n-1)
所述短时傅里叶变换,公式如下:
Figure BDA0003215813920000031
其中,λ为0.97,
其中w(τ-t)为分析窗函数,公式如下:
Figure BDA0003215813920000032
将经过短时傅里叶变换的信号化为声谱图的公式如下:
Figure BDA0003215813920000033
其中NFFT设置为512。
上述的一种声学和语言模型训练及联合优化的中文语音识别方法,所述 步骤(1.2)中的AmPreNet网络包含两层二维卷积层、一层全连接层、一层 Dropout层,二维卷积层的卷积核尺寸为3*3,步长为2*2,个数为32,激活 函数为relu,padding设置为samepadding,Dropout的Pdrop=0.1。
上述的一种声学和语言模型训练及联合优化的中文语音识别方法,所述 步骤(2.1)中建立语料库的具体方法为:首先将每条数据单独存储一行,根 据训练数据的字出现的次数进行统计,去除词频在5以下的字,每个字给予 一个ID,一一对应后建立词典。
上述的一种声学和语言模型训练及联合优化的中文语音识别方法,所述 步骤(2.1)中LmPreNet神经网络含有1个嵌入层、2个全连接层、2个Dropout 层,所述嵌入层参数尺寸为[vocab_size,embed_size],其中vocab_size为词典 的大小,embed_size为一个one-hot向量嵌入后向量的长度,大小设置为300; 2个所述全连接层输出维度分别为300和150,其激活函数为relu函数;2个 所述Dropout层的Pdrop=0.5。
上述的一种声学和语言模型训练及联合优化的中文语音识别方法,步骤(2.2)中,所述LmFeatureMap网络由膨胀卷积层、最大池化层、加性自注 意力层、高速卷积层、前馈神经网络,所述膨胀卷积层由4个结构相同的 DilatedCNN Block构成,每个所述DilatedCNNBlock由膨胀步长为1、1、2 的3层DilatedCNN构成,所述DilatedCNN卷积核大小为3*3,步长为1*1, 激活函数为relu,padding设置为samepadding;所述最大池化层是池化窗口大 小为2,步长为1,padding为samepadding的一维池化层。
上述的一种声学和语言模型训练及联合优化的中文语音识别方法,所述 步骤三中的联合优化网络由三层全连接层、tanh激活层与softmax构成,声学 模型与语言模型输入分别流入全连接层,该全连接层输入维度为1024,随后 将两个全连接层输出扩大一个维度,通过tanh激活层后流入第三层全连接层, 该层输入维度与vocabulary大小相同,最后第三层全连接层输出流入softmax 做归一化后输出,该输出为联合优化网络输出,可表述为如下公式:
Figure BDA0003215813920000041
Figure BDA0003215813920000042
Figure BDA0003215813920000043
p(y)=Softmax(zt,u)
其中,LM(),AM()分别表示预训练语言模型与声学模型,
Figure BDA0003215813920000044
zt,u,p(y)分 别表示预训练语言模型、声学模型、联合优化网络、softmax层的输出。
本发明的有益效果是:
(1)本发明采用AmPreNet、16层ConformerBlock等模块构成声学模型, 可以有效的将提取长序列依赖与提取局部特征相结合,从而获取更深层次的 特征信息;
(2)本发明采用LmPreNet、LmFeatureMap、LSTM等模块构成语言模 型,其中LmFeatureMap由膨胀卷积层(IDCNN)、最大池化层(Maxpool)、 加性自注意力层(Addself-Attention)、高速卷积层(HighwayNet)、前馈神 经网络(Feedforward)5个模块构成,膨胀卷积层(IDCNN)可以有效扩大 卷积感受野,提取局部特征,加性自注意力层(Addself-Attention)可以有效 提取到与当前输入关联性强的特征信息,投入更多的注意力资源所需要关注 的目标的细节信息,并抑制其它无用信息,高速卷积层(HighwayNet)则可 以解决多层深度神经网络的训练收敛慢问题;
(3)本发明采用预训练语言模型训练、声学模型与语言模型联合优化训 练的方式,将大量语音训练转变为部分语音训练与大量易于得到中文语料训 练,降低了训练难度与复杂度,还可以根据特殊场景中文训练语料训练定制 语音情景,增大了特定场景中文语音识别的适用性,且通过联合优化网络充 分利用声学和语言特征信息,解决了输出之间无关联问题,极大的提高了模 型整体的识别效果。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1为本发明所公开的一种声学和语言模型训练及联合优化的中文语音 识别方法流程示意图;
图2为AmPreNet网络结构示意图;
图3为ConformerBlock网络结构示意图;
图4为Convolution Module网络结构示意图;
图5为LmPreNet网络结构示意图;
图6为LmFeatureMap网络结构示意图;
图7为LSTM网络结构示意图;
图8为声学模型与预训练语言模型联合优化流程示意图。
具体实施方式
为使本领域技术人员更好的理解本发明的技术方案,下面结合附图和具 体实施方式对本发明作详细说明。
本发明提供了一种声学模型与语言模型的训练与联合优化的中文语音识 别方法,如图1所示,具体实施例如下:
一、声学模型训练
(1)对于输入训练语音,使用Pre-Emphasis滤波器放大高频。滤波器公 式如下:
x(n)′=x(n)-λ*x(n-1)
其中,设置λ为0.97。
随后通过窗长度为25ms,步长为10ms的滑动窗口截取语音信号作为一 帧,然后对信号做短时傅里叶变换(STFT),去除各维信号之间的相关性, 将信号映射到低维空间,公式如下:
Figure BDA0003215813920000061
其中w(τ-t)为分析窗函数,公式如下:
Figure BDA0003215813920000062
将经过STFT的信号化为声谱图,其公式如下:
Figure BDA0003215813920000063
其中NFFT设置为512。
得到的声谱图经过mel-80滤波器组,这样可以对频谱进行平滑化,消除 谐波的作用,突显原先语音的共振峰。其公式如下:
Figure BDA0003215813920000064
其中m设置为80。
经过滤波后得到符合人耳听觉习惯的声谱,取log得到输入语音信号的 80-channel Fbank特征。
(2)处理后的80-channelFbank特征通过AmPreNet网络进行预处理, AmPreNet网络如图2所示。所述AmPreNet网络包含两层二维卷积层、一层 全连接层、一层Dropout,二维卷积层的卷积核尺寸为3*3,步长为2*2,个 数为32,激活函数为relu,padding设置为samepadding,Dropout的Pdrop=0.1。 输入进AmPreNet的特征向量首先进行卷积下采样,这样可以降低特征图的维 度并且在训练时避免过拟合,得到的数据经过一层linear层与Dropout层输出。
(3)AmPreNet的输出数据进入16层ConformerBlock进行解码,如图3 所示。数据依次通过前馈神经网络(Feedforward)、多头自注意力层(Multi-head self attention)、卷积块(Convolution Module)、层归一化(Layernorm)后 得到输出,层与层之间加入ResNet加速神经网络的收敛。所述前馈神经网络 (Feedforward)由一层LayerNorm、两层全连接层、两层Dropout层、一层 activation层构成,其中第一层全连接层输入维度为前馈神经网络 (Feedforward)输入维度的4倍,第二层全连接层输入维度与前馈神经网络(Feedforward)输入维度相同。激活层激活函数为swish_activation。两层 Dropout层的Pdrop=0.1。
其输出Y可由公式如下表示:
Y=(X*sigmoid(β(XW1+b1)))W2+b2
其中β设置为0.3。W1,W2,b1,b2为两个全连接层的权重矩阵与偏置。
随后将前馈神经网络(Feedforward)输入与输出向量加入残差网络得到 输出,其公式如下:
Rout=FFNin+λ*FFNout
其中λ设置为0.5。
随后数据X进入多头自注意力层(Multi-head self attention),通过线性变 换得到查询向量矩阵Q,键向量矩阵K和值向量矩阵V,其公式如下:
Q=WqX
K=WkX
V=WvX
其中Wq,Wk,Wv分别为查询向量、键向量、值向量的权重矩阵。初始化方式 为glorot_uniform。
然后根据注意力计算公式求出输出向量序列,其公式如下:
head(i)=vi*softmax(s(K,Q))
其中s(K,Q)为打分公式,其公式如下:
Figure BDA0003215813920000081
其中dk设置为32。
最后得到多头自注意力层(Multi-head self attention)的输出,其公式如下:
Y=Concat(head1,…,headh)Wo
其中h为head个数,设置为16。
多头自注意力层(Multi-head self attention)的输出进入卷积块(ConvolutionModule)提取特征,如图4所示。所述卷积块(Convolution Module)由2层 归一化层、3层一维卷积层、1层激活层、一层Dropout、4层残差网络构成。 3层卷积层卷积核大小为1,步长为1,Padding为same padding,不同之处在 于前2层卷积层卷积核个数为2*input_size,第三层与input_size相同,Dropout 层Pdrop=0.1,激活层激活函数为swish_activation。随后数据再经过一层前馈神 经网络(Feedforward)得到ConformerBlock的输出。可将ConformerBlock输 出表示成如下公式:
X′=X+1/2FFN(X)
X″=X′+1/2MHSA(X′)
X″′=X″+1/2Conv(X″)
Y=X″′+1/2LN(X″′)
其中FFN(),MHSA(),Conv(),LN()分别表示前馈神经网络(Feedforward)、多 头自注意力层(Multi-head self attention)、卷积块(Convolution Module)、 层归一化(Layernorm)。
二、预训练语言模型训练
(1)对于输入的中文语料,首先根据汉字与拼音的映射关系建立语料库。 每条数据单独存储一行,其存储形式如下:id拼音汉字;
具体例子如下:
7788yigerenbuxiangde,fouzejiubiepashi。一_个_人__不_想____得_,否__ 则_就__别__怕_失__。
根据训练数据的字出现的次数进行统计,去除词频在5以下的字,每个 字给予一个id一一对应后建立词典,然后通过one-hot编码转换为语料向量。 语料向量进入LmPreNet,该模块如图5所示。所述LmPreNet神经网络含有1 个嵌入(embedding)层、2个全连接层、2个Dropout层;嵌入(embedding) 层张量参数大小为[vocab_size,embed_size],其中vocab_size为词典的大小, embed_size为一个one-hot向量嵌入后向量的长度,其大小为300。所述2个 全连接层输出维度分别为300、150;其激活函数为relu函数。所述2个Dropout 层的Pdrop=0.5;经过嵌入将高维稀疏的id类特征转换为稠密向量,然后通过 两层的前馈神经网络将网络原始输入映射到特征空间。
(2)处理后的中文语料特征向量通过LmFeatureMap模块,如图6所示。 所述LmFeatureMap网络由膨胀卷积层(IDCNN)、最大池化层(Maxpool)、 加性自注意力层(Addself-Attention)、高速卷积层(HighwayNet)、前馈神 经网络(Feedforward)5个模块构成,所述膨胀卷积层(IDCNN)为4个结 构相同的DilatedCNN Block构成,每个DilatedCNNBlock由膨胀步长为1、1、 2的3层DilatedCNN构成,DilatedCNN卷积核大小为3*3、步长为1*1、激 活函数为relu,padding设置为samepadding;所述最大池化层(Maxpool)是 池化窗口大小为2、步长为1、padding为samepadding的一维池化层。输入向 量X=[x1,x2,…,xn]经过上述模块后流入加性自注意力层(Addself-Attention), 该模块计算过程与声学模型训练步骤(3)大体相似。不同之处在于加性自注 意力层(Addself-Attention)只采用了一个head,而且其打分公式如下所示:
s(K,Q)=Wα*tanh(K+Q)
其中Wα是得分向量的权重矩阵,初始化方式为glorot_uniform。
对于输入语料向量X,可将LmFeatureMap模块的输出Y表述为以下公 式:
X′=Maxpool(IDCNN(X))
X″=X′+ASAT(X′)
X″′=HW(X″)
Y=X″′+1/2FFN(X″′)
其中ASAT(),HW()分别代表Addself-Attention、HighwayNet。
LmFeatureMap模块通过膨胀卷积层(IDCNN)尽可能多提取到输入序列 从local到context的完整特征信息、使用最大池化层(Maxpool)保证Conv 的局部不变性和时间维度的粒度、然后依次通过加性自注意力层 (Addself-Attention)、高速卷积层(HighwayNet)、前馈神经网络(Feedforward) 进行高层次特征的提取映射得到输出。在最大池化层(Maxpool)与高速卷积 层(HighwayNet)之间加入ResNet加速神经网络的收敛。
(3)经过LmFeatureMap的数据进入LSTM网络模型进行解码,如图7 所示。该网络具有对时序数据建模和捕捉数据中时域相关性的强大能力,它 可以被看作是一个由多个门组成的记忆结构。门可以允许或阻止信息沿着序 列传递,从而捕获长期依赖关系,得到语言模型的特征输出信息。LSTM的 公式如下所示:
Figure BDA0003215813920000101
Figure BDA0003215813920000102
Figure BDA0003215813920000111
Figure BDA0003215813920000112
Figure BDA0003215813920000113
Figure BDA0003215813920000114
其中,
Figure BDA0003215813920000115
是隐藏层l-1层在时刻t的隐藏状态,
Figure BDA0003215813920000116
是隐藏层l层在时刻t-1 的记忆单元,
Figure BDA0003215813920000117
分别是隐藏层l层的遗忘门权重矩阵、输入门权重矩 阵、更新门权重矩阵、输出门权重矩阵,
Figure BDA0003215813920000118
分别是隐藏层l层的遗忘门 偏差、输入门偏差、更新门偏差、输出门偏差。
(4)训练阶段采用损失函数为均方误差,通过Adam优化方式计算每个 参数的自适应学习率,来优化目标函数的模型参数。θt是要优化的参数,而gt是相应的梯度,则θt+1优化公式如下所示:
αt=r1αt-1+(1-r1)gt
Figure BDA0003215813920000119
αt=αt/(1-r1)
βt=βt/(1-r2)
Figure BDA00032158139200001110
其中,αt和βt分别是梯度的第一矩和第二矩,η是学习率,参数r1,r2和ε 分别设置为0.9,0.999,10-8
训练完成后得到预训练语言模型。
三、声学模型与语言模型的训练与联合优化
将得到的声学模型输出特征与预训练语言模型的输出特征同时输入联合 优化网络,如图8所示。该联合优化网络由三层全连接层、tanh激活层与 softmax构成。声学模型与语言模型输入分别流入全连接层,该全连接层输入 维度为1024,随后将两个全连接层输出扩大一个维度,通过tanh激活层后流 入第三层全连接层,该层输入维度与词典大小相同。最后第三层全连接层输 出流入softmax做归一化后输出通过训练得到其网络权重与偏置。可表述为如 下公式:
Figure BDA0003215813920000121
Figure BDA0003215813920000122
Figure BDA0003215813920000123
p(y)=Softmax(zt,u)
其中,LM(),AM()分别表示预训练语言模型与声学模型,
Figure BDA0003215813920000124
zt,u,p(y)分 别表示预训练语言模型、声学模型、联合优化网络、softmax层的输出。
最后使用CTC损失函数得到模型预测值和训练标签的差异。优化器采用 Adamax,此方法对学习率的上限提供了一个更简单的范围。其参数设置如下:
learning_rate:0.0001β1:0.9β2:0.98epsilon:0.000001
将得到的损失信息利用后向传播算法计算梯度优化网络模型参数。训练 得到声学模型与语言模型联合优化的中文语音识别算法。
四、最后输入语音通过步骤一至步骤三输入训练好的模型,获得最终识 别结果。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的 保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范 围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落 在本发明的保护范围内。

Claims (7)

1.一种声学和语言模型训练及联合优化的中文语音识别方法,其特征在于,包括如下步骤:
步骤一,对声学模型进行训练;
步骤二,对预训练语言模型进行训练;
步骤三,将得到的声学模型输出特征与预训练语言模型的输出特征同时输入联合优化网络,通过训练得到网络权重与偏置,最后使用CTC损失函数得到模型预测值和训练样本之间的差异,将得到的损失信息利用后向传播算法计算梯度优化网络模型参数,训练得到声学模型与语言模型联合优化的中文语音识别算法;
步骤四,输入语音通过步骤一到步骤三输入训练好的模型,获得最终的识别结果。
声学模型的具体训练方法如下:
(1.1)对于输入训练语音,使用滤波器放大高频,随后通过窗长度为25ms,步长为10ms的滑动窗口截取语音信号作为一帧,将得到的每帧信号进行短时傅里叶变换,得到语音信号的声谱图,将得到的声谱图经过mel-80滤波器组得到符合人耳听觉习惯的声谱,取log得到输入语音信号的80-channel Fbank特征;
(1.2)将步骤(1.1)中得到的80-channel Fbank特征通过AmPreNet网络进行预处理;
(1.3)AmPreNet输出的数据进入16层ConformerBlock进行解码。数据依次通过前馈神经网络、多头注意力层、卷积块、层归一化得到输出,层与层之间加入ResNet加速神经网络的收敛。
预训练语言模型的具体训练方法如下:
(2.1)对于输入的中文语料,首先根据汉字与拼音的映射关系建立语料库,然后通过one-hot编码转换为语料向量,语料向量进入LmPreNet,通过两层的前馈神经网络将网络原始输入映射到特征空间;
(2.2)处理后的中文语料特征向量输入LmFeatureMap网络;
(2.3)经过LmFeatureMap网络的数据进入LSTM网络模型进行解码,得到语言模型的特征输出信息。
2.根据权利要求1所述的一种声学和语言模型训练及联合优化的中文语音识别方法,其特征在于,所述步骤(1.1)中使用的滤波器为Pre-Emphasis滤波器,滤波器公式如下:
x(n)′=x(n)-λ*x(n-1)
所述短时傅里叶变换,公式如下:
Figure FDA0003215813910000021
其中,λ为0.97,
其中w(τ-t)为分析窗函数,公式如下:
Figure FDA0003215813910000022
将经过短时傅里叶变换的信号化为声谱图的公式如下:
Figure FDA0003215813910000023
其中NFFT设置为512。
3.根据权利要求2所述的一种声学和语言模型训练及联合优化的中文语音识别方法,其特征在于,所述步骤(1.2)中的AmPreNet网络包含两层二维卷积层、一层全连接层、一层Dropout层,二维卷积层的卷积核尺寸为3*3,步长为2*2,个数为32,激活函数为relu,padding设置为samepadding,Dropout的Pdrop=0.1。
4.根据权利要求1所述的一种声学和语言模型训练及联合优化的中文语音识别方法,其特征在于,所述步骤(2.1)中建立语料库的具体方法为:首先将每条数据单独存储一行,根据训练数据的字出现的次数进行统计,去除词频在5以下的字,每个字给予一个ID,一一对应后建立词典。
5.根据权利要求4所述的一种声学和语言模型训练及联合优化的中文语音识别方法,其特征在于,所述步骤(2.1)中LmPreNet神经网络含有1个嵌入层、2个全连接层、2个Dropout层,所述嵌入层参数尺寸为[vocab_size,embed_size],其中vocab_size为词典的大小,embed_size为一个one-hot向量嵌入后向量的长度,大小设置为300;2个所述全连接层输出维度分别为300和150,其激活函数为relu函数;2个所述Dropout层的Pdrop=0.5。
6.根据权利要求5所述的一种声学和语言模型训练及联合优化的中文语音识别方法,其特征在于,步骤(2.2)中,所述LmFeatureMap网络由膨胀卷积层、最大池化层、加性自注意力层、高速卷积层、前馈神经网络,所述膨胀卷积层由4个结构相同的DilatedCNN Block构成,每个所述DilatedCNN Block由膨胀步长为1、1、2的3层DilatedCNN构成,所述DilatedCNN卷积核大小为3*3,步长为1*1,激活函数为relu,padding设置为samepadding;所述最大池化层是池化窗口大小为2,步长为1,padding为samepadding的一维池化层。
7.根据权利要求6所述的一种声学和语言模型训练及联合优化的中文语音识别方法,其特征在于,所述步骤三中的联合优化网络由三层全连接层、tanh激活层与softmax构成,声学模型与语言模型输入分别流入全连接层,该全连接层输入维度为1024,随后将两个全连接层输出扩大一个维度,通过tanh激活层后流入第三层全连接层,该层输入维度与词典大小相同,最后第三层全连接层输出流入softmax做归一化后输出,该输出为联合优化网络输出,可表述为如下公式:
Figure FDA0003215813910000031
Figure FDA0003215813910000032
Figure FDA0003215813910000033
p(y)=Softmax(zt,u)
其中,LM(),AM()分别表示预训练语言模型与声学模型,
Figure FDA0003215813910000041
zt,u,p(y)分别表示预训练语言模型、声学模型、联合优化网络、softmax层的输出。
CN202110943687.2A 2021-08-17 2021-08-17 一种声学和语言模型训练及联合优化的中文语音识别方法 Active CN113808581B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110943687.2A CN113808581B (zh) 2021-08-17 2021-08-17 一种声学和语言模型训练及联合优化的中文语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110943687.2A CN113808581B (zh) 2021-08-17 2021-08-17 一种声学和语言模型训练及联合优化的中文语音识别方法

Publications (2)

Publication Number Publication Date
CN113808581A true CN113808581A (zh) 2021-12-17
CN113808581B CN113808581B (zh) 2024-03-12

Family

ID=78893707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110943687.2A Active CN113808581B (zh) 2021-08-17 2021-08-17 一种声学和语言模型训练及联合优化的中文语音识别方法

Country Status (1)

Country Link
CN (1) CN113808581B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114464182A (zh) * 2022-03-03 2022-05-10 慧言科技(天津)有限公司 一种音频场景分类辅助的语音识别快速自适应方法
CN114822541A (zh) * 2022-04-25 2022-07-29 中国人民解放军军事科学院国防科技创新研究院 一种基于回译的无声语音识别方法和系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272990A (zh) * 2018-09-25 2019-01-25 江南大学 基于卷积神经网络的语音识别方法
CN109272988A (zh) * 2018-09-30 2019-01-25 江南大学 基于多路卷积神经网络的语音识别方法
CN109427328A (zh) * 2017-08-28 2019-03-05 中国科学院声学研究所 一种基于滤波网络声学模型的多通道语音识别方法
WO2019212375A1 (ru) * 2018-05-03 2019-11-07 Общество с ограниченной ответственностью "Центр речевых технологий" Способ получения дикторозависимых малоразмерных высокоуровневых акустических признаков речи
CN111653275A (zh) * 2020-04-02 2020-09-11 武汉大学 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法
US20200327884A1 (en) * 2019-04-12 2020-10-15 Adobe Inc. Customizable speech recognition system
CN111968629A (zh) * 2020-07-08 2020-11-20 重庆邮电大学 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法
CN111986661A (zh) * 2020-08-28 2020-11-24 西安电子科技大学 复杂环境下基于语音增强的深度神经网络语音识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109427328A (zh) * 2017-08-28 2019-03-05 中国科学院声学研究所 一种基于滤波网络声学模型的多通道语音识别方法
WO2019212375A1 (ru) * 2018-05-03 2019-11-07 Общество с ограниченной ответственностью "Центр речевых технологий" Способ получения дикторозависимых малоразмерных высокоуровневых акустических признаков речи
CN109272990A (zh) * 2018-09-25 2019-01-25 江南大学 基于卷积神经网络的语音识别方法
CN109272988A (zh) * 2018-09-30 2019-01-25 江南大学 基于多路卷积神经网络的语音识别方法
US20200327884A1 (en) * 2019-04-12 2020-10-15 Adobe Inc. Customizable speech recognition system
CN111653275A (zh) * 2020-04-02 2020-09-11 武汉大学 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法
CN111968629A (zh) * 2020-07-08 2020-11-20 重庆邮电大学 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法
CN111986661A (zh) * 2020-08-28 2020-11-24 西安电子科技大学 复杂环境下基于语音增强的深度神经网络语音识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
武阳;余综;: "基于CNN的扩展混合端到端中文语音识别模型", 青岛科技大学学报(自然科学版), no. 01, 15 February 2020 (2020-02-15) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114464182A (zh) * 2022-03-03 2022-05-10 慧言科技(天津)有限公司 一种音频场景分类辅助的语音识别快速自适应方法
CN114464182B (zh) * 2022-03-03 2022-10-21 慧言科技(天津)有限公司 一种音频场景分类辅助的语音识别快速自适应方法
CN114822541A (zh) * 2022-04-25 2022-07-29 中国人民解放军军事科学院国防科技创新研究院 一种基于回译的无声语音识别方法和系统
CN114822541B (zh) * 2022-04-25 2024-06-04 中国人民解放军军事科学院国防科技创新研究院 一种基于回译的无声语音识别方法和系统

Also Published As

Publication number Publication date
CN113808581B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN108777140B (zh) 一种非平行语料训练下基于vae的语音转换方法
CN108597539B (zh) 基于参数迁移和语谱图的语音情感识别方法
Hinton et al. Improving neural networks by preventing co-adaptation of feature detectors
CN109189925A (zh) 基于点互信息的词向量模型和基于cnn的文本分类方法
CN109801621A (zh) 一种基于残差门控循环单元的语音识别方法
CN113808581A (zh) 一种声学和语言模型训练及联合优化的中文语音识别方法
CN114550703A (zh) 语音识别系统的训练方法和装置、语音识别方法和装置
Chen Simulation of English speech emotion recognition based on transfer learning and CNN neural network
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
Cai et al. Convolutional maxout neural networks for low-resource speech recognition
Zhang et al. Data Independent Sequence Augmentation Method for Acoustic Scene Classification.
Chen et al. Deep neural networks for Mandarin tone recognition
Ying et al. Design of speech emotion recognition algorithm based on deep learning
Watrous¹ et al. Learned phonetic discrimination using connectionist networks
Hajj et al. Weighted entropy cortical algorithms for isolated Arabic speech recognition
Deng et al. History utterance embedding transformer lm for speech recognition
CN112700796B (zh) 一种基于交互式注意力模型的语音情感识别方法
Kumar et al. A hybrid CNN-LiGRU acoustic modeling using raw waveform sincnet for Hindi ASR
Zhang et al. A multilingual framework based on pre-training model for speech emotion recognition
CN111310892B (zh) 一种基于独立循环神经网络的语言模型建模方法
Hu et al. Speaker Recognition Based on 3DCNN-LSTM.
Hao et al. A Speech Recognition Algorithm of Speaker-Independent Chinese Isolated Words Based on RNN-LSTM and Attention Mechanism
Wani et al. A review of deep learning architectures for speech and audio processing
Bilcu et al. A study on different neural network architectures applied to text-to-phoneme mapping

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant