CN111968629A - 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法 - Google Patents

一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法 Download PDF

Info

Publication number
CN111968629A
CN111968629A CN202010651174.XA CN202010651174A CN111968629A CN 111968629 A CN111968629 A CN 111968629A CN 202010651174 A CN202010651174 A CN 202010651174A CN 111968629 A CN111968629 A CN 111968629A
Authority
CN
China
Prior art keywords
model
cnn
layer
dfsmn
ctc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010651174.XA
Other languages
English (en)
Inventor
胡章芳
蹇芳
唐珊珊
明子平
姜博文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010651174.XA priority Critical patent/CN111968629A/zh
Publication of CN111968629A publication Critical patent/CN111968629A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明请求保护一种结合Transformer和CNN‑DFSMN‑CTC的中文语音识别方法,该方法包括步骤:S1,将语音信号进行预处理,提取80维的log mel Fbank特征;S2,将提取到的80维Fbank特征用CNN卷积网络进行卷积;S3,将特征输入到DFSMN网络结构中;S4,将CTC loss作为声学模型的损失函数,采用Beam search算法进行预测,使用Adam优化器进行优化;S5,引入强语言模型Transformer迭代训练直至达到最优模型结构;S6,将Transformer和声学模型CNN‑DFSMN‑CTC相结合进行适配,在多数据集上进行验证,最终得到最优识别结果。本发明识别准确率更高,解码速度更快,在多个数据集上验证后字符错误率达到了11.8%,其中在Aidatatang数据集上最好达到了7.8%的字符错误率。

Description

一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法
技术领域
本发明属于语音识别领域,特别是一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法。
背景技术
在语音识别发展领域,研究学者们致力于将语音信息尽量完整准确地转化成文本信息。语音识别的关键在于声学模型和语言模型两部分。在深度学习兴起应用到语音识别领域之前,声学模型已经有了非常成熟的模型体系,并且也有了被成功应用到实际系统中的案例。比如经典的高斯混合模型(Gaussian Mixed Model,GMM)和隐马尔可夫模型(Hidden Markov Model,HMM)等。神经网络和深度学习兴起以后,循环神经网络(RecurrentNeural Network,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)、注意力机制(Attention)等基于深度学习的声学模型和语言模型将此前各项基于传统声学模型和传统语言模型的识别案例错误率降低了一个级别。
在声学模型领域,Zhang,Shiliang等提出了新一代语音识别模型前馈序列记忆神经网络(Feedforward Sequential Memory Networks,FSMN),紧凑前馈序列记忆神经网络(Compact FSMN,CFSMN)以及深度前馈序列记忆神经网络(Deep FSMN,DFSMN)。其中FSMN是在标准的隐含层中使用类firfilter的内存块前馈神经网络,并在语言建模任务上的实验结果表明FSMN可以有效地学习长期历史;CFSMN是在FSMN基础上增加了投影矩阵,在语音识别交换机任务中,所提出的CFSMN结构可以使模型规模缩小60%,学习速度提高7倍以上,而在基于框架级交叉熵准则的训练和基于mini的序列训练方面,该模型仍能显著优于目前流行的双向LSTMs;而DFSMN在CFSMN的基础上增加了跳跃连接(Skip Connection),在中文语音识别任务上达到了85%的识别准确率。在语言模型领域中,A Vaswani等提出了基于注意力机制的新模型Transformer,并在英语数据集上进行了验证,结果显示比Attention模型效果更好;Zhou Shiyu等研究了将音节和音素作为Transformer模型的建模单元,在序列到序列语音识别系统上进行实验验证并得出基于音节的Transformer模型优于基于ci音素的对应模型,且与基于CTC-attention的联合编解码网络的字符错误率不相上下;DongLinhao等在Transformer模型上针对训练速度慢提出改进方法,经WSJ数据集实验验证后得到WER为10.9%,训练速度也得到了明显提升。但是Transformer作为语言模型,在自然语言处理中被大量使用,却没有被应用于语音识别中。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种可获得较高识别率、解码速度更快的基于CNN-DFSMN-CTC为声学模型,Transformer为语言模型的语音识别方法。本发明的技术方案如下:
一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,其包括以下步骤:
S1,输入语音信号,将语音信号进行预处理,结合低帧率LFR,先对语音信号预加重,再通过一个固定的10ms帧位移的25ms汉明窗口进行分析,并利用80个梅尔滤波器组提取80维的取对数后的梅尔滤波器(Filter banks,Fbank)特征;
S2,将提取到的80维Fbank特征用CNN卷积网络进行卷积;
S3,将特征输入到深度前馈序列记忆神经网络(Deep Feedforward SequentialMemory Networks,DFSMN)网络结构中,该网络结构一共有6层,模型深度为512维;
S4,将联结主义时间分类(Connectionist Temporal Classification,CTC)作为声学模型的损失函数,采用宽度参数设置为10的集束搜索(Beam search)算法进行预测,使用自适应时刻估计(Adaptive Moment Estimation,Adam)优化器进行优化,使得声学模型训练时使模型能达到更优;
S5,引入强语言模型Transformer迭代训练直至达到最优模型结构;
S6,将Transformer和声学模型CNN-DFSMN-CTC(卷积神经网络结合深度前馈序列神经网络及联结主义时间分类)相结合进行适配,在多数据集上进行验证,最终得到最优识别结果。
进一步的,所述步骤S1具体包括:
S11、对语音信号进行预加重处理:
x′[t]=x[t]-αx[t-1]
其中,x[t]表示音频数据的第t个数,α表示预加重系数,x′[t]表示预加重后的音频数据,α的取值范围是(0.95,0.99);
S12,对预加重的语音信号分帧加窗,采用10ms的帧移对25ms的语音信号用汉明窗进行分析:
x′[n]=w[n]x[n]
其中,x[n]是所取窗口(窗长为N)之内的第n个数,w[n]是与之对应的权重;x′[n]表示分帧加窗后的语音信号;
S13,对加窗后的语音信号做离散傅里叶变换,计算方式为:
Figure BDA0002575030750000031
其中,N表示傅里叶变换的点数,k表示傅里叶变换的第k个频谱,x[n]表示分帧加窗后的语音信号,X[k]表示通过频域转换后的频域信号分量;
S14,提取Fbank特征,首先将一般频率转换成梅尔频率,转换方式为:
Figure BDA0002575030750000032
该转换由梅尔滤波器组实现完成,具体为将离散傅里叶输出的能量频谱通过三角滤波器组得到梅尔频谱,再将梅尔频谱的能量数值取对数,得到的结果就是梅尔滤波器组Fbank特征。
进一步的,α的值为0.97。
进一步的,所述步骤S2将提取到的80维Fbank特征用CNN卷积网络进行卷积,具体包括:
利用卷积网络CNN对输入的Fbank特征进行卷积,CNN通过控制池化层的尺度来保证不同的输入转换后的维度相同,增加CNN卷积网络层后有利于解决输入和输出的不定长问题。
进一步的,所述步骤S3将特征信息输入到DFSMN结构中,DFSMN的参数公式为:
Figure BDA0002575030750000041
Figure BDA0002575030750000042
Figure BDA0002575030750000043
其中,
Figure BDA0002575030750000044
表示投影层t时刻l层的特征、Vl表示
Figure BDA0002575030750000045
Figure BDA0002575030750000046
转换系数,
Figure BDA0002575030750000047
表示更新后的
Figure BDA0002575030750000048
为对应的时不变系数,⊙表示为点乘,
Figure BDA0002575030750000049
表示降维后的投影层特征,
Figure BDA00025750307500000410
为对应的时不变系数,
Figure BDA00025750307500000411
表示降维后的投影层特征,
Figure BDA00025750307500000412
表示为t时刻l+1层的特征,Ul表示
Figure BDA00025750307500000413
转向
Figure BDA00025750307500000414
的系数,bl+1表示第l+1层的参数系数,f表示函数,
Figure BDA00025750307500000415
表示低层Memory Block与高层Memory Block的连接形式,若将低层的Memory直接添加到高层的Memory Block中,则
Figure BDA00025750307500000416
进一步的,所述步骤S4增加CTC loss作为声学模型的损失函数,对于一对输入输出(X|Y)来说,CTC的损失函数定义为:
Figure BDA00025750307500000417
其中,p(z|x)代表给定输入x,输出序列z的概率,S为训练集,给定样本后输出正确label的概率的乘积,再取负对数后通过最小化损失函数,就可以使输出正确的label的概率达到最大;
在对模型进行预测时,采用Beam search算法,该算法步骤为:
(1)使用广度优先策略建立搜索树,在树的每一层,按照启发代价对节点进行排序,然后仅留下预先确定的个数的节点,仅这些节点在下一层次继续扩展,其他节点就被剪掉了。
(2)将初始节点插入到list中;
(3)将给节点出堆,如果该节点是目标节点,则算法结束;否则扩展该节点,取集束宽度的节点入堆。然后到第二步继续循环。算法结束的条件是找到最优解或者堆为空。
经实验验证后,在本系统中将宽度参数设置为10时,该算法性能最优。
进一步的,所述步骤S4对于预测模型的优化器选择,使用Adam优化器,它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,Adam经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳,其公式如下:
mt=μ*mt-1+(1-μ)*gt
Figure BDA0002575030750000051
Figure BDA0002575030750000052
Figure BDA0002575030750000053
Figure BDA0002575030750000054
其中,mt,nt分别是对梯度的一阶矩估计和二阶矩估计;μ表示一阶矩衰减系数,v表示二阶矩衰减系数,gt表示一阶梯度,
Figure BDA0002575030750000055
表示二阶梯度,
Figure BDA0002575030750000056
是对mt,nt的校正;根据以上所述构建出完整的CNN-DFSMN-CTC声学模型。
进一步的,所述步骤S5中引入强语言模型Transformer,Transformer包括编码和解码两个模块,编码过程为:
在输入中嵌入具有相同的模型维数的位置编码,位置编码采用不同频率的正弦和余弦函数,表示为:
Figure BDA0002575030750000057
Figure BDA0002575030750000058
其中,dmodel表示模型的维数,pos是位置,i是维数,位置编码的每一维对应一个正弦信号,波长以几何级数的形式从2π增长到10000·2π;
求解多头自注意力输出,包括以下步骤:
生成查询向量Q、键向量K、值向量V,表示为:
qi=Wqxi
ki=Wkxi
vi=Wvxi
其中,qi表示语句中第i个字的查询向量,ki表示语句中第i个字的键向量,vi表示语句中第i个字的值向量,xi表示语句中第i个字,Wq、Wk、Wv分别表示q、k、v的权重系数。
利用softmax层计算注意力分数,再计算自注意力,自注意力计算方法为:
Figure BDA0002575030750000061
接着再计算多头注意力,其计算方法为:
headi=Attention(QWi Q,KWi K,VWi V)
MultiHead(Q,K,V)=Concat(head1,head2,...,headn)WO
其中,dk表示键向量的维度,MultiHead(Q,K,V)表示多头注意力,Concat()函数表示用于连接两个或多个数组,dmodel表示模型的维度,
Figure BDA0002575030750000062
Figure BDA0002575030750000063
残差连接以及归一化,防止经过多层前向计算后数据偏差过大,造成梯度问题;连接全连接层,在该层网络中,采取矩阵变换结合relu非线性激活。
进一步的,Transformer的解码过程与编码过程类似,包括以下步骤:
输入包含Q,K,V,且需要嵌入位置编码,K和V来自于编码器,Q来自于上一位置解码器的输出;
输出是对应i位置的输出词的概率分布;
解码器结构与编码器类似,与编码器相比多了一个masked self-attention,解码时对于输入一个一个有序解码,最终得到解码结果。
本发明的优点及有益效果如下:
本发明提供了一种基于CNN-DFSMN-CTC为声学模型,Transformer为语言模型的语音识别方法。在当前语音识别中通常采用强声学模型结合弱语言模型的组合,一般采用N-gram模型作为语言模型。然而该语言模型存在忽略词条语义相似性,参数过大导致计算量太大等问题,从而限制了字符错误率的降低。因此本发明改变了研究方法,引入Transformer模型作为语言模型。Transformer模型作为注意力机制模型之一,常用于自然语言处理中,并在该领域中脱颖而出,在解码速度和识别准确率上都具有优良的性能,但是并没有作为语言模型应用于语音识别中。同时,本发明在声学模型的构建中,结合了CNN网络,DFSMN网络,以及CTC损失函数构成CNN-DFSMN-CTC声学模型,利用集数搜索算法进行预测,Adam优化器进行优化,提高了声学模型的训练速度和识别准确率。最后将声学模型CNN-DFSMN-CTC结合Transformer联合构建语音识别系统,相较于其他语音识别方法,本发明提出的方法识别准确率更高,解码速度更快,在多个数据集上验证后字符错误率达到了11.8%,其中在Aidatatang数据集上最好达到了7.8%的字符错误率。
附图说明
图1是本发明提供优选实施例基于CNN-DFSMN-CTC为声学模型,Transformer为语言模型的语音识别方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图1所示,本发明提供了一种基于CNN-DFSMN-CTC为声学模型,Transformer为语言模型的语音识别方法,其特征在于,包括以下步骤:
S1,将语音信号进行预处理,结合低帧率LFR,先对语音信号预加重,再通过一个固定的10ms帧位移的25ms汉明窗口进行分析,并利用80个mel滤波器组提取80维的取对数后的梅尔滤波器(Filter banks,Fbank)特征;
S2,将提取到的80维Fbank特征用CNN卷积网络进行卷积,CNN通过控制池化层的尺度来保证不同的输入转换后的维度相同,有利于解决输入和输出的不定长问题;
S3,将特征输入到深度前馈序列记忆神经网络(Deep Feedforward SequentialMemory Networks,DFSMN)网络结构中,该网络结构一共有6层,模型深度为512维。DFSMN的参数公式为:
Figure BDA0002575030750000081
Figure BDA0002575030750000082
Figure BDA0002575030750000083
其中,
Figure BDA0002575030750000084
表示投影层t时刻l层的特征、Vl表示
Figure BDA0002575030750000085
Figure BDA00025750307500000817
转换系数,
Figure BDA0002575030750000086
表示更新后的
Figure BDA0002575030750000087
为对应的时不变系数,⊙表示为点乘,
Figure BDA0002575030750000088
表示降维后的投影层特征,
Figure BDA0002575030750000089
为对应的时不变系数,
Figure BDA00025750307500000810
表示降维后的投影层特征,
Figure BDA00025750307500000811
表示为t时刻l+1层的特征,Ul表示
Figure BDA00025750307500000812
转向
Figure BDA00025750307500000813
的系数,bl+1表示第l+1层的参数系数,f表示函数,
Figure BDA00025750307500000814
表示低层Memory Block与高层Memory Block的连接形式。若将低层的Memory直接添加到高层的Memory Block中,则
Figure BDA00025750307500000815
S4,将联结主义时间分类(Connectionist Temporal Classification,CTC)作为声学模型的损失函数,该损失函数有利于loss的收敛,对于一对输入输出(X|Y)来说,CTC的损失函数定义为:
Figure BDA00025750307500000816
其中,p(z|x)代表给定输入x,输出序列z的概率,S为训练集。给定样本后输出正确label的概率的乘积,再取负对数后通过最小化损失函数,就可以使输出正确的label的概率达到最大。
在对模型进行预测时,采用Beam search算法,并经试验验证后,将宽度参数设置为10时,该算法性能最优。
对于预测模型的优化器选择,使用Adam优化器,它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳。
其公式如下:
mt=μ*mt-1+(1-μ)*gt
Figure BDA0002575030750000091
Figure BDA0002575030750000092
Figure BDA0002575030750000093
Figure BDA0002575030750000094
其中mt,nt分别是对梯度的一阶矩估计和二阶矩估计;μ表示一阶矩衰减系数,v表示二阶矩衰减系数,gt表示一阶梯度,
Figure BDA0002575030750000095
表示二阶梯度,
Figure BDA0002575030750000096
是对mt,nt的校正。
根据以上所述构建出完整的CNN-DFSMN-CTC声学模型。
S5,引入强语言模型Transformer,Transformer包括编码和解码两个模块,编码过程为:
在输入中嵌入具有相同的模型维数的位置编码,位置编码采用不同频率的正弦和余弦函数,表示为:
Figure BDA0002575030750000097
Figure BDA0002575030750000098
其中,dmodel表示模型的维数,pos是位置,i是维数。位置编码的每一维对应一个正弦信号。波长以几何级数的形式从2π增长到10000·2π;
求解多头自注意力输出。包括以下步骤:
生成查询向量Q、键向量K、值向量V,表示为:
qi=Wqxi
ki=Wkxi
vi=Wvxi
其中,qi表示语句中第i个字的查询向量,ki表示语句中第i个字的键向量,vi表示语句中第i个字的值向量,xi表示语句中第i个字,Wq、Wk、Wv分别表示q、k、v的权重系数。
利用softmax层计算注意力分数,再计算自注意力。自注意力计算方法为:
Figure BDA0002575030750000101
接着再计算多头注意力,其计算方法为:
headi=Attention(QWi Q,KWi K,VWi V)
MultiHead(Q,K,V)=Concat(head1,head2,...,headn)WO
其中,dk表示键向量的维度,MultiHead(Q,K,V)表示多头注意力,Concat()函数表示用于连接两个或多个数组,dmodel表示模型的维度,
Figure BDA0002575030750000102
Figure BDA0002575030750000103
残差连接以及归一化。防止经过多层前向计算后数据偏差过大,造成梯度问题;
连接全连接层。在该层网络中,采取矩阵变换结合relu非线性激活。
Transformer的解码过程与编码过程类似,包括以下步骤:
输入包含Q,K,V,且需要嵌入位置编码,K和V来自于编码器,Q来自于上一位置解码器的输出;
输出是对应i位置的输出词的概率分布;
解码器结构与编码器类似,与编码器相比多了一个masked self-attention,解码时对于输入一个一个有序解码,最终得到解码结果;
S6,将Transformer和声学模型CNN-DFSMN-CTC相结合进行适配,在多数据集上进行验证,证明了模型结合的可行性以及结合后模型性能的优良性。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (9)

1.一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,其特征在于,包括以下步骤:
S1,输入语音信号,将语音信号进行预处理,结合低帧率LFR,先对语音信号预加重,再通过一个固定的10ms帧位移的25ms汉明窗口进行分析,并利用80个梅尔滤波器组提取80维的取对数后的梅尔滤波器Fbank特征;
S2,将提取到的80维Fbank特征用CNN卷积网络进行卷积;
S3,将特征输入到深度前馈序列记忆神经网络DFSMN网络结构中,该网络结构一共有6层,模型深度为512维;
S4,将联结主义时间分类CTC作为声学模型的损失函数,采用宽度参数设置为10的集束搜索Beam search算法进行预测,使用自适应时刻估计Adam优化器进行优化,使得声学模型训练时使模型能达到更优;
S5,引入强语言模型Transformer迭代训练直至达到最优模型结构;
S6,将Transformer和声学模型CNN-DFSMN-CTC卷积神经网络结合深度前馈序列神经网络及联结主义时间分类相结合进行适配,在多数据集上进行验证,最终得到最优识别结果。
2.根据权利要求1所述的一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,其特征在于,所述步骤S1具体包括:
S11、对语音信号进行预加重处理:
x′[t]=x[t]-αx[t-1]
其中,x[t]表示音频数据的第t个数,α表示预加重系数,x′[t]表示预加重后的音频数据,α的取值范围是(0.95,0.99);
S12,对预加重的语音信号分帧加窗,采用10ms的帧移对25ms的语音信号用汉明窗进行分析:
x′[n]=w[n]x[n]
其中,x[n]表示所取窗口(窗长为N)之内的第n个数,w[n]表示与之对应的权重,x′[n]表示分帧加窗后的语音信号;
S13,对加窗后的语音信号做离散傅里叶变换,计算方式为:
Figure RE-FDA0002707674460000021
其中,N表示傅里叶变换的点数,k表示傅里叶变换的第k个频谱,x[n]表示分帧加窗后的语音信号,X[k]表示通过频域转换后的频域信号分量;
S14,提取Fbank特征,首先将一般频率转换成梅尔频率,转换方式为:
Figure RE-FDA0002707674460000022
该转换由梅尔滤波器组实现完成,具体为将离散傅里叶输出的能量频谱通过三角滤波器组得到梅尔频谱,再将梅尔频谱的能量数值取对数,得到的结果就是Fbank特征。
3.根据权利要求2所述的一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,其特征在于,α的值为0.97。
4.根据权利要求1所述的一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,其特征在于,所述步骤S2将提取到的80维Fbank特征用CNN卷积网络进行卷积,具体包括:
利用卷积网络CNN对输入的Fbank特征进行卷积,CNN通过控制池化层的尺度来保证不同的输入转换后的维度相同,增加CNN卷积网络层后有利于解决输入和输出的不定长问题。
5.根据权利要求4所述的一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,其特征在于,所述步骤S3将特征信息输入到DFSMN结构中,DFSMN的参数公式为:
Figure RE-FDA0002707674460000023
Figure RE-FDA0002707674460000024
Figure RE-FDA0002707674460000025
其中,Pt l表示投影层t时刻l层的特征、Vl表示
Figure RE-FDA0002707674460000031
向Pt l转换系数,
Figure RE-FDA0002707674460000032
表示更新后的Pt l
Figure RE-FDA0002707674460000033
为对应的时不变系数,⊙表示为点乘,
Figure RE-FDA0002707674460000034
表示降维后的投影层特征,
Figure RE-FDA0002707674460000035
为对应的时不变系数,
Figure RE-FDA0002707674460000036
表示降维后的投影层特征,
Figure RE-FDA0002707674460000037
表示为t时刻l+1层的特征,Ul表示
Figure RE-FDA0002707674460000038
转向
Figure RE-FDA0002707674460000039
的系数,bl+1表示第l+1层的参数系数,f表示函数,
Figure RE-FDA00027076744600000310
表示低层Memory Block与高层Memory Block的连接形式,若将低层的Memory直接添加到高层的Memory Block中,则
Figure RE-FDA00027076744600000311
6.根据权利要求5所述的一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,其特征在于,所述步骤S4增加CTC loss作为声学模型的损失函数,对于一对输入输出(X|Y)来说,CTC的损失函数定义为:
Figure RE-FDA00027076744600000312
其中,p(z|x)代表给定输入x,输出序列z的概率,S为训练集,给定样本后输出正确label的概率的乘积,再取负对数后通过最小化损失函数,就可以使输出正确的label的概率达到最大;
在对模型进行预测时,采用Beam search算法,该算法步骤为:
(1)使用广度优先策略建立搜索树,在树的每一层,按照启发代价对节点进行排序,然后仅留下预先确定的个数的节点,仅这些节点在下一层次继续扩展,其他节点就被剪掉了。
(2)将初始节点插入到list中;
(3)将给节点出堆,如果该节点是目标节点,则算法结束;否则扩展该节点,取集束宽度的节点入堆。然后到第二步继续循环。算法结束的条件是找到最优解或者堆为空;
经实验验证后,在本系统中将宽度参数设置为10时,该算法性能最优。
7.根据权利要求6所述的一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,其特征在于,所述步骤S4对于预测模型的优化器选择,使用Adam优化器,它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,Adam经过偏置校正后,每一次迭代学习率都有个确定范围,使得参数比较平稳,其公式如下:
mt=μ*mt-1+(1-μ)*gt
Figure RE-FDA0002707674460000041
Figure RE-FDA0002707674460000042
Figure RE-FDA0002707674460000043
Figure RE-FDA0002707674460000044
其中,mt,nt分别是对梯度的一阶矩估计和二阶矩估计;μ表示一阶矩衰减系数,v表示二阶矩衰减系数,gt表示一阶梯度,
Figure RE-FDA0002707674460000048
表示二阶梯度,
Figure RE-FDA0002707674460000045
是对mt,nt的校正;根据以上所述构建出完整的CNN-DFSMN-CTC声学模型。
8.根据权利要求7所述的一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,其特征在于,所述步骤S5中引入强语言模型Transformer,Transformer包括编码和解码两个模块,编码过程为:
在输入中嵌入具有相同的模型维数的位置编码,位置编码采用不同频率的正弦和余弦函数,表示为:
Figure RE-FDA0002707674460000046
Figure RE-FDA0002707674460000047
其中,dmodel表示模型的维数,pos是位置,i是维数,位置编码的每一维对应一个正弦信号,波长以几何级数的形式从2π增长到10000·2π;
求解多头自注意力输出,包括以下步骤:
生成查询向量Q、键向量K、值向量V,表示为:
qi=Wqxi
ki=Wkxi
vi=Wvxi
其中,qi表示语句中第i个字的查询向量,ki表示语句中第i个字的键向量,vi表示语句中第i个字的值向量,xi表示语句中第i个字,Wq、Wk、Wv分别表示q、k、v的权重系数。
利用softmax层计算注意力分数,再计算自注意力,自注意力计算方法为:
Figure RE-FDA0002707674460000051
接着再计算多头注意力,其计算方法为:
headi=Attention(QWi Q,KWi K,VWi V)
MultiHead(Q,K,V)=Concat(head1,head2,...,headn)WO
其中,dk表示键向量的维度,MultiHead(Q,K,V)表示多头注意力,Concat()函数表示用于连接两个或多个数组,dmodel表示模型的维度,
Figure RE-FDA0002707674460000052
Figure RE-FDA0002707674460000053
残差连接以及归一化,防止经过多层前向计算后数据偏差过大,造成梯度问题;连接全连接层,在该层网络中,采取矩阵变换结合relu非线性激活。
9.根据权利要求8所述的一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,其特征在于,Transformer的解码过程与编码过程类似,包括以下步骤:
输入包含Q,K,V,且需要嵌入位置编码,K和V来自于编码器,Q来自于上一位置解码器的输出;
输出是对应i位置的输出词的概率分布;
解码器结构与编码器类似,与编码器相比多了一个masked self-attention,解码时对于输入一个一个有序解码,最终得到解码结果。
CN202010651174.XA 2020-07-08 2020-07-08 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法 Pending CN111968629A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010651174.XA CN111968629A (zh) 2020-07-08 2020-07-08 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010651174.XA CN111968629A (zh) 2020-07-08 2020-07-08 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法

Publications (1)

Publication Number Publication Date
CN111968629A true CN111968629A (zh) 2020-11-20

Family

ID=73361433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010651174.XA Pending CN111968629A (zh) 2020-07-08 2020-07-08 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法

Country Status (1)

Country Link
CN (1) CN111968629A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112653142A (zh) * 2020-12-18 2021-04-13 武汉大学 优化深度Transformer网络的风电功率预测方法及系统
CN112669824A (zh) * 2020-12-23 2021-04-16 苏州思必驰信息科技有限公司 构建声学模型的方法、语音识别系统和语音识别方法
CN112802467A (zh) * 2020-12-21 2021-05-14 出门问问(武汉)信息科技有限公司 语音识别方法及装置
CN112967710A (zh) * 2021-03-25 2021-06-15 江西师范大学 一种低资源客家方言点识别方法
CN112986941A (zh) * 2021-02-08 2021-06-18 天津大学 一种雷达目标微动特征提取方法
CN113076819A (zh) * 2021-03-17 2021-07-06 山东师范大学 同色系背景下的果实识别方法、装置及果实采摘机器人
CN113205814A (zh) * 2021-04-28 2021-08-03 平安科技(深圳)有限公司 语音数据标注方法、装置、电子设备及存储介质
CN113257230A (zh) * 2021-06-23 2021-08-13 北京世纪好未来教育科技有限公司 语音处理方法及装置、计算机可存储介质
CN113257248A (zh) * 2021-06-18 2021-08-13 中国科学院自动化研究所 一种流式和非流式混合语音识别系统及流式语音识别方法
CN113436621A (zh) * 2021-06-01 2021-09-24 深圳市北科瑞声科技股份有限公司 一种基于gpu语音识别的方法、装置、电子设备及存储介质
CN113808581A (zh) * 2021-08-17 2021-12-17 山东大学 一种声学和语言模型训练及联合优化的中文语音识别方法
CN114023316A (zh) * 2021-11-04 2022-02-08 匀熵科技(无锡)有限公司 基于TCN-Transformer-CTC的端到端中文语音识别方法
CN114187898A (zh) * 2021-12-31 2022-03-15 电子科技大学 一种基于融合神经网络结构的端到端语音识别方法
CN114550706A (zh) * 2022-02-21 2022-05-27 苏州市职业大学 基于深度学习的智慧校园语音识别方法
CN114626424A (zh) * 2022-05-16 2022-06-14 天津大学 一种基于数据增强的无声语音识别方法及装置
CN114897004A (zh) * 2022-04-15 2022-08-12 成都理工大学 一种基于深度学习Transformer模型的梯形堆积核脉冲识别方法
CN115456114A (zh) * 2022-11-04 2022-12-09 之江实验室 一种模型训练和业务执行的方法、装置、介质及设备
CN115910044A (zh) * 2023-01-10 2023-04-04 广州小鹏汽车科技有限公司 语音识别方法、装置及车辆
CN116415741A (zh) * 2023-06-10 2023-07-11 国网山西省电力公司晋城供电公司 一种基于深度学习的燃煤电厂用煤量预测方法及系统
CN116580706A (zh) * 2023-07-14 2023-08-11 合肥朗永智能科技有限公司 一种基于人工智能的语音识别方法
CN117912027A (zh) * 2024-03-18 2024-04-19 山东大学 一种适用于rpa流程自动化的智能识别方法及系统
CN112802467B (zh) * 2020-12-21 2024-05-31 出门问问(武汉)信息科技有限公司 语音识别方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112447168A (zh) * 2019-09-05 2021-03-05 阿里巴巴集团控股有限公司 语音识别系统、方法、音箱、显示设备和交互平台
CN113257248A (zh) * 2021-06-18 2021-08-13 中国科学院自动化研究所 一种流式和非流式混合语音识别系统及流式语音识别方法
WO2021218843A1 (zh) * 2020-04-30 2021-11-04 阿里巴巴集团控股有限公司 流式端到端语音识别方法、装置及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112447168A (zh) * 2019-09-05 2021-03-05 阿里巴巴集团控股有限公司 语音识别系统、方法、音箱、显示设备和交互平台
WO2021218843A1 (zh) * 2020-04-30 2021-11-04 阿里巴巴集团控股有限公司 流式端到端语音识别方法、装置及电子设备
CN113257248A (zh) * 2021-06-18 2021-08-13 中国科学院自动化研究所 一种流式和非流式混合语音识别系统及流式语音识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ASHISH VASWANI 等: ""Attention is all you need"", 《HTTPS://ARXIV.ORG/ABS/1706.03762》 *
SHILIANG ZHANG 等: ""Automatic Spelling Correction with Transformer for CTC-based End-to-End Speech Recognition"", 《HTTPS://ARXIV.ORG/ABS/1904.10045》 *
SHILIANG ZHANG 等: ""Deep-FSMN for large vocabulary continuous speech recognition"", 《HTTPS://ARXIV.ORG/ABS/1803.05030》 *
XUERUI YANG 等: ""A novel pyramidal-FSMN architecture with lattice-free MMI for speech recognition"", 《HTTPS://ARXIV.ORG/ABS/1810.11352》 *
蹇芳 等: ""DFSMN-T:结合强语言模型Transformer的中文语音识别"", 《计算机工程与应用》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112653142A (zh) * 2020-12-18 2021-04-13 武汉大学 优化深度Transformer网络的风电功率预测方法及系统
CN112802467B (zh) * 2020-12-21 2024-05-31 出门问问(武汉)信息科技有限公司 语音识别方法及装置
CN112802467A (zh) * 2020-12-21 2021-05-14 出门问问(武汉)信息科技有限公司 语音识别方法及装置
CN112669824A (zh) * 2020-12-23 2021-04-16 苏州思必驰信息科技有限公司 构建声学模型的方法、语音识别系统和语音识别方法
CN112669824B (zh) * 2020-12-23 2022-04-15 思必驰科技股份有限公司 构建声学模型的方法、语音识别系统和语音识别方法
CN112986941B (zh) * 2021-02-08 2022-03-04 天津大学 一种雷达目标微动特征提取方法
CN112986941A (zh) * 2021-02-08 2021-06-18 天津大学 一种雷达目标微动特征提取方法
CN113076819A (zh) * 2021-03-17 2021-07-06 山东师范大学 同色系背景下的果实识别方法、装置及果实采摘机器人
CN112967710A (zh) * 2021-03-25 2021-06-15 江西师范大学 一种低资源客家方言点识别方法
CN112967710B (zh) * 2021-03-25 2022-06-14 江西师范大学 一种低资源客家方言点识别方法
CN113205814A (zh) * 2021-04-28 2021-08-03 平安科技(深圳)有限公司 语音数据标注方法、装置、电子设备及存储介质
CN113205814B (zh) * 2021-04-28 2024-03-12 平安科技(深圳)有限公司 语音数据标注方法、装置、电子设备及存储介质
CN113436621A (zh) * 2021-06-01 2021-09-24 深圳市北科瑞声科技股份有限公司 一种基于gpu语音识别的方法、装置、电子设备及存储介质
CN113436621B (zh) * 2021-06-01 2022-03-15 深圳市北科瑞声科技股份有限公司 一种基于gpu语音识别的方法、装置、电子设备及存储介质
CN113257248A (zh) * 2021-06-18 2021-08-13 中国科学院自动化研究所 一种流式和非流式混合语音识别系统及流式语音识别方法
CN113257230A (zh) * 2021-06-23 2021-08-13 北京世纪好未来教育科技有限公司 语音处理方法及装置、计算机可存储介质
CN113808581A (zh) * 2021-08-17 2021-12-17 山东大学 一种声学和语言模型训练及联合优化的中文语音识别方法
CN113808581B (zh) * 2021-08-17 2024-03-12 山东大学 一种声学和语言模型训练及联合优化的中文语音识别方法
CN114023316B (zh) * 2021-11-04 2023-07-21 匀熵科技(无锡)有限公司 基于TCN-Transformer-CTC的端到端中文语音识别方法
CN114023316A (zh) * 2021-11-04 2022-02-08 匀熵科技(无锡)有限公司 基于TCN-Transformer-CTC的端到端中文语音识别方法
CN114187898A (zh) * 2021-12-31 2022-03-15 电子科技大学 一种基于融合神经网络结构的端到端语音识别方法
CN114550706A (zh) * 2022-02-21 2022-05-27 苏州市职业大学 基于深度学习的智慧校园语音识别方法
CN114897004A (zh) * 2022-04-15 2022-08-12 成都理工大学 一种基于深度学习Transformer模型的梯形堆积核脉冲识别方法
CN114626424B (zh) * 2022-05-16 2022-09-13 天津大学 一种基于数据增强的无声语音识别方法及装置
CN114626424A (zh) * 2022-05-16 2022-06-14 天津大学 一种基于数据增强的无声语音识别方法及装置
CN115456114A (zh) * 2022-11-04 2022-12-09 之江实验室 一种模型训练和业务执行的方法、装置、介质及设备
CN115910044A (zh) * 2023-01-10 2023-04-04 广州小鹏汽车科技有限公司 语音识别方法、装置及车辆
CN116415741B (zh) * 2023-06-10 2023-08-22 国网山西省电力公司晋城供电公司 一种基于深度学习的燃煤电厂用煤量预测方法及系统
CN116415741A (zh) * 2023-06-10 2023-07-11 国网山西省电力公司晋城供电公司 一种基于深度学习的燃煤电厂用煤量预测方法及系统
CN116580706B (zh) * 2023-07-14 2023-09-22 合肥朗永智能科技有限公司 一种基于人工智能的语音识别方法
CN116580706A (zh) * 2023-07-14 2023-08-11 合肥朗永智能科技有限公司 一种基于人工智能的语音识别方法
CN117912027A (zh) * 2024-03-18 2024-04-19 山东大学 一种适用于rpa流程自动化的智能识别方法及系统

Similar Documents

Publication Publication Date Title
CN111968629A (zh) 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法
CN111480197B (zh) 语音识别系统
US20200027444A1 (en) Speech recognition with sequence-to-sequence models
US10176802B1 (en) Lattice encoding using recurrent neural networks
CN106683677B (zh) 语音识别方法及装置
Gupta et al. I-vector-based speaker adaptation of deep neural networks for french broadcast audio transcription
Saon et al. Alignment-length synchronous decoding for RNN transducer
EP4018437B1 (en) Optimizing a keyword spotting system
Myer et al. Efficient keyword spotting using time delay neural networks
CN112927682B (zh) 一种基于深度神经网络声学模型的语音识别方法及系统
CN111798840B (zh) 语音关键词识别方法和装置
CN112509560B (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
CN115019776A (zh) 语音识别模型及其训练方法、语音识别方法及装置
CN112767921A (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
US8386249B2 (en) Compressing feature space transforms
Alsayadi et al. Non-diacritized Arabic speech recognition based on CNN-LSTM and attention-based models
Kim et al. Accelerating rnn transducer inference via one-step constrained beam search
Cui et al. Improving deep neural network acoustic modeling for audio corpus indexing under the iarpa babel program
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
TWI731921B (zh) 語音識別方法及裝置
Deng et al. History utterance embedding transformer lm for speech recognition
Tanaka et al. Neural candidate-aware language models for speech recognition
Lin et al. Spoken keyword spotting via multi-lattice alignment.
Li et al. Partially speaker-dependent automatic speech recognition using deep neural networks
Qiu et al. Context-aware neural confidence estimation for rare word speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201120

RJ01 Rejection of invention patent application after publication