CN113327594B - 语音识别模型训练方法、装置、设备及存储介质 - Google Patents

语音识别模型训练方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113327594B
CN113327594B CN202110654093.XA CN202110654093A CN113327594B CN 113327594 B CN113327594 B CN 113327594B CN 202110654093 A CN202110654093 A CN 202110654093A CN 113327594 B CN113327594 B CN 113327594B
Authority
CN
China
Prior art keywords
feature matrix
acoustic feature
matrix
recurrent neural
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110654093.XA
Other languages
English (en)
Other versions
CN113327594A (zh
Inventor
李作强
杨嵩
林连志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202110654093.XA priority Critical patent/CN113327594B/zh
Publication of CN113327594A publication Critical patent/CN113327594A/zh
Application granted granted Critical
Publication of CN113327594B publication Critical patent/CN113327594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种语音识别模型训练方法、装置、设备及存储介质,方法包括:采用Wavenet前向网络和第一循环神经网络处理第一声学特征矩阵得到第三声学特征矩阵;采用第二循环神经网络处理第一文本特征矩阵得到第二文本特征矩阵;组合第三声学特征矩阵和第二文本特征矩阵,得到组合矩阵;以及,采用联合网络处理组合矩阵得到输出矩阵;根据样本语音对应的文本和输出矩阵,对Wavenet前向网络、第一循环神经网络、第二循环神经网络和联合网络进行训练。本方案通过使用Wavenet前向网络模块提高了序列建模的感受视野,优化了模型的训练速度和精度。

Description

语音识别模型训练方法、装置、设备及存储介质
技术领域
本申请涉及自然语言处理技术领域,具体涉及一种语音识别模型训练方法、装置、设备及存储介质。
背景技术
随着神经网络在机器翻译、语音生成等方面的进展,基于的语音识别也达到了和传统方法可比的性能。不同于传统方法将语音识别任务分解为多个子任务(词汇模型,声学模型和语言模型),的语音识别模型基于梅尔语谱作为输入,能够直接产生对应的自然语言文本,大大简化了模型的训练过程,从而越来越受到学术界和产业界的关注。
目前,典型的基于的语音识别模型包括循环神经网络-变换器(Recurrent NeuralNetwork Transducer,RNN-T)模型,其将语言模型和声学模型整合在一起进行联合优化;经过实践检验,RNN-T模型虽然具有联合优化、具有语言模型建模能力和具有单调性的优点,但是这一模型比较难训练。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供一种语音识别模型训练方法和装置。
一方面,本申请提供一种语音识别模型训练方法,包括:
获取样本语音中各个分帧的频域特征向量,根据所述频域特征向量得到第一声学特征矩阵;
采用Wavenet前向网络处理所述第一声学特征矩阵,得到第二声学特征矩阵;以及,采用第一循环神经网络处理所述第二声学特征矩阵,得到第三声学特征矩阵;
获取所述样本语音对应文本中各个单词的词向量,根据所述词向量得到第一文本特征矩阵;以及,采用第二循环神经网络处理所述第一文本特征矩阵,得到第二文本特征矩阵;
组合所述第三声学特征矩阵和所述第二文本特征矩阵,得到组合矩阵;以及,采用联合网络处理所述组合矩阵得到输出矩阵;
根据所述样本语音对应的文本和所述输出矩阵,对所述语音识别模型进行训练。
可选地,所述语音识别模型包括所述Wavenet前向网络、所述第一循环神经网络、所述第二循环神经网络和所述联合网络;
所述对所述语音识别模型进行训练,包括:对所述Wavenet前向网络、所述第一循环神经网络、所述第二循环神经网络和所述联合网络进行联合训练。
可选地,在采用Wavenet前向网络处理所述第一声学特征矩阵前,还包括:采用卷积运算模块处理所述第一声学特征矩阵,得到第四声学特征矩阵;
所述采用Wavenet前向网络处理所述第一声学特征矩阵,得到第二声学特征矩阵,包括:采用所述Wavenet前向网络处理所述第四声学特征矩阵,得到所述第二声学特征矩阵。
可选地,所述采用卷积运算模块处理所述第一声学特征矩阵,得到第四声学特征矩阵,包括:
采用深度可分离卷积模块处理所述第一声学特征矩阵,得到所述第四声学特征矩阵。
可选地,所述第一循环神经网络和/或所述第二循环神经网络为具有动态残差连接的循环神经网络。
可选地,所述第一循环神经网络和/或所述第二循环神经网络为具有投影层的长短期记忆网络。
另一方面,本申请提供一种语音识别模型训练装置,包括:
语音特征获取单元,用于获取样本语音中各个分帧的频域特征向量,根据所述频域特征向量得到第一声学特征矩阵;
语音特征处理单元,用于采用Wavenet前向网络处理所述第一声学特征矩阵,得到第二声学特征矩阵,以及,采用第一循环神经网络处理所述第二声学特征矩阵,得到第三声学特征矩阵;
文本特征获取单元,用于获取所述样本语音对应文本中各个单词的词向量,根据所述词向量得到第一文本特征矩阵;
文本特征处理单元,用于采用第二循环神经网络处理所述第一文本特征矩阵,得到第二文本特征矩阵;
联合处理单元,用于组合所述第三声学特征矩阵和所述第二文本特征矩阵,得到组合矩阵;以及,采用联合网络处理所述组合矩阵得到输出矩阵;
训练单元,用于根据所述样本语音对应的文本和所述输出矩阵,对所述语音识别模型进行训练。
可选地,所述语音识别模型包括所述Wavenet前向网络、所述第一循环神经网络、所述第二循环神经网络和所述联合网络;
所述训练单元对所述语音识别模型进行训练,包括:所述Wavenet前向网络、所述第一循环神经网络、所述第二循环神经网络和所述联合网络进行联合训练。
可选地,还包括卷积运算单元,用于采用卷积运算处理所述第一声学特征矩阵,得到第四声学特征矩阵;
所述语音特征处理单元采用Wavenet前向网络处理所述第一声学特征矩阵,得到第二声学特征矩阵,包括:采用所述Wavenet前向网络处理所述第四声学特征矩阵,得到所述第二声学特征矩阵。
可选地,所述卷积运算单元采用深度可分离卷积运算处理所述第一声学特征矩阵,得到所述第四声学特征矩阵。
可选地,所述第一循环神经网络和/或所述第二循环神经网络为具有动态残差连接的循环神经网络。
再一方面,本公开提供一种电子设备,包括处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如前任一项所述方法的步骤。
再一方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质存储程序或指令;所述程序或指令使计算机执行如前所述方法的步骤。
本申请提供的语音识别模型训练方法和装置,采用Wavenet前向网络处理第一声学特征矩阵而得到第二声学特征矩阵,使得第二声学特征矩阵对应各个帧的数据仅就有较好的感受视野;因为第二声学特征矩阵具有较好的感受视野,使得后续处理得到的输出矩阵对语音也具有较好的感受视野。在模型训练时,利用较好感受视野的输出矩阵对模型进行训练,也就提高了序列建模的学习能力,进而提升了训练后得到的语音识别模型的精度和/或速度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图;
图1是本申请实施例待训练的语音识别模型结构示意图;
图2是本申请实施例提供的语音识别模型训练方法流程图;
图3是本申请实施例采用的Wavenet前向网络的结构示意图;
图4是本申请实施例提供的语音识别模型训练装置的结构示意图;
图5是本申请实施例提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面将对本申请的方案进行进一步描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
本申请实施例提供一种语音识别模型的训练方法,通过对现有的RNN-T模型进行改进,而克服RNN-T模型比较难训练的问题。
在对本申请实施例提供的语音识别模型训练方法进行说明前,首先对本申请实施例采用的语音识别模型做介绍。
图1是本申请实施例待训练的语音识别模型结构示意图;如图1所示,语音识别模型包括语音预处理模块01、Wavenet前向网络02、第一循环神经网络03、文本预处理模块04、第二循环神经网络05、联合网络06和Softmax函数07。
语音预处理模块01、Wavenet前向网络02和第一循环神经网络03依次连接并且接口节点维度匹配;语音预处理模块01、Wavenet前向网络02和第一循环神经网络03组成声学处理模块。
文本预处理模块04、第二循环神经网络05连接并且接口节点维度匹配;文本预处理模块04和第二循环神经网络05组成语言处理模块。
联合网络06用于对声学处理模块和文本处理模块输出的矩阵进行组合后联合训练,并将输出结果输入到Softmax函数07而得到输出结果。
图2是本申请实施例提供的语音识别模型训练方法流程图,如图2所示,本申请实施例提供的语音模型训练方法包括步骤S101-S108。
S101:获取样本语音中各个分帧的频域特征向量,根据频域特征向量得到第一声学特征矩阵。
本申请实施例中,步骤S101采用语音预处理模块01实现。
在获取样本语音后,首先对样本语音进行分帧处理,将样本语音分解为连续的语音分帧。
为了获取样本语音中所有语音片段的信息,避免信息遗漏,在本申请的一些实施例中,对样本语音进行分帧处理时,各个语音分帧之间有帧叠;例如,每个分帧的帧长为25ms,帧移为10ms,使得帧叠为15ms。
本申请一些实施例中,为了增加语音的高频分辨率,在对样本语音进行分帧处理时,还可以进行预增强处理。
本申请一些实施例中,各个分帧的频域特征向量可以采用基于Mel滤波器的Fbank频域特征向量;具体实施中,频域特征向量的维度可以为80。
基于语音分帧得到Fbank频域特征向量的方法如下:首先进行加窗处理,以使得各个语音帧的两端平滑衰减至零,以在后续步骤中得到更高质量的频谱特征;具体实施例中,可以采用汉明窗对样本语音进行加窗处理。随后采用离散傅里叶变换处理加窗后的分帧,得到各个分帧的功率谱。最后采用Mel滤波器组处理各个分帧的功率谱,得到各个分帧的Fbank频域特征向量。
在本申请的一些实施例中,各个分帧的频域特征向量还可以采用梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)组成,MFCC基于Fbank频域特征向量进行对数预算和离散余弦变换得到。
得到各个分帧的频域特征向量后,步骤S101根据频域特征向量得到第一声学特征矩阵。
以各个分帧的音频特征向量的维度为80为例,本申请实施例中,针对各个分帧,以其为中心选取前后5个分帧的音频特征向量,组成一个11×80的二维矩阵,并对此二维矩阵做全局的均值方差归一化,得到均一化二维矩阵;最后所有分帧对应的均一化二维矩阵组成三维矩阵。
在本申请一些实施例中,在获取各个样本语音的三维矩阵后,还可以将各个样本语音对应的三维矩阵组合而得到更高维矩阵;将更高维矩阵对更多的数据进行整合而用于模型训练,可以提高数据处理效率。
S102:采用Wavenet前向网络处理第一声学特征矩阵,得到第二声学特征矩阵。
图3是本申请实施例采用的Wavenet前向网络的结构示意图。如图3所示,Wavenet前向网络包括因果卷积模块021、多个层次的隐藏层022和跳步连接模块023。
因果卷积模块021用于对输入的第一声学矩阵进行因果卷积处理。
各个隐藏层022均包括空洞卷积模块024、tanh激活函数025、sigmoid激活函数026、1×1卷积模块027和残差连接模块028;其中前一层隐藏层022的输出结果作为后一层隐藏层022的输入,并且后一层隐藏层022中空洞卷积模块024的空洞步长(stride)比前一层隐藏层022中空洞卷积模块024的空洞步长大。
各个隐藏层022处理输入数据的过程如下:在接收到输入矩阵后,采用自身的空洞卷积模块024处理输入矩阵,得到中间矩阵;随后中间矩阵经过tanh激活函数025和sigmoid激活函数026处理,得到两个中间处理结果,sigmoid激活函数026用于负责学习振幅,tanh激活函数025用于学习相位和频率,以实现对不同频率下的相位和振幅进行建模;两路中间处理结果中的对应数据通过相乘处理后,再经过1×1卷积模块027处理得到第一输出矩阵;同时前述的输出矩阵和隐藏层的输入在残差连接模块028进行残差计算后得到第二输出矩阵,第二输出矩阵用于作为下一层隐藏层022的输入矩阵。
跳步连接模块在接收到各个隐藏层022的第一输出矩阵后,将各个隐藏层022输出的第一输出矩阵进行累加得到第二声学特征矩阵。
如前中,本申请实施例中,Wavenet前向网络中各个隐藏层022中的空洞卷积模块024的空洞步长不同,在后隐藏层的空洞步长比在前隐藏层的空洞步长大,使得第二输出矩阵中各个帧对应的的感受视野变大。
S103:采用第一循环神经网络处理第二声学特征矩阵,得到第三声学特征矩阵。
本申请一些实施例中,第一循环神经网络可以采用基于长短期记忆(long short-term memory,LSTM)循环神经网络,具体应用中优选采用具有投影层的基于长短记忆(LSTMP)循环神经网络,以利用投影层对在前高维度信息进行降维,而减少网络神经元的维度,继而减少相关参数矩阵的参数数量。
在本申请一些实施例中,第一循环神经网络可以是具有动态残差连接的LSTM网络,以克服采用常规LSTM循环神经网络产生的梯度弥散问题,以提高后续模型训练时的收敛速度。
在本申请一些实施例的中,第一循环神经网络具有8层隐层,每层隐藏节点数为1024,投影层节点数为640,各个隐藏层采用了tanh作为激活函数,各个隐藏层之间还设置有bn层。
以上步骤S101-S103为对样本语音进行处理的步骤,下文对文本进行处理的步骤S104和S105进行讲解。
S104:获取样本语音对应文本中各个单词的词向量,根据词向量得到第一文本特征矩阵。
本申请实施例中,样本语音对应的文本在模型训练前已知,步骤S104采用文本预处理模块04对样本语音对应的文本进行处理而得到第一文本特征矩阵包括:采用词向量嵌入方法,获取各个单词的词向量;随后组合各个单词的词向量而得到第一文本特征矩阵。
S105:采用第二循环神经网络处理第一文本特征矩阵,得到第二文本特征矩阵。
本申请实施例中,第二循环神经网络可以采用基于长短期记忆(long short-termmemory,LSTM)循环神经网络,优选采用具有投影层的具有投影层的长短记忆(LSTMP)循环神经网络,以利用投影层对在前高维度信息进行降维,而减少网络神经元的维度,继而减少相关参数矩阵的参数数量。
在本申请一些实施例的中,第二循环神经网络采用了2层隐层,每层隐藏节点数为1024,投影层节点数为640,各个隐藏层采用了tanh作为激活函数,各个隐藏层之间还设置有bn层。
本申请实施例具体应用中,第二循环神经网络可以是具有动态残差连接的LSTM网络,以克服常规LSTM网络产生的梯度弥散问题。
S106:组合第三声学特征矩阵和第二文本特征矩阵,得到组合矩阵。
本申请实施例中,组合第三声学特征矩阵和第二文本特征矩阵的过程,可以是将第三声学特征矩阵和第二文本特征矩阵中对应的维度进行直接拼接,也可以是在第三声学特征矩阵和第二文本特征矩阵维度相同的情况下,将两个矩阵中对应的参数进行相加或者相减处理。
S107:采用联合网络处理组合矩阵得到输出矩阵。
本申请实施例中,联合网络可以是一前向网络;联合网络的作用是将语言模型和声学模型的状态结合起来,继而得到融合语音特征和语言特征的输出矩阵。
S108:根据样本语音对应的文本和输出矩阵,对语音识别模型进行训练。
步骤S108根据样本语音对应的文本和输出矩阵对模型进行训练包括:(1)采用Softmax函数07对输出矩阵中的各个参数进行softmax处理,得到模型输出为各个单词的概率,并采用各个单词的概率组成输出概率向量;(2)根据样本语音对应的文本,确定输出为各个单词的实际概率,形成结果概率向量;(3)根据输出概率向量和结果概率向量得到损失函数;(4)基于损失函数采用反向传播算法对语音识别模型各个节点的参数进行训练。
在本公开实施例中,步骤S108对语音识别模型进行训练,包括对Wavenet前向网络、第一循环神经网络、第二循环神经网络和联合网络进行联合训练。
本申请实施例提供语音识别模型训练方法,采用Wavenet前向网络处理第一声学特征矩阵而得到第二声学特征矩阵;Wavnet前向网络中的各个隐藏层中设置有空洞卷积,利用空洞卷积可以对输入的矩阵中相邻的多个分帧对应的声学特征矩阵数据进行空洞卷积处理;因为前一层隐藏层的输出作为下一层隐藏层的输入,并且后一隐藏层采用的空洞卷积的空洞步长大于前一隐藏层采用的空洞卷积的空洞步长,所以在后一隐藏层能够将更多个分帧对应的声学特征矩阵数据进行卷积处理,得到具有更宽感受视野的输出矩阵;而Wavenet前向网络中的跳步连接模块将各个隐藏层输出的输出矩阵进行累加得到第二声学特征矩阵,使得第二声学特征矩阵对应各个帧的数据仅就有较好的感受视野。
而采用具有较宽感受视野的第二声学特矩阵输入到第一循环神经网络,使得得到的第三声学特征矩阵也具有较宽的感受视野,继而使得后续处理得到的输出矩阵对语音也具有较好的感受视野。如此,在模型训练时,利用较好感受视野的输出矩阵对模型进行训练,也就提高了序列建模的学习能力,进而提升了训练后得到的语音识别模型的精度和/或速度。
在本申请的一些实施例中,语音识别模型除了包括前述的步骤S101-S108外,还可以包括步骤S109,步骤S109在步骤S101和S102之间执行。
S109:采用卷积运算模块处理第一声学特征矩阵,得到第四声学特征矩阵。
在执行步骤S109的情况下,步骤S102被下位为:采用Wavenet前向网络处理第四声学特征矩阵,得到第二声学特征矩阵。
采用卷积运算模块处理第一声学特征矩阵,可以采用卷积核对第一声学特征矩阵的处理,提取第一声学特征矩阵中的更多隐藏特征,继而得到更能体现样本语音特征的第四声学特征矩阵。因为第四声学特征矩阵相比于第一声学特征矩阵更能体现样本语音的特征,所以步骤S102-S104中的第二声学特征矩阵、第三声学特征矩阵也更能体现样本语音的特征,使得训练数据更具有典型性,进一步地提升模型的收敛速度或者精度。
在本申请的一些实施例中,步骤S109中采用的卷积运算模块可以采用深度可分离卷积运算的模块。
深度可分离卷积运算是对标准卷积运算进行改进的卷积运算算法,其将标准卷积分解为深度卷积和逐点卷积;采用深度可分离卷积,可以在卷积计算精度损失不大的前提下,降低计算量。
在本申请一些实施例的,步骤S109中卷积运算模块的输出层节点数量和步骤S102中因果卷积模块的输入层节点数量不匹配,为了解决此问题,本申请实施例的一个具体应用中,在步骤S109和步骤S102之间,还可以设置步骤S110。
S110:采用维度调整网络处理第四声学特征矩阵,得到第五声学特征矩阵。
维度调整网络中各个层的节点的数量根据卷积网络输出层节点和因果卷积网络输入层节点的维度确定;具体应用中,维度调整网络可以是一个维度线性调整层。
在设置步骤S110的情况下,步骤S102被下位为:采用Wavenet前向网络处理第五声学特征矩阵,得到第二声学特征矩阵。对应的,步骤S108为:根据样本语音对应的文本和输出矩阵,对Wavenet前向网络、第一循环神经网络、第二循环神经网络、联合网络和维度调整网络进行训练。
除了提供前述的语音识别模型训练方法外,本申请实施例还提供一种语音识别模型训练装置。图4是本申请实施例提供的语音识别模型训练装置的结构示意图,如图4所示,语音识别模型训练装置包括语音特征获取单元11、语音特征处理单元12、文本特征获取单元13、文本特征处理单元14、联合处理单元15和训练单元16。
语音特征获取单元11用于获取样本语音中各个分帧的频域特征向量,根据所述频域特征向量得到第一声学特征矩阵。
语音特征处理单元12用于采用Wavenet前向网络处理所述第一声学特征矩阵,得到第二声学特征矩阵,以及,采用第一循环神经网络处理所述第二声学特征矩阵,得到第三声学特征矩阵。
文本特征获取单元13用于获取样本语音对应文本中各个单词的词向量,根据词向量得到第一文本特征矩阵。
文本特征处理单元14用于采用第二循环神经网络处理第一文本特征矩阵,得到第二文本特征矩阵。
联合处理单元15,用于组合第三声学特征矩阵和第二文本特征矩阵,得到组合矩阵;以及,采用联合网络处理组合矩阵得到输出矩阵。
训练单元16用于根据样本语音对应的文本和输出矩阵,对语音识别模型进行训练。
本申请一些实施例中,训练单元16根据样本语音对应的文本和输出矩阵,对语音识别模型进行训练包括对Wavenet前向网络、第一循环神经网络、第二循环神经网络和联合网络进行联合训练。
在本申请一些实施例中,语音识别模型训练装置还包括卷积运算单元,卷积运算单元用于采用卷积运算处理第一声学特征矩阵,得到第四声学特征矩阵;对应的,语音特征处理单元12采用Wavenet前向网络处理第四声学特征矩阵,得到第二声学特征矩阵。
采用卷积运算处理第一声学特征矩阵,可以采用卷积核对第一声学特征矩阵的处理,提取第一声学特征矩阵中的更多隐藏特征,继而得到更能体现样本语音特征的第四声学特征矩阵。
在本申请一些实施例中,卷积运算单元可以采用深度可分离卷积运算处理所述第一声学矩阵,得到所述。
本申请实施例中,卷积处理单元中卷积运算的输出层节点可能与语音特征处理单元中因果卷积模块的输入层节点数量不匹配,为了解决此问题,本申请实施例中的语音模型训练装置还可以包括维度调整网络;维度调整网络用于处理第四声学特征矩阵,得到第五声学特征矩阵。
对应的,语音特征处理单元12采用Wavenet前向网络处理第五声学特征矩阵,得到第二声学特征矩阵,而训练单元16根据样本语音对应的文本和输出矩阵,对Wavenet前向网络、第一循环神经网络、第二循环神经网络、联合网络和维度调整网络进行训练。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
参考图5,现将描述可以作为本公开的服务器或客户端的电子设备500的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,电子设备500包括计算单元501,其可以根据存储在ROM502中的计算机程序或者从存储单元508加载到随机访问RAM503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、ROM502以及RAM 503通过总线504彼此相连。I/O接口505也连接至总线504。
电子设备500中的多个部件连接至I/O接口505,包括:输入单元506、输出单元507、存储单元508以及通信单元509。输入单元506可以是能向电子设备500输入信息的任何类型的设备,输入单元506可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元507可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元504可以包括但不限于磁盘、光盘。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理。例如,在一些实施例中,语音模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM502和/或通信单元509而被载入和/或安装到电子设备500上。在一些实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音识别模型训练方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取RAM、ROM、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (13)

1.一种语音识别模型训练方法,其特征在于,包括:
获取样本语音中各个分帧的频域特征向量,根据所述频域特征向量得到第一声学特征矩阵;
采用Wavenet前向网络处理所述第一声学特征矩阵,得到第二声学特征矩阵;以及,采用第一循环神经网络处理所述第二声学特征矩阵,得到第三声学特征矩阵;
获取所述样本语音对应文本中各个单词的词向量,根据所述词向量得到第一文本特征矩阵;以及,采用第二循环神经网络处理所述第一文本特征矩阵,得到第二文本特征矩阵;
组合所述第三声学特征矩阵和所述第二文本特征矩阵,得到组合矩阵;以及,采用联合网络处理所述组合矩阵得到输出矩阵;
根据所述样本语音对应的文本和所述输出矩阵,对所述语音识别模型进行训练。
2.根据权利要求1所述的方法,其特征在于,
所述语音识别模型包括所述Wavenet前向网络、所述第一循环神经网络、所述第二循环神经网络和所述联合网络;
所述对所述语音识别模型进行训练,包括:对所述Wavenet前向网络、所述第一循环神经网络、所述第二循环神经网络和所述联合网络进行联合训练。
3.根据权利要求1所述的方法,其特征在于,
在采用Wavenet前向网络处理所述第一声学特征矩阵前,还包括:采用卷积运算模块处理所述第一声学特征矩阵,得到第四声学特征矩阵;
所述采用Wavenet前向网络处理所述第一声学特征矩阵,得到第二声学特征矩阵,包括:采用所述Wavenet前向网络处理所述第四声学特征矩阵,得到所述第二声学特征矩阵。
4.根据权利要求3所述的方法,其特征在于,所述采用卷积运算模块处理所述第一声学特征矩阵,得到第四声学特征矩阵,包括:
采用深度可分离卷积模块处理所述第一声学特征矩阵,得到所述第四声学特征矩阵。
5.根据权利要求1或2所述的方法,其特征在于,
所述第一循环神经网络和/或所述第二循环神经网络为具有动态残差连接的循环神经网络。
6.根据权利要求5所述的方法,其特征在于,
所述第一循环神经网络和/或所述第二循环神经网络为具有投影层的长短期记忆网络。
7.一种语音识别模型训练装置,其特征在于,包括:
语音特征获取单元,用于获取样本语音中各个分帧的频域特征向量,根据所述频域特征向量得到第一声学特征矩阵;
语音特征处理单元,用于采用Wavenet前向网络处理所述第一声学特征矩阵,得到第二声学特征矩阵,以及,采用第一循环神经网络处理所述第二声学特征矩阵,得到第三声学特征矩阵;
文本特征获取单元,用于获取所述样本语音对应文本中各个单词的词向量,根据所述词向量得到第一文本特征矩阵;
文本特征处理单元,用于采用第二循环神经网络处理所述第一文本特征矩阵,得到第二文本特征矩阵;
联合处理单元,用于组合所述第三声学特征矩阵和所述第二文本特征矩阵,得到组合矩阵;以及,采用联合网络处理所述组合矩阵得到输出矩阵;
训练单元,用于根据所述样本语音对应的文本和所述输出矩阵,对所述语音识别模型进行训练。
8.根据权利要求7所述的装置,其特征在于,
所述语音识别模型包括所述Wavenet前向网络、所述第一循环神经网络、所述第二循环神经网络和所述联合网络;
所述训练单元对所述语音识别模型进行训练,包括:所述Wavenet前向网络、所述第一循环神经网络、所述第二循环神经网络和所述联合网络进行联合训练。
9.根据权利要求7所述的装置,其特征在于,还包括:
卷积运算单元,用于采用卷积运算处理所述第一声学特征矩阵,得到第四声学特征矩阵;
所述语音特征处理单元采用Wavenet前向网络处理所述第一声学特征矩阵,得到第二声学特征矩阵,包括:采用所述Wavenet前向网络处理所述第四声学特征矩阵,得到所述第二声学特征矩阵。
10.根据权利要求9所述的装置,其特征在于,
所述卷积运算单元采用深度可分离卷积运算处理所述第一声学特征矩阵,得到所述第四声学特征矩阵。
11.根据权利要求7-10任一项所述的装置,其特征在于,
所述第一循环神经网络和/或所述第二循环神经网络为具有动态残差连接的循环神经网络。
12.一种电子设备,其特征在于,包括处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至6任一项所述方法的步骤。
13.一种计算机可读存储介质,其特征在于,
所述计算机可读存储介质存储程序或指令;
所述程序或指令使计算机执行如权利要求1至6任一项所述方法的步骤。
CN202110654093.XA 2021-06-11 2021-06-11 语音识别模型训练方法、装置、设备及存储介质 Active CN113327594B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110654093.XA CN113327594B (zh) 2021-06-11 2021-06-11 语音识别模型训练方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110654093.XA CN113327594B (zh) 2021-06-11 2021-06-11 语音识别模型训练方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113327594A CN113327594A (zh) 2021-08-31
CN113327594B true CN113327594B (zh) 2022-08-16

Family

ID=77420610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110654093.XA Active CN113327594B (zh) 2021-06-11 2021-06-11 语音识别模型训练方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113327594B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933111A (zh) * 2020-08-12 2020-11-13 北京猎户星空科技有限公司 语音唤醒方法、装置、电子设备和存储介质
CN113704477B (zh) * 2021-09-03 2022-10-18 华南理工大学 一种文本识别中识别网络与语言模型的联合优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428867A (zh) * 2020-06-15 2020-07-17 深圳市友杰智新科技有限公司 基于可逆分离卷积的模型训练方法、装置和计算机设备
CN112825248A (zh) * 2019-11-19 2021-05-21 阿里巴巴集团控股有限公司 语音处理方法、模型训练方法、界面显示方法及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108630190B (zh) * 2018-05-18 2019-12-10 百度在线网络技术(北京)有限公司 用于生成语音合成模型的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112825248A (zh) * 2019-11-19 2021-05-21 阿里巴巴集团控股有限公司 语音处理方法、模型训练方法、界面显示方法及设备
CN111428867A (zh) * 2020-06-15 2020-07-17 深圳市友杰智新科技有限公司 基于可逆分离卷积的模型训练方法、装置和计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Wavenet:A generative model for raw audio;OORD AVD,DIELEMAN;《arxiv》;20160919;第1-15页 *
WaveNet相关原理及细节介绍;JamesJuZhang;《CSDN博客》;20191019;第1-11页以及图1-图2 *

Also Published As

Publication number Publication date
CN113327594A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
US11869530B2 (en) Generating audio using neural networks
EP3926623B1 (en) Speech recognition method and apparatus, and neural network training method and apparatus
US11355097B2 (en) Sample-efficient adaptive text-to-speech
CN113327594B (zh) 语音识别模型训练方法、装置、设备及存储介质
EP4131083A2 (en) Method and apparatus for generating federated learning model
US20210089909A1 (en) High fidelity speech synthesis with adversarial networks
CN113921022B (zh) 音频信号分离方法、装置、存储介质和电子设备
WO2024055752A1 (zh) 语音合成模型的训练方法、语音合成方法和相关装置
US11887615B2 (en) Method and device for transparent processing of music
US20230015112A1 (en) Method and apparatus for processing speech, electronic device and storage medium
CN114999440A (zh) 虚拟形象生成方法、装置、设备、存储介质以及程序产品
CN114333848A (zh) 声纹识别方法、装置、电子设备及存储介质
CN113920987A (zh) 一种语音识别的方法、装置、设备及存储介质
CN115798453A (zh) 语音重建方法、装置、计算机设备和存储介质
US20230081543A1 (en) Method for synthetizing speech and electronic device
CN116705013B (zh) 语音唤醒词的检测方法、装置、存储介质和电子设备
CN110634475B (zh) 语音识别方法、装置、电子设备和计算机可读存储介质
EP2887347A1 (en) Phoneme signature candidates for speech recognition
Samanta et al. An energy-efficient voice activity detector using reconfigurable Gaussian base normalization deep neural network
CN115662386A (zh) 一种语音转换方法、装置、电子设备及存储介质
CN114141259A (zh) 语音转换方法、装置、设备、存储介质和程序产品
CN113674766A (zh) 语音评价方法、装置、计算机设备及存储介质
Stadelmann et al. Rethinking algorithm design and development in speech processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant