CN113539268A - 一种端到端语音转文本罕见词优化方法 - Google Patents
一种端到端语音转文本罕见词优化方法 Download PDFInfo
- Publication number
- CN113539268A CN113539268A CN202110127641.3A CN202110127641A CN113539268A CN 113539268 A CN113539268 A CN 113539268A CN 202110127641 A CN202110127641 A CN 202110127641A CN 113539268 A CN113539268 A CN 113539268A
- Authority
- CN
- China
- Prior art keywords
- model
- text
- rare
- word
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000005457 optimization Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 79
- 230000011218 segmentation Effects 0.000 claims abstract description 7
- 238000003786 synthesis reaction Methods 0.000 claims description 29
- 238000001228 spectrum Methods 0.000 claims description 24
- 230000015572 biosynthetic process Effects 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 230000002457 bidirectional effect Effects 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 230000002194 synthesizing effect Effects 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000012805 post-processing Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000001537 neural effect Effects 0.000 claims description 4
- 241001672694 Citrus reticulata Species 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 238000001308 synthesis method Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/086—Recognition of spelled words
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种端到端语音转文本罕见词优化方法,训练集语料库对应标注文本中罕见词列表的构造,首先,整理分析训练集语料的标注文本;然后,使用分词工具对标注文本进行分词并使用SRILM语言模型工具统计单词词频;最后,将词频小于所设置的词频阈值的单词定义为罕见词,将其加入到罕见词列表中,本发明提出的一种端到端语音转文本罕见词优化技术,通过对训练集语料对应的文本标注进行统计分析,并构造包含罕见词的文本语料列表,能够有效搜索出端到端语音识别模型中未充分训练的文本语料。
Description
技术领域
本发明涉及人工智能技术领域,具体为一种端到端语音转文本罕见词优化方法。
背景技术
长期以来,基于隐马尔可夫模型(Hidden Markov Model,HMM)的语音识别方法一直是主流的大规模连续语音识别(Large Vocabulary Continuous Speech Recognition,LVCSR)方法。截止到目前,基于深度神经网络-隐马尔可夫模型(Deep Neural Network-Hidden Markov Model,DNN-HMM)的混合模型仍能达到最优的识别准确率,一般说来,基于HMM的语音识别模型由声学模型、发音词典和语言模型三个模块构成。声学模型主要用于建模输入语音和音素序列或子音素序列之间的映射关系;发音词典主要用于实现音素(或子音素) 与字符之间的映射,通常由专业的人类语言学家构建;语言模型将字符序列映射到流利的转录文本,然而,由于基于HMM的语音识别模型三个相对独立的组件需要单独设计且不同模块要分开训练,再通过构造加权有限状态转换器 (Weighted Finite StateTransduce,WFST)将不同模块进行融合,最后进行语音解码,该方法每个组件的设计和训练均需要专业的技术积累,训练步骤复杂且全局最优解优化困难;此外,模型构建过程中的条件独立性假设使得该方法与真实场景下的LVCSR不完全匹配。因此,基于HMM的语音识别方法的易用性、可维护性和可迁移性均受到了很大限制;
深度学习技术的出现极大地提高了语音识别模型的识别准确率,鉴于传统基于HMM模型方法的局限性,越来越多的研究机构开始研究基于端到端声学模型的LVCSR。端到端语音识别模型将传统语音识别系统的三大组件融合为一个网络模型,直接将输入音频序列映射为单词序列或其他字符序列,合并多个模块的好处是不需要设计很多模块来实现各种中间状态之间的映射,可以大大简化语音识别模型的构建和训练过程;联合训练使端到端模型能够使用与最终评价标准高度相关的函数作为全局优化的目标函数,更容易搜索得到全局最优解,从而进一步提升语音识别准确率,为此我们提出一种端到端语音转文本罕见词优化方法用于解决上述问题。
发明内容
本发明的目的在于提供一种端到端语音转文本罕见词优化方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种端到端语音转文本罕见词优化方法,训练集语料库对应标注文本中罕见词列表的构造,首先,整理分析训练集语料的标注文本;然后,使用分词工具对标注文本进行分词并使用 SRILM语言模型工具统计单词词频;最后,将词频小于所设置的词频阈值的单词定义为罕见词,将其加入到罕见词列表中。
根据所构建的罕见词列表,从大规模语言模型训练语料中抽取包含罕见词的句子,一般说来,语言模型训练语料库中包含的文本语料远远多于声学模型训练集中所包含的文本语料,因此可以从语言模型文本语料中抽取得到包含罕见词的多个句子,用于合成包含罕见词的语音数据。
合成包含罕见词句子的语音数据,首先,构造基于Tacotron2的多说话人语音合成模型,然后,利用多说话人语音数据对Tacotron2进行训练,最后,使用训练得到的多说话人语音合成模型对包含罕见词的句子进行文本语音合成,得到合成的罕见词语音语料库。
少量重口音语音数据下的模型优化。针对标准普通话语音数据下训练得到的通用语音识别模型,使用少量重口音语音数据对其进行优化。
训练语料库的扩充和端到端声学模型的构建,将合成的包含罕见词的多个说话人语音数据与原有的训练集语音数据进行合并,得到扩充的训练集语料。
端到端语音识别模型LAS的构建,本发明所构建的端到端语音模型是基于注意力机制的序列到序列的语音识别模型LAS,其主要包括编码器模块、注意力模块和解码器模块三部分。
端到端语音识别模型LAS的训练,使用扩充后的训练集语音数据对LAS模型进行训练,联合优化LAS模型的三个模块,使端到端模型可以使用与最终评估标准高度相关的函数作为全局优化的目标函数,从而有利于求解得到全局最优结果。
端到端语音识别模型的语音解码和语言模型重打分,首先,使用束搜索解码技术对联合优化后的语音识别模型进行解码搜索,得到声学模型分数;然后,使用已有的大规模语言模型对搜索得到的解码路径进行语言模型分数计算;最后,使用语言模型分数对声学模型分数进行重打分,得到解码搜索最终的分数,由该分数计算得到重口音语音对应的解码文本。
一种端到端语音转文本罕见词优化方法,包括以下步骤:
S1,统计训练语料中对应标注文本的词频,获取罕见词列表。首先,统计分析训练集语料库中对应的文本语料;然后使用分词工具对得到的文本语料进行分词,并使用SRILM语言模型工具对分词后的语料进行词频统计,得到训练语料中单词的词频列表;分析词频列表,抽取罕见词构造罕见词词表,即针对单词词频nword设置词频阈值nthreshold,当nword≤nthreshold时,认为该词在训练集语料库中属于低频词或罕见词,将其加入罕见词词表中,处理完成即可得到当前训练集语料对应的罕见词词表;
S2,抽取大规模文本语料中包含罕见词的句子,构造得到罕见词文本语料库。针对步骤S1中抽取得到罕见词词表,从大规模语言模型文本语料库中抽取包含罕见词的多个句子,将其加入到罕见词文本语料库中,处理完成即可得到罕见词词表对应的包含罕见词的文本语料库;
S3,合成包含罕见词句子的语音数据,针对步骤S2抽取得到的罕见词文本语料库,使用较成熟的语音合成模型Tacotron2进行罕见词文本语音合成, Tacotron2是一个基于神经网络的语音合成方法,主要由声谱预测网络、声码器和中间连接模块构成;
声谱预测网络是一个基于注意力机制的序列到序列的网络结构,模型的输入为待合成的字符序列,输出为梅尔频谱声学特征帧序列,其中,编码器模块由包含512个神经元结点的字符嵌入层、3层各包含512个尺度为5*1的卷积核的卷积神经网络CNN层和一层包含256个隐藏层神经元结点的双向长短时记忆 LSTM网络层构成,编码器模块的计算过程如公式(1)~(2)所示;
Fe=ReLU(K3*ReLU(K2*ReLU(K1*E(Ch)))) (1)
H=BLSTM(Fe) (2)
其中,K1、K2、K3分别表示三个卷积神经网络层的卷积核,ReLU表示非线性激活函数,E(·)表示对输入的字符序列Ch做嵌入编码(Embedding),BLSTM为双向长短时记忆网络,Fe为卷积层输出的字符高层语义编码,H为双向长短时记忆网络(Bidirectional Long-Short Term Memory,BLSTM)层的输出。
注意力模块中使用了基于位置敏感的注意力机制,在对齐的过程中加入了位置特征,能够同时抽取输入的内容信息和输入元素的位置信息,其形式化表达如公式(3)所示;
其中,va、W、V、U和b为可训练的参数,si为当前解码器隐状态,hj为当前编码器隐状态,fi,j为注意力权重αi-1经卷积操作得到的位置特征编码;
解码器模块是一个自回归的循环神经网络模型,解码过程从输入上一步的输出声谱或上一步的真实声谱到预处理网络PreNet开始,PreNet的输出与使用上一个解码步输出计算得到的上下文相关的语义向量拼接后整体送入解码器网络中,基于RNN网络结构的解码器的输出用来计算当前步的上下文相关的语义向量,当前步的上下文相关的语义向量与当前步解码器的输出做拼接后送入线性投影网络中用于计算输出,解码器完成解码后将预测得到的梅尔谱送入到后处理网络中进行后处理,以提高梅尔谱的生成质量;
声码器采用修正版的WaveNet模型,用于把生成的频域梅尔谱声学特征转换为时域语音波形文件;
本发明采用训练完备的Tacotron2多说话人语音合成模型进行包含罕见词文本语料的语音合成,同时,为了缓解说话人信息对合成的语音的影响,实验中采用多个说话人的信息对没条目标文本进行合成,以此扩充目标文本语料的多样性;
S4,将合成的罕见词语料加入训练集进行端到端声学模型训练,首先,将步骤S3中合成的多说话人语音语料Xsynthesis与训练集语料Xtrain进行合并,得到扩充的训练集语料Xextension,即Xextension=Xtrain∪Xsynthesis;
构造并训练基于端到端的语音识别模型LAS。LAS模型主要由编码器模块、注意力模块和解码器模块三部分构成,其模型结构如图2所示,其中,编码器使用双向长短时记忆网络对输入的序列特征Xextension进行时序关系建模,其形式化表示如公式(4)所示;
在BLSTM层之后堆叠了三层pBLSTM层,pBLSTM层的计算方式如公式(5) 所示;
引入上下文依赖的注意力机制可以使模型专注于序列中上下文相关语义显著特征的学习,从而提升模型推理的准确率,对于解码器输出的中间层语义特征H=(h1,h2,...,hu,...,hU),注意力层首先计算序列中第i个时间步输出特征H对应的权重αi,u,计算方式如公式(6)~(7)所示;
解码器网络由两层各包含512个神经节点的单向LSTM网络构成,其形式化表示如公式(9)~(10)所示;
si=LSTM(si-1,yi-1,ci-1) (9)
P(yi|x,y<i)=MLP(si,ci) (10)
其中,MLP为带有Softmax激活函数的全连接神经网络,其输出是建模单元的后验概率;
本发明构建的LAS模型的编码器、注意力层和解码器可以进行端到端联合训练,其目标函数如公式(11)所示;
S5,由于基于贪心的解码策略每次都在当前位置直接取最优路径,不能保证生成整个序列的概率是最优的,此外,在实际的应用中,词表一般都很大,在有限的搜索时间内无法完成所有可能路径的解码搜索,因此,在实际的应用中,一般采用束搜索(BeamSearch)的方法进行语音解码,同时,为了引入语音模型对解码结果进行校正,该技术中引入了语言模型对搜索出的路径进行重打分,其形式化表达如公式(12)所示;
其中,|y|c表示字符个数;log PLM(y)表示语言模型分数;λ表示语言模型分数权重,可由验证集确定。实际应用中的解码搜索采用Beam数为32的束搜索,语言模型分数权重λ为0.008。
与现有技术相比,本发明的有益效果是:
本发明提出的一种端到端语音转文本罕见词优化技术,通过对训练集语料对应的文本标注进行统计分析,并构造包含罕见词的文本语料列表,能够有效搜索出端到端语音识别模型中未充分训练的文本语料;然后,通过成熟的多说话人语音合成模型对训练集中训练不充分的罕见词进行文本语音合成,能够有效扩充包含罕见词的文本语音,从而扩充训练集语料;最后,将合成的文本语音和原训练集语料融合后对端到端语音识别模型进行训练优化,能够显著提升端到端语音转文本模型对罕见词的泛化能力,从而缓解训练语料不足导致的罕见词识别效果差的问题,能够有效提升端到端语音识别的准确率。
附图说明
图1为本发明的一种端到端语音转文本罕见词优化技术流程示意图;
图2为本发明的端到端语音识别模型LAS模型结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明提供一种技术方案:一种端到端语音转文本罕见词优化方法,训练集语料库对应标注文本中罕见词列表的构造,首先,整理分析训练集语料的标注文本;然后,使用分词工具对标注文本进行分词并使用SRILM 语言模型工具统计单词词频;最后,将词频小于所设置的词频阈值的单词定义为罕见词,将其加入到罕见词列表中。
根据所构建的罕见词列表,从大规模语言模型训练语料中抽取包含罕见词的句子,一般说来,语言模型训练语料库中包含的文本语料远远多于声学模型训练集中所包含的文本语料,因此可以从语言模型文本语料中抽取得到包含罕见词的多个句子,用于合成包含罕见词的语音数据。
合成包含罕见词句子的语音数据,首先,构造基于Tacotron2的多说话人语音合成模型,然后,利用多说话人语音数据对Tacotron2进行训练,最后,使用训练得到的多说话人语音合成模型对包含罕见词的句子进行文本语音合成,得到合成的罕见词语音语料库。
少量重口音语音数据下的模型优化。针对标准普通话语音数据下训练得到的通用语音识别模型,使用少量重口音语音数据对其进行优化。
训练语料库的扩充和端到端声学模型的构建,将合成的包含罕见词的多个说话人语音数据与原有的训练集语音数据进行合并,得到扩充的训练集语料。
端到端语音识别模型LAS的构建,本发明所构建的端到端语音模型是基于注意力机制的序列到序列的语音识别模型LAS,其主要包括编码器模块、注意力模块和解码器模块三部分。
端到端语音识别模型LAS的训练,使用扩充后的训练集语音数据对LAS模型进行训练,联合优化LAS模型的三个模块,使端到端模型可以使用与最终评估标准高度相关的函数作为全局优化的目标函数,从而有利于求解得到全局最优结果。
端到端语音识别模型的语音解码和语言模型重打分,首先,使用束搜索解码技术对联合优化后的语音识别模型进行解码搜索,得到声学模型分数;然后,使用已有的大规模语言模型对搜索得到的解码路径进行语言模型分数计算;最后,使用语言模型分数对声学模型分数进行重打分,得到解码搜索最终的分数,由该分数计算得到重口音语音对应的解码文本。
一种端到端语音转文本罕见词优化方法,包括以下步骤:
S1,统计训练语料中对应标注文本的词频,获取罕见词列表。首先,统计分析训练集语料库中对应的文本语料;然后使用分词工具对得到的文本语料进行分词,并使用SRILM语言模型工具对分词后的语料进行词频统计,得到训练语料中单词的词频列表;分析词频列表,抽取罕见词构造罕见词词表,即针对单词词频nword设置词频阈值nthreshold,当nword≤nthreshold时,认为该词在训练集语料库中属于低频词或罕见词,将其加入罕见词词表中,处理完成即可得到当前训练集语料对应的罕见词词表;
S2,抽取大规模文本语料中包含罕见词的句子,构造得到罕见词文本语料库。针对步骤S1中抽取得到罕见词词表,从大规模语言模型文本语料库中抽取包含罕见词的多个句子,将其加入到罕见词文本语料库中,处理完成即可得到罕见词词表对应的包含罕见词的文本语料库;
S3,合成包含罕见词句子的语音数据,针对步骤S2抽取得到的罕见词文本语料库,使用较成熟的语音合成模型Tacotron2进行罕见词文本语音合成, Tacotron2是一个基于神经网络的语音合成方法,主要由声谱预测网络、声码器和中间连接模块构成;
声谱预测网络是一个基于注意力机制的序列到序列的网络结构,模型的输入为待合成的字符序列,输出为梅尔频谱声学特征帧序列,其中,编码器模块由包含512个神经元结点的字符嵌入层、3层各包含512个尺度为5*1的卷积核的卷积神经网络CNN层和一层包含256个隐藏层神经元结点的双向长短时记忆 LSTM网络层构成,编码器模块的计算过程如公式(1)~(2)所示;
Fe=ReLU(K3*ReLU(K2*ReLU(K1*E(Ch)))) (1)
H=BLSTM(Fe) (2)
其中,K1、K2、K3分别表示三个卷积神经网络层的卷积核,ReLU表示非线性激活函数,E(·)表示对输入的字符序列Ch做嵌入编码(Embedding),BLSTM为双向长短时记忆网络,Fe为卷积层输出的字符高层语义编码,H为双向长短时记忆网络(Bidirectional Long-Short Term Memory,BLSTM)层的输出。
注意力模块中使用了基于位置敏感的注意力机制,在对齐的过程中加入了位置特征,能够同时抽取输入的内容信息和输入元素的位置信息,其形式化表达如公式(3)所示;
其中,va、W、V、U和b为可训练的参数,si为当前解码器隐状态,hj为当前编码器隐状态,fi,j为注意力权重αi-1经卷积操作得到的位置特征编码;
解码器模块是一个自回归的循环神经网络模型,解码过程从输入上一步的输出声谱或上一步的真实声谱到预处理网络PreNet开始,PreNet的输出与使用上一个解码步输出计算得到的上下文相关的语义向量拼接后整体送入解码器网络中,基于RNN网络结构的解码器的输出用来计算当前步的上下文相关的语义向量,当前步的上下文相关的语义向量与当前步解码器的输出做拼接后送入线性投影网络中用于计算输出,解码器完成解码后将预测得到的梅尔谱送入到后处理网络中进行后处理,以提高梅尔谱的生成质量;
声码器采用修正版的WaveNet模型,用于把生成的频域梅尔谱声学特征转换为时域语音波形文件;
本发明采用训练完备的Tacotron2多说话人语音合成模型进行包含罕见词文本语料的语音合成,同时,为了缓解说话人信息对合成的语音的影响,实验中采用多个说话人的信息对没条目标文本进行合成,以此扩充目标文本语料的多样性;
S4,将合成的罕见词语料加入训练集进行端到端声学模型训练,首先,将步骤S3中合成的多说话人语音语料Xsynthesis与训练集语料Xtrain进行合并,得到扩充的训练集语料Xextension,即Xextension=Xtrain∪Xsynthesis;
构造并训练基于端到端的语音识别模型LAS。LAS模型主要由编码器模块、注意力模块和解码器模块三部分构成,其模型结构如图2所示,其中,编码器使用双向长短时记忆网络对输入的序列特征Xextension进行时序关系建模,其形式化表示如公式(4)所示;
在BLSTM层之后堆叠了三层pBLSTM层,pBLSTM层的计算方式如公式(5) 所示;
引入上下文依赖的注意力机制可以使模型专注于序列中上下文相关语义显著特征的学习,从而提升模型推理的准确率,对于解码器输出的中间层语义特征H=(h1,h2,...,hu,...,hU),注意力层首先计算序列中第i个时间步输出特征H对应的权重αi,u,计算方式如公式(6)~(7)所示;
解码器网络由两层各包含512个神经节点的单向LSTM网络构成,其形式化表示如公式(9)~(10)所示;
si=LSTM(si-1,yi-1,ci-1) (9)
P(yi|x,y<i)=MLP(si,ci) (10)
其中,MLP为带有Softmax激活函数的全连接神经网络,其输出是建模单元的后验概率;
本发明构建的LAS模型的编码器、注意力层和解码器可以进行端到端联合训练,其目标函数如公式(11)所示;
S5,由于基于贪心的解码策略每次都在当前位置直接取最优路径,不能保证生成整个序列的概率是最优的,此外,在实际的应用中,词表一般都很大,在有限的搜索时间内无法完成所有可能路径的解码搜索,因此,在实际的应用中,一般采用束搜索(BeamSearch)的方法进行语音解码,同时,为了引入语音模型对解码结果进行校正,该技术中引入了语言模型对搜索出的路径进行重打分,其形式化表达如公式(12)所示;
其中,|y|c表示字符个数;log PLM(y)表示语言模型分数;λ表示语言模型分数权重,可由验证集确定。实际应用中的解码搜索采用Beam数为32的束搜索,语言模型分数权重λ为0.008。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (9)
1.一种端到端语音转文本罕见词优化方法,其特征在于:训练集语料库对应标注文本中罕见词列表的构造,首先,整理分析训练集语料的标注文本;然后,使用分词工具对标注文本进行分词并使用SRILM语言模型工具统计单词词频;最后,将词频小于所设置的词频阈值的单词定义为罕见词,将其加入到罕见词列表中。
2.根据权利要求1所述的一种端到端语音转文本罕见词优化方法,其特征在于:根据所构建的罕见词列表,从大规模语言模型训练语料中抽取包含罕见词的句子,一般说来,语言模型训练语料库中包含的文本语料远远多于声学模型训练集中所包含的文本语料,因此可以从语言模型文本语料中抽取得到包含罕见词的多个句子,用于合成包含罕见词的语音数据。
3.根据权利要求1所述的一种端到端语音转文本罕见词优化方法,其特征在于:合成包含罕见词句子的语音数据,首先,构造基于Tacotron2的多说话人语音合成模型,然后,利用多说话人语音数据对Tacotron2进行训练,最后,使用训练得到的多说话人语音合成模型对包含罕见词的句子进行文本语音合成,得到合成的罕见词语音语料库。
4.根据权利要求1所述的一种端到端语音转文本罕见词优化方法,其特征在于:少量重口音语音数据下的模型优化。针对标准普通话语音数据下训练得到的通用语音识别模型,使用少量重口音语音数据对其进行优化。
5.根据权利要求1所述的一种端到端语音转文本罕见词优化方法,其特征在于:训练语料库的扩充和端到端声学模型的构建,将合成的包含罕见词的多个说话人语音数据与原有的训练集语音数据进行合并,得到扩充的训练集语料。
6.根据权利要求1所述的一种端到端语音转文本罕见词优化方法,其特征在于:端到端语音识别模型LAS的构建,本发明所构建的端到端语音模型是基于注意力机制的序列到序列的语音识别模型LAS,其主要包括编码器模块、注意力模块和解码器模块三部分。
7.根据权利要求1所述的一种端到端语音转文本罕见词优化方法,其特征在于:端到端语音识别模型LAS的训练,使用扩充后的训练集语音数据对LAS模型进行训练,联合优化LAS模型的三个模块,使端到端模型可以使用与最终评估标准高度相关的函数作为全局优化的目标函数,从而有利于求解得到全局最优结果。
8.根据权利要求1所述的一种端到端语音转文本罕见词优化方法,其特征在于:端到端语音识别模型的语音解码和语言模型重打分,首先,使用束搜索解码技术对联合优化后的语音识别模型进行解码搜索,得到声学模型分数;然后,使用已有的大规模语言模型对搜索得到的解码路径进行语言模型分数计算;最后,使用语言模型分数对声学模型分数进行重打分,得到解码搜索最终的分数,由该分数计算得到重口音语音对应的解码文本。
9.根据权利要求1所述的一种端到端语音转文本罕见词优化方法,包括以下步骤:
S1,统计训练语料中对应标注文本的词频,获取罕见词列表。首先,统计分析训练集语料库中对应的文本语料;然后使用分词工具对得到的文本语料进行分词,并使用SRILM语言模型工具对分词后的语料进行词频统计,得到训练语料中单词的词频列表;分析词频列表,抽取罕见词构造罕见词词表,即针对单词词频nword设置词频阈值nthreshold,当nword≤nthreshold时,认为该词在训练集语料库中属于低频词或罕见词,将其加入罕见词词表中,处理完成即可得到当前训练集语料对应的罕见词词表;
S2,抽取大规模文本语料中包含罕见词的句子,构造得到罕见词文本语料库。针对步骤S1中抽取得到罕见词词表,从大规模语言模型文本语料库中抽取包含罕见词的多个句子,将其加入到罕见词文本语料库中,处理完成即可得到罕见词词表对应的包含罕见词的文本语料库;
S3,合成包含罕见词句子的语音数据,针对步骤S2抽取得到的罕见词文本语料库,使用较成熟的语音合成模型Tacotron2进行罕见词文本语音合成,Tacotron2是一个基于神经网络的语音合成方法,主要由声谱预测网络、声码器和中间连接模块构成;
声谱预测网络是一个基于注意力机制的序列到序列的网络结构,模型的输入为待合成的字符序列,输出为梅尔频谱声学特征帧序列,其中,编码器模块由包含512个神经元结点的字符嵌入层、3层各包含512个尺度为5*1的卷积核的卷积神经网络CNN层和一层包含256个隐藏层神经元结点的双向长短时记忆LSTM网络层构成,编码器模块的计算过程如公式(1)~(2)所示;
Fe=ReLU(K3*ReLU(K2*ReLU(K1*E(Ch)))) (1)
H=BLSTM(Fe) (2)
其中,K1、K2、K3分别表示三个卷积神经网络层的卷积核,ReLU表示非线性激活函数,E(·)表示对输入的字符序列Ch做嵌入编码(Embedding),BLSTM为双向长短时记忆网络,Fe为卷积层输出的字符高层语义编码,H为双向长短时记忆网络(Bidirectional Long-ShortTerm Memory,BLSTM)层的输出。
注意力模块中使用了基于位置敏感的注意力机制,在对齐的过程中加入了位置特征,能够同时抽取输入的内容信息和输入元素的位置信息,其形式化表达如公式(3)所示;
其中,va、W、V、U和b为可训练的参数,si为当前解码器隐状态,hj为当前编码器隐状态,fi,j为注意力权重αi-1经卷积操作得到的位置特征编码;
解码器模块是一个自回归的循环神经网络模型,解码过程从输入上一步的输出声谱或上一步的真实声谱到预处理网络PreNet开始,PreNet的输出与使用上一个解码步输出计算得到的上下文相关的语义向量拼接后整体送入解码器网络中,基于RNN网络结构的解码器的输出用来计算当前步的上下文相关的语义向量,当前步的上下文相关的语义向量与当前步解码器的输出做拼接后送入线性投影网络中用于计算输出,解码器完成解码后将预测得到的梅尔谱送入到后处理网络中进行后处理,以提高梅尔谱的生成质量;
声码器采用修正版的WaveNet模型,用于把生成的频域梅尔谱声学特征转换为时域语音波形文件;
本发明采用训练完备的Tacotron2多说话人语音合成模型进行包含罕见词文本语料的语音合成,同时,为了缓解说话人信息对合成的语音的影响,实验中采用多个说话人的信息对没条目标文本进行合成,以此扩充目标文本语料的多样性;
S4,将合成的罕见词语料加入训练集进行端到端声学模型训练,首先,将步骤S3中合成的多说话人语音语料Xsynthesis与训练集语料Xtrain进行合并,得到扩充的训练集语料Xextension,即Xextension=Xtrain∪Xsynthesis;
构造并训练基于端到端的语音识别模型LAS。LAS模型主要由编码器模块、注意力模块和解码器模块三部分构成,其模型结构如图2所示,其中,编码器使用双向长短时记忆网络对输入的序列特征Xextension进行时序关系建模,其形式化表示如公式(4)所示;
在BLSTM层之后堆叠了三层pBLSTM层,pBLSTM层的计算方式如公式(5) 所示;
引入上下文依赖的注意力机制可以使模型专注于序列中上下文相关语义显著特征的学习,从而提升模型推理的准确率,对于解码器输出的中间层语义特征H=(h1,h2,...,hu,...,hU),注意力层首先计算序列中第i个时间步输出特征H对应的权重αi,u,计算方式如公式(6)~(7)所示;
解码器网络由两层各包含512个神经节点的单向LSTM网络构成,其形式化表示如公式(9)~(10)所示;
si=LSTM(si-1,yi-1,ci-1) (9)
P(yi|x,y<i)=MLP(si,ci) (10)
其中,MLP为带有Softmax激活函数的全连接神经网络,其输出是建模单元的后验概率;
本发明构建的LAS模型的编码器、注意力层和解码器可以进行端到端联合训练,其目标函数如公式(11)所示;
S5,由于基于贪心的解码策略每次都在当前位置直接取最优路径,不能保证生成整个序列的概率是最优的,此外,在实际的应用中,词表一般都很大,在有限的搜索时间内无法完成所有可能路径的解码搜索,因此,在实际的应用中,一般采用束搜索(Beam Search)的方法进行语音解码,同时,为了引入语音模型对解码结果进行校正,该技术中引入了语言模型对搜索出的路径进行重打分,其形式化表达如公式(12)所示;
其中,|y|c表示字符个数;logPLM(y)表示语言模型分数;λ表示语言模型分数权重,可由验证集确定。实际应用中的解码搜索采用Beam数为32的束搜索,语言模型分数权重λ为0.008。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110127641.3A CN113539268A (zh) | 2021-01-29 | 2021-01-29 | 一种端到端语音转文本罕见词优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110127641.3A CN113539268A (zh) | 2021-01-29 | 2021-01-29 | 一种端到端语音转文本罕见词优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113539268A true CN113539268A (zh) | 2021-10-22 |
Family
ID=78124276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110127641.3A Pending CN113539268A (zh) | 2021-01-29 | 2021-01-29 | 一种端到端语音转文本罕见词优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113539268A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114387954A (zh) * | 2022-01-25 | 2022-04-22 | 武汉大学 | 一种语音转换方法、装置、设备及存储介质 |
CN115146066A (zh) * | 2022-09-05 | 2022-10-04 | 深圳市华付信息技术有限公司 | 人机交互方法、装置、设备及存储介质 |
CN115376499A (zh) * | 2022-08-18 | 2022-11-22 | 东莞市乐移电子科技有限公司 | 一种应用于学习领域下的智能耳机的学习监控手段 |
WO2024099055A1 (zh) * | 2022-11-10 | 2024-05-16 | 脸萌有限公司 | 语音识别方法、装置及电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100085433A (ko) * | 2009-01-20 | 2010-07-29 | 주식회사 보이스웨어 | 다중 목표운율 이용한 고음질 음성합성 방법 |
CN103186581A (zh) * | 2011-12-30 | 2013-07-03 | 牟颖 | 一种通过手机快速对书本生僻字发音进行获取的方法 |
CN103810998A (zh) * | 2013-12-05 | 2014-05-21 | 中国农业大学 | 基于移动终端设备的离线语音识别方法以及实现方法 |
CN103956162A (zh) * | 2014-04-04 | 2014-07-30 | 上海元趣信息技术有限公司 | 针对儿童的语音识别方法及装置 |
CN107103900A (zh) * | 2017-06-06 | 2017-08-29 | 西北师范大学 | 一种跨语言情感语音合成方法及系统 |
CN109036410A (zh) * | 2018-08-30 | 2018-12-18 | Oppo广东移动通信有限公司 | 语音识别方法、装置、存储介质及终端 |
CN109346064A (zh) * | 2018-12-13 | 2019-02-15 | 苏州思必驰信息科技有限公司 | 用于端到端语音识别模型的训练方法及系统 |
CN109800409A (zh) * | 2017-11-17 | 2019-05-24 | 普天信息技术有限公司 | 一种中文分词方法及系统 |
US20200027444A1 (en) * | 2018-07-20 | 2020-01-23 | Google Llc | Speech recognition with sequence-to-sequence models |
CN111063335A (zh) * | 2019-12-18 | 2020-04-24 | 新疆大学 | 一种基于神经网络的端到端声调识别方法 |
-
2021
- 2021-01-29 CN CN202110127641.3A patent/CN113539268A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100085433A (ko) * | 2009-01-20 | 2010-07-29 | 주식회사 보이스웨어 | 다중 목표운율 이용한 고음질 음성합성 방법 |
CN103186581A (zh) * | 2011-12-30 | 2013-07-03 | 牟颖 | 一种通过手机快速对书本生僻字发音进行获取的方法 |
CN103810998A (zh) * | 2013-12-05 | 2014-05-21 | 中国农业大学 | 基于移动终端设备的离线语音识别方法以及实现方法 |
CN103956162A (zh) * | 2014-04-04 | 2014-07-30 | 上海元趣信息技术有限公司 | 针对儿童的语音识别方法及装置 |
CN107103900A (zh) * | 2017-06-06 | 2017-08-29 | 西北师范大学 | 一种跨语言情感语音合成方法及系统 |
CN109800409A (zh) * | 2017-11-17 | 2019-05-24 | 普天信息技术有限公司 | 一种中文分词方法及系统 |
US20200027444A1 (en) * | 2018-07-20 | 2020-01-23 | Google Llc | Speech recognition with sequence-to-sequence models |
CN109036410A (zh) * | 2018-08-30 | 2018-12-18 | Oppo广东移动通信有限公司 | 语音识别方法、装置、存储介质及终端 |
CN109346064A (zh) * | 2018-12-13 | 2019-02-15 | 苏州思必驰信息科技有限公司 | 用于端到端语音识别模型的训练方法及系统 |
CN111063335A (zh) * | 2019-12-18 | 2020-04-24 | 新疆大学 | 一种基于神经网络的端到端声调识别方法 |
Non-Patent Citations (4)
Title |
---|
刘庆峰;高建清;万根顺;: "语音识别技术研究进展与挑战", 数据与计算发展前沿, no. 06 * |
时昭;: "基于WebFont技术解决网络出版中的生僻字问题", 电子世界, no. 06 * |
李宏言;范利春;高鹏;徐波;: "大数据语音语料库的社会标注技术", 清华大学学报(自然科学版), no. 06 * |
祁坤钰;: "基于语料库的藏语名词分类与统计研究", 西北民族大学学报(自然科学版), no. 03 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114387954A (zh) * | 2022-01-25 | 2022-04-22 | 武汉大学 | 一种语音转换方法、装置、设备及存储介质 |
CN115376499A (zh) * | 2022-08-18 | 2022-11-22 | 东莞市乐移电子科技有限公司 | 一种应用于学习领域下的智能耳机的学习监控手段 |
CN115376499B (zh) * | 2022-08-18 | 2023-07-28 | 东莞市乐移电子科技有限公司 | 一种应用于学习领域下的智能耳机的学习监控方法 |
CN115146066A (zh) * | 2022-09-05 | 2022-10-04 | 深圳市华付信息技术有限公司 | 人机交互方法、装置、设备及存储介质 |
WO2024099055A1 (zh) * | 2022-11-10 | 2024-05-16 | 脸萌有限公司 | 语音识别方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tan et al. | A survey on neural speech synthesis | |
CN111739508B (zh) | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 | |
US20230267916A1 (en) | Text-based virtual object animation generation method, apparatus, storage medium, and terminal | |
CN113539268A (zh) | 一种端到端语音转文本罕见词优化方法 | |
Mu et al. | Review of end-to-end speech synthesis technology based on deep learning | |
Liu et al. | Reinforcement learning for emotional text-to-speech synthesis with improved emotion discriminability | |
Azizah et al. | Hierarchical transfer learning for multilingual, multi-speaker, and style transfer DNN-based TTS on low-resource languages | |
CN112967720B (zh) | 少量重口音数据下的端到端语音转文本模型优化方法 | |
CN113205792A (zh) | 一种基于Transformer和WaveNet的蒙古语语音合成方法 | |
CN115019776A (zh) | 语音识别模型及其训练方法、语音识别方法及装置 | |
KR101424193B1 (ko) | 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법 | |
CN112735404A (zh) | 一种语音反讽检测方法、系统、终端设备和存储介质 | |
CN118471201B (zh) | 一种高效自适应面向语音识别引擎的热词纠错方法与系统 | |
CN113257221B (zh) | 一种基于前端设计的语音模型训练方法及语音合成方法 | |
CN114863948A (zh) | 基于CTCAttention架构的参考文本相关发音错误检测模型 | |
Wang et al. | CE-Tacotron2: end-to-end emotional speech synthesis | |
Wang et al. | Synthesizing spoken descriptions of images | |
Zhao et al. | Research on voice cloning with a few samples | |
Mu et al. | Japanese Pronunciation Evaluation Based on DDNN | |
CN116798403A (zh) | 一种可合成多情感音频的语音合成模型方法 | |
Wang et al. | Investigation of using continuous representation of various linguistic units in neural network based text-to-speech synthesis | |
Li et al. | Improving mandarin tone mispronunciation detection for non-native learners with soft-target tone labels and blstm-based deep models | |
CN115424604A (zh) | 一种基于对抗生成网络的语音合成模型的训练方法 | |
CN111063335B (zh) | 一种基于神经网络的端到端声调识别方法 | |
Galatang | Syllable-Based Indonesian Automatic Speech Recognition. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20211022 |