CN113539268A - 一种端到端语音转文本罕见词优化方法 - Google Patents

一种端到端语音转文本罕见词优化方法 Download PDF

Info

Publication number
CN113539268A
CN113539268A CN202110127641.3A CN202110127641A CN113539268A CN 113539268 A CN113539268 A CN 113539268A CN 202110127641 A CN202110127641 A CN 202110127641A CN 113539268 A CN113539268 A CN 113539268A
Authority
CN
China
Prior art keywords
model
text
rare
word
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110127641.3A
Other languages
English (en)
Inventor
胡燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Digang Science And Technology Co ltd
Original Assignee
Nanjing Digang Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Digang Science And Technology Co ltd filed Critical Nanjing Digang Science And Technology Co ltd
Priority to CN202110127641.3A priority Critical patent/CN113539268A/zh
Publication of CN113539268A publication Critical patent/CN113539268A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/086Recognition of spelled words
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种端到端语音转文本罕见词优化方法,训练集语料库对应标注文本中罕见词列表的构造,首先,整理分析训练集语料的标注文本;然后,使用分词工具对标注文本进行分词并使用SRILM语言模型工具统计单词词频;最后,将词频小于所设置的词频阈值的单词定义为罕见词,将其加入到罕见词列表中,本发明提出的一种端到端语音转文本罕见词优化技术,通过对训练集语料对应的文本标注进行统计分析,并构造包含罕见词的文本语料列表,能够有效搜索出端到端语音识别模型中未充分训练的文本语料。

Description

一种端到端语音转文本罕见词优化方法
技术领域
本发明涉及人工智能技术领域,具体为一种端到端语音转文本罕见词优化方法。
背景技术
长期以来,基于隐马尔可夫模型(Hidden Markov Model,HMM)的语音识别方法一直是主流的大规模连续语音识别(Large Vocabulary Continuous Speech Recognition,LVCSR)方法。截止到目前,基于深度神经网络-隐马尔可夫模型(Deep Neural Network-Hidden Markov Model,DNN-HMM)的混合模型仍能达到最优的识别准确率,一般说来,基于HMM的语音识别模型由声学模型、发音词典和语言模型三个模块构成。声学模型主要用于建模输入语音和音素序列或子音素序列之间的映射关系;发音词典主要用于实现音素(或子音素) 与字符之间的映射,通常由专业的人类语言学家构建;语言模型将字符序列映射到流利的转录文本,然而,由于基于HMM的语音识别模型三个相对独立的组件需要单独设计且不同模块要分开训练,再通过构造加权有限状态转换器 (Weighted Finite StateTransduce,WFST)将不同模块进行融合,最后进行语音解码,该方法每个组件的设计和训练均需要专业的技术积累,训练步骤复杂且全局最优解优化困难;此外,模型构建过程中的条件独立性假设使得该方法与真实场景下的LVCSR不完全匹配。因此,基于HMM的语音识别方法的易用性、可维护性和可迁移性均受到了很大限制;
深度学习技术的出现极大地提高了语音识别模型的识别准确率,鉴于传统基于HMM模型方法的局限性,越来越多的研究机构开始研究基于端到端声学模型的LVCSR。端到端语音识别模型将传统语音识别系统的三大组件融合为一个网络模型,直接将输入音频序列映射为单词序列或其他字符序列,合并多个模块的好处是不需要设计很多模块来实现各种中间状态之间的映射,可以大大简化语音识别模型的构建和训练过程;联合训练使端到端模型能够使用与最终评价标准高度相关的函数作为全局优化的目标函数,更容易搜索得到全局最优解,从而进一步提升语音识别准确率,为此我们提出一种端到端语音转文本罕见词优化方法用于解决上述问题。
发明内容
本发明的目的在于提供一种端到端语音转文本罕见词优化方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种端到端语音转文本罕见词优化方法,训练集语料库对应标注文本中罕见词列表的构造,首先,整理分析训练集语料的标注文本;然后,使用分词工具对标注文本进行分词并使用 SRILM语言模型工具统计单词词频;最后,将词频小于所设置的词频阈值的单词定义为罕见词,将其加入到罕见词列表中。
根据所构建的罕见词列表,从大规模语言模型训练语料中抽取包含罕见词的句子,一般说来,语言模型训练语料库中包含的文本语料远远多于声学模型训练集中所包含的文本语料,因此可以从语言模型文本语料中抽取得到包含罕见词的多个句子,用于合成包含罕见词的语音数据。
合成包含罕见词句子的语音数据,首先,构造基于Tacotron2的多说话人语音合成模型,然后,利用多说话人语音数据对Tacotron2进行训练,最后,使用训练得到的多说话人语音合成模型对包含罕见词的句子进行文本语音合成,得到合成的罕见词语音语料库。
少量重口音语音数据下的模型优化。针对标准普通话语音数据下训练得到的通用语音识别模型,使用少量重口音语音数据对其进行优化。
训练语料库的扩充和端到端声学模型的构建,将合成的包含罕见词的多个说话人语音数据与原有的训练集语音数据进行合并,得到扩充的训练集语料。
端到端语音识别模型LAS的构建,本发明所构建的端到端语音模型是基于注意力机制的序列到序列的语音识别模型LAS,其主要包括编码器模块、注意力模块和解码器模块三部分。
端到端语音识别模型LAS的训练,使用扩充后的训练集语音数据对LAS模型进行训练,联合优化LAS模型的三个模块,使端到端模型可以使用与最终评估标准高度相关的函数作为全局优化的目标函数,从而有利于求解得到全局最优结果。
端到端语音识别模型的语音解码和语言模型重打分,首先,使用束搜索解码技术对联合优化后的语音识别模型进行解码搜索,得到声学模型分数;然后,使用已有的大规模语言模型对搜索得到的解码路径进行语言模型分数计算;最后,使用语言模型分数对声学模型分数进行重打分,得到解码搜索最终的分数,由该分数计算得到重口音语音对应的解码文本。
一种端到端语音转文本罕见词优化方法,包括以下步骤:
S1,统计训练语料中对应标注文本的词频,获取罕见词列表。首先,统计分析训练集语料库中对应的文本语料;然后使用分词工具对得到的文本语料进行分词,并使用SRILM语言模型工具对分词后的语料进行词频统计,得到训练语料中单词的词频列表;分析词频列表,抽取罕见词构造罕见词词表,即针对单词词频nword设置词频阈值nthreshold,当nword≤nthreshold时,认为该词在训练集语料库中属于低频词或罕见词,将其加入罕见词词表中,处理完成即可得到当前训练集语料对应的罕见词词表;
S2,抽取大规模文本语料中包含罕见词的句子,构造得到罕见词文本语料库。针对步骤S1中抽取得到罕见词词表,从大规模语言模型文本语料库中抽取包含罕见词的多个句子,将其加入到罕见词文本语料库中,处理完成即可得到罕见词词表对应的包含罕见词的文本语料库;
S3,合成包含罕见词句子的语音数据,针对步骤S2抽取得到的罕见词文本语料库,使用较成熟的语音合成模型Tacotron2进行罕见词文本语音合成, Tacotron2是一个基于神经网络的语音合成方法,主要由声谱预测网络、声码器和中间连接模块构成;
声谱预测网络是一个基于注意力机制的序列到序列的网络结构,模型的输入为待合成的字符序列,输出为梅尔频谱声学特征帧序列,其中,编码器模块由包含512个神经元结点的字符嵌入层、3层各包含512个尺度为5*1的卷积核的卷积神经网络CNN层和一层包含256个隐藏层神经元结点的双向长短时记忆 LSTM网络层构成,编码器模块的计算过程如公式(1)~(2)所示;
Fe=ReLU(K3*ReLU(K2*ReLU(K1*E(Ch)))) (1)
H=BLSTM(Fe) (2)
其中,K1、K2、K3分别表示三个卷积神经网络层的卷积核,ReLU表示非线性激活函数,E(·)表示对输入的字符序列Ch做嵌入编码(Embedding),BLSTM为双向长短时记忆网络,Fe为卷积层输出的字符高层语义编码,H为双向长短时记忆网络(Bidirectional Long-Short Term Memory,BLSTM)层的输出。
注意力模块中使用了基于位置敏感的注意力机制,在对齐的过程中加入了位置特征,能够同时抽取输入的内容信息和输入元素的位置信息,其形式化表达如公式(3)所示;
Figure RE-RE-GDA0003261381380000051
其中,va、W、V、U和b为可训练的参数,si为当前解码器隐状态,hj为当前编码器隐状态,fi,j为注意力权重αi-1经卷积操作得到的位置特征编码;
解码器模块是一个自回归的循环神经网络模型,解码过程从输入上一步的输出声谱或上一步的真实声谱到预处理网络PreNet开始,PreNet的输出与使用上一个解码步输出计算得到的上下文相关的语义向量拼接后整体送入解码器网络中,基于RNN网络结构的解码器的输出用来计算当前步的上下文相关的语义向量,当前步的上下文相关的语义向量与当前步解码器的输出做拼接后送入线性投影网络中用于计算输出,解码器完成解码后将预测得到的梅尔谱送入到后处理网络中进行后处理,以提高梅尔谱的生成质量;
声码器采用修正版的WaveNet模型,用于把生成的频域梅尔谱声学特征转换为时域语音波形文件;
本发明采用训练完备的Tacotron2多说话人语音合成模型进行包含罕见词文本语料的语音合成,同时,为了缓解说话人信息对合成的语音的影响,实验中采用多个说话人的信息对没条目标文本进行合成,以此扩充目标文本语料的多样性;
S4,将合成的罕见词语料加入训练集进行端到端声学模型训练,首先,将步骤S3中合成的多说话人语音语料Xsynthesis与训练集语料Xtrain进行合并,得到扩充的训练集语料Xextension,即Xextension=Xtrain∪Xsynthesis
构造并训练基于端到端的语音识别模型LAS。LAS模型主要由编码器模块、注意力模块和解码器模块三部分构成,其模型结构如图2所示,其中,编码器使用双向长短时记忆网络对输入的序列特征Xextension进行时序关系建模,其形式化表示如公式(4)所示;
Figure RE-RE-GDA0003261381380000061
在BLSTM层之后堆叠了三层pBLSTM层,pBLSTM层的计算方式如公式(5) 所示;
Figure RE-RE-GDA0003261381380000062
引入上下文依赖的注意力机制可以使模型专注于序列中上下文相关语义显著特征的学习,从而提升模型推理的准确率,对于解码器输出的中间层语义特征H=(h1,h2,...,hu,...,hU),注意力层首先计算序列中第i个时间步输出特征H对应的权重αi,u,计算方式如公式(6)~(7)所示;
Figure RE-RE-GDA0003261381380000063
Figure RE-RE-GDA0003261381380000064
其中,exp为以自然常数e为底的指数函数,φ、
Figure RE-RE-GDA0003261381380000065
为带有可训练参数的全连接神经网络,上下文依赖的语义特征ci是输入序列的加权之和,是对一段语音整体语义的表征,其加权求和的方法如公式(8)所示;
Figure RE-RE-GDA0003261381380000066
解码器网络由两层各包含512个神经节点的单向LSTM网络构成,其形式化表示如公式(9)~(10)所示;
si=LSTM(si-1,yi-1,ci-1) (9)
P(yi|x,y<i)=MLP(si,ci) (10)
其中,MLP为带有Softmax激活函数的全连接神经网络,其输出是建模单元的后验概率;
本发明构建的LAS模型的编码器、注意力层和解码器可以进行端到端联合训练,其目标函数如公式(11)所示;
Figure RE-RE-GDA0003261381380000071
其中,θe、θa、θd分别为LAS的编码器模块、注意力模块、解码器模块的模型参数;
Figure RE-RE-GDA0003261381380000072
表示第i个时间步之前时间步字符的真实标记;
S5,由于基于贪心的解码策略每次都在当前位置直接取最优路径,不能保证生成整个序列的概率是最优的,此外,在实际的应用中,词表一般都很大,在有限的搜索时间内无法完成所有可能路径的解码搜索,因此,在实际的应用中,一般采用束搜索(BeamSearch)的方法进行语音解码,同时,为了引入语音模型对解码结果进行校正,该技术中引入了语言模型对搜索出的路径进行重打分,其形式化表达如公式(12)所示;
Figure RE-RE-GDA0003261381380000073
其中,|y|c表示字符个数;log PLM(y)表示语言模型分数;λ表示语言模型分数权重,可由验证集确定。实际应用中的解码搜索采用Beam数为32的束搜索,语言模型分数权重λ为0.008。
与现有技术相比,本发明的有益效果是:
本发明提出的一种端到端语音转文本罕见词优化技术,通过对训练集语料对应的文本标注进行统计分析,并构造包含罕见词的文本语料列表,能够有效搜索出端到端语音识别模型中未充分训练的文本语料;然后,通过成熟的多说话人语音合成模型对训练集中训练不充分的罕见词进行文本语音合成,能够有效扩充包含罕见词的文本语音,从而扩充训练集语料;最后,将合成的文本语音和原训练集语料融合后对端到端语音识别模型进行训练优化,能够显著提升端到端语音转文本模型对罕见词的泛化能力,从而缓解训练语料不足导致的罕见词识别效果差的问题,能够有效提升端到端语音识别的准确率。
附图说明
图1为本发明的一种端到端语音转文本罕见词优化技术流程示意图;
图2为本发明的端到端语音识别模型LAS模型结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明提供一种技术方案:一种端到端语音转文本罕见词优化方法,训练集语料库对应标注文本中罕见词列表的构造,首先,整理分析训练集语料的标注文本;然后,使用分词工具对标注文本进行分词并使用SRILM 语言模型工具统计单词词频;最后,将词频小于所设置的词频阈值的单词定义为罕见词,将其加入到罕见词列表中。
根据所构建的罕见词列表,从大规模语言模型训练语料中抽取包含罕见词的句子,一般说来,语言模型训练语料库中包含的文本语料远远多于声学模型训练集中所包含的文本语料,因此可以从语言模型文本语料中抽取得到包含罕见词的多个句子,用于合成包含罕见词的语音数据。
合成包含罕见词句子的语音数据,首先,构造基于Tacotron2的多说话人语音合成模型,然后,利用多说话人语音数据对Tacotron2进行训练,最后,使用训练得到的多说话人语音合成模型对包含罕见词的句子进行文本语音合成,得到合成的罕见词语音语料库。
少量重口音语音数据下的模型优化。针对标准普通话语音数据下训练得到的通用语音识别模型,使用少量重口音语音数据对其进行优化。
训练语料库的扩充和端到端声学模型的构建,将合成的包含罕见词的多个说话人语音数据与原有的训练集语音数据进行合并,得到扩充的训练集语料。
端到端语音识别模型LAS的构建,本发明所构建的端到端语音模型是基于注意力机制的序列到序列的语音识别模型LAS,其主要包括编码器模块、注意力模块和解码器模块三部分。
端到端语音识别模型LAS的训练,使用扩充后的训练集语音数据对LAS模型进行训练,联合优化LAS模型的三个模块,使端到端模型可以使用与最终评估标准高度相关的函数作为全局优化的目标函数,从而有利于求解得到全局最优结果。
端到端语音识别模型的语音解码和语言模型重打分,首先,使用束搜索解码技术对联合优化后的语音识别模型进行解码搜索,得到声学模型分数;然后,使用已有的大规模语言模型对搜索得到的解码路径进行语言模型分数计算;最后,使用语言模型分数对声学模型分数进行重打分,得到解码搜索最终的分数,由该分数计算得到重口音语音对应的解码文本。
一种端到端语音转文本罕见词优化方法,包括以下步骤:
S1,统计训练语料中对应标注文本的词频,获取罕见词列表。首先,统计分析训练集语料库中对应的文本语料;然后使用分词工具对得到的文本语料进行分词,并使用SRILM语言模型工具对分词后的语料进行词频统计,得到训练语料中单词的词频列表;分析词频列表,抽取罕见词构造罕见词词表,即针对单词词频nword设置词频阈值nthreshold,当nword≤nthreshold时,认为该词在训练集语料库中属于低频词或罕见词,将其加入罕见词词表中,处理完成即可得到当前训练集语料对应的罕见词词表;
S2,抽取大规模文本语料中包含罕见词的句子,构造得到罕见词文本语料库。针对步骤S1中抽取得到罕见词词表,从大规模语言模型文本语料库中抽取包含罕见词的多个句子,将其加入到罕见词文本语料库中,处理完成即可得到罕见词词表对应的包含罕见词的文本语料库;
S3,合成包含罕见词句子的语音数据,针对步骤S2抽取得到的罕见词文本语料库,使用较成熟的语音合成模型Tacotron2进行罕见词文本语音合成, Tacotron2是一个基于神经网络的语音合成方法,主要由声谱预测网络、声码器和中间连接模块构成;
声谱预测网络是一个基于注意力机制的序列到序列的网络结构,模型的输入为待合成的字符序列,输出为梅尔频谱声学特征帧序列,其中,编码器模块由包含512个神经元结点的字符嵌入层、3层各包含512个尺度为5*1的卷积核的卷积神经网络CNN层和一层包含256个隐藏层神经元结点的双向长短时记忆 LSTM网络层构成,编码器模块的计算过程如公式(1)~(2)所示;
Fe=ReLU(K3*ReLU(K2*ReLU(K1*E(Ch)))) (1)
H=BLSTM(Fe) (2)
其中,K1、K2、K3分别表示三个卷积神经网络层的卷积核,ReLU表示非线性激活函数,E(·)表示对输入的字符序列Ch做嵌入编码(Embedding),BLSTM为双向长短时记忆网络,Fe为卷积层输出的字符高层语义编码,H为双向长短时记忆网络(Bidirectional Long-Short Term Memory,BLSTM)层的输出。
注意力模块中使用了基于位置敏感的注意力机制,在对齐的过程中加入了位置特征,能够同时抽取输入的内容信息和输入元素的位置信息,其形式化表达如公式(3)所示;
Figure RE-RE-GDA0003261381380000101
其中,va、W、V、U和b为可训练的参数,si为当前解码器隐状态,hj为当前编码器隐状态,fi,j为注意力权重αi-1经卷积操作得到的位置特征编码;
解码器模块是一个自回归的循环神经网络模型,解码过程从输入上一步的输出声谱或上一步的真实声谱到预处理网络PreNet开始,PreNet的输出与使用上一个解码步输出计算得到的上下文相关的语义向量拼接后整体送入解码器网络中,基于RNN网络结构的解码器的输出用来计算当前步的上下文相关的语义向量,当前步的上下文相关的语义向量与当前步解码器的输出做拼接后送入线性投影网络中用于计算输出,解码器完成解码后将预测得到的梅尔谱送入到后处理网络中进行后处理,以提高梅尔谱的生成质量;
声码器采用修正版的WaveNet模型,用于把生成的频域梅尔谱声学特征转换为时域语音波形文件;
本发明采用训练完备的Tacotron2多说话人语音合成模型进行包含罕见词文本语料的语音合成,同时,为了缓解说话人信息对合成的语音的影响,实验中采用多个说话人的信息对没条目标文本进行合成,以此扩充目标文本语料的多样性;
S4,将合成的罕见词语料加入训练集进行端到端声学模型训练,首先,将步骤S3中合成的多说话人语音语料Xsynthesis与训练集语料Xtrain进行合并,得到扩充的训练集语料Xextension,即Xextension=Xtrain∪Xsynthesis
构造并训练基于端到端的语音识别模型LAS。LAS模型主要由编码器模块、注意力模块和解码器模块三部分构成,其模型结构如图2所示,其中,编码器使用双向长短时记忆网络对输入的序列特征Xextension进行时序关系建模,其形式化表示如公式(4)所示;
Figure RE-RE-GDA0003261381380000111
在BLSTM层之后堆叠了三层pBLSTM层,pBLSTM层的计算方式如公式(5) 所示;
Figure RE-RE-GDA0003261381380000121
引入上下文依赖的注意力机制可以使模型专注于序列中上下文相关语义显著特征的学习,从而提升模型推理的准确率,对于解码器输出的中间层语义特征H=(h1,h2,...,hu,...,hU),注意力层首先计算序列中第i个时间步输出特征H对应的权重αi,u,计算方式如公式(6)~(7)所示;
Figure RE-RE-GDA0003261381380000122
Figure RE-RE-GDA0003261381380000123
其中,exp为以自然常数e为底的指数函数,φ、
Figure RE-RE-GDA0003261381380000124
为带有可训练参数的全连接神经网络,上下文依赖的语义特征ci是输入序列的加权之和,是对一段语音整体语义的表征,其加权求和的方法如公式(8)所示;
Figure RE-RE-GDA0003261381380000125
解码器网络由两层各包含512个神经节点的单向LSTM网络构成,其形式化表示如公式(9)~(10)所示;
si=LSTM(si-1,yi-1,ci-1) (9)
P(yi|x,y<i)=MLP(si,ci) (10)
其中,MLP为带有Softmax激活函数的全连接神经网络,其输出是建模单元的后验概率;
本发明构建的LAS模型的编码器、注意力层和解码器可以进行端到端联合训练,其目标函数如公式(11)所示;
Figure RE-RE-GDA0003261381380000126
其中,θe、θa、θd分别为LAS的编码器模块、注意力模块、解码器模块的模型参数;
Figure RE-RE-GDA0003261381380000127
表示第i个时间步之前时间步字符的真实标记;
S5,由于基于贪心的解码策略每次都在当前位置直接取最优路径,不能保证生成整个序列的概率是最优的,此外,在实际的应用中,词表一般都很大,在有限的搜索时间内无法完成所有可能路径的解码搜索,因此,在实际的应用中,一般采用束搜索(BeamSearch)的方法进行语音解码,同时,为了引入语音模型对解码结果进行校正,该技术中引入了语言模型对搜索出的路径进行重打分,其形式化表达如公式(12)所示;
Figure RE-RE-GDA0003261381380000131
其中,|y|c表示字符个数;log PLM(y)表示语言模型分数;λ表示语言模型分数权重,可由验证集确定。实际应用中的解码搜索采用Beam数为32的束搜索,语言模型分数权重λ为0.008。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种端到端语音转文本罕见词优化方法,其特征在于:训练集语料库对应标注文本中罕见词列表的构造,首先,整理分析训练集语料的标注文本;然后,使用分词工具对标注文本进行分词并使用SRILM语言模型工具统计单词词频;最后,将词频小于所设置的词频阈值的单词定义为罕见词,将其加入到罕见词列表中。
2.根据权利要求1所述的一种端到端语音转文本罕见词优化方法,其特征在于:根据所构建的罕见词列表,从大规模语言模型训练语料中抽取包含罕见词的句子,一般说来,语言模型训练语料库中包含的文本语料远远多于声学模型训练集中所包含的文本语料,因此可以从语言模型文本语料中抽取得到包含罕见词的多个句子,用于合成包含罕见词的语音数据。
3.根据权利要求1所述的一种端到端语音转文本罕见词优化方法,其特征在于:合成包含罕见词句子的语音数据,首先,构造基于Tacotron2的多说话人语音合成模型,然后,利用多说话人语音数据对Tacotron2进行训练,最后,使用训练得到的多说话人语音合成模型对包含罕见词的句子进行文本语音合成,得到合成的罕见词语音语料库。
4.根据权利要求1所述的一种端到端语音转文本罕见词优化方法,其特征在于:少量重口音语音数据下的模型优化。针对标准普通话语音数据下训练得到的通用语音识别模型,使用少量重口音语音数据对其进行优化。
5.根据权利要求1所述的一种端到端语音转文本罕见词优化方法,其特征在于:训练语料库的扩充和端到端声学模型的构建,将合成的包含罕见词的多个说话人语音数据与原有的训练集语音数据进行合并,得到扩充的训练集语料。
6.根据权利要求1所述的一种端到端语音转文本罕见词优化方法,其特征在于:端到端语音识别模型LAS的构建,本发明所构建的端到端语音模型是基于注意力机制的序列到序列的语音识别模型LAS,其主要包括编码器模块、注意力模块和解码器模块三部分。
7.根据权利要求1所述的一种端到端语音转文本罕见词优化方法,其特征在于:端到端语音识别模型LAS的训练,使用扩充后的训练集语音数据对LAS模型进行训练,联合优化LAS模型的三个模块,使端到端模型可以使用与最终评估标准高度相关的函数作为全局优化的目标函数,从而有利于求解得到全局最优结果。
8.根据权利要求1所述的一种端到端语音转文本罕见词优化方法,其特征在于:端到端语音识别模型的语音解码和语言模型重打分,首先,使用束搜索解码技术对联合优化后的语音识别模型进行解码搜索,得到声学模型分数;然后,使用已有的大规模语言模型对搜索得到的解码路径进行语言模型分数计算;最后,使用语言模型分数对声学模型分数进行重打分,得到解码搜索最终的分数,由该分数计算得到重口音语音对应的解码文本。
9.根据权利要求1所述的一种端到端语音转文本罕见词优化方法,包括以下步骤:
S1,统计训练语料中对应标注文本的词频,获取罕见词列表。首先,统计分析训练集语料库中对应的文本语料;然后使用分词工具对得到的文本语料进行分词,并使用SRILM语言模型工具对分词后的语料进行词频统计,得到训练语料中单词的词频列表;分析词频列表,抽取罕见词构造罕见词词表,即针对单词词频nword设置词频阈值nthreshold,当nword≤nthreshold时,认为该词在训练集语料库中属于低频词或罕见词,将其加入罕见词词表中,处理完成即可得到当前训练集语料对应的罕见词词表;
S2,抽取大规模文本语料中包含罕见词的句子,构造得到罕见词文本语料库。针对步骤S1中抽取得到罕见词词表,从大规模语言模型文本语料库中抽取包含罕见词的多个句子,将其加入到罕见词文本语料库中,处理完成即可得到罕见词词表对应的包含罕见词的文本语料库;
S3,合成包含罕见词句子的语音数据,针对步骤S2抽取得到的罕见词文本语料库,使用较成熟的语音合成模型Tacotron2进行罕见词文本语音合成,Tacotron2是一个基于神经网络的语音合成方法,主要由声谱预测网络、声码器和中间连接模块构成;
声谱预测网络是一个基于注意力机制的序列到序列的网络结构,模型的输入为待合成的字符序列,输出为梅尔频谱声学特征帧序列,其中,编码器模块由包含512个神经元结点的字符嵌入层、3层各包含512个尺度为5*1的卷积核的卷积神经网络CNN层和一层包含256个隐藏层神经元结点的双向长短时记忆LSTM网络层构成,编码器模块的计算过程如公式(1)~(2)所示;
Fe=ReLU(K3*ReLU(K2*ReLU(K1*E(Ch)))) (1)
H=BLSTM(Fe) (2)
其中,K1、K2、K3分别表示三个卷积神经网络层的卷积核,ReLU表示非线性激活函数,E(·)表示对输入的字符序列Ch做嵌入编码(Embedding),BLSTM为双向长短时记忆网络,Fe为卷积层输出的字符高层语义编码,H为双向长短时记忆网络(Bidirectional Long-ShortTerm Memory,BLSTM)层的输出。
注意力模块中使用了基于位置敏感的注意力机制,在对齐的过程中加入了位置特征,能够同时抽取输入的内容信息和输入元素的位置信息,其形式化表达如公式(3)所示;
Figure RE-FDA0003261381370000031
其中,va、W、V、U和b为可训练的参数,si为当前解码器隐状态,hj为当前编码器隐状态,fi,j为注意力权重αi-1经卷积操作得到的位置特征编码;
解码器模块是一个自回归的循环神经网络模型,解码过程从输入上一步的输出声谱或上一步的真实声谱到预处理网络PreNet开始,PreNet的输出与使用上一个解码步输出计算得到的上下文相关的语义向量拼接后整体送入解码器网络中,基于RNN网络结构的解码器的输出用来计算当前步的上下文相关的语义向量,当前步的上下文相关的语义向量与当前步解码器的输出做拼接后送入线性投影网络中用于计算输出,解码器完成解码后将预测得到的梅尔谱送入到后处理网络中进行后处理,以提高梅尔谱的生成质量;
声码器采用修正版的WaveNet模型,用于把生成的频域梅尔谱声学特征转换为时域语音波形文件;
本发明采用训练完备的Tacotron2多说话人语音合成模型进行包含罕见词文本语料的语音合成,同时,为了缓解说话人信息对合成的语音的影响,实验中采用多个说话人的信息对没条目标文本进行合成,以此扩充目标文本语料的多样性;
S4,将合成的罕见词语料加入训练集进行端到端声学模型训练,首先,将步骤S3中合成的多说话人语音语料Xsynthesis与训练集语料Xtrain进行合并,得到扩充的训练集语料Xextension,即Xextension=Xtrain∪Xsynthesis
构造并训练基于端到端的语音识别模型LAS。LAS模型主要由编码器模块、注意力模块和解码器模块三部分构成,其模型结构如图2所示,其中,编码器使用双向长短时记忆网络对输入的序列特征Xextension进行时序关系建模,其形式化表示如公式(4)所示;
Figure RE-FDA0003261381370000041
在BLSTM层之后堆叠了三层pBLSTM层,pBLSTM层的计算方式如公式(5) 所示;
Figure RE-FDA0003261381370000051
引入上下文依赖的注意力机制可以使模型专注于序列中上下文相关语义显著特征的学习,从而提升模型推理的准确率,对于解码器输出的中间层语义特征H=(h1,h2,...,hu,...,hU),注意力层首先计算序列中第i个时间步输出特征H对应的权重αi,u,计算方式如公式(6)~(7)所示;
Figure RE-FDA0003261381370000052
Figure RE-FDA0003261381370000053
其中,exp为以自然常数e为底的指数函数,φ、
Figure RE-FDA0003261381370000054
为带有可训练参数的全连接神经网络,上下文依赖的语义特征ci是输入序列的加权之和,是对一段语音整体语义的表征,其加权求和的方法如公式(8)所示;
Figure RE-FDA0003261381370000055
解码器网络由两层各包含512个神经节点的单向LSTM网络构成,其形式化表示如公式(9)~(10)所示;
si=LSTM(si-1,yi-1,ci-1) (9)
P(yi|x,y<i)=MLP(si,ci) (10)
其中,MLP为带有Softmax激活函数的全连接神经网络,其输出是建模单元的后验概率;
本发明构建的LAS模型的编码器、注意力层和解码器可以进行端到端联合训练,其目标函数如公式(11)所示;
Figure RE-FDA0003261381370000056
其中,θe、θa、θd分别为LAS的编码器模块、注意力模块、解码器模块的模型参数;
Figure RE-FDA0003261381370000057
表示第i个时间步之前时间步字符的真实标记;
S5,由于基于贪心的解码策略每次都在当前位置直接取最优路径,不能保证生成整个序列的概率是最优的,此外,在实际的应用中,词表一般都很大,在有限的搜索时间内无法完成所有可能路径的解码搜索,因此,在实际的应用中,一般采用束搜索(Beam Search)的方法进行语音解码,同时,为了引入语音模型对解码结果进行校正,该技术中引入了语言模型对搜索出的路径进行重打分,其形式化表达如公式(12)所示;
Figure RE-FDA0003261381370000061
其中,|y|c表示字符个数;logPLM(y)表示语言模型分数;λ表示语言模型分数权重,可由验证集确定。实际应用中的解码搜索采用Beam数为32的束搜索,语言模型分数权重λ为0.008。
CN202110127641.3A 2021-01-29 2021-01-29 一种端到端语音转文本罕见词优化方法 Pending CN113539268A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110127641.3A CN113539268A (zh) 2021-01-29 2021-01-29 一种端到端语音转文本罕见词优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110127641.3A CN113539268A (zh) 2021-01-29 2021-01-29 一种端到端语音转文本罕见词优化方法

Publications (1)

Publication Number Publication Date
CN113539268A true CN113539268A (zh) 2021-10-22

Family

ID=78124276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110127641.3A Pending CN113539268A (zh) 2021-01-29 2021-01-29 一种端到端语音转文本罕见词优化方法

Country Status (1)

Country Link
CN (1) CN113539268A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114387954A (zh) * 2022-01-25 2022-04-22 武汉大学 一种语音转换方法、装置、设备及存储介质
CN115146066A (zh) * 2022-09-05 2022-10-04 深圳市华付信息技术有限公司 人机交互方法、装置、设备及存储介质
CN115376499A (zh) * 2022-08-18 2022-11-22 东莞市乐移电子科技有限公司 一种应用于学习领域下的智能耳机的学习监控手段
WO2024099055A1 (zh) * 2022-11-10 2024-05-16 脸萌有限公司 语音识别方法、装置及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100085433A (ko) * 2009-01-20 2010-07-29 주식회사 보이스웨어 다중 목표운율 이용한 고음질 음성합성 방법
CN103186581A (zh) * 2011-12-30 2013-07-03 牟颖 一种通过手机快速对书本生僻字发音进行获取的方法
CN103810998A (zh) * 2013-12-05 2014-05-21 中国农业大学 基于移动终端设备的离线语音识别方法以及实现方法
CN103956162A (zh) * 2014-04-04 2014-07-30 上海元趣信息技术有限公司 针对儿童的语音识别方法及装置
CN107103900A (zh) * 2017-06-06 2017-08-29 西北师范大学 一种跨语言情感语音合成方法及系统
CN109036410A (zh) * 2018-08-30 2018-12-18 Oppo广东移动通信有限公司 语音识别方法、装置、存储介质及终端
CN109346064A (zh) * 2018-12-13 2019-02-15 苏州思必驰信息科技有限公司 用于端到端语音识别模型的训练方法及系统
CN109800409A (zh) * 2017-11-17 2019-05-24 普天信息技术有限公司 一种中文分词方法及系统
US20200027444A1 (en) * 2018-07-20 2020-01-23 Google Llc Speech recognition with sequence-to-sequence models
CN111063335A (zh) * 2019-12-18 2020-04-24 新疆大学 一种基于神经网络的端到端声调识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100085433A (ko) * 2009-01-20 2010-07-29 주식회사 보이스웨어 다중 목표운율 이용한 고음질 음성합성 방법
CN103186581A (zh) * 2011-12-30 2013-07-03 牟颖 一种通过手机快速对书本生僻字发音进行获取的方法
CN103810998A (zh) * 2013-12-05 2014-05-21 中国农业大学 基于移动终端设备的离线语音识别方法以及实现方法
CN103956162A (zh) * 2014-04-04 2014-07-30 上海元趣信息技术有限公司 针对儿童的语音识别方法及装置
CN107103900A (zh) * 2017-06-06 2017-08-29 西北师范大学 一种跨语言情感语音合成方法及系统
CN109800409A (zh) * 2017-11-17 2019-05-24 普天信息技术有限公司 一种中文分词方法及系统
US20200027444A1 (en) * 2018-07-20 2020-01-23 Google Llc Speech recognition with sequence-to-sequence models
CN109036410A (zh) * 2018-08-30 2018-12-18 Oppo广东移动通信有限公司 语音识别方法、装置、存储介质及终端
CN109346064A (zh) * 2018-12-13 2019-02-15 苏州思必驰信息科技有限公司 用于端到端语音识别模型的训练方法及系统
CN111063335A (zh) * 2019-12-18 2020-04-24 新疆大学 一种基于神经网络的端到端声调识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘庆峰;高建清;万根顺;: "语音识别技术研究进展与挑战", 数据与计算发展前沿, no. 06 *
时昭;: "基于WebFont技术解决网络出版中的生僻字问题", 电子世界, no. 06 *
李宏言;范利春;高鹏;徐波;: "大数据语音语料库的社会标注技术", 清华大学学报(自然科学版), no. 06 *
祁坤钰;: "基于语料库的藏语名词分类与统计研究", 西北民族大学学报(自然科学版), no. 03 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114387954A (zh) * 2022-01-25 2022-04-22 武汉大学 一种语音转换方法、装置、设备及存储介质
CN115376499A (zh) * 2022-08-18 2022-11-22 东莞市乐移电子科技有限公司 一种应用于学习领域下的智能耳机的学习监控手段
CN115376499B (zh) * 2022-08-18 2023-07-28 东莞市乐移电子科技有限公司 一种应用于学习领域下的智能耳机的学习监控方法
CN115146066A (zh) * 2022-09-05 2022-10-04 深圳市华付信息技术有限公司 人机交互方法、装置、设备及存储介质
WO2024099055A1 (zh) * 2022-11-10 2024-05-16 脸萌有限公司 语音识别方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Tan et al. A survey on neural speech synthesis
CN111739508B (zh) 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统
US20230267916A1 (en) Text-based virtual object animation generation method, apparatus, storage medium, and terminal
CN113539268A (zh) 一种端到端语音转文本罕见词优化方法
Mu et al. Review of end-to-end speech synthesis technology based on deep learning
Liu et al. Reinforcement learning for emotional text-to-speech synthesis with improved emotion discriminability
Azizah et al. Hierarchical transfer learning for multilingual, multi-speaker, and style transfer DNN-based TTS on low-resource languages
CN112967720B (zh) 少量重口音数据下的端到端语音转文本模型优化方法
CN113205792A (zh) 一种基于Transformer和WaveNet的蒙古语语音合成方法
CN115019776A (zh) 语音识别模型及其训练方法、语音识别方法及装置
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
CN112735404A (zh) 一种语音反讽检测方法、系统、终端设备和存储介质
CN118471201B (zh) 一种高效自适应面向语音识别引擎的热词纠错方法与系统
CN113257221B (zh) 一种基于前端设计的语音模型训练方法及语音合成方法
CN114863948A (zh) 基于CTCAttention架构的参考文本相关发音错误检测模型
Wang et al. CE-Tacotron2: end-to-end emotional speech synthesis
Wang et al. Synthesizing spoken descriptions of images
Zhao et al. Research on voice cloning with a few samples
Mu et al. Japanese Pronunciation Evaluation Based on DDNN
CN116798403A (zh) 一种可合成多情感音频的语音合成模型方法
Wang et al. Investigation of using continuous representation of various linguistic units in neural network based text-to-speech synthesis
Li et al. Improving mandarin tone mispronunciation detection for non-native learners with soft-target tone labels and blstm-based deep models
CN115424604A (zh) 一种基于对抗生成网络的语音合成模型的训练方法
CN111063335B (zh) 一种基于神经网络的端到端声调识别方法
Galatang Syllable-Based Indonesian Automatic Speech Recognition.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211022