CN109346064B - 用于端到端语音识别模型的训练方法及系统 - Google Patents
用于端到端语音识别模型的训练方法及系统 Download PDFInfo
- Publication number
- CN109346064B CN109346064B CN201811523980.8A CN201811523980A CN109346064B CN 109346064 B CN109346064 B CN 109346064B CN 201811523980 A CN201811523980 A CN 201811523980A CN 109346064 B CN109346064 B CN 109346064B
- Authority
- CN
- China
- Prior art keywords
- oov
- training
- sequence
- word
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 169
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000001360 synchronised effect Effects 0.000 claims abstract description 10
- 230000002708 enhancing effect Effects 0.000 claims abstract 2
- 238000003860 storage Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 6
- 238000005520 cutting process Methods 0.000 claims description 5
- 230000002441 reversible effect Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
- G10L2015/0633—Creating reference templates; Clustering using lexical or orthographic knowledge sources
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种用于端到端语音识别模型的训练方法。该方法包括:将声学特征序列到单词序列模型(A2W)解耦,确定声学特征序列到音素序列模型(A2P)以及音素序列到单词序列模型(P2W);获取词汇列表外的OOV词语和OOV文本语句,将OOV文本语句反向译为OOV音素序列;将因素同步解码训练后OOV音素序列输入至P2W,输出OOV单词序列,对OOV单词序列数据增强,确定OOV词语训练集;根据OOV词语训练集进行训练从而得到扩展词汇列表的端到端语音识别模型。本发明实施例还提供一种用于端到端语音识别模型的训练系统。本发明实施例通过模块化端到端语音识别模型,对音素序列到单词序列模型(P2W)进行词表拓展,同时使训练数据集与外部OOV词汇相匹配,提高了模型的效果。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种用于端到端语音识别模型的训练方法及系统。
背景技术
ASR(Automatic Speech Recognition,自动语音识别)指将声学序列映射到对应的单词序列。在序列建模中,有大量标记的上下文数据和历史数据具有更强的建模能力,E2E(End-to-end,端到端)ASR系统可以使用统一模型直接将声学序列映射到单词序列(A2W),从而简化了语音识别的过程。
而在A2W模型的应用中,需要面临OOV(out-of-vocabulary,外部词汇)的问题。由于模型中训练的词汇列表的词汇量是固定的,没有针对于OOV词汇训练的A2W模型无法预测这类OOV词汇。
以A2W建模的E2E ASR(End-to-End Automatic Speech Recognition,端到端自动语音识别)模型,由于语音识别是一个统一的模型,会使用语音-文本这种成对的训练数据来进行词汇列表内词汇量的扩展。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
由于在训练中,输入语音-文本这种成对的数据不能保证在时间上是同步的,训练并不理想,同时,针对于OOV词汇的特性,即使直接对OOV词汇进行训练,这些OOV词汇也很少出现在训练的数据集中,使得训练数据集中的训练数据对OOV词汇的训练不匹配,就算将OOV词汇训练至词汇列表中,在实际使用的效果也不佳。
发明内容
为了至少解决现有技术中需要语音-文本这种成对的训练数据进行训练,同时训练数据集中的训练数据与要添加的外部词汇不匹配,使得训练后的模型效果不佳的问题。
第一方面,本发明实施例提供一种用于端到端语音识别模型的训练方法,包括:
将所述端到端语音识别模型中预设声学特征序列到单词序列模型(A2W)解耦,确定声学特征序列到音素序列模型(A2P)以及音素序列到单词序列模型(P2W);
获取所述端到端语音识别模型词汇列表外的OOV词语,根据所述OOV词语获取相关的OOV文本语句,将所述OOV文本语句反向译为OOV音素序列;
将通过因素同步解码训练后的所述OOV音素序列输入至所述P2W,输出OOV单词序列,对所述OOV单词序列进行数据增强,确定OOV词语训练集;
根据所述OOV词语训练集对所述端到端语音识别模型训练,得到扩展词汇列表的端到端语音识别模型。
第二方面,本发明实施例提供一种用于端到端语音识别模型的训练系统,包括:
模型解耦程序模块,用于将所述端到端语音识别模型中预设声学特征序列到单词序列模型(A2W)解耦,确定声学特征序列到音素序列模型(A2P)以及音素序列到单词序列模型(P2W);
音素序列确定程序模块,获取所述端到端语音识别模型词汇列表外的OOV词语,根据所述OOV词语获取相关的OOV文本语句,将所述OOV文本语句反向译为OOV音素序列;
词语训练集确定程序模块,用于将通过因素同步解码训练后的所述OOV音素序列输入至所述P2W,输出OOV单词序列,对所述OOV单词序列进行数据增强,确定OOV词语训练集;
模型训练程序模块,用于根据所述OOV词语训练集对所述端到端语音识别模型训练,得到扩展词汇列表的端到端语音识别模型。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于端到端语音识别模型的训练方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的用于端到端语音识别模型的训练方法的步骤。
本发明实施例的有益效果在于:通过模块化端到端语音识别模型,将语音识别模型分成了声学特征序列到单词序列模型,以及声学特征序列到音素序列模型两个模块,借助词典的帮助,可以直接利用文本数据对音素序列到单词序列模型(P2W)进行词表拓展,使得可以直接使用音素序列进行训练,训练更加便捷,从而实现了整个端到端的词表拓展,同时使训练数据集与外部OOV词汇相匹配,提高了模型训练后的使用效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种用于端到端语音识别模型的训练方法的流程图;
图2是本发明一实施例提供的一种用于端到端语音识别模型的训练方法的声学特征序列到单词序列模型的模块化训练框架示意图;
图3是本发明一实施例提供的一种用于端到端语音识别模型的训练方法的词汇信息列表数据图;
图4是本发明一实施例提供的一种用于端到端语音识别模型的训练方法的Eval2000与OOV扩展微调训练的字错误率(%)比较列表数据图;
图5是本发明一实施例提供的一种用于端到端语音识别模型的训练系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种用于端到端语音识别模型的训练方法的流程图,包括如下步骤:
S11:将所述端到端语音识别模型中预设声学特征序列到单词序列模型(A2W)解耦,确定声学特征序列到音素序列模型(A2P)以及音素序列到单词序列模型(P2W);
S12:获取所述端到端语音识别模型词汇列表外的OOV词语,根据所述OOV词语获取相关的OOV文本语句,将所述OOV文本语句反向译为OOV音素序列;
S13:将通过因素同步解码训练后的所述OOV音素序列输入至所述P2W,输出OOV单词序列,对所述OOV单词序列进行数据增强,确定OOV词语训练集;
S14:根据所述OOV词语训练集对所述端到端语音识别模型训练,得到扩展词汇列表的端到端语音识别模型。
在本实施方式中,对于传统的语音识别,通常会分为3个部分:语音模型,词典,语言模型。语音模型和语言模型都是分开进行训练的,因此这两个模型优化的损失函数不是相同的。而整个语音识别训练的目标WER(word error rate,字错误率)与这个模型的损失函数不是一致的。而对于端到端的语音识别,模型的输入就为语音特征(输入端A),而输出为识别出的文本(输出端W),整个模型就只有一个神经网络的模型,而模型的损失采用的CTC(Connectionist Temporal Classification,连接时序分类)。这样模型就只用以一个损失函数作为训练的优化目标,不用再去优化一些无用的目标了。
对于步骤S11,通过模块化,将所述端到端语音识别模型中预设的声学特征序列Acoustic到单词序列Word(A2W)解耦,单独训练声学特征序列到音素序列模型(A2P)以及音素序列到单词序列模型(P2W)两个模块。
对于步骤S12,获取所述端到端语音识别模型词汇列表外的OOV词语,其中,所述OOV词语称外部词汇,又称未登录词,也称生词,一是指已有的词表中没有收录的词;二是指已有的训练语料中未曾出现过的词。在第二种含义下,未登录词又称为集外词,即训练集以外的词。OOV词汇可以粗略划分为如下几种类型:新出现的普通词汇:例如,肥宅、孩怕等,在网络用语中,这种词汇层出不穷;专有名词:专有名词在早期主要是指人名、地名和组织机构名这三类实体名称;专业名词和研究领域名称:特定领域的专业名词和新出现的研究领域名称也是造成生词的原因之一,如端到端、P2P等;其他专用名词,如新出现的产品名,电影、书籍等文艺作品的名称等等。在收集了所述OOV词语后,收集与所述OOV词语相关的文本,例如,在训练数据充足的情况下,可以同时接受OOV词语以及相关的OOV文本语句,或者也可以根据所述OOV词语,在各大语料库中查询包含所述OOV词语的文本语句,然后将其反向译为OOV音素序列,作为一种实施方式,所述将所述OOV文本语句反向译为OOV音素序列包括:通过发音词典或字形换能器将所述OOV文本语句反向译为OOV音素序列。
对于步骤S13,由于在步骤S12中,将所述OOV文本语句反向译为OOV音素序列,需要进行优化,以符合P2W模型的需求。可以通过PSD(phone synchronous decoding,音素同步解码)进行联合训练,将训练后的OOV音素序列输入至所述P2W模型中,输出OOV单词序列,并对所述OOV单词序列进行数据增强,确定OOV词语训练集。由于模块化A2P模型需要声学输入,所以只能改进P2W部分。为了训练这些OOV词语,需要过滤额外的文本来增加训练集与OOV词语的相关性。例如,可以通过剪切训练语句并使用OOV来构造文本数据,从而确定OOV词语训练集。
对于步骤S14,根据所述OOV词语训练集对所述端到端语音识别模型训练,从而在训练后,得到了扩展词汇列表的端到端语音识别模型。
通过该实施方法可以看出,通过模块化端到端语音识别模型,将语音识别模型分成了声学特征序列到单词序列模型,以及声学特征序列到音素序列模型两个模块,借助词典的帮助,可以直接利用文本数据对音素序列到单词序列模型(P2W)进行词表拓展,使得可以直接使用音素序列进行训练,训练更加便捷,从而实现了整个端到端的词表拓展,同时使训练数据集与外部OOV词汇相匹配,提高了模型训练后的使用效果。
作为一种实施方式,在本实施例中,所述根据所述OOV词语训练集对所述端到端语音识别模型训练包括:
根据所述OOV词语训练集对所述端到端语音识别模型训练;和/或
根据所述OOV词语训练集以及预设文本语料训练集对所述端到端语音识别模型进行交替训练;和/或
根据所述OOV词语训练集、预设文本语料训练集以及所述音素序列到单词序列模型的结构,对所述端到端语音识别模型进行多模态训练。
在本实施方式中,根据所述OOV词语训练集对所述端到端语音识别模型训练有以下几种方法:
1、直接微调(direct training),利用准备的扩展数据直接微调P2W模型
2、交替微调(alternative training),利用扩展数据和训练原始模型的数据进行交替训练P2W模型
3、多模态微调(multi-modal training),调整P2W的结构,利用多模态结构,使用扩展数据和原始训练数据共同微调P2W模型
微调训练结束后,就得到了扩展了词表的端到端语音识别模型。
通过该实施方式可以看出,通过不同的需求使用不同的训练方式,从而获得效果最理想的语音识别模型。
作为一种实施方式,在本实施例中,所述基对所述OOV单词序列进行数据增强包括:
将所述OOV单词序列剪切为OOV单词序列片段;
通过n-gram模型对所述OOV单词序列片段处理,生成与所述OOV单词序列额外的OOV文本数据用于OOV词语训练集。
在本实施方式中,可以获取包含OOV的句子进行数据增强。考虑哦OOV词语经常出现在相对长的句子中,可以剪切已有训练数据,并使用OOV n-gram片段来构造额外的OOV文本数据。进而生成与所述OOV词语相关的OOV词语训练集。
通过该实施方式可以看出,为了保证训练OOV语句的数量,并且使其训练语句与所述OOV词语相关,使用n-gram模型对所述OOV单词序列片段处理,获得足够数量的训练语句保证训练的完整性以及相关性。
作为对上述实施方式的进一步详细说明,首先进行对声学系统模块化,就需要涉及CTC(Connectionist temporal lassification,基于神经网络的时序类分类)、S2S(encoder-decoder、编码器-解码器)以及模块化培训和解码框架。
其中,CTC提供了在给定的特征序列x的情况下计算目标序列l的后验概率P(l|x)的直接方法。为了计算后验序列,CTC引入了一个额外的空白符号,以在扩展输出符号及L∪{blank}和原始L之间构建多对一的映射B
然后,可以计算概率P(l|x),因为所有可能的标准路径的概率的积累和属于给定的目标标记序列。
由于这种序列建模能力,CTC是最流行的ASR端到端(E2E)模型之一,并且在声学到单词系统中表现除了竞争性的表现。
其中,编码器是E2E模型的另一个分支。在与CTC中采用条件独立假设不同,它在给定特征序列x和先前推断标记l1:i-1的情况下预测标签序列的后验概率。
其中,P(li|x,l1:i-1)是通过:
ht=Encoder(x)
αlt=Attention(ql,ht)
P(li|x,l1:i-1)=Decoder(li-1,ql-l,cl)
其中编码器Encoder(·)可以是LSTM(Long Short-Term Memory,长短期记忆网络)或双向LSTM(BLSTM)和解码器Decoder(·)可以是LSTM或门控循环单元(GRU)。由于Attention(·)计算从特征序列编码的隐藏矢量的加权和,因此它可以自动学习特征和标签序列之间的软对齐。
在模块化培训和解码框架中,虽然CTC和S2S模型都可以直接建立声学词系统,但它们仍然具有固定的词汇量,无法处理词汇外(OOV)问题。此外,需要配对的声学文集语料库,并且不能在这些框架中直接利用大量的文本数据。因此,本方法使用在前的模块化A2P的框架来构建E2E ASR系统。如图2所示的声学特征序列到单词序列模型的模块化训练框架示意图,其中,实线框表示参数固定的图层。虚线和点划线框表示分别根据声学数据和文本数据训练模型。E2E单词序列识别被模块化为声学特征序列-音素序列模型(A2P)和音素序列-单词序列模型(P2W),所述A2P使用声学数据,通过CTC标准进行训练,同时,P2W由CTC或S2S使用文本数据进行训练。然后通过音素同步解码PSD和联合优化将模块集成到A2W模型中:
其中,w,p和x分别是单词序列,音素序列和声学特征序列。
由于模块化A2P模型需要声学输入,因此文本语料库只能用于改进P2W部分。可以直接扩展P2W模块中的输出层,以模拟所需的OOV字。为了训练这些扩展的OOV字,需要过滤额外的文本以增加相关性,合成附加的P2W数据,以及微调预训练的P2W模型。
附加文本过滤与完全标记的语音数据相比,更容易收集额外的文本数据。然而,观察到OOV字通常是低频字,并且这些附加文本数据的仅一部分包含有用信息。这也就是为什么需要过滤文本以增加训练数据和OOV之间的相关性。最简单的方法是选择包含OOV字的句子。考虑到OOV词经常出现在相对长的句子中,我们也可以剪切句子并且仅使用OOV n-gram片段来构造额外的OOV文本数据。
为了通过这些额外的OOV文本数据微调P2W模型,需要将单词序列映射到音素序列。收到合成输入的启发,可以随机重复音素并插入“空白”符号来模拟前端CTC A2P输出。
令D为ASR数据集,在A2P和PSD之后输入音素分布,并且字序列输出对(xj,yj),其中,j∈{1,2,...,|D|}。使用过滤后的文本语料库和提出的合成输入创建方案,可以得到OOV增强数据集A,它由合成数据对(xk,yk)组成,其中,k∈{1,2,...·,|A|}。应该注意到OOV词通常是低频词。即使从额外的文本语料库中合成OOV P2W数据,过滤的OOV数据仍然相对较小,随意通常有|A|<|D|。在微调实验中,总是在保持的ASR数据集D0上进行评估。
为了利用增强数据集A,提出了三种类型的微调训练方案,如下所示:
1、直接微调:采用较小的学习速率,只使用数据集A来微调预训练模块化系统的P2W部分。
2、替代训练:在P2W微调训练期间,在声学数据集D和增强数据集A的时期之间交替。
3、多模:此方案仅在S2S P2W模块中采用。使用两个编码器和一个解码器来构建S2S P2W模型。数据集D和A混合在一起,但也可选择在训练期间分批送入不同的编码器。
替代训练不同于多模式训练,其中D和A在S2S中共享相同的编码器。
为了证实本实施方法的效果进行实验。用于实验的主要数据语料库是Switchboard(SWBD)语料库。该语料库包含大约300小时的语音。2000小时Fisher语料库和WSJ语料库被用作额外的文本语料库。在用于域内实验的NIST Eval2000CTS测试集和用于跨域实验的WSJ dev93数据集上进行评估。提取具有10ms帧移位的超过25ms帧的36维滤波器组作为声学特征。MXNet和Kaldi对神经网络进行了训练。
将音素CTC作为A2P模块。CTC A2P模型单元是45个单声道,带有空白。基线CTC A2P是一个具有5层LSTM的网络,每层有1024个存储单元和256个投影节点。P2W模块有两个版本。CTC P2W版本是具有5层双向LSTM的网络,每层包含每个方向512个存储器单元。S2S P2W版本包含一个带有3层双向LSTM的编码器和一个带有3层LSTM的解码器。编码器和解码器网络的每一层都有300个存储器单元。采用点产品注意机制,参数更少,训练更快。
作为SWBD语料库中的标准评估设置,完整词汇表Vf的大小为30K。在训练数据中,很多这些词的出现频率较低。为了强调OOV问题,只预测了训练集中出现超过10次的单词,导致Vs的小词汇量大小为6805。这里的词汇表(IV)被定义为Vs中的单词和外部词汇(OOV)意味着词不在Vs。期间P2W训练,在标签OOV单词被一个特殊符号<UNK>代替。30k和6.8k词汇量的P2W模型是我们的两个基线系统。
将字错误率(WER)作为度量。为了研究所提出方法的OOV WER增益,我们将测试数据集分为两类,取决于所有单词是否出现在Vs中,分别称为词汇内句(IVS)和词汇外句(OOVS)。在本文的其余部分,如果没有明确说明,总是采用拟议的音素CTC作为我们的A2P模块。
为了扩展Eval2000中的OOV字,计算了Eval2000测试集词汇Veval2000。OOV单词词汇应为大小为843,最终扩展词汇表为大小为7648。根据Vooveval2000中的单词,我们可以获得额外的文本数据集Aeval2000增强数据集,在Fisher语料库中有大约64882个话语。词汇表和数据集信息如图3所示。。
如图4所示的Eval2000与OOV扩展微调训练的字错误率(%)比较列表数据图,基线系统和域内测试集中提出的OOV扩展系统之间的性能比较。30k和6.8k基线系统表明,对词汇表的特定过滤可能不会损害系统性能,甚至可以通过忽略低频词来改善结果。
它还显示使用增强文本数据直接微调预先训练的P2W模块不能很好地工作。这是因为增强数据与实际A2P模块输出不匹配。仅使用增强数据可能会误导P2W模块。多模S2SP2W模块略有改进,而替代训练可以显着提高P2W模块在OOV句子上的性能。这些结果表明增强的OOV文本数据可以在不损害IV句子WER的情况下恢复OOV字。通过上述可以看出OOV扩展方法的模块化E2E系统可以简单有效地处理整个域中的OOV问题。
如图5所示为本发明一实施例提供的一种用于端到端语音识别模型的训练系统的结构示意图,该系统可执行上述任意实施例所述的用于端到端语音识别模型的训练方法,并配置在终端中。
本实施例提供的一种用于端到端语音识别模型的训练系统包括:模型解耦程序模块11,音素序列确定程序模块12,词语训练集确定程序模块13和模型训练程序模块14。
其中,模型解耦程序模块11用于将所述端到端语音识别模型中预设声学特征序列到单词序列模型(A2W)解耦,确定声学特征序列到音素序列模型(A2P)以及音素序列到单词序列模型(P2W);音素序列确定程序模块12获取所述端到端语音识别模型词汇列表外的OOV词语,根据所述OOV词语获取相关的OOV文本语句,将所述OOV文本语句反向译为OOV音素序列;词语训练集确定程序模块13用于将通过因素同步解码训练后的所述OOV音素序列输入至所述P2W,输出OOV单词序列,对所述OOV单词序列进行数据增强,确定OOV词语训练集;模型训练程序模块14用于根据所述OOV词语训练集对所述端到端语音识别模型训练,得到扩展词汇列表的端到端语音识别模型。
进一步地,所述模型训练程序模块用于:
根据所述OOV词语训练集对所述端到端语音识别模型训练;和/或
根据所述OOV词语训练集以及预设文本语料训练集对所述端到端语音识别模型进行交替训练;和/或
根据所述OOV词语训练集、预设文本语料训练集以及所述音素序列到单词序列模型的结构,对所述端到端语音识别模型进行多模态训练。
进一步地,所述词语训练集确定程序模块用于:
将所述OOV单词序列剪切为OOV单词序列片段;
通过n-gram模型对所述OOV单词序列片段处理,生成与所述OOV单词序列额外的OOV文本数据用于OOV词语训练集。
进一步地,所述音素序列确定程序模块用于:
通过发音词典或字形换能器将所述OOV文本语句反向译为OOV音素序列。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用于端到端语音识别模型的训练方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
将所述端到端语音识别模型中预设声学特征序列到单词序列模型(A2W)解耦,确定声学特征序列到音素序列模型(A2P)以及音素序列到单词序列模型(P2W);
获取所述端到端语音识别模型词汇列表外的OOV词语,根据所述OOV词语获取相关的OOV文本语句,将所述OOV文本语句反向译为OOV音素序列;
将通过因素同步解码训练后的所述OOV音素序列输入至所述P2W,输出OOV单词序列,对所述OOV单词序列进行数据增强,确定OOV词语训练集;
根据所述OOV词语训练集对所述端到端语音识别模型训练,得到扩展词汇列表的端到端语音识别模型。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的测试软件的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的用于端到端语音识别模型的训练方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据测试软件的装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至测试软件的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于端到端语音识别模型的训练方法的步骤。
本申请实施例的客户端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有数据处理功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种用于端到端语音识别模型的训练方法,包括:
将所述端到端语音识别模型中预设声学特征序列到单词序列模型A2W解耦,确定声学特征序列到音素序列模型A2P以及音素序列到单词序列模型P2W;
获取所述端到端语音识别模型词汇列表外的OOV词语,根据所述OOV词语获取相关的OOV文本语句,将所述OOV文本语句反向译为OOV音素序列;
将通过音素同步解码训练后的所述OOV音素序列输入至所述P2W,输出OOV单词序列,对所述OOV单词序列进行数据增强,确定OOV词语训练集;
根据所述OOV词语训练集对所述端到端语音识别模型训练,得到扩展词汇列表的端到端语音识别模型。
2.根据权利要求1所述的方法,其中,所述根据所述OOV词语训练集对所述端到端语音识别模型训练包括:
根据所述OOV词语训练集对所述端到端语音识别模型训练;和/或
根据所述OOV词语训练集以及预设文本语料训练集对所述端到端语音识别模型进行交替训练;和/或
根据所述OOV词语训练集、预设文本语料训练集以及所述音素序列到单词序列模型的结构,对所述端到端语音识别模型进行多模态训练。
3.根据权利要求1所述的方法,其中,所述对所述OOV单词序列进行数据增强包括:
将所述OOV单词序列剪切为OOV单词序列片段;
通过n-gram模型对所述OOV单词序列片段处理,构造所述OOV单词序列的额外OOV文本数据,用于OOV词语训练集。
4.根据权利要求1所述的方法,其中,所述将所述OOV文本语句反向译为OOV音素序列包括:
通过发音词典或字形换能器将所述OOV文本语句反向译为OOV音素序列。
5.一种用于端到端语音识别模型的训练系统,包括:
模型解耦程序模块,用于将所述端到端语音识别模型中预设声学特征序列到单词序列模型A2W解耦,确定声学特征序列到音素序列模型A2P以及音素序列到单词序列模型P2W;
音素序列确定程序模块,获取所述端到端语音识别模型词汇列表外的OOV词语,根据所述OOV词语获取相关的OOV文本语句,将所述OOV文本语句反向译为OOV音素序列;
词语训练集确定程序模块,用于将通过音素同步解码训练后的所述OOV音素序列输入至所述P2W,输出OOV单词序列,对所述OOV单词序列进行数据增强,确定OOV词语训练集;
模型训练程序模块,用于根据所述OOV词语训练集对所述端到端语音识别模型训练,得到扩展词汇列表的端到端语音识别模型。
6.根据权利要求5所述的系统,其中,所述模型训练程序模块用于:
根据所述OOV词语训练集对所述端到端语音识别模型训练;和/或
根据所述OOV词语训练集以及预设文本语料训练集对所述端到端语音识别模型进行交替训练;和/或
根据所述OOV词语训练集、预设文本语料训练集以及所述音素序列到单词序列模型的结构,对所述端到端语音识别模型进行多模态训练。
7.根据权利要求5所述的系统,其中,所述词语训练集确定程序模块用于:
将所述OOV单词序列剪切为OOV单词序列片段;
通过n-gram模型对所述OOV单词序列片段处理,构造所述OOV单词序列的额外OOV文本数据,用于OOV词语训练集。
8.根据权利要求5所述的系统,其中,所述音素序列确定程序模块用于:
通过发音词典或字形换能器将所述OOV文本语句反向译为OOV音素序列。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811523980.8A CN109346064B (zh) | 2018-12-13 | 2018-12-13 | 用于端到端语音识别模型的训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811523980.8A CN109346064B (zh) | 2018-12-13 | 2018-12-13 | 用于端到端语音识别模型的训练方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109346064A CN109346064A (zh) | 2019-02-15 |
CN109346064B true CN109346064B (zh) | 2021-07-27 |
Family
ID=65304459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811523980.8A Active CN109346064B (zh) | 2018-12-13 | 2018-12-13 | 用于端到端语音识别模型的训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109346064B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110459208B (zh) * | 2019-09-09 | 2022-01-11 | 中科极限元(杭州)智能科技股份有限公司 | 一种基于知识迁移的序列到序列语音识别模型训练方法 |
CN110556100B (zh) * | 2019-09-10 | 2021-09-17 | 思必驰科技股份有限公司 | 端到端语音识别模型的训练方法及系统 |
CN111192570B (zh) * | 2020-01-06 | 2022-12-06 | 厦门快商通科技股份有限公司 | 语言模型训练方法、系统、移动终端及存储介质 |
CN111627427B (zh) * | 2020-05-15 | 2023-05-05 | 北京青牛技术股份有限公司 | 特定领域的语音识别模型的构建方法 |
CN112784094B (zh) * | 2020-12-31 | 2022-07-08 | 思必驰科技股份有限公司 | 自动音频摘要生成方法和装置 |
CN113539268A (zh) * | 2021-01-29 | 2021-10-22 | 南京迪港科技有限责任公司 | 一种端到端语音转文本罕见词优化方法 |
CN113569608A (zh) * | 2021-02-08 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 基于深度学习的文本识别方法、装置、设备及存储介质 |
CN113112995B (zh) * | 2021-05-28 | 2022-08-05 | 思必驰科技股份有限公司 | 词声学特征系统、词声学特征系统的训练方法及系统 |
CN113870848B (zh) * | 2021-12-02 | 2022-04-26 | 深圳市友杰智新科技有限公司 | 语音建模单元的构建方法、装置和计算机设备 |
CN114765025A (zh) * | 2022-04-25 | 2022-07-19 | 脸萌有限公司 | 语音识别模型的生成方法、识别方法、装置、介质及设备 |
CN114944148B (zh) * | 2022-07-09 | 2023-08-22 | 昆明理工大学 | 融合外部语言知识的流式越南语语音识别方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105027196A (zh) * | 2012-12-29 | 2015-11-04 | 格林伊登美国控股有限责任公司 | 自动语音识别系统中的快速词汇表外搜索 |
EP2950306A1 (en) * | 2014-05-29 | 2015-12-02 | Samsung Electronics Polska Spolka z organiczona odpowiedzialnoscia | A method and system for building a language model |
CN106328122A (zh) * | 2016-08-19 | 2017-01-11 | 深圳市唯特视科技有限公司 | 一种利用长短期记忆模型递归神经网络的语音识别方法 |
CN107293291A (zh) * | 2016-03-30 | 2017-10-24 | 中国科学院声学研究所 | 一种基于自适应学习率的端到端的语音识别方法 |
CN108091334A (zh) * | 2016-11-17 | 2018-05-29 | 株式会社东芝 | 识别装置、识别方法以及存储介质 |
CN108417202A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
CN108417210A (zh) * | 2018-01-10 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 一种词嵌入语言模型训练方法、词语识别方法及系统 |
US20180253648A1 (en) * | 2017-03-01 | 2018-09-06 | Synaptics Inc | Connectionist temporal classification using segmented labeled sequence data |
CN108986797A (zh) * | 2018-08-06 | 2018-12-11 | 中国科学技术大学 | 一种语音主题识别方法及系统 |
-
2018
- 2018-12-13 CN CN201811523980.8A patent/CN109346064B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105027196A (zh) * | 2012-12-29 | 2015-11-04 | 格林伊登美国控股有限责任公司 | 自动语音识别系统中的快速词汇表外搜索 |
EP2950306A1 (en) * | 2014-05-29 | 2015-12-02 | Samsung Electronics Polska Spolka z organiczona odpowiedzialnoscia | A method and system for building a language model |
CN107293291A (zh) * | 2016-03-30 | 2017-10-24 | 中国科学院声学研究所 | 一种基于自适应学习率的端到端的语音识别方法 |
CN106328122A (zh) * | 2016-08-19 | 2017-01-11 | 深圳市唯特视科技有限公司 | 一种利用长短期记忆模型递归神经网络的语音识别方法 |
CN108091334A (zh) * | 2016-11-17 | 2018-05-29 | 株式会社东芝 | 识别装置、识别方法以及存储介质 |
US20180253648A1 (en) * | 2017-03-01 | 2018-09-06 | Synaptics Inc | Connectionist temporal classification using segmented labeled sequence data |
CN108417210A (zh) * | 2018-01-10 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 一种词嵌入语言模型训练方法、词语识别方法及系统 |
CN108417202A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
CN108986797A (zh) * | 2018-08-06 | 2018-12-11 | 中国科学技术大学 | 一种语音主题识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
End-to-End Architectures for Speech Recognition;Yajie Miao 等;《New Era for Robust Speech Recognition》;20170726;299-323 * |
基于统计模型的语音识别系统研究及DSP实现;吴一超;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130215;I136-180 * |
Also Published As
Publication number | Publication date |
---|---|
CN109346064A (zh) | 2019-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109346064B (zh) | 用于端到端语音识别模型的训练方法及系统 | |
CN108417210B (zh) | 一种词嵌入语言模型训练方法、词语识别方法及系统 | |
CN111081259B (zh) | 基于说话人扩充的语音识别模型训练方法及系统 | |
CN112735373B (zh) | 语音合成方法、装置、设备及存储介质 | |
KR102423302B1 (ko) | 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법 | |
CN106534548B (zh) | 语音纠错方法和装置 | |
CN108899013B (zh) | 语音搜索方法、装置和语音识别系统 | |
CN110797016B (zh) | 一种语音识别方法、装置、电子设备及存储介质 | |
EP4018437B1 (en) | Optimizing a keyword spotting system | |
EP1575029A2 (en) | Generating large units of graphonemes with mutual information criterion for letter to sound conversion | |
KR20170022445A (ko) | 통합 모델 기반의 음성 인식 장치 및 방법 | |
CN110808032B (zh) | 一种语音识别方法、装置、计算机设备及存储介质 | |
CN113574595A (zh) | 用于具有触发注意力的端到端语音识别的系统和方法 | |
CN109065032A (zh) | 一种基于深度卷积神经网络的外部语料库语音识别方法 | |
Peyser et al. | Improving performance of end-to-end ASR on numeric sequences | |
CN104157285A (zh) | 语音识别方法、装置及电子设备 | |
Kadyan et al. | Refinement of HMM model parameters for punjabi automatic speech recognition (PASR) system | |
CN110970031B (zh) | 语音识别系统及方法 | |
CN108108428B (zh) | 一种构建语言模型的方法、输入法及系统 | |
CN111862942A (zh) | 普通话和四川话的混合语音识别模型的训练方法及系统 | |
CN111126084B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
WO2012004955A1 (ja) | テキスト補正方法及び認識方法 | |
CN110795912B (zh) | 基于神经网络对文本编码的方法、装置、设备及存储介质 | |
US20020087317A1 (en) | Computer-implemented dynamic pronunciation method and system | |
CN115881104A (zh) | 基于热词编码的语音识别方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |