CN110428818B - 低资源多语言的语音识别模型、语音识别方法 - Google Patents
低资源多语言的语音识别模型、语音识别方法 Download PDFInfo
- Publication number
- CN110428818B CN110428818B CN201910732557.7A CN201910732557A CN110428818B CN 110428818 B CN110428818 B CN 110428818B CN 201910732557 A CN201910732557 A CN 201910732557A CN 110428818 B CN110428818 B CN 110428818B
- Authority
- CN
- China
- Prior art keywords
- language
- resource
- model
- low
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 43
- 239000013598 vector Substances 0.000 claims description 47
- 238000007781 pre-processing Methods 0.000 claims description 26
- 238000002372 labelling Methods 0.000 claims description 11
- 239000012634 fragment Substances 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 241001606226 Betula neoalaskana Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
- G10L2015/0633—Creating reference templates; Clustering using lexical or orthographic knowledge sources
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明属于语音识别领域,具体涉及一种低资源多语言的语音识别模型、语音识别方法,旨在为了解决多语言混用状态下小语种语言识别准确度低的问题。本发明语音识别模型为端到端的语音识别模型,该模型中子词词表为多语言子词词表,所述多语言子词词表为设定低资源语种的标注文本与设定高资源语种的标注文本合并起来采用BPE算法共同生成多语言的符号词表;所述语音识别模型的训练数据为设定低资源语种的伪标注训练数据和设定高资源语种的训练数据的合并数据。本发明提高了包含小语种的多语种语音信息识别的准确度。
Description
技术领域
本发明属于语音识别领域,具体涉及一种低资源多语言的语音识别模型、语音识别方法。
背景技术
随着智能设备等创新应用的推广,特别是智能手机的普及,语音识别作为人机交互的一个重要入口,现已被广泛应用于各类场景,例如语音输入、语音搜索、语音翻译等等。不同语种混合的现象在人们的日常交流中十分普遍,现有的语音识别系统对处理多语言混用和多方言混用情况下的语音识别存在诸多困难,目前尚未得到很好的解决。此外,目前的语音识别系统基本上仅限于世界上使用最广泛的十几种语言,例如英语、汉语等。这些语言拥有庞大的使用人群,因此可以比较方便的采集语音数据并建立语音识别系统。相比而言,对于那些小语种语言,由于使用小语种的人数有限,数据采集和标注工作十分困难,语音识别系统的建立受到了很大的限制,基于低资源的语音识别技术还远远没有达到实用的水平。
发明内容
为了解决现有技术中的上述问题,即为了解决多语言混用状态下小语种语言识别准确度低的问题,本发明的第一方面,提出了一种低资源多语言的语音识别模型,该语音识别模型为端到端的语音识别模型,其特征在于,该模型中子词词表为多语言子词词表,所述多语言子词词表为设定低资源语种的标注文本与设定高资源语种的标注文本合并起来采用BPE算法共同生成多语言的符号词表。
在一些优选实施方式中,所述语音识别模型的训练数据为设定低资源语种的伪标注训练数据和设定高资源语种的训练数据的合并数据;
所述设定低资源语种的伪标注训练数据,其获取方法为:
步骤A100,获取基于低资源语种的标注数据训练得到的GMM-HMM语音识别模型,然后基于该训练好的GMM-HMM语音识别模型对所述低资源语种的标注数据进行强制对齐,通过对齐信息找到每个子词对应的语音特征序列片段,获取该低资源语种的子词-语音特征序列片段映射关系;
步骤A200,对待标注的低资源语种的文本数据,通过步骤A100得到的所述子词-语音特征序列片段映射关系,获得所述待标注的低资源语种的文本数据中各子词对应的发音序列片段,采用拼接方式得到所述待标注的低资源语种的文本数据的语音特征序列;
步骤A300,将步骤A200中所述待标注的低资源语种的文本数据及对应的语音特征序列作为伪标注训练数据。
在一些优选实施方式中,所述多语言子词词表通过BPE算法生成,其生成方法为:
步骤B100,对多种语言的标注文本合集,采用字的词表对符号词表进行初始化,并且每个词采用一组带有特殊结束符的字序列来表示;
步骤B200,对每个相邻符号对进行频次统计,将最高频次的符号对合并起来用新的符号代替,迭代执行该步骤直至达到预设的合并次数为止;
步骤B300,将步骤B200中每次合并产生的新字符对应的原始字符作为子词增入所述符号词表,得到所述多语言子词词表。
在一些优选实施方式中,所述语音识别模型包括Multi-CNN-Transformer模型、Multi-CNN-Transformer-B模型、Multi-CNN-Transformer-E模型、Multi-CNN-Transformer-E2模型中的一种或多种。
在一些优选实施方式中,当所述语音识别模型包括Multi-CNN-Transformer模型、Multi-CNN-Transformer-B模型、Multi-CNN-Transformer-E模型、Multi-CNN-Transformer-E2模型时,根据待识别数据和训练样本进行模型的选择:
所述语音识别模型的训练样本和待识别数据中语种信息均未知时,采用Multi-CNN-Transformer模型;
所述语音识别模型的训练样本语种信息已知、待识别数据语种信息未知时,采用Multi-CNN-Transformer-B模型,或者Multi-CNN-Transformer-E模型;
所述语音识别模型的训练样本和待识别数据中语种信息均已知时,采用Multi-CNN-Transformer-E2模型。
本发明的第二方面,提出了一种低资源多语言的语音识别方法,该方法包括以下步骤:
步骤C100,对输入语音进行静音切除,获取语音片段序列;
步骤C200,对语音片段序列进行特征提取,获取设定特征维度的初始特征向量;
步骤C300,对所述初始特征向量进行拼帧跳帧预处理,作为语音识别模型的输入特征向量;
步骤C400,通过所述语音识别模型,识别所述输入特征向量对应的文本信息;
其中,
所述语音识别模型为上述的低资源多语言的语音识别模型。
在一些优选实施方式中,步骤C300中拼帧跳帧预处理为拼三帧跳三帧的预处理方法。
在一些优选实施方式中,步骤C200中所述设定特征维度的特征向量,为特征维度为80维的特征向量。
本发明的第三方面,提出了一种低资源多语言的语音识别系统,该系统包括输入语音预处理单元、特征向量提取单元、特征向量预处理单元、语音识别单元;
所述输入语音预处理单元,配置为对输入语音进行静音切除,获取语音片段序列;
所述特征向量提取单元,配置为对语音片段序列进行特征提取,获取设定特征维度的初始特征向量;
所述特征向量预处理单元,配置为对所述初始特征向量进行拼帧跳帧预处理,得到语音识别模型的输入特征向量;
所述语音识别单元,配置为通过所述语音识别模型,识别所述输入特征向量对应的文本信息;
所述语音识别模型为上述的低资源多语言的语音识别模型。
本发明的第四方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的低资源多语言的语音识别方法。
本发明的第五方面,提出了一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的低资源多语言的语音识别方法。
本发明的有益效果:
本发明低资源多语言的语音识别模型,基于所构建的多语言的子词词表,取消了对发音词典的依赖,这对缺乏发音词典的小语种至关重要;将语种识别和语音识别两个任务进行统一,不再需要语种识别和语种切分等预处理,能够同时实现多语言语音识别任务;所述语音识别模型采用端到端框架,不再需要传统混合模型框架的状态绑定以及决策树聚类等流程,极大简化了多语言语音识别任务的流程。
针对资源受限语言的训练数据不足的问题,采用GMM-HMM生成伪标注数据的方式弥补低资源语言在语言模型上训练不足的问题,采用生成伪标注数据的方式扩展所述低资源语音数据,提高了语音识别模型对低资源语种语音识别的效果。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明一种实施例中的低资源语种的伪标注训练数据方法示意图;
图2是本发明一种实施例中的多语言子词词表获取方法流程示意图;
图3是本发明一种实施例中的Multi-CNN-Transformer模型的框架示意图;
图4是本发明一种实施例中的Multi-CNN-Transformer模型、Multi-CNN-Transformer-B模型、Multi-CNN-Transformer-E模型、Multi-CNN-Transformer-E2模型的解码端区别示意图;
图5是本发明一种实施例的低资源多语言的语音识别方法流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的一种实施例的低资源多语言的语音识别模型,该语音识别模型为端到端的语音识别模型,该模型中子词词表为多语言子词词表,所述多语言子词词表为设定低资源语种的标注文本与设定高资源语种的标注文本合并起来采用BPE算法共同生成多语言的符号词表。
本实施例中语音识别模型的训练数据为设定低资源语种的伪标注训练数据和设定高资源语种的训练数据合并数据。
设定低资源语种的伪标注训练数据,如图1所示,其获取方法为:
步骤A100,获取基于低资源语种的标注数据训练得到的GMM-HMM语音识别模型,然后基于该训练好的GMM-HMM语音识别模型对所述低资源语种的标注数据进行强制对齐,通过对齐信息找到每个子词对应的语音特征序列片段,获取该低资源语种的子词-语音特征序列片段映射关系;
步骤A200,对待标注的低资源语种的文本数据,通过步骤A100得到的所述子词-语音特征序列片段映射关系,获得所述待标注的低资源语种的文本数据中各子词对应的发音序列片段,采用拼接方式得到所述待标注的低资源语种的文本数据的语音特征序列;
步骤A300,将步骤A200中所述待标注的低资源语种的文本数据及对应的语音特征序列作为伪标注训练数据。
本实施例中,步骤A100中低资源语种的标注数据包括语音及其对应的文本信息,通过训练好的GMM-HMM语音识别模型将文本信息中每个子词与语音中的对应片段进行强制对齐,从而可以获取每个子词对应的语音片段。
本实施例中的端到端的语音识别模型优选为基于自注意力机制的端到端模型Multi-CNN-Transformer语音识别模型,该模型采用了自注意力机制。当然,其他端到端的语音识别模型也适用本发明方法。
本实施例中,多语言子词词表中对多种语言的标注文本合并起来采用BPE算法共同生成多语言的符号词表,而不是直接合并每个语言的符号词表。因此相同的子词可以在不同语言之间共享,这有利于同一语系下的多语言建模。例如:德语单词(中文意思是大学建筑)被编码成了子词序列“univer@@sit@@ts@@ge@@b@@u”(每个单词由BPE算法编码出的最后一个子词没有@@符号,标识该单词的结束);英语单词“university”被编码成了子词序列“univer@@sit@@y”,其中有两个子词“univer@@”和“sit@@”在这两种语言之间共享。从这里可以看出,这种子词建模单元可以起到类似通用音子集的作用,只不过它是从多语言训练集的标注文本中迭代生成的,可以在多语言之间共享,不需要依赖任何发音词典。如果不同语言中包含相同字的情况,例如汉语和日语就包含许多相同的字,这种建模方式也会统一生成对应子词,并不对语言加以区分,此时需要借助解码器端的语言模型进行约束来解码出对应语言的文本。
多语言子词词表通过BPE(byte pair encoder,字节对编码)算法生成,如图2所示,其生成方法为:
步骤B100,对多种语言的标注文本合集,采用字的词表对符号词表进行初始化,并且每个词采用一组带有特殊结束符的字序列来表示;
步骤B200,对每个相邻符号对进行频次统计,将最高频次的符号对合并起来用新的符号代替,迭代执行该步骤直至达到预设的合并次数为止。
步骤B300,将步骤B200中每次合并产生的新字符对应的原始字符作为子词增入所述符号词表,得到所述多语言子词词表。
步骤B200中预设的合并次数为超参数,需要根据训练数据的数据量进行设定,在一些优选实施方式中,一般预设的合并次数可以在区间[5000,10000]中选定。
本实施例中的BPE算法,可以具体参考R.Sennrich,B.Haddow,and A.Birch,Neural machine translation of rare words with subword units,arXiv preprintarXiv:1508.07909,2015,此处不再展开描述。
所述语音识别模型包括Multi-CNN-Transformer模型、Multi-CNN-Transformer-B模型、Multi-CNN-Transformer-E模型、Multi-CNN-Transformer-E2模型中的一种或多种。
Multi-CNN-Transformer-B模型、Multi-CNN-Transformer-E模型、Multi-CNN-Transformer-E2模型是Multi-CNN-Transformer模型的变种,Multi-CNN-Transformer模型的框架示意图如图3所示,整体采用基于注意力机制的框架,它的编码器和解码器采用自注意力网络和位置前馈网络。对于编码器的输入,这里采用一个仿射变换层和层归一化将语音输入的特征维度(初始特征向量)转换成模型维度(输入特征向量),基于位置编码,采用CNN网络对输入特征向量进行长度压缩和编码(即图3中CNN特征压缩和编码);对于解码器,基于位置编码以及基于子词词表获取的子词编码向量进行解码,并采用一个softmax输出层作为多语言子词输出单元输出多语言子词。
Multi-CNN-Transformer-B模型、Multi-CNN-Transformer-E模型、Multi-CNN-Transformer-E2模型是Multi-CNN-Transformer模型的变种。它们之间的区别之处如图4所示,主要在于解码端是否使用了语种标签信息。图4中,编码器中x1、x2…xU为语音特征输入,h1、h2…hU为编码器的隐层输出向量序列,解码器中小方框中上部字符为解码器的子词输入,下部字符为解码器的子词输出,以amazing的子词拆分“ama@@z@@ing”为例进行各模型的区别说明:Multi-CNN-Transformer模型在训练和测试时,解码器端都没有使用任何语种标签信息,如图4第一幅图所示。Multi-CNN-Transformer-B模型(图4第二幅图)和Multi-CNN-Transformer-E模型(图4第三幅图)在训练时使用语种标签信息,但是测试时不使用语种标签信息。例如:Multi-Transformer-B采用<S>作为解码开始符,之后模型首先会预测一个语种标签<S_EN>,然后才依次进行常规解码,在训练时语种标签<S_EN>由训练样本给出,但是测试时,这里的语种标签<S_EN>由模型自行解码得到,因此Multi-Transformer-B在测试时不需要预先知道语种标签信息;Multi-CNN-Transformer-E与Multi-Transformer-B的区别在于预测语种标签的位置,Multi-CNN-Transformer-E是解码结束时才预测该句的语种标签,Multi-CNN-Transformer-B是解码开始时先预测该句的语种标签。Multi-CNN-Transformer-B2模型(图4第四幅图)在训练时和测试时都使用语种标签信息。例如:图4中Multi-Transformer-B2模型直接采用设定的语种标签<S_EN>作为解码开始符,这就需要在测试时提前知道待识别语音的语种信息,之后模型不再需要预测语种标签,而是直接进行常规解码。
本实施例中优选采用上述四种模型共同构建语音识别模型,可以根据不同的应用场景进行选择或者切换:
语音识别模型的训练样本和待识别数据中语种信息均未知时,采用Multi-CNN-Transformer模型;
语音识别模型的训练样本语种信息已知、待识别数据语种信息未知时,采用Multi-CNN-Transformer-B模型,或者Multi-CNN-Transformer-E模型;
语音识别模型的训练样本和待识别数据中语种信息均已知时,采用Multi-CNN-Transformer-E2模型。
上述四个模型可以根据不同的训练样本进行分别训练,并针对不同的待识别数据进行选择和切换。
本发明第二实施例的低资源多语言的语音识别方法,如图5所示,该方法包括以下步骤:
步骤C100,对输入语音进行静音切除,获取语音片段序列。
通过本步骤的静音切除处理(Voice Activity Detection,VAD),从语音信号流里识别和消除长时间的静音,得到纯净的语音片段,以达到在不降低业务质量的情况下节省资源的作用。
步骤C200,对语音片段序列进行特征提取,获取设定特征维度的初始特征向量。
本实施例中,设定特征维度的初始特征向量采用80维的log-mel滤波器(log-Melilterbank)特征,窗长25ms,帧移10ms。
步骤C300,对所述初始特征向量进行拼帧跳帧预处理,作为语音识别模型的输入特征向量。
在一些优选实施方式中,所述拼帧跳帧预处理采用拼三帧跳三帧的预处理方式。
步骤C400,通过所述语音识别模型,识别所述输入特征向量对应的文本信息。
所述语音识别模型可以采用上述的低资源多语言的语音识别模型。
本发明第三实施例的一种低资源多语言的语音识别系统,包括输入语音预处理单元、特征向量提取单元、特征向量预处理单元、语音识别单元;
所述输入语音预处理单元,配置为对输入语音进行静音切除,获取语音片段序列;
所述特征向量提取单元,配置为对语音片段序列进行特征提取,获取设定特征维度的初始特征向量;
所述特征向量预处理单元,配置为对所述初始特征向量进行拼帧跳帧预处理,得到语音识别模型的输入特征向量;
所述语音识别单元,配置为通过所述语音识别模型,识别所述输入特征向量对应的文本信息;
所述语音识别模型为上述的低资源多语言的语音识别模型。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的低资源多语言的语音识别系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第四实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的低资源多语言的语音识别方法。
本发明第五实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的低资源多语言的语音识别方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (11)
1.一种低资源多语言的语音识别模型,该语音识别模型为端到端的语音识别模型,其特征在于,该模型中子词词表为多语言子词词表,所述多语言子词词表为设定低资源语种的标注文本与设定高资源语种的标注文本合并起来采用BPE算法共同生成多语言的符号词表。
2.根据权利要求1所述的低资源多语言的语音识别模型,其特征在于,所述语音识别模型的训练数据为设定低资源语种的伪标注训练数据和设定高资源语种的训练数据的合并数据;
所述设定低资源语种的伪标注训练数据,其获取方法为:
步骤A100,获取基于低资源语种的标注数据训练得到的GMM-HMM语音识别模型,然后基于该训练好的GMM-HMM语音识别模型对所述低资源语种的标注数据进行强制对齐,通过对齐信息找到每个子词对应的语音特征序列片段,获取该低资源语种的子词-语音特征序列片段映射关系;
步骤A200,对待标注的低资源语种的文本数据,通过步骤A100得到的所述子词-语音特征序列片段映射关系,获得所述待标注的低资源语种的文本数据中各子词对应的发音序列片段,采用拼接方式得到所述待标注的低资源语种的文本数据的语音特征序列;
步骤A300,将步骤A200中所述待标注的低资源语种的文本数据及对应的语音特征序列作为伪标注训练数据。
3.根据权利要求1或2所述的低资源多语言的语音识别模型,其特征在于,所述多语言子词词表通过BPE算法生成,其生成方法为:
步骤B100,对多种语言的标注文本合集,采用字的词表对符号词表进行初始化,并且每个词采用一组带有特殊结束符的字序列来表示;
步骤B200,对每个相邻符号对进行频次统计,将最高频次的符号对合并起来用新的符号代替,迭代执行该步骤直至达到预设的合并次数为止;
步骤B300,将步骤B200中每次合并产生的新字符对应的原始字符作为子词增入所述符号词表,得到所述多语言子词词表。
4.根据权利要求1或2所述的低资源多语言的语音识别模型,其特征在于,所述语音识别模型包括Multi-CNN-Transformer模型、Multi-CNN-Transformer-B模型、Multi-CNN-Transformer-E模型、Multi-CNN-Transformer-E2模型中的一种或多种。
5.根据权利要求4所述的低资源多语言的语音识别模型,其特征在于,当所述语音识别模型包括Multi-CNN-Transformer模型、Multi-CNN-Transformer-B模型、Multi-CNN-Transformer-E模型、Multi-CNN-Transformer-E2模型时,根据待识别数据和训练样本进行模型的选择:
所述语音识别模型的训练样本和待识别数据中语种信息均未知时,采用Multi-CNN-Transformer模型;
所述语音识别模型的训练样本语种信息已知、待识别数据语种信息未知时,采用Multi-CNN-Transformer-B模型,或者Multi-CNN-Transformer-E模型;
所述语音识别模型的训练样本和待识别数据中语种信息均已知时,采用Multi-CNN-Transformer-E2模型。
6.一种低资源多语言的语音识别方法,其特征在于,该方法包括以下步骤:
步骤C100,对输入语音进行静音切除,获取语音片段序列;
步骤C200,对语音片段序列进行特征提取,获取设定特征维度的初始特征向量;
步骤C300,对所述初始特征向量进行拼帧跳帧预处理,作为语音识别模型的输入特征向量;
步骤C400,通过所述语音识别模型,识别所述输入特征向量对应的文本信息;
其中,
所述语音识别模型为权利要求1-5中任一项所述的低资源多语言的语音识别模型。
7.根据权利要求6所述的低资源多语言的语音识别方法,其特征在于,步骤C300中拼帧跳帧预处理为拼三帧跳三帧的预处理。
8.根据权利要求6所述的低资源多语言的语音识别方法,其特征在于,步骤C200中所述设定特征维度的特征向量,为特征维度为80维的特征向量。
9.一种低资源多语言的语音识别系统,其特征在于,该系统包括输入语音预处理单元、特征向量提取单元、特征向量预处理单元、语音识别单元;
所述输入语音预处理单元,配置为对输入语音进行静音切除,获取语音片段序列;
所述特征向量提取单元,配置为对语音片段序列进行特征提取,获取设定特征维度的初始特征向量;
所述特征向量预处理单元,配置为对所述初始特征向量进行拼帧跳帧预处理,得到语音识别模型的输入特征向量;
所述语音识别单元,配置为通过所述语音识别模型,识别所述输入特征向量对应的文本信息;
所述语音识别模型为权利要求1-5任一项所述的低资源多语言的语音识别模型。
10.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实权利要求6-8任一项所述的低资源多语言的语音识别方法。
11.一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;其特征在于,所述程序适于由处理器加载并执行以实现权利要求6-8任一项所述的低资源多语言的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910732557.7A CN110428818B (zh) | 2019-08-09 | 2019-08-09 | 低资源多语言的语音识别模型、语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910732557.7A CN110428818B (zh) | 2019-08-09 | 2019-08-09 | 低资源多语言的语音识别模型、语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110428818A CN110428818A (zh) | 2019-11-08 |
CN110428818B true CN110428818B (zh) | 2021-09-28 |
Family
ID=68413415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910732557.7A Active CN110428818B (zh) | 2019-08-09 | 2019-08-09 | 低资源多语言的语音识别模型、语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110428818B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110838286B (zh) * | 2019-11-19 | 2024-05-03 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、语种识别的方法、装置及设备 |
CN110827805B (zh) * | 2019-12-09 | 2022-11-29 | 思必驰科技股份有限公司 | 语音识别模型训练方法、语音识别方法和装置 |
CN113077785B (zh) * | 2019-12-17 | 2022-07-12 | 中国科学院声学研究所 | 一种端到端的多语言连续语音流语音内容识别方法及系统 |
CN113205795A (zh) * | 2020-01-15 | 2021-08-03 | 普天信息技术有限公司 | 多语种混说语音的语种识别方法及装置 |
CN111402865B (zh) * | 2020-03-20 | 2023-08-08 | 北京达佳互联信息技术有限公司 | 语音识别训练数据的生成方法、语音识别模型的训练方法 |
CN111696522B (zh) * | 2020-05-12 | 2024-02-23 | 天津大学 | 基于hmm和dnn的藏语语音识别方法 |
CN111916063A (zh) * | 2020-06-01 | 2020-11-10 | 华南理工大学 | 基于bpe编码的序列化方法、训练方法、系统及存储介质 |
CN111785253A (zh) * | 2020-06-17 | 2020-10-16 | 国家计算机网络与信息安全管理中心 | 一种分布不均衡的语种识别方法及系统 |
CN111816160A (zh) * | 2020-07-28 | 2020-10-23 | 苏州思必驰信息科技有限公司 | 普通话和粤语混合语音识别模型训练方法及系统 |
CN111916064A (zh) * | 2020-08-10 | 2020-11-10 | 北京睿科伦智能科技有限公司 | 一种端到端的神经网络语音识别模型的训练方法 |
CN111949796B (zh) * | 2020-08-24 | 2023-10-20 | 云知声智能科技股份有限公司 | 一种资源受限语种语音合成前端文本分析方法及系统 |
CN111933122B (zh) * | 2020-09-07 | 2024-06-18 | 北京有竹居网络技术有限公司 | 语音识别方法、装置、电子设备和计算机可读介质 |
US11715461B2 (en) | 2020-10-21 | 2023-08-01 | Huawei Technologies Co., Ltd. | Transformer-based automatic speech recognition system incorporating time-reduction layer |
CN112652300B (zh) * | 2020-12-24 | 2024-05-17 | 百果园技术(新加坡)有限公司 | 多方言语音识别方法、装置、设备和存储介质 |
CN112885330A (zh) * | 2021-01-26 | 2021-06-01 | 北京云上曲率科技有限公司 | 一种基于低资源音频的语种识别方法及系统 |
CN113591493B (zh) * | 2021-01-29 | 2024-06-07 | 腾讯科技(深圳)有限公司 | 翻译模型的训练方法及翻译模型的装置 |
CN112966528B (zh) * | 2021-03-01 | 2023-09-19 | 郑州铁路职业技术学院 | 一种英语语音的翻译模糊匹配系统 |
CN113129868B (zh) * | 2021-03-12 | 2022-02-25 | 北京百度网讯科技有限公司 | 获取语音识别模型的方法、语音识别的方法及对应装置 |
CN113223506B (zh) * | 2021-05-28 | 2022-05-20 | 思必驰科技股份有限公司 | 语音识别模型训练方法及语音识别方法 |
CN113345418A (zh) * | 2021-06-09 | 2021-09-03 | 中国科学技术大学 | 基于跨语种自训练的多语种模型训练方法 |
CN114220432A (zh) * | 2021-11-15 | 2022-03-22 | 交通运输部南海航海保障中心广州通信中心 | 基于海事单边带语音自动监听方法、系统及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108682417A (zh) * | 2018-05-14 | 2018-10-19 | 中国科学院自动化研究所 | 语音识别中的小数据语音声学建模方法 |
CN109003601A (zh) * | 2018-08-31 | 2018-12-14 | 北京工商大学 | 一种针对低资源土家语的跨语言端到端语音识别方法 |
CN109147772A (zh) * | 2018-10-10 | 2019-01-04 | 内蒙古工业大学 | 一种dnn-hmm声学模型参数迁移结构 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9792907B2 (en) * | 2015-11-24 | 2017-10-17 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
US10043521B2 (en) * | 2016-07-01 | 2018-08-07 | Intel IP Corporation | User defined key phrase detection by user dependent sequence modeling |
-
2019
- 2019-08-09 CN CN201910732557.7A patent/CN110428818B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108682417A (zh) * | 2018-05-14 | 2018-10-19 | 中国科学院自动化研究所 | 语音识别中的小数据语音声学建模方法 |
CN109003601A (zh) * | 2018-08-31 | 2018-12-14 | 北京工商大学 | 一种针对低资源土家语的跨语言端到端语音识别方法 |
CN109147772A (zh) * | 2018-10-10 | 2019-01-04 | 内蒙古工业大学 | 一种dnn-hmm声学模型参数迁移结构 |
Non-Patent Citations (3)
Title |
---|
SEQUENCE-BASED MULTI-LINGUAL LOW RESOURCE SPEECH RECOGNITION;Siddharth Dalmia等;《IEEE》;20181231;第4909-4913页 * |
低资源语音识别中融合多流特征的卷积神经网络声学建模方法;秦楚雄,张连海;《计算机应用》;20161231;第36卷(第9期);第2609-2615页 * |
低资源语音识别若干关键技术研究进展;刘加,张卫强;《数据采集与处理》;20171231;第32卷(第2期);第205-220页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110428818A (zh) | 2019-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110428818B (zh) | 低资源多语言的语音识别模型、语音识别方法 | |
KR101259558B1 (ko) | 문장경계 인식 장치 및 방법 | |
CN110046350B (zh) | 文法错误识别方法、装置、计算机设备及存储介质 | |
CN109616096B (zh) | 多语种语音解码图的构建方法、装置、服务器和介质 | |
CN111341293B (zh) | 一种文本语音的前端转换方法、装置、设备和存储介质 | |
CN109087645B (zh) | 一种解码网络生成方法、装置、设备及可读存储介质 | |
CN111339250A (zh) | 新类别标签的挖掘方法及电子设备、计算机可读介质 | |
CN112259083B (zh) | 音频处理方法及装置 | |
CN112183064A (zh) | 基于多任务联合学习的文本情绪原因识别系统 | |
CN114495904B (zh) | 语音识别方法以及装置 | |
CN113793591A (zh) | 语音合成方法及相关装置和电子设备、存储介质 | |
Brown et al. | Computational modelling of segmental and prosodic levels of analysis for capturing variation across Arabic dialects | |
Baali et al. | Unsupervised data selection for tts: Using arabic broadcast news as a case study | |
CN110110777A (zh) | 图像处理方法和训练方法、以及装置、介质和计算设备 | |
CN113611286A (zh) | 一种基于共性特征提取的跨语种语音情感识别方法和系统 | |
CN114694637A (zh) | 混合语音识别方法、装置、电子设备及存储介质 | |
CN113095082A (zh) | 一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质 | |
Seng et al. | Which unit for acoustic and language modeling for Khmer Automatic Speech Recognition? | |
CN112069816A (zh) | 中文标点符号添加方法和系统及设备 | |
CN113470617B (zh) | 语音识别方法以及电子设备、存储装置 | |
CN112634878B (zh) | 语音识别后处理方法和系统及相关设备 | |
CN114283786A (zh) | 语音识别方法、装置及计算机可读存储介质 | |
CN114298048A (zh) | 命名实体识别方法及装置 | |
CN110858268B (zh) | 一种检测语音翻译系统中不流畅现象的方法及系统 | |
CN112632985A (zh) | 语料的处理方法、装置、存储介质及处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |