CN110459208A - 一种基于知识迁移的序列到序列语音识别模型训练方法 - Google Patents

一种基于知识迁移的序列到序列语音识别模型训练方法 Download PDF

Info

Publication number
CN110459208A
CN110459208A CN201910866156.0A CN201910866156A CN110459208A CN 110459208 A CN110459208 A CN 110459208A CN 201910866156 A CN201910866156 A CN 201910866156A CN 110459208 A CN110459208 A CN 110459208A
Authority
CN
China
Prior art keywords
text
speech
sequence
label
indicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910866156.0A
Other languages
English (en)
Other versions
CN110459208B (zh
Inventor
温正棋
白烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Limit Element (hangzhou) Intelligent Polytron Technologies Inc
Original Assignee
Limit Element (hangzhou) Intelligent Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Limit Element (hangzhou) Intelligent Polytron Technologies Inc filed Critical Limit Element (hangzhou) Intelligent Polytron Technologies Inc
Priority to CN201910866156.0A priority Critical patent/CN110459208B/zh
Publication of CN110459208A publication Critical patent/CN110459208A/zh
Application granted granted Critical
Publication of CN110459208B publication Critical patent/CN110459208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

本发明公开了一种基于知识迁移的序列到序列语音识别模型训练方法,包括以下步骤:步骤S100、在外部文本语料上训练语言模型;步骤S200、基于步骤S100中训练好的语言模型,生成语音‑文本对的软标签;步骤S300、将语音文本对的文本标签与语音‑文本对的软标签进行结合来训练序列到序列语音识别模型。采用该方法有效地将外部文本语料中的语言学知识迁移到序列到序列语音识别模型中,有效地提升了识别准确率。

Description

一种基于知识迁移的序列到序列语音识别模型训练方法
技术领域
本发明涉及智能信息处理领域,具体涉及一种基于知识迁移的序列到序列语音识别模型训练方法。
背景技术
语音是人类最自然的一种交互方式。语音识别是将语音转换为对应的文字的一种智能信息处理技术。将语音转换为文字有利于计算机终端进行进一步地处理,所以语音识别技术被广泛地用于智能对话、智能客服、智能翻译等系统中。
序列到序列模型语音识别系统使用神经网络模型直接将语音和对应的文本序列建模,并进行联合优化,具有训练过程简单,同时避免错误传播的优点。然而序列到序列模型往往只用到了成对语料,而没有使用规模较大的外部语料。而大规模的外部语料中往往蕴含了丰富的语言学知识,使用将外部语料中的知识集成到序列到序列模型中可以进一步提升模型性能。
相应的,需要一种新的技术来解决上述问题。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于知识迁移的序列到序列语音识别模型训练方法。
为了解决上述技术问题,采用如下技术方案:
一种基于知识迁移的序列到序列语音识别模型训练方法,包括以下步骤:
步骤S100、在外部文本语料上训练语言模型;
步骤S200、基于步骤S100中训练好的语言模型,生成语音-文本对的软标签;
步骤S300、将语音文本对的文本标签与语音-文本对的软标签进行结合来训练序列到序列语音识别模型。
进一步的,所述训练语言模型的具体步骤:
步骤S101、采集大规模文本已形成外部文本数据库。
步骤S102、基于步骤S101中采集的大规模外部文本数据库中,提取领域适配子集,用于训练语言模型。
进一步的,所述生成语音-文本对的软标签的具体步骤:
步骤S201、采集语音-文本对数据形成语音-文本对数据库;
步骤S202、将语音-文本对数据中的文本单独提出,进行标准化;
步骤S203、将步骤S202中提取出的文本输入到步骤S100中训练好的语言模型,采用前向传播算法,得到概率值作为语音-文本对的软标签。
进一步的,利用所述语音-文本对和所述语言模型预测出文本中每一个词的概率,来训练神经网络构成的编码器和解码器,编码器将语音编码为高层特征,解码器根据编码器提取的高层特征生成文本。
进一步的,所述训练序列到序列语音识别模型的具体步骤:
步骤S301、提取在步骤S201中采集的语音-文本对数据库中的语音数据;
步骤S302、基于步骤S301提取的语音数据,提取梅尔频率倒谱滤波器系数作为声学特征;
步骤S303、将S201中采集的语音-文本对中的文本数据作为标签,并与在步骤S202中得到的软标签进行结合;
步骤S304、步骤S303中结合得到的标签,训练序列到序列模型。
进一步的,所述序列到序列语音识别模型的准则为知识迁移准则,其损失函数表示为L(θ),其公式表示为
L(θ)=λLCE(θ)+(1-λ)LKD(θ);
模型参数的更新过程表示为
其中,θ表示整个序列到序列模型的所有参数,L表示总的训练损失函数,LCE表示采用语音文本对中的文本作为标签的损失函数,LKD表示采用外部语言模型生成的概率作为标签的损失函数,λ表示LCE损失的权重,λ的取值范围为[0,1],α表示学习速率。
进一步的,采用所述语音文本对中的文本作为标签的损失函数LCE表示为:
其中,k表示词表中第k个词,K表示词表中词的总个数,yt表示语音文本对中文本对应的词在词表中的序号,如果k=yt则δ(k,yt)=1,否则δ(k,yt)=0,PS2S表示序列到序列模型解码器给出的第k个词的概率,yt-1表示上一个词的序号,ct-1表示上下文信息,x表示上下文特征。
进一步的,采用所述外部语言模型生成的概率作为标签的损失函数LKD表示为:
其中,PLM表示外部语言模型对第k个词的概率值,ht-1表示上一步的历史信息,其余符号与LCE中表示的意思相同。
进一步的,所述外部语言模型的概率由以下公式计算得出:
其中,zi表示输出层的第i个输出值,T为一个参数控制输出概率的平滑程度。
进一步的,所述外部语言模型为神经网络语言模型。
由于采用上述技术方案,具有以下有益效果:
本发明为一种基于知识迁移的序列到序列语音识别模型训练方法,通过用大量外部文本训练出外部语言模型,能够将大量外部文本中的语言学知识压缩到外部语言模型中,然后再用外部语言模型提供的概率作为标签训练序列到序列语音识别模型,可以将外部语言模型中的语言学知识提取到序列到序列模型中,来提升语音识别系统的准确率。
附图说明
下面结合附图对本发明作进一步说明:
图1为本发明的序列到序列模型知识迁移方法训练主要步骤流程图;
图2为本发明的序列到序列模型知识迁移方法中语言模型训练具体步骤流程图;
图3为本发明的序列到序列模型知识迁移方法中语音-文本对软标签生成的具体步骤流程图;
图4为本发明的序列到序列模型知识迁移方法中编码器-解码器语音识别序列到序列模型训练具体步骤流程图;
图5为本发明的序列到序列模型知识迁移方法的具体步骤流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
参照图1,本实施例的序列到序列模型知识迁移方法训练主要步骤包括:
S100、在大规模外部语料上训练语言模型。该模型可以在给定上文的条件下,预测下一个词发生的概率;
利用语言模型预测出语音-文本的文本中每一个词发生的概率;
利用语音-文本对,和语言模型预测出文本中每一个词的概率,来训练神经网络构成的编码器和解码器,编码器将语音编码为高层特征,解码器根据编码器提取的高层特征生成文本。
具体地,参照图2,训练语言模型的具体步骤包括:
S101、采集大规模文本已形成外部文本数据库。
S102、基于S101中采集的大规模外部文本数据库中,提取领域适配子集,筛选出领域匹配的文本数据,用于训练语言模型;
更具体地,首先在语音-文本对的文本和外部文本分别训练N元语法语言模型,然后针对外部文本数据中的每一句话,计算两个模型交叉熵的差值,取差值相对最小的句子作为领域适配子集。
S103、基于S102中提取的领域适配子集,训练语言模型,语言模型可以使前馈神经网络语言模型,也可以是循环神经网络语言模型,也可以是N元语法语言模型。
更具体地,采用基于长短时记忆网络地循环神经网络进行语言模型建模,输入为当前时刻上下文信息向量和当前时刻词,输出为下一时刻上下文信息向量和下一时刻可能发生的词的概率。采用交叉熵学习准则进行学习,时间截断反向传播算法进行参数更新。
步骤S200、基于步骤S100中训练好的语言模型,生成语音-文本对的软标签。该步骤具体编码器和解码器联合训练;
编码器和解码器训练时,以外部语言模型生成的单词概率分布,以及语音对应标注文件的正确单词相结合作为标签进行训练;
解码器在生成文本训练时,结合外部语言模型给出的单词概率分布进行束搜索。
具体地,参照图3,利用前向传播算法,从步骤S100中训练好的语言模型中提取软标签的具体步骤为:
S201、采集语音-文本对数据形成语音-文本对数据库;
S202、将语音-文本对数据中的文本单独提出,进行标准化;
S203、将步骤S202中提取出的文本输入到步骤S100中训练好的语言模型,采用前向传播算法,得到概率值作为软标签。
步骤S300、训练序列到序列模型知识迁移方法中编码器-解码器语音识别模型。
具体地,参照图4,训练序列到序列模型知识迁移方法中编码器-解码器语音识别序列到序列模型的步骤具体为:
步骤S301、提取在步骤S201中采集的语音-文本对中的语音数据;
步骤S302、基于步骤S301提取的语音数据,提取梅尔频率倒谱滤波器系数作为声学特征;
步骤S303、将S201中采集的语音-文本对中的文本数据作为标签,并与在步骤S202中得到的软标签进行结合;
步骤S304、步骤S303中结合得到的标签,训练序列到序列模型知识迁移方法中编码器-解码器语音识别模型。
进一步的,所述序列到序列语音识别模型的准则为知识迁移准则,其损失函数表示为L(θ),其公式表示为
L(θ)=λLCE(θ)+(1-λ)LKD(θ);
模型参数的更新过程表示为
其中,θ表示整个序列到序列模型的所有参数,L表示总的训练损失函数,LCE表示采用语音文本对中的文本作为标签的损失函数,LKD表示采用外部语言模型生成的概率作为标签的损失函数,λ表示LCE损失的权重,λ的取值范围为[0,1],α表示学习速率。
进一步的,采用所述语音文本对中的文本作为标签的损失函数LCE表示为:
其中,k表示词表中第k个词,K表示词表中词的总个数,yt表示语音文本对中文本对应的词在词表中的序号,如果k=yt则δ(k,yt)=1,否则δ(k,yt)=0,PS2S表示序列到序列模型解码器给出的第k个词的概率,yt-1表示上一个词的序号,ct-1表示上下文信息,x表示上下文特征。
进一步的,采用所述外部语言模型生成的概率作为标签的损失函数LKD表示为:
其中,PLM表示外部语言模型对第k个词的概率值,ht-1表示上一步的历史信息,其余符号与LCE中表示的意思相同。
进一步的,所述外部语言模型的概率由以下公式计算得出:
其中,zi表示输出层的第i个输出值,T为一个参数控制输出概率的平滑程度。
具体地,所述外部语言模型为神经网络语言模型。
在上述序列到序列模型的优选技术方案中,采用语音-文本对中的文本作为标签的损失函数LCE被用来学习语音-文本对中的知识表示。
在上述序列到序列模型的优选技术方案中,采用外部语言模型生成的概率作为标签的损失函数LKD被用来学习外部语料中的知识表示。
在上述序列到序列模型的优选技术方案中,输入到序列到序列模型的声学特征均为梅尔频率倒谱系数声学特征或感知线性预测倒谱系数声学特征或梅尔标度滤波器组声学特征。
损失函数L(θ)还可以简化为一种变体形式:
其中,k表示词表中第k个词,K表示词表中词的总个数,yt表示语音文本对中文本对应的词在词表中的序号,如果k=yt则δ(k,yt)=1,否则δ(k,yt)=0,PS2S表示序列到序列模型解码器给出的第k个词的概率,yt-1表示上一个词的序号,ct-1表示上下文信息,x表示上下文特征,PLM表示外部语言模型对第k个词的概率值,ht-1表示外部语言模型上一步的历史信息,θ为模型所有参数,λ是一个可调节的权重参数。
模型参数的更新表示为
其中,α表示学习速率。
在本发明的优选技术方案中,通过利用在大规模外部文本语料上训练的语言模型,提取语音-文本对中文本的概率分布作为软标签,来训练序列到序列语音识别模型。这样可以从大规模外部文本语料中获取语言学知识,然后将其迁移到序列到序列语音识别模型中,从而提高语音识别模型准确率。
更具体地,参照图5,本发明的序列到序列模型知识迁移方法训练具体步骤如下:
S501、采集大量文本数据以形成外部文本数据库;S502、基于步骤S501中的外部文本数据库,提取与语音-文本对中文本领域匹配的子集;S503、基于步骤S502中提取的子集,训练语言模型;S504采集语音-文本数据对;S505、基于S504中的语音-文本数据对中的文本,输入到步骤S503中训练的语言模型,得到语音-文本数据对的软标签;S506、对语音-文本数据对中的语音提取声学特征;S507、将语音-文本数据对中文本标签与步骤S504中生成的软标签结合,训练编码器-解码器序列到序列语音识别模型。
关于图5的方法,需要指出的是,尽管本申请中以特定顺序对其进行了描述,但是这种顺序仅仅是示例性的,并不具有限制作用,本领域技术人员可以根据需要对其作出调整。例如,步骤S504可以与步骤S501同时进行等。这些顺序调整都没有偏离本发明的基本原理,因此都将落入本发明的保护范围之内。
此外本发明中的序列到序列模型知识迁移方法的语言模型不仅限于长短诗记忆网络,也可以是前馈神经网络、卷积神经网络、甚至是N元语法语言模型等,只要能给出词的概率分布即可。提取的声学特征可以是梅尔频率倒谱系数声学特征,也可以是其他特征,比如:感知线性预测倒谱系数声学特征或梅尔标度滤波器组声学特征等。
以上仅为本发明的具体实施例,但本发明的技术特征并不局限于此。任何以本发明为基础,为解决基本相同的技术问题,实现基本相同的技术效果,所作出地简单变化、等同替换或者修饰等,皆涵盖于本发明的保护范围之中。

Claims (10)

1.一种基于知识迁移的序列到序列语音识别模型训练方法,其特征在于:包括以下步骤:
步骤S100、在外部文本语料上训练语言模型;
步骤S200、基于步骤S100中训练好的语言模型,生成语音-文本对的软标签;
步骤S300、将语音文本对的文本标签与语音-文本对的软标签进行结合来训练序列到序列语音识别模型。
2.根据权利要求1所述的一种基于知识迁移的序列到序列语音识别模型训练方法,其特征在于:所述训练语言模型的具体步骤:
步骤S101、采集大规模文本已形成外部文本数据库。
步骤S102、基于步骤S101中采集的大规模外部文本数据库中,提取领域适配子集,用于训练语言模型。
3.根据权利要求1所述的一种基于知识迁移的序列到序列语音识别模型训练方法,其特征在于:所述生成语音-文本对的软标签的具体步骤:
步骤S201、采集语音-文本对数据形成语音-文本对数据库;
步骤S202、将语音-文本对数据中的文本单独提出,进行标准化;
步骤S203、将步骤S202中提取出的文本输入到步骤S100中训练好的语言模型,采用前向传播算法,得到概率值作为语音-文本对的软标签。
4.根据权利要求1所述的一种基于知识迁移的序列到序列语音识别模型训练方法,其特征在于:利用所述语音-文本对和所述语言模型预测出文本中每一个词的概率,来训练神经网络构成的编码器和解码器,编码器将语音编码为高层特征,解码器根据编码器提取的高层特征生成文本。
5.根据权利要求1所述的一种基于知识迁移的序列到序列语音识别模型训练方法,其特征在于:所述训练序列到序列语音识别模型的具体步骤:
步骤S301、提取在步骤S201中采集的语音-文本对数据库中的语音数据;
步骤S302、基于步骤S301提取的语音数据,提取梅尔频率倒谱滤波器系数作为声学特征;
步骤S303、将S201中采集的语音-文本对中的文本数据作为标签,并与在步骤S202中得到的软标签进行结合;
步骤S304、步骤S303中结合得到的标签,训练序列到序列模型。
6.根据权利要求1或5所述的一种基于知识迁移的序列到序列语音识别模型训练方法,其特征在于:所述序列到序列语音识别模型的准则为知识迁移准则,其损失函数表示为L(θ),其公式表示为
L(θ)=λLCE(θ)+(1-λ)LKD(θ);
模型参数的更新过程表示为
其中,θ表示整个序列到序列模型的所有参数,L表示总的训练损失函数,LCE表示采用语音文本对中的文本作为标签的损失函数,LKD表示采用外部语言模型生成的概率作为标签的损失函数,λ表示LCE损失的权重,λ的取值范围为[0,1],α表示学习速率。
7.根据权利要求6所述的一种基于知识迁移的序列到序列语音识别模型训练方法,其特征在于:采用所述语音文本对中的文本作为标签的损失函数LCE表示为:
其中,k表示词表中第k个词,K表示词表中词的总个数,yt表示语音文本对中文本对应的词在词表中的序号,如果k=yt则δ(k,yt)=1,否则δ(k,yt)=0,PS2S表示序列到序列模型解码器给出的第k个词的概率,yt-1表示上一个词的序号,ct-1表示上下文信息,x表示上下文特征。
8.根据权利要求6所述的一种基于知识迁移的序列到序列语音识别模型训练方法,其特征在于:采用所述外部语言模型生成的概率作为标签的损失函数LKD表示为:
其中,PLM表示外部语言模型对第k个词的概率值,ht-1表示上一步的历史信息,其余符号与LCE中表示的意思相同。
9.根据权利要求8所述的一种基于知识迁移的序列到序列语音识别模型训练方法,其特征在于:所述外部语言模型的概率由以下公式计算得出:
其中,zi表示输出层的第i个输出值,T为一个参数控制输出概率的平滑程度。
10.根据权利要求8所述的一种基于知识迁移的序列到序列语音识别模型训练方法,其特征在于:所述外部语言模型为神经网络语言模型。
CN201910866156.0A 2019-09-09 2019-09-09 一种基于知识迁移的序列到序列语音识别模型训练方法 Active CN110459208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910866156.0A CN110459208B (zh) 2019-09-09 2019-09-09 一种基于知识迁移的序列到序列语音识别模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910866156.0A CN110459208B (zh) 2019-09-09 2019-09-09 一种基于知识迁移的序列到序列语音识别模型训练方法

Publications (2)

Publication Number Publication Date
CN110459208A true CN110459208A (zh) 2019-11-15
CN110459208B CN110459208B (zh) 2022-01-11

Family

ID=68491910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910866156.0A Active CN110459208B (zh) 2019-09-09 2019-09-09 一种基于知识迁移的序列到序列语音识别模型训练方法

Country Status (1)

Country Link
CN (1) CN110459208B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199727A (zh) * 2020-01-09 2020-05-26 厦门快商通科技股份有限公司 语音识别模型训练方法、系统、移动终端及存储介质
CN111341309A (zh) * 2020-02-18 2020-06-26 百度在线网络技术(北京)有限公司 一种语音交互方法、装置、设备和计算机存储介质
CN111667835A (zh) * 2020-06-01 2020-09-15 马上消费金融股份有限公司 语音识别方法、活体检测方法、模型训练方法及装置
CN112687263A (zh) * 2021-03-11 2021-04-20 南京硅基智能科技有限公司 语音识别神经网络模型及其训练方法、语音识别方法
CN112786026A (zh) * 2019-12-31 2021-05-11 深圳市木愚科技有限公司 基于语音迁移学习的亲子故事个性化音频生成系统及方法
CN114023306A (zh) * 2022-01-04 2022-02-08 阿里云计算有限公司 用于预训练语言模型的处理方法和口语语言理解系统
WO2022121684A1 (en) * 2020-12-10 2022-06-16 International Business Machines Corporation Alternative soft label generation

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107408111A (zh) * 2015-11-25 2017-11-28 百度(美国)有限责任公司 端对端语音识别
US20180174589A1 (en) * 2016-12-19 2018-06-21 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
CN108960277A (zh) * 2017-05-19 2018-12-07 百度(美国)有限责任公司 使用语言模型对序列到序列模型进行冷聚变
CN109065032A (zh) * 2018-07-16 2018-12-21 杭州电子科技大学 一种基于深度卷积神经网络的外部语料库语音识别方法
CN109346064A (zh) * 2018-12-13 2019-02-15 苏州思必驰信息科技有限公司 用于端到端语音识别模型的训练方法及系统
US20190096390A1 (en) * 2017-09-27 2019-03-28 International Business Machines Corporation Generating phonemes of loan words using two converters
CN109741736A (zh) * 2017-10-27 2019-05-10 百度(美国)有限责任公司 使用生成对抗网络进行鲁棒语音识别的系统和方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107408111A (zh) * 2015-11-25 2017-11-28 百度(美国)有限责任公司 端对端语音识别
US20180174589A1 (en) * 2016-12-19 2018-06-21 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
CN108960277A (zh) * 2017-05-19 2018-12-07 百度(美国)有限责任公司 使用语言模型对序列到序列模型进行冷聚变
US20190096390A1 (en) * 2017-09-27 2019-03-28 International Business Machines Corporation Generating phonemes of loan words using two converters
CN109741736A (zh) * 2017-10-27 2019-05-10 百度(美国)有限责任公司 使用生成对抗网络进行鲁棒语音识别的系统和方法
CN109065032A (zh) * 2018-07-16 2018-12-21 杭州电子科技大学 一种基于深度卷积神经网络的外部语料库语音识别方法
CN109346064A (zh) * 2018-12-13 2019-02-15 苏州思必驰信息科技有限公司 用于端到端语音识别模型的训练方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112786026A (zh) * 2019-12-31 2021-05-11 深圳市木愚科技有限公司 基于语音迁移学习的亲子故事个性化音频生成系统及方法
CN111199727A (zh) * 2020-01-09 2020-05-26 厦门快商通科技股份有限公司 语音识别模型训练方法、系统、移动终端及存储介质
CN111341309A (zh) * 2020-02-18 2020-06-26 百度在线网络技术(北京)有限公司 一种语音交互方法、装置、设备和计算机存储介质
CN111667835A (zh) * 2020-06-01 2020-09-15 马上消费金融股份有限公司 语音识别方法、活体检测方法、模型训练方法及装置
WO2022121684A1 (en) * 2020-12-10 2022-06-16 International Business Machines Corporation Alternative soft label generation
GB2617729A (en) * 2020-12-10 2023-10-18 Ibm Alternative soft label generation
CN112687263A (zh) * 2021-03-11 2021-04-20 南京硅基智能科技有限公司 语音识别神经网络模型及其训练方法、语音识别方法
CN114023306A (zh) * 2022-01-04 2022-02-08 阿里云计算有限公司 用于预训练语言模型的处理方法和口语语言理解系统

Also Published As

Publication number Publication date
CN110459208B (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
CN110459208A (zh) 一种基于知识迁移的序列到序列语音识别模型训练方法
US8126717B1 (en) System and method for predicting prosodic parameters
CN114023316B (zh) 基于TCN-Transformer-CTC的端到端中文语音识别方法
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
Huang et al. Pretraining techniques for sequence-to-sequence voice conversion
CN111199727A (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN111210807B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
Zhu et al. Phone-to-audio alignment without text: A semi-supervised approach
Liu et al. Mongolian text-to-speech system based on deep neural network
CN107871496A (zh) 语音识别方法和装置
CN112037773A (zh) 一种n最优口语语义识别方法、装置及电子设备
CN111489746A (zh) 一种基于bert的电网调度语音识别语言模型构建方法
CN111222329B (zh) 句向量训练方法及模型、句向量预测方法及系统
Iosifova et al. Analysis of automatic speech recognition methods
Variani et al. Neural oracle search on n-best hypotheses
Ananthakrishnan et al. Improved speech recognition using acoustic and lexical correlates of pitch accent in a n-best rescoring framework
Razavi et al. Acoustic data-driven grapheme-to-phoneme conversion in the probabilistic lexical modeling framework
CN114944150A (zh) 一种基于双任务的Conformer陆空通话声学模型构建方法
Zhao et al. Tibetan Multi-Dialect Speech and Dialect Identity Recognition.
CN113205792A (zh) 一种基于Transformer和WaveNet的蒙古语语音合成方法
Masumura et al. Phoneme-to-Grapheme Conversion Based Large-Scale Pre-Training for End-to-End Automatic Speech Recognition.
CN116227503A (zh) 一种基于ctc的非自回归端到端语音翻译方法
CN113257221B (zh) 一种基于前端设计的语音模型训练方法及语音合成方法
Deng et al. History utterance embedding transformer lm for speech recognition
CN115374784A (zh) 一种多模态信息选择性融合的中文命名实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 310000 Room 1105, 11/F, Building 4, No. 9, Jiuhuan Road, Jianggan District, Hangzhou City, Zhejiang Province

Applicant after: Zhongke extreme element (Hangzhou) Intelligent Technology Co., Ltd

Address before: 310000 Room 1105, 11/F, Building 4, No. 9, Jiuhuan Road, Jianggan District, Hangzhou City, Zhejiang Province

Applicant before: Limit element (Hangzhou) intelligent Polytron Technologies Inc.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant