CN111540345B - 一种弱监督语音识别模型训练方法及装置 - Google Patents

一种弱监督语音识别模型训练方法及装置 Download PDF

Info

Publication number
CN111540345B
CN111540345B CN202010386227.XA CN202010386227A CN111540345B CN 111540345 B CN111540345 B CN 111540345B CN 202010386227 A CN202010386227 A CN 202010386227A CN 111540345 B CN111540345 B CN 111540345B
Authority
CN
China
Prior art keywords
model
text
current
word vector
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010386227.XA
Other languages
English (en)
Other versions
CN111540345A (zh
Inventor
曹骥
晋博琛
郑岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Daniel Technology Development Co ltd
Original Assignee
Beijing Daniel Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Daniel Technology Development Co ltd filed Critical Beijing Daniel Technology Development Co ltd
Priority to CN202010386227.XA priority Critical patent/CN111540345B/zh
Publication of CN111540345A publication Critical patent/CN111540345A/zh
Application granted granted Critical
Publication of CN111540345B publication Critical patent/CN111540345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Abstract

本发明提供了一种弱监督语音识别模型训练方法及装置,方法包括:预先利用文本语料库分别训练Continuous Bag‑of‑Words和Skip‑gram模型;从文本语料库中选择一个原始文本得到对应的合成音频;将合成音频作为当前音频;将当前音频输入到当前语音识别模型中,得到识别文本;计算原始文本的总词向量与识别文本的总词向量之间的相似度;判断相似度是否小于预设阈值;若否,通过误差反向传播,优化当前语音合成模型的模型参数以及当前语音识别模型的模型参数,并循环迭代,直至相似度小于预设阈值;若是,结束迭代,将若干个优化后的语音识别模型的模型参数的平均值作为目标语音识别模型的模型参数。应用本发明实施例,可以降低成本。

Description

一种弱监督语音识别模型训练方法及装置
技术领域
本发明涉及一种语音识别技术领域,具体涉及一种弱监督语音识别模型训练方法及装置。
背景技术
随着人工智能技术的发展,语音识别技术以及语音合成技术越来越多的应用到了各种技术领域中,但是,如何训练出更好效果的识别模型或者合成模型是技术人员的追求。
现有技术中申请号为201910884620.9的发明专利申请公开了一种构建语音识别模型的方法、装置、设备和存储介质,方法包括:获取多个训练语音样本;通过独立卷积层、卷积残差层、全连接层以及输出层构建语音识别模型;将所述训练语音信息输入至所述语音识别模型,通过自然语言处理NLP技术、所述语音信息以及所述语音信息对应的文本标签更新所述语音识别模型的神经元权值,以得到目标模型;通过L(S)=-lnΠh(x),z)∈S p(z|h(x))=-Σ(h(x),z)∈Sln p(z|h(x))评估所述目标模型的误差;调整所述目标模型的神经元的权值,直至所述误差小于阈值,将所述误差小于阈值的神经元权值设为理想权值;将所述目标模型以及所述理想权值部署至客户端。降低了语音信息中的音调对预测文本的影响以及语音识别模型识别过程中的运算量。
但是,发明人发现,现有技术中实质上是采用强监督训练语音合成模型,强监督训练需要人工获取大量音频并准确标注对应文本内容。但随着需要获取的数据量的增加,人员和费用支出极大,而且大量真实数据的获取难度也很大,所以一般需要有一定资源积累的大型企业才能进行持续投入和研发,因此,现有技术存在成本较高的技术问题。
发明内容
本发明所要解决的技术问题在于如何降低语音识别模型中的训练成本。
本发明通过以下技术手段实现解决上述技术问题的:
本发明实施例提供了一种弱监督语音识别模型训练方法,所述方法包括:
预先利用文本语料库分别训练Continuous Bag-of-Words和Skip-gram模型;
从预先训练出若干个语音识别模型中选择一个作为当前语音识别模型,从预先训练出的若干个语音合成模型中选择一个作为当前语音合成模型;
从文本语料库中选择一个原始文本段落并输入到当前语音合成模型中,得到合成音频;将合成音频加入随机扰动,作为当前音频;
将当前音频输入到当前语音识别模型中,得到识别文本;
分别利用预先训练的Continuous Bag-of-Words模型和预先训练的Skip-gram模型分别计算出原始文本的总词向量,以及识别文本的总词向量;
计算原始文本的总词向量与识别文本的总词向量之间的余弦相似度;
判断所述相似度是否小于预设阈值;
若否,通过误差反向传播,优化当前语音合成模型的模型参数以及当前语音识别模型的模型参数,并返回执行所述从预先训练出若干个语音识别模型中选择一个作为当前语音识别模型,从预先训练出的若干个语音合成模型中选择一个作为当前语音合成模型的步骤,直至所述相似度小于预设阈值;
若是,结束迭代,将若干个语音识别模型中的模型参数的平均值作为目标语音识别模型的模型参数。
应用本发明实施例,利用语音识别模型和语音合成模型进行对抗训练的方式,基于原始文本的总词向量与识别文本的总词向量之间的相似度作为优化目标进行迭代优化,相对于现有技术,无需人工获取真实音频和标注对应文本,仅需要数量较少的样本数据即可实现语音识别模型的训练,降低了成本。
可选的,所述从预先训练出若干个语音识别模型中选择一个作为当前语音识别模型,从预先训练出的若干个语音合成模型中选择一个作为当前语音合成模型,包括:
从预先训练出若干个语音识别模型中随机选择一个作为当前语音识别模型,从预先训练出的若干个语音合成模型中随机选择一个作为当前语音合成模型。
可选的,所述从文本语料库中选择一个原始文本段落并输入到当前语音合成模型中,包括:
从文本语料库中随机选择一个原始文本段落并输入到当前语音合成模型中。
可选的,所述将合成音频作为当前音频,包括:
对合成音频中增加随机扰动,得到当前音频。
可选的,所述分别利用预先训练的Continuous Bag-of-Words模型和预先训练的Skip-gram模型分别计算出原始文本的总词向量,以及识别文本的总词向量,包括:
分别利用预先训练的Continuous Bag-of-Words模型和预先训练的Skip-gram模型分别计算出原始文本中每一个单词的词向量,将原始文本的单词的词向量叠加得到原始文本的总词向量;
分别利用Continuous Bag-of-Words和Skip-gram模型分别计算出识别文本中每一个单词的词向量,将识别文本的单词的词向量叠加得到识别文本的总词向量。
可选的,所述计算原始文本的总词向量与识别文本的总词向量之间的相似度,包括:
计算原始文本的总词向量与识别文本的总词向量之间的余弦相似度。
可选的,所述文本语料库,包括:
OpenSLR、THUYG-20、Mozilla Common Voice、THCHS30、ST-CMDS、AISHELL-1、Primewords Chinese Corpus Set 1、Aidatatang_200zh、MAGICDATA Mandarin ChineseRead Speech Corpus,以及从互联网上获取带有讲稿内容的广播电台的录音。
本发明还提供了一种弱监督语音识别模型训练装置,所述装置包括:
训练模块,用于预先利用文本语料库分别训练Continuous Bag-of-Words和Skip-gram模型;
选择模块,用于从预先训练出若干个语音识别模型中选择一个作为当前语音识别模型,从预先训练出的若干个语音合成模型中选择一个作为当前语音合成模型;
从文本语料库中选择一个原始文本段落并输入到当前语音合成模型中,得到合成音频;将合成音频作为当前音频;
输入模块,用于将当前音频输入到当前语音识别模型中,得到识别文本;
计算模块,用于分别利用预先训练的Continuous Bag-of-Words模型和预先训练的Skip-gram模型分别计算出原始文本的总词向量,以及识别文本的总词向量;
计算原始文本的总词向量与识别文本的总词向量之间的相似度;
判断模块,用于判断所述相似度是否小于预设阈值;
优化模块,用于在所述判断模块的判断结果为否的情况下,通过误差反向传播,优化当前语音合成模型的模型参数以及当前语音识别模型的模型参数,并触发选择模块,直至所述相似度小于预设阈值;
设置模块,用于在所述判断模块的判断结果为是的情况下,结束迭代,将若干个语音识别模型中的模型参数的平均值作为目标语音识别模型的模型参数。
可选的,所述选择模块,用于:
从预先训练出若干个语音识别模型中随机选择一个作为当前语音识别模型,从预先训练出的若干个语音合成模型中随机选择一个作为当前语音合成模型。
可选的,所述选择模块,用于:
从文本语料库中随机选择一个原始文本段落并输入到当前语音合成模型中。
本发明的优点在于:
应用本发明实施例,利用语音识别模型和语音合成模型进行对抗训练的方式,基于原始文本的总词向量与识别文本的总词向量之间的相似度作为优化目标进行迭代优化,相对于现有技术,无需人工获取真实音频和标注对应文本,仅需要数量较少的样本数据即可实现语音识别模型的训练,降低了成本。
附图说明
图1为本发明实施例提供的一种弱监督语音识别模型训练方法的流程示意图;
图2为本发明实施例与现有技术所训练的模型的识别准确率的对比结果;
图3为本发明实施例提供的一种弱监督语音识别模型训练装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
图1为本发明实施例提供的一种弱监督语音识别模型训练方法的流程示意图,如图1所示,所述方法包括:
S101:预先利用文本语料库分别训练Continuous Bag-of-Words和Skip-gram模型。
首先,获取免费开源数据集,其中包括了OpenSLR、THUYG-20、Mozilla CommonVoice、THCHS30、ST-CMDS、AISHELL-1、Primewords Chinese Corpus Set 1、Aidatatang_200zh、MAGICDATA Mandarin Chinese Read Speech Corpus等,这些数据集包括了汉语、英语、法语、西班牙语、维吾尔语等不同语种,内部按照音频文件和对应文本的方式预先进行了标注。
同时,还可以使用爬虫技术从互联网上获取带有讲稿内容的广播电台的录音,这些数据包括了汉语、英语、维吾尔语、藏语、蒙古语、哈萨克语、彝语、壮语、朝鲜语等。基于此,构建了少量真实数据和标注结果的数据集。
以A语种为例,使用与A语种关联的文本内容构建A语种的文本语料库TXT-CORPUS,其内部包含了A语种的不同文本段落。
然后,基于TXT-CORPUS,将单词通过词嵌入进行one-hot编码,例如,假定一个句话为word0,word1,word2,word3,word4。
对于word2的Continuous Bag-of-Words词向量,要求在给定word0和word1作为上文,word3和word4作为下文时,最大化输出word2的概率,即最大化P1(word2|(word0,word1,word3,word4))。
对于word2的Skip-gram词向量,要求在给定word2时,最大化输出word0和word1作为上文,word3和word4作为下文的概率,即最大化P2((word0,word1,word3,word4)|word2)。
然后将word0,word1,word2,word3,word4,以及P1(word2|(word0,word1,word3,word4))作为样本训练训练Continuous Bag-of-Words得到词向量模型WORD-M0;
将word0,word1,word2,word3,word4,以及P2(word2|(word0,word1,word3,word4))作为样本训练训练Skip-gram得到词向量模型WORD-M1。
S102:从预先训练出若干个语音识别模型中随机选择一个作为当前语音识别模型,从预先训练出的若干个语音合成模型中随机选择一个作为当前语音合成模型。
示例性的,首先,在文本语料库TXT-CORPUS中所包括的少量真实数据和标注结果的基础上,基于相互不同的随机种子,预先训练多个A语种的语音识别模型ASR-M。ASR-M的作用为:通过任意一个ASR-M,可以得到A语种音频到文本的映射关系,即:
ASR-M(wave)=text,其中wave是A语种音频,text是A语种文本。
然后,在文本语料库TXT-CORPUS中所包括的少量真实数据和标注结果的基础上,基于另一批相互不同的随机种子,预先训练多个A语种的语音合成模型TTS-M。TTS-M的作用为:通过任意一个TTS-M,可以得到A语种文本到音频的映射关系,即:
TTS-M(text)=wave,其中wave是A语种音频,text是A语种文本。
可理解的是,前述的多个可以为3个、5个、10个、50个等。
然后,从语音识别模型ASR-M中随机选择一个模型作为当前语音识别模型,从语音合成模型ASR-M中随机选择一个模型作为当前语音合成模型。
需要强调的是,基于随机种子训练语音识别模型ASR-M以及语音合成模型TTS-M的方法为现有技术,本发明实施例在此不再赘述。
S103:从文本语料库中随机选择一个原始文本段落并输入到当前语音合成模型中,得到合成音频;对合成音频中增加随机扰动,得到当前音频。
示例性的,可以从TXT-CORPUS中进行随机采样A语种的一个文本段落text,随机选取一个TTS-M作为当前语音合成模型,为其送入text,产生此文本段落对应的音频wave;对wave增加[0,0.1]的随机扰动,得到wave’。
需要强调的是,增加随机扰动的方法为现有技术,本发明实施例在此不再赘述。
S104:将当前音频输入到当前语音识别模型中,得到识别文本。
示例性的,可以再随机选取一个ASR-M作为当前语音识别模型,为其送入wave’,ASR-M(wave’)=text’,产生此音频对应的文本text’。
S105:分别利用预先训练的Continuous Bag-of-Words模型和预先训练的Skip-gram模型分别计算出原始文本中每一个单词的词向量,将原始文本的单词的词向量叠加得到原始文本的总词向量;
再对text和text’内的单词分别利用Continuous Bag-of-Words和Skip-gram模型分别计算出识别文本中每一个单词的词向量,然后将text内的词向量相加,得到vector;将text’内的词向量相加,得到vector’。
WORD-M0(text)+WORD-M1(text)=word0+word1+…+word0’+word1’+…=vector-+vector1=vector;
WORD-M0(text’)+WORD-M1(text’)=word0+word1+…+word0’+word1’+…=vector-+vector1=vector’。
S106:计算原始文本的总词向量与识别文本的总词向量之间的相似度。
比对余弦相似度,将相似度结果映射在[0,1]范围内,并以此为优化的目标损失loss,要求最小化这个损失。
S107:判断所述相似度是否小于预设阈值;若是,执行S109步骤;若否,执行S108步骤。
S108:通过误差反向传播,优化当前语音合成模型的模型参数以及当前语音识别模型的模型参数,并返回执行S102步骤,直至所述相似度小于预设阈值。
在本步骤中,通过最小化目标损失,误差反向传播,分别优化当前语音识别模型ASR-M和当前语音合成模型TTS-M的参数;将优化后的当前语音识别模型ASR-M替换S102步骤中的若干个语音识别模型中的对应的模型,将优化后的当前语音合成模型TTS-M替换S102步骤中的若干个语音识别模型中的对应的模型,进而得到更新后的若干个语音识别模型和语音识别模型,然后执行S102步骤,如此反复迭代,直至目标损失收敛,由于每一次选择当前语音识别模型和语音合成模型均为随机选择的,因此,最终会得到若干个优化后的ASR-M和TTS-M。
需要说明的是,误差反向传播以更新网络权值是将输出误差以某种形式通过隐含层向输入层逐层反转,并将误差分配给各层神经元各个神经单元。这种信号正向传播与误差反向传播的各层权值调整过程循环进行,权值也不断调整,也就是网络的学习过程。此过程一直进行到网络输出的误差减少到可以接受的程度,或进行到预先设定的学习次数为止。本发明实施例可以使用现有的反向传播更新算法进行反向更新。
S109:结束迭代,将若干个语音识别模型中的模型参数的平均值作为目标语音识别模型的模型参数。
优化后的每一个ASR-M和TTS-M对应的目标损失是小于预设阈值的。
然后,以多个优化后的ASR-M中的参数的算术平均值作为目标语音识别模型,例如,优化后的ASR-M1中B参数的值为B1;优化后的ASR-M2中B参数的值为B2;优化后的ASR-M3中B参数的值为B3;优化后的ASR-M3中B参数的值为B3;则将B1、B2、B3的算术平均值作为目标语音识别模型的B参数的取值,依次类推,得到目标语音识别模型的其他参数。
应用本发明实施例,利用语音识别模型和语音合成模型进行对抗训练的方式,基于原始文本的总词向量与识别文本的总词向量之间的相似度作为优化目标进行迭代优化,相对于现有技术,无需人工获取真实音频和标注对应文本,仅需要数量较少的样本数据即可实现语音识别模型的训练,降低了成本。
另外,现有的弱监督学习,由于方法还不成熟,识别效果欠佳;现有技术中无监督学习是当前学术和产业界正在尝试的方式,但由于方法还不成熟,同样识别效果欠佳,方法不成熟,效果无法满足商用要求。
而本发明实施例属于弱监督学习方法,,只需要少量真实数据和标注结果,即采用弱监督的方式,但对弱监督的主要算法进行改进,加入和改进无监督对抗训练的方法,保证在只有少量真实数据和标注结果的情况下,仍然能够达到强监督的识别效果,达到了投入小、效果佳的目的。
表1为现有技术与本发明实施例的技术方案的训练条件对比表,如表1所示,
表1
Figure BDA0002484047900000121
图2为本发明实施例与现有技术所训练的模型的识别准确率的对比结果,如图2所示,横坐标为训练的论数,即迭代次数;纵坐标为模型的识别准确率,显然,在训练轮数大于20轮时,本发明实施例训练出的模型的识别准确率与现有技术的强监督训练出的模型的准确率基本相同。
采用多个模型随机选取,并且同时加入语音合成模型配合进行对抗训练,通过以对比原始文本和语音识别的文本距离的方式,达到了端到端训练的目的,也达到了较方法2、3更好的识别效果。最终在少量投入的情况下,达到了较好的语音识别效果。
基于少量真实音频和标注文本,通过随机选取语音识别和语音合成模型,并对音频加入随机扰动,最终比对原始文本和识别文本的词向量余弦距离为损失目标,这种能够保障最终语音识别效果的弱监督端到端训练方法。
实施例2
与本发明实施例1相对应,本发明还提供了实施例2
图3为本发明实施例提供的一种弱监督语音识别模型训练装置的结构示意图,如图3所示,所述装置包括:
训练模块201,用于预先利用文本语料库分别训练Continuous Bag-of-Words和Skip-gram模型;
选择模块202,用于从预先训练出若干个语音识别模型中选择一个作为当前语音识别模型,从预先训练出的若干个语音合成模型中选择一个作为当前语音合成模型;
从文本语料库中选择一个原始文本段落并输入到当前语音合成模型中,得到合成音频;将合成音频作为当前音频;
输入模块203,用于将当前音频输入到当前语音识别模型中,得到识别文本;
计算模块204,用于分别利用预先训练的Continuous Bag-of-Words模型和预先训练的Skip-gram模型分别计算出原始文本的总词向量,以及识别文本的总词向量;
计算原始文本的总词向量与识别文本的总词向量之间的相似度;
判断模块205,用于判断所述相似度是否小于预设阈值;
优化模块206,用于在所述判断模块的判断结果为否的情况下,通过误差反向传播,优化当前语音合成模型的模型参数以及当前语音识别模型的模型参数,并触发选择模块202,直至所述相似度小于预设阈值;
设置模块207,用于在所述判断模块的判断结果为是的情况下,结束迭代,将若干个语音识别模型中的模型参数的平均值作为目标语音识别模型的模型参数。
应用本发明实施例,利用语音识别模型和语音合成模型进行对抗训练的方式,基于原始文本的总词向量与识别文本的总词向量之间的相似度作为优化目标进行迭代优化,相对于现有技术,无需人工获取真实音频和标注对应文本,仅需要数量较少的样本数据即可实现语音识别模型的训练,降低了成本。
在本发明实施例的一种具体实施方式中,所述选择模块202,用于:
从预先训练出若干个语音识别模型中随机选择一个作为当前语音识别模型,从预先训练出的若干个语音合成模型中随机选择一个作为当前语音合成模型。
在本发明实施例的一种具体实施方式中,所述选择模块202,用于:
从文本语料库中随机选择一个原始文本段落并输入到当前语音合成模型中。
在本发明实施例的一种具体实施方式中,所述选择模块202,用于:
对合成音频中增加随机扰动,得到当前音频。
在本发明实施例的一种具体实施方式中,所述计算模块204,用于:
分别利用预先训练的Continuous Bag-of-Words模型和预先训练的Skip-gram模型分别计算出原始文本中每一个单词的词向量,将原始文本的单词的词向量叠加得到原始文本的总词向量;
分别利用Continuous Bag-of-Words和Skip-gram模型分别计算出识别文本中每一个单词的词向量,将识别文本的单词的词向量叠加得到识别文本的总词向量。
在本发明实施例的一种具体实施方式中,所述计算模块204,用于:
计算原始文本的总词向量与识别文本的总词向量之间的余弦相似度。
在本发明实施例的一种具体实施方式中,所述文本语料库,包括:
OpenSLR、THUYG-20、Mozilla Common Voice、THCHS30、ST-CMDS、AISHELL-1、Primewords Chinese Corpus Set 1、Aidatatang_200zh、MAGICDATA Mandarin ChineseRead Speech Corpus,以及从互联网上获取带有讲稿内容的广播电台的录音。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种弱监督语音识别模型训练方法,其特征在于,所述方法包括:
预先利用文本语料库分别训练Continuous Bag-of-Words和Skip-gram模型;
从预先训练出若干个语音识别模型中随机选择一个作为当前语音识别模型,从预先训练出的若干个语音合成模型中随机选择一个作为当前语音合成模型;
从文本语料库中随机选择一个原始文本段落并输入到当前语音合成模型中,得到合成音频;将合成音频作为当前音频;
将当前音频输入到当前语音识别模型中,得到识别文本;
分别利用预先训练的Continuous Bag-of-Words模型和预先训练的Skip-gram模型分别计算出原始文本的总词向量,以及识别文本的总词向量;
计算原始文本的总词向量与识别文本的总词向量之间的相似度;
判断所述相似度是否小于预设阈值;
若否,通过误差反向传播,优化当前语音合成模型的模型参数以及当前语音识别模型的模型参数,并返回执行所述从预先训练出若干个语音识别模型中选择一个作为当前语音识别模型,从预先训练出的若干个语音合成模型中选择一个作为当前语音合成模型的步骤,直至所述相似度小于预设阈值;
若是,结束迭代,将若干个语音识别模型中的模型参数的平均值作为目标语音识别模型的模型参数。
2.根据权利要求1所述的一种弱监督语音识别模型训练方法,其特征在于,所述将合成音频作为当前音频,包括:
对合成音频中增加随机扰动,得到当前音频。
3.根据权利要求1所述的一种弱监督语音识别模型训练方法,其特征在于,所述分别利用预先训练的Continuous Bag-of-Words模型和预先训练的Skip-gram模型分别计算出原始文本的总词向量,以及识别文本的总词向量,包括:
分别利用预先训练的Continuous Bag-of-Words模型和预先训练的Skip-gram模型分别计算出原始文本中每一个单词的词向量,将原始文本的单词的词向量叠加得到原始文本的总词向量;
分别利用Continuous Bag-of-Words和Skip-gram模型分别计算出识别文本中每一个单词的词向量,将识别文本的单词的词向量叠加得到识别文本的总词向量。
4.根据权利要求1所述的一种弱监督语音识别模型训练方法,其特征在于,所述计算原始文本的总词向量与识别文本的总词向量之间的相似度,包括:
计算原始文本的总词向量与识别文本的总词向量之间的余弦相似度。
5.根据权利要求1所述的一种弱监督语音识别模型训练方法,其特征在于,所述文本语料库,包括:
OpenSLR、THUYG-20、Mozilla Common Voice、THCHS30、ST-CMDS、AISHELL-1、Primewords Chinese Corpus Set 1、Aidatatang_200zh、MAGICDATA Mandarin ChineseRead Speech Corpus,以及从互联网上获取带有讲稿内容的广播电台的录音。
6.一种弱监督语音识别模型训练装置,其特征在于,所述装置包括:
训练模块,用于预先利用文本语料库分别训练Continuous Bag-of-Words和Skip-gram模型;
选择模块,用于从预先训练出若干个语音识别模型中随机选择一个作为当前语音识别模型,从预先训练出的若干个语音合成模型中随机选择一个作为当前语音合成模型;
从文本语料库中随机选择一个原始文本段落并输入到当前语音合成模型中,得到合成音频;将合成音频作为当前音频;
输入模块,用于将当前音频输入到当前语音识别模型中,得到识别文本;
计算模块,用于分别利用预先训练的Continuous Bag-of-Words模型和预先训练的Skip-gram模型分别计算出原始文本的总词向量,以及识别文本的总词向量;
计算原始文本的总词向量与识别文本的总词向量之间的相似度;
判断模块,用于判断所述相似度是否小于预设阈值;
优化模块,用于在所述判断模块的判断结果为否的情况下,通过误差反向传播,优化当前语音合成模型的模型参数以及当前语音识别模型的模型参数,并触发选择模块,直至所述相似度小于预设阈值;
设置模块,用于在所述判断模块的判断结果为是的情况下,结束迭代,将若干个语音识别模型中的模型参数的平均值作为目标语音识别模型的模型参数。
CN202010386227.XA 2020-05-09 2020-05-09 一种弱监督语音识别模型训练方法及装置 Active CN111540345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010386227.XA CN111540345B (zh) 2020-05-09 2020-05-09 一种弱监督语音识别模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010386227.XA CN111540345B (zh) 2020-05-09 2020-05-09 一种弱监督语音识别模型训练方法及装置

Publications (2)

Publication Number Publication Date
CN111540345A CN111540345A (zh) 2020-08-14
CN111540345B true CN111540345B (zh) 2022-06-24

Family

ID=71975569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010386227.XA Active CN111540345B (zh) 2020-05-09 2020-05-09 一种弱监督语音识别模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN111540345B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112382266A (zh) * 2020-10-30 2021-02-19 北京有竹居网络技术有限公司 一种语音合成方法、装置、电子设备及存储介质
CN112365876B (zh) * 2020-11-27 2022-04-12 北京百度网讯科技有限公司 语音合成模型的训练方法、装置、设备以及存储介质
WO2022133915A1 (zh) * 2020-12-24 2022-06-30 杭州中科先进技术研究院有限公司 一种通过语音合成方法自动训练的语音识别系统及方法
CN113643703B (zh) * 2021-08-06 2024-02-27 西北工业大学 一种语音驱动虚拟人的口令理解方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108133705A (zh) * 2017-12-21 2018-06-08 儒安科技有限公司 基于对偶学习的语音识别与语音合成模型训练方法
CN110136691A (zh) * 2019-05-28 2019-08-16 广州多益网络股份有限公司 一种语音合成模型训练方法、装置、电子设备及存储介质
CN110706692A (zh) * 2019-10-21 2020-01-17 上海交通大学 儿童语音识别模型的训练方法及系统
CN110827791A (zh) * 2019-09-09 2020-02-21 西北大学 一种面向边缘设备的语音识别-合成联合的建模方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10199034B2 (en) * 2014-08-18 2019-02-05 At&T Intellectual Property I, L.P. System and method for unified normalization in text-to-speech and automatic speech recognition
KR20190101333A (ko) * 2019-08-12 2019-08-30 엘지전자 주식회사 음성 인식 장치 및 음성 인식 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108133705A (zh) * 2017-12-21 2018-06-08 儒安科技有限公司 基于对偶学习的语音识别与语音合成模型训练方法
CN110136691A (zh) * 2019-05-28 2019-08-16 广州多益网络股份有限公司 一种语音合成模型训练方法、装置、电子设备及存储介质
CN110827791A (zh) * 2019-09-09 2020-02-21 西北大学 一种面向边缘设备的语音识别-合成联合的建模方法
CN110706692A (zh) * 2019-10-21 2020-01-17 上海交通大学 儿童语音识别模型的训练方法及系统

Also Published As

Publication number Publication date
CN111540345A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN111540345B (zh) 一种弱监督语音识别模型训练方法及装置
Sun et al. Domain adversarial training for accented speech recognition
Yang et al. Unsupervised text style transfer using language models as discriminators
CN109326283B (zh) 非平行文本条件下基于文本编码器的多对多语音转换方法
CN110069790B (zh) 一种通过译文回译对照原文的机器翻译系统及方法
US10255275B2 (en) Method and system for generation of candidate translations
CN110210032B (zh) 文本处理方法及装置
CN108984524A (zh) 一种基于变分神经网络主题模型的标题生成方法
CN111414749B (zh) 基于深度神经网络的社交文本依存句法分析系统
Chen et al. Delving deeper into the decoder for video captioning
Yoon et al. TutorNet: Towards flexible knowledge distillation for end-to-end speech recognition
CN113434683B (zh) 文本分类方法、装置、介质及电子设备
WO2023137911A1 (zh) 基于小样本语料的意图分类方法、装置及计算机设备
Do et al. Preserving word-level emphasis in speech-to-speech translation using linear regression HSMMs
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
CN114218928A (zh) 一种基于图知识和主题感知的抽象文本摘要方法
CN115270797A (zh) 一种基于自训练半监督学习的文本实体抽取方法及系统
Li et al. Abstractive text summarization with multi-head attention
Jong et al. Improving Performance of Automated Essay Scoring by using back-translation essays and adjusted scores
Shin et al. Slot Filling with Delexicalized Sentence Generation.
CN114757310B (zh) 情感识别模型及其训练方法、装置、设备及可读存储介质
Choi et al. Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation
Du et al. Factorized WaveNet for voice conversion with limited data
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质
CN114330375A (zh) 一种基于固定范式的术语翻译方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant