CN108133705A - 基于对偶学习的语音识别与语音合成模型训练方法 - Google Patents
基于对偶学习的语音识别与语音合成模型训练方法 Download PDFInfo
- Publication number
- CN108133705A CN108133705A CN201711391634.4A CN201711391634A CN108133705A CN 108133705 A CN108133705 A CN 108133705A CN 201711391634 A CN201711391634 A CN 201711391634A CN 108133705 A CN108133705 A CN 108133705A
- Authority
- CN
- China
- Prior art keywords
- speech recognition
- phonetic synthesis
- text
- voice data
- synthesis model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 56
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 55
- 238000012549 training Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000013480 data collection Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于对偶学习的语音识别与语音合成模型训练方法,包括以下步骤:首先,把语音识别作为“主任务”,语音合成作为“对偶任务”;使用待训练的语音识别模型,把语音数据A转化为文本B′;使用预先训练得到的文本语言模型,计算得到由语音数据A转化得到的文本是由人类书写而不是由机器生成的置信度;使用待训练的语音合成模型,把由语音数据A转化得到的文本B′,转化回语音数据A′;使用预先训练得到的语音语言模型,计算语音数据A′与原始的语音数据A之间的“重构相似度”;计算最终的“奖励”,使用强化学习技术中的REINFORCE算法对待训练的语音识别模型和语音合成模型的参数进行更新。本发明可节省由于收集数据而带来的大量成本开销。
Description
技术领域
本发明涉及语音识别与语音合成技术领域,特别的它是一种利用对偶学习的性质,使用大量的无标签的数据和强化学习技术、以无监督的方式对使用深度学习技术建立的语音识别和语音合成的模型进行训练的方法,可应用于语音识别、语音合成领域。
背景技术
语音是人们日常交流活动的最基本、也是最有效的一种方式。随着人工智能技术的日渐成熟,人们也希望能够通过直接对话的方式与计算机进行交流和传递信息,因此语音识别、语音合成也随之成为自然语言处理领域中的一大主题。语音转文字以及根据文字合成语音等各种形式的需求日渐扩大,比如:语音输入法的使用量呈现飞速的增长。
传统的语音识别与语音合成模型的训练方法需要大量的、一一对应的语音数据和文本数据,但收集足够数量的这样的一一对应的数据不仅是一个费时费力的工作,同时还很难保证收集到的数据的质量,另外,数据的收集也会带来很大的成本开销。没有足够数量的高质量数据成为提升语音识别与语音合成模型的准确度、转换效率等性能的一大阻碍。
因特网的高速普及、信息技术的飞速发展以及社交媒体的兴起,使得语音数据和文本数据飞速增长,比如:微信语音、语音输入、微博以及产品评论等。如果能够把这些海量的无标签的数据应用到语音识别、语音合成模型的建立和训练中,将会对两者性能的提升有很大帮助,并且可以节省由于收集数据而带来的大量的成本开销。
仔细观察可以发现,语音识别与语音合成有着天然的互为“对偶”任务的性质:语音识别将语音转化为相对应的文本,语音合成将给定的文本转化为相对应的语音。如果把其中一个看做是“主任务”,另一个看做是“对偶任务”,两者就可以形成一个“闭环”。在这个“闭环”进行的过程中会产生很多丰富的中间反馈信息,如果能够利用这些中间的反馈信息来训练语音识别与语音合成模型,将会很好的解决数据量较小和数据质量不高的问题。
发明内容
本发明的目的在于使用大量的无标签的数据,通过无监督的方法对语音识别和语音合成模型进行训练,从而改善现有的语音识别和语音合成模型的性能,同时节省由于收集数据而带来的大量的成本开销。
为了实现以上目的,本发明提出一种基于对偶学习的语音识别与语音合成模型训练方法,利用语音识别与语音合成互为“对偶”任务的性质,使用大量的无标签的数据和强化学习技术,对利用深度学习技术建立的语音识别和语音合成模型进行训练,包括以下步骤:
步骤S1,首先,把语音识别作为“主任务”,语音合成作为“对偶任务”;
步骤S2,从语音数据集DA和文本数据集DB中分别选取训练数据,根据“主任务”和“对偶任务”的选取来确定训练数据的形式;因为此处把语音识别看做是“主任务”,所以训练数据的形式是“语音A文本B”;
步骤S3,使用待训练的语音识别模型,把语音数据A转化为文本B′;
步骤S4,使用预先训练得到的文本语言模型,计算得到由语音数据A转化得到的文本是由人类书写而不是由机器生成的置信度,记作R1;
步骤S5,使用待训练的语音合成模型,把由语音数据A转化得到的文本B′,转化回语音数据A′;
步骤S6,使用预先训练得到的语音语言模型,计算语音数据A′与原始的语音数据A之间的“重构相似度”,记作R2;
步骤S7,计算最终的“奖励”,记作R=α×R1+(1-α)×R2;
步骤S8,根据得到的最终“奖励”R,使用强化学习技术中的REINFORCE算法对待训练的语音识别模型和语音合成模型的参数进行更新;
最后,回到步骤S1,把语音合成作为“主任务”,语音识别作为“对偶任务”,把接下来的步骤中的数据进行对称的交换,重复执行步骤S1~S8,直到语音识别模型和语音合成模型都收敛或达到程序停止条件。
本发明的优点在于:本发明提供的方法不需要一一对应的语音数据和文本数据,从而能够很好的解决数据数量少、质量差的难题。该方法能够很好的节省由于收集数据而带来的大量的成本开销。本发明提供的方法最终得到的模型能达到和通过使用大量的一一对应的有标数据,以有监督的方式训练得到的模型相当的性能。
附图说明
图1为本发明的方法示意图。
具体实施方式
下面结合具体附图和实施例对本发明作进一步说明。
本发明的总体构思是:首先,使用较少的有标数据对语音识别模型以及语音合成模型进行预训练;然后,通过对偶学习的方法,使用大量的无标签的数据和强化学习技术、以无监督的方式对语音识别模型以及语音合成模型进行进一步的训练。
首先,定义算法的输入,包括:用于训练语音识别和语音合成模型的语音数据集DA,文本数据集DB;待训练的语音识别模型ΘAB;待训练的语音合成模型ΘBA;预先训练得到的,用于计算语音数据是由人类生成而不是由机器生成的置信度的语音语言模型LMA;预先训练得到的,用于计算文本数据是由人类书写而不是由机器生成的置信度的文本语言模型LMB;在更新参数时,用于控制两个语言模型所占权重的超参数α;,α∈(0,1),通常取0.5;
参照图1,由于训练数据既包括音频数据又包括文本数据,训练前需要先对文本数据进行编码操作,对文本数据,这里采用词向量的编码方式,词向量的维度选择300,使用预先训练好的GloVe词向量;
步骤S1,首先,把语音识别作为“主任务”,语音合成作为“对偶任务”;
步骤S2,从语音数据集DA和文本数据集DB中分别选取训练数据,根据“主任务”和“对偶任务”的选取来确定训练数据的形式;因为此处把语音识别看做是“主任务”,所以训练数据的形式是“语音A文本B”;
对文本数据集DB中的每个词,通过查表的方式得到每个词的词向量表示,形成词向量矩阵;
步骤S3,使用待训练的语音识别模型ΘAB,把语音数据A转化为文本B′;
步骤S4,先通过查表的方式,将词向量矩阵形式的文本B′,解码为由单词组成的普通文本,用B″表示;
把解码后的普通文本B″输入已有的文本语言模型LMB中,计算普通文本B″是由人类书写而不是由机器生成的置信度,记作R1=LMB(B′);
步骤S5,使用待训练的语音合成模型ΘBA,把由语音数据A转化得到的词向量矩阵形式的文本B′,转化回语音数据,用A′表示;
步骤S6,把语音数据A′输入已有的语音语言模型LMA中,计算语音数据A′与原始的语音数据A之间的“重构相似度”,记作R2=LMA(A′);
步骤S7,计算最终的“奖励”,记作R=α×R1+(1-α)×R2;α∈(0,1);
步骤S8,根据得到的最终“奖励”R,计算R对语音识别模型与语音合成模型各自参数的梯度;
计算R对语音识别模型参数的梯度,计算公式为:
计算R对语音合成模型参数的梯度,计算公式为:
其中,表示梯度,E表示期望,K表示此次训练中所用数据的个数,P表示概率;α∈(0,1),表示用于控制两个语言模型所占权重的超参数;
使用强化学习技术中的REINFORCE算法,对待训练的语音识别模型的参数进行更新,更新公式为:
其中,γ1∈(0,1),表示学习率;
使用强化学习技术中的REINFORCE算法,对待训练的语音合成模型的参数进行更新,更新公式为:
其中,γ2∈(0,1),表示学习率;
如果程序收敛或者达到停止条件就停止程序,否则返回到不足S1,,然后,把语音合成作为“主任务”,语音识别作为“对偶任务”,;并在接下来的步骤中,把数据进行对称的交换,重复执行步骤S1~S8;
这种通过对偶学习的方法,使用大量的无标签的数据和强化学习技术、以无监督的方式对语音识别模型以及语音合成模型进行训练的方法,能够很好的提升模型性能,且能够节省大量的由于收集数据带来的成本开销。
本发明使用公开的GloVe在大规模语料库中预先通过无监督的方式训练好的词向量。它是在Wikipedia 2014、Gigaword 5数据集上训练得到的,总共有400000个词汇,且都已经转化为小写的形式,其中词向量的维度为300维。
综上所述,本发明提出的这种通过对偶学习的方法,使用大量的无标签的数据和强化学习技术、以无监督的方式对语音识别模型以及语音合成模型进行训练的方法,在可行性上是可以肯定的。它能够很好的保模型性能,同时能够节省由于收集数据带来的大量的成本开销。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照实例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种基于对偶学习的语音识别与语音合成模型训练方法,其特征在于,包括以下步骤:
步骤S1,首先,把语音识别作为“主任务”,语音合成作为“对偶任务”;
步骤S2,从语音数据集DA和文本数据集DB中分别选取训练数据,根据“主任务”和“对偶任务”的选取来确定训练数据的形式;
步骤S3,使用待训练的语音识别模型,把语音数据A转化为文本B′;
步骤S4,使用预先训练得到的文本语言模型,计算得到由语音数据A转化得到的文本是由人类书写而不是由机器生成的置信度,记作R1;
步骤S5,使用待训练的语音合成模型,把由语音数据A转化得到的文本B′,转化回语音数据A′;
步骤S6,使用预先训练得到的语音语言模型,计算语音数据A′与原始的语音数据A之间的“重构相似度”,记作R2;
步骤S7,计算最终的“奖励”,记作R=α×R1+(1-α)×R2;α∈(0,1);
步骤S8,根据得到的最终“奖励”R,使用强化学习技术中的REINFORCE算法对待训练的语音识别模型和语音合成模型的参数进行更新;
最后,回到步骤S1,把语音合成作为“主任务”,语音识别作为“对偶任务”,把接下来的步骤中的数据进行对称的交换,重复执行步骤S1~S8,直到语音识别模型和语音合成模型都收敛或达到程序停止条件。
2.如权利要求1所述的基于对偶学习的语音识别与语音合成模型训练方法,其特征在于,
步骤S1之前,定义:用于训练语音识别和语音合成模型的语音数据集DA,文本数据集DB;待训练的语音识别模型ΘAB;待训练的语音合成模型ΘBA;预先训练得到的,用于计算语音数据是由人类生成而不是由机器生成的置信度的语音语言模型LMA;预先训练得到的,用于计算文本数据是由人类书写而不是由机器生成的置信度的文本语言模型LMB;
对文本数据采用词向量的编码方式。
3.如权利要求2所述的基于对偶学习的语音识别与语音合成模型训练方法,其特征在于,
步骤S2中,对文本数据集DB中的每个词,通过查表的方式得到每个词的词向量表示,形成词向量矩阵。
4.如权利要求3所述的基于对偶学习的语音识别与语音合成模型训练方法,其特征在于,
步骤S4具体包括:先通过查表的方式,将词向量矩阵形式的文本B′,解码为由单词组成的普通文本,用B″表示;
把解码后的普通文本B″输入已有的文本语言模型LMB中,计算普通文本B″是由人类书写而不是由机器生成的置信度,记作R1=LMB(B′)。
5.如权利要求4所述的基于对偶学习的语音识别与语音合成模型训练方法,其特征在于,
步骤S5,使用待训练的语音合成模型ΘBA,把由语音数据A转化得到的词向量矩阵形式的文本B′,转化回语音数据,用A′表示。
6.如权利要求5所述的基于对偶学习的语音识别与语音合成模型训练方法,其特征在于,
步骤S6,把语音数据A′输入已有的语音语言模型LMA中,计算语音数据A′与原始的语音数据A之间的“重构相似度”,记作R2=LMA(A′)。
7.如权利要求5所述的基于对偶学习的语音识别与语音合成模型训练方法,其特征在于,
步骤S8具体包括:
根据得到的最终“奖励”R,计算R对语音识别模型与语音合成模型各自参数的梯度;
计算R对语音识别模型参数的梯度,计算公式为:
计算R对语音合成模型参数的梯度,计算公式为:
其中,表示梯度,E表示期望,K表示此次训练中所用数据的个数,P表示概率;α∈(0,1),表示用于控制两个语言模型所占权重的超参数;
使用强化学习技术中的REINFORCE算法,对待训练的语音识别模型的参数进行更新,更新公式为:
其中,γ1∈(0,1),表示学习率;
使用强化学习技术中的REINFORCE算法,对待训练的语音合成模型的参数进行更新,更新公式为:
其中,γ2∈(0,1),表示学习率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711391634.4A CN108133705A (zh) | 2017-12-21 | 2017-12-21 | 基于对偶学习的语音识别与语音合成模型训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711391634.4A CN108133705A (zh) | 2017-12-21 | 2017-12-21 | 基于对偶学习的语音识别与语音合成模型训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108133705A true CN108133705A (zh) | 2018-06-08 |
Family
ID=62391072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711391634.4A Withdrawn CN108133705A (zh) | 2017-12-21 | 2017-12-21 | 基于对偶学习的语音识别与语音合成模型训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108133705A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887484A (zh) * | 2019-02-22 | 2019-06-14 | 平安科技(深圳)有限公司 | 一种基于对偶学习的语音识别与语音合成方法及装置 |
CN110136692A (zh) * | 2019-04-30 | 2019-08-16 | 北京小米移动软件有限公司 | 语音合成方法、装置、设备及存储介质 |
CN110276081A (zh) * | 2019-06-06 | 2019-09-24 | 百度在线网络技术(北京)有限公司 | 文本生成方法、装置及存储介质 |
US20190385592A1 (en) * | 2019-08-12 | 2019-12-19 | Lg Electronics Inc. | Speech recognition device and speech recognition method |
CN111428867A (zh) * | 2020-06-15 | 2020-07-17 | 深圳市友杰智新科技有限公司 | 基于可逆分离卷积的模型训练方法、装置和计算机设备 |
CN111540345A (zh) * | 2020-05-09 | 2020-08-14 | 北京大牛儿科技发展有限公司 | 一种弱监督语音识别模型训练方法及装置 |
CN111583913A (zh) * | 2020-06-15 | 2020-08-25 | 深圳市友杰智新科技有限公司 | 语音识别和语音合成的模型训练方法、装置和计算机设备 |
CN112580369A (zh) * | 2019-09-27 | 2021-03-30 | 华为技术有限公司 | 语句复述方法、训练语句复述模型的方法及其装置 |
CN112863476A (zh) * | 2019-11-27 | 2021-05-28 | 阿里巴巴集团控股有限公司 | 个性化语音合成模型构建、语音合成和测试方法及装置 |
CN113066477A (zh) * | 2021-03-03 | 2021-07-02 | 北京嘀嘀无限科技发展有限公司 | 一种信息交互方法、装置及电子设备 |
CN113160793A (zh) * | 2021-04-23 | 2021-07-23 | 平安科技(深圳)有限公司 | 基于低资源语言的语音合成方法、装置、设备及存储介质 |
CN113270090A (zh) * | 2021-05-19 | 2021-08-17 | 平安科技(深圳)有限公司 | 基于asr模型与tts模型的组合模型训练方法及设备 |
CN113284484A (zh) * | 2021-05-24 | 2021-08-20 | 百度在线网络技术(北京)有限公司 | 模型训练方法及装置、语音识别方法和语音合成方法 |
CN113412514A (zh) * | 2019-07-09 | 2021-09-17 | 谷歌有限责任公司 | 用于设备上语音识别模型的训练的文本片段的设备上语音合成 |
WO2022126904A1 (zh) * | 2020-12-18 | 2022-06-23 | 平安科技(深圳)有限公司 | 语音转换方法、装置、计算机设备及存储介质 |
CN113270090B (zh) * | 2021-05-19 | 2024-06-28 | 平安科技(深圳)有限公司 | 基于asr模型与tts模型的组合模型训练方法及设备 |
-
2017
- 2017-12-21 CN CN201711391634.4A patent/CN108133705A/zh not_active Withdrawn
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109887484A (zh) * | 2019-02-22 | 2019-06-14 | 平安科技(深圳)有限公司 | 一种基于对偶学习的语音识别与语音合成方法及装置 |
WO2020168752A1 (zh) * | 2019-02-22 | 2020-08-27 | 平安科技(深圳)有限公司 | 一种基于对偶学习的语音识别与语音合成方法及装置 |
CN109887484B (zh) * | 2019-02-22 | 2023-08-04 | 平安科技(深圳)有限公司 | 一种基于对偶学习的语音识别与语音合成方法及装置 |
CN110136692A (zh) * | 2019-04-30 | 2019-08-16 | 北京小米移动软件有限公司 | 语音合成方法、装置、设备及存储介质 |
CN110136692B (zh) * | 2019-04-30 | 2021-12-14 | 北京小米移动软件有限公司 | 语音合成方法、装置、设备及存储介质 |
CN110276081B (zh) * | 2019-06-06 | 2023-04-25 | 百度在线网络技术(北京)有限公司 | 文本生成方法、装置及存储介质 |
CN110276081A (zh) * | 2019-06-06 | 2019-09-24 | 百度在线网络技术(北京)有限公司 | 文本生成方法、装置及存储介质 |
CN113412514A (zh) * | 2019-07-09 | 2021-09-17 | 谷歌有限责任公司 | 用于设备上语音识别模型的训练的文本片段的设备上语音合成 |
US11978432B2 (en) | 2019-07-09 | 2024-05-07 | Google Llc | On-device speech synthesis of textual segments for training of on-device speech recognition model |
US20190385592A1 (en) * | 2019-08-12 | 2019-12-19 | Lg Electronics Inc. | Speech recognition device and speech recognition method |
CN112580369A (zh) * | 2019-09-27 | 2021-03-30 | 华为技术有限公司 | 语句复述方法、训练语句复述模型的方法及其装置 |
CN112580369B (zh) * | 2019-09-27 | 2023-02-03 | 华为技术有限公司 | 语句复述方法、训练语句复述模型的方法及其装置 |
CN112863476A (zh) * | 2019-11-27 | 2021-05-28 | 阿里巴巴集团控股有限公司 | 个性化语音合成模型构建、语音合成和测试方法及装置 |
CN111540345B (zh) * | 2020-05-09 | 2022-06-24 | 北京大牛儿科技发展有限公司 | 一种弱监督语音识别模型训练方法及装置 |
CN111540345A (zh) * | 2020-05-09 | 2020-08-14 | 北京大牛儿科技发展有限公司 | 一种弱监督语音识别模型训练方法及装置 |
CN111583913A (zh) * | 2020-06-15 | 2020-08-25 | 深圳市友杰智新科技有限公司 | 语音识别和语音合成的模型训练方法、装置和计算机设备 |
CN111428867B (zh) * | 2020-06-15 | 2020-09-18 | 深圳市友杰智新科技有限公司 | 基于可逆分离卷积的模型训练方法、装置和计算机设备 |
CN111428867A (zh) * | 2020-06-15 | 2020-07-17 | 深圳市友杰智新科技有限公司 | 基于可逆分离卷积的模型训练方法、装置和计算机设备 |
WO2022126904A1 (zh) * | 2020-12-18 | 2022-06-23 | 平安科技(深圳)有限公司 | 语音转换方法、装置、计算机设备及存储介质 |
CN113066477A (zh) * | 2021-03-03 | 2021-07-02 | 北京嘀嘀无限科技发展有限公司 | 一种信息交互方法、装置及电子设备 |
CN113160793A (zh) * | 2021-04-23 | 2021-07-23 | 平安科技(深圳)有限公司 | 基于低资源语言的语音合成方法、装置、设备及存储介质 |
CN113270090A (zh) * | 2021-05-19 | 2021-08-17 | 平安科技(深圳)有限公司 | 基于asr模型与tts模型的组合模型训练方法及设备 |
CN113270090B (zh) * | 2021-05-19 | 2024-06-28 | 平安科技(深圳)有限公司 | 基于asr模型与tts模型的组合模型训练方法及设备 |
CN113284484A (zh) * | 2021-05-24 | 2021-08-20 | 百度在线网络技术(北京)有限公司 | 模型训练方法及装置、语音识别方法和语音合成方法 |
CN113284484B (zh) * | 2021-05-24 | 2022-07-26 | 百度在线网络技术(北京)有限公司 | 模型训练方法及装置、语音识别方法和语音合成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108133705A (zh) | 基于对偶学习的语音识别与语音合成模型训练方法 | |
CN109635124A (zh) | 一种结合背景知识的远程监督关系抽取方法 | |
CN107644014A (zh) | 一种基于双向lstm和crf的命名实体识别方法 | |
CN109145290A (zh) | 基于字向量与自注意力机制的语义相似度计算方法 | |
CN109558576B (zh) | 一种基于自注意力机制的标点符号预测方法 | |
CN110418210A (zh) | 一种基于双向循环神经网络和深度输出的视频描述生成方法 | |
CN110969020A (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN107526834A (zh) | 联合词性与词序的相关因子训练的word2vec改进方法 | |
CN111475655B (zh) | 一种基于配电网知识图谱的电力调度文本实体链接方法 | |
CN107273458A (zh) | 深度模型训练方法及装置、图像检索方法及装置 | |
CN107392147A (zh) | 一种基于改进的生成式对抗网络的图像语句转换方法 | |
CN109410974A (zh) | 语音增强方法、装置、设备及存储介质 | |
CN106816147A (zh) | 基于二值神经网络声学模型的语音识别系统 | |
CN106683667A (zh) | 一种自动韵律提取方法、系统及其在自然语言处理任务中的应用 | |
CN111914555B (zh) | 基于Transformer结构的自动化关系抽取系统 | |
CN109598002A (zh) | 基于双向循环神经网络的神经机器翻译方法和系统 | |
CN114841151B (zh) | 基于分解-重组策略的医学文本实体关系联合抽取方法 | |
CN108461080A (zh) | 一种基于hlstm模型的声学建模方法和装置 | |
CN113220865A (zh) | 一种文本相似词汇检索方法、系统、介质及电子设备 | |
CN113257230B (zh) | 语音处理方法及装置、计算机可存储介质 | |
CN109326278A (zh) | 一种声学模型构建方法及装置、电子设备 | |
CN114048290A (zh) | 一种文本分类方法及装置 | |
CN113326367A (zh) | 基于端到端文本生成的任务型对话方法和系统 | |
CN109934347A (zh) | 扩展问答知识库的装置 | |
CN116860943A (zh) | 对话风格感知与主题引导的多轮对话方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180608 |
|
WW01 | Invention patent application withdrawn after publication |