CN110085215B - 一种基于生成对抗网络的语言模型数据增强方法 - Google Patents
一种基于生成对抗网络的语言模型数据增强方法 Download PDFInfo
- Publication number
- CN110085215B CN110085215B CN201810064982.9A CN201810064982A CN110085215B CN 110085215 B CN110085215 B CN 110085215B CN 201810064982 A CN201810064982 A CN 201810064982A CN 110085215 B CN110085215 B CN 110085215B
- Authority
- CN
- China
- Prior art keywords
- model
- generated
- training
- data
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 65
- 238000005070 sampling Methods 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 21
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 239000004576 sand Substances 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013434 data augmentation Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 101100389815 Caenorhabditis elegans eva-1 gene Proteins 0.000 description 1
- 241001672694 Citrus reticulata Species 0.000 description 1
- 241001110084 Hilsa Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 101150049349 setA gene Proteins 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
Description
技术领域
本发明涉及语音识别和自然语言处理领域,特别涉及一种基于生成对抗网络的语言模型数据增强方法。
背景技术
语言模型(Language model,LM)是描述词序列概率分布的数学模型,其广泛应用于语音识别(Automatic speech recognition,ASR)、机器翻译、分词、词性标注等自然语言处理任务中。
N元文法语言模型(N-gram LM)是一种常用的统计语言模型。由于实际自然语言中词汇组合的多样性,利用有限数据训练得到的N元文法语言模型不可避免的存在数据稀疏(Data sparsity)问题,即由于训练数据不充足,N元文法语言模型无法鲁棒地估计某些不常见文法的概率值。数据增强(Data augmentation)是一种有效缓解数据稀疏问题的方法。就语言模型建模任务而言,常见的数据增强方法包括基于外部数据的方法和基于递归神经网络(Recurrent neural network,RNN)随机采样的方法。前者按照一定的规则从其他来源(如互联网)的数据中挑选部分数据扩充训练集,后者则是利用训练好的RNN模型随机生成词序列以丰富训练集中包含的语言现象。
在难以获取领域相关的外部数据的情况下,基于RNN模型随机采样的数据增强方法可以有效提升N元文法语言模型参数估计的鲁棒性。该方法将RNN模型作为一个生成模型,随机生成词序列。现有的序列生成模型均采用最大似然估计(Maximum likelihoodestimation,MLE)算法估计模型参数。然而,MLE方法会使得生成模型在生成采样序列的过程中会遇到暴露偏差(Exposure bias)问题。即在生成下一个词汇时,如果所依赖的历史序列(即已生成的词序列)未在训练数据中出现,偏差则会在序列生成过程中逐渐累积,最终导致生成的词序列缺乏长时语义信息,进而限制了数据增强技术对语言模型及相关系统所带来的性能提升。
发明内容
本发明的目的在于,克服现有语言模型数据增强方法的存在的暴露偏差问题、提高生成文本数据的质量,进而提高语言模型的性能,从而提供一种基于生成对抗网络的语言模型数据增强方法。
为了解决上述技术问题,本发明实施例提供一种基于生成对抗网络的语言模型数据增强方法,包括:
步骤1,建立生成模型Gθ和判别模型Dφ;
步骤2,获取包含语言序列数据的训练集S,在所述训练集上利用MLE算法对生成模型Gθ进行预训练;
步骤3,利用生成模型Gθ生成m个采样序列作为负样本,从所述训练集中随机抽取m个序列作为正样本,组合所述负样本与正样本作为训练数据对判别模型Dφ进行预训练;
步骤4,利用生成模型Gθ生成n个采样序列,并用判别模型Dφ对所述n个采样序列进行判别;
步骤5,利用当前的生成模型Gθ生成n个负样本序列,从训练集S中随机抽取n 个正样本序列,组合所述n个负样本与正样本作为判别模型Dφ的训练数据;
步骤6,重复执行步骤4和5,直到生成模型Gθ收敛;
作为上述方法的一种改进,所述生成模型Gθ和判别模型Dφ均采用神经网络结构,Gθ与Dφ的参数采用Adam随机梯度下降算法更新。
作为上述方法的又一种改进,利用MLE算法对生成模型Gθ进行预训练包括:最大化给定训练序列的对数概率;
其中,x1:T表示词序列x1,x2,...,xT,xt表示序列中第t个词。
作为上述方法的再一种改进,所述步骤3包括:
利用Adam算法最大化以下目标函数:
作为上述方法的还一种改进,所述步骤4包括:
利用Adam算法最大化以下目标函数:
式中,y1:T表示生成模型Gθ生成的负样本,定示对n个采样序列取期望,Gθ(y1:T)表示生成模型Gθ生成序列y1:T的概率。
作为上述方法的进一步改进,所述步骤5包括:利用Adam算法最大化以下目标函数:
作为上述方法的进一步改进,通过插值算法得到增强的语言模型
其中λ表示插值系数。
本发明的优点在于,本发明的一种基于生成对抗网络的语言模型数据增强方法,针对现有技术中语言模型数据增强方法的存在的暴露偏差问题,本发明可以在一定程度上缓解暴露偏差问题,提高生成文本数据的质量,进而提高语言模型的性能,还可以有效提升低资源条件下N元文法语言模型的性能,以及相应语音识别系统的性能。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的基于生成对抗网络的语言模型数据增强方法流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种基于生成对抗网络的语言模型数据增强方法,包括:
1)建立生成模型Gθ、判别模型Dφ,所有模型均采用神经网络结构,Gθ与Dφ的参数采用Adam随机梯度下降算法更新。
其中,x1:T表示词序列x1,x2,...,xT,xt表示序列中第t个词。
式中,表示对m个正/负样本取期望,log()表示取对数,Dφ(y1:T)表示输入序列y1:T的得分(一个取值范围在0~1之间的标量值,表示输入序列是真实数据的概率)。
4)用生成模型Gθ生成n个采样序列{y1:T},并用判别模型Dφ对生成的序列进行评价,即计算每个生成序列的得分Dφ(y1:T)。然后利用Adam算法最大化以下目标函数:
式中,表示对n个采样序列取期望,Gθ(y1:T)表示生成模型Gθ生成序列y1:T的概率。
组合正负样本作为Dφ的训练数据。然后利用Adam算法最大化以下目标函数:
6)重复步骤4)、5)直到Gθ收敛。
其中λ表示插值系数。
上述步骤1)-7)是一个迭代过程,一个完整的迭代包括步骤4)、5),每次迭代中生成模型Gθ是不同的,每次迭代后会更新模型参数,因此生成的序列y1:T的质量也是不同的。
上步骤3)可以看做是第0次迭代,即预训练。
在每次迭代中判别模型Dφ的更新公式即目标函数是相同的,只是训练数据不一样,因为生成模型Gθ发生变化,生成的训练数据也不一样。
发明步骤3)中公式一中的y1:T来自预训练的生成模型Gθ。而发明步骤5)中的y1:T来自第t次(t=1,2,3...)更新后的生成模型Gθ。
训练集S包含的都是正样本数据,生成模型Gθ生成的数据都是负样本数据,通过单独交替迭代训练生成模型Gθ和判别模型Dφ,迭代一定次数后,直到生成模型Gθ收敛。
在生成模型Gθ的训练过程中,一般采用公式二的相反数(即:-1*公式二)作为损失函数(loss function),并且在训练过程中最小化损失函数。
由于Gθ生成的序列数据具有随机性,因此损失函数并不是单调下降的,而是波动下降的。因此生成模型Gθ收敛应该满足以下条件:
1、在迭代训练中生成模型损失函数呈下降趋势;
2、当连续H次(比如本实例中可取H=50)迭代中损失函数的最大值和最小值相差小于事先设定的阈值d(比如本实例可取d=10)。
参照图1所示,为本发明实施例提供的基于生成对抗网络的语言模型数据增强方法流程图,包括S101-S109:
S101、获取包含序列数据的训练集S;训练集S包含的都是正样本数据。
S102、建立生成模型G、判别模型D;
S103、获取利用MLE算法对G在S上进行预训练;
S104、利用G生成m个采样序列作为负样本,从S中随机抽取m个序列作为正样本。组合正负样本作为训练数据以公式一为目标函数对D进行预训练;
S105、利用G生成n个采样序列,计算损失函数即公式二,使用Adam算法更新生成模型G的参数,此时模型D的参数固定;
S106、用当前的G生成n个负样本序列,从S中随机抽取n个正样本序列,组合正负样本作为D的训练数据,计算损失函数即公式一,使用Adam算法更新判别模型D的参数,此时模型G参数固定;
S107、判断G是否收敛;是则执行S108,否则执行S105;
本发明的一种基于生成对抗网络的语言模型数据增强方法,针对现有技术中语言模型数据增强方法的存在的暴露偏差问题,本发明可以在一定程度上缓解暴露偏差问题,提高生成文本数据的质量,进而提高语言模型的性能,还可以有效提升低资源条件下N元文法语言模型的性能,以及相应语音识别系统的性能。
下面通过希尔贝壳中文普通话语音数据库,来具体说明本发明的增强方法。
本实例在AISHELL(希尔贝壳中文普通话语音数据库)语音识别任务上说明本发明的实施方法及与MLE方法的性能对比。本实例采用AISHELL语音库对应的转录文本作为生成模型Gθ的训练数据集共包含12万句文本。
a)利用kaldi语音识别工具搭建识别系统,声学模型为高斯混合模型 GMM(Gaussian Mixture Model)-隐马尔可夫模型(Hidden Markov Model,HMM),简称HMM-GMM模型。基线语言模型为在数据集上估计得到的Kneser-Ney平滑的3 阶N元文法语言模型
b)建立生成模型Gθ和判别模型Dφ,本实例中Gθ为LSTM-RNN模型,包含两层 LSTM层,输入层与输出层节点数等于词典大小,词典共包含55590个中文词。判别模型Dφ为卷积神经网络(Convolutional neural network,CNN)模型。Dφ分别采用窗长为1、2、3、4、5、10的卷积核进行卷积操作,每个窗长分别使用50个不同的卷积核。输出层包含1个节点,表示输入序列与真实数据相似程度。
d)利用果样生成100万句文本序列,记为数据集台在上估计Kneser-Ney平滑三阶N元文法语言模型MMLE。并在上估计Kneser-Ney平滑三阶N 元文法语言模型M。然后计算基于MLE算法增强的语言模型
其中λ=0.5,表示插值系数。此增强语言模型作为本发明实例的对比方法。
e)利用预训练得到的Gθ(即)采样12万句词序列{y1:T}(T为句子长度,本实例取T=20)作为负样本,将数据集作为正样本,按照发明步骤3中的公式对Dφ进行训练,采用Adam算法更新判别模型参数,学习率为0.0001。
f)用Gθ生成35个采样序列{y1:T},然后按照发明步骤4中的目标函数对Gθ进行训练。并采用Adam算法更新生成模型参数,学习率为0.01。
g)用Gθ生成35个负样本{y1:T}序列,并从中随机抽取35个正样本{x1:T}序列。组合正负样本作为Dφ的训练数据。然后按照发明步骤5中的目标函数对Dφ进行训练。并采用Adam算法更新判别模型参数,学习率为0.0001。
h)重复步骤f)、g)直到Gθ收敛。
其中μ=0.5,表示插值系数。
将增强的语言模型和分别应用于AISHELL语音识别任务中(即分别片和替换识别系统中的基线语言模型M)的具体实验结果如表1所示。其中Dev和Eva1分别表示AISHLL数据集的开发集和测试集。结果表明本发明的方法相比于传统的基于MLE的数据增强方法可以进一步提升语言模型的性能、降低识别字错误率。
表1:基于生成对抗网络的数据增强技术对识别字错误率的影响
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种基于生成对抗网络的语言模型数据增强方法,其特征在于,包括:
步骤1,建立生成模型Gθ和判别模型Dφ;
步骤2,获取包含语言序列数据的训练集S,在所述训练集上利用MLE算法对生成模型Gθ进行预训练;
步骤3,利用生成模型Gθ生成m个采样序列作为负样本,从所述训练集中随机抽取m个序列作为正样本,组合所述负样本与正样本作为训练数据对判别模型Dφ进行预训练;
步骤4,利用生成模型Gθ生成n个采样序列,并用判别模型Dφ对所述n个采样序列进行判别;
步骤5,利用当前的生成模型Gθ生成n个负样本序列,从训练集S中随机抽取n个正样本序列,组合所述n个负样本与正样本作为判别模型Dφ的训练数据;
步骤6,重复执行步骤4和5,直到生成模型Gθ收敛;
2.如权利要求1所述的方法,其特征在于,所述生成模型Gθ和判别模型Dφ均采用神经网络结构,Gθ与Dφ的参数采用Adam随机梯度下降算法更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810064982.9A CN110085215B (zh) | 2018-01-23 | 2018-01-23 | 一种基于生成对抗网络的语言模型数据增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810064982.9A CN110085215B (zh) | 2018-01-23 | 2018-01-23 | 一种基于生成对抗网络的语言模型数据增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110085215A CN110085215A (zh) | 2019-08-02 |
CN110085215B true CN110085215B (zh) | 2021-06-08 |
Family
ID=67411927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810064982.9A Active CN110085215B (zh) | 2018-01-23 | 2018-01-23 | 一种基于生成对抗网络的语言模型数据增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110085215B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110808057A (zh) * | 2019-10-31 | 2020-02-18 | 南昌航空大学 | 一种基于约束朴素生成对抗网络的语音增强方法 |
CN113066483B (zh) * | 2019-12-31 | 2024-01-30 | 广州航海学院 | 一种基于稀疏连续约束的生成对抗网络语音增强方法 |
CN111798874A (zh) * | 2020-06-24 | 2020-10-20 | 西北师范大学 | 一种语音情绪识别方法及系统 |
CN111914552A (zh) * | 2020-07-31 | 2020-11-10 | 平安科技(深圳)有限公司 | 一种数据增强模型的训练方法及装置 |
CN112133326A (zh) * | 2020-09-08 | 2020-12-25 | 东南大学 | 一种基于对抗神经网络的枪声数据增广与检测方法 |
CN112420050B (zh) * | 2020-11-18 | 2021-06-18 | 北京帝派智能科技有限公司 | 一种语音识别方法、装置和电子设备 |
CN112599121B (zh) * | 2020-12-03 | 2023-06-20 | 天津大学 | 基于辅助数据正则化的说话人自适应方法 |
CN112800111B (zh) * | 2021-01-26 | 2022-08-02 | 重庆邮电大学 | 一种基于训练数据挖掘的位置预测方法 |
CN113642341A (zh) * | 2021-06-30 | 2021-11-12 | 深译信息科技(横琴)有限公司 | 一种解决医学文本数据稀缺性的深度对抗生成方法 |
CN114844767A (zh) * | 2022-04-27 | 2022-08-02 | 中国电子科技集团公司第五十四研究所 | 一种基于对抗生成网络的告警数据生成方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040186714A1 (en) * | 2003-03-18 | 2004-09-23 | Aurilab, Llc | Speech recognition improvement through post-processsing |
US20060277033A1 (en) * | 2005-06-01 | 2006-12-07 | Microsoft Corporation | Discriminative training for language modeling |
CN101154221A (zh) * | 2006-09-28 | 2008-04-02 | 株式会社东芝 | 执行输入语音翻译处理的装置 |
JP2008225907A (ja) * | 2007-03-13 | 2008-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラムならびにその記録媒体 |
US20120278060A1 (en) * | 2011-04-27 | 2012-11-01 | Xerox Corporation | Method and system for confidence-weighted learning of factored discriminative language models |
CN105654954A (zh) * | 2016-04-06 | 2016-06-08 | 普强信息技术(北京)有限公司 | 一种云端语音识别系统及方法 |
US9471566B1 (en) * | 2005-04-14 | 2016-10-18 | Oracle America, Inc. | Method and apparatus for converting phonetic language input to written language output |
CN107293289A (zh) * | 2017-06-13 | 2017-10-24 | 南京医科大学 | 一种基于深度卷积生成对抗网络的语音生成方法 |
CN107330444A (zh) * | 2017-05-27 | 2017-11-07 | 苏州科技大学 | 一种基于生成对抗网络的图像自动文本标注方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090271002A1 (en) * | 2008-04-29 | 2009-10-29 | David Asofsky | System and Method for Remotely Controlling Electronic Devices |
KR101853818B1 (ko) * | 2011-07-29 | 2018-06-15 | 삼성전자주식회사 | 오디오 신호 처리 방법 및 그에 따른 오디오 신호 처리 장치 |
KR101333402B1 (ko) * | 2012-04-19 | 2013-11-28 | 금오공과대학교 산학협력단 | 오디오 녹음 기기 판별 시스템 및 그 판별 방법 |
-
2018
- 2018-01-23 CN CN201810064982.9A patent/CN110085215B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040186714A1 (en) * | 2003-03-18 | 2004-09-23 | Aurilab, Llc | Speech recognition improvement through post-processsing |
US9471566B1 (en) * | 2005-04-14 | 2016-10-18 | Oracle America, Inc. | Method and apparatus for converting phonetic language input to written language output |
US20060277033A1 (en) * | 2005-06-01 | 2006-12-07 | Microsoft Corporation | Discriminative training for language modeling |
CN101154221A (zh) * | 2006-09-28 | 2008-04-02 | 株式会社东芝 | 执行输入语音翻译处理的装置 |
JP2008225907A (ja) * | 2007-03-13 | 2008-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラムならびにその記録媒体 |
US20120278060A1 (en) * | 2011-04-27 | 2012-11-01 | Xerox Corporation | Method and system for confidence-weighted learning of factored discriminative language models |
CN105654954A (zh) * | 2016-04-06 | 2016-06-08 | 普强信息技术(北京)有限公司 | 一种云端语音识别系统及方法 |
CN107330444A (zh) * | 2017-05-27 | 2017-11-07 | 苏州科技大学 | 一种基于生成对抗网络的图像自动文本标注方法 |
CN107293289A (zh) * | 2017-06-13 | 2017-10-24 | 南京医科大学 | 一种基于深度卷积生成对抗网络的语音生成方法 |
Non-Patent Citations (5)
Title |
---|
Enhancing information retrieval through concept‐based language modeling and semantic smoothing;Lynda Said Lhadj et al.;《JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY》;20151231;第1-19页 * |
Improving Language Modeling with an Adversarial Critic for Automatic Speech Recognition;Yike Zhang et al.;《Interspeech》;20180906;第3348-3352页 * |
Language Modeling with Power Low Rank Ensembles;Parikh, Ankur P. , et al;《Computer Science》;20141003;全文 * |
Semi-Supervised Learning with Context-Conditional Generative Adversarial Networks;Emily Denton et al.;《ICLA》;20171231;第1-10页 * |
基于对抗训练策略的语言模型数据增强技术;张一珂 等;《自动化学报》;20180531;第44卷(第5期);第891-900页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110085215A (zh) | 2019-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110085215B (zh) | 一种基于生成对抗网络的语言模型数据增强方法 | |
US10460721B2 (en) | Dialogue act estimation method, dialogue act estimation apparatus, and storage medium | |
JP6444530B2 (ja) | 音声言語理解システム | |
US9779727B2 (en) | Mixed speech recognition | |
Lee et al. | On adaptive decision rules and decision parameter adaptation for automatic speech recognition | |
Liu et al. | Two efficient lattice rescoring methods using recurrent neural network language models | |
Tam et al. | Dynamic language model adaptation using variational Bayes inference. | |
JPS62231996A (ja) | 音声認識方法 | |
CN104156349B (zh) | 基于统计词典模型的未登录词发现和分词系统及方法 | |
CN112992125B (zh) | 一种语音识别方法、装置、电子设备、可读存储介质 | |
Kadyan et al. | A comparative study of deep neural network based Punjabi-ASR system | |
CN110853628A (zh) | 一种模型训练方法、装置、电子设备及存储介质 | |
CN110390948B (zh) | 一种快速语音识别的方法及系统 | |
Heymann et al. | Unsupervised word segmentation from noisy input | |
CN114550703A (zh) | 语音识别系统的训练方法和装置、语音识别方法和装置 | |
JP5885210B2 (ja) | 基本周波数モデルパラメータ推定装置、方法、及びプログラム | |
JP4612435B2 (ja) | 音響モデル学習装置および音声認識装置 | |
JPH09134192A (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
JP5344396B2 (ja) | 言語学習装置、言語学習プログラム及び言語学習方法 | |
Fukada et al. | Automatic generation of multiple pronunciations based on neural networks and language statistics | |
Wang et al. | Speech utterance classification model training without manual transcriptions | |
BO | Noise-Robust Speech Recognition Using Deep Neural Network | |
JP6057170B2 (ja) | 音声言語評価装置、パラメータ推定装置、方法、及びプログラム | |
CN109241539B (zh) | 机器学习人工智能翻译数据库的更新方法 | |
Agenbag | Automatic sub-word unit discovery and pronunciation lexicon induction for automatic speech recognition with application to under-resourced languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |