CN108563639B - 一种基于循环神经网络的蒙古语语言模型 - Google Patents
一种基于循环神经网络的蒙古语语言模型 Download PDFInfo
- Publication number
- CN108563639B CN108563639B CN201810345627.9A CN201810345627A CN108563639B CN 108563639 B CN108563639 B CN 108563639B CN 201810345627 A CN201810345627 A CN 201810345627A CN 108563639 B CN108563639 B CN 108563639B
- Authority
- CN
- China
- Prior art keywords
- layer
- word
- mongolian
- output
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明在原有的N‑Gram、NNLM、RNNLM语言模型的基础上提供了一种基于DNN的蒙古语声学模型。本发明在输入层引入上下文词向量和含有语义信息类别的词向量,不仅可以学习到更长距离的历史信息,同时也注入了相关的语义类别信息,有效的解决了现有的语言模型主要存在的问题。
Description
技术领域
本发明属于蒙古语语音识别领域,具体涉及一种基于循环神经网络的蒙古语语言模型。
背景技术
语言模型被广泛应用在自然语言处理中,如语音识别、机器翻译、问答系统等应用中。语言模型是通过识别语言中允许出现词序列的先验概率进行建模,为词序列提供语法和句法约束。基于原有的N-Gram语言模型,逐步发展出NNLM、RNNLM等多种模型,缺乏对长距离信息的描述能力和缺乏语义信息的注入,是现有的语言模型主要存在的问题。
发明内容
由于基于循环神经网络的语言模型能更好地避免数据稀疏、长距离依赖欠佳的缺陷,因此本发明提供了一种基于循环神经网络的蒙古语语言模型(MLMRNN),在输入层引入上下文词向量和含有语义信息类别的词向量,不仅可以学习到更长距离的历史信息,同时也注入了相关的语义类别信息,本发明的主要内容包括:1、模型构建
MLMRNN模型结构包括输入层、隐含层和输出层,输入层是x(t),隐含层是s(t),输出层是y(t)。在t时刻,输入向量x(t)包括三部分,分别是w(t),s(t-1)和f(t),其中w(t)代表t时刻输入的词的one-hot词向量表示;s(t-1)为t-1时刻隐含层的输出;f(t)为t时刻Skip-Gram训练出的上下文词向量,维度远小于|V|;隐含层为s(t);输出向量用y(t)表示,包括两部分,一部分是类别层神经元,另一部分是蒙古语词神经元,c(t)为对词汇表进行的词向量的聚类的类别层,输出向量y(t)即表示下一个词w(t+1)的概率。
网络中,U、W、F为输入层与隐含层之间的权值矩阵,C为隐含层与类别层的权值矩阵,在输出层计算的时候先算词类的概率分布,再从所需的词类中计算特定词的概率,计算输出层的结果需要用到类别的输出结果。网络中各层输出值用表示为:
x(t)=w(t)+s(t-1)+f(t) (1)
s(t)=f(U·w(t)+W·s(t-1)+F·f(t)) (2)
c(t)=g(C·s(t)) (3)
y(t)=g(V′·s(t)) (4)
其中V′∈R(c(w(t))),R(c(w(t))表示w(t)所属的聚类的词集合,f表示sigmoid激活函数,g表示softmax激活函数。
2、模型预训练
在MLMRNN的预训练阶段,使用Word2vec+k-means算法得到蒙古语词表中的蒙古语词及其所属的语义类别,并设计了基于one-hot的蒙古语语义词向量,蒙古语语义词向量是根据不同的语义类别下的蒙古语词的个数,作为每个语义类别下的蒙古语词向量的维度,依次按照语义类别进行词向量的编码,编码完成语义类别1下的所有蒙古语词后,继续进行语义类别2下的所有蒙古语词的词向量编码,直至完成所有语义类别下的蒙古语词编码,编码格式同one-hot编码格式相同。
当对MLMRNN进行训练和计算时,对每个输入的蒙古语词,根据类别信息创建基于one-hot的语义词向量,作为输入层进行计算。根据语义分为k类,基于one-hot的蒙古语语义词向量创建算法如下:
3、模型的训练算法
wt表示t时刻的当前输入蒙古语基于one-hot的语义词向量,维度是词典V的大小。ft表示t时刻预训练的蒙古语Skip-Gram词向量,维度为M(M<V)
附图说明
图1为MLMRNN模型结构图
图2为蒙古语词义词向量的表示
图3为MLMRNN网络结构
图4训练集下不同隐含层节点数的语言模型的困惑度
图5测试集下不同隐含层节点数的语言模型的困惑度
图6训练集下不同bptt值的语言模型性能的困惑度
图7测试集下不同bptt值的语言模型性能的困惑度
图8语言模型困惑度降低率
实施方式
1、模型构建
MLMRNN模型结构包括输入层、隐含层和输出层,输入层是x(t),隐含层是s(t),输出层是y(t)。在t时刻,输入向量x(t)包括三部分,分别是w(t),s(t-1)和f(t),其中w(t)代表t时刻输入的词的one-hot词向量表示;s(t-1)为t-1时刻隐含层的输出;f(t)为t时刻Skip-Gram训练出的上下文词向量,维度远小于|V|;隐含层为s(t);输出向量用y(t)表示,包括两部分,一部分是类别层神经元,另一部分是蒙古语词神经元,c(t)为对词汇表进行的词向量的聚类的类别层,输出向量y(t)即表示下一个词w(t+1)的概率。
网络中,U、W、F为输入层与隐含层之间的权值矩阵,C为隐含层与类别层的权值矩阵,在输出层计算的时候先算词类的概率分布,再从所需的词类中计算特定词的概率,计算输出层的结果需要用到类别的输出结果。网络中各层输出值用表示为:
x(t)=w(t)+s(t-1)+f(t) (1)
s(t)=f(U·w(t)+W·s(t-1)+F·f(t)) (2)
c(t)=g(C·s(t)) (3)
y(t)=g(V′·s(t)) (4)
其中V′∈R(c(w(t))),R(c(w(t))表示w(t)所属的聚类的词集合,f表示sigmoid激活函数,g表示softmax激活函数。
2、模型预训练
在MLMRNN的预训练阶段,使用Word2vec+k-means算法得到蒙古语词表中的蒙古语词及其所属的语义类别,并设计了基于one-hot的蒙古语语义词向量,蒙古语语义词向量是根据不同的语义类别下的蒙古语词的个数,作为每个语义类别下的蒙古语词向量的维度,依次按照语义类别进行词向量的编码,编码完成语义类别1下的所有蒙古语词后,继续进行语义类别2下的所有蒙古语词的词向量编码,直至完成所有语义类别下的蒙古语词编码,编码格式同one-hot编码格式相同。
当对MLMRNN进行训练和计算时,对每个输入的蒙古语词,根据类别信息创建基于one-hot的语义词向量,作为输入层进行计算。根据语义分为k类,基于one-hot的蒙古语语义词向量创建算法如下:
3、模型的训练算法
wt表示t时刻的当前输入蒙古语基于one-hot的语义词向量,维度是词典V的大小。ft表示t时刻预训练的蒙古语Skip-Gram词向量,维度为M(M<V)
4、实验及结果
4.1实验设计
为了验证提出的MLMRNN蒙古语语言模型的有效性,设计了以下实验:
(1)通过测试不同隐含层节点数和bptt值下的语言模型困惑度,开展隐含层节点数和bptt值对语言模型影响的实验研究,并取困惑度最低的语言模型的隐含层节点数作为后续实验的参数。
(2)通过(1)得到在语言模型的最优参数后,取相同的参数,进行对比实验,分别是①引入蒙古语的Skip-Gram词向量,即RNNLM+SK;②使用基于one-hot的蒙古语语义词向量,即KC+RNNLM;③入蒙古语的Skip-Gram词向量,并使用基于one-hot的蒙古语语义词向量,即MLMRNN,最后同基于N-Gram的蒙古语语言模型在困惑度上进行比较。
4.2实验设置
实验训练数据来源于前期工作的蒙古语语料,共8000个蒙古语句子,按照3:1的比例将语料分为训练集和测试集,即6000个句子用来进行模型训练,另外的2000句用来对模型困惑度测试,基于循环神经网络的蒙古语语言模型训练时隐含层的节点数共设7组进行比较。在进行对比实验时,采用同样的训练及测试数据集,词汇表为11940个词,实验中采用Google的word2vec工具的Skip-Gram模型在训练集上得到维数为50,窗长为2的对应的蒙古语词向量。
本实验采取的评价指标是语言模型的困惑度,是评测语言模型性能时最常用到的指标。困惑度表示的意义是语言模型在预测某种语言现象时,每个词后的候选词的几何平均数。困惑度越低,语言模型对上下文的约束能力越强,说明其对语言的表述能力越强,因而具有更好的模型性能。实验将蒙古语词根据语义相似度分为10类,故实验中设定类别个数为10,隐含层节点数通过对比实验确定PPL最小的隐含层节点数,其他参数设置为bptt3,bptt-block3,class10。
4.3结果
(1)隐含层节点数对语言模型性能的影响
在训练语言模型时,隐含层节点数对语言模型的影响起着重要的作用,这里通过调节隐含层节点数,测试隐含层节点数对不同语言模型的困惑度的影响,分别设置6组不同的隐含层节点数50、100、150、200、250、300。比较不同语言模型在训练集和测试集上的困惑度,训练集下的隐含层节点数对语言模型困惑度的影响见说明书附图4,测试集下的隐含层节点数对困惑度影响的结果见说明书附图5。
通过实验结果可知,随着隐含层节点数的增加,各个语言模型的困惑度均有所降低,但是隐含层节点数增加到一定程度后,语言模型的困惑度反而会上升,因此需要进行调整,选取相对较好的性能参数。其中在隐含层节点数为200范围的时候语言模型的困惑度较低,性能较好。
(2)bptt值对语言模型性能的影响
确定了最优的隐含层节点数后,设置5组不同的bptt值,比较不同bptt值对语言模型在训练集和测试集上的困惑度影响,确定最优的bptt值,实验结果见说明书附图6和说明书附图7。
通过实验结果可知,随着bptt值的增加,各个语言模型的困惑度均有所降低,但是bptt值增加到一定程度后,语言模型的困惑度反而会上升,因此需要进行调整,选取相对较好的bptt值。其中在bptt值为3范围的时候,语言模型的困惑度较低,性能较好。
(3)不同语言模型困惑度的降低率对比
通过实验结果可知,在隐含层节点数为200,bptt值为3时,语言模型的困惑度较低,性能较好。故将以上参数应用在其他模型中进行实验结果对比,其中RNNLM200表示隐含层的神经元个数为200,表示为RNNLM200;RNNLM200+SK表示使用预训练的蒙古语的50维的Skip-Gram词向量的蒙古语循环神经网络语言模型;KC+RNNLM200表示使用基于one-hot的蒙古语语义词向量的蒙古语循环神经网络语言模型;MLMRNN表示使用基于one-hot的蒙古语语义词向量,隐含层神经元个数为200,使用预训练的蒙古语的50维的Skip-Gram词向量的蒙古语循环神经网络语言模型。
表1不同语言模型的困惑度对比
表1列出了5种不同语言模型的实验结果,通过实验对比发现,MLMRNN在训练集和测试集上的困惑度与其他语言模型相比,均有所降低,说明通过多维的Skip-Gram词向量的引入以及使用基于one-hot的蒙古语语义词向量的方法,对蒙古语的循环神经网络语言模型的性能有了进一步的提高,进一步说明本文方法的有效性。
语言模型困惑度的降低率是指现在的语言模型的困惑度与原来的语言模型的困惑度相差的值和原来的语言模型的困惑度的百分比值,降低率的计算公式如公式10所示。
说明书附图8进一步通过不同语言模型同3-Gram语言模型分别在训练集和测试集上进行困惑度降低率的比较,降低率的计算公式如公式5所示,由说明书附图8可知MLMRNN的降低率较大,性能较好。
Claims (1)
1.一种基于循环神经网络的蒙古语语言模型,其特征在于:
模型结构包括输入层、隐含层和输出层,输入层是x(t),隐含层是s(t),输出层是y(t),在t时刻,输入向量x(t)包括三部分,分别是w(t),s(t-1)和f(t),其中w(t)代表t时刻输入的词的one-hot词向量表示;s(t-1)为t-1时刻隐含层的输出;f(t)为t时刻Skip-Gram训练出的上下文词向量,维度远小于|V|;隐含层为s(t);输出向量用y(t)表示,包括两部分,一部分是类别层神经元,另一部分是蒙古语词神经元,c(t)为对词汇表进行的词向量的聚类的类别层,输出向量y(t)即表示下一个词w(t+1)的概率,网络中,U、W、F为输入层与隐含层之间的权值矩阵,C为隐含层与类别层的权值矩阵,在输出层计算的时候先算词类的概率分布,再从所需的词类中计算特定词的概率,计算输出层的结果需要用到类别的输出结果,网络中各层输出值用表示为:
x(t)=w(t)+s(t-1)+f(t) (1)
s(t)=f(U·w(t)+W·s(t-1)+F·f(t)) (2)
c(t)=g(C·s(t)) (3)
y(t)=g(V′·s(t)) (4)
其中V′∈R(c(w(t))),R(c(w(t))表示w(t)所属的聚类的词集合,f表示sigmoid激活函数,g表示softmax激活函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810345627.9A CN108563639B (zh) | 2018-04-17 | 2018-04-17 | 一种基于循环神经网络的蒙古语语言模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810345627.9A CN108563639B (zh) | 2018-04-17 | 2018-04-17 | 一种基于循环神经网络的蒙古语语言模型 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108563639A CN108563639A (zh) | 2018-09-21 |
CN108563639B true CN108563639B (zh) | 2021-09-17 |
Family
ID=63535296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810345627.9A Active CN108563639B (zh) | 2018-04-17 | 2018-04-17 | 一种基于循环神经网络的蒙古语语言模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108563639B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442721B (zh) * | 2018-11-28 | 2023-01-06 | 腾讯科技(深圳)有限公司 | 神经网络语言模型、训练方法、装置及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101572083A (zh) * | 2008-04-30 | 2009-11-04 | 富士通株式会社 | 韵律词组词方法和装置 |
CN102968989A (zh) * | 2012-12-10 | 2013-03-13 | 中国科学院自动化研究所 | 一种用于语音识别的Ngram模型改进方法 |
CN105117440A (zh) * | 2015-08-11 | 2015-12-02 | 北京奇虎科技有限公司 | 确定待推荐应用app的方法及装置 |
CN105957518A (zh) * | 2016-06-16 | 2016-09-21 | 内蒙古大学 | 一种蒙古语大词汇量连续语音识别的方法 |
CN106126507A (zh) * | 2016-06-22 | 2016-11-16 | 哈尔滨工业大学深圳研究生院 | 一种基于字符编码的深度神经翻译方法及系统 |
CN106486115A (zh) * | 2015-08-28 | 2017-03-08 | 株式会社东芝 | 改进神经网络语言模型的方法和装置及语音识别方法和装置 |
CN106802888A (zh) * | 2017-01-12 | 2017-06-06 | 北京航空航天大学 | 词向量训练方法和装置 |
CN107506345A (zh) * | 2016-06-14 | 2017-12-22 | 科大讯飞股份有限公司 | 语言模型的构建方法和装置 |
CN107808660A (zh) * | 2016-09-05 | 2018-03-16 | 株式会社东芝 | 训练神经网络语言模型的方法和装置及语音识别方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9484023B2 (en) * | 2013-02-22 | 2016-11-01 | International Business Machines Corporation | Conversion of non-back-off language models for efficient speech decoding |
-
2018
- 2018-04-17 CN CN201810345627.9A patent/CN108563639B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101572083A (zh) * | 2008-04-30 | 2009-11-04 | 富士通株式会社 | 韵律词组词方法和装置 |
CN102968989A (zh) * | 2012-12-10 | 2013-03-13 | 中国科学院自动化研究所 | 一种用于语音识别的Ngram模型改进方法 |
CN105117440A (zh) * | 2015-08-11 | 2015-12-02 | 北京奇虎科技有限公司 | 确定待推荐应用app的方法及装置 |
CN106486115A (zh) * | 2015-08-28 | 2017-03-08 | 株式会社东芝 | 改进神经网络语言模型的方法和装置及语音识别方法和装置 |
CN107506345A (zh) * | 2016-06-14 | 2017-12-22 | 科大讯飞股份有限公司 | 语言模型的构建方法和装置 |
CN105957518A (zh) * | 2016-06-16 | 2016-09-21 | 内蒙古大学 | 一种蒙古语大词汇量连续语音识别的方法 |
CN106126507A (zh) * | 2016-06-22 | 2016-11-16 | 哈尔滨工业大学深圳研究生院 | 一种基于字符编码的深度神经翻译方法及系统 |
CN107808660A (zh) * | 2016-09-05 | 2018-03-16 | 株式会社东芝 | 训练神经网络语言模型的方法和装置及语音识别方法和装置 |
CN106802888A (zh) * | 2017-01-12 | 2017-06-06 | 北京航空航天大学 | 词向量训练方法和装置 |
Non-Patent Citations (4)
Title |
---|
"A Neural Probabilistic Language Model";Y. Bengio 等;《Journal of Machine Learning Research》;20030301;258-259 * |
"N-gram analysis of a Mongolian text";Khuder Altangerel 等;《2008 Third International Forum on Strategic Technologies》;20080819;299-305 * |
"基于循环神经网络的蒙古文语言模型研究";闫晓斐;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180115;I138-1957 * |
"基于词向量特征的循环神经网络语言模型";张剑 等;《模式识别与人工智能》;20150526;第28卷(第4期);1137–1155 * |
Also Published As
Publication number | Publication date |
---|---|
CN108563639A (zh) | 2018-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348016B (zh) | 基于句子关联注意力机制的文本摘要生成方法 | |
CN111160467B (zh) | 一种基于条件随机场和内部语义注意力的图像描述方法 | |
CN109992783B (zh) | 中文词向量建模方法 | |
CN108549703B (zh) | 一种基于循环神经网络的蒙古语语言模型的训练方法 | |
CN113239700A (zh) | 改进bert的文本语义匹配设备、系统、方法及存储介质 | |
CN111414481B (zh) | 基于拼音和bert嵌入的中文语义匹配方法 | |
D’Ulizia et al. | A survey of grammatical inference methods for natural language learning | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN107357775A (zh) | 基于人工智能的循环神经网络的文本纠错方法及装置 | |
CN112232087B (zh) | 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法 | |
CN110210032A (zh) | 文本处理方法及装置 | |
JP2019159654A (ja) | 時系列情報の学習システム、方法およびニューラルネットワークモデル | |
CN115269847A (zh) | 基于知识增强句法异构图的方面级情感分类方法 | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN112818118A (zh) | 基于反向翻译的中文幽默分类模型 | |
CN111353040A (zh) | 基于gru的属性级别情感分析方法 | |
CN111274359B (zh) | 基于改进vhred与强化学习的查询推荐方法及系统 | |
CN113609849A (zh) | 一种融合先验知识模型的蒙古语多模态细粒度情感分析方法 | |
Shi | A study on neural network language modeling | |
US11822887B2 (en) | Robust name matching with regularized embeddings | |
CN114239589A (zh) | 语义理解模型的鲁棒性评估方法、装置及计算机设备 | |
CN113806543A (zh) | 一种基于残差跳跃连接的门控循环单元的文本分类方法 | |
CN111581365B (zh) | 一种谓词抽取方法 | |
CN108563639B (zh) | 一种基于循环神经网络的蒙古语语言模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |