CN109325243B

CN109325243B - 字符级基于序列模型的蒙古文切词方法及其切词系统

Info

Publication number: CN109325243B
Application number: CN201811178809.8A
Authority: CN
Inventors: 苏向东; 高光来; 刘娜; 飞龙
Original assignee: Inner Mongolia University
Current assignee: Inner Mongolia University
Priority date: 2018-10-22
Filing date: 2018-10-22
Publication date: 2022-11-22
Anticipated expiration: 2038-10-22
Also published as: CN109325243A

Abstract

本发明公开了一种字符级基于序列模型的蒙古文切词方法及其切词系统，将蒙古文文本转化成以空格间隔的字符序列，并将字符序列中的英文、数字、汉字以及符号替换成相应的标记；将包含蒙古文字符的字符序列输入至基于神经网络模型的蒙古文切词组件，得到切分后的字符序列；判定切分后的输出字符序列是否包含除连接符号外的非蒙古文字符，如果包含将输出字符序列与原词比较，将对应的标记替换成被其替代的非蒙古文字符并去掉序列中的空格；否则去掉序列中的空格，完成反预处理；以词干‑词缀‑词缀的形式输出切分后的蒙古文文本。本发明通过神经网络实现待切分蒙古文词的字符序列到切分后的字符序列的自动转换，降低人工成本。

Description

字符级基于序列模型的蒙古文切词方法及其切词系统

技术领域

本发明属于少数民族语言处理技术领域，涉及一种字符级基于序列模型的蒙古文切词方法及其切词系统，主要应用于蒙古文句法分析、文本分类、篇章处理、信息检索、机器翻译、文字识别、校正、语音识别、语音合成等。

背景技术

蒙古文是蒙古族人民的主要语言，是我国内蒙古自治区的主体文字。它是一种黏着性语言文字，其单词一般可分解为词根和词缀两个部分。词缀分为构词词缀、构形词缀和结尾后缀，词根出现在单词头部，后面连接的词缀依次为构词词缀、构形词缀。蒙古语中较长的多音节词一般都是几个构词词缀和构形词缀依次相加的结果。最多的情况下，一个词根可以连接七十多个词缀，语言学家估计，蒙古文单词的词汇量在千万级以上。由于语言的复杂性和标注语料的稀缺性，蒙古文被认为是最难信息化的文字之一。蒙古文切词是蒙古文句法分析，文本分类，篇章处理，信息检索，机器翻译，文字识别、校正，语音识别、合成等应用的基础，因此在蒙古文自然语言处理中，蒙古文切词占有着重要的研究地位和价值。

蒙古文词切分一直以来都是被研究的课题，学者们提出了一系列蒙古文切词的方法。“蒙古文词根、词干、词尾的自动切分系统，那顺乌日图，内蒙古大学学报:人文社会科学版,1997年”和“基于词典、规则的斯拉夫蒙古文词切分系统的研究，史建国，侯宏旭，飞龙，中文信息学报,2015年”，是采用词典和规则的方法研究蒙古文词切分问题；“基于统计语言模型的蒙古文词切分，侯宏旭，刘群，那顺乌日图，模式识别与人工智能，2009年”和“基于词典、规则与统计的蒙古文词切分系统的研究，明玉，内蒙古大学，2011年”提出了采用统计语言模型的方法研究蒙古文切词问题。综上所述，主要的蒙古文词切分方法主要有以下两种：

(1)基于词典、规则的方法。基于词典、规则的方法是指依据蒙古文词的构词规则，定义词干词典和词缀词典以及切分词干、词缀时普遍适用的切分规则。

(2)基于统计的蒙古文词切分方法。该方法首先使用规则的方法生成词切分候选项，然后在在词根、词缀和词性上建立语言模型，评价候选项。这是一种融合了词典、规则的方法，首先采用规则进行粗切分，与之前的确定的规则不同，本系统添加了不确定切分规则。然后使用语言模型评价得到所有可能的切分。

以上两种方法的根本难题是需要引入大量的统计特征，存在以下衍生问题：

(1)特征难以提取：由于蒙古文的黏着性带来的高度复杂性，使得人工的设计特征和规则很难覆盖所有的语言现象，因此人工特征标注和选择严重制约了蒙古文词切分性能的提升。

(2)高额人工成本：这两种方法需均要大量的人力标注和选择特征，如标注词干、词缀集、词性，定义规则等。尤其是基于统计的切分方法，虽然在性能上较基于词典、规则的方法有较大的提升，但是引入了词性特征，不仅增加了模型训练成本而且给实际应用带来了困难，限制了蒙古文词切分系统的应用。

(3)未登录词问题：稀缺的训练语料和大量的特征容易造成训练不足，也非常可能过拟合，使得模型难以泛化。

发明内容

为了解决上述问题，本发明提供一种字符级基于序列模型的蒙古文切词方法，将蒙古文词切分映射为一个序列转换任务，通过神经网络实现待切分蒙古文词的字符序列到切分后的字符序列的自动转换，降低人工成本，解决了现有技术中存在的问题。

本发明的另一目的是，提供一种字符级基于序列模型的蒙古文切词系统。

本发明所采用的技术方案是，一种字符级基于序列模型的蒙古文切词方法，具体按照以下步骤进行：

步骤一：首先将输入的蒙古文文本转化成以空格间隔的字符序列，然后将字符序列中的英文、数字、汉字以及符号替换成相应的标记“E”、“N”、“C”以及“S”，得到预处理后的与蒙古文文本对应的字符序列；

步骤二：判定字符序列是否包含蒙古文字符，如果包含则转入步骤三，不包含则转入步骤四；

步骤三：将包含蒙古文字符的字符序列输入至基于神经网络模型的蒙古文切词组件，得到切分后的字符序列；

步骤四：判定切分后的输出字符序列是否包含除连接符号“-”外的非蒙古文字符，如果包含，将输出字符序列与原词比较，将对应的标记替换成被其替代的非蒙古文字符并去掉序列中的空格；否则直接去掉序列中的空格，完成反预处理；最终以词干-词缀-词缀的形式输出切分后的蒙古文文本。

进一步的，所述步骤三中，蒙古文切词组件为基于融合注意力机制的LSTM网络的编码-解码器，得到切分后的字符序列的方法具体按照以下步骤进行：

步骤1：解码器的每一步输出均有输入的字符序列以及已经产生的输出字符序列参与，参与的权重概率根据公式(8)-(9)计算；

计算每一个输入状态

与当前输出状态h_t的参与度

其中，

为向量系数，W_a、b_a分别表示参与度对应的权向量和偏置量；

计算参与度的分布a_t(s)即输入序列每个字符与当前输出的权重概率；

其中，

表示s′时刻的输入状态；

步骤2：更新中间语义向量C_t，

步骤3：得到注意力机制层输出的切分后的字符序列

其中，W_c、b_c分别表示更新中间语义向量对应的权向量和偏置量。

本发明所采用的另一技术方案是，一种字符级基于序列模型的蒙古文切词系统，包括：

预处理模块：用于将输入的蒙古文文本转化成以空格间隔的字符序列，然后将字符序列中的英文、数字、汉字以及符号替换成相应的标记，得到与蒙古文文本对应的字符序列；

判定模块：用于判定预处理后字符序列是否包含蒙古文字符，如果不包含，输入至反预处理模块；如果包含，输入至蒙古文切词组件；

蒙古文切词组件：用于以预处理得到的字符序列作为输入，得到切分后的字符序列；

反预处理模块：用于判定切分后的输出字符序列是否包含除连接符号“-”外的非蒙古文字符，如果不包含，去掉输出字符序列中的空格；如果包含，将输出字符序列与原词比较，将对应的标记替换成被其替代的非蒙古文字符，并去掉序列中的空格形成新的输出字符序列；最终以词干-词缀-词缀的形式输出切分后的蒙古文文本。

进一步的，所述蒙古文切词组件为基于融合注意力机制的LSTM网络的编码-解码器。

本发明的有益效果是，本发明实现了蒙古文切词，该方法能够应用于蒙古文词法分析、句法分析、词性标注、命名实体识别、信息检索等自然语言处理任务中，提高相关系统的处理性能，从而提升蒙古文自然语言处理的效果，对蒙古文信息处理技术的发展具有十分重要的意义和推广应用价值。

本发明还具有以下优点：

(1)本发明改变了蒙古文词切分传统的词干、词缀的数据视角，而是以更为普通的蒙古文字符为新的数据视角，克服了由于蒙古文的复杂性引发的数据稀疏的问题。

(2)由于蒙古文词根、词缀内字符高聚合，词根、词缀边界与外部字符低耦合，本发明使用端到端的序列模型自动提取蒙古文构词特征，不仅克服了大量统计特征的标注和选择的人力难题，采用该模型获得的蒙古文切词系统拥有更好的准确性、易用性和用户友好性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的编码器-解码器框架图。

图2是本发明的流程图。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于蒙古文词根、词缀内字符高聚合，词根、词缀边界与外部字符低耦合，本发明将蒙古文词切分映射为一个序列转换任务，以通过神经网络实现待蒙古文词的字符序列到切分后的字符序列的自动转换为基本思想。

基本框架及算法：

(1)编码器-解码器框架

我们把原始的单词当作字符序列来处理，并将目标根和后缀转换成一个新的序列，分割过程就是一个字符级的序列到序列的任务。本发明采用端到端的序列学习模型，即利用神经网络将输入序列映射成一个固定维度的向量表示(编码)，然后使用另外一个神经网络从中抽取出输出序列(解码)。编码-解码框架通过缩减人工预处理和后续处理，尽可能使模型从原始输入到最终输出，给模型更多的可以根据数据进行自动调节的空间，增加模型的整体契合度。如词

切分为

则输入字符序列为

目标输出字符序列为

如图1所示，编码器-解码器框架首先为每个蒙古文字符生成向量表示，然后通过神经网络从左到右生成整个待切分蒙古文词(源语言)字符序列的向量表示。具体的：使用一个LSTM(编码器)处理输入序列，如输入字符序列为

LSTM按照顺序处理每个输入字符，其中h₀、h₁、h₂、h₃、h₄、h₅、h₆为编码器LSTM隐层单元，h₀为随机初始化单元；最终生成向量C。向量C生成过程被称为编码过程，而所使用的神经网络也被称为编码器。之后，采用另一个LSTM(解码器)将向量C和句尾结束符</s>为初始输入，依次生成字符

直到生成句尾结束符</s>为止，其中h′₁、h′₂、h′₃、h′₄、h′₅、h′₆、h′₇为LSTM解码器隐层单元；生成目标字符序列的过程被称为解码过程，而所使用的神经网络被称为解码器。

(2)长短时记忆网络

假设X＝(x₁,x₂,…,x_I)和Y＝(y₁,y₂,…,y_J)分别是输入、输出序列，其中I和J是两个序列的长度，那么序列到序列学习的目标是：

argmax_Y∈Y p(Y|X) (1)

为了实现这一目标，在序列到序列学习任务中，循环神经网络(RNN)特别是其变体长短时记忆网络(LSTM)，在以往的任务中展示了先进的性能。不同于传统前馈神经网络，LSTM神经网络通过输入门(i_t)、遗忘门(f_t)和输出门(o_t)实现历史信息(C_t)的更新和使用，从而可以从数据中学习长距离依赖信息。具体的，LSTM模型中结构被称为细胞(Cells)，t时刻细胞的输入包括当前输入x_t、t-1时刻的输出状态h_t-1和历史记忆信息C_t-1，输出包括t时刻细胞状态h_t以及历史记忆C_t。在门的控制下LSTM从输入到输出经历以下四步。

第一步：遗忘门的计算。遗忘门f_t决定哪些信息可以被舍弃，f_t的计算如公式(2)所示，

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (2)

其中，W_f、b_f分别表示遗忘门对应的权向量和偏置量。

第二步：生成局部输入与更新。局部输入(i_t)和更新

的生成如公式(3)、(4)所示。

其中，W_i、b_i分别表示局部输入对应的权向量和偏置量，W_C、b_C分别表示更新对应的权向量和偏置量。

第三步：历史信息更新，输出C_t。依据上一时刻的历史信息C_t-1、这一时刻的遗忘门f_t、局部信息i_t和更新

组合生成C_t。

第四步：输出细胞状态h_t。依据C_t在输出门o_t的控制下产生此时的输出h_t。

h_t＝o_t*tanh(C_t) (7)

其中，W_o、b_o分别表示输出门对应的权向量和偏置量。公式(2)-(7)中σ是逻辑回归中Sigmoid函数，Sigmoid()激活函数，将一个实数输入映射到[0,1]范围内；“*”为向量元素级相乘运算，tanh()激活函数与Sigmoid函数类似，将一个实数输入映射到[-1,1]范围内。

LSTM神经网络在训练过程中通过向量表示缓解数据稀疏问题，同时在门的控制下保存重要的历史信息。

(3)注意力机制

LSTM神经网络在输入序列比较短的时候C_t能够较好的表达历史信息，但是如果输入序列比较长，LSTM神经网络就难于捕获长距离信息。因为，LSTM中所有历史信息通过一个向量来表示，在遗忘门的作用下随着距离的逐步靠前的信息逐步被忘记直至消失。本发明引入注意力(attention)机制动态计算输入字符的上下文，以此缓解LSTM神经网络依赖于内部一个固定长度向量的问题。

基于注意力机制的神经网络采用的编码器的目标不再是将整个待切分字符序列编码成固定长度的向量表示，而是允许解码器在每一步输出时“参与(attend)”到输入的不同部分。重要的是，我们的模型可以根据输入的序列以及已经产生的输出序列来决定如何参与。增加了注意力机制的LSTM神经网络，每个解码器输出的h_t取决于所有输入状态的一个权重组合，而不只是最后一个状态。注意力LSTM模型与典型的LSTM相比，改变体现在C_t的更新和使用，

计算每一个输入状态

与当前输出状态h_t的参与度

其中，

其中，

表示s′时刻的输入状态；

步骤2：更新中间语义向量C_t，

步骤3：得到注意力机制层输出的切分后的字符序列

在编码器-解码器框架下采用融合注意力机制的LSTM网络构建字符级蒙古文切词学习模型有如下优势：(1)端到端的序列学习，不需要大量的人力标注和特征选择，克服了高额的人工成本问题；(2)采用蒙古文字符作为最基本的处理单元，克服了蒙古文构词复杂性带来的数据稀疏问题和未登录词问题；(3)采用融合注意力机制的LSTM网络，字符序列向量表示能够更好的表征蒙古文词的黏着特性，蒙古文切词系统拥有更优秀的性能；(4)实际应用时，仅需要输入待切分的蒙古文词，此框架下的蒙古文词切分系统更具有良好的实用性和用户友好性。

本发明设计完成后，采用深度学习框架TensorFlow已经封装好的LSTM并融合了注意力机制，最终实现了字符级基于序列模型的蒙古文切词系统，该系统包括：

蒙古文切词组件：采用基于融合注意力机制的LSTM网络的编码-解码器，用于以预处理得到的字符序列作为输入，得到切分后的字符序列；

本发明一种字符级基于序列模型的蒙古文切词方法，如图2所示，具体按照以下步骤进行：

步骤一：首先将输入的蒙古文文本转化成以空格间隔的字符序列，然后将字符序列中的英文、数字、汉字以及符号替换成相应的标记“E”、“N”、“C”以及“S”，得到与蒙古文文本对应的字符序列；如词

经过预处理得到的字符序列为

即在字符之间加入空格字符以形成序列。

步骤二：判定预处理后的字符序列是否包含蒙古文字符，如果包含则转入步骤三，不包含则转入步骤四。

步骤三：将包含蒙古文字符的预处理的字符序列输入到基于神经网络模型的蒙古文切词组件，得到切分后的字符序列。

步骤四：判定切分后的输出字符序列是否包含除连接符号“-”外的非蒙古文字符，如果包含，将输出字符序列与原词比较，将对应的标记替换成被其替代的非蒙古文字符并去掉序列中的空格；否则直接去掉序列中的空格，完成反预处理；以词干-词缀-词缀的形式输出切分后的蒙古文文本。如词

经过蒙文切词组件处理后，输出字符序列为

经过反预处理后，即去掉空格将字符序列转化为蒙文词的词干-词缀的形式

本发明蒙古文词切分系统的性能验证：

(1)实验数据和评估指标

为了验证本发明提出方法的有效性，我们在已有数据中采集了60000词作为样本，进行训练与测试。样本数据共包含60000词，随机抽取10％作为开发集，20％作为测试集，剩下的70％作为训练集。本发明使用准确率(Precision,P)、召回率(Recall，R)、整词的准确率(Word precision，Wp)、F1值来评估实验的有效性。P，R，Wp和F1值的计算公式如下，其中Rsu(正确的切分单元个数)，Su(切出的单元个数)，Au(参考答案中切出的单元个数)，Cw(正确切分的词数)，Aw(待切分的词数)；

(2)实验超参数

本发明选择的超参数详情如表1所示。

表1 超参数设置

模型超参数	超参数值
		LSTM层	2
学习率	0.1
		学习率衰减系数	0.83
隐层单元数	100
		源语言端词典	200
目标语言端词典	200
		Dropout比率	0.7
忍耐度(Patience)	10
		桶(Bucket)	[14,20]，[40,50]

其中，忍耐度(Patience)是实验训练停止的条件。在训练过程中，如果连续10次学习率都没有改变，就停止训练。桶(Bucket)是用来解决在训练过程中空间和时间浪费的问题。在训练过程中需要将所有的词都补齐到最长词的长度，而后进行计算，导致有效计算步数和有效空间利用率都很低。本发明使用贪心算法，找到较为适合的补齐长度分别训练，以提升训练效率。为了保持程序的一致性，我们最终选择了将待切分的蒙古文词分为两桶(Bucket)，一桶[14,20]，输入长度为14，输出长度为20；一桶[40,50]，输入长度为40，输出长度为50。

表1中超参数据除源语言端词典和目标语言端词典外均为通过多轮实验获得，如LSTM层数的确定，我们在固定其他参数的同时，改变LSTM的层数取值1-4，发现层数为2时实验效果最好。源语言端词典和目标语言端词典是依据预处理后所包含的蒙古文词中所包含的蒙古文字符和非蒙古文字符个数确定的。

(3)实验结果

表2 实验结果

评估指标	P(％)	R(％)	F1(％)	Wp(％)
					值	95.52	95.37	95.44	92.36

实验结果(如表2所示)表明，采用编码器-解码器框架学习到的蒙古文词的字符序列向量表示能够表征蒙古文词的黏着性特性，克服了切词任务中人工设计特征的根本难题。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。