CN109325243B - 字符级基于序列模型的蒙古文切词方法及其切词系统 - Google Patents
字符级基于序列模型的蒙古文切词方法及其切词系统 Download PDFInfo
- Publication number
- CN109325243B CN109325243B CN201811178809.8A CN201811178809A CN109325243B CN 109325243 B CN109325243 B CN 109325243B CN 201811178809 A CN201811178809 A CN 201811178809A CN 109325243 B CN109325243 B CN 109325243B
- Authority
- CN
- China
- Prior art keywords
- mongolian
- sequence
- character
- character sequence
- segmented
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 230000002441 reversible effect Effects 0.000 claims abstract description 7
- 238000003062 neural network model Methods 0.000 claims abstract description 4
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 abstract description 17
- 238000006243 chemical reaction Methods 0.000 abstract description 5
- 238000012549 training Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000001070 adhesive effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 239000000853 adhesive Substances 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种字符级基于序列模型的蒙古文切词方法及其切词系统,将蒙古文文本转化成以空格间隔的字符序列,并将字符序列中的英文、数字、汉字以及符号替换成相应的标记;将包含蒙古文字符的字符序列输入至基于神经网络模型的蒙古文切词组件,得到切分后的字符序列;判定切分后的输出字符序列是否包含除连接符号外的非蒙古文字符,如果包含将输出字符序列与原词比较,将对应的标记替换成被其替代的非蒙古文字符并去掉序列中的空格;否则去掉序列中的空格,完成反预处理;以词干‑词缀‑词缀的形式输出切分后的蒙古文文本。本发明通过神经网络实现待切分蒙古文词的字符序列到切分后的字符序列的自动转换,降低人工成本。
Description
技术领域
本发明属于少数民族语言处理技术领域,涉及一种字符级基于序列模型的蒙古文切词方法及其切词系统,主要应用于蒙古文句法分析、文本分类、篇章处理、信息检索、机器翻译、文字识别、校正、语音识别、语音合成等。
背景技术
蒙古文是蒙古族人民的主要语言,是我国内蒙古自治区的主体文字。它是一种黏着性语言文字,其单词一般可分解为词根和词缀两个部分。词缀分为构词词缀、构形词缀和结尾后缀,词根出现在单词头部,后面连接的词缀依次为构词词缀、构形词缀。蒙古语中较长的多音节词一般都是几个构词词缀和构形词缀依次相加的结果。最多的情况下,一个词根可以连接七十多个词缀,语言学家估计,蒙古文单词的词汇量在千万级以上。由于语言的复杂性和标注语料的稀缺性,蒙古文被认为是最难信息化的文字之一。蒙古文切词是蒙古文句法分析,文本分类,篇章处理,信息检索,机器翻译,文字识别、校正,语音识别、合成等应用的基础,因此在蒙古文自然语言处理中,蒙古文切词占有着重要的研究地位和价值。
蒙古文词切分一直以来都是被研究的课题,学者们提出了一系列蒙古文切词的方法。“蒙古文词根、词干、词尾的自动切分系统,那顺乌日图,内蒙古大学学报:人文社会科学版,1997年”和“基于词典、规则的斯拉夫蒙古文词切分系统的研究,史建国,侯宏旭,飞龙,中文信息学报,2015年”,是采用词典和规则的方法研究蒙古文词切分问题;“基于统计语言模型的蒙古文词切分,侯宏旭,刘群,那顺乌日图,模式识别与人工智能,2009年”和“基于词典、规则与统计的蒙古文词切分系统的研究,明玉,内蒙古大学,2011年”提出了采用统计语言模型的方法研究蒙古文切词问题。综上所述,主要的蒙古文词切分方法主要有以下两种:
(1)基于词典、规则的方法。基于词典、规则的方法是指依据蒙古文词的构词规则,定义词干词典和词缀词典以及切分词干、词缀时普遍适用的切分规则。
(2)基于统计的蒙古文词切分方法。该方法首先使用规则的方法生成词切分候选项,然后在在词根、词缀和词性上建立语言模型,评价候选项。这是一种融合了词典、规则的方法,首先采用规则进行粗切分,与之前的确定的规则不同,本系统添加了不确定切分规则。然后使用语言模型评价得到所有可能的切分。
以上两种方法的根本难题是需要引入大量的统计特征,存在以下衍生问题:
(1)特征难以提取:由于蒙古文的黏着性带来的高度复杂性,使得人工的设计特征和规则很难覆盖所有的语言现象,因此人工特征标注和选择严重制约了蒙古文词切分性能的提升。
(2)高额人工成本:这两种方法需均要大量的人力标注和选择特征,如标注词干、词缀集、词性,定义规则等。尤其是基于统计的切分方法,虽然在性能上较基于词典、规则的方法有较大的提升,但是引入了词性特征,不仅增加了模型训练成本而且给实际应用带来了困难,限制了蒙古文词切分系统的应用。
(3)未登录词问题:稀缺的训练语料和大量的特征容易造成训练不足,也非常可能过拟合,使得模型难以泛化。
发明内容
为了解决上述问题,本发明提供一种字符级基于序列模型的蒙古文切词方法,将蒙古文词切分映射为一个序列转换任务,通过神经网络实现待切分蒙古文词的字符序列到切分后的字符序列的自动转换,降低人工成本,解决了现有技术中存在的问题。
本发明的另一目的是,提供一种字符级基于序列模型的蒙古文切词系统。
本发明所采用的技术方案是,一种字符级基于序列模型的蒙古文切词方法,具体按照以下步骤进行:
步骤一:首先将输入的蒙古文文本转化成以空格间隔的字符序列,然后将字符序列中的英文、数字、汉字以及符号替换成相应的标记“E”、“N”、“C”以及“S”,得到预处理后的与蒙古文文本对应的字符序列;
步骤二:判定字符序列是否包含蒙古文字符,如果包含则转入步骤三,不包含则转入步骤四;
步骤三:将包含蒙古文字符的字符序列输入至基于神经网络模型的蒙古文切词组件,得到切分后的字符序列;
步骤四:判定切分后的输出字符序列是否包含除连接符号“-”外的非蒙古文字符,如果包含,将输出字符序列与原词比较,将对应的标记替换成被其替代的非蒙古文字符并去掉序列中的空格;否则直接去掉序列中的空格,完成反预处理;最终以词干-词缀-词缀的形式输出切分后的蒙古文文本。
进一步的,所述步骤三中,蒙古文切词组件为基于融合注意力机制的LSTM网络的编码-解码器,得到切分后的字符序列的方法具体按照以下步骤进行:
步骤1:解码器的每一步输出均有输入的字符序列以及已经产生的输出字符序列参与,参与的权重概率根据公式(8)-(9)计算;
计算参与度的分布at(s)即输入序列每个字符与当前输出的权重概率;
步骤2:更新中间语义向量Ct,
其中,Wc、bc分别表示更新中间语义向量对应的权向量和偏置量。
本发明所采用的另一技术方案是,一种字符级基于序列模型的蒙古文切词系统,包括:
预处理模块:用于将输入的蒙古文文本转化成以空格间隔的字符序列,然后将字符序列中的英文、数字、汉字以及符号替换成相应的标记,得到与蒙古文文本对应的字符序列;
判定模块:用于判定预处理后字符序列是否包含蒙古文字符,如果不包含,输入至反预处理模块;如果包含,输入至蒙古文切词组件;
蒙古文切词组件:用于以预处理得到的字符序列作为输入,得到切分后的字符序列;
反预处理模块:用于判定切分后的输出字符序列是否包含除连接符号“-”外的非蒙古文字符,如果不包含,去掉输出字符序列中的空格;如果包含,将输出字符序列与原词比较,将对应的标记替换成被其替代的非蒙古文字符,并去掉序列中的空格形成新的输出字符序列;最终以词干-词缀-词缀的形式输出切分后的蒙古文文本。
进一步的,所述蒙古文切词组件为基于融合注意力机制的LSTM网络的编码-解码器。
本发明的有益效果是,本发明实现了蒙古文切词,该方法能够应用于蒙古文词法分析、句法分析、词性标注、命名实体识别、信息检索等自然语言处理任务中,提高相关系统的处理性能,从而提升蒙古文自然语言处理的效果,对蒙古文信息处理技术的发展具有十分重要的意义和推广应用价值。
本发明还具有以下优点:
(1)本发明改变了蒙古文词切分传统的词干、词缀的数据视角,而是以更为普通的蒙古文字符为新的数据视角,克服了由于蒙古文的复杂性引发的数据稀疏的问题。
(2)由于蒙古文词根、词缀内字符高聚合,词根、词缀边界与外部字符低耦合,本发明使用端到端的序列模型自动提取蒙古文构词特征,不仅克服了大量统计特征的标注和选择的人力难题,采用该模型获得的蒙古文切词系统拥有更好的准确性、易用性和用户友好性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的编码器-解码器框架图。
图2是本发明的流程图。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于蒙古文词根、词缀内字符高聚合,词根、词缀边界与外部字符低耦合,本发明将蒙古文词切分映射为一个序列转换任务,以通过神经网络实现待蒙古文词的字符序列到切分后的字符序列的自动转换为基本思想。
基本框架及算法:
(1)编码器-解码器框架
我们把原始的单词当作字符序列来处理,并将目标根和后缀转换成一个新的序列,分割过程就是一个字符级的序列到序列的任务。本发明采用端到端的序列学习模型,即利用神经网络将输入序列映射成一个固定维度的向量表示(编码),然后使用另外一个神经网络从中抽取出输出序列(解码)。编码-解码框架通过缩减人工预处理和后续处理,尽可能使模型从原始输入到最终输出,给模型更多的可以根据数据进行自动调节的空间,增加模型的整体契合度。如词切分为则输入字符序列为目标输出字符序列为如图1所示,编码器-解码器框架首先为每个蒙古文字符生成向量表示,然后通过神经网络从左到右生成整个待切分蒙古文词(源语言)字符序列的向量表示。具体的:使用一个LSTM(编码器)处理输入序列,如输入字符序列为LSTM按照顺序处理每个输入字符,其中h0、h1、h2、h3、h4、h5、h6为编码器LSTM隐层单元,h0为随机初始化单元;最终生成向量C。向量C生成过程被称为编码过程,而所使用的神经网络也被称为编码器。之后,采用另一个LSTM(解码器)将向量C和句尾结束符</s>为初始输入,依次生成字符直到生成句尾结束符</s>为止,其中h′1、h′2、h′3、h′4、h′5、h′6、h′7为LSTM解码器隐层单元;生成目标字符序列的过程被称为解码过程,而所使用的神经网络被称为解码器。
(2)长短时记忆网络
假设X=(x1,x2,…,xI)和Y=(y1,y2,…,yJ)分别是输入、输出序列,其中I和J是两个序列的长度,那么序列到序列学习的目标是:
argmaxY∈Y p(Y|X) (1)
为了实现这一目标,在序列到序列学习任务中,循环神经网络(RNN)特别是其变体长短时记忆网络(LSTM),在以往的任务中展示了先进的性能。不同于传统前馈神经网络,LSTM神经网络通过输入门(it)、遗忘门(ft)和输出门(ot)实现历史信息(Ct)的更新和使用,从而可以从数据中学习长距离依赖信息。具体的,LSTM模型中结构被称为细胞(Cells),t时刻细胞的输入包括当前输入xt、t-1时刻的输出状态ht-1和历史记忆信息Ct-1,输出包括t时刻细胞状态ht以及历史记忆Ct。在门的控制下LSTM从输入到输出经历以下四步。
第一步:遗忘门的计算。遗忘门ft决定哪些信息可以被舍弃,ft的计算如公式(2)所示,
ft=σ(Wf·[ht-1,xt]+bf) (2)
其中,Wf、bf分别表示遗忘门对应的权向量和偏置量。
其中,Wi、bi分别表示局部输入对应的权向量和偏置量,WC、bC分别表示更新对应的权向量和偏置量。
第四步:输出细胞状态ht。依据Ct在输出门ot的控制下产生此时的输出ht。
ht=ot*tanh(Ct) (7)
其中,Wo、bo分别表示输出门对应的权向量和偏置量。公式(2)-(7)中σ是逻辑回归中Sigmoid函数,Sigmoid()激活函数,将一个实数输入映射到[0,1]范围内;“*”为向量元素级相乘运算,tanh()激活函数与Sigmoid函数类似,将一个实数输入映射到[-1,1]范围内。
LSTM神经网络在训练过程中通过向量表示缓解数据稀疏问题,同时在门的控制下保存重要的历史信息。
(3)注意力机制
LSTM神经网络在输入序列比较短的时候Ct能够较好的表达历史信息,但是如果输入序列比较长,LSTM神经网络就难于捕获长距离信息。因为,LSTM中所有历史信息通过一个向量来表示,在遗忘门的作用下随着距离的逐步靠前的信息逐步被忘记直至消失。本发明引入注意力(attention)机制动态计算输入字符的上下文,以此缓解LSTM神经网络依赖于内部一个固定长度向量的问题。
基于注意力机制的神经网络采用的编码器的目标不再是将整个待切分字符序列编码成固定长度的向量表示,而是允许解码器在每一步输出时“参与(attend)”到输入的不同部分。重要的是,我们的模型可以根据输入的序列以及已经产生的输出序列来决定如何参与。增加了注意力机制的LSTM神经网络,每个解码器输出的ht取决于所有输入状态的一个权重组合,而不只是最后一个状态。注意力LSTM模型与典型的LSTM相比,改变体现在Ct的更新和使用,
步骤1:解码器的每一步输出均有输入的字符序列以及已经产生的输出字符序列参与,参与的权重概率根据公式(8)-(9)计算;
计算参与度的分布at(s)即输入序列每个字符与当前输出的权重概率;
步骤2:更新中间语义向量Ct,
其中,Wc、bc分别表示更新中间语义向量对应的权向量和偏置量。
在编码器-解码器框架下采用融合注意力机制的LSTM网络构建字符级蒙古文切词学习模型有如下优势:(1)端到端的序列学习,不需要大量的人力标注和特征选择,克服了高额的人工成本问题;(2)采用蒙古文字符作为最基本的处理单元,克服了蒙古文构词复杂性带来的数据稀疏问题和未登录词问题;(3)采用融合注意力机制的LSTM网络,字符序列向量表示能够更好的表征蒙古文词的黏着特性,蒙古文切词系统拥有更优秀的性能;(4)实际应用时,仅需要输入待切分的蒙古文词,此框架下的蒙古文词切分系统更具有良好的实用性和用户友好性。
本发明设计完成后,采用深度学习框架TensorFlow已经封装好的LSTM并融合了注意力机制,最终实现了字符级基于序列模型的蒙古文切词系统,该系统包括:
预处理模块:用于将输入的蒙古文文本转化成以空格间隔的字符序列,然后将字符序列中的英文、数字、汉字以及符号替换成相应的标记,得到与蒙古文文本对应的字符序列;
判定模块:用于判定预处理后字符序列是否包含蒙古文字符,如果不包含,输入至反预处理模块;如果包含,输入至蒙古文切词组件;
蒙古文切词组件:采用基于融合注意力机制的LSTM网络的编码-解码器,用于以预处理得到的字符序列作为输入,得到切分后的字符序列;
反预处理模块:用于判定切分后的输出字符序列是否包含除连接符号“-”外的非蒙古文字符,如果不包含,去掉输出字符序列中的空格;如果包含,将输出字符序列与原词比较,将对应的标记替换成被其替代的非蒙古文字符,并去掉序列中的空格形成新的输出字符序列;最终以词干-词缀-词缀的形式输出切分后的蒙古文文本。
本发明一种字符级基于序列模型的蒙古文切词方法,如图2所示,具体按照以下步骤进行:
步骤一:首先将输入的蒙古文文本转化成以空格间隔的字符序列,然后将字符序列中的英文、数字、汉字以及符号替换成相应的标记“E”、“N”、“C”以及“S”,得到与蒙古文文本对应的字符序列;如词经过预处理得到的字符序列为即在字符之间加入空格字符以形成序列。
步骤二:判定预处理后的字符序列是否包含蒙古文字符,如果包含则转入步骤三,不包含则转入步骤四。
步骤三:将包含蒙古文字符的预处理的字符序列输入到基于神经网络模型的蒙古文切词组件,得到切分后的字符序列。
步骤四:判定切分后的输出字符序列是否包含除连接符号“-”外的非蒙古文字符,如果包含,将输出字符序列与原词比较,将对应的标记替换成被其替代的非蒙古文字符并去掉序列中的空格;否则直接去掉序列中的空格,完成反预处理;以词干-词缀-词缀的形式输出切分后的蒙古文文本。如词经过蒙文切词组件处理后,输出字符序列为 经过反预处理后,即去掉空格将字符序列转化为蒙文词的词干-词缀的形式
本发明蒙古文词切分系统的性能验证:
(1)实验数据和评估指标
为了验证本发明提出方法的有效性,我们在已有数据中采集了60000词作为样本,进行训练与测试。样本数据共包含60000词,随机抽取10%作为开发集,20%作为测试集,剩下的70%作为训练集。本发明使用准确率(Precision,P)、召回率(Recall,R)、整词的准确率(Word precision,Wp)、F1值来评估实验的有效性。P,R,Wp和F1值的计算公式如下,其中Rsu(正确的切分单元个数),Su(切出的单元个数),Au(参考答案中切出的单元个数),Cw(正确切分的词数),Aw(待切分的词数);
(2)实验超参数
本发明选择的超参数详情如表1所示。
表1 超参数设置
模型超参数 | 超参数值 |
LSTM层 | 2 |
学习率 | 0.1 |
学习率衰减系数 | 0.83 |
隐层单元数 | 100 |
源语言端词典 | 200 |
目标语言端词典 | 200 |
Dropout比率 | 0.7 |
忍耐度(Patience) | 10 |
桶(Bucket) | [14,20],[40,50] |
其中,忍耐度(Patience)是实验训练停止的条件。在训练过程中,如果连续10次学习率都没有改变,就停止训练。桶(Bucket)是用来解决在训练过程中空间和时间浪费的问题。在训练过程中需要将所有的词都补齐到最长词的长度,而后进行计算,导致有效计算步数和有效空间利用率都很低。本发明使用贪心算法,找到较为适合的补齐长度分别训练,以提升训练效率。为了保持程序的一致性,我们最终选择了将待切分的蒙古文词分为两桶(Bucket),一桶[14,20],输入长度为14,输出长度为20;一桶[40,50],输入长度为40,输出长度为50。
表1中超参数据除源语言端词典和目标语言端词典外均为通过多轮实验获得,如LSTM层数的确定,我们在固定其他参数的同时,改变LSTM的层数取值1-4,发现层数为2时实验效果最好。源语言端词典和目标语言端词典是依据预处理后所包含的蒙古文词中所包含的蒙古文字符和非蒙古文字符个数确定的。
(3)实验结果
表2 实验结果
评估指标 | P(%) | R(%) | F1(%) | Wp(%) |
值 | 95.52 | 95.37 | 95.44 | 92.36 |
实验结果(如表2所示)表明,采用编码器-解码器框架学习到的蒙古文词的字符序列向量表示能够表征蒙古文词的黏着性特性,克服了切词任务中人工设计特征的根本难题。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (3)
1.一种字符级基于序列模型的蒙古文切词方法,其特征在于,具体按照以下步骤进行:
步骤一:将输入的蒙古文文本转化成以空格间隔的字符序列,然后将字符序列中的英文、数字、汉字以及符号替换成相应的标记,得到与蒙古文文本对应的字符序列;
步骤二:判定字符序列是否包含蒙古文字符,如果包含则转入步骤三,不包含则转入步骤四;
步骤三:将包含蒙古文字符的字符序列输入至基于神经网络模型的蒙古文切词组件,得到切分后的字符序列;
步骤四:判定切分后的输出字符序列是否包含除连接符号“-”外的非蒙古文字符,如果包含,将输出字符序列与原词比较,将对应的标记替换成被其替代的非蒙古文字符并去掉序列中的空格;否则直接去掉序列中的空格,完成反预处理;最终以词干-词缀-词缀的形式输出切分后的蒙古文文本;
所述步骤三中,蒙古文切词组件为基于融合注意力机制的LSTM网络的编码-解码器,得到切分后的字符序列的方法具体按照以下步骤进行:
步骤1:解码器的每一步输出均有输入的字符序列以及已经产生的输出字符序列参与,参与的权重概率根据以下两公式计算;
计算参与度的分布at(s)即输入序列每个字符与当前输出的权重概率;
步骤2:更新中间语义向量Ct,
其中,Wc、bc分别表示更新中间语义向量对应的权向量和偏置量。
2.一种字符级基于序列模型的蒙古文切词系统,其特征在于,包括:
预处理模块:用于将输入的蒙古文文本转化成以空格间隔的字符序列,然后将字符序列中的英文、数字、汉字以及符号替换成相应的标记,得到与蒙古文文本对应的字符序列;
判定模块:用于判定预处理后字符序列是否包含蒙古文字符,如果不包含,输入至反预处理模块;如果包含,输入至蒙古文切词组件;
蒙古文切词组件:用于以预处理得到的字符序列作为输入,得到切分后的字符序列;
反预处理模块:用于判定切分后的输出字符序列是否包含除连接符号“-”外的非蒙古文字符,如果不包含,去掉输出字符序列中的空格;如果包含,将输出字符序列与原词比较,将对应的标记替换成被其替代的非蒙古文字符,并去掉序列中的空格形成新的输出字符序列;最终以词干-词缀-词缀的形式输出切分后的蒙古文文本。
3.根据权利要求2所述的一种字符级基于序列模型的蒙古文切词系统,其特征在于,所述蒙古文切词组件为基于融合注意力机制的LSTM网络的编码-解码器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811178809.8A CN109325243B (zh) | 2018-10-22 | 2018-10-22 | 字符级基于序列模型的蒙古文切词方法及其切词系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811178809.8A CN109325243B (zh) | 2018-10-22 | 2018-10-22 | 字符级基于序列模型的蒙古文切词方法及其切词系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109325243A CN109325243A (zh) | 2019-02-12 |
CN109325243B true CN109325243B (zh) | 2022-11-22 |
Family
ID=65261019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811178809.8A Expired - Fee Related CN109325243B (zh) | 2018-10-22 | 2018-10-22 | 字符级基于序列模型的蒙古文切词方法及其切词系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109325243B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159990B (zh) * | 2019-12-06 | 2022-09-30 | 国家计算机网络与信息安全管理中心 | 一种基于模式拓展的通用特殊词识别方法及系统 |
CN111160031A (zh) * | 2019-12-13 | 2020-05-15 | 华南理工大学 | 一种基于词缀感知的社交媒体命名实体识别方法 |
CN113065432A (zh) * | 2021-03-23 | 2021-07-02 | 内蒙古工业大学 | 一种基于数据增强和ECA-Net的手写体蒙古文识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491372A (zh) * | 2018-01-31 | 2018-09-04 | 华南理工大学 | 一种基于seq2seq模型的中文分词方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3986531B2 (ja) * | 2005-09-21 | 2007-10-03 | 沖電気工業株式会社 | 形態素解析装置及び形態素解析プログラム |
CN102681985A (zh) * | 2012-05-16 | 2012-09-19 | 中国科学院计算技术研究所 | 一种面向形态丰富语言的翻译方法和系统 |
CN103902522A (zh) * | 2012-12-28 | 2014-07-02 | 新疆电力信息通信有限责任公司 | 维吾尔语词干提取方法 |
KR101937778B1 (ko) * | 2017-02-28 | 2019-01-14 | 서울대학교산학협력단 | 인공지능을 이용한 기계학습 기반의 한국어 대화 시스템과 방법 및 기록매체 |
CN107977364B (zh) * | 2017-12-30 | 2022-02-25 | 科大讯飞股份有限公司 | 维语子词切分方法及装置 |
-
2018
- 2018-10-22 CN CN201811178809.8A patent/CN109325243B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491372A (zh) * | 2018-01-31 | 2018-09-04 | 华南理工大学 | 一种基于seq2seq模型的中文分词方法 |
Non-Patent Citations (1)
Title |
---|
基于词典、规则的斯拉夫蒙古文词切分系统的研究;史建国 等;《中文信息学报》;20150131;第29卷(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109325243A (zh) | 2019-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112487143A (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN107908614A (zh) | 一种基于Bi‑LSTM的命名实体识别方法 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
CN113010693A (zh) | 融合指针生成网络的知识图谱智能问答方法 | |
CN107885721A (zh) | 一种基于lstm的命名实体识别方法 | |
CN109902159A (zh) | 一种基于自然语言处理的智能运维语句相似度匹配方法 | |
CN110413768B (zh) | 一种文章题目自动生成方法 | |
CN107862087A (zh) | 基于大数据和深度学习的情感分析方法、装置和存储介质 | |
CN109325243B (zh) | 字符级基于序列模型的蒙古文切词方法及其切词系统 | |
CN110688862A (zh) | 一种基于迁移学习的蒙汉互译方法 | |
CN108733647B (zh) | 一种基于高斯分布的词向量生成方法 | |
CN117494727B (zh) | 用于大语言模型的去偏倚方法 | |
CN113420557B (zh) | 中文命名实体识别方法、系统、设备及存储介质 | |
Sankoff | Probability and linguistic variation | |
CN112464669A (zh) | 股票实体词消歧方法、计算机设备及存储介质 | |
CN114925687B (zh) | 一种基于动态词向量表征的中文作文评分方法及系统 | |
CN112818698A (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN112395891A (zh) | 一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法 | |
CN115496072A (zh) | 一种基于对比学习的关系抽取方法 | |
CN113051886B (zh) | 一种试题查重方法、装置、存储介质及设备 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN113486174A (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
Göker et al. | Neural text normalization for turkish social media | |
CN115952284A (zh) | 一种融合密度聚类与ernie的医疗文本关系抽取方法 | |
CN114547289A (zh) | 一种基于nlp技术的中文摘要自动生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20221122 |