CN109214000A

CN109214000A - 一种基于主题模型词向量的神经网络柬语实体识别方法

Info

Publication number: CN109214000A
Application number: CN201810965632.XA
Authority: CN
Inventors: 严馨; 谢俊; 徐广义; 张磊; 周枫; 郭剑毅
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-08-23
Filing date: 2018-08-23
Publication date: 2019-01-15

Abstract

本发明涉及一种基于主题模型词向量的神经网络柬语实体识别方法，属于自然语言处理技术领域。本发明先获取柬语文本语料并对语料进行预处理；然后构建主题模型；使用构建好的主题模型得到文本每个词的主题编号，将此主题编号视为伪单词；对预处理之后的文本和上述得到的伪单词放入同一语料文本中，使用skip‑gram模型进行处理同时得到文本中每个词的词向量和词对应的主题向量；将上述步骤中得到的词向量和主题向量进行级联得到主题词向量；最后将所得到的主题词向量作为一个输入特征输入到已构造好的深度学习模型中，进而实现对柬语的实体识别。本发明能较好的解决文本中存在的一词多义和同音多义问题，柬埔寨语命名实体的识别正确率高。

Description

一种基于主题模型词向量的神经网络柬语实体识别方法

技术领域

本发明涉及一种基于主题模型词向量的神经网络柬语实体识别方法，属于自然语言处理技术领域。

背景技术

随着现代经济的快速发展，我国和东南亚国家之间的交流、合作越来越频繁，其中与柬埔寨国在经济、文化、教育等方面的交流合作也呈逐年增加趋势。在中柬两国发展日益密切的背景下，关注和学习柬埔寨国的文化知识尤为重要，但同时由于两国语言不通给这一任务带来了很多困难。因此，使用自然语言处理技术解决这些困难的需求越来越强烈。

柬埔寨语又称高棉语，属南亚语系孟高棉语族高棉语支语言，作为柬埔寨王国的官方语言在全国范围内使用。柬埔寨语中借用外来语的现象非常普遍。柬埔寨语是在古高棉语的基础上演变和发展起来的，吸收了许多的巴梵语，与此同时也受到了周边国家如泰语、汉语、越南语、老挝语等语言的影响。所以柬埔寨语有多种形式的构词方式。由于柬埔寨语在东南亚诸国语言中是文字历史最为古老的，具有很高的研究价值。而目前国内外对柬埔寨语的研究主要是侧重于文化方面，由于语言的特殊性，针对柬埔寨语这样的小语种词法分析方面特别是命名实体识别方面的研究工作还十分有限，因此该研究工作对解决柬埔寨的政治经济分析、舆情把握等具有非常重要的意义。

命名实体识别是自然语言处理领域的基本任务，更是许多自然语言应用领域研究的前提基础。最早的命名实体识别是在MUC-6(Message Understanding Conference)上作为一个子任务提出来的。命名实体识别任务主要是识别出文本中出现的专有名称和有意义的数量短语并加以归类。其工作内容由最早的实体识别(人名、地名、机构名)到现今对文本中实体识别的细化以及时间表达式(日期、时间)、数值表达式(货币值、百分数等)的识别。由于数量、时间、日期、货币等实体识别通常可以采用模式匹配的方式获得良好的识别效果，相比之下人名、地名、机构名较复杂，因此近年来的研究主要是以这几种实体为主且命名实体识别是信息抽取的重要研究内容，在信息检索、机器翻译和问答系统等自然语言处理领域有着广泛的应用。

发明内容

本发明提供了一种基于主题模型词向量的神经网络柬语实体识别方法，以用于解决柬埔寨语命名实体的识别正确率低以及柬语实体识别时存在的一词多义、同音多义的问题。

本发明的技术方案是：一种基于主题模型词向量的神经网络柬语实体识别方法，首先获取柬语文本语料并对语料进行预处理；然后对预处理之后的文本构建主题模型；使用构建好的主题模型得到文本每个词的主题编号，将此主题编号视为伪单词；对预处理之后的文本和上述得到的伪单词放入同一语料文本中，使用skip-gram模型进行处理同时得到文本中每个词的词向量和词对应的主题向量；将上述步骤中得到的词向量和主题向量进行级联得到主题词向量；最后将所得到的主题词向量作为一个输入特征输入到已构造好的深度学习模型中，进而实现对柬语的实体识别。

所述方法的具体步骤如下：

Step1、首先利用爬虫程序从纸质文本、柬语网站中获取柬语文本语料；对上述文本依次进行分词、过滤标点符号、停用词预处理得到待使用的柬语单语文本语料；

Step2、对预处理之后的文本构建HDP主题模型；使用构建好的主题模型得到文本每个词的主题编号，将此主题编号视为伪单词；

Step3、对上述预处理之后的文本构建skip-gram模型；对预处理之后的文本和上述得到的伪单词放入同一语料文本中，使用skip-gram模型进行处理同时得到文本中每个词的词向量和词对应的主题向量；

Step4、将上述步骤中得到的词向量和主题向量进行级联得到主题词向量；

Step5、最后将所得到的主题词向量作为一个输入特征输入到已构造好的深度学习模型中，进而实现对柬语的实体识别。

所述步骤Step2的具体步骤如下：

Step2.1、将预处理后的文本分为N个文档，每个文档

Step2.2、构造HDP主题模型，则需假设所有的文档的主题均来自于某个分布H，则此时使用α和H作为参数的Dirichlet分布作为先验；

Step2.3、首先从先验中抽取一个分布G₀，将其作为这篇文档的主题分布的先验，即此时满足：G₀～DPα，H；

Step2.4、再利用G₀和γ为参数构造一个Dirichlet分布，从此分布中抽取一个主题分布G_d作为第d篇文档的主题分布，即此时满足：G_d～DP(γ，G₀)；

Step2.5、从上述得到的第d篇文档的主题分布G_d中抽取得第i个单词的主题θ_di，最终从该主题中生成一个单词x_di，即此时经过迭代之后便得到词的主题分布，将此主题分布设定为一个伪单词。

所述步骤Step3的具体步骤如下：

Step3.1、对上述预处理之后的文本构建skip-gram模型；将预处理之后的文本中的单词用w表示，将使用主题模型得到的主题编号的伪单词用z表示，将文本单词和主题编号的伪单词以组为单位放入到同一文本中，即此时的输入为D{w_i,z_i}＝{w₁,z₁,…w_i,z_i,…w_M,z_M}

Step3.2、根据上述步骤中的输入，得到此时skip-gram模型的目标函数为：

其中，M为输入模型的词的个数，k为预测上下文的窗口大小。

所述步骤Step4具体步骤如下：

Step4.1、将上述Step2中得到的文本中每个词的词向量用w表示，步骤Step3中得到的词的主题向量用z表示；

Step4.2、对词向量w与词的主题向量z采用⊕方式进行级联，即满足：w^z＝w⊕z，此时便得到所需的主题词向量w^z。

所述步骤Step5具体步骤如下：

Step5.1、将上述得到的主题词向量特征作为输入特征(x₁,x₂,…x_n)，输入到CRF模型中，得：

其中，t_j(y_m+1,y_m,x,m)是定义在观测序列的两个相邻标记位置上的转移特征函数，用于刻画相邻标记变量之间的相关关系以及观测序列对它们的影响，s_k(y_m,x,m)是定义在观测序列的标记位置m上的转台特征函数，用于刻画观测序列对标记变量的影响，λ_j和μ_k为参数，Z为规范化因子，此时便得到序列y的标记概率实现柬语的命名实体识别。

本发明的有益效果是：

1、本发明提供了一种适用解决柬语的实体识别问题的方法，且较好的解决文本中存在的一词多义和同音多义问题，柬埔寨语命名实体的识别正确率高；

2、本发明为后续的柬语的语法分析、语句分析、信息抽取、信息检索和机器翻译等工作提供了强有力的支撑。

附图说明

图1为本发明中的流程图。

具体实施方式

实施例1：如图1所示，一种基于主题模型词向量的神经网络柬语实体识别方法，首先获取柬语文本语料并对语料进行预处理；然后对预处理之后的文本构建主题模型；使用构建好的主题模型得到文本每个词的主题编号，将此主题编号视为伪单词；对预处理之后的文本和上述得到的伪单词放入同一语料文本中，使用skip-gram模型进行处理同时得到文本中每个词的词向量和词对应的主题向量；将上述步骤中得到的词向量和主题向量进行级联得到主题词向量；最后将所得到的主题词向量作为一个输入特征输入到已构造好的深度学习模型中，进而实现对柬语的实体识别。

进一步的，所述方法的具体步骤如下：

进一步的，所述步骤Step2的具体步骤如下：

Step2.1、将预处理后的文本分为N个文档，每个文档

进一步的，所述步骤Step3的具体步骤如下：

进一步的，所述步骤Step4具体步骤如下：

进一步的，所述步骤Step5具体步骤如下：

Step5.1、将上述得到的主题词向量特征作为输入特征(x₁,x₂,…x_n)，输入到深度学习模型中(深度学习模型采用CRF模型)，得：

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于主题模型词向量的神经网络柬语实体识别方法，其特征在于：首先获取柬语文本语料并对语料进行预处理；然后对预处理之后的文本构建主题模型；使用构建好的主题模型得到文本每个词的主题编号，将此主题编号视为伪单词；对预处理之后的文本和上述得到的伪单词放入同一语料文本中，使用skip-gram模型进行处理同时得到文本中每个词的词向量和词对应的主题向量；将上述步骤中得到的词向量和主题向量进行级联得到主题词向量；最后将所得到的主题词向量作为一个输入特征输入到已构造好的深度学习模型中，进而实现对柬语的实体识别。

2.根据权利要求1所述的基于主题模型词向量的神经网络柬语实体识别方法，其特征在于：所述方法的具体步骤如下：

3.根据权利要求2所述的基于主题模型词向量的神经网络柬语实体识别方法，其特征在于：所述步骤Step2的具体步骤如下：

Step2.1、将预处理后的文本分为N个文档，每个文档d∈{1,2…N}；

Step2.3、首先从先验中抽取一个分布G₀，将其作为这篇文档的主题分布的先验，即此时满足：G₀～DP(α，H)；

4.根据权利要求2所述的基于主题模型词向量的神经网络柬语实体识别方法，其特征在于：所述步骤Step3的具体步骤如下：

Step3.1、对上述预处理之后的文本构建skip-gram模型；将预处理之后的文本中的单词用w表示，将使用主题模型得到的主题编号的伪单词用z表示，将文本单词和主题编号的伪单词以组为单位放入到同一文本中，即此时的输入为D＝{w_i,z_i}＝{w₁,z₁,…w_i,z_i,…w_M,z_M}

5.根据权利要求2所述的基于主题模型词向量的神经网络柬语实体识别方法，其特征在于：所述步骤Step4具体步骤如下：

Step4.2、对词向量w与词的主题向量z采用方式进行级联，即满足：此时便得到所需的主题词向量w^z。

6.根据权利要求2所述的基于主题模型词向量的神经网络柬语实体识别方法，其特征在于：所述步骤Step5具体步骤如下：