CN109214000A - 一种基于主题模型词向量的神经网络柬语实体识别方法 - Google Patents

一种基于主题模型词向量的神经网络柬语实体识别方法 Download PDF

Info

Publication number
CN109214000A
CN109214000A CN201810965632.XA CN201810965632A CN109214000A CN 109214000 A CN109214000 A CN 109214000A CN 201810965632 A CN201810965632 A CN 201810965632A CN 109214000 A CN109214000 A CN 109214000A
Authority
CN
China
Prior art keywords
theme
text
word
term vector
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810965632.XA
Other languages
English (en)
Inventor
严馨
谢俊
徐广义
张磊
周枫
郭剑毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810965632.XA priority Critical patent/CN109214000A/zh
Publication of CN109214000A publication Critical patent/CN109214000A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于主题模型词向量的神经网络柬语实体识别方法,属于自然语言处理技术领域。本发明先获取柬语文本语料并对语料进行预处理;然后构建主题模型;使用构建好的主题模型得到文本每个词的主题编号,将此主题编号视为伪单词;对预处理之后的文本和上述得到的伪单词放入同一语料文本中,使用skip‑gram模型进行处理同时得到文本中每个词的词向量和词对应的主题向量;将上述步骤中得到的词向量和主题向量进行级联得到主题词向量;最后将所得到的主题词向量作为一个输入特征输入到已构造好的深度学习模型中,进而实现对柬语的实体识别。本发明能较好的解决文本中存在的一词多义和同音多义问题,柬埔寨语命名实体的识别正确率高。

Description

一种基于主题模型词向量的神经网络柬语实体识别方法
技术领域
本发明涉及一种基于主题模型词向量的神经网络柬语实体识别方法,属于自然语言处理技术领域。
背景技术
随着现代经济的快速发展,我国和东南亚国家之间的交流、合作越来越频繁,其中与柬埔寨国在经济、文化、教育等方面的交流合作也呈逐年增加趋势。在中柬两国发展日益密切的背景下,关注和学习柬埔寨国的文化知识尤为重要,但同时由于两国语言不通给这一任务带来了很多困难。因此,使用自然语言处理技术解决这些困难的需求越来越强烈。
柬埔寨语又称高棉语,属南亚语系孟高棉语族高棉语支语言,作为柬埔寨王国的官方语言在全国范围内使用。柬埔寨语中借用外来语的现象非常普遍。柬埔寨语是在古高棉语的基础上演变和发展起来的,吸收了许多的巴梵语,与此同时也受到了周边国家如泰语、汉语、越南语、老挝语等语言的影响。所以柬埔寨语有多种形式的构词方式。由于柬埔寨语在东南亚诸国语言中是文字历史最为古老的,具有很高的研究价值。而目前国内外对柬埔寨语的研究主要是侧重于文化方面,由于语言的特殊性,针对柬埔寨语这样的小语种词法分析方面特别是命名实体识别方面的研究工作还十分有限,因此该研究工作对解决柬埔寨的政治经济分析、舆情把握等具有非常重要的意义。
命名实体识别是自然语言处理领域的基本任务,更是许多自然语言应用领域研究的前提基础。最早的命名实体识别是在MUC-6(Message Understanding Conference)上作为一个子任务提出来的。命名实体识别任务主要是识别出文本中出现的专有名称和有意义的数量短语并加以归类。其工作内容由最早的实体识别(人名、地名、机构名)到现今对文本中实体识别的细化以及时间表达式(日期、时间)、数值表达式(货币值、百分数等)的识别。由于数量、时间、日期、货币等实体识别通常可以采用模式匹配的方式获得良好的识别效果,相比之下人名、地名、机构名较复杂,因此近年来的研究主要是以这几种实体为主且命名实体识别是信息抽取的重要研究内容,在信息检索、机器翻译和问答系统等自然语言处理领域有着广泛的应用。
发明内容
本发明提供了一种基于主题模型词向量的神经网络柬语实体识别方法,以用于解决柬埔寨语命名实体的识别正确率低以及柬语实体识别时存在的一词多义、同音多义的问题。
本发明的技术方案是:一种基于主题模型词向量的神经网络柬语实体识别方法,首先获取柬语文本语料并对语料进行预处理;然后对预处理之后的文本构建主题模型;使用构建好的主题模型得到文本每个词的主题编号,将此主题编号视为伪单词;对预处理之后的文本和上述得到的伪单词放入同一语料文本中,使用skip-gram模型进行处理同时得到文本中每个词的词向量和词对应的主题向量;将上述步骤中得到的词向量和主题向量进行级联得到主题词向量;最后将所得到的主题词向量作为一个输入特征输入到已构造好的深度学习模型中,进而实现对柬语的实体识别。
所述方法的具体步骤如下:
Step1、首先利用爬虫程序从纸质文本、柬语网站中获取柬语文本语料;对上述文本依次进行分词、过滤标点符号、停用词预处理得到待使用的柬语单语文本语料;
Step2、对预处理之后的文本构建HDP主题模型;使用构建好的主题模型得到文本每个词的主题编号,将此主题编号视为伪单词;
Step3、对上述预处理之后的文本构建skip-gram模型;对预处理之后的文本和上述得到的伪单词放入同一语料文本中,使用skip-gram模型进行处理同时得到文本中每个词的词向量和词对应的主题向量;
Step4、将上述步骤中得到的词向量和主题向量进行级联得到主题词向量;
Step5、最后将所得到的主题词向量作为一个输入特征输入到已构造好的深度学习模型中,进而实现对柬语的实体识别。
所述步骤Step2的具体步骤如下:
Step2.1、将预处理后的文本分为N个文档,每个文档
Step2.2、构造HDP主题模型,则需假设所有的文档的主题均来自于某个分布H,则此时使用α和H作为参数的Dirichlet分布作为先验;
Step2.3、首先从先验中抽取一个分布G0,将其作为这篇文档的主题分布的先验,即此时满足:G0~DPα,H;
Step2.4、再利用G0和γ为参数构造一个Dirichlet分布,从此分布中抽取一个主题分布Gd作为第d篇文档的主题分布,即此时满足:Gd~DP(γ,G0)
Step2.5、从上述得到的第d篇文档的主题分布Gd中抽取得第i个单词的主题θdi,最终从该主题中生成一个单词xdi,即此时经过迭代之后便得到词的主题分布,将此主题分布设定为一个伪单词。
所述步骤Step3的具体步骤如下:
Step3.1、对上述预处理之后的文本构建skip-gram模型;将预处理之后的文本中的单词用w表示,将使用主题模型得到的主题编号的伪单词用z表示,将文本单词和主题编号的伪单词以组为单位放入到同一文本中,即此时的输入为D{wi,zi}={w1,z1,…wi,zi,…wM,zM}
Step3.2、根据上述步骤中的输入,得到此时skip-gram模型的目标函数为:
其中,M为输入模型的词的个数,k为预测上下文的窗口大小。
所述步骤Step4具体步骤如下:
Step4.1、将上述Step2中得到的文本中每个词的词向量用w表示,步骤Step3中得到的词的主题向量用z表示;
Step4.2、对词向量w与词的主题向量z采用⊕方式进行级联,即满足:wz=w⊕z,此时便得到所需的主题词向量wz
所述步骤Step5具体步骤如下:
Step5.1、将上述得到的主题词向量特征作为输入特征(x1,x2,…xn),输入到CRF模型中,得:
其中,tj(ym+1,ym,x,m)是定义在观测序列的两个相邻标记位置上的转移特征函数,用于刻画相邻标记变量之间的相关关系以及观测序列对它们的影响,sk(ym,x,m)是定义在观测序列的标记位置m上的转台特征函数,用于刻画观测序列对标记变量的影响,λj和μk为参数,Z为规范化因子,此时便得到序列y的标记概率实现柬语的命名实体识别。
本发明的有益效果是:
1、本发明提供了一种适用解决柬语的实体识别问题的方法,且较好的解决文本中存在的一词多义和同音多义问题,柬埔寨语命名实体的识别正确率高;
2、本发明为后续的柬语的语法分析、语句分析、信息抽取、信息检索和机器翻译等工作提供了强有力的支撑。
附图说明
图1为本发明中的流程图。
具体实施方式
实施例1:如图1所示,一种基于主题模型词向量的神经网络柬语实体识别方法,首先获取柬语文本语料并对语料进行预处理;然后对预处理之后的文本构建主题模型;使用构建好的主题模型得到文本每个词的主题编号,将此主题编号视为伪单词;对预处理之后的文本和上述得到的伪单词放入同一语料文本中,使用skip-gram模型进行处理同时得到文本中每个词的词向量和词对应的主题向量;将上述步骤中得到的词向量和主题向量进行级联得到主题词向量;最后将所得到的主题词向量作为一个输入特征输入到已构造好的深度学习模型中,进而实现对柬语的实体识别。
进一步的,所述方法的具体步骤如下:
Step1、首先利用爬虫程序从纸质文本、柬语网站中获取柬语文本语料;对上述文本依次进行分词、过滤标点符号、停用词预处理得到待使用的柬语单语文本语料;
Step2、对预处理之后的文本构建HDP主题模型;使用构建好的主题模型得到文本每个词的主题编号,将此主题编号视为伪单词;
Step3、对上述预处理之后的文本构建skip-gram模型;对预处理之后的文本和上述得到的伪单词放入同一语料文本中,使用skip-gram模型进行处理同时得到文本中每个词的词向量和词对应的主题向量;
Step4、将上述步骤中得到的词向量和主题向量进行级联得到主题词向量;
Step5、最后将所得到的主题词向量作为一个输入特征输入到已构造好的深度学习模型中,进而实现对柬语的实体识别。
进一步的,所述步骤Step2的具体步骤如下:
Step2.1、将预处理后的文本分为N个文档,每个文档
Step2.2、构造HDP主题模型,则需假设所有的文档的主题均来自于某个分布H,则此时使用α和H作为参数的Dirichlet分布作为先验;
Step2.3、首先从先验中抽取一个分布G0,将其作为这篇文档的主题分布的先验,即此时满足:G0~DPα,H;
Step2.4、再利用G0和γ为参数构造一个Dirichlet分布,从此分布中抽取一个主题分布Gd作为第d篇文档的主题分布,即此时满足:Gd~DP(γ,G0)
Step2.5、从上述得到的第d篇文档的主题分布Gd中抽取得第i个单词的主题θdi,最终从该主题中生成一个单词xdi,即此时经过迭代之后便得到词的主题分布,将此主题分布设定为一个伪单词。
进一步的,所述步骤Step3的具体步骤如下:
Step3.1、对上述预处理之后的文本构建skip-gram模型;将预处理之后的文本中的单词用w表示,将使用主题模型得到的主题编号的伪单词用z表示,将文本单词和主题编号的伪单词以组为单位放入到同一文本中,即此时的输入为D{wi,zi}={w1,z1,…wi,zi,…wM,zM}
Step3.2、根据上述步骤中的输入,得到此时skip-gram模型的目标函数为:
其中,M为输入模型的词的个数,k为预测上下文的窗口大小。
进一步的,所述步骤Step4具体步骤如下:
Step4.1、将上述Step2中得到的文本中每个词的词向量用w表示,步骤Step3中得到的词的主题向量用z表示;
Step4.2、对词向量w与词的主题向量z采用⊕方式进行级联,即满足:wz=w⊕z,此时便得到所需的主题词向量wz
进一步的,所述步骤Step5具体步骤如下:
Step5.1、将上述得到的主题词向量特征作为输入特征(x1,x2,…xn),输入到深度学习模型中(深度学习模型采用CRF模型),得:
其中,tj(ym+1,ym,x,m)是定义在观测序列的两个相邻标记位置上的转移特征函数,用于刻画相邻标记变量之间的相关关系以及观测序列对它们的影响,sk(ym,x,m)是定义在观测序列的标记位置m上的转台特征函数,用于刻画观测序列对标记变量的影响,λj和μk为参数,Z为规范化因子,此时便得到序列y的标记概率实现柬语的命名实体识别。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (6)

1.一种基于主题模型词向量的神经网络柬语实体识别方法,其特征在于:首先获取柬语文本语料并对语料进行预处理;然后对预处理之后的文本构建主题模型;使用构建好的主题模型得到文本每个词的主题编号,将此主题编号视为伪单词;对预处理之后的文本和上述得到的伪单词放入同一语料文本中,使用skip-gram模型进行处理同时得到文本中每个词的词向量和词对应的主题向量;将上述步骤中得到的词向量和主题向量进行级联得到主题词向量;最后将所得到的主题词向量作为一个输入特征输入到已构造好的深度学习模型中,进而实现对柬语的实体识别。
2.根据权利要求1所述的基于主题模型词向量的神经网络柬语实体识别方法,其特征在于:所述方法的具体步骤如下:
Step1、首先利用爬虫程序从纸质文本、柬语网站中获取柬语文本语料;对上述文本依次进行分词、过滤标点符号、停用词预处理得到待使用的柬语单语文本语料;
Step2、对预处理之后的文本构建HDP主题模型;使用构建好的主题模型得到文本每个词的主题编号,将此主题编号视为伪单词;
Step3、对上述预处理之后的文本构建skip-gram模型;对预处理之后的文本和上述得到的伪单词放入同一语料文本中,使用skip-gram模型进行处理同时得到文本中每个词的词向量和词对应的主题向量;
Step4、将上述步骤中得到的词向量和主题向量进行级联得到主题词向量;
Step5、最后将所得到的主题词向量作为一个输入特征输入到已构造好的深度学习模型中,进而实现对柬语的实体识别。
3.根据权利要求2所述的基于主题模型词向量的神经网络柬语实体识别方法,其特征在于:所述步骤Step2的具体步骤如下:
Step2.1、将预处理后的文本分为N个文档,每个文档d∈{1,2…N};
Step2.2、构造HDP主题模型,则需假设所有的文档的主题均来自于某个分布H,则此时使用α和H作为参数的Dirichlet分布作为先验;
Step2.3、首先从先验中抽取一个分布G0,将其作为这篇文档的主题分布的先验,即此时满足:G0~DP(α,H);
Step2.4、再利用G0和γ为参数构造一个Dirichlet分布,从此分布中抽取一个主题分布Gd作为第d篇文档的主题分布,即此时满足:Gd~DP(γ,G0)
Step2.5、从上述得到的第d篇文档的主题分布Gd中抽取得第i个单词的主题θdi,最终从该主题中生成一个单词xdi,即此时经过迭代之后便得到词的主题分布,将此主题分布设定为一个伪单词。
4.根据权利要求2所述的基于主题模型词向量的神经网络柬语实体识别方法,其特征在于:所述步骤Step3的具体步骤如下:
Step3.1、对上述预处理之后的文本构建skip-gram模型;将预处理之后的文本中的单词用w表示,将使用主题模型得到的主题编号的伪单词用z表示,将文本单词和主题编号的伪单词以组为单位放入到同一文本中,即此时的输入为D={wi,zi}={w1,z1,…wi,zi,…wM,zM}
Step3.2、根据上述步骤中的输入,得到此时skip-gram模型的目标函数为:
其中,M为输入模型的词的个数,k为预测上下文的窗口大小。
5.根据权利要求2所述的基于主题模型词向量的神经网络柬语实体识别方法,其特征在于:所述步骤Step4具体步骤如下:
Step4.1、将上述Step2中得到的文本中每个词的词向量用w表示,步骤Step3中得到的词的主题向量用z表示;
Step4.2、对词向量w与词的主题向量z采用方式进行级联,即满足:此时便得到所需的主题词向量wz
6.根据权利要求2所述的基于主题模型词向量的神经网络柬语实体识别方法,其特征在于:所述步骤Step5具体步骤如下:
Step5.1、将上述得到的主题词向量特征作为输入特征(x1,x2,…xn),输入到CRF模型中,得:
其中,tj(ym+1,ym,x,m)是定义在观测序列的两个相邻标记位置上的转移特征函数,用于刻画相邻标记变量之间的相关关系以及观测序列对它们的影响,sk(ym,x,m)是定义在观测序列的标记位置m上的转台特征函数,用于刻画观测序列对标记变量的影响,λj和μk为参数,Z为规范化因子,此时便得到序列y的标记概率实现柬语的命名实体识别。
CN201810965632.XA 2018-08-23 2018-08-23 一种基于主题模型词向量的神经网络柬语实体识别方法 Pending CN109214000A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810965632.XA CN109214000A (zh) 2018-08-23 2018-08-23 一种基于主题模型词向量的神经网络柬语实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810965632.XA CN109214000A (zh) 2018-08-23 2018-08-23 一种基于主题模型词向量的神经网络柬语实体识别方法

Publications (1)

Publication Number Publication Date
CN109214000A true CN109214000A (zh) 2019-01-15

Family

ID=64989087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810965632.XA Pending CN109214000A (zh) 2018-08-23 2018-08-23 一种基于主题模型词向量的神经网络柬语实体识别方法

Country Status (1)

Country Link
CN (1) CN109214000A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069826A (zh) * 2020-07-15 2020-12-11 浙江工业大学 融合主题模型和卷积神经网络的垂直域实体消歧方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110231347A1 (en) * 2010-03-16 2011-09-22 Microsoft Corporation Named Entity Recognition in Query
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN105224521A (zh) * 2015-09-28 2016-01-06 北大方正集团有限公司 主题词提取方法及使用其获取相关数字资源的方法及装置
CN106980609A (zh) * 2017-03-21 2017-07-25 大连理工大学 一种基于词向量表示的条件随机场的命名实体识别方法
CN107861947A (zh) * 2017-11-07 2018-03-30 昆明理工大学 一种基于跨语言资源的柬语命名实体识别的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110231347A1 (en) * 2010-03-16 2011-09-22 Microsoft Corporation Named Entity Recognition in Query
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN105224521A (zh) * 2015-09-28 2016-01-06 北大方正集团有限公司 主题词提取方法及使用其获取相关数字资源的方法及装置
CN106980609A (zh) * 2017-03-21 2017-07-25 大连理工大学 一种基于词向量表示的条件随机场的命名实体识别方法
CN107861947A (zh) * 2017-11-07 2018-03-30 昆明理工大学 一种基于跨语言资源的柬语命名实体识别的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YANG LIU 等: "Topical Word Embeddings", 《AAAI"15: PROCEEDINGS OF THE TWENTY-NINTH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
刘绍毓: "实体关系抽取关键技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069826A (zh) * 2020-07-15 2020-12-11 浙江工业大学 融合主题模型和卷积神经网络的垂直域实体消歧方法
CN112069826B (zh) * 2020-07-15 2021-12-07 浙江工业大学 融合主题模型和卷积神经网络的垂直域实体消歧方法

Similar Documents

Publication Publication Date Title
CN109446404B (zh) 一种网络舆情的情感极性分析方法和装置
WO2021114745A1 (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN109635297B (zh) 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN110727880B (zh) 一种基于词库与词向量模型的敏感语料检测方法
CN109670041A (zh) 一种基于双通道文本卷积神经网络的带噪非法短文本识别方法
CN106776538A (zh) 企业非标准格式文档的信息提取方法
WO2019228466A1 (zh) 命名实体识别的方法、装置、设备及存储介质
CN106095749A (zh) 一种基于深度学习的文本关键词提取方法
CN105095190B (zh) 一种基于中文语义结构和细分词库结合的情感分析方法
CN109960727B (zh) 针对非结构化文本的个人隐私信息自动检测方法及系统
CN104408078A (zh) 一种基于关键词的中英双语平行语料库构建方法
CN111274814B (zh) 一种新型的半监督文本实体信息抽取方法
CN106611041A (zh) 一种新的文本相似度求解方法
CN103324626A (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN111191463A (zh) 情感分析方法、装置、电子设备及存储介质
CN107894975A (zh) 一种基于Bi‑LSTM的分词方法
CN112287240A (zh) 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置
CN112084308A (zh) 用于文本类型数据识别的方法、系统及存储介质
CN111061873B (zh) 一种基于Attention机制的多通道的文本分类方法
CN110502759B (zh) 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
CN111460147A (zh) 一种基于语义增强的标题短文本分类方法
Seeha et al. ThaiLMCut: Unsupervised pretraining for Thai word segmentation
CN109344233B (zh) 一种中文人名识别方法
Tianxiong et al. Identifying chinese event factuality with convolutional neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190115