CN108763201B - 一种基于半监督学习的开放域中文文本命名实体识别方法 - Google Patents
一种基于半监督学习的开放域中文文本命名实体识别方法 Download PDFInfo
- Publication number
- CN108763201B CN108763201B CN201810472083.2A CN201810472083A CN108763201B CN 108763201 B CN108763201 B CN 108763201B CN 201810472083 A CN201810472083 A CN 201810472083A CN 108763201 B CN108763201 B CN 108763201B
- Authority
- CN
- China
- Prior art keywords
- training
- model
- word
- crf
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
一种基于半监督学习的开放域命名实体识别方法,包括模型训练与利用模型预测两个步骤:模型训练阶段将训练集文本进行分词预处理;然后借助word2vec工具构建的词向量空间,获取训练文本中词的分布式形式表示的词向量;利用训练集中词向量以及每个词向量已有的实体类型标签,对KNN分类器以及CRF标注器进行训练,生成KNN‑CRF命名实体类别的预测模型;在模型预测阶段,引入空的可靠结果集,每当预测生成新的预测结果,将其加入可靠结果集;当可靠结果集中的数量达到阈值,弃用之前的KNN以及CRF模型,将可靠结果集中的结果加入到训练集中,对KNN分类器以及CRF标注模型进行重新训练;重复上述步骤直到满足条件。
Description
技术领域:
本发明是一种命名实体识别方法,尤其是基于半监督学习的开放域命名实体识别方法。
背景技术:
随着信息技术的快速发展,当今社会已经迎来了数据大爆炸时期,每时每刻都会产生海量的数据,无论是个人、企业还是政府。而如何在这些数据当中提取出其中所蕴含着的对人们有价值的信息则显得至关重要。命名实体识别就是为了解决该任务而提出的一种利用计算机技术从文本数据中抽取有价值的信息和知识的应用驱动型学科。传统的命名实体识别的做法是关键词的检索和基于相关的规则,例如通过与数据库中关键词的匹配以及固定的句式模式匹配从而提取目标数据。然而该方法的不足之处在于难以保证数据库数据的完备以及规则制定过程的费时费力,因此需要人工对其进一步的干预来得到最终所需要的信息。
同时,在作为象形文字的中文的应用中,命名实体识别技术相较于英文往往来说要更有挑战性,原因可以归结为以下几点:
(1)中文文本中,字与字之间没有类似英文单词间有空格,因此“词”在中文中是一种比较模糊的概念,因而确定词的分界就是命名实体识别的第一步。
(2)命名实体中存在着嵌套现象。比如“南京大学计算机学院”这一组织机构名称中还嵌套着“南京大学”这一可同样作为组织机构名称的子结构。并且在机构名称中这种现象十分普遍。
(3)中文词语的灵活多变,有些词语在不同的上下文中有着不同的实体类型,比如“重大”可能是作为形容词,也可以作为机构名“重庆大学”的缩写。
(4)中文表达中广泛存在着缩写的表达现象,比如“南大”就是机构名“南京大学”实体的缩写表达。缩写实体的识别往往也是难点之一。
发明内容:
本发明解决的问题是,提供一种基于半监督学习的面向中文文本的开放域命名实体识别方法。本方法依托Python分词工具jieba以及tensorflow中的word2vector工具,将文本中的中文文本数据进行分词和转换为词向量,并通过KNN分类器训练CRF模型,最后将训练好的KNN模型和CRF模型进行组合来对未标注的文本执行命名实体识别的任务。
针对上述技术问题,本发明所采取的技术方案是,一种基于半监督学习的开放域命名实体识别方法,包括以下主要过程:结果集更新、KNN分类过程和CRF标注过程;
包括模型训练与利用模型预测两个步骤:
1)模型训练阶段:
a)将训练集文本进行分词预处理;
b)通过word2vector工具将训练文本中的词转换为分布式表示的词向量形式;
c)在训练好的KNN分类器中,将用分布式表示的词向量中每个词打上分类标签,作为训练CRF标注模型时的输入;
d)训练CRF标注模型。
e)结束。
2)模型预测阶段:
a)将测试集文本进行分词预处理;
b)通过word2vector工具将训练文本中的词转换为分布式表示的词向量形式;
c)将测试文本中得到的词向量都经过KNN分类器而得到一个分类标签和其相应的概率,若这个概率高于预设的阈值,则更新该标签给该词;
d)在测试集数据经过KNN之后,作为特征输入到CRF模型中进行预测,如果预测出的结果概率大于等于预设的阈值,则认为标注结果可靠,加入到可靠结果集中;
e)每当可靠结果集的数量达到预设值N时,重新训练KNN和CRF模型并清空可靠结果集,重复之前生成标注结果和填充可靠结果集的过程;
f)结束。
步骤1)-a中分词处理采用的是python中的中文分词工具jieba,目的是为了对中文文本进行分词,原因是相对于英文文本,中文文本词与词之间没有空格分隔,而分词工具的作用就是识别词与词之间的间隔。
步骤1)-b中通过word2vector工具将训练文本中的词转换为分布式表示的词向量形式,即相对于传统one-hot representation表示的更加低维的实数向量,如[0.792,-0.177,-0.107,0.109,-0.542,…],维度的范围为50-100,而且词向量表示形式可以用词向量之间的欧式距离来判断词与词之间的相似性。
步骤1)-c中KNN分类器的训练过程为:
i.初始化KNN分类器lk为空;
iv.若训练文本中的句子没有提取完毕,重复ii和iii步骤;
v.返回训练好的KNN分类器;
vi.结束。
步骤1)-c中KNN分类器的预测步骤为:
iv.返回得到的预测标签和对应的概率值;
v.结束。
步骤1)-d中训练CRF模型的具体步骤如下:
i.给定训练数据集X和对应的标记序列Y,K个特征函数fk(x,y),需要学习模型参数wk和条件概率Pw(y|x),其中wk和Pw(y|x)满足以下关系:
目标转换为求解所有的模型参数wk;
ii.用梯度下降法求解模型参数;
iii.结束。
步骤2)-d中CRF模型预测的具体步骤如下:
i.输入模型的K个特征函数和对应的K个权重,观测序列x=(x1,x2,…,xn),可能的标记个数m;
ii.将局部状态定义为δi(l)表示在位置i标记l各个可能取值(1,2...m)对应的非规范化概率的最大值,另一个局部状态Ψi+1(l)来记录使δi+1(l)达到最大的位置i的标记取值,这个值用来最终回溯最优解。
Ψ1(l)=start,l=1,2,…,m;
iv.对i=1,2,…,n-1进行递推:
l=1,2,…,m
l=1,2,...,m
结束。
有益效果:本发明是一种基于半监督学习的开放域文本命名实体识别方法,通过将词转变为分布式形式表达的词向量作为输入,训练KNN-CRF命名实体预测模型,同时预测阶段,将已预测成功的结果加入到训练集中对预测模型进行重新训练,实现命名实体识别的半监督的学习方法,从而解决传统词袋模型丢失上下文语义的缺点,同时半监督学习的模式(不断更新作为种子的训练集)使得不依赖于规则或大量语料库进行学习的命名实体识别方法成为了可能,大大提高了命名实体识别的效率。
附图说明:
图1为本发明的方法流程图;
图2为本发明的整体结构图。
具体实施方式:
为了更了解本发明的技术内容,特举具体实施例并配合附图说明如下。首先对训练数据进行分词处理,然后借助word2vec工具构建的词向量空间,获取训练文本中词的分布式形式表示的词向量;利用训练集中词向量以及每个词向量已有的实体类型标签,对KNN分类器以及CRF标注器进行训练,生成KNN-CRF命名实体类别的预测模型;在模型预测阶段,引入空的可靠结果集,每当预测生成新的预测结果,将其加入可靠结果集;当可靠结果集中的数量达到阈值,弃用之前的KNN以及CRF模型,将可靠结果集中的结果加入到训练集中,对KNN分类器以及CRF标注模型进行重新训练;重复上述步骤直到满足条件
图1是本发明构建预测模型的流程图。
步骤0在原始文本中取出一部分(约20%)作为训练集文本,剩余的作为测试集文本数据,都进行分词处理;
步骤1将分好词的训练集文本和测试集文本中的词用one-hot Representation的形式表示,作为word2vector工具的输入,生成分布式表示的词向量;
步骤2用训练集中的词向量来训练KNN分类器;
步骤3在训练好的KNN分类器中,将用分布式表示的训练集词向量中每个词打上分类标签,作为训练CRF标注模型时的输入;
步骤4训练CRF标注模型;
步骤5初始化一个空的可靠结果集;
步骤6将测试文本中得到的词向量都经过KNN分类器而得到一个分类标签和其相应的概率,若这个概率高于预设的阈值(例如,50%),则更新该标签给该词;
步骤7在测试集数据经过KNN分类器之后,作为特征输入到CRF模型中进行预测,如果预测出的结果概率大于等于预设的阈值(例如,50%),则认为标注结果可靠,加入到可靠结果集中;
步骤8每当可靠结果集的数量达到预设值N(例如,500或1000)时,重新训练KNN和CRF模型并清空可靠结果集,重复之前生成标注结果和填充可靠结果集的过程,即步骤2-步骤7;
步骤9将步骤7中认为标注结果可靠的标注序列作为结果输出;
步骤10是结束步骤;
综上所述,本发明是一种基于半监督学习的面向中文文本的开放域命名实体识别方法。本方法依托Python分词工具jieba以及tensorflow中的word2vector工具,将文本中的中文文本数据进行分词和转换为词向量,并通过KNN分类器训练CRF模型,最后将训练好的KNN模型和CRF模型进行组合来对未标注的文本执行命名实体识别的任务。通过本发明中的方法规避了命名实体识别问题中需要制定规则或者学习大量语料的难题,进而提高了开放域中文文本的命名实体识别效率。本发明所适用系统总体结构如附图2所示。
本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种改动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。
Claims (2)
1.一种基于半监督学习的开放域中文文本命名实体识别方法,其特征是,包括模型训练与利用模型预测两个步骤:
1)模型训练阶段:
1.1)将训练集文本进行分词预处理;
1.2)通过word2vector工具将训练文本中的词转换为分布式表示的词向量形式;
1.3)在训练好的KNN分类器中,将用分布式表示的词向量中每个词打上分类标签,作为训练CRF标注模型时的输入;
1.4)训练CRF标注模型;
1.5)结束;
2)模型预测阶段:
2.1)将测试集文本进行分词预处理;
2.2)通过word2vector工具将训练文本中的词转换为分布式表示的词向量形式;
2.3)将测试文本中得到的词向量都经过KNN分类器而得到一个分类标签和其相应的概率,若这个概率高于预设的阈值,则更新该标签给该词;
2.4)在测试集数据经过KNN之后,作为特征输入到CRF模型中进行预测,如果预测出的结果概率大于等于预设的阈值,则认为标注结果可靠,加入到可靠结果集中;
2.5)每当可靠结果集的数量达到N=500时,重新训练KNN和CRF模型并清空可靠结果集,重复之前生成标注结果和填充可靠结果集的过程;
2.6)结束;
步骤1.1)中分词处理采用的是python中的中文分词工具jieba;
步骤1.1)中通过word2vector工具将训练文本中的词转换为分布式表示的词向量形式;
步骤1.3)中KNN分类器的训练过程为:
1.3.1)初始化KNN分类器lk为空;
1.3.4)若训练文本中的句子没有提取完毕,重复1.3.2)和1.3.3)步骤;
1.3.5)返回训练好的KNN分类器;
1.3.6)结束;
步骤2.3)中KNN分类器的预测步骤为:
2.3.4)返回得到的预测标签和对应的概率值;
2.3.5)结束;
步骤1.4)中训练CRF模型的具体步骤如下:
1.4.1)给定训练数据集X和对应的标记序列Y,K个特征函数fk(x,y),需要学习模型参数wk和条件概率Pw(y|x),其中wk和Pw(y|x)满足以下关系:
目标转换为求解所有的模型参数wk;
1.4.2)用梯度下降法求解模型参数;
1.4.3)结束。
2.根据权利 要求1所述的基于半监督学习的开放域中文文本命名实体识别方法,其特征是,步骤2.4)中CRF模型预测的具体步骤如下:
2.4.1)输入模型的K个特征函数和对应的K个权重,观测序列x=(x1,x2,…,xn),可能的标记个数m;
2.4.2)将局部状态定义为δi(l)表示在位置i标记l各个可能取值(1,2...m)对应的非规范化概率的最大值,另一个局部状态Ψi+1(l)来记录使δi+1(l)达到最大的位置i的标记取值,这个值用来最终回溯最优解;
Ψ1(l)=start,l=1,2,…,m;
2.4.4)对i=1,2,…,n-1进行递推:
2.4.8)结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810472083.2A CN108763201B (zh) | 2018-05-17 | 2018-05-17 | 一种基于半监督学习的开放域中文文本命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810472083.2A CN108763201B (zh) | 2018-05-17 | 2018-05-17 | 一种基于半监督学习的开放域中文文本命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108763201A CN108763201A (zh) | 2018-11-06 |
CN108763201B true CN108763201B (zh) | 2021-07-23 |
Family
ID=64008200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810472083.2A Active CN108763201B (zh) | 2018-05-17 | 2018-05-17 | 一种基于半监督学习的开放域中文文本命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763201B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020133291A1 (zh) * | 2018-12-28 | 2020-07-02 | 深圳市优必选科技有限公司 | 文本实体识别方法、装置、计算机设备及存储介质 |
CN109829497B (zh) * | 2019-01-31 | 2021-06-22 | 清华四川能源互联网研究院 | 一种基于监督学习的台区用户识别及判别方法 |
CN110209812B (zh) * | 2019-05-07 | 2022-04-22 | 北京地平线机器人技术研发有限公司 | 文本分类方法和装置 |
CN111985235B (zh) * | 2019-05-23 | 2024-05-07 | 北京地平线机器人技术研发有限公司 | 文本处理方法、装置、计算机可读存储介质和电子设备 |
CN110287481B (zh) * | 2019-05-29 | 2022-06-14 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 命名实体语料标注训练系统 |
CN110826335B (zh) * | 2019-11-14 | 2023-06-02 | 北京明略软件系统有限公司 | 一种命名实体识别的方法和装置 |
CN111046180A (zh) * | 2019-12-05 | 2020-04-21 | 竹间智能科技(上海)有限公司 | 一种基于文本数据的标签识别方法 |
CN111144119B (zh) * | 2019-12-27 | 2024-03-29 | 北京联合大学 | 一种改进知识迁移的实体识别方法 |
CN111209362A (zh) * | 2020-01-07 | 2020-05-29 | 苏州城方信息技术有限公司 | 基于深度学习的地址数据解析方法 |
CN111563165B (zh) * | 2020-05-11 | 2020-12-18 | 北京中科凡语科技有限公司 | 一种基于锚点词定位和训练语句增广的语句分类方法 |
CN112883191B (zh) * | 2021-02-05 | 2023-03-24 | 山东麦港数据系统有限公司 | 一种农业实体自动识别的分类方法及装置 |
CN113030197B (zh) * | 2021-03-26 | 2022-11-04 | 哈尔滨工业大学 | 一种气体传感器漂移补偿方法 |
CN113268740B (zh) * | 2021-05-27 | 2022-08-16 | 四川大学 | 一种网站系统的输入约束完备性检测方法 |
CN113919355B (zh) * | 2021-10-19 | 2023-11-07 | 四川大学 | 一种适用于少训练语料场景的半监督命名实体识别方法 |
CN114118093B (zh) * | 2022-01-27 | 2022-04-15 | 华东交通大学 | 一种扁平化标记增强的嵌套命名实体识别方法与系统 |
CN115062618A (zh) * | 2022-06-10 | 2022-09-16 | 姚克勤 | 一种医疗领域命名实体识别方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106557462A (zh) * | 2016-11-02 | 2017-04-05 | 数库(上海)科技有限公司 | 命名实体识别方法和系统 |
CN106980609A (zh) * | 2017-03-21 | 2017-07-25 | 大连理工大学 | 一种基于词向量表示的条件随机场的命名实体识别方法 |
CN107193959A (zh) * | 2017-05-24 | 2017-09-22 | 南京大学 | 一种面向纯文本的企业实体分类方法 |
CN107301246A (zh) * | 2017-07-14 | 2017-10-27 | 河北工业大学 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
CN108874997A (zh) * | 2018-06-13 | 2018-11-23 | 广东外语外贸大学 | 一种面向电影评论的人名命名实体识别方法 |
-
2018
- 2018-05-17 CN CN201810472083.2A patent/CN108763201B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106557462A (zh) * | 2016-11-02 | 2017-04-05 | 数库(上海)科技有限公司 | 命名实体识别方法和系统 |
CN106980609A (zh) * | 2017-03-21 | 2017-07-25 | 大连理工大学 | 一种基于词向量表示的条件随机场的命名实体识别方法 |
CN107193959A (zh) * | 2017-05-24 | 2017-09-22 | 南京大学 | 一种面向纯文本的企业实体分类方法 |
CN107301246A (zh) * | 2017-07-14 | 2017-10-27 | 河北工业大学 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
CN108874997A (zh) * | 2018-06-13 | 2018-11-23 | 广东外语外贸大学 | 一种面向电影评论的人名命名实体识别方法 |
Non-Patent Citations (4)
Title |
---|
Case Study of Named Entity Recognition in Odia Using Crf++ Tool;Dr.Rakesh ch. Balabantaray et.al;《International Journal of Advanced Computer Science and Applications》;20130630;第4卷(第6期);第213-216页 * |
Entity Extraction of Customs Clearance Data Based on CRF and Specific Rules;Yong-Bin Xu;《2017 International Conference on Network and Information Systems for Computers》;20170401;第140-146页 * |
Recognizing Named Entities in Tweets;Xiaohua Liu et.al;《Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics》;20110624;期刊第362页左栏倒数第4行至第364页2行 * |
基于CRF和规则相结合的地理命名实体识别方法;何炎祥等;《计算机应用与软件》;20150131;第32卷(第1期);第179-202页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108763201A (zh) | 2018-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763201B (zh) | 一种基于半监督学习的开放域中文文本命名实体识别方法 | |
CN109657239B (zh) | 基于注意力机制和语言模型学习的中文命名实体识别方法 | |
CN107273355B (zh) | 一种基于字词联合训练的中文词向量生成方法 | |
CN109543181B (zh) | 一种基于主动学习和深度学习相结合的命名实体模型和系统 | |
CN110232192A (zh) | 电力术语命名实体识别方法及装置 | |
CN107590177B (zh) | 一种结合监督学习的中文文本分类方法 | |
CN111738007B (zh) | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 | |
CN110879831A (zh) | 基于实体识别技术的中医药语句分词方法 | |
CN111400455A (zh) | 基于知识图谱的问答系统的关系检测方法 | |
CN112560478A (zh) | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 | |
CN110555084A (zh) | 基于pcnn和多层注意力的远程监督关系分类方法 | |
Wu et al. | Unconstrained offline handwritten word recognition by position embedding integrated resnets model | |
CN116432655B (zh) | 基于语用知识学习的少样本命名实体识别方法和装置 | |
CN114491024B (zh) | 一种基于小样本的特定领域多标签文本分类方法 | |
CN111753088A (zh) | 一种自然语言信息的处理方法 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN111428505B (zh) | 一种融合触发词识别特征的实体关系抽取方法 | |
CN114239612A (zh) | 一种多模态神经机器翻译方法、计算机设备及存储介质 | |
CN117371523A (zh) | 基于人机混合增强的教育知识图谱构建方法与系统 | |
CN114781375A (zh) | 一种基于bert与注意力机制的军事装备关系抽取方法 | |
CN111444720A (zh) | 一种英文文本的命名实体识别方法 | |
CN113297851B (zh) | 一种针对易混淆运动损伤实体词的识别方法 | |
CN115952284A (zh) | 一种融合密度聚类与ernie的医疗文本关系抽取方法 | |
CN114579763A (zh) | 一种针对中文文本分类任务的字符级对抗样本生成方法 | |
CN115130475A (zh) | 一种可扩展的通用端到端命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |