CN108763201B

CN108763201B - 一种基于半监督学习的开放域中文文本命名实体识别方法

Info

Publication number: CN108763201B
Application number: CN201810472083.2A
Authority: CN
Inventors: 吴骏; 陈鹏飞; 唐思雨; 孙伟; 王崇骏
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2021-07-23
Anticipated expiration: 2038-05-17
Also published as: CN108763201A

Abstract

一种基于半监督学习的开放域命名实体识别方法，包括模型训练与利用模型预测两个步骤：模型训练阶段将训练集文本进行分词预处理；然后借助word2vec工具构建的词向量空间，获取训练文本中词的分布式形式表示的词向量；利用训练集中词向量以及每个词向量已有的实体类型标签，对KNN分类器以及CRF标注器进行训练，生成KNN‑CRF命名实体类别的预测模型；在模型预测阶段，引入空的可靠结果集，每当预测生成新的预测结果，将其加入可靠结果集；当可靠结果集中的数量达到阈值，弃用之前的KNN以及CRF模型，将可靠结果集中的结果加入到训练集中，对KNN分类器以及CRF标注模型进行重新训练；重复上述步骤直到满足条件。

Description

一种基于半监督学习的开放域中文文本命名实体识别方法

技术领域：

本发明是一种命名实体识别方法，尤其是基于半监督学习的开放域命名实体识别方法。

背景技术：

随着信息技术的快速发展，当今社会已经迎来了数据大爆炸时期，每时每刻都会产生海量的数据，无论是个人、企业还是政府。而如何在这些数据当中提取出其中所蕴含着的对人们有价值的信息则显得至关重要。命名实体识别就是为了解决该任务而提出的一种利用计算机技术从文本数据中抽取有价值的信息和知识的应用驱动型学科。传统的命名实体识别的做法是关键词的检索和基于相关的规则，例如通过与数据库中关键词的匹配以及固定的句式模式匹配从而提取目标数据。然而该方法的不足之处在于难以保证数据库数据的完备以及规则制定过程的费时费力，因此需要人工对其进一步的干预来得到最终所需要的信息。

同时，在作为象形文字的中文的应用中，命名实体识别技术相较于英文往往来说要更有挑战性，原因可以归结为以下几点：

(1)中文文本中，字与字之间没有类似英文单词间有空格，因此“词”在中文中是一种比较模糊的概念，因而确定词的分界就是命名实体识别的第一步。

(2)命名实体中存在着嵌套现象。比如“南京大学计算机学院”这一组织机构名称中还嵌套着“南京大学”这一可同样作为组织机构名称的子结构。并且在机构名称中这种现象十分普遍。

(3)中文词语的灵活多变，有些词语在不同的上下文中有着不同的实体类型，比如“重大”可能是作为形容词，也可以作为机构名“重庆大学”的缩写。

(4)中文表达中广泛存在着缩写的表达现象，比如“南大”就是机构名“南京大学”实体的缩写表达。缩写实体的识别往往也是难点之一。

发明内容：

本发明解决的问题是，提供一种基于半监督学习的面向中文文本的开放域命名实体识别方法。本方法依托Python分词工具jieba以及tensorflow中的word2vector工具，将文本中的中文文本数据进行分词和转换为词向量，并通过KNN分类器训练CRF模型，最后将训练好的KNN模型和CRF模型进行组合来对未标注的文本执行命名实体识别的任务。

针对上述技术问题，本发明所采取的技术方案是，一种基于半监督学习的开放域命名实体识别方法，包括以下主要过程：结果集更新、KNN分类过程和CRF标注过程；

包括模型训练与利用模型预测两个步骤：

1)模型训练阶段：

a)将训练集文本进行分词预处理；

b)通过word2vector工具将训练文本中的词转换为分布式表示的词向量形式；

c)在训练好的KNN分类器中，将用分布式表示的词向量中每个词打上分类标签，作为训练CRF标注模型时的输入；

d)训练CRF标注模型。

e)结束。

2)模型预测阶段：

a)将测试集文本进行分词预处理；

c)将测试文本中得到的词向量都经过KNN分类器而得到一个分类标签和其相应的概率，若这个概率高于预设的阈值，则更新该标签给该词；

d)在测试集数据经过KNN之后，作为特征输入到CRF模型中进行预测，如果预测出的结果概率大于等于预设的阈值，则认为标注结果可靠，加入到可靠结果集中；

e)每当可靠结果集的数量达到预设值N时，重新训练KNN和CRF模型并清空可靠结果集，重复之前生成标注结果和填充可靠结果集的过程；

f)结束。

步骤1)-a中分词处理采用的是python中的中文分词工具jieba，目的是为了对中文文本进行分词，原因是相对于英文文本，中文文本词与词之间没有空格分隔，而分词工具的作用就是识别词与词之间的间隔。

步骤1)-b中通过word2vector工具将训练文本中的词转换为分布式表示的词向量形式，即相对于传统one-hot representation表示的更加低维的实数向量，如[0.792,-0.177,-0.107,0.109,-0.542,…]，维度的范围为50-100，而且词向量表示形式可以用词向量之间的欧式距离来判断词与词之间的相似性。

步骤1)-c中KNN分类器的训练过程为：

i.初始化KNN分类器l_k为空；

ii.对于训练集中每个句子t中每个词的词向量

以及其标签c组合成

计算出其特征向量

iii.将

组合加入到KNN分类器l_k中：

iv.若训练文本中的句子没有提取完毕，重复ii和iii步骤；

v.返回训练好的KNN分类器；

vi.结束。

步骤1)-c中KNN分类器的预测步骤为：

i.初始化nb为特征向量

的上下文词向量的特征向量集合

ii.计算该词向量预测的标签

iii.计算词向量预测为标签c的概率

iv.返回得到的预测标签和对应的概率值；

v.结束。

步骤1)-d中训练CRF模型的具体步骤如下：

i.给定训练数据集X和对应的标记序列Y，K个特征函数f_k(x,y)，需要学习模型参数w_k和条件概率P_w(y|x)，其中w_k和P_w(y|x)满足以下关系：

目标转换为求解所有的模型参数w_k；

ii.用梯度下降法求解模型参数；

iii.结束。

步骤2)-d中CRF模型预测的具体步骤如下：

i.输入模型的K个特征函数和对应的K个权重，观测序列x＝(x₁,x₂,…,xn)，可能的标记个数m；

ii.将局部状态定义为δ_i(l)表示在位置i标记l各个可能取值(1,2...m)对应的非规范化概率的最大值，另一个局部状态Ψ_i+1(l)来记录使δ_i+1(l)达到最大的位置i的标记取值,这个值用来最终回溯最优解。

iii.初始化

Ψ₁(l)＝start,l＝1,2,…,m；

iv.对i＝1,2,…,n-1进行递推：

l＝1,2,…,m

l＝1，2，...，m

v.终止：

vi.回溯：

i＝n-1,n-2,…,1；

vii.得到最终标记序列

结束。

有益效果：本发明是一种基于半监督学习的开放域文本命名实体识别方法，通过将词转变为分布式形式表达的词向量作为输入，训练KNN-CRF命名实体预测模型，同时预测阶段，将已预测成功的结果加入到训练集中对预测模型进行重新训练，实现命名实体识别的半监督的学习方法，从而解决传统词袋模型丢失上下文语义的缺点，同时半监督学习的模式(不断更新作为种子的训练集)使得不依赖于规则或大量语料库进行学习的命名实体识别方法成为了可能，大大提高了命名实体识别的效率。

附图说明：

图1为本发明的方法流程图；

图2为本发明的整体结构图。

具体实施方式：

为了更了解本发明的技术内容，特举具体实施例并配合附图说明如下。首先对训练数据进行分词处理，然后借助word2vec工具构建的词向量空间，获取训练文本中词的分布式形式表示的词向量；利用训练集中词向量以及每个词向量已有的实体类型标签，对KNN分类器以及CRF标注器进行训练，生成KNN-CRF命名实体类别的预测模型；在模型预测阶段，引入空的可靠结果集，每当预测生成新的预测结果，将其加入可靠结果集；当可靠结果集中的数量达到阈值，弃用之前的KNN以及CRF模型，将可靠结果集中的结果加入到训练集中，对KNN分类器以及CRF标注模型进行重新训练；重复上述步骤直到满足条件

图1是本发明构建预测模型的流程图。

步骤0在原始文本中取出一部分(约20％)作为训练集文本，剩余的作为测试集文本数据，都进行分词处理；

步骤1将分好词的训练集文本和测试集文本中的词用one-hot Representation的形式表示，作为word2vector工具的输入，生成分布式表示的词向量；

步骤2用训练集中的词向量来训练KNN分类器；

步骤3在训练好的KNN分类器中，将用分布式表示的训练集词向量中每个词打上分类标签，作为训练CRF标注模型时的输入；

步骤4训练CRF标注模型；

步骤5初始化一个空的可靠结果集；

步骤6将测试文本中得到的词向量都经过KNN分类器而得到一个分类标签和其相应的概率，若这个概率高于预设的阈值(例如，50％)，则更新该标签给该词；

步骤7在测试集数据经过KNN分类器之后，作为特征输入到CRF模型中进行预测，如果预测出的结果概率大于等于预设的阈值(例如，50％)，则认为标注结果可靠，加入到可靠结果集中；

步骤8每当可靠结果集的数量达到预设值N(例如，500或1000)时，重新训练KNN和CRF模型并清空可靠结果集，重复之前生成标注结果和填充可靠结果集的过程，即步骤2-步骤7；

步骤9将步骤7中认为标注结果可靠的标注序列作为结果输出；

步骤10是结束步骤；

综上所述，本发明是一种基于半监督学习的面向中文文本的开放域命名实体识别方法。本方法依托Python分词工具jieba以及tensorflow中的word2vector工具，将文本中的中文文本数据进行分词和转换为词向量，并通过KNN分类器训练CRF模型，最后将训练好的KNN模型和CRF模型进行组合来对未标注的文本执行命名实体识别的任务。通过本发明中的方法规避了命名实体识别问题中需要制定规则或者学习大量语料的难题，进而提高了开放域中文文本的命名实体识别效率。本发明所适用系统总体结构如附图2所示。

本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种改动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。