CN107133220B

CN107133220B - 一种地理学科领域命名实体识别方法

Info

Publication number: CN107133220B
Application number: CN201710422919.3A
Authority: CN
Inventors: 李慧颖; 徐飞飞
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2017-06-07
Filing date: 2017-06-07
Publication date: 2020-11-24
Anticipated expiration: 2037-06-07
Also published as: CN107133220A

Abstract

本发明公开了一种地理学科领域命名实体识别方法，识别出地理学科核心术语类和地理区域位置类实体,主要包括三个步骤：(1)地理学科领域词典构建，采用新词发现算法无监督地识别出地理学科领域新词。(2)基于条件随机场(CRF)模型和多通道卷积神经网络(MCCNN)模型进行训练与测试。(3)基于规则的方法,纠错和融合模型识别出的实体。本发明采用新词发现算法无监督识别领域新词作为词典,以提高分词效果。从大规模未标注数据中无监督地学习词的语义向量，并综合词的基础特征，作为MCCNN模型的输入特征，避免了手动选取和构建特征。自定义规则融合两种模型的预测结果，纠正识别过程中的错误标记问题。

Description

一种地理学科领域命名实体识别方法

技术领域

本发明属于信息抽取技术领域，特别涉及一种地理学科领域命名实体识别方法。

背景技术

命名实体识别(Named Entity Recognition,NER)是信息抽取的基础环节，应用于后续任务，比如关系抽取、实体链接，广泛应用于自动问答、机器翻译等自然语言处理领域。

对于地理学科高考问答系统，构建面向基础教育的地理学科知识图谱，显得尤为重要。为了从地理学科资源中获取知识，构建地理学科知识图谱，命名实体识别通常是首要任务。本专利首次尝试面向地理学科领域进行命名实体识别，抽取的命名实体类别包括地理学科核心术语和地理区域位置。地理学科领域命名实体识别不仅具有汉语命名实体识别固有的难点，而且还面临领域分词困难以及缺乏大规模人工标注训练语料等诸多问题。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种能够有效融合序列标注模型和神经网络模型优点的框架，来实现命名实体识别，以及便于一系列后续应用开展的地理学科领域命名实体识别方法。

技术方案：为解决上述技术问题，本发明提供一种地理学科领域命名实体识别方法，包括如下步骤：

1)先标注语料，然后采用新词发现算法构建地理学科领域词典；

2)通过无标注的文本和步骤1中构建的地理学科领域词典，进行学习单词的特征表示；

3)通过多通道卷积神经网络模型训练和预测，多通道中其中一个通道的输入是句子中每个单词w_i的上下文特征φ(w_i)，倾向于捕捉词的句法和语义信息；另一个通道的输入是单词w_i的基础特征，选取词性、词长和词频，关于词的基本特征，倾向于捕捉词的表层特征；

4)首先对无标注的文本和地理学科领域词典构成的数据集进行预处理，然后进行分词、词性标注，并采用BIO标注方式对数据集进行标注；针对地理学科领域特点，进行特征选取，选取出常用特征和地理学科领域特征，最后根据条件随机场模型进行训练和预测；

5)采用基于规则的方法对步骤3和步骤4预测结果进行纠错和融合，得到最后的预测结果。

进一步的，所述步骤1中采用新词发现算法构建地理学科领域词典的具体步骤如下，通过计算单词w的左侧和右侧的上下文熵,单词w在语料X中出现的次数是n,出现在左侧的词语的集合为α＝{a₁,a₂,…,a_s},出现在它右侧的词语的集合为β＝{b₁,b₂,…,b_t}，单词w的左侧上下文熵和右侧上下文熵定义如下所示:

其中，Count(a_i,w)是a_i和w共同出现的次数，Count(b_j,w)是b_j和w共同出现的次数；当一个词项的左右侧上下文熵都较大,则说明与该词项左右相邻的不同词项个数较多，那么这个词项与左右侧相邻的词项构成新词的概率就较低。

进一步的，所述步骤2中学习单词特征表示的具体步骤如下：在无标注语料库Q中获取一个窗口大小为d的单词序列p＝(w₁,w₂,…,w_d)；该模型的目标就是能够区别正确的单词序列p以及一个随机单词序列p^r，其中p^r表示把单词序列p的中间单词替换为后的单词序列，r表示中间单词替换词，该模型的目标函数就是最小化与参数θ相关的排序损失：

其中，p是无标记语料库训练样本Q中所有的长度为d的单词序列，

是单词词典，f_θ(p)是p的得分，无标记语料库训练样本Q中所有的单词序列用于学习该语言模型；正例是语料库U中的单词序列，负例是把这些单词序列的中心词替换为随机词的结果。

进一步的，所述步骤3中通过多通道卷积神经网络模型训练和预测的整个模型训练过程如下：

使用每个单词w_i及其对应的标记t(w_i)，MCCNN模型对每个单词w_i输出向量o(w_i)。这时定义交叉熵作为训练集上的损失函数：

其中θ为参数权重，λ为正则化参数，权重参数θ通过后向传播算法计算，模型采用AdaGrad算法计算最小化损失函数。

进一步的，所述步骤4中常用特征包括单词特征，词性特征，形态特征，上下文特征和词频信息。

进一步的，所述步骤4中地理学科领域特征包括前后缀特征和指示词特征。

进一步的，所述步骤4中根据条件随机场模型进行训练和预测的具体步骤如下：在观测序列X取值为x的条件下，标记序列Y取值为y的条件概率具有如下形式：

其中，Z(x)＝∑_yexp(∑_i,kλ_kt_k(y_i-1,y_i,x,i)+∑_i,lμ_ls_l(y_i,x,i))，t_k和s_l是特征函数，λ_k和μ_l是对应的权值。Z(x)是规范化因子，在所有可能的输出序列上进行求和。

进一步的，步骤5中采用基于规则的方法对预测结果进行纠错和融合得到最后的预测结果的评判规则如下：

A、如果CRF模型预测的实体的开始单词不是实体首部标注B，而是实体内部标注I，那么通过MCCNN模型的预测结果查看该单词的预测分值，若满足阈值∈则将该单词改为实体首部标注B；

B、如果MCCNN模型预测的实体内部的多个单词出现多种实体类别，即该实体的类别不确定，此时选择CRF模型预测的实体类别作为该实体的类别。

与现有技术相比，本发明的优点在于：

本发明针对地理学科领域实体识别问题，采用MCCNN和CRF模型对地理学科核心术语和地理区域位置两类实体进行识别。基于规则融合两种模型的预测结果，纠正了识别过程中的错误标记问题；从大规模未标注数据中无监督地学习词的语义向量，并综合词的基础特征，作为MCCNN模型的输入特征，避免了手动选取和构建特征。因此本发明能够融合模型优点，弥补模型的不足，来实现地理学科领域实体识别，以及便于一系列后续应用(如实体链接、关系抽取)的开展。

当将命名实体识别作为一个序列标注任务，可以采用条件随机场模型。其中，条件随机场模型综合隐马尔可夫模型和最大熵马尔可夫模型的优点，克服了隐马尔可夫模型严格的独立性假设，并通过全局归一化解决了最大熵马尔可夫模型所固有的标记偏置问题。同时，条件随机场模型可以重叠使用非独立的特征，易于融合地理学科领域的新特征。因此，针对地理学科领域进行特征选取并利用条件随机场模型进行命名实体识别。

词向量是将最小语义单元映射为一组低维、连续的实值向量，向量中每一维表示某种隐含的句法和语义信息。因此采用多通道卷积神经网络模型，组合词向量特征和基础特征，作为模型的输入特征，进行地理学科领域命名实体识别。

附图说明

图1为本发明的总体流程图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。

一种基于规则融合CRF和MCCNN模型的地理学科领域命名实体识别方法，如图1所示，该方法包含基于新词发现算法构建领域词典、基于CRF和MCCNN模型进行训练与预测以及基于规则融合CRF和MCCNN模型预测结果三个步骤。

问题可以描述如下：用U表示中文维基百科语料，用G无标注地理学科领域语料G，地理学科领域命名实体识别的任务就是基于CRF模型和MCCNN模型对地理学科核心术语和地理区域位置两类实体进行识别，最后基于规则融合两种模型的预测结果，纠正识别过程中的错误标记。在下面的叙述中标记和实体会交替使用，具有相同的含义。

一、基于新词发现算法构建领域词典

步骤1，采用新词发现算法，无监督地从无标注语料中，抽取领域新词，构建词典。对于一个词w,通过计算w的互信息用来定义词w的内部凝固程度；计算w的左侧上下文熵和右侧上下文熵用来定义词w的自由程度。综合w的内部凝固程度和自由程度，可以挖掘无标注语料中的领域新词。

二、基于CRF和MCCNN模型进行训练与预测

步骤2，基于神经语言模型学习单词的特征表示，将无标记的语料库U中的每个单词w_i通过基于神经语言模型转化为一个低维、连续的实值向量，其中，i＝1…n，n为语料库U单词的个数。

步骤3，基于多通道卷积神经网络(MCCNN)模型训练和测试。模型输入采用多通道，其中一个通道的输入是句子中每个单词w_i的上下文特征φ(w_i)，倾向于捕捉词的句法、语义信息；另一个通道的输入是单词w_i的基础特征，选取词性、词长和词频，关于词的基本特征，倾向于捕捉词的表层特征。

对于句子中每个词的标签分类，综合使用基础特征和词向量特征，进行地理学科领域命名实体识别。具体地，对于一个句子{w₁,w₂,…,w_s}，选取句子中的当前词w_i，上文两个词w_i-1,w_i-2和下文两个词w_i+1,w_i+2，并将每个词转换成对应词向量V，其中

m表示单词的个数，模型中取值为5，k表示词向量的维度。然后采用卷积操作，得到特征c_i＝f(W⁰·V+b⁰)，其中i＝1,2,…,n,n为卷积核的个数，权值矩阵

偏置向量

f(·)是非线性函数。在池化层，采用

得到特征图谱向量r⁰。对于词的基础特征，采样同样方式得到特征图谱r¹,当前词的特征向量表示为

其中

表示连接符号。模型的输出层对当前词w_i的特征向量r，采用Softmax回归，得到预测标记为：t(w_i)＝softmax(r)。模型训练过程，模型采用AdaGrad算法(一种动态调整学习率的随机梯度下降算法)最小化损失函数。

步骤4，基于条件随机场(CRF)模型训练和测试。首先对数据集进行预处理，包括过滤清洗、特殊符号处理等操作，然后进行分词、词性标注，并采用BIO标注方式对数据集进行标注；针对地理学科领域特点，进行特征选取：常用特征和地理学科领域特征。常用特征包括单词特征、词性特征、形态特征、上下文特征和词频信息；地理学科领域特征包括前后缀特征和指示词特征。在观测序列X取值为x的条件下，标记序列Y取值为y的条件概率具有如下形式：

三、基于规则融合CRF和MCCNN模型预测结果

步骤5，基于规则纠错融合MCCNN模型和CRF模型的预测结果。采用MCCNN模型是对单词进行标签分类，而通常命名实体会包含多个单词，因此分类预测后的结果可能会出现矛盾。采用基于规则的方法对预测结果进行纠错和融合。

基于规则融合CRF和MCCNN模型的地理学科领域命名实体识别算法流程如下：

本发明在实验过程中，使用word2vec开源工具训练词向量，参数设置如下：上下文窗口选取为5，词向量的维度选取为100；使用开源工具CRF++0.58训练CRF模型。本发明提出的基于规则融合CRF和MCCNN模型的地理学科领域命名实体识别方法，在自建的地理学科数据集上，精确率达到92.59％，F1值到达92.77％，性能达到项目应用效果。

本发明提出的基于规则融合CRF和MCCNN模型的地理学科领域命名实体识别方法，可以实现对地理学科核心术语和地理区域位置两类实体进行识别，有利于一系列自然语言处理相关应用(如实体链接、关系抽取)的展开。从大规模未标注数据中无监督地学习词的语义向量，并综合词的基础特征，作为MCCNN模型的输入特征，避免了手动选取和构建特征。此外，本发明提出的基于规则融合两种模型的预测结果，纠正了识别过程中的错误标记问题。

以上所述仅为本发明的实施例子而已，并不用于限制本发明。凡在本发明的原则之内，所作的等同替换，均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

Claims

1.一种地理学科领域命名实体识别方法，其特征在于，包括如下步骤：

2)通过无标注的文本和步骤1）中构建的地理学科领域词典，进行学习单词的特征表示；

3)通过多通道卷积神经网络模型训练和预测，多通道中其中一个通道的输入是句子中每个单词w_i的上下文特征φ(w_i)，倾向于捕捉词的句法和语义信息；另一个通道的输入是单词w_i的基础特征，选取词性、词长和词频，关于词的基础特征，倾向于捕捉词的表层特征；

5)采用基于规则的方法对步骤3）和步骤4）预测结果进行纠错和融合，得到最后的预测结果；

步骤4)中常用特征包括单词特征，词性特征，形态特征，上下文特征和词频信息。

2.根据权利要求1所述的一种地理学科领域命名实体识别方法，其特征在于，所述步骤1)中采用新词发现算法构建地理学科领域词典的具体步骤如下，通过计算单词w的左侧和右侧的上下文熵,单词w在语料X中出现的次数是n,出现在左侧的词语的集合为α＝{a₁,a₂,…,a_s},出现在它右侧的词语的集合为β＝{b₁,b₂,…,b_t}，单词w的左侧上下文熵和右侧上下文熵定义如下所示:

其中，Count(a_i,w)是a_i和w共同出现的次数，Count(b_j,w)是b_j和w共同出现的次数。

3.根据权利要求1所述的一种地理学科领域命名实体识别方法，其特征在于，所述步骤2)中学习单词特征表示的具体步骤如下：在无标注语料库Q中获取一个窗口长度为d的单词序列p＝(w₁,w₂,…,w_d)；词向量生成模型的目标是能够区别长度为d的单词序列p以及一个随机单词序列p^r，其中p^r表示把长度为d的单词序列p的中间单词替换后的单词序列，r表示中间单词替换词，词向量生成模型的目标函数就是最小化与参数θ相关的排序损失：

其中，p是无标注语料库Q中所有的长度为d的单词序列，

是单词词典，f_θ(p)是p的得分，无标注语料库Q中所有的单词序列用于学习神经语言模型；正例是语料库U中的单词序列，负例是把这些单词序列的中心词替换为随机词的结果。

4.根据权利要求1所述的一种地理学科领域命名实体识别方法，其特征在于，所述步骤3)中通过多通道卷积神经网络模型训练和预测的整个模型训练过程如下：

使用每个单词w_i及其对应的标记t(w_i)，多通道卷积神经网络模型对每个单词w_i输出向量o(w_i)；这时定义交叉熵作为训练集上的损失函数：

其中θ为权重参数，λ为正则化参数，权重参数θ通过后向传播算法计算，模型采用AdaGrad算法计算最小化损失函数。

5.根据权利要求1所述的一种地理学科领域命名实体识别方法，其特征在于，所述步骤4)中地理学科领域特征包括前后缀特征和指示词特征。

6.根据权利要求1所述的一种地理学科领域命名实体识别方法，其特征在于，所述步骤4)中根据条件随机场模型进行训练和预测的具体步骤如下：在观测序列X取值为x的条件下，标记序列Y取值为y的条件概率具有如下形式：

其中，Z(x)＝∑_yexp(∑_i,kλ_kt_k(y_i-1,y_i,x,i)+∑_i,lμ_ls_l(y_i,x,i))，t_k和s_l是特征函数，λ_k和μ_l是对应的权值；Z(x)是规范化因子，在所有可能的输出序列上进行求和。

7.根据权利要求1所述的一种地理学科领域命名实体识别方法，其特征在于，步骤1)中采用基于规则的方法对预测结果进行纠错和融合得到最后的预测结果的评判规则如下：

A、如果CRF模型预测的实体的开始单词不是实体首部标注B，而是实体内部标注I，那么通过多通道卷积神经网络模型的预测结果查看该单词的预测分值，若满足阈值∈则将该单词改为实体首部标注B；

B、如果多通道卷积神经网络模型预测的实体内部的多个单词出现多种实体类别，即该实体的类别不确定，此时选择CRF模型预测的实体类别作为该实体的类别。