CN111144119B

CN111144119B - 一种改进知识迁移的实体识别方法

Info

Publication number: CN111144119B
Application number: CN201911374613.0A
Authority: CN
Inventors: 赵平; 孙连英; 涂帅; 王金峰
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2024-03-29
Anticipated expiration: 2039-12-27
Also published as: CN111144119A

Abstract

本发明涉及一种景点实体识别方法，利用知识迁移的思想解决了旅游领域标注数据难获取的问题，同时解决了利用深度学习方法识别景点中严重依赖标注数据以及标注数据质量问题，此外用融合语言模型的BERT+BiLSTM+CRF方法解决了中文命名实体识别特征表示的一词多义问题。本发明借助已有的辅助领域样本的标注数据，根据关键词，句子，可扩展能力三个级别的评估，利用评估结果扩展目标领域训练集。经过实验证明，本发明仅取1/4的标注数据，就可以获得比较显著的识别效果。此外，在无需进行大量的人工数据标注的前提下，借助已有的辅助领域样本的标注数据进行扩展，在不影响识别效率的前提下，减少了人工标注数据所花费的时间和精力。

Description

一种改进知识迁移的实体识别方法

技术领域

本发明涉及一种景点实体识别方法，尤其涉及一种改进知识迁移的景点实体识别模型。

背景技术

在对类似旅游游记这种海量非结构化文本进行高效信息管理和数据挖掘对旅游领域问答系统、舆情分析、个性化推荐等研究具有重要的意义，而对景点的实体识别精确率直接影响对旅游领域的信息抽取。

针对旅游景点的识别，目前主要有以下几类：基于机器学习(隐马尔可夫模型和条件随机场)和基于深度学习(卷积神经网络)的方法。隐马尔可夫模型识别景点是一个双重随机过程，该方法未能考虑到上下文之间的语义信息，且在对文本提取特征的过程中未能解决文本特征表示的一词多义问题，旅游领域景点词语一般会存在不同语境下不同含义，比如“黄山”在不同语境下可以指安徽省黄山市，属于地名，也可以指旅游景区“黄山”等，继而景点实体识别效率一般。基于条件随机场方法主要依赖人工构建特征模板，对于旅游领域，景点实体数量过多，无法一一列举，且在人工构建特征模板的时候耗时耗力，未能考虑到上下文语境和语义的信息。基于卷积神经网络的方法，对景点识别效率较高，但是需要大量的人工标注语料，且识别结果严重依赖语料标注质量，此外人工标注耗费巨大精力，自动化标注的训练集语料质量直接影响识别效率。所以针对旅游景点识别目前最大的问题就是：1)对于旅游景点重名，景点词语在不同语境下的不同含义问题，在文本特征表示的时候得不到解决；2)对于特定的旅游领域，景点实体数量过多，无法一一列举，且在人工构建特征模板的时候耗时耗力，使用机器学习算法进行学习需要人工标注数据，且模型严重依赖标注数据的质量，标注数据难获取的问题等；

发明内容

本发明的目的就是为了解决上述问题，提供了一种改进知识迁移的景点实体识别模型。辅助领域文本为规范标注化的数据，所以迁移的难点在于如何评估辅助领域到目标领域的相似性，保证特征提取和知识迁移的过程中，将辅助领域中尽可能多的关于目标领域的语义信息扩展但不产生负迁移。

对此，本文针对旅游领域文本特点，提出了关键词重要性，样本可扩展性两种不同的计算方式来评估一个样本的好坏。设计了三种不同程度的相似度来评估辅助领域与目标领域的相似度。它具有利用辅助领域扩展目标领域训练集的优点，能够准确有效识别景点。

为了实现上述目的，本发明采用如下技术方案：

一种改进知识迁移的景点实体识别模型，具体步骤为：

步骤一：利用辅助领域训练集使用BERT+BiLSTM+CRF方法训练中文命名实体识别模型，中文命名实体识别模型包括BERT模型、BiILSTM、CRF层，具体为：训练集经过BERT模型得到文本字向量，然后通过BiILSTM深度学习上下文特征信息，进行命名实体识别，最后使用CRF层对BiLSTM的输出序列处理。

步骤二：用辅助领域训练集训练word2Vec模型，训练完成后的word2Vec模型称为辅助领域词向量化模型，用目标领域训练集训练word2Vec模型，训练完成后的word2Vec模型称为目标领域词向量化模型；

步骤三：对辅助领域训练集中的每一个样本，计算词语重要性，并将词语重要性根据由大到小的顺序排列，前m个词语为辅助领域关键词；对目标领域训练集中的每一个样本，计算词语重要性，并将词语重要性根据由大到小的顺序排列，前m个词语为目标领域关键词；

步骤四：计算步骤二获取的辅助领域关键词与目标领域关键词的相似性，设置关键词级别相似度阈值；

步骤五：计算辅助领域句子与目标领域句子的相似性，设置句子级别相似度阈值；

步骤六：计算辅助领域样本可扩展能力，设置可扩展能力阈值；

步骤七：用辅助领域样本扩展目标领域样本；用扩展后的目标领域样本训练景点实体识别分类器；

如权利要求1所述改进知识迁移的景点实体识别模型，其特征是，所述步骤一中的中文命名实体识别模型构成方法：

(1-1)辅助领域训练集为从人民日报采集的标注了人名、地名、机构名的文本集，将辅助领域训练集输入到BERT模型中，BERT模型输出文本字向量；

(1-2)中文命名实体识别模型输入为步骤(1-1)中的文本词向量；用BiILSTM深度学习方法提取上下文信息；

(1-3)用CRF层对BiLSTM的输出序列处理，结合CRF中的状态转移矩阵，根据相邻之间标签得到一个全局最优序列。

(1-4)中文命名实体识别模型的输出为预测所得的实体标签；

所述步骤二中具体步骤为：

(2-1)目标领域样本集为人工爬取的马蜂窝等旅游网站上的游记；

(2-2)对辅助领域样本集用jieba分词方法分词得到辅助领域分词文本，用目标领域样本集使用jieba分词方法分词得到目标领域分词文本；

(2-3)加载停用词和用户自定义词典。其中用户自定义词典由词语构成，表达的含义为不想被分词器分开的词语；

(2-4)用辅助领域分词文本训练word2Vec模型，得到辅助领域词向量化模型，用目标领域分词文本训练word2Vec模型，得到辅助领域词向量化模型；

所述步骤三中具体步骤为：

(3-1)对目标领域样本计算句子中的关键词频率KF_i,j，对辅助领域样本计算句子中的关键词频率KF_i,j′，其中第i个关键词频率KF_i,j的计算方式为：式子中，KF_i,j表示关键字i在句子j中的出现频率，n_i,j表示关键词i在句子j中出现的次数。

(3-2)为辅助领域样本计算样本反句子频率ISF，为目标领域样本计算样本反句子频率ISF′；

其中：SF(Sentence Frequency)表示句子频率，ISF(Inverse SentenceFrequency)表示反句子频率，ISF_i表示词语i的反句子频率，|S|句子总数量，|j:t_i∈S_j|表示t_i∈S_j出现次数，为防止分母变零，导致式子无意义，加1。

(3-3)为辅助领域样本计算某个词语i在句子j中的重要程度，计算公式为：I(i,j)＝KF_i,j*ISF_i；

(3-4)为目标领域样本计算某个词语i在句子j中的重要程度，计算公式为：I(i,j)＝KF_i,j′*ISF_i′；

所述步骤四具体步骤为：

(4-1)对辅助领域关键词用步骤二训练所得的辅助领域word2Vec语言模型计算得到L_word＝{l₁,l₂,…,l_n}；

(4-2)对目标领域关键词用步骤二训练所得的目标领域word2Vec语言模型计算得到M_word＝{m₁,m₂,…,m_n}；

(4-3)为步骤三中的和/>根据余弦相似性计算关键词相似性，计算方式为：

(4-4)设置关键词级别相似度阈值(0.4，0.6)；

所述步骤五具体步骤为：

(5-1)对辅助领域样本中的每一个句子x_s用步骤二训练所得的辅助领域word2Vec语言模型计算句子向量得到L_sen＝{l₁,l₂,…,l_n}；

(5-2)对目标领域样本中的每一个句子x_s用步骤二训练所得的目标领域word2Vec语言模型计算句子向量得到M_sen＝{m₁,m₂,…,m_n}；

(5-3)对L_sen和M_sen根据余弦相似性计算句子级别相似性，计算方式为：

(5-4)设置句子级别相似性阈值(0.4，0.6)；

所述步骤六为确定样本可扩展能力，具体步骤为：

(6-1)根据前文得到sim_sen和sim_word，由计算样本可扩展能力SEA，其中α为句子级别相似性所占SEA权重，β为关键词相似性所占SEA权重；

(6-2)设置可扩展能力阈值(0.4，0.6)；

所述步骤七具体步骤为：

(7-1)根据关键词相似性阈值，将关键词相似性高的样本扩展到目标领域样本集中；

(7-2)根据句子级别相似性阈值，将句子相似性高的样本扩展到目标领域样本中；

(7-3)根据样本可扩展能力相似性阈值，将可扩展能力高的样本扩展到目标领域样本中；

有益效果：

本发明利用了知识迁移的思想解决了旅游领域标注数据难获取的问题，同时解决了利用深度学习方法识别景点中严重依赖标注数据以及标注数据质量问题。利用迁移学习的思想，借助已有的辅助领域样本的标注数据，根据关键词，句子，可扩展能力三个级别的评估，根据评估结果扩展目标领域训练集。

经过大量实验证明，本发明仅取1/4的标注数据，就可以获得比较显著的识别效果。此外，在无需进行大量的人工数据标注的前提下，可以借助已有的辅助领域样本的标注数据进行扩展，实现目标领域样本的实体提取，在不影响识别效率的前提下，大大减少了人工标注数据所花费的时间和精力。

附图说明

图1为本发明的算法结构图

图2为分类器模型图

图3为分类器分层验证的曲线图

图4为不同关键词相似度阈值的曲线图

图5为不同句子相似度阈值的曲线图

图6为不同SEA的曲线图

图7为不同目标领域样本大小影响结果的曲线图

具体实施方式

下面结合附图与实施例对本发明作进一步说明

如图1所示，一种改进知识迁移实体识别模型研究与应用，具体步骤为：

(1)对辅助领域样本X_s和少量目标领域样本X_t使用图2的分类器模型训练中文实体识别分类器C₁(x)和景点实体识别分类器C₂(x)。C₁(x)用于检测中文命名实体识别中的一词多义问题，C₂(x)用于检测旅游领域命名实体识别中的景点实体识别问题。图2分类器的设计上，使用BERT嵌入的实体识别模型，目的在于特征提取的时候解决中文一词多义的文本表示问题，使用双向长短时记忆神经网的方法学习上下文特征信息，使用条件随机场对上一层的输出序列处理，结合条件随机场中的状态转移矩阵，提取全局最优序列。

对辅助领域样本测试集使用C₁(x)进行测试，得到如图3的测试结果曲线图，其中P值为准确率，R值为召回率，F值为综合评价指标。

(2)初始化相似度阈值m，目标领域少量标注样本集在扩展后训练集中的占比μ；

(3)对每一个X_t＝Tr_t，对X_s、X_t预处理，分别训练对应的语言模型，对任意一个x(s)∈X_s，有n为向量维度，对x(t)∈X_t，有/>

(4)对辅助领域中的每一个样本和目标领域中样本计算两者关键词频率、文本相似性以及可扩展能力

①计算词语重要性，获取前m个最相关关键词/>和/>计算方法为：I(i,j)＝KF_i，j*ISF_i

其中KF_i,j表示关键i在句子j中的出现频率，ISF_i表示词语i的反句子频率

②对每一个样本v_sen(x_t)∈v(x_t)计算句子级别的文本相似性，计算方法为：

③对每一个辅助领域样本有：计算其可扩展能力，计算方法为：

其中α和β表示权重系数；

(4)根据(2)中的③求得的SEA值对辅助领域样本集中可扩展能力较强的样本扩展到目标领域样本集Tr_t中得到

(5)对扩展后的使用BERT+BiLSTM+CRF方法训练新的景点实体识别模型c(x)；

(6)使用目标领域测试集Te_t得到一组识别结果；

(7)更新m值，重复验证，得到如图5的实验结果；

(8)更新SEA阈值，重复验证，得到如图6的实验结果；

(9)更新μ值，重复验证，得到如图7的实验结果；

可以看出：本方法所提供的方法在仅有1/4的目标领域标注数据，测试结果准确率高达95.06％。

Claims

1.一种改进知识迁移的实体识别方法，其特征在于：

步骤一：利用辅助领域训练集使用BERT+BiLSTM+CRF方法训练中文命名实体识别分类器，中文命名实体识别分类器包括BERT模型、BiILSTM、CRF层，具体为：辅助领域训练集经过BERT模型得到文本字向量，然后通过BiILSTM深度学习上下文特征信息，进行命名实体识别，最后使用CRF层对BiLSTM的输出序列处理，得到训练后的中文命名实体识别分类器；

步骤三：对每一个辅助领域样本，计算词语重要程度，并将词语重要程度根据由大到小的顺序排列，前m个词语为辅助领域关键词对每一个目标领域样本，计算词语重要程度，并将词语重要程度根据由大到小的顺序排列，前m个词语为目标领域关键词/>

步骤四：计算步骤三获取的辅助领域关键词与目标领域关键词/>的相似性，得到关键词相似性，设置相似度阈值；

步骤五：根据步骤二得到的辅助领域词向量化模型和目标领域词向量化模型，计算辅助领域句子与目标领域句子的相似性，得到句子相似性，设置句子级别相似度阈值；

步骤六：根据步骤四、五得到的关键词相似性和句子相似性，计算辅助领域样本可扩展能力，设置可扩展能力阈值；

步骤七：根据步骤六中的可扩展能力阈值，将辅助领域训练集扩展到目标领域训练集，得到扩展后的目标领域样本集；对扩展后的目标领域样本集使用步骤一的BERT+BiLSTM+CRF方法训练景点实体识别分类器，得到训练后的景点实体识别分类器，其中景点实体识别分类器和中文命名实体识别分类器结构相同，使用目标领域测试集对训练后的景点实体识别分类器进行验证得到景点实体识别结果。

2.如权利要求1所述改进知识迁移的实体识别方法，其特征在于：所述步骤一具体如下：(1-1)辅助领域训练集为从人民日报收集的标注了人名、地名、机构名的文本集，将辅助领域训练集输入到BERT模型中，BERT模型输出文本字向量；

(1-2)将步骤(1-1)中的文本字向量输入BiILSTM，提取上下文信息；

(1-3)用CRF层对BiLSTM的输出序列处理得到预测的不同类实体标签的分数值；

其中，模型采用最优化方法最大似然估计损失函数，标签为命名实体识别标注BIO标注模式。

3.如权利要求1所述改进知识迁移的实体识别方法，其特征在于，步骤三

所述的目标领域样本为人工爬取的旅游网站上的游记；

进一步的，对辅助领域样本使用jieba分词方法分词，得到辅助领域分词文本，对目标领域样本使用jieba分词方法分词，得到目标领域分词文本；

进一步的，jieba分词方法包括加载停用词词典和用户自定义词典，其中用户自定义词典由词语构成，包括不想被分词器分开的词语。

4.如权利要求1所述改进知识迁移的实体识别方法，其特征在于，所述步骤三中辅助领域词语重要程度具体计算步骤如下：

(3-1)计算辅助领域样本句子中的词频率，其中，第i个词在句子j中的出现频率KF_i,j由下式得到：

式中，n_i,j表示第i个词在句子j中出现的次数；

(3-2)为辅助领域样本计算样本反句子频率ISF，其中词语i的反句子频率ISF_i由下式得到；

其中：|S|表示辅助领域样本集中句子的总数量，|j:t_i∈S_j|表示t_i∈S_j出现次数，t_i表示句子中词语，S_j表示第j个句子；

(3-3)计算辅助领域样本中词语在句子中的重要程度，其中，词语i在句子j中的重要程度I(i,j)由下式计算：

I(i,j)＝KF_i,j*ISF_i。

5.如权利要求4所述改进知识迁移的实体识别方法，其特征在于，所述步骤三中目标领域关键词的计算方法与辅助领域关键词的计算方法相同，唯一区别在于涉及的数据均为目标领域训练集中的样本。

6.如权利要求1所述改进知识迁移的实体识别方法，其特征在于，所述步骤四具体步骤为：

(4-1)利用步骤二训练得到的辅助领域词向量化模型，得到每一个辅助领域关键词的词向量L_word；

(4-2)利用步骤二训练得到的目标领域词向量化模型，得到每一个目标领域关键词的词向量M_word；

(4-3)根据余弦相似性计算辅助领域关键词和目标领域关键词/>的相似性，具体计算公式为：

L_word＝{l₁,l₂,…,l_n}表示辅助领域关键词的词向量，M_word＝{m₁,m₂,…,m_n}表示目标领域关键词的词向量。

7.如权利要求1所述改进知识迁移的实体识别方法，其特征在于，步骤四中所述的关键词级别相似度阈值的取值范围是(0.4，0.6)。

8.如权利要求1所述改进知识迁移的实体识别方法，其特征在于，步骤五所述辅助领域句子与目标领域句子相似性的计算方法如下：

(5-1)利用步骤二训练得到的辅助领域词向量化模型，得到辅助领域样本中的每一个句子x_s的句子向量L_sen＝{l₁,l₂,…,l_n}；

(5-2)利用步骤二训练得到的目标领域词向量化模型得到目标领域样本中每一个句子x_t的句子向量M_sen＝{m₁,m₂,…,m_n}；

步骤五所述句子级别相似性阈值的取值范围是(0.4，0.6)。

9.如权利要求1所述改进知识迁移的实体识别方法，其特征在于，步骤六所述辅助领域样本可扩展能力SEA计算方法如下：

其中α，β为权重系数，取值范围为(0，0.5)；

所述可扩展能力阈值的取值范围是(0.4，0.6)。

10.如权利要求1所述改进知识迁移的实体识别方法，其特征在于，步骤七所述的样本扩展条件为：

(7-1)根据关键词相似性阈值，将关键词相似性高于阈值的样本扩展到目标领域样本集中；

(7-2)根据句子级别相似性阈值，将句子相似性高于阈值的样本扩展到目标领域样本中；(7-3)根据样本可扩展能力相似性阈值，将可扩展能力高于阈值的样本扩展到目标领域样本中。