CN111027323A

CN111027323A - 一种基于主题模型和语义分析的实体指称项识别方法

Info

Publication number: CN111027323A
Application number: CN201911235554.9A
Authority: CN
Inventors: 韩伟红; 徐菁; 陈雷霆; 母国才; 尹怀东
Original assignee: Guangdong Electronic Information Engineering Research Institute of UESTC
Current assignee: Guangdong Electronic Information Engineering Research Institute of UESTC
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-04-17

Abstract

本发明公开了一种基于主题模型和语义分析的实体指称项识别方法，包括如下步骤，步骤一、对输入语料进行句子分割、分词、词性标注和依存关系解析；步骤二、基于句法分析，获取边界完整的名词词组作为实体指称项的候选集，然后综合利用LDA主题模型和TF‑IDF统计算法，从候选集中过滤非实体指称项；步骤三、度量实体指称项和种子实体的语义相似度，选择相似度高的种子类别作为实体类别，然后利用浅层的句法知识设置规则，将每种实体类别的实体指称项分类到相应的指称项类别。本发明能够提高实体边界检测和分类方法的有效性。

Description

一种基于主题模型和语义分析的实体指称项识别方法

技术领域

本发明属于语言数据处理的技术领域，具体涉及一种基于主题模型和语义分析的实体指称项识别方法。

背景技术

信息抽取是理解和处理自然语言数据的关键步骤，目标是识别并分类数据中传达的重要信息。由于实体是承载信息的基本单位，使得实体识别成为信息抽取的基础任务，为其他任务提供数据支撑，包括实体消歧、关系抽取、事件抽取等。实体识别作为底层的信息抽取技术，在人工智能领域发挥着重要作用，包括知识图谱、问答系统、机器翻译、自然语言理解等。早期的实体识别技术主要针对命名实体进行识别，包括时间、日期、货币、百分比、人名、结构名、地名等七类。由于时间、日期、货币、百分比等命名实体具有明显构成规律，可以使用启发式规则、正则表达式等方法很容易识别，而人名、机构名和地名形式多变、用字灵活、内部结构复杂，识别难度很大，因而后期命名实体识别任务主要针对这三类实体进行处理，并举办了多种国际会议来推动命名实体识别技术的发展，包括MUC、SigHAN、CoNLL和ACE等。

发明人发现现有的方法存在缺陷：实体边界检测和分类方法存在有效性较低的问题。

发明内容

本发明的目的在于：针对现有技术的不足，提供一种基于主题模型和语义分析的实体指称项识别方法，能够提高实体边界检测和分类方法的有效性。

为了实现上述目的，本发明采用如下技术方案：

一种基于主题模型和语义分析的实体指称项识别方法，包括如下步骤：

步骤一、对输入语料进行句子分割、分词、词性标注和依存关系解析；

步骤二、基于句法分析，获取边界完整的名词词组作为实体指称项的候选集，然后综合利用LDA主题模型和TF-IDF统计算法，从所述候选集中过滤非实体指称项；

步骤三、度量所述实体指称项和种子实体的语义相似度，选择相似度高的种子类别作为实体类别，然后利用浅层的句法知识设置规则，将每种所述实体类别的所述实体指称项分类到相应的指称项类别。

需要说明的是，本发明的识别方法中，包含三个模块：文本预处理、实体边界检测和实体指称项分类，在文本预处理模块，对输入语料进行句子分割、分词、词性标注和依存关系解析等处理，分词、词性标注和依存关系解析等句法分析采用HanLP汉语自然语言处理工具；实体边界检测模块的功能从文本中获取名词性和命名性的实体指称项，基于句法分析从文本中自动获取边界完整的名词词组作为实体指称项候选集，然后综合利用LDA主题模型和TF-IDF统计算法，从候选集中过滤非实体指称项；实体指称项分类模块的功能是识别实体指称项的实体类别和指称项类别，度量实体指称项和种子实体的语义相似度，选择相似度高的种子类别作为实体类别，然后利用浅层的句法知识设置规则，将每种实体类别的实体指称项分类到相应的指称项类别。

作为本发明所述的一种基于主题模型和语义分析的实体指称项识别方法的一种改进，所述步骤二中，利用所述LDA主题模型包括：

将每篇文档表示为一个词频向量；

将文本字符串转化为易于建模的实值数字，得到文档到主题的多项式概率分布、主题到词的多项式概率分布。

作为本发明所述的一种基于主题模型和语义分析的实体指称项识别方法的一种改进，所述LDA主题模型为由文档、主题和词组组成三层贝叶斯概率模型。

作为本发明所述的一种基于主题模型和语义分析的实体指称项识别方法的一种改进，所述步骤二中，所述TF-IDF统计算法的公式为

其中，ni表示词语wi在一篇文档中的出现次数，n表示一篇文档中所有词语的出现次数，|D|表示所有文档的数目，di表示包含词语wi的文档数目，对以上两个公式取积，即tf_i×idf_i，即可得到词语wi对文档的重要程度。

作为本发明所述的一种基于主题模型和语义分析的实体指称项识别方法的一种改进，所述步骤二中，获取边界完整的所述名词词组作为所述实体指称项的候选集，包括：

将具有预设词性标签且相邻的词语进行组合；

抽取朴素名词性词语作为所述实体指称项候选集，其中，所述朴素名词性词语为单一的名词词语或包含具有预设词性标签的词语的最长名词词组。

作为本发明所述的一种基于主题模型和语义分析的实体指称项识别方法的一种改进，所述步骤一中，所述句子分割包括：

根据句子结束符号，对输入文本进行分句。

作为本发明所述的一种基于主题模型和语义分析的实体指称项识别方法的一种改进，所述步骤一中，所述词性标注包括：

对分词结果中的每个词语标注一个正确的词性标签，确定每个词语是否为名词、动词或其他词。

作为本发明所述的一种基于主题模型和语义分析的实体指称项识别方法的一种改进，所述步骤二中，从所述候选集中过滤所述非实体指称项，包括：

采用语料库训练该模型，利用生成的文档与主题概率分布和主题与词概率分布，获取候选指称项对文档的主题贡献率。

作为本发明所述的一种基于主题模型和语义分析的实体指称项识别方法的一种改进，所述步骤三中，将每种所述实体类别的所述实体指称项分类到相应的指称项类别，还包括：

若结尾词语含有预设的词性标签，则被分类到相应所述指称项类别下，否则，分类到另一所述指称项类别。

作为本发明所述的一种基于主题模型和语义分析的实体指称项识别方法的一种改进，所述步骤三中，所述实体指称项分类方法包括：

采用词语之间的依存关系的句法知识，抽取与候选实体相关的语境信息；

采用Word2Vec模型来获取词语的向量表示，通过将所述词语转化为高维的空间向量，来捕获所述词语之间的语义相似度；

度量所述语境的相似度时，加入语境词语的词性信息；

在分类过程中，高质量的所述候选实体添加到种子集合中；

将类别标签作为过滤阈值。

本发明的有益效果在于，本发明包括如下步骤，步骤一、对输入语料进行句子分割、分词、词性标注和依存关系解析；步骤二、基于句法分析，获取边界完整的名词词组作为实体指称项的候选集，然后综合利用LDA主题模型和TF-IDF统计算法，从候选集中过滤非实体指称项；步骤三、度量实体指称项和种子实体的语义相似度，选择相似度高的种子类别作为实体类别，然后利用浅层的句法知识设置规则，将每种实体类别的实体指称项分类到相应的指称项类别。本发明能够提高实体边界检测和分类方法的有效性。

附图说明

图1为本发明的流程示意图。

图2为本发明的依存关系解析的示意图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内，本领域技术人员能够在一定误差范围内解决技术问题，基本达到技术效果。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、水平”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合附图1～2对本发明作进一步详细说明，但不作为对本发明的限定。

步骤二、基于句法分析，获取边界完整的名词词组作为实体指称项的候选集，然后综合利用LDA主题模型和TF-IDF统计算法，从候选集中过滤非实体指称项；

步骤三、度量实体指称项和种子实体的语义相似度，选择相似度高的种子类别作为实体类别，然后利用浅层的句法知识设置规则，将每种实体类别的实体指称项分类到相应的指称项类别。

需要说明的是，本发明的识别方法中，包含三个模块：文本预处理、实体边界检测和实体指称项分类，在文本预处理模块，对输入语料进行句子分割、分词、词性标注和依存关系解析等处理，分词、词性标注和依存关系解析等句法分析采用HanLP汉语自然语言处理工；实体边界检测模块的功能从文本中获取名词性和命名性的实体指称项，基于句法分析从文本中自动获取边界完整的名词词组作为实体指称项候选集，然后综合利用LDA主题模型和TF-IDF统计算法，从候选集中过滤非实体指称项；实体指称项分类模块的功能是识别实体指称项的实体类别和指称项类别，度量实体指称项和种子实体的语义相似度，选择相似度高的种子类别作为实体类别，然后利用浅层的句法知识设置规则，将每种实体类别的实体指称项分类到相应的指称项类别。

其中，依存句法分析是指通过分析自然语言文本中语言单位内成分之间的依存关系，来揭示其句法结构的分析过程。直观上讲，依存句法分析的思路是识别语句中“主、谓、宾、定、状、补”等句法成分，并分析各成分之间的依存关系。其中，依存关系反映的是句中词对之间的二元关系，一个为核心词，一个为依存词，HanLP的依存句法分析模块根据采用的模型不同，可分为最大熵依存句法分析器、CRF依存句法分析器、和基于神经网络的高性能依存句法分析器。其中，最大熵依存句法分析器，基于最大熵模型和最大生成树模型，实现了中文依存句法的自动分析，在开放测试集上取得了60％左右的准确率。CRF依存句法分析器基于CRF模型，特征函数采用双数组Trie树储存，解码采用特化的维特比后向算法，在分析速度上比最大熵依存句法分析器快了一倍。基于神经网络的依存句法分析器是一个基于神经网络分类模型和arc-standard转移动作的判决式汉语依存句法分析器，并融合了丰富的全局特征和聚类特征，在开放测试集上获得了85％左右的准确率。

优选的，步骤二中，利用LDA主题模型包括：

将每篇文档表示为一个词频向量；

需要说明的是：LDA主题模型主要是一篇文档中的每个词以一定概率选择某个主题，一篇文档中的某个主题也以一定概率选择某个词，LDA主题模型是一种无监督的机器学习方法，通常被研究者用于识别大规模文档集合中的主题信息，采用词袋方法，通过将每篇文档表示为一个词频向量，进而将文本字符串转化为易于建模的实值数字，模型最终得到一个文档到主题的多项式概率分布，主题到词的多项式概率分布。

优选的，LDA主题模型为由文档、主题和词组组成三层贝叶斯概率模型。LDA主题模型主要是一篇文档中的每个词以一定概率选择某个主题，一篇文档中的某个主题也以一定概率选择某个词。

优选的，步骤二中，TF-IDF统计算法的公式为

需要说明的是：TF-IDF是一种统计算法，基于“一个字词随着它在一篇文档中出现的次数成正比增加，同时随着它在一组文档集中出现的频率成反比下降”，用于评估一个字词对于一篇文档的重要程度，TF是指词频，即一个字词在一篇文档中出现的频率，是对字词出现次数进行归一化处理，防止它偏向较长的文件。

优选的，步骤二中，获取边界完整的名词词组作为实体指称项的候选集，包括：

将具有预设词性标签且相邻的词语进行组合；

抽取朴素名词性词语作为实体指称项候选集，其中，朴素名词性词语为单一的名词词语或包含具有预设词性标签的词语的最长名词词组。

需要说明的是：基于实体指称项是名词词语，从文本中抽取朴素名词性词语作为实体指称项候选集，其中，朴素名词性词语是指单一的名词词语或包含具有预设词性标签的词语的最长名词词组，实现方法是基于词语之间的“定中关系”依存关系标签，将具有以上词性标签且相邻的词语进行组合，来获取朴素名词性词语，这种策略可以有效缓解分词错误带来的影响，并有助于捕获嵌套的以及长的实体指称项，通过语料统计，的抽取方法获得87％准确率和94％召回率。比如，针对图1中的文本，利用以上方法，获取的实体指称项候选集合是“美国”、“也门”、“科尔号驱逐舰”、“科尔”、“驱逐舰”、“基地组织”、“基地”、“组织”。从中可以看出，该方法有助于提高实体指称项的召回率。

优选的，步骤一中，句子分割包括：

根据句子结束符号，对输入文本进行分句。

需要说明的是：句子分割采用字符匹配的方法，根据句子结束符号，包括“句号、问号、感叹号、分号、省略号”等标点符号，对输入文本进行分句。

优选的，步骤一中，词性标注包括：

需要说明的是：词性标注，是指为分词结果中的每个词语标注一个正确的词性标签，即确定每个词语是否为名词、动词或其他词性，汉语的词性标注较为简单，因为大部分汉语词语只有一个词性，或者词性标签的出现频次相差很大，因此，对于中文来说，只利用频次选取，即可达到80％的词性标注准确率，本发明主要利用了HanLP的词性标注模块，采用方法包括基于隐马尔可夫模型、基于条件随机场模型、和基于感知机模型，结合词性标注集，在切分语料上进行训练，词性标注的准确率达到97％左右。

优选的，步骤二中，从候选集中过滤非实体指称项，包括：

需要说明的是：实体边界检测模块的目的是收集实体指称项用于分类，然而并不是所有的名词词语都是实体，比如“章节、成果”等普通性名词词语，基于语料分析，实体指称项比普通名词对文档的重要性更高、主题描述性更强，因此综合利用TF-IDF统计算法从语料统计方面计算候选指称项对文档的重要程度，LDA主题模型获取主题贡献度，以及HanLP工具的实体识别能力，有效提高了非实体指称项过滤的准确性。

假设文档集合为D，对于属于某一篇文档d∈D的候选指称项c，定义nc作为c在d的出现次数，n作为d中所有词语的出现次数，根据TF-IDF算法，c的TF值为

IDF值为

其中|D|为所有文档的数量，dc是包含c的文档的数量，最终，将tf_c与idf_c的乘积作为c对文档的重要度度量，基于LDA主题模型对文档主题良好的建模能力，以及无监督的特性，本发明采用语料库训练该模型，利用生成的文档—主题概率分布和主题—词概率分布，获取候选指称项对文档的主题贡献率。定义

为c到主题ti的分布概率，

为与c相关的主题ti对c所在文档d的分布概率，其中|c_i|＝|d_i|，则c对文档d的主题贡献度的公式如下所示，

s_c＝tf_c×idf_c+d_c+δ

此外，通过语料分析，发现词性标注为“n*”，词性标签以“n”开头，但不以“n”结尾的专有名词大部分是实体，为了避免被过滤掉，人工给它们赋予一个权重因子δ来提高它们的重要度，然而，考虑到词性标注错误，不能保证所有专有名词都是实体，因此，δ不宜设置过高，通过多次验证，δ＝0.02可以在实体指称项识别的召回率和准确性上达到最优平衡。最后，候选指称项c的综合重要性度量可以使用上述公式计算，并通过设置阈值，将低于阈值的候选指称项过滤掉。

优选的，步骤三中，将每种实体类别的实体指称项分类到相应的指称项类别，还包括：

若结尾词语含有预设的词性标签，则被分类到相应指称项类别下，否则，分类到另一指称项类别。

优选的，步骤三中，实体指称项分类方法包括：

采用Word2Vec模型来获取词语的向量表示，通过将词语转化为高维的空间向量，来捕获词语之间的语义相似度；

度量语境的相似度时，加入语境词语的词性信息；

在分类过程中，高质量的候选实体添加到种子集合中；

将类别标签作为过滤阈值。

需要说明的是：相关语境抽取：利用词语之间的依存关系等句法知识，抽取与候选实体相关的语境信息，而不是选择固定窗口内的语境信息，有助于提高语境信息对实体的描述力度；语义相似度计算：利用Word2Vec模型来获取词语的向量表示，通过将词语转化为高维的空间向量，来捕获词语之间的语义相似度，此外，Word2Vec模型生成的词向量文件规模庞大，为了提高检索效率，使用词语的首字母建立了多级关联索引；词性特征融合：和实体类别相似，词性也是描述词语不可或缺的附加信息，因而在度量语境相似度时，也融入了语境词语的词性信息，此外，词性信息的融入有助于提高罕见词语的语境相似度，从而避免了将罕见的实体过滤掉；种子集自动扩展：在分类过程中，高质量的候选实体也被添加到种子集合中，可以提高种子集合的覆盖率；阈值自动计算：为了进一步过滤非实体指称项，使用类别标签作为过滤阈值；该阈值通过平均化所有种子的词条标签相似度来自动产生，降低了人工和计算开销。

此外，在ACE2005数据集和DEFT2015中文数据集上进行实验。其中，ACE2005数据集由ACE评测会议提供，用于实体指称项检测任务。DEFT2015数据集由DARPA组织的文本深度探索和过滤项目组提供，用于实体、关系和事件标注任务。

为了客观准确地评价实验结果，分别记录采用的实验方法在每种实验数据上的精确率(Precision)、召回率(Recall)，并计算两者的F1值。精确率是指方法正确识别的样本数占方法实际识别的样本数的比例。召回率是指方法正确识别的样本数占所有应该被识别的样本数的比例。由于精确率和召回率存在一定的内在矛盾，精确率的提高意味着召回率的降低，因此通常对这两种度量标准进行折中，利用F1来客观评价方法的性能。F1值越大，表明方法的性能越好。假设S表示方法实际识别的样本数，S1表示方法正确识别的样本数，T表示所有应该被识别的样本数，各个评估标准的计算公式如下：

表1实体指称项识别实验结果(％)

为了评估本发明的识别的整体性能，表1展示了本发明的识别方法在不同数据集上的完整实验结果。NAM指称项和NOM指称项的识别F1值分别为65.86％和69.46％，表明了本发明的识别不错的识别性能，但还存在很大的提升空间。通过分析错误结果，总结原因如下：(1)在设置过滤阈值上，需要综合考虑实体指称项的边界检测召回率和分类准确性，然而它们之间是矛盾的。高的检测召回率是以牺牲分类准确性为代价的，反之亦然。因此，过滤阈值不可避免的对整体性能产生负面影响。(2)在分类阶段，种子词条是从百度百科中自动获取的。然而，百度百科的不完善(比如错误的类别标签)会影响种子的质量，因而导致分类准确性下降。此外，种子集合的规模，也影响了分类性能。规模越大，代表种子词条的覆盖率越高，从而在实体类别的判断上越准确。在识别指称项类别上，我们利用词性信息制定启发式规则。然而该种方法不能同时兼顾准确性和召回率，一方的提升会导致另一方的下降。具体来说，根据表2.5中列出的词性标签，所识别的指称项类别会出现高精确度低召回率的现象。而相对应的另一种指称项类别会出现高召回率低精确度的现象。尽管如此，本发明的实体指称项识别方法摆脱了人工标注训练语料的约束，也不受实体类别的限制，具有良好的移植性和扩展性。

本发明采用了一种无监督的方法，从开放式的中文网络文本数据中识别命名性和名词性实体指称项，包括实体边界检测和实体指称项分类两个部分。实体边界检测综合利用了少量的句法知识、语料统计和文档主题模型，可以较好地捕获长实体和嵌套实体，并过滤非实体指称项。实体指称项分类融合了自扩展算法和聚类算法的思想，提出的类别决策算法，通过度量实体指称项与种子词条之间的语境相似度，可以灵活地识别实体类别。此外，利用词性信息制定规则识别指称项类别，方法简单有效。在多种公开的数据集上进行实验，结果表明了本发明的实体边界检测和分类方法的有效性。

根据上述说明书的揭示和教导，本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此，本发明并不局限于上述的具体实施方式，凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对本发明构成任何限制。

Claims

1.一种基于主题模型和语义分析的实体指称项识别方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于主题模型和语义分析的实体指称项识别方法，其特征在于，所述步骤二中，利用所述LDA主题模型包括：

将每篇文档表示为一个词频向量；

3.如权利要求1所述的一种基于主题模型和语义分析的实体指称项识别方法，其特征在于：所述LDA主题模型为由文档、主题和词组组成三层贝叶斯概率模型。

4.如权利要求1所述的一种基于主题模型和语义分析的实体指称项识别方法，其特征在于，所述步骤二中，所述TF-IDF统计算法的公式为

其中，ni表示词语wi在一篇文档中的出现次数，n表示一篇文档中所有词语的出现次数，|D|表示所有文档的数目，di表示包含词语wi的文档数目，对以上两个公式取积，即tf_i×df_i，即可得到词语wi对文档的重要程度。

5.如权利要求1所述的一种基于主题模型和语义分析的实体指称项识别方法，其特征在于，所述步骤二中，获取边界完整的所述名词词组作为所述实体指称项的候选集，包括：

将具有预设词性标签且相邻的词语进行组合；

6.如权利要求1所述的一种基于主题模型和语义分析的实体指称项识别方法，其特征在于，所述步骤一中，所述句子分割包括：

根据句子结束符号，对输入文本进行分句。

7.如权利要求5所述的一种基于主题模型和语义分析的实体指称项识别方法，其特征在于，所述步骤一中，所述词性标注包括：

8.如权利要求1所述的一种基于主题模型和语义分析的实体指称项识别方法，其特征在于，所述步骤二中，从所述候选集中过滤所述非实体指称项，包括：

9.如权利要求1所述的一种基于主题模型和语义分析的实体指称项识别方法，其特征在于，所述步骤三中，将每种所述实体类别的所述实体指称项分类到相应的指称项类别，还包括：

10.如权利要求1所述的一种基于主题模型和语义分析的实体指称项识别方法，其特征在于，所述步骤三中，所述实体指称项分类方法包括：

度量所述语境的相似度时，加入语境词语的词性信息；

在分类过程中，高质量的所述候选实体添加到种子集合中；

将类别标签作为过滤阈值。