CN110008307B

CN110008307B - 一种基于规则和统计学习的变形实体识别方法和装置

Info

Publication number: CN110008307B
Application number: CN201910048233.1A
Authority: CN
Inventors: 虎嵩林; 黄龙涛; 周艳; 吕尚文
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2021-12-28
Anticipated expiration: 2039-01-18
Also published as: CN110008307A

Abstract

本发明涉及一种基于规则和统计学习的变形实体识别方法和装置。该方法定义目标实体生成变形实体的规则，并且通过这些规则定义演绎生成算法，为每个目标实体生成大量的候选变形实体集合；利用目标实体和变形实体所在文本的上下文语义相似性，提出基于统计学习的方法来识别出上面候选变形实体集合中真正对应于目标实体的变形实体。本发明既可以找到尽可能多的变形实体，又通过识别模型保证了最终识别出的变形实体的准确性，具有良好的实用性。

Description

一种基于规则和统计学习的变形实体识别方法和装置

技术领域

本发明涉及统计学习与自然语言处理技术，具体涉及一种基于规则和统计学习的变形实体识别方法。

背景技术

变形实体是指用户为了某种原因用实体的别名来替代真实实体的一种现象。变形实体广泛存在于社交网络上，并经常被用来表达使用者的某种情绪，比如：讽刺、积极、消极等。例如某人的体现其某种特征(如身材等)的别名或昵称等。

变形实体的识别对于检索，实体链接以及事件抽取等任务都有很好的促进作用，但是识别出实体对应的变形实体却是比较困难的。这是由于变形实体很少和它所指的真实实体同时出现，并且人们使用变形实体时经常采用一些非正式的、模糊不清的用词。本发明主要解决给出一些中文人名，利用网络上所有可用信息，比如：用户生成的内容、wikipedia、知识库等，尽可能准确且多的找到这些中文人名对应的变形实体。

目前，已有一些对变形实体识别的方法。有的方法把目标实体和变形实体作为种子，查找目标实体和变形实体之间的共现模板，但是这类方法只能识别出目标实体和变形实体共同出现在一个文本内容中的情况；有的方法假设变形实体已经被识别出来的，把变形实体直接链接到对应的目标实体，但是往往找出变形实体这个过程是很困难的；另外还有的方法预定义一些规则来生成变形实体，但是这些规则是离散的，很难覆盖比较多的情况。

发明内容

为了克服上述现有技术的缺陷，本发明提出一种基于规则和统计学习相结合的方法来识别人名变形实体，既可以充分利用规则的演绎生成大量的候选变形实体，又可以利用变形实体和目标实体上下文的语义的相似性来对生成的错误变形实体进行过滤，得到正确的变形实体。

本发明的技术方案如下：

一种基于规则和统计学习的变形实体识别方法，包括如下步骤：

1)利用规则，通过演绎的方式为每个目标实体生成对应的候选变形实体；

2)基于统计学习的方法，从候选变形实体中选出和目标实体对应的变形实体。

进一步地，步骤1)所述规则的构建方法为：

通过观察已有的变形实体，提出假设1：人们在创造变形实体(如变形词)的时候主要受到和目标实体相关的人、事件、属性、概念等信息的启发；

根据上面的观察，提出6种规则并用它们生成候选的变形实体。

进一步地，所述6种规则具体定义为：

common knowledge(CK)表示和目标实体相关的常识；related events(RE)表示和目标实体相关的事件；phonetic similarity(PS)表示和实体中某个字的读音相似的规则；spelling decomposition(SD)表示把实体中的字进行拆分；address terms(AT)表示可以用来强调实体的规则；semantic inference(SI)表示和实体中词具有语义近似关系的规则。

进一步地，步骤1)利用上面的规则，为每个目标实体自动构建满足相关规则的构造词，这些构造词和目标实体之间的关系即为上面定义的6种规则；然后根据定义的规则以及生成的构造词，定义一种演绎的方式来为每个目标实体生成对应的候选变形实体。

较佳地，把构造词根据生成的规则分为两大类：

第一类定义为NP，具体指通过规则CK、RE、AT和SI所生成的构造词，主要用来和其他的词进行组合的；

第二类定义为NN，具体指通过规则PS和SD所生成的构造词，主要用来替换目标实体以及生成的候选实体中的字。

较佳地，首先把目标实体中的部分词和NP中的词组合在一起或者用NP中的词完全的替代目标实体来生成候选变形实体；然后生成的候选实体以及目标实体中的部分字用NN中的词所代替，继续生成另外一些候选变形实体。

以上步骤中为每个目标实体生成的所有词，构成目标实体的候选变形实体集合，由于基本罗列了所有变形实体的生成方式，所以得到的候选变形实体集合中包含很多和目标实体无关的变形实体，因此需要对生成的候选变形实体中的错误变形实体进行过滤，得到正确的变形实体。

通过观察变形实体的使用场景，本发明提出假设2：当人们讨论一个对象(如一个人，本发明主要针对人的命名实体进行识别)的时候，无论人们是否使用变形实体，讨论场景中相关的实体或者事件都不会改变；

根据上面的这个假设，本发明提出两种基于统计学习的方法来选取生成的候选变形实体集合中和目标实体真正对应的变形实体。

较佳地，第一种方法是利用变形实体和目标实体的语义相似性得到和目标实体对应的变形实体。

进一步地，所述第一种方法包括以下步骤：

a)采用CBOW模型(连续词袋模型)，利用大量的无标注语料，训练得到词向量，把目标实体和变形实体映射成对应的词向量；

b)计算目标实体的词向量和它对应的候选变形实体集合中所有词向量的相似度，如cosine相似度等；

c)把候选变形实体集合中所有词按照相似度从高到低进行排序，同时设置一个阈值，阈值大于0小于1，用阈值乘以集合中词的总量得到值N，然后选取相似度最高的N个值对应的词，作为目标实体对应的变形实体。

较佳地，第二种方法是把正确变形实体的识别转化为一个多分类问题：

a)多分类器的输入是包含目标实体或者候选变形实体的文本，分类的目标是所有目标实体以及一个表示不包含任何目标实体的类别集合；

b)把所有包含目标实体的文本作为训练文本训练多分类器，然后把包含候选变形实体的文本输入分类器中，利用多分类器预测候选实体对应的类别。

c)对于每一个候选变形实体，如果分类器预测的类别和其目标实体一致，则为正确的变形实体，否则为错误的变形实体，从而得到每个目标实体的正确变形实体集合。

与上面方法对应地，本发明还提供一种基于规则和统计学习的变形实体识别装置，其包括：

候选变形实体生成模块，负责利用规则，通过演绎的方式为每个目标实体生成候选变形实体；

正确变形实体识别模块，负责基于统计学习的方法，从候选变形实体中选出和目标实体对应的变形实体。

本发明的有益效果在于：本发明定义目标实体生成变形实体的规则，并且通过这些规则定义演绎生成算法，为每个目标实体生成大量的候选变形实体集合；利用目标实体和变形实体所在文本的上下文语义相似性，提出基于统计学习的方法来识别出上面候选变形实体集合中真正对应于目标实体的变形实体；这样本发明既可以找到尽可能多的变形实体，又通过识别模型保证了最终识别出的变形实体的准确性，具有良好的实用性。

附图说明

图1为本发明实施例提供的基于规则和统计学习变形实体识别方法流程图；

图2为利用多分类的方式进行正确变形实体识别的模型结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施案例并结合附图，对本发明做进一步详细说明。

图1为本发明实施例中基于规则和统计学习变形实体识别方法流程图，如图所示，该方法主要包括三个阶段，分别是：定义构造规则以及生成构造词阶段；根据构造词和构造规则生成对应的候选变形实体集合阶段；利用统计学习的方法识别出候选变形实体集合中正确的变形实体阶段。其具体步骤为：

步骤1，通过观察已有的变形实体，提出假设1：人们在创造变形词的时候主要受到和目标实体相关的人、事件、属性、概念等信息的启发；根据这个假设提出6种规则，用来生成候选变形实体的构造词；

步骤11，common knowledge(CK)表示和目标实体相关的常识，例如：某个人的职位，出生地等，这些常识可以用过已有的知识库抽取出来；

步骤12，related events(RE)表示和目标实体相关的事件，这里主要采用事件中的关键词来表示对应的事件；

步骤13，phonetic similarity(PS)表示和实体中某个字的读音相似的规则，读音相近的词可以直接从新华字典中查找出来；

步骤14，spelling decomposition(SD)表示把实体中的字进行拆分，例如：张飞中的张字可以被拆分为弓长，如果一个汉字拆分后得到的各个组成部分仍然是汉字，则对其进行拆分；

步骤15，address terms(AT)表示可以用来强调实体的规则，这些规则的数量有限，梳理出来这些对应的强调规则直接存储起来，使用即可；

步骤16，semantic inference(SI)表示和实体中词具有语义近似关系的规则，语义相近的词可以通过中文的语义词典如wordnet获得；

步骤17，根据步骤1定义的规则，利用网络上已有的文本信息，知识库等为每个目标实体自动构建它对应的满足上面规则的构造词，这些构造词和目标实体之间的关系即为上面定义的6种规则。

步骤2，基于步骤1中定义的规则以及根据规则生成的构造词，定义一种演绎的方式来为每个目标实体生成对应的候选变形实体，这样可以充分利用各种规则以及规则之间的组合来生成大量的候选变形实体；

步骤21，把构造词根据生成的规则分为两大类：

第二类定义为NN，具体指通过规则PS和SD所生成的构造词，主要用来替换目标实体以及生成的候选实体中的字；

步骤22，把目标实体中的部分词和NP中的词组合在一起或者用NP中的词完全替代目标实体来生成候选变形实体；

步骤23，把步骤22中生成的候选变形实体以及目标实体中的部分字用NN中的字所代替，继续生成另外一些候选变形实体；

步骤24，把步骤22和步骤23中所生成的候选变形实体进行合并，构成对应目标实体的候选变形实体集合；

步骤3，由于基本罗列了所有变形实体的生成方式，所以得到的候选变形实体集合中包含很多和目标实体无关的变形实体；

步骤31，通过观察变形实体的使用场景，本发明提出假设2：当人们讨论一个对象(如一个人)的时候，无论人们是否使用变形实体，讨论场景中相关的实体或者事件都不会改变；根据假设2，本发明提出两种基于统计学习的方法来选取生成的候选变形实体集合中和目标实体真正对应的变形实体；

步骤32，为了识别出正确的变形实体，首先利用搜索引擎以及新闻网站的语料信息，来收集包含目标实体和候选变形实体的文本；

步骤33，如果这些语料中没有包含某个生成的候选变形实体的文本，那么该候选变形实体被判断为无效候选变形实体，直接删除；对于有文本包含的候选变形实体，利用其所在的文本信息，对它的正确性进行判断；

步骤34，步骤31中所述的第一种方法是利用变形实体和目标实体的语义相似性，进行正确变形实体的识别；

步骤341，采用CBOW模型，利用大量的无标注语料，训练得到词向量，然后把目标实体和变形实体映射成对应的词向量；

步骤342，计算目标实体的词向量和它对应的候选变形实体集合中所有词向量的cosine相似度；

步骤343，按照相似度从高到低对候选变形实体集合中所有词进行排序

步骤344，设置一个阈值tp(0≤tp≤1)，用tp乘以目标实体对应候选变形实体的总量tn得到值N＝tp*tn；

步骤345，选取和目标实体词向量相似度最高的N个候选实体，作为目标实体对应的变形实体；

步骤35，步骤31中第二种方法是把正确变形实体的识别转化为一个多分类问题，具体如附图2所示；

步骤351，多分类模型的输入是包含目标实体或者候选变形实体的文本，分类的目标是所有目标实体以及一个表示文本不包含任何目标实体的类别组成的类别集合；

步骤352，把所有包含目标实体的文本作为训练文本进行分词后，映射成对应的词向量；

步骤353，对每个词进行词性标注，把对应的词性也映射成向量，和步骤352中得到的词向量进行拼接后输入到分类模型中；

步骤354，分类模型中采用BLSTM学习实体所在的上下文信息得到第i个字符的向量表示h_i；

步骤355，利用attention机制，学习句子中对预测结果重要的部分，得到句子的向量表示r：

M＝tanh(H)

α＝softmax(w^TM)

r＝Hα^T

其中H为[h₁,h₂,…,h_n]；

步骤356，最后利用softmax层对学习到的文本信息进行分类；

步骤357，采用交叉熵作为分类模型的目标函数，利用反向传播算法，训练分类模型；

步骤358，分类模型训练完成后，把包含候选变形实体的文本输入模型中，预测候选实体对应的类别。

步骤359，对于每个候选变形实体，如果预测的类别和其对应的目标实体一致，则为正确的变形实体，否则为错误的变形实体，这样得到每个目标实体对应的变形实体集合。

由上述方案可以看出，本方案利用规则生成构造词并基于构造词进行演绎组合生成多个候选变形实体，保证了变形实体的覆盖面；同时为了提升变形实体识别的准确性，提出基于统计学习的方法，根据变形实体所在的上下文和目标实体上下文的相似性，筛选出正确的变形实体，保证了变形实体的准确性。

本发明另一实施例提供一种基于规则和统计学习的变形实体识别装置，其包括：

上述候选变形实体生成模块、正确变形实体识别模块的具体实现过程见前文实施例中对本发明方法的说明。

为通过实验验证本发明的方法，选取100个中文实体作为目标实体数据；使用准确率、召回率和F值作为评价指标。选取基于模式的方法和基于离散规则的方法作为对比方法，本发明步骤2中选择正确变形实体识别的两种方法分别给出结果(本方法(语义相似)和本方法(多分类))，通过表1的实验结果可知，本发明的方法优于其他两种已有方法。

表1

方法名称	准确率	召回率	F值
				基于模式的方法	0.522	0.185	0.273
基于离散规则的方法	0.364	0.236	0.286
				本方法(语义相似)	0.419	0.550	0.476
本方法(多分类)	0.629	0.459	0.531

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明保护范围内。

Claims

1.一种基于规则和统计学习的变形实体识别方法，其特征在于，包括以下步骤：

1)利用规则，通过演绎的方式为每个目标实体生成候选变形实体；

2)基于统计学习的方法，从候选变形实体中选出和目标实体对应的变形实体；

步骤1)基于以下假设构建所述规则：在创造变形实体时受到和目标实体相关的信息的启发；

所述规则包括下列中的一种或多种：和目标实体相关的常识，用CK表示；和目标实体相关的事件，用RE表示；和实体中某个字的读音相似的规则，用PS表示；把实体中的字进行拆分，用SD表示；用来强调实体的规则，用AT表示；和实体中词具有语义近似关系的规则，用SI表示；

所述步骤1)为每个目标实体自动构建满足相关规则的构造词，然后根据定义的规则以及生成的构造词，通过演绎的方式为每个目标实体生成对应的候选变形实体；所述构造词根据规则分为两大类：

第一类定义为NP，指通过规则CK、RE、AT和SI所生成的构造词，用来和其他的词进行组合；

第二类定义为NN，指通过规则PS和SD所生成的构造词，用来替换目标实体以及生成的候选实体中的字；

所述通过演绎的方式为每个目标实体生成对应的候选变形实体，包括：首先把目标实体中的部分词和NP中的词组合在一起或者用NP中的词完全的替代目标实体来生成候选变形实体；然后生成的候选实体以及目标实体中的部分字用NN中的词所代替，继续生成另外一些候选变形实体。

2.根据权利要求1所述的方法，其特征在于，步骤2)利用变形实体和目标实体的语义相似性得到和目标实体对应的变形实体。

3.根据权利要求2所述的方法，其特征在于，步骤2)包括：

a)采用CBOW模型，利用大量的无标注语料训练得到词向量，把目标实体和变形实体映射成对应的词向量；

b)计算目标实体的词向量和它对应的候选变形实体集合中所有词向量的相似度；

4.根据权利要求1所述的方法，其特征在于，步骤2)将正确变形实体的识别转化为一个多分类问题，通过多分类器得到和目标实体对应的变形实体，包括以下步骤：

a)多分类器的输入是包含目标实体或者候选变形实体的文本，分类的目标是所有目标实体以及一个标志不包含任何目标实体的类别集合；

b)把所有包含目标实体的文本作为训练文本训练多分类器，然后把包含候选变形实体的文本输入分类器中，利用多分类器预测候选变形实体对应的类别；

5.根据权利要求4所述的方法，其特征在于，所述多分类器的训练过程包括：

a)把所有包含目标实体的文本作为训练文本进行分词后，映射成对应的词向量；

b)对每个词进行词性标注，把对应的词性也映射成向量，和词向量进行拼接后输入到分类模型中；

c)分类模型中采用BLSTM学习实体所在的上下文信息，得到每个字符的向量表示；

d)利用attention机制，学习句子中对预测结果重要的部分，得到句子的向量表示；

e)利用softmax层对学习到的文本信息进行分类；

f)采用交叉熵作为分类模型的目标函数，利用反向传播算法训练分类模型。

6.一种采用权利要求1～5中任一权利要求所述方法的基于规则和统计学习的变形实体识别装置，其特征在于，包括：