CN113377953B

CN113377953B - 一种基于palc－dca模型的实体融合及分类方法

Info

Publication number: CN113377953B
Application number: CN202110599782.5A
Authority: CN
Inventors: 徐杰; 廖静茹; 杨帆; 苏光辉; 李家瑛
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2022-06-21
Anticipated expiration: 2041-05-31
Also published as: CN113377953A

Abstract

本发明公开了一种基于PALC‑DCA模型的实体融合及分类方法，先下载英文文本、候选实体数据集和知识库，再利用PALC模型的多层双向LSTM层判断单词是否为实体，如果是实体，则先利用DCA模型计算实体信息融合概率分布及局部分数序列，再利用反馈模块计算实体类别的标签概率分布，最后通过PALC模型的CRF层进行实体分类；否则，直接通过PALC模型的CRF层进行实体分类。

Description

一种基于PALC－DCA模型的实体融合及分类方法

技术领域

本发明属于实体信息抽取及融合技术领域，更为具体地讲，涉及一种基于PALC-DCA(POStag-Attention-LSTM-CRF-Dynamic Context Augmentation，结合词性注意力机制的动态上下文扩充)模型的实体融合及分类方法。

背景技术

随着现代科技的发展以及通信基础设施的完善，数据的获取和分享的规模达到了前所未有的水平。电视、广播、计算机等数据传输手段的出现使得，数据的传播不再受到地域的限制，实现了全球数据交互。美国管理和信息专家James Martin曾对数据倍增周期做出统计，在19世纪期间，人类的数据倍增周期是50年；到了20世纪前半叶就仅为10年；到了80年代末期，全球数据量倍增时间仅为20个月。90年代末期互联网的出现，使得数据量开始极度膨胀，进入几何级增长。

非结构化数据是整个数据的主要且重要的组成部分，因此面向非结构化数据处理的研究有着重要的作用和广阔的应用前景。非结构数据具有价值密度低的特点，而对非结构化数据进行分析处理，挖掘出其中有价值的信息才能进行使用。就目前的搜索引擎而言，必须对输入的非结构化的文本信息进行提取和语义分析，才能进行有效的搜索。若不对非结构化数据进行处理而直接进行搜索，产生结果也将包含大量无意义的信息。由此可见，面向非结构化数据处理对于搜索引擎而言有着重大的影响。除此之外，从智能机器人、智能问答系统以及推荐系统等等领域，都离不开非结构化数据的处理。知识图谱技术的出现更使得非结构化数据的处理工作成为研究的重点与热点。

对非结构化数据的处理一直是自然语言处理领域的一项关键任务，但非结构化数据的灵活性大，数据量的快速增长以及数据本身的复杂度较大也使得传统的自然语言处理技术难以对其进行有效的处理。深度学习的出现大大提升了非结构化数据的处理能力，然而针对知识图谱中非结构化数据的抽取与融合任务，目前的模型对抽取任务而言准确率受到限制，并且现有模型仍将其看作两个单独部分，并没把两个任务进行有效联系。本文基于深度学习对非结构化数据进行信息抽取与融合任务，探索一种面向非结构化数据的信息抽取与融合的联合学习模型。

在信息抽取方面，Bikel等人首次将HMM模型应用于实体信息抽取任务中，其模型可以用于抽取名称、日期、时间以及数字数量的表达。Szarvas等人则是利用了C4.5决策树以及AdaBoostM1学习算法完成了跨语言的实体信息抽取模型。利用不同的特征子集送入决策树，训练多个决策树通过投票决定最后的结果。Borthwick等人提出了基于最大熵理论的实体信息抽取模型，该模型可以利用丰富的知识信息来做分类决策。McNamee和Mayfield利用了1000个相关语言的258个拼写以及标点特征训练了支持向量机模型。每个分类器为二分类，利用多种信息分辨实体信息所属类别。但是由于支持向量机不考虑周围标签的影响，McCallum和Li提出了一种基于CRF的特征归纳方法。

目前基于CRF的实体信息抽取模型应用于许多领域，包括生物、化学等等。深度学习作为目前最强大的分类器，深度学习模型大大提高了信息抽取的效果，与基于特征的方法相比较而言，深度学习方法可以有效发现非结构化数据的隐藏特征。循环神经网络及其变体都在序列标注问题上发挥了极大的作用。Huang等人首次提出了利用长短期记忆网序列标注模型(LSTM-CRF)完成信息抽取任务。此后的许多学者都将双向长短期记忆(LongShort Term Memory，LSTM)网络作为序列上下文信息编码的基本结构。Yang等在字符级和单词级上都使用了深度门控循环单元(Gated Recurrent Units，GRUs)对形态特征和上下文信息进行编码。Gregory等人在同一输入端使用多个独立的双向LSTM单元，该模型采用了模型间正则化来保障多个LSTM单元之间的多样性。深度学习模型被广泛应用于各个专业领域，例如计算机视觉、医疗、密码学等等。

对于信息融合的基本模型研究，大致可以分为三个主要的研究点：单词表示方式、候选实体筛选以及排序方式。最早单词表示进行研究的学者有Milne和Witten，He等人，他们设计的模型大多依赖于手工提取的特征，例如词袋模型或者独热编码的方式进行单词的表示。直到word2vec的出使得模型可以生成单词的词向量。在此基础上Fang等人提出扩展目标函数，该函数是采用实体多个特征的融合对齐函数。而Ganea和Hofmann等人则是利用实体与单词共现统计设计了目标函数。此外，Zwicklbauer等人使用了实体的注释文本信息代替了原始的输入文本。关于候选实体筛选主要有三个方法：字面匹配、字典查找以及先验概率。对于字面匹配方法而言，Zwicklbauer等人利用匹配信息的表面字符进行候选实体的筛选。对于这种方法而言，拥有别名的实体并不适用，因为其表面字符内不一定含有相关的表述。第二种方法中使用到了第三方知识库来构建别名词典，Pershina等人利用维基百科为实体融合模型提供了别名词典。另一个方法则是YAGO本体，它可以找到抽取实体与知识库中实体的关联，可以用作候选实体的生成器^[21]。第三种方法则是利用超链接统计信息来计算先验概率，大多数研究都是利用维基百科中的链接^]，Spitkovsky和Chang提出了CrossWikis词典，该词典是一个利用网络爬虫获取的实体链接统计数据词典。Nguyen等人^[23]提出了一种实体信息抽取与融合的联合解决模型，两个任务相互依赖可以提高抽取与融合的质量。这种方式是基于图概率模型完成的，而Kolitsas等人^[24]则又提出了一种神经网络的联合学习方式。在信息融合中领域之间的独立性也是重要的特点，由于拥有标注的信息有限，因此一些无监督和弱监督的方式被提出。Le和Titov提出只用未标记文本信息进行远程学习。这种方式依靠的是启发式的弱监督，将排序问题转换成了多实例学习问题。同样，跨语言的信息融合也是一种挑战，目前可以利用翻译字典、训练翻译模型和对齐模型等实现。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于PALC-DCA模型的实体融合及分类方法，通过多层双向LSTM网络与注意力机制的方式快速实现实体信息抽取与融合，从而提高实体分类的准确性。

为实现上述发明目的，本发明一种基于PALC-DCA模型的实体融合及分类方法，其特征在于，包括以下步骤：

(1)、数据获取

下载一个英文文本，记为T，T＝{t₁,t₁,…,t_i,…,t_N}，其中，t_i表示第i个单词，N表示单词的数量；

下载M₁个候选实体及对应的先验概率，构成候选实体数据集

其中，e_j表示第j个候选实体，sco_j表示e_j对应的先验概率；

下载M₂个实体及对应文本描述，构成知识库

其中，M₂＞＞M₁，y_k表示第k个实体，desc_k表示y_k对应的文本描述；

(2)、利用PALC模型的多层双向LSTM层判断单词是否为实体；

(2.1)、统计英文文本T中每个单词的词性，构成文本词性集Pos＝{pos₁,pos₂,…,pos_i,…,pos_N}，其中，pos_i表示第i个单词的词性；

将英文文本T中的每个单词拆分为字符，构成文本字符集Char＝{char₁,char₂…,char_i,…,char_N}，其中，char_i由第i个单词对应的字符组成；

(2.2)、对英文文本T的内容进行向量化编码；

(2.2.1)、设置英文文本T中单词的截取长度L_max；

(2.2.2)、判断英文文本T中单词数量N是否小于截取长度L_max，如果N＜L_max，则进入步骤(2.2.3)；否则，截取该英文文本前L_max个单词组成新英文文本，并用新英文文本替换原英文文本，再进入到步骤(2.2.3)；

同理，对集合Char和Pos进行相同操作；

(2.2.3)、遍历英文文本T，利用glove模型将单词t_i转换为固定长度的词向量，得到单词t_i的词向量t'_i；同理，对T中剩下单词做相同处理，得到T'＝{t'₁,t'₂,…,t'_i,…,t'_N}；

(2.2.4)、利用随机编码算法将pos_i和char_i转换为固定长度的词向量，得到字符char_i'和词性pos_i'；同理，集合Char和Pos中剩下字符和词性进行相同处理，得到Char'＝{char'₁,char'₂,…,char'_i,…,char'_N}，Pos'＝{pos'₁,pos'₂,…,pos'_i,…,pos'_N}；

(2.3)、将Char'中的每个单词的组成字符char'_i依次送入双向LSTM网络进行特征提取，提取出每个组成字符char'_i的形态特征

从而得到形态特征序列

(2.4)、将

与T'进行拼接，得到初始化词向量序列

表示第i个单词的初始化词向量；

(2.5)、将Pos'中每一个单词的词性pos'_i送入双向RNN网络进行特征提取，提取出每个单词的词性特征

从而得到词性特征序列

(2.6)、利用多层双向LSTM以及注意力机制获取语义特征；

(2.6.1)、遍历初始化词向量序列

将每一个初始化词向量

依次送入至反向LSTM网络，提取出

的下文特征向量

得到

的下文特征向量序列

(2.6.2)、将初始化词向量序列

中的每一个初始化词向量

依次送入至正向LSTM网络，提取出

的上文特征向量

得到

的上文特征向量序列

(2.6.3)、将下文特征向量序列

与上文特征向量序列

中对应向量进行拼接，得到

的上下文特征向量序列

为单词

的上下文特征向量；

(2.6.4)、通过注意力机制模块将词性特征序列

与上下文特征向量序列

中对应向量进行拼接，得到融合后的词性特征向量序列

为单词

融合后的词性特征向量；

(2.6.5)、将词性特征向量序列

与初始化词向量序列

中对应向量进行拼接，得到新的词性特征向量序列

表示第i个单词新的词向量；

(2.6.6)、将新的词性特征向量序列

中的每一个新的词向量

依次送入至反向LSTM网络，提取出

的下文特征向量

得到

的下文特征向量序列

(2.6.7)、将上文特征向量序列

与下文特征向量序列

中对应向量进行拼接，得到语义特征向量序列F＝{f₁,f₂,…,f_i,…,f_N}，f_i为单词

的语义特征向量；

(2.7)、将语义特征向量序列F降维后送入softmax层，得到概率预测向量

其中，

表示单词属于第l类的概率，K表示类别数量；

(2.8)、设置非实体集合和实体集合，初始化为空集；选出MAX(P)，判断该类别中的每个单词是否为实体，若某一个单词为非实体，则将该单词加入至非实体集合，再进行步骤(5)；否则，将该单词至实体集合，再进入步骤(3)；

(3)、利用DCA模型计算实体信息融合概率分布以及局部分数序列Score；

(3.1)、利用glove模型对候选实体数据集E进行拆分编码，得到候选实体向量序列

和先验概率序列

表示第j个候选实体向量；

表示

对应的先验概率；

(3.2)、遍历实体集合中的每个单词，将单词t_i的词向量t'_i与候选实体向量序列

一起送入至DCA模型中的局部模块，通过局部模块获取单词t_i的局部分数序列Score，

其中，score_j表示第j个候选实体的局部分数；

(3.3)、将单词t_i的词向量t'_i、先验概率序列

以及候选实体向量序列

一起送入至DCA模型中的全局模块，通过局部模块获取单词t_i的实体信息融合概率分布

表示单词t_i对应第j个候选实体的概率；

(3.4)、先选出

然后将最大概率对应的候选实体作为能够与单词t_i融合的实体；

(4)、利用反馈模块计算实体类别的标签概率分布；

(4.1)、利用字符串匹配法从知识库Y中查出候选实体数据集E中每个候选实体e_j的对应的文本描述desc_j，构成候选实体文本描述序列

(4.2)、利用glove模型进行对候选实体文本描述序列Desc中每个文本描述desc_j进行编码，得到文本描述向量

从而得到文本描述向量序列

(4.3)、利用CNN模型对文本描述向量序列Desc^*中每个文本描述向量

依次进行一次卷积、一次激活和一次池化运算，然后将得到的多维特征用Flatten层转化成一维特征，得到文本描述特征向量

从而得到文本描述特征向量序列

(4.4)、计算单词t_i的文本描述特征向量β_i；

(4.5)、将文本描述特征向量β_i降维后输入到softmax层，得到概率预测向量

其中，

表示单词t_i属于第l类的概率；

(5)、实体分类；

(5.1)、判断是否存在概率预测向量

若

存在，则将

输入至PALC模型的CRF层，其中η、

均为常数；否则，直接将概率预测向量

送入CRF层；通过PALC模型的CRF层输出实体分类的概率分布P＝{p₁,p₂,…,p_l,…,p_K}，其中，p_l表示单词属于第l类的概率；

(5.2)、先选出MAX(P)，然后将最大概率值所对应的类别作为单词t_i的最终分类。

本发明的发明目的是这样实现的：

本发明一种基于PALC-DCA模型的实体融合及分类方法，先下载英文文本、候选实体数据集和知识库，再利用PALC模型的多层双向LSTM层判断单词是否为实体，如果是实体，则先利用DCA模型计算实体信息融合概率分布及局部分数序列，再利用反馈模块计算实体类别的标签概率分布，最后通过PALC模型的CRF层进行实体分类；否则，直接通过PALC模型的CRF层进行实体分类。

同时，本发明一种基于PALC-DCA模型的实体融合及分类方法还具有以下有益效果：

(1)、通过对词性进行标注，利用RNN学习词性特征向量，可以提供更加丰富的特征，从而提升实体分类的准确性。

(2)、传统方法采用双向LSTM网络的方式，这里改为多层双向LSTM网络与注意力机制的方式，可以获得更加准确的语义特征向量，帮助DCA模型减少实体计算量。

(3)、通过增加反馈模块学习实体描述信息，从而提高实体分类的准确性。

附图说明

图1是本发明一种基于PALC-DCA模型的实体融合及分类方法流程图；

图2是利用PALC模型的多层双向LSTM层判断单词是否为实体的流程图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明一种基于PALC-DCA模型的实体融合及分类方法流程图。

在本实施例中，如图1所示，本发明一种基于PALC-DCA模型的实体融合及分类方法，包括以下步骤：

S1、数据获取

下载一个英文文本，记为T，T＝{t₁,t₁,…,t_i,…,t_N}，其中，t_i表示第i个单词，N表示单词的数量；例如，T为{Jordan，is，an，American，scientist}；

下载M₁个候选实体及对应的先验概率，构成候选实体数据集

其中，e_j表示第j个候选实体，sco_j表示e_j对应的先验概率；例如，E为{(Michael J.Jordan，0.8567)，(Michael I.Jordan，0.1237)，(Michael I.Jordan，0.3966)}；

下载M₂个实体及对应文本描述，构成知识库

其中，M₂＞＞M₁，y_k表示第k个实体，desc_k表示y_k对应的文本描述；例如，Y为{(Michael J.Jordan，is a communicationsconsultant in Beijing)，(Michael I.Jordan，is a Member of the third Academy ofArts and Sciences)，(Michael Jordan，is a basketball star)，(Stephen Curry，isgood at snatching and scoring three points)，(HUAWEI，Is a Chinese mobile phoneenterprise)}；

S2、如图2所示，利用PALC模型的多层双向LSTM层判断单词是否为实体；

S2.1、统计英文文本T中每个单词的词性，构成文本词性集Pos＝{pos₁,pos₂,…,pos_i,…,pos_N}，其中，pos_i表示第i个单词的词性；例如，Pos为{专用名词，系动词，数词，专用名词，普通名词}；

将英文文本T中的每个单词拆分为字符，构成文本字符集Char＝{char₁,char₂…,char_i,…,char_N}，其中，char_i由第i个单词对应的字符组成；例如，Char为{Jordan，is，an，American，scientist}；

S2.2、对英文文本T的内容进行向量化编码；

S2.2.1、设置英文文本T中单词的截取长度L_max；

S2.2.2、判断英文文本T中单词数量N是否小于截取长度L_max，如果N＜L_max，则进入步骤S2.2.3；否则，截取该英文文本前L_max个单词组成新英文文本，并用新英文文本替换原英文文本，再进入到步骤S2.2.3；

同理，对集合Char和Pos进行相同操作；

S2.2.3、遍历英文文本T，利用glove模型将单词t_i转换为固定长度的词向量，得到单词t_i的词向量t'_i；同理，对T中剩下单词做相同处理，得到T'＝{t'₁,t'₂,…,t'_i,…,t'_N}；

S2.2.4、利用随机编码算法将pos_i和char_i转换为固定长度的词向量，得到字符char_i'和词性pos_i'；同理，集合Char和Pos中剩下字符和词性进行相同处理，得到Char'＝{char'₁,char'₂,…,char'_i,…,char'_N}，Pos'＝{pos'₁,pos'₂,…,pos'_i,…,pos'_N}；

S2.3、将Char'中的每个单词的组成字符char'_i依次送入双向LSTM网络进行特征提取，提取出每个组成字符char'_i的形态特征

从而得到形态特征序列

S2.4、将

与T'进行拼接，得到初始化词向量序列

表示第i个单词的初始化词向量；

S2.5、将Pos'中每一个单词的词性pos'_i送入双向RNN网络进行特征提取，提取出每个单词的词性特征

从而得到词性特征序列

S2.6、利用多层双向LSTM以及注意力机制获取语义特征；

S2.6.1、遍历初始化词向量序列

将每一个初始化词向量

依次送入至反向LSTM网络，提取出

的下文特征向量

得到

的下文特征向量序列

S2.6.2、将初始化词向量序列

中的每一个初始化词向量

依次送入至正向LSTM网络，提取出

的上文特征向量

得到

的上文特征向量序列

S2.6.3、将下文特征向量序列

与上文特征向量序列

中对应向量进行拼接，得到

的上下文特征向量序列

为单词

的上下文特征向量；

S2.6.4、通过注意力机制模块将词性特征序列

与上下文特征向量序列

中对应向量进行拼接，得到融合后的词性特征向量序列

为单词

融合后的词性特征向量；

S2.6.5、将词性特征向量序列

与初始化词向量序列

中对应向量进行拼接，得到新的词性特征向量序列

表示第i个单词新的词向量；

S2.6.6、将新的词性特征向量序列

中的每一个新的词向量

依次送入至反向LSTM网络，提取出

的下文特征向量

得到

的下文特征向量序列

S2.6.7、将上文特征向量序列

与下文特征向量序列

的语义特征向量；

S2.7、将语义特征向量序列F降维后送入softmax层，得到概率预测向量

其中，

表示单词属于第l类的概率，K表示类别数量；

S2.8、设置非实体集合和实体集合，初始化为空集；选出MAX(P)，判断该类别中的每个单词是否为实体，若某一个单词为非实体，则将该单词加入至非实体集合，再进行步骤S5；否则，将该单词至实体集合，再进入步骤S3；

在本实施例中，设置K＝4，类别分别人名、地名、机构名和非实体类，对于“Jordan”来说，如果

的值最大，则说明为人名类，加入实体集合；此时，在实体集合内有“Jordan”，非实体集合内有“is，an，American，scientist”；

S3、利用DCA模型计算实体信息融合概率分布以及局部分数序列Score；

S3.1、利用glove模型对候选实体数据集E进行拆分编码，得到候选实体向量序列

和先验概率序列

表示第j个候选实体向量；

表示

对应的先验概率；

S3.2、遍历实体集合中的每个单词，将单词t_i的词向量t'_i与候选实体向量序列

其中，score_j表示第j个候选实体的局部分数；

S3.3、将单词t_i的词向量t'_i、先验概率序列

以及候选实体向量序列

表示单词t_i对应第j个候选实体的概率；

S3.4、先选出

然后将最大概率对应的候选实体作为能够与单词t_i融合的实体；在本实施例中，如果

最大，则与“Jordan”融合的实体是Michael I.Jordan；

S4、利用反馈模块计算实体类别的标签概率分布；

S4.1、利用字符串匹配法从知识库Y中查出候选实体数据集E中每个候选实体e_j的对应的文本描述desc_j，构成候选实体文本描述序列

在本实施例中，Desc是{is a communications consultant in Beijing，is a Member ofthe third Academy of Arts and Sciences，is a basketball star}；

S4.2、利用glove模型进行对候选实体文本描述序列Desc中每个文本描述desc_j进行编码，得到文本描述向量

从而得到文本描述向量序列

从而得到文本描述特征向量序列

S4.4、计算单词t_i的文本描述特征向量β_i；

S4.5、将文本描述特征向量β_i降维后输入到softmax层，得到概率预测向量

其中，

表示单词t_i属于第l类的概率；

S5、实体分类；

S5.1、判断是否存在概率预测向量

若

存在，则将

输入至PALC模型的CRF层，其中η、

均为常数；否则，直接将概率预测向量

S5.2、先选出MAX(P)，然后将最大概率值所对应的类别作为单词t_i的最终分类。

在本实施例中，对于“Jordan”来说，

的值最大，则说明单词“Jordan”为人名类。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于PALC-DCA模型的实体融合及分类方法，其中，PALC-DCA模型为POStag-Attention-LSTM-CRF-Dynamic Context Augmentation，结合词性注意力机制的动态上下文扩充模型，其特征在于，包括以下步骤：

(1)、数据获取

下载M₁个候选实体及对应的先验概率，构成候选实体数据集

其中，e_j表示第j个候选实体，sco_j表示e_j对应的先验概率；

下载M₂个实体及对应文本描述，构成知识库

(2)、利用PALC模型的多层双向LSTM层判断单词是否为实体；

(2.2)、对英文文本T的内容进行向量化编码；

(2.2.1)、设置英文文本T中单词的截取长度L_max；

同理，对集合Char和Pos进行相同操作；

(2.2.3)、遍历英文文本T，利用glove模型将单词t_i转换为固定长度的词向量，得到单词t_i的词向量t′_i；同理，对T中剩下单词做相同处理，得到T'＝{t′₁,t′₂,…,t′_i,…,t′_N}；

(2.2.4)、利用随机编码算法将pos_i和char_i转换为固定长度的词向量，得到字符char_i'和词性pos_i'；同理，集合Char和Pos中剩下字符和词性进行相同处理，得到Char'＝{char′₁,char′₂,…,char′_i,…,char′_N}，Pos'＝{pos′₁,pos′₂,…,pos′_i,…,pos′_N}；

(2.3)、将Char'中的每个单词的组成字符char′_i依次送入双向LSTM网络进行特征提取，提取出每个组成字符char′_i的形态特征