CN113377953B - 一种基于palc-dca模型的实体融合及分类方法 - Google Patents

一种基于palc-dca模型的实体融合及分类方法 Download PDF

Info

Publication number
CN113377953B
CN113377953B CN202110599782.5A CN202110599782A CN113377953B CN 113377953 B CN113377953 B CN 113377953B CN 202110599782 A CN202110599782 A CN 202110599782A CN 113377953 B CN113377953 B CN 113377953B
Authority
CN
China
Prior art keywords
word
entity
sequence
char
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110599782.5A
Other languages
English (en)
Other versions
CN113377953A (zh
Inventor
徐杰
廖静茹
杨帆
苏光辉
李家瑛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110599782.5A priority Critical patent/CN113377953B/zh
Publication of CN113377953A publication Critical patent/CN113377953A/zh
Application granted granted Critical
Publication of CN113377953B publication Critical patent/CN113377953B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于PALC‑DCA模型的实体融合及分类方法,先下载英文文本、候选实体数据集和知识库,再利用PALC模型的多层双向LSTM层判断单词是否为实体,如果是实体,则先利用DCA模型计算实体信息融合概率分布及局部分数序列,再利用反馈模块计算实体类别的标签概率分布,最后通过PALC模型的CRF层进行实体分类;否则,直接通过PALC模型的CRF层进行实体分类。

Description

一种基于PALC-DCA模型的实体融合及分类方法
技术领域
本发明属于实体信息抽取及融合技术领域,更为具体地讲,涉及一种基于PALC-DCA(POStag-Attention-LSTM-CRF-Dynamic Context Augmentation,结合词性注意力机制的动态上下文扩充)模型的实体融合及分类方法。
背景技术
随着现代科技的发展以及通信基础设施的完善,数据的获取和分享的规模达到了前所未有的水平。电视、广播、计算机等数据传输手段的出现使得,数据的传播不再受到地域的限制,实现了全球数据交互。美国管理和信息专家James Martin曾对数据倍增周期做出统计,在19世纪期间,人类的数据倍增周期是50年;到了20世纪前半叶就仅为10年;到了80年代末期,全球数据量倍增时间仅为20个月。90年代末期互联网的出现,使得数据量开始极度膨胀,进入几何级增长。
非结构化数据是整个数据的主要且重要的组成部分,因此面向非结构化数据处理的研究有着重要的作用和广阔的应用前景。非结构数据具有价值密度低的特点,而对非结构化数据进行分析处理,挖掘出其中有价值的信息才能进行使用。就目前的搜索引擎而言,必须对输入的非结构化的文本信息进行提取和语义分析,才能进行有效的搜索。若不对非结构化数据进行处理而直接进行搜索,产生结果也将包含大量无意义的信息。由此可见,面向非结构化数据处理对于搜索引擎而言有着重大的影响。除此之外,从智能机器人、智能问答系统以及推荐系统等等领域,都离不开非结构化数据的处理。知识图谱技术的出现更使得非结构化数据的处理工作成为研究的重点与热点。
对非结构化数据的处理一直是自然语言处理领域的一项关键任务,但非结构化数据的灵活性大,数据量的快速增长以及数据本身的复杂度较大也使得传统的自然语言处理技术难以对其进行有效的处理。深度学习的出现大大提升了非结构化数据的处理能力,然而针对知识图谱中非结构化数据的抽取与融合任务,目前的模型对抽取任务而言准确率受到限制,并且现有模型仍将其看作两个单独部分,并没把两个任务进行有效联系。本文基于深度学习对非结构化数据进行信息抽取与融合任务,探索一种面向非结构化数据的信息抽取与融合的联合学习模型。
在信息抽取方面,Bikel等人首次将HMM模型应用于实体信息抽取任务中,其模型可以用于抽取名称、日期、时间以及数字数量的表达。Szarvas等人则是利用了C4.5决策树以及AdaBoostM1学习算法完成了跨语言的实体信息抽取模型。利用不同的特征子集送入决策树,训练多个决策树通过投票决定最后的结果。Borthwick等人提出了基于最大熵理论的实体信息抽取模型,该模型可以利用丰富的知识信息来做分类决策。McNamee和Mayfield利用了1000个相关语言的258个拼写以及标点特征训练了支持向量机模型。每个分类器为二分类,利用多种信息分辨实体信息所属类别。但是由于支持向量机不考虑周围标签的影响,McCallum和Li提出了一种基于CRF的特征归纳方法。
目前基于CRF的实体信息抽取模型应用于许多领域,包括生物、化学等等。深度学习作为目前最强大的分类器,深度学习模型大大提高了信息抽取的效果,与基于特征的方法相比较而言,深度学习方法可以有效发现非结构化数据的隐藏特征。循环神经网络及其变体都在序列标注问题上发挥了极大的作用。Huang等人首次提出了利用长短期记忆网序列标注模型(LSTM-CRF)完成信息抽取任务。此后的许多学者都将双向长短期记忆(LongShort Term Memory,LSTM)网络作为序列上下文信息编码的基本结构。Yang等在字符级和单词级上都使用了深度门控循环单元(Gated Recurrent Units,GRUs)对形态特征和上下文信息进行编码。Gregory等人在同一输入端使用多个独立的双向LSTM单元,该模型采用了模型间正则化来保障多个LSTM单元之间的多样性。深度学习模型被广泛应用于各个专业领域,例如计算机视觉、医疗、密码学等等。
对于信息融合的基本模型研究,大致可以分为三个主要的研究点:单词表示方式、候选实体筛选以及排序方式。最早单词表示进行研究的学者有Milne和Witten,He等人,他们设计的模型大多依赖于手工提取的特征,例如词袋模型或者独热编码的方式进行单词的表示。直到word2vec的出使得模型可以生成单词的词向量。在此基础上Fang等人提出扩展目标函数,该函数是采用实体多个特征的融合对齐函数。而Ganea和Hofmann等人则是利用实体与单词共现统计设计了目标函数。此外,Zwicklbauer等人使用了实体的注释文本信息代替了原始的输入文本。关于候选实体筛选主要有三个方法:字面匹配、字典查找以及先验概率。对于字面匹配方法而言,Zwicklbauer等人利用匹配信息的表面字符进行候选实体的筛选。对于这种方法而言,拥有别名的实体并不适用,因为其表面字符内不一定含有相关的表述。第二种方法中使用到了第三方知识库来构建别名词典,Pershina等人利用维基百科为实体融合模型提供了别名词典。另一个方法则是YAGO本体,它可以找到抽取实体与知识库中实体的关联,可以用作候选实体的生成器[21]。第三种方法则是利用超链接统计信息来计算先验概率,大多数研究都是利用维基百科中的链接],Spitkovsky和Chang提出了CrossWikis词典,该词典是一个利用网络爬虫获取的实体链接统计数据词典。Nguyen等人[23]提出了一种实体信息抽取与融合的联合解决模型,两个任务相互依赖可以提高抽取与融合的质量。这种方式是基于图概率模型完成的,而Kolitsas等人[24]则又提出了一种神经网络的联合学习方式。在信息融合中领域之间的独立性也是重要的特点,由于拥有标注的信息有限,因此一些无监督和弱监督的方式被提出。Le和Titov提出只用未标记文本信息进行远程学习。这种方式依靠的是启发式的弱监督,将排序问题转换成了多实例学习问题。同样,跨语言的信息融合也是一种挑战,目前可以利用翻译字典、训练翻译模型和对齐模型等实现。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于PALC-DCA模型的实体融合及分类方法,通过多层双向LSTM网络与注意力机制的方式快速实现实体信息抽取与融合,从而提高实体分类的准确性。
为实现上述发明目的,本发明一种基于PALC-DCA模型的实体融合及分类方法,其特征在于,包括以下步骤:
(1)、数据获取
下载一个英文文本,记为T,T={t1,t1,…,ti,…,tN},其中,ti表示第i个单词,N表示单词的数量;
下载M1个候选实体及对应的先验概率,构成候选实体数据集
Figure BDA0003092342490000041
其中,ej表示第j个候选实体,scoj表示ej对应的先验概率;
下载M2个实体及对应文本描述,构成知识库
Figure BDA0003092342490000042
其中,M2>>M1,yk表示第k个实体,desck表示yk对应的文本描述;
(2)、利用PALC模型的多层双向LSTM层判断单词是否为实体;
(2.1)、统计英文文本T中每个单词的词性,构成文本词性集Pos={pos1,pos2,…,posi,…,posN},其中,posi表示第i个单词的词性;
将英文文本T中的每个单词拆分为字符,构成文本字符集Char={char1,char2…,chari,…,charN},其中,chari由第i个单词对应的字符组成;
(2.2)、对英文文本T的内容进行向量化编码;
(2.2.1)、设置英文文本T中单词的截取长度Lmax
(2.2.2)、判断英文文本T中单词数量N是否小于截取长度Lmax,如果N<Lmax,则进入步骤(2.2.3);否则,截取该英文文本前Lmax个单词组成新英文文本,并用新英文文本替换原英文文本,再进入到步骤(2.2.3);
同理,对集合Char和Pos进行相同操作;
(2.2.3)、遍历英文文本T,利用glove模型将单词ti转换为固定长度的词向量,得到单词ti的词向量t'i;同理,对T中剩下单词做相同处理,得到T'={t'1,t'2,…,t'i,…,t'N};
(2.2.4)、利用随机编码算法将posi和chari转换为固定长度的词向量,得到字符chari'和词性posi';同理,集合Char和Pos中剩下字符和词性进行相同处理,得到Char'={char'1,char'2,…,char'i,…,char'N},Pos'={pos'1,pos'2,…,pos'i,…,pos'N};
(2.3)、将Char'中的每个单词的组成字符char'i依次送入双向LSTM网络进行特征提取,提取出每个组成字符char'i的形态特征
Figure BDA0003092342490000043
从而得到形态特征序列
Figure BDA0003092342490000044
(2.4)、将
Figure BDA0003092342490000045
与T'进行拼接,得到初始化词向量序列
Figure BDA0003092342490000046
表示第i个单词的初始化词向量;
(2.5)、将Pos'中每一个单词的词性pos'i送入双向RNN网络进行特征提取,提取出每个单词的词性特征
Figure BDA0003092342490000051
从而得到词性特征序列
Figure BDA0003092342490000052
(2.6)、利用多层双向LSTM以及注意力机制获取语义特征;
(2.6.1)、遍历初始化词向量序列
Figure BDA0003092342490000053
将每一个初始化词向量
Figure BDA0003092342490000054
依次送入至反向LSTM网络,提取出
Figure BDA0003092342490000055
的下文特征向量
Figure BDA0003092342490000056
得到
Figure BDA0003092342490000057
的下文特征向量序列
Figure BDA0003092342490000058
(2.6.2)、将初始化词向量序列
Figure BDA0003092342490000059
中的每一个初始化词向量
Figure BDA00030923424900000510
依次送入至正向LSTM网络,提取出
Figure BDA00030923424900000511
的上文特征向量
Figure BDA00030923424900000512
得到
Figure BDA00030923424900000513
的上文特征向量序列
Figure BDA00030923424900000514
(2.6.3)、将下文特征向量序列
Figure BDA00030923424900000515
与上文特征向量序列
Figure BDA00030923424900000516
中对应向量进行拼接,得到
Figure BDA00030923424900000517
的上下文特征向量序列
Figure BDA00030923424900000518
为单词
Figure BDA00030923424900000519
的上下文特征向量;
(2.6.4)、通过注意力机制模块将词性特征序列
Figure BDA00030923424900000520
与上下文特征向量序列
Figure BDA00030923424900000521
中对应向量进行拼接,得到融合后的词性特征向量序列
Figure BDA00030923424900000522
为单词
Figure BDA00030923424900000523
融合后的词性特征向量;
(2.6.5)、将词性特征向量序列
Figure BDA00030923424900000524
与初始化词向量序列
Figure BDA00030923424900000525
中对应向量进行拼接,得到新的词性特征向量序列
Figure BDA00030923424900000526
表示第i个单词新的词向量;
(2.6.6)、将新的词性特征向量序列
Figure BDA00030923424900000527
中的每一个新的词向量
Figure BDA00030923424900000528
依次送入至反向LSTM网络,提取出
Figure BDA00030923424900000529
的下文特征向量
Figure BDA00030923424900000530
得到
Figure BDA00030923424900000531
的下文特征向量序列
Figure BDA00030923424900000532
(2.6.7)、将上文特征向量序列
Figure BDA00030923424900000535
与下文特征向量序列
Figure BDA00030923424900000533
中对应向量进行拼接,得到语义特征向量序列F={f1,f2,…,fi,…,fN},fi为单词
Figure BDA00030923424900000534
的语义特征向量;
(2.7)、将语义特征向量序列F降维后送入softmax层,得到概率预测向量
Figure BDA0003092342490000061
其中,
Figure BDA0003092342490000062
表示单词属于第l类的概率,K表示类别数量;
(2.8)、设置非实体集合和实体集合,初始化为空集;选出MAX(P),判断该类别中的每个单词是否为实体,若某一个单词为非实体,则将该单词加入至非实体集合,再进行步骤(5);否则,将该单词至实体集合,再进入步骤(3);
(3)、利用DCA模型计算实体信息融合概率分布以及局部分数序列Score;
(3.1)、利用glove模型对候选实体数据集E进行拆分编码,得到候选实体向量序列
Figure BDA0003092342490000063
和先验概率序列
Figure BDA0003092342490000064
表示第j个候选实体向量;
Figure BDA0003092342490000065
表示
Figure BDA0003092342490000066
对应的先验概率;
(3.2)、遍历实体集合中的每个单词,将单词ti的词向量t'i与候选实体向量序列
Figure BDA0003092342490000067
一起送入至DCA模型中的局部模块,通过局部模块获取单词ti的局部分数序列Score,
Figure BDA0003092342490000068
其中,scorej表示第j个候选实体的局部分数;
(3.3)、将单词ti的词向量t'i、先验概率序列
Figure BDA0003092342490000069
以及候选实体向量序列
Figure BDA00030923424900000610
一起送入至DCA模型中的全局模块,通过局部模块获取单词ti的实体信息融合概率分布
Figure BDA00030923424900000611
表示单词ti对应第j个候选实体的概率;
(3.4)、先选出
Figure BDA00030923424900000612
然后将最大概率对应的候选实体作为能够与单词ti融合的实体;
(4)、利用反馈模块计算实体类别的标签概率分布;
(4.1)、利用字符串匹配法从知识库Y中查出候选实体数据集E中每个候选实体ej的对应的文本描述descj,构成候选实体文本描述序列
Figure BDA00030923424900000613
(4.2)、利用glove模型进行对候选实体文本描述序列Desc中每个文本描述descj进行编码,得到文本描述向量
Figure BDA00030923424900000614
从而得到文本描述向量序列
Figure BDA0003092342490000071
(4.3)、利用CNN模型对文本描述向量序列Desc*中每个文本描述向量
Figure BDA00030923424900000712
依次进行一次卷积、一次激活和一次池化运算,然后将得到的多维特征用Flatten层转化成一维特征,得到文本描述特征向量
Figure BDA0003092342490000072
从而得到文本描述特征向量序列
Figure BDA0003092342490000073
(4.4)、计算单词ti的文本描述特征向量βi
Figure BDA0003092342490000074
(4.5)、将文本描述特征向量βi降维后输入到softmax层,得到概率预测向量
Figure BDA0003092342490000075
其中,
Figure BDA0003092342490000076
表示单词ti属于第l类的概率;
(5)、实体分类;
(5.1)、判断是否存在概率预测向量
Figure BDA0003092342490000077
Figure BDA0003092342490000078
存在,则将
Figure BDA0003092342490000079
输入至PALC模型的CRF层,其中η、
Figure BDA00030923424900000710
均为常数;否则,直接将概率预测向量
Figure BDA00030923424900000711
送入CRF层;通过PALC模型的CRF层输出实体分类的概率分布P={p1,p2,…,pl,…,pK},其中,pl表示单词属于第l类的概率;
(5.2)、先选出MAX(P),然后将最大概率值所对应的类别作为单词ti的最终分类。
本发明的发明目的是这样实现的:
本发明一种基于PALC-DCA模型的实体融合及分类方法,先下载英文文本、候选实体数据集和知识库,再利用PALC模型的多层双向LSTM层判断单词是否为实体,如果是实体,则先利用DCA模型计算实体信息融合概率分布及局部分数序列,再利用反馈模块计算实体类别的标签概率分布,最后通过PALC模型的CRF层进行实体分类;否则,直接通过PALC模型的CRF层进行实体分类。
同时,本发明一种基于PALC-DCA模型的实体融合及分类方法还具有以下有益效果:
(1)、通过对词性进行标注,利用RNN学习词性特征向量,可以提供更加丰富的特征,从而提升实体分类的准确性。
(2)、传统方法采用双向LSTM网络的方式,这里改为多层双向LSTM网络与注意力机制的方式,可以获得更加准确的语义特征向量,帮助DCA模型减少实体计算量。
(3)、通过增加反馈模块学习实体描述信息,从而提高实体分类的准确性。
附图说明
图1是本发明一种基于PALC-DCA模型的实体融合及分类方法流程图;
图2是利用PALC模型的多层双向LSTM层判断单词是否为实体的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种基于PALC-DCA模型的实体融合及分类方法流程图。
在本实施例中,如图1所示,本发明一种基于PALC-DCA模型的实体融合及分类方法,包括以下步骤:
S1、数据获取
下载一个英文文本,记为T,T={t1,t1,…,ti,…,tN},其中,ti表示第i个单词,N表示单词的数量;例如,T为{Jordan,is,an,American,scientist};
下载M1个候选实体及对应的先验概率,构成候选实体数据集
Figure BDA0003092342490000081
其中,ej表示第j个候选实体,scoj表示ej对应的先验概率;例如,E为{(Michael J.Jordan,0.8567),(Michael I.Jordan,0.1237),(Michael I.Jordan,0.3966)};
下载M2个实体及对应文本描述,构成知识库
Figure BDA0003092342490000082
其中,M2>>M1,yk表示第k个实体,desck表示yk对应的文本描述;例如,Y为{(Michael J.Jordan,is a communicationsconsultant in Beijing),(Michael I.Jordan,is a Member of the third Academy ofArts and Sciences),(Michael Jordan,is a basketball star),(Stephen Curry,isgood at snatching and scoring three points),(HUAWEI,Is a Chinese mobile phoneenterprise)};
S2、如图2所示,利用PALC模型的多层双向LSTM层判断单词是否为实体;
S2.1、统计英文文本T中每个单词的词性,构成文本词性集Pos={pos1,pos2,…,posi,…,posN},其中,posi表示第i个单词的词性;例如,Pos为{专用名词,系动词,数词,专用名词,普通名词};
将英文文本T中的每个单词拆分为字符,构成文本字符集Char={char1,char2…,chari,…,charN},其中,chari由第i个单词对应的字符组成;例如,Char为{Jordan,is,an,American,scientist};
S2.2、对英文文本T的内容进行向量化编码;
S2.2.1、设置英文文本T中单词的截取长度Lmax
S2.2.2、判断英文文本T中单词数量N是否小于截取长度Lmax,如果N<Lmax,则进入步骤S2.2.3;否则,截取该英文文本前Lmax个单词组成新英文文本,并用新英文文本替换原英文文本,再进入到步骤S2.2.3;
同理,对集合Char和Pos进行相同操作;
S2.2.3、遍历英文文本T,利用glove模型将单词ti转换为固定长度的词向量,得到单词ti的词向量t'i;同理,对T中剩下单词做相同处理,得到T'={t'1,t'2,…,t'i,…,t'N};
S2.2.4、利用随机编码算法将posi和chari转换为固定长度的词向量,得到字符chari'和词性posi';同理,集合Char和Pos中剩下字符和词性进行相同处理,得到Char'={char'1,char'2,…,char'i,…,char'N},Pos'={pos'1,pos'2,…,pos'i,…,pos'N};
S2.3、将Char'中的每个单词的组成字符char'i依次送入双向LSTM网络进行特征提取,提取出每个组成字符char'i的形态特征
Figure BDA0003092342490000091
从而得到形态特征序列
Figure BDA0003092342490000092
S2.4、将
Figure BDA0003092342490000101
与T'进行拼接,得到初始化词向量序列
Figure BDA0003092342490000102
表示第i个单词的初始化词向量;
S2.5、将Pos'中每一个单词的词性pos'i送入双向RNN网络进行特征提取,提取出每个单词的词性特征
Figure BDA0003092342490000103
从而得到词性特征序列
Figure BDA0003092342490000104
S2.6、利用多层双向LSTM以及注意力机制获取语义特征;
S2.6.1、遍历初始化词向量序列
Figure BDA0003092342490000105
将每一个初始化词向量
Figure BDA0003092342490000106
依次送入至反向LSTM网络,提取出
Figure BDA0003092342490000107
的下文特征向量
Figure BDA0003092342490000108
得到
Figure BDA0003092342490000109
的下文特征向量序列
Figure BDA00030923424900001010
S2.6.2、将初始化词向量序列
Figure BDA00030923424900001011
中的每一个初始化词向量
Figure BDA00030923424900001012
依次送入至正向LSTM网络,提取出
Figure BDA00030923424900001013
的上文特征向量
Figure BDA00030923424900001014
得到
Figure BDA00030923424900001015
的上文特征向量序列
Figure BDA00030923424900001016
S2.6.3、将下文特征向量序列
Figure BDA00030923424900001037
与上文特征向量序列
Figure BDA00030923424900001017
中对应向量进行拼接,得到
Figure BDA00030923424900001018
的上下文特征向量序列
Figure BDA00030923424900001019
为单词
Figure BDA00030923424900001020
的上下文特征向量;
S2.6.4、通过注意力机制模块将词性特征序列
Figure BDA00030923424900001021
与上下文特征向量序列
Figure BDA00030923424900001022
中对应向量进行拼接,得到融合后的词性特征向量序列
Figure BDA00030923424900001023
为单词
Figure BDA00030923424900001024
融合后的词性特征向量;
S2.6.5、将词性特征向量序列
Figure BDA00030923424900001025
与初始化词向量序列
Figure BDA00030923424900001026
中对应向量进行拼接,得到新的词性特征向量序列
Figure BDA00030923424900001027
表示第i个单词新的词向量;
S2.6.6、将新的词性特征向量序列
Figure BDA00030923424900001028
中的每一个新的词向量
Figure BDA00030923424900001029
依次送入至反向LSTM网络,提取出
Figure BDA00030923424900001030
的下文特征向量
Figure BDA00030923424900001031
得到
Figure BDA00030923424900001032
的下文特征向量序列
Figure BDA00030923424900001033
S2.6.7、将上文特征向量序列
Figure BDA00030923424900001034
与下文特征向量序列
Figure BDA00030923424900001035
中对应向量进行拼接,得到语义特征向量序列F={f1,f2,…,fi,…,fN},fi为单词
Figure BDA00030923424900001036
的语义特征向量;
S2.7、将语义特征向量序列F降维后送入softmax层,得到概率预测向量
Figure BDA0003092342490000111
其中,
Figure BDA0003092342490000112
表示单词属于第l类的概率,K表示类别数量;
S2.8、设置非实体集合和实体集合,初始化为空集;选出MAX(P),判断该类别中的每个单词是否为实体,若某一个单词为非实体,则将该单词加入至非实体集合,再进行步骤S5;否则,将该单词至实体集合,再进入步骤S3;
在本实施例中,设置K=4,类别分别人名、地名、机构名和非实体类,对于“Jordan”来说,如果
Figure BDA0003092342490000113
的值最大,则说明为人名类,加入实体集合;此时,在实体集合内有“Jordan”,非实体集合内有“is,an,American,scientist”;
S3、利用DCA模型计算实体信息融合概率分布以及局部分数序列Score;
S3.1、利用glove模型对候选实体数据集E进行拆分编码,得到候选实体向量序列
Figure BDA0003092342490000114
和先验概率序列
Figure BDA0003092342490000115
表示第j个候选实体向量;
Figure BDA0003092342490000117
表示
Figure BDA0003092342490000118
对应的先验概率;
S3.2、遍历实体集合中的每个单词,将单词ti的词向量t'i与候选实体向量序列
Figure BDA0003092342490000119
一起送入至DCA模型中的局部模块,通过局部模块获取单词ti的局部分数序列Score,
Figure BDA00030923424900001110
其中,scorej表示第j个候选实体的局部分数;
S3.3、将单词ti的词向量t'i、先验概率序列
Figure BDA00030923424900001111
以及候选实体向量序列
Figure BDA00030923424900001112
一起送入至DCA模型中的全局模块,通过局部模块获取单词ti的实体信息融合概率分布
Figure BDA00030923424900001113
表示单词ti对应第j个候选实体的概率;
S3.4、先选出
Figure BDA00030923424900001114
然后将最大概率对应的候选实体作为能够与单词ti融合的实体;在本实施例中,如果
Figure BDA00030923424900001115
最大,则与“Jordan”融合的实体是Michael I.Jordan;
S4、利用反馈模块计算实体类别的标签概率分布;
S4.1、利用字符串匹配法从知识库Y中查出候选实体数据集E中每个候选实体ej的对应的文本描述descj,构成候选实体文本描述序列
Figure BDA0003092342490000121
在本实施例中,Desc是{is a communications consultant in Beijing,is a Member ofthe third Academy of Arts and Sciences,is a basketball star};
S4.2、利用glove模型进行对候选实体文本描述序列Desc中每个文本描述descj进行编码,得到文本描述向量
Figure BDA00030923424900001214
从而得到文本描述向量序列
Figure BDA0003092342490000122
(4.3)、利用CNN模型对文本描述向量序列Desc*中每个文本描述向量
Figure BDA00030923424900001215
依次进行一次卷积、一次激活和一次池化运算,然后将得到的多维特征用Flatten层转化成一维特征,得到文本描述特征向量
Figure BDA0003092342490000123
从而得到文本描述特征向量序列
Figure BDA0003092342490000124
S4.4、计算单词ti的文本描述特征向量βi
Figure BDA0003092342490000125
S4.5、将文本描述特征向量βi降维后输入到softmax层,得到概率预测向量
Figure BDA0003092342490000126
其中,
Figure BDA0003092342490000127
表示单词ti属于第l类的概率;
S5、实体分类;
S5.1、判断是否存在概率预测向量
Figure BDA0003092342490000128
Figure BDA0003092342490000129
存在,则将
Figure BDA00030923424900001210
输入至PALC模型的CRF层,其中η、
Figure BDA00030923424900001211
均为常数;否则,直接将概率预测向量
Figure BDA00030923424900001212
送入CRF层;通过PALC模型的CRF层输出实体分类的概率分布P={p1,p2,…,pl,…,pK},其中,pl表示单词属于第l类的概率;
S5.2、先选出MAX(P),然后将最大概率值所对应的类别作为单词ti的最终分类。
在本实施例中,对于“Jordan”来说,
Figure BDA00030923424900001213
的值最大,则说明单词“Jordan”为人名类。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.一种基于PALC-DCA模型的实体融合及分类方法,其中,PALC-DCA模型为POStag-Attention-LSTM-CRF-Dynamic Context Augmentation,结合词性注意力机制的动态上下文扩充模型,其特征在于,包括以下步骤:
(1)、数据获取
下载一个英文文本,记为T,T={t1,t1,…,ti,…,tN},其中,ti表示第i个单词,N表示单词的数量;
下载M1个候选实体及对应的先验概率,构成候选实体数据集
Figure FDA0003551329810000011
其中,ej表示第j个候选实体,scoj表示ej对应的先验概率;
下载M2个实体及对应文本描述,构成知识库
Figure FDA0003551329810000012
其中,M2>>M1,yk表示第k个实体,desck表示yk对应的文本描述;
(2)、利用PALC模型的多层双向LSTM层判断单词是否为实体;
(2.1)、统计英文文本T中每个单词的词性,构成文本词性集Pos={pos1,pos2,…,posi,…,posN},其中,posi表示第i个单词的词性;
将英文文本T中的每个单词拆分为字符,构成文本字符集Char={char1,char2…,chari,…,charN},其中,chari由第i个单词对应的字符组成;
(2.2)、对英文文本T的内容进行向量化编码;
(2.2.1)、设置英文文本T中单词的截取长度Lmax
(2.2.2)、判断英文文本T中单词数量N是否小于截取长度Lmax,如果N<Lmax,则进入步骤(2.2.3);否则,截取该英文文本前Lmax个单词组成新英文文本,并用新英文文本替换原英文文本,再进入到步骤(2.2.3);
同理,对集合Char和Pos进行相同操作;
(2.2.3)、遍历英文文本T,利用glove模型将单词ti转换为固定长度的词向量,得到单词ti的词向量t′i;同理,对T中剩下单词做相同处理,得到T'={t′1,t′2,…,t′i,…,t′N};
(2.2.4)、利用随机编码算法将posi和chari转换为固定长度的词向量,得到字符chari'和词性posi';同理,集合Char和Pos中剩下字符和词性进行相同处理,得到Char'={char′1,char′2,…,char′i,…,char′N},Pos'={pos′1,pos′2,…,pos′i,…,pos′N};
(2.3)、将Char'中的每个单词的组成字符char′i依次送入双向LSTM网络进行特征提取,提取出每个组成字符char′i的形态特征
Figure FDA0003551329810000021
从而得到形态特征序列
Figure FDA0003551329810000022
(2.4)、将
Figure FDA0003551329810000023
与T'进行拼接,得到初始化词向量序列
Figure FDA0003551329810000024
Figure FDA0003551329810000025
表示第i个单词的初始化词向量;
(2.5)、将Pos'中每一个单词的词性pos′i送入双向RNN网络进行特征提取,提取出每个单词的词性特征
Figure FDA0003551329810000026
从而得到词性特征序列
Figure FDA0003551329810000027
(2.6)、利用多层双向LSTM以及注意力机制获取语义特征向量序列F={f1,f2,…,fi,…,fN},fi为单词
Figure FDA0003551329810000028
的语义特征向量;
(2.7)、将语义特征向量序列F降维后送入softmax层,得到概率预测向量
Figure FDA0003551329810000029
其中,
Figure FDA00035513298100000210
表示单词属于第l类的概率,K表示类别数量;
(2.8)、设置非实体集合和实体集合,初始化为空集;选出
Figure FDA00035513298100000211
判断该类别中的每个单词是否为实体,若某一个单词为非实体,则将该单词加入至非实体集合,再进行步骤(5);否则,将该单词至实体集合,再进入步骤(3);
(3)、利用DCA模型计算实体信息融合概率分布以及局部分数序列Score;
(3.1)、利用glove模型对候选实体数据集E进行拆分编码,得到候选实体向量序列
Figure FDA00035513298100000212
和先验概率序列
Figure FDA00035513298100000213
Figure FDA00035513298100000214
Figure FDA00035513298100000215
表示第j个候选实体向量;
Figure FDA00035513298100000216
Figure FDA00035513298100000217
表示
Figure FDA00035513298100000218
对应的先验概率;
(3.2)、遍历实体集合中的每个单词,将单词ti的词向量t′i与候选实体向量序列
Figure FDA00035513298100000219
一起送入至DCA模型中的局部模块,通过局部模块获取单词ti的局部分数序列Score,
Figure FDA00035513298100000220
其中,scorej表示第j个候选实体的局部分数;
(3.3)、将单词ti的词向量t′i、先验概率序列
Figure FDA00035513298100000221
以及候选实体向量序列
Figure FDA00035513298100000222
一起送入至DCA模型中的全局模块,通过局部模块获取单词ti的实体信息融合概率分布
Figure FDA0003551329810000031
Figure FDA0003551329810000032
表示单词ti对应第j个候选实体的概率;
(3.4)、先选出
Figure FDA0003551329810000033
然后将最大概率对应的候选实体作为能够与单词ti融合的实体;
(4)、利用反馈模块计算实体类别的标签概率分布;
(4.1)、利用字符串匹配法从知识库Y中查出候选实体数据集E中每个候选实体ej的对应的文本描述descj,构成候选实体文本描述序列
Figure FDA0003551329810000034
(4.2)、利用glove模型进行对候选实体文本描述序列Desc中每个文本描述descj进行编码,得到文本描述向量
Figure FDA0003551329810000035
从而得到文本描述向量序列
Figure FDA0003551329810000036
(4.3)、利用CNN模型对文本描述向量序列Desc*中每个文本描述向量
Figure FDA0003551329810000037
依次进行一次卷积、一次激活和一次池化运算,然后将得到的多维特征用Flatten层转化成一维特征,得到文本描述特征向量
Figure FDA0003551329810000038
从而得到文本描述特征向量序列
Figure FDA0003551329810000039
(4.4)、计算单词ti的文本描述特征向量βi
Figure FDA00035513298100000310
(4.5)、将文本描述特征向量βi降维后输入到softmax层,得到概率预测向量
Figure FDA00035513298100000311
其中,
Figure FDA00035513298100000312
表示单词ti属于第l类的概率;
(5)、实体分类;
(5.1)、判断是否存在概率预测向量
Figure FDA00035513298100000313
Figure FDA00035513298100000314
存在,则将
Figure FDA00035513298100000315
输入至PALC模型的CRF层,其中η、
Figure FDA00035513298100000316
均为常数;否则,直接将概率预测向量
Figure FDA00035513298100000317
送入CRF层;通过PALC模型的CRF层输出实体分类的概率分布P={p1,p2,…,pl,…,pK},其中,pl表示单词属于第l类的概率;
(5.2)、先选出MAX(P),然后将最大概率值所对应的类别作为单词ti的最终分类。
2.根据权利要求1所述的基于PALC-DCA模型的实体融合及分类方法,其特征在于,所述步骤(2.6)中利用多层双向LSTM以及注意力机制获取语义特征向量序列的具体方法为:
1)、遍历初始化词向量序列
Figure FDA0003551329810000041
将每一个初始化词向量
Figure FDA0003551329810000042
依次送入至反向LSTM网络,提取出
Figure FDA0003551329810000043
的下文特征向量
Figure FDA0003551329810000044
得到
Figure FDA0003551329810000045
的下文特征向量序列
Figure FDA0003551329810000046
2)、将初始化词向量序列
Figure FDA0003551329810000047
中的每一个初始化词向量
Figure FDA0003551329810000048
依次送入至正向LSTM网络,提取出
Figure FDA0003551329810000049
的上文特征向量
Figure FDA00035513298100000410
得到
Figure FDA00035513298100000411
的上文特征向量序列
Figure FDA00035513298100000412
3)、将下文特征向量序列
Figure FDA00035513298100000413
与上文特征向量序列
Figure FDA00035513298100000414
中对应向量进行拼接,得到
Figure FDA00035513298100000415
的上下文特征向量序列
Figure FDA00035513298100000416
Figure FDA00035513298100000417
为单词
Figure FDA00035513298100000418
的上下文特征向量;
4)、通过注意力机制模块将词性特征序列
Figure FDA00035513298100000419
与上下文特征向量序列
Figure FDA00035513298100000420
中对应向量进行拼接,得到融合后的词性特征向量序列
Figure FDA00035513298100000421
Figure FDA00035513298100000422
为单词
Figure FDA00035513298100000423
融合后的词性特征向量;
5)、将词性特征向量序列
Figure FDA00035513298100000424
与初始化词向量序列
Figure FDA00035513298100000425
中对应向量进行拼接,得到新的词性特征向量序列
Figure FDA00035513298100000426
Figure FDA00035513298100000427
表示第i个单词新的词向量;
6)、将新的词性特征向量序列
Figure FDA00035513298100000428
中的每一个新的词向量
Figure FDA00035513298100000429
依次送入至反向LSTM网络,提取出
Figure FDA00035513298100000430
的下文特征向量
Figure FDA00035513298100000431
得到
Figure FDA00035513298100000432
的下文特征向量序列
Figure FDA00035513298100000433
7)、将上文特征向量序列
Figure FDA00035513298100000434
与下文特征向量序列
Figure FDA00035513298100000435
中对应向量进行拼接,得到语义特征向量序列F={f1,f2,…,fi,…,fN},fi为单词
Figure FDA00035513298100000436
的语义特征向量。
CN202110599782.5A 2021-05-31 2021-05-31 一种基于palc-dca模型的实体融合及分类方法 Active CN113377953B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110599782.5A CN113377953B (zh) 2021-05-31 2021-05-31 一种基于palc-dca模型的实体融合及分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110599782.5A CN113377953B (zh) 2021-05-31 2021-05-31 一种基于palc-dca模型的实体融合及分类方法

Publications (2)

Publication Number Publication Date
CN113377953A CN113377953A (zh) 2021-09-10
CN113377953B true CN113377953B (zh) 2022-06-21

Family

ID=77575058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110599782.5A Active CN113377953B (zh) 2021-05-31 2021-05-31 一种基于palc-dca模型的实体融合及分类方法

Country Status (1)

Country Link
CN (1) CN113377953B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114239725B (zh) * 2021-12-17 2023-04-21 四川大学 一种面向数据投毒攻击的窃电检测方法
CN114840560B (zh) * 2022-04-14 2023-02-28 深圳市医未医疗科技有限公司 非结构化数据转化及存储方法和装置
CN114820212A (zh) * 2022-04-26 2022-07-29 慧择保险经纪有限公司 非连续疾病实体抽取方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN108920445A (zh) * 2018-04-23 2018-11-30 华中科技大学鄂州工业技术研究院 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置
CN112528653A (zh) * 2020-12-02 2021-03-19 支付宝(杭州)信息技术有限公司 短文本实体识别方法和系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10565493B2 (en) * 2016-09-22 2020-02-18 Salesforce.Com, Inc. Pointer sentinel mixture architecture
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN108460013B (zh) * 2018-01-30 2021-08-20 大连理工大学 一种基于细粒度词表示模型的序列标注模型及方法
CN109299262B (zh) * 2018-10-09 2022-04-15 中山大学 一种融合多粒度信息的文本蕴含关系识别方法
CN110969020B (zh) * 2019-11-21 2022-10-11 中国人民解放军国防科技大学 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN111143563A (zh) * 2019-12-27 2020-05-12 电子科技大学 基于bert与lstm及cnn融合的文本分类方法
CN111444720A (zh) * 2020-03-30 2020-07-24 华南理工大学 一种英文文本的命名实体识别方法
CN111522908A (zh) * 2020-04-09 2020-08-11 国网上海市电力公司 一种基于BiGRU和注意力机制的多标签文本分类方法
CN111914097A (zh) * 2020-07-13 2020-11-10 吉林大学 基于注意力机制和多层级特征融合的实体抽取方法与装置
CN112069313A (zh) * 2020-08-12 2020-12-11 北京工业大学 一种基于bert与双向lstm、注意力机制融合的灾难信息博文分类方法
CN112507114A (zh) * 2020-11-04 2021-03-16 福州大学 一种基于词注意力机制的多输入lstm_cnn文本分类方法及系统
CN112507717A (zh) * 2020-12-16 2021-03-16 北京信息科技大学 融合实体关键字特征的医疗领域实体分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644014A (zh) * 2017-09-25 2018-01-30 南京安链数据科技有限公司 一种基于双向lstm和crf的命名实体识别方法
CN108920445A (zh) * 2018-04-23 2018-11-30 华中科技大学鄂州工业技术研究院 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置
CN112528653A (zh) * 2020-12-02 2021-03-19 支付宝(杭州)信息技术有限公司 短文本实体识别方法和系统

Also Published As

Publication number Publication date
CN113377953A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN110609897B (zh) 一种融合全局和局部特征的多类别中文文本分类方法
CN110413986B (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN113377953B (zh) 一种基于palc-dca模型的实体融合及分类方法
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN111581401B (zh) 一种基于深度相关性匹配的局部引文推荐系统及方法
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN112163089B (zh) 一种融合命名实体识别的高技术文本分类方法及系统
CN113312483A (zh) 一种基于自注意力机制和BiGRU的文本分类方法
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN111967267A (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN111858933A (zh) 基于字符的层次化文本情感分析方法及系统
CN113486177A (zh) 一种基于文本分类的电力领域表格列标注方法
CN114239730B (zh) 一种基于近邻排序关系的跨模态检索方法
Ding et al. A knowledge-enriched and span-based network for joint entity and relation extraction
CN113254688A (zh) 一种基于深度哈希的商标检索方法
Sun et al. A hybrid approach to news recommendation based on knowledge graph and long short-term user preferences
CN111414755A (zh) 一种基于细粒度情感字典的网络情绪分析方法
Bao et al. HTRM: a hybrid neural network algorithm based on tag-aware
CN116662566A (zh) 一种基于对比学习机制的异质信息网络链路预测方法
CN112507723B (zh) 基于多模型融合的新闻情感分析方法
CN113516202A (zh) Cbl特征提取与去噪的网页精准分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant