CN113377953B - 一种基于palc-dca模型的实体融合及分类方法 - Google Patents
一种基于palc-dca模型的实体融合及分类方法 Download PDFInfo
- Publication number
- CN113377953B CN113377953B CN202110599782.5A CN202110599782A CN113377953B CN 113377953 B CN113377953 B CN 113377953B CN 202110599782 A CN202110599782 A CN 202110599782A CN 113377953 B CN113377953 B CN 113377953B
- Authority
- CN
- China
- Prior art keywords
- word
- entity
- sequence
- char
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims abstract description 26
- YCLAMANSVUJYPT-UHFFFAOYSA-L aluminum chloride hydroxide hydrate Chemical compound O.[OH-].[Al+3].[Cl-] YCLAMANSVUJYPT-UHFFFAOYSA-L 0.000 claims abstract description 16
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 172
- 238000000605 extraction Methods 0.000 claims description 21
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 239000000470 constituent Substances 0.000 claims description 6
- 230000000877 morphologic effect Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000003416 augmentation Effects 0.000 claims description 2
- 238000013459 approach Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- NLYAJNPCOHFWQQ-UHFFFAOYSA-N kaolin Chemical compound O.O.O=[Al]O[Si](=O)O[Si](=O)O[Al]=O NLYAJNPCOHFWQQ-UHFFFAOYSA-N 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于PALC‑DCA模型的实体融合及分类方法,先下载英文文本、候选实体数据集和知识库,再利用PALC模型的多层双向LSTM层判断单词是否为实体,如果是实体,则先利用DCA模型计算实体信息融合概率分布及局部分数序列,再利用反馈模块计算实体类别的标签概率分布,最后通过PALC模型的CRF层进行实体分类;否则,直接通过PALC模型的CRF层进行实体分类。
Description
技术领域
本发明属于实体信息抽取及融合技术领域,更为具体地讲,涉及一种基于PALC-DCA(POStag-Attention-LSTM-CRF-Dynamic Context Augmentation,结合词性注意力机制的动态上下文扩充)模型的实体融合及分类方法。
背景技术
随着现代科技的发展以及通信基础设施的完善,数据的获取和分享的规模达到了前所未有的水平。电视、广播、计算机等数据传输手段的出现使得,数据的传播不再受到地域的限制,实现了全球数据交互。美国管理和信息专家James Martin曾对数据倍增周期做出统计,在19世纪期间,人类的数据倍增周期是50年;到了20世纪前半叶就仅为10年;到了80年代末期,全球数据量倍增时间仅为20个月。90年代末期互联网的出现,使得数据量开始极度膨胀,进入几何级增长。
非结构化数据是整个数据的主要且重要的组成部分,因此面向非结构化数据处理的研究有着重要的作用和广阔的应用前景。非结构数据具有价值密度低的特点,而对非结构化数据进行分析处理,挖掘出其中有价值的信息才能进行使用。就目前的搜索引擎而言,必须对输入的非结构化的文本信息进行提取和语义分析,才能进行有效的搜索。若不对非结构化数据进行处理而直接进行搜索,产生结果也将包含大量无意义的信息。由此可见,面向非结构化数据处理对于搜索引擎而言有着重大的影响。除此之外,从智能机器人、智能问答系统以及推荐系统等等领域,都离不开非结构化数据的处理。知识图谱技术的出现更使得非结构化数据的处理工作成为研究的重点与热点。
对非结构化数据的处理一直是自然语言处理领域的一项关键任务,但非结构化数据的灵活性大,数据量的快速增长以及数据本身的复杂度较大也使得传统的自然语言处理技术难以对其进行有效的处理。深度学习的出现大大提升了非结构化数据的处理能力,然而针对知识图谱中非结构化数据的抽取与融合任务,目前的模型对抽取任务而言准确率受到限制,并且现有模型仍将其看作两个单独部分,并没把两个任务进行有效联系。本文基于深度学习对非结构化数据进行信息抽取与融合任务,探索一种面向非结构化数据的信息抽取与融合的联合学习模型。
在信息抽取方面,Bikel等人首次将HMM模型应用于实体信息抽取任务中,其模型可以用于抽取名称、日期、时间以及数字数量的表达。Szarvas等人则是利用了C4.5决策树以及AdaBoostM1学习算法完成了跨语言的实体信息抽取模型。利用不同的特征子集送入决策树,训练多个决策树通过投票决定最后的结果。Borthwick等人提出了基于最大熵理论的实体信息抽取模型,该模型可以利用丰富的知识信息来做分类决策。McNamee和Mayfield利用了1000个相关语言的258个拼写以及标点特征训练了支持向量机模型。每个分类器为二分类,利用多种信息分辨实体信息所属类别。但是由于支持向量机不考虑周围标签的影响,McCallum和Li提出了一种基于CRF的特征归纳方法。
目前基于CRF的实体信息抽取模型应用于许多领域,包括生物、化学等等。深度学习作为目前最强大的分类器,深度学习模型大大提高了信息抽取的效果,与基于特征的方法相比较而言,深度学习方法可以有效发现非结构化数据的隐藏特征。循环神经网络及其变体都在序列标注问题上发挥了极大的作用。Huang等人首次提出了利用长短期记忆网序列标注模型(LSTM-CRF)完成信息抽取任务。此后的许多学者都将双向长短期记忆(LongShort Term Memory,LSTM)网络作为序列上下文信息编码的基本结构。Yang等在字符级和单词级上都使用了深度门控循环单元(Gated Recurrent Units,GRUs)对形态特征和上下文信息进行编码。Gregory等人在同一输入端使用多个独立的双向LSTM单元,该模型采用了模型间正则化来保障多个LSTM单元之间的多样性。深度学习模型被广泛应用于各个专业领域,例如计算机视觉、医疗、密码学等等。
对于信息融合的基本模型研究,大致可以分为三个主要的研究点:单词表示方式、候选实体筛选以及排序方式。最早单词表示进行研究的学者有Milne和Witten,He等人,他们设计的模型大多依赖于手工提取的特征,例如词袋模型或者独热编码的方式进行单词的表示。直到word2vec的出使得模型可以生成单词的词向量。在此基础上Fang等人提出扩展目标函数,该函数是采用实体多个特征的融合对齐函数。而Ganea和Hofmann等人则是利用实体与单词共现统计设计了目标函数。此外,Zwicklbauer等人使用了实体的注释文本信息代替了原始的输入文本。关于候选实体筛选主要有三个方法:字面匹配、字典查找以及先验概率。对于字面匹配方法而言,Zwicklbauer等人利用匹配信息的表面字符进行候选实体的筛选。对于这种方法而言,拥有别名的实体并不适用,因为其表面字符内不一定含有相关的表述。第二种方法中使用到了第三方知识库来构建别名词典,Pershina等人利用维基百科为实体融合模型提供了别名词典。另一个方法则是YAGO本体,它可以找到抽取实体与知识库中实体的关联,可以用作候选实体的生成器[21]。第三种方法则是利用超链接统计信息来计算先验概率,大多数研究都是利用维基百科中的链接],Spitkovsky和Chang提出了CrossWikis词典,该词典是一个利用网络爬虫获取的实体链接统计数据词典。Nguyen等人[23]提出了一种实体信息抽取与融合的联合解决模型,两个任务相互依赖可以提高抽取与融合的质量。这种方式是基于图概率模型完成的,而Kolitsas等人[24]则又提出了一种神经网络的联合学习方式。在信息融合中领域之间的独立性也是重要的特点,由于拥有标注的信息有限,因此一些无监督和弱监督的方式被提出。Le和Titov提出只用未标记文本信息进行远程学习。这种方式依靠的是启发式的弱监督,将排序问题转换成了多实例学习问题。同样,跨语言的信息融合也是一种挑战,目前可以利用翻译字典、训练翻译模型和对齐模型等实现。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于PALC-DCA模型的实体融合及分类方法,通过多层双向LSTM网络与注意力机制的方式快速实现实体信息抽取与融合,从而提高实体分类的准确性。
为实现上述发明目的,本发明一种基于PALC-DCA模型的实体融合及分类方法,其特征在于,包括以下步骤:
(1)、数据获取
下载一个英文文本,记为T,T={t1,t1,…,ti,…,tN},其中,ti表示第i个单词,N表示单词的数量;
(2)、利用PALC模型的多层双向LSTM层判断单词是否为实体;
(2.1)、统计英文文本T中每个单词的词性,构成文本词性集Pos={pos1,pos2,…,posi,…,posN},其中,posi表示第i个单词的词性;
将英文文本T中的每个单词拆分为字符,构成文本字符集Char={char1,char2…,chari,…,charN},其中,chari由第i个单词对应的字符组成;
(2.2)、对英文文本T的内容进行向量化编码;
(2.2.1)、设置英文文本T中单词的截取长度Lmax;
(2.2.2)、判断英文文本T中单词数量N是否小于截取长度Lmax,如果N<Lmax,则进入步骤(2.2.3);否则,截取该英文文本前Lmax个单词组成新英文文本,并用新英文文本替换原英文文本,再进入到步骤(2.2.3);
同理,对集合Char和Pos进行相同操作;
(2.2.3)、遍历英文文本T,利用glove模型将单词ti转换为固定长度的词向量,得到单词ti的词向量t'i;同理,对T中剩下单词做相同处理,得到T'={t'1,t'2,…,t'i,…,t'N};
(2.2.4)、利用随机编码算法将posi和chari转换为固定长度的词向量,得到字符chari'和词性posi';同理,集合Char和Pos中剩下字符和词性进行相同处理,得到Char'={char'1,char'2,…,char'i,…,char'N},Pos'={pos'1,pos'2,…,pos'i,…,pos'N};
(2.6)、利用多层双向LSTM以及注意力机制获取语义特征;
(2.8)、设置非实体集合和实体集合,初始化为空集;选出MAX(P),判断该类别中的每个单词是否为实体,若某一个单词为非实体,则将该单词加入至非实体集合,再进行步骤(5);否则,将该单词至实体集合,再进入步骤(3);
(3)、利用DCA模型计算实体信息融合概率分布以及局部分数序列Score;
(3.2)、遍历实体集合中的每个单词,将单词ti的词向量t'i与候选实体向量序列一起送入至DCA模型中的局部模块,通过局部模块获取单词ti的局部分数序列Score,其中,scorej表示第j个候选实体的局部分数;
(4)、利用反馈模块计算实体类别的标签概率分布;
(4.3)、利用CNN模型对文本描述向量序列Desc*中每个文本描述向量依次进行一次卷积、一次激活和一次池化运算,然后将得到的多维特征用Flatten层转化成一维特征,得到文本描述特征向量从而得到文本描述特征向量序列
(4.4)、计算单词ti的文本描述特征向量βi;
(5)、实体分类;
(5.1)、判断是否存在概率预测向量若存在,则将输入至PALC模型的CRF层,其中η、均为常数;否则,直接将概率预测向量送入CRF层;通过PALC模型的CRF层输出实体分类的概率分布P={p1,p2,…,pl,…,pK},其中,pl表示单词属于第l类的概率;
(5.2)、先选出MAX(P),然后将最大概率值所对应的类别作为单词ti的最终分类。
本发明的发明目的是这样实现的:
本发明一种基于PALC-DCA模型的实体融合及分类方法,先下载英文文本、候选实体数据集和知识库,再利用PALC模型的多层双向LSTM层判断单词是否为实体,如果是实体,则先利用DCA模型计算实体信息融合概率分布及局部分数序列,再利用反馈模块计算实体类别的标签概率分布,最后通过PALC模型的CRF层进行实体分类;否则,直接通过PALC模型的CRF层进行实体分类。
同时,本发明一种基于PALC-DCA模型的实体融合及分类方法还具有以下有益效果:
(1)、通过对词性进行标注,利用RNN学习词性特征向量,可以提供更加丰富的特征,从而提升实体分类的准确性。
(2)、传统方法采用双向LSTM网络的方式,这里改为多层双向LSTM网络与注意力机制的方式,可以获得更加准确的语义特征向量,帮助DCA模型减少实体计算量。
(3)、通过增加反馈模块学习实体描述信息,从而提高实体分类的准确性。
附图说明
图1是本发明一种基于PALC-DCA模型的实体融合及分类方法流程图;
图2是利用PALC模型的多层双向LSTM层判断单词是否为实体的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种基于PALC-DCA模型的实体融合及分类方法流程图。
在本实施例中,如图1所示,本发明一种基于PALC-DCA模型的实体融合及分类方法,包括以下步骤:
S1、数据获取
下载一个英文文本,记为T,T={t1,t1,…,ti,…,tN},其中,ti表示第i个单词,N表示单词的数量;例如,T为{Jordan,is,an,American,scientist};
下载M1个候选实体及对应的先验概率,构成候选实体数据集其中,ej表示第j个候选实体,scoj表示ej对应的先验概率;例如,E为{(Michael J.Jordan,0.8567),(Michael I.Jordan,0.1237),(Michael I.Jordan,0.3966)};
下载M2个实体及对应文本描述,构成知识库其中,M2>>M1,yk表示第k个实体,desck表示yk对应的文本描述;例如,Y为{(Michael J.Jordan,is a communicationsconsultant in Beijing),(Michael I.Jordan,is a Member of the third Academy ofArts and Sciences),(Michael Jordan,is a basketball star),(Stephen Curry,isgood at snatching and scoring three points),(HUAWEI,Is a Chinese mobile phoneenterprise)};
S2、如图2所示,利用PALC模型的多层双向LSTM层判断单词是否为实体;
S2.1、统计英文文本T中每个单词的词性,构成文本词性集Pos={pos1,pos2,…,posi,…,posN},其中,posi表示第i个单词的词性;例如,Pos为{专用名词,系动词,数词,专用名词,普通名词};
将英文文本T中的每个单词拆分为字符,构成文本字符集Char={char1,char2…,chari,…,charN},其中,chari由第i个单词对应的字符组成;例如,Char为{Jordan,is,an,American,scientist};
S2.2、对英文文本T的内容进行向量化编码;
S2.2.1、设置英文文本T中单词的截取长度Lmax;
S2.2.2、判断英文文本T中单词数量N是否小于截取长度Lmax,如果N<Lmax,则进入步骤S2.2.3;否则,截取该英文文本前Lmax个单词组成新英文文本,并用新英文文本替换原英文文本,再进入到步骤S2.2.3;
同理,对集合Char和Pos进行相同操作;
S2.2.3、遍历英文文本T,利用glove模型将单词ti转换为固定长度的词向量,得到单词ti的词向量t'i;同理,对T中剩下单词做相同处理,得到T'={t'1,t'2,…,t'i,…,t'N};
S2.2.4、利用随机编码算法将posi和chari转换为固定长度的词向量,得到字符chari'和词性posi';同理,集合Char和Pos中剩下字符和词性进行相同处理,得到Char'={char'1,char'2,…,char'i,…,char'N},Pos'={pos'1,pos'2,…,pos'i,…,pos'N};
S2.6、利用多层双向LSTM以及注意力机制获取语义特征;
S2.8、设置非实体集合和实体集合,初始化为空集;选出MAX(P),判断该类别中的每个单词是否为实体,若某一个单词为非实体,则将该单词加入至非实体集合,再进行步骤S5;否则,将该单词至实体集合,再进入步骤S3;
在本实施例中,设置K=4,类别分别人名、地名、机构名和非实体类,对于“Jordan”来说,如果的值最大,则说明为人名类,加入实体集合;此时,在实体集合内有“Jordan”,非实体集合内有“is,an,American,scientist”;
S3、利用DCA模型计算实体信息融合概率分布以及局部分数序列Score;
S3.2、遍历实体集合中的每个单词,将单词ti的词向量t'i与候选实体向量序列一起送入至DCA模型中的局部模块,通过局部模块获取单词ti的局部分数序列Score,其中,scorej表示第j个候选实体的局部分数;
S4、利用反馈模块计算实体类别的标签概率分布;
S4.1、利用字符串匹配法从知识库Y中查出候选实体数据集E中每个候选实体ej的对应的文本描述descj,构成候选实体文本描述序列在本实施例中,Desc是{is a communications consultant in Beijing,is a Member ofthe third Academy of Arts and Sciences,is a basketball star};
(4.3)、利用CNN模型对文本描述向量序列Desc*中每个文本描述向量依次进行一次卷积、一次激活和一次池化运算,然后将得到的多维特征用Flatten层转化成一维特征,得到文本描述特征向量从而得到文本描述特征向量序列
S4.4、计算单词ti的文本描述特征向量βi;
S5、实体分类;
S5.1、判断是否存在概率预测向量若存在,则将输入至PALC模型的CRF层,其中η、均为常数;否则,直接将概率预测向量送入CRF层;通过PALC模型的CRF层输出实体分类的概率分布P={p1,p2,…,pl,…,pK},其中,pl表示单词属于第l类的概率;
S5.2、先选出MAX(P),然后将最大概率值所对应的类别作为单词ti的最终分类。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (2)
1.一种基于PALC-DCA模型的实体融合及分类方法,其中,PALC-DCA模型为POStag-Attention-LSTM-CRF-Dynamic Context Augmentation,结合词性注意力机制的动态上下文扩充模型,其特征在于,包括以下步骤:
(1)、数据获取
下载一个英文文本,记为T,T={t1,t1,…,ti,…,tN},其中,ti表示第i个单词,N表示单词的数量;
(2)、利用PALC模型的多层双向LSTM层判断单词是否为实体;
(2.1)、统计英文文本T中每个单词的词性,构成文本词性集Pos={pos1,pos2,…,posi,…,posN},其中,posi表示第i个单词的词性;
将英文文本T中的每个单词拆分为字符,构成文本字符集Char={char1,char2…,chari,…,charN},其中,chari由第i个单词对应的字符组成;
(2.2)、对英文文本T的内容进行向量化编码;
(2.2.1)、设置英文文本T中单词的截取长度Lmax;
(2.2.2)、判断英文文本T中单词数量N是否小于截取长度Lmax,如果N<Lmax,则进入步骤(2.2.3);否则,截取该英文文本前Lmax个单词组成新英文文本,并用新英文文本替换原英文文本,再进入到步骤(2.2.3);
同理,对集合Char和Pos进行相同操作;
(2.2.3)、遍历英文文本T,利用glove模型将单词ti转换为固定长度的词向量,得到单词ti的词向量t′i;同理,对T中剩下单词做相同处理,得到T'={t′1,t′2,…,t′i,…,t′N};
(2.2.4)、利用随机编码算法将posi和chari转换为固定长度的词向量,得到字符chari'和词性posi';同理,集合Char和Pos中剩下字符和词性进行相同处理,得到Char'={char′1,char′2,…,char′i,…,char′N},Pos'={pos′1,pos′2,…,pos′i,…,pos′N};
(2.8)、设置非实体集合和实体集合,初始化为空集;选出判断该类别中的每个单词是否为实体,若某一个单词为非实体,则将该单词加入至非实体集合,再进行步骤(5);否则,将该单词至实体集合,再进入步骤(3);
(3)、利用DCA模型计算实体信息融合概率分布以及局部分数序列Score;
(3.2)、遍历实体集合中的每个单词,将单词ti的词向量t′i与候选实体向量序列一起送入至DCA模型中的局部模块,通过局部模块获取单词ti的局部分数序列Score,其中,scorej表示第j个候选实体的局部分数;
(4)、利用反馈模块计算实体类别的标签概率分布;
(4.3)、利用CNN模型对文本描述向量序列Desc*中每个文本描述向量依次进行一次卷积、一次激活和一次池化运算,然后将得到的多维特征用Flatten层转化成一维特征,得到文本描述特征向量从而得到文本描述特征向量序列
(4.4)、计算单词ti的文本描述特征向量βi;
(5)、实体分类;
(5.1)、判断是否存在概率预测向量若存在,则将输入至PALC模型的CRF层,其中η、均为常数;否则,直接将概率预测向量送入CRF层;通过PALC模型的CRF层输出实体分类的概率分布P={p1,p2,…,pl,…,pK},其中,pl表示单词属于第l类的概率;
(5.2)、先选出MAX(P),然后将最大概率值所对应的类别作为单词ti的最终分类。
2.根据权利要求1所述的基于PALC-DCA模型的实体融合及分类方法,其特征在于,所述步骤(2.6)中利用多层双向LSTM以及注意力机制获取语义特征向量序列的具体方法为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110599782.5A CN113377953B (zh) | 2021-05-31 | 2021-05-31 | 一种基于palc-dca模型的实体融合及分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110599782.5A CN113377953B (zh) | 2021-05-31 | 2021-05-31 | 一种基于palc-dca模型的实体融合及分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113377953A CN113377953A (zh) | 2021-09-10 |
CN113377953B true CN113377953B (zh) | 2022-06-21 |
Family
ID=77575058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110599782.5A Active CN113377953B (zh) | 2021-05-31 | 2021-05-31 | 一种基于palc-dca模型的实体融合及分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113377953B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114239725B (zh) * | 2021-12-17 | 2023-04-21 | 四川大学 | 一种面向数据投毒攻击的窃电检测方法 |
CN114840560B (zh) * | 2022-04-14 | 2023-02-28 | 深圳市医未医疗科技有限公司 | 非结构化数据转化及存储方法和装置 |
CN114820212A (zh) * | 2022-04-26 | 2022-07-29 | 慧择保险经纪有限公司 | 非连续疾病实体抽取方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
CN108920445A (zh) * | 2018-04-23 | 2018-11-30 | 华中科技大学鄂州工业技术研究院 | 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置 |
CN112528653A (zh) * | 2020-12-02 | 2021-03-19 | 支付宝(杭州)信息技术有限公司 | 短文本实体识别方法和系统 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10565493B2 (en) * | 2016-09-22 | 2020-02-18 | Salesforce.Com, Inc. | Pointer sentinel mixture architecture |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN108460013B (zh) * | 2018-01-30 | 2021-08-20 | 大连理工大学 | 一种基于细粒度词表示模型的序列标注模型及方法 |
CN109299262B (zh) * | 2018-10-09 | 2022-04-15 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
CN110969020B (zh) * | 2019-11-21 | 2022-10-11 | 中国人民解放军国防科技大学 | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 |
CN111143563A (zh) * | 2019-12-27 | 2020-05-12 | 电子科技大学 | 基于bert与lstm及cnn融合的文本分类方法 |
CN111444720A (zh) * | 2020-03-30 | 2020-07-24 | 华南理工大学 | 一种英文文本的命名实体识别方法 |
CN111522908A (zh) * | 2020-04-09 | 2020-08-11 | 国网上海市电力公司 | 一种基于BiGRU和注意力机制的多标签文本分类方法 |
CN111914097A (zh) * | 2020-07-13 | 2020-11-10 | 吉林大学 | 基于注意力机制和多层级特征融合的实体抽取方法与装置 |
CN112069313A (zh) * | 2020-08-12 | 2020-12-11 | 北京工业大学 | 一种基于bert与双向lstm、注意力机制融合的灾难信息博文分类方法 |
CN112507114A (zh) * | 2020-11-04 | 2021-03-16 | 福州大学 | 一种基于词注意力机制的多输入lstm_cnn文本分类方法及系统 |
CN112507717A (zh) * | 2020-12-16 | 2021-03-16 | 北京信息科技大学 | 融合实体关键字特征的医疗领域实体分类方法 |
-
2021
- 2021-05-31 CN CN202110599782.5A patent/CN113377953B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
CN108920445A (zh) * | 2018-04-23 | 2018-11-30 | 华中科技大学鄂州工业技术研究院 | 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置 |
CN112528653A (zh) * | 2020-12-02 | 2021-03-19 | 支付宝(杭州)信息技术有限公司 | 短文本实体识别方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113377953A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110609897B (zh) | 一种融合全局和局部特征的多类别中文文本分类方法 | |
CN110413986B (zh) | 一种改进词向量模型的文本聚类多文档自动摘要方法及系统 | |
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN113377953B (zh) | 一种基于palc-dca模型的实体融合及分类方法 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN111581401B (zh) | 一种基于深度相关性匹配的局部引文推荐系统及方法 | |
CN107943784B (zh) | 基于生成对抗网络的关系抽取方法 | |
CN111581364B (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN110674252A (zh) | 一种面向司法领域的高精度语义搜索系统 | |
CN113515632A (zh) | 基于图路径知识萃取的文本分类方法 | |
CN112163089B (zh) | 一种融合命名实体识别的高技术文本分类方法及系统 | |
CN113312483A (zh) | 一种基于自注意力机制和BiGRU的文本分类方法 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN111967267A (zh) | 一种基于XLNet的新闻文本地域提取的方法及系统 | |
CN111858933A (zh) | 基于字符的层次化文本情感分析方法及系统 | |
CN113486177A (zh) | 一种基于文本分类的电力领域表格列标注方法 | |
CN114239730B (zh) | 一种基于近邻排序关系的跨模态检索方法 | |
Ding et al. | A knowledge-enriched and span-based network for joint entity and relation extraction | |
CN113254688A (zh) | 一种基于深度哈希的商标检索方法 | |
Sun et al. | A hybrid approach to news recommendation based on knowledge graph and long short-term user preferences | |
CN111414755A (zh) | 一种基于细粒度情感字典的网络情绪分析方法 | |
Bao et al. | HTRM: a hybrid neural network algorithm based on tag-aware | |
CN116662566A (zh) | 一种基于对比学习机制的异质信息网络链路预测方法 | |
CN112507723B (zh) | 基于多模型融合的新闻情感分析方法 | |
CN113516202A (zh) | Cbl特征提取与去噪的网页精准分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |