CN116702784B - 实体链接方法、装置、计算机设备和存储介质 - Google Patents
实体链接方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116702784B CN116702784B CN202310969875.1A CN202310969875A CN116702784B CN 116702784 B CN116702784 B CN 116702784B CN 202310969875 A CN202310969875 A CN 202310969875A CN 116702784 B CN116702784 B CN 116702784B
- Authority
- CN
- China
- Prior art keywords
- entity
- graph
- information
- input text
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000012545 processing Methods 0.000 claims abstract description 157
- 230000004927 fusion Effects 0.000 claims abstract description 86
- 238000000605 extraction Methods 0.000 claims abstract description 79
- 239000011159 matrix material Substances 0.000 claims abstract description 36
- 238000007499 fusion processing Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 7
- 238000000926 separation method Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 25
- 238000005516 engineering process Methods 0.000 description 18
- 238000013473 artificial intelligence Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000003993 interaction Effects 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 9
- 238000005096 rolling process Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种实体链接方法、装置、计算机设备和存储介质。方法包括:先对输入文本数据进行特征提取处理,得到输入文本特征。并对候选实体信息关联的知识图谱内容进行图编码处理,得到知识图谱编码特征。而后通过多核张量矩阵对输入文本特征和知识图谱编码特征进行特征融合处理,得到实体融合特征。最后基于实体融合特征进行判别处理,得到判别结果;并基于判别结果确定输入文本数据与知识图谱内容的实体链接关系。本申请通过对输入文本的特征提取和知识图谱的图编码来得到实体链接识别的基础特征数据,从而使得实体链接识别的基础特征数据可以隐含知识图谱的拓扑信息,从而保证实体链接判别过程的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种实体链接方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了知识图谱(Knowledge Graph)技术,知识图谱在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。图谱基本由实体、实体间的关系等几个重要要素构成。而为了能将文本中的实体关联到知识图谱上,就需要借助实体链接。实体链接是指将自然语言文本中出现的实体提及(entity mention)关联到对应知识图谱实体上去的任务,如标准数据库,知识库,地名词典,维基百科页面等中的对应条目进行链接。
然而,对于实体链接的实现方式,目前一般是以文本链指方式为主的链指方式,然而这种链接建模方式以两侧的文本建模为主,对图谱中实体的信息处理比较粗糙,比如直接将实体信息直接拼接,放入到模型中完成编码。这种方式拼接方式本身无序,丢失了图谱本身存在的拓扑信息,从而影响实体链接的准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高实体链接准确性的实体链接方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种实体链接方法。所述方法包括:
对输入文本数据进行特征提取处理,得到输入文本特征;
对候选实体信息关联的知识图谱内容进行图编码处理,得到知识图谱编码特征,所述候选实体信息基于对所述输入文本数据进行命名实体识别处理确定;
通过多核张量矩阵对所述输入文本特征和所述知识图谱编码特征进行特征融合处理,得到实体融合特征;
基于所述实体融合特征进行判别处理,得到判别结果;
基于所述判别结果确定所述输入文本数据与所述知识图谱内容的实体链接关系,得到实体链接结果。
第二方面,本申请还提供了一种实体链接装置。所述装置包括:
文本特征提取模块,用于对输入文本数据进行特征提取处理,得到输入文本特征;
图谱特征编码模块,用于对候选实体信息关联的知识图谱内容进行图编码处理,得到知识图谱编码特征,所述候选实体信息基于对所述输入文本数据进行命名实体识别处理确定;
特征融合模块,用于通过多核张量矩阵对所述输入文本特征和所述知识图谱编码特征进行特征融合处理,得到实体融合特征;
特征判别模块,用于基于所述实体融合特征进行判别处理,得到判别结果;
链接关系识别模块,用于基于所述判别结果确定所述输入文本数据与所述知识图谱内容的实体链接关系,得到实体链接结果。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
对输入文本数据进行特征提取处理,得到输入文本特征;
对候选实体信息关联的知识图谱内容进行图编码处理,得到知识图谱编码特征,所述候选实体信息基于对所述输入文本数据进行命名实体识别处理确定;
通过多核张量矩阵对所述输入文本特征和所述知识图谱编码特征进行特征融合处理,得到实体融合特征;
基于所述实体融合特征进行判别处理,得到判别结果;
基于所述判别结果确定所述输入文本数据与所述知识图谱内容的实体链接关系,得到实体链接结果。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
对输入文本数据进行特征提取处理,得到输入文本特征;
对候选实体信息关联的知识图谱内容进行图编码处理,得到知识图谱编码特征,所述候选实体信息基于对所述输入文本数据进行命名实体识别处理确定;
通过多核张量矩阵对所述输入文本特征和所述知识图谱编码特征进行特征融合处理,得到实体融合特征;
基于所述实体融合特征进行判别处理,得到判别结果;
基于所述判别结果确定所述输入文本数据与所述知识图谱内容的实体链接关系,得到实体链接结果。
上述实体链接方法、装置、计算机设备和存储介质,先对输入文本数据进行特征提取处理,得到输入文本特征,从而从输入文本数据中提取出候选实体相关的文本特征作为实体链接的基础数据。并对候选实体信息关联的知识图谱内容进行图编码处理,得到知识图谱编码特征,而候选实体信息基于对输入文本数据进行命名实体识别处理确定,即从候选实体部分相关联的指知识图谱中抽取图信息来进行图编码。而后通过多核张量矩阵对输入文本特征和知识图谱编码特征进行特征融合处理,得到实体融合特征。通过引入多核张量矩阵的特征融合方式来强化两侧特征信息的交互,保证特征融合的效果。最后基于实体融合特征进行判别处理,得到判别结果,并基于判别结果确定输入文本数据与知识图谱内容的实体链接关系,得到最终的实体链接结果。可以通过融合后的特征来进行实体链接关系的判别处理,从而保证实体链接识别的准确性。本申请通过对输入文本的特征提取和知识图谱的图编码来得到实体链接识别的基础特征数据,从而使得实体链接识别的基础特征数据可以隐含知识图谱的拓扑信息,并基于多核张量特征融合方式来进一步强化两种基础特征数据的融合交互,从而保证实体链接判别过程的准确性。
附图说明
图1为一个实施例中实体链接方法的应用环境图;
图2为一个实施例中实体链接方法的流程示意图;
图3为一个实施例中知识图谱的架构示意图;
图4为一个实施例中实体链接处理流程的示意图;
图5为一个实施例中候选实体信息关联的知识图谱内容的示意图;
图6为一个实施例中文本特征的提取过程的流程图;
图7为一个实施例中实体链接方法的系统架构示意图;
图8为另一个实施例中实体链接方法的流程示意图;
图9为一个实施例中实体链接装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请涉及人工智能(Artificial Intelligence, AI)领域,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请具体涉及人工智能中的自然语言处理(Nature Language processing,NLP)技术和机器学习(Machine Learning, ML)技术。
其中,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。而机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的实体链接方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。当终端102方的用户需要对文本中的实体进行实体链接处理时,可以将文本通过终端102提交至服务器104,通过服务器104对输入文本数据进行特征提取处理,得到输入文本特征;对候选实体信息关联的知识图谱内容进行图编码处理,得到知识图谱编码特征,候选实体信息基于对输入文本数据进行命名实体识别处理确定;通过多核张量矩阵对输入文本特征和知识图谱编码特征进行特征融合处理,得到实体融合特征;基于实体融合特征进行判别处理,得到判别结果;基于判别结果确定输入文本数据与知识图谱内容的实体链接关系,得到实体链接结果。其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种实体链接方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤201,对输入文本数据进行特征提取处理,得到输入文本特征。
其中,输入文本数据是指需要进行实体链接处理的目标文本数据,实体链接处理的目的即为将输入文本数据中所含有实体链接到知识图谱中,输入文本数据中可能包含有多个实体提及信息,因此实体链接过程还涉及命名实体识别的处理过程。命名实体识别(Named Entity Recognition,NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。实体提及信息是指通过命名实体识别任务所提取出的实体信息。而与之相应的候选实体任务用于在给定输入文本数据的情况下,已知其中包含有可能指向某些实体的提及,以及一个图谱或知识库的情况下,求得每个提及在图谱或知识库中对应的实体列表,实体列表中所包含的实体就是候选实体。即输入文本数据中的实体信息为实体提及信息,而与之对应的知识图谱内的实体信息为候选实体信息。输入文本特征就是指对包含候选实体信息和输入文本数据进行特征提取后得到的特征向量数据。
具体地,当用户需要对一段文本数据进行分析,如通过NLP技术来对文本数据进行分析,以实现人机问答等。需要先对输入文本数据进行实体链接处理,以将输入文本数据中包含的实体链接到知识库或者知识图谱中,此时可以通过本申请的实体链接方法来实现实体链接的处理,并保证实体链接的准确率。本申请的实体链接首先可以对输入文本数据进行特征提取处理,得到输入文本特征,在进行特征提取处理时,可以先通过命名实体识别的处理,来从输入文本数据中识别出实体提及信息,而后结合这些实体提及信息对输入文本数据进行特征提取,来得到输入文本特征,保证特征提取过程的准确性。在一个具体的实施例,可以通过预先训练的深度学习模型来对输入文本数据进行命名实体识别,而后可以通过多转换器的双向编码器模型(Bidirectional Encoder Representations fromTransformers,BERT)来结合识别出的实体提及信息来实现对输入文本数据的特征提取处理。
步骤203,对候选实体信息关联的知识图谱内容进行图编码处理,得到知识图谱编码特征,候选实体信息基于对输入文本数据进行命名实体识别处理确定。
其中,知识图谱是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系。知识图谱通过对错综复杂的文档的数据进行有效的加工、处理、整合,转化为简单、清晰的“实体,关系,实体”的三元组,最后聚合大量知识,从而实现知识的快速响应和推理。知识图谱有自顶向下和自底向上两种构建方式。所谓自顶向下构建是借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库中;所谓自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核之后,加入到知识库中。在一个实施例中,知识图谱的架构可以参照图3所示,其中构建了围绕实体id1和实体id2两个实体的一个子图谱,其中要素情况如下:实体:id1、id2。关系:行业、出生地等。属性:照片、海报、姓名、类型等。图编码处理则是指对知识图谱中候选实体信息关联的图结构进行特征提取处理,得到候选实体信息关联的知识图谱内容对应的知识图谱编码特征,通过图编码可以有效地保证知识图谱编码特征能有效地隐含知识图谱中的图谱拓扑信息。
具体地,在对输入文本数据进行命名实体识别,确定实体提及信息后,即可基于实体提及信息来关联知识图谱中的对应图谱信息,得到候选实体信息,从而进行实体链接过程匹配处理。此处,针实体提及信息中的每个实体提及,每次都可以查找到与该实体提及关联的一个知识图谱内容(包含有候选实体),而后将这个实体提及与这个知识图谱内容进行匹配,来判断该实体提及是否可以与该知识图谱中的候选实体相关联匹配,通过依次进行一一匹配,可以有效地实体链接处理。而对于图编码处理,在一个实施例中,具体可以通过预先训练的图卷积模型GCN实现。而在进行图编码处理时,可以先确定与候选实体信息关联的部分知识图谱内容,包含有与候选实体相关联的知识图谱节点和及节点的边,而后基于这部分信息构建图网络输入到图卷积网络中,通过图卷积网络来对这些图信息进行图编码处理,得到知识图谱编码特征,候选实体信息基于对输入文本数据进行命名实体识别处理确定。在另一个实施例中,图卷积网络GCN在这里也可以替换成其他图编码器,例如node2vec等。
步骤205,通过多核张量矩阵对输入文本特征和知识图谱编码特征进行特征融合处理,得到实体融合特征。
其中,多核张量矩阵是指形如k*W[1:m]的矩阵,其中k为核数,W[1:m]为张量矩阵,W为矩阵核,m为张量输出维度,在进行特征融合时,每个矩阵核对输入文本特征向量x和知识图谱编码特征向量y进行一次特征融合,共进行k个维度的效果融合,从而有效提升特征融合的最终效果。
具体地,在得到输入文本特征和知识图谱编码特征这两个向量特征后,可以将编码得到的两侧的特征向量输入到语义融合模块,本申请的方案通过引入多核张量交互模块特征融合方式来强化两部分特征的融合,在特征融合时,多核张量矩阵中每个张量矩阵都可以视为一个特征融合空间,可以在每个特征融合空间内完成对输入文本特征和知识图谱编码特征的特征融合,得到各个张量矩阵的维度下融合特征向量,最后综合所有维度的融合特征向量,构建得到最终的实体融合特征。从而有效保证特征融合过程中的融合效果。
步骤207,基于实体融合特征进行判别处理,得到判别结果。
具体地,判别处理是指判别输入文本特征与知识图谱编码特征是否存在实体链接的关系的处理过程,判别处理具体可以为二分类处理,由预先训练好的二分类模型实现。二分类结果则表征了输入文本数据中的实体是否与知识图谱内容存在实体链接关系。例如二分类结果可以输出为“0”或者“1”,当输出为“0”时,代表输入文本数据中的实体不存在与知识图谱内容的实体链接关系,当输出为“1”时,代表输入文本数据中的实体存在与知识图谱内容的实体链接关系。在一个具体的实施例中,本申请的实体链接方法由多个子模型构成,包括对输入文本数据进行特征提取处理的文本特征提取子模型,对候选实体信息关联的知识图谱内容进行图编码处理的图编码子模型以及二分类子模型,在进行实体链接处理前,可以先构建出标注的文本数据作为特征数据,来完成对文本特征提取子模型、图编码子模型以及二分类子模型的有监督训练,从而保证后续实体链接处理过程的准确性与效率。
步骤209,基于判别结果确定输入文本数据与知识图谱内容的实体链接关系,得到实体链接结果。
具体地,由于判别结果表征了输入文本数据中的实体是否与知识图谱内容存在实体链接关系,因此在得到判别结果后,即可基于判别结果确定输入文本数据与知识图谱内容的实体链接关系。在进行实体链接判别时,可以针对输入文本数据中的每个实体提及都依次进行实体链接处理,通过与知识图谱的意义匹配来进行实体链接处理,来确定每个实体提及所链接的知识图谱内容部分,得到最终的完整实体链接关系,继而得到对于输入文本数据的最终实体链接结果。在一个实施例中,实体链接的处理过程具体可以参照图4所示,对于输入文本数据“赵四出席了今晚在A地举行的文化交流会”,通过对输入文本数据进行实体识别,确定其中的实体提及信息对应的候选实体包括赵四、A地和交流会,而后先针对赵四进行实体链接处理,查找到赵四对应的实体为知识图谱中的实体id1和实体id2,而分别针对实体id1和实体id2提取知识图谱内容,来跟输入文本数据“赵四出席了今晚在A地举行的文化交流会”进行实体链接,得到最终的实体匹配结果。
上述实体链接方法,先对输入文本数据进行特征提取处理,得到输入文本特征。从而从输入文本数据中提取出候选实体相关的文本特征作为实体链接的基础数据,并对候选实体信息关联的知识图谱内容进行图编码处理,得到知识图谱编码特征,候选实体信息基于对输入文本数据进行命名实体识别处理确定,即从候选实体部分相关联的指知识图谱中抽取图信息来进行图编码。而后通过多核张量矩阵对输入文本特征和知识图谱编码特征进行特征融合处理,得到实体融合特征。通过引入多核张量矩阵的特征融合方式来强化两侧特征信息的交互,保证特征融合的效果,最后基于实体融合特征进行判别处理,得到判别结果;并基于判别结果确定输入文本数据与知识图谱内容的实体链接关系,得到最终的实体链接结果。可以通过融合后的特征来进行实体链接关系的判别处理,从而保证实体链接识别的准确性。本申请通过对输入文本的特征提取和知识图谱的图编码来得到实体链接识别的基础特征数据,从而使得实体链接识别的基础特征数据可以隐含知识图谱的拓扑信息,并基于多核张量特征融合方式来进一步强化两种基础特征数据的融合交互,从而保证实体链接判别过程的准确性。
在一个实施例中,步骤201包括:对输入文本数据进行命名实体识别处理,得到输入文本数据中的实体提及信息;基于实体提及信息和输入文本数据构建模型输入数据;通过特征提取模型对模型输入数据进行特征提取处理,得到输入文本特征。
其中,命名实体识别又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。通过对输入文本数据进行命名实体识别处理,可以确定输入文本数据中的实体提及,同时在知识图谱中查找到提及对应的候选实体信息。而在进行输入文本特征的特征提取处理时,可以将实体提及信息和输入文本数据组合起来构建成模型输入数据再进行特征提取,从而充分提取出包含实体提及信息的输入文本特征。
具体地,在对输入文本数据进行特征提取处理,得到输入文本特征的过程中,可以先对输入文本数据进行命名实体识别处理,从而从输入文本数据中提取出存在的实体提及,例如人名、地名、机构名、专有名词都可以作为实体提及。而后为了充分地在输入文本特征中融入提取到的实体提及的相关信息,可以将实体提及信息和输入文本数据组合起来构建模型输入数据,在通过训练得到的特征提取模型对模型输入数据进行特征提取处理,得到输入文本特征。其中,命名实体识别处理的过程可以通过实体词典来实现,通过对照实体词典,可以有效地识别出输入文本数据所包含的领域内的相关实体,得到相应的实体提及信息。在另外的实施例中,还可以通过深度学习的方法预先训练命名实体识别的相关模型,而后通过深度学习模型来实现命名实体识别的处理。或者结合条件随机场(ConditionalRandom Fields,CRF)来提高命名实体识别的准确性。而对于输入文本数据的特征提取处理流程,则可以通过预先训练的文本特征提取模型实现,例如选用BERT或者Word2vec模型等。在一个具体实施例中,可以结合输入文本数据的垂直领域来进行命名实体识别处理,通过先确定输入文本数据对应的垂直领域;基于输入文本数据对应的垂直领域,对输入文本数据进行命名实体识别处理,得到输入文本数据中的实体提及信息。结合输入文本数据所属的垂直领域进行命名实体识别,可以有效地识别出属于垂直领域的实体提及,通过垂直领域内的实体识别方法,可以有效保证命名实体识别的准确性。本实施例中,通过对输入文本数据进行命名实体识别处理,得到实体提及信息,而后结合实体提及信息来进行特征提取处理,可以有效保证基于输入文本特征进行实体链接处理的准确性。
在一个实施例中,基于实体提及信息和输入文本数据构建模型输入数据包括:将实体提及信息作为模型输入数据中的摘要数据,并将输入文本数据作为模型输入数据中的内容数据,在摘要数据前添加句首标识符,并在摘要数据和内容数据之间添加分隔标识符,得到模型输入数据。通过特征提取模型对模型输入数据进行特征提取处理,得到输入文本特征包括:通过特征提取模型对模型输入数据进行特征提取处理,将从摘要数据提取到的特征向量作为输入文本特征。
其中,句首标识符是指BERT模型的输入中用于标注句首内容的标识符,一般用[CLS]进行标注。分隔标识符则是指BERT模型的间隔输入文本数据中不同内容部分的符号,一般用[SEP]进行标注。
具体地,本申请可以通过BERT模型来作为特征提取模型对输入文本数据进行特征提取处理,而在进行特征前,对于构建模型输入数据的过程,具体可以将实体提及信息作为模型输入数据中的摘要数据,并将输入文本数据作为模型输入数据中的内容数据,在摘要数据前添加句首标识符,并在摘要数据和内容数据之间添加分隔标识符,得到模型输入数据。例如在其中一个实施例中,输入文本数据为“赵四出席了今晚在A地举行的文化交流会”,通过命名实体识别处理后,提取出的一个实体提及为“赵四”,此时,可以将提取出的实体提及“赵四”与原文本内容“赵四出席了今晚在A地举行的文化交流会”组合起来,构建模型输入数据为“[CLS] 赵四 [SEP] 赵四出席了今晚在A地举行的文化交流会”,而后通过特征提取模型对模型输入数据进行特征提取处理,将从摘要数据提取到的特征向量作为输入文本特征,通过BERT模型来进行语义编码,并将摘要“赵四”对应的编码向量作为输入文本数据最终的句向量,从而保证输入文本数据提取过程的有效性。
在一个实施例中,方法还包括:基于实体提及信息在知识图谱进行实体查找,得到候选实体信息;确定候选实体信息的子图谱信息;基于候选实体信息和子图谱信息,得到候选实体信息关联的知识图谱内容。
其中,候选实体信息是指与实体提及信息对应的知识图谱信息,例如在输入文本数据中提取得到的实体提及为“张三”,则在知识图谱中查找到“张三”,而后将“张三”对应的实体编号作为候选实体信息。而对于子图谱信息,知识图谱一般用于展示实体和实体间的关系,因此为了更有效地展示知识图谱内候选实体的相关信息,可以将候选实体周围一跳或者两跳之内图谱信息作为该候选实体的子图谱信息。
具体地,本申请的方案在进行命名实体识别,确定实体提及信息后,为了进行图编码处理,可以先基于提取出的命名实体提及,在知识图谱中查找与输入文本数据中实体提及相关的候选实体,得到候选实体信息。而在确定好候选实体信息后,再依据设定在知识图谱中圈定一跳或者两跳内的信息来作为候选实体信息的子图谱信息。而后基于候选实体信息和子图谱信息,得到候选实体信息关联的知识图谱内容来进行后续图编码处理。在其中一个实施例中,在输入文本数据中提取得到的实体提及为“张三”,则在知识图谱中查找到姓名为“张三”的实体编号A后,可以将实体编号A作为候选实体,而后查找到实体编号A一跳内的信息包括行业为“演员”、行业为“歌手”、类型为“人物”、出生地为“甲地”,此时可以将这些信息作为子图谱信息,得到候选实体信息关联的知识图谱内容,该候选实体信息关联的知识图谱内容具体可以参照图5所示。本实施例中,通过实体提及信息来进行实体查找,并基于查找到的候选实体信息来进行子图谱识别,从而得到候选实体信息关联的知识图谱内容,可以有效保证图编码处理的准确性。
在一个实施例中,步骤203包括:基于候选实体信息关联的知识图谱信息构建知识图谱拓扑图信息;通过图卷积网络对知识图谱拓扑图信息进行图编码处理,得到知识图谱编码特征。
其中,知识图谱拓扑图信息通过将候选实体信息关联的知识图谱信息中的节点和边、转化为拓扑图的节点和边构建。图卷积网络(Graph Convolutional Network,GCN) 是一种卷积神经网络,它可以直接在图(Graph)上工作,并利用图的结构信息。对于图每个节点,图卷积网络从它的所有邻居节点处获取其特征信息,当然也包括它自身的特征。
具体地,在本申请的方案中,具体可以通过图卷积网络来实现知识图谱信息的图编码处理,而为了进行图卷积处理,可以先将候选实体信息关联的知识图谱信息转化为知识图谱拓扑图信息,而后再通过训练后的图卷积网络,来对转化的知识图谱拓扑图信息进行图编码处理,得到知识图谱编码特征,而对于具体的图编码过程,可以直接通过图卷积网络对知识图谱拓扑图信息进行图编码处理,得到知识图谱拓扑图信息中节点语义特征和链接边语义特征;而后再基于节点语义特征和链接边语义特征进行平均池化处理,得到知识图谱编码特征。图卷积网络以图拓扑结构作为输入,最终收敛可以得到每个图中节点、节点间的边的语义向量,因此最终的节点、边向量都是蕴含了最终的图拓扑信息的。具体满足以下公式:
Nodei|Sidej = GCN(sub_graph)
其中,Nodei代表节点i语义特征,Sidej代表链接边j语义特征。而在得到每个知识图谱拓扑图信息中每个节点和链接边的语义向量后,则可以基于平均池化的方式来得到最终的知识图谱编码特征,即:
G_emb = avgpooling(Nodei|Sidej)
其中,G_emb代表知识图谱编码特征,而avgpooling()则表示平均池化处理。本实施例中,通过图卷积网络对知识图谱拓扑图信息进行特征提取处理,可以有效保证特征提取过程的有效性,从而保证实体链接的准确性。
在一个实施例中,步骤205包括:构建多核张量矩阵中每个张量矩阵核对应的特征融合空间;通过特征融合空间,对输入文本特征和知识图谱编码特征进行特征融合处理,得到不同维度的语义特征向量;基于不同维度的语义特征向量构建得到实体融合特征。
具体地,特征融合空间是指用于融合输入文本特征和知识图谱编码特征的一个空间,而多核张量矩阵中每一个张量矩阵核对应了一个张量矩阵,也对应了一个特征融合空间。因此在进行融合时,可先针对多核张量矩阵中的每个张量矩阵核都构建的对应的特征融合空间,而后在特征融合空间内实现输入文本特征和知识图谱编码特征进行特征融合处理,从而得到不同维度的语义特征向量。在其中一个实施例中,通过多核张量矩阵的融合方式来强化两部分特征的融合的网络层的具体公式如下:
Fi=xi·W[1:j]·yi
其中,xi为第i个输入文本特征,yi为第i个知识图谱编码特征,W[1:j]为张量矩阵,维度为a·b·j,这里的j为该张量层的神经元个数,也是该层的输出维度。所以经过该张量层后得到的F维度为1·i。可以将每个张量矩阵W[1:j]称为一个二阶核,而该张量矩阵中的参数则构成一个特征融合空间,通过将多模特征输入文本特征和知识图谱编码特征输入融合,即可得到该融合空间下的语义向量Fi。多个矩阵核构建成多个特征融合空间,从而得到多个维度的语义向量F。例如:F0=xi·W[1:m]·yi, 其中F0的特征向量维度为m,F1=xi·W[1 :n]·yi, 其中F1的特征向量维度为n,F2=xi·W[1:d]·yi, 其中F2的特征向量维度为d,F3=xi·W[1:a]·yi,其中F3的特征向量维度为a。而最终基于不同维度的语义特征向量构建得到实体融合特征F=[F0:F1:Fi:..:Fm]。本实施例中,通过构建张量矩阵核对应的特征融合空间,而后基于特征融合空间来融合各个维度下的输入文本特征和知识图谱编码特征,从而实现最终实体融合特征地构建,可以有效强化多模特征向量的融合,从而保证基于特征融合进行实体链接处理的准确性。
在一个实施例中,判别结果包括二分类结果。步骤207包括:对实体融合特征进行二分类处理,得到二分类结果。步骤209包括:当二分类结果表征存在链接关系时,确定输入文本数据与知识图谱内容存在实体链接关系。
具体地,本申请的方案具体可以通过二分类的方法来实现对链接关系的判别,通过预先训练二分类模型,在得到实体融合特征后,将实体融合特征输入到二分类模型中,对实体融合特征进行二分类处理,得到二分类结果。由于二分类结果表征了输入文本数据中的实体是否与知识图谱内容存在实体链接关系,因此在得到二分类结果后,即可基于二分类结果确定输入文本数据与知识图谱内容的实体链接关系。在进行实体链接判别时,可以针对输入文本数据中包含的每个实体提及都依次进行实体链接处理,通过与知识图谱的意义匹配来进行实体链接处理,来确定每个实体提及所链接的知识图谱内容部分,得到最终的完整实体链接关系。本实施例中,通过二分类模型来实现实体链接关系的存在性判别,可以准确地识别出输入文本数据与知识图谱内容所存在的实体链接关系,保证实体链接处理的准确性。
在一个实施例中,步骤209包括:确定输入文本数据与知识图谱内容中候选实体的实体链接关系;基于实体链接关系对候选实体进行实体消歧处理,得到实体链接结果。
具体地,本申请的方案可以应用于实体消歧的领域,当通过输入文本数据中的实体提及在知识图谱中查找到同名的多个候选实体后,可以通过确定输入文本数据与知识图谱内容中候选实体的实体链接关系。如果输入文本数据与知识图谱内容中候选实体存在实体链接关系,则说明该候选实体可以作为实体链接结果进行后续的NLP处理,而若是确定输入文本数据与知识图谱内容中候选实体不存在实体链接关系,则可以直接去除这部分的知识图谱内容。通过输入文本数据与知识图谱内容的实体链接关系,可以有效地实现对候选实体的消歧,得到最终的实体链接结果,从而保证后续NLP相关处理的准确性。本实施例中,通过实体链接关系来进行实体消歧,保证实体消歧处理的准确性。进一步地,输入文本数据包括检索文本;本申请的方法还包括:基于实体链接结果在知识图谱进行关联检索,确定实体链接结果对应的检索结果信息;基于检索文本对检索结果信息进行过滤处理,得到目标检索结果。即本申请的方案还可以适用于基于知识图谱的关联搜索领域,在确定实体链接结果后,直接基于实体链接结果在知识图谱进行关联检索,通过知识图谱来确定实体链接结果对应的检索结果信息,可以有效保证检索的效果。而由于此时得到的信息是只与检索文本中的实体相关联,因此可以再基于检索文本对检索结果信息进行过滤处理,得到目标检索结果。从而使得最终的检索结果可以同时与知识图谱中的实体链接结果内容和检索文本中的检索信息想匹配,保证检索的准确性。本实施例中,通过基于知识图谱的关联检索和基于检索文本的过滤,可以有效保证目标检索结果的准确性,同时提高检索过程的检索效率。
本申请还提供一种应用场景,该应用场景应用上述的实体链接方法。具体地,该实体链接方法在该应用场景的应用如下:
当用户需要基于输入的文本数据进行检索处理时,可以通过本申请的实体链接方法来基于输入文本数据中的实体进行实体链接,得到与输入文本数据中实体存在实体链接关系的知识图谱内容,而后得到相应的检索结果。
对于其中实体链接处理的过程,可以对输入文本数据进行特征提取处理,得到输入文本特征。在输入文本数据的特征提取过程中,可以对输入文本数据进行命名实体识别处理,得到输入文本数据中的实体提及信息;基于实体提及信息和输入文本数据构建模型输入数据;通过特征提取模型对模型输入数据进行特征提取处理,得到输入文本特征。输入文本特征的提取过程则可以参照图6所示,对于输入文本数据“赵四出席了今晚在A地举行的文化交流会”,提取出实体提及信息赵四,基于该实体提及信息和输入文本数据构建模型输入数据,再将模型输入数据输入至BERT模型中,将CLS部分的特征编码作为输入文本特征来进行后续处理。此时可以将实体提及信息作为模型输入数据中的摘要数据,并将输入文本数据作为模型输入数据中的内容数据,在摘要数据前添加句首标识符,并在摘要数据和内容数据之间添加分隔标识符,得到模型输入数据,而后通过特征提取模型对模型输入数据进行特征提取处理,将从摘要数据提取到的特征向量作为输入文本特征。同时,可以基于实体提及信息在知识图谱进行实体查找,得到候选实体信息;确定候选实体信息的子图谱信息;基于候选实体信息和子图谱信息,得到候选实体信息关联的知识图谱内容。并基于候选实体信息关联的知识图谱信息构建知识图谱拓扑图信息;通过图卷积网络对知识图谱拓扑图信息进行图编码处理,得到知识图谱编码特征。
最后,通过输入文本特征和图谱编码特征来进行实体链接处理的流程则可以参照图7所示,具体可以构建多核张量矩阵中每个张量矩阵核对应的特征融合空间;通过特征融合空间,对输入文本特征和知识图谱编码特征进行特征融合处理,得到不同维度的语义特征向量;基于不同维度的语义特征向量构建得到实体融合特征。对实体融合特征进行二分类处理,得到二分类结果,当二分类结果表征存在链接关系时,确定输入文本数据与知识图谱内容存在实体链接关系,并得到实体链接结果。而后基于识别出与输入文本数据存在实体链接关系的知识图谱内容来得到最终的检索结果。
在一个实施例中,本申请的实体链接方法的完整流程可以参照图8所示,包括:
步骤801,对输入文本数据进行命名实体识别处理,得到输入文本数据中的实体提及信息。步骤803,基于实体提及信息和输入文本数据构建模型输入数据。步骤805,通过特征提取模型对模型输入数据进行特征提取处理,得到输入文本特征。步骤807,基于实体提及信息在知识图谱进行实体查找,得到候选实体信息。步骤809,确定候选实体信息的子图谱信息。步骤811,基于候选实体信息和子图谱信息,得到候选实体信息关联的知识图谱内容。步骤813,基于候选实体信息关联的知识图谱信息构建知识图谱拓扑图信息。步骤815,通过图卷积网络对知识图谱拓扑图信息进行图编码处理,得到知识图谱拓扑图信息中节点语义特征和链接边语义特征。步骤817,基于节点语义特征和链接边语义特征进行平均池化处理,得到知识图谱编码特征。步骤819,构建多核张量矩阵中每个张量矩阵核对应的特征融合空间。步骤821,通过特征融合空间,对输入文本特征和知识图谱编码特征进行特征融合处理,得到不同维度的语义特征向量。步骤823,基于不同维度的语义特征向量构建得到实体融合特征。步骤825,基于实体融合特征进行判别处理,得到判别结果。步骤827,基于判别结果确定输入文本数据与知识图谱内容的实体链接关系,得到实体链接结果。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的实体链接方法的实体链接装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个实体链接装置实施例中的具体限定可以参见上文中对于实体链接方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种实体链接装置,包括:
文本特征提取模块902,用于对输入文本数据进行特征提取处理,得到输入文本特征。
图谱特征编码模块904,用于对候选实体信息关联的知识图谱内容进行图编码处理,得到知识图谱编码特征,候选实体信息基于对输入文本数据进行命名实体识别处理确定。
特征融合模块906,用于通过多核张量矩阵对输入文本特征和知识图谱编码特征进行特征融合处理,得到实体融合特征。
特征判别模块908,用于基于实体融合特征进行判别处理,得到判别结果。
链接关系识别模块910,用于基于判别结果确定输入文本数据与知识图谱内容的实体链接关系,得到实体链接结果。
在一个实施例中,文本特征提取模块902具体用于:对输入文本数据进行命名实体识别处理,得到输入文本数据中的实体提及信息;基于实体提及信息和输入文本数据构建模型输入数据;通过特征提取模型对模型输入数据进行特征提取处理,得到输入文本特征。
在一个实施例中,文本特征提取模块902具体用于:确定输入文本数据对应的垂直领域;基于输入文本数据对应的垂直领域,对输入文本数据进行命名实体识别处理,得到输入文本数据中的实体提及信息。
在一个实施例中,文本特征提取模块902具体用于:将实体提及信息作为模型输入数据中的摘要数据,并将输入文本数据作为模型输入数据中的内容数据,在摘要数据前添加句首标识符,并在摘要数据和内容数据之间添加分隔标识符,得到模型输入数据。通过特征提取模型对模型输入数据进行特征提取处理,将从摘要数据提取到的特征向量作为输入文本特征。
在一个实施例中,还包括图谱信息提取模块,用于:基于实体提及信息在知识图谱进行实体查找,得到候选实体信息;确定候选实体信息的子图谱信息;基于候选实体信息和子图谱信息,得到候选实体信息关联的知识图谱内容。
在一个实施例中,图谱特征编码模块904具体用于:基于候选实体信息关联的知识图谱信息构建知识图谱拓扑图信息;通过图卷积网络对知识图谱拓扑图信息进行图编码处理,得到知识图谱编码特征。
在一个实施例中,图谱特征编码模块904具体用于:通过图卷积网络对知识图谱拓扑图信息进行图编码处理,得到知识图谱拓扑图信息中节点语义特征和链接边语义特征;基于节点语义特征和链接边语义特征进行平均池化处理,得到知识图谱编码特征。
在一个实施例中,特征融合模块906具体用于:构建多核张量矩阵中每个张量矩阵核对应的特征融合空间;通过特征融合空间,对输入文本特征和知识图谱编码特征进行特征融合处理,得到不同维度的语义特征向量;基于不同维度的语义特征向量构建得到实体融合特征。
在一个实施例中,判别结果包括二分类结果;特征判别模块908具体用于:对实体融合特征进行二分类处理,得到二分类结果。链接关系识别模块910具体用于:当二分类结果表征存在链接关系时,确定输入文本数据与知识图谱内容存在实体链接关系。
在一个实施例中,链接关系识别模块910具体用于:确定输入文本数据与知识图谱内容中候选实体的实体链接关系;基于实体链接关系对候选实体进行实体消歧处理,得到实体链接结果。
在一个实施例中,输入文本数据包括检索文本。装置还包括关联检索模块,用于:基于实体链接结果在知识图谱进行关联检索,确定实体链接结果对应的检索结果信息;基于检索文本对检索结果信息进行过滤处理,得到目标检索结果。
上述实体链接装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储实体链接相关的数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种实体链接方法。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (22)
1.一种实体链接方法,其特征在于,所述方法包括:
对输入文本数据进行特征提取处理,得到输入文本特征;
对候选实体信息关联的知识图谱内容进行图编码处理,得到知识图谱编码特征,所述候选实体信息基于对所述输入文本数据进行命名实体识别处理确定;
构建多核张量矩阵中每个张量矩阵核对应的特征融合空间;
通过所述特征融合空间,基于公式Fi=xi·W[1:j]·yi对所述输入文本特征和所述知识图谱编码特征进行特征融合处理,得到不同维度的语义特征向量,所述公式中xi为第i个输入文本特征,yi为第i个知识图谱编码特征,W[1:j]为张量矩阵,j为张量层神经元个数;
基于所述不同维度的语义特征向量构建得到实体融合特征;
基于所述实体融合特征进行判别处理,得到判别结果;
基于所述判别结果确定所述输入文本数据与所述知识图谱内容的实体链接关系,得到实体链接结果。
2.根据权利要求1所述的方法,其特征在于,所述对输入文本数据进行特征提取处理,得到输入文本特征包括:
对输入文本数据进行命名实体识别处理,得到所述输入文本数据中的实体提及信息;
基于所述实体提及信息和所述输入文本数据构建模型输入数据;
通过特征提取模型对所述模型输入数据进行特征提取处理,得到输入文本特征。
3.根据权利要求2所述的方法,其特征在于,所述对输入文本数据进行命名实体识别处理,得到所述输入文本数据中的实体提及信息包括:
确定输入文本数据对应的垂直领域;
基于所述输入文本数据对应的垂直领域,对所述输入文本数据进行命名实体识别处理,得到所述输入文本数据中的实体提及信息。
4.根据权利要求2所述的方法,其特征在于,所述基于所述实体提及信息和所述输入文本数据构建模型输入数据包括:
将所述实体提及信息作为模型输入数据中的摘要数据,并将所述输入文本数据作为模型输入数据中的内容数据,在所述摘要数据前添加句首标识符,并在所述摘要数据和所述内容数据之间添加分隔标识符,得到模型输入数据;
所述通过特征提取模型对所述模型输入数据进行特征提取处理,得到输入文本特征包括:
通过特征提取模型对所述模型输入数据进行特征提取处理,将从所述摘要数据提取到的特征向量作为输入文本特征。
5.根据权利要求2所述的方法,其特征在于,还包括:
基于所述实体提及信息在知识图谱进行实体查找,得到候选实体信息;
确定所述候选实体信息的子图谱信息;
基于所述候选实体信息和所述子图谱信息,得到候选实体信息关联的知识图谱内容。
6.根据权利要求1所述的方法,其特征在于,所述对候选实体信息关联的知识图谱内容进行图编码处理,得到知识图谱编码特征包括:
基于所述候选实体信息关联的知识图谱信息构建知识图谱拓扑图信息;
通过图卷积网络对所述知识图谱拓扑图信息进行图编码处理,得到知识图谱编码特征。
7.根据权利要求6所述的方法,其特征在于,所述通过图卷积网络对所述知识图谱拓扑图信息进行图编码处理,得到知识图谱编码特征包括:
通过图卷积网络对所述知识图谱拓扑图信息进行图编码处理,得到所述知识图谱拓扑图信息中节点语义特征和链接边语义特征;
基于所述节点语义特征和链接边语义特征进行平均池化处理,得到知识图谱编码特征。
8.根据权利要求1所述的方法,其特征在于,所述判别结果包括二分类结果;
所述基于所述实体融合特征进行判别处理,得到判别结果包括:
对所述实体融合特征进行二分类处理,得到二分类结果;
所述基于所述判别结果确定所述输入文本数据与所述知识图谱内容的实体链接关系包括:
当所述二分类结果表征存在链接关系时,确定所述输入文本数据与所述知识图谱内容存在实体链接关系。
9.根据权利要求1至8中任意一项所述的方法,其特征在于,所述基于所述判别结果确定所述输入文本数据与所述知识图谱内容的实体链接关系,得到实体链接结果包括:
确定所述输入文本数据与知识图谱内容中候选实体的实体链接关系;
基于所述实体链接关系对所述候选实体进行实体消歧处理,得到实体链接结果。
10.根据权利要求9所述的方法,其特征在于,所述输入文本数据包括检索文本;
所述方法还包括:
基于所述实体链接结果在知识图谱进行关联检索,确定所述实体链接结果对应的检索结果信息;
基于所述检索文本对所述检索结果信息进行过滤处理,得到目标检索结果。
11.一种实体链接装置,其特征在于,所述装置包括:
文本特征提取模块,用于对输入文本数据进行特征提取处理,得到输入文本特征;
图谱特征编码模块,用于对候选实体信息关联的知识图谱内容进行图编码处理,得到知识图谱编码特征,所述候选实体信息基于对所述输入文本数据进行命名实体识别处理确定;
特征融合模块,用于构建多核张量矩阵中每个张量矩阵核对应的特征融合空间;通过所述特征融合空间,基于公式Fi=xi·W[1:j]·yi对所述输入文本特征和所述知识图谱编码特征进行特征融合处理,得到不同维度的语义特征向量,所述公式中xi为第i个输入文本特征,yi为第i个知识图谱编码特征,W[1:j]为张量矩阵,j为张量层神经元个数;基于所述不同维度的语义特征向量构建得到实体融合特征;
特征判别模块,用于基于所述实体融合特征进行判别处理,得到判别结果;
链接关系识别模块,用于基于所述判别结果确定所述输入文本数据与所述知识图谱内容的实体链接关系,得到实体链接结果。
12.根据权利要求11所述的装置,其特征在于,所述文本特征提取模块具体用于:对输入文本数据进行命名实体识别处理,得到所述输入文本数据中的实体提及信息;基于所述实体提及信息和所述输入文本数据构建模型输入数据;通过特征提取模型对所述模型输入数据进行特征提取处理,得到输入文本特征。
13.根据权利要求12所述的装置,其特征在于,所述文本特征提取模块还用于:确定输入文本数据对应的垂直领域;基于所述输入文本数据对应的垂直领域,对所述输入文本数据进行命名实体识别处理,得到所述输入文本数据中的实体提及信息。
14.根据权利要求12所述的装置,其特征在于,所述文本特征提取模块还用于:将所述实体提及信息作为模型输入数据中的摘要数据,并将所述输入文本数据作为模型输入数据中的内容数据,在所述摘要数据前添加句首标识符,并在所述摘要数据和所述内容数据之间添加分隔标识符,得到模型输入数据;通过特征提取模型对所述模型输入数据进行特征提取处理,将从所述摘要数据提取到的特征向量作为输入文本特征。
15.根据权利要求12所述的装置,其特征在于,还包括图谱信息提取模块,用于:基于所述实体提及信息在知识图谱进行实体查找,得到候选实体信息;确定所述候选实体信息的子图谱信息;基于所述候选实体信息和所述子图谱信息,得到候选实体信息关联的知识图谱内容。
16.根据权利要求11所述的装置,其特征在于,所述图谱特征编码模块具体用于:基于所述候选实体信息关联的知识图谱信息构建知识图谱拓扑图信息;通过图卷积网络对所述知识图谱拓扑图信息进行图编码处理,得到知识图谱编码特征。
17.根据权利要求16所述的装置,其特征在于,所述图谱特征编码模块具体用于:通过图卷积网络对所述知识图谱拓扑图信息进行图编码处理,得到所述知识图谱拓扑图信息中节点语义特征和链接边语义特征;基于所述节点语义特征和链接边语义特征进行平均池化处理,得到知识图谱编码特征。
18.根据权利要求11所述的装置,其特征在于,所述判别结果包括二分类结果;特征判别模块具体用于:对所述实体融合特征进行二分类处理,得到二分类结果;链接关系识别模块具体用于:当所述二分类结果表征存在链接关系时,确定所述输入文本数据与所述知识图谱内容存在实体链接关系。
19.根据权利要求11至18中任意一项所述的装置,其特征在于,所述链接关系识别模块具体用于:确定所述输入文本数据与知识图谱内容中候选实体的实体链接关系;基于所述实体链接关系对所述候选实体进行实体消歧处理,得到实体链接结果。
20.根据权利要求19所述的装置,其特征在于,所述输入文本数据包括检索文本;所述装置还包括关联检索模块,用于:基于所述实体链接结果在知识图谱进行关联检索,确定所述实体链接结果对应的检索结果信息;基于所述检索文本对所述检索结果信息进行过滤处理,得到目标检索结果。
21.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。
22.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310969875.1A CN116702784B (zh) | 2023-08-03 | 2023-08-03 | 实体链接方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310969875.1A CN116702784B (zh) | 2023-08-03 | 2023-08-03 | 实体链接方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116702784A CN116702784A (zh) | 2023-09-05 |
CN116702784B true CN116702784B (zh) | 2023-11-28 |
Family
ID=87826114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310969875.1A Active CN116702784B (zh) | 2023-08-03 | 2023-08-03 | 实体链接方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116702784B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113641797A (zh) * | 2021-08-30 | 2021-11-12 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备、存储介质及计算机程序产品 |
CN113761219A (zh) * | 2021-05-06 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 基于知识图谱的检索方法、装置、电子设备及存储介质 |
CN114398491A (zh) * | 2021-12-21 | 2022-04-26 | 成都量子矩阵科技有限公司 | 一种基于知识图谱的语义分割图像实体关系推理方法 |
CN115129885A (zh) * | 2022-05-31 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 实体链指方法、装置、设备及存储介质 |
CN115168609A (zh) * | 2022-07-12 | 2022-10-11 | 腾讯科技(深圳)有限公司 | 一种文本匹配方法、装置、计算机设备和存储介质 |
CN115858732A (zh) * | 2022-12-22 | 2023-03-28 | 北京字跳网络技术有限公司 | 实体链接方法及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7529719B2 (en) * | 2006-03-17 | 2009-05-05 | Microsoft Corporation | Document characterization using a tensor space model |
US20070265824A1 (en) * | 2006-05-15 | 2007-11-15 | Michel David Paradis | Diversified semantic mapping engine (DSME) |
-
2023
- 2023-08-03 CN CN202310969875.1A patent/CN116702784B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761219A (zh) * | 2021-05-06 | 2021-12-07 | 腾讯科技(深圳)有限公司 | 基于知识图谱的检索方法、装置、电子设备及存储介质 |
CN113641797A (zh) * | 2021-08-30 | 2021-11-12 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备、存储介质及计算机程序产品 |
CN114398491A (zh) * | 2021-12-21 | 2022-04-26 | 成都量子矩阵科技有限公司 | 一种基于知识图谱的语义分割图像实体关系推理方法 |
CN115129885A (zh) * | 2022-05-31 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 实体链指方法、装置、设备及存储介质 |
CN115168609A (zh) * | 2022-07-12 | 2022-10-11 | 腾讯科技(深圳)有限公司 | 一种文本匹配方法、装置、计算机设备和存储介质 |
CN115858732A (zh) * | 2022-12-22 | 2023-03-28 | 北京字跳网络技术有限公司 | 实体链接方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116702784A (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kim et al. | Transparency and accountability in AI decision support: Explaining and visualizing convolutional neural networks for text information | |
CN111291185B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN108573411B (zh) | 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法 | |
Sarkhel et al. | A multi-objective approach towards cost effective isolated handwritten Bangla character and digit recognition | |
CN111061856B (zh) | 一种基于知识感知的新闻推荐方法 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
Shi et al. | Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval | |
CN111858940B (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN110321437B (zh) | 一种语料数据处理方法、装置、电子设备及介质 | |
CN114330966A (zh) | 一种风险预测方法、装置、设备以及可读存储介质 | |
CN117271724A (zh) | 一种基于大模型和语义图谱的智能问答实现方法及系统 | |
Wang et al. | An enhanced multi-modal recommendation based on alternate training with knowledge graph representation | |
CN116975743A (zh) | 行业信息分类方法、装置、计算机设备和存储介质 | |
Sun et al. | Rumour detection technology based on the BiGRU_capsule network | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
CN114491076B (zh) | 基于领域知识图谱的数据增强方法、装置、设备及介质 | |
Yu et al. | A graph attention network under probabilistic linguistic environment based on Bi-LSTM applied to film classification | |
CN116702784B (zh) | 实体链接方法、装置、计算机设备和存储介质 | |
CN113239143B (zh) | 融合电网故障案例库的输变电设备故障处理方法及系统 | |
CN115129885A (zh) | 实体链指方法、装置、设备及存储介质 | |
CN115168609A (zh) | 一种文本匹配方法、装置、计算机设备和存储介质 | |
CN116484067A (zh) | 目标对象匹配方法、装置及计算机设备 | |
CN114741587A (zh) | 一种物品推荐方法、装置、介质及设备 | |
Tang | [Retracted] Analysis of English Multitext Reading Comprehension Model Based on Deep Belief Neural Network | |
CN116661940B (zh) | 组件识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |