CN116955644A - 基于知识图谱的知识融合方法、系统及存储介质 - Google Patents
基于知识图谱的知识融合方法、系统及存储介质 Download PDFInfo
- Publication number
- CN116955644A CN116955644A CN202310771262.7A CN202310771262A CN116955644A CN 116955644 A CN116955644 A CN 116955644A CN 202310771262 A CN202310771262 A CN 202310771262A CN 116955644 A CN116955644 A CN 116955644A
- Authority
- CN
- China
- Prior art keywords
- text
- feature vector
- knowledge
- semantic
- understanding feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 27
- 238000003860 storage Methods 0.000 title claims abstract description 23
- 239000013598 vector Substances 0.000 claims abstract description 166
- 230000004927 fusion Effects 0.000 claims abstract description 61
- 238000013527 convolutional neural network Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 claims description 7
- 230000014759 maintenance of location Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 abstract description 10
- 238000000034 method Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 235000019580 granularity Nutrition 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种基于知识图谱的知识融合方法、系统及存储介质。其首先获取来自于第一知识图谱的针对于第一实体的第一文本描述,接着,获取来自于第二知识图谱的针对于所述第一实体的第二文本描述,然后,对所述第一文本描述和所述第二文本描述进行语义编码融合以得到多源文本语义理解特征向量,最后,基于所述多源文本语义理解特征向量,生成针对于所述第一实体的融合文本描述。这样,可以避免因同一个实体在不同数据源中的不同描述方式所造成的语义偏差,从而造成的知识间冲突问题,进而提高知识图谱构建的准确性和效率。
Description
技术领域
本公开涉及知识图谱领域,且更为具体地,涉及一种基于知识图谱的知识融合方法、系统及存储介质。
背景技术
知识图谱是一种用于表示和组织知识的图形化结构,它通过实体之间的关系来描述现实世界中的事物。随着知识图谱的应用日益广泛,已经在许多人工智能领域应用落地,如聊天机器人,智能问答,个性化推荐等。知识图谱在各个行业迅速落地,而在落地过程中,知识图谱的构建往往需要融合多种不同的数据源。在这个过程中往往会面临着如同一个实体在不同数据源中拥有着不同的描述方式等问题,从而造成的知识间的冲突。
因此,期望一种优化的基于知识图谱的知识融合方案。
发明内容
有鉴于此,本公开提出了一种基于知识图谱的知识融合方法、系统及存储介质,其可以避免因同一个实体在不同数据源中的不同描述方式所造成的语义偏差,从而造成的知识间冲突问题,进而提高知识图谱构建的准确性和效率。
根据本公开的一方面,提供了一种基于知识图谱的知识融合方法,其包括:
获取来自于第一知识图谱的针对于第一实体的第一文本描述;
获取来自于第二知识图谱的针对于所述第一实体的第二文本描述;
对所述第一文本描述和所述第二文本描述进行语义编码融合以得到多源文本语义理解特征向量;以及
基于所述多源文本语义理解特征向量,生成针对于所述第一实体的融合文本描述。
根据本公开的另一方面,提供了一种基于知识图谱的知识融合系统,其包括:
第一文本描述获取模块,用于获取来自于第一知识图谱的针对于第一实体的第一文本描述;
第二文本描述获取模块,用于获取来自于第二知识图谱的针对于所述第一实体的第二文本描述;
语义编码融合模块,用于对所述第一文本描述和所述第二文本描述进行语义编码融合以得到多源文本语义理解特征向量;以及
融合文本描述生成模块,用于基于所述多源文本语义理解特征向量,生成针对于所述第一实体的融合文本描述。
根据本公开的另一方面,提供了一种存储介质,所述存储介质中存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如前所述的基于知识图谱的知识融合方法。
根据本公开的实施例,其首先获取来自于第一知识图谱的针对于第一实体的第一文本描述,接着,获取来自于第二知识图谱的针对于所述第一实体的第二文本描述,然后,对所述第一文本描述和所述第二文本描述进行语义编码融合以得到多源文本语义理解特征向量,最后,基于所述多源文本语义理解特征向量,生成针对于所述第一实体的融合文本描述。这样,可以避免因同一个实体在不同数据源中的不同描述方式所造成的语义偏差,从而造成的知识间冲突问题,进而提高知识图谱构建的准确性和效率。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开的实施例的基于知识图谱的知识融合方法的流程图。
图2示出根据本公开的实施例的基于知识图谱的知识融合方法的架构示意图。
图3示出根据本公开的实施例的基于知识图谱的知识融合方法的子步骤S130的流程图。
图4示出根据本公开的实施例的基于知识图谱的知识融合方法的子步骤S140的流程图。
图5示出根据本公开的实施例的基于知识图谱的知识融合系统的框图。
图6示出根据本公开的实施例的基于知识图谱的知识融合方法的应用场景图。
具体实施方式
下面将结合附图对本公开实施例中的技术方案进行清楚、完整地描述,显而易见地,所描述的实施例仅仅是本公开的部分实施例,而不是全部的实施例。基于本公开实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,也属于本公开保护的范围。
如本公开和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
知识图谱是一种用于表示和存储知识的图形化知识结构,是一种半结构化的数据模型,用于描述现实世界中的实体、概念、关系和属性,并以图形的形式展示它们之间的关联关系。知识图谱可以帮助人们更好地理解和组织知识,提供更精确、更全面的信息检索和推理能力。在知识图谱中,实体通常表示为节点,关系表示为边。通过连接节点和边,知识图谱可以呈现出复杂的知识网络,帮助人们发现实体之间的关联性、属性和特征。通过将知识图谱与其他技术结合,可以实现更智能、更高效的数据分析和决策支持。知识图谱的发展和应用将为人们带来更多便利和创新。
知识图谱在各个行业迅速落地,而在落地过程中,知识图谱的构建往往需要融合多种不同的数据源。在这个过程中往往会面临着如同一个实体在不同数据源中拥有着不同的描述方式等问题,从而造成的知识间的冲突。因此,期望一种优化的基于知识图谱的知识融合方案。
相应地,考虑到在实际进行基于知识图谱的知识融合过程中,为了能够更好地融合同一实体的多种不同数据源信息以构建综合知识图谱,在本公开的技术方案中,期望采用基于深度学习的语义理解技术对来自不同知识谱图的针对于同一实体的文本描述进行语义理解和融合,并通过AIGC来生成融合文本描述,以此来避免因同一个实体在不同数据源中的不同描述方式所造成的语义偏差,从而造成的知识间冲突问题,进而提高知识图谱构建的准确性和效率。
图1示出根据本公开的实施例的基于知识图谱的知识融合方法的流程图。图2示出根据本公开的实施例的基于知识图谱的知识融合方法的架构示意图。如图1和图2所示,根据本公开实施例的基于知识图谱的知识融合方法,包括步骤:S110,获取来自于第一知识图谱的针对于第一实体的第一文本描述;S120,获取来自于第二知识图谱的针对于所述第一实体的第二文本描述;S130,对所述第一文本描述和所述第二文本描述进行语义编码融合以得到多源文本语义理解特征向量;以及,S140,基于所述多源文本语义理解特征向量,生成针对于所述第一实体的融合文本描述。
更具体地,在步骤S110中,获取来自于第一知识图谱的针对于第一实体的第一文本描述。在步骤S120中,获取来自于第二知识图谱的针对于所述第一实体的第二文本描述。应可以理解,由于所述第一文本描述和所述第二文本描述中包含了大量的语义信息,并且在所述第一文本描述和所述第二文本描述中关于第一实体的文本语义理解特征信息并不相同且为隐含的语义特征,因而传统的文本处理方法往往难以准确地捕捉到文本中关于第一实体的语义信息。
更具体地,在步骤S130中,对所述第一文本描述和所述第二文本描述进行语义编码融合以得到多源文本语义理解特征向量。相应地,在一种可能的实现方式中,如图3所示,对所述第一文本描述和所述第二文本描述进行语义编码融合以得到多源文本语义理解特征向量,包括:S131,通过基于深度神经网络模型的语义编码器分别对所述第一文本描述和所述第二文本描述进行语义理解以得到第一文本理解特征向量和第二文本理解特征向量;以及,S132,对所述第一文本理解特征向量和所述第二文本理解特征向量进行语义关联编码以得到所述多源文本语义理解特征向量。
在本公开的技术方案中,进一步将所述第一文本描述和所述第二文本描述通过基于ALBert模型和文本卷积神经网络模型的语义编码器中进行语义编码处理以得到第一文本理解特征向量和第二文本理解特征向量。应可以理解,ALBert模型是一种预训练语言模型,通过在大规模文本数据上进行训练,可以学习到丰富的语义表示。通过使用ALBert模型能够将文本编码为高维的语义特征向量,其中每个维度代表了文本中的某种语义信息。因此通过ALBert模型的编码,可以将文本描述转化为一个表示其语义含义的向量。并且,文本卷积神经网络模型是一种能够捕捉文本中局部特征的模型,它通过卷积操作对文本进行特征提取,可以捕捉到文本中不同位置的语义信息。通过文本卷积神经网络模型的编码,可以进一步丰富文本的语义表示。因此,在本公开的技术方案中,将所述第一文本描述和所述第二文本描述分别通过ALBert模型和文本卷积神经网络模型的语义编码器进行编码,可以提取出所述第一文本描述和所述第二文本描述中分别关于第一实体的丰富语义理解特征信息,从而得到它们对应的语义特征向量。这里,这些所述语义特征向量将具有较高的语义相似性,可以用于后续的融合和生成过程,以提高文本描述的准确性和一致性。
应可以理解,文本卷积神经网络(Text Convolutional Neural Network,TextCNN)是一种用于处理文本数据的深度学习模型,其借鉴了传统图像处理中的卷积神经网络(Convolutional Neural Network,CNN)的思想,通过卷积操作来提取文本数据中的局部特征。文本卷积神经网络模型的输入通常是一个文本序列,例如一句话或一个文档,其中每个单词可以表示为一个向量。模型首先将文本中的每个单词表示为词向量,然后通过一个或多个卷积层来提取不同尺寸的特征。卷积层使用一组可学习的卷积核对输入进行卷积操作,得到一系列特征图。每个特征图对应一个卷积核,可以捕捉不同的局部特征。接下来,模型使用池化操作(通常是最大池化)对每个特征图进行降维,提取出最显著的特征。然后,将池化后的特征连接起来,并通过全连接层进行分类或其他任务的处理。文本卷积神经网络模型的优势在于它能够捕捉到文本中的局部特征,并且可以通过多个卷积核和池化操作来提取不同尺度的特征。需要注意的是,文本卷积神经网络并不考虑文本的顺序信息,因此在处理一些需要考虑上下文关系的任务时,可能需要结合其他模型或技术进行改进。
相应地,在一种可能的实现方式中,所述深度神经网络模型为ALBert模型和文本卷积神经网络模型。相应地,通过基于ALBert模型和文本卷积神经网络模型的语义编码器分别对所述第一文本描述和所述第二文本描述进行语义理解以得到第一文本理解特征向量和第二文本理解特征向量,包括:对所述第一文本描述进行分词处理以得到第一文本描述词的序列;对所述第二文本描述进行分词处理以得到第二文本描述词的序列;使用所述ALBert模型将所述第一文本描述词的序列转化为第一文本描述词特征向量的序列;使用所述ALBert模型将所述第二文本描述词的序列转化为第二文本描述词特征向量的序列;将所述第一文本描述词特征向量的序列排列为词特征矩阵后通过所述文本卷积神经网络模型以得到所述第一文本理解特征向量;以及,将所述第二文本描述词特征向量的序列排列为词特征矩阵后通过所述文本卷积神经网络模型以得到所述第二文本理解特征向量。
应可以理解,收集和预处理数据,首先需要收集文本数据,并对其进行预处理,包括去除停用词、词干提取、去除标点符号和数字等操作,以便更好地表示文本;将文本表示为向量,可以使用预训练的ALBert模型将文本表示为向量,ALBert是一种基于Transformer的预训练模型,可以对文本进行编码,并将其表示为向量,在这个过程中,需要对文本进行分词,并建立词汇表,以便将文本转换为向量;提取文本的不同粒度和不同层次特征,可以使用CNN模型对文本进行处理,提取文本的不同粒度和不同层次特征,具体来说,可以使用多个不同的卷积核,对文本数据进行卷积操作,得到多个特征图,然后使用最大池化操作,从每个特征图中提取出最大值,得到多个固定长度的特征向量,将这些特征向量连接起来,并使用全连接层进行分类,即可得到最终的分类结果。
其中,分词处理是将文本切分成一个个有意义的词语或标记的过程。在自然语言处理中,分词是一个重要的预处理步骤,其将连续的文本序列切分成离散的词语或标记,为后续的文本处理任务提供基本的单位。分词处理可以通过不同的方法进行,例如,可以通过:1.基于规则的分词,基于预先定义的规则和词典,将文本按照规则进行切分,例如,可以使用空格、标点符号等作为分隔符,或者根据词典中的词语进行切分;2.统计分词,基于统计模型和算法,通过对大规模语料库进行训练,学习词语出现的概率和上下文信息,从而进行分词,常见的统计分词算法有最大匹配法、最大概率法、隐马尔可夫模型等;3.基于机器学习的分词:利用机器学习算法,通过对已经分好词的标注数据进行训练,学习分词模型,然后对新的文本进行分词,常见的机器学习方法包括条件随机场(CRF)、支持向量机(SVM)等。分词的目标是将文本切分成具有语义意义的词语序列,以便后续的文本处理任务能够更好地理解和处理文本。
相应地,在一种可能的实现方式中,对所述第一文本理解特征向量和所述第二文本理解特征向量进行语义关联编码以得到所述多源文本语义理解特征向量,包括:融合所述第一文本理解特征向量和所述第二文本理解特征向量以得到所述多源文本语义理解特征向量。融合所述第一文本理解特征向量和所述第二文本理解特征向量,以将不同知识图谱的文本之间的语义关联性进行建模,提高对第一实体的知识理解能力,从而得到多源文本语义理解特征向量。因此,融合后的所述多源文本语义理解特征向量可以包含来自不同知识图谱文本的共同特征和独特特征,从而能够综合利用不同知识谱图中的信息来更好地表达第一实体的文本语义特征信息。
应可以理解,语义关联编码是指对第一文本理解特征向量和第二文本理解特征向量进行融合或组合,以得到多源文本的语义理解特征向量。语义关联编码的目的是将不同文本之间的语义关联信息编码到特征向量中,以便更好地表示文本之间的相似性或关联性。通过融合或组合特征向量,可以捕捉到文本之间的语义关联关系,从而提供更丰富的语义表示。语义关联编码还可以通过下述方法实现:1.拼接(Concatenation),将第一文本理解特征向量和第二文本理解特征向量按照某种方式拼接在一起,形成一个更长的特征向量,例如,将两个特征向量按照维度连接起来;2.加权求和(Weighted Sum),对第一文本理解特征向量和第二文本理解特征向量进行加权求和,其中权重可以根据某种规则或学习得到,例如,可以通过学习得到的权重来平衡两个特征向量的贡献;3.点乘(Dot Product),将第一文本理解特征向量和第二文本理解特征向量进行点乘操作,得到一个标量值,点乘的结果可以表示两个特征向量之间的相似度或相关度;4.神经网络融合(Neural NetworkFusion),使用神经网络模型来学习特征融合的权重和方式,可以通过设计适当的神经网络结构来实现文本特征的融合。通过语义关联编码,可以将多源文本的语义信息整合到一个特征向量中,为后续的文本处理任务提供更全面和准确的输入。
更具体地,在步骤S140中,基于所述多源文本语义理解特征向量,生成针对于所述第一实体的融合文本描述。进一步地,在得到了融合不同知识图谱的文本语义特征的所述多源文本语义理解特征向量后,将所述多源文本语义理解特征向量通过AIGC模型以得到针对于所述第一实体的融合文本描述。通过使用所述AIGC模型,可以将多源文本的语义特征信息转化为自然语言文本,使得融合后的文本描述更加易于理解和使用。这种融合文本描述可以用于知识图谱构建、信息抽取、智能问答等任务中,提供更丰富和准确的描述信息。特别地,在本公开的一个具体示例中,所述AIGC模型可以基于生成模型(如生成对抗网络)或者序列到序列模型(如循环神经网络或Transformer)进行设计和实现。通过所述AIGC模型生成的所述融合文本描述可以帮助更好地理解和利用多源文本的语义信息。
值得一提的是,生成模型是一种机器学习模型,用于生成与训练数据相似的新样本。生成对抗网络(GAN)是一种常见的生成模型,由生成器和判别器两个部分组成。生成器负责生成与真实样本相似的样本,而判别器则负责判断一个样本是真实样本还是生成样本。通过对抗训练的方式,生成器和判别器相互竞争,最终生成器可以学习到生成逼真的样本。序列到序列模型是一类深度学习模型,用于将一个序列映射到另一个序列。它在自然语言处理任务中被广泛应用,如机器翻译、文本摘要等。循环神经网络(RNN)和Transformer是两种常见的序列到序列模型。循环神经网络通过递归地处理序列中的每个元素,捕捉序列的上下文信息,而Transformer则通过自注意力机制来建模序列中元素之间的依赖关系,具有并行计算的能力,适用于长序列的处理。基于生成模型或序列到序列模型的AIGC模型可以利用这些模型的生成能力,将多源文本的语义特征信息转化为自然语言文本,生成融合文本描述。这样的描述更易于理解和使用,可以在知识图谱构建、信息抽取、智能问答等任务中提供更丰富和准确的描述信息。
相应地,在一种可能的实现方式中,如图4所示,基于所述多源文本语义理解特征向量,生成针对于所述第一实体的融合文本描述,包括:S141,对所述第一文本理解特征向量和所述第二文本理解特征向量进行前向传播信息保留融合以得到校正特征向量;S142,将所述校正特征向量和所述多源文本语义理解特征向量进行按位置点乘以得到优化多源文本语义理解特征向量;以及,S143,将所述优化多源文本语义理解特征向量通过AIGC模型以得到针对于所述第一实体的融合文本描述。
特别地,在本公开的技术方案中,所述第一文本理解特征向量和所述第二文本理解特征向量分别是所述第一文本描述和所述第二文本描述通过基于ALBert模型和文本卷积神经网络模型的语义编码器进行文本语义特征编码得到的,而考虑到所述第一知识图谱和所述第二知识图谱的体系性,所述第一文本描述和所述第二文本描述分别从不同的体系角度对所述第一实体进行了描述,在提升了特征丰富度的同时,也会导致所述第一文本理解特征向量和所述第二文本理解特征向量的特征分布的显著不对齐。
这样,在融合所述第一文本理解特征向量和所述第二文本理解特征向量得到的所述多源文本语义理解特征向量通过AIGC模型时,所述第一文本理解特征向量和所述第二文本理解特征向量的各自的不对齐的特征分布在模型中进行传播时会产生信息损失,影响所述AIGC模型得到的针对于所述第一实体的融合文本描述的文本质量。基于此,本公开的申请人对所述第一文本理解特征向量,例如记为V1和所述第二文本理解特征向量,例如记为V2进行前向传播信息保留融合,以得到校正特征向量V′。
相应地,在一种可能的实现方式中,对所述第一文本理解特征向量和所述第二文本理解特征向量进行前向传播信息保留融合以得到校正特征向量,包括:以如下融合优化公式对所述第一文本理解特征向量和所述第二文本理解特征向量进行前向传播信息保留融合以得到所述校正特征向量;其中,所述融合优化公式为:
其中,V1是所述第一文本理解特征向量,V2是所述第二文本理解特征向量,<<s和>>s分别表示将特征向量左移s位和右移s位,round(·)为取整函数,是所述第一文本理解特征向量和所述第二文本理解特征向量的所有特征值的均值,||·||1表示特征向量的一范数,d(V1,V2)是所述第一文本理解特征向量和所述第二文本理解特征向量之间的距离,且log为以2为底的对数函数,/>和/>分别表示按位置减法和加法,α和β为加权超参数,V′是所述校正特征向量。
这里,针对特征在网络模型中的前向传播过程中,由于融合生成操作产生的在向量尺度上的浮点分布误差和信息损失,通过从均一化信息角度来引入向量的逐位位移操作,来平衡和标准化前向传播过程中的量化误差和信息损失,并通过在融合之前重塑特征参数的分布来引入分布多样性,由此以扩大信息熵的方式进行信息保留(retention)。这样,再通过对所述校正特征向量V′对所述多源文本语义理解特征向量进行点乘加权,就可以减少所述多源文本语义理解特征向量在通过所述AIGC模型进行生成时的信息损失,从而提升得到的针对于所述第一实体的融合文本描述的文本质量。这样,能够在构建知识图谱时避免因同一个实体在不同数据源中的不同描述方式所造成的语义偏差,而导致的知识间冲突问题,从而能够提高知识图谱构建的准确性和效率。
综上,基于本公开实施例的基于知识图谱的知识融合方法,其可以避免因同一个实体在不同数据源中的不同描述方式所造成的语义偏差,从而造成的知识间冲突问题,进而提高知识图谱构建的准确性和效率。
图5示出根据本公开的实施例的基于知识图谱的知识融合系统100的框图。如图5所示,根据本公开实施例的基于知识图谱的知识融合系统100,包括:第一文本描述获取模块110,用于获取来自于第一知识图谱的针对于第一实体的第一文本描述;第二文本描述获取模块120,用于获取来自于第二知识图谱的针对于所述第一实体的第二文本描述;语义编码融合模块130,用于对所述第一文本描述和所述第二文本描述进行语义编码融合以得到多源文本语义理解特征向量;以及,融合文本描述生成模块140,用于基于所述多源文本语义理解特征向量,生成针对于所述第一实体的融合文本描述。
在一种可能的实现方式中,所述语义编码融合模块130,包括:深度编码单元,用于通过基于深度神经网络模型的语义编码器分别对所述第一文本描述和所述第二文本描述进行语义理解以得到第一文本理解特征向量和第二文本理解特征向量;以及,语义关联编码单元,用于对所述第一文本理解特征向量和所述第二文本理解特征向量进行语义关联编码以得到所述多源文本语义理解特征向量。
这里,本领域技术人员可以理解,上述基于知识图谱的知识融合系统100中的各个单元和模块的具体功能和操作已经在上面参考图1到图4的基于知识图谱的知识融合方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本公开实施例的基于知识图谱的知识融合系统100可以实现在各种无线终端中,例如具有基于知识图谱的知识融合算法的服务器等。在一种可能的实现方式中,根据本公开实施例的基于知识图谱的知识融合系统100可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如,该基于知识图谱的知识融合系统100可以是该无线终端的操作系统中的一个软件模块,或者可以是针对于该无线终端所开发的一个应用程序;当然,该基于知识图谱的知识融合系统100同样可以是该无线终端的众多硬件模块之一。
替换地,在另一示例中,该基于知识图谱的知识融合系统100与该无线终端也可以是分立的设备,并且该基于知识图谱的知识融合系统100可以通过有线和/或无线网络连接到该无线终端,并且按照约定的数据格式来传输交互信息。
图6示出根据本公开的实施例的基于知识图谱的知识融合方法的应用场景图。如图6所示,在该应用场景中,首先,获取来自于第一知识图谱的针对于第一实体的第一文本描述(例如,图6中所示意的D1),以及,来自于第二知识图谱的针对于所述第一实体的第二文本描述(例如,图6中所示意的D2),然后,将所述第一文本描述和所述第二文本描述输入至部署有基于知识图谱的知识融合算法的服务器中(例如,图6中所示意的S),其中,所述服务器能够使用所述基于知识图谱的知识融合算法对所述第一文本描述和所述第二文本描述进行处理以生成针对于所述第一实体的融合文本描述。
进一步地,本公开还提供了一种存储介质,所述存储介质中存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如前任一项所述的基于知识图谱的知识融合方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (10)
1.一种基于知识图谱的知识融合方法,其特征在于,包括:
获取来自于第一知识图谱的针对于第一实体的第一文本描述;
获取来自于第二知识图谱的针对于所述第一实体的第二文本描述;
对所述第一文本描述和所述第二文本描述进行语义编码融合以得到多源文本语义理解特征向量;以及
基于所述多源文本语义理解特征向量,生成针对于所述第一实体的融合文本描述。
2.根据权利要求1所述的基于知识图谱的知识融合方法,其特征在于,对所述第一文本描述和所述第二文本描述进行语义编码融合以得到多源文本语义理解特征向量,包括:
通过基于深度神经网络模型的语义编码器分别对所述第一文本描述和所述第二文本描述进行语义理解以得到第一文本理解特征向量和第二文本理解特征向量;以及
对所述第一文本理解特征向量和所述第二文本理解特征向量进行语义关联编码以得到所述多源文本语义理解特征向量。
3.根据权利要求2所述的基于知识图谱的知识融合方法,其特征在于,所述深度神经网络模型为ALBert模型和文本卷积神经网络模型。
4.根据权利要求3所述的基于知识图谱的知识融合方法,其特征在于,通过基于ALBert模型和文本卷积神经网络模型的语义编码器分别对所述第一文本描述和所述第二文本描述进行语义理解以得到第一文本理解特征向量和第二文本理解特征向量,包括:
对所述第一文本描述进行分词处理以得到第一文本描述词的序列;
对所述第二文本描述进行分词处理以得到第二文本描述词的序列;
使用所述ALBert模型将所述第一文本描述词的序列转化为第一文本描述词特征向量的序列;
使用所述ALBert模型将所述第二文本描述词的序列转化为第二文本描述词特征向量的序列;
将所述第一文本描述词特征向量的序列排列为词特征矩阵后通过所述文本卷积神经网络模型以得到所述第一文本理解特征向量;以及
将所述第二文本描述词特征向量的序列排列为词特征矩阵后通过所述文本卷积神经网络模型以得到所述第二文本理解特征向量。
5.根据权利要求4所述的基于知识图谱的知识融合方法,其特征在于,对所述第一文本理解特征向量和所述第二文本理解特征向量进行语义关联编码以得到所述多源文本语义理解特征向量,包括:
融合所述第一文本理解特征向量和所述第二文本理解特征向量以得到所述多源文本语义理解特征向量。
6.根据权利要求5所述的基于知识图谱的知识融合方法,其特征在于,基于所述多源文本语义理解特征向量,生成针对于所述第一实体的融合文本描述,包括:
对所述第一文本理解特征向量和所述第二文本理解特征向量进行前向传播信息保留融合以得到校正特征向量;
将所述校正特征向量和所述多源文本语义理解特征向量进行按位置点乘以得到优化多源文本语义理解特征向量;以及
将所述优化多源文本语义理解特征向量通过AIGC模型以得到针对于所述第一实体的融合文本描述。
7.根据权利要求6所述的基于知识图谱的知识融合方法,其特征在于,对所述第一文本理解特征向量和所述第二文本理解特征向量进行前向传播信息保留融合以得到校正特征向量,包括:
以如下融合优化公式对所述第一文本理解特征向量和所述第二文本理解特征向量进行前向传播信息保留融合以得到所述校正特征向量;
其中,所述融合优化公式为:
其中,V1是所述第一文本理解特征向量,V2是所述第二文本理解特征向量,<<s和>>s分别表示将特征向量左移s位和右移s位,round(·)为取整函数,是所述第一文本理解特征向量和所述第二文本理解特征向量的所有特征值的均值,‖·‖1表示特征向量的一范数,d(V1,V2)是所述第一文本理解特征向量和所述第二文本理解特征向量之间的距离,且log为以2为底的对数函数,/>和/>分别表示按位置减法和加法,α和β为加权超参数,V′是所述校正特征向量。
8.一种基于知识图谱的知识融合系统,其特征在于,包括:
第一文本描述获取模块,用于获取来自于第一知识图谱的针对于第一实体的第一文本描述;
第二文本描述获取模块,用于获取来自于第二知识图谱的针对于所述第一实体的第二文本描述;
语义编码融合模块,用于对所述第一文本描述和所述第二文本描述进行语义编码融合以得到多源文本语义理解特征向量;以及
融合文本描述生成模块,用于基于所述多源文本语义理解特征向量,生成针对于所述第一实体的融合文本描述。
9.根据权利要求8所述的基于知识图谱的知识融合系统,其特征在于,所述语义编码融合模块,包括:
深度编码单元,用于通过基于深度神经网络模型的语义编码器分别对所述第一文本描述和所述第二文本描述进行语义理解以得到第一文本理解特征向量和第二文本理解特征向量;以及
语义关联编码单元,用于对所述第一文本理解特征向量和所述第二文本理解特征向量进行语义关联编码以得到所述多源文本语义理解特征向量。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1-7中任一项所述的基于知识图谱的知识融合方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310771262.7A CN116955644A (zh) | 2023-06-27 | 2023-06-27 | 基于知识图谱的知识融合方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310771262.7A CN116955644A (zh) | 2023-06-27 | 2023-06-27 | 基于知识图谱的知识融合方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116955644A true CN116955644A (zh) | 2023-10-27 |
Family
ID=88445348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310771262.7A Pending CN116955644A (zh) | 2023-06-27 | 2023-06-27 | 基于知识图谱的知识融合方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116955644A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117744785A (zh) * | 2024-02-19 | 2024-03-22 | 北京博阳世通信息技术有限公司 | 基于网络采集数据的时空知识图谱智能构建方法及系统 |
-
2023
- 2023-06-27 CN CN202310771262.7A patent/CN116955644A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117744785A (zh) * | 2024-02-19 | 2024-03-22 | 北京博阳世通信息技术有限公司 | 基于网络采集数据的时空知识图谱智能构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344391B (zh) | 基于神经网络的多特征融合中文新闻文本摘要生成方法 | |
CN110851604B (zh) | 一种文本分类方法、装置、电子设备及存储介质 | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN113313022B (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
CN108629414B (zh) | 深度哈希学习方法及装置 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN111401084A (zh) | 一种机器翻译的方法、设备以及计算机可读存储介质 | |
CN112100332A (zh) | 词嵌入表示学习方法及装置、文本召回方法及装置 | |
CN111680494A (zh) | 相似文本的生成方法及装置 | |
CN116304748B (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
CN116152833B (zh) | 基于图像的表格还原模型的训练方法及表格还原方法 | |
CN113987174A (zh) | 分类标签的核心语句提取方法、系统、设备及存储介质 | |
RU2712101C2 (ru) | Предсказание вероятности появления строки с использованием последовательности векторов | |
CN109145946B (zh) | 一种智能图像识别和描述方法 | |
CN114662476A (zh) | 一种融合词典与字符特征的字符序列识别方法 | |
CN110929532B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN113761868A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN116955644A (zh) | 基于知识图谱的知识融合方法、系统及存储介质 | |
CN110633456B (zh) | 语种识别方法、装置、服务器及存储介质 | |
CN117114063A (zh) | 用于训练生成式大语言模型和用于处理图像任务的方法 | |
CN111666375A (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 | |
CN110852066B (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN115759254A (zh) | 基于知识增强生成式语言模型的问答方法、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |