CN109886294A - 知识融合方法、装置、计算机设备和存储介质 - Google Patents
知识融合方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109886294A CN109886294A CN201910025114.4A CN201910025114A CN109886294A CN 109886294 A CN109886294 A CN 109886294A CN 201910025114 A CN201910025114 A CN 201910025114A CN 109886294 A CN109886294 A CN 109886294A
- Authority
- CN
- China
- Prior art keywords
- data
- knowledge
- term vector
- solid
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 25
- 239000007787 solid Substances 0.000 claims abstract description 105
- 239000011159 matrix material Substances 0.000 claims abstract description 63
- 230000017105 transposition Effects 0.000 claims abstract description 23
- 230000009467 reduction Effects 0.000 claims abstract description 20
- 241001269238 Data Species 0.000 claims abstract description 16
- 238000006243 chemical reaction Methods 0.000 claims abstract description 16
- 241000208340 Araliaceae Species 0.000 claims abstract description 14
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims abstract description 14
- 235000003140 Panax quinquefolius Nutrition 0.000 claims abstract description 14
- 235000008434 ginseng Nutrition 0.000 claims abstract description 14
- 238000013507 mapping Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 28
- 239000000284 extract Substances 0.000 claims description 26
- 230000004927 fusion Effects 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 4
- 241000270322 Lepidosauria Species 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims 1
- 230000010354 integration Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 2
- 239000000155 melt Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及知识图谱技术领域,尤其涉及一种知识融合方法、装置、计算机设备和存储介质,包括:获取知识数据来源中的数个知识数据;抽取任一所述知识数据中的实体数据,将所述实体数据进行向量化转换,生成多维词向量;将所述多维词向量进行降维后得到二维词向量,将所述二维词向量转置后与原所述二维词向量乘积得到实体数据矩阵,所述实体数据矩阵中的元素为向量化的实体数据;获取所述真实属性数据的属性值;将所述实体数据矩阵中的元素和所述真实属性数据的属性值入参到可信度识别模型,出参后得到所述知识数据的可信度,将所述可信度与预设的可信度阈值进行比较后进行融合。本申请实现了同一实体中多个属性的有效融合。
Description
技术领域
本申请涉及知识图谱技术领域,尤其涉及一种知识融合方法、装置、计算机设备和存储介质。
背景技术
在当今互联网上存在着大量的知识,在各个网页包含的数据信息中存在各种样式的知识数据。其中,知识数据有三个部分组成,分别是:实体信息、关系信息和属性信息。在对知识数据进行梳理时,需要对知识数据进行融合,这一过程称为知识融合。
知识融合,是指发现异构数据库中相同概念的不同表达,它通过对分布式数据源和知识源进行组织和管理,结合应用需求对知识元素进行转化、集成和融合等处理,从而获取有价值或可用的新知识,同时对知识对象的结构和内涵进行优化,提供基于知识的服务。知识融合的研究对于分布式知识库环境中的知识共享、知识系统的交互、集成和协同工作、知识服务质量的优化等方面具有一定的价值,对于研究基于知识内涵的知识发现以及新知识的创建、组织、评价和优化等方面具有相当重要的意义。
目前,在进行知识融合的过程中存在着不能对属性进行精准判断,从而导致在融合的过程中,无法将属于同一实体的多个属性的有效进行合并的问题。
发明内容
有鉴于此,有必要针对无法将属于同一实体的多个属性的有效进行合并的问题,提供一种知识融合方法、装置、计算机设备和存储介质。
一种知识融合方法,包括如下步骤:
获取知识数据来源中的数个知识数据;
抽取任一所述知识数据中的实体数据,将所述实体数据进行向量化转换,生成多维词向量;
将所述多维词向量进行降维后得到二维词向量,将所述二维词向量转置后与原所述二维词向量乘积得到实体数据矩阵,所述实体数据矩阵中的元素为向量化的实体数据;
抽取任一所述知识数据中的原始属性数据,对所述原始属性数据进行过滤后得到真实属性数据,获取所述真实属性数据的属性值;
将所述实体数据矩阵中的元素和所述真实属性数据的属性值入参到可信度识别模型,出参后得到所述知识数据的可信度,将所述可信度与预设的可信度阈值进行比较,若大于所述可信度阈值则将抽取出的所述原始属性数据融合,否则不融合。
在其中一个可能的实施例中,所述获取知识数据来源中的数个知识数据,包括:
发送知识数据抽取指令至待抽取知识数据的所述知识数据来源;
接收所述知识数据来源的反馈信息,从所述反馈信息中抽取出数据来源类型的关键词,根据所述关键词确定所述知识来数据源的类型;
获取所述知识数据来源的类型对应的抽取方法,根据所述抽取方法抽取所述知识数据来源的数个知识数据。
在其中一个可能的实施例中,所述抽取任一所述知识数据中的实体数据,将所述实体数据进行向量化转换,生成多维词向量,包括:
设置一抽取所述知识数据中的实体数据的初始语段,所述初始语段中至少包含一个所述实体数据;
根据所述初始语段的语段长度,将所述知识数据分割成数个初始子数据块,若任意一个所述初始子数据块中包含有两个或者以上的实体数据,则将所述初始子数据块进行再次分割得到只包含一个所述实体数据的最终子数据块;
抽取所述最终子数据块中的实体数据,提取所述最终子数据块中的实体数据的语义特征,应用词向量转化法将所述语义特征转换成初始多维词向量,将所述最终子数据块的语段长度作为系数与所述初始多维词向量进行乘积后得到最终多维词向量。
在其中一个可能的实施例中,所述将所述多维词向量进行降维后得到二维词向量,将所述二维词向量转置后与原所述二维词向量乘积得到实体数据矩阵,所述实体数据矩阵中的元素为向量化的实体数据,包括:
获取所述多维词向量中的每一个样本点的K个近邻点;
根据每个样本点的K个近邻点,建立所述每个样本点的局部权重矩阵Wi={wi1,wi2,…,wiK};
根据所述每个样本点的局部权重矩阵Wi={wi1,wi2,…,wiK},将每个样本点映射到低维空间,映射条件为:
式中:ε(Y)为损失函数值,yij为近邻点数值,yn为近邻点输出向量,wij是局部权重矩阵中的元素,K为近邻点的个数,N为近邻点输出向量中元素的个数,
映射后得到二维词向量Y={y1,y2,…,yN};
将所述二维词向量转置后得到转置二维词向量,将所述二维词向量与所述转置二维词向量乘积得到实体数据矩阵,所述实体数据矩阵中的元素为向量化的实体数据。
在其中一个可能的实施例中,所述抽取任一所述知识数据中的原始属性数据,对所述原始属性数据进行过滤后得到真实属性数据,获取所述真实属性数据的属性值,包括:
抽取所述任一所述知识数据中的原始属性数据,离散化处理所述原始属性数据后得到所述原始属性数据的离散值;
根据所述知识数据中的所述原始属性数据的数量,获取所述原始属性数据对应的向量维度;
将所述离散值和所述向量维度进行做差,若差值在预设的误差阈值以内,则所述原始属性数据为真实属性数据,若所述差值不在所述误差阈值以内,则根据所述差值去除所述原始属性数据中的多余属性数据,得到所述真实属性数据;
根据所述真实属性数据的数量,获取所述真实属性数据对应的向量维度,建立真实属性数据向量;
将所述真实属性数据向量降维后形成一真实属性数据矩阵,获取所述真实属性数据矩阵的特征值,所述特征值为所述属性值。
在其中一个可能的实施例中,所述将所述实体数据矩阵中的元素和所述真实属性数据的属性值入参到可信度识别模型,出参后得到所述知识数据的可信度,将所述可信度与预设的可信度阈值进行比较,若大于所述可信度阈值则将抽取出的所述原始属性数据融合,否则不融合,包括:
获取任一所述实体数据矩阵中的元素和任一所述真实属性数据的属性值,将所述元素和所述属性值入参到相似度距离函数中计算相似度距离,计算公式为:
式中:L(m1,m2)为相似度距离函数,m1为元素,m2为属性值;
根据所述相似度距离,计算得到所述元素和所述属性值的可信度,计算公式为:
式中:Crd(m)为可信度函数,L(m1,m2)为相似度距离函数;
将所述可信度与预设的可信度阈值进行比较,若大于所述可信度阈值则将抽取出的同一实体数据对应的所述原始属性数据融合,否则不融合。
在其中一个可能的实施例中,所述获取所述知识数据来源的类型对应的抽取方法,根据所述抽取方法抽取所述知识数据来源的数个知识数据包括:
若所述获取所述知识数据来源的形式为网页,则应用网络爬虫工具进行抽取,包括:
获取预抽取知识数据的任务队列中的关键词组,所述关键词组中包含有多个关键词;
遍历所述关键词组,通过网络爬虫爬取与所述关键词组中每一个关键词对应的网页上的信息;
获取所述网页上的信息中的所有实体信息,将所述实体信息导入到预设的知识数据表中,若有一个及以上的实体信息无法导入到预设的知识数据表中,则重新通过网络爬虫爬取网页,否则将所述网页信息作为所述知识数据。
将所述修正后的正则化文本矩阵中的元素依次入参到长短时记忆神经网络模型中进行训练后,得到所述非结构化文本数据的特征编码,根据所述特征编码抽取所述知识数据来源的知识数据。
一种知识融合装置,包括如下模块:
数据获取模块,设置为获取知识数据来源中的数个知识数据;
向量生成模块,设置为抽取任一所述知识数据中的实体数据,将所述实体数据进行向量化转换,生成多维词向量;
数据向量化模块,设置为将所述多维词向量进行降维后得到二维词向量,将所述二维词向量转置后与原所述二维词向量乘积得到实体数据矩阵,所述实体数据矩阵中的元素为向量化的实体数据;
属性值获取模块,设置为抽取任一所述知识数据中的原始属性数据,对所述原始属性数据进行过滤后得到真实属性数据,获取所述真实属性数据的属性值;
融合判定模块,设置为将所述实体数据矩阵中的元素和所述真实属性数据的属性值入参到可信度识别模型,出参后得到所述知识数据的可信度,将所述可信度与预设的可信度阈值进行比较,若大于所述可信度阈值则将抽取出的所述原始属性数据融合,否则不融合。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述知识融合方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述知识融合方法的步骤。
上述知识融合方法、装置、计算机设备和存储介质,包括:获取知识数据来源中的数个知识数据;抽取任一所述知识数据中的实体数据,将所述实体数据进行向量化转换,生成多维词向量;将所述多维词向量进行降维后得到二维词向量,将所述二维词向量转置后与原所述二维词向量乘积得到实体数据矩阵,所述实体数据矩阵中的元素为向量化的实体数据;抽取任一所述知识数据中的原始属性数据,对所述原始属性数据进行过滤后得到真实属性数据,获取所述真实属性数据的属性值;将所述实体数据矩阵中的元素和所述真实属性数据的属性值入参到可信度识别模型,出参后得到所述知识数据的可信度,将所述可信度与预设的可信度阈值进行比较,若大于所述可信度阈值则将抽取出的所述原始属性数据融合,否则不融合。本技术方案通过对实体和属性的精确匹配,实现了同一实体的多个属性的有效融合。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。
图1为本申请在一个实施例中的一种知识融合方法的整体流程图;
图2为本申请在一个实施例中的一种知识融合方法的数据获取过程示意图;
图3为本申请在一个实施例中的一种知识融合方法的向量生成过程示意图;
图4为本申请在一个实施例中的一种知识融合装置的结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
图1为本申请在一个实施例中的一种知识融合方法的整体流程图,如图1所示,一种知识融合方法,包括以下步骤:
S1,获取知识数据来源中的数个知识数据;
具体的,本步骤中的知识数据可以来自于同一知识数据来源,也可以来自于不同数据来源,可以来自于本地数据,也可以来自网络数据。若来自于本地数据,则在获取知识数据时,需要获得知识数据的存储路径;若来自于网络数据来源,则在获取知识数据时,需要获得知识数据来源的网络地址。
S2,抽取任一所述知识数据中的实体数据,将所述实体数据进行向量化转换,生成多维词向量;
具体的,获取存储在数据库中的实体名称列表,随机抽取实体名称列表中的至少一个实体名称,根据所述实体名称从所述知识数据中抽取出实体数据。同时,在进行实体数据抽取时,可以采用近义词抽取的方法;比如在实体名称列表中抽取出的实体名称是“篮球”,那么在对所述知识数据中的实体数据进行抽取时,可以抽取出的实体数据的实体名称为“足球”、“排球”等球类运动名词。
S3,将所述多维词向量进行降维后得到二维词向量,将所述二维词向量转置后与原所述二维词向量乘积得到实体数据矩阵,所述实体数据矩阵中的元素为向量化的实体数据;
具体的,在对多维词向量进行降维时可以采用PCA降维,比如,设有m条n维数据,降维操作可以采用如下步骤:
1)将原始数据按列组成n行m列形成矩阵X;
2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值;
3)求出X矩阵的协方差矩阵Y;
4)求出协方差矩阵Y的特征值及对应的特征向量r;
5)将特征向量按对应特征值大小从上到下按行排列成矩阵Z,取前k行组成矩阵Q;
6)矩阵Q即为降维到k维后的数据。
S4,抽取任一所述知识数据中的原始属性数据,对所述原始属性数据进行过滤后得到真实属性数据,获取所述真实属性数据的属性值;
具体的,在进行过滤时,主要是过滤掉与语义无关的词语。可以将原始属性数据进行分割,分割成数个子数据段,然后对每一个子数据段中的数据进行属性词查询,若不存在属性词,则将所述子数据段清除。
S5,将所述实体数据矩阵中的元素和所述真实属性数据的属性值入参到可信度识别模型,出参后得到所述知识数据的可信度,将所述可信度与预设的可信度阈值进行比较,若大于所述可信度阈值则将抽取出的所述原始属性数据融合,否则不融合。
具体的,可信度即可靠性,它指的是采取同样的方法对同一对象重复进行测量时,其所得结果相一致的程度。从另一方面来说,可信度就是指测量数据的可靠程度。
其中,预设的可信度阈值是根据历史数据统计后得到的,一般可信度阈值设定为95%。
本实施例,通过对实体数据和属性数据进行有效加工,从而实现了同一实体的多个属性的有效融合。
图2为本申请在一个实施例中的一种知识融合方法的数据获取过程示意图,如图所示,所述S1,获取知识数据来源中的数个知识数据,包括:
S101、发送知识数据抽取指令至待抽取知识数据的所述知识数据来源;
具体的,获取所述待抽取知识数据的知识数据来源的网络地址,根据所述网络地址的格式确定所述网络地址的类型,即所述网络地址是静态IP地址还是动态IP地址,若是静态IP地址,则从数据库中调取IP地址表进行比对后,确定所述静态IP地址是否在所述IP地址表上,在则发送知识数据获取指令,不在则不发送;若是动态IP地址,则对所述动态IP地址进行DNS解析得到所述动态IP地址对应的DNS解析代码,而后调用数据库中的DNS解析代码表对所述DNS解析代码进行比对,确定所述DNS解析代码是否在所述DNS解析代码表上,在则发送知识数据获取指令,不在则不发送。
S102、接收所述知识数据来源的反馈信息,从所述反馈信息中抽取出数据来源类型的关键词,根据所述关键词确定所述知识来数据源的类型;
具体的,形式关键词是指知识数据是结构化数据、半结构化数据还是非结构化数据。比如,反馈信息中出现“表”这一形式关键词,则对应的是结构化数据;出现“网页”这一形式关键词,则对应的是半结构化数据;出现“文本”这一形式关键词,则对应非结构化数据。
S103、获取所述知识数据来源的类型对应的抽取方法,根据所述抽取方法抽取所述知识数据来源的数个知识数据。
具体的,不同形式的数据来源对应不同的数据抽取方法,比如,半结构化的网页信息通常采用网络爬虫进行爬取,对于非结构化的文本,通常采用文本语言进行抽取。
本实施例,通过对知识数据来源的反馈信息进行分析,确定知识数据来源的数据形式,从而能够采用正确的抽取方式对知识数据来源的知识数据进行抽取。
图3为本申请在一个实施例中的一种知识融合方法的向量生成过程示意图,如图所示,所述S2,抽取任一所述知识数据中的实体数据,将所述实体数据进行向量化转换,生成多维词向量,包括:
S201、设置一抽取所述知识数据中的实体数据的初始语段,所述初始语段中至少包含一个所述实体数据;
具体的,根据实体数据中实体词语的长度值历史数据,设定实体数据的初始语段的长度。比如,在数据库中存储的历史数据中,实体词语的长度从1~10,那么初始语段的长度设置为最大值10。
S202、根据所述初始语段的语段长度,将所述知识数据分割成数个初始子数据块,若任意一个所述初始子数据块中包含有两个或者以上的实体数据,则将所述初始子数据块进行再次分割得到只包含一个所述实体数据的最终子数据块;
具体的,在对初始语段进行分割时,每一个子数据块的长度可以不一致,即根据实际实体词语的长度确定每一个子数据块的长度。
S203、抽取所述最终子数据块中的实体数据,提取所述最终子数据块中的实体数据的语义特征,应用词向量转化法将所述语义特征转换成初始多维词向量,将所述最终子数据块的语段长度作为系数与所述初始多维词向量进行乘积后得到最终多维词向量。
具体的,语义特征包含语义、语法、结构等多方面的要素。词向量转化法通常使用的是Word2Vector算法,此算法可以对每一个语义特征进行上下联系,从而将相互关联的语义特征一起转换成初始多维词向量。
本实施例,通过实体数据进行向量化转换后,使实体数据数值化表示,便于使用机器学习方法进行相似性计算。
在一个实施例中,所述S3,将所述多维词向量进行降维后得到二维词向量,将所述二维词向量转置后与原所述二维词向量乘积得到实体数据矩阵,所述实体数据矩阵中的元素为向量化的实体数据,包括:
获取所述多维词向量中的每一个样本点的K个近邻点;
具体的,样本点是指多维向量中的每一个点;在多维空间N上每一个样本点存在着在同一平面上的直接连接的点,这些点成为近邻点,K的取值范围为1~n,n为非零正整数。
根据每个样本点的K个近邻点,建立所述每个样本点的局部权重矩阵Wi={wi1,wi2,…,wiK};
根据所述每个样本点的局部权重矩阵Wi={wi1,wi2,…,wiK},将每个样本点映射到低维空间,映射条件为:
式中:ε(Y)为损失函数值,yij为近邻点数值,yn为近邻点输出向量,Wij是局部权重矩阵中的元素,K为近邻点个数,N为近邻点输出向量中元素的个数,映射后得到二维词向量Y={y1,y2,…,yN};
将所述二维词向量转置后得到转置二维词向量,将所述二维词向量与所述转置二维词向量乘积得到实体数据矩阵,所述实体数据矩阵中的元素为向量化的实体数据。
本实施例,通过将多维词向量进行降维成二维词向量,从而方便实体信息和属性信息进行匹配。
在一个实施例中,所述S4、抽取任一所述知识数据中的原始属性数据,对所述原始属性数据进行过滤后得到真实属性数据,获取所述真实属性数据的属性值,包括:
抽取所述任一所述知识数据中的原始属性数据,离散化处理所述原始属性数据后得到所述原始属性数据的离散值;
具体的,离散化是指把无限空间中有限的个体映射到有限的空间中去,以此来提高算法的时空效率。在进行离散化处理前,可以使用如unique()去重函数去除知识数据中的重复数据,而后再对知识数据离散化,其中,unique()函数是一种被C++、PHP、Matlab等开发或者科学计算环境所支持的去重函数,用于去除集合中的重复值,或者从集合中取单值。
根据所述知识数据中的所述原始属性数据的数量,获取所述原始属性数据对应的向量维度;
其中,原始属性数据的向量维度等于原始属性数据的数量。
将所述离散值和所述向量维度进行做差,若差值在预设的误差阈值以内,则所述原始属性数据为真实属性数据,若所述差值不在所述误差阈值以内,则根据所述差值去除所述原始属性数据中的多余属性数据,得到所述真实属性数据;
根据所述真实属性数据的数量,获取所述真实属性数据对应的向量维度,建立真实属性数据向量;
将所述真实属性数据向量降维后形成一真实属性数据矩阵,获取所述真实属性数据矩阵的特征值,所述特征值为所述属性值。
具体的,将所述真实属性数据降维后,可以得到一二维属性向量,将二维属性向量转置后得到转置二维属性向量,将二维属性向量和转置二维属性向量乘积后得到真实属性向量。
本实施例,通过对原始属性数据进行降维并进行矩阵化处理,更好的得到真实的属性值。
在一个实施例中,所述S5,将所述实体数据矩阵中的元素和所述真实属性数据的属性值入参到可信度识别模型,出参后得到所述知识数据的可信度,将所述可信度与预设的可信度阈值进行比较,若大于所述可信度阈值则将抽取出的所述原始属性数据融合,否则不融合,包括:
获取任一所述实体数据矩阵中的元素和任一所述真实属性数据的属性值,将所述元素和所述属性值入参到相似度距离函数中计算相似度距离,计算公式:
式中:L(m1,m2)为相似度距离函数,m1为元素,m2为属性值;
根据所述相似度距离,计算得到所述元素和所述属性值的可信度,计算公式为:
式中:Crd(m)为可信度函数,L(m1,m2)为相似度距离函数;
将所述可信度与预设的可信度阈值进行比较,若大于所述可信度阈值则将抽取出的同一实体数据对应的所述原始属性数据融合,否则不融合。
具体的,在进行相似度计算时还可以采用余弦算法或者欧式距离算法等,可信度阈值是根据历史数据统计后得到的。
本实施例,通过对实体数据和属性数据可信度的计算,从而提升了属性数据融合的准确性。
在一个实施例中,所述S103、获取所述知识数据来源的类型对应的抽取方法,根据所述抽取方法抽取所述知识数据来源的数个知识数据包括:
若所述获取所述知识数据来源的形式为网页,则应用网络爬虫工具进行抽取,包括:
获取预抽取知识数据的任务队列中的关键词组,所述关键词组中包含有多个关键词;
其中,任务队列中的关键词组可以是一些性状性的词组,比如:“球类”,在这个关键词组下所包含的关键词可以有“篮球”、“足球”、“乒乓球”等。
遍历所述关键词组,通过网络爬虫爬取与所述关键词组中每一个关键词对应的网页上的信息;
获取所述网页上的信息中的所有实体信息,将所述实体信息导入到预设的知识数据表中,若有一个及以上的实体信息无法导入到预设的知识数据表中,则重新通过网络爬虫爬取网页,否则将所述网页信息作为所述知识数据。
具体的,实体信息是指实体名称等和“实体”相关的信息,在导入到预设的知识数据表中时,先检索所述预设的知识数据表中的实体名称,若某一个实体信息中的实体名称不在预设的知识数据表中,则无法将所述实体信息导入。其中,预设的知识数据表存储在数据库中,其根据历次知识数据采集后汇总而成。
本实施例,能够有效的从网页信息中抽取出所需要的知识数据,提升知识数据抽取的效率。
在一个实施例中,提出了一种知识融合装置,如图4所示,包括如下模块:
数据获取模块41,设置为获取知识数据来源中的数个知识数据;
向量生成模块42,设置为抽取任一所述知识数据中的实体数据,将所述实体数据进行向量化转换,生成多维词向量;
数据向量化模块43,设置为将所述多维词向量进行降维后得到二维词向量,将所述二维词向量转置后与原所述二维词向量乘积得到实体数据矩阵,所述实体数据矩阵中的元素为向量化的实体数据;
属性值获取模块44,设置为抽取任一所述知识数据中的原始属性数据,对所述原始属性数据进行过滤后得到真实属性数据,获取所述真实属性数据的属性值;
融合判定模块45,设置为将所述实体数据矩阵中的元素和所述真实属性数据的属性值入参到可信度识别模型,出参后得到所述知识数据的可信度,将所述可信度与预设的可信度阈值进行比较,若大于所述可信度阈值则将抽取出的所述原始属性数据融合,否则不融合。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述各实施例中所述知识融合方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施例中所述知识融合方法的步骤。所述存储介质可以为非易失性存储介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请一些示例性实施例,其中描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种知识融合方法,其特征在于,包括:
获取知识数据来源中的数个知识数据;
抽取任一所述知识数据中的实体数据,将所述实体数据进行向量化转换,生成多维词向量;
将所述多维词向量进行降维后得到二维词向量,将所述二维词向量转置后与原所述二维词向量乘积得到实体数据矩阵,所述实体数据矩阵中的元素为向量化的实体数据;
抽取任一所述知识数据中的原始属性数据,对所述原始属性数据进行过滤后得到真实属性数据,获取所述真实属性数据的属性值;
将所述实体数据矩阵中的元素和所述真实属性数据的属性值入参到可信度识别模型,出参后得到所述知识数据的可信度,将所述可信度与预设的可信度阈值进行比较,若大于所述可信度阈值则将抽取出的所述原始属性数据融合,否则不融合。
2.根据权利要求1所述的知识融合方法,其特征在于,所述获取知识数据来源中的数个知识数据,包括:
发送知识数据抽取指令至待抽取知识数据的所述知识数据来源;
接收所述知识数据来源的反馈信息,从所述反馈信息中抽取出数据来源类型的关键词,根据所述关键词确定所述知识来数据源的类型;
获取所述知识数据来源的类型对应的抽取方法,根据所述抽取方法抽取所述知识数据来源的数个知识数据。
3.根据权利要求1所述的知识融合方法,其特征在于,所述抽取任一所述知识数据中的实体数据,将所述实体数据进行向量化转换,生成多维词向量,包括:
设置一抽取所述知识数据中的实体数据的初始语段,所述初始语段中至少包含一个所述实体数据;
根据所述初始语段的语段长度,将所述知识数据分割成数个初始子数据块,若任意一个所述初始子数据块中包含有两个或者以上的实体数据,则将所述初始子数据块进行再次分割得到只包含一个所述实体数据的最终子数据块;
抽取所述最终子数据块中的实体数据,提取所述最终子数据块中的实体数据的语义特征,应用词向量转化法将所述语义特征转换成初始多维词向量,将所述最终子数据块的语段长度作为系数与所述初始多维词向量进行乘积后得到最终多维词向量。
4.根据权利要求1所述的知识融合方法,其特征在于,所述将所述多维词向量进行降维后得到二维词向量,将所述二维词向量转置后与原所述二维词向量乘积得到实体数据矩阵,所述实体数据矩阵中的元素为向量化的实体数据,包括:
获取所述多维词向量中的每一个样本点的K个近邻点;
根据每个样本点的K个近邻点,建立所述每个样本点的局部权重矩阵Wi={wi1,wi2,…,wiK};
根据所述每个样本点的局部权重矩阵Wi={wi1,wi2,…,wiK},将每个样本点映射到低维空间,映射条件为:
式中:ε(Y)为损失函数值,yij为近邻点数值,yn为近邻点输出向量,wij是局部权重矩阵中的元素,K为近邻点的个数,N为近邻点输出向量中元素的个数,
映射后得到二维词向量Y={y1,y2,…,yN};
将所述二维词向量转置后得到转置二维词向量,将所述二维词向量与所述转置二维词向量乘积得到实体数据矩阵,所述实体数据矩阵中的元素为向量化的实体数据。
5.根据权利要求1所述的知识融合方法,其特征在于,所述抽取任一所述知识数据中的原始属性数据,对所述原始属性数据进行过滤后得到真实属性数据,获取所述真实属性数据的属性值,包括:
抽取所述任一所述知识数据中的原始属性数据,离散化处理所述原始属性数据后得到所述原始属性数据的离散值;
根据所述知识数据中的所述原始属性数据的数量,获取所述原始属性数据对应的向量维度;
将所述离散值和所述向量维度进行做差,若差值在预设的误差阈值以内,则所述原始属性数据为真实属性数据,若所述差值不在所述误差阈值以内,则根据所述差值去除所述原始属性数据中的多余属性数据,得到所述真实属性数据;
根据所述真实属性数据的数量,获取所述真实属性数据对应的向量维度,建立真实属性数据向量;
将所述真实属性数据向量降维后形成一真实属性数据矩阵,获取所述真实属性数据矩阵的特征值,所述特征值为所述属性值。
6.根据权利要求1所述的知识融合方法,其特征在于,所述将所述实体数据矩阵中的元素和所述真实属性数据的属性值入参到可信度识别模型,出参后得到所述知识数据的可信度,将所述可信度与预设的可信度阈值进行比较,若大于所述可信度阈值则将抽取出的所述原始属性数据融合,否则不融合,包括:
获取任一所述实体数据矩阵中的元素和任一所述真实属性数据的属性值,将所述元素和所述属性值入参到相似度距离函数中计算相似度距离,计算公式为:
式中:L(m1,m2)为相似度距离函数,m1为元素,m2为属性值;
根据所述相似度距离,计算得到所述元素和所述属性值的可信度,计算公式为:
式中:Crd(m)为可信度函数,L(m1,m2)为相似度距离函数;
将所述可信度与预设的可信度阈值进行比较,若大于所述可信度阈值则将抽取出的同一实体数据对应的所述原始属性数据融合,否则不融合。
7.根据权利要求2所述的知识融合方法,其特征在于,所述获取所述知识数据来源的类型对应的抽取方法,根据所述抽取方法抽取所述知识数据来源的数个知识数据包括:
若所述获取所述知识数据来源的形式为网页,则应用网络爬虫工具进行抽取,包括:
获取预抽取知识数据的任务队列中的关键词组,所述关键词组中包含有多个关键词;
遍历所述关键词组,通过网络爬虫爬取与所述关键词组中每一个关键词对应的网页上的信息;
获取所述网页上的信息中的所有实体信息,将所述实体信息导入到预设的知识数据表中,若有一个及以上的实体信息无法导入到预设的知识数据表中,则重新通过网络爬虫爬取网页,否则将所述网页信息作为所述知识数据。
8.一种知识融合装置,其特征在于,包括:
数据获取模块,设置为获取知识数据来源中的数个知识数据;
向量生成模块,设置为抽取任一所述知识数据中的实体数据,将所述实体数据进行向量化转换,生成多维词向量;
数据向量化模块,设置为将所述多维词向量进行降维后得到二维词向量,将所述二维词向量转置后与原所述二维词向量乘积得到实体数据矩阵,所述实体数据矩阵中的元素为向量化的实体数据;
属性值获取模块,设置为抽取任一所述知识数据中的原始属性数据,对所述原始属性数据进行过滤后得到真实属性数据,获取所述真实属性数据的属性值;
融合判定模块,设置为将所述实体数据矩阵中的元素和所述真实属性数据的属性值入参到可信度识别模型,出参后得到所述知识数据的可信度,将所述可信度与预设的可信度阈值进行比较,若大于所述可信度阈值则将抽取出的所述原始属性数据融合,否则不融合。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述知识融合方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述知识融合方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910025114.4A CN109886294B (zh) | 2019-01-11 | 2019-01-11 | 知识融合方法、装置、计算机设备和存储介质 |
PCT/CN2019/092597 WO2020143184A1 (zh) | 2019-01-11 | 2019-06-24 | 知识融合方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910025114.4A CN109886294B (zh) | 2019-01-11 | 2019-01-11 | 知识融合方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109886294A true CN109886294A (zh) | 2019-06-14 |
CN109886294B CN109886294B (zh) | 2024-01-23 |
Family
ID=66925944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910025114.4A Active CN109886294B (zh) | 2019-01-11 | 2019-01-11 | 知识融合方法、装置、计算机设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109886294B (zh) |
WO (1) | WO2020143184A1 (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159328A (zh) * | 2019-11-20 | 2020-05-15 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 情报知识融合系统及方法 |
WO2020143184A1 (zh) * | 2019-01-11 | 2020-07-16 | 平安科技(深圳)有限公司 | 知识融合方法、装置、计算机设备和存储介质 |
CN111782818A (zh) * | 2020-06-05 | 2020-10-16 | 牛张明 | 生物医疗知识图谱的构建装置、方法、系统及存储器 |
WO2021051630A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于数据关系分析的知识融合方法、装置、计算机设备和存储介质 |
CN112908303A (zh) * | 2021-01-28 | 2021-06-04 | 广东优碧胜科技有限公司 | 音频信号的处理方法、装置以及电子设备 |
CN114139547A (zh) * | 2021-11-25 | 2022-03-04 | 北京中科闻歌科技股份有限公司 | 知识融合方法、装置、设备、系统及介质 |
CN114357114A (zh) * | 2022-01-04 | 2022-04-15 | 新华智云科技有限公司 | 一种基于无监督学习的实体清洗方法及系统 |
WO2022174499A1 (zh) * | 2021-02-20 | 2022-08-25 | 平安科技(深圳)有限公司 | 文本韵律边界预测的方法、装置、设备及存储介质 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036481B (zh) * | 2020-08-31 | 2024-04-05 | 国家电网有限公司 | 一种提升融合效果的反向验证方法 |
CN112182320B (zh) * | 2020-09-25 | 2023-12-26 | 中国建设银行股份有限公司 | 聚类数据处理方法、装置、计算机设备及存储介质 |
CN112784065B (zh) * | 2021-02-01 | 2023-07-14 | 东北大学 | 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置 |
CN113111657B (zh) * | 2021-03-04 | 2024-05-03 | 浙江工业大学 | 一种跨语言知识图谱对齐与融合方法、装置及存储介质 |
CN112949745B (zh) * | 2021-03-23 | 2024-04-19 | 中国检验检疫科学研究院 | 多源数据的融合处理方法、装置、电子设备及存储介质 |
CN113468255B (zh) * | 2021-06-25 | 2023-04-07 | 西安电子科技大学 | 基于知识图谱的社会治安综合治理领域数据融合方法 |
CN113723047A (zh) * | 2021-07-27 | 2021-11-30 | 山东旗帜信息有限公司 | 一种基于法律文件的图谱构建方法、设备及介质 |
CN114625875B (zh) * | 2022-03-09 | 2024-03-29 | 平安科技(深圳)有限公司 | 多数据源信息的模式匹配方法、装置、存储介质及设备 |
CN117033541B (zh) * | 2023-10-09 | 2023-12-19 | 中南大学 | 一种时空知识图谱索引方法及相关设备 |
CN117542353B (zh) * | 2023-11-14 | 2024-07-19 | 贵州大学 | 一种基于知识图谱和语音特征融合网络的语音理解方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810526A (zh) * | 2014-01-28 | 2014-05-21 | 北京仿真中心 | 一种基于d-s证据理论的知识融合方法 |
CN108536664A (zh) * | 2017-03-01 | 2018-09-14 | 华东师范大学 | 商品领域的知识融合方法 |
CN108647318A (zh) * | 2018-05-10 | 2018-10-12 | 北京航空航天大学 | 一种基于多源数据的知识融合方法 |
CN108804521A (zh) * | 2018-04-27 | 2018-11-13 | 南京柯基数据科技有限公司 | 一种基于知识图谱的问答方法及农业百科问答系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11080273B2 (en) * | 2017-03-20 | 2021-08-03 | International Business Machines Corporation | Image support for cognitive intelligence queries |
CN109886294B (zh) * | 2019-01-11 | 2024-01-23 | 平安科技(深圳)有限公司 | 知识融合方法、装置、计算机设备和存储介质 |
-
2019
- 2019-01-11 CN CN201910025114.4A patent/CN109886294B/zh active Active
- 2019-06-24 WO PCT/CN2019/092597 patent/WO2020143184A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810526A (zh) * | 2014-01-28 | 2014-05-21 | 北京仿真中心 | 一种基于d-s证据理论的知识融合方法 |
CN108536664A (zh) * | 2017-03-01 | 2018-09-14 | 华东师范大学 | 商品领域的知识融合方法 |
CN108804521A (zh) * | 2018-04-27 | 2018-11-13 | 南京柯基数据科技有限公司 | 一种基于知识图谱的问答方法及农业百科问答系统 |
CN108647318A (zh) * | 2018-05-10 | 2018-10-12 | 北京航空航天大学 | 一种基于多源数据的知识融合方法 |
Non-Patent Citations (1)
Title |
---|
刘峤;李杨;段宏;刘瑶;秦志光;: "知识图谱构建技术综述", 计算机研究与发展, no. 03, pages 583 - 600 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020143184A1 (zh) * | 2019-01-11 | 2020-07-16 | 平安科技(深圳)有限公司 | 知识融合方法、装置、计算机设备和存储介质 |
WO2021051630A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于数据关系分析的知识融合方法、装置、计算机设备和存储介质 |
CN111159328A (zh) * | 2019-11-20 | 2020-05-15 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 情报知识融合系统及方法 |
CN111782818A (zh) * | 2020-06-05 | 2020-10-16 | 牛张明 | 生物医疗知识图谱的构建装置、方法、系统及存储器 |
CN112908303A (zh) * | 2021-01-28 | 2021-06-04 | 广东优碧胜科技有限公司 | 音频信号的处理方法、装置以及电子设备 |
WO2022174499A1 (zh) * | 2021-02-20 | 2022-08-25 | 平安科技(深圳)有限公司 | 文本韵律边界预测的方法、装置、设备及存储介质 |
CN114139547A (zh) * | 2021-11-25 | 2022-03-04 | 北京中科闻歌科技股份有限公司 | 知识融合方法、装置、设备、系统及介质 |
CN114139547B (zh) * | 2021-11-25 | 2023-07-04 | 北京中科闻歌科技股份有限公司 | 知识融合方法、装置、设备、系统及介质 |
CN114357114A (zh) * | 2022-01-04 | 2022-04-15 | 新华智云科技有限公司 | 一种基于无监督学习的实体清洗方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109886294B (zh) | 2024-01-23 |
WO2020143184A1 (zh) | 2020-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109886294A (zh) | 知识融合方法、装置、计算机设备和存储介质 | |
CN110059198B (zh) | 一种基于相似性保持的跨模态数据的离散哈希检索方法 | |
CN109885692B (zh) | 知识数据存储方法、装置、计算机设备和存储介质 | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
Olmezogullari et al. | Representation of click-stream datasequences for learning user navigational behavior by using embeddings | |
US9098741B1 (en) | Discriminitive learning for object detection | |
WO2018112696A1 (zh) | 一种内容推荐方法及内容推荐系统 | |
CN110162749A (zh) | 信息提取方法、装置、计算机设备及计算机可读存储介质 | |
CN108073568A (zh) | 关键词提取方法和装置 | |
Sethi et al. | DLPaper2Code: Auto-generation of code from deep learning research papers | |
CN109783812B (zh) | 基于自注意力机制的中文命名实体识别方法、系统、装置 | |
CN112650923A (zh) | 新闻事件的舆情处理方法及装置、存储介质、计算机设备 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN110807102A (zh) | 知识融合方法、装置、计算机设备和存储介质 | |
CN112527981B (zh) | 开放式信息抽取方法、装置、电子设备及存储介质 | |
CN113380360B (zh) | 一种基于多模态病历图的相似病历检索方法及系统 | |
CN111666766A (zh) | 数据处理方法、装置和设备 | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN111680506A (zh) | 数据库表的外键映射方法、装置、电子设备和存储介质 | |
CN113961666A (zh) | 关键词识别方法、装置、设备、介质及计算机程序产品 | |
CN114443855A (zh) | 一种基于图表示学习的知识图谱跨语言对齐方法 | |
Wang et al. | Multi-modal transformer using two-level visual features for fake news detection | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN116796288A (zh) | 一种面向工业文档的多模态信息提炼方法和系统 | |
CN111259176A (zh) | 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |