CN113722509B - 一种基于实体属性相似度的知识图谱数据融合方法 - Google Patents
一种基于实体属性相似度的知识图谱数据融合方法 Download PDFInfo
- Publication number
- CN113722509B CN113722509B CN202111044230.4A CN202111044230A CN113722509B CN 113722509 B CN113722509 B CN 113722509B CN 202111044230 A CN202111044230 A CN 202111044230A CN 113722509 B CN113722509 B CN 113722509B
- Authority
- CN
- China
- Prior art keywords
- entity
- attribute
- data
- similarity
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于实体属性相似度的知识图谱数据融合方法,其具体包括:获取要进行融合的多个知识图谱数据;利用词向量余弦相似度对实体属性进行去重;对实体名称进行统一;对实体属性值进行简化;当实体属性值为数值属性值时,构建数值属性值的正则表达式,提取数值属性值的数值和单位信息;当实体属性值为文本属性值时,构建文本属性值的正则表达式,再提取文本属性值的实体型号和代号;针对不同的实体属性值类型,采用相应的相似度函数计算实体属性间相似度;对决策树模型进行训练,采用训练好的决策树模型作为匹配器模型,判断不同实体是否匹配。本发明解决了细分领域知识图谱融合难以进行实体特征相似度计算的问题,速度快且准确率高。
Description
技术领域
本发明涉及人工智能和知识图谱技术领域,尤其涉及一种基于实体属性相似度的知识图谱数据融合方法。
背景技术
近年来,知识图谱作为一种结构化储存人类知识的方式,越发得到学术界和工业界的重视。在实际业务中,由于单个知识图谱往往规模较小,往往需要组合使用多个知识图谱。但是不同源的知识图谱往往具有重叠的知识,为了解决这个问题,研究者已经对知识图谱融合技术进行了大量研究,以求将不同知识图谱融合为一个统一、一致、简洁的形式。
知识图谱融合技术的第一步是预处理,包括数据清洗与后续步骤准备两方面。数据清洗是为了保证数据的质量;后续步骤准备包括配置准备和数据准备,前者是为了生成适合输入知识图谱的继承规则并计算出合适的(超)参数,后者则是采取分块(Blocking)技术提升融合效率。接下来的步骤是匹配,包括本体匹配(Ontology Matching)和实体对齐(Entity Alignment),其分别用于消除本体与实体层面的异构性。其中,本体匹配侧重于发现本体层面的相似与等价关系,实体对齐侧重于发现真实世界中相同对象的不同实例。其中,实体对齐是知识图谱融合的核心技术,最近几年已涌现了大批研究成果,目前主流的技术是基于实体特征相似度的实体对齐技术,这类方法基于实体属性的相似度对实体进行两两对齐,利用实体相似度评分将实体对齐问题转换成一个分类问题,即对于任意一个实体对,将其分为匹配、不匹配两类。
在传统概率模型的基础上,很多机器学习方法也被应用到实体对齐领域中,极大地提升了对齐的准确率。一些研究利用决策树、SVM、集成学习等机器学习方法改进传统的分类模型,另一些研究利用条件随机场等模型有监督的训练距离函数,使相似的实体聚集到一起,以改善分类的效果。
目前,基于实体特征相似度的实体对齐方法在通用知识图谱已经得到了广泛的应用。但是对于细分领域知识图谱融合任务,这些图谱数据少且没有统一的架构,因此往往具有异构性强,缺失值多的特点,不同图谱中的实体几乎没有完全对应的特征,很难直接对实体特征相似度进行计算。
发明内容
针对目前细分领域知识图谱融合难以进行实体特征相似度计算的问题,本发明公开了一种基于实体属性相似度的知识图谱数据融合方法,其具体包括:
S1,获取要进行融合的多个知识图谱数据;
从若干个网络数据源中利用网络爬虫技术爬取数据文件,并从中提取知识图谱数据,对提取的知识图谱数据,以实体、关系、实体及实体、属性、属性值的三元组形式进行储存,并将提取的知识图谱数据转化为实体-属性的结构化数据集D,即:
D={e1,e2,...eT},
结构化数据集D中的每条实体数据的属性信息遵从同一范式,即存在映射1≤i≤T,1≤j≤n,Aj表示所有实体的第j个统一属性值,表示第i个实体的第j个属性;对所有指向同一个实体的数据进行标注,得到用于训练和测试的数据,构建映射ρ,当且仅当ei,ej指向同一实体时,其满足ρ(ei)=ρ(ej),ei,ej分别表示结构化数据集D中的第i个实体数据和第j个实体数据。
S2,利用词向量余弦相似度对实体属性进行去重;
S21,利用word2vec算法,获得每个实体属性名称文本的词向量表示;
S22,对实体属性名称文本进行分块;
在获得了实体属性名称文本的词向量表示后,计算任意两个实体属性的欧式距离,再对实体属性进行聚类,其具体步骤为:
S221,选择初始化的k个实体属性作为初始的聚类中心,初始的k个聚类中心分别用c1,...,ck表示;
S222,对于第l个聚类中心cl,其所对应的第l个类别记为集合Classl,对于任意一个实体属性的词向量表示,计算其到每个聚类中心的距离,并根据计算得到的距离,将实体属性划分到与其距离最小的聚类中心所对应的类别中;
S223,对于每个聚类中心,将聚类中心更新为其对应类别中包含的所有实体属性的词向量表示的平均值,该过程表示为:x为该类别中包含的实体属性的词向量表示,|Classl|表示集合Classl中所包含的实体属性的数量。
S224,重复步骤S222、S223的两步操作,直到达到终止条件后终止分块过程,终止条件为,经过一定轮次后,聚类中心没有发生变化。所述的一定轮次,通常为500轮。
S23,对步骤S22分块后的属性数据,筛选出重复的属性数据,实现属性去重;
S3,对实体名称进行统一;
利用网络百科维护的共指页面,获取到实体的别名信息。在获得实体的别名信息后,遍历所有实体名称,将所有实体名称统一为实体常用名。所述的共指页面,是网络百科中进行维护的用以将表述不同,但实际内容一致的搜索请求重定向至同一页面的一种页面。
S4,对实体属性值进行简化,其具体包括:
S41,当实体属性值为文本属性值时,构建文本属性值的正则表达式,再提取文本属性值的实体型号和代号,再去除文本属性值中的冗余部分,以对文本属性值进行简化;
S42,当实体属性值为数值属性值时,构建数值属性值的正则表达式,提取数值属性值的数值大小和单位信息,对单位信息进行换算统一。
S5,针对不同实体属性值,采用相应的相似度函数进行相似度计算;
步骤S4对实体属性值进行简化后,得到的实体属性分为三类,分别是数值属性、文本属性和布尔值属性,针对这三类属性采用相应的相似度函数进行相似度计算。
S51,计算数值属性相似度;
S52,计算文本属性相似度;文本属性相似度的计算方法包括基于词向量和字向量的方法和基于编辑距离的方法;
所述的基于词向量和字向量的方法,先将实体属性的文本数据进行分词,再将每个词用一个预训练好的向量进行表示,整条文本数据的向量表示通过对其包含的所有词的向量表示求平均得到,通过对两条文本数据的向量表示求方向余弦,得到文本属性的相似度。
所述的基于编辑距离的方法,是指将两个字符串之间,由一个字符串转成另一个字符串所需的最少编辑操作次数,作为文本属性的相似度。所述的所需的最少编辑操作次数,通过动态规划方法进行求解。Levenstein距离和Jaro-Winkler距离是两种编辑距离的定义方式。
假设两个实体属性的文本数据分别为s1,s2,词嵌入操作为emb,则其基于词向量和字向量方法的相似度S12定义为
S53,计算实体类别属性相似度;
S6,训练决策树模型,根据实体各个属性相似度,采用训练好的平衡样本权重的决策树模型作为匹配器模型,判断不同实体是否匹配,其具体步骤包括,
S61,通过实体属性特征选择,从所有实体属性中筛选出跟分类结果的相关性超过一定阈值的实体属性特征。
S62,从决策树模型的根节点出发,对于每一种属性特征,根据该属性特征的特性将一个标签集划分为两个。遍历每种特征对应的所有划分方式,对每种划分方式,分别计算其划分一个标签集后得到的两个标签集合的GINI不纯度;GINI不纯度用以衡量集合的混杂程度,对于一个包含了J个标签类别的集合G,其GINI不纯度的计算公式为:
其中IG为集合G的GINI不纯度,pi为第i个标签类别在集合G中出现的频率,且有1≤i≤J。划分方式的GINI不纯度为其划分出的两个标签集合的GINI不纯度,按照每个标签集合所包含的元素数量为权重,对所有标签集合进行加权求和后得的平均值。选取GINI不纯度最小的划分方式作为对该实体属性特征的最佳划分。
S63,选择最佳划分对应的实体属性特征作为子节点的节点特征,根据该节点特征对应的划分方式建立子节点。
S64,对每个子节点使用步骤S62和S63中的方式,生成新的子节点,直到子节点的节点特征对应的最佳划分方式的GINI不纯度大于某一阈值或者步骤S63中没有实体属性特征可选择为止,从而到达叶节点处,得到分类结果,并确保每个叶节点都对应一种分类结果。
在利用决策树模型,根据属性相似度判断不同实体是否匹配时,数据集为S5步骤计算出的相似度数据,标签值为对步骤S1中获取知识图谱数据进行标注后得到的对齐数据。
本发明的有益效果为:
本发明应用多种特征工程方法对实体属性值清洗和扩充,然后采用决策树模型进行实体对齐,解决了细分领域知识图谱融合难以进行实体特征相似度计算的问题,速度快且准确率高。
附图说明
图1为基于实体特征相似度的知识图谱融合技术流程图。
具体实施方式
为了更好的了解本发明内容,这里给出一个实施例。
本发明公开了一种基于实体属性相似度的知识图谱数据融合方法,其具体包括:
S1,获取要进行融合的多个知识图谱;
S2,对属性进行去重,包括:
S21,获得每个属性文本的词向量表示
S22,对属性进行分块
S23,对上一步分块后的属性数据进行人工筛选
S3,利用搜索引擎共指界面对实体名称进行统一;
S4,对属性值进行简化,包括:
S41,对于文本属性,分词并去除停用词
S42,对于数值属性,采用正则表达式匹配的方法,提取出(数值,单位)的二元组,并利用单位换算的先验知识,将同种属性的单位统一。
S5,针对不同属性,采用不同相似度计算方法进行相似度计算
S51,计算文本属性相似度
S52,计算数值属性相似度
S53,计算类别属性相似度
S6,训练决策树模型,根据属性相似度判断是否不同实体是否匹配。
本部分以无人机细分领域的知识图谱融合为例,说明本发明的步骤,图1是基于实体特征相似度的知识图谱融合技术流程图。具体包括如下步骤:
S1,获取要进行融合的多个知识图谱数据;
从若干个网络数据源(具体可从维基百科、百度百科、微信公众号、armyrecognition网站、openkg网站)中利用网络爬虫技术爬取数据文件,并从中提取知识图谱,,以实体、关系、实体及实体、属性、属性值的三元组形式进行储存,其中实体、关系、实体的三元组表示为(e,r,e),实体、属性、属性值的三元组表示为(e,A,a),并将得到的知识图谱转化为实体-属性的结构化数据集D,即:
D={e1,e2,...eT},
结构化数据D中的每条数据的属性信息遵从同一范式(即所有实体都具有属性A1,...,An,假如实体在知识图谱中没有对应属性,则在结构化数据D中以空缺值表示),即存在映射1≤i≤T,1≤j≤n,Aj表示所有实体的第j个统一属性值,表示第i个实体的第j个属性;同时,对所有指向同一个实体的数据进行标注,得到用于训练和测试的数据,从而构建映射ρ,其满足ρ(ei)=ρ(ej),当且仅当ei,ej指向同一实体,ei,ej分别表示结构化数据集D中的第i个实体数据和第j个实体数据。
S2,利用词向量余弦相似度对实体属性进行去重;
由于不同知识图谱、同一知识图谱中不同实体的属性命名方式不同,不同属性名称可能对应同一种属性(例如无人机长度、机长、长度、机身全长都指向同一个属性),因此需要属性去重。
S21,利用word2vec算法,获得每个属性名称文本的词向量表示;
词向量技术是指将自然语言中的词汇映射到实数向量,同时实数向量能保留原词汇的一定语义信息。生成词向量的一种常用算法是word2vec算法,Word2vec是一种基于神经网络的方法,可以根据给定的语料库,通过优化后的训练模型快速有效地将一个词语表达成向量形式。
S22,对实体属性进行分块;
在获得了属性名称文本的词向量表示后,计算任意两个实体属性的欧式距离,再对实体属性进行聚类,其具体步骤为:
S221,选择初始化的k个实体属性作为初始的聚类中心,初始的k个聚类中心分别用c1,...,ck表示;
S222,对于第l个聚类中心cl,其所对应的第l个类别记为集合Classl,对于任意一个实体属性的词向量表示,计算其到每个聚类中心的距离,并根据计算得到的距离,将实体属性划分到其距离最小的聚类中心所对应的类别中;
S223,对于每个聚类中心,将聚类中心更新为其对应类别中包含的所有实体属性的词向量表示的平均值,该过程表示为:x为该类别中包含的实体属性的词向量表示,|Classl|表示集合Classl中所包含的元素的数量。
S224,重复步骤S222、S223的两步操作,直到达到终止条件后终止分块过程,终止条件为,经过一定轮次后,聚类中心没有发生变化。所述的一定轮次,通常为500轮。
记N为属性数量,k为聚类中心数量,直接对属性值进行两两比较去重,其复杂度为O(N2);使用基于词向量的K-means聚类算法将属性分为k类,可以认为只有同属一类的属性才有可能是相同的,这样去重的复杂度为可以看到采用分块技术大大降低了人工筛选的复杂度。
S23,对步骤S22分块后的属性数据,筛选出重复的属性数据,实现属性去重;
将属性进行去重后,选取其中最主要的10种属性用于下一步实体对齐操作。这10类分别为:名称、速度、机身宽度、机身长度、机身高度、描述、生产厂商、生产或装备国家、续航时间、航程。
S3,对实体名称进行统一;
实体名称是进行实体对齐的重要依据之一,同一实体往往会有不同的名称,进而影响相似度的计算。名称的不同一方面来自不同知识图谱命名习惯的不同(如彩虹七型无人机在另一个知识图谱中被称为彩虹-7),这类不同可以通过将文本转化为词向量加以解决(上例中“七型”和"-7"的词向量表示是相似的);另一方面,由于更复杂的原因,同一实体可能有文本上完全不同的名称(如彩虹七型无人机也被称为CH-7),即使将文本转化为词向量,也无法准确获得其相似度,这时就需要运用外部知识,如借助网络百科等页面中的数据进行实体名称统一,假如某实体名称为该页面提到的别名之一,就将其改为对应的常用名。
利用网络百科(如维基百科,百度百科)维护的共指页面,获取到实体的别名信息,共指页面储存有实体的别名信息。在获得别名信息后,遍历所有实体名称,将所有实体名称统一为实体常用名。所述的共指页面,是网络百科中进行维护的用以将表述不同,但实际内容一致的搜索请求重定向至同一页面的一种页面。
S4,对实体属性值进行简化,具体包括:
S41,构建文本属性值的正则表达式,再提取文本属性值的实体型号和代号,再去除文本属性值中的冗余部分,以对文本属性值进行简化;
以无人机文本属性值为例,世界主要军用无人机命名都遵循机型+代号的命名方式(例如CH-1长虹1号中型战术无人机中CH-1是代号,长虹1号是机型),但是原始数据中无人机名称往往具有冗余部分(例如中型战术无人机),直观上无人机的机型和代号是对无人机进行实体对齐的主要依据,因此基于正则表达式方法从名称中提取出机型和代号,作为两个新的属性;同时注意到名称冗余部分能提供的信息很少(例如无人机几乎会在每条数据的名称属性中出现),因此我们去除了名称中的冗余部分。
S42,构建数值属性值的正则表达式,提取数值属性值的数值大小和单位信息,对单位信息进行换算统一。
以无人机数值属性值为例,对于属性中的速度、机身宽度、机身长度、机身高度、续航时间、航程这几个属性,我们只关心其数值大小和单位,但在原始数据中这些属性经常以文本+数值的属性出现(例如长度为1.2米,我们只希望得到1.2米作为属性),因此我们基于正则表达式方法提取出数值大小和单位信息。同时,由于数值信息的单位往往不同(例如机身长度属性的单位可能是米、厘米、英尺等),我们基于单位换算的先验知识,对单位进行统一。
S5,针对不同实体属性值,采用相应的相似度计算方法进行相似度计算;
步骤S4对实体属性值进行简化后,得到的实体属性可以分为三类,分别是数值属性(速度、机身宽度、机身长度、机身高度、续航时间、航程),文本属性(名称、生产厂商、生产或装备国家、代号、机型)和布尔值属性(是否超音速),针对这三类属性需要采用不同的相似度函数进行计算。
S51,计算数值属性相似度;
S52,计算文本属性相似度,文本属性相似度的计算方法包括基于词向量和字向量的方法和基于编辑距离的方法;
所述的数值属性相似度和布尔值属性相似度的定义都是很直观的,但是文本属性并不能直观地得到相似度。计算文本相似度的方法大致可以分为两类,一类是基于词向量和字向量的方法,另一类是基于编辑距离的方法。
所述的基于词向量和字向量的方法,先将文本数据进行分词,再将每个词用一个预训练好的向量进行表示,从而整条文本数据的向量表示用其包含的所有词的向量表示求平均得到。这种方法的优点在于每个词的向量表示具有一定语义信息,而且将文本进行向量表示后可以直接利用余弦相似度等方法计算距离,缺点在于分词得到的词汇并不一定能找到对应的向量表示,且词汇在预训练文本中的语义与文本数据中的语义也不能保证是相同的。
所述的基于编辑距离的方法,是指将两个字符串之间,由一个字符串转成另一个字符串所需的最小编辑操作次数,作为文本属性的相似度。编辑距离,是指两个字符串之间,由一个字符串转成另一个字符串所需的编辑操作次数。所述的所需最小的编辑操作次数,通过动态规划进行求解。基于编辑距离的方法假设编辑距离较小的字串之间相似度较高。Levenstein距离和Jaro-Winkler距离是两种编辑距离定义方式,其中Jaro-Winkler距离更加突出了前缀相同的重要性。这种方法的优点在于算法简单,缺点是不能捕捉文本的语义信息。
为了确定最适合无人机领域实体对齐的文本相似度计算方法,我们对上述两种方法进行了实验。我们选用在维基百科上训练的300维字向量和词向量,并采用余弦相似度作为向量相似度的比较方法。假设两个文本数据分别为s1,s2,词嵌入操作为emb,则其基于词向量和字向量方法的相似度S12定义为
注意到余弦相似度大于0而小于1,为了使两种方法的结果具有可比性,记s1,s2的编辑距离为dis(s1,s2),len为求字符串长度操作,我们对编辑距离作如下变换,将其也放缩到[0,1]区间:
S53,计算实体类别属性相似度;
S6,训练决策树模型,根据实体各个属性相似度,判断不同实体是否匹配;
采用平衡样本权重的决策树作为匹配器模型。决策树是一种基于if-then-else规则的有监督学习算法。对决策树模型进行训练时,首先通过特征选择,筛选出跟分类结果具有最高相关性的特征,再从决策树模型的根节点出发,对决策树模型的节点计算所有特征的信息增益,选择信息增益最大的特征作为节点特征,根据该特征的不同取值建立子节点;对每个子节点使用相同的方式生成新的子节点,直到信息增益小于某一阈值或者没有特征可以选择为止。利用决策树模型进行预测时,在决策树模型的内部节点处用某一属性值进行判断,根据判断结果决定进入哪个分支节点,直到到达叶节点处,得到分类结果。针对数据集样本不平衡(正例远远少于负例)的特点,在训练时对样本权重进行平衡,增加正样本的权重,减小负样本的权重。
S61,通过特征选择,从所有实体属性中筛选出跟分类结果具有较高相关性的属性特征。
S62,从决策树模型的根节点出发,对于每一种特征,根据该特征将一个标签集划分为两个。遍历每种特征对应的所有划分方式,对每种划分方式,分别计算其划分后得到的两个标签集合的GINI不纯度;GINI不纯度用以衡量集合的混杂程度,对于一个包含了J个类别的集合G,其GINI不纯度的计算公式为:
其中IG为集合G的GINI不纯度,pi为第i个类别在集合G中出现的频率,且有1≤i≤J。划分方式的GINI不纯度为其划分出的两个标签集合GINI不纯度,按照标签集合所包含的元素数量为权重,对所有标签集合进行加权求和后得的平均值。选取GINI不纯度最小的划分方式作为对该实体属性的最佳划分。
S63,选择最佳划分对应的特征作为节点特征,根据该特征对应的划分方式建立子节点。
S64,对每个子节点使用步骤S62中方式,生成新的子节点,直到子节点对应特征的最佳划分的GINI不纯度大于于某一阈值或者步骤S63中没有特征可以选择为止,从而到达叶节点处,得到分类结果,并确保每个叶节点都对应一种分类结果。
利用决策树模型进行预测时,对于一条新实体数据,从根节点开始,用该节点对应的特征,得到对实体属性的最佳划分,根据最佳划分决定预测值所进入的分支节点,直到到达叶节点处,得到分类结果。
针对数据集样本不平衡(正例远远少于负例)的特点,在训练时对样本权重进行平衡,增加正样本的权重,减小负样本的权重。
在利用决策树模型,根据属性相似度判断不同实体是否匹配时,数据集X为S5步骤计算出的相似度数据,标签值y为S1步骤人工标注的对齐数据,其格式如表1所示。
表1训练数据集格式表
为了定量的评价我们所提出的知识图谱融合技术,我们设计了一个无人机实体对齐任务,我们从多个数据源提取知识图谱,手工提取出其中的对齐实体,从中按照1:10的比例随机选取正样本对(对齐实体)和负样本对(不对齐实体),采取5折交叉检验之后的F1值作为评价指标。
表2不同方法技术指标展示
编号 | 文本相似度计算方法 | f1值 |
1 | 余弦相似度(字向量) | 0.7642 |
2 | 余弦相似度(词向量) | 0.8924 |
3 | 余弦相似度(词向量+字向量) | 0.7822 |
4 | Levenstein距离 | 0.8578 |
5 | Jaro-Winkler距离 | 0.8347 |
6 | Levenstein距离+余弦相似度(词向量+字向量) | 0.9224 |
7 | Jaro-Winkler距离+余弦相似度(词向量+字向量) | 0.8962 |
8 | Jaro-Winkler距离+余弦相似度(词向量) | 0.9005 |
9 | Levenstein距离+余弦相似度(词向量) | 0.9410 |
如表2所示,实验结果表明在使用Jaro-Winkler距离+词向量余弦相似度,Levenstein距离+词向量余弦相似度+字向量余弦相似度,Levenstein距离+词向量余弦相似度作为文本相似度计算方法时,均可以在5折交叉检验中达到超过0.9的平均f1值。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (7)
1.一种基于实体属性相似度的知识图谱数据融合方法,其特征在于,其具体包括:
S1,获取要进行融合的多个知识图谱数据;
从若干个网络数据源中利用网络爬虫技术爬取数据文件,并从中提取知识图谱数据,对提取的知识图谱数据,以实体、关系、实体及实体、属性、属性值的三元组形式进行储存,并将提取的知识图谱数据转化为实体-属性的结构化数据集D,即:
D={e1,e2,...eT},
结构化数据集D中的每条实体数据的属性信息遵从同一范式,即存在映射1≤i≤T,1≤j≤n,Aj表示所有实体的第j个统一属性值,表示第i个实体的第j个属性;对所有指向同一个实体的数据进行标注,得到用于训练和测试的数据,构建映射ρ,当且仅当ei,ej指向同一实体时,其满足ρ(ei)=ρ(ej),ei,ej分别表示结构化数据集D中的第i个实体数据和第j个实体数据;
S2,利用词向量余弦相似度对实体属性进行去重;
S21,利用word2vec算法,获得每个实体属性名称文本的词向量表示;
S22,对实体属性名称文本进行分块;
S23,对步骤S22分块后的属性数据,筛选出重复的属性数据,实现属性去重;
S3,对实体名称进行统一;
利用网络百科维护的共指页面,获取到实体的别名信息;在获得实体的别名信息后,遍历所有实体名称,将所有实体名称统一为实体常用名;
S4,对实体属性值进行简化,其具体包括:
S41,当实体属性值为文本属性值时,构建文本属性值的正则表达式,再提取文本属性值的实体型号和代号,再去除文本属性值中的冗余部分,以对文本属性值进行简化;
S42,当实体属性值为数值属性值时,构建数值属性值的正则表达式,提取数值属性值的数值大小和单位信息,对单位信息进行换算统一;
S5,针对不同实体属性值,采用相应的相似度函数进行相似度计算;
步骤S4对实体属性值进行简化后,得到的实体属性分为三类,分别是数值属性、文本属性和布尔值属性,针对这三类属性采用相应的相似度函数进行相似度计算;
S6,训练决策树模型,根据实体各个属性相似度,采用训练好的平衡样本权重的决策树模型作为匹配器模型,判断不同实体是否匹配;
所述的步骤S5,其具体包括,
S51,计算数值属性相似度;
S52,计算文本属性相似度;文本属性相似度的计算方法包括基于词向量和字向量的方法和基于编辑距离的方法;
所述的基于词向量和字向量的方法,先将实体属性的文本数据进行分词,再将每个词用一个预训练好的向量进行表示,整条文本数据的向量表示通过对其包含的所有词的向量表示求平均得到,通过对两条文本数据的向量表示求方向余弦,得到文本属性的相似度;
所述的基于编辑距离的方法,是指将两个字符串之间,由一个字符串转成另一个字符串所需的最少编辑操作次数,作为文本属性的相似度;
假设两个实体属性的文本数据分别为s1,s2,词嵌入操作为emb,则其基于词向量和字向量方法的相似度S12定义为
S53,计算实体类别属性相似度;
2.如权利要求1所述的基于实体属性相似度的知识图谱数据融合方法,其特征在于,
所述的步骤S22,在获得了实体属性名称文本的词向量表示后,计算任意两个实体属性的欧式距离,再对实体属性进行聚类,其具体步骤为:
S221,选择初始化的k个实体属性作为初始的聚类中心,初始的k个聚类中心分别用c1,...,ck表示;
S222,对于第l个聚类中心cl,其所对应的第l个类别记为集合Classl,对于任意一个实体属性的词向量表示,计算其到每个聚类中心的距离,并根据计算得到的距离,将实体属性划分到与其距离最小的聚类中心所对应的类别中;
S223,对于每个聚类中心,将聚类中心更新为其对应类别中包含的所有实体属性的词向量表示的平均值,该过程表示为:x为该类别中包含的实体属性的词向量表示,|Classl|表示集合Classl中所包含的实体属性的数量;
S224,重复步骤S222、S223的两步操作,直到达到终止条件后终止分块过程,终止条件为,经过一定轮次后,聚类中心没有发生变化。
3.如权利要求2所述的基于实体属性相似度的知识图谱数据融合方法,其特征在于,步骤S224中所述的一定轮次为500轮。
4.如权利要求1所述的基于实体属性相似度的知识图谱数据融合方法,其特征在于,
所述的共指页面,是网络百科中进行维护的用以将表述不同,但实际内容一致的搜索请求重定向至同一页面的一种页面。
5.如权利要求1所述的基于实体属性相似度的知识图谱数据融合方法,其特征在于,
步骤S52所述的所需的最少编辑操作次数,通过动态规划方法进行求解;Levenstein距离和Jaro-Winkler距离是两种编辑距离的定义方式。
6.如权利要求1所述的基于实体属性相似度的知识图谱数据融合方法,其特征在于,
所述的步骤S6,其具体步骤包括,
S61,通过实体属性特征选择,从所有实体属性中筛选出跟分类结果的相关性超过一定阈值的实体属性特征;
S62,从决策树模型的根节点出发,对于每一种属性特征,根据该属性特征的特性将一个标签集划分为两个;遍历每种特征对应的所有划分方式,对每种划分方式,分别计算其划分一个标签集后得到的两个标签集合的GINI不纯度;GINI不纯度用以衡量集合的混杂程度,对于一个包含了J个标签类别的集合G,其GINI不纯度的计算公式为:
其中IG为集合G的GINI不纯度,pi为第i个标签类别在集合G中出现的频率,且有1≤i≤J;划分方式的GINI不纯度为其划分出的两个标签集合的GINI不纯度,按照每个标签集合所包含的元素数量为权重,对所有标签集合进行加权求和后得的平均值;选取GINI不纯度最小的划分方式作为对该实体属性特征的最佳划分;
S63,选择最佳划分对应的实体属性特征作为子节点的节点特征,根据该节点特征对应的划分方式建立子节点;
S64,对每个子节点使用步骤S62和S63中的方式,生成新的子节点,直到子节点的节点特征对应的最佳划分方式的GINI不纯度大于某一阈值或者步骤S63中没有实体属性特征可选择为止,从而到达叶节点处,得到分类结果,并确保每个叶节点都对应一种分类结果。
7.如权利要求1所述的基于实体属性相似度的知识图谱数据融合方法,其特征在于,
在利用决策树模型,根据属性相似度判断不同实体是否匹配时,数据集为S5步骤计算出的相似度数据,标签值为对步骤S1中获取知识图谱数据进行标注后得到的对齐数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111044230.4A CN113722509B (zh) | 2021-09-07 | 2021-09-07 | 一种基于实体属性相似度的知识图谱数据融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111044230.4A CN113722509B (zh) | 2021-09-07 | 2021-09-07 | 一种基于实体属性相似度的知识图谱数据融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113722509A CN113722509A (zh) | 2021-11-30 |
CN113722509B true CN113722509B (zh) | 2022-03-01 |
Family
ID=78682196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111044230.4A Active CN113722509B (zh) | 2021-09-07 | 2021-09-07 | 一种基于实体属性相似度的知识图谱数据融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113722509B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113886535B (zh) * | 2021-09-18 | 2022-07-08 | 前海飞算云创数据科技(深圳)有限公司 | 基于知识图谱的问答方法、装置、存储介质及电子设备 |
CN114564636B (zh) * | 2021-12-29 | 2024-06-25 | 东方财富信息股份有限公司 | 一种金融信息搜索中台的召回排序算法和层叠式技术架构 |
CN116226541B (zh) * | 2023-05-11 | 2023-07-28 | 湖南工商大学 | 一种基于知识图谱的网络热点信息推荐方法、系统及设备 |
CN116702745A (zh) * | 2023-06-14 | 2023-09-05 | 上交所技术有限责任公司 | 一种基于语义匹配模型的启发式实体对齐方法 |
CN116561436B (zh) * | 2023-07-10 | 2023-09-29 | 江苏数兑科技有限公司 | 一种基于知识图谱的数据需求匹配方法 |
CN116737967B (zh) * | 2023-08-15 | 2023-11-21 | 中国标准化研究院 | 一种基于自然语言的知识图谱构建和完善系统及方法 |
CN117828539B (zh) * | 2024-03-06 | 2024-05-24 | 昆明智合力兴信息系统集成有限公司 | 数据智能融合分析系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886573A (zh) * | 2017-01-19 | 2017-06-23 | 博康智能信息技术有限公司 | 一种图像检索方法及装置 |
CN107977670A (zh) * | 2017-10-09 | 2018-05-01 | 中国电子科技集团公司第二十八研究所 | 决策树和贝叶斯算法的突发事件分类分级方法、装置及系统 |
CN108595708A (zh) * | 2018-05-10 | 2018-09-28 | 北京航空航天大学 | 一种基于知识图谱的异常信息文本分类方法 |
CN110162591A (zh) * | 2019-05-22 | 2019-08-23 | 南京邮电大学 | 一种面向数字教育资源的实体对齐方法及系统 |
CN110197197A (zh) * | 2019-04-15 | 2019-09-03 | 贵州电网有限责任公司 | 一种基于文本相似度改进的电网档案相似度计算方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699663B (zh) * | 2013-12-27 | 2017-02-08 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
WO2018119684A1 (zh) * | 2016-12-27 | 2018-07-05 | 深圳前海达闼云端智能科技有限公司 | 一种图像识别系统及图像识别方法 |
CN106777331A (zh) * | 2017-01-11 | 2017-05-31 | 北京航空航天大学 | 知识图谱生成方法及装置 |
CN107943940A (zh) * | 2017-11-23 | 2018-04-20 | 网易(杭州)网络有限公司 | 数据处理方法、介质、系统和电子设备 |
CA3029372A1 (en) * | 2018-01-09 | 2019-07-09 | Comcast Cable Communications, Llc | Beam selection in beam failure recovery request retransmission |
CN109446341A (zh) * | 2018-10-23 | 2019-03-08 | 国家电网公司 | 知识图谱的构建方法及装置 |
CN110277167A (zh) * | 2019-05-31 | 2019-09-24 | 南京邮电大学 | 基于知识图谱的慢性非传染性疾病风险预测系统 |
CN110765276A (zh) * | 2019-10-21 | 2020-02-07 | 北京明略软件系统有限公司 | 知识图谱中的实体对齐方法及装置 |
-
2021
- 2021-09-07 CN CN202111044230.4A patent/CN113722509B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886573A (zh) * | 2017-01-19 | 2017-06-23 | 博康智能信息技术有限公司 | 一种图像检索方法及装置 |
CN107977670A (zh) * | 2017-10-09 | 2018-05-01 | 中国电子科技集团公司第二十八研究所 | 决策树和贝叶斯算法的突发事件分类分级方法、装置及系统 |
CN108595708A (zh) * | 2018-05-10 | 2018-09-28 | 北京航空航天大学 | 一种基于知识图谱的异常信息文本分类方法 |
CN110197197A (zh) * | 2019-04-15 | 2019-09-03 | 贵州电网有限责任公司 | 一种基于文本相似度改进的电网档案相似度计算方法 |
CN110162591A (zh) * | 2019-05-22 | 2019-08-23 | 南京邮电大学 | 一种面向数字教育资源的实体对齐方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113722509A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113722509B (zh) | 一种基于实体属性相似度的知识图谱数据融合方法 | |
CN105469096B (zh) | 一种基于哈希二值编码的特征袋图像检索方法 | |
CN109960763B (zh) | 基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法 | |
Nezhadi et al. | Ontology alignment using machine learning techniques | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN111931505A (zh) | 一种基于子图嵌入的跨语言实体对齐方法 | |
Watanabe et al. | A new pattern representation scheme using data compression | |
CN113326377A (zh) | 一种基于企业关联关系的人名消歧方法及系统 | |
CN111581368A (zh) | 一种基于卷积神经网络的面向智能专家推荐的用户画像方法 | |
CN112785015A (zh) | 基于案例推理的装备故障诊断方法 | |
CN115221387A (zh) | 一种基于深度神经网络的企业信息整合方法 | |
CN113901224A (zh) | 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置 | |
Gorodetsky et al. | Feature extraction for machine learning: logic-probabilistic approach | |
CN114168733B (zh) | 一种基于复杂网络的法规检索方法及系统 | |
CN114429140A (zh) | 一种基于相关图信息进行因果推断的案由认定方法及系统 | |
Li et al. | POI representation learning by a hybrid model | |
Zhai et al. | Deep product quantization for large-scale image retrieval | |
Drobics et al. | Mining clusters and corresponding interpretable descriptions–a three–stage approach | |
Zheng | Individualized Recommendation Method of Multimedia Network Teaching Resources Based on Classification Algorithm in a Smart University | |
CN111046191A (zh) | 一种电力领域语义增强方法和装置 | |
CN112015854A (zh) | 一种基于自组织映射神经网络的异构数据属性关联算法 | |
CN114840509B (zh) | 一种基于智能过滤的电力数据关联查询的方法及装置 | |
van Heerden | Self-organizing feature maps for exploratory data analysis and data mining: A practical perspective | |
CN110059194B (zh) | 一种融合表示学习和分治策略的大规模本体合并方法 | |
Moskalenko | DEVELOPMENT OF THE METHOD OF UNSUPERVISED TRAINING OF CONVOLUTIONAL NEURAL NETWORKS BASED ON NEURAL GAS MODIFICATION |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |