CN111460155B - 一种基于知识图谱的信息可信度评估方法及装置 - Google Patents

一种基于知识图谱的信息可信度评估方法及装置 Download PDF

Info

Publication number
CN111460155B
CN111460155B CN202010245428.8A CN202010245428A CN111460155B CN 111460155 B CN111460155 B CN 111460155B CN 202010245428 A CN202010245428 A CN 202010245428A CN 111460155 B CN111460155 B CN 111460155B
Authority
CN
China
Prior art keywords
target
triplet
vector
sample
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010245428.8A
Other languages
English (en)
Other versions
CN111460155A (zh
Inventor
李小勇
李昀峰
葛悦琴
蔡斌思
雷铭鉴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202010245428.8A priority Critical patent/CN111460155B/zh
Publication of CN111460155A publication Critical patent/CN111460155A/zh
Application granted granted Critical
Publication of CN111460155B publication Critical patent/CN111460155B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种基于知识图谱的信息可信度评估方法及装置,方法包括:获取待评估的目标信息,从目标信息中提取目标三元组;依次使用预先生成的知识图谱中包含的N个关系替换目标三元组中的目标关系,得到N个替换三元组;基于预先训练完成的向量表示模型,将每个替换三元组中包含的头实体、关系以及尾实体分别转换为头实体向量、关系向量以及尾实体向量;基于替换三元组的头实体向量、关系向量以及尾实体向量,计算替换三元组的曼哈顿距离;根据计算得到的曼哈顿距离,对替换三元组和目标三元组进行排序;根据计算得到的曼哈顿距离,以及排序结果,计算目标三元组的可信度评分。能够适用于大数据环境,且提高信息评估的准确度。

Description

一种基于知识图谱的信息可信度评估方法及装置
技术领域
本发明涉及大数据分析技术领域,特别是涉及一种基于知识图谱的信息可信度评估方法及装置。
背景技术
信息可信评估泛指在网络环境下,利用多种知识评估技术相互结合,达到判断信息真伪的方式。在当今开放的网络环境下,信息呈现数据体量大、数据类型复杂多样、有效信息密度低、时效性高等特征,传统的可信评估方法对于大数据环境的适应能力越来越弱,对碎片化、异质性、多元性的信息提取和评估越来越难,因此如何更为高效合理的整合信息并进行准确的可信评估成为一个亟待解决的问题。
传统的信息可信评估方法大致包括基于贝叶斯估计的评估方法、基于D-S证据理论的评估方法等。
基于贝叶斯估计的评估方法考虑到不同数据来源的知识质量不尽相同,提供了一种计算假设概率的方法,基于假设的先验概率,给定假设下观察到的不同知识的概率以及观察到的知识本身而得出。但其必须满足不同来源的信息之间的观测相互独立且先验概率可预知,在大数据环境下很难实现。
基于D-S证据理论的方法根据数据源提供的知识和先验信息,利用数据挖掘手段,提取不同观测结果的信任函数,基于Dempster证据组合规则,对观测结果的信任函数进行融合,得到基础概率分配,选择具有最大支持度的假设作为最优判断,从而选择认为正确的信息。该方法同样要求参与评估的信息源相互独立,且时间复杂度随信息源数目的增加呈指数级增长,难以高效处理大规模信息的评估问题。
可见,现有的信息可信度评估方法难以适用于大数据环境,评估结果的鲁棒性较低,进而导致评估准确度较低。
发明内容
本发明实施例的目的在于提供一种基于知识图谱的信息可信度评估方法及装置,以适应于大数据环境,提高信息可信度评估的准确度。具体技术方案如下:
为实现上述目的,本发明实施例提供了一种基于知识图谱的信息可信度评估方法,所述方法包括:
获取待评估的目标信息,从所述目标信息中提取目标三元组,所述目标三元组包括:目标头实体、目标关系以及目标尾实体;
依次使用预先生成的知识图谱中包含的N个关系替换所述目标三元组中的目标关系,得到N个替换三元组,其中N为正整数;
基于预先训练完成的向量表示模型,将每个替换三元组中包含的头实体、关系以及尾实体分别转换为头实体向量、关系向量以及尾实体向量,并将所述目标三元组中包含的目标头实体、目标关系以及目标尾实体分别转换为目标头实体向量、目标关系向量以及目标尾实体向量;
基于所述替换三元组的头实体向量、关系向量以及尾实体向量,计算所述替换三元组的曼哈顿距离,并基于所述目标三元组的目标头实体向量、目标关系向量以及目标尾实体向量,计算所述目标三元组的曼哈顿距离;
根据计算得到的曼哈顿距离,对所述替换三元组和所述目标三元组进行排序;
根据计算得到的曼哈顿距离,以及排序结果,计算所述目标三元组的可信度评分。
可选的,按照如下步骤训练所述向量表示模型:
获取样本三元组;
初始化所述样本三元组中每个样本头实体,样本关系以及样本尾实体的向量表示;
随机替换每个样本三元组中的样本头实体,样本关系或样本尾实体,得到受损三元组;其中,替换前后的样本头实体,样本关系或样本尾实体具有相同的属性标签;
依次判断每个受损三元组是否与所述样本三元组重合,若是,则将该受损三元组剔除;
基于替换前的样本三元组以及替换后得到的受损三元组,以及预设损失函数,计算损失值;
根据所述损失值的波动幅度确定当前学习率;
以当前学习率为权重,基于随机梯度下降法,调整所述样本头实体,样本关系以及样本尾实体的向量表示,直到所述向量表示模型收敛。
可选的,所述预设损失函数为:
其中,L表示损失值,Tbatch表示样本三元组和受损三元组的集合,γ表示预设参数,h表示样本头实体向量,r表示样本关系向量,t表示样本尾实体向量,h′表示损失三元组中的头实体向量,r′表示损失三元组中的关系向量,t′表示损失三元组中的尾实体向量,d(·)表示曼哈顿距离;[·]+表示取正值运算。
可选的,所述根据计算得到的曼哈顿距离,以及排序结果,计算所述目标三元组的可信度评分的步骤,包括:按照如下公式,计算所述目标三元组的可信度评分:
其中,Cr表示所述目标三元组的可信度评分,Rankr表示所述目标三元组的排序序号,Rankmax表示最大排序序号,Dmin表示最小曼哈顿距离,Dr表示所述目标三元组的曼哈顿距离。
为实现上述目的,本发明实施例还提供了一种基于知识图谱的信息可信度评估装置,所述装置包括:
获取模块,用于获取待评估的目标信息,从所述目标信息中提取目标三元组,所述目标三元组包括:目标头实体、目标关系以及目标尾实体;
替换模块,用于依次使用预先生成的知识图谱中包含的N个关系替换所述目标三元组中的目标关系,得到N个替换三元组,其中N为正整数;
转换模块,用于基于预先训练完成的向量表示模型,将每个替换三元组中包含的头实体、关系以及尾实体分别转换为头实体向量、关系向量以及尾实体向量,并将所述目标三元组中包含的目标头实体、目标关系以及目标尾实体分别转换为目标头实体向量、目标关系向量以及目标尾实体向量;
第一计算模块,用于基于所述替换三元组的头实体向量、关系向量以及尾实体向量,计算所述替换三元组的曼哈顿距离,并基于所述目标三元组的目标头实体向量、目标关系向量以及目标尾实体向量,计算所述目标三元组的曼哈顿距离;
排序模块,用于根据计算得到的曼哈顿距离,对所述替换三元组和所述目标三元组进行排序;
第二计算模块,用于根据计算得到的曼哈顿距离,以及排序结果,计算所述目标三元组的可信度评分。
可选的,所述装置还包括训练模块,所述训练模块,用于按照如下步骤训练所述向量表示模型:
获取样本三元组;
初始化所述样本三元组中每个样本头实体,样本关系以及样本尾实体的向量表示;
随机替换每个样本三元组中的样本头实体,样本关系或样本尾实体,得到受损三元组;其中,替换前后的样本头实体,样本关系或样本尾实体具有相同的属性标签;
依次判断每个受损三元组是否与所述样本三元组重合,若是,则将该受损三元组剔除;
基于替换前的样本三元组以及替换后得到的受损三元组,以及预设损失函数,计算损失值;
根据所述损失值的波动幅度确定当前学习率;
以当前学习率为权重,基于随机梯度下降法,调整所述样本头实体,样本关系以及样本尾实体的向量表示,直到所述向量表示模型收敛。
可选的,所述预设损失函数为:
其中,L表示损失值,Tbatch表示样本三元组和受损三元组的集合,γ表示预设参数,h表示样本头实体向量,r表示样本关系向量,t表示样本尾实体向量,h′表示损失三元组中的头实体向量,r′表示损失三元组中的关系向量,t′表示损失三元组中的尾实体向量,d(·)表示曼哈顿距离;[·]+表示取正值运算。
可选的,所述第二计算模块,具体用于:按照如下公式,计算所述目标三元组的可信度评分:
其中,Cr表示所述目标三元组的可信度评分,Rankr表示所述目标三元组的排序序号,Rankmax表示最大排序序号,Dmin表示最小曼哈顿距离,Dr表示所述目标三元组的曼哈顿距离。
为实现上述目的,本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线;其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一方法步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法步骤。
应用本发明实施例提供的基于知识图谱的信息可信度评估方法及装置,获取待评估的目标信息,从目标信息中提取目标三元组,目标三元组包括:目标头实体、目标关系以及目标尾实体;依次使用预先生成的知识图谱中包含的N个关系替换目标三元组中的目标关系,得到N个替换三元组;基于预先训练完成的向量表示模型,将每个替换三元组中包含的头实体、关系以及尾实体分别转换为头实体向量、关系向量以及尾实体向量,并将目标三元组中包含的目标头实体、目标关系以及目标尾实体分别转换为目标头实体向量、目标关系向量以及目标尾实体向量;基于替换三元组的头实体向量、关系向量以及尾实体向量,计算替换三元组的曼哈顿距离;并基于目标三元组的目标头实体向量、目标关系向量以及目标尾实体向量,计算目标三元组的曼哈顿距离;根据计算得到的曼哈顿距离,对替换三元组和目标三元组进行排序;根据计算得到的曼哈顿距离,以及排序结果,计算目标三元组的可信度评分。可见,通过大数据环境获取的信息构建包含三元组的知识图谱,并预先训练向量表示模型,通过三元组的头实体向量、关系向量和尾实体向量计算曼哈顿距离,再根据曼哈顿距离以及排序结果计算可信度评分。能够适用于大数据环境,且提高信息评估的准确度。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于知识图谱的信息可信度评估方法的一种流程示意图;
图2为本发明实施例提供的知识图谱的一种示意图;
图3为本发明实施例提供的训练向量表示模型的一种流程示意图;
图4为本发明实施例提供的基于知识图谱的信息可信度评估装置的一种结构示意图;
图5为本发明实施例提供的电子设备的一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有的信息可信度评估无法适应于大数据环境,且评估结果不够准确的技术问题,本发明实施例提供了一种基于知识图谱的信息可信度评估方法、装置、电子设备及计算机可读存储介质。
参见图1,图1为本发明实施例提供的基于知识图谱的信息可信度评估方法的一种流程示意图,方法包括以下步骤:
S101:获取待评估的目标信息,从目标信息中提取目标三元组,目标三元组包括:目标头实体、目标关系以及目标尾实体。
本发明实施例中,目标信息可以是包含“主语”、“谓语”和“宾语”的一句话,本发明的目的是为了评估目标信息的可信度。
首先,可以从目标信息中提取目标三元组,目标三元组包括:目标头实体、目标关系以及目标尾实体。本领域技术人员可以理解,以三元组来表示句子信息是一种常用方式。从信息中提取三元组的过程也可以参见相关技术。
举例来讲,“中国的首都是北京”这条信息中,“中国”是头实体,“北京”是尾实体,“首都”表示了“中国”和“北京”关系,因此是“关系”。
S102:依次使用预先生成的知识图谱中包含的N个关系替换目标三元组中的目标关系,得到N个替换三元组。
本发明实施例中,知识图谱是预先构建的。可以预先从开放的网络环境中获取大量原始信息,从原始信息中抽取三元组。再将抽取到的三元组进行整合,得到包含所有三元组的知识图谱。
具体的,本发明实施例中,可以通过以下两种方式从开放的网络环境中获取三元组数据:1)一种是从网页、论坛等获取半结构化和非结构化数据,再通过统一资源定位符(Uniform Resource Locator,URL)映射和文档对象模型(Document Object Model,DOM)解析等方式,得到三元组数据。2)另一种方式是直接从开源知识库或数据站点获取结构化数据,例如直接从Freebase中获取三元组数据,其中Freebase是由元数据组成的大型合作知识库。
进一步的,将所获得的三元组整合在一起,构成三元组形式的知识图谱。
举例来讲,可以参见图2,图2为本发明实施例提供的知识图谱的一种示意图。如图2所示,知识图谱中包含多个三元组,其中一个三元组的头实体可以为另一个三元组的尾实体。图2仅作为一个示例,包含的三元组数目较少。
本发明实施例中,可以将从开放网络环境中提取的所有三元组整合在一起,形成图2所示的知识图谱。
本发明实施例中,可以使用知识图谱中包含的各个关系替换目标三元组中的目标关系,得到替换三元组。
举例来讲,使用关系“直辖市”替换上例中的关系“首都”,即可得到包含头实体“中国”、尾实体“北京”以及关系“直辖市”的替换三元组。
为便于理解,设采用了N个关系进行替换,则得到N个替换三元组。其中,N为正整数。可以根据实际情况设置N值,当然,为了提高准确度,也可以取知识图谱中包含的所有关系进行替换。
S103:基于预先训练完成的向量表示模型,将每个替换三元组中包含的头实体、关系以及尾实体分别转换为头实体向量、关系向量以及尾实体向量,并将目标三元组中包含的目标头实体、目标关系以及目标尾实体分别转换为目标头实体向量、目标关系向量以及目标尾实体向量。
本发明实施例中,向量表示模型可以将实体与关系映射为向量形式。向量表示模型是预先训练的,具体训练过程可以参见下文,在此不赘述。
具体的,针对每个替换三元组,可以将替换三元组中的头实体转换为头实体向量,将关系转换为关系向量,将尾实体转换为尾实体向量。
针对目标三元组,将目标头实体转换为目标头实体向量,将目标关系转换为目标关系向量,将目标尾实体转换为目标尾实体向量。
S104:基于替换三元组的头实体向量、关系向量以及尾实体向量,计算替换三元组的曼哈顿距离,并基于目标三元组的目标头实体向量、目标关系向量以及目标尾实体向量,计算目标三元组的曼哈顿距离。
本发明实施例中,针对每个替换三元组,可以根据该替换三元组包含的头实体向量,关系向量以及尾实体向量,计算曼哈顿距离。其中,曼哈顿距离越小,则表示该替换三元组的可信度越高。
一种实施例中,可以通过计算头实体向量+关系向量-尾实体向量的值来计算曼哈顿距离。
相应的,基于同样的方式,计算目标三元组的曼哈顿距离。
S105:根据计算得到的曼哈顿距离,对替换三元组和目标三元组进行排序。
本发明实施例中,为了更准确的衡量三元组的可信度,可以按照曼哈顿距离从小到大的顺序,对替换三元组和目标三元组进行排序。
其中,替换三元组有N个,目标三元组有1个,按照曼哈顿距离的升序对这些三元组进行排序。
S106:根据计算得到的曼哈顿距离,以及排序结果,计算目标三元组的可信度评分。
本发明实施例中,可以综合曼哈顿距离以及排序结果,计算目标三元组的可信度评分。
曼哈顿距离越小,排序结果越靠前,则目标三元组的可信度评分越高。目标三元组的可信度评分即为目标信息的可信度评分。
应用本发明实施例提供的基于知识图谱的信息可信度评估方法,获取待评估的目标信息,从目标信息中提取目标三元组,目标三元组包括:目标头实体、目标关系以及目标尾实体;依次使用预先生成的知识图谱中包含的N个关系替换目标三元组中的目标关系,得到N个替换三元组;基于预先训练完成的向量表示模型,将每个替换三元组中包含的头实体、关系以及尾实体分别转换为头实体向量、关系向量以及尾实体向量,并将目标三元组中包含的目标头实体、目标关系以及目标尾实体分别转换为目标头实体向量、目标关系向量以及目标尾实体向量;基于替换三元组的头实体向量、关系向量以及尾实体向量,计算替换三元组的曼哈顿距离;并基于目标三元组的目标头实体向量、目标关系向量以及目标尾实体向量,计算目标三元组的曼哈顿距离;根据计算得到的曼哈顿距离,对替换三元组和目标三元组进行排序;根据计算得到的曼哈顿距离,以及排序结果,计算目标三元组的可信度评分。可见,通过大数据环境获取的信息构建包含三元组的知识图谱,并预先训练向量表示模型,通过三元组的头实体向量、关系向量和尾实体向量计算曼哈顿距离,再根据曼哈顿距离以及排序结果计算可信度评分。本发明实施例提供的信息可信度评估方法能够适用于大数据环境,且提高信息评估的准确度。
在本发明的一种实施例中,参见图3,可以按照如下步骤训练向量表示模型:
S301:获取样本三元组。
其中,样本三元组为多个,每个样本三元组可以包括样本头实体,样本关系和样本尾实体。样本三元组均对应真实信息。
S302:初始化样本三元组中每个样本实体,样本关系以及样本尾实体的向量表示。
本步骤为初始化过程,即对样本三元组中的样本头实体,样本关系以及样本尾实体随机初始化,得到向量表示形式。
S303:随机替换每个样本三元组中的样本头实体,样本关系或样本尾实体,得到受损三元组;其中,替换前后的样本头实体,样本关系或样本尾实体具有相同的属性标签。
本发明实施例中,可以采用负采样方式生成负样例,用于模型训练。具体的,为了对向量表示模型进行训练,可以随机替换样本三元组中的样本头实体,样本关系或样本尾实体,得到受损三元组。
传统的基于翻译的知识表示学习算法,对于负采样过程中的替换关系选择随机性过高,使得相关性高的关系之间的向量表示区分度较低,例如,采用传统方法训练的模型,“北京”与“天津”这种同类实体的向量表示较为接近,不利于后续知识可信度的评估。
为了改进传统知识表示学习算法中的不足,本发明实施例中,替换前后的样本头实体,样本关系或样本尾实体具有相同的属性标签,例如,对于“城市”标签的实体,只能使用其他“城市”标签的实体来替换,从而降低受损三元组的随机性,在完成训练后,同类实体的向量表示差异较大,便于区分,因而有利于知识可信度的评估。
S304:依次判断每个受损三元组是否与样本三元组重合,若是,则将该受损三元组剔除。
本发明实施例中,受损三元组是作为负样例参与训练过程的,然而,随机替换样本三元组中的样本头实体,样本关系或样本尾实体后,得到的受损三元组可能仍与样本三元组重合,因此可以依次判断每个受损三元组是否与样本三元组重合,若重合,说明该受损三元组不是负样例,应将其剔除,即该受损三元组不参与模型训练。
S305:基于替换前的样本三元组以及替换后得到的受损三元组,以及预设损失函数,计算损失值。
本发明实施例中,训练的最终目的是使得样本三元组中的头实体向量+关系向量-尾实体向量的值趋近于0,而受损三元组中的头实体向量+关系向量-尾实体向量的值尽可能大,进而将样本三元组与受损三元组最大化分隔开。
因此,可以将样本三元组和受损三元组的曼哈顿距离之间的差值,作为训练的损失函数。
在本发明的一种实施例中,损失函数可以为:
其中,L表示损失值,Tbatch表示样本三元组和受损三元组的集合,γ表示预设参数,h表示样本头实体向量,r表示样本关系向量,t表示样本尾实体向量,h′表示损失三元组中的头实体向量,r′表示损失三元组中的关系向量,t′表示损失三元组中的尾实体向量,d(·)表示曼哈顿距离;[·]+表示取正值运算,当[]内值为正值时,取正值运算结果为正值本身,当[]内值不为正值时,取正值运算结果为0。
S306:根据损失值的波动幅度确定当前学习率。
本发明实施例中,学习率表示向量的调整幅度。可以预先设置一个较大的学习率,作为初始的学习率。
在刚开始训练时,损失值较大,因此较大的学习率能够加快模型收敛速度,使得损失值迅速下降。
在每次迭代后,可以将当前损失值与上一次迭代的损失值作差,作为损失值的波动幅度。损失值的波动幅度决定当前学习率。在初始训练结果,损失值的波动幅度较大,学习率也较大;在经过一定迭代后,损失值的波动幅度逐渐变小,相应的,选择较小的学习率以获得精确的收敛结果。
S307:以当前学习率为权重,基于随机梯度下降法,调整样本头实体,样本关系以及样本尾实体的向量表示,直到向量表示模型收敛。
本发明实施例中,可以以随机梯度下降法调整样本头实体、样本关系以及样本尾实体的向量表示,且在调整向量时,以当前学习率为权重。若当前学习率较大,则向量调整的幅度也较大,反之调整幅度也较小。
在模型训练的每一轮迭代中,根据随机梯度下降法优化样本头实体、样本关系以及样本尾实体的向量表示,直到模型收敛。具体的,可以预设迭代次数,当达到预设迭代次数后,可认为模型收敛;也可以判断损失值是否小于预设阈值,若小于则模型收敛。
可见,本发明实施例中,在训练向量表示模型过程中,替换样本三元组中的样本头实体,样本关系或样本尾实体,得到受损三元组,替换前后的样本头实体,样本关系或样本尾实体具有相同的属性标签,从而使同类实体的向量表示差异较大,便于区分,有利于知识可信度的评估。此外,剔除了受损三元组中与样本三元组的重合部分,保证参与模型训练的受损三元组均为负样例,进一步提高了向量表示模型的精确度。
在本发明的一种实施例中,步骤S106:根据计算得到的曼哈顿距离,以及排序结果,计算目标三元组的可信度评分,具体可以为:按照如下公式计算目标三元组的可信度评分:
其中,Cr表示目标三元组的可信度评分,Rankr表示目标三元组的排序序号,Rankmax表示最大排序序号,Dmin表示最小曼哈顿距离,Dr表示目标三元组的曼哈顿距离。
可见,本发明实施例中,综合考虑曼哈顿距离和排序顺序,设计了可量化的可信度计算方式,相比于传统的二分类模型,能够更直观的体现目标信息的可信度。
本发明实施例中,还可以通过web界面展示最终评估结果。除了目标信息的可信度评估结果之外,还可以展示目标头实体、目标尾实体之间最有可能存在的关系、目标关系在总关系中的排序序号等。
基于相同的发明构思,根据上述基于知识图谱的信息可信度评估方法实施例,本发明实施例还提供了一种基于知识图谱的信息可信度评估装置,参见图4,可以包括以下模块:
获取模块401,用于获取待评估的目标信息,从目标信息中提取目标三元组,目标三元组包括:目标头实体、目标关系以及目标尾实体;
替换模块402,用于依次使用预先生成的知识图谱中包含的N个关系替换目标三元组中的目标关系,得到N个替换三元组;
转换模块403,用于基于预先训练完成的向量表示模型,将每个替换三元组中包含的头实体、关系以及尾实体分别转换为头实体向量、关系向量以及尾实体向量,并将目标三元组中包含的目标头实体、目标关系以及目标尾实体分别转换为目标头实体向量、目标关系向量以及目标尾实体向量;
第一计算模块404,用于基于替换三元组的头实体向量、关系向量以及尾实体向量,计算替换三元组的曼哈顿距离,并基于目标三元组的目标头实体向量、目标关系向量以及目标尾实体向量,计算目标三元组的曼哈顿距离;
排序模块405,用于根据计算得到的曼哈顿距离,对替换三元组和目标三元组进行排序;
第二计算模块406,用于根据计算得到的曼哈顿距离,以及排序结果,计算目标三元组的可信度评分。
在本发明的一种实施例中,在图4装置基础上,还可以包括训练模块,训练模型,用于按照如下步骤训练向量表示模型:
获取样本三元组;
初始化样本三元组中每个样本头实体,样本关系以及样本尾实体的向量表示;
随机替换每个样本三元组中的样本头实体,样本关系或样本尾实体,得到受损三元组;其中,替换前后的样本头实体,样本关系或样本尾实体具有相同的属性标签;
依次判断每个受损三元组是否与样本三元组重合,若是,则将该受损三元组剔除;
基于替换前的样本三元组以及替换后得到的受损三元组,以及预设损失函数,计算损失值;
根据损失值的波动幅度确定当前学习率;
以当前学习率为权重,基于随机梯度下降法,调整样本头实体,样本关系以及样本尾实体的向量表示,直到向量表示模型收敛。
在本发明的一种实施例中,预设损失函数为:
其中,L表示损失值,Tbatch表示样本三元组和受损三元组的集合,γ表示预设参数,h表示样本头实体向量,r表示样本关系向量,t表示样本尾实体向量,h′表示损失三元组中的头实体向量,r′表示损失三元组中的关系向量,t′表示损失三元组中的尾实体向量,d(·)表示曼哈顿距离;[·]+表示取正值运算。
在本发明的一种实施例中,第二计算模块406,具体可以用于:按照如下公式,计算目标三元组的可信度评分:
其中,Cr表示目标三元组的可信度评分,Rankr表示目标三元组的排序序号,Rankmax表示最大排序序号,Dmin表示最小曼哈顿距离,Dr表示目标三元组的曼哈顿距离。
应用本发明实施例提供的基于知识图谱的信息可信度评估装置,获取待评估的目标信息,从目标信息中提取目标三元组,目标三元组包括:目标头实体、目标关系以及目标尾实体;依次使用预先生成的知识图谱中包含的N个关系替换目标三元组中的目标关系,得到N个替换三元组;基于预先训练完成的向量表示模型,将每个替换三元组中包含的头实体、关系以及尾实体分别转换为头实体向量、关系向量以及尾实体向量,并将目标三元组中包含的目标头实体、目标关系以及目标尾实体分别转换为目标头实体向量、目标关系向量以及目标尾实体向量;基于替换三元组的头实体向量、关系向量以及尾实体向量,计算替换三元组的曼哈顿距离;并基于目标三元组的目标头实体向量、目标关系向量以及目标尾实体向量,计算目标三元组的曼哈顿距离;根据计算得到的曼哈顿距离,对替换三元组和目标三元组进行排序;根据计算得到的曼哈顿距离,以及排序结果,计算目标三元组的可信度评分。可见,通过大数据环境获取的信息构建包含三元组的知识图谱,并预先训练向量表示模型,通过三元组的头实体向量、关系向量和尾实体向量计算曼哈顿距离,再根据曼哈顿距离以及排序结果计算可信度评分。本发明实施例提供的信息可信度评估装置能够适用于大数据环境,且提高信息评估的准确度。
基于相同的发明构思,根据上述基于知识图谱的信息可信度评估方法实施例,本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现如下步骤:
获取待评估的目标信息,从目标信息中提取目标三元组,目标三元组包括:目标头实体、目标关系以及目标尾实体;
依次使用预先生成的知识图谱中包含的N个关系替换目标三元组中的目标关系,得到N个替换三元组;
基于预先训练完成的向量表示模型,将每个替换三元组中包含的头实体、关系以及尾实体分别转换为头实体向量、关系向量以及尾实体向量,并将目标三元组中包含的目标头实体、目标关系以及目标尾实体分别转换为目标头实体向量、目标关系向量以及目标尾实体向量;
基于替换三元组的头实体向量、关系向量以及尾实体向量,计算替换三元组的曼哈顿距离,并基于目标三元组的目标头实体向量、目标关系向量以及目标尾实体向量,计算目标三元组的曼哈顿距离;
根据计算得到的曼哈顿距离,对替换三元组和目标三元组进行排序;
根据计算得到的曼哈顿距离,以及排序结果,计算目标三元组的可信度评分。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
应用本发明实施例提供的电子设备,获取待评估的目标信息,从目标信息中提取目标三元组,目标三元组包括:目标头实体、目标关系以及目标尾实体;依次使用预先生成的知识图谱中包含的N个关系替换目标三元组中的目标关系,得到N个替换三元组;基于预先训练完成的向量表示模型,将每个替换三元组中包含的头实体、关系以及尾实体分别转换为头实体向量、关系向量以及尾实体向量,并将目标三元组中包含的目标头实体、目标关系以及目标尾实体分别转换为目标头实体向量、目标关系向量以及目标尾实体向量;基于替换三元组的头实体向量、关系向量以及尾实体向量,计算替换三元组的曼哈顿距离;并基于目标三元组的目标头实体向量、目标关系向量以及目标尾实体向量,计算目标三元组的曼哈顿距离;根据计算得到的曼哈顿距离,对替换三元组和目标三元组进行排序;根据计算得到的曼哈顿距离,以及排序结果,计算目标三元组的可信度评分。可见,通过大数据环境获取的信息构建包含三元组的知识图谱,并预先训练向量表示模型,通过三元组的头实体向量、关系向量和尾实体向量计算曼哈顿距离,再根据曼哈顿距离以及排序结果计算可信度评分。能够适用于大数据环境,且提高信息评估的准确度。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现上述任一基于知识图谱的信息可信度评估方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一基于知识图谱的信息可信度评估方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于基于知识图谱的信息可信度评估装置、电子设备及计算机可读存储介质、计算机程序产品实施例而言,由于其基本相似于基于知识图谱的信息可信度评估方法实施例,所以描述的比较简单,相关之处参见基于知识图谱的信息可信度评估方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种基于知识图谱的信息可信度评估方法,其特征在于,所述方法包括:
获取待评估的目标信息,从所述目标信息中提取目标三元组,所述目标三元组包括:目标头实体、目标关系以及目标尾实体;
依次使用预先生成的知识图谱中包含的N个关系替换所述目标三元组中的目标关系,得到N个替换三元组,其中N为正整数;
基于预先训练完成的向量表示模型,将每个替换三元组中包含的头实体、关系以及尾实体分别转换为头实体向量、关系向量以及尾实体向量,并将所述目标三元组中包含的目标头实体、目标关系以及目标尾实体分别转换为目标头实体向量、目标关系向量以及目标尾实体向量;
基于所述替换三元组的头实体向量、关系向量以及尾实体向量,计算所述替换三元组的曼哈顿距离,并基于所述目标三元组的目标头实体向量、目标关系向量以及目标尾实体向量,计算所述目标三元组的曼哈顿距离;
根据计算得到的曼哈顿距离,对所述替换三元组和所述目标三元组进行排序;
根据计算得到的曼哈顿距离,以及排序结果,计算所述目标三元组的可信度评分;
所述根据计算得到的曼哈顿距离,以及排序结果,计算所述目标三元组的可信度评分的步骤,包括:按照如下公式,计算所述目标三元组的可信度评分:
其中,Cr表示所述目标三元组的可信度评分,Rankr表示所述目标三元组的排序序号,Rankmax表示最大排序序号,Dmin表示最小曼哈顿距离,Dr表示所述目标三元组的曼哈顿距离。
2.根据权利要求1所述的方法,其特征在于,按照如下步骤训练所述向量表示模型:
获取样本三元组;
初始化所述样本三元组中每个样本头实体,样本关系以及样本尾实体的向量表示;
随机替换每个样本三元组中的样本头实体,样本关系或样本尾实体,得到受损三元组;其中,替换前后的样本头实体,样本关系或样本尾实体具有相同的属性标签;
依次判断每个受损三元组是否与所述样本三元组重合,若是,则将该受损三元组剔除;
基于替换前的样本三元组以及替换后得到的受损三元组,以及预设损失函数,计算损失值;
根据所述损失值的波动幅度确定当前学习率;
以当前学习率为权重,基于随机梯度下降法,调整所述样本头实体,样本关系以及样本尾实体的向量表示,直到所述向量表示模型收敛。
3.根据权利要求2所述的方法,其特征在于,所述预设损失函数为:
其中,L表示损失值,Tbatch表示样本三元组和受损三元组的集合,γ表示预设参数,h表示样本头实体向量,r表示样本关系向量,t表示样本尾实体向量,h′表示损失三元组中的头实体向量,r′表示损失三元组中的关系向量,t′表示损失三元组中的尾实体向量,d(·)表示曼哈顿距离,[·]+表示取正值运算。
4.一种基于知识图谱的信息可信度评估装置,其特征在于,所述装置包括:
获取模块,用于获取待评估的目标信息,从所述目标信息中提取目标三元组,所述目标三元组包括:目标头实体、目标关系以及目标尾实体;
替换模块,用于依次使用预先生成的知识图谱中包含的N个关系替换所述目标三元组中的目标关系,得到N个替换三元组,其中N为正整数;
转换模块,用于基于预先训练完成的向量表示模型,将每个替换三元组中包含的头实体、关系以及尾实体分别转换为头实体向量、关系向量以及尾实体向量,并将所述目标三元组中包含的目标头实体、目标关系以及目标尾实体分别转换为目标头实体向量、目标关系向量以及目标尾实体向量;
第一计算模块,用于基于所述替换三元组的头实体向量、关系向量以及尾实体向量,计算所述替换三元组的曼哈顿距离,并基于所述目标三元组的目标头实体向量、目标关系向量以及目标尾实体向量,计算所述目标三元组的曼哈顿距离;
排序模块,用于根据计算得到的曼哈顿距离,对所述替换三元组和所述目标三元组进行排序;
第二计算模块,用于根据计算得到的曼哈顿距离,以及排序结果,计算所述目标三元组的可信度评分;
所述第二计算模块,具体用于:按照如下公式,计算所述目标三元组的可信度评分:
其中,Cr表示所述目标三元组的可信度评分,Rankr表示所述目标三元组的排序序号,Rankmax表示最大排序序号,Dmin表示最小曼哈顿距离,Dr表示所述目标三元组的曼哈顿距离。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括训练模块,所述训练模块,用于按照如下步骤训练所述向量表示模型:
获取样本三元组;
初始化所述样本三元组中每个样本头实体,样本关系以及样本尾实体的向量表示;
随机替换每个样本三元组中的样本头实体,样本关系或样本尾实体,得到受损三元组;其中,替换前后的样本头实体,样本关系或样本尾实体具有相同的属性标签;
依次判断每个受损三元组是否与所述样本三元组重合,若是,则将该受损三元组剔除;
基于替换前的样本三元组以及替换后得到的受损三元组,以及预设损失函数,计算损失值;
根据所述损失值的波动幅度确定当前学习率;
以当前学习率为权重,基于随机梯度下降法,调整所述样本头实体,样本关系以及样本尾实体的向量表示,直到所述向量表示模型收敛。
6.根据权利要求5所述的装置,其特征在于,所述预设损失函数为:
其中,L表示损失值,Tbatch表示样本三元组和受损三元组的集合,γ表示预设参数,h表示样本头实体向量,r表示样本关系向量,t表示样本尾实体向量,h′表示损失三元组中的头实体向量,r′表示损失三元组中的关系向量,t′表示损失三元组中的尾实体向量,d(·)表示曼哈顿距离;[·]+表示取正值运算。
7.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-3任一所述的方法步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-3任一所述的方法步骤。
CN202010245428.8A 2020-03-31 2020-03-31 一种基于知识图谱的信息可信度评估方法及装置 Active CN111460155B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010245428.8A CN111460155B (zh) 2020-03-31 2020-03-31 一种基于知识图谱的信息可信度评估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010245428.8A CN111460155B (zh) 2020-03-31 2020-03-31 一种基于知识图谱的信息可信度评估方法及装置

Publications (2)

Publication Number Publication Date
CN111460155A CN111460155A (zh) 2020-07-28
CN111460155B true CN111460155B (zh) 2023-07-18

Family

ID=71682356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010245428.8A Active CN111460155B (zh) 2020-03-31 2020-03-31 一种基于知识图谱的信息可信度评估方法及装置

Country Status (1)

Country Link
CN (1) CN111460155B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112070402A (zh) * 2020-09-09 2020-12-11 深圳前海微众银行股份有限公司 基于图谱的数据处理方法、装置、设备及存储介质
CN112507130A (zh) * 2020-12-10 2021-03-16 东南大学 一种基于多源知识图谱的三元组可信评估方法
CN113220833A (zh) * 2021-05-07 2021-08-06 支付宝(杭州)信息技术有限公司 实体关联度的识别方法和装置
CN113159866A (zh) * 2021-05-13 2021-07-23 北京计算机技术及应用研究所 一种大数据环境下网络用户信任度评估模型构建方法
CN114297412B (zh) * 2022-03-09 2022-05-17 中国人民解放军国防科技大学 一种面向规则知识图谱的可信评估方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189945A (zh) * 2018-09-28 2019-01-11 武汉理工大学 一种基于可信度向量的知识图谱表示学习方法
CN109753570A (zh) * 2019-01-11 2019-05-14 中山大学 一种基于Horn逻辑与图神经网络的场景图谱向量化方法
CN109840283A (zh) * 2019-03-01 2019-06-04 东北大学 一种基于传递关系的本地自适应知识图谱优化方法
WO2019231105A1 (ko) * 2018-05-31 2019-12-05 한국과학기술원 트리플릿 기반의 손실함수를 활용한 순서가 있는 분류문제를 위한 딥러닝 모델 학습 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019231105A1 (ko) * 2018-05-31 2019-12-05 한국과학기술원 트리플릿 기반의 손실함수를 활용한 순서가 있는 분류문제를 위한 딥러닝 모델 학습 방법 및 장치
CN109189945A (zh) * 2018-09-28 2019-01-11 武汉理工大学 一种基于可信度向量的知识图谱表示学习方法
CN109753570A (zh) * 2019-01-11 2019-05-14 中山大学 一种基于Horn逻辑与图神经网络的场景图谱向量化方法
CN109840283A (zh) * 2019-03-01 2019-06-04 东北大学 一种基于传递关系的本地自适应知识图谱优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
毛晶晶.基于可信度向量和文本信息的知识图谱表示学习.《中国优秀硕士学位论文全文数据库 信息科技辑》.2019,全文. *

Also Published As

Publication number Publication date
CN111460155A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111460155B (zh) 一种基于知识图谱的信息可信度评估方法及装置
CN109145299B (zh) 一种文本相似度确定方法、装置、设备及存储介质
CN107590168B (zh) 用于关系推断的系统和方法
CN111462069B (zh) 目标对象检测模型训练方法、装置、电子设备及存储介质
JP6605022B2 (ja) 経験属性による体系化されていないデータのソースの分析、選定、及び取り込みのためのシステム及びプロセス
US20180210897A1 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
CN111090860A (zh) 一种基于深度学习的代码漏洞检测方法及装置
CN111340233A (zh) 机器学习模型的训练方法及装置、样本处理方法及装置
US11379527B2 (en) Sibling search queries
US10885593B2 (en) Hybrid classification system
CN115797735A (zh) 目标检测方法、装置、设备和存储介质
CN107786529B (zh) 网站的检测方法、装置及系统
CN111783812A (zh) 违禁图像识别方法、装置和计算机可读存储介质
CN112528703B (zh) 一种识别表格结构的方法、装置及电子设备
WO2023024578A1 (zh) 一种配置决策装置的方法、装置及相关设备
CN113656575B (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN115546815A (zh) 一种表格识别方法、装置、设备及存储介质
US11347928B2 (en) Detecting and processing sections spanning processed document partitions
CN110543634B (zh) 语料数据集的处理方法、装置、电子设备及存储介质
CN115964478A (zh) 网络攻击检测方法、模型训练方法及装置、设备及介质
CN112926608A (zh) 一种图像分类方法、装置、电子设备及存储介质
CN112800355A (zh) 新闻内容标签自动抽取方法及系统
CN113672783B (zh) 特征处理方法、模型训练方法及媒体资源处理方法
US20240153295A1 (en) Methods and Systems for Testing an Optical Character Recognition Model
CN115859964B (zh) 基于教育云平台的教育资源共享方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant