CN113254549B - 人物关系挖掘模型的训练方法、人物关系挖掘方法及装置 - Google Patents

人物关系挖掘模型的训练方法、人物关系挖掘方法及装置 Download PDF

Info

Publication number
CN113254549B
CN113254549B CN202110682820.3A CN202110682820A CN113254549B CN 113254549 B CN113254549 B CN 113254549B CN 202110682820 A CN202110682820 A CN 202110682820A CN 113254549 B CN113254549 B CN 113254549B
Authority
CN
China
Prior art keywords
embedding
entity
initial
quaternion
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110682820.3A
Other languages
English (en)
Other versions
CN113254549A (zh
Inventor
陈恺
李爱平
贾焰
周斌
王晔
涂宏魁
江荣
喻承
徐锡山
宋怡晨
赵晓娟
李晨晨
马锶霞
于晗
汪天翔
尚颖丹
林昌建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110682820.3A priority Critical patent/CN113254549B/zh
Publication of CN113254549A publication Critical patent/CN113254549A/zh
Application granted granted Critical
Publication of CN113254549B publication Critical patent/CN113254549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种人物关系挖掘模型的训练方法、人物关系挖掘方法及装置,训练方法包括:获取时空知识图谱;根据时空知识图谱的正样本进行随机采样,生成负样本,确定正样本和负样本的头实体初始嵌入、关系初始嵌入、尾实体初始嵌入和时间嵌入;对头实体初始嵌入和尾实体初始嵌入进行向量旋转,获得头实体四元数嵌入和尾实体四元数嵌入;将头实体初始嵌入和尾实体初始嵌入分别替换为对应的头实体四元数嵌入和尾实体四元数嵌入,获得处理后的正样本和处理后的负样本;采用处理后的正样本和处理后的负样本迭代训练人物关系挖掘模型至收敛。本发明的技术方案能够挖掘随时间变化而发生演变的实体间关系,并提高知识图谱的完整性。

Description

人物关系挖掘模型的训练方法、人物关系挖掘方法及装置
技术领域
本发明涉及知识图谱技术领域,具体而言,涉及一种人物关系挖掘模型的训练方法、人物关系挖掘方法及装置。
背景技术
知识图谱是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。其中,时空知识图谱是在实体中加入时空属性信息,能够实现对特定目标领域时空数据的管理和查询。时空知识图谱包括大量包含了时空信息的事实,每一个事实分别组成一个四元组(s,r,o,t),其包括头实体s、关系r、尾实体o和时间t。时空知识图谱通常存在链接缺失的问题,这限制了时空知识图谱的应用,为了尽可能的发挥时空知识图谱的功能,常需要对时空知识图谱进行补全,进一步扩展时空知识图谱,使时空知识图谱更加完整,以揭示实体之间的相互关系。
目前,常采用知识图谱嵌入的方法进行知识图谱补全,根据已知的实体和实体间关系去预测未知的实体和实体间关系,这些方法能关注到实体间静态的关系,但是很多实体之间的关系并不是一成不变的,例如人物之间的关系很多都会随着时间的变化而发生演变,而现有的知识图谱补全方法无法预测实体之间关系随时间的演变。
发明内容
本发明解决的问题是如何挖掘随时间变化而发生演变的实体间关系,提高知识图谱的完整性。
为解决上述问题,本发明提供一种人物关系挖掘模型的训练方法、人物关系挖掘方法、装置及存储介质。
第一方面,本发明提供了一种人物关系挖掘模型的训练方法,包括:
获取预先建立的关于人物关系的时空知识图谱,所述时空知识图谱包括多个正样本;
根据所述正样本进行随机采样,生成负样本,并分别确定各个所述正样本和各个所述负样本的头实体初始嵌入、关系初始嵌入、尾实体初始嵌入和时间嵌入;
根据所述时间嵌入分别对所述头实体初始嵌入和所述尾实体初始嵌入进行向量旋转,包括:将所述头实体初始嵌入左乘所述时间嵌入,并右乘所述时间嵌入的逆,获得头实体四元数嵌入,将所述尾实体初始嵌入左乘所述时间嵌入,并右乘所述时间嵌入的逆,获得尾实体四元数嵌入;
将所述正样本和所述负样本中的所述头实体初始嵌入和所述尾实体初始嵌入分别替换为对应的所述头实体四元数嵌入和所述尾实体四元数嵌入,获得处理后的正样本和处理后的负样本;
采用所述处理后的正样本和所述处理后的负样本迭代训练预先建立的人物关系挖掘模型至收敛。
可选地,所述采用所述处理后的正样本和所述处理后的负样本迭代训练预先建立的人物关系挖掘模型至收敛包括:
对所述尾实体四元数嵌入进行共轭运算,获得尾实体四元数嵌入的共轭嵌入;
将所述头实体四元数嵌入、所述尾实体四元数嵌入的共轭嵌入和所述关系初始嵌入输入人物关系挖掘模型的得分函数,采用所述得分函数分别对所述正样本和所述负样本打分,获得正样本的得分值和负样本的得分值;
将所述正样本的得分值和所述负样本的得分值输入人物关系挖掘模型的损失函数,通过最小化损失函数优化所述人物关系挖掘模型。
可选地,所述得分函数包括:
Figure 405804DEST_PATH_IMAGE001
其中,
Figure 322944DEST_PATH_IMAGE002
为样本
Figure 430578DEST_PATH_IMAGE003
的得分值,
Figure 825787DEST_PATH_IMAGE003
为任一正样本或负样本,
Figure 640159DEST_PATH_IMAGE004
表示
Figure 259359DEST_PATH_IMAGE005
时刻的所述头实体四元数嵌入,
Figure 526393DEST_PATH_IMAGE006
表示所述关系初始嵌入,
Figure 725293DEST_PATH_IMAGE007
表示
Figure 223532DEST_PATH_IMAGE005
时刻的所述尾实体四元数嵌入的共轭嵌入。
可选地,所述获取预先建立的关于人物关系的时空知识图谱之前,包括:
获取关于人物关系的初始数据;
对所述初始数据进行命名实体识别,获得实体,并对所述初始数据进行关系抽取,获得实体间的关系;
根据所述实体和所述实体间的关系构建所述时空知识图谱。
可选地,所述根据所述正样本进行随机采样包括:
对于任意一个所述正样本,从实体集中随机选择一个实体替换所述正样本的头实体或尾实体,获得一个所述负样本,其中,所述实体集包括所有的所述头实体和所述尾实体。
第二方面,本发明提供了一种人物关系挖掘方法,包括:
获取三个初始元素,所述初始元素包括第一人物、第二人物、关系和时间中的任意三个;
将缺失的元素对应的集合中的各个元素分别作为待定元素与三个所述初始元素组成四元组,其中,所述四元组包括所述第一人物、所述第二人物、所述关系和所述时间;
对各个所述四元组进行预处理,获得处理后的四元组;
将各个所述处理后的四元组分别输入训练好的人物关系挖掘模型,采用打分函数对各个所述处理后的四元组进行打分,确定各个所述待定元素的得分值,其中,所述人物关系挖掘模型采用如上所述的人物关系挖掘模型的训练方法训练得到;
根据各个所述待定元素的得分值确定挖掘的信息。
可选地,所述对各个所述四元组进行预处理包括:
分别确定各个所述四元组的头实体初始嵌入、关系初始嵌入、尾实体初始嵌入和时间嵌入;
根据所述时间嵌入分别对所述头实体初始嵌入和所述尾实体初始嵌入进行向量旋转,获得三维空间中的头实体四元数嵌入和尾实体四元数嵌入;
将所述四元组中的所述头实体初始嵌入和所述尾实体初始嵌入分别替换为对应的所述头实体四元数嵌入和所述尾实体四元数嵌入,获得处理后的四元组。
第三方面,本发明提供了一种人物关系挖掘模型的训练装置,包括:
获取模块,用于获取预先建立的关于人物关系的时空知识图谱,所述时空知识图谱包括多个正样本;
采样模块,用于根据所述正样本进行随机采样,生成负样本,并分别确定各个所述正样本和各个所述负样本的头实体初始嵌入、关系初始嵌入、尾实体初始嵌入和时间嵌入;
旋转模块,用于根据所述时间嵌入分别对所述头实体初始嵌入和所述尾实体初始嵌入进行向量旋转,包括:将所述头实体初始嵌入左乘所述时间嵌入,并右乘所述时间嵌入的逆,获得头实体四元数嵌入,将所述尾实体初始嵌入左乘所述时间嵌入,并右乘所述时间嵌入的逆,获得尾实体四元数嵌入;
替换模块,用于将所述正样本和所述负样本中的所述头实体初始嵌入和所述尾实体初始嵌入分别替换为对应的所述头实体四元数嵌入和所述尾实体四元数嵌入,获得处理后的正样本和处理后的负样本;
训练模块,用于采用所述处理后的正样本和所述处理后的负样本迭代训练预先建立的人物关系挖掘模型至收敛。
第四方面,本发明提供了一种信息挖掘装置,包括:
获取模块,用于获取三个初始元素,所述初始元素包括第一人物、第二人物、关系和时间中的任意三个;
配置模块,用于将缺失的元素对应的集合中的各个元素分别作为待定元素与三个所述初始元素组成四元组,其中,所述四元组包括所述第一人物、所述第二人物、所述关系和所述时间;
处理模块,用于对各个所述四元组进行预处理,获得处理后的四元组;
评分模块,用于将各个所述处理后的四元组分别输入训练好的人物关系挖掘模型,采用打分函数对各个所述处理后的四元组进行打分,确定各个所述待定元素的得分值,其中,所述人物关系挖掘模型采用如上所述的人物关系挖掘模型的训练方法训练得到;
输出模块,用于根据各个所述待定元素的得分值确定挖掘的信息。
第五方面,本发明提供了一种电子设备,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如上所述的人物关系挖掘模型的训练方法或如上所述的人物关系挖掘方法。
第六方面,本发明提供了一种计算机可读存储介质,所述存储介质上存储由计算机程序,当所述计算机程序被处理器执行时,实现如上所述的人物关系挖掘模型的训练方法或如上所述的人物关系挖掘方法。
本发明的人物关系挖掘模型的训练方法、人物关系挖掘方法、装置及存储介质的有益效果是:可根据获取的关于人物关系的初始数据,预先建立知识图谱,根据时空知识图谱中的正样本随机生成负样本。根据时间嵌入对正样本和负样本的头实体初始嵌入和尾实体初始嵌入进行向量旋转,融合时间信息,确定头实体初始嵌入和尾实体初始嵌入在三维向量空间中的嵌入表示,得到融合时空信息的头实体四元数嵌入和尾实体四元数嵌入,从而可以更好地预测时空图谱中的实体和实体间关系随时间变化的演变。将正样本和负样本中的头实体初始嵌入和尾实体初始嵌入分别替换为对应的头实体四元数嵌入和尾实体四元数嵌入,并采用替换后的正样本和负样本迭代训练人物关系挖掘模型,可用于预测随时间变化发生演变的实体和实体间关系,能够补全知识图谱,提高知识图谱的完整性。
附图说明
图1为本发明实施例的一种人物关系挖掘模型的训练方法的流程示意图;
图2为本发明实施例的头实体初始嵌入进行向量旋转的结果示意图;
图3为本发明另一实施例的一种人物关系挖掘方法的流程示意图;
图4为本发明再一实施例的一种人物关系挖掘模型的训练装置的结构示意图;
图5为本发明又一实施例的一种人物关系挖掘装置的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
目前的时空知识图谱嵌入和补全的方法,只能反应实体之间的静态的关系,无法捕捉到实体及实体间关系的内在联系随时间的变化,而现实中很多实体和实体之间的关系并不是一成不变的的,其会随着时间而变化,例如著名演员Kit Harington和Rose Leslie在2012年恋爱,此时两人之间的关系是情侣,两人在2017年订婚,此时两人之间的关系是准夫妻,然后两人在2018年结婚,此时两人之间的关系就变成了夫妻。这种情侣-准夫妻-夫妻的关系随着时间的推移而演变,是现实生活中常见的关系演变过程,适用于许多的夫妻之间。
如图1所示,本发明实施例提供的一种人物关系挖掘模型的训练方法,人物关系挖掘模型是一种知识图谱嵌入模型,人物关系挖掘模型的训练方法是知识图谱嵌入模型的训练方法,训练方法包括:
步骤S110,获取预先建立的关于人物关系的时空知识图谱,所述时空知识图谱包括多个正样本。
具体地,时空知识图谱包括多个正样本,每个正样本由四元组表示,每个四元组包括头实体、关系、尾实体和时间,对于关于人物关系的时空知识图谱,正样本则包括第一人物、人物间关系、第二人物和时间,其中,实体为人物,关系为人物间关系。
可选地,所述获取预先建立的关于人物关系的时空知识图谱之前,包括:
获取关于人物关系的初始数据;
对所述初始数据进行命名实体识别,获得实体,并对所述初始数据进行关系抽取,获得实体间的关系;
根据所述实体和所述实体间的关系构建所述时空知识图谱。
具体地,可通过数据爬取工具在互联网中搜集需要的相关初始数据,例如建立关于人物关系的时空知识图谱时,在互联网中爬取相关人物的初始数据,初始数据包括人物信息和人物之间的关系等。然后可采用斯坦福自然语言处理工具Stanford-NLP进行命名实体识别和关系抽取,获得实体和实体间的关系,根据实体和实体间的关系就可构建对应的时空知识图谱,即识别和抽取初始数据中的人物和人物间关系,构建关于人物关系的时空知识图谱。
本可选的实施例中,获取初始数据,并根据初始数据建立时空知识图谱,可直观的反映出实体和实体间的关系,便于检索和挖掘信息。
步骤S120,根据所述正样本进行随机采样,生成负样本,并分别确定各个所述正样本和各个所述负样本的头实体初始嵌入、关系初始嵌入、尾实体初始嵌入和时间嵌入。
具体地,采用四元数形式表示头实体对应的头实体初始嵌入,关系对应的关系初始嵌入和尾实体对应的尾实体初始嵌入,并采用单位四元数表示时间对应的时间嵌入。四元数可表示为q=a+bi+cj+dk,其中,q为四元数,其中,a、b、c和d为实数,i、j和k为虚数单位,也是四元数的虚空间坐标轴,具体的表示形式为现有技术,在此不再赘述。
可选地,所述根据所述正样本进行随机采样包括:
对于任意一个所述正样本,从实体集中随机选择一个实体替换所述正样本的头实体或尾实体,获得一个所述负样本,其中,所述实体集包括所有的所述头实体和所述尾实体。
具体地,对于一个正样本(头实体,关系,尾实体,时间),关于人物关系的时空知识图谱中的正样本就是(第一人物,人物间关系,第二人物,时间),生成对应的负样本时,将其头实体或尾实体掩盖住,并在所有实体组成的实体集中随机选取一个实体,替换掉正样本中被掩盖的头实体或尾实体,生成负样本,负样本为(随机选取的实体,关系,尾实体,时间)或(头实体,关系,随机选取的实体,时间),相应地,关于人物关系的时空知识图谱中的正样本对应的负样本就可为(随机选取的人物,人物间关系,第二人物,时间)或(第一人物,人物间关系,随机选取的人物,时间)。
本可选的实施例中,通过替换正样本中的头实体或尾实体,生成对应的负样本,能够提高负样本的生成速度,简单高效。
步骤S130,根据所述时间嵌入分别对所述头实体初始嵌入和所述尾实体初始嵌入进行向量旋转,获得三维空间中的头实体四元数嵌入和尾实体四元数嵌入。
所述根据所述时间嵌入分别对所述头实体初始嵌入和所述尾实体初始嵌入进行向量旋转包括:
将所述头实体初始嵌入左乘所述时间嵌入,并右乘所述时间嵌入的逆,得到所述头实体四元数嵌入;
将所述尾实体初始嵌入左乘所述时间嵌入,并右乘所述时间嵌入的逆,得到所述尾实体四元数嵌入。
具体地,以头实体初始嵌入为例,对头实体初始嵌入和尾实体初始嵌入的向量旋转进行说明。
如图2所示,假设头实体初始嵌入为V,单位四元数表示的时间嵌入为
Figure 216896DEST_PATH_IMAGE009
Figure 33542DEST_PATH_IMAGE010
,其中
Figure 770554DEST_PATH_IMAGE012
是三维向量空间中的单位矢量,则头实体初始嵌入
Figure 293940DEST_PATH_IMAGE013
围绕旋转轴
Figure 520522DEST_PATH_IMAGE014
旋转角度
Figure 762147DEST_PATH_IMAGE015
的结果由第一公式表示,第一公式包括:
Figure 37271DEST_PATH_IMAGE016
其中,
Figure 8638DEST_PATH_IMAGE017
为头实体初始嵌入旋转后得到的向量,即头实体四元数嵌入,
Figure 343804DEST_PATH_IMAGE018
为时间嵌入
Figure 367998DEST_PATH_IMAGE009
的共轭。
由于,根据四元数的范数公式,
Figure 446813DEST_PATH_IMAGE019
且,四元数的逆
Figure 944790DEST_PATH_IMAGE020
Figure 44333DEST_PATH_IMAGE021
定义,乘以
Figure 994972DEST_PATH_IMAGE022
,就得到
Figure 939794DEST_PATH_IMAGE023
,从中得出:
Figure 292278DEST_PATH_IMAGE024
对于单位四元数,
Figure 31564DEST_PATH_IMAGE025
,则
Figure 469498DEST_PATH_IMAGE026
,展开第一公式,得到
Figure 719476DEST_PATH_IMAGE027
由两个虚向量的乘积规则
Figure 192046DEST_PATH_IMAGE028
,可以进一步得到,
Figure 305496DEST_PATH_IMAGE029
使用三角恒等式 ,可以得到
Figure 293043DEST_PATH_IMAGE030
其中,
Figure 517351DEST_PATH_IMAGE031
Figure DEST_PATH_IMAGE032
是头实体初始嵌入
Figure 641165DEST_PATH_IMAGE013
的组成(分别是垂直于和平行于轴
Figure 925516DEST_PATH_IMAGE014
,其满足三维向量空间中的Rodrigues旋转公式,因此可由第一公式确定头实体初始嵌入和尾实体初始嵌入在三维向量空间中的旋转。
本可选的实施例中,通过对头实体初始嵌入和尾实体初始嵌入进行向量旋转,基于时间嵌入进行向量旋转,融合了时间信息,并且确定了头实体初始嵌入和尾实体初始嵌入在三维向量空间中的表示,得到融合时空信息的头实体四元数嵌入和尾实体四元数嵌入,能够更好地预测实体和实体间关系随时间变换的演变,便于挖掘演变后的实体和实体间关系,补全时空知识图谱,提高时空知识图谱的完整性。
步骤S140,将所述正样本和所述负样本中的所述头实体初始嵌入和所述尾实体初始嵌入分别替换为对应的所述头实体四元数嵌入和所述尾实体四元数嵌入,获得处理后的正样本和处理后的负样本。
具体地,假设正样本和负样本包括头实体初始嵌入、关系初始嵌入、尾实体初始嵌入和时间嵌入,替换以后,则为头实体四元数嵌入、关系初始嵌入、尾实体四元数嵌入和时间嵌入。
步骤S150,采用所述处理后的正样本和所述处理后的负样本迭代训练预先建立的人物关系挖掘模型至收敛。
可选地,人物关系挖掘模型是一种知识图谱嵌入模型,包括得分函数和损失函数,所述采用所述处理后的正样本和所述处理后的负样本迭代训练预先建立的人物关系挖掘模型至收敛包括:
步骤S151,对所述尾实体四元数嵌入进行共轭运算,获得尾实体四元数嵌入的共轭嵌入。
具体地,求尾实体四元数嵌入的共轭,四元数的共轭与四元数具有相同的实部和符号相反的虚部,假设尾实体四元数嵌入表示为a+bi+cj+dk,其中,a、b、c和d为实数,i、j和k为虚数单位,则尾实体四元数嵌入的共轭嵌入为a-bi-cj-dk。
步骤S152,将所述头实体四元数嵌入、所述尾实体四元数嵌入的共轭嵌入和所述关系初始嵌入输入人物关系挖掘模型的得分函数,采用所述得分函数分别对所述正样本和所述负样本打分,获得正样本的得分值和负样本的得分值。
可选地,所述得分函数包括:
Figure DEST_PATH_IMAGE033
其中,
Figure 400359DEST_PATH_IMAGE002
为样本
Figure 428358DEST_PATH_IMAGE003
的得分值,
Figure 905214DEST_PATH_IMAGE003
为任一正样本或负样本,
Figure 94887DEST_PATH_IMAGE004
表示
Figure 994710DEST_PATH_IMAGE005
时刻的所述头实体四元数嵌入,
Figure 888716DEST_PATH_IMAGE006
表示所述关系初始嵌入,
Figure 190385DEST_PATH_IMAGE007
表示
Figure 613276DEST_PATH_IMAGE005
时刻的所述尾实体四元数嵌入的共轭嵌入。
具体地,将头实体四元数嵌入与关系初始嵌入相加,再减去尾实体四元数嵌入的共轭嵌入,得到计算结果,并对计算结果进行求模长运算,就得到样本对应的得分值。
步骤S153,将所述正样本的得分值和所述负样本的得分值输入人物关系挖掘模型的损失函数,通过最小化损失函数优化所述人物关系挖掘模型。
具体地,可基于负样本采用MarginLoss损失函数,调整人物关系挖掘模型的参数,使得计算得到的正样本的得分值尽可能的小,而负样本的得分值尽可能的大,MarginLoss损失函数为现有技术,在此不再赘述。为提高训练速度,可在损失函数的值小于预设阈值时,停止迭代训练,获得训练好的人物关系挖掘嵌入模型。
本实施例中,可根据获取关于人物关系的初始数据,预先建立知识图谱,根据时空知识图谱中的正样本随机生成负样本。根据时间嵌入对正样本和负样本的头实体初始嵌入和尾实体初始嵌入进行向量旋转,融合时间信息,确定头实体初始嵌入和尾实体初始嵌入在三维向量空间中的嵌入表示,就可得到融合时空信息的头实体四元数嵌入和尾实体四元数嵌入,从而可以更好地预测时空图谱中的实体和实体间关系随时间变化的演变。将正样本和负样本中的头实体初始嵌入和尾实体初始嵌入分别替换为对应的头实体四元数嵌入和尾实体四元数嵌入,并采用替换后的正样本和负样本迭代训练人物关系挖掘模型,可用于预测随时间变化发生演变的实体和实体间关系,能够补全知识图谱中缺失和错误的实体和关系,提高知识图谱的完整性。
本发明充分利用了四元数在表示能力上的优势,对知识图谱各要素进行嵌入表示,并发挥四元数理论在三维向量空间旋转上的表征优势对实体和关系随时间的变化进行建模,便于实时、充分地挖掘实体之间的相互关系的动态演变。例如对于人物关系,可准确确定人物间关系随时间的演变,挖掘人物之间隐藏的相互关系和可疑关系,高效地实现时空知识图谱补全,丰富和拓展现有的人物关系时空知识图谱,提高时空知识图谱的完整性和应用范围,例如可用于发现和预防欺诈犯罪。
与现有技术相比,本发明在进行实体或实体间关系预测的实验任务中,取得了更好地效果。例如在4个公开数据集ICEWS14、ICEWS05-15、YAGO11k、GDELT中,本发明经过实践检验,在MRR、Hits@10、Hits@3、Hits@1这四个知识图谱评价指标上达到了最好的效果,数据指标分布方差小,且性能稳定。
如图3所示,本发明另一实施例提供的一种人物关系挖掘方法,人物关系挖掘方法是一种信息挖掘方法,包括:
步骤S210,获取三个初始元素,所述初始元素包括第一人物、第二人物、关系和时间中的任意三个,第一人物为第一实体,第二人物为第二实体,关系为人物间关系;
步骤S220,将缺失的元素对应的集合中的各个元素分别作为待定元素与三个所述初始元素组成四元组,其中,所述四元组包括所述第一人物、所述第二人物、所述关系和所述时间。
具体地,实体集包括所有的第一实体和第二实体,即包括所有的人物,关系集包括所有的关系,时间集包括所有的时间,当三个初始元素为第一实体、第二实体和关系时,则将时间集中的各个元素分别作为待定元素与三个初始元素组成四元组;当三个初始元素为第一实体、第二实体和时间时,则将关系集中的各个元素分别作为待定元素与三个初始元素组成四元组;当三个初始元素为第一实体、关系和时间,或,第二实体、关系和时间时,将实体中的各个元素分别作为待定元素与三个初始元素组成四元组。
步骤S230,对各个所述四元组进行预处理,获得处理后的四元组。
可选地,所述对各个所述四元组进行预处理包括:
分别确定各个所述四元组的头实体初始嵌入、关系初始嵌入、尾实体初始嵌入和时间嵌入;
根据所述时间嵌入分别对所述头实体初始嵌入和所述尾实体初始嵌入进行向量旋转,获得三维空间中的头实体四元数嵌入和尾实体四元数嵌入;
将所述四元组中的所述头实体初始嵌入和所述尾实体初始嵌入分别替换为对应的所述头实体四元数嵌入和所述尾实体四元数嵌入,获得处理后的四元组。
步骤S240,将各个所述处理后的四元组分别输入训练好的人物关系挖掘模型,采用打分函数对各个所述处理后的四元组进行打分,确定各个所述待定元素的得分值,其中,所述人物关系挖掘模型采用如上所述的人物关系挖掘模型的训练方法训练得到;
步骤S250,根据各个所述待定元素的得分值确定挖掘的信息。
具体地,输出得分值最低的待定元素为挖掘的信息,假如获取的三个初始元素为(甲,夫妻,/,2021),即初始元素包括了一个实体、一个关系和一个时间,则将实体集中的各个实体分别作为待定元素与初始元素组成四元组,假设实体集中的实体除甲以外还包括乙、丙和丁,则将除了甲以外的各个实体分别与三个初始元素组成三个四元组,分别为(甲,夫妻,乙,2021),(甲,夫妻,丙,2021)和(甲,夫妻,丁,2021),将三个四元组分别输入训练好的人物关系挖掘模型,通过打分函数打分后,假设得到乙的得分值为0.01,丙的得分值为0.4,丁的得分值为0.5,则输出得分值最低的实体“乙”作为预测的实体,即挖掘的信息。
本实施例中,获取三个初始元素,并通过实体集或关系集或时间集中的待定元素进行补充,组成多个四元组,对各个四元组进行预处理,转换成嵌入表示,再输入到训练好的人物关系挖掘模型中,通过打分函数确定各个四元组的得分值,并输出得分值最低的四元组对应的待定元素为挖掘的信息,简单高效,并且能够挖掘出随时间变化而发生演变的实体和实体间关系,大幅提高了时空知识图谱的完整性。
如图4所示,本发明再一实施例提供的一种人物关系挖掘模型的训练装置,人物关系挖掘模型的训练装置是一种知识图谱嵌入模型的训练装置,包括:
获取模块,用于获取预先建立关于人物关系的时空知识图谱,所述时空知识图谱包括多个正样本;
采样模块,用于根据所述正样本进行随机采样,生成负样本,并分别确定各个所述正样本和各个所述负样本的头实体初始嵌入、关系初始嵌入、尾实体初始嵌入和时间嵌入;
旋转模块,用于根据所述时间嵌入分别对所述头实体初始嵌入和所述尾实体初始嵌入进行向量旋转,包括:将所述头实体初始嵌入左乘所述时间嵌入,并右乘所述时间嵌入的逆,获得头实体四元数嵌入,将所述尾实体初始嵌入左乘所述时间嵌入,并右乘所述时间嵌入的逆,获得尾实体四元数嵌入;
替换模块,用于将所述正样本和所述负样本中的所述头实体初始嵌入和所述尾实体初始嵌入分别替换为对应的所述头实体四元数嵌入和所述尾实体四元数嵌入,获得处理后的正样本和处理后的负样本;
训练模块,用于采用所述处理后的正样本和所述处理后的负样本迭代训练预先建立的人物关系挖掘模型至收敛。
如图5所示,本发明再一实施例提供的一种人物关系挖掘装置,人物关系挖掘装置是一种信息挖掘装置,包括:
获取模块,用于获取三个初始元素,所述初始元素包括第一人物、第二人物、关系和时间中的任意三个,第一人物为第一实体,第二人物为第二实体;
配置模块,用于将缺失的元素对应的集合中的各个元素分别作为待定元素与三个所述初始元素组成四元组,其中,所述四元组包括所述第一人物、所述第二人物、所述关系和所述时间;
处理模块,用于对各个所述四元组进行预处理,获得处理后的四元组;
评分模块,用于将各个所述处理后的四元组分别输入训练好的人物关系挖掘模型,采用打分函数对各个所述处理后的四元组进行打分,确定各个所述待定元素的得分值,其中,所述人物关系挖掘模型采用如上所述的人物关系挖掘模型的训练方法训练得到;
输出模块,用于根据各个所述待定元素的得分值确定挖掘的信息。
本发明又一实施例提供的一种电子设备,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如上所述的人物关系挖掘模型的训练方法或如上所述的人物关系挖掘方法,即实现对应的知识图谱嵌入模型的训练方法或对应的信息挖掘方法。该电子设备可为计算机或服务器等。
本发明又一实施例提供的一种计算机可读存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的人物关系挖掘模型的训练方法或如上所述的人物关系挖掘方法,即实现对应的知识图谱嵌入模型的训练方法或对应的信息挖掘方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。在本申请中,所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(NetworkProcessor,简称:NP)等。该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
虽然本发明公开披露如上,但本发明公开的保护范围并非仅限于此。本领域技术人员在不脱离本发明公开的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。

Claims (10)

1.一种人物关系挖掘模型的训练方法,其特征在于,包括:
获取预先建立的关于人物关系的时空知识图谱,所述时空知识图谱包括多个正样本;
根据所述正样本进行随机采样,生成负样本,并分别确定各个所述正样本和各个所述负样本的头实体初始嵌入、关系初始嵌入、尾实体初始嵌入和时间嵌入;
根据所述时间嵌入分别对所述头实体初始嵌入和所述尾实体初始嵌入进行向量旋转,包括:将所述头实体初始嵌入左乘所述时间嵌入,并右乘所述时间嵌入的逆,获得头实体四元数嵌入,将所述尾实体初始嵌入左乘所述时间嵌入,并右乘所述时间嵌入的逆,获得尾实体四元数嵌入;
将所述正样本和所述负样本中的所述头实体初始嵌入和所述尾实体初始嵌入分别替换为对应的所述头实体四元数嵌入和所述尾实体四元数嵌入,获得处理后的正样本和处理后的负样本;
采用所述处理后的正样本和所述处理后的负样本迭代训练预先建立的人物关系挖掘模型至收敛。
2.根据权利要求1所述的人物关系挖掘模型的训练方法,其特征在于,所述采用所述处理后的正样本和所述处理后的负样本迭代训练预先建立的人物关系挖掘模型至收敛包括:
对所述尾实体四元数嵌入进行共轭运算,获得尾实体四元数嵌入的共轭嵌入;
将所述头实体四元数嵌入、所述尾实体四元数嵌入的共轭嵌入和所述关系初始嵌入输入人物关系挖掘模型的得分函数,采用所述得分函数分别对所述正样本和所述负样本打分,获得正样本的得分值和负样本的得分值;
将所述正样本的得分值和所述负样本的得分值输入人物关系挖掘模型的损失函数,通过最小化损失函数优化所述人物关系挖掘模型。
3.根据权利要求2所述的人物关系挖掘模型的训练方法,其特征在于,所述得分函数包括:
Figure DEST_PATH_IMAGE001
其中,
Figure 426778DEST_PATH_IMAGE002
为样本
Figure DEST_PATH_IMAGE003
的得分值,
Figure 759670DEST_PATH_IMAGE003
为任一正样本或负样本,
Figure 574043DEST_PATH_IMAGE004
表示
Figure DEST_PATH_IMAGE005
时刻的所述头实体四元数嵌入,
Figure 334188DEST_PATH_IMAGE006
表示所述关系初始嵌入,
Figure DEST_PATH_IMAGE007
表示
Figure 538905DEST_PATH_IMAGE005
时刻的所述尾实体四元数嵌入的共轭嵌入。
4.根据权利要求1至3任一项所述的人物关系挖掘模型的训练方法,其特征在于,所述获取预先建立的关于人物关系的时空知识图谱之前,包括:
获取关于人物关系的初始数据;
对所述初始数据进行命名实体识别,获得实体,并对所述初始数据进行关系抽取,获得实体间的关系;
根据所述实体和所述实体间的关系构建所述时空知识图谱。
5.根据权利要求1至3任一项所述的人物关系挖掘模型的训练方法,其特征在于,所述根据所述正样本进行随机采样包括:
对于任意一个所述正样本,从实体集中随机选择一个实体替换所述正样本的头实体或尾实体,获得一个所述负样本,其中,所述实体集包括所有的所述头实体和所述尾实体。
6.一种人物关系挖掘方法,其特征在于,包括:
获取三个初始元素,所述初始元素包括第一人物、第二人物、关系和时间中的任意三个;
将缺失的元素对应的集合中的各个元素分别作为待定元素与三个所述初始元素组成四元组,其中,所述四元组包括所述第一人物、所述第二人物、所述关系和所述时间;
对各个所述四元组进行预处理,获得处理后的四元组;
将各个所述处理后的四元组分别输入训练好的人物关系挖掘模型,采用打分函数对各个所述处理后的四元组进行打分,确定各个所述待定元素的得分值,其中,所述人物关系挖掘模型采用如权利要求1至5任一项所述的人物关系挖掘模型的训练方法训练得到;
根据各个所述待定元素的得分值确定挖掘的信息。
7.一种人物关系挖掘模型的训练装置,其特征在于,包括:
获取模块,用于获取预先建立的关于人物关系的时空知识图谱,所述时空知识图谱包括多个正样本;
采样模块,用于根据所述正样本进行随机采样,生成负样本,并分别确定各个所述正样本和各个所述负样本的头实体初始嵌入、关系初始嵌入、尾实体初始嵌入和时间嵌入;
旋转模块,用于根据所述时间嵌入分别对所述头实体初始嵌入和所述尾实体初始嵌入进行向量旋转,包括:将所述头实体初始嵌入左乘所述时间嵌入,并右乘所述时间嵌入的逆,获得头实体四元数嵌入,将所述尾实体初始嵌入左乘所述时间嵌入,并右乘所述时间嵌入的逆,获得尾实体四元数嵌入;
替换模块,用于将所述正样本和所述负样本中的所述头实体初始嵌入和所述尾实体初始嵌入分别替换为对应的所述头实体四元数嵌入和所述尾实体四元数嵌入,获得处理后的正样本和处理后的负样本;
训练模块,用于采用所述处理后的正样本和所述处理后的负样本迭代训练预先建立的人物关系挖掘模型至收敛。
8.一种人物关系挖掘装置,其特征在于,包括:
获取模块,用于获取三个初始元素,所述初始元素包括第一人物、第二人物、关系和时间中的任意三个;
配置模块,用于将缺失的元素对应的集合中的各个元素分别作为待定元素与三个所述初始元素组成四元组,其中,所述四元组包括所述第一人物、所述第二人物、所述关系和所述时间;
处理模块,用于对各个所述四元组进行预处理,获得处理后的四元组;
评分模块,用于将各个所述处理后的四元组分别输入训练好的人物关系挖掘模型,采用打分函数对各个所述处理后的四元组进行打分,确定各个所述待定元素的得分值,其中,所述人物关系挖掘模型采用如权利要求1至5任一项所述的人物关系挖掘模型的训练方法训练得到;
输出模块,用于根据各个所述待定元素的得分值确定挖掘的信息。
9.一种电子设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如权利要求1至5任一项所述的人物关系挖掘模型的训练方法或如权利要求6所述的人物关系挖掘方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储由计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1至5任一项所述的人物关系挖掘模型的训练方法或如权利要求6所述的人物关系挖掘方法。
CN202110682820.3A 2021-06-21 2021-06-21 人物关系挖掘模型的训练方法、人物关系挖掘方法及装置 Active CN113254549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110682820.3A CN113254549B (zh) 2021-06-21 2021-06-21 人物关系挖掘模型的训练方法、人物关系挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110682820.3A CN113254549B (zh) 2021-06-21 2021-06-21 人物关系挖掘模型的训练方法、人物关系挖掘方法及装置

Publications (2)

Publication Number Publication Date
CN113254549A CN113254549A (zh) 2021-08-13
CN113254549B true CN113254549B (zh) 2021-11-23

Family

ID=77188787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110682820.3A Active CN113254549B (zh) 2021-06-21 2021-06-21 人物关系挖掘模型的训练方法、人物关系挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN113254549B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806555B (zh) * 2021-09-14 2023-08-08 国网北京市电力公司 用于app的运营异常识别方法、系统、装置及存储介质
CN113946695B (zh) * 2021-12-20 2022-04-22 山东新希望六和集团有限公司 动物系谱的生成方法、装置及计算机设备
CN113961724B (zh) * 2021-12-22 2022-04-22 山东新希望六和集团有限公司 动物系谱的更新方法、装置及计算机设备
CN114637819A (zh) * 2022-02-17 2022-06-17 北京邮电大学 一种基于时序知识图谱的复杂问答查询方法和装置
CN114491080B (zh) * 2022-02-28 2023-04-18 中国人民解放军国防科技大学 一种面向人物关系网络的未知实体关系推断方法
CN115599927A (zh) * 2022-11-08 2023-01-13 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)(Cn) 一种基于度量学习的时序知识图谱补全方法及系统
CN117114739B (zh) * 2023-09-27 2024-05-03 数据空间研究院 一种企业供应链信息挖掘方法、挖掘系统及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959418A (zh) * 2018-06-06 2018-12-07 中国人民解放军国防科技大学 一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质
CN110674637A (zh) * 2019-09-06 2020-01-10 腾讯科技(深圳)有限公司 一种人物关系识别模型训练方法、装置、设备及介质
CN111177282A (zh) * 2019-12-30 2020-05-19 福州大学 一种融入注意力机制的预测方法
CN112765287A (zh) * 2021-02-05 2021-05-07 中国人民解放军国防科技大学 基于知识图谱嵌入的挖掘人物关系的方法、装置以及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11687826B2 (en) * 2019-08-29 2023-06-27 Accenture Global Solutions Limited Artificial intelligence (AI) based innovation data processing system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959418A (zh) * 2018-06-06 2018-12-07 中国人民解放军国防科技大学 一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质
CN110674637A (zh) * 2019-09-06 2020-01-10 腾讯科技(深圳)有限公司 一种人物关系识别模型训练方法、装置、设备及介质
CN111177282A (zh) * 2019-12-30 2020-05-19 福州大学 一种融入注意力机制的预测方法
CN112765287A (zh) * 2021-02-05 2021-05-07 中国人民解放军国防科技大学 基于知识图谱嵌入的挖掘人物关系的方法、装置以及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Learning BiLSTM-based Embeddings for Relation Prediction inTemporal Knowledge Graph;Sixia Ma等;《Journal of Physics: Conference Series》;20210428;第1871卷;第1-17页 *

Also Published As

Publication number Publication date
CN113254549A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN113254549B (zh) 人物关系挖掘模型的训练方法、人物关系挖掘方法及装置
EP4273746A1 (en) Model training method and apparatus, and image retrieval method and apparatus
Xiao et al. Deep salient object detection with dense connections and distraction diagnosis
CN108960409B (zh) 标注数据生成方法、设备及计算机可读存储介质
CN111310050B (zh) 一种基于多层注意力的推荐方法
CN111046275B (zh) 基于人工智能的用户标签确定方法及装置、存储介质
CN105512180B (zh) 一种搜索推荐方法及装置
CN111680678B (zh) 目标区域识别方法、装置、设备及可读存储介质
CN115131604A (zh) 一种多标签图像分类方法、装置、电子设备及存储介质
CN114417161B (zh) 基于异构图的虚拟物品时序推荐方法、装置、介质及设备
CN110162549B (zh) 一种火灾数据分析方法、装置、可读存储介质及终端设备
CN112328881B (zh) 文章推荐方法、装置、终端设备及存储介质
CN110472659B (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
CN110851708A (zh) 负样本的抽取方法、装置、计算机设备和存储介质
Veeravasarapu et al. Model-driven simulations for computer vision
CN107688596B (zh) 突发话题检测方法及突发话题检测设备
CN111905375B (zh) 显示方法、装置以及相关设备
CN115033700A (zh) 基于相互学习网络的跨领域情感分析方法、装置以及设备
JP6954070B2 (ja) 判別プログラム、判別方法および判別装置
CN116764236A (zh) 游戏道具推荐方法、装置、计算机设备和存储介质
CN113392309A (zh) 一种数据处理方法、装置、设备及存储介质
CN113159315A (zh) 一种神经网络的训练方法、数据处理方法以及相关设备
CN110033098A (zh) 在线gbdt模型学习方法及装置
CN113282740B (zh) 内容推荐方法、装置、电子设备及存储介质
CN114298118B (zh) 一种基于深度学习的数据处理方法、相关设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant