CN112417317B - 一种基于知识图谱表示学习的相似人物推荐方法 - Google Patents

一种基于知识图谱表示学习的相似人物推荐方法 Download PDF

Info

Publication number
CN112417317B
CN112417317B CN202110080743.4A CN202110080743A CN112417317B CN 112417317 B CN112417317 B CN 112417317B CN 202110080743 A CN202110080743 A CN 202110080743A CN 112417317 B CN112417317 B CN 112417317B
Authority
CN
China
Prior art keywords
user
entity
social
vector
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110080743.4A
Other languages
English (en)
Other versions
CN112417317A (zh
Inventor
阮祥超
汪洋
朱丹
陈洲
李名臣
张坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Fiberhome Telecommunication Technologies Co ltd
Original Assignee
Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Fiberhome Telecommunication Technologies Co ltd filed Critical Nanjing Fiberhome Telecommunication Technologies Co ltd
Priority to CN202110080743.4A priority Critical patent/CN112417317B/zh
Publication of CN112417317A publication Critical patent/CN112417317A/zh
Application granted granted Critical
Publication of CN112417317B publication Critical patent/CN112417317B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Animal Behavior & Ethology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于知识图谱表示学习的相似人物推荐方法,采用全新设计策略,包括社交用户信息处理、表示学习模型训练、实体关系向量中人物点向量的聚类索引、相似人物推荐,其中,采用TransD表示学习算法对知识图谱中全量实体、关系进行知识表示学习,更深层次挖掘图谱中隐含的语义信息;对于大规模的人物点向量,采用Annoy快速计算距离算法进行相似人物的聚类,由于实体关系向量考虑了图谱中的语义,为聚类提供了强有力的信息支撑;并且针对社交知识图谱增量更新情况,设计表示学习推荐算法进行周期性训练,保持推荐结果的鲜活性;整个设计方法能够有效提高人物相似度检测精度,获得更加准确的相似人物推荐效果。

Description

一种基于知识图谱表示学习的相似人物推荐方法
技术领域
本发明涉及一种基于知识图谱表示学习的相似人物推荐方法,属于知识图谱表示学习技术领域。
背景技术
随着移动互联网的兴起,社交网络成为移动互联网的典型产物,加强了人与人之间的密切交流,而人物推荐在社交网络中也起着至关重要的作用。
现有技术中存在一些人物推荐方法:
1.基于PageRank算法的网络个性化推荐方法:从网页配置文件中获取组及其组员之间的好友关系,建立每个组员的个人喜好模型。采用PageRank算法,迭代计算组员对组的影响力,从而得到整个组的喜好模型,利用该模型对组进行对象的推荐。
2.社会网络中的弱关系人物推荐算法:根据社会学理论,定义网络中的强弱关系,利用社区划分算法识别强弱关系,通过经典人物推荐算验证弱关系对于社会网络信息流通的重要性,并发现推荐网络中和用户联系为弱关系的节点给用户带来多样化的异质信息。
现如今,随着大数据的发展,人际关系网愈发庞大,现有技术对于大规模的社交网络适用性低,庞大的社交网络中存在大量的语义信息,现有技术未能捕捉到社交网络中的语义联系,而人工智能的发展已经迈向了认知智能阶段,认知智能要求机器必须学会处理人类复杂语言并进行知识推理,这对于机器来说十分困难。
发明内容
本发明所要解决的技术问题是提供一种基于知识图谱表示学习的相似人物推荐方法,采用全新设计策略,能够有效提高人物相似度检测精度,获得更加准确的相似人物推荐效果。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种基于知识图谱表示学习的相似人物推荐方法,基于包含各用户分别所对应各指定社交属性信息的社交知识图谱,按预设周期执行如下步骤A至步骤E,获得社交知识图谱中用户的聚类结果;进而按如下步骤I至步骤IV,针对社交知识图谱中的待推荐目标用户,实现社交知识图谱中与之相似用户的推荐;
步骤A.针对社交知识图谱中各用户分别所对应的各指定社交属性,执行RDF数据提取,获得各用户分别所对应的社交属性RDF数据,然后进入步骤B;
步骤B.以用户为点、用户彼此之间关系为边,基于各用户分别所对应的社交属性RDF数据,构建各用户分别所对应的点数据,以及各用户之间关系分别所对应的边数据;并进一步基于各点数据与各边数据,构建各个三元组结构数据,然后进入步骤C;
步骤C.构建以三元组结构数据为输入,以包含实体向量与关系向量的实体关系向量为输出的表示学习模型,并应用各个三元组结构数据,结合相应损失函数,针对表示学习模型进行训练,获得实体关系向量获得模型,然后进入步骤D;其中,实体向量中包括各个用户分别所对应的人物点向量;
步骤D.根据各个三元组结构数据,应用表示学习获得的实体关系向量模型,获得实体关系向量中实体向量内各个用户分别所对应的人物点向量,然后进入步骤E;
步骤E.根据人物点向量之间的距离,针对各个人物点向量进行聚类,获得各个聚类、以及各聚类中相应各个用户,构成社交知识图谱中用户的聚类结果;
步骤I.根据社交知识图谱中用户的聚类结果,获得待推荐目标用户所对应的聚类,作为待推荐目标用户所对应的待处理聚类,然后进入步骤II;
步骤II.针对待处理聚类中除待推荐目标用户所对应人物点向量以外的其余各个人物点向量,按其分别与待推荐目标用户所对应人物点向量之间距离,进行由小至大排序,并顺序选择其中前预设第一数量个人物点向量,获得分别所对应的用户,作为各个候选推荐用户,然后进入步骤III;
步骤III.获得各个候选推荐用户分别所对应的各指定社交属性信息,根据待推荐目标用户与候选推荐用户之间分别基于各指定社交属性的相同项比较,结合各指定社交属性分别所对应的预设相似度,获得各个候选推荐用户分别相较待推荐目标用户的相似度,然后进入步骤IV;
步骤IV.按相似度由大至小,针对各个候选推荐用户进行排序,并顺序选择其中前预设第二数量个候选推荐用户,作为与待推荐目标用户相似的各个用户进行推荐。
作为本发明的一种优选技术方案,所述步骤C包括如下步骤C1至步骤C2;
步骤C1.应用TransD算法构建以三元组结构数据为输入,实体关系向量为输出的表示学习模型如下:
h=Mrhh,t=Mrtt
Figure GDA0002981942440000021
其中,Mrh为头实体映射矩阵,Mrt为尾实体映射矩阵;h为三元组结构数据中头实体由Mrh映射后的头实体向量,t为三元组结构数据中尾实体由Mrt映射后的尾实体向量;h为三元组结构数据中头实体编码所对应的头实体向量,t为三元组结构数据中尾实体编码所对应的尾实体向量;rp为关系向量,
Figure GDA0002981942440000031
为头实体映射向量,
Figure GDA0002981942440000032
为尾实体映射向量,Im×n是单位矩阵;
并且构建相应的损失函数如下:
Figure GDA0002981942440000033
其中,r表示关系向量,l1表示l1范数,l2表示l2范数,然后进入步骤C2;
步骤C2.按预设学习率、loss值设置、实体和关系的词向量长度、每个批度输入的三元组个数、以及训练轮次,结合损失函数,针对表示学习模型进行训练,获得实体关系向量获得模型。
作为本发明的一种优选技术方案,所述步骤III包括如下步骤III-1至步骤III-3:
步骤III-1.获得各个候选推荐用户分别所对应的各指定社交属性信息,然后进入步骤III-2;
步骤III-2.分别针对各个候选推荐用户,并进一步分别针对各指定社交属性,针对候选推荐用户所对应指定社交属性信息与待推荐目标用户所对应该指定社交属性信息:
若彼此间不存在相同数据,则定义该候选推荐用户所对应该指定社交属性的相似度为0;
若彼此间仅存在一项相同数据,则定义该候选推荐用户所对应该指定社交属性的相似度为预设相似度的一半;
若彼此间存在至少两项相同数据,则定义该候选推荐用户所对应该指定社交属性的相似度为预设相似度;
由上述获得该候选推荐用户分别对应各指定社交属性的相似度,进而获得各个候选推荐用户分别对应各指定社交属性的相似度,然后进入步骤III-3;
步骤III-3.分别针对各个候选推荐用户,根据候选推荐用户对应各指定社交属性的相似度,按求和方式获得该候选推荐用户相较待推荐目标用户的相似度,进而获得各个候选推荐用户分别相较待推荐目标用户的相似度。
作为本发明的一种优选技术方案:所述步骤B中所构建点数据的格式为:点编码+\t+点编号,所构建边数据的格式为:边编码+\t+边编号,所构建三元组结构数据的格式为:头实体点编码+\t+尾实体编码+\t+边关系编码,其中,/t表示跳格转义字符。
作为本发明的一种优选技术方案:所述步骤E中,应有Annoy快速计算距离算法,获得人物点向量之间的距离。
作为本发明的一种优选技术方案:所述指定社交属性包括基本属性、社交地址、社交标签、社交关系。
本发明所述一种基于知识图谱表示学习的相似人物推荐方法及应用,采用以上技术方案与现有技术相比,具有以下技术效果:
本发明所设计一种基于知识图谱表示学习的相似人物推荐方法,采用全新设计策略,能够适用于大规模社交网络,应对庞大社交网络中存在的大量语义信息,捕捉到社交网络中的语义联系,并应用社交知识图谱进行知识推理;所设计相似人物推荐方法包括社交用户信息处理、表示学习模型训练、实体关系向量中人物点向量的聚类索引、相似人物推荐,其中,采用TransD表示学习算法对知识图谱中全量实体、关系进行知识表示学习,更深层次挖掘图谱中隐含的语义信息;对于大规模的人物点向量,采用Annoy快速计算距离算法进行相似人物的聚类,由于实体关系向量考虑了图谱中的语义,为聚类提供了强有力的信息支撑;并且针对社交知识图谱增量更新情况,设计表示学习推荐算法进行周期性训练,保持推荐结果的鲜活性;整个设计方法能够有效提高人物相似度检测精度,获得更加准确的相似人物推荐效果。
附图说明
图1是本发明所设计一种基于知识图谱表示学习的相似人物推荐方法的流程示意图;
图2是本发明设计所应用实施例中的社交知识图谱示意图;
图3是本发明所设计一种基于知识图谱表示学习的相似人物推荐方法的具体实施流程图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
知识图谱是一种规模非常大的语义网络系统,它主要目的就是为了描述真实世界里实体或概念之间的关联关系。传统知识图谱表示方法采用OWL、RDF等本体语言进行描述,随着深度学习的发展与应用,知识表示学习可以将知识图谱中的实体和关系映射在低维稠密的向量空间中,向量表示有助于机器学习并理解实体和关系间存在的语义。
本发明设计了一种基于知识图谱表示学习的相似人物推荐方法,基于包含各用户分别所对应各指定社交属性信息的社交知识图谱,实际应用当中,按预设周期执行如下步骤A至步骤E,获得社交知识图谱中用户的聚类结果。
步骤A.针对社交知识图谱中各用户分别所对应的各指定社交属性,执行RDF数据提取,获得各用户分别所对应的社交属性RDF数据,然后进入步骤B。
这里在实际应用当中,诸如设计指定社交属性包括基本属性、社交地址、社交标签、社交关系。
步骤B.以用户为点、用户彼此之间关系为边,基于各用户分别所对应的社交属性RDF数据,构建各用户分别所对应的点数据,以及各用户之间关系分别所对应的边数据;并进一步基于各点数据与各边数据,构建各个三元组结构数据,然后进入步骤C。
实际应用当中,上述所构建点数据的格式为:点编码+\t+点编号(0,1,2…),所构建边数据的格式为:边编码+\t+边编号(0,1,2…),所构建三元组结构数据的格式为:头实体点编码+\t+尾实体编码+\t+边关系编码,其中,/t表示跳格转义字符。
步骤C.构建以三元组结构数据为输入,以包含实体向量与关系向量的实体关系向量为输出的表示学习模型,并应用各个三元组结构数据,结合相应损失函数,针对表示学习模型进行训练,获得实体关系向量获得模型,然后进入步骤D;其中,实体向量中包括各个用户分别所对应的人物点向量;
实际应用当中,上述步骤C具体执行如下步骤C1至步骤C2。
步骤C1.应用TransD算法构建以三元组结构数据为输入,实体关系向量为输出的表示学习模型如下:
h=Mrhh,t=Mrft
Figure GDA0002981942440000051
其中,Mrh为头实体映射矩阵,Mrt为尾实体映射矩阵;h为三元组结构数据中头实体由Mrh映射后的头实体向量,t为三元组结构数据中尾实体由Mrt映射后的尾实体向量;h为三元组结构数据中头实体编码所对应的头实体向量,t为三元组结构数据中尾实体编码所对应的尾实体向量;rp为关系向量,
Figure GDA0002981942440000052
为头实体映射向量,
Figure GDA0002981942440000053
为尾实体映射向量,Im×n是单位矩阵;
并且构建相应的损失函数如下:
Figure GDA0002981942440000054
其中,r表示关系向量,l1表示l1范数,l2表示l2范数,然后进入步骤C2。
步骤C2.按预设学习率、loss值设置、实体和关系的词向量长度、每个批度输入的三元组个数、以及训练轮次,结合损失函数,针对表示学习模型进行训练,获得实体关系向量获得模型。
实际应用当中,诸如按预设学习率为0.0001、loss值设置为加入L1正则化、实体和关系的词向量长度为30、每个批度输入的三元组个数为256、以及训练轮次为3000000次,结合损失函数,针对表示学习模型进行训练。
步骤D.根据各个三元组结构数据,应用表示学习获得的实体关系向量模型,获得实体关系向量中实体向量内各个用户分别所对应的人物点向量,然后进入步骤E。
对于获得的各个实体关系向量,在实际应用当中,可以进一步将表示学习训练生成模型结果中的人物点的编码和对应的向量保存为文件,文件中数据格式为:{″id″:″人物点编码″,″vector″:″向量值″}。
步骤E.应有Annoy快速计算距离算法,计算获得人物点向量之间的距离,并根据人物点向量之间的距离,结合预设聚类个数80,针对各个人物点向量进行聚类,获得各个聚类、以及各聚类中相应各个用户,构成社交知识图谱中用户的聚类结果。
对于实际应用当中所获得的聚类结果,可以针对各个聚类、以及各聚类中相应各个用户,应用各个用户id、以及各个聚类的索引id建立对应关系,则在后续应用中,即可应用用户id与各个聚类索引id实现相互关联关系。
基于社交知识图谱中用户聚类结果的获得,进而按如下步骤I至步骤IV,针对社交知识图谱中的待推荐目标用户,实现社交知识图谱中与之相似用户的推荐。
步骤I.根据社交知识图谱中用户的聚类结果,获得待推荐目标用户所对应的聚类,作为待推荐目标用户所对应的待处理聚类,然后进入步骤II。
步骤II.针对待处理聚类中除待推荐目标用户所对应人物点向量以外的其余各个人物点向量,按其分别与待推荐目标用户所对应人物点向量之间距离,进行由小至大排序,并顺序选择其中前预设第一数量个人物点向量,获得分别所对应的用户,作为各个候选推荐用户,然后进入步骤III。
步骤III.获得各个候选推荐用户分别所对应的各指定社交属性信息,根据待推荐目标用户与候选推荐用户之间分别基于各指定社交属性的相同项比较,结合各指定社交属性分别所对应的预设相似度,获得各个候选推荐用户分别相较待推荐目标用户的相似度,然后进入步骤IV。
实际应用当中,上述步骤III具体执行如下步骤III-1至步骤III-3。
步骤III-1.获得各个候选推荐用户分别所对应的各指定社交属性信息,然后进入步骤III-2。
步骤III-2.分别针对各个候选推荐用户,并进一步分别针对各指定社交属性,针对候选推荐用户所对应指定社交属性信息与待推荐目标用户所对应该指定社交属性信息,执行如下判断:
若彼此间不存在相同数据,则定义该候选推荐用户所对应该指定社交属性的相似度为0;
若彼此间仅存在一项相同数据,则定义该候选推荐用户所对应该指定社交属性的相似度为预设相似度的一半;
若彼此间存在至少两项相同数据,则定义该候选推荐用户所对应该指定社交属性的相似度为预设相似度;
由上述获得该候选推荐用户分别对应各指定社交属性的相似度,进而获得各个候选推荐用户分别对应各指定社交属性的相似度,然后进入步骤III-3。
上述步骤III-2中,诸如基于三个指定社交属性信息,基本属性、社交地址、社交标签分别所对应预设相似度彼此一直,均为1/3,关于候选推荐用户所对应指定社交属性信息与待推荐目标用户所对应该指定社交属性信息之间的判断设计中,若彼此间不存在相同数据,则定义该候选推荐用户所对应该指定社交属性的相似度为0;若彼此间仅存在一项相同数据,则定义该候选推荐用户所对应该指定社交属性的相似度为预设相似度的一半,即为1/6;若彼此间存在至少两项相同数据,则定义该候选推荐用户所对应该指定社交属性的相似度为预设相似度,即为1/3。
步骤III-3.分别针对各个候选推荐用户,根据候选推荐用户对应各指定社交属性的相似度,按求和方式获得该候选推荐用户相较待推荐目标用户的相似度,进而获得各个候选推荐用户分别相较待推荐目标用户的相似度。
步骤IV.按相似度由大至小,针对各个候选推荐用户进行排序,并顺序选择其中前预设第二数量个候选推荐用户,作为与待推荐目标用户相似的各个用户进行推荐。
将本发明所设计基于知识图谱表示学习的相似人物推荐方法,应用于实际当中,具体按如下步骤执行。
步骤A.基于如图2所示的社交知识图谱,根据用户点中包含的信息,可提取三个维度的信息,其中社交属性包括:出生年代、学历、婚姻、身高等;社交标签包括:用户行为、身份、职业等;社交地址包括:籍贯、住址、登录地址等;社交关系包括同事、同学、父子、母女等关系,针对上述信息执行RDF数据提取,获得各用户分别所对应的社交属性RDF数据,然后进入步骤B。
步骤B.以用户为点、用户彼此之间关系为边,基于各用户分别所对应的社交属性RDF数据,构建各用户分别所对应的点数据文件entity2id.txt,以及各用户之间关系分别所对应的边数据文件relation2id.txt;并进一步基于各点数据与各边数据,构建各个三元组结构数据文件triple.txt,如下表1所示,然后进入步骤C;
表1
Figure GDA0002981942440000081
接下来执行步骤C、步骤D,即采用TransD表示学习模型,设置模型参数:learning_rate=0.0001,l1_flag=True,hidden_size=30,batch_size=256,epochs=3000000;输入的数据为三元组数据,每一轮次的训练数据在正确三元组中随机有放回抽取256条,在正确的256条三元组中随机抽取头实体、尾实体和边关系组成256条错误的三元组数据,将正确的三元组数据和错误的三元组数据作为一个批度的输入数据,根据TransD损失函数计算公式获取每一批尺度训练结果的loss值,利用梯度下降算法寻找模型最优参数解。经过不断迭代训练,最终得到一个包含所有点边向量的表示学习模型,并根据模型结果过滤保存实体关系向量如表2所示:
表2
Figure GDA0002981942440000082
接着执行步骤E.并结合实际应用中用户id与聚类索引id之间的对应关系,获得的索引信息如下表3所示。
表3
Figure GDA0002981942440000091
进一步可以设计添加所有人物点的索引信息,并将聚类索引id和用户id存储至sqlite中,方便后续推荐工作。针对索引信息,设置聚类树个数为80构建索引,并将其结果作为索引文件进行保存,聚类索引文件在模型周期性训练更新完成后一同更新为最新的结果。
在步骤I至步骤IV,针对社交知识图谱中的待推荐目标用户,实现社交知识图谱中与之相似用户的推荐的操作中,执行步骤I、步骤II,诸如获得最近距离的30个候选推荐用户。
接着执行步骤III、步骤IV,查询社交知识图谱中30个候选推荐节点对应的社交属性、社交标签和社交地址信息。设置相似度为1,社交属性、社交标签、社交地址三个维度各占1/3,对待推荐节点和候选节点进行相同属性、相同标签、相同地址过滤筛选,每个维度相似度计算公式如下:
Figure GDA0002981942440000092
其中,i表示社交属性(propertity)或社交标签(label)或社交地址(addr);samei表示相同地址或相同标签或相同社交的个数。
通过上述公式计算出,001和003在社交属性维度的相似度similarityproperty=1/3,在社交标签维度的相似度similaritylabel=1/6,在社交地址维度的相似度similarityaddr=1/6,因此001和003的整体相似度为2/3。001和005在社交属性维度的相似度similarityproperty=1/3,在社交标签维度的相似度similaritylabel=1/3,在社交地址维度的相似度similarityaddr=1/6,因此,001和005的整体相似度为5/6。根据相似度降序排序,与001最相似的人物是005,其次是003。
上述技术方案所设计基于知识图谱表示学习的相似人物推荐方法,采用全新设计策略,能够适用于大规模社交网络,应对庞大社交网络中存在的大量语义信息,捕捉到社交网络中的语义联系,并应用社交知识图谱进行知识推理;所设计相似人物推荐方法包括社交用户信息处理、表示学习模型训练、实体关系向量中人物点向量的聚类索引、相似人物推荐,其中,采用TransD表示学习算法对知识图谱中全量实体、关系进行知识表示学习,更深层次挖掘图谱中隐含的语义信息;对于大规模的人物点向量,采用Annoy快速计算距离算法进行相似人物的聚类,由于实体关系向量考虑了图谱中的语义,为聚类提供了强有力的信息支撑;并且针对社交知识图谱增量更新情况,设计表示学习推荐算法进行周期性训练,保持推荐结果的鲜活性;整个设计方法能够有效提高人物相似度检测精度,获得更加准确的相似人物推荐效果。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (5)

1.一种基于知识图谱表示学习的相似人物推荐方法,其特征在于,基于包含各用户分别所对应各指定社交属性信息的社交知识图谱,按预设周期执行如下步骤A至步骤E,获得社交知识图谱中用户的聚类结果;进而按如下步骤I至步骤IV,针对社交知识图谱中的待推荐目标用户,实现社交知识图谱中与之相似用户的推荐;
步骤A.针对社交知识图谱中各用户分别所对应的各指定社交属性,执行RDF数据提取,获得各用户分别所对应的社交属性RDF数据,然后进入步骤B;
步骤B.以用户为点、用户彼此之间关系为边,基于各用户分别所对应的社交属性RDF数据,构建各用户分别所对应的点数据,以及各用户之间关系分别所对应的边数据;并进一步基于各点数据与各边数据,构建各个三元组结构数据,然后进入步骤C;
步骤C.构建以三元组结构数据为输入,以包含实体向量与关系向量的实体关系向量为输出的表示学习模型,并应用各个三元组结构数据,结合相应损失函数,针对表示学习模型进行训练,获得实体关系向量获得模型,然后进入步骤D;其中,实体向量中包括各个用户分别所对应的人物点向量;
步骤D.根据各个三元组结构数据,应用表示学习获得的实体关系向量模型,获得实体关系向量中实体向量内各个用户分别所对应的人物点向量,然后进入步骤E;
步骤E.根据人物点向量之间的距离,针对各个人物点向量进行聚类,获得各个聚类、以及各聚类中相应各个用户,构成社交知识图谱中用户的聚类结果;
步骤I.根据社交知识图谱中用户的聚类结果,获得待推荐目标用户所对应的聚类,作为待推荐目标用户所对应的待处理聚类,然后进入步骤II;
步骤II.针对待处理聚类中除待推荐目标用户所对应人物点向量以外的其余各个人物点向量,按其分别与待推荐目标用户所对应人物点向量之间距离,进行由小至大排序,并顺序选择其中前预设第一数量个人物点向量,获得分别所对应的用户,作为各个候选推荐用户,然后进入步骤III;
步骤III.获得各个候选推荐用户分别所对应的各指定社交属性信息,根据待推荐目标用户与候选推荐用户之间分别基于各指定社交属性的相同项比较,结合各指定社交属性分别所对应的预设相似度,获得各个候选推荐用户分别相较待推荐目标用户的相似度,然后进入步骤IV;
步骤IV.按相似度由大至小,针对各个候选推荐用户进行排序,并顺序选择其中前预设第二数量个候选推荐用户,作为与待推荐目标用户相似的各个用户进行推荐。
2.根据权利要求1所述一种基于知识图谱表示学习的相似人物推荐方法,其特征在于:
所述步骤C包括如下步骤C1至步骤C2;
步骤C1.应用TransD算法构建以三元组结构数据为输入,实体关系向量为输出的表示学习模型如下:
h=Mrhh,t=Mrtt
Figure FDA0002981942430000021
其中,Mrh为头实体映射矩阵,Mrt为尾实体映射矩阵;h为三元组结构数据中头实体由Mrh映射后的头实体向量,t为三元组结构数据中尾实体由Mrt映射后的尾实体向量;h为三元组结构数据中头实体编码所对应的头实体向量,t为三元组结构数据中尾实体编码所对应的尾实体向量;rp为关系向量,
Figure FDA0002981942430000022
为头实体映射向量,
Figure FDA0002981942430000023
为尾实体映射向量,Im×n是单位矩阵;
并且构建相应的损失函数如下:
Figure FDA0002981942430000024
其中,r表示关系向量,l1表示l1范数,l2表示l2范数,然后进入步骤C2;
步骤C2.按预设学习率、loss值设置、实体和关系的词向量长度、每个批度输入的三元组个数、以及训练轮次,结合损失函数,针对表示学习模型进行训练,获得实体关系向量获得模型。
3.根据权利要求1所述一种基于知识图谱表示学习的相似人物推荐方法,其特征在于,所述步骤III包括如下步骤III-1至步骤III-3:
步骤III-1.获得各个候选推荐用户分别所对应的各指定社交属性信息,然后进入步骤III-2;
步骤III-2.分别针对各个候选推荐用户,并进一步分别针对各指定社交属性,针对候选推荐用户所对应指定社交属性信息与待推荐目标用户所对应该指定社交属性信息:
若彼此间不存在相同数据,则定义该候选推荐用户所对应该指定社交属性的相似度为0;
若彼此间仅存在一项相同数据,则定义该候选推荐用户所对应该指定社交属性的相似度为预设相似度的一半;
若彼此间存在至少两项相同数据,则定义该候选推荐用户所对应该指定社交属性的相似度为预设相似度;
由上述获得该候选推荐用户分别对应各指定社交属性的相似度,进而获得各个候选推荐用户分别对应各指定社交属性的相似度,然后进入步骤III-3;
步骤III-3.分别针对各个候选推荐用户,根据候选推荐用户对应各指定社交属性的相似度,按求和方式获得该候选推荐用户相较待推荐目标用户的相似度,进而获得各个候选推荐用户分别相较待推荐目标用户的相似度。
4.根据权利要求1至3中任意一项所述一种基于知识图谱表示学习的相似人物推荐方法,其特征在于:所述步骤B中所构建点数据的格式为:点编码+\t+点编号,所构建边数据的格式为:边编码+\t+边编号,所构建三元组结构数据的格式为:头实体点编码+\t+尾实体编码+\t+边关系编码,其中,\ t表示跳格转义字符。
5.根据权利要求1至3中任意一项所述一种基于知识图谱表示学习的相似人物推荐方法,其特征在于:所述步骤E中,应有Annoy快速计算距离算法,获得人物点向量之间的距离。
CN202110080743.4A 2021-01-21 2021-01-21 一种基于知识图谱表示学习的相似人物推荐方法 Active CN112417317B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110080743.4A CN112417317B (zh) 2021-01-21 2021-01-21 一种基于知识图谱表示学习的相似人物推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110080743.4A CN112417317B (zh) 2021-01-21 2021-01-21 一种基于知识图谱表示学习的相似人物推荐方法

Publications (2)

Publication Number Publication Date
CN112417317A CN112417317A (zh) 2021-02-26
CN112417317B true CN112417317B (zh) 2021-05-04

Family

ID=74783110

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110080743.4A Active CN112417317B (zh) 2021-01-21 2021-01-21 一种基于知识图谱表示学习的相似人物推荐方法

Country Status (1)

Country Link
CN (1) CN112417317B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239203A (zh) * 2021-06-02 2021-08-10 北京金山数字娱乐科技有限公司 一种基于知识图谱的筛选方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255033A (zh) * 2018-11-05 2019-01-22 桂林电子科技大学 一种基于位置服务领域的知识图谱的推荐方法
CN110851613A (zh) * 2019-09-09 2020-02-28 中国电子科技集团公司电子科学研究院 基于实体概念的知识图谱补全、推演、存储方法及装置
CN112102029A (zh) * 2020-08-20 2020-12-18 浙江大学 一种基于知识图谱的长尾推荐计算方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255033A (zh) * 2018-11-05 2019-01-22 桂林电子科技大学 一种基于位置服务领域的知识图谱的推荐方法
CN110851613A (zh) * 2019-09-09 2020-02-28 中国电子科技集团公司电子科学研究院 基于实体概念的知识图谱补全、推演、存储方法及装置
CN112102029A (zh) * 2020-08-20 2020-12-18 浙江大学 一种基于知识图谱的长尾推荐计算方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
改进的依赖三元核提取微博人物关系;杨岸桢等;《现代计算机》;20160612(第11期);第30-32、54页 *

Also Published As

Publication number Publication date
CN112417317A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN105893609B (zh) 一种基于加权混合的移动app推荐方法
CN108595696A (zh) 一种基于云平台的人机交互智能问答方法和系统
CN107122455A (zh) 一种基于微博的网络用户增强表示方法
CN107506486A (zh) 一种基于实体链接的关系扩充方法
CN111523010A (zh) 推荐方法、装置、终端设备及计算机存储介质
CN104866471B (zh) 一种基于局部敏感哈希策略的实例匹配方法
CN107871158A (zh) 一种结合序列文本信息的知识图谱表示学习方法及装置
CN110196945B (zh) 一种基于LSTM与LeNet融合的微博用户年龄预测方法
CN106960001A (zh) 一种检索词的实体链接方法及系统
CN108874783A (zh) 电力信息运维知识模型构建方法
CN107145485A (zh) 用于压缩主题模型的方法和装置
CN110555208A (zh) 一种信息查询中的歧义消除方法、装置及电子设备
CN110909172B (zh) 一种基于实体距离的知识表示学习方法
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
CN114444507A (zh) 基于水环境知识图谱增强关系的上下文参数中文实体预测方法
CN109446414A (zh) 一种基于神经网络分类的软件信息站点快速标签推荐方法
Zubiaga et al. Content-based clustering for tag cloud visualization
CN110795613B (zh) 商品搜索方法、装置、系统及电子设备
CN110990670A (zh) 一种成长激励型图书推荐方法及推荐系统
CN111611801A (zh) 一种识别文本地域属性的方法、装置、服务器及存储介质
CN107862322A (zh) 结合图片和文本进行图片属性分类的方法、装置及系统
CN112417317B (zh) 一种基于知识图谱表示学习的相似人物推荐方法
CN114528413B (zh) 众包标注支持的知识图谱更新方法、系统和可读存储介质
Gu et al. Towards facial expression recognition in the wild via noise-tolerant network
CN105808729B (zh) 基于论文间引用关系的学术大数据分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant