CN117056523A - 表征学习方法、装置、设备、存储介质及计算机程序产品 - Google Patents

表征学习方法、装置、设备、存储介质及计算机程序产品 Download PDF

Info

Publication number
CN117056523A
CN117056523A CN202210737770.9A CN202210737770A CN117056523A CN 117056523 A CN117056523 A CN 117056523A CN 202210737770 A CN202210737770 A CN 202210737770A CN 117056523 A CN117056523 A CN 117056523A
Authority
CN
China
Prior art keywords
triplet
entity
vector
token
tail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210737770.9A
Other languages
English (en)
Inventor
谢思发
程序
李雪莲
聂丰
叶志秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Network Information Technology Co Ltd
Original Assignee
Shenzhen Tencent Network Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Network Information Technology Co Ltd filed Critical Shenzhen Tencent Network Information Technology Co Ltd
Priority to CN202210737770.9A priority Critical patent/CN117056523A/zh
Publication of CN117056523A publication Critical patent/CN117056523A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本申请公开一种表征学习方法、装置、设备、存储介质及计算机程序产品,其相关实施例可应用于人工智能等场景。方法包括:对知识图谱包括的多个三元组进行划分处理,得到第一三元组集合以及第二三元组集合;基于第一三元组集合中各个三元组对应的表征向量组,确定第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离;基于第二三元组集合中各个三元组对应的表征向量组,确定第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离;根据第一距离以及第二距离,确定知识图谱包括的各个三元组中头实体、关系以及尾实体的目标表征向量;可提高知识图谱表征学习的准确性。

Description

表征学习方法、装置、设备、存储介质及计算机程序产品
技术领域
本申请涉及人工智能领域,尤其涉及一种表征学习方法、装置、设备、存储介质及计算机程序产品。
背景技术
表征学习是指将原始数据转换成为能够被机器学习来有效开发的一种技术的集合;知识图谱表征学习可以基于知识图谱所包含的结构信息(即知识图谱包括的三元组的相关信息),学习知识图谱包括的三元组中头实体、关系以及尾实体的表征;如何提高知识图谱表征学习的准确性,即如何提高知识图谱包括的三元组中头实体、关系以及尾实体的表征的准确性是当前的研究热点。
发明内容
本申请实施例提供一种表征学习方法、装置、设备、存储介质及计算机程序产品,可提高知识图谱表征学习的准确性。
一方面,本申请实施例提供了一种表征学习方法,包括:
对知识图谱包括的多个三元组进行划分处理,得到第一三元组集合以及第二三元组集合;三元组包括头实体、关系和尾实体,所述第一三元组集合中第一尾实体的种类,多于所述第二三元组集合中第二尾实体的种类,所述第一尾实体包括:与所述第一三元组集合中同一种关系相连的尾实体,所述第二尾实体包括:与所述第二三元组集合中同一种关系相连的尾实体;
提取所述第一三元组集合以及所述第二三元组集合中,各个三元组对应的表征向量组;三元组对应的表征向量组包括:头实体的表征向量、关系的表征向量以及尾实体的表征向量;
基于所述第一三元组集合中各个三元组对应的表征向量组,确定所述第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离;
基于所述第二三元组集合中各个三元组对应的表征向量组,确定所述第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离;
根据所述第一三元组集合中各个三元组对应的第一距离以及所述第二三元组集合中各个三元组对应的第二距离,确定所述知识图谱包括的各个三元组对应的目标表征向量组;三元组对应的目标表征向量组包括:头实体的目标表征向量、关系的目标表征向量以及尾实体的目标表征向量。
一方面,本申请实施例提供了一种表征学习装置,包括:
划分单元,用于对知识图谱包括的多个三元组进行划分处理,得到第一三元组集合以及第二三元组集合;三元组包括头实体、关系和尾实体,所述第一三元组集合中第一尾实体的种类,多于所述第二三元组集合中第二尾实体的种类,所述第一尾实体包括:与所述第一三元组集合中同一种关系相连的尾实体,所述第二尾实体包括:与所述第二三元组集合中同一种关系相连的尾实体;
训练单元,用于提取所述第一三元组集合以及所述第二三元组集合中,各个三元组对应的表征向量组;三元组对应的表征向量组包括:头实体的表征向量、关系的表征向量以及尾实体的表征向量;
所述训练单元,还用于基于所述第一三元组集合中各个三元组对应的表征向量组,确定所述第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离;
所述训练单元,还用于基于所述第二三元组集合中各个三元组对应的表征向量组,确定所述第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离;
所述训练单元,还用于根据所述第一三元组集合中各个三元组对应的第一距离以及所述第二三元组集合中各个三元组对应的第二距离,确定所述知识图谱包括的各个三元组对应的目标表征向量组;三元组对应的目标表征向量组包括:头实体的目标表征向量、关系的目标表征向量以及尾实体的目标表征向量。
一方面,本申请实施例提供了一种表征学习设备,其特征在于,所述表征学习设备包括输入接口和输出接口,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行上述表征学习方法。
一方面,本申请实施例提供了一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行上述表征学习方法。
一方面,本申请实施例提供了一种计算机程序产品,计算机程序产品包括计算机程序,该计算机程序存储在计算机存储介质中;表征学习设备的处理器从计算机存储介质中读取该计算机程序,处理器执行该计算机程序,使得表征学习设备执行上述表征学习方法。
本申请实施例中,可以对知识图谱包括的多个三元组进行划分处理,得到第一三元组集合以及第二三元组集合,其中,第一三元组集合中与任意一种关系相连的尾实体的种类,多于第二三元组集合中与任意一种关系相连的尾实体的种类;然后可以基于提取得到的第一三元组集合中各个三元组对应的表征向量组,确定第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离,基于提取得到的第二三元组集合中各个三元组对应的表征向量组,确定第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离,其中,三元组对应的表征向量组包括:头实体的表征向量、关系的表征向量以及尾实体的表征向量;进而根据第一三元组集合中各个三元组对应的第一距离以及第二三元组集合中各个三元组对应的第二距离,确定知识图谱包括的各个三元组对应的目标表征向量组。由于划分得到的第一三元组集合中,与任意一种关系相连的尾实体的种类较多,那么,在头实体的种类固定的情况下,基于该任意一种关系与任意一种尾实体相连的头实体的数量相对较少,针对此种情况,基于平移思想所指示的三元组中头实体和关系的表征向量和应该接近尾实体的表征向量,可以通过限制三元组中头实体和关系的表征向量和,指向尾实体的表征向量的第一距离来准确地对三元组中实体和关系进行表征学习;由于划分得到的第二三元组集合中,与任意一种关系相连的尾实体的种类较少,那么,在头实体的种类固定的情况下,基于该任意一种关系与任意一种尾实体相连的头实体的数量相对较多,针对此种情况,可以基于聚类思想,通过限制三元组中头实体的表征向量,指向尾实体的表征向量的第二距离的大小,对三元组中实体和关系进行表征学习,可以保证基于该任意一种关系与该任意一种尾实体相连的头实体分布在以该任意一种尾实体为中心的超平面内,在对基于该任意一种关系与该任意一种尾实体相连的头实体进行表征学习时,可以保留不同头实体所具有的空间分布信息,可以保证学习得到的不同头实体的目标表征向量之间的区分度,进而提高知识图谱表征学习的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种特征提取模型的结构示意图;
图2是本申请实施例提供的一种表征学习方法的流程示意图;
图3a是本申请实施例提供的一种第一三元组集合中的三元组需满足的平移思想的示意图;
图3b是本申请实施例提供的一种第二三元组集合中的三元组需满足的聚类思想的示意图;
图4是本申请实施例提供的另一种表征学习方法的流程示意图;
图5是本申请实施例提供的另一种表征学习方法的流程示意图;
图6是本申请实施例提供的一种训练句子表征提取模型的示意图;
图7a是本申请实施例提供的一种同一品类下不同画风的游戏对比图;
图7b是本申请实施例提供的一种基于训练后的残差网络模型提取图像信息所具有的画风标签的示意图;
图8a是本申请实施例提供的另一种特征提取模型的结构示意图;
图8b是本申请实施例提供的另一种特征提取模型的结构示意图;
图9是本申请实施例提供的另一种表征学习方法的流程示意图;
图10a是本申请实施例提供的一种采用平移模型得到的目标表征向量的投影示意图;
图10b是本申请实施例提供的一种在采用聚类思想并引入多模态信息的情况下得到的目标表征向量的投影示意图;
图11是本申请实施例提供的一种游戏推广的示意图;
图12是本申请实施例提供的一种表征学习装置的结构示意图;
图13是本申请实施例提供的一种表征学习设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术(Computer Vision,CV)、语音处理技术、自然语言处理技术以及机器学习(Machine Learning,ML)/深度学习(Deep Learning,DL)等几大方向。
其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
基于上述所提及的机器学习技术,本申请实施例提供了一种表征学习方案,可以对知识图谱包括的多个三元组进行划分处理,得到第一三元组集合以及第二三元组集合,其中,第一三元组集合中与任意一种关系相连的尾实体的种类,多于第二三元组集合中与任意一种关系相连的尾实体的种类;然后可以基于提取得到的第一三元组集合中各个三元组对应的表征向量组,确定第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离,基于提取得到的第二三元组集合中各个三元组对应的表征向量组,确定第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离,其中,三元组对应的表征向量组包括:头实体的表征向量、关系的表征向量以及尾实体的表征向量;进而根据第一三元组集合中各个三元组对应的第一距离以及第二三元组集合中各个三元组对应的第二距离,确定知识图谱包括的各个三元组对应的目标表征向量组。
在具体实现中,本申请提出的表征学习方案可以由表征学习设备执行,该表征学习设备可以为终端设备或者服务器;此处的终端设备可包括但不限于:计算机、智能手机、平板电脑、笔记本电脑、智能语音交互设备、智能家电、车载终端、智能可穿戴设备等;此处的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一个实施例中,三元组包括头实体、关系和尾实体,可以表征实体之间的关系,例如三元组(游戏A,画风,像素),可以表征头实体游戏A与尾实体像素之间的关系为画风,也就是说,游戏A的画风是像素,又如三元组(游戏B,画风,国风),可以表征头实体游戏B与尾实体国风之间的关系为画风,也就是说,游戏B的画风是国风;知识图谱可以是任意领域的知识图谱,例如,可以是医疗领域的知识图谱、金融领域的知识图谱、游戏领域的知识图谱,等等;为了便于阐述,本申请实施例后续以知识图谱为游戏领域的游戏知识图谱展开叙述。当知识图谱为游戏领域的游戏知识图谱时,该游戏知识图谱可以为包含有游戏的属性知识的知识图谱,可以从不同属性维度对游戏进行衡量,例如,可以包含有与游戏相关的属性,例如开发商、发行商、品类、题材、画风、发行年份、视角、平台,等等;该游戏知识图谱包括的三元组中的头实体为游戏,关系为游戏所具有的属性,尾实体为具体的属性值,举例来说,若平台属性对应的属性值分别包括为平台1、平台2以及平台3,三元组(游戏A,平台,平台1)可以表征游戏A的发行平台为平台1;举例来说,若游戏A是2022年由开发商1开发、发行商1在平台1中发行的像素游戏,则与游戏A相关的三元组可以包括:(游戏A,开发商,开发商1)、(游戏A,发行商,发行商1)、(游戏A、发行年份、2022年)、(游戏A、画风、像素)。
在一个实施例中,三元组对应的表征向量组可以包括:头实体的表征向量、关系的表征向量以及尾实体的表征向量;三元组对应的表征向量组可以是通过特征提取模型提取到的,参见图1,为本申请实施例提供的一种特征提取模型的结构示意图,该特征提取模型可以包括第一特征提取模块、第二特征提取模块以及第三特征提取模块,其中,任意特征提取模块可以包括特征嵌入层(可以为Embedding Layer)以及全连接层(可以为FullyConnected Layer),特征嵌入层用于将实体或者关系映射为嵌入向量,全连接层用于统一实体或者关系的嵌入向量的维度,以得到实体或者关系的表征向量;可选的,第一特征提取模块可以用于提取三元组中头实体的表征向量,第二特征提取模块可以用于提取三元组中关系的表征向量,第三特征提取模块可以用于提取三元组中尾实体的表征向量。
特别需要说明的是,在本申请的具体实施方式中,涉及到用户相关的数据,例如在知识图谱中三元组为从用户相关的文本信息、图像信息、音频信息等提取得到的情况下,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守当地法律法规和标准。
基于上述表征学习方案,本申请实施例提供了一种表征学习方法。参见图2,为本申请实施例提供的一种表征学习方法的流程示意图。图2所示的表征学习方法可由表征学习设备执行,也可以由任意有计算力的设备执行。图2所示的表征学习方法可包括如下步骤:
S201,对知识图谱包括的多个三元组进行划分处理,得到第一三元组集合以及第二三元组集合。
其中,三元组包括头实体、关系和尾实体;划分得到的第一三元组集合中第一尾实体的种类,多于第二三元组集合中第二尾实体的种类,第一尾实体包括:与第一三元组集合中同一种关系相连的尾实体,第二尾实体包括:与第二三元组集合中同一种关系相连的尾实体;也就是说,划分得到的第一三元组集合中与任意一种关系相连的尾实体的种类,多于第二三元组集合中与任意一种关系相连的尾实体的种类,也就是说,划分得到的第一三元组集合中与任意一种关系相连的尾实体的值域,多于第二三元组集合中与任意一种关系相连的尾实体的值域,以知识图谱为游戏领域的游戏知识图谱为例,该游戏知识图谱包括的三元组中的头实体为游戏,关系为游戏所具有的属性,尾实体为具体的属性值,则划分得到的第一三元组集合中与任意一种关系相连的尾实体的种类,多于第二三元组集合中与任意一种关系相连的尾实体的种类可以理解为:划分得到的第一三元组集合中任意属性具有的属性值,多于第二三元组集合中任意属性具有的属性值。
在一个实施例中,表征学习设备对知识图谱包括的多个三元组进行划分处理,得到第一三元组集合以及第二三元组集合,可以包括:针对知识图谱中任一种关系,统计知识图谱中,与该任一种关系相连的尾实体的种类;若与该任一种关系相连的尾实体的种类大于预设种类阈值,则将知识图谱中包括该任一种关系的三元组划分到第一三元组集合中,若与该任一种关系相连的尾实体的种类小于或等于预设种类阈值,则将知识图谱中包括该任一种关系的三元组划分至第二三元组集合中。举例来说,若知识图谱为游戏领域的游戏知识图谱,游戏知识图谱中包括的各种关系为从不同维度对游戏进行衡量的属性,具体包括:开发商、发行商、品类、题材、画风、发行年份、视角、平台,若统计游戏知识图谱中与各种关系相连的尾实体的种类,即统计游戏知识图谱中与各种关系相连的尾实体的值域,即统计游戏知识图谱中各种属性具有的属性值的数量分别为:开发商37556个、发行商61331个、品类174个、题材105个、画风17个、发行年份15个、视角9个、平台3个,若预设种类阈值为100,则可以将游戏知识图谱中,包括的关系为开发商、发行商、品类以及题材的三元组划分到第一三元组集合中,可以将游戏知识图谱中,包括的关系为画风、发行年份、视角以及平台的三元组划分到第二三元组集合中。
S202,提取第一三元组集合以及第二三元组集合中,各个三元组对应的表征向量组。
在一个实施例中,三元组对应的表征向量组包括:头实体的表征向量、关系的表征向量以及尾实体的表征向量;可以通过图1所示的特征提取模型提取第一三元组集合以及第二三元组集合中,任一三元组对应的表征向量组,具体的,可以通过第一特征提取模块提取三元组中头实体的表征向量,通过第二特征提取模块提取三元组中关系的表征向量,通过第三特征提取模块提取三元组中尾实体的表征向量。
S203,基于第一三元组集合中各个三元组对应的表征向量组,确定第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离。
S204,基于第二三元组集合中各个三元组对应的表征向量组,确定第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离。
步骤S203至步骤S204中,三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离、以及三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离,可以为余弦距离、欧式距离或者自定义距离,等等,本申请实施例不做限制。
S205,根据第一三元组集合中各个三元组对应的第一距离以及第二三元组集合中各个三元组对应的第二距离,确定知识图谱包括的各个三元组对应的目标表征向量组。
在一个实施例中,三元组对应的目标表征向量组包括:头实体的目标表征向量、关系的目标表征向量以及尾实体的目标表征向量;表征学习设备根据第一三元组集合中各个三元组对应的第一距离以及第二三元组集合中各个三元组对应的第二距离,确定知识图谱包括的各个三元组对应的目标表征向量组,可以包括:获取第二三元组集合中各个三元组对应的参考分布半径;朝着减小第一三元组集合中各个三元组对应的第一距离、以及控制第二三元组集合中各个三元组对应的第二距离,小于或等于相应参考分布半径的方向,对特征提取模型进行迭代训练,得到训练后的特征提取模型;通过训练后的特征提取模型,提取知识图谱包括的各个三元组对应的表征向量组,作为相应三元组对应的目标表征向量组。
其中,三元组对应的参考分布半径与三元组包括的关系有关,一种关系与一个参考分布半径对应,也就是说,三元组对应的参考分布半径可以为三元组中的关系对应的参考分布半径;在一种可行的实施方式中,可以根据具体需求对不同关系对应的参考分布半径进行设定,通常来说,可以对区分度较小的关系设定较大的参考分布半径,对区分度较大的关系设定较小的参考分布半径;以知识图谱为游戏领域的游戏知识图谱为例,由于关系可以表征头实体所具有的属性,也就是说可以对区分度较小的属性设定较大的参考分布半径,对区分度较大的属性设定较小的参考分布半径;属性的区分度可以描述属性值不同(即尾实体不同)时,对学习到的头实体的目标表征向量的影响,区分度较小的属性,不同属性值对学习到的头实体的目标表征向量的影响较小,区分度较大的属性,不同属性值对学习到的头实体的目标表征向量的影响较大,举例来说,相较来说,游戏的平台属性并不能很好地对游戏进行区分,但游戏的画风属性能较好地对游戏进行区分,所以可以针对平台属性设定较大的参考分布半径,针对画风属性设定较小的参考分布半径。
进一步的,表征学习设备可以朝着减小第一三元组集合中各个三元组对应的第一距离、以及控制第二三元组集合中各个三元组对应的第二距离,小于或等于相应参考分布半径的方向,对特征提取模型进行迭代训练。在特征提取模型的训练过程中,针对第一三元组集合中各个三元组引入了平移思想所指示的三元组中头实体和关系的表征向量和应该接近尾实体的表征向量,也就是说,针对第一三元组集合中的三元组,可以朝着使头实体和关系的表征向量和,靠近尾实体的表征向量的方向来对特征提取模型进行训练,因此,可以用三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离,来表征头实体和关系的表征向量和,与尾实体的表征向量的接近程度,进而可以朝着减小三元组对应的第一距离的方向来对特征提取模型进行训练。针对第二三元组集合中各个三元组引入了聚类思想,即基于任意一种关系与任意一种尾实体相连的头实体分布在以该任意一种尾实体为中心的超平面内,也就是说,与一个属性值相连的头实体分布在以该属性值为中心的超平面内,例如,平台属性为平台1的游戏应该分布在以平台1为中心的超平面内,不会分布在以像素为中心的超平面内;画风属性为国风和古风的游戏应该分布在以国风为中心的超平面内,也应该分布在以古风为中心的超平面内,但不会分布在以平台1为中心的超平面内;同时,基于任意一种关系与任意一种尾实体相连的头实体,在以该任意一种尾实体为中心的超平面内的分布半径,应该为该任意一种关系对应的参考分布半径,即基于任意一种关系与任意一种尾实体相连的头实体分布在以该任意一种尾实体为中心,半径小于或等于该任意一种关系对应的参考分布半径的超平面内,所以可以通过控制第二三元组集合中三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离来对特征提取模型进行训练。
进一步的,表征学习设备可以通过训练后的特征提取模型,提取知识图谱包括的各个三元组对应的表征向量组,作为相应三元组对应的目标表征向量组,也就是说,可以通过训练后的特征提取模型,提取知识图谱包括的各个三元组中头实体的表征向量、关系的表征向量以及尾实体的表征向量,作为相应三元组中头实体的目标表征向量、关系的目标表征向量以及尾实体的目标表征向量,得到相应三元组的目标表征向量组。该训练后的特征提取模型是基于平移思想与聚类思想共同训练得到的,针对同一个头实体来说,若包括该头实体的多个三元组中,一部分三元组被划分到第一三元组集合中,一部分三元组被划分到第二三元组集合中,那么学习到的该头实体的目标表征向量能够同时满足平移思想和聚类思想中所指示的特征;聚类思想的引入,在对三元组进行表征学习过程中,可以保留三元组中头实体与尾实体的空间分布信息,保留不同种关系带来的区分度,在基于任意一种关系与任意一种尾实体相连的头实体的数量相对较多的情况下,可以很好地解决只引入平移思想进行表征学习时,不同头实体的目标表征向量的特征空间坍缩问题;也就是说,由于划分得到的第二三元组集合中,与任意一种关系相连的尾实体的种类较少,那么,在头实体的种类固定的情况下,基于该任意一种关系与任意一种尾实体相连的头实体的数量相对较多,可以将该种情况称为“多对一问题”,而平移思想指示三元组中头实体和关系的表征向量和应该接近尾实体的表征向量,使得学习得到的不同头实体的目标表征向量相似,区分度不足,分布在一个较小的空间内,即特征空间坍缩问题。
参见图3a,为本申请实施例提供的一种第一三元组集合中的三元组需满足的平移思想的示意图;其中,第一三元组集合中三元组的分布关系可以如301标记所示,一个三元组中的头实体可以如302标记所示,该一个三元组中的关系可以如303标记所示,该一个三元组中的尾实体可以如304标记所示,该一个三元组所需满足的平移思想可以如305标记所示,其中,h1表示该一个三元组中的头实体,r1表示该一个三元组中的关系,t1表示该一个三元组中的尾实体。参见图3b,为本申请实施例提供的一种第二三元组集合中的三元组需满足的聚类思想的示意图;其中,第二三元组集合中三元组的分布关系可以如311标记所示,如312标记所示为一种尾实体,如313标记所示为基于一种关系与该一种尾实体相连的一个头实体,如314标记所示为该一种关系;若如312标记所示的一种尾实体为平台1,对应的关系为平台,如315标记所示的一种尾实体为像素,对应的关系为画风,则基于关系平台与尾实体平台1相连的头实体分布在以尾实体平台1为中心,半径小于或等于关系平台对应的参考分布半径的超平面内,可以如316标记所示,基于关系画风与尾实体像素相连的头实体分布在以尾实体像素为中心,半径小于或等于关系画风对应的参考分布半径的超平面内,可以如317标记所示,并且,由于游戏的平台属性并不能很好地对游戏进行区分,但游戏的画风属性能较好地对游戏进行区分,关系平台对应的参考分布半径R1大于关系像素对应的参考分布半径R2
本申请实施例中,可以对知识图谱包括的多个三元组进行划分处理,得到第一三元组集合以及第二三元组集合,其中,第一三元组集合中与任意一种关系相连的尾实体的种类,多于第二三元组集合中与任意一种关系相连的尾实体的种类;然后可以基于提取得到的第一三元组集合中各个三元组对应的表征向量组,确定第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离,基于提取得到的第二三元组集合中各个三元组对应的表征向量组,确定第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离,其中,三元组对应的表征向量组包括:头实体的表征向量、关系的表征向量以及尾实体的表征向量;进而根据第一三元组集合中各个三元组对应的第一距离以及第二三元组集合中各个三元组对应的第二距离,确定知识图谱包括的各个三元组对应的目标表征向量组。由于划分得到的第一三元组集合中,与任意一种关系相连的尾实体的种类较多,那么,在头实体的种类固定的情况下,基于该任意一种关系与任意一种尾实体相连的头实体的数量相对较少,针对此种情况,基于平移思想所指示的三元组中头实体和关系的表征向量和应该接近尾实体的表征向量,可以通过限制三元组中头实体和关系的表征向量和,指向尾实体的表征向量的第一距离来准确地对三元组中实体和关系进行表征学习;由于划分得到的第二三元组集合中,与任意一种关系相连的尾实体的种类较少,那么,在头实体的种类固定的情况下,基于该任意一种关系与任意一种尾实体相连的头实体的数量相对较多,针对此种情况,可以基于聚类思想,通过限制三元组中头实体的表征向量,指向尾实体的表征向量的第二距离的大小,对三元组中实体和关系进行表征学习,可以保证基于该任意一种关系与该任意一种尾实体相连的头实体分布在以该任意一种尾实体为中心的超平面内,在对基于该任意一种关系与该任意一种尾实体相连的头实体进行表征学习时,可以保留不同头实体所具有的空间分布信息,可以保证学习得到的不同头实体的目标表征向量之间的区分度,进而提高知识图谱表征学习的准确性。
基于上述表征学习方法的相关实施例,本申请实施例提供了另一种表征学习方法。参见图4,为本申请实施例提供的另一种表征学习方法的流程示意图。图4所示的表征学习方法可由表征学习设备执行,也可以由任意有计算力的设备执行。图4所示的表征学习方法可包括如下步骤:
S401,对知识图谱包括的多个三元组进行划分处理,得到第一三元组集合以及第二三元组集合。
其中,三元组包括头实体、关系和尾实体,第一三元组集合中第一尾实体的种类,多于第二三元组集合中第二尾实体的种类,第一尾实体包括:与第一三元组集合中同一种关系相连的尾实体,第二尾实体包括:与第二三元组集合中同一种关系相连的尾实体;也就是说,划分得到的第一三元组集合中与任意一种关系相连的尾实体的种类,多于第二三元组集合中与任意一种关系相连的尾实体的种类。
在一个实施例中,表征学习设备对知识图谱包括的多个三元组进行划分处理,得到第一三元组集合以及第二三元组集合,可以包括:针对知识图谱中任一种关系,统计知识图谱中,与该任一种关系相连的尾实体,作为目标尾实体;各个目标尾实体之间互不相同;分别统计知识图谱中,基于该任一种关系与各个目标尾实体相连的头实体的数量,作为各个目标尾实体对应的参考数量;根据各个目标尾实体对应的参考数量,确定该任一种关系对应的划分参考值;针对知识图谱包括的任一三元组,若该任一三元组中的关系对应的划分参考值小于预设划分阈值,则将该任一三元组划分到第一三元组集合中;若该任一三元组中的关系对应的划分参考值大于或等于预设划分阈值,则将该任一三元组划分到第二三元组集合中;其中,可以根据具体需求对预设划分阈值进行设定。
具体实现中,针对知识图谱中任一种关系,表征学习设备统计知识图谱中,与该任一种关系相连的尾实体,作为目标尾实体时,与该任一种关系相连的同一种尾实体被作为一个目标尾实体,举例来说,若知识图谱中包括三元组(游戏A,平台,平台1)、(游戏B,平台,平台2)、(游戏C,平台,平台2)、(游戏D,平台,平台3)、(游戏E,平台,平台3)、(游戏F,平台,平台3),则统计得到的与平台相连的目标尾实体分别为:平台1、平台2以及平台3;也就是说,任一种关系对应的目标尾实体即为该任一种关系所指示的属性的属性值。进一步的,表征学习设备可以分别统计知识图谱中,基于该任一种关系与各个目标尾实体相连的头实体的数量,作为各个目标尾实体对应的参考数量,统计上述示例性的知识图谱中包括的三元组,得到目标尾实体平台1对应的参考数量为1,目标尾实体平台2对应的参考数量为2、目标尾实体平台3对应的参考数量为3。
进一步的,表征学习设备可以根据各个目标尾实体对应的参考数量,确定任一种关系对应的划分参考值;具体实现中,针对任一目标尾实体,可以根据各个目标尾实体对应的参考数量,确定任一目标尾实体对应的参考数量占比;基于各个目标尾实体对应的参考数量占比,确定任一种关系对应的信息熵;将任一种关系对应的信息熵进行转换处理,得到任一种关系对应的划分参考值;得到任一种关系对应的划分参考值的过程可以由以下公式1示出:
其中,l表示任一种关系对应的划分参考值,I表示与该任一种关系对应的目标尾实体的数量,i为小于或等于I的自变量,pi表示I个目标尾实体中第i个目标尾实体对应的参考数量占比,表示该任一种关系对应的信息熵,对该任一种关系对应的信息熵进行的转换处理,即为求取该任一种关系对应的信息熵的倒数。举例来说,基于统计上述示例性的知识图谱中包括的三元组,得到目标尾实体平台1对应的参考数量为1,目标尾实体平台2对应的参考数量为2、目标尾实体平台3对应的参考数量为3,则目标尾实体平台1对应的参考数量占比为1/6、目标尾实体平台2对应的参考数量占比为2/6、目标尾实体平台3对应的参考数量占比为3/6,平台属性对应的划分参考值为:
举例来说,若知识图谱为游戏领域的游戏知识图谱,游戏知识图谱中包括的各种关系为从不同维度对游戏进行衡量的属性,具体包括:开发商、发行商、品类、题材、画风、发行年份、视角、平台,各个平台属性对应的划分参考值分别为:开发商0.072、发行商0.068、品类0.018、题材0.185、画风0.374、发行年份0.370、视角0.519、平台0.696,若预设划分阈值为0.2,则可以将游戏知识图谱中,包括的关系为开发商、发行商、品类以及题材的三元组划分到第一三元组集合中,可以将游戏知识图谱中,包括的关系为画风、发行年份、视角以及平台的三元组划分到第二三元组集合中。
S402,构建第一三元组集合中各个三元组对应的参照三元组,以得到参照三元组集合。
其中,参照三元组包括的关系与相应三元组包括的关系相同,且参照三元组满足如下任一条件:参照三元组包括的头实体与相应三元组包括的头实体不相同,或者参照三元组包括的尾实体与相应三元组包括的尾实体不相同。
在一个实施例中,表征学习设备构建第一三元组集合中各个三元组对应的参照三元组,可以包括:针对第一三元组集合中的任一三元组,将该任一三元组进行实体替换处理,得到替换后的三元组;若替换后的三元组不存在于知识图谱中,则将替换后的三元组作为该任一三元组对应的参照三元组;若替换后的三元组存在于知识图谱中,则重复执行将该任一三元组进行实体替换处理,直至得到该任一三元组对应的参照三元组。具体实现中,表征学习设备将任一三元组进行实体替换处理,得到替换后的三元组,可以包括:获取知识图谱中与该任一三元组中的头实体不相同的头实体;将该任一三元组中的头实体替换为获取到的头实体,得到替换后的三元组;或者获取知识图谱中与该任一三元组中的尾实体不相同的尾实体;将该任一三元组中的尾实体替换为获取到的尾实体,得到替换后的三元组。
举例来说,若针对第一三元组集合中的三元组(游戏B,画风,国风),获取知识图谱中与尾实体国风不相同的尾实体,例如获取到的尾实体为像素,则替换后的三元组为(游戏B,画风,像素),判断替换后的三元组(游戏B,画风,像素)是否存在与知识图谱中,若不存在于知识图谱中,则将替换后的三元组(游戏B,画风,像素),作为该三元组(游戏B,画风,国风)对应的参照三元组。
S403,提取第一三元组集合以及第二三元组集合中,各个三元组对应的表征向量组。
S404,提取参照三元组集合中,各个参照三元组对应的表征向量组。
步骤S403至步骤S404中,三元组对应的表征向量组包括:头实体的表征向量、关系的表征向量以及尾实体的表征向量;可以通过图1所示的特征提取模型提取第一三元组集合以及第二三元组集合中,任一三元组对应的表征向量组,以及提取参照三元组集合中任一参照三元组对应的表征向量组。
S405,基于第一三元组集合中各个三元组对应的表征向量组,确定第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离。
S406,基于第二三元组集合中各个三元组对应的表征向量组,确定第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离。
S407,基于参照三元组集合中各个参照三元组对应的表征向量组,确定参照三元组集合中各个参照三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第三距离。
在一个实施例中,步骤S405至步骤S406的相关过程与上述步骤S203至步骤S204的相关过程类似,在此不再赘述;步骤S407的相关过程与步骤S405的相关过程类似,在此不再赘述。
S408,根据第一三元组集合中各个三元组对应的第一距离、第二三元组集合中各个三元组对应的第二距离、以及参照三元组集合中各个参照三元组对应的第三距离,确定知识图谱包括的各个三元组对应的目标表征向量组。
在一个实施例中,三元组对应的目标表征向量组包括:头实体的目标表征向量、关系的目标表征向量以及尾实体的目标表征向量;表征学习设备根据第一三元组集合中各个三元组对应的第一距离、第二三元组集合中各个三元组对应的第二距离、以及参照三元组集合中各个参照三元组对应的第三距离,确定知识图谱包括的各个三元组对应的目标表征向量组,可以包括:获取第二三元组集合中各个三元组对应的参考分布半径;朝着减小第一三元组集合中各个三元组对应的第一距离、增大参照三元组集合中各个参照三元组对应的第三距离、以及控制第二三元组集合中各个三元组对应的第二距离,小于或等于相应参考分布半径的方向,对特征提取模型进行迭代训练,得到训练后的特征提取模型;通过训练后的特征提取模型,提取知识图谱包括的各个三元组对应的表征向量组,作为相应三元组对应的目标表征向量组。
其中,三元组对应的参考分布半径与三元组包括的关系有关,一种关系与一个参考分布半径对应,也就是说,三元组对应的参考分布半径可以为三元组中的关系对应的参考分布半径;在一种可行的实施方式中,可以根据具体需求对不同关系对应的参考分布半径进行设定;在另一种可行的实施方式中,可以将三元组包括的关系所对应的划分参考值作为三元组对应的参考分布半径。通常来说,可以对区分度较小的关系设定较大的参考分布半径,对区分度较大的关系设定较小的参考分布半径;由于关系对应的信息熵越大,可以表征关系的区分度越大,需要对区分度越大的关系设定较小的参考分布半径,关系对应的信息熵越小,可以表征关系的区分度越小,需要对区分度越小的关系设定较大的参考分布半径,所以可以将关系对应的信息熵的倒数确定为关系对应的参考分布半径,由于关系对应的信息熵的倒数即为关系对应的划分参考值,所述可以将关系对应的划分参考值作为关系对应的参考分布半径;在确定三元组对应的参考分布半径时,可以将三元组包括的关系所对应的划分参考值作为三元组对应的参考分布半径。
进一步的,表征学习设备在训练特征提取模型的过程中,可以将第一三元组集合中的三元组作为正例,将相应参照三元组作为负例,基于三元组损失(即Triplet Loss)的训练思路,对特征提取模型进行训练,因此,针对第一三元组集合中的三元组以及相应参照三元组,可以朝着减小第一三元组集合中的三元组对应的第一距离、以及增大相应参照三元组对应的第三距离的方向对特征提取模型进行训练。针对第二三元组集合中的三元组对特征提取模型进行训练的训练思路,在上述步骤S205中以进行阐述,在此不再赘述。
在一个实施例中,针对第一三元组集合中的三元组以及相应参照三元组,对特征提取模型进行训练时,满足以下公式2所示的第一损失函数:
其中,P表示第一三元组集合,(h1,r1,t1)表示第一三元组集合中的三元组,h1表示头实体,r1表示关系,t1表示尾实体;P′表示参照三元组集合,(h′1,r1,t′1)表示参照三元组集合中,与第一三元组集合中的三元组对应的参照三元组,h′1表示头实体,r1表示关系,t′1表示尾实体;||h1+r1-t1||表示第一三元组集合中三元组对应的第一距离,||h′1+r1-t′1||表示相应参照三元组对应的第三距离,ε为超参,可以根据具体需求进行设定;Lt表示基于第一三元组集合中的三元组以及相应参照三元组确定出的第一损失函数值。
在一个实施例中,针对第二三元组集合中的三元组,对特征提取模型进行训练时,满足以下公式3所示的第二损失函数:
其中,Q表示第二三元组集合,(h2,r2,t2)表示第二三元组集合中的三元组,h2表示头实体,r2表示关系,t2表示尾实体;||h2-t2||2表示第二三元组集合中三元组对应的第二距离,r′2表示相应三元组对应的参考分布半径(可以为相应三元组包括的关系对应的参考分布半径);La表示基于第二三元组集合中的三元组确定出的第二损失函数值。
在一个实施例中,针对第二三元组集合中的三元组和第一三元组集合中的三元组以及相应参照三元组,对特征提取模型进行训练时,满足以下公式4所示的目标损失函数:
L=αLt+(1-α)La(4)
其中,α为权重参数,可以根据具体需求进行设定;L表示基于第二三元组集合中的三元组和第一三元组集合中的三元组以及相应参照三元组确定出的目标损失函数值。
在一个实施例中,表征学习设备朝着减小所述第一三元组集合中各个三元组对应的第一距离、增大所述参照三元组集合中各个参照三元组对应的第三距离、以及控制所述第二三元组集合中各个三元组对应的第二距离,小于或等于相应参考分布半径的方向,对特征提取模型进行迭代训练,得到训练后的特征提取模型时,具体可以朝着减小目标损失函数值的方向对特征提取模型进行训练,直至达到收敛条件,得到训练后的特征提取模型;可选的,该收敛条件可以是根据具体需求进行设定的,例如,收敛条件可以为:达到一定的迭代次数或者目标损失函数值小于预设损失值阈值,本申请实施例不做限制。
本申请实施例中,可以对知识图谱包括的多个三元组进行划分处理,得到第一三元组集合以及第二三元组集合,并构建第一三元组集合中各个三元组对应的参照三元组,以得到参照三元组集合。然后可以基于提取得到的第一三元组集合中各个三元组对应的表征向量组,确定第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离;基于提取得到的第二三元组集合中各个三元组对应的表征向量组,确定第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离;基于提取得到的参照三元组集合中各个参照三元组对应的表征向量组,确定参照三元组集合中各个参照三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第三距离;进而根据第一三元组集合中各个三元组对应的第一距离、第二三元组集合中各个三元组对应的第二距离、以及参照三元组集合中各个参照三元组对应的第三距离,确定知识图谱包括的各个三元组对应的目标表征向量组。在对知识图谱包括的多个三元组进行划分处理,得到第一三元组集合以及第二三元组集合的过程中,可以是基于任一种关系对应的信息熵确定出的该任一种关系对应的划分参考值进行划分的;在根据第一三元组集合中各个三元组对应的第一距离、第二三元组集合中各个三元组对应的第二距离、以及参照三元组集合中各个参照三元组对应的第三距离,确定知识图谱包括的各个三元组对应的目标表征向量组的过程中,针对第一三元组集合中的三元组,引入了相应参照三元组作为负例,基于三元组损失函数对特征提取模型进行训练,可提高训练后的特征提取模型的处理效果;针对第二三元组集合中的三元组,可以将三元组包括的关系所对应的划分参考值作为三元组对应的参考分布半径,由于关系对应的信息熵越大,可以表征关系的区分度越大,所以将三元组包括的关系所对应的划分参考值作为三元组对应的参考分布半径可以确保关系对应的区分度对参考分布半径的影响,可提高训练后的特征提取模型的处理效果;进而可以在通过训练后的特征提取模型,提取知识图谱包括的各个三元组对应的表征向量组,作为相应三元组对应的目标表征向量组时,提高目标表征向量组的准确性,即可以提高知识图谱表征学习的准确性。
基于上述表征学习方法的相关实施例,本申请实施例提供了另一种表征学习方法。参见图5,为本申请实施例提供的另一种表征学习方法的流程示意图。图5所示的表征学习方法可由表征学习设备执行,也可以由任意有计算力的设备执行。图5所示的表征学习方法可包括如下步骤:
S501,对知识图谱包括的多个三元组进行划分处理,得到第一三元组集合以及第二三元组集合。
其中,三元组包括头实体、关系和尾实体,第一三元组集合中第一尾实体的种类,多于第二三元组集合中第二尾实体的种类,第一尾实体包括:与第一三元组集合中同一种关系相连的尾实体,第二尾实体包括:与第二三元组集合中同一种关系相连的尾实体;步骤S501的相关过程与上述步骤S201以及步骤S401的相关过程类似,在此不再赘述。
S502,提取第一三元组集合以及第二三元组集合中,各个三元组对应的表征向量组。
其中,三元组对应的表征向量组包括:头实体的表征向量、关系的表征向量以及尾实体的表征向量;步骤S502的相关过程与上述步骤S202以及步骤S403的相关过程类似,在此不再赘述。
S503,获取知识图谱包括的各个三元组中头实体所对应的多模态信息。
在一个实施例中,头实体所对应的多模态信息包括以下一种或多种:文本描述信息以及图像信息;头实体所对应的多模态信息用于对头实体进行补充描述;举例来说,若头实体为游戏,游戏所对应的多模态信息用于对游戏进行补充描述,游戏所对应的文本描述信息可以为游戏的游戏简介、宣传文案等能够对游戏进行描述的文本,游戏所对应的图像信息可以为游戏的内容图像、场景动画、宣传图像,等等;可选的,头实体所对应的多模态信息还可以包括音频信息等其他模态的可以用于对头实体进行补充描述的信息,本申请实施例不做限制。
举例来说,若知识图谱为游戏领域的游戏知识图谱,针对与游戏相关的开发商、发行商、品类、题材、画风、发行年份、视角、平台等属性,游戏知识图谱包含的用于对游戏C进行描述的三元组中,只包含了对游戏C的开发商、品类以及题材等三个属性进行描述的三元组,由于开发商和品类是两个高入度的属性,使得游戏C较难和其他游戏区分开,所以可以新增游戏C的多模态信息用于对游戏C进行补充描述,进而可以基于提取得到的游戏C所对应的多模态信息的表征向量来对游戏C进行表征学习,可以提高学习得到的游戏C的目标表征向量的准确性。例如,游戏C的游戏简介如下:游戏C是由开发商1于2022年自主研发的首款有爱社交手游。游戏画风清新,顶尖声优全程配音,在传承低压、自由的玩法理念基础上,主打数值减负、个性定制和多维社交三大特色,为玩家精心打造轻松休闲,自由愉悦的游戏体验;该游戏简介中包含了游戏C的开发商为开发商1、发行年份为2022年、画风为清新,可以在游戏C的所具有的开发商、品类以及题材等属性上,补充描述了发行年份、画风等属性。进一步的,在基于游戏知识图谱所包含的结构信息(即游戏知识图谱包括的三元组的相关信息)的基础上,若对游戏C对应的尾实体进行预测,则无法预测得到关系发行年份对应的尾实体2022年,关系画风对应的尾实体清新;而在游戏知识图谱所包含的结构信息的基础上,引入游戏C的文本描述信息(即游戏简介),由于游戏C的文本描述信息中包含了对发行年份以及画风的描述,则在对游戏C对应的尾实体进行预测时,可以预测得到关系发行年份对应的尾实体2022年,关系画风对应的尾实体清新。
S504,针对知识图谱包括的任一三元组,提取任一三元组中头实体所对应的多模态信息的表征向量。
在一个实施例中,多模态信息的表征向量可以是通过对多模态信息进行特征提取处理得到的,可以对多模态信息进行表征;针对不同模态的多模态信息可以选取适应的神经网络模型进行特征提取,本申请实施例不做限制;为了便于阐述,本申请实施例将用于提取多模态信息中文本描述信息的表征向量的神经网络模型称为文本表征提取模型,将用于提取多模态信息中图像信息的表征向量的神经网络模型称为图像表征提取模型,将用于提取多模态信息中音频信息的表征向量的神经网络模型称为音频表征提取模型。
在一种可行的实施方式中,针对文本描述信息,可以采用文本描述信息对应的句子表征作为文本描述信息的表征向量;进而可选的可以采用文本匹配领域中,训练后的句子表征提取模型(即Sentence Bidirectional Encoder Representation fromTransformers,Sentence-BERT)作为文本表征提取模型,来提取文本描述信息的表征向量。训练后的句子表征提取模型可以是通过对句子表征提取模型进行训练得到的,在对句子表征提取模型进行训练的过程中,可以基于两个文本描述信息对应的句子表征指向同一个头实体的预测相似概率来对句子表征提取模型进行训练。具体实现中,参见图6,为本申请实施例提供的一种训练句子表征提取模型的示意图,该句子表征提取模型可以包括预训练的语言表征模型(即BERT模型)以及池化层(即pooling layer);可以获取第一样本文本描述信息、第二样本文本描述信息、以及第一样本文本信息与第二样本文本信息之间的参考相似概率,该参考相似概率可以指示第一样本文本信息与第二样本文本信息用于描述同一个头实体的概率;可以通过句子表征提取模型分别提取第一样本文本描述信息对应的句子表征,以及第二样本文本描述信息对应的句子表征;计算第一样本文本描述信息对应的句子表征,与第二样本文本描述信息对应的句子表征之间的预测相似概率;基于预测相似概率与参考相似概率之间的差异,对句子表征提取模型进行训练,得到训练后的句子表征提取模型;进一步的,可以将通过训练后的句子表征提取模型提取得到的文本描述信息对应的句子表征向量作为该文本描述信息的表征向量。可选的,第一样本文本描述信息对应的句子表征,与第二样本文本描述信息对应的句子表征之间的预测相似概率,可以为第一样本文本描述信息对应的句子表征,与第二样本文本描述信息对应的句子表征之间的相似度,该相似度可以为第一样本文本描述信息对应的句子表征,与第二样本文本描述信息对应的句子表征之间的余弦相似度,也可以为基于第一样本文本描述信息对应的句子表征,与第二样本文本描述信息对应的句子表征之间的特征距离确定出的相似度,本申请实施例不做限制,例如,该特征距离可以为余弦距离、欧式距离等;基于预测相似概率与参考相似概率之间的差异,对句子表征提取模型进行训练,得到训练后的句子表征提取模型时,可以朝着最小化均方误差损失的方向对句子表征提取模型进行训练,得到训练后的句子表征提取模型。通过实验得出,训练后的句子表征提取模型在判断两个文本描述信息对应的句子表征是否指向同一个头实体时的准确率可以达到96%,可以表征训练后的句子表征提取模型提取文本描述信息对应的句子表征的准确性高,即提取文本描述信息的表征向量的准确性高。
在一个实施例中,当知识图谱为游戏领域的游戏知识图谱时,该游戏知识图谱包括的三元组中的头实体为游戏,关系为游戏所具有的属性,尾实体为具体的属性值;当与游戏相关的属性包括开发商、发行商、品类、题材、画风、发行年份、视角、平台等属性时,由于画风已经成为用户选取游戏时的重要考量点,同时画风可以为相同品类的游戏提供有效的区分点,所以当游戏的多模态信息中包括图像信息时,可以提取图像信息的画风特征作为图像信息的表征向量;例如,如图7a所示,为本申请实施例提供的一种同一品类下不同画风的游戏对比图;如701标记所示的游戏的画风为像素、如702标记所示的游戏的画风为简约。可选的,可以采用训练后的残差网络模型(即Resnet模型)作为图像表征提取模型,来提取图像信息的表征向量;训练后的残差网络模型可以是通过对残差网络模型进行训练得到的,训练后的残差网络模型可以为一个多标签分类模型,该多标签分类模型对应的标签可以为游戏领域中画风属性对应的画风标签,即画风属性对应的各个属性值,基于样本图像信息以及样本图像信息具有的参考画风标签对该多标签分类模型进行训练的相关过程与现有对多标签分类模型进行训练的相关过程类似,在此不再赘述。在对图像信息进行多标签分类任务时,可以通过训练后的残差网络模型提取图像信息的表征向量,进而可以基于提取得到的图像信息的表征向量预测该图像信息所具有的画风标签,参见图7b,为本申请实施例提供的一种基于训练后的残差网络模型提取图像信息所具有的画风标签的示意图,其中,如711标记所示为一个游戏的图像信息,通过训练后的残差网络模型预测得到该图像信息具有画风标签“像素”的概率为86%,具有画风标签“可爱”的概率为25%,具有其余画风标签(例如“国风”、“古风”)的概率为0。通过实验得出,训练后的残差网络模型在执行多标签分类任务时在模型评价指标AUC指标中的评价值可以达到0.88,可以表征训练后的残差网络模型在执行多标签分类任务时的准确性高,即训练后的残差网络模型在提取图像信息的表征向量时的准确性高。
举例来说,若知识图谱为游戏领域的游戏知识图谱,针对与游戏相关的开发商、发行商、品类、题材、画风、发行年份、视角、平台等属性,游戏知识图谱包含的用于对游戏D进行描述的三元组中,包含的对游戏D的画风属性进行描述的三元组包括:(游戏D,画风,可爱);在引入图7a中如701标记所示的游戏D所对应的图像信息的基础上,对游戏D基于关系画风对应的尾实体进行预测时,可以预测得到游戏D基于关系画风对应的尾实体包括:像素,由此可见,在游戏知识图谱表征学习的过程中引入游戏所对应的图像信息可以增加游戏的画风属性的影响,使得学习得到的游戏的目标表征向量更加准确。
在一个实施例中,通过适应的神经网络模型提取得到的多模态信息的表征向量的维度可能与基于图1所示的特征提取模型提取得到的头实体的表征向量、关系的表征向量以及尾实体的表征向量的维度不同,所以在通过适应的神经网络模型提取得到的多模态信息的表征向量之后,还需要通过全连接层(可以为Fully Connected Layer)统一多模态信息的表征向量的维度,使得多模态信息的表征向量的维度与头实体的表征向量、关系的表征向量以及尾实体的表征向量的维度相同;值得注意的是,本申请中涉及到对多模态信息的表征向量进行处理的相关过程中的多模态信息的表征向量应该为统一了维度的表征向量。
S505,基于任一三元组中头实体所对应的多模态信息的表征向量,更新任一三元组对应的表征向量组。
在一个实施例中,三元组对应的更新后的表征向量组包括:头实体更新后的表征向量、关系的表征向量、尾实体的表征向量;得到任一三元组中头实体更新后的表征向量的方式包括:采用该任一三元组中头实体所对应的多模态信息的表征向量,与该任一三元组中头实体的表征向量进行融合处理,得到该任一三元组中头实体更新后的表征向量。具体实现中,可以基于该任一三元组中头实体所对应的任一多模态信息的表征向量、该任一三元组中关系的表征向量以及该任一三元组中尾实体的表征向量,构建该任一多模态信息所指示的多模态三元组对应的表征向量组,其中,该任一多模态信息所指示的多模态三元组中的头实体为该任一多模态信息,关系为该任一三元组中的关系,尾实体为该任一三元组中的尾实体,该任一多模态信息所指示的多模态三元组对应的表征向量组中头实体的表征向量为该任一多模态信息的表征向量,关系的表征向量为该任一三元组中的关系的表征向量,尾实体的表征向量为该任一三元组中的尾实体的表征向量;举例来说,若该任一三元组为(游戏A,开发商,开发商1),该任一三元组对应的表征向量组为(游戏A的表征向量,开发商的表征向量,开发商1的表征向量),该游戏A所对应的多模态信息包括文本描述信息1以及图像信息1,则针对文本描述信息1构建的多模态三元组为(文本描述信息1,开发商、开发商1),文本描述信息1所指示的多模态三元组对应的表征向量组为(文本描述信息1的表征向量,开发商的表征向量、开发商1的表征向量),针对图像信息1构建的多模态三元组为(图像信息1,开发商、开发商1),图像信息1所指示的多模态三元组对应的表征向量组为(图像信息1的表征向量,开发商的表征向量、开发商1的表征向量)。
进一步的,表征学习设备可以基于该任一三元组对应的表征向量组确定该任一三元组对应的嵌入向量组,以及基于该任一三元组中头实体所对应的任一多模态信息,所指示的多模态三元组对应的表征向量组,确定该任一多模态三元组对应的嵌入向量组;基于注意力机制确定该任一三元组对应的嵌入向量组的注意力分数以及该任一三元组中头实体所对应的各个多模态信息,所指示的多模态三元组对应的嵌入向量组的注意力分数(即该任一三元组所指示的各个多模态三元组对应的嵌入向量组的注意力分数);采用该任一三元组对应的嵌入向量组的注意力分数对该任一三元组对应的嵌入向量组进行加权调整处理,得到该任一三元组对应的注意力表征向量组,以及采用该任一三元组所指示的不同多模态三元组对应的嵌入向量组的注意力分数,对相应多模态三元组对应的嵌入向量组进行加权调整处理,得到相应多模态三元组对应的注意力表征向量组;将该任一三元组对应的注意力表征向量组与该任一三元组所指示的各个多模态三元组对应的注意力表征向量组进行求和处理,得到该任一三元组对应的调整向量组。进一步的,可以采用该任一三元组对应的调整向量组,对该任一三元组中头实体的表征向量进行调整处理,得到该任一三元组中头实体更新后的表征向量。
参见如下公式5.1,为本申请实施例提供的一种得到任一三元组对应的调整向量组的公式:
其中,Nt表示由任一三元组以及该任一三元组所指示的各个多模态三元组构成的待处理三元组集合,若将该待处理三元组集合中的三元组称为待处理三元组,则(h,r,t)表示该待处理三元组集合中的任一待处理三元组,e(h,r,t)表示该任一待处理三元组对应的嵌入向量组,π(h,r,t)表示该任一待处理三元组对应的嵌入向量组的注意力分数,π(h,r,t)e(h,r,t)表示该任一待处理三元组对应的注意力表征向量组,eagg表示该任一三元组对应的调整向量组。
在一种可行的实施方式中,该任一待处理三元组对应的嵌入向量组可以基于拼接函数(即Concate函数)得到,具体可以如以下公式5.2.1示出:
e(h,r,t)=W′(eh||er||et)(5.2.1)
其中,eh表示该任一待处理三元组中头实体的表征向量,er表示该任一待处理三元组中关系的表征向量,et表示该任一待处理三元组中尾实体的表征向量,W′表示可训练的模型参数,eh||er||et表示eh与er与et进行串联。
在一种可行的实施方式中,该任一待处理三元组对应的嵌入向量组可以如以下公式5.2.2示出:
其中,tanh为激活函数。
进一步的,基于注意力机制确定该任一待处理三元组对应的嵌入向量组的注意力分数时,可以采用激活函数确定该任一待处理三元组对应的嵌入向量组的初始注意力分数,再对该任一待处理三元组对应的嵌入向量组的初始注意力分数进行归一化处理,得到该任一待处理三元组对应的嵌入向量组的注意力分数;其中,所采用的激活函数可以为LeakyReLU激活函数,可以采用指数归一化函数(即softmax函数)对初始注意力分数进行归一化处理;具体的,该任一待处理三元组对应的嵌入向量组的初始注意力分数可以如以下公式5.3示出:
π′(h,r,t)=LeakyReLU(W1e(h,r,t))(5.3)
其中,W1为可训练的模型参数。
该任一待处理三元组对应的嵌入向量组的注意力分数可以如以下公式5.4示出:
其中,(h,r,t)表示该任一待处理三元组,(h′,r′,t)表示该待处理三元组集合中的任意待处理三元组。
进一步的,可以采用该任一三元组对应的调整向量组,对该任一三元组中头实体的表征向量进行调整处理,得到该任一三元组中头实体更新后的表征向量;得到该任一三元组中头实体更新后的表征向量可以由以下公式5.5.1或5.5.2示出:
e′h=W2eh+eagg(5.5.1)
e′h=W3(eh||eagg)(5.5.2)
其中,W2以及W3为可训练的模型参数,eh||eagg表示eh与eagg进行串联。
在一个可选的实施方式中,基于任一三元组中头实体所对应的多模态信息的表征向量,更新任一三元组对应的表征向量组,也可以由多模态知识图谱推荐模型(Mkgat模型)所提出的相关过程实现。
S506,基于第一三元组集合中各个三元组对应的更新后的表征向量组,确定第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离。
S507,基于第二三元组集合中各个三元组对应的更新后的表征向量组,确定第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离。
S508,根据第一三元组集合中各个三元组对应的第一距离以及第二三元组集合中各个三元组对应的第二距离,确定知识图谱包括的各个三元组对应的目标表征向量组。
其中,三元组对应的目标表征向量组包括:头实体的目标表征向量、关系的目标表征向量以及尾实体的目标表征向量;步骤S506至步骤S508的相关过程与上述步骤S203至步骤S205的相关过程类似,在此不再赘述。
在一个实施例中,在引入多模态信息的情况下,本申请实施例提供了另一种特征提取模型,参见图8a,为本申请实施例提出的另一种特征提取模型的结构示意图,以对三元组(游戏C,开发商,开发商1)进行处理为例,该三元组中头实体所对应的多模态信息包括文本描述信息以及图像信息;图8a所示的特征提取模型包括用于提取文本描述信息的表征向量的训练后的句子表征提取模型、用于提取图像信息的表征向量的训练后的残差网络模型、第一特征提取模块、第二特征提取模块、第三特征提取模块以及用于统一表征向量维度的全连接层,其中,训练后的句子表征提取模型以及训练后的残差网络模型的模型参数不随着对该特征提取模型的训练而改变。可选的,本申请实施例提供了另一种特征提取模型,参见图8b,为本申请实施例提出的另一种特征提取模型的结构示意图,以对三元组(游戏A,开发商,开发商1)进行处理为例,该三元组中头实体所对应的多模态信息包括文本描述信息以及图像信息;图8b所示的特征提取模型包括用于提取文本描述信息的表征向量的句子表征提取模型、用于提取图像信息的表征向量的残差网络模型、第一特征提取模块、第二特征提取模块、第三特征提取模块以及用于统一表征向量维度的全连接层,其中,句子表征提取模型以及残差网络模型的模型参数也会随着对该特征提取模型的训练而改变。
在一个实施例中,在引入参照三元组的情况下,本申请实施例提供了另一种表征学习方法,参见图9,本申请实施例提供的另一种表征学习方法的流程示意图,该表征学习方法可以包括:对知识图谱包括的多个三元组进行划分处理,得到第一三元组集合以及第二三元组集合;其中,三元组包括头实体、关系和尾实体,第一三元组集合中第一尾实体的种类,多于第二三元组集合中第二尾实体的种类,第一尾实体包括:与第一三元组集合中同一种关系相连的尾实体,第二尾实体包括:与第二三元组集合中同一种关系相连的尾实体。构建第一三元组集合中各个三元组对应的参照三元组,以得到参照三元组集合;其中,参照三元组包括的关系与相应三元组包括的关系相同,且参照三元组满足如下任一条件:参照三元组包括的头实体与相应三元组包括的头实体不相同,或者参照三元组包括的尾实体与相应三元组包括的尾实体不相同。
提取第一三元组集合以及第二三元组集合中,各个三元组对应的表征向量组,以及提取参照三元组集合中,各个参照三元组对应的表征向量组;其中,三元组对应的表征向量组包括:头实体的表征向量、关系的表征向量以及尾实体的表征向量。
获取知识图谱包括的各个三元组中头实体所对应的多模态信息,其中,头实体所对应的多模态信息包括以下一种或多种:文本描述信息以及图像信息。针对知识图谱包括的任一三元组,提取任一三元组中头实体所对应的多模态信息的表征向量;基于任一三元组中头实体所对应的多模态信息的表征向量,更新任一三元组对应的表征向量组;针对参照三元组集合中的任一参照三元组,提取任一参照三元组中头实体所对应的多模态信息的表征向量;基于任一参照三元组中头实体所对应的多模态信息的表征向量,更新任一参照三元组对应的表征向量组。其中,针对参照三元组集合中的任一参照三元组,提取任一参照三元组中头实体所对应的多模态信息的表征向量,基于任一参照三元组中头实体所对应的多模态信息的表征向量,更新任一参照三元组对应的表征向量组的相关过程,与上述针对知识图谱包括的任一三元组,提取任一三元组中头实体所对应的多模态信息的表征向量,基于任一三元组中头实体所对应的多模态信息的表征向量,更新任一三元组对应的表征向量组的相关过程类似,在此不再赘述。
基于第一三元组集合中各个三元组对应的更新后的表征向量组,确定第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离;基于第二三元组集合中各个三元组对应的更新后的表征向量组,确定第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离;基于参照三元组集合中各个参照三元组对应的更新后的表征向量组,确定参照三元组集合中各个参照三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第三距离;根据第一三元组集合中各个三元组对应的第一距离、第二三元组集合中各个三元组对应的第二距离、以及参照三元组集合中各个参照三元组对应的第三距离,确定知识图谱包括的各个三元组对应的目标表征向量组。
在一个实施例中,将采用现有的基于平移思想的平移模型学习得到的,知识图谱中头实体的目标表征向量、关系的目标表征向量以及尾实体的目标表征向量,与将采用本申请提出的引入了多模态信息时的表征学习方法学习得到的,同一知识图谱中头实体的目标表征向量、关系的目标表征向量以及尾实体的目标表征向量,分别投影到三维空间中,可以发现对同一个知识图谱进行表征学习时,若只采用平移模型,得到的目标表征向量在三维空间中有明显的特征空间坍缩效应,很多目标表征向量聚集在一个小区域内,而采用本申请提出的引入了多模态信息时的表征学习方法得到的目标表征向量在特征空间中分布得相对分散,区分度更高,具体可以参见图10a,为一种采用平移模型得到的目标表征向量的投影示意图,图10b,为一种在采用聚类思想并引入多模态信息的情况下得到的目标表征向量的投影示意图。
在一个实施例中,可以基于知识图谱表征学习领域常用的评价指标,对本申请提出的表征学习方法以及现有的用于知识图谱表征学习的模型进行对比评测;具体的,参见表1,示出了本申请提出的引入了多模态信息时的表征学习方法、现有的平移模型(包括TransE模型以及TransH模型)、现有的语义匹配模型(包括ComplEx模型以及DisMult模型)以及现有的图卷积模型(RGCN模型),在知识图谱表征学习领域常用的评价指标,HIT@1指标、HIT@3指标以及HIT@10指标上的具体表现,可以发现本申请提出的引入了多模态信息时的表征学习方法用于知识图谱表征学习时,相较于现有模型表现更好,采用本申请提出的引入了多模态信息时的表征学习方法得到的目标表征向量的准确性更高。
在一个实施例中,可以基于知识图谱表征学习领域常用的评价指标,对本申请提出的未引入多模态信息时的表征学习方法,以及引入了不同模态的多模态信息时的表征学习方法进行对比评测,具体的,参见表2,示出了本申请提出的未引入多模态信息时的表征学习方法(即只利用知识图谱的结构信息时的表征学习方法)、引入了文本描述信息时的表征学习方法、引入了图像信息时的表征学习方法、同时引入文本描述信息和图像信息时的表征学习方法,在知识图谱表征学习领域常用的评价指标,HIT@1指标、HIT@3指标以及HIT@10指标上的具体表现:
由表2可知,引入了多模态信息后,能显著提升HIT@1指标的结果。引入文本描述信息比引入图像信息提升的效果更好;这是因为文本描述信息通常可以在提供画风信息的基础上,还提供题材、品类等其他信息。引入图像信息时,引入三张图像比使用单张图像时模型的泛化性更好;体现在HIT@3指标和HIT@10指标的提升;这是因为单张图像,有时不能提供画风信息,而多张图像所提供的画风信息通常更多。在同时引入文本描述信息和图像信息时,基于Tanh激活函数比基于Concate函数的效果更好。引入多种模态的多种模态的信息,例如同时引入文本描述信息和图像信息可以取得最优效果,这是由于不同模态的模态信息通常可以互补。
在一个实施例中,当知识图谱为游戏领域的游戏知识图谱时,游戏知识图谱包括的三元组中的头实体为游戏,游戏的目标表征向量为相应三元组对应的目标表征向量组中,头实体的目标表征向量;可以基于学习得到的游戏的目标表征向量确定游戏的潜在种子对象,以提升游戏的用户获取效果,即通过向确定出的潜在种子对象推广游戏以达到吸引用户的效果。可以从对象库中构建正样本对象集以及负样本对象集,正样本对象集中的样本对象为目标游戏的种子对象;针对正样本对象集以及负样本对象集中的任一样本对象,基于预设时间段内,任一样本对象产生操作的各个参考游戏的操作时长以及各个参考游戏的目标表征向量,确定任一样本对象的偏好特征,任一样本对象的偏好特征用于指示:任一样本对象对各个参考游戏的偏好程度;基于正样本对象集以及负样本对象集中各个样本对象的偏好特征,训练对象扩散模型,得到训练后的对象扩散模型;通过训练后的对象扩散模型,对对象库中各个对象的偏好特征进行处理,并基于各个对象对应的处理结果,从各个对象中确定出与种子对象相似的潜在种子对象;向确定出的各个潜在种子对象推广目标游戏。
其中,目标游戏可以为任意待推广的游戏;目标游戏的种子对象可以为对目标游戏感兴趣的对象,例如,可以为目标游戏的游戏用户、目标游戏的预约用户,等等;负样本对象集中的样本对象为目标游戏的非种子对象,即当前对目标游戏不感兴趣的对象,例如,可以为目标游戏当前的非游戏用户、目标游戏当前的非预约用户(即目前为止并未对目标游戏进行预约的用户)。
具体实现中,针对正样本对象集以及负样本对象集中的任一样本对象,基于预设时间段内,任一样本对象产生操作的各个参考游戏的操作时长以及各个参考游戏的目标表征向量,确定任一样本对象的偏好特征的过程中,可以基于各个参考游戏的操作时长以及各个参考游戏的操作时长之和,分别确定各个参考游戏的操作时长占比;采用不同参考游戏的操作时长占比,对相应参考游戏的目标表征向量进行加权求和处理,得到该任一样本对象的偏好特征;其中,预设时间段可以是根据具体需求进行设定的;任一参考游戏的目标表征向量是从游戏知识图谱中获取得到的。
举例来说,若预设时间段内,该任一样本对象产生操作的参考游戏以及操作时长分别为:游戏A、1小时,游戏B、2小时,游戏C、0.6小时,游戏D、0.4小时;则各个参考游戏的操作时长之和为4小时,各个参考游戏的操作时长占比分别为:游戏A、1/4,游戏B、2/4,游戏C、6/40,游戏D、4/40;若各个参考游戏的目标表征向量分别为:游戏A、F1,游戏B、F2,游戏C、F3,游戏C、F4,则该任一样本对象的偏好特征可以为:
进一步的,基于正样本对象集以及负样本对象集中各个样本对象的偏好特征,训练对象扩散模型,得到训练后的对象扩散模型的过程中,该对象扩散模型可以是任意能实现对象扩散的模型,例如可以为lookalike模型中的标签模型、分类模型等,本申请实施例不做限制,本申请实施例后续以对象扩散模型为分类模型为例进行阐述。在此种情况下,基于正样本对象集以及负样本对象集中各个样本对象的偏好特征,训练对象扩散模型,得到训练后的对象扩散模型的训练思路可以为:将正样本对象集中各个样本对象的偏好特征作为对象扩散模型的输入,将正类别作为对象扩散模型的期望输出,将负样本对象集中各个样本对象的偏好特征作为对象扩散模型的输入,将负类别作为对象扩散模型的期望输出,训练对象扩散模型,以得到训练后的对象扩散模型。可选的,若基于正样本对象集以及负样本对象集训练得到的训练后的对象扩散模型测试不通过,则可以更新正样本对象集以及负样本对象集,进而基于更新后的正样本对象集以及更新后的负样本对象集对该测试不通过的训练后的对象扩散模型进行二次训练,直至得到测试通过的训练后的对象扩散模型。
进一步的,当训练后的对象扩散模型为分类模型时,通过训练后的对象扩散模型,对对象库中各个对象的偏好特征进行处理,并基于各个对象对应的处理结果,从各个对象中确定出与种子对象相似的潜在种子对象,可以包括:针对对象库中的任一对象,将该任一对象的偏好特征输入至训练后的对象扩散模型,得到预测类别,若该预测类别为正类别,则将该任一对象确定为与种子对象相似的潜在种子对象;其中,该预测类别即为该任一对象对应的处理结果。
进一步的,可以向确定出的各个潜在种子对象推广目标游戏,以提升目标游戏的用户获取效果。可选的,针对确定出的潜在种子对象,可以判断该潜在种子对象是否为目标游戏的注册用户,若该潜在种子对象是目标游戏的注册用户,则可以不向该潜在种子对象推广目标游戏,若该潜在种子对象不是目标游戏的注册用户,则可以向该潜在种子对象推广目标游戏。进一步的,在向确定出的各个潜在种子对象推广目标游戏之后,可以收集曝光点击日志,该曝光点击日志中可以记载推广曝光的对象、曝光后点击推广的对象、点击推广并注册的对象,可以将曝光点击日志中记录的点击推广并注册的对象作为新的种子对象,并基于新的种子对象更新正样本对象集,以对训练后的对象扩散模型进行更新训练。
参见图11,为本申请实施例提供的一种推广游戏的示意图,可以从对象库中构建正样本对象集以及负样本对象集,正样本对象集中的样本对象为目标游戏的种子对象;针对正样本对象集以及负样本对象集中的任一样本对象,从游戏时长库中获取该任一样本对象,在预设时间段内产生操作的各个参考游戏的操作时长,从游戏知识图谱中获取各个参考游戏的目标表征向量,进而基于各个参考游戏的操作时长以及各个参考游戏的目标表征向量,确定任一样本对象的偏好特征,以得到正样本对象集以及负样本对象集中各个样本对象的偏好特征。基于正样本对象集以及负样本对象集中各个样本对象的偏好特征,训练对象扩散模型,得到训练后的对象扩散模型;当训练后的对象扩散模型测试不通过时,可以更新正样本对象集以及负样本对象集,进而基于更新后的正样本对象集以及更新后的负样本对象集对该测试不通过的训练后的对象扩散模型进行二次训练,直至得到测试通过的训练后的对象扩散模型;当训练后的对象扩散模型测试通过时,通过训练后的对象扩散模型,从对象库中确定出与种子对象相似的潜在种子对象,从确定出的潜在种子对象中筛选出不为目标游戏的注册用户的潜在种子对象,并向筛选出的各个潜在种子对象推广目标游戏,在向筛选出的各个潜在种子对象推广目标游戏之后,可以收集曝光点击日志,并基于该曝光点击日志对训练后的对象扩散模型进行更新训练。
本申请实施例中,通过在知识图谱表征学习的过程中引入多模态信息,可以在知识图谱包含的结构信息的基础上新增补充信息用于知识图谱的表征学习,可以提高学习得到的目标表征向量的准确性,即提高知识图谱表征学习的准确性;并且能够有效提高长尾数据表征学习的准确性,也就是说,知识图谱中存在的关系稀疏的三元组(即知识图谱中的长尾数据)在表征学习时,通常由于关系信息不足导致学习到的三元组的目标表征向量组的准确性不高,而多模态信息的引入由于引入了补充信息,所以可以提高长尾数据表征学习的准确性。
基于上述表征学习方法相关的实施例,本申请实施例提供了一种表征学习装置。参见图12,为本申请实施例提供的一种表征学习装置的结构示意图,该表征学习装置可包括划分单元1201以及训练单元1202。图12所示的表征学习装置可用于执行如下操作:
划分单元1201,用于对知识图谱包括的多个三元组进行划分处理,得到第一三元组集合以及第二三元组集合;三元组包括头实体、关系和尾实体,所述第一三元组集合中第一尾实体的种类,多于所述第二三元组集合中第二尾实体的种类,所述第一尾实体包括:与所述第一三元组集合中同一种关系相连的尾实体,所述第二尾实体包括:与所述第二三元组集合中同一种关系相连的尾实体;
训练单元1202,用于提取所述第一三元组集合以及所述第二三元组集合中,各个三元组对应的表征向量组;三元组对应的表征向量组包括:头实体的表征向量、关系的表征向量以及尾实体的表征向量;
所述训练单元1202,还用于基于所述第一三元组集合中各个三元组对应的表征向量组,确定所述第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离;
所述训练单元1202,还用于基于所述第二三元组集合中各个三元组对应的表征向量组,确定所述第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离;
所述训练单元1202,还用于根据所述第一三元组集合中各个三元组对应的第一距离以及所述第二三元组集合中各个三元组对应的第二距离,确定所述知识图谱包括的各个三元组对应的目标表征向量组;三元组对应的目标表征向量组包括:头实体的目标表征向量、关系的目标表征向量以及尾实体的目标表征向量。
在一个实施例中,所述划分单元1201对知识图谱包括的多个三元组进行划分处理,得到第一三元组集合以及第二三元组集合时,具体执行如下操作:
针对所述知识图谱中任一种关系,统计所述知识图谱中,与所述任一种关系相连的尾实体,作为目标尾实体;各个目标尾实体之间互不相同;
分别统计所述知识图谱中,基于所述任一种关系与所述各个目标尾实体相连的头实体的数量,作为所述各个目标尾实体对应的参考数量;
根据所述各个目标尾实体对应的参考数量,确定所述任一种关系对应的划分参考值;
针对所述知识图谱包括的任一三元组,若所述任一三元组中的关系对应的划分参考值小于预设划分阈值,则将所述任一三元组划分到所述第一三元组集合中;
若所述任一三元组中的关系对应的划分参考值大于或等于预设划分阈值,则将所述任一三元组划分到所述第二三元组集合中。
在一个实施例中,所述划分单元1201根据所述各个目标尾实体对应的参考数量,确定所述任一种关系对应的划分参考值时,具体执行如下操作:
针对任一目标尾实体,根据所述各个目标尾实体对应的参考数量,确定所述任一目标尾实体对应的参考数量占比;
基于所述各个目标尾实体对应的参考数量占比,确定所述任一种关系对应的信息熵;
将所述任一种关系对应的信息熵进行转换处理,得到所述任一种关系对应的划分参考值。
在一个实施例中,所述训练单元1202,还用于:
构建所述第一三元组集合中各个三元组对应的参照三元组,以得到参照三元组集合;参照三元组包括的关系与相应三元组包括的关系相同,且参照三元组满足如下任一条件:参照三元组包括的头实体与相应三元组包括的头实体不相同,或者参照三元组包括的尾实体与相应三元组包括的尾实体不相同;
提取所述参照三元组集合中,各个参照三元组对应的表征向量组;
基于所述参照三元组集合中各个参照三元组对应的表征向量组,确定所述参照三元组集合中各个参照三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第三距离;
所述训练单元1202根据所述第一三元组集合中各个三元组对应的第一距离以及所述第二三元组集合中各个三元组对应的第二距离,确定所述知识图谱包括的各个三元组对应的目标表征向量组时,具体执行如下操作:
根据所述第一三元组集合中各个三元组对应的第一距离、所述第二三元组集合中各个三元组对应的第二距离、以及所述参照三元组集合中各个参照三元组对应的第三距离,确定所述知识图谱包括的各个三元组对应的目标表征向量组。
在一个实施例中,所述训练单元1202构建所述第一三元组集合中各个三元组对应的参照三元组时,具体执行如下操作:
针对所述第一三元组集合中的任一三元组,将所述任一三元组进行实体替换处理,得到替换后的三元组;
若所述替换后的三元组不存在于所述知识图谱中,则将所述替换后的三元组作为所述任一三元组对应的参照三元组;
若所述替换后的三元组存在于所述知识图谱中,则重复执行将所述任一三元组进行实体替换处理,直至得到所述任一三元组对应的参照三元组。
在一个实施例中,所述训练单元1202将所述任一三元组进行实体替换处理,得到替换后的三元组时,具体执行如下操作:
获取所述知识图谱中与所述任一三元组中的头实体不相同的头实体;
将所述任一三元组中的头实体替换为获取到的头实体,得到所述替换后的三元组。
在一个实施例中,所述训练单元1202将所述任一三元组进行实体替换处理,得到替换后的三元组时,具体执行如下操作:
获取所述知识图谱中与所述任一三元组中的尾实体不相同的尾实体;
将所述任一三元组中的尾实体替换为获取到的尾实体,得到所述替换后的三元组。
在一个实施例中,所述第一三元组集合中各个三元组对应的表征向量组、所述第二三元组集合中各个三元组对应的表征向量组、以及所述参照三元组集合中各个参照三元组对应的表征向量组,是通过特征提取模型提取到的;
所述训练单元1202根据所述第一三元组集合中各个三元组对应的第一距离、所述第二三元组集合中各个三元组对应的第二距离、以及所述参照三元组集合中各个参照三元组对应的第三距离,确定所述知识图谱包括的各个三元组对应的目标表征向量组时,具体执行如下操作:
获取所述第二三元组集合中各个三元组对应的参考分布半径;
朝着减小所述第一三元组集合中各个三元组对应的第一距离、增大所述参照三元组集合中各个参照三元组对应的第三距离、以及控制所述第二三元组集合中各个三元组对应的第二距离,小于或等于相应参考分布半径的方向,对特征提取模型进行迭代训练,得到训练后的特征提取模型;
通过所述训练后的特征提取模型,提取所述知识图谱包括的各个三元组对应的表征向量组,作为相应三元组对应的目标表征向量组。
在一个实施例中,所述训练单元1202,还用于:
获取所述知识图谱包括的各个三元组中头实体所对应的多模态信息;头实体所对应的多模态信息包括以下一种或多种:文本描述信息以及图像信息;
针对所述知识图谱包括的任一三元组,提取所述任一三元组中头实体所对应的多模态信息的表征向量;
基于所述任一三元组中头实体所对应的多模态信息的表征向量,更新所述任一三元组对应的表征向量组;
所述训练单元1202基于所述第一三元组集合中各个三元组对应的表征向量组,确定所述第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离时,具体执行如下操作:
基于所述第一三元组集合中各个三元组对应的更新后的表征向量组,确定所述第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离;
所述训练单元1202基于所述第二三元组集合中各个三元组对应的表征向量组,确定所述第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离时,具体执行如下操作:
基于所述第二三元组集合中各个三元组对应的更新后的表征向量组,确定所述第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离。
在一个实施例中,所述训练单元1202,还用于:
获取所述知识图谱包括的各个三元组中头实体所对应的多模态信息;头实体所对应的多模态信息包括以下一种或多种:文本描述信息以及图像信息;
针对所述知识图谱包括的任一三元组,提取所述任一三元组中头实体所对应的多模态信息的表征向量;
基于所述任一三元组中头实体所对应的多模态信息的表征向量,更新所述任一三元组对应的表征向量组;
针对所述参照三元组集合中的任一参照三元组,提取所述任一参照三元组中头实体所对应的多模态信息的表征向量;
基于所述任一参照三元组中头实体所对应的多模态信息的表征向量,更新所述任一参照三元组对应的表征向量组;
所述训练单元1202基于所述第一三元组集合中各个三元组对应的表征向量组,确定所述第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离时,具体执行如下操作:
基于所述第一三元组集合中各个三元组对应的更新后的表征向量组,确定所述第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离;
所述训练单元1202基于所述第二三元组集合中各个三元组对应的表征向量组,确定所述第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离时,具体执行如下操作:
基于所述第二三元组集合中各个三元组对应的更新后的表征向量组,确定所述第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离;
所述训练单元1202基于所述参照三元组集合中各个参照三元组对应的表征向量组,确定所述参照三元组集合中各个参照三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第三距离时,具体执行如下操作:
基于所述参照三元组集合中各个参照三元组对应的更新后的表征向量组,确定所述参照三元组集合中各个参照三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第三距离。
在一个实施例中,三元组对应的更新后的表征向量组包括:头实体更新后的表征向量、关系的表征向量、尾实体的表征向量;
训练单元1202用于得到任一三元组中头实体更新后的表征向量时,具体执行如下操作:
采用所述任一三元组中头实体所对应的多模态信息的表征向量,与所述任一三元组中头实体的表征向量进行融合处理,得到所述任一三元组中头实体更新后的表征向量。
在一个实施例中,所述知识图谱为游戏知识图谱,所述游戏知识图谱包括的三元组中的头实体为游戏,游戏的目标表征向量为相应三元组对应的目标表征向量组中,头实体的目标表征向量;
所述表征学习装置还包括应用单元1203,所述应用单元1203用于:
从对象库中构建正样本对象集以及负样本对象集;所述正样本对象集中的样本对象为目标游戏的种子对象;
针对所述正样本对象集以及所述负样本对象集中的任一样本对象,基于预设时间段内,所述任一样本对象产生操作的各个参考游戏的操作时长以及所述各个参考游戏的目标表征向量,确定所述任一样本对象的偏好特征;所述任一样本对象的偏好特征用于指示:所述任一样本对象对所述各个参考游戏的偏好程度;
基于所述正样本对象集以及所述负样本对象集中各个样本对象的偏好特征,训练对象扩散模型,得到训练后的对象扩散模型;
通过所述训练后的对象扩散模型,对所述对象库中各个对象的偏好特征进行处理,并基于所述各个对象对应的处理结果,从所述各个对象中确定出与种子对象相似的潜在种子对象;
向确定出的各个潜在种子对象推广所述目标游戏。
根据本申请的一个实施例,图2、图4、图5以及图9所示的表征学习方法所涉及各个步骤可以是由图12所示的表征学习装置中的各个单元来执行的。例如,图2所示的步骤S201可由图12所示的表征学习装置中的划分单元1201来执行,图2所示的步骤S202至步骤S205可由图12所示的表征学习装置中的训练单元1202来执行。又如,图4所示的步骤S401可由图12所示的表征学习装置中的划分单元1201来执行,图4所示的步骤S402至步骤S408可由图12所示的表征学习装置中的训练单元1202来执行。再如,图5所示的步骤S501可由图12所示的表征学习装置中的划分单元1201来执行,图5所示的步骤S502至步骤S508可由图12所示的表征学习装置中的训练单元1202来执行。
根据本申请的另一个实施例,图12所示的表征学习装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,基于逻辑功能划分的表征学习装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2、图4、图5以及图9所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图12中所示的表征学习装置,以及来实现本申请实施例表征学习方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于上述计算设备中,并在其中运行。
本申请实施例中,可以对知识图谱包括的多个三元组进行划分处理,得到第一三元组集合以及第二三元组集合,其中,第一三元组集合中与任意一种关系相连的尾实体的种类,多于第二三元组集合中与任意一种关系相连的尾实体的种类;然后可以基于提取得到的第一三元组集合中各个三元组对应的表征向量组,确定第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离,基于提取得到的第二三元组集合中各个三元组对应的表征向量组,确定第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离,其中,三元组对应的表征向量组包括:头实体的表征向量、关系的表征向量以及尾实体的表征向量;进而根据第一三元组集合中各个三元组对应的第一距离以及第二三元组集合中各个三元组对应的第二距离,确定知识图谱包括的各个三元组对应的目标表征向量组。由于划分得到的第一三元组集合中,与任意一种关系相连的尾实体的种类较多,那么,在头实体的种类固定的情况下,基于该任意一种关系与任意一种尾实体相连的头实体的数量相对较少,针对此种情况,基于平移思想所指示的三元组中头实体和关系的表征向量和应该接近尾实体的表征向量,可以通过限制三元组中头实体和关系的表征向量和,指向尾实体的表征向量的第一距离来准确地对三元组中实体和关系进行表征学习;由于划分得到的第二三元组集合中,与任意一种关系相连的尾实体的种类较少,那么,在头实体的种类固定的情况下,基于该任意一种关系与任意一种尾实体相连的头实体的数量相对较多,针对此种情况,可以基于聚类思想,通过限制三元组中头实体的表征向量,指向尾实体的表征向量的第二距离的大小,对三元组中实体和关系进行表征学习,可以保证基于该任意一种关系与该任意一种尾实体相连的头实体分布在以该任意一种尾实体为中心的超平面内,在对基于该任意一种关系与该任意一种尾实体相连的头实体进行表征学习时,可以保留不同头实体所具有的空间分布信息,可以保证学习得到的不同头实体的目标表征向量之间的区分度,进而提高知识图谱表征学习的准确性。
基于上述表征学习方法的相关实施例以及表征学习装置实施例,本申请还提供了一种表征学习设备。参见图13,为本申请实施例提供的一种表征学习设备的结构示意图。图13所示的表征学习设备可至少包括处理器1301、输入接口1302、输出接口1303以及计算机存储介质1304。其中,处理器1301、输入接口1302、输出接口1303以及计算机存储介质1304可通过总线或其他方式连接。
计算机存储介质1304可以存储在表征学习设备的存储器中,计算机存储介质1304用于存储计算机程序,计算机程序包括程序指令,处理器1301用于执行计算机存储介质1304存储的程序指令。处理器1301(或称CPU(Central Processing Unit,中央处理器))是表征学习设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现上述表征学习方法流程或相应功能。
本申请实施例还提供了一种计算机存储介质(Memory),计算机存储介质是表征学习设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括终端中的内置存储介质,当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器1301加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速随机存取存储器(random access memory,RAM)存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,可由处理器1301加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图2、图4、图5以及图9的表征学习方法实施例中的方法的相应步骤,具体实现中,计算机存储介质中的一条或多条指令由处理器1301加载并执行如下步骤:
对知识图谱包括的多个三元组进行划分处理,得到第一三元组集合以及第二三元组集合;三元组包括头实体、关系和尾实体,所述第一三元组集合中第一尾实体的种类,多于所述第二三元组集合中第二尾实体的种类,所述第一尾实体包括:与所述第一三元组集合中同一种关系相连的尾实体,所述第二尾实体包括:与所述第二三元组集合中同一种关系相连的尾实体;
提取所述第一三元组集合以及所述第二三元组集合中,各个三元组对应的表征向量组;三元组对应的表征向量组包括:头实体的表征向量、关系的表征向量以及尾实体的表征向量;
基于所述第一三元组集合中各个三元组对应的表征向量组,确定所述第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离;
基于所述第二三元组集合中各个三元组对应的表征向量组,确定所述第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离;
根据所述第一三元组集合中各个三元组对应的第一距离以及所述第二三元组集合中各个三元组对应的第二距离,确定所述知识图谱包括的各个三元组对应的目标表征向量组;三元组对应的目标表征向量组包括:头实体的目标表征向量、关系的目标表征向量以及尾实体的目标表征向量。
在一个实施例中,所述处理器1301对知识图谱包括的多个三元组进行划分处理,得到第一三元组集合以及第二三元组集合时,具体执行如下操作:
针对所述知识图谱中任一种关系,统计所述知识图谱中,与所述任一种关系相连的尾实体,作为目标尾实体;各个目标尾实体之间互不相同;
分别统计所述知识图谱中,基于所述任一种关系与所述各个目标尾实体相连的头实体的数量,作为所述各个目标尾实体对应的参考数量;
根据所述各个目标尾实体对应的参考数量,确定所述任一种关系对应的划分参考值;
针对所述知识图谱包括的任一三元组,若所述任一三元组中的关系对应的划分参考值小于预设划分阈值,则将所述任一三元组划分到所述第一三元组集合中;
若所述任一三元组中的关系对应的划分参考值大于或等于预设划分阈值,则将所述任一三元组划分到所述第二三元组集合中。
在一个实施例中,所述处理器1301根据所述各个目标尾实体对应的参考数量,确定所述任一种关系对应的划分参考值时,具体执行如下操作:
针对任一目标尾实体,根据所述各个目标尾实体对应的参考数量,确定所述任一目标尾实体对应的参考数量占比;
基于所述各个目标尾实体对应的参考数量占比,确定所述任一种关系对应的信息熵;
将所述任一种关系对应的信息熵进行转换处理,得到所述任一种关系对应的划分参考值。
在一个实施例中,所述处理器1301,还用于:
构建所述第一三元组集合中各个三元组对应的参照三元组,以得到参照三元组集合;参照三元组包括的关系与相应三元组包括的关系相同,且参照三元组满足如下任一条件:参照三元组包括的头实体与相应三元组包括的头实体不相同,或者参照三元组包括的尾实体与相应三元组包括的尾实体不相同;
提取所述参照三元组集合中,各个参照三元组对应的表征向量组;
基于所述参照三元组集合中各个参照三元组对应的表征向量组,确定所述参照三元组集合中各个参照三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第三距离;
所述处理器1301根据所述第一三元组集合中各个三元组对应的第一距离以及所述第二三元组集合中各个三元组对应的第二距离,确定所述知识图谱包括的各个三元组对应的目标表征向量组时,具体执行如下操作:
根据所述第一三元组集合中各个三元组对应的第一距离、所述第二三元组集合中各个三元组对应的第二距离、以及所述参照三元组集合中各个参照三元组对应的第三距离,确定所述知识图谱包括的各个三元组对应的目标表征向量组。
在一个实施例中,所述处理器1301构建所述第一三元组集合中各个三元组对应的参照三元组时,具体执行如下操作:
针对所述第一三元组集合中的任一三元组,将所述任一三元组进行实体替换处理,得到替换后的三元组;
若所述替换后的三元组不存在于所述知识图谱中,则将所述替换后的三元组作为所述任一三元组对应的参照三元组;
若所述替换后的三元组存在于所述知识图谱中,则重复执行将所述任一三元组进行实体替换处理,直至得到所述任一三元组对应的参照三元组。
在一个实施例中,所述处理器1301将所述任一三元组进行实体替换处理,得到替换后的三元组时,具体执行如下操作:
获取所述知识图谱中与所述任一三元组中的头实体不相同的头实体;
将所述任一三元组中的头实体替换为获取到的头实体,得到所述替换后的三元组。
在一个实施例中,所述处理器1301将所述任一三元组进行实体替换处理,得到替换后的三元组时,具体执行如下操作:
获取所述知识图谱中与所述任一三元组中的尾实体不相同的尾实体;
将所述任一三元组中的尾实体替换为获取到的尾实体,得到所述替换后的三元组。
在一个实施例中,所述第一三元组集合中各个三元组对应的表征向量组、所述第二三元组集合中各个三元组对应的表征向量组、以及所述参照三元组集合中各个参照三元组对应的表征向量组,是通过特征提取模型提取到的;
所述处理器1301根据所述第一三元组集合中各个三元组对应的第一距离、所述第二三元组集合中各个三元组对应的第二距离、以及所述参照三元组集合中各个参照三元组对应的第三距离,确定所述知识图谱包括的各个三元组对应的目标表征向量组时,具体执行如下操作:
获取所述第二三元组集合中各个三元组对应的参考分布半径;
朝着减小所述第一三元组集合中各个三元组对应的第一距离、增大所述参照三元组集合中各个参照三元组对应的第三距离、以及控制所述第二三元组集合中各个三元组对应的第二距离,小于或等于相应参考分布半径的方向,对特征提取模型进行迭代训练,得到训练后的特征提取模型;
通过所述训练后的特征提取模型,提取所述知识图谱包括的各个三元组对应的表征向量组,作为相应三元组对应的目标表征向量组。
在一个实施例中,所述处理器1301,还用于:
获取所述知识图谱包括的各个三元组中头实体所对应的多模态信息;头实体所对应的多模态信息包括以下一种或多种:文本描述信息以及图像信息;
针对所述知识图谱包括的任一三元组,提取所述任一三元组中头实体所对应的多模态信息的表征向量;
基于所述任一三元组中头实体所对应的多模态信息的表征向量,更新所述任一三元组对应的表征向量组;
所述处理器1301基于所述第一三元组集合中各个三元组对应的表征向量组,确定所述第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离时,具体执行如下操作:
基于所述第一三元组集合中各个三元组对应的更新后的表征向量组,确定所述第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离;
所述处理器1301基于所述第二三元组集合中各个三元组对应的表征向量组,确定所述第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离时,具体执行如下操作:
基于所述第二三元组集合中各个三元组对应的更新后的表征向量组,确定所述第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离。
在一个实施例中,所述处理器1301,还用于:
获取所述知识图谱包括的各个三元组中头实体所对应的多模态信息;头实体所对应的多模态信息包括以下一种或多种:文本描述信息以及图像信息;
针对所述知识图谱包括的任一三元组,提取所述任一三元组中头实体所对应的多模态信息的表征向量;
基于所述任一三元组中头实体所对应的多模态信息的表征向量,更新所述任一三元组对应的表征向量组;
针对所述参照三元组集合中的任一参照三元组,提取所述任一参照三元组中头实体所对应的多模态信息的表征向量;
基于所述任一参照三元组中头实体所对应的多模态信息的表征向量,更新所述任一参照三元组对应的表征向量组;
所述处理器1301基于所述第一三元组集合中各个三元组对应的表征向量组,确定所述第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离时,具体执行如下操作:
基于所述第一三元组集合中各个三元组对应的更新后的表征向量组,确定所述第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离;
所述处理器1301基于所述第二三元组集合中各个三元组对应的表征向量组,确定所述第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离时,具体执行如下操作:
基于所述第二三元组集合中各个三元组对应的更新后的表征向量组,确定所述第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离;
所述处理器1301基于所述参照三元组集合中各个参照三元组对应的表征向量组,确定所述参照三元组集合中各个参照三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第三距离时,具体执行如下操作:
基于所述参照三元组集合中各个参照三元组对应的更新后的表征向量组,确定所述参照三元组集合中各个参照三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第三距离。
在一个实施例中,三元组对应的更新后的表征向量组包括:头实体更新后的表征向量、关系的表征向量、尾实体的表征向量;
所述处理器1301用于得到任一三元组中头实体更新后的表征向量时,具体执行如下操作:
采用所述任一三元组中头实体所对应的多模态信息的表征向量,与所述任一三元组中头实体的表征向量进行融合处理,得到所述任一三元组中头实体更新后的表征向量。
在一个实施例中,所述知识图谱为游戏知识图谱,所述游戏知识图谱包括的三元组中的头实体为游戏,游戏的目标表征向量为相应三元组对应的目标表征向量组中,头实体的目标表征向量;
所述处理器1301,还用于:
从对象库中构建正样本对象集以及负样本对象集;所述正样本对象集中的样本对象为目标游戏的种子对象;
针对所述正样本对象集以及所述负样本对象集中的任一样本对象,基于预设时间段内,所述任一样本对象产生操作的各个参考游戏的操作时长以及所述各个参考游戏的目标表征向量,确定所述任一样本对象的偏好特征;所述任一样本对象的偏好特征用于指示:所述任一样本对象对所述各个参考游戏的偏好程度;
基于所述正样本对象集以及所述负样本对象集中各个样本对象的偏好特征,训练对象扩散模型,得到训练后的对象扩散模型;
通过所述训练后的对象扩散模型,对所述对象库中各个对象的偏好特征进行处理,并基于所述各个对象对应的处理结果,从所述各个对象中确定出与种子对象相似的潜在种子对象;
向确定出的各个潜在种子对象推广所述目标游戏。
本申请实施例提供了一种计算机程序产品,计算机程序产品包括计算机程序,该计算机程序存储在计算机存储介质中;表征学习设备的处理器从计算机存储介质中读取该计算机程序,处理器执行该计算机程序,使得表征学习设备执行上述如图2、图4、图5以及图9所示的方法实施例。其中,计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (15)

1.一种表征学习方法,其特征在于,包括:
对知识图谱包括的多个三元组进行划分处理,得到第一三元组集合以及第二三元组集合;三元组包括头实体、关系和尾实体,所述第一三元组集合中第一尾实体的种类,多于所述第二三元组集合中第二尾实体的种类,所述第一尾实体包括:与所述第一三元组集合中同一种关系相连的尾实体,所述第二尾实体包括:与所述第二三元组集合中同一种关系相连的尾实体;
提取所述第一三元组集合以及所述第二三元组集合中,各个三元组对应的表征向量组;三元组对应的表征向量组包括:头实体的表征向量、关系的表征向量以及尾实体的表征向量;
基于所述第一三元组集合中各个三元组对应的表征向量组,确定所述第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离;
基于所述第二三元组集合中各个三元组对应的表征向量组,确定所述第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离;
根据所述第一三元组集合中各个三元组对应的第一距离以及所述第二三元组集合中各个三元组对应的第二距离,确定所述知识图谱包括的各个三元组对应的目标表征向量组;三元组对应的目标表征向量组包括:头实体的目标表征向量、关系的目标表征向量以及尾实体的目标表征向量。
2.如权利要求1所述的方法,其特征在于,所述对知识图谱包括的多个三元组进行划分处理,得到第一三元组集合以及第二三元组集合,包括:
针对所述知识图谱中任一种关系,统计所述知识图谱中,与所述任一种关系相连的尾实体,作为目标尾实体;各个目标尾实体之间互不相同;
分别统计所述知识图谱中,基于所述任一种关系与所述各个目标尾实体相连的头实体的数量,作为所述各个目标尾实体对应的参考数量;
根据所述各个目标尾实体对应的参考数量,确定所述任一种关系对应的划分参考值;
针对所述知识图谱包括的任一三元组,若所述任一三元组中的关系对应的划分参考值小于预设划分阈值,则将所述任一三元组划分到所述第一三元组集合中;
若所述任一三元组中的关系对应的划分参考值大于或等于预设划分阈值,则将所述任一三元组划分到所述第二三元组集合中。
3.如权利要求2所述的方法,其特征在于,所述根据所述各个目标尾实体对应的参考数量,确定所述任一种关系对应的划分参考值,包括:
针对任一目标尾实体,根据所述各个目标尾实体对应的参考数量,确定所述任一目标尾实体对应的参考数量占比;
基于所述各个目标尾实体对应的参考数量占比,确定所述任一种关系对应的信息熵;
将所述任一种关系对应的信息熵进行转换处理,得到所述任一种关系对应的划分参考值。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
构建所述第一三元组集合中各个三元组对应的参照三元组,以得到参照三元组集合;参照三元组包括的关系与相应三元组包括的关系相同,且参照三元组满足如下任一条件:参照三元组包括的头实体与相应三元组包括的头实体不相同,或者参照三元组包括的尾实体与相应三元组包括的尾实体不相同;
提取所述参照三元组集合中,各个参照三元组对应的表征向量组;
基于所述参照三元组集合中各个参照三元组对应的表征向量组,确定所述参照三元组集合中各个参照三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第三距离;
所述根据所述第一三元组集合中各个三元组对应的第一距离以及所述第二三元组集合中各个三元组对应的第二距离,确定所述知识图谱包括的各个三元组对应的目标表征向量组,包括:
根据所述第一三元组集合中各个三元组对应的第一距离、所述第二三元组集合中各个三元组对应的第二距离、以及所述参照三元组集合中各个参照三元组对应的第三距离,确定所述知识图谱包括的各个三元组对应的目标表征向量组。
5.如权利要求4所述的方法,其特征在于,所述构建所述第一三元组集合中各个三元组对应的参照三元组,包括:
针对所述第一三元组集合中的任一三元组,将所述任一三元组进行实体替换处理,得到替换后的三元组;
若所述替换后的三元组不存在于所述知识图谱中,则将所述替换后的三元组作为所述任一三元组对应的参照三元组;
若所述替换后的三元组存在于所述知识图谱中,则重复执行将所述任一三元组进行实体替换处理,直至得到所述任一三元组对应的参照三元组。
6.如权利要求5所述的方法,其特征在于,所述将所述任一三元组进行实体替换处理,得到替换后的三元组,包括:
获取所述知识图谱中与所述任一三元组中的头实体不相同的头实体;
将所述任一三元组中的头实体替换为获取到的头实体,得到所述替换后的三元组。
7.如权利要求5所述的方法,其特征在于,所述将所述任一三元组进行实体替换处理,得到替换后的三元组,包括:
获取所述知识图谱中与所述任一三元组中的尾实体不相同的尾实体;
将所述任一三元组中的尾实体替换为获取到的尾实体,得到所述替换后的三元组。
8.如权利要求4所述的方法,其特征在于,所述第一三元组集合中各个三元组对应的表征向量组、所述第二三元组集合中各个三元组对应的表征向量组、以及所述参照三元组集合中各个参照三元组对应的表征向量组,是通过特征提取模型提取到的;
所述根据所述第一三元组集合中各个三元组对应的第一距离、所述第二三元组集合中各个三元组对应的第二距离、以及所述参照三元组集合中各个参照三元组对应的第三距离,确定所述知识图谱包括的各个三元组对应的目标表征向量组,包括:
获取所述第二三元组集合中各个三元组对应的参考分布半径;
朝着减小所述第一三元组集合中各个三元组对应的第一距离、增大所述参照三元组集合中各个参照三元组对应的第三距离、以及控制所述第二三元组集合中各个三元组对应的第二距离,小于或等于相应参考分布半径的方向,对特征提取模型进行迭代训练,得到训练后的特征提取模型;
通过所述训练后的特征提取模型,提取所述知识图谱包括的各个三元组对应的表征向量组,作为相应三元组对应的目标表征向量组。
9.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述知识图谱包括的各个三元组中头实体所对应的多模态信息;头实体所对应的多模态信息包括以下一种或多种:文本描述信息以及图像信息;
针对所述知识图谱包括的任一三元组,提取所述任一三元组中头实体所对应的多模态信息的表征向量;
基于所述任一三元组中头实体所对应的多模态信息的表征向量,更新所述任一三元组对应的表征向量组;
所述基于所述第一三元组集合中各个三元组对应的表征向量组,确定所述第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离,包括:
基于所述第一三元组集合中各个三元组对应的更新后的表征向量组,确定所述第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离;
所述基于所述第二三元组集合中各个三元组对应的表征向量组,确定所述第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离,包括:
基于所述第二三元组集合中各个三元组对应的更新后的表征向量组,确定所述第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离。
10.如权利要求4所述的方法,其特征在于,所述方法还包括:
获取所述知识图谱包括的各个三元组中头实体所对应的多模态信息;头实体所对应的多模态信息包括以下一种或多种:文本描述信息以及图像信息;
针对所述知识图谱包括的任一三元组,提取所述任一三元组中头实体所对应的多模态信息的表征向量;
基于所述任一三元组中头实体所对应的多模态信息的表征向量,更新所述任一三元组对应的表征向量组;
针对所述参照三元组集合中的任一参照三元组,提取所述任一参照三元组中头实体所对应的多模态信息的表征向量;
基于所述任一参照三元组中头实体所对应的多模态信息的表征向量,更新所述任一参照三元组对应的表征向量组;
所述基于所述第一三元组集合中各个三元组对应的表征向量组,确定所述第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离,包括:
基于所述第一三元组集合中各个三元组对应的更新后的表征向量组,确定所述第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离;
所述基于所述第二三元组集合中各个三元组对应的表征向量组,确定所述第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离,包括:
基于所述第二三元组集合中各个三元组对应的更新后的表征向量组,确定所述第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离;
所述基于所述参照三元组集合中各个参照三元组对应的表征向量组,确定所述参照三元组集合中各个参照三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第三距离,包括:
基于所述参照三元组集合中各个参照三元组对应的更新后的表征向量组,确定所述参照三元组集合中各个参照三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第三距离。
11.如权利要求9或10所述的方法,其特征在于,三元组对应的更新后的表征向量组包括:头实体更新后的表征向量、关系的表征向量、尾实体的表征向量;
得到任一三元组中头实体更新后的表征向量的方式包括:
采用所述任一三元组中头实体所对应的多模态信息的表征向量,与所述任一三元组中头实体的表征向量进行融合处理,得到所述任一三元组中头实体更新后的表征向量。
12.如权利要求1所述的方法,其特征在于,所述知识图谱为游戏知识图谱,所述游戏知识图谱包括的三元组中的头实体为游戏,游戏的目标表征向量为相应三元组对应的目标表征向量组中,头实体的目标表征向量;
所述方法还包括:
从对象库中构建正样本对象集以及负样本对象集;所述正样本对象集中的样本对象为目标游戏的种子对象;
针对所述正样本对象集以及所述负样本对象集中的任一样本对象,基于预设时间段内,所述任一样本对象产生操作的各个参考游戏的操作时长以及所述各个参考游戏的目标表征向量,确定所述任一样本对象的偏好特征;所述任一样本对象的偏好特征用于指示:所述任一样本对象对所述各个参考游戏的偏好程度;
基于所述正样本对象集以及所述负样本对象集中各个样本对象的偏好特征,训练对象扩散模型,得到训练后的对象扩散模型;
通过所述训练后的对象扩散模型,对所述对象库中各个对象的偏好特征进行处理,并基于所述各个对象对应的处理结果,从所述各个对象中确定出与种子对象相似的潜在种子对象;
向确定出的各个潜在种子对象推广所述目标游戏。
13.一种表征学习装置,其特征在于,包括:
划分单元,用于对知识图谱包括的多个三元组进行划分处理,得到第一三元组集合以及第二三元组集合;三元组包括头实体、关系和尾实体,所述第一三元组集合中第一尾实体的种类,多于所述第二三元组集合中第二尾实体的种类,所述第一尾实体包括:与所述第一三元组集合中同一种关系相连的尾实体,所述第二尾实体包括:与所述第二三元组集合中同一种关系相连的尾实体;
训练单元,用于提取所述第一三元组集合以及所述第二三元组集合中,各个三元组对应的表征向量组;三元组对应的表征向量组包括:头实体的表征向量、关系的表征向量以及尾实体的表征向量;
所述训练单元,还用于基于所述第一三元组集合中各个三元组对应的表征向量组,确定所述第一三元组集合中各个三元组包括的头实体和关系的表征向量和,指向尾实体的表征向量的第一距离;
所述训练单元,还用于基于所述第二三元组集合中各个三元组对应的表征向量组,确定所述第二三元组集合中各个三元组包括的头实体的表征向量,指向尾实体的表征向量的第二距离;
所述训练单元,还用于根据所述第一三元组集合中各个三元组对应的第一距离以及所述第二三元组集合中各个三元组对应的第二距离,确定所述知识图谱包括的各个三元组对应的目标表征向量组;三元组对应的目标表征向量组包括:头实体的目标表征向量、关系的目标表征向量以及尾实体的目标表征向量。
14.一种表征学习设备,其特征在于,所述表征学习设备包括输入接口和输出接口,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-12任一项所述的表征学习方法。
15.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行如权利要求1-12任一项所述的表征学习方法。
CN202210737770.9A 2022-06-27 2022-06-27 表征学习方法、装置、设备、存储介质及计算机程序产品 Pending CN117056523A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210737770.9A CN117056523A (zh) 2022-06-27 2022-06-27 表征学习方法、装置、设备、存储介质及计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210737770.9A CN117056523A (zh) 2022-06-27 2022-06-27 表征学习方法、装置、设备、存储介质及计算机程序产品

Publications (1)

Publication Number Publication Date
CN117056523A true CN117056523A (zh) 2023-11-14

Family

ID=88655988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210737770.9A Pending CN117056523A (zh) 2022-06-27 2022-06-27 表征学习方法、装置、设备、存储介质及计算机程序产品

Country Status (1)

Country Link
CN (1) CN117056523A (zh)

Similar Documents

Publication Publication Date Title
CN112084331B (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN108132968B (zh) 网络文本与图像中关联语义基元的弱监督学习方法
CN111754596B (zh) 编辑模型生成、人脸图像编辑方法、装置、设备及介质
CN116935169B (zh) 文生图模型训练方法以及文生图方法
CN116402063B (zh) 多模态讽刺识别方法、装置、设备以及存储介质
CN112131883B (zh) 语言模型训练方法、装置、计算机设备和存储介质
CN114298122B (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
CN110929640B (zh) 一种基于目标检测的宽幅遥感描述生成方法
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
CN117437317A (zh) 图像生成方法、装置、电子设备、存储介质和程序产品
CN112668608A (zh) 一种图像识别方法、装置、电子设备及存储介质
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
CN113516142A (zh) 文本图像匹配方法、装置、设备及存储介质
CN113435531B (zh) 零样本图像分类方法、系统、电子设备及存储介质
CN114707633B (zh) 特征提取方法、装置、电子设备和存储介质
CN117011569A (zh) 一种图像处理方法和相关装置
CN114708449A (zh) 相似视频的确定方法、实例表征模型的训练方法及设备
CN116415624A (zh) 模型训练方法及装置、内容推荐方法及装置
CN114443916A (zh) 一种面向试验数据的供需匹配方法及系统
CN116955763A (zh) 内容推荐方法、装置、计算机设备及计算机可读存储介质
CN117056523A (zh) 表征学习方法、装置、设备、存储介质及计算机程序产品
CN113822293A (zh) 用于图数据的模型处理方法、装置、设备及存储介质
CN113822291A (zh) 一种图像处理方法、装置、设备及存储介质
CN116340552B (zh) 一种标签排序方法、装置、设备及存储介质
CN117058489B (zh) 多标签识别模型的训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination