CN113656589B - 对象属性确定方法、装置、计算机设备及存储介质 - Google Patents

对象属性确定方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113656589B
CN113656589B CN202110419355.4A CN202110419355A CN113656589B CN 113656589 B CN113656589 B CN 113656589B CN 202110419355 A CN202110419355 A CN 202110419355A CN 113656589 B CN113656589 B CN 113656589B
Authority
CN
China
Prior art keywords
feature
target
vector
attribute
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110419355.4A
Other languages
English (en)
Other versions
CN113656589A (zh
Inventor
赵瑞辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110419355.4A priority Critical patent/CN113656589B/zh
Publication of CN113656589A publication Critical patent/CN113656589A/zh
Application granted granted Critical
Publication of CN113656589B publication Critical patent/CN113656589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请关于一种对象属性确定方法、装置、计算机设备及存储介质,涉及人工智能技术领域。该方法包括:根据目标对象的至少一项特征,以及对应领域中的知识图谱,确定目标对象对应于某一项属性的特征向量,然后再结合已经确定具有该项属性的其它参考对象的特征向量,构建一个对象关系图,再基于对象关系图来预测当前目标对象是否具有该项属性,由于知识图谱中包含各项特征与各项属性之间的关系,从而提高了属性预测的准确性。

Description

对象属性确定方法、装置、计算机设备及存储介质
技术领域
本申请涉及人工智能技术领域,特别涉及一种对象属性确定方法、装置、计算机设备及存储介质。
背景技术
随着人工智能(Artificial Intelligence,AI)技术的不断发展,人工智能在各个行业中的应用也越来越广泛。
在人工智能技术中,通常会采用二分类的方式来预测某个对象所具有的属性。例如,可以预先训练一个神经网络模型,该神经网络模型的输入为目标对象所具有的指定类型的特征,输出为该目标对象具有某一项属性的概率。
然而,上述方案中的神经网络模型在训练过程中只关心特征和属性之间的对应关系,对于预测结果的可解释性较差,从而影响预测的准确性。
发明内容
本申请实施例提供了一种对象属性确定方法、装置、计算机设备及存储介质,可以提高对象属性的预测结果的可解释性,进而提高预测的准确性,该技术方案如下:
一方面,提供了一种对象属性确定方法,所述方法包括:
获取目标对象的特征集合,所述特征集合中包含所述目标对象的至少一项特征;
基于所述特征集合,以及指定领域的知识图谱,获取所述目标对象对应于目标属性的特征向量;所述知识图谱中包含所述指定领域中的各种特征以及所述指定领域中的各项属性之间的关系;所述目标属性是所述各项属性中的一项;
基于所述目标对象对应于目标属性的特征向量,以及至少一个参考对象对应于所述目标属性的特征向量,构建对象关系图;所述对象关系图用于指示所述目标对象以及至少一个所述参考对象之间的关系;所述参考对象是具有所述目标属性的对象;
基于所述对象关系图,获取所述目标对象的属性信息,所述属性信息用于指示所述目标对象具有所述目标属性的概率。
另一方面,提供了一种对象属性确定装置,所述装置包括:
特征集合获取模块,用于获取目标对象的特征集合,所述特征集合中包含所述目标对象的至少一项特征;
对象特征向量获取模块,用于基于所述特征集合,以及指定领域的知识图谱,获取所述目标对象对应于目标属性的特征向量;所述知识图谱中包含所述指定领域中的各种特征以及所述指定领域中的各项属性之间的关系;所述目标属性是所述各项属性中的一项;
图构建模块,用于基于所述目标对象对应于目标属性的特征向量,以及至少一个参考对象对应于所述目标属性的特征向量,构建对象关系图;所述对象关系图用于指示所述目标对象以及至少一个所述参考对象之间的关系;所述参考对象是具有所述目标属性的对象;
属性信息获取模块,用于基于所述对象关系图,获取所述目标对象的属性信息,所述属性信息用于指示所述目标对象具有所述目标属性的概率。
在一种可能的实现方式中,所述对象特征向量获取模块,用于,
获取所述至少一项特征分别对应的特征路径;所述特征路径中包含起始特征,以及所述起始特征在所述知识图谱中到达所述目标属性所依次经过的中间特征;所述起始特征是所述至少一项特征中的一项;
对所述至少一项特征分别对应的特征路径上的特征进行编码,获得所述至少一项特征分别对应的特征路径的路径编码;
基于所述至少一项特征分别对应的特征路径的路径编码,获取路径编码向量;
基于所述路径编码向量,获取所述目标对象对应于所述目标属性的特征向量。
在一种可能的实现方式中,所述对所述至少一项特征分别对应的特征路径上的特征进行编码,获得所述至少一项特征分别对应的特征路径的路径编码时,所述对象特征向量获取模块,用于,
将目标特征路径上的特征依次输入编码网络,获得所述目标特征路径的路径编码;所述目标特征路径是所述至少一项特征分别对应的特征路径中的任意一条特征路径。
在一种可能的实现方式中,所述基于所述路径编码向量,获取所述目标对象对应于所述目标属性的特征向量时,所述对象特征向量获取模块,用于,
基于所述特征集合,获取所述目标对象的初步特征向量;
基于所述初步特征向量以及所述路径编码向量,获取所述目标对象对应于所述目标属性的特征向量。
在一种可能的实现方式中,所述基于所述特征集合,获取所述目标对象的初步特征向量时,所述对象特征向量获取模块,用于,
获取所述特征集合对应的特征指示向量,所述特征指示向量中对应所述特征集合中的特征的向量元素值为1,且所述特征指示向量的其它向量元素值为0;
将所述特征指示向量与向量表示矩阵相乘,获得所述目标对象的初步特征向量,所述向量表示矩阵中包含所述指定领域中的各个特征的特征表示向量。
在一种可能的实现方式中,所述基于所述初步特征向量以及所述路径编码向量,获取所述目标对象对应于所述目标属性的特征向量时,所述对象特征向量获取模块,用于,
将所述初步特征向量以及所述路径编码向量进行拼接,获得所述目标对象对应于所述目标属性的特征向量。
在一种可能的实现方式中,所述图构建模块,用于基于所述目标对象对应于目标属性的特征向量,以及至少一个参考对象对应于所述目标属性的特征向量之间的距离,构建所述对象关系图。
在一种可能的实现方式中,所述图构建模块,用于,
基于所述目标对象对应于目标属性的特征向量,以及至少一个参考对象对应于所述目标属性的特征向量之间的距离,确定所述对象关系图中的边;
以所述目标对象以及所述至少一个参考对象为节点,以所述目标对象对应于目标属性的特征向量,以及所述至少一个参考对象对应于所述目标属性的特征向量为节点的特征向量,结合所述对象关系图中的边构建所述对象关系图。
在一种可能的实现方式中,所述图构建模块,还用于,
基于所述目标对象的初步特征向量,以及所述至少一个参考对象的初步特征向量,获取所述对象关系图中的边的权重;
基于所述对象关系图中的边的权重,更新所述对象关系图。
在一种可能的实现方式中,所述属性信息获取模块,用于将所述对象关系图输入属性信息预测网络,获得所述属性信息预测网络输出的所述目标对象的属性信息。
在一种可能的实现方式中,所述属性信息获取模块,用于,
将所述对象关系图输入所述属性信息预测网络中的图卷积神经网络,获得所述图卷积神经网络输出的,所述对象关系图中的各个节点的表示向量;
将所述对象关系图中的各个节点的表示向量输入所述属性信息预测网络中的线性层,获得所述线性层输出的,所述目标对象的属性信息。
在一种可能的实现方式中,所述目标对象为目标用户,所述装置还包括:
推荐信息获取模块,用于基于所述目标用户具有所述各项属性的概率,获取推荐信息;
推送模块,用于向所述目标用户对应的终端推送所述推荐信息。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储由至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述对象属性确定方法。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现上述对象属性确定方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的对象属性确定方法。
本申请提供的技术方案可以包括以下有益效果:
计算机设备可以根据目标对象的至少一项特征,以及对应领域中的知识图谱,确定目标对象对应于某一项属性的特征向量,然后再结合已经确定具有该项属性的其它参考对象的特征向量,构建一个对象关系图,再基于对象关系图来预测当前目标对象是否具有该项属性,由于知识图谱中包含各项特征与各项属性之间的关系,因此,通过上述方案,能够结合特征和属性之间的关系来进行属性预测,使得预测结果具有良好的可解释性,从而提高了属性预测的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请一示例性实施例示出的图数据的结构示意图;
图2是本申请一示例性实施例提供的对象属性确定系统的系统结构示意图;
图3是本申请一示例性实施例提供的对象属性确定方法的流程图;
图4是本申请一示例性实施例提供的对象属性确定方法的流程图;
图5是图4所示实施例涉及的初步特征向量构建示意图;
图6是图4所示实施例涉及的信息抽取的过程示意图;
图7是本申请一示例性实施例提供的科室推荐的流程图;
图8是图7所示实施例涉及的科室推荐过程的界面展示的示意图;
图9是根据一示例性实施例示出的一种对象属性确定装置的结构方框图;
图10示出了本申请一示例性实施例示出的计算机设备的结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请实施例提供了一种用于图像分类的模型处理方法,可以提高获得的图像分类模型的分类准确性。为了便于理解,下面对本申请涉及的几个名词进行解释。
1)人工智能
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请所示的包含图像采集组件的显示设备主要涉及其中的计算机视觉技术以及机器学习/深度学习等方向。
2)机器学习(Machine Learning,ML)
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
3)电子健康记录(Electronic Health Records,EHR)
电子健康记录,是以电子形式存储的患者人群的健康以及诊断信息等。以电子病历为主题,以信息共享为核心的数字化健康档案;EHR里面可能会包含一系列统计数据,比如病人的病史,用药史,过敏史免疫状况,实验室检查结果,年龄,体重等信息。
4)医疗知识图谱(Medical Knowledge Graph)
医学知识图谱是包含了临床医学知识的图谱,里面的知识主要以三元对的形式出现,即医学实体1,关系,医学实体2。
5)图数据(Graph)
在图论中,图数据是一种数据格式,它可以用于表示社交网络、通信网络、蛋白分子网络等,用于显式地表达出数据间的复杂关联结构,用以辅助机器学习的数据分析过程,帮助机器学习算法更好地挖掘出数据背后的结构特征。图数据一般由节点和边构成,节点表示实体对象,边表示两个实体对象间的关系。图1示出了本申请一示例性实施例提供的图数据的结构示意图,如图1所示,图1中的节点110表示实体对象,比如,该实体对象可以是一个用户、一件商品、一辆车等等,边120代表事件或者实体对象之间的特殊关系,比如用户与商品之间的购买关系,用户与用户之间的社交关系等等。一般的,我们可以把图定义为G(V,E),其中V是节点集合,E是边集合,G(V,E) 定义了信息图中的拓扑关系,在数学中,一般使用邻接矩阵来表示图中各个节点之间的连接关系,比如,图1对应的邻接矩阵A为:
Figure SMS_1
邻接矩阵中的值为1,表示节点之间有边,即具有连接关系;邻接矩阵中的值为0,表示节点之间没有边,即不具有连接关系;以图1中的节点1为例,节点1与节点2和节点3之间存在连接关系,因此,在邻接矩阵A中,对应第1行第2列的值为1,对应第1行第3列的值为1,而节点1与节点4和节点5之间不存在连接关系,因此,在邻接矩阵A中,对应第1行第4列的值为0,对应第1行第5列的值为0。
可选的,每个节点对应有各自的属性,即节点特征,例如:在分子结构网络中,每个原子作为节点存在包括质子数,电荷数等在内的特性;而在社交网络中,每个用户作为节点存在包括年龄,使用偏好等在内的特性。
6)图神经网络(Graph Neural Networks,GNN)
GNN用于将图数据和神经网络进行结合,在图数据上面进行端对端的计算。以单层图卷积神经网络(Graph Convolutional Network,GCN)为例,GCN从空间域的角度,可以定义为在图上的以下运算:
Figure SMS_2
其中,
Figure SMS_3
为第
Figure SMS_4
层学习到的节点特征,
Figure SMS_5
为第
Figure SMS_6
层学习到的节点特征,输入层的节点特征矩阵为
Figure SMS_7
,邻接矩阵为A,
Figure SMS_8
为正则化后的邻接矩阵,D为度矩阵,即对角线上为对应点的度数,W为特征权重矩阵。
σ(.)为激活函数,常见激活函数有
Figure SMS_9
Figure SMS_10
等等。
从空间域的角度,可以把GCN对于节点特征的学习,看作是在图的空间域上,对于当前节点的邻居节点特征进行聚合所得到的,邻居节点是指与当前节点存在连接关系的节点。因此,可以将单层GCN的学习定义为更一般的形式:
Figure SMS_11
其中,
Figure SMS_14
表示当前节点
Figure SMS_16
的邻居节点组成的集合,
Figure SMS_20
为当前节点
Figure SMS_15
在学习过程中和节点
Figure SMS_18
之间的聚合权重,
Figure SMS_22
表示节点
Figure SMS_24
的特征,
Figure SMS_13
表示节点
Figure SMS_19
的特征。
Figure SMS_23
为当前节点与其邻居节点间的聚合函数,例如,该聚合函数可以是求和函数
Figure SMS_25
或者求平均函数
Figure SMS_12
等。在这种定义下,GCN其实是在这种更一般形式中,当
Figure SMS_17
,且
Figure SMS_21
时候的特殊情况。
在GCN的计算过程中,其参数复杂度为
Figure SMS_26
,其中,p表示神经网络的输入维度,q表示神经网络的输出维度。
图2示出了本申请一示例性实施例提供的对象属性确定系统的系统结构示意图,如图1所示,该系统包括:服务器210以及终端220。
其中,上述服务器210可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一种可能的实现方式中,多个服务器可以组成为一区块链,而服务器210可以为区块链上的节点。
上述终端220可以是自动挂号机、智能柜台、智能手机、平板电脑、电子书阅读器、智能眼镜、智能手表、智能电视、智能车载设备、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
可选的,上述系统中包含一个或者多个服务器210,以及多个终端220。本申请实施例对于服务器210和终端220的个数不做限制。
终端以及服务器通过通信网络相连。可选的,通信网络是有线网络或无线网络。
可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超文本标记语言(Hyper TextMark-upLanguage,HTML)、可扩展标记语言(Extensible Markup Language,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet Protocol Security,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。本申请在此不做限制。
图3示出了本申请一示例性实施例提供的对象属性确定方法的流程图,该方法由计算设备执行,该计算机设备可以实现为终端或服务器,该终端或服务器可以是图1所示的终端或服务器,如图3所示,该对象属性确定方法包括以下步骤:
步骤301,获取目标对象的特征集合,该特征集合中包含该目标对象的至少一项特征。
其中,目标对象可以是指定类型的对象,比如,目标对象可以是人、物、商品、多媒体内容(比如音乐、视频、文章)等等。
在本申请实施例中,上述获取的目标对象的特征可以是与指定领域相关的特征。
比如,当目标对象是患者,指定领域是医疗领域时,上述目标对象的至少一项特征可以是患者的症状,比如头痛、腹泻等等。
再比如,当目标对象是购物者,指定领域是电子商务领域时,上述目标对象的至少一项特征可以是购物者的基础特征(比如年龄、性别等)、网络行为等等。
再比如,当目标对象是商品,指定领域是电子商务领域时,上述目标对象的至少一项特征可以是产品功能、商家名称、价格等等。
步骤302,基于该特征集合,以及指定领域的知识图谱,获取该目标对象对应于目标属性的特征向量;该知识图谱中包含该指定领域中的各种特征以及该指定领域中的各项属性之间的关系;该目标属性是该各项属性中的一项。
知识图谱本质上是语义网络(Semantic Network)的知识库,从实际应用的角度来说,可以将知识图谱理解成多关系图(Multi-relational Graph)。
图是由节点(Vertex)和边(Edge)来构成,但这些图通常只包含一种类型的节点和边。而多关系图一般包含多种类型的节点和多种类型的边。
在本申请实施例中,上述指定领域的知识图谱中包含特征对应的节点以及属性对应的节点,节点之间的边表示节点之间的关系。
在一种可能的实现方式中,上述属性是可以用于对目标对象进行分类的信息。
比如,当目标对象是患者,指定领域是医疗领域时,上述目标对象的属性可以是某一项疾病。
再比如,当目标对象是购物者,指定领域是电子商务领域时,上述目标对象的属性可以是偏好信息。
再比如,当目标对象是网络内容,指定领域是网络服务领域时,上述目标对象的属性可以是网络内容的类别。
在本申请实施例中,目标对象对应于目标属性的特征向量,可以是用于指示目标对象的至少一项特征与目标属性之间的相关性的向量。
步骤303,基于该目标对象对应于目标属性的特征向量,以及至少一个参考对象对应于该目标属性的特征向量,构建对象关系图;该对象关系图用于指示该目标对象以及至少一个该参考对象之间的关系;该参考对象是具有该目标属性的对象。
步骤304,基于该对象关系图,获取该目标对象的属性信息,该属性信息用于指示该目标对象具有该目标属性的概率。
在本申请实施例中,计算机设备在确定目标对象所具有的属性的方式为,结合目标对象对应于目标属性的特征向量,以及确定具有该目标属性的参考对象对应于该目标属性的特征向量,确定该目标对象是否具有该目标属性。
综上所述,在本申请实施例所示的方案中,计算机设备可以根据目标对象的至少一项特征,以及对应领域中的知识图谱,确定目标对象对应于某一项属性的特征向量,然后再结合已经确定具有该项属性的其它参考对象的特征向量,构建一个对象关系图,再基于对象关系图来预测当前目标对象是否具有该项属性,由于知识图谱中包含各项特征与各项属性之间的关系,因此,通过上述方案,能够结合特征和属性之间的关系来进行属性预测,使得预测结果具有良好的可解释性,从而提高了属性预测的准确性。
本申请上述图3所示实施例示出的方案,能够应用于各种预测某一对象的某一项属性,以及,利用某一项对象所具有的属性进行后续服务的场景,这些场景包括且不限于以下场景:
1)基于用户的症状预测用户可能患有的疾病的场景。
在一种可能的应用场景中,用户可以在智能终端中输入自己的各项症状,智能终端通过本申请上述实施例所示的方案,将各项症状作为特征,基于这些症状以及知识图谱,确定用户对应于某一项疾病(比如肠胃炎)的特征向量;然后,通过该用户对应于肠胃炎的特征向量,以及其他确定具有肠胃炎的病人对应于肠胃炎的特征向量,构建对象关系图,再通过对象关系图,确定该用户患有肠胃炎的概率。对于多项疾病中的每一项疾病,智能终端都通过上述方案,基于用户的症状确定用户患有该疾病的概率,得到用户患有各项疾病的概率,最后,通过用户患有各项疾病的概率,输出用户可能患有的疾病。
2)基于用户的症状向用户推荐就诊的科室或者推荐药物的场景。
在一种可能的应用场景中,用户在智能终端中输入自己的各项症状,智能终端通过上述应用场景1)的方案得出用户可能患有的疾病后,进一步根据用户可能患有的疾病,向用户推荐就诊的科室,或者,向用户推荐可以购买的应急药物等等。
3)基于用户的特征信息向用于推荐商品或服务的场景。
在一种可能的应用场景中,电子商务服务商的服务器可以获取用户的各项特征,比如年龄、性别等基本特征,以及历史浏览记录等行为特征,并基于这些特征以及知识图谱,确定用户对应于某一项兴趣偏好(比如化妆品)的特征向量;然后,通过该用户对应于化妆品的特征向量,以及其他确定偏好化妆品的购物者对应于化妆品的特征向量,构建对象关系图,再通过对象关系图,确定该用户偏好化妆品的概率。对于多项偏好中的每一项偏好,服务器都通过上述方案,基于用户的各项特征确定用户的各项偏好的概率,最后,通过用户的各项偏好的概率,向用户推荐相应的商品或者服务。
4)基于网络内容(比如多媒体内容)的相关特征,对网络内容进行归类以及推荐的场景。
在一种可能的应用场景中,网络内容服务商的服务器可以获取网络内容(比如一部电影)的各项特征,比如国别、时长、演员、导演、标签等各项特征,并基于这些特征以及知识图谱,确定该电影对应于某一电影类别(比如战争类别)的特征向量;然后,通过该电影对应于战争类别的特征向量,以及其他确定为战争类别的电影对应于战争类别的特征向量,构建对象关系图,再通过对象关系图,确定该电影是战争类别的概率。对于多项电影类别中的每一项电影类别,服务器都通过上述方案,基于该电影的各项特征确定该电影属于该项类别的概率,最后,通过该电影属于该项类别的概率,对该电影进行归类。
图4示出了本申请一示例性实施例提供的对象属性确定方法的流程图,该方法由计算设备执行,该计算机设备可以实现为终端或服务器,该终端或服务器可以是图1所示的终端或服务器,如图4所示,该对象属性确定方法包括以下步骤:
步骤401,获取目标对象的特征集合,该特征集合中包含该目标对象的至少一项特征。
其中,上述至少一项特征,可以是对应在指定领域中的特征。
在一种可能的实现方式中,上述特征集合中包含目标对象所具有的至少一项特征,该至少一项特征可以是从目标对象的某一类或者多类信息中提取获得的。
例如,以目标对象是目标用户,特征集合表示用户的症状集合为例,计算机设备可以获取目标用户的电子健康记录EHR,并从该目标用户的HER中提取该目标用户的各项症状,获得该目标用户的症状集合,即上述特征集合,该症状集合中每一项症状,对应上述一项特征。
例如,目标用户的电子健康记录HER包含内容为“病人腹痛持续2月,有时会有晕厥的状态,进食后有恶心干呕的状况,大便次数频繁,经常腹泻,不成形且有血便”,计算机设备对HER进行症状提取,可以得到症状集合为{腹痛,晕厥,恶心干呕,腹泻,血便}。
或者,以目标对象是目标用户,特征集合表示用户的症状集合为例,计算机设备也可以接收用户直接输入的各项症状。
步骤402,获取该至少一项特征分别对应的特征路径;该特征路径中包含起始特征,以及该起始特征在知识图谱中到达目标属性所依次经过的中间特征;该起始特征是该至少一项特征中的一项。
其中,该知识图谱中包含指定领域中的各种特征以及该指定领域中的各项属性之间的关系;该目标属性是该各项属性中的一项。
以上述特征集合为症状集合为例,上述目标属性可以是某一项疾病,对应的,上述指定领域可以是医疗领域,知识图谱可以是医疗领域的知识图谱,该医疗领域的知识图谱中可以包含各项症状以及各项疾病之间的关联关系。
在一种可能的实现方式中,计算机设备可以先通过至少一项特征,确定候选属性集合,然后,从候选属性集合中的属性,作为上述目标属性。其中,该候选属性集合中包含的属性,是具有至少一项特征中的任意一项特征的属性。
在本申请实施例中,在上述知识图谱之外,还可以设置各项属性与各项特征之间的对应关系,该各项属性与各项特征之间的对应关系,表示各项属性分别具有哪些特征。计算机设备可以通过上述至少一项特征,查询上述对应关系,得到候选属性集合。
例如,以上述特征集合为症状集合为例,上述各项属性与各项特征之间的对应关系,是各项疾病与各项症状之间的对应关系,计算机设备可以基于上述症状集合,查询上述对应关系,得到具有症状集合中的任意一项症状的疾病,将查询到的疾病组成候选疾病集合。
在本申请中,在目标属性以及特征集合中的至少一项特征都确定的情况下,对于至少一项特征中的每一项特征,可以从知识图谱中找到一条或者多条从该项特征开始,到达目标属性的特征路径,从该项特征到达目标属性所经过的每一项特征,可以视为特征路径上的一项中间特征。
例如,以本申请实施例所示的方案应用于医疗领域为例,计算机设备获取到目标用户的症状集合之后,即可以对于症状集合中的一项症状A,在医疗知识图谱中找到一条或者多条从该项症状A到目标疾病之间的路径,该路径的起点为症状A。
步骤403,对该至少一项特征分别对应的特征路径上的特征进行编码,获得该至少一项特征分别对应的特征路径的路径编码。
在本申请实施例中,计算机设备可以对上述每一条特征路径分别进行编码,得到对应的路径编码。
在一种可能的实现方式中,计算机设备可以将目标特征路径上的特征依次输入编码网络,获得该目标特征路径的路径编码;该目标特征路径是该至少一项特征分别对应的特征路径中的任意一条特征路径。
其中,上述编码网络可以是预先训练好的神经网络,比如,长短期记忆(LongShort-Term Memory,LSTM)网络。以应用于医疗领域为例,计算机设备将一条路径上的各个症状按照在路径中的顺序,依次输入LSTM网络,获得LSTM网络输出的,该路径对应的路径编码。
其中,一项特征在知识图谱中,可能具有1条到达目标属性的特征路径,也可能具有多条到达目标属性的特征路径。
在本申请实施例中,当目标特征在知识图谱中到达目标属性的特征路径的条数为1时,计算机设备可以对这条特征路径进行上述的编码处理。其中,上述目标特征是至少一项特征中的任意一项特征。
当目标特征在知识图谱中到达目标属性的特征路径的条数有多条时,计算机设备可以对该目标特征对应的多条特征路径进行筛选,并对筛选后的特征路径进行上述的编码处理。
在一种可能的实现方式中,在对目标特征对应的多条特征路径进行筛选时,计算机设备可以保留上述多条特征路径中,包含的特征数量(也可以称为路径长度)最小的一条路径;如果包含的特征数量最小的路径也有多条,则随机选择其中一条保留。
在对目标特征对应的多条特征路径进行筛选时,在上述保留包含的特征数量最小的一条路径的基础上,计算机设备还可以将目标特征对应的多条特征路径中,包含的特征数量(也可以称为路径长度)不大于特征数量阈值的路径保留,并将其它路径删除。
步骤404,基于该至少一项特征分别对应的特征路径的路径编码,获取路径编码向量。
在本申请实施例中,计算机设备可以对至少一项特征分别对应的特征路径的路径编码进行融合,获得路径编码向量。
比如,计算机设备可以对至少一项特征分别对应的特征路径的路径编码进行平均池化处理,获得路径编码向量。
例如,以应用于医疗领域为例,计算机设备将症状集合中的各项症状分别对应的路径依次输出LSTM网络,得到对应的路径编码之后,将各条路径的路径编码输入平均池化层,获得路径编码向量。
在本申请实施例上述方案中,计算机设备使用平均池化的方式对各条路径的路径编码进行综合,可选的,计算机设备也可以使用其它方式对上述各条路径的路径编码进行综合。
比如,计算机设备可以通过加权平均的方式是对上述各条路径的路径编码进行综合。例如,计算机设备可以确定上述各条路径的路径编码各自对应的权重,在一种可能的方案中,上述各条路径的路径编码可以与各条路径各自的路径长度成反相关;之后,计算机设备对各条路径的路径编码,按照各自的权重进行调整(比如乘以各自的权重),然后再对调整后的各条路径的路径编码进行平均池化处理,得到路径编码向量。
步骤405,基于该路径编码向量,获取该目标对象对应于该目标属性的特征向量。
在一种可能的实现方式中,计算机设备可以将该路径编码向量,作为目标对象对应于该目标属性的特征向量。
在另一种可能的实现方式中,计算机设备也可以基于该特征集合,获取该目标对象的初步特征向量;并基于该初步特征向量以及该路径编码向量,获取该目标对象对应于该目标属性的特征向量。
在本申请实施例所示的方案中,计算机设备也可以在目标对象对应于该目标属性的特征向量中,引入特征集合中的特征在指定领域中本身所具有的概念,以进一步提高可解释性,以及后续属性预测的准确性。
在一种可能的实现方式中,计算机设备可以获取该特征集合对应的特征指示向量,该特征指示向量中对应该特征集合中的特征的向量元素值为1,且该特征指示向量的其它向量元素值为0;并将该特征指示向量与向量表示矩阵相乘,获得该目标对象的初步特征向量,该向量表示矩阵中包含该指定领域中的各个特征的特征表示向量。
在一种可能的实现方式中,计算机设备可以将该初步特征向量以及该路径编码向量进行拼接,获得该目标对象对应于该目标属性的特征向量。
请参考图5,其示出了本申请实施例涉及的初步特征向量构建示意图。如图5所示,病人的原始EHR(图5中示出为51)是一段对病人病情的描述,里面包含了表示症状的词语,比如腹痛、晕厥、恶心等。在生成EHR的初步特征向量时,可以借助一些医学概念本体树52进行初步特征向量的构造。假设本体树中概念的集合是C,那么这些概念的数量可以用|C|来表示。
对于这一个医学术语本体树来说,可以提取对每个概念的embedding矩阵
Figure SMS_27
(图5中示出为53)。其中,d是概念embedding的维数。其次,为了得到每一篇EHR的向量表示,如图5所示,计算机设备可以使用实体抽取工具将EHR中包含在C中的概念提取出来并将其转化成一个维度为|C|的向量
Figure SMS_28
(图5中示出为54),
Figure SMS_29
的取值可以由以下公式表示:
Figure SMS_30
在得到向量
Figure SMS_31
之后,就可以将
Figure SMS_32
与embedding矩阵E相乘,从而得到一个EHR的初步特征向量
Figure SMS_33
(图5中示出为55)。
其中,E表示出现在医学本体树中的概念的集合的向量矩阵,v是表示单独一个EHR症状的向量,1表示v只有1维。
除了这个初步的向量表示
Figure SMS_34
之外,还可以结合医学本体之间的因果关系来进一步地丰富每条EHR表示向量所包含的信息。在本申请实施例中,可以从医疗知识图谱(比如Knowlife)中提取相关信息。
对于一个以三元组形式表达的知识图谱G来说,其中的信息是由(
Figure SMS_35
这样的形式定义的,其中
Figure SMS_36
分别是G中的概念,它们与出现在医学概念本体树中的概念可以是一样的。R是两个概念之间的关系。在本申请实施例中,可以首先使用知识图谱实体向量学习方法(比如TransE)去学习在知识图谱G这个环境下的医学概念本体C的embedding
Figure SMS_37
。然后,为了得到病人EHR中出现症状与要预测的疾病D之间的关系,可以从知识图谱G中找出症状与疾病D之间的路径,并对其进行信息抽取。
请参考图6,其示出了本申请实施例涉及的信息抽取的过程示意图。如图6所示,左边是一张知识图谱61,里面包含了症状,疾病以及他们之间的关系。假设现在要预测的疾病是肠胃炎,那么,对于某一个病人的EHR,提取好实体(症状)之后,就可以从知识图谱G中寻找每个症状到疾病肠胃炎之间的路径。对于这些搜索到的路径,可以用LSTM(图6中示出为62)来对其进行编码(encode)。此时输入LSTM中的embedding就是之前学习到的特征向量。假设一共可以从知识图谱中获取n条路径(图6中示出为63),那么就可以分别用n个LSTM进行特征提取,然后使用池化对这n个特征向量进行综合,得到路径编码向量(图6中示出为64)。
Figure SMS_38
这样,对于一个EHR,就得到了两部分的表示向量。将这两部分向量表示连接起来,就可以得到一条EHR最终的表示向量
Figure SMS_39
步骤406,基于该目标对象对应于目标属性的特征向量,以及至少一个参考对象对应于该目标属性的特征向量之间的距离,构建该对象关系图。
其中,该对象关系图用于指示该目标对象以及至少一个该参考对象之间的关系;该参考对象是具有该目标属性的对象。
在一种可能的实现方式中,该基于该目标对象对应于目标属性的特征向量,以及至少一个参考对象对应于该目标属性的特征向量之间的距离,构建该对象关系图,包括:
基于该目标对象对应于目标属性的特征向量,以及至少一个参考对象对应于该目标属性的特征向量之间的距离,确定该对象关系图中的边;
以该目标对象以及该至少一个参考对象为节点,以该目标对象对应于目标属性的特征向量,以及该至少一个参考对象对应于该目标属性的特征向量为节点的特征向量,结合该对象关系图中的边构建该对象关系图。
以应用于医疗领域为例,在得到每条EHR的向量表示之后,就可以依据这些向量表示建立起病人之间的联系。假设共有
Figure SMS_40
条EHR数据,由上述步骤得到的向量集合为
Figure SMS_41
,其中d是每个向量的维度。基于这些向量集合,可以用k近邻等算法,以不同EHR向量表示之间的距离来构建患者图(即上述对象关系图),这里不同向量之间的距离可以用余弦距离来表示。这张患者图的邻接矩阵可以用P来表示,P的取值可以由以下公式进行表示:
Figure SMS_42
在一种可能的实现方式中,计算机设备还基于该目标对象的初步特征向量,以及该至少一个参考对象的初步特征向量,获取该对象关系图中的边的权重;基于该对象关系图中的边的权重,更新该对象关系图。
为了更进一步利用原始EHR数据中的症状信息,计算机设备可以利用上述步骤中产生的向量v。所有EHR的向量v构成了集合
Figure SMS_43
。在得到
Figure SMS_44
之后,可以用
Figure SMS_45
中的向量为生成的患者图之间的边赋予权重
Figure SMS_46
。对于在患者图中有边的两个节点i和j来说,他们之间边
Figure SMS_47
的权重可以由以下公式表示:
Figure SMS_48
步骤407,基于该对象关系图,获取该目标对象的属性信息,该属性信息用于指示该目标对象具有该目标属性的概率。
在一种可能的实现方式中,该基于该对象关系图,获取该目标对象的属性信息,包括:
将该对象关系图输入属性信息预测网络,获得该属性信息预测网络输出的该目标对象的属性信息。
在一种可能的实现方式中,该将该对象关系图输入属性信息预测网络,获得该属性信息预测网络输出的该目标对象的属性信息,包括:
将该对象关系图输入该属性信息预测网络中的图卷积神经网络,获得该图卷积神经网络输出的,该对象关系图中的各个节点的表示向量;
将该对象关系图中的各个节点的表示向量输入该属性信息预测网络中的线性层,获得该线性层输出的,该目标对象的属性信息。
在一种可能的实现方式中,还是以应用于医疗领域为例,在利用
Figure SMS_49
更新患者图的边的邻接矩阵P(比如,将得到的e的值赋给邻接矩阵中对应位置的值)之后,即可以得到了一张完整的患者图,然后,计算机设备就可以利用这张患者图以及图卷积神经网络来进行疾病的预测诊断。计算机设备以上述步骤中获得的向量集合
Figure SMS_50
作为患者图中节点的向量表示,以利用
Figure SMS_51
更新过后的P作邻接矩阵,可以对这一张患者图进行图卷积,得到图中每个节点的表示向量
Figure SMS_52
,然后再将这些表示向量通过一层线性层即可得到最终的预测分类结果。由于上述的表示向量的维度太多,难以直接表示最后的预测结果,因此,本申请实施例利用线性层去压缩维度,比如,假设表示向量有100维,线性层可以将这100维的向量进行运算,运算之后可得到1维的预测结果。若预测结果为1则表示患者有该种疾病,为0则表示无该种疾病。其预测过程由以下公式所示。其中,GNN表示一个完整的图卷积神经网络,
Figure SMS_53
Figure SMS_54
通过图卷积后得到的中间表示结果。
Figure SMS_55
Figure SMS_56
其中,图卷积神经网络可以使用例如GraphSage的卷积层,其操作可以由以下公式定义:
Figure SMS_57
Figure SMS_58
在以上的公式中,
Figure SMS_59
是节点v在第k-1次对邻居节点的聚集过程中的向量表示,
Figure SMS_60
是节点v在进行下一次迭代时的向量表示。u表示节点v的邻居节点。
在本申请实施例所示的方案中,在从知识图谱中学习embedding时,可以使用区别于TransE的其他方法,比如Node2Vec或者DeepWalk等方法。此外,在构建患者图时,可以用区别于K近邻的一些其他方法。同时在进行预测时,也可以使用区别于SAGEConv之外的卷积操作,比如GINConv,GATConv等。
其中,上述对象属性确定方案可以通过预先训练好的对象属性确定模型来实现。比如,该对象属性模型可以包含编码网络和图卷积神经网络。在模型训练过程中,模型训练设备可以通过样本对象的特征,从知识图谱中确定样本属性对应的样本特征路径,然后通过编码网络对样本特征路径进行处理,得到样本路径编码,继而通过样本路径编码得到样本对象对应的样本特征向量;通过同样的方式,模型训练设备通过知识图谱和编码网络得到各个具有样本属性的参考对象对应的特征向量;然后根据样本对象对应的样本特征向量和各个参考对象对应的特征向量构建样本对象关系图,通过图卷积神经网络对该样本对象关系图进行处理,得到预测概率,然后通过预测概率以及样本对象的标签(是否具有样本属性)计算损失函数值,通过损失函数值对对象属性模型进行参数更新,比如,对编码网络和图卷积神经网络进行参数更新,迭代执行上述步骤,直至对象属性模型收敛。
在一种可能的实现方式中,当上述目标对象为目标用户时,计算机设备还可以基于该目标用户具有该各项属性的概率,获取推荐信息;向该目标用户对应的终端推送该推荐信息。
在本申请实施例所示的方案中,计算机设备可以通过上述方案,识别出用户所具有的属性,并基于此,向用户进行相关信息的推荐。
综上所述,在本申请实施例所示的方案中,计算机设备可以根据目标对象的至少一项特征,以及对应领域中的知识图谱,确定目标对象对应于某一项属性的特征向量,然后再结合已经确定具有该项属性的其它参考对象的特征向量,构建一个对象关系图,再基于对象关系图来预测当前目标对象是否具有该项属性,由于知识图谱中包含各项特征与各项属性之间的关系,因此,通过上述方案,能够结合特征和属性之间的关系来进行属性预测,使得预测结果具有良好的可解释性,从而提高了属性预测的准确性。
以上述图3或图4所示的方案,应用于在医疗领域中,根据用户输入的症状为用户推荐就诊科室为例,请参考图7,其示出了本申请一示例性实施例提供的科室推荐的流程图,如图7所示,该流程可以包括以下步骤:
S71,用户通过终端打开挂号查询界面,并在该挂号查询界面中输入自己的症状信息。
S72,终端将用户输入的症状信息发送给服务器,服务器接收该症状信息。
S73,服务器通过症状提取模块提取症状信息中的症状。
S74,服务器通过提取到的症状,结合医疗本体树构建初步特征向量。
S75,服务器通过提取到的症状,结合医疗指示图谱构建各种疾病对应的路径编码向量。
S76,服务器将初步特征向量分别与各种疾病对应的路径编码向量进行拼接,得到用户对应各种疾病的特征向量。
S77,服务器基于用户对应某种疾病的特征向量,以及患有该疾病的各个用户对应该疾病的特征向量,构建各个用户之间的用户关系图;对于每种疾病,分别得到对应的用户关系图。
S78,服务器根据各种疾病对应的用户关系图,通过图神经网络进行处理,得到用户患有各种疾病的概率。
S79,服务器选择其中概率最高的疾病对应的科室推荐给用户。
其中,上述科室推荐过程的界面展示的示意图可以如图8所示。用户在应用程序的界面81中输入症状信息82,服务器通过后台处理后,将推荐的科室信息83推送给应用程序,并在界面81中进行展示。
其中,本申请仅以上述图3或图4所示的实施例用于医疗领域的科室推荐为例进行说明,在实际应用中,上述图3或图4所示的实施例中的方案也可以应用于其它任意类型的对象的属性预测以及应用,比如,预测用户的兴趣,预测多媒体内容所属的分类,基于对用户兴趣或者多媒体内容的分类进行推荐等等。
图9是根据一示例性实施例示出的一种对象属性确定装置的结构方框图。该对象属性确定装置可以实现图3或图4所示实施例提供的方法中的全部或者部分步骤。该装置可以包括:
特征集合获取模块901,用于获取目标对象的特征集合,所述特征集合中包含所述目标对象的至少一项特征;
对象特征向量获取模块902,用于基于所述特征集合,以及指定领域的知识图谱,获取所述目标对象对应于目标属性的特征向量;所述知识图谱中包含所述指定领域中的各种特征以及所述指定领域中的各项属性之间的关系;所述目标属性是所述各项属性中的一项;
图构建模块903,用于基于所述目标对象对应于目标属性的特征向量,以及至少一个参考对象对应于所述目标属性的特征向量,构建对象关系图;所述对象关系图用于指示所述目标对象以及至少一个所述参考对象之间的关系;所述参考对象是具有所述目标属性的对象;
属性信息获取模块904,用于基于所述对象关系图,获取所述目标对象的属性信息,所述属性信息用于指示所述目标对象具有所述目标属性的概率。
在一种可能的实现方式中,所述对象特征向量获取模块902,用于,
获取所述至少一项特征分别对应的特征路径;所述特征路径中包含起始特征,以及所述起始特征在所述知识图谱中到达所述目标属性所依次经过的中间特征;所述起始特征是所述至少一项特征中的一项;
对所述至少一项特征分别对应的特征路径上的特征进行编码,获得所述至少一项特征分别对应的特征路径的路径编码;
基于所述至少一项特征分别对应的特征路径的路径编码,获取路径编码向量;
基于所述路径编码向量,获取所述目标对象对应于所述目标属性的特征向量。
在一种可能的实现方式中,所述对所述至少一项特征分别对应的特征路径上的特征进行编码,获得所述至少一项特征分别对应的特征路径的路径编码时,所述对象特征向量获取模块902,用于,
将目标特征路径上的特征依次输入编码网络,获得所述目标特征路径的路径编码;所述目标特征路径是所述至少一项特征分别对应的特征路径中的任意一条特征路径。
在一种可能的实现方式中,所述基于所述路径编码向量,获取所述目标对象对应于所述目标属性的特征向量时,所述对象特征向量获取模块902,用于,
基于所述特征集合,获取所述目标对象的初步特征向量;
基于所述初步特征向量以及所述路径编码向量,获取所述目标对象对应于所述目标属性的特征向量。
在一种可能的实现方式中,所述基于所述特征集合,获取所述目标对象的初步特征向量时,所述对象特征向量获取模块902,用于,
获取所述特征集合对应的特征指示向量,所述特征指示向量中对应所述特征集合中的特征的向量元素值为1,且所述特征指示向量的其它向量元素值为0;
将所述特征指示向量与向量表示矩阵相乘,获得所述目标对象的初步特征向量,所述向量表示矩阵中包含所述指定领域中的各个特征的特征表示向量。
在一种可能的实现方式中,所述基于所述初步特征向量以及所述路径编码向量,获取所述目标对象对应于所述目标属性的特征向量时,所述对象特征向量获取模块902,用于,
将所述初步特征向量以及所述路径编码向量进行拼接,获得所述目标对象对应于所述目标属性的特征向量。
在一种可能的实现方式中,所述图构建模块903,用于基于所述目标对象对应于目标属性的特征向量,以及至少一个参考对象对应于所述目标属性的特征向量之间的距离,构建所述对象关系图。
在一种可能的实现方式中,所述图构建模块903,用于,
基于所述目标对象对应于目标属性的特征向量,以及至少一个参考对象对应于所述目标属性的特征向量之间的距离,确定所述对象关系图中的边;
以所述目标对象以及所述至少一个参考对象为节点,以所述目标对象对应于目标属性的特征向量,以及所述至少一个参考对象对应于所述目标属性的特征向量为节点的特征向量,结合所述对象关系图中的边构建所述对象关系图。
在一种可能的实现方式中,所述图构建模块903,还用于,
基于所述目标对象的初步特征向量,以及所述至少一个参考对象的初步特征向量,获取所述对象关系图中的边的权重;
基于所述对象关系图中的边的权重,更新所述对象关系图。
在一种可能的实现方式中,所述属性信息获取模块904,用于将所述对象关系图输入属性信息预测网络,获得所述属性信息预测网络输出的所述目标对象的属性信息。
在一种可能的实现方式中,所述属性信息获取模块904,用于,
将所述对象关系图输入所述属性信息预测网络中的图卷积神经网络,获得所述图卷积神经网络输出的,所述对象关系图中的各个节点的表示向量;
将所述对象关系图中的各个节点的表示向量输入所述属性信息预测网络中的线性层,获得所述线性层输出的,所述目标对象的属性信息。
在一种可能的实现方式中,所述目标对象为目标用户,所述装置还包括:
推荐信息获取模块,用于基于所述目标用户具有所述各项属性的概率,获取推荐信息;
推送模块,用于向所述目标用户对应的终端推送所述推荐信息。
综上所述,在本申请实施例所示的方案中,计算机设备可以根据目标对象的至少一项特征,以及对应领域中的知识图谱,确定目标对象对应于某一项属性的特征向量,然后再结合已经确定具有该项属性的其它参考对象的特征向量,构建一个对象关系图,再基于对象关系图来预测当前目标对象是否具有该项属性,由于知识图谱中包含各项特征与各项属性之间的关系,因此,通过上述方案,能够结合特征和属性之间的关系来进行属性预测,使得预测结果具有良好的可解释性,从而提高了属性预测的准确性。
图10示出了本申请一示例性实施例示出的计算机设备1000的结构框图。该计算机设备可以实现为本申请上述方案中的服务器。所述计算机设备1000包括中央处理单元(Central Processing Unit,CPU)1001、包括随机存取存储器(Random Access Memory,RAM)1002和只读存储器(Read-Only Memory,ROM)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。所述计算机设备1000还包括用于存储操作系统1009、应用程序1010和其他程序模块1011的大容量存储设备1006。
所述大容量存储设备1006通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1006及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说,所述大容量存储设备1006可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory,EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-OnlyMemory,EEPROM)闪存或其他固态存储其技术,CD-ROM、数字多功能光盘(DigitalVersatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1006可以统称为存储器。
根据本公开的各种实施例,所述计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1000可以通过连接在所述系统总线1005上的网络接口单元1007连接到网络1008,或者说,也可以使用网络接口单元1007来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括至少一条计算机程序,所述至少一条计算机程序存储于存储器中,中央处理单元1001通过执行该至少一条计算机程序来实现上述各个实施例所示的方法中的全部或部分步骤。
在一示例性实施例中,还提供了一种计算机可读存储介质,用于存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现上述方法中的全部或部分步骤。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在一示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图3或图4任一实施例所示方法的全部或部分步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (11)

1.一种对象属性确定方法,其特征在于,所述方法包括:
获取目标对象的特征集合,所述特征集合中包含所述目标对象的至少一项特征;
获取所述至少一项特征分别对应的特征路径;所述特征路径中包含起始特征,以及所述起始特征在知识图谱中到达目标属性所依次经过的中间特征;所述起始特征是所述至少一项特征中的一项;所述知识图谱中包含指定领域中的各种特征以及所述指定领域中的各项属性之间的关系;所述目标属性是所述各项属性中的一项;所述指定领域为医疗领域;
对所述至少一项特征分别对应的特征路径上的特征进行编码,获得所述至少一项特征分别对应的特征路径的路径编码;
基于所述至少一项特征分别对应的特征路径的路径编码,获取路径编码向量;
获取所述特征集合对应的特征指示向量,所述特征指示向量中对应所述特征集合中的特征的向量元素值为1,且所述特征指示向量的其它向量元素值为0;
将所述特征指示向量与向量表示矩阵相乘,获得所述目标对象的初步特征向量,所述向量表示矩阵中包含所述指定领域中的各个特征的特征表示向量;
将所述初步特征向量以及所述路径编码向量进行拼接,获得所述目标对象对应于目标属性的特征向量;
基于所述目标对象对应于目标属性的特征向量,以及至少一个参考对象对应于所述目标属性的特征向量,构建对象关系图;所述对象关系图用于指示所述目标对象以及至少一个所述参考对象之间的关系;所述参考对象是具有所述目标属性的对象;
基于所述对象关系图,获取所述目标对象的属性信息,所述属性信息用于指示所述目标对象具有所述目标属性的概率;所述目标对象具有所述目标属性的概率,是指所述目标对象选择所述目标属性对应的就诊科室的概率。
2.根据权利要求1所述的方法,其特征在于,所述对所述至少一项特征分别对应的特征路径上的特征进行编码,获得所述至少一项特征分别对应的特征路径的路径编码,包括:
将目标特征路径上的特征依次输入编码网络,获得所述目标特征路径的路径编码;所述目标特征路径是所述至少一项特征分别对应的特征路径中的任意一条特征路径。
3.根据权利要求1所述的方法,其特征在于,所述基于所述目标对象对应于目标属性的特征向量,以及至少一个参考对象对应于所述目标属性的特征向量,构建对象关系图,包括:
基于所述目标对象对应于目标属性的特征向量,以及至少一个参考对象对应于所述目标属性的特征向量之间的距离,构建所述对象关系图。
4.根据权利要求3所述的方法,其特征在于,所述基于所述目标对象对应于目标属性的特征向量,以及至少一个参考对象对应于所述目标属性的特征向量之间的距离,构建所述对象关系图,包括:
基于所述目标对象对应于目标属性的特征向量,以及至少一个参考对象对应于所述目标属性的特征向量之间的距离,确定所述对象关系图中的边;
以所述目标对象以及所述至少一个参考对象为节点,以所述目标对象对应于目标属性的特征向量,以及所述至少一个参考对象对应于所述目标属性的特征向量为节点的特征向量,结合所述对象关系图中的边构建所述对象关系图。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
基于所述目标对象的初步特征向量,以及所述至少一个参考对象的初步特征向量,获取所述对象关系图中的边的权重;
基于所述对象关系图中的边的权重,更新所述对象关系图。
6.根据权利要求1所述的方法,其特征在于,所述基于所述对象关系图,获取所述目标对象的属性信息,包括:
将所述对象关系图输入属性信息预测网络,获得所述属性信息预测网络输出的所述目标对象的属性信息。
7.根据权利要求6所述的方法,其特征在于,所述将所述对象关系图输入属性信息预测网络,获得所述属性信息预测网络输出的所述目标对象的属性信息,包括:
将所述对象关系图输入所述属性信息预测网络中的图卷积神经网络,获得所述图卷积神经网络输出的,所述对象关系图中的各个节点的表示向量;
将所述对象关系图中的各个节点的表示向量输入所述属性信息预测网络中的线性层,获得所述线性层输出的,所述目标对象的属性信息。
8.根据权利要求1所述的方法,其特征在于,所述目标对象为目标用户,所述方法还包括:
基于所述目标用户具有所述各项属性的概率,获取推荐信息;
向所述目标用户对应的终端推送所述推荐信息。
9.一种对象属性确定装置,其特征在于,所述装置包括:
特征集合获取模块,用于获取目标对象的特征集合,所述特征集合中包含所述目标对象的至少一项特征;
对象特征向量获取模块,用于获取所述至少一项特征分别对应的特征路径;所述特征路径中包含起始特征,以及所述起始特征在知识图谱中到达目标属性所依次经过的中间特征;所述起始特征是所述至少一项特征中的一项;所述知识图谱中包含指定领域中的各种特征以及所述指定领域中的各项属性之间的关系;所述目标属性是所述各项属性中的一项;所述指定领域为医疗领域;对所述至少一项特征分别对应的特征路径上的特征进行编码,获得所述至少一项特征分别对应的特征路径的路径编码;基于所述至少一项特征分别对应的特征路径的路径编码,获取路径编码向量;获取所述特征集合对应的特征指示向量,所述特征指示向量中对应所述特征集合中的特征的向量元素值为1,且所述特征指示向量的其它向量元素值为0;将所述特征指示向量与向量表示矩阵相乘,获得所述目标对象的初步特征向量,所述向量表示矩阵中包含所述指定领域中的各个特征的特征表示向量;将所述初步特征向量以及所述路径编码向量进行拼接,获得所述目标对象对应于目标属性的特征向量;
图构建模块,用于基于所述目标对象对应于目标属性的特征向量,以及至少一个参考对象对应于所述目标属性的特征向量,构建对象关系图;所述对象关系图用于指示所述目标对象以及至少一个所述参考对象之间的关系;所述参考对象是具有所述目标属性的对象;
属性信息获取模块,用于基于所述对象关系图,获取所述目标对象的属性信息,所述属性信息用于指示所述目标对象具有所述目标属性的概率;所述目标对象具有所述目标属性的概率,是指所述目标对象选择所述目标属性对应的就诊科室的概率。
10.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器存储有至少一条计算机程序,所述至少一条计算机由所述处理器加载并执行以实现如权利要求1至8任一所述的对象属性确定方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至8任一所述的对象属性确定方法。
CN202110419355.4A 2021-04-19 2021-04-19 对象属性确定方法、装置、计算机设备及存储介质 Active CN113656589B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110419355.4A CN113656589B (zh) 2021-04-19 2021-04-19 对象属性确定方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110419355.4A CN113656589B (zh) 2021-04-19 2021-04-19 对象属性确定方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113656589A CN113656589A (zh) 2021-11-16
CN113656589B true CN113656589B (zh) 2023-07-04

Family

ID=78476898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110419355.4A Active CN113656589B (zh) 2021-04-19 2021-04-19 对象属性确定方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113656589B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113990495B (zh) 2021-12-27 2022-04-29 之江实验室 一种基于图神经网络的疾病诊断预测系统
CN118428612A (zh) * 2024-07-05 2024-08-02 江苏中天互联科技有限公司 设备信息管理方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143540A (zh) * 2020-04-03 2020-05-12 腾讯科技(深圳)有限公司 智能问答方法、装置、设备及存储介质
CN111258995A (zh) * 2020-01-14 2020-06-09 腾讯科技(深圳)有限公司 数据处理方法、装置、存储介质及设备
CN111353106A (zh) * 2020-02-26 2020-06-30 贝壳技术有限公司 推荐方法和装置、电子设备和存储介质
CN111782826A (zh) * 2020-08-27 2020-10-16 清华大学 知识图谱的信息处理方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10347151B2 (en) * 2014-11-10 2019-07-09 International Business Machines Corporation Student specific learning graph
US20160203137A1 (en) * 2014-12-17 2016-07-14 InSnap, Inc. Imputing knowledge graph attributes to digital multimedia based on image and video metadata
KR102400017B1 (ko) * 2017-05-17 2022-05-19 삼성전자주식회사 객체를 식별하는 방법 및 디바이스

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111258995A (zh) * 2020-01-14 2020-06-09 腾讯科技(深圳)有限公司 数据处理方法、装置、存储介质及设备
CN111353106A (zh) * 2020-02-26 2020-06-30 贝壳技术有限公司 推荐方法和装置、电子设备和存储介质
CN111143540A (zh) * 2020-04-03 2020-05-12 腾讯科技(深圳)有限公司 智能问答方法、装置、设备及存储介质
CN111782826A (zh) * 2020-08-27 2020-10-16 清华大学 知识图谱的信息处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113656589A (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN111784455B (zh) 一种物品推荐方法及推荐设备
CN110659723B (zh) 基于人工智能的数据处理方法、装置、介质及电子设备
CN109919316A (zh) 获取网络表示学习向量的方法、装置和设备及存储介质
CN111061946A (zh) 场景化内容推荐方法、装置、电子设备及存储介质
WO2023011382A1 (zh) 推荐方法、推荐模型训练方法及相关产品
CN113656589B (zh) 对象属性确定方法、装置、计算机设备及存储介质
CN115631008B (zh) 商品推荐方法、装置、设备及介质
CN111429161B (zh) 特征提取方法、特征提取装置、存储介质及电子设备
CN116601626A (zh) 个人知识图谱构建方法、装置及相关设备
CN112069412B (zh) 信息推荐方法、装置、计算机设备及存储介质
CN114417174B (zh) 内容推荐方法、装置、设备及计算机存储介质
CN116205700A (zh) 目标产品的推荐方法、装置、计算机设备和存储介质
CN110505520A (zh) 信息推荐方法及系统、介质及电子设备
CN117251586A (zh) 多媒体资源推荐方法、装置及存储介质
CN114078024A (zh) 广告库存的预估方法、装置、介质以及电子设备
CN116628345A (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN116127083A (zh) 内容推荐方法、装置、设备及存储介质
CN114463590A (zh) 信息处理方法、装置、设备、存储介质及程序产品
CN116932862A (zh) 冷启动对象推荐方法、装置、计算机设备和存储介质
CN112488355A (zh) 基于图神经网络预测用户评级的方法和装置
CN118013060B (zh) 数据处理方法、装置、设备、存储介质及产品
CN110990715B (zh) 基于层自编码器的多源用户属性推断方法
WO2022262561A1 (zh) 多媒体资源的处理方法、装置、设备及存储介质
CN115114345B (zh) 特征表示的提取方法、装置、设备、存储介质及程序产品
CN117251820A (zh) 数据处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40055321

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant