CN111309983A - 基于异构图进行业务处理的方法及装置 - Google Patents

基于异构图进行业务处理的方法及装置 Download PDF

Info

Publication number
CN111309983A
CN111309983A CN202010162991.9A CN202010162991A CN111309983A CN 111309983 A CN111309983 A CN 111309983A CN 202010162991 A CN202010162991 A CN 202010162991A CN 111309983 A CN111309983 A CN 111309983A
Authority
CN
China
Prior art keywords
vector
current
node
feature
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010162991.9A
Other languages
English (en)
Other versions
CN111309983B (zh
Inventor
胡斌斌
方精丽
贾全慧
张志强
周俊
方彦明
杨双红
余泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010162991.9A priority Critical patent/CN111309983B/zh
Publication of CN111309983A publication Critical patent/CN111309983A/zh
Priority to PCT/CN2021/074248 priority patent/WO2021179834A1/zh
Application granted granted Critical
Publication of CN111309983B publication Critical patent/CN111309983B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种基于异构图进行业务处理的方法和装置,可以利用不同结构的关系网络构成的异构图直接进行业务处理。在本说明书的实施架构下,利用多个不同连接关系类型的关系网络,可以更加全面的刻画实体的特征,另一方面,针对各个关系网络分别处理得到节点的各个业务表征向量,无需对各个关系网络进行综合,可以避免繁琐的手工特征抽取,进一步地,可以自动确定在当前业务下,当前实体在每个关系网络中的重要度系数(权重),实现在各个关系网络下的信息融合,从而使得对当前实体的评估结果更加准确。

Description

基于异构图进行业务处理的方法及装置
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及通过计算机基于异构图进行业务处理的方法和装置。
背景技术
在关系描述方面,图结构(关系网络)通常具有较强的数据描述能力。对于真实世界中存在关联关系的各种实体和概念,以及他们之间的关系,可以通过图结构来描述。图结构的初衷是为了提高搜索引擎的能力,改善用户的搜索质量以及搜索体验。随着人工智能的技术发展和应用,图结构可以广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域。特别是,可以将图结构与机器学习模型相结合,增强模型的预测能力。例如,在客服机器人问答系统中,可以通过引入与产品服务相关的图结构,帮助意图识别模型对用户使用自然语言提出的问题进行语义分析和意图识别,之后根据识别到的意图查询到答案推送给用户。
在互联网数据日益庞大的情况下,平台用户的交互场景、交互关系错综复杂。例如,通讯录上的存和被存关系、终端应用关联信息、网络链路重叠信息,等等,这就造成了数据多源的特性。对于这样的网络数据,综合建立一个综合的图结构(如综合性的知识图谱)的过程较复杂。因此,希望能有更有效的方案,将多个网络之间的信息综合利用,提高基于图结构的业务处理能力。
发明内容
本说明书一个或多个实施例描述了一种基于异构图进行业务处理的方法及装置,通过不同结构的多个关系网络综合表征节点,得到更有效的处理结果。
根据第一方面,提供了一种基于异构图进行业务处理的方法,所述异构图用于描述多个实体之间在预定的多个连接关系类型下的关联关系,其中,所述多个连接关系类型相互独立,所述多个连接关系类型包括第一连接关系类型,描述所述多个实体之间在所述第一连接关系类型下的关联关系的关系网络为第一关系网络,在所述第一关系网络中,各个实体分别与各个节点一一对应,通过连接边连接的两两节点对应的两两实体之间具有所述第一连接关系类型的关联关系,各个节点分别对应有相应实体在所述第一连接关系类型下的实体特征;所述方法包括:确定当前业务所针对的当前实体在所述第一关系网络中对应的当前节点;通过预先确定的特征聚合模型处理第一关系网络,得到针对所述当前节点在所述第一连接关系类型下的第一业务表征向量;根据所述当前实体在各个连接关系类型下分别对应的实体特征,确定所述第一业务表征向量对应的第一重要度系数;至少基于所述第一重要度系数和所述第一业务表征向量,融合所述当前实体在所述多个连接关系类型分别对应的各个关系网络下的各个业务表征向量,得到对所述当前实体的综合评估结果,以利用所述综合评估结果针对所述当前实体进行后续业务处理。
根据一个实施例,在所述第一关系网络中,所述当前节点的邻居节点包括第一节点,所述第一节点对应第一邻居权重,所述第一节点对应的实体特征包括第一特征,所述第一特征对应第一特征权重,所述通过预先确定的特征聚合模型处理第一关系网络,得到针对所述当前节点在所述第一连接关系类型下的第一业务表征向量包括:将所述第一特征权重与所述第一邻居权重的乘积确定为所述第一节点在所述第一特征上的第一特征聚合系数;基于所述第一节点在所述第一特征上的特征表达向量与所述第一特征聚合系数的乘积,确定所述第一业务表征向量中与所述第一特征向量相对应的元素值。
根据一个实施例,在所述第一关系网络中,所述当前节点的邻居节点包括第二节点,所述第二节点对应第二邻居权重,所述预先确定的特征聚合模型为第一图神经网络;所述第一图神经网络的第i层通过以下方式处理所述第一关系网络:将所述当前节点的当前特征表达向量和所述第二节点的当前特征表达向量拼接,得到第一拼接向量;基于第一权重矩阵与所述第一拼接向量的乘积,确定所述第二节点在第i层的邻居权重,所述第一权重矩阵是所述第一图神经网络在第i层的模型参数,在训练所述第一图神经网络时确定;根据所述第二节点在第i层的邻居权重与所述第二节点的当前特征表达向量,确定所述当前节点的第i邻居聚合向量;将所述邻居聚合向量与所述当前节点的当前特征表达向量融合,得到所述当前节点经过第i层图神经网络处理后的表征向量。
根据一个实施例,在i为1的情况下,所述当前节点的当前特征表达向量和所述第二节点的当前特征表达向量,分别由所述当前节点和所述第二节点在所述第一关系网络中的实体特征确定;在i为大于1的自然数的情况下,所述当前节点的当前特征表达向量和所述第二节点的当前特征表达向量,分别为所述当前节点和所述第二节点经过第i-1层图神经网络处理后的表征向量。
根据一个实施例,所述将所述邻居聚合向量与所述当前节点的当前特征表达向量融合,得到所述当前节点经过第i层图神经网络处理后的表征向量包括:将所述邻居聚合向量与所述当前节点的当前特征表达向量进行拼接,得到第二拼接向量;基于第二权重矩阵与所述第二拼接向量的乘积,确定第i层图神经网络中的特征权重向量,所述第二权重矩阵是所述第一图神经网络在第i层的模型参数,在训练所述第一图神经网络时确定;根据所述特征权重向量对所述邻居聚合向量进行修正,得到所述当前节点经过第i层图神经网络处理后的表征向量,在第i层图神经网络为所述第一图神经网络的最后一层时,修正后得到的表征向量为所述第一业务表征向量。
根据一个实施例,所述根据所述特征权重向量对所述邻居聚合项进行修正包括,将所述特征权重向量中第k个元素与所述邻居聚合向量中第k个元素的乘积,作为所述当前节点经过第i层图神经网络处理后的表征向量的第k个元素。
根据一个实施例,所述根据所述当前实体在各个连接关系类型下对应的实体特征,确定所述第一业务表征向量对应的第一重要度系数包括:根据预先训练得到的各个连接关系类型分别对应的各个注意力向量,确定所述当前实体分别对应于各个连接关系类型的各个注意力值;将当前实体在所述第一连接关系类型下对应的第一注意力值与各个连接关系类型的注意力值之和的比值,确定为所述第一重要度系数。
根据一个实施例,所述第一注意力值为,自变量为以下值的指数函数:第一连接关系类型对应的第一注意力向量的转置向量,与各个业务表征向量的拼接向量的乘积。
根据一个实施例,所述至少基于所述第一重要度系数和所述第一业务表征向量,融合所述当前实体在所述多个连接关系类型分别对应的各个关系网络下的各个业务表征向量,得到对所述当前实体的综合评估结果包括:将各个重要度系数作为相应表征向量的权重,确定各个业务表征向量的加权和,其中,所述第一重要度系数为所述第一业务表征向量的权重;将所述加权和作为对所述当前实体的综合评估结果。
根据一个实施例,所述综合评估结果包括以下中的一种:预测业务中的预测分数、分类业务中在各个类别上的评分。
根据一个实施例,所述多个实体包括第一实体,所述第一实体在各个连接关系类型下分别对应的各个节点通过所述第一实体的至少一个用户标识相关联。
根据第二方面,提供了一种基于异构图进行业务处理的装置,所述异构图用于描述多个实体之间分别在预定的多个连接关系类型下的关联关系,其中,所述多个连接关系类型相互独立,所述多个连接关系类型包括第一连接关系类型,描述所述多个实体之间在所述第一连接关系类型下的关联关系的关系网络为第一关系网络,在所述第一关系网络中,各个实体分别与各个节点一一对应,通过连接边连接的两两节点对应的两两实体之间具有所述第一连接关系类型的关联关系,各个节点分别对应有相应实体在所述第一连接关系类型下的实体特征;所述装置包括:
节点确定单元,配置为确定当前业务所针对的当前实体在所述第一关系网络中对应的当前节点;
特征聚合单元,配置为通过预先确定的特征聚合模型处理第一关系网络,得到针对所述当前节点在所述第一连接关系类型下的第一业务表征向量;
重要度确定单元,根据所述当前实体在各个连接关系类型下分别对应的实体特征,确定所述第一业务表征向量对应的第一重要度系数;
融合单元,配置为至少基于所述第一重要度系数和所述第一业务表征向量,融合所述当前实体在所述多个连接关系类型分别对应的各个关系网络下的各个业务表征向量,得到对所述当前实体的综合评估结果,以利用所述综合评估结果针对所述当前实体进行后续业务处理。
根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的基于异构图进行业务处理的方法及装置,可以利用不同结构的多个关系网络构成的异构图直接进行业务处理。具体地,对多个用户之间的异构图,先针对不同的连接关系类型下的多个关系网络分别进行处理,得到当前实体在各个关系网络中各自的业务表征向量,然后,根据当前业务中,各个关系网络相对于当前实体分别对应的重要度系数,对这些业务表征向量进行融合,从而得到一个综合评估结果,以利用综合评估结果针对当前实体进行后续业务处理。由于利用了多个不同连接关系类型的关系网络,可以更加全面的刻画实体的特征,另一方面,先针对各个关系网络分别处理得到业务表征向量,无需对各个关系网络进行综合,可以避免繁琐的手工特征合并和/或抽取,另外,可以自动确定当前业务下,每个关系网络中的重要度系数(权重),实现在各个关系网络的信息融合,从而,可以使得对当前实体的评估结果更加准确。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的基于异构图进行业务处理的方法流程图;
图3示出一个具体例子的通过预先确定的特征聚合模型处理第一关系网络进行特征聚合的示意图;
图4示出在一个具体例子的基于异构图进行用户风险性预测的业务处理的示意图;
图5示出根据一个实施例的基于异构图进行业务处理的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
为了便于说明,结合图1示出的本说明书实施例的一个具体适用场景进行描述。图1示出了一个基于描述用户之间的关系的异构图,对用户进行金融风险性预测的场景示意图。
如图1所示,异构图可以异构图用于描述多个实体之间分别在预定的多个连接关系类型下的关联关系。图1示出的连接关系类型例如是:共用终端应用(APP)的连接关系类型、金融平台转账的连接关系类型、通讯录联系人保存的连接关系类型,等等。每种连接关系类型都可以构成一个独立的关系网络。如图1示出的共用APP连接网络、转账关系连接网络、通讯录连接网络,等等。
在图1的各种关系网络中,实体可以是用户。对于某个关系网络来说,各个节点和各个用户可以一一对应。在不同的关系网络中,同一用户可以通过相应连接关系下的用户标识(实体标识)相互关联。各个关系网络可以相互独立存在(各个连接关系类型相互独立)。在可选的实现中,这些关系网络也可以进行融合,得到一个综合的关系网络。这里说的融合,可以理解为节点合并,但连接关系仍然呈现多元化(各个连接关系类型相互独立)。在三元组描述的图数据中,对这些关系网络进行融合可以是将各个关系网络中对应同一用户的节点用同一个节点标识(或实体标识)表示。由于各个连接关系类型下的关系网络始终相互独立,这多个关系网络可以称为异构图。
在图1示出的应用场景下,待处理的业务可以是预测用户A的金融风险性(例如偿还借贷款项的风险性等)。根据本说明书的技术构思,在确定待预测风险性的用户(如可以是获取其用户标识)后,在异构图的各个连接关系类型分别对应的关系网络中,都可以确定相应的节点,通过对各个关系网络中的节点数据分割处理后,再进行融合,得到针对该用户的风险评估结果,即风险分数。该风险分数可以进一步用于该用户的风险预测业务,例如风险分数超过第一阈值,判定该用户为高风险用户,禁止其在当前金融平台进行借贷业务。
可以理解的是,在各个关系网络中,也可能出现不一致的节点情况,例如金融平台转账的连接关系类型中,没有用户A对应的节点(未参与过任何平台转账行为),而其他连接关系类型下,都包含用户A对应的节点。这样,在金融平台转账的连接关系类型对应的关系网络中,针对用户A的处理结果可能为空,或者零值,此时,其他关系网络可能对应较高权重,亦即,更多地依赖其他关系进行当前业务处理。如此,通过异构图的全面性,避免单一连接关系类型导致的无法对新用户进行业务评估等情况。
下面详细描述本说明书的技术构思。
图2示出一个实施例的基于异构图进行业务处理的流程。该方法的执行主体可以是任何具有计算、处理能力的系统、设备、装置、平台或服务器。该方法适用于通过各种连接关系描述实体之间关系的异构图。具体地,一种连接关系可以作为一个维度,在每个维度可以建立相应的元路径,对应一种连接关系类型。例如,对于用户在金融领域的风险性评估,可以通过以下几种元路径对其连接关系进行描述:
(a)user-(save)-user:用户通讯录路径,如A的通讯录包含B,则构成一条元路径A-save-B;
(b)user-(saved)-user:用户被存储路径,如A被B的通讯录存储,则构成一条元路径A-saved-B;
(c)user-(use)-app-(used)-user:终端应用共用路径,如用户A和用户B都使用了终端应用C,则构成一条元路径A-use-APP C-used-B;
(d)user-(connect)-Wi-Fi-(connected)-user:网络共用路径,如用户A和用户B都通过无线网络WiFi D接入互联网,则构成一条元路径A-connect-Wi-Fi D-connected-B;
(e)user-(friend)-user:交互路径,如用户A和用户B之间具有交互关系,则构成一条元路径A-friend-B;
等等。
其中,(e)中的交互关系可以是相互聊天、具有转账、发红包等交互行为产生的联系。
可以看出,在以上路径中,各条路径分别描述用户之间单一、独立的连接关系。这种关系的获取较简单,如用户通讯录路径及用户被存储路径,可以通过获取各个用户的通讯录确定,终端应用共用路径可以通过检测用户终端安装的应用,或者各个终端应用的用户群体确定,网络共用路径可以通过用户向服务端进行信息交互时的接入网络的IP地址等确定,交互路径可以通过服务端接收到的用户信息请求、记载的交互记录等信息确定。
在一些情况下,元路径数量较大,例如终端应用共用路径,任意使用同一终端应用的两两用户之间,都可以建立连接关系,当终端应用的用户群较大时,数据量剧增。因此,根据一个实施例,还可以对元路径进行采样,例如对终端应用C,可以通过预定方式选择与用户A的相关联的用户建立元路径,其他用户不考虑与用户A的关联性。这里的预定方式例如是随机选择预定数量(如5个)的用户,或者选择与用户A在地理位置上关联较大的预定数量(如5个)的用户,等等。
每种元路径上,用户还可以对应有相应的用户特征。如:用户通讯录路径中,用户特征可以包括用户通讯录人数等特征;用户被存储路径可以包括用户被存储的次数、存储(标记)关系类型等特征;终端应用共用路径可以包括用户所使用的终端应用数量、所共用的终端应用的使用人数等特征;网络共用路径中,可以包括用户连接网络的频率、两个用户之间共用网络次数、用户连接网络的变更频率等特征;交互路径中,可以对应有用户之间的交互频次、用户的交互用户数量等特征……
以上的各种元路径,分别对应各种连接关系类型。这些用户在各种连接关系类型下的关联关系,共同构成异构图。值得说明的是,在各个路径中,同一个用户可以具有相同的用户标识,例如通过终端设备唯一身份标识、用户在当前平台中的注册用户名(userID),等等。这样,虽然异构图包含多个元路径描述的用户之间的关系,但由于通过一致的用户标识进行描述,仍然可以明确用户在各种元路径中的对应关系。当同一用户通过不同的标识描述时,还可以通过表格等记录同一用户在不同元路径中的对应关系。
在各个元路径描述的连接关系构成异构图时,可以将各种连接关系的元路径综合到一起,也可以分别存储,在此不作限定。
上述示例中,以用户为实体对异构图进行了示例性描述,但实践中,异构图中还可以是其他实体,如文档、关键词、网络页面等等,相应地,元路径也可以是相应的各种合理元路径,描述相应实体的连接关系,进一步地,元路径中对应的实体特征也可以是其他特征,在此不再赘述。
如图2所示,该基于异构图进行业务处理方法可以包括以下步骤:步骤201,确定当前业务所针对的当前实体在各个关系网络中分别对应的当前节点;步骤202,通过预先确定的各个特征聚合模型分别处理各个关系网络,得到当前节点分别对应于各个关系网络的各个业务表征向量;步骤203,根据当前实体在各个连接关系类型下分别对应的实体特征,确定各个业务表征向量分别对应的各个重要度系数;步骤204,基于各个重要度系数,融合当前实体在多个连接关系类型分别对应的各个关系网络下的各个业务表征向量,得到对当前实体的综合评估结果,以利用综合评估结果针对当前实体进行后续业务处理。
首先,在步骤201中,确定当前业务所针对的当前实体在各个关系网络中对应的当前节点。可以理解,各个关系网络中,都可以具有与当前实体对应的节点。这些节点可以对应有当前实体的实体标识,或者通过表格与当前实体建立有对应关系。当确定了待进行业务处理的当前实体后,可以在各个关系网络中确定相应节点。当多个关系网络综合在一起形成的异构图为合并节点的关系网络(如前述的在三元组表示方式中统一节点标识)时,当前实体在各个连接关系类型下对应的节点可以仅有一个。
以各种连接关系类型中的任一连接关系类型(称为第一连接关系类型)为例,将该任一连接关系类型称为第一连接关系类型,相应的关系网络称为第一关系网络,可以将第一关系网络中与当前实体对应的节点称为第一关系网络中的当前节点。
接着,在步骤202中,分别通过预先训练的各个图神经网络处理相应关系网络,得到当前节点在各个连接关系类型下分别对应的各个业务表征向量。在异构图的各个连接关系分别对应的各个关系网络中,当前实体不仅对应有相应节点,还对应有在相应连接关系下的实体特征。计算机处理过程中,可以将这些实体特征通过符号进行表示,如转账频次对应的数值、页面间的跳转频次对应的数值等。当一个关系网络中,实体特征有多个时,还可以通过实体向量表示这多个特征。
可以理解,在关系网络中,各个节点可以分别对应有相应的表征向量。这种表征向量可能每一维都是对确定含义的特征的表达,也可能是每一维都没有确定含义的一种向量表达。这种表征向量也可以称为节点的特征表达向量。每个节点都可以有初始的特征表达向量(或者称为初始的表征向量)。在初始的特征表达向量每一维都是对确定含义的特征的表达的情况下,可以根据实体特征直接确定初始的特征表达向量。例如,某个维度对应的实体特征为用户之间的转账频次,可以用一个与相应实际转账频次正相关的数作为初始的特征表达向量中该维度的值。在初始的特征表达向量每一维都没有确定含义的一种向量表达的情况下,例如词汇的语义表示等,可以根据训练样本训练图神经网络确定各个节点的初始的特征表达向量,以及图神经网络的其他模型参数,在此不再赘述。
为了区分节点的特征表达向量,本说明书实施例将经过特征聚合模型处理关系网络得到的节点上的表征向量,称为业务表征向量。顾名思义,业务表征向量,可以是在具体业务中,用于体现业务特点的表征向量。例如,在依赖单个关系网络的分类业务中,可以根据某个节点的业务表征向量通过激励函数等映射到该节点在各个分类类别上的概率。
在对关系网络的处理过程中,通常采用邻居节点特征聚合的方式,将当前节点的前一层特征表达向量与邻居节点的特征表达向量进行聚合,得到当前层的特征表达向量作为当前层的输出。在本说明书实施例中,这种特征聚合的方式通过特征聚合模型描述。特征聚合模型可以是预先设定聚合方式(例如特征加权方式等)的模型,也可以是图神经网络模型。
一个节点和其周围的邻居节点通常具有不同的关联程度。关联程度不同,对当前节点的影响也不同。例如,高阶节点对当前节点的影响小于低阶节点、转账频次较高的邻居节点对当前节点的影响小于转账频次较低的邻居节点。因此,根据一个可能的设计,各个邻居节点可以对应有邻居重要度(邻居权重),用于描述各个邻居节点相对于当前节点的重要度,
根据一个实施方式,特征聚合模型用于对多阶邻居节点进行特征聚合,各阶邻居节点分别对应的相应的邻居阶数重要度系数。例如,假设当前节点的权重为a0,每个一阶邻居节点的邻居权重均为a1,二阶邻居节点的邻居权重均为a2……其中,a0>a1>a2…在图神经网络的训练过程中,这些邻居权重可以作为特征聚合模型的参数,根据样本实体对应的样本特征和预先标注的样本业务结果,调整确定。可选地,在各阶邻居节点中,还可以针对各个邻居节点确定不同的邻居权重,例如一阶邻居节点中,邻居权重与邻居节点和当前节点之间的相互转账频次正相关。
在一个可选的实现方式中,特征聚合模型为图卷积神经网络(以下也称为图神经网络),各个邻居节点对应的不同的邻居重要度系数。各个邻居节点的重要度可以通过当前节点与邻居节点的特征表达向量确定。
作为一个具体示例,通过图卷积神经网络处理图数据时,确定第l+1层的节点v的特征表达的卷积算子可以为:
Figure BDA0002406442490000121
其中:Hl+1(v)是节点v在图卷积神经网络的第l+1层的特征表达向量;N(v)是节点v的邻居节点;dv、du是归一化因子,比如是相应节点的度,即,与相应节点连接的连接边数量,或者一阶邻居节点的数量;Hl(v)是节点v在图卷积神经网络的第l层的特征表达向量;Hl(u)是节点u在图卷积神经网络的第l层的特征表达向量;Wl是相应节点图卷积神经网络第l层的模型参数。邻居节点有多个时,Wl可以是矩阵形式的模型参数,可以称为权重矩阵。公式还可以考虑当前节点的更高阶邻居节点的特征聚合,在此用省略号表示,其原理与一阶邻居节点的特征聚合类似,在此不再赘述。其中,不同的邻居节点的归一化因子不同,特征表达向量不同,从而与权重矩阵相乘的积也不同,因此具有不同的邻居权重。
另外,如果每个实体特征对应的一个值,特征表达向量可以是各个实体特征对应的值构成的向量,如果每个实体特征对应的是一个向量,特征表达向量可以是各个实体特征对应的向量拼接得到的向量。在本说明书的实施架构下,各个节点初始的特征表达向量可以是预先确定的。在图神经网络训练过程中,根据训练样本调整模型参数(如权重矩阵)。在每个关系网络中,通过用于处理该关系网络的相应图神经网络可以对当前实体对应的节点进行特征聚合,得到相应的表征向量。其中,在特征聚合过程中,可以将当前实体对应的节点的预定阶数(如2阶)内的邻居节点作为特征聚合的节点,也可以对预定阶数内的邻居进行采样,将采样得到的邻居节点做特征聚合。特征聚合的方式例如可以是:加和、求平均、取最大值、求加权和,等等,在此不作限定。
值得说明的是,上述卷积算子只是图卷积神经网络中特征聚合的一个具体示例,实践中,可以采用多种方式进行特征聚合,每一层图神经网络对应的模型参数也可以有多组,例如每组模型参数为一个权重矩阵,一层图神经网络可以对应多个权重矩阵。对于训练好的图神经网络而言,模型参数可以是经过训练过程中的参数调整确定下来的。
根据另一个具体示例,例如,在某一种连接关系类型对应的关系网络(如称为第一关系网络)中,当前节点为节点μ,邻居节点j的邻居权重可以为:
α(μ,j)=softmaxj(V·tanh(W1[Xu||Xj])+b1)
其中,矩阵V(例如称为第一辅助矩阵)和W1(例如称为第一权重矩阵)是图神经网络训练过程中确定的模型参数,b1是图神经网络训练过程中确定的常数参数,Xu、Xj分别是节点μ、节点j对应的当前的特征表达向量,[Xu||Xj]表示两个向量的拼接向量。可以理解的是,激活函数softmax、tanh也可以用其他激活函数(如Relu等)代替,在此不作限定。
如此,可以针对各个邻居节点分别确定相应的邻居权重。在各个邻居节点的当前特征向量表达各不相同的情况下,针对相应邻居节点的邻居权重也各不相同。值得说明的是,在图神经网络对关系网络的处理过程中,也可以将当前节点看作自身的邻居节点,例如称为零阶邻居节点。
根据邻居权重对各个邻居节点进行特征聚合,可以采用诸如求加权和等方式进行。例如,通过Nu表示当前节点的邻居节点集合,当前节点经过一层图神经网络的邻居聚合结果为:
Figure BDA0002406442490000141
可以理解,对于每个节点,经过一层图神经网络之后,都可以得到一个当前层的聚合结果,如节点j的聚合结果(也可以称为表征向量)为hj。在第一层图神经网络聚合时,各个节点的当前特征表达向量由相应节点的节点特征确定。
在一个实施例中,可以将以上邻居聚合结果进一步当前节点的特征表达向量综合,得到当前节点在图神经网络的当前层的聚合结果。为了更清楚说明针对当前节点聚合得到当前层的表征向量的过程,可以参考图3所示。图3中,假设图神经网络为多层网络,节点1、节点2、节点3…为节点u的邻居节点,将它们在第i-1层(i≥2)对应的特征聚合结果分别记为
Figure BDA0002406442490000142
当前节点u在第i-1层对应的特征聚合结果记为
Figure BDA0002406442490000143
则在第i层,相应节点的当前特征表达向量为第i-1层的特征聚合结果(即第i-1层输出的表征向量),即图3中
Figure BDA0002406442490000144
将节点u的各个邻居节点进行聚合,得到邻居聚合结果
Figure BDA0002406442490000145
然后,将
Figure BDA0002406442490000146
Figure BDA0002406442490000147
综合,可以得到节点u在第i层的特征表达向量
Figure BDA0002406442490000148
从而,在单个关系网络(如第一关系网络)中,经过预先训练的图神经网络的层层迭代处理,可以得到当前节点对应的一个表征向量(如第一表征向量)。
这里,将
Figure BDA0002406442490000151
Figure BDA0002406442490000152
综合的过程例如可以是求和、求平均或加权求和等。然而,在特征表达向量中,每个特征对节点的表达向量的贡献度也可能不同,因此,在进一步可选的实现方式中,各个特征还可以具有特征重要度(特征权重)。
根据一个实施方式,特征权重可以是预先设定或者训练得到的。例如在描述用户之间的转账关系的关系网络中,初始的转账频次的特征权重大于转账金额的特征权重。举例而言,在确定表征向量时,具体到某个节点,例如对应第一邻居权重的第一节点,其对应的第一特征具有第一特征权重,该第一节点在第一特征上对应的第一特征聚合系数可以为第一特征权重与第一邻居权重的乘积。在进行特征聚合时,可以将第一特征对应的特征表达(如一个值或一个向量),与第一特征聚合系数相乘,得到的乘积作为相应加权项,将各个邻居节点在第一特征上的加权项加和,得到当前节点经过邻居特征聚合后在第一特征上的特征值。经过对第一关系网络的预定次数(在上述处理模型为图神经网络时,与图神经网络层数一致)迭代,从而确定出第一表征向量。
但是,当特征聚合模型为图神经网络时,由于在图神经网络处理过程中,隐层的特征并不能准确确定其含义,因此不能通过认为定义特征权重。因此,根据另一个实施方式,可以通过训练图神经网络,得到处理关系网络过程中特征重要度相关的通用参数。
作为一个具体示例,在某一层图神经网络中,可以通过以下方式确定各个特征分别对应的特征权重构成的特征权重向量:
Figure BDA0002406442490000153
其中,W2(例如称为第二权重矩阵)、W6(例如称为第二辅助矩阵)均为图神经网络中第i层的权重矩阵,b2、b6均为常数参数,这些模型参数均可以在图神经网络训练过程中根据损失函数进行调整确定。在神经网络的某一层,W2、W6、b5、b6可以作为通用参数。
Figure BDA0002406442490000161
表示两个向量的拼接。激励函数Relu也可以通过其他合适的激励函数代替,在此不再赘述。
特征权重向量β中的各个元素分别对应各个特征的特征权重。将相应特征权重与邻居聚合结果中的相应元素一一对应相乘,可以得到当前节点u在当前层的特征聚合结果。参考图3,根据特征权重确定最终的聚合结果的方式可以表示为:
Figure BDA0002406442490000162
其中,⊙表示将两个矩阵的对应元素相乘(如哈达玛积)。对于向量而言,β中的第k个元素与
Figure BDA0002406442490000163
中的第k个元素作为聚合结果
Figure BDA0002406442490000164
中的第k个元素。例如,向量(A,B,C)⊙(a,b,c)的结果为(Aa,Bb,Cc)。
如此,可以同时考虑节点贡献度和特征贡献度,得到更准确的邻居节点的特征聚合结果。当特征聚合模型为图神经网络时,最后一层得到的聚合结果就是当前节点与当前关系网络对应的业务表征向量。
在表征各个连接关系类型的各个关系网络,可以分别针对当前实体对相应节点的邻居节点进行特征聚合,得到当前实体分别在各个连接关系类型下的各个业务表征向量。如在第一关系网络中,得到第一业务表征向量。
另一方面,在步骤203中,根据当前实体在各个连接关系类型下分别对应的实体特征,确定各个业务表征向量分别对应的各个重要度系数。可以理解,对于具体业务而言,不同连接关系下的实体特征具有不同的重要性。例如,用户风险性预测业务中,连接关系类型为用户之间的交互关系的关系网络比较重要,而连接关系类型为终端应用公用网络的关系网络的重要度较小。
在一个实施例中,关系网络的重要度系数可以根据经验预先设定。例如,描述用户之间的交互关系的关系网络的重要度系数为0.5,终端应用公用网络的关系网络的重要度为0.1。
在另一个实施例中,关系网络的重要度系数可以作为图神经网络的模型参数,利用样本数据训练确定。重要度系数可以描绘当前业务处理过程中对各个元路径(连接关系)的偏好。例如可以通过注意力值来体现这种偏好。
作为示例,当前实体在其中一个关系网络上的注意力值可以通过以下方式确定:
Figure BDA0002406442490000171
其中,Zρ是关系网络ρ下的注意力向量(可通过样本数据训练确定),
Figure BDA0002406442490000172
是所有关系网络的元路径下的业务表征向量的拼接向量(通过步骤202得到的各个业务表征向量的拼接得到的向量),P是所有的关系网络对应的注意力向量集合。也就是说,在第一关系网络下,可以根据预先训练得到的各个连接关系类型分别对应的各个注意力向量,确定当前实体分别对应于各个连接关系类型的各个注意力值,然后将当前实体在第一连接关系类型下对应的第一注意力值与各个连接关系类型的注意力值之和的比值,确定为当前实体对应的第一重要度系数。
在一个实施例中,针对当前实体,第一关系网络对应的第一注意力值为,自变量为以下值的指数函数:第一连接关系类型对应的第一注意力向量的转置向量,与各个表征向量的拼接向量的乘积。第一重要度系数为,第一注意力值与各个关系网络分别对应的各个注意力值之和的比值。
可以理解,Zρ可以是模型参数,可以在图神经网络训练过程中通过样本数据调整确定,
Figure BDA0002406442490000173
可以是具体到确定当前实体在步骤202中的各个表征向量的拼接向量,根据
Figure BDA0002406442490000174
和各个Zρ,可以确定当前实体在不同关系网络下的重要度系数。
然后,在步骤204中,基于各个重要度系数,融合当前实体在多个连接关系类型分别对应的各个关系网络下的各个业务表征向量,得到对当前实体的综合评估结果。可以理解,根据各个业务表征向量的重要度系数,可以针对当前实体确定出一个综合评估结果。其中,综合评估结果是用于在具体业务上对当前实体进行评估的业务结果。例如在预测业务中,该综合评估结果可以是针对当前实体的预测分数,在目标识别业务中,该综合评估结果可以是目标识别的准确度,在信息推送业务中,该综合评估结果可以是待推送信息和用户的兴趣程度,在分类业务中,该综合评估结果可以是在各个类别上的评分等等。
根据一个实施方式,可以将各个关系网络中针对当前实体的重要度系数作为权重,对步骤203中得到的各个业务表征向量加权求和,得到的和值作为对当前实体的综合评估结果,或者对得到的和值进一步处理得到对当前实体的综合评估结果。
根据另一个实施方式,可以将针对当前实体的重要度系数最大的关系网络对应的业务表征向量,或者对该业务表征向量进一步处理得到的结果作为对当前实体的综合评估结果。
其中,这里的进一步处理例如可以是在具体业务(如金融平台还款的风险度等)上进行评分。
根据有一个实施方式,每个关系网络针对当前实体的重要度系数可以有多个,分别对应各个分类类别。即每个关系网络针对当前实体的重要度系数可以包括在各个分类类别上的重要度系数。则还可以通过全连接层,将各个业务表征向量作为全连接层的输入,相应重要度系数作为相应的权重,对当前实体在各个候选类别上打分,得到各个打分结果,从而进行类别预测。
为了更明确本说明书实施例的应用场景,图4示出一个具体例子的基于异构图进行用户风险性判断的业务处理的示意图。如图4所示,给出了在该具体例子中,异构图包括针对N个用户的不同连接关系(元路径)进行描述的关系网络。当前业务需求为预测用户n在金融借贷领域的风险性(如违约概率)的情况下,根据用户n在各个关系网络中对应的当前节点,通过预先训练的图神经网络分别对异构图中的各个关系网络进行处理,分别得到针对用户n的综合向量表征,即各个业务表征向量。然后,根据各个综合向量表征确定各个关系网络相对于用户n的重要度系数。将各个业务表征向量作为全连接神经网络的各个神经元的输入,各个重要度系数作为相应神经元的权重,对各个业务表征向量进行融合,得到对用户n的综合评估结果(如风险分数)。根据该综合评估结果,可以输出用户n在金融借贷领域的风险性,如风险分数高于风险阈值,输出高风险用户的结果。根据该结果,可以进行后续业务,如限制该用户n的借贷金额、禁止用户n进行借贷业务,等等。
通过上述的基于异构图进行业务处理的方法,可以对多个用户之间的异构图中,先针对不同的连接关系构成的各个关系网络分别进行处理,得到当前实体分别在各个关系网络中的业务表征向量,然后,根据当前业务中,当前实体的各个关系网络分别对应的重要度系数,对这些业务表征向量进行融合,从而得到一个综合评估结果,从而利用综合评估结果针对当前实体进行后续业务处理。由于利用了多个不同连接关系类型的关系网络,可以更加全面的刻画实体的特征,另一方面,先针对各个关系网络分别处理得到各个业务表征向量,无需对各个关系网络进行综合,可以避免繁琐的手工特征抽取,进一步地,可以自动确定当前业务下,当前实体在每个关系网络中的重要度系数(权重),实现在各个关系网络下的信息融合,从而使得对当前实体的评估结果更加准确。
根据另一方面的实施例,还提供一种基于异构图进行业务处理的装置。图5示出根据一个实施例的基于异构图进行业务处理装置的示意性框图。其中,异构图用于描述多个实体之间分别在预定的多个连接关系类型下的关联关系,其中,多个连接关系类型相互独立,多个连接关系类型包括第一连接关系类型,在第一连接关系类型构成的第一关系网络中,各个实体分别与各个节点一一对应,通过连接边连接的两两节点对应的两两实体之间具有第一连接关系类型的连接关系,各个节点分别对应有相应实体在第一连接关系类型下的实体特征。
以针对第一关系网络的处理为例,如图5所示,基于异构图进行业务处理装置500包括:节点确定单元51,配置为确定当前业务所针对的当前实体在第一关系网络中对应的当前节点;特征聚合单元52,配置为通过预先确定的特征聚合模型处理第一关系网络,得到针对当前节点在第一连接关系类型下的第一业务表征向量;重要度确定单元53,根据当前实体在各个连接关系类型下分别对应的实体特征,确定第一业务表征向量对应的第一重要度系数;融合单元54,配置为至少基于第一重要度系数和第一业务表征向量,融合当前实体在多个连接关系类型分别对应的各个关系网络下的各个业务表征向量,得到对当前实体的综合评估结果,以利用综合评估结果针对当前实体进行后续业务处理。
根据一方面的实施方式,在第一关系网络中,当前节点的邻居节点包括第一节点,第一节点对应第一邻居权重,第一节点对应的实体特征包括第一特征,第一特征对应第一特征权重,特征聚合单元52进一步配置为:
将第一特征权重与第一邻居权重的乘积确定为第一节点在第一特征上的第一特征聚合系数;
基于第一节点在第一特征上的特征表达向量与第一特征聚合系数的乘积,确定第一业务表征向量中与第一特征向量相对应的元素值。
根据另一方面的实施方式,假设在第一关系网络中,当前节点的邻居节点包括第二节点,第二节点对应第二邻居权重,预先确定的特征聚合模型为第一图神经网络,则特征聚合单元52还配置可以为,利用第一图神经网络的第i层通过以下方式处理第一关系网络:
将当前节点的当前特征表达向量和第二节点的当前特征表达向量拼接,得到第一拼接向量;
基于第一权重矩阵与第一拼接向量的乘积,确定第二节点在第i层的邻居权重,第一权重矩阵是第一图神经网络在第i层的模型参数,在训练第一图神经网络时确定;
根据第二节点在第i层的邻居权重与第二节点的当前特征表达向量,确定当前节点的第i邻居聚合向量;
将上述邻居聚合向量与当前节点的当前特征表达向量融合,得到当前节点经过第i层图神经网络处理后的表征向量。
在进一步的实施例中,在i为1的情况下,当前节点的当前特征表达向量和第二节点的当前特征表达向量,分别由当前节点和第二节点在第一关系网络中的实体特征确定;
在i为大于1的自然数的情况下,当前节点的当前特征表达向量和第二节点的当前特征表达向量,分别为当前节点和第二节点经过第i-1层图神经网络处理后的表征向量。
根据另一个进一步的实施例,特征聚合单元52进一步配置为,通过以下方式将上述邻居聚合向量与当前节点的当前特征表达向量融合,得到当前节点经过第i层图神经网络处理后的表征向量:
将邻居聚合向量与当前节点的当前特征表达向量进行拼接,得到第二拼接向量;
基于第二权重矩阵与第二拼接向量的乘积,确定第i层图神经网络中的特征权重向量,第二权重矩阵是第一图神经网络在第i层的模型参数,在训练第一图神经网络时确定;
根据特征权重向量对邻居聚合向量进行修正,得到当前节点经过第i层图神经网络处理后的表征向量,在第i层图神经网络为第一图神经网络的最后一层时,修正后得到的表征向量为第一业务表征向量。
在一个可选的实施例中,特征聚合单元52进一步可以配置为,将特征权重向量中第k个元素与邻居聚合向量中第k个元素的乘积,作为当前节点经过第i层图神经网络处理后的表征向量的第k个元素,从而根据特征权重向量对邻居聚合项进行修正。
根据一个实施例,重要度确定单元53进一步配置为:
根据预先训练得到的各个连接关系类型分别对应的各个注意力向量,确定当前实体分别对应于各个连接关系类型的各个注意力值;
将当前实体在第一连接关系类型下对应的第一注意力值与各个连接关系类型的注意力值之和的比值,确定为第一重要度系数。
在一个进一步的实施例中,第一注意力值为,自变量为以下值的指数函数:第一连接关系类型对应的第一注意力向量的转置向量,与各个业务表征向量的拼接向量的乘积。
根据一个可能的设计,融合单元54还配置为:
将各个重要度系数作为相应表征向量的权重,确定各个表征向量的加权和,其中,第一重要度系数为第一表征向量的权重;
将加权和作为对当前实体的综合评估结果。
综合评估结果包括以下中的一种:预测业务中的预测分数、分类业务中在各个类别上的评分。
在一个实施例中,上述多个实体包括第一实体,在各个连接关系类型下,第一实体分别对应的各个节点通过第一实体在各个连接关系类型下的用户标识相关联。例如,在各个连接关系类型对应的关系网络中,同一个实体对应的额节点通过同一个节点标识表示,或者通过表格记录各个连接关系类型对应的关系网络中,对应到同一个实体的节点标识的对应关系。
值得说明的是,图5所示的装置500是与图2示出的方法实施例相对应的装置实施例,图2示出的方法实施例中的相应描述同样适用于装置500,在此不再赘述。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本说明书的技术构思的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书的技术构思的具体实施方式而已,并不用于限定本说明书的技术构思的保护范围,凡在本说明书实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的技术构思的保护范围之内。

Claims (24)

1.一种基于异构图进行业务处理的方法,所述异构图用于描述多个实体之间在预定的多个连接关系类型下的关联关系,其中,所述多个连接关系类型相互独立,所述多个连接关系类型包括第一连接关系类型,描述所述多个实体之间在所述第一连接关系类型下的关联关系的关系网络为第一关系网络,在所述第一关系网络中,各个实体分别与各个节点一一对应,通过连接边连接的两两节点对应的两两实体之间具有所述第一连接关系类型的关联关系,各个节点分别对应有相应实体在所述第一连接关系类型下的实体特征;所述方法包括:
确定当前业务所针对的当前实体在所述第一关系网络中对应的当前节点;
通过预先确定的特征聚合模型处理第一关系网络,得到针对所述当前节点在所述第一连接关系类型下的第一业务表征向量;
根据所述当前实体在各个连接关系类型下分别对应的实体特征,确定所述第一业务表征向量对应的第一重要度系数;
至少基于所述第一重要度系数和所述第一业务表征向量,融合所述当前实体在所述多个连接关系类型分别对应的各个关系网络下的各个业务表征向量,得到对所述当前实体的综合评估结果,以利用所述综合评估结果针对所述当前实体进行后续业务处理。
2.根据权利要求1所述的方法,其中,在所述第一关系网络中,所述当前节点的邻居节点包括第一节点,所述第一节点对应第一邻居权重,所述第一节点对应的实体特征包括第一特征,所述第一特征对应第一特征权重,所述通过预先确定的特征聚合模型处理第一关系网络,得到针对所述当前节点在所述第一连接关系类型下的第一业务表征向量包括:
将所述第一特征权重与所述第一邻居权重的乘积确定为所述第一节点在所述第一特征上的第一特征聚合系数;
基于所述第一节点在所述第一特征上的特征表达向量与所述第一特征聚合系数的乘积,确定所述第一业务表征向量中与所述第一特征向量相对应的元素值。
3.根据权利要求1所述的方法,其中,在所述第一关系网络中,所述当前节点的邻居节点包括第二节点,所述第二节点对应第二邻居权重,所述预先确定的特征聚合模型为第一图神经网络;所述第一图神经网络的第i层通过以下方式处理所述第一关系网络:
将所述当前节点的当前特征表达向量和所述第二节点的当前特征表达向量拼接,得到第一拼接向量;
基于第一权重矩阵与所述第一拼接向量的乘积,确定所述第二节点在第i层的邻居权重,所述第一权重矩阵是所述第一图神经网络在第i层的模型参数,在训练所述第一图神经网络时确定;
根据所述第二节点在第i层的邻居权重与所述第二节点的当前特征表达向量,确定所述当前节点的第i邻居聚合向量;
将所述邻居聚合向量与所述当前节点的当前特征表达向量融合,得到所述当前节点经过第i层图神经网络处理后的表征向量。
4.根据权利要求3所述的方法,其中:
在i为1的情况下,所述当前节点的当前特征表达向量和所述第二节点的当前特征表达向量,分别由所述当前节点和所述第二节点在所述第一关系网络中的实体特征确定;
在i为大于1的自然数的情况下,所述当前节点的当前特征表达向量和所述第二节点的当前特征表达向量,分别为所述当前节点和所述第二节点经过第i-1层图神经网络处理后的表征向量。
5.根据权利要求3所述的方法,其中,所述将所述邻居聚合向量与所述当前节点的当前特征表达向量融合,得到所述当前节点经过第i层图神经网络处理后的表征向量包括:
将所述邻居聚合向量与所述当前节点的当前特征表达向量进行拼接,得到第二拼接向量;
基于第二权重矩阵与所述第二拼接向量的乘积,确定第i层图神经网络中的特征权重向量,所述第二权重矩阵是所述第一图神经网络在第i层的模型参数,在训练所述第一图神经网络时确定;
根据所述特征权重向量对所述邻居聚合向量进行修正,得到所述当前节点经过第i层图神经网络处理后的表征向量,在第i层图神经网络为所述第一图神经网络的最后一层时,修正后得到的表征向量为所述第一业务表征向量。
6.根据权利要求5所述的方法,其中,所述根据所述特征权重向量对所述邻居聚合项进行修正包括,将所述特征权重向量中第k个元素与所述邻居聚合向量中第k个元素的乘积,作为所述当前节点经过第i层图神经网络处理后的表征向量的第k个元素。
7.根据权利要求1所述的方法,其中,所述根据所述当前实体在各个连接关系类型下对应的实体特征,确定所述第一业务表征向量对应的第一重要度系数包括:
根据预先训练得到的各个连接关系类型分别对应的各个注意力向量,确定所述当前实体分别对应于各个连接关系类型的各个注意力值;
将当前实体在所述第一连接关系类型下对应的第一注意力值与各个连接关系类型的注意力值之和的比值,确定为所述第一重要度系数。
8.根据权利要求7所述的方法,其中,所述第一注意力值为,自变量为以下值的指数函数:第一连接关系类型对应的第一注意力向量的转置向量,与各个业务表征向量的拼接向量的乘积。
9.根据权利要求1所述的方法,其中,所述至少基于所述第一重要度系数和所述第一业务表征向量,融合所述当前实体在所述多个连接关系类型分别对应的各个关系网络下的各个业务表征向量,得到对所述当前实体的综合评估结果包括:
将各个重要度系数作为相应表征向量的权重,确定各个业务表征向量的加权和,其中,所述第一重要度系数为所述第一业务表征向量的权重;
将所述加权和作为对所述当前实体的综合评估结果。
10.根据权利要求1所述的方法,其中,所述综合评估结果包括以下中的一种:预测业务中的预测分数、分类业务中在各个类别上的评分。
11.根据权利要求1所述的方法,其中,所述多个实体包括第一实体,所述第一实体在各个连接关系类型下分别对应的各个节点通过所述第一实体的至少一个用户标识相关联。
12.一种基于异构图进行业务处理的装置,所述异构图用于描述多个实体之间分别在预定的多个连接关系类型下的关联关系,其中,所述多个连接关系类型相互独立,所述多个连接关系类型包括第一连接关系类型,描述所述多个实体之间在所述第一连接关系类型下的关联关系的关系网络为第一关系网络,在所述第一关系网络中,各个实体分别与各个节点一一对应,通过连接边连接的两两节点对应的两两实体之间具有所述第一连接关系类型的关联关系,各个节点分别对应有相应实体在所述第一连接关系类型下的实体特征;所述装置包括:
节点确定单元,配置为确定当前业务所针对的当前实体在所述第一关系网络中对应的当前节点;
特征聚合单元,配置为通过预先确定的特征聚合模型处理第一关系网络,得到针对所述当前节点在所述第一连接关系类型下的第一业务表征向量;
重要度确定单元,根据所述当前实体在各个连接关系类型下分别对应的实体特征,确定所述第一业务表征向量对应的第一重要度系数;
融合单元,配置为至少基于所述第一重要度系数和所述第一业务表征向量,融合所述当前实体在所述多个连接关系类型分别对应的各个关系网络下的各个业务表征向量,得到对所述当前实体的综合评估结果,以利用所述综合评估结果针对所述当前实体进行后续业务处理。
13.根据权利要求12所述的装置,其中,在所述第一关系网络中,所述当前节点的邻居节点包括第一节点,所述第一节点对应第一邻居权重,所述第一节点对应的实体特征包括第一特征,所述第一特征对应第一特征权重,所述特征聚合单元进一步配置为:
将所述第一特征权重与所述第一邻居权重的乘积确定为所述第一节点在所述第一特征上的第一特征聚合系数;
基于所述第一节点在所述第一特征上的特征表达向量与所述第一特征聚合系数的乘积,确定所述第一业务表征向量中与所述第一特征向量相对应的元素值。
14.根据权利要求11所述的装置,其中,在所述第一关系网络中,所述当前节点的邻居节点包括第二节点,所述第二节点对应第二邻居权重,所述预先确定的特征聚合模型为第一图神经网络;所述特征聚合单元还配置为,利用所述第一图神经网络的第i层通过以下方式处理所述第一关系网络:
将所述当前节点的当前特征表达向量和所述第二节点的当前特征表达向量拼接,得到第一拼接向量;
基于第一权重矩阵与所述第一拼接向量的乘积,确定所述第二节点在第i层的邻居权重,所述第一权重矩阵是所述第一图神经网络在第i层的模型参数,在训练所述第一图神经网络时确定;
根据所述第二节点在第i层的邻居权重与所述第二节点的当前特征表达向量,确定所述当前节点的第i邻居聚合向量;
将所述邻居聚合向量与所述当前节点的当前特征表达向量融合,得到所述当前节点经过第i层图神经网络处理后的表征向量。
15.根据权利要求14所述的装置,其中:
在i为1的情况下,所述当前节点的当前特征表达向量和所述第二节点的当前特征表达向量,分别由所述当前节点和所述第二节点在所述第一关系网络中的实体特征确定;
在i为大于1的自然数的情况下,所述当前节点的当前特征表达向量和所述第二节点的当前特征表达向量,分别为所述当前节点和所述第二节点经过第i-1层图神经网络处理后的表征向量。
16.根据权利要求14所述的装置,其中,所述特征聚合单元进一步配置为通过以下方式将所述邻居聚合向量与所述当前节点的当前特征表达向量融合,得到所述当前节点经过第i层图神经网络处理后的表征向量:
将所述邻居聚合向量与所述当前节点的当前特征表达向量进行拼接,得到第二拼接向量;
基于第二权重矩阵与所述第二拼接向量的乘积,确定第i层图神经网络中的特征权重向量,所述第二权重矩阵是所述第一图神经网络在第i层的模型参数,在训练所述第一图神经网络时确定;
根据所述特征权重向量对所述邻居聚合向量进行修正,得到所述当前节点经过第i层图神经网络处理后的表征向量,在第i层图神经网络为所述第一图神经网络的最后一层时,修正后得到的表征向量为所述第一业务表征向量。
17.根据权利要求16所述的装置,其中,所述特征聚合单元进一步配置为,将所述特征权重向量中第k个元素与所述邻居聚合向量中第k个元素的乘积,作为所述当前节点经过第i层图神经网络处理后的表征向量的第k个元素,从而根据所述特征权重向量对所述邻居聚合项进行修正。
18.根据权利要求11所述的装置,其中,所述重要度确定单元进一步配置为:
根据预先训练得到的各个连接关系类型分别对应的各个注意力向量,确定所述当前实体分别对应于各个连接关系类型的各个注意力值;
将当前实体在所述第一连接关系类型下对应的第一注意力值与各个连接关系类型的注意力值之和的比值,确定为所述第一重要度系数。
19.根据权利要求18所述的装置,其中,所述第一注意力值为,自变量为以下值的指数函数:第一连接关系类型对应的第一注意力向量的转置向量,与各个业务表征向量的拼接向量的乘积。
20.根据权利要求12所述的装置,其中,所述融合单元还配置为:
将各个重要度系数作为相应业务表征向量的权重,确定各个表征向量的加权和,其中,所述第一重要度系数为所述第一业务表征向量的权重;
将所述加权和作为对所述当前实体的综合评估结果。
21.根据权利要求11所述的装置,其中,所述综合评估结果包括以下中的一种:预测业务中的预测分数、分类业务中在各个类别上的评分。
22.根据权利要求11所述的装置,其中,所述多个实体包括第一实体,所述第一实体在各个连接关系类型下分别对应的各个节点通过所述第一实体的至少一个用户标识相关联。
23.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-11中任一项的所述的方法。
24.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-11中任一项所述的方法。
CN202010162991.9A 2020-03-10 2020-03-10 基于异构图进行业务处理的方法及装置 Active CN111309983B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010162991.9A CN111309983B (zh) 2020-03-10 2020-03-10 基于异构图进行业务处理的方法及装置
PCT/CN2021/074248 WO2021179834A1 (zh) 2020-03-10 2021-01-28 基于异构图进行业务处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010162991.9A CN111309983B (zh) 2020-03-10 2020-03-10 基于异构图进行业务处理的方法及装置

Publications (2)

Publication Number Publication Date
CN111309983A true CN111309983A (zh) 2020-06-19
CN111309983B CN111309983B (zh) 2021-09-21

Family

ID=71158851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010162991.9A Active CN111309983B (zh) 2020-03-10 2020-03-10 基于异构图进行业务处理的方法及装置

Country Status (2)

Country Link
CN (1) CN111309983B (zh)
WO (1) WO2021179834A1 (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581450A (zh) * 2020-06-24 2020-08-25 支付宝(杭州)信息技术有限公司 确定用户的业务属性的方法及装置
CN111832924A (zh) * 2020-06-30 2020-10-27 北方工业大学 基于图神经网络的社区燃气系统动态风险评估方法及装置
CN111931069A (zh) * 2020-09-25 2020-11-13 浙江口碑网络技术有限公司 用户兴趣确定方法、装置及计算机设备
CN112037038A (zh) * 2020-09-02 2020-12-04 中国银行股份有限公司 银行信贷风险预测方法及装置
CN112036418A (zh) * 2020-09-04 2020-12-04 京东数字科技控股股份有限公司 用于提取用户特征的方法和装置
CN112541575A (zh) * 2020-12-06 2021-03-23 支付宝(杭州)信息技术有限公司 图神经网络的训练方法及装置
CN112766500A (zh) * 2021-02-07 2021-05-07 支付宝(杭州)信息技术有限公司 图神经网络的训练方法及装置
CN113298116A (zh) * 2021-04-26 2021-08-24 上海淇玥信息技术有限公司 基于注意力权重的图嵌入特征提取方法、装置及电子设备
WO2021179834A1 (zh) * 2020-03-10 2021-09-16 支付宝(杭州)信息技术有限公司 基于异构图进行业务处理的方法及装置
CN113554100A (zh) * 2021-07-28 2021-10-26 湖南科技大学 异构图注意力网络增强的Web服务分类方法
CN113724073A (zh) * 2021-09-09 2021-11-30 支付宝(杭州)信息技术有限公司 一种风险识别和控制方法及装置
CN114022058A (zh) * 2022-01-06 2022-02-08 成都晓多科技有限公司 基于时序知识图谱的中小企业失信风险预测方法
CN114648345A (zh) * 2020-12-17 2022-06-21 支付宝(杭州)信息技术有限公司 训练表征模型及确定实体表征向量的方法及装置
CN114707488A (zh) * 2022-02-25 2022-07-05 马上消费金融股份有限公司 数据处理方法、装置、计算机设备及存储介质
WO2023011237A1 (zh) * 2021-08-04 2023-02-09 支付宝(杭州)信息技术有限公司 业务处理
CN115798722A (zh) * 2023-02-02 2023-03-14 神州医疗科技股份有限公司 基于知识图谱的免疫药物人群高低危筛选方法及系统

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570058B (zh) * 2021-09-22 2022-01-28 航天宏康智能科技(北京)有限公司 推荐方法和装置
CN113987200B (zh) * 2021-10-19 2024-03-15 云南大学 神经网络结合知识图谱的推荐方法、系统、终端、介质
CN114065048B (zh) * 2021-11-25 2024-02-09 西安电子科技大学 基于多异构图图神经网络的物品推荐方法
CN117033992A (zh) * 2022-04-28 2023-11-10 华为技术有限公司 一种分类模型的训练方法及装置
CN114780867B (zh) * 2022-05-10 2023-11-03 杭州网易云音乐科技有限公司 推荐方法、介质、装置和计算设备
CN115359654B (zh) * 2022-08-02 2023-09-08 支付宝(杭州)信息技术有限公司 流量预测系统的更新方法及装置
CN115314398B (zh) * 2022-09-29 2022-12-23 南昌航空大学 一种评估异质信息网络关键节点的方法
CN116912919B (zh) * 2023-09-12 2024-03-15 深圳须弥云图空间科技有限公司 一种图像识别模型的训练方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140025670A1 (en) * 2012-07-19 2014-01-23 Berrin, Llc Location based recommendations
CN106156483A (zh) * 2016-01-18 2016-11-23 李雪 一种基于文献数据的风险评价方法、装置及服务器
US20160371271A1 (en) * 2015-06-18 2016-12-22 International Business Machines Corporation Identification of Target Audience for Content Delivery in Social Networks by Quantifying Semantic Relations and Crowdsourcing
CN106980659A (zh) * 2017-03-20 2017-07-25 华中科技大学鄂州工业技术研究院 一种基于异构图模型的社交活动推荐方法
CN108399268A (zh) * 2018-03-29 2018-08-14 浙江大学 一种基于博弈论的增量式异构图聚类方法
CN109299373A (zh) * 2018-10-20 2019-02-01 上海交通大学 基于图卷积技术的推荐系统
CN109615167A (zh) * 2018-11-06 2019-04-12 阿里巴巴集团控股有限公司 确定疑似批量风险交易事件的方法、装置和电子设备
CN110097472A (zh) * 2019-05-08 2019-08-06 腾讯科技(深圳)有限公司 一种社团属性识别方法及相关设备
CN110263780A (zh) * 2018-10-30 2019-09-20 腾讯科技(深圳)有限公司 实现异构图、分子空间结构性质识别的方法、装置和设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11120082B2 (en) * 2018-04-18 2021-09-14 Oracle International Corporation Efficient, in-memory, relational representation for heterogeneous graphs
CN110046698B (zh) * 2019-04-28 2021-07-30 北京邮电大学 异质图神经网络生成方法、装置、电子设备及存储介质
CN110717047B (zh) * 2019-10-22 2022-06-28 湖南科技大学 一种基于图卷积神经网络的Web服务分类方法
CN111309983B (zh) * 2020-03-10 2021-09-21 支付宝(杭州)信息技术有限公司 基于异构图进行业务处理的方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140025670A1 (en) * 2012-07-19 2014-01-23 Berrin, Llc Location based recommendations
US20160371271A1 (en) * 2015-06-18 2016-12-22 International Business Machines Corporation Identification of Target Audience for Content Delivery in Social Networks by Quantifying Semantic Relations and Crowdsourcing
CN106156483A (zh) * 2016-01-18 2016-11-23 李雪 一种基于文献数据的风险评价方法、装置及服务器
CN106980659A (zh) * 2017-03-20 2017-07-25 华中科技大学鄂州工业技术研究院 一种基于异构图模型的社交活动推荐方法
CN108399268A (zh) * 2018-03-29 2018-08-14 浙江大学 一种基于博弈论的增量式异构图聚类方法
CN109299373A (zh) * 2018-10-20 2019-02-01 上海交通大学 基于图卷积技术的推荐系统
CN110263780A (zh) * 2018-10-30 2019-09-20 腾讯科技(深圳)有限公司 实现异构图、分子空间结构性质识别的方法、装置和设备
CN109615167A (zh) * 2018-11-06 2019-04-12 阿里巴巴集团控股有限公司 确定疑似批量风险交易事件的方法、装置和电子设备
CN110097472A (zh) * 2019-05-08 2019-08-06 腾讯科技(深圳)有限公司 一种社团属性识别方法及相关设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAO SHENG ET AL: "Heterogeneous Association Graph Fusion for Target Association in Multiple Object Tracking", 《 IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 *
SHICHAO ZHU ET AL: "Relation Structure-Aware Heterogeneous Graph Neural Network", 《2019 IEEE INTERNATIONAL CONFERENCE ON DATA MINING (ICDM)》 *
孔德强: "基于异构图的实体关联性挖掘", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021179834A1 (zh) * 2020-03-10 2021-09-16 支付宝(杭州)信息技术有限公司 基于异构图进行业务处理的方法及装置
CN111581450A (zh) * 2020-06-24 2020-08-25 支付宝(杭州)信息技术有限公司 确定用户的业务属性的方法及装置
CN111832924B (zh) * 2020-06-30 2021-06-15 北方工业大学 基于图神经网络的社区燃气系统动态风险评估方法及装置
CN111832924A (zh) * 2020-06-30 2020-10-27 北方工业大学 基于图神经网络的社区燃气系统动态风险评估方法及装置
CN112037038A (zh) * 2020-09-02 2020-12-04 中国银行股份有限公司 银行信贷风险预测方法及装置
CN112037038B (zh) * 2020-09-02 2024-05-28 中国银行股份有限公司 银行信贷风险预测方法及装置
CN112036418A (zh) * 2020-09-04 2020-12-04 京东数字科技控股股份有限公司 用于提取用户特征的方法和装置
CN111931069A (zh) * 2020-09-25 2020-11-13 浙江口碑网络技术有限公司 用户兴趣确定方法、装置及计算机设备
CN112541575A (zh) * 2020-12-06 2021-03-23 支付宝(杭州)信息技术有限公司 图神经网络的训练方法及装置
CN112541575B (zh) * 2020-12-06 2023-03-10 支付宝(杭州)信息技术有限公司 图神经网络的训练方法及装置
CN114648345A (zh) * 2020-12-17 2022-06-21 支付宝(杭州)信息技术有限公司 训练表征模型及确定实体表征向量的方法及装置
CN112766500A (zh) * 2021-02-07 2021-05-07 支付宝(杭州)信息技术有限公司 图神经网络的训练方法及装置
CN112766500B (zh) * 2021-02-07 2022-05-17 支付宝(杭州)信息技术有限公司 图神经网络的训练方法及装置
CN113298116A (zh) * 2021-04-26 2021-08-24 上海淇玥信息技术有限公司 基于注意力权重的图嵌入特征提取方法、装置及电子设备
CN113298116B (zh) * 2021-04-26 2024-04-02 上海淇玥信息技术有限公司 基于注意力权重的图嵌入特征提取方法、装置及电子设备
CN113554100A (zh) * 2021-07-28 2021-10-26 湖南科技大学 异构图注意力网络增强的Web服务分类方法
CN113554100B (zh) * 2021-07-28 2023-04-07 湖南科技大学 异构图注意力网络增强的Web服务分类方法
WO2023011237A1 (zh) * 2021-08-04 2023-02-09 支付宝(杭州)信息技术有限公司 业务处理
CN113724073A (zh) * 2021-09-09 2021-11-30 支付宝(杭州)信息技术有限公司 一种风险识别和控制方法及装置
CN114022058A (zh) * 2022-01-06 2022-02-08 成都晓多科技有限公司 基于时序知识图谱的中小企业失信风险预测方法
CN114707488A (zh) * 2022-02-25 2022-07-05 马上消费金融股份有限公司 数据处理方法、装置、计算机设备及存储介质
CN114707488B (zh) * 2022-02-25 2024-02-09 马上消费金融股份有限公司 数据处理方法、装置、计算机设备及存储介质
CN115798722A (zh) * 2023-02-02 2023-03-14 神州医疗科技股份有限公司 基于知识图谱的免疫药物人群高低危筛选方法及系统

Also Published As

Publication number Publication date
CN111309983B (zh) 2021-09-21
WO2021179834A1 (zh) 2021-09-16

Similar Documents

Publication Publication Date Title
CN111309983B (zh) 基于异构图进行业务处理的方法及装置
CN111400560A (zh) 一种基于异构图神经网络模型进行预测的方法和系统
US20220027730A1 (en) Entity transaction attribute determination method and apparatus
CN109766454A (zh) 一种投资者分类方法、装置、设备及介质
CN111797320B (zh) 数据处理方法、装置、设备及存储介质
CN111695084A (zh) 模型生成方法、信用评分生成方法、装置、设备及存储介质
CN114491263A (zh) 推荐模型训练方法及装置、推荐方法及装置
CN111581450A (zh) 确定用户的业务属性的方法及装置
CN111309823A (zh) 用于知识图谱的数据预处理方法及装置
CN114564648A (zh) 基于大数据的个性化服务内容优化方法及人工智能云系统
CN113468403A (zh) 基于大数据挖掘的用户信息预测方法及云计算ai服务系统
CN116797235A (zh) 消费信息的处理方法、装置、存储介质及计算机设备
CN116303963A (zh) 智慧ai平台的用户反馈分析方法及系统
CN111079930A (zh) 数据集质量参数的确定方法、装置及电子设备
CN113420567A (zh) 基于大数据的电商服务需求处理方法及电子商务ai系统
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN115115449B (zh) 一种面向金融供应链的优化数据推荐的方法及系统
KR20200112261A (ko) 챗봇 서비스 기반의 답변 서비스 제공 방법
US20100262560A1 (en) Method and system for assessing application portfolio
CN110738058B (zh) 排序特征重要度确定方法、装置、电子设备及存储介质
US11792125B1 (en) Reducing network traffic by filtering network requests based on network request-related information systems and methods
CN113642532B (zh) 视频分类模型处理方法、装置及数据处理设备
CN114820085B (zh) 用户筛选方法、相关装置及存储介质
CN114328797B (zh) 内容搜索方法、装置、电子设备、存储介质及程序产品
CN115456234A (zh) 一种模型处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant