CN115114486A - 特征编码方法、装置和计算机可读存储介质 - Google Patents

特征编码方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN115114486A
CN115114486A CN202210573970.5A CN202210573970A CN115114486A CN 115114486 A CN115114486 A CN 115114486A CN 202210573970 A CN202210573970 A CN 202210573970A CN 115114486 A CN115114486 A CN 115114486A
Authority
CN
China
Prior art keywords
node
weighted
edge
graph
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210573970.5A
Other languages
English (en)
Inventor
舒浩浩
庞永杰
王翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210573970.5A priority Critical patent/CN115114486A/zh
Publication of CN115114486A publication Critical patent/CN115114486A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Abstract

本申请实施例公开了一种特征编码方法、装置和计算机可读存储介质,可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景;通过获取带权节点关系图;在带权节点关系图中识别出节点的连接属性信息,并基于连接属性信息,确定带权节点关系图的分割参数;根据连接权重和分割参数,对带权节点关系图进行分割,得到至少一个无权节点关系子图;基于分割参数,在无权节点关系子图中筛选出每一节点对应的至少一个目标节点边,并基于目标节点边统计出节点的边分布信息;根据边分布信息,对带权节点关系图中对应的节点进行特征编码,得到节点的节点特征。以此,提高了关系图中节点特征编码的准确性,进而提升了节点特征的编码效率。

Description

特征编码方法、装置和计算机可读存储介质
技术领域
本申请涉及互联网技术领域,具体涉及一种特征编码方法、装置和计算机可读存储介质。
背景技术
近年来,随着互联网技术的快速发展,图计算技术也在不断发展。其中,图节点表示学习算法是图计算技术中一种从关系图的拓扑结构中学习得到图中节点的低维稠密表示,将节点在图中的信息降维编码的算法,在现有特征编码方法中,一般通过采用现有图节点表示学习算法来计算节点之间的相似度,并根据相似度大小来确定节点之间是否连接,从而根据节点连接结果来对节点的特征进行编码,以将编码得到的节点特征应用于用户多元化管理、风险预警等下游任务中。
在对现有技术的研究和实践过程中发现,现有特征编码方法中,通过计算节点之间的相似度来确定节点连接关系会导致关系图中每一节点与其他节点都会存在连接相似度,进行导致基于该特征编码方法编码得到的节点特征无法准确还原节点在关系图中的节点连接关系,使得关系图中节点的特征编码准确性较低,进而导致特征编码的效率较低。
发明内容
本申请实施例提供一种特征编码方法、装置和计算机可读存储介质,可以提高关系图中节点特征编码的准确性,进而提升了节点特征的编码效率。
本申请实施例提供一种特征编码方法,包括:
获取带权节点关系图,所述带权节点关系图中包括至少两个节点、连接所述节点的至少一条节点边和所述节点边对应的连接权重;
在所述带权节点关系图中识别出所述节点的连接属性信息,并基于所述连接属性信息,确定所述带权节点关系图的分割参数;
根据所述连接权重和分割参数,对所述带权节点关系图进行分割,得到至少一个无权节点关系子图,所述无权节点关系子图为无连接权重的节点关系子图;
基于所述分割参数,在所述无权节点关系子图中筛选出每一节点对应的至少一个目标节点边,并基于所述目标节点边统计出所述节点的边分布信息;
根据所述边分布信息,对所述带权节点关系图中对应的节点进行特征编码,得到所述节点的节点特征。
相应的,本申请实施例提供一种特征编码装置,包括:
获取单元,用于获取带权节点关系图,所述带权节点关系图中包括至少两个节点、连接所述节点的至少一条节点边和所述节点边对应的连接权重;
确定单元,用于在所述带权节点关系图中识别出所述节点的连接属性信息,并基于所述连接属性信息,确定所述带权节点关系图的分割参数;
分割单元,用于根据所述连接权重和分割参数,对所述带权节点关系图进行分割,得到至少一个无权节点关系子图,所述无权节点关系子图为无连接权重的节点关系子图;
筛选单元,用于基于所述分割参数,在所述无权节点关系子图中筛选出每一节点对应的至少一个目标节点边,并基于所述目标节点边统计出所述节点的边分布信息;
编码单元,用于根据所述边分布信息,对所述带权节点关系图中对应的节点进行特征编码,得到所述节点的节点特征。
在一实施例中,所述分割单元,包括:
关系图类型确定子单元,用于根据所述节点边对应的连接权重,确定所述带权节点关系图的关系图类型;
多重分割子单元,用于当所述关系图类型为多重带权节点关系图时,将所述多重带权节点关系图进行拆分,得到至少两个单重带权节点关系图,并根据所述连接权重和分割参数,对所述单重带权节点关系图进行分割,得到至少一个无权节点关系子图,所述单重带权节点关系图中每一节点边对应一个连接权重;
单重分割子单元,用于当所述关系图类型为单重带权节点关系图时,根据所述连接权重和分割参数,对所述单重带权节点关系图进行分割,得到至少一个无权节点关系子图。
在一实施例中,所述关系图类型确定子单元,包括:
权重数量识别模块,用于在所述带权节点关系图中识别每一节点边对应的连接权重的数量;
多重带权节点关系图确定模块,用于当所述节点边中存在对应至少两个连接权重的节点边时,将所述带权节点关系图的关系图类型确定为多重带权节点关系图;
单重带权节点关系图确定模块,用于当所述节点边中不存在对应至少两个连接权重的节点边时,将所述带权节点关系图的关系图类型确定为单重带权节点关系图。
在一实施例中,所述多重分割子单元和单重分割子单元,包括:
剪枝次数确定模块,用于根据所述分割参数确定所述单重带权节点关系图的剪枝次数,并获取所述单重带权节点关系图对应的剪枝阈值组,所述剪枝阈值组中包括至少一个剪枝阈值;
分割模块,用于基于所述剪枝次数、连接权重以及剪枝阈值组,对所述单重带权节点关系图进行分割,得到至少一个无权节点关系子图。
在一实施例中,所述分割模块,用于:
第一剪枝子模块,用于当所述剪枝次数为一次时,基于所述连接权重和剪枝阈值组,对所述单重带权节点关系图进行剪枝,得到每一剪枝阈值对应的无权节点关系子图;
第二剪枝子模块,用于当所述剪枝次数为多次时,基于所述连接权重和剪枝阈值组,对所述单重带权节点关系图进行剪枝,得到剪枝后无权节点关系子图,并将所述剪枝后无权节点关系子图作为单重带权节点关系图,返回执行所述基于所述连接权重和剪枝阈值组,对所述单重带权节点关系图进行剪枝的步骤,直至达到所述剪枝次数,得到至少一个无权节点关系子图。
在一实施例中,所述第一剪枝子模块,用于:
分别将所述剪枝阈值组中的至少一个剪枝阈值与所述单重带权节点关系图中每一节点边对应的连接权重进行对比;
基于所述节点边对应的对比结果,对所述单重带权节点关系图中的每一节点边进行剪枝,得到剪枝后单重带权节点关系图;
将所述剪枝后单重带权节点关系图中每一节点边对应的连接权重进行删除,得到每一剪枝阈值对应的无权节点关系子图。
在一实施例中,所述第一剪枝子模块,具体可以用于:
当所述节点边对应的连接权重小于所述剪枝阈值时,在所述单重带权节点关系图中对所述节点边进行删除,得到删除后节点边;
当所述节点边对应的连接权重不小于所述剪枝阈值时,在所述单重带权节点关系图中对所述节点边进行保留,得到保留后节点边;
基于所述删除后节点边和保留后节点边,确定每一剪枝阈值对应的剪枝后单重带权节点关系图。
在一实施例中,所述编码单元,包括:
第一特征编码子单元,用于当所述带权节点关系图为单重带权节点关系图时,根据所述边分布信息,对所述带权节点关系图中对应的节点进行特征编码,得到所述节点的节点特征;
第二特征编码子单元,用于当所述带权节点关系图为多重带权节点关系图时,根据所述边分布信息,对所述带权节点关系图的至少两个单重带权节点关系图中对应的节点进行特征编码,得到所述节点在对应的单重带权节点关系图中的单重节点特征,并将所述单重节点特征进行拼接,得到所述节点在所述带权节点关系图中对应的节点特征。
在一实施例中,所述第一特征编码子单元,包括:
边分布特征提取模块,用于在所述边分布信息中提取出所述节点在每一所述无权节点关系子图中对应的边分布特征;
组合模块,用于将所述节点对应的边分布特征进行组合,得到所述节点的目标边分布特征;
节点特征确定模块,用于根据所述目标边分布特征,确定所述节点的节点特征。
在一实施例中,所述边分布特征提取模块,包括:
提取子模块,用于在所述边分布信息中提取出所述节点在每一所述无权节点关系子图中对应的边信息和分布信息;
转换子模块,用于将所述边信息作为边特征基底,并基于所述边特征基底将所述分布信息转换为边分布特征。
在一实施例中,所述筛选单元,包括:
节点边阶数确定子单元,用于基于所述分割参数,确定每一节点对应的节点边阶数;
遍历子单元,用于对所述无权节点关系子图中每一节点进行遍历,得到每一节点对应的节点边之间的连接顺序;
拼接子单元,用于在所述无权节点关系子图中筛选出每一节点中与所述节点边阶数对应的待拼接节点边,并根据所述连接顺序,对所述待拼接节点边进行拼接,得到每一节点对应的至少一个目标节点边。
在一实施例中,所述筛选单元,包括:
统计子单元,用于在所述无权节点关系子图中统计出每一节点对应的目标节点边的目标节点边数量;
边分布信息确定子单元,用于基于所述目标节点边数量,确定所述节点在所述无权节点关系子图中的边分布信息。
此外,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例所提供的任一种特征编码方法中的步骤。
此外,本申请实施例还提供一种计算机设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本申请实施例提供的特征编码方法。
本申请实施例还提供一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行本申请实施例提供的特征编码方法中的步骤。
本申请实施例通过获取带权节点关系图,该带权节点关系图中包括至少两个节点、连接节点的至少一条节点边和节点边对应的连接权重;在带权节点关系图中识别出节点的连接属性信息,并基于连接属性信息,确定带权节点关系图的分割参数;根据连接权重和分割参数,对带权节点关系图进行分割,得到至少一个无权节点关系子图,该无权节点关系子图为无连接权重的节点关系子图;基于分割参数,在无权节点关系子图中筛选出每一节点对应的至少一个目标节点边,并基于目标节点边统计出节点的边分布信息;根据边分布信息,对带权节点关系图中对应的节点进行特征编码,得到节点的节点特征。以此,通过将带权节点关系图分割为至少一个无权节点关系子图,并在无权节点关系子图中统计出节点的边分布信息,进而根据每一无权节点关系子图对应的边分布信息对带权节点关系图中的节点进行特征编码,得到节点的节点特征,从而将节点在带权节点关系图中与其他节点的节点连接关系融入到节点特征中,提高了关系图中节点特征编码的准确性,进而提升了节点特征的编码效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种特征编码方法实施场景示意图;
图2是本申请实施例提供的一种特征编码方法的流程示意图;
图3是本申请实施例提供的一种特征编码方法的节点关系图示意图;
图4a是本申请实施例提供的一种特征编码方法的多重带权节点关系图特征编码流程示意图;
图4b是本申请实施例提供的一种特征编码方法的单重带权节点关系图一次剪枝流程示意图;
图4c是本申请实施例提供的一种特征编码方法的单重带权节点关系图二次剪枝流程示意图;
图5是本申请实施例提供的一种特征编码方法的另一流程示意图;
图6是本申请实施例提供的特征编码装置的结构示意图;
图7是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种特征编码方法、装置和计算机可读存储介质。其中,该特征编码装置可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
请参阅图1,以特征编码装置集成在计算机设备中为例,图1为本申请实施例所提供的特征编码方法的实施场景示意图,其中,该计算机设备可以为服务器,也可以为终端,该计算机设备可以获取带权节点关系图,该带权节点关系图中包括至少两个节点、连接节点的至少一条节点边和节点边对应的连接权重;在带权节点关系图中识别出节点的连接属性信息,并基于连接属性信息,确定带权节点关系图的分割参数;根据连接权重和分割参数,对带权节点关系图进行分割,得到至少一个无权节点关系子图,该无权节点关系子图为无连接权重的节点关系子图;基于分割参数,在无权节点关系子图中筛选出每一节点对应的至少一个目标节点边,并基于目标节点边统计出节点的边分布信息;根据边分布信息,对带权节点关系图中对应的节点进行特征编码,得到节点的节点特征。
需要说明的是,本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。图1所示的特征编码方法的实施环境场景示意图仅仅是一个示例,本申请实施例描述的特征编码方法的实施环境场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定。本领域普通技术人员可知,随着特征编码的演变和新业务场景的出现,本申请提供的技术方案对于类似的技术问题,同样适用。
本申请实施例提供的方案涉及人工智能的自然语言处理等技术,具体通过如下实施例进行说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从特征编码装置的角度进行描述,该特征编码装置具体可以集成在计算机设备中,该计算机设备可以是服务器,本申请在此不作限制。
请参阅图2,图2是本申请实施例提供的特征编码方法的流程示意图。该特征编码方法包括:
在步骤101中,获取带权节点关系图。
其中,该带权节点关系图可以为包括连接权重的节点关系图,该节点关系图可以为包括节点以及节点之间连接的节点边的网络图,可以用于表征节点之间的连接关系,可以为无向图,该带权节点关系图中可以包括至少两个节点、连接节点的至少一条节点边和节点边对应的连接权重。该连接权重可以为用于表征节点之间的关联程度,例如,可以用于表征两个节点之间的节点边对应的距离、耗费、时间、事件发生的概率等含义。其中,该事件发生的概率可以为转发概率、点击概率、风险概率等。
在现有技术中,往往采用图游走算法(Node2Vec、DeepWalk)、图神经网络(LINE)等图节点表示学习算法来对关系图中的节点特征进行编码,这种方法往往注重于近邻节点相似,通过计算节点之间的相似度,并根据相似度大小来确定节点之间是否连接,从而根据节点连接结果来对节点的特征进行编码,然而,通过计算节点之间的相似度来确定节点连接关系会导致关系图中每一节点与其他节点都会存在连接相似度,即每一节点之间都存在连接关系,进行导致基于该特征编码方法编码得到的节点特征无法准确还原节点在关系图中的节点连接关系,使得关系图中节点的特征编码准确性较低,进而导致特征编码的效率较低。为此,本申请实施例提供了一种特征编码方法,通过将带权节点关系图中每个节点的局部连接边结构分布进行向量化,以尽量还原节点在节点关系图中的实际连接特征,从而可以将节点在带权节点关系图中与其他节点的节点连接关系融入到节点特征中,提高了关系图中节点特征编码的准确性,进而提升了节点特征的编码效率。下面对本申请提供的特征编码方法进行详细的描述。
在步骤102中,在带权节点关系图中识别出节点的连接属性信息,并基于连接属性信息,确定带权节点关系图的分割参数。
其中,该连接属性信息可以为表征带权节点关系图中每一节点与其他节点的连接关系的属性信息,该属性信息可以为包括带权节点关系图中节点的性质与其他节点之间的连接关系的信息,该分割参数可以为对带权节点关系图进行分割的相关参数,例如,可以包括分割次数、分割方法等参数。
其中,该在带权节点关系图中识别出节点的连接属性信息的方式可以有多种,例如,可以对带权节点关系图中的节点以及节点边进行遍历,根据遍历结果可以统计出带权节点关系图中每一节点的连接属性信息。
在带权节点关系图中识别出节点的连接属性信息之后,便可以基于连接属性信息,确定带权节点关系图的分割参数。其中,基于连接属性信息,确定带权节点关系图的分割参数的方式可以有多种,比如,可以根据节点对应的连接属性信息,确定每一节点在该带权节点关系图中的节点连接情况,并可以根据每一节点的节点连接情况来获取该带权节点关系图中每一节点的最长节点边,从而可以基于带权节点关系图中每一节点的最长节点边,确定带权节点关系图的分割参数。其中,该最长节点边可以为以某一节点为根节点在带权节点关系图进行遍历的最长路径,例如,请参考图3,图3是本申请实施例提供的一种特征编码方法的节点关系图示意图,其中,节点关系图中包括节点1、节点2、节点3、节点4以及节点5,以该节点关系图为带权节点关系图为例,假设以该节点1为根节点在节点关系图进行遍历,则可以得到节点1的最长路径为两条节点边,可以为由节点1到节点4或者由节点1到节点5的两条节点边,即节点边ab以及ad,假设以该节点3为根节点在节点关系图进行遍历,则可以得到节点3的最长路径为三条节点边,可以为由节点3到节点4或者由节点3到节点5的三条节点边,即节点边cab以及cad,还可以假设以该节点2为根节点在节点关系图进行遍历,则可以得到节点2的最长路径为两条节点边,可以为由节点2到节点3的两条节点边,即ac等。
其中,基于带权节点关系图中每一节点的最长节点边,确定带权节点关系图的分割参数的方式可以有多种,比如,可以对每一节点的最长节点边进行统计,根据统计结果确定出现次数最多的最长节点边,从而可以根据出现次数最多的最长节点边对应的节点边数量确定为分割参数。例如,请继续参考图3,在图3所示的带权节点关系图中,节点1的最长节点边为两条节点边,节点2的最长节点边为两条节点边,节点3的最长节点边为三条节点边,节点4的最长节点边为三条节点边,节点5的最长节点边为三条节点边,从而可以统计该5个节点的最长节点边,根据统计结果可以确定出现次数最多的最长节点边为3条节点边,因此,可以根据出现次数最多的最长节点边将分割次数确定为3,从而确定带权节点关系图的分割参数。
在一实施例中,可以根据特征编码设备的计算能力以及计算精度来进一步带权节点关系图的分割参数。例如,以该分割参数为分割次数为例,在特征编码设备的计算能力较强时,可以选取较大的分割次数,在特征编码设备的计算能力较弱时,可以选取较小的分割次数,在特征编码的计算精度较高时,可以选取较大的分割次数,以基于高阶的特征来获取更多的节点信息,在特征编码的计算精度较低时,可以选取较小的分割次数。
在步骤103中,根据连接权重和分割参数,对带权节点关系图进行分割,得到至少一个无权节点关系子图。
其中,该无权节点关系子图可以为无连接权重的节点关系子图,即无权节点关系子图中所有节点之间存在连接以及不连接的关系,每一节点边为无对应的连接权重的节点边。
其中,根据连接权重和分割参数,对带权节点关系图进行分割的方式可以有多种,例如,可以根据该节点边对应的连接权重,确定该带权节点关系图的关系图类型,当该关系图类型为多重带权节点关系图时,将该多重带权节点关系图进行拆分,得到至少两个单重带权节点关系图,并根据该连接权重和分割参数,对该单重带权节点关系图进行分割,得到至少一个无权节点关系子图,当该关系图类型为单重带权节点关系图时,根据该连接权重和分割参数,对该单重带权节点关系图进行分割,得到至少一个无权节点关系子图。
其中,该关系图类型可以为带权节点关系图的类型,可以包括多重带权节点关系图、单重带权节点关系图。该多重带权节点关系图可以为节点边中存在对应至少两个连接权重的节点边的关系图,该单重带权节点关系图可以为每一节点边对应一个连接权重的关系图,该单重带权节点关系图中每一节点边可以对应一个连接权重。
其中,根据该节点边对应的连接权重,确定该带权节点关系图的关系图类型的方式可以有多种,例如,可以在该带权节点关系图中识别每一节点边对应的连接权重的数量,当该节点边中存在对应至少两个连接权重的节点边时,将该带权节点关系图的关系图类型确定为多重带权节点关系图,当该节点边中不存在对应至少两个连接权重的节点边时,将该带权节点关系图的关系图类型确定为单重带权节点关系图。
其中,在该带权节点关系图中识别每一节点边对应的连接权重的数量的方式可以有多种,例如,可以对带权节点关系图进行遍历,从而可以根据遍历结果得到每一节点边对应的连接权重的数量。
在根据该节点边对应的连接权重,确定该带权节点关系图的关系图类型之后,便可以在该关系图类型为多重带权节点关系图时,将该多重带权节点关系图进行拆分,得到至少两个单重带权节点关系图。其中,将该多重带权节点关系图进行拆分的方式可以有多种,例如,可以根据节点的行为属性信息以及连接权重,对该多重带权节点关系图进行拆分,得到至少两个单重带权节点关系图。其中,该行为属性信息可以为节点自身的行为以及节点属性信息,该节点属性信息可以为包括带权节点关系图中节点的性质与节点之间的关系的信息,由于在多重带权节点关系图中,节点边中存在对应多个连接权重的节点边,不同节点边表示节点关系的实际意义可以不同,以对复杂的多重关系场景进行准确的刻画,比如在进行支付行为时,两个用户可以建立支付关系,在进行聊天时,两个用户又可建立聊天关系等。因此,为了准确的将节点之间的连接关系,也即节点的边结构分布信息融入到节点的特征编码中,可以根据多重带权节点关系图中节点的行为属性信息,将多重带权节点关系图中对应至少两个连接权重的节点边进行拆分,以使得多重带权节点关系图中每一节点边至多对应一条连接权重。例如,请参考图4a,图4a是本申请实施例提供的一种特征编码方法的多重带权节点关系图特征编码流程示意图,多重带权节点关系图G中包括节点1至9,可以根据节点的行为属性信息以及每一节点边的实际意义,将多重带权节点关系图G拆分为单重带权节点关系图G(1)以及单重带权节点关系图G(2),单重带权节点关系图G(1)以及单重带权节点关系图G(2)中每一节点边最多对应一个连接权重。
对于单重带权节点关系图,便可以根据该连接权重和分割参数,对该单重带权节点关系图进行分割,得到至少一个无权节点关系子图,其中,根据该连接权重和分割参数,对该单重带权节点关系图进行分割的方式可以有多种,例如,可以根据该分割参数确定该单重带权节点关系图的剪枝次数,并获取该单重带权节点关系图对应的剪枝阈值组,基于该剪枝次数、连接权重以及剪枝阈值组,对该单重带权节点关系图进行分割,得到至少一个无权节点关系子图。
其中,该剪枝次数可以为对单重带权节点关系图进行剪枝的次数,即分割次数,该剪枝阈值组可以为对单重带权节点关系图进行剪枝的阈值组,该剪枝阈值组中可以包括至少一个剪枝阈值,该剪枝阈值可以为一个预先设定的临界值,在两个节点之间的节点边的连接权重大于或者等于该临界值时,可以确定这两个节点之间建立连接,在两个节点之间的节点边的连接权重小于该临界值时,可以确定这两个节点之间不建立连接。
可选的,在剪枝阈值组中,每一剪枝阈值的取值可以处于0到1之间,例如,可以假设剪枝阈值组中包括m个剪枝阈值,分别为T1到Tm,其中,0≤T1≤T2≤…≤Tm≤1。
其中,根据该分割参数确定该单重带权节点关系图的剪枝次数的方式可以有多种,例如,可以在该分割参数中提取出分割次数,并将该分割次数作为剪枝次数。
在根据该分割参数确定该单重带权节点关系图的剪枝次数之后,便可以基于该剪枝次数、连接权重以及剪枝阈值组,对该单重带权节点关系图进行分割,得到至少一个无权节点关系子图。其中,基于该剪枝次数、连接权重以及剪枝阈值组,对该单重带权节点关系图进行分割的方式可以有多种,例如,可以当该剪枝次数为一次时,基于该连接权重和剪枝阈值组,对该单重带权节点关系图进行剪枝,得到每一剪枝阈值对应的无权节点关系子图;当该剪枝次数为多次时,基于该连接权重和剪枝阈值组,对该单重带权节点关系图进行剪枝,得到剪枝后无权节点关系子图,并将该剪枝后无权节点关系子图作为单重带权节点关系图,返回执行该基于该连接权重和剪枝阈值组,对该单重带权节点关系图进行剪枝的步骤,直至达到该剪枝次数,得到至少一个无权节点关系子图。
其中,该剪枝后无权节点关系子图可以为基于该连接权重和剪枝阈值组,对该单重带权节点关系图进行剪枝后得到的节点关系子图,该节点关系子图可以为对带权节点关系图进行分割后得到的节点关系图。
其中,基于该连接权重和剪枝阈值组,对该单重带权节点关系图进行剪枝,得到每一剪枝阈值对应的无权节点关系子图的方式可以有多种,例如,可以分别将该剪枝阈值组中的至少一个剪枝阈值与该单重带权节点关系图中每一节点边对应的连接权重进行对比,基于该节点边对应的对比结果,对该单重带权节点关系图中的每一节点边进行剪枝,得到剪枝后单重带权节点关系图,将该剪枝后单重带权节点关系图中每一节点边对应的连接权重进行删除,得到每一剪枝阈值对应的无权节点关系子图。
其中,该剪枝后单重带权节点关系图可以为根据每一节点边对应的连接权重与剪枝阈值的对比结果对单重带权节点关系图中的每一节点边进行剪枝后得到节点关系图。
其中,基于该节点边对应的对比结果,对该单重带权节点关系图中的每一节点边进行剪枝的方式可以有多种,例如,可以当该节点边对应的连接权重小于该剪枝阈值时,在该单重带权节点关系图中对该节点边进行删除,得到删除后节点边,当该节点边对应的连接权重不小于该剪枝阈值时,在该单重带权节点关系图中对该节点边进行保留,得到保留后节点边,基于该删除后节点边和保留后节点边,确定每一剪枝阈值对应的剪枝后单重带权节点关系图。
其中,该删除后节点边可以为将单重带权节点关系图中连接权重小于剪枝阈值的节点边进行删除后的节点边,也即断开连接的节点边,该保留后节点边可以为将单重带权节点关系图中连接权重不小于剪枝阈值的节点边进行保留后的节点边,也即保持建立连接的节点边,在根据剪枝阈值对单重带权节点关系图中每一节点边进行剪枝之后,可以得到剪枝后单重带权节点关系图。
可选的,请参考图4b,图4b是本申请实施例提供的一种特征编码方法的单重带权节点关系图一次剪枝流程示意图,在剪枝次数为一次时,可以假设剪枝阈值组中包括m个剪枝阈值,分别为T1、T2、...、Tm,可以采用m个剪枝阈值分别对单重带权节点关系图G进行剪枝,得到m个剪枝阈值对应的m个剪枝后单重带权节点关系图,分别为G1、G2、...、Gm。
可选的,请参考图4c,图4c是本申请实施例提供的一种特征编码方法的单重带权节点关系图二次剪枝流程示意图,在剪枝次数为二次时,可以基于该连接权重和剪枝阈值组(T1、T2、...、Tm),对该单重带权节点关系图G进行剪枝,得到m个剪枝后无权节点关系子图,然后,可以再基于该连接权重和剪枝阈值组,对该m个剪枝后无权节点关系子图进行二次剪枝,得到m×m个无权节点关系子图。其中,需要说明的是,在进行二次剪枝时,所采用的剪枝阈值可以与第一次剪枝时所采用的剪枝阈值相同,也可以不同,只需保证对带权节点关系图中每一节点的剪枝操作以及维度相同,同时,二次剪枝的剪枝阈值的数量也可以与第一次剪枝的剪枝阈值的数量不同,例如,在第一次剪枝时可以采用剪枝阈值组(T1、T2、...、Tm)进行剪枝,在第二次剪枝时可以采用剪枝阈值组(T1、T2、...、Tp)进行剪枝,以此可以得到m×p个无权节点关系子图。需要说明的是,该剪枝阈值组的具体取值以及数量可以根据实际应用进行选择,在此不做限定。此外,对于剪枝次数为多次的情况,可以基于一次剪枝、二次剪枝的情况进行类推。
在步骤104中,基于分割参数,在无权节点关系子图中筛选出每一节点对应的至少一个目标节点边,并基于目标节点边统计出节点的边分布信息。
其中,该目标节点边可以为基于分割参数在无权节点关系子图中筛选出的特定阶数的节点边,比如,可以为一阶节点边、二阶节点边或者三阶节点边等,例如,请继续参考图3,以该节点关系图为无权节点关系子图为例,对于节点1来说,节点边a、节点边c为节点1的一阶节点边,节点边ab、ad为节点1的二阶节点边,对于节点3来说,节点边cab为节点3的三阶节点边。该边分布信息可以为表征每一节点在无权节点关系子图中对应的目标节点边的分布的信息,用于表征每一节点在无权节点关系子图中的目标节点边的分布情况,例如,可以为包括每一节点在无权节点关系子图中对应的目标节点边的数量。
其中,基于该分割参数,在该无权节点关系子图中筛选出每一节点对应的至少一个目标节点边的方式可以有多种,例如,可以基于该分割参数,确定每一节点对应的节点边阶数,对该无权节点关系子图中每一节点进行遍历,得到每一节点对应的节点边之间的连接顺序,在该无权节点关系子图中筛选出每一节点中与该节点边阶数对应的待拼接节点边,并根据该连接顺序,对该待拼接节点边进行拼接,得到每一节点对应的至少一个目标节点边。
其中,该节点边阶数可以为节点边的阶数,比如,一阶节点边对应的节点边阶数为1,二阶节点边对应的节点边阶数为2,三阶节点边对应的节点边阶数为3,以此类推。例如,请继续参考图3,以该节点关系图为无权节点关系子图为例,节点边ab、ad为节点1对应的节点边阶数为2的二阶节点边,节点边cab为节点3对应的节点边阶数为3的三阶节点边。可选的,可以在分割参数中提取出分割次数(即剪枝次数),进而可以根据该分割次数确定节点边阶数,该节点边阶数可以与分割次数对应,例如,当该分割次数为1次时,该节点边阶数可以为1阶,即该目标节点边可以为分割一次之后仍然保持连接关系的一阶节点边,当该分割次数为2次时,该节点边阶数可以为2阶,该目标节点边可以为由两条连续的分别被分割后仍然保留连接的节点边组成的二阶节点边,譬如,请继续参考图3,假设该节点关系图为带权节点关系图,以该目标节点边为节点1的二阶节点边为例,可以对该节点1与其一阶邻居节点(即节点2和节点3)之间的节点边(即节点边a和节点边c)进行第一次剪枝,假设节点边a和节点边c的连接权重都不小于第一次剪枝的剪枝阈值,可以得到保留后节点边a和c,再对保留后节点边a和c与其一阶邻居节点对应的节点边(即节点边b和d)进行第二次剪枝,假设节点边b对应的连接权重不小于第二次剪枝的剪枝阈值,而节点边b对应的连接权重小于第二次剪枝的剪枝阈值,则可以确定该目标节点边为二阶节点边ab。该连接顺序可以为每一节点对应的节点边之间进行连接的顺序,例如,请继续参考图3,以该关系图为无权节点关系子图为例,对于节点1,节点边ab由节点边a连接到节点边b,节点ad由节点边a连接到节点边d。该待拼接节点边可以为在该无权节点关系子图中筛选出与该节点边阶数对应的节点边,例如,假设节点边阶数为1,则对于节点1,可以在该无权节点关系子图中筛选出与该节点边阶数对应的待拼接节点边a和c,假设节点边阶数为2,则对于节点1,可以在该无权节点关系子图中筛选出与该节点边阶数对应的待拼接节点边为a、b以及c。
其中,根据该连接顺序,对该待拼接节点边进行拼接,得到每一节点对应的至少一个目标节点边的方式可以有多种,例如,假设节点边阶数为1,则对于节点1,可以在该无权节点关系子图中筛选出与该节点边阶数对应的待拼接节点边a和c,从而可以确定节点1对应的目标节点边为节点边a和c,假设节点边阶数为2,则对于节点1,可以根据该连接顺序,对待拼接节点边为a、b以及c进行拼接,得到节点1对应的目标节点边包括二阶节点边ab以及二阶节点边ac。
在基于分割参数,在无权节点关系子图中筛选出每一节点对应的至少一个目标节点边之后,便可以基于目标节点边统计出节点的边分布信息。其中,基于该目标节点边统计出该节点的边分布信息的方式可以有多种,例如,可以在该无权节点关系子图中统计出每一节点对应的目标节点边的目标节点边数量,基于该目标节点边数量,确定该节点在该无权节点关系子图中的边分布信息。
其中,该目标节点边数量可以为每一节点在无权节点关系子图存在对应的目标节点边的数量。
其中,在该无权节点关系子图中统计出每一节点对应的目标节点边的目标节点边数量的方式可以有多种,例如,请继续参考图4b,对于带权节点关系图G,Wij表示G中节点i和j的连接权重,Edge(Wij)表示连接权重为Wij的一阶节点边,对于该节点边阶数为1阶的情况,即该目标节点边为一阶节点边时,节点i在G中的一阶节点边结构分布可以表示为
Figure BDA0003659975350000171
其中,
Figure BDA0003659975350000172
为节点i的一阶节点边结构分布,可以表示节点i在G中对于一阶的目标节点边的边分布信息,用于表征带权节点关系图G中节点i的一阶节点边的分布情况,然后,可以采用剪枝阈值组(T1、T2、...、Tm)对带权节点关系图进行剪枝,得到m个剪枝后的无权节点关系子图G1,G2,…,Gm。若节点j和节点i是G中任意两个节点,则第k个无权节点关系子图Gk中节点i和j的一阶连接情况可表示为
Figure BDA0003659975350000173
其中,
Figure BDA0003659975350000174
表示剪枝后节点i与节点j之间的节点边的连接情况,
Figure BDA0003659975350000175
等于1表示节点j在无权图Gk中与节点i连接,即节点j是节点i的一阶邻居节点。
将无权节点关系子图Gk中所有一阶节点边用Edge(Tk)表示,则G中节点i和j的连接情况Edge(Wij)可以采用G1,G2,…,Gm中的节点边进行表示,可以为
Figure BDA0003659975350000176
其中,Tk可以为无权节点关系子图Gk对应的剪枝阈值。从而,可以基于该目标节点边数量,确定该节点i在该无权节点关系子图Gk中的边分布信息可以表示为
Figure BDA0003659975350000177
其中,节点i在无权节点关系子图Gk中对应的一阶的目标节点边的目标节点边数量可以表示为
Figure BDA0003659975350000178
相应的,节点i在关系图G中的一阶节点边结构分布可近似表示为
Figure BDA0003659975350000181
对于该节点边阶数为2阶的情况,即该目标节点边为二阶节点边时,请继续参考图4c,带权节点关系图G中节点的二阶节点边可以由一阶节点边和二阶节点边共同组成,假设节点i的其中一个二阶节点边由连接权重为Wio的一阶节点边和连接权重为Woj的二阶节点边组成,其中,节点o为节点i的一阶邻居节点,节点j为节点o的一阶邻居节点,即节点j为节点i的二阶邻居节点,则可以将该二阶节点边表示为Edge(Wio,Woj),则可以将Edge(Wio,Woj)看成节点i的一阶节点边Edge(Wio)和一阶邻居节点o的一阶边Edge(Woj)进行拼接得到,节点i的二阶节点边可以定义为
Figure BDA0003659975350000182
因此,节点i的二阶节点边结构分布可以表示成
Figure BDA0003659975350000183
代入公式(1),节点i在关系图G中的二阶节点边结构分布
Figure BDA0003659975350000184
可以表示为
Figure BDA0003659975350000185
其中,Ts表示连接权重为Wio的一阶节点边对应的剪枝阈值,Tv可以表示连接权重为Woj的二阶节点边对应的剪枝阈值。相应的,节点i在无权节点关系子图中对应的二阶的目标节点边的目标节点边数量可以表示为
Figure BDA0003659975350000186
从而可以基于该目标节点边数量,确定该节点i在该无权节点关系子图中由连接权重为Wio的一阶节点边和连接权重为Woj的二阶节点边组成的目标节点边对应的边分布信息可以表示为
Figure BDA0003659975350000187
其中,需要说明的是,在上述公式推导过程中节点的边分布信息是以节点在带权节点关系图G中的边分布信息进行表示,每一节点在每一无权节点关系子图中的边分布信息可以根据节点在带权节点关系图G中的边分布信息进行确定。此外,上述公式推导过程中以一阶节点边以及二阶节点边为例进行推导,相应的,对于n阶的情况可以以此类推进行推导。
在步骤105中,根据边分布信息,对带权节点关系图中对应的节点进行特征编码,得到节点的节点特征。
其中,该节点特征可以为表征带权关系图中的节点的特征信息。该节点特征可以包括节点自身的属性信息以及节点在带权关系图中的节点连接关系对应的边分布信息等信息。
其中,根据该边分布信息,对该带权节点关系图中对应的节点进行特征编码的方式可以有多种,例如,可以当该带权节点关系图为单重带权节点关系图时,根据该边分布信息,对该带权节点关系图中对应的节点进行特征编码,得到该节点的节点特征;当该带权节点关系图为多重带权节点关系图时,根据该边分布信息,对该带权节点关系图的至少两个单重带权节点关系图中对应的节点进行特征编码,得到该节点在对应的单重带权节点关系图中的单重节点特征,并将该单重节点特征进行拼接,得到该节点在该带权节点关系图中对应的节点特征。
其中,该单重节点特征可以为多重带权节点关系图中节点在该对该多重节点关系图对应的至少两个单重带权节点关系图中对应的节点特征。
其中,根据该边分布信息,对该带权节点关系图中对应的节点进行特征编码,得到该节点的节点特征的方式可以有多种,例如,可以在该边分布信息中提取出该节点在每一无权节点关系子图中对应的边分布特征,将该节点对应的边分布特征进行组合,得到该节点的目标边分布特征,根据该目标边分布特征,确定该节点的节点特征。
其中,该边分布特征可以为表征节点在无权节点关系子图中的节点连接关系的特征信息,即可以为表征节点在无权节点关系子图中的边结构分布的特征信息,该目标边分布特征可以为表征节点在带权节点关系图中的节点连接关系的特征信息,可以包括节点在带权节点关系图中对应的节点边的分布情况以及节点边对应的连接权重的分布情况。
其中,在该边分布信息中提取出该节点在每一该无权节点关系子图中对应的边分布特征的方式可以有多种,例如,可以在该边分布信息中提取出该节点在每一该无权节点关系子图中对应的边信息和分布信息,将该边信息作为边特征基底,并基于该边特征基底将该分布信息转换为边分布特征。
其中,该边信息可以为表征节点在无权节点关系子图中对应的目标节点边的信息,该分布信息可以为表征节点对应的目标节点边在无权节点关系子图中的分布的信息。
在一实施例中,以该节点边阶数为一阶的情况,即该目标节点边为一阶节点边时,可以将公式(2)转换为
Figure BDA0003659975350000201
从而可以在该边分布信息中提取出该节点在每一该无权节点关系子图中对应的边信息Edge(Tk)和分布信息为
Figure BDA0003659975350000202
进而可以将该边信息作为边特征基底,并基于该边特征基底将该分布信息转换为边分布特征,可以得到节点i在第k个无权节点关系子图中的一阶节点边的边分布特征可以表示为
Figure BDA0003659975350000203
边的分布的特征信息,即边分布特征,则节点i在带权节点关系图G中的一阶节点边结构分布可表示为
Figure BDA0003659975350000204
则对于带权节点关系图G,可以以边信息Edge(T1),…,Edge(Tm)作为边特征基底,从而可以将该节点i对应的边分布特征进行组合,得到节点i在G中的一阶节点边的目标边分布特征,该目标边分布特征可以表示为
Figure BDA0003659975350000211
请继续参考图4b,以Edge(T1),…,Edge(Tm)作为边特征基底,带权节点关系图G中节点1的一阶节点边的目标边分布特征最终可以编码成向量(4,3,…,2)。
在一实施例中,以该节点边阶数为二阶的情况,即该目标节点边为二阶节点边,两次剪枝所采用的剪枝阈值相同,均为T1、T2、...、Tm,同理,基于公式(3),可以得到节点i在该无权节点关系子图中由连接权重为Wio的一阶节点边和连接权重为Woj的二阶节点边组成的目标节点边的边分布特征可以表示为
Figure BDA0003659975350000212
相应的,节点i在带权节点关系图G中的二阶节点边结构分布可表示为
Figure BDA0003659975350000213
以Edge(T1,T1),…,Edge(Tm,Tm)作为边特征基底,同时将该节点对应的边分布特征进行组合,可以得到该节点i在G中的二阶节点边的目标边分布特征,该目标边分布特征可以编码表示为
Figure BDA0003659975350000214
请继续参考图4c,节点1在G中的二阶节点边的目标边分布特征可以编码表示为
Figure BDA0003659975350000215
在将该节点对应的边分布特征进行组合,得到该节点的目标边分布特征之后,便可以根据该目标边分布特征,确定该节点的节点特征。其中,根据该目标边分布特征,确定该节点的节点特征的方式可以有多种,例如,提取出节点自身的行为以及属性的特征,对该特征以及目标边分布特征进行融合,得到节点的节点特征。
以此类推,对于节点边阶数为n阶的情况,即该目标节点边为n阶节点边时,由二阶结构扩展至n阶结构,n次剪枝采用相同的剪枝阈值(T1、T2、...、Tm),从而可以用Edge(T1,…,T1),…,Edge(Tm,…,Tm)共mn个基底对节点的n阶节点边特征进行编码,得到的特征编码是m×m×…×m维张量,进而可以得到节点i在坐标(k,s,...,v)处的n阶节点边的目标边分布特征可以表示为
Figure BDA0003659975350000221
其中,节点o1是节点i的一阶邻居节点,o2是o1的一阶邻居节点,on是on-1的一阶邻居节点。
以此,可以根据剪枝阈值组中多个剪枝阈值对带权节点关系图进行剪枝,得到多个无权节点关系子图,从而可以统计每一节点在无权节点关系子图中的目标节点边的分布情况,进而可以根据每一节点在无权节点关系子图中的目标节点边的分布情况,来准确模拟每一节点在带权节点关系图中的节点连接关系和边分布信息,从而可以基于该目标边分布特征将节点在带权节点关系图中的节点连接关系、节点边以及对应的连接权重的分布信息融入到节点的特征编码中,以此来确定每一节点的节点特征,提高了带权节点关系图中每一节点的节点特征编码的准确性,可以应用于金融风控、推荐系统、社交网络、交通网络、电子购物等应用场景中,通过对用户在对应场景的节点关系图中的目标边分布特征进行编码,结合用户自身的行为和属性信息等特征,对用户在关系图中的重要性进行精准分层,方便对用户进行多元化管理。此外,本申请实施例提供的特征编码方法可以方便的扩展到n阶节点边进行节点的特征编码,减少特征编码过程中节点的信息损耗,且计算复杂度较低,同时可扩展至多重带权节点关系图(Multigraph)中节点的边分布特征的特征编码,进一步提升了节点特征的编码效率。
在一实施例中,可以将本申请实施例提供的特征编码方法应用于推荐系统场景中,具体的,可以获取内容推荐应用对应的带权节点关系图,该内容推荐应用中包括至少一个对象以及对象之间的关联信息,该带权节点关系图中包括至少两个节点、连接节点的至少一条节点边和节点边对应的连接权重,该内容推荐应用中的对象与该带权节点关系图中的节点一一对应,该节点边和节点边对应的连接权重可以根据该内容推荐应用中对象的关联信息确定;在带权节点关系图中识别出节点的连接属性信息,并基于连接属性信息,确定带权节点关系图的分割参数;根据连接权重和分割参数,对带权节点关系图进行分割,得到至少一个无权节点关系子图,该无权节点关系子图为无连接权重的节点关系子图;基于分割参数,在无权节点关系子图中筛选出每一节点对应的至少一个目标节点边,并基于目标节点边统计出节点的边分布信息;根据边分布信息,对带权节点关系图中对应的节点进行特征编码,得到节点的节点特征;基于该节点特征,对该内容推荐应用中每一对象进行内容推荐。
其中,该内容推荐应用可以为基于推荐系统进行内容推荐的应用,该对象可以为内容推荐应用中的用户,该内容可以为承载信息的载体,例如,可以为视频、音频、文章、图片等形式的内容,该关联信息可以为包括内容推荐应用中用户之间的关联关系的信息,例如,可以包括用户之间的交互关系、兴趣的相似程度等信息,该交互关系可以包括用户之间进行点赞、关注、评论、分享、浏览等交互行为的关系。
其中,基于该节点特征,对该内容推荐应用中每一对象进行内容推荐的方式可以有多种,比如,可以基于内容推荐应用中每一对象的节点特征,预测该对象的兴趣偏好,根据预测到的兴趣偏好来获取待推荐的内容推送至该对象,进而提高内容推荐的准确性。例如,可以根据内容推荐应用中每一对象节点的节点特征建立内容推荐模型,通过内容推荐模型来预测内容推荐应用中对象的兴趣偏好,从而可以根据对象的兴趣偏好获取用户可能感兴趣的内容,并将这些内容推送到用户,提高了内容推荐的准确性,进而提升了内容推荐的效率。
在一实施例中,可以将本申请实施例提供的特征编码方法应用于金融风控场景中,具体的,可以获取目标支付网络对应的带权节点关系图,该目标支付网络中可以包括至少一个对象,该带权节点关系图中包括至少两个节点、连接节点的至少一条节点边和节点边对应的连接权重,该目标支付网络中对象与该带权节点关系图中的节点一一对应,该节点边和节点边对应的连接权重可以根据该目标支付网络中对象的支付关系确定;在带权节点关系图中识别出节点的连接属性信息,并基于连接属性信息,确定带权节点关系图的分割参数;根据连接权重和分割参数,对带权节点关系图进行分割,得到至少一个无权节点关系子图,该无权节点关系子图为无连接权重的节点关系子图;基于分割参数,在无权节点关系子图中筛选出每一节点对应的至少一个目标节点边,并基于目标节点边统计出节点的边分布信息;根据边分布信息,对带权节点关系图中对应的节点进行特征编码,得到节点的节点特征;基于该节点特征,在所述目标支付网络对应的对象中识别出异常对象。
其中,该目标支付网络可以为金融支付场景中的支付网络,该支付网络用于表征某一金融支付场景中每一对象之间的支付关系,该带权节点关系图中每一节点可以与目标支付网络中每一对象一一对应,该对象可以为目标支付网络中的用户,该异常对象可以为目标支付网络的对象中存在异常行为的用户,比如,可以为存在异常支付行为的用户,例如,可以为存在违法行为的用户,或者可以为存在遭受欺骗行为的用户。
其中,根据边分布信息,对带权节点关系图中对应的节点进行特征编码的方式可以有多种,例如,可以根据边分布信息确定带权节点关系图中每一节点对应的目标边分布特征,获取每一节点对应的行为属性特征,从而可以将该行为属性特征以及目标边分布特征进行融合,得到节点的节点特征。
其中,该行为属性特征可以为包括节点对应的用户自身的支付行为以及属性的特征,例如,可以为包括用户的支付习惯、支付能力、支付偏好等信息。其中,可以理解的是,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
在根据边分布信息,对带权节点关系图中对应的节点进行特征编码之后,便可以基于该节点特征,在所述目标支付网络对应的对象中识别出异常对象。其中,基于该节点特征,在所述目标支付网络对应的对象中识别出异常对象的方式可以有多种,比如,可以根据目标支付网络中每一对象节点的节点特征来对目标支付网络中的对象的支付行为进行预测,根据预测结果来识别出目标支付网络中的异常对象,以及时对目标支付网络中的异常对象进行处理,保障目标支付网络的支付安全。例如,可以根据目标支付网络中每一对象节点的节点特征建立异常对象识别模型,通过异常对象识别模型来识别目标支付网络中潜在的异常对象,并进行针对该异常用户的风险预警,以避免目标支付网络中出现异常支付行为而导致用户产生经济损失等问题,提高了异常对象的识别效率,同时保证了目标支付网络中支付行为的正常运行。
在一实施例中,当该带权节点关系图为多重带权节点关系图时,在获取到节点在对应的单重带权节点关系图中的单重节点特征之后,可以将该单重节点特征进行拼接,得到该节点在该带权节点关系图中对应的节点特征,其中,将该单重节点特征进行拼接的方式可以有多种,例如,由于每一单重带权节点关系图对应的剪枝阈值的数量相同,因此,每一单重节点特征的编码维度相同,进而可以将多重带权节点关系图对应的单重节点特征以类似于图片中颜色系统(RGB)值的形式进行拼接,以此可以得到该节点在该带权节点关系图中对应的节点特征。
由以上可知,本申请实施例通过获取带权节点关系图,该带权节点关系图中包括至少两个节点、连接节点的至少一条节点边和节点边对应的连接权重;在带权节点关系图中识别出节点的连接属性信息,并基于连接属性信息,确定带权节点关系图的分割参数;根据连接权重和分割参数,对带权节点关系图进行分割,得到至少一个无权节点关系子图,该无权节点关系子图为无连接权重的节点关系子图;基于分割参数,在无权节点关系子图中筛选出每一节点对应的至少一个目标节点边,并基于目标节点边统计出节点的边分布信息;根据边分布信息,对带权节点关系图中对应的节点进行特征编码,得到节点的节点特征。以此,通过将带权节点关系图分割为至少一个无权节点关系子图,并在无权节点关系子图中统计出节点的边分布信息,进而根据每一无权节点关系子图对应的边分布信息对带权节点关系图中的节点进行特征编码,得到节点的节点特征,从而将节点在带权节点关系图中与其他节点的节点连接关系融入到节点特征中,提高了关系图中节点特征编码的准确性,进而提升了节点特征的编码效率。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该特征编码装置具体集成在计算机设备为例进行说明。其中,该特征编码方法以服务器为执行主体、该带权节点关系图为单重带权节点关系图为例进行具体的描述。
为了更好的描述本申请实施例,请参阅图5,图5为本申请实施例提供的特征编码方法的另一流程示意图。具体流程如下:
在步骤201中,服务器获取带权节点关系图,在该带权节点关系图中识别出该节点的连接属性信息,并基于该连接属性信息,确定该带权节点关系图的分割参数。
其中,服务器该在带权节点关系图中识别出节点的连接属性信息的方式可以有多种,例如,服务器可以对带权节点关系图中的节点以及节点边进行遍历,根据遍历结果可以统计出带权节点关系图中每一节点的连接属性信息。
服务器在带权节点关系图中识别出节点的连接属性信息之后,便可以基于连接属性信息,确定带权节点关系图的分割参数。其中,服务器基于连接属性信息,确定带权节点关系图的分割参数的方式可以有多种,比如,服务器可以根据节点对应的连接属性信息,确定每一节点在该带权节点关系图中的节点连接情况,并可以根据每一节点的节点连接情况来获取该带权节点关系图中每一节点的最长节点边,从而可以基于带权节点关系图中每一节点的最长节点边,确定带权节点关系图的分割参数。其中,该最长节点边可以为以某一节点为根节点在带权节点关系图进行遍历的最长路径,例如,请参考图3,节点关系图中包括节点1、节点2、节点3、节点4以及节点5,以该节点关系图为带权节点关系图为例,假设以该节点1为根节点在节点关系图进行遍历,则可以得到节点1的最长路径为两条节点边,可以为由节点1到节点4或者由节点1到节点5的两条节点边,即节点边ab以及ad,假设以该节点3为根节点在节点关系图进行遍历,则可以得到节点3的最长路径为三条节点边,可以为由节点3到节点4或者由节点3到节点5的三条节点边,即节点边cab以及cad,还可以假设以该节点2为根节点在节点关系图进行遍历,则可以得到节点2的最长路径为两条节点边,可以为由节点2到节点3的两条节点边,即ac等。
其中,服务器基于带权节点关系图中每一节点的最长节点边,确定带权节点关系图的分割参数的方式可以有多种,比如,服务器可以对每一节点的最长节点边进行统计,根据统计结果确定出现次数最多的最长节点边,从而可以根据出现次数最多的最长节点边对应的节点边数量确定为分割参数。例如,请继续参考图3,在图3所示的带权节点关系图中,节点1的最长节点边为两条节点边,节点2的最长节点边为两条节点边,节点3的最长节点边为三条节点边,节点4的最长节点边为三条节点边,节点5的最长节点边为三条节点边,从而可以统计该5个节点的最长节点边,根据统计结果可以确定出现次数最多的最长节点边为3条节点边,因此,服务器可以根据出现次数最多的最长节点边将分割次数确定为3,从而确定带权节点关系图的分割参数。
在一实施例中,服务器可以根据特征编码设备的计算能力以及计算精度来进一步带权节点关系图的分割参数。例如,以该分割参数为分割次数为例,在服务器的计算能力较强时,可以选取较大的分割次数,在服务器的计算能力较弱时,可以选取较小的分割次数,在特征编码的计算精度较高时,可以选取较大的分割次数,以基于高阶的特征来获取更多的节点信息,在特征编码的计算精度较低时,可以选取较小的分割次数。
在步骤202中,服务器在该带权节点关系图中识别每一节点边对应的连接权重的数量,当该节点边中不存在对应至少两个连接权重的节点边时,将该带权节点关系图的关系图类型确定为单重带权节点关系图。
其中,服务器在该带权节点关系图中识别每一节点边对应的连接权重的数量的方式可以有多种,例如,服务器可以对带权节点关系图进行遍历,从而可以根据遍历结果得到每一节点边对应的连接权重的数量。
可选的,当该节点边中存在对应至少两个连接权重的节点边时,服务器可以将该带权节点关系图的关系图类型确定为多重带权节点关系图。
在步骤203中,服务器根据该分割参数确定该单重带权节点关系图的剪枝次数,并获取该单重带权节点关系图对应的剪枝阈值组。
可选的,在剪枝阈值组中,每一剪枝阈值的取值可以处于0到1之间,例如,可以假设剪枝阈值组中包括m个剪枝阈值,分别为T1到Tm,其中,0≤T1≤T2≤…≤Tm≤1。
其中,服务器根据该分割参数确定该单重带权节点关系图的剪枝次数的方式可以有多种,例如,服务器可以在该分割参数中提取出分割次数,并将该分割次数作为剪枝次数。
在步骤204中,当该剪枝次数为一次时,服务器分别将该剪枝阈值组中的至少一个剪枝阈值与该单重带权节点关系图中每一节点边对应的连接权重进行对比,基于该节点边对应的对比结果,对该单重带权节点关系图中的每一节点边进行剪枝,得到剪枝后单重带权节点关系图。
可选的,请参考图4b,在剪枝次数为一次时,可以假设剪枝阈值组中包括m个剪枝阈值,分别为T1、T2、...、Tm,服务器可以采用m个剪枝阈值分别对单重带权节点关系图G进行剪枝,得到m个剪枝阈值对应的m个剪枝后单重带权节点关系图,分别为G1、G2、...、Gm。假设节点j和节点i是G中任意两个节点,则第k个无权节点关系子图Gk中节点i和j的一阶连接情况可表示为
Figure BDA0003659975350000281
其中,Tk表示第k个无权节点关系子图Gk对应的剪枝阈值,Wij表示节点i和j之间的连接权重,若Wij≥Tk,则可以对该连接权重的节点边进行保留,若Wij<Tk,则可以对该连接权重的节点边进行剪枝,
Figure BDA0003659975350000282
等于1表示节点j在无权图Gk中与节点i连接,即j是节点i的一阶邻居节点。
在步骤205中,服务器将该剪枝后单重带权节点关系图中每一节点边对应的连接权重进行删除,得到每一剪枝阈值对应的无权节点关系子图。
其中,服务器通过剪枝阈值组将带权节点关系图中对应至少两个连接权重的节点边进行剪枝,以此可以得到多个节点边无对应连接权重的剪枝后单重带权节点关系图,同时,可以将剪枝后单重带权节点关系图中每一节点边原本对应的连接权重进行删除,得到每一剪枝阈值对应的无权节点关系子图。
在步骤206中,当该剪枝次数为多次时,基于该连接权重和剪枝阈值组,对该单重带权节点关系图进行剪枝,得到剪枝后无权节点关系子图。
当剪枝次数为多次时,服务器可以根据剪枝阈值组中的至少一个剪枝阈值与带权节点关系图中每一节点边对应的连接权重进行对比,根据对比结果对带权节点关系图中进行多次剪枝。
在步骤207中,服务器将该剪枝后无权节点关系子图作为单重带权节点关系图,返回执行该基于该连接权重和剪枝阈值组,对该单重带权节点关系图进行剪枝的步骤,直至达到该剪枝次数,得到至少一个无权节点关系子图。
可选的,请继续参考图4c,在剪枝次数为二次时,服务器可以基于该连接权重和剪枝阈值组(T1、T2、...、Tm),对该单重带权节点关系图G进行剪枝,得到m个剪枝后无权节点关系子图,然后,可以再基于该连接权重和剪枝阈值组,对该m个剪枝后无权节点关系子图进行二次剪枝,得到m×m个无权节点关系子图。其中,需要说明的是,在进行二次剪枝时,所采用的剪枝阈值可以与第一次剪枝时所采用的剪枝阈值相同也可以不同,同时,二次剪枝的剪枝阈值的数量也可以与第一次剪枝的剪枝阈值的数量不同,例如,在第一次剪枝时可以采用剪枝阈值组(T1、T2、...、Tm)进行剪枝,在第二次剪枝时可以采用剪枝阈值组(T1、T2、...、Tp)进行剪枝,以此可以得到m×p个无权节点关系子图。需要说明的是,该剪枝阈值组的具体取值以及数量可以根据实际应用进行选择,在此不做限定。此外,对于剪枝次数为多次的情况,可以基于一次剪枝、二次剪枝的情况进行类推。
在步骤208中,服务器基于该分割参数,在该无权节点关系子图中筛选出每一节点对应的至少一个目标节点边,并在该无权节点关系子图中统计出每一节点对应的目标节点边的目标节点边数量,基于该目标节点边数量,确定该节点在该无权节点关系子图中的边分布信息。
其中,服务器在该无权节点关系子图中统计出每一节点对应的目标节点边的目标节点边数量的方式可以有多种,例如,请继续参考图4b,对于带权节点关系图G,Wij表示G中节点i和j的连接权重,Edge(Wij)表示连接权重为Wij的一阶节点边,对于该节点边阶数为1阶的情况,即该目标节点边为一阶节点边时,节点i的在G中的一阶节点边结构分布可以表示为
Figure BDA0003659975350000301
其中,
Figure BDA0003659975350000302
为节点i的一阶节点边结构分布,可以表示节点i在G中对于一阶的目标节点边的边分布信息,用于表征带权节点关系图G中节点i的一阶节点边的分布情况,然后,可以采用剪枝阈值组(T1、T2、...、Tm)对带权节点关系图进行剪枝,得到m个剪枝后的无权节点关系子图G1,G2,…,Gm。若节点j和节点i是G中任意两个节点,则第k个无权节点关系子图Gk中节点i和j的一阶连接情况可表示为
Figure BDA0003659975350000303
将无权节点关系子图Gk中所有一阶节点边用Edge(Tk)表示,则G中节点i和j的连接情况Edge(Wij)可用G1,G2,…,Gm中的节点边进行表示为
Figure BDA0003659975350000304
其中,
Figure BDA0003659975350000305
可以表示节点i对应的一阶的目标节点边的目标节点边数量,Tk可以为无权节点关系子图Gk对应的剪枝阈值。从而,可以基于该目标节点边数量,确定该节点i在该无权节点关系子图Gk中的边分布信息可以表示为
Figure BDA0003659975350000306
其中,节点i在无权节点关系子图Gk中对应的一阶的目标节点边的目标节点边数量可以表示为
Figure BDA0003659975350000307
相应的,节点i在关系图G中的一阶节点边结构分布可近似表示为公式(2)。
对于该节点边阶数为二阶的情况,即该目标节点边为二阶节点边时,请继续参考图4c,带权节点关系图G中节点的二阶节点边可以由一阶节点边和二阶节点边共同组成,假设节点i的其中一个二阶节点边由连接权重为Wio的一阶节点边和连接权重为Woj的二阶节点边组成,其中,节点o为节点i的一阶邻居节点,节点j为节点o的一阶邻居节点,即节点j为节点i的二阶邻居节点,则可以将该二阶节点边表示为Edge(Wio,Woj),则可以将Edge(Wio,Woj)看成节点i的一阶节点边Edge(Wio)和一阶邻居节点o的一阶边Edge(Woj)进行拼接得到,节点i的二阶节点边可以定义为
Figure BDA0003659975350000315
节点i的二阶节点边结构分布可以表示成
Figure BDA0003659975350000311
代入公式(1)中,可以得到节点i在关系图G中的二阶节点边结构分布
Figure BDA0003659975350000312
可以表示为
Figure BDA0003659975350000313
其中,需要说明的是,在上述公式推导过程中节点的边分布信息是以节点在带权节点关系图G中的边分布信息进行表示,每一节点在每一无权节点关系子图中的边分布信息可以根据节点在带权节点关系图G中的边分布信息进行确定。此外,上述公式推导过程中以一阶节点边以及二阶节点边为例进行推导,相应的,对于n阶的情况可以以此类推进行推导。
在步骤209中,服务器在该边分布信息中提取出该节点在每一该无权节点关系子图中对应的边信息和分布信息,将该边信息作为边特征基底,并基于该边特征基底将该分布信息转换为边分布特征。
在一实施例中,以该节点边阶数为一阶的情况,即该目标节点边为一阶节点边时,可以将公式(2)转换为
Figure BDA0003659975350000314
从而可以在该边分布信息中提取出该节点在每一该无权节点关系子图中对应的边信息Edge(Tk)和分布信息为
Figure BDA0003659975350000321
进而服务器可以将该边信息Edge(Tk)作为边特征基底,并基于该边特征基底将该分布信息转换为边分布特征,可以得到节点i在第k个无权节点关系子图中的一阶节点边的边分布特征可以表示为
Figure BDA0003659975350000322
其中,
Figure BDA0003659975350000323
可以为节点i在每一该无权节点关系子图中对应的一阶节点边的分布的特征信息,即边分布特征。
在步骤210中,服务器将该节点对应的边分布特征进行组合,得到该节点的目标边分布特征,根据该目标边分布特征,确定该节点的节点特征。
其中,节点i在带权节点关系图G中的一阶节点边结构分布可表示为
Figure BDA0003659975350000324
则对于带权节点关系图G,可以以边信息Edge(T1),…,Edge(Tm)作为边特征基底,从而服务器可以将该节点i对应的边分布特征进行组合,得到节点i在G中的一阶节点边的目标边分布特征,节点i在带权节点关系图G中对应的目标边分布特征可以表示为
Figure BDA0003659975350000325
请继续参考图4b,以Edge(T1),…,Edge(Tm)作为边特征基底,带权节点关系图G中节点1的一阶节点边的目标边分布特征最终可以编码成向量(4,3,…,2)。
在将该节点对应的边分布特征进行组合,得到该节点的目标边分布特征之后,便可以根据该目标边分布特征,确定该节点的节点特征。其中,根据该目标边分布特征,确定该节点的节点特征的方式可以有多种,例如,提取出节点自身的行为以及属性的特征,对该特征以及目标边分布特征进行组合,得到节点的节点特征。
由以上可知,本申请实施例通过服务器获取带权节点关系图,在该带权节点关系图中识别出该节点的连接属性信息,并基于该连接属性信息,确定该带权节点关系图的分割参数;服务器在该带权节点关系图中识别每一节点边对应的连接权重的数量,当该节点边中不存在对应至少两个连接权重的节点边时,将该带权节点关系图的关系图类型确定为单重带权节点关系图;服务器根据该分割参数确定该单重带权节点关系图的剪枝次数,并获取该单重带权节点关系图对应的剪枝阈值组;当该剪枝次数为一次时,服务器分别将该剪枝阈值组中的至少一个剪枝阈值与该单重带权节点关系图中每一节点边对应的连接权重进行对比,基于该节点边对应的对比结果,对该单重带权节点关系图中的每一节点边进行剪枝,得到剪枝后单重带权节点关系图;服务器将该剪枝后单重带权节点关系图中每一节点边对应的连接权重进行删除,得到每一剪枝阈值对应的无权节点关系子图;当该剪枝次数为多次时,基于该连接权重和剪枝阈值组,对该单重带权节点关系图进行剪枝,得到剪枝后无权节点关系子图;服务器将该剪枝后无权节点关系子图作为单重带权节点关系图,返回执行该基于该连接权重和剪枝阈值组,对该单重带权节点关系图进行剪枝的步骤,直至达到该剪枝次数,得到至少一个无权节点关系子图;服务器基于该分割参数,在该无权节点关系子图中筛选出每一节点对应的至少一个目标节点边,并在该无权节点关系子图中统计出每一节点对应的目标节点边的目标节点边数量,基于该目标节点边数量,确定该节点在该无权节点关系子图中的边分布信息;服务器在该边分布信息中提取出该节点在每一该无权节点关系子图中对应的边信息和分布信息,将该边信息作为边特征基底,并基于该边特征基底将该分布信息转换为边分布特征;服务器将该节点对应的边分布特征进行组合,得到该节点的目标边分布特征,根据该目标边分布特征,确定该节点的节点特征。以此,可以根据剪枝阈值组中多个剪枝阈值对带权节点关系图进行剪枝,得到多个无权节点关系子图,从而可以统计每一节点在无权节点关系子图中的目标节点边的分布情况,进而可以根据每一节点在无权节点关系子图中的目标节点边的分布情况,来准确模拟每一节点在带权节点关系图中的节点连接关系和边分布信息,从而可以基于该目标边分布特征将节点在带权节点关系图中的节点连接关系、节点边以及对应的连接权重的分布信息融入到节点的特征编码中,以此来确定每一节点的节点特征,提高了带权节点关系图中每一节点的节点特征编码的准确性,此外,本申请实施例提供的特征编码方法便于扩展到基于多阶节点边的节点特征编码,减少特征编码过程中节点的信息损耗,且计算复杂度较低,进一步提升了节点特征的编码效率。
为了更好地实施以上方法,本发明实施例还提供一种特征编码装置,该特征编码装置可以集成在计算机设备中,该计算机设备可以为服务器。
例如,如图6所示,为本申请实施例提供的特征编码装置的结构示意图,该特征编码装置可以包括样本获取单元301、确定单元302、分割单元303、筛选单元304和编码单元305,如下:
获取单元301,用于获取带权节点关系图,该带权节点关系图中包括至少两个节点、连接该节点的至少一条节点边和该节点边对应的连接权重;
确定单元302,用于在该带权节点关系图中识别出该节点的连接属性信息,并基于该连接属性信息,确定该带权节点关系图的分割参数;
分割单元303,用于根据该连接权重和分割参数,对该带权节点关系图进行分割,得到至少一个无权节点关系子图,该无权节点关系子图为无连接权重的节点关系子图;
筛选单元304,用于基于该分割参数,在该无权节点关系子图中筛选出每一节点对应的至少一个目标节点边,并基于该目标节点边统计出该节点的边分布信息;
编码单元305,用于根据该边分布信息,对该带权节点关系图中对应的节点进行特征编码,得到该节点的节点特征。
在一实施例中,该分割单元303,包括:
关系图类型确定子单元,用于根据该节点边对应的连接权重,确定该带权节点关系图的关系图类型;
多重分割子单元,用于当该关系图类型为多重带权节点关系图时,将该多重带权节点关系图进行拆分,得到至少两个单重带权节点关系图,并根据该连接权重和分割参数,对该单重带权节点关系图进行分割,得到至少一个无权节点关系子图,该单重带权节点关系图中每一节点边对应一个连接权重;
单重分割子单元,用于当该关系图类型为单重带权节点关系图时,根据该连接权重和分割参数,对该单重带权节点关系图进行分割,得到至少一个无权节点关系子图。
在一实施例中,该关系图类型确定子单元,包括:
权重数量识别模块,用于在该带权节点关系图中识别每一节点边对应的连接权重的数量;
多重带权节点关系图确定模块,用于当该节点边中存在对应至少两个连接权重的节点边时,将该带权节点关系图的关系图类型确定为多重带权节点关系图;
单重带权节点关系图确定模块,用于当该节点边中不存在对应至少两个连接权重的节点边时,将该带权节点关系图的关系图类型确定为单重带权节点关系图。
在一实施例中,该多重分割子单元和单重分割子单元,包括:
剪枝次数确定模块,用于根据该分割参数确定该单重带权节点关系图的剪枝次数,并获取该单重带权节点关系图对应的剪枝阈值组,该剪枝阈值组中包括至少一个剪枝阈值;
分割模块,用于基于该剪枝次数、连接权重以及剪枝阈值组,对该单重带权节点关系图进行分割,得到至少一个无权节点关系子图。
在一实施例中,该分割模块,用于:
第一剪枝子模块,用于当该剪枝次数为一次时,基于该连接权重和剪枝阈值组,对该单重带权节点关系图进行剪枝,得到每一剪枝阈值对应的无权节点关系子图;
第二剪枝子模块,用于当该剪枝次数为多次时,基于该连接权重和剪枝阈值组,对该单重带权节点关系图进行剪枝,得到剪枝后无权节点关系子图,并将该剪枝后无权节点关系子图作为单重带权节点关系图,返回执行该基于该连接权重和剪枝阈值组,对该单重带权节点关系图进行剪枝的步骤,直至达到该剪枝次数,得到至少一个无权节点关系子图。
在一实施例中,该第一剪枝子模块,用于:
分别将该剪枝阈值组中的至少一个剪枝阈值与该单重带权节点关系图中每一节点边对应的连接权重进行对比;
基于该节点边对应的对比结果,对该单重带权节点关系图中的每一节点边进行剪枝,得到剪枝后单重带权节点关系图;
将该剪枝后单重带权节点关系图中每一节点边对应的连接权重进行删除,得到每一剪枝阈值对应的无权节点关系子图。
在一实施例中,该第一剪枝子模块,具体可以用于:
当该节点边对应的连接权重小于该剪枝阈值时,在该单重带权节点关系图中对该节点边进行删除,得到删除后节点边;
当该节点边对应的连接权重不小于该剪枝阈值时,在该单重带权节点关系图中对该节点边进行保留,得到保留后节点边;
基于该删除后节点边和保留后节点边,确定每一剪枝阈值对应的剪枝后单重带权节点关系图。
在一实施例中,该编码单元305,包括:
第一特征编码子单元,用于当该带权节点关系图为单重带权节点关系图时,根据该边分布信息,对该带权节点关系图中对应的节点进行特征编码,得到该节点的节点特征;
第二特征编码子单元,用于当该带权节点关系图为多重带权节点关系图时,根据该边分布信息,对该带权节点关系图的至少两个单重带权节点关系图中对应的节点进行特征编码,得到该节点在对应的单重带权节点关系图中的单重节点特征,并将该单重节点特征进行拼接,得到该节点在该带权节点关系图中对应的节点特征。
在一实施例中,该第一特征编码子单元,包括:
边分布特征提取模块,用于在该边分布信息中提取出该节点在每一该无权节点关系子图中对应的边分布特征;
组合模块,用于将该节点对应的边分布特征进行组合,得到该节点的目标边分布特征;
节点特征确定模块,用于根据该目标边分布特征,确定该节点的节点特征。
在一实施例中,该边分布特征提取模块,包括:
提取子模块,用于在该边分布信息中提取出该节点在每一该无权节点关系子图中对应的边信息和分布信息;
转换子模块,用于将该边信息作为边特征基底,并基于该边特征基底将该分布信息转换为边分布特征。
在一实施例中,该筛选单元304,包括:
节点边阶数确定子单元,用于基于该分割参数,确定每一节点对应的节点边阶数;
遍历子单元,用于对该无权节点关系子图中每一节点进行遍历,得到每一节点对应的节点边之间的连接顺序;
拼接子单元,用于在该无权节点关系子图中筛选出每一节点中与该节点边阶数对应的待拼接节点边,并根据该连接顺序,对该待拼接节点边进行拼接,得到每一节点对应的至少一个目标节点边。
在一实施例中,该筛选单元304,包括:
统计子单元,用于在该无权节点关系子图中统计出每一节点对应的目标节点边的目标节点边数量;
边分布信息确定子单元,用于基于该目标节点边数量,确定该节点在该无权节点关系子图中的边分布信息。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由以上可知,本申请实施例通过获取单元301获取带权节点关系图,该带权节点关系图中包括至少两个节点、连接节点的至少一条节点边和节点边对应的连接权重;确定单元302在带权节点关系图中识别出节点的连接属性信息,并基于连接属性信息,确定带权节点关系图的分割参数;分割单元303根据连接权重和分割参数,对带权节点关系图进行分割,得到至少一个无权节点关系子图,该无权节点关系子图为无连接权重的节点关系子图;筛选单元304基于分割参数,在无权节点关系子图中筛选出每一节点对应的至少一个目标节点边,并基于目标节点边统计出节点的边分布信息;编码单元305根据边分布信息,对带权节点关系图中对应的节点进行特征编码,得到节点的节点特征。以此,通过将带权节点关系图分割为至少一个无权节点关系子图,并在无权节点关系子图中统计出节点的边分布信息,进而根据每一无权节点关系子图对应的边分布信息对带权节点关系图中的节点进行特征编码,得到节点的节点特征,从而将节点在带权节点关系图中与其他节点的节点连接关系融入到节点特征中,提高了关系图中节点特征编码的准确性,进而提升了节点特征的编码效率。
本申请实施例还提供一种计算机设备,如图7所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,该计算机设备可以是服务器,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图7中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及特征编码。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取带权节点关系图,该带权节点关系图中包括至少两个节点、连接节点的至少一条节点边和节点边对应的连接权重;在带权节点关系图中识别出节点的连接属性信息,并基于连接属性信息,确定带权节点关系图的分割参数;根据连接权重和分割参数,对带权节点关系图进行分割,得到至少一个无权节点关系子图,该无权节点关系子图为无连接权重的节点关系子图;基于分割参数,在无权节点关系子图中筛选出每一节点对应的至少一个目标节点边,并基于目标节点边统计出节点的边分布信息;根据边分布信息,对带权节点关系图中对应的节点进行特征编码,得到节点的节点特征。
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。应当说明的是,本申请实施例提供的计算机设备与上文实施例中的适用于特征编码方法属于同一构思,其具体实现过程详见以上方法实施例,此处不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种特征编码方法中的步骤。例如,该指令可以执行如下步骤:
获取带权节点关系图,该带权节点关系图中包括至少两个节点、连接节点的至少一条节点边和节点边对应的连接权重;在带权节点关系图中识别出节点的连接属性信息,并基于连接属性信息,确定带权节点关系图的分割参数;根据连接权重和分割参数,对带权节点关系图进行分割,得到至少一个无权节点关系子图,该无权节点关系子图为无连接权重的节点关系子图;基于分割参数,在无权节点关系子图中筛选出每一节点对应的至少一个目标节点边,并基于目标节点边统计出节点的边分布信息;根据边分布信息,对带权节点关系图中对应的节点进行特征编码,得到节点的节点特征。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种特征编码方法中的步骤,因此,可以实现本申请实施例所提供的任一种特征编码方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。
以上对本申请实施例所提供的一种特征编码方法、装置和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (16)

1.一种特征编码方法,其特征在于,包括:
获取带权节点关系图,所述带权节点关系图中包括至少两个节点、连接所述节点的至少一条节点边和所述节点边对应的连接权重;
在所述带权节点关系图中识别出所述节点的连接属性信息,并基于所述连接属性信息,确定所述带权节点关系图的分割参数;
根据所述连接权重和分割参数,对所述带权节点关系图进行分割,得到至少一个无权节点关系子图,所述无权节点关系子图为无连接权重的节点关系子图;
基于所述分割参数,在所述无权节点关系子图中筛选出每一节点对应的至少一个目标节点边,并基于所述目标节点边统计出所述节点的边分布信息;
根据所述边分布信息,对所述带权节点关系图中对应的节点进行特征编码,得到所述节点的节点特征。
2.如权利要求1所述的特征编码方法,其特征在于,所述根据所述连接权重和分割参数,对所述带权节点关系图进行分割,得到至少一个无权节点关系子图,包括:
根据所述节点边对应的连接权重,确定所述带权节点关系图的关系图类型;
当所述关系图类型为多重带权节点关系图时,将所述多重带权节点关系图进行拆分,得到至少两个单重带权节点关系图,并根据所述连接权重和分割参数,对所述单重带权节点关系图进行分割,得到至少一个无权节点关系子图,所述单重带权节点关系图中每一节点边对应一个连接权重;
当所述关系图类型为单重带权节点关系图时,根据所述连接权重和分割参数,对所述单重带权节点关系图进行分割,得到至少一个无权节点关系子图。
3.如权利要求2所述的特征编码方法,其特征在于,所述根据所述节点边对应的连接权重,确定所述带权节点关系图的关系图类型,包括:
在所述带权节点关系图中识别每一节点边对应的连接权重的数量;
当所述节点边中存在对应至少两个连接权重的节点边时,将所述带权节点关系图的关系图类型确定为多重带权节点关系图;
当所述节点边中不存在对应至少两个连接权重的节点边时,将所述带权节点关系图的关系图类型确定为单重带权节点关系图。
4.如权利要求2所述的特征编码方法,其特征在于,所述根据所述连接权重和分割参数,对所述单重带权节点关系图进行分割,得到至少一个无权节点关系子图,包括:
根据所述分割参数确定所述单重带权节点关系图的剪枝次数,并获取所述单重带权节点关系图对应的剪枝阈值组,所述剪枝阈值组中包括至少一个剪枝阈值;
基于所述剪枝次数、连接权重以及剪枝阈值组,对所述单重带权节点关系图进行分割,得到至少一个无权节点关系子图。
5.如权利要求4所述的特征编码方法,其特征在于,所述基于所述剪枝次数、连接权重以及剪枝阈值组,对所述单重带权节点关系图进行分割,得到至少一个无权节点关系子图,包括:
当所述剪枝次数为一次时,基于所述连接权重和剪枝阈值组,对所述单重带权节点关系图进行剪枝,得到每一剪枝阈值对应的无权节点关系子图;
当所述剪枝次数为多次时,基于所述连接权重和剪枝阈值组,对所述单重带权节点关系图进行剪枝,得到剪枝后无权节点关系子图,并将所述剪枝后无权节点关系子图作为单重带权节点关系图,返回执行所述基于所述连接权重和剪枝阈值组,对所述单重带权节点关系图进行剪枝的步骤,直至达到所述剪枝次数,得到至少一个无权节点关系子图。
6.如权利要求5所述的特征编码方法,其特征在于,所述基于所述连接权重和剪枝阈值组,对所述单重带权节点关系图进行剪枝,得到每一剪枝阈值对应的无权节点关系子图,包括:
分别将所述剪枝阈值组中的至少一个剪枝阈值与所述单重带权节点关系图中每一节点边对应的连接权重进行对比;
基于所述节点边对应的对比结果,对所述单重带权节点关系图中的每一节点边进行剪枝,得到剪枝后单重带权节点关系图;
将所述剪枝后单重带权节点关系图中每一节点边对应的连接权重进行删除,得到每一剪枝阈值对应的无权节点关系子图。
7.如权利要求6所述的特征编码方法,其特征在于,所述基于所述节点边对应的对比结果,对所述单重带权节点关系图中的每一节点边进行剪枝,得到剪枝后单重带权节点关系图,包括:
当所述节点边对应的连接权重小于所述剪枝阈值时,在所述单重带权节点关系图中对所述节点边进行删除,得到删除后节点边;
当所述节点边对应的连接权重不小于所述剪枝阈值时,在所述单重带权节点关系图中对所述节点边进行保留,得到保留后节点边;
基于所述删除后节点边和保留后节点边,确定每一剪枝阈值对应的剪枝后单重带权节点关系图。
8.如权利要求2所述的特征编码方法,其特征在于,所述根据所述边分布信息,对所述带权节点关系图中对应的节点进行特征编码,得到所述节点的节点特征,包括:
当所述带权节点关系图为单重带权节点关系图时,根据所述边分布信息,对所述带权节点关系图中对应的节点进行特征编码,得到所述节点的节点特征;
当所述带权节点关系图为多重带权节点关系图时,根据所述边分布信息,对所述带权节点关系图的至少两个单重带权节点关系图中对应的节点进行特征编码,得到所述节点在对应的单重带权节点关系图中的单重节点特征,并将所述单重节点特征进行拼接,得到所述节点在所述带权节点关系图中对应的节点特征。
9.如权利要求8所述的特征编码方法,其特征在于,所述根据所述边分布信息,对所述带权节点关系图中对应的节点进行特征编码,得到所述节点的节点特征,包括:
在所述边分布信息中提取出所述节点在每一所述无权节点关系子图中对应的边分布特征;
将所述节点对应的边分布特征进行组合,得到所述节点的目标边分布特征;
根据所述目标边分布特征,确定所述节点的节点特征。
10.如权利要求9所述的特征编码方法,其特征在于,所述在所述边分布信息中提取出所述节点在每一所述无权节点关系子图中对应的边分布特征,包括:
在所述边分布信息中提取出所述节点在每一所述无权节点关系子图中对应的边信息和分布信息;
将所述边信息作为边特征基底,并基于所述边特征基底将所述分布信息转换为边分布特征。
11.如权利要求1所述的特征编码方法,其特征在于,所述基于所述分割参数,在所述无权节点关系子图中筛选出每一节点对应的至少一个目标节点边,包括:
基于所述分割参数,确定每一节点对应的节点边阶数;
对所述无权节点关系子图中每一节点进行遍历,得到每一节点对应的节点边之间的连接顺序;
在所述无权节点关系子图中筛选出每一节点中与所述节点边阶数对应的待拼接节点边,并根据所述连接顺序,对所述待拼接节点边进行拼接,得到每一节点对应的至少一个目标节点边。
12.如权利要求1所述的特征编码方法,其特征在于,所述基于所述目标节点边统计出所述节点的边分布信息,包括:
在所述无权节点关系子图中统计出每一节点对应的目标节点边的目标节点边数量;
基于所述目标节点边数量,确定所述节点在所述无权节点关系子图中的边分布信息。
13.一种特征编码装置,其特征在于,包括:
获取单元,用于获取带权节点关系图,所述带权节点关系图中包括至少两个节点、连接所述节点的至少一条节点边和所述节点边对应的连接权重;
确定单元,用于在所述带权节点关系图中识别出所述节点的连接属性信息,并基于所述连接属性信息,确定所述带权节点关系图的分割参数;
分割单元,用于根据所述连接权重和分割参数,对所述带权节点关系图进行分割,得到至少一个无权节点关系子图,所述无权节点关系子图为无连接权重的节点关系子图;
筛选单元,用于基于所述分割参数,在所述无权节点关系子图中筛选出每一节点对应的至少一个目标节点边,并基于所述目标节点边统计出所述节点的边分布信息;
编码单元,用于根据所述边分布信息,对所述带权节点关系图中对应的节点进行特征编码,得到所述节点的节点特征。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至12任一项所述的特征编码方法中的步骤。
15.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的特征编码方法。
16.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现权利要求1至12任一项所述的特征编码方法中的步骤。
CN202210573970.5A 2022-05-24 2022-05-24 特征编码方法、装置和计算机可读存储介质 Pending CN115114486A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210573970.5A CN115114486A (zh) 2022-05-24 2022-05-24 特征编码方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210573970.5A CN115114486A (zh) 2022-05-24 2022-05-24 特征编码方法、装置和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN115114486A true CN115114486A (zh) 2022-09-27

Family

ID=83325945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210573970.5A Pending CN115114486A (zh) 2022-05-24 2022-05-24 特征编码方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN115114486A (zh)

Similar Documents

Publication Publication Date Title
CN111178380B (zh) 数据分类方法、装置及电子设备
CN107240029B (zh) 一种数据处理方法及装置
CN112566093B (zh) 一种终端关系识别方法、装置、计算机设备及存储介质
CN105335368B (zh) 一种产品聚类方法及装置
CN113761359B (zh) 数据包推荐方法、装置、电子设备和存储介质
CN115965058B (zh) 神经网络训练方法、实体信息分类方法、装置及存储介质
CN110096605B (zh) 图像处理方法及装置、电子设备、存储介质
CN114239683A (zh) 一种面向电力系统的数据融合处理方法、系统及设备
CN113746780B (zh) 基于主机画像的异常主机检测方法、装置、介质和设备
CN113988148A (zh) 一种数据聚类的方法、系统、计算机设备和存储介质
CN113572721A (zh) 一种异常访问检测方法、装置、电子设备及存储介质
CN115114486A (zh) 特征编码方法、装置和计算机可读存储介质
CN116522131A (zh) 对象表示方法、装置、电子设备及计算机可读存储介质
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
CN114462582A (zh) 基于卷积神经网络模型的数据处理方法及装置、设备
CN114449342A (zh) 视频推荐方法、装置、计算机可读存储介质和计算机设备
CN115982634A (zh) 应用程序分类方法、装置、电子设备及计算机程序产品
CN114356712A (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
CN115774797A (zh) 视频内容检索方法、装置、设备和计算机可读存储介质
CN113204714A (zh) 一种基于用户画像的任务推荐方法、装置、存储介质及终端
CN112905987B (zh) 账号识别方法、装置、服务器及存储介质
CN113657353B (zh) 公式识别方法、装置、电子设备及存储介质
CN111178375B (zh) 用于生成信息的方法和装置
CN116486315A (zh) 集群获取方法、装置、电子设备和计算机可读存储介质
CN113536806B (zh) 一种文本分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination