CN111325258A - 特征信息获取方法、装置、设备及存储介质 - Google Patents
特征信息获取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111325258A CN111325258A CN202010092424.0A CN202010092424A CN111325258A CN 111325258 A CN111325258 A CN 111325258A CN 202010092424 A CN202010092424 A CN 202010092424A CN 111325258 A CN111325258 A CN 111325258A
- Authority
- CN
- China
- Prior art keywords
- object node
- feature information
- node
- information
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 109
- 239000000203 mixture Substances 0.000 claims abstract description 190
- 230000004927 fusion Effects 0.000 claims description 114
- 238000000605 extraction Methods 0.000 claims description 108
- 230000015654 memory Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 19
- 238000001914 filtration Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 description 15
- 238000012549 training Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 13
- 238000013473 artificial intelligence Methods 0.000 description 12
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 9
- 230000002159 abnormal effect Effects 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 238000005295 random walk Methods 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 5
- 230000004913 activation Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000013058 risk prediction model Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 239000004956 Amodel Substances 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000000059 patterning Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000001276 Kolmogorov–Smirnov test Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种特征信息获取方法、装置、设备及存储介质,属于计算机技术领域。该方法包括:获取异构图,根据异构图,获取至少两个同构图,获取至少两个同构图的特征信息,对至少两个同构图的特征信息进行融合,得到融合特征信息,从融合特征信息中,获取目标对象节点的特征信息。该方法根据异构图,获取目标对象节点的特征信息,不仅考虑了目标对象节点的数据,还考虑了异构图中其他对象节点的数据,可以获取目标对象节点更多的特征信息,提高了信息的全面性,进而提高了获取的特征信息的准确率。
Description
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种特征信息获取方法、装置、设备及存储介质。
背景技术
随着计算机技术的发展,在风险评估、信息推荐、自然语言处理等领域均会及到对象的识别。例如,识别用户标识是否为风险用户标识,或者识别用户标识感兴趣的商品等。而获取对象的特征信息是识别对象的关键步骤,如何准确获取对象的特征信息成为亟待解决的问题。
相关技术中,可以获取对象的属性数据,根据该对象的属性数据,获取该对象的特征信息。由于仅根据对象的属性数据获取特征信息,依据的数据较为片面,导致获取的特征信息的准确率较低。
发明内容
本申请实施例提供了一种特征信息获取方法、装置、设备及存储介质,提高获取的特征信息的准确率。所述技术方案如下:
一方面,提供了一种特征信息获取方法,所述方法包括:
获取异构图,所述异构图包括至少两个对象节点及至少一个数据节点,其中任一对象节点与任一数据节点连接表示所述任一对象节点所属的对象与所述任一数据节点所属的数据关联;
根据所述异构图,获取至少两个同构图,每个同构图包括至少两个对象节点,其中任两个对象节点连接表示所述异构图中所述任两个对象节点所属的对象与同一数据节点所属的数据关联;
获取所述至少两个同构图的特征信息,对所述至少两个同构图的特征信息进行融合,得到融合特征信息;
从所述融合特征信息中,获取目标对象节点的特征信息。
可选地,目标对象为目标用户标识,所述从所述融合特征信息中,获取目标对象节点的特征信息之后,所述方法还包括:
根据所述特征信息,获取所述目标用户标识对应的风险系数;
响应于所述风险系数大于预设风险系数,确定所述目标用户标识为风险用户标识;或者,
响应于所述风险系数不大于所述预设风险系数,确定所述目标用户标识为非风险用户标识。
可选地,所述基于特征提取模型对所述至少两个同构图进行特征提取,得到所述至少两个同构图的特征信息之前,所述方法还包括:
获取至少两个样本同构图,及所述至少两个样本同构图的样本特征信息;
根据所述至少两个样本同构图及所述至少两个样本同构图的样本特征信息,训练所述特征提取模型。
可选地,所述基于特征融合模型对所述至少两个同构图的特征信息进行融合,得到所述融合特征信息之前,所述方法还包括:
获取至少两个样本同构图的样本特征信息,及所述至少两个样本同构图对应的样本融合特征信息;
根据所述至少两个样本同构图的样本特征信息及所述样本融合特征信息,训练所述特征融合模型。
另一方面,提供了一种特征信息获取装置,所述装置包括:
异构图获取模块,用于获取异构图,所述异构图包括至少两个对象节点及至少一个数据节点,其中任一对象节点与任一数据节点连接表示所述任一对象节点所属的对象与所述任一数据节点所属的数据关联;
同构图获取模块,用于根据所述异构图,获取至少两个同构图,每个同构图包括至少两个对象节点,其中任两个对象节点连接表示所述异构图中所述任两个对象节点所属的对象与同一数据节点所属的数据关联;
融合特征获取模块,用于获取所述至少两个同构图的特征信息,对所述至少两个同构图的特征信息进行融合,得到融合特征信息;
节点特征获取模块,用于从所述融合特征信息中,获取目标对象节点的特征信息。
可选地,所述至少一个数据节点中包括至少两个类型的数据节点,所述同构图获取模块,还用于按照所述异构图中每个数据节点的类型,将所述异构图中与属于每个类型的同一数据节点连接的任两个对象节点连接,构成与所述每个类型分别对应的至少两个同构图。
可选地,所述同构图获取模块,包括:
一级同构图获取单元,用于根据所述异构图,获取至少两个一级同构图,每个一级同构图包括至少两个对象节点,其中任两个对象节点连接表示所述异构图中所述任两个对象节点所属的对象与同一数据节点所属的数据关联;
二级同构图获取单元,用于将任一个或多个一级同构图拆分为至少两个二级同构图,其中,不同的二级同构图包括的对象节点不同。
可选地,所述融合特征获取模块,包括:
特征提取单元,用于基于特征提取模型对所述至少两个同构图进行特征提取,得到所述至少两个同构图的特征信息。
可选地,所述特征提取模型包括多个网络层,所述多个网络层包括一个输入层和至少两个特征提取层,所述特征提取单元,还用于:
对于任一同构图中的任一目标对象节点,在所述输入层中,根据所述目标对象节点的属性信息及所述目标对象节点的邻居对象节点的属性信息,确定所述目标对象节点的特征信息及所述邻居对象节点的特征信息,输出至下一网络层中;
在任一特征提取层中,将上一网络层输出的所述目标对象节点的特征信息及所述邻居对象节点的特征信息进行融合,将融合得到的特征信息作为所述目标对象节点更新后的特征信息,输出至下一网络层中,直至获取到最后一个网络层输出的所述目标对象节点的特征信息。
可选地,所述特征提取单元,还用于:
根据所述目标对象节点的特征信息及所述邻居对象节点的特征信息,确定所述目标对象节点和所述邻居对象节点之间的关联度,所述关联度用于表示所述目标对象节点所属的目标对象与所述邻居对象节点所属的对象之间的相关程度;
根据所述关联度,对所述目标对象节点的特征信息及所述邻居对象节点的特征信息进行融合,得到所述目标对象节点更新后的特征信息。
可选地,所述特征提取单元,还用于:
在所述下一网络层中,根据所述目标对象节点的特征信息及所述邻居对象节点的特征信息,确定所述邻居对象节点对所述目标对象节点的影响系数;
根据所述影响系数对所述邻居对象节点进行过滤处理。
可选地,所述特征提取单元,还用于:
根据所述邻居对象节点的第一特征信息,及所述目标对象节点和所述邻居对象节点之间的关联度,确定所述邻居对象节点的第二特征信息;
根据所述目标对象节点的特征信息及所述邻居对象节点的第二特征信息,确定所述邻居对象节点对所述目标对象节点的影响系数。
可选地,所述特征提取单元,还用于:
响应于所述影响系数大于预设影响系数,保留所述邻居对象节点的特征信息;或者,
响应于所述影响系数不大于所述预设影响系数,过滤所述邻居对象节点的特征信息。
可选地,所述特征提取单元,还用于在所述任一特征提取层中,将所述上一网络层输出的所述目标对象节点的特征信息,及进行过滤处理之后剩余的邻居对象节点的特征信息进行融合,将融合得到的特征信息作为所述目标对象节点更新后的特征信息。
可选地,所述融合特征获取模块,包括:
特征融合单元,用于基于特征融合模型对所述至少两个同构图的特征信息进行融合,得到所述融合特征信息。
可选地,所述特征融合单元,还用于:
在所述加权层中,获取所述至少两个同构图的权值;
在所述融合层中,根据所述至少两个同构图的权值,对所述至少两个同构图的特征信息进行加权融合,得到所述融合特征信息。
可选地,目标对象为目标用户标识,所述装置还包括:
风险系数获取模块,用于根据所述特征信息,获取所述目标用户标识对应的风险系数;
识别模块,用于响应于所述风险系数大于预设风险系数,确定所述目标用户标识为风险用户标识;或者,
所述识别模块,还用于响应于所述风险系数不大于所述预设风险系数,确定所述目标用户标识为非风险用户标识。
可选地,所述装置还包括:
第一样本获取模块,用于获取至少两个样本同构图,及所述至少两个样本同构图的样本特征信息;
第一模型训练模块,用于根据所述至少两个样本同构图及所述至少两个样本同构图的样本特征信息,训练所述特征提取模型。
可选地,所述装置还包括:
第二样本获取模块,用于获取至少两个样本同构图的样本特征信息,及所述至少两个样本同构图对应的样本融合特征信息;
第二模型训练模块,用于根据所述至少两个样本同构图的样本特征信息及所述样本融合特征信息,训练所述特征融合模型。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如所述特征信息获取方法中所执行的操作。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如所述特征信息获取方法中所执行的操作。
本申请实施例提供的方法、装置、设备及存储介质,获取异构图,根据异构图,获取至少两个同构图,获取至少两个同构图的特征信息,对至少两个同构图的特征信息进行融合,得到融合特征信息,从融合特征信息中,获取目标对象节点的特征信息。该方法根据异构图,获取目标对象节点的特征信息,不仅考虑了目标对象节点的数据,还考虑了异构图中其他对象节点的数据,可以获取目标对象节点更多的特征信息,提高了获取的特征信息的准确率。
并且,基于特征提取模型对至少两个同构图进行特征提取,得到至少两个同构图的特征信息时,特征提取模型考虑了每个网络层中邻居对象节点对目标对象节点的影响,还考虑了不同的网络层之间邻居对象节点对目标对象节点的影响,从而使得到的同构图的特征信息更加准确。
并且,基于特征融合模型对至少两个同构图的特征信息进行融合,得到融合特征信息,将不同的同构图的特征信息进行融合,考虑了不同类型的数据对特征信息的影响,进一步提高了特征信息的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种特征信息获取方法的流程图。
图2是本申请实施例提供的一种特征提取模型的框图。
图3是本申请实施例提供的一种识别用户标识的示意图。
图4是本申请实施例提供的另一种识别用户标识的示意图。
图5是本申请实施例提供的一种KS曲线的示意图。
图6是本申请实施例提供的一种特征信息获取装置的结构示意图。
图7是本申请实施例提供的另一种特征信息获取装置的结构示意图。
图8是本申请实施例提供的一种终端的结构示意图。
图9是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念,但除非特别说明,这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说,在不脱离本申请的范围的情况下,可以将第一特征信息称为第二特征信息,将第二特征信息称为第一特征信息。
本申请所使用的术语“每个”、“多个”、“至少一个”、“至少两个”等,多个包括两个或两个以上,每个是指对应的多个中的每一个,至少一个包括一个、两个或两个以上、至少两个包括两个或两个以上。举例来说,多个一级同构图包括20个一级同构图,而每个同构图是指这20个一级同构图中的每一个一级同构图。
为了便于理解本申请实施例提供的特征信息获取方法,对涉及到的关键词进行解释:
图(Graph):图是由顶点的有穷非空集合和顶点之间边的集合组成,通常表示为:G(V,E),其中,G表示一个图,V是图G中顶点的集合,E是图G中边的集合。根据边的权值,图可以进一步分类为加权图和无权图,当图中的边有权值时,即图中的边有意义时,图为加权图;当图中的边没有权值时,即图中的边没有意义时,图为无权图。
同构图:图中仅有一种类型的节点,且每个节点之间是根据同一数据关系进行连接的,即图中的边仅有一种意义。例如,对于同构图G(V,E),该同构图中包括用户这一种类型的节点,即V={用户},同构图中的边表示两个用户是好友,即E={用户_好友_用户}。
异构图:图中包含有至少两种类型的节点及至少两种类型的边,即图中的边有至少两种意义。例如,对于异构图G(V,E),该异构图中包括演员及电影两种类型的节点,即V={演员,电影},异构图中的边可以表示演员主演了电影,或者演员投资了电影等,即E={演员_主演_电影,演员_投资_电影}。
图嵌入(Graph Embedding):图嵌入用于将图中的每个节点表示为低维空间的一个稠密向量,将得到的该稠密向量作为节点的特征信息。图嵌入的核心思想是保留图结构的内在结构属性,即在向量空间中保持图中连接的节点彼此靠近。图嵌入的方法可分类为基于因子分解的方法,基于随机游走的方法,以及基于深度学习的方法等。
图卷积(Graph Convolution Network):基于深度学习的图嵌入方法即为图卷积,图卷积是深度卷积网络在图数据上进行深度学习的方法。
GRU(Gate Recurrent Unit,循环卷积网络):GRU门控机制是循环神经网络中用于控制输入、记忆等信息在当前时间做出预测的一种机制,不仅可以记忆过去的信息,同时可以对信息进行筛选,可选择性地忘记一些不重要的信息。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
本申请实施例提供的特征信息获取方法,可以针对某一对象,利用人工智能技术获取该对象的特征信息,以便根据该特征信息对该对象进行各种各样的处理。
本申请实施例提供的特征信息获取方法,可以应用于多种场景下:
例如,应用于金融风控场景下。在金融领域往往存在着风险用户,这些风险用户可能会伪造自己的属性信息来获得贷款或者进行欺诈行为,而采用本申请实施例提供的特征信息获取方法,获取用户的特征信息,再根据该特征信息识别该用户是否是风险用户,可以提高识别准确率,有效防止欺诈行为的发生。
例如,应用于商品推荐场景下。采用本申请实施例提供的特征信息获取方法,获取用户的特征信息,根据该用户的特征信息,识别该用户感兴趣的商品,从而为该用户推荐商品,可以提高推荐商品的准确率。
例如,应用于自然语言处理场景下。一篇较为复杂的文章中出现多个人物时,采用本申请实施例提供的特征信息获取方法,对文章进行处理,获取该多个人物的特征信息,从而根据每个人物的特征信息,快速了解该文章的内容。
图1是本申请实施例提供的一种特征信息获取方法的流程图。本申请实施例的执行主体为计算机设备,计算机设备可以为终端,该终端可以为便携式、袖珍式、手持式等多种类型的终端,如手机、计算机、平板电脑等。或者,计算机设备也可以为服务器,该服务器可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。参见图1,该方法包括:
101、计算机设备获取异构图。
其中,该异构图包括至少两个对象节点及至少一个数据节点,该异构图中任一对象节点与任一数据节点连接表示任一对象节点所属的对象与任一数据节点所属的数据关联。
本申请实施例中,可以根据至少两个对象之间的关系,获取任一个或多个对象的特征信息。为此,可以收集至少两个对象的数据。其中,对象可以是用户标识,则对象的数据可以包括年龄、历史消费记录等用户数据,或者对象可以是文章中的姓名,则对象的数据可以包括文章中与姓名相关的事件等内容。
则根据该至少两个对象的数据,将每个对象转换为一个对象节点,将每个数据转换为一个数据节点,作为对象节点对应的数据节点,并根据对象与数据之间的联系,将对象节点与数据节点进行连接,构成异构图。
其中,数据节点中可以包括任一类型的数据。例如,对象节点为用户标识节点时,与该对象节点连接的数据节点中可以包括该用户标识对应的年龄、性别、历史消费记录、历史播放数据等数据。
102、计算机设备根据异构图,获取至少两个同构图。
其中,每个同构图包括至少两个对象节点,任两个对象节点连接表示异构图中任两个对象节点所属的对象与同一数据节点所属的数据关联。
本申请实施例中,计算机设备根据异构图,获取该异构图对应的至少两个同构图,对同构图进行处理,从而获取特征信息。
在一种可能实现方式中,计算机设备根据异构图,获取至少两个同构图包括:计算机设备按照异构图中每个数据节点的类型,将异构图中与属于每个类型的同一数据节点连接的任两个对象节点连接,构成与每个类型分别对应的至少两个同构图。即计算机设备对异构图进行拆分,得到至少两个同构图。
其中,异构图中的数据节点包括多个类型,将异构图中与同一类型的数据节点连接的对象节点,从异构图中拆分出来,将与同一数据节点进行连接的任两个对象节点进行连接,从而得到每个类型分别对应的至少两个同构图。
可选地,对异构图进行拆分时,可以基于元路径将异构图拆分为至少两个同构图。其中,元路径是预先设置的、用于对异构图进行拆分的一种规则。
例如,异构图中包括账户节点、设备节点及电影节点三种类型的节点,该三种类型的节点中的任两个节点可以进行连接,节点之间的关系可以为账户登录设备观看电影。基于“账户-设备-账户”的元路径拆分异构图时,得到的同构图中仅包括账户节点,该同构图中的任两个账户节点连接表示该任两个账户登录了同一设备。另外,基于“账户-电影-账户”的元路径拆分异构图时,得到的同构图中也仅包括账户节点,该同构图中的任两个账户节点连接表示该任两个账户对同一电影感兴趣。
在一种可能实现方式中,由于计算机设备得到同构图之后,会将同构图输入至特征提取模型,获取同构图的特征信息。考虑到特征提取模型在对同构图进行处理时,可以同时处理的节点数量不能超过预设节点数量,当同构图的节点数量大于预设节点数量时,需要对同构图进行拆分,以使拆分之后的同构图的节点数量不大于预设节点数量。
那么,计算机设备根据异构图,获取至少两个同构图包括:计算机设备根据异构图,获取至少两个一级同构图,每个一级同构图包括至少两个对象节点,其中任两个对象节点连接表示异构图中任两个对象节点所属的对象与同一数据节点所属的数据关联;将任一个或多个一级同构图拆分为至少两个二级同构图,其中,不同的二级同构图包括的对象节点不同。
其中,将一级同构图拆分为二级同构图时,仅是将一级同构图中多个对象节点进行分割,得到二级同构图,二级同构图中任两个对象节点之间的关系与一级同构图中任两个对象节点之间的关系相同。
例如,一级同构图中包括10个对象节点,该10个节点依次为节点1、节点2、直至节点10,其中,节点1-节点5这5个节点中的任两个节点之间连接,节点6-节点10这5个节点中的任两个节点之间连接,节点5与节点6连接。那么,对该10个对象节点进行分割,根据该10个节点之间的连接关系,可以将节点1-节点5分割到一起,作为一个二级同构图,将节点6-节点10分割到一起,作为一个二级同构图。
103、计算机设备基于特征提取模型对至少两个同构图进行特征提取,得到至少两个同构图的特征信息。
本申请实施例中,计算机设备存储有训练完成的特征提取模型,获取存储的特征提取模型,从而基于特征提取模型,获取同构图的特征信息。
其中,同构图的特征信息中包括多个对象节点的特征信息,对象节点的特征信息用于表示对象节点对应的对象的特征。其中,同构图的特征信息可以由多个特征向量构成的特征向量矩阵表示则该特征向量矩阵中的每个特征向量对应表示每个对象节点的特征向量。
在一种可能实现方式中,特征提取模型包括多个网络层,多个网络层包括一个输入层和至少两个特征提取层。在本申请实施例中,基于特征提取模型获取同构图的特征信息时,需要通过多个网络层进行特征提取,每个网络层均可以输出一个同构图的特征信息,可以将最后一个网络层输出的特征信息作为同构图的特征信息。
计算机设备基于该特征提取模型从任一同构图中提取该同构图的特征信息时,可以采用下述方式一或方式二:
方式一:
(1)对于任一同构图中的任一目标对象节点,在输入层中,计算机设备根据目标对象节点的属性信息及目标对象节点的邻居对象节点的属性信息,确定目标对象节点的特征信息及邻居对象节点的特征信息,输出至下一网络层中。
其中,属性信息用于描述对象节点对应的对象。目标对象节点为同构图中的任一对象节点,同构图中与该目标对象连接的对象节点为该目标对象节点的邻居对象节点,邻居对象节点可以为一个或者多个。
输入层为多个网络层中的第一层,在输入层中,根据对象节点的属性信息,确定目标对象节点的特征信息及邻居对象节点的特征信息。
在一种可能实现方式中,计算机设备在输入层中,采用下述公式(1)获取同构图的特征信息:
H0=XN*D (1)
其中,H表示同构图的特征信息,H0表示输入层输出的同构图的特征信息,0表示第一个网络层,N表示对象节点的数量,D表示输入层中每个对象节点的特征信息,XN*D表示输入层中N个对象节点的特征信息组合之后的特征信息,即输入层输出的同构图的特征信息。
(2)在任一特征提取层中,计算机设备将上一网络层输出的目标对象节点的特征信息及邻居对象节点的特征信息进行融合,将融合得到的特征信息作为目标对象节点更新后的特征信息,输出至下一网络层中,直至获取到最后一个网络层输出的目标对象节点的特征信息。
其中,在特征提取层中,获取目标对象节点的特征信息时,需要考虑邻居对象节点对目标对象节点的影响,将目标对象节点的特征信息及邻居对象节点的特征信息进行融合,以使融合之后的目标对象节点的特征信息更加完整准确。
例如,在金融风控场景中,需要根据目标用户的消费数据,预测目标用户的支付能力,识别该目标用户是否存在欺诈行为,但是,如果该目标用户的消费数据较少,则难以准确预测该目标用户的支付能力。而采用上述方式,如果考虑该目标用户的家庭中其他家庭成员的消费数据的影响,可以结合其他家庭成员的消费数据对该目标用户的支付能力进行预测,得到较为准确的预测结果。
并且,如果目标对象节点的数据中存在伪造数据,那么目标对象节点的特征信息会不准确,而将目标对象节点的特征信息及邻居对象节点的特征信息进行融合,可以从邻居对象节点的特征信息中获取准确的目标对象节点的特征信息,从而提高获取的特征信息的准确率。
例如,对于金融风控场景中目标用户的数据造假的情况,由于仅对一个目标用户进行造假较为简单,且仅考虑该一个目标用户的属性信息时,数据造假的情况不易发现。但是如果对多个相互关联的用户同时造假则较为复杂,因此采用将目标用户的特征信息与多个与该目标用户关联的用户的特征信息进行融合,可以获取较为准确的目标用户的特征信息。
在一种可能实现方式中,在任一特征提取层中,计算机设备根据目标对象节点的特征信息及邻居对象节点的特征信息,确定目标对象节点和邻居对象节点之间的关联度,根据关联度,对目标对象节点的特征信息及邻居对象节点的特征信息进行融合,得到目标对象节点更新后的特征信息。
其中,关联度用于表示目标对象节点所属的目标对象与邻居对象节点所属的对象之间的相关程度。关联度越大,表示邻居对象节点对目标对象节点的影响越大,进行融合时,邻居对象节点的特征信息对目标对象节点的特征信息的影响越大;关联度越小,表示邻居对象节点对目标对象节点的影响越小,进行融合时,邻居对象节点的特征信息对目标对象节点的特征信息的影响越小。
在一种可能实现方式中,计算机设备在任一特征提取层中,采用下述公式(2)确定目标对象节点与邻居对象节点之间的关联度:
其中,i表示目标对象节点,j表示邻居对象节点,l表示网络层的层数,αij表示目标对象节点与邻居对象节点之间的关联度,表示目标对象节点在第l个网络层的特征信息,表示邻居对象节点在第l个网络层的特征信息,Ni表示目标对象节点的邻居对象节点集合,exp(·)表示指数函数,Leaky ReLU(·)表示激活函数,αT及Wa为特征提取模型的模型参数。
计算机设备采用下述公式(3)确定目标对象节点的特征信息:
其中,i表示目标对象节点,j表示邻居对象节点,l表示网络层的层数,表示目标对象节点在第l+1个网络层的特征信息,αij表示目标对象节点与邻居对象节点之间的关联度,表示目标对象节点在第l个网络层的特征信息,表示邻居对象节点在第l个网络层的特征信息,Ni表示目标对象节点的邻居对象节点集合,σ、及为特征提取模型的模型参数。
计算机设备采用上述公式(3),根据模型训练得到的模型参数、第l个网络层中目标对象节点的特征信息及邻居对象节点的特征信息以及相关度,确定第l+1个网络层中目标对象节点的特征信息。
上述方式一中,采用Attention(注意力)机制,能够将同一特征提取层中的目标对象节点的特征信息与邻居对象节点的特征信息进行融合,从而获取同构图的特征信息。该方式一对相同深度的对象节点的特征信息进行处理,采用宽度自适应的特征提取模型,获取的目标对象节点的特征信息考虑了相同深度的邻居对象节点的特征信息的影响,提高了目标对象节点的特征信息的准确率,从而提高了同构图的特征信息的准确率。
方式二:
(1)对于任一同构图中的任一目标对象节点,在输入层中,计算机设备根据目标对象节点的属性信息及目标对象节点的邻居对象节点的属性信息,确定目标对象节点的特征信息及邻居对象节点的特征信息,输出至下一网络层中。
与上述方式一中的实施方式类似,在此不再赘述。
(2)在该下一网络层中,计算机设备根据目标对象节点的特征信息及邻居对象节点的特征信息,确定邻居对象节点对目标对象节点的影响系数。
其中,影响系数用于表示邻居对象节点所属的对象对目标对象节点所属的目标对象的影响程度。影响系数越大,表示邻居对象节点对目标对象节点的影响较大,后续进行融合时,考虑该邻居对象节点的特征信息;影响系数越小,表示邻居对象节点对目标对象节点的影响较小,后续进行融合时,可以不考虑该邻居对象节点的特征信息。
其中,计算机设备是根据当前网络层的上一网络层中输出的目标对象节点的特征信息及邻居对象节点的特征信息,确定影响系数。
在一种可能实现方式中,计算机设备根据邻居对象节点的第一特征信息,及目标对象节点和邻居对象节点之间的关联度,确定邻居对象节点的第二特征信息;根据目标对象节点的特征信息及邻居对象节点的第二特征信息,确定邻居对象节点对目标对象节点的影响系数。
其中,邻居对象节点的第一特征信息为当前网络层的上一网络层输出的特征信息;邻居对象节点的第二特征信息为当前网络层对第一特征信息进行融合之后得到的特征信息;关联度与上述方式一中的关联度类似,在此不再赘述。
可选地,计算机设备采用表示当前的其中pos_emb为当前网络层的表示向量。如果即可由pos_emb确定当前网络层的层数,获取目标对象节点的特征信息时,可以根据确定的网络层的层数,获取对应网络层的邻居对象节点的特征信息。
计算机设备可以采用下述公式(4)确定邻居对象节点的第二特征信息:
其中,i表示目标对象节点,j表示邻居对象节点,l表示网络层的层数,xt表示邻居对象节点的第二特征信息,表示邻居对象节点的第一特征信息,αij表示目标对象节点与邻居对象节点之间的关联度,Ni表示目标对象节点的邻居对象节点集合,pos_emb为当前网络层的表示向量,为特征提取模型的模型参数。
计算机设备基于上述公式(4)确定的邻居对象节点的第二特征信息,可以采用下述公式(5)确定邻居对象节点对目标对象节点的影响系数:
(3)计算机设备根据影响系数对邻居对象节点进行过滤处理。
在一种可能实现方式中,计算机设备响应于影响系数大于预设影响系数,保留邻居对象节点的特征信息;或者,计算机设备响应于影响系数不大于预设影响系数,过滤邻居对象节点的特征信息。
(4)在任一网络层中,计算机设备将上一网络层输出的目标对象节点的特征信息,及进行过滤处理之后剩余的邻居对象节点的特征信息进行融合,将融合得到的特征信息作为目标对象节点更新后的特征信息。
其中,进行提取特征信息时采用的方式与上述方式一可以相同,也可以不同。
在一种可能实现方式中,计算机设备根据目标对象节点的特征信息及邻居对象节点的特征信息,确定邻居对象节点对目标对象节点的门控系数,根据门控系数将上一网络层输出的目标对象节点的特征信息,及进行过滤处理之后剩余的邻居对象节点的特征信息进行融合。其中,门控系数用于表示上一网络层的邻居对象节点对目标对象节点的影响程度。
可选地,计算机设备可以采用下述公式(6)确定邻居对象节点的门控系数:
在一种可能实现方式中,计算机设备根据影响系数将邻居对象节点进行过滤之后,对剩余的邻居对象节点,用下述公式(7)根据影响系数,确定邻居对象节点的第三特征信息:
计算机设备采用下述公式(8)确定目标对象节点的特征信息:
上述方式二中,采用GRU门控机制,能够根据当前网络层的上一网络层中的邻居对象节点对目标对象节点的影响程度,对邻居对象节点进行过滤处理。该方式二采用深度自适应的特征提取模型,根据不同深度的邻居对象节点对目标对象节点的影响程度,选择性地遗忘不重要的邻居对象节点的特征信息,提高了目标对象节点的特征信息的准确率,及提高了同构图的特征信息的准确率。
在一种可能实现方式中,可以由一个计算机设备基于特征提取模型,依次对至少两个同构图进行处理,获取该至少两个同构图的特征信息。
在另一种可能实现方式中,可以由多个计算机设备基于特征提取模型,分别对至少两个同构图进行处理,获取该至少两个同构图的特征信息。由多个计算机设备进行处理时,可以加快处理速度,提高获取特征信息的效率。
另外,计算机设备还可以基于随机游走的图嵌入方式获取同构图的特征信息。基于随机游走的图嵌入方式,将同构图中的每个对象节点看作一个“词语”,从每个对象节点开始随机游走生成节点序列,将生成的节点序列看作一个“句子”,将生成的“句子”组成“语料库”,将“语料库”输入至skip-gram模型(一种基于自然语言的特征提取模型),基于该skip-gram模型,获取同构图的特征信息。该方式与基于邻接矩阵的one-hot编码(一位有效编码)相比,生成的特征信息具有低维、连续、稠密等特点,利于后续基于机器学习对特征信息进行处理。
但是,与特征提取模型相比较,上述随机游走的图嵌入方式,难以确定特征信息的维数;还无法根据已知对象节点的特征信息确定未知对象节点的特征信息;并且,基于随机游走的图嵌入方式仅是考虑了每个对象节点之间的关联信息,忽略了对象节点的属性信息。
而基于特征提取模型获取特征信息时,特征提取模型中包括多个网络层,通过多个网络层提取出多个特征信息,可以确定合适的维数;还可以目标对象节点的特征信息与邻居对象节点的特征信息进行融合,从而可以根据已知的对象节点,获取未知的对象节点的特征信息;并且,在特征提取模型的输入层中是根据对象节点的属性信息获取的对象节点的特征信息,考虑了对象节点的属性信息对特征信息的影响,因此既考虑了每个对象节点之间的关联信息,又考虑了每个对象节点的属性信息,提高了获取的特征信息的准确率。
在另一种可能实现方式中,计算机设备基于深度学习的图嵌入方法,对节点特征信息和同构图的结构特征信息进行端到端的深度学习,获取特征信息。采用下述方式(9)-(11)获取特征信息:
H0=XN*D (11)
其中,H表示同构图的特征信息,Hl+1表示第l+1个网络层输出的同构图的特征信息,Hl表示第l个网络层输出的同构图的特征信息,σ为激活函数,为拉普拉斯对角矩阵,A为邻居矩阵,I为对象节点构成的矩阵,为基于对象节点及任两个对象节点之间的关联关系得到的矩阵,Wl是第l个网络层输出的特征信息对应的权值。H0表示输入层输出的同构图的特征信息,0表示第一个网络层,N表示对象节点的数量,D表示输入层中每个对象节点的特征信息,XN*D表示输入层中N个对象节点的特征信息组合之后的特征信息。其中,邻居矩阵A中行及列表示同构图中的对象节点,该邻居矩阵中的元素表示该元素对应的两个对象节点之间是否连接,如果连接,则该元素表示连接的边的权值。
重复公式(9)的操作多次,可以将同构图中目标对象节点与多个网络层中的邻居对象节点的特征信息进行融合,将最后一个网络层中的特征信息作为目标对象节点的特征信息。并且,训练过程中,只需对权重Wl进行梯度下降训练,邻居矩阵A和第一个网络层的特征信息XN*D均是常量。
但是,上述基于深度学习的图嵌入,主要针对同构图进行特征学习,而金融风控场景中存在多种异构关联关系,且金融风控场景下的关联数据存在一定量的噪声数据,比如,图中存在假性关联节点、不同关联强度的邻居对象节点或不同网络层的邻居对象节点对同一目标对象节点的影响程度不同等,这些噪声数据限制了基于深度学习的图嵌入在金融反欺诈场景中的应用效果。
而基于特征提取模型获取特征信息时,特征提取模型中包括多个网络层,通过多个网络层提取出多个特征信息,同构图是根据异构图得到的,且根据关联度和影响系数,确定的特征信息,可以有效减低噪声数据对特征信息的影响。
在一种可能实现方式中,特征提取模型包括多个网络层,该多个网络层包括输入层、多个特征提取层及输出层,计算机设备将输出层输出的特征向量,作为同构图的特征向量。
例如,特征提取模型的框图参见图2,包括输入层201、多个特征提取层202和输出层203,将同构图输入至输入层201中,经过l个特征提取层202进行特征提取,由输出层203输出同构图的特征信息。其中,可以将输入层201得到的特征信息作为一阶特征信息,第一个特征提取层202对一阶特征信息进行融合,得到二阶特征信息,第二个特征提取层202对二阶特征信息进行融合,直至对l-1阶特征信息进行融合,得到l阶特征信息,输出层203输出该l阶特征信息。并且,进行融合时,可以采用Attention机制及GRU门控机制。
需要说明的是,上述方式一及方式二仅是以目标对象节点为例进行说明,同构图中的任一对象节点均可以为目标对象节点,从而获取同构图的特征信息。
104、计算机设备基于特征融合模型对至少两个同构图的特征信息进行融合,得到融合特征信息。
本申请实施例中,计算机设备对至少两个同构图的特征信息进行融合,得到融合特征信息。
在一种可能实现方式中,特征融合模型至少包括加权层及融合层,在加权层中,计算机设备获取至少两个同构图的权值;在融合层中,计算机设备根据至少两个同构图的权值,对至少两个同构图的特征信息进行加权融合,得到融合特征信息。
其中,对至少两个同构图的特征信息进行加权融合时,获取每个同构图的的权值,以使至少两个同构图的权值之和为1。根据每个同构图的权值,对该至少两个同构图的特征信息进行加权求和,将加权求和之后得到的特征信息作为融合特征信息;或者根据加权求和之后得到的特征信息,及进行加权求和的同构图的数量,对得到的特征信息求平均,将求平均之后得到的特征信息作为融合特征信息。
可选地,计算机设备采用下述公式(12)确定每个同构图的权值:
其中,Hi为第i个同构图的特征信息,softmax(·)为激活函数,tanh(·)为激活函数,Va及Wa为融合特征模型的模型参数。
上述可能实现方式中,计算机设备采用Stacking机制(一种融合机制),对至少两个同构图的特征信息进行融合。计算机设备将异构图拆分为多个同构图,利用自适应的同构图的特征信息获取方法,分别获取每个同构图的特征信息,最后利用Stacking机制融合多个同构图的特征信息得到融合特征信息,该融合特征信息即为异构图的特征信息。
需要说明的是,本申请实施例仅是以采用Stacking机制获取融合特征信息为例进行说明,在另一实施例中,还可以采用其他方式获取融合特征信息。
例如,计算机设备可以直接从至少两个同构图的特征信息中选取任一同构图的特征信息作为融合特征信息;或者,采用最大池化的方法,直接从至少两个同构图的特征信息中选取最大的同构图的特征信息作为融合特征信息;或者,计算机设备基于求平均法,对至少两个同构图的特征信息求平均,将得到的平均特征信息作为融合特征信息;或者,对于已知至少两个同构图对应的数据类型时,计算机设备可以预先设置每个同构图的特征信息对应的权值,根据该预先设置的权值,对至少两个同构图的特征信息进行加权融合,获取融合特征信息。
105、计算机设备从融合特征信息中,获取目标对象节点的特征信息。
本申请实施例中,融合特征信息为异构图的特征信息,异构图的特征信息中包括每个对象节点的特征信息,可以从异构图的特征信息中获取目标对象节点的特征信息。
例如,对象节点的特征信息为特征向量时,则异构图的特征信息为特征矩阵,该特征矩阵中的每个特征向量与一个对象节点相对应,获取对象节点的特征向量时,确定该对象节点在特征矩阵中对应的位置,该位置的特征向量即为对象节点的特征向量。
当目标对象为目标用户标识时,在确定目标用户标识节点的特征信息之后,可以根据目标用户标识的特征信息,确定目标用户标识的识别结果。
例如,在一种可能实现方式中,目标对象为目标用户标识,计算机设备根据特征信息,获取目标用户标识对应的风险系数;响应于风险系数大于预设风险系数,确定目标用户标识为风险用户标识;或者,响应于风险系数不大于预设风险系数,确定目标用户标识为非风险用户标识。其中,风险系数用于表示目标用户标识有风险的可能性。
当风险系数为概率值时,风险系数越大表示该目标用户标识为风险用户标识的概率越大,风险系数越小表示该目标用户标识为风险用户标识的概率越小。
可选地,基于风险预测模型,确定目标用户标识是否是风险用户标识。
另外,本申请实施例中,基于风险预测模型,识别目标用户标识是否为风险用户标识的框图参见图3。
将包括目标用户标识节点的异构图,拆分为至少两个一级同构图,对每个一级同构图进行图采样,即将每个一级同构图拆分为至少两个二级同构图,基于特征提取模型301,提取每个二级同构图的特征信息,再基于特征融合模型302,将至少四个二级同构图的特征信息进行融合,得到异构图的特征信息,从异构图的特征信息中选取出目标用户标识的特征信息,将目标用户标识的特征信息输入至风险预测模型303中,对目标用户标识进行识别。
其中,参见图4,识别过程中采用的特征提取模型301包括输入层3011、多个特征提取层3012和输出层3013,将二级同构图输入至输入层3011中,经过l个特征提取层3012进行特征提取,由输出层3013输出二级同构图的特征信息。其中,可以将输入层3011得到的特征信息作为一阶特征信息,第一个特征提取层3012对一阶特征信息进行融合,得到二阶特征信息,第二个特征提取层3012对二阶特征信息进行融合,直至对l-1阶特征信息进行融合,得到l阶特征信息,输出层3013输出该l阶特征信息。对于每个二级同构图,采用该特征提取模型301得到每个二级同构图的特征信息。其中,采用注意力机制及融合机制,获取每个特征提取层3012输出的特征信息。
在另一种可能实现方式中,计算机设备根据特征信息,将特征信息输入至推荐模型,基于推荐模型,识别该目标用户标识感兴趣的商品,向用户标识进行商品推荐。
需要说明的是,本申请实施例仅是以目标对象为目标用户标识为例进行说明,在另一实施例中,目标对象可以为自然语言,实现对自然语言处理中的实体链接、命名实体识别;或者,目标对象为化学结构,实现对化学结构的分析;或者目标对象还可以为其他内容。本申请实施例对获取目标对象节点的特征信息之后,该目标对象节点的特征信息的实际应用场景不做限制。
本申请实施例提供的方法,获取异构图,根据异构图,获取至少两个同构图,获取至少两个同构图的特征信息,对至少两个同构图的特征信息进行融合,得到融合特征信息,从融合特征信息中,获取目标对象节点的特征信息。该方法根据异构图,获取目标对象节点的特征信息,不仅考虑了目标对象节点的数据,还考虑了异构图中其他对象节点的数据,可以获取目标对象节点更多的特征信息,提高了信息的全面性,进而提高了获取的特征信息的准确率。
并且,基于特征提取模型对至少两个同构图进行特征提取,得到至少两个同构图的特征信息时,特征提取模型考虑了每个网络层中邻居对象节点对目标对象节点的影响,还考虑了不同的网络层之间邻居对象节点对目标对象节点的影响,从而使得到的同构图的特征信息更加准确。
并且,基于特征融合模型对至少两个同构图的特征信息进行融合,得到融合特征信息,将不同的同构图的特征信息进行融合,考虑了不同类型的数据对特征信息的影响,进一步提高了特征信息的准确率。
另外,目前,随着互联网金融的快速发展,应用数据分析手段开展金融业务的数字金融平台是黑产攻击的主要对象之一。互联网欺诈行为日趋专业化、产业化、及隐蔽化,如中介代包代办、身份冒用、团伙作案、账号盗用等,其中,虚假信息成为最为主要的欺诈手段。针对金融风控场景所面临的这些黑产对抗问题,本申请实施例提供的特征信息获取方法可以准确识别出存在欺诈行为的用户。
相关技术中,计算机设备为了识别目标用户是否为风险用户,会获取该目标用户的属性信息,根据该目标用户的属性信息获取目标用户的特征信息,根据该特征信息对目标用户进行识别。但是,采用获取目标用户的属性信息这种方式时,可能存在属性信息较少、属性信息造假等情况,从而导致获取的特征信息不准确。
而本申请实施例中,获取异构图的过程中,不仅考虑了该目标用户的数据,还包括与该目标用户相关的其他用户的数据,因此不仅能够获取目标用户的属性信息,还可以根据与该目标用户的相关用户的数据中,获取关于该目标用户的信息。从而计算机设备可以获取更多该目标用户的数据,使获取的目标用户的特征信息更加准确。
例如,在金融风控场景下,对一个目标用户的信用风险的评估需要基于该目标用户多方面的信息进行判断,如收入能力、购买能力、兴趣爱好等,但实际问题是很难同时获取目标用户多方面的信息,从而导致目标用户的特征信息不准确,而采用本申请实施例提供的特征信息获取方法,可以利用目标用户的相关用户的特征信息对目标用户的特征信息进行补充,从而获取目标用户全面的特征信息。
另外,本申请实施例基于目标用户的关联数据端到端的学习目标用户的属性特征和关联结构特征,将特征信息作为风险预测模型的输入识别风险用户,可适用于多种金融风控场景,如预测目标用户在支付、借贷、理财等金融业务环节中的欺诈风险,帮助银行、证券、互金、P2P等金融企业提升风险识别能力,降低企业损失等。
并且,计算机设备可以采用KS(Kolmogorov-Smirnov,一种评估方式)测试,将本申请实施例中的识别用户标识过程与其他相关技术中识别用户标识过程相比较。其中,KS测试是指对于相同数量的正样本和负样本,采用不同的方法,对样本进行识别,统计概率值在0.5-0.6的正样本的数量和负样本的数量,正样本与负样本的数量相差越大,即KS值越大,表示该方法产生的效果越好。
在测试过程中,根据二部图数据,确定异构图,其中二部图数据包括两种类型的数据,则确定的异构图中包括风险用户标识对应的对象节点及非风险用户标识对应的对象节点两种类型的对象节点,且该两种类型的对象节点的数量相同。假设异构图的各个节点之间存在两种不同类型的关联关系,则将该异构图拆分为两个同构图,每个同构图的节点数量均为521W,边的数量分别为569W和632W,节点的原始特征信息共64维,测试数据包含7500白样本、7500黑样本。
图5列出了不同的风控模型在测试集合上的KS曲线,其中,曲线一是采用HGCN(HeterogeneousGraph Convolutional Network,基于自适应机制的异构图卷积网络),使用两层的图卷积网络得;的KS曲线;曲线二是采用GRU_GCN(Recurrent Neural Network_Graph Convolutional Network,基于自适应的同构图卷积网络模型),使用两层的图卷积网络得到的KS曲线;曲线三是采用GCN(Graph Convolutional Network,基于同构图卷积的神经网络模型),使用两层图卷积网络得到的KS曲线;曲线四是采用MLP(multi-layerperceptron,基于节点特征的神经网络模型),使用两层的全连接神经网络得到的KS曲线。并且,HGCN为本申请实施例提供的获取异构图的特征信息的方法,GRU_GCN为本申请实施例中步骤102提供的对同构图进行处理,获取同构图的特征信息的方法。
图5中横轴是模型训练时的迭代次数,纵轴为KS值。从图5的四个曲线中可以看出,本申请实施例提供的HGCN的欺诈检测效果最佳,表现为在MLP的基础上绝对提升5个百分点的KS值,相对提升27.7%,即采用HGCN方法得到的KS值比采用MLP得到的KS值大0.05。另外,本申请实施例提供的GRU_GCN在反欺诈任务上的表现仅次于HGCN,表现为在MLP的基础上绝对提升4个百分点的KS值,相对提升22.2%。最后,图5显示GRU_GCN及HGCN均优于原始的同构图卷积网络。
综上所述,本申请实施例通过基于自适应机制的异构图卷积网络对金融风控场景下的关联数据进行挖掘,该方法可显著提升模型的反欺诈效果。另外,该方法所提出的基于自适应机制的异构图卷积网络可有效融合异构的关联数据信息,对传统的图卷积方法在异构图数据上的泛化能力进行了有效补充。
另外,对于上述实施例中使用的特征提取模型及特征融合模型,计算机设备需要对特征提取模型及特征融合模型进行训练。在训练特征提取模型及特征融合模型时,可以分别训练特征提取模型及特征融合模型,也可以一起训练特征提取模型及特征融合模型。
在一种可能实现方式中,可以采用下述方式训练特征提取模型:计算机设备获取至少两个样本同构图,及该至少两个样本同构图的样本特征信息;根据该至少两个样本同构图及该至少两个样本同构图的样本特征信息,训练特征提取模型。
例如,计算机设备分别将至少两个同构图输入至特征提取模型,基于特征提取模型,得到预测特征信息,比较预测特征信息与样本特征信息之间的差异,根据该差异,调整特征提取模型中的各项参数,以减小预测特征信息与样本特征信息之间的差异,以使特征提取模型学习到根据同构图获取同构图的特征信息的能力。
在一种可能实现方式中,可以采用下述方式训练特征融合模型:获取至少两个样本同构图的样本特征信息,及至少两个样本同构图对应的样本融合特征信息;根据至少两个样本同构图的样本特征信息及样本融合特征信息,训练特征融合模型。
例如,计算机设备分别将至少两个同构图的样本特征信息输入至特征融合模型,基于特征融合模型,得到预测融合特征信息,比较预测融合特征信息与样本融合特征信息之间的差异,根据该差异,调整特征融合模型中的各项参数,以减小预测融合特征信息与样本融合特征信息之间的差异,以使特征融合模型学习到根据同构图的特征信息获取融合特征信息的能力。
在另一种可能实现方式中,可以采用下述方式训练特征提取模型及特征融合模型:计算机设备获取至少两个样本同构图及该至少两个样本同构图对应的样本融合特征信息;根据至少两个样本同构图及该至少两个样本同构图对应的样本融合特征信息,训练特征提取模型及特征融合模型。
例如,计算机设备分别将至少两个同构图输入至特征提取模型,基于特征提取模型,得到预测特征信息,将预测特征信息输入至特征融合模型,基于特征融合模型,得到预测融合特征信息,比较预测融合特征信息与样本融合特征信息之间的差异,根据该差异,调整特征提取模型及特征融合模型中的各项参数,以减小预测融合特征信息与样本融合特征信息之间的差异,以使特征提取模型及特征融合模型学习到根据至少两个同构图获取该至少两个同构图对应的融合特征信息的能力。
图6是本申请实施例提供的一种特征信息获取装置的结构示意图。参见图6,该装置包括:
异构图获取模块601,用于获取异构图,异构图包括至少两个对象节点及至少一个数据节点,其中任一对象节点与任一数据节点连接表示任一对象节点所属的对象与任一数据节点所属的数据关联;
同构图获取模块602,用于根据异构图,获取至少两个同构图,每个同构图包括至少两个对象节点,其中任两个对象节点连接表示异构图中任两个对象节点所属的对象与同一数据节点所属的数据关联;
融合特征获取模块603,用于获取至少两个同构图的特征信息,对至少两个同构图的特征信息进行融合,得到融合特征信息;
节点特征获取模块604,用于从融合特征信息中,获取目标对象节点的特征信息。
本申请实施例提供的装置,获取异构图,根据异构图,获取至少两个同构图,获取至少两个同构图的特征信息,对至少两个同构图的特征信息进行融合,得到融合特征信息,从融合特征信息中,获取目标对象节点的特征信息。该装置根据异构图,获取目标对象节点的特征信息,不仅考虑了目标对象节点的数据,还考虑了异构图中其他对象节点的数据,可以获取目标对象节点更多的特征信息,提高了信息的全面性,进而提高了获取的特征信息的准确率。
可选地,至少一个数据节点中包括至少两个类型的数据节点,同构图获取模块602,还用于按照异构图中每个数据节点的类型,将异构图中与属于每个类型的同一数据节点连接的任两个对象节点连接,构成与每个类型分别对应的至少两个同构图。
可选地,参见图7,同构图获取模块602,包括:
一级同构图获取单元6021,用于根据异构图,获取至少两个一级同构图,每个一级同构图包括至少两个对象节点,其中任两个对象节点连接表示异构图中任两个对象节点所属的对象与同一数据节点所属的数据关联;
二级同构图获取单元6022,用于将任一个或多个一级同构图拆分为至少两个二级同构图,其中,不同的二级同构图包括的对象节点不同。
可选地,参见图7,融合特征获取模块603,包括:
特征提取单元6031,用于基于特征提取模型对至少两个同构图进行特征提取,得到至少两个同构图的特征信息。
可选地,特征提取模型包括多个网络层,多个网络层包括一个输入层和至少两个特征提取层,参见图7,特征提取单元6031,还用于:
对于任一同构图中的任一目标对象节点,在输入层中,根据目标对象节点的属性信息及目标对象节点的邻居对象节点的属性信息,确定目标对象节点的特征信息及邻居对象节点的特征信息,输出至下一网络层中;
在任一特征提取层中,将上一网络层输出的目标对象节点的特征信息及邻居对象节点的特征信息进行融合,将融合得到的特征信息作为目标对象节点更新后的特征信息,输出至下一网络层中,直至获取到最后一个网络层输出的目标对象节点的特征信息。
可选地,参见图7,特征提取单元6031,还用于:
根据目标对象节点的特征信息及邻居对象节点的特征信息,确定目标对象节点和邻居对象节点之间的关联度,关联度用于表示目标对象节点所属的目标对象与邻居对象节点所属的对象之间的相关程度;
根据关联度,对目标对象节点的特征信息及邻居对象节点的特征信息进行融合,得到目标对象节点更新后的特征信息。
可选地,参见图7,特征提取单元6031,还用于:
在下一网络层中,根据目标对象节点的特征信息及邻居对象节点的特征信息,确定邻居对象节点对目标对象节点的影响系数;
根据影响系数对邻居对象节点进行过滤处理。
可选地,参见图7,特征提取单元6031,还用于:
根据邻居对象节点的第一特征信息,及目标对象节点和邻居对象节点之间的关联度,确定邻居对象节点的第二特征信息;
根据目标对象节点的特征信息及邻居对象节点的第二特征信息,确定邻居对象节点对目标对象节点的影响系数。
可选地,参见图7,特征提取单元6031,还用于:
响应于影响系数大于预设影响系数,保留邻居对象节点的特征信息;或者,响应于影响系数不大于预设影响系数,过滤邻居对象节点的特征信息。
可选地,参见图7,特征提取单元6031,还用于在任一特征提取层中,将上一网络层输出的目标对象节点的特征信息,及进行过滤处理之后剩余的邻居对象节点的特征信息进行融合,将融合得到的特征信息作为目标对象节点更新后的特征信息。
可选地,参见图7,融合特征获取模块603,还包括:
特征融合单元6032,用于基于特征融合模型对至少两个同构图的特征信息进行融合,得到融合特征信息。
可选地,参见图7,特征融合单元6032,还用于:
在加权层中,获取至少两个同构图的权值;
在融合层中,根据至少两个同构图的权值,对至少两个同构图的特征信息进行加权融合,得到融合特征信息。
可选地,目标对象为目标用户标识,参见图7,该装置还包括:
风险系数获取模块605,用于根据特征信息,获取目标用户标识对应的风险系数;
识别模块606,用于响应于风险系数大于预设风险系数,确定目标用户标识为风险用户标识;或者,
识别模块606,还用于响应于风险系数不大于预设风险系数,确定目标用户标识为非风险用户标识。
可选地,参见图7,该装置还包括:
第一样本获取模块607,用于获取至少两个样本同构图,及至少两个样本同构图的样本特征信息;
第一模型训练模块608,用于根据至少两个样本同构图及至少两个样本同构图的样本特征信息,训练特征提取模型。
可选地,参见图7,该装置还包括:
第二样本获取模块609,用于获取至少两个样本同构图的样本特征信息,及至少两个样本同构图对应的样本融合特征信息;
第二模型训练模块610,用于根据至少两个样本同构图的样本特征信息及样本融合特征信息,训练特征融合模型。
需要说明的是:上述实施例提供的特征信息获取装置在获取特征信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的特征信息获取装置与特征信息获取方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图8示出了本申请一个示例性实施例提供的终端800的结构示意图。
通常,终端800包括有:处理器801和存储器802。
处理器801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(ProgrammableLogic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器801可以在集成有GPU(Graphics Processing Unit,图像处理的交互器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器801还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器801所具有以实现本申请中方法实施例提供的特征信息获取方法。
在一些实施例中,终端800还可选包括有:外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地,外围设备包括:射频电路804、触摸显示屏805、摄像头806、音频电路807、定位组件808和电源809中的至少一种。
外围设备接口803可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中,处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上;在一些其他实施例中,处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路804用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路804包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及8G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路804还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏805用于显示UI(UserInterface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时,显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时,显示屏805还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏805可以为一个,设置终端800的前面板;在另一些实施例中,显示屏805可以为至少两个,分别设置在终端800的不同表面或呈折叠设计;在再一些实施例中,显示屏805可以是柔性显示屏,设置在终端800的弯曲表面上或折叠面上。甚至,显示屏805还可以设置成非矩形的不规则图形,也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(OrganicLight-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件806用于采集图像或视频。可选地,摄像头组件806包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端800的前面板,后置摄像头设置在终端800的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器801进行处理,或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路807还可以包括耳机插孔。
定位组件808用于定位终端800的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于:加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。
加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号,控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于应用或者用户的运动数据的采集。
陀螺仪传感器812可以检测终端800的机体方向及转动角度,陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、应用控制以及惯性导航。
压力传感器813可以设置在终端800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端800的侧边框时,可以检测用户对终端800的握持信号,由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时,由处理器801根据用户对触摸显示屏805的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器814用于采集用户的指纹,由处理器801根据指纹传感器1414采集到的指纹识别用户的身份,或者,由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器801授权该用户具有相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时,指纹传感器814可以与物理按键或厂商标志集成在一起。
光学传感器815用于采集环境光强度。在一个实施例中,处理器801可以根据光学传感器815采集的环境光强度,控制触摸显示屏805的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏805的显示亮度;当环境光强度较低时,调低触摸显示屏805的显示亮度。在另一个实施例中,处理器801还可以根据光学传感器815采集的环境光强度,动态调整摄像头组件806的拍摄参数。
接近传感器816,也称距离传感器,通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中,当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时,由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态;当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时,由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图8中示出的结构并不构成对终端800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图9是本申请实施例提供的一种服务器的结构示意图,该服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(CentralProcessingUnits,CPU)901和一个或一个以上的存储器902,其中,存储器902中存储有至少一条指令,该至少一条指令由处理器901加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
服务器900可以用于执行上述特征信息获取方法中计算机设备所执行的步骤。
本申请实施例还提供了一种用于获取特征信息的计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现上述实施例的特征信息获取方法中所执行的操作。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现上述实施例的特征信息获取方法中所执行的操作。
本申请实施例还提供了一种计算机程序,该计算机程序中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现上述实施例的特征信息获取方法中所执行的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本申请实施例的可选实施例,并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种特征信息获取方法,其特征在于,所述方法包括:
获取异构图,所述异构图包括至少两个对象节点及至少一个数据节点,其中任一对象节点与任一数据节点连接表示所述任一对象节点所属的对象与所述任一数据节点所属的数据关联;
根据所述异构图,获取至少两个同构图,每个同构图包括至少两个对象节点,其中任两个对象节点连接表示所述异构图中所述任两个对象节点所属的对象与同一数据节点所属的数据关联;
获取所述至少两个同构图的特征信息,对所述至少两个同构图的特征信息进行融合,得到融合特征信息;
从所述融合特征信息中,获取目标对象节点的特征信息。
2.根据权利要求1所述的方法,其特征在于,所述至少一个数据节点中包括至少两个类型的数据节点,所述根据所述异构图,获取至少两个同构图,包括:
按照所述异构图中每个数据节点的类型,将所述异构图中与属于每个类型的同一数据节点连接的任两个对象节点连接,构成与所述每个类型分别对应的至少两个同构图。
3.根据权利要求1所述的方法,其特征在于,所述根据所述异构图,获取至少两个同构图,包括:
根据所述异构图,获取至少两个一级同构图,每个一级同构图包括至少两个对象节点,其中任两个对象节点连接表示所述异构图中所述任两个对象节点所属的对象与同一数据节点所属的数据关联;
将任一个或多个一级同构图拆分为至少两个二级同构图,其中,不同的二级同构图包括的对象节点不同。
4.根据权利要求1所述的方法,其特征在于,所述获取所述至少两个同构图的特征信息,包括:
基于特征提取模型对所述至少两个同构图进行特征提取,得到所述至少两个同构图的特征信息。
5.根据权利要求4所述的方法,其特征在于,所述特征提取模型包括多个网络层,所述多个网络层包括一个输入层和至少两个特征提取层,所述基于特征提取模型对所述至少两个同构图进行特征提取,得到所述至少两个同构图的特征信息,包括:
对于任一同构图中的任一目标对象节点,在所述输入层中,根据所述目标对象节点的属性信息及所述目标对象节点的邻居对象节点的属性信息,确定所述目标对象节点的特征信息及所述邻居对象节点的特征信息,输出至下一网络层中;
在任一特征提取层中,将上一网络层输出的所述目标对象节点的特征信息及所述邻居对象节点的特征信息进行融合,将融合得到的特征信息作为所述目标对象节点更新后的特征信息,输出至下一网络层中,直至获取到最后一个网络层输出的所述目标对象节点的特征信息。
6.根据权利要求5所述的方法,其特征在于,所述将上一网络层输出的所述目标对象节点的特征信息及所述邻居对象节点的特征信息进行融合,将融合得到的特征信息作为所述目标对象节点更新后的特征信息,包括:
根据所述目标对象节点的特征信息及所述邻居对象节点的特征信息,确定所述目标对象节点和所述邻居对象节点之间的关联度,所述关联度用于表示所述目标对象节点所属的目标对象与所述邻居对象节点所属的对象之间的相关程度;
根据所述关联度,对所述目标对象节点的特征信息及所述邻居对象节点的特征信息进行融合,得到所述目标对象节点更新后的特征信息。
7.根据权利要求5所述的方法,其特征在于,所述对于任一同构图中的任一目标对象节点,在所述输入层中,根据所述目标对象节点的属性信息及所述目标对象节点的邻居对象节点的属性信息,确定所述目标对象节点的特征信息及所述邻居对象节点的特征向量,输出至下一网络层中之后,所述方法还包括:
在所述下一网络层中,根据所述目标对象节点的特征信息及所述邻居对象节点的特征信息,确定所述邻居对象节点对所述目标对象节点的影响系数;
根据所述影响系数对所述邻居对象节点进行过滤处理。
8.根据权利要求7所述的方法,其特征在于,所述根据所述目标对象节点的特征信息及所述邻居对象节点的特征信息,确定所述邻居对象节点对所述目标对象节点的影响系数,包括:
根据所述邻居对象节点的第一特征信息,及所述目标对象节点和所述邻居对象节点之间的关联度,确定所述邻居对象节点的第二特征信息;
根据所述目标对象节点的特征信息及所述邻居对象节点的第二特征信息,确定所述邻居对象节点对所述目标对象节点的影响系数。
9.根据权利要求7所述的方法,其特征在于,所述根据所述影响系数对所述邻居对象节点进行过滤处理,包括:
响应于所述影响系数大于预设影响系数,保留所述邻居对象节点的特征信息;或者,
响应于所述影响系数不大于所述预设影响系数,过滤所述邻居对象节点的特征信息。
10.根据权利要求7所述的方法,其特征在于,所述根据所述影响系数对所述邻居对象节点进行过滤处理之后,所述在任一特征提取层中,将上一网络层输出的所述目标对象节点的特征信息及所述邻居对象节点的特征信息进行融合,将融合得到的特征信息作为所述目标对象节点更新后的特征信息,包括:
在所述任一特征提取层中,将所述上一网络层输出的所述目标对象节点的特征信息,及进行过滤处理之后剩余的邻居对象节点的特征信息进行融合,将融合得到的特征信息作为所述目标对象节点更新后的特征信息。
11.根据权利要求1所述的方法,其特征在于,所述对所述至少两个同构图的特征信息进行融合,得到融合特征信息,包括:
基于特征融合模型对所述至少两个同构图的特征信息进行融合,得到所述融合特征信息。
12.根据权利要求10所述的方法,其特征在于,所述特征融合模型至少包括加权层及融合层,所述基于特征融合模型对所述至少两个同构图的特征信息进行融合,得到所述融合特征信息,包括:
在所述加权层中,获取所述至少两个同构图的权值;
在所述融合层中,根据所述至少两个同构图的权值,对所述至少两个同构图的特征信息进行加权融合,得到所述融合特征信息。
13.一种特征信息获取装置,其特征在于,所述装置包括:
异构图获取模块,用于获取异构图,所述异构图包括至少两个对象节点及至少一个数据节点,其中任一对象节点与任一数据节点连接表示所述任一对象节点所属的对象与所述任一数据节点所属的数据关联;
同构图获取模块,用于根据所述异构图,获取至少两个同构图,每个同构图包括至少两个对象节点,其中任两个对象节点连接表示所述异构图中所述任两个对象节点所属的对象与同一数据节点所属的数据关联;
融合特征获取模块,用于获取所述至少两个同构图的特征信息,对所述至少两个同构图的特征信息进行融合,得到融合特征信息;
节点特征获取模块,用于从所述融合特征信息中,获取目标对象节点的特征信息。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如权利要求1至12任一权利要求所述的特征信息获取方法中所执行的操作。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至12任一权利要求所述的特征信息获取方法中所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010092424.0A CN111325258B (zh) | 2020-02-14 | 2020-02-14 | 特征信息获取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010092424.0A CN111325258B (zh) | 2020-02-14 | 2020-02-14 | 特征信息获取方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111325258A true CN111325258A (zh) | 2020-06-23 |
CN111325258B CN111325258B (zh) | 2023-10-24 |
Family
ID=71168946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010092424.0A Active CN111325258B (zh) | 2020-02-14 | 2020-02-14 | 特征信息获取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111325258B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860403A (zh) * | 2020-07-28 | 2020-10-30 | 商汤国际私人有限公司 | 场景信息的检测方法和装置、电子设备 |
CN112035669A (zh) * | 2020-09-09 | 2020-12-04 | 中国科学技术大学 | 基于传播异质图建模的社交媒体多模态谣言检测方法 |
CN112182424A (zh) * | 2020-11-11 | 2021-01-05 | 重庆邮电大学 | 一种基于异构信息和同构信息网络融合的社交推荐方法 |
CN112487176A (zh) * | 2020-11-26 | 2021-03-12 | 北京智源人工智能研究院 | 社交机器人检测方法、系统、存储介质和电子设备 |
CN112801268A (zh) * | 2020-12-30 | 2021-05-14 | 上海大学 | 基于图卷积和多层感知机混合网络的定位方法 |
CN113378983A (zh) * | 2021-07-05 | 2021-09-10 | 北京沃东天骏信息技术有限公司 | 虚假评论检测方法、装置、存储介质与电子设备 |
CN113487109A (zh) * | 2021-07-27 | 2021-10-08 | 中国平安财产保险股份有限公司 | 群体识别方法、装置、电子设备及存储介质 |
CN113553446A (zh) * | 2021-07-28 | 2021-10-26 | 厦门国际银行股份有限公司 | 一种基于异构图解构的金融反欺诈方法及装置 |
CN113781139A (zh) * | 2020-10-19 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 物品推荐方法、物品推荐装置、设备和介质 |
CN114022058A (zh) * | 2022-01-06 | 2022-02-08 | 成都晓多科技有限公司 | 基于时序知识图谱的中小企业失信风险预测方法 |
CN114119191A (zh) * | 2020-08-28 | 2022-03-01 | 马上消费金融股份有限公司 | 风控方法、逾期预测方法、模型训练方法及相关设备 |
CN114971878A (zh) * | 2022-06-17 | 2022-08-30 | 平安科技(深圳)有限公司 | 风险评估方法、风险评估装置、设备及存储介质 |
CN115453356A (zh) * | 2022-09-06 | 2022-12-09 | 上海电力大学 | 一种动力设备运行状态监测分析方法、系统、终端及介质 |
CN116680633A (zh) * | 2023-05-06 | 2023-09-01 | 国网四川省电力公司广安供电公司 | 基于多任务学习的异常用户检测方法、系统及存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011036809A1 (ja) * | 2009-09-28 | 2011-03-31 | 株式会社 東芝 | 異常判定システムおよびその方法 |
US20140229493A1 (en) * | 2011-09-23 | 2014-08-14 | Inria-Institu National De Recherche En Informatique Et En Automatique | Ranking of heterogeneous information objects |
US20150332158A1 (en) * | 2014-05-16 | 2015-11-19 | International Business Machines Corporation | Mining strong relevance between heterogeneous entities from their co-ocurrences |
US20160057159A1 (en) * | 2014-08-22 | 2016-02-25 | Syracuse University | Semantics-aware android malware classification |
CN105740386A (zh) * | 2016-01-27 | 2016-07-06 | 北京航空航天大学 | 基于排序集成的论文搜索方法及装置 |
CN109472626A (zh) * | 2018-11-26 | 2019-03-15 | 浙江大学 | 一种面向手机租赁业务的智能金融风险控制方法及系统 |
CN109615167A (zh) * | 2018-11-06 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 确定疑似批量风险交易事件的方法、装置和电子设备 |
CN109801705A (zh) * | 2018-12-12 | 2019-05-24 | 平安科技(深圳)有限公司 | 治疗推荐方法、系统、装置及存储介质 |
WO2019101021A1 (zh) * | 2017-11-23 | 2019-05-31 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置及电子设备 |
CN110263847A (zh) * | 2019-06-18 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 轨迹获取方法、装置、计算机设备及存储介质 |
CN110413897A (zh) * | 2019-06-14 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 用户兴趣挖掘方法、装置、存储介质和计算机设备 |
US20190384495A1 (en) * | 2018-06-19 | 2019-12-19 | Trilio Data, Inc. | Object Store Backup Method and System |
CN110602101A (zh) * | 2019-09-16 | 2019-12-20 | 北京三快在线科技有限公司 | 网络异常群组的确定方法、装置、设备及存储介质 |
CN110659799A (zh) * | 2019-08-14 | 2020-01-07 | 深圳壹账通智能科技有限公司 | 基于关系网络的属性信息处理方法、装置、计算机设备和存储介质 |
CN110677284A (zh) * | 2019-09-24 | 2020-01-10 | 北京工商大学 | 一种基于元路径的异构网络链路预测的方法 |
-
2020
- 2020-02-14 CN CN202010092424.0A patent/CN111325258B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011036809A1 (ja) * | 2009-09-28 | 2011-03-31 | 株式会社 東芝 | 異常判定システムおよびその方法 |
US20140229493A1 (en) * | 2011-09-23 | 2014-08-14 | Inria-Institu National De Recherche En Informatique Et En Automatique | Ranking of heterogeneous information objects |
US20150332158A1 (en) * | 2014-05-16 | 2015-11-19 | International Business Machines Corporation | Mining strong relevance between heterogeneous entities from their co-ocurrences |
US20160057159A1 (en) * | 2014-08-22 | 2016-02-25 | Syracuse University | Semantics-aware android malware classification |
CN105740386A (zh) * | 2016-01-27 | 2016-07-06 | 北京航空航天大学 | 基于排序集成的论文搜索方法及装置 |
WO2019101021A1 (zh) * | 2017-11-23 | 2019-05-31 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置及电子设备 |
US20190384495A1 (en) * | 2018-06-19 | 2019-12-19 | Trilio Data, Inc. | Object Store Backup Method and System |
CN109615167A (zh) * | 2018-11-06 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 确定疑似批量风险交易事件的方法、装置和电子设备 |
CN109472626A (zh) * | 2018-11-26 | 2019-03-15 | 浙江大学 | 一种面向手机租赁业务的智能金融风险控制方法及系统 |
CN109801705A (zh) * | 2018-12-12 | 2019-05-24 | 平安科技(深圳)有限公司 | 治疗推荐方法、系统、装置及存储介质 |
CN110413897A (zh) * | 2019-06-14 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 用户兴趣挖掘方法、装置、存储介质和计算机设备 |
CN110263847A (zh) * | 2019-06-18 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 轨迹获取方法、装置、计算机设备及存储介质 |
CN110659799A (zh) * | 2019-08-14 | 2020-01-07 | 深圳壹账通智能科技有限公司 | 基于关系网络的属性信息处理方法、装置、计算机设备和存储介质 |
CN110602101A (zh) * | 2019-09-16 | 2019-12-20 | 北京三快在线科技有限公司 | 网络异常群组的确定方法、装置、设备及存储介质 |
CN110677284A (zh) * | 2019-09-24 | 2020-01-10 | 北京工商大学 | 一种基于元路径的异构网络链路预测的方法 |
Non-Patent Citations (2)
Title |
---|
GONG等: ""A coupling translation network for change detection in heterogeneous images"", 《INTERNATIONAL JOURNAL OF REMOTE SENSING》, vol. 40, no. 9, pages 3647 - 3672 * |
蓝利君等: ""融合小波变换和颜色聚类的车牌定位方法"", 《世界科技研究与发展》, vol. 35, no. 1, pages 65 - 68 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111860403A (zh) * | 2020-07-28 | 2020-10-30 | 商汤国际私人有限公司 | 场景信息的检测方法和装置、电子设备 |
CN114119191A (zh) * | 2020-08-28 | 2022-03-01 | 马上消费金融股份有限公司 | 风控方法、逾期预测方法、模型训练方法及相关设备 |
CN112035669A (zh) * | 2020-09-09 | 2020-12-04 | 中国科学技术大学 | 基于传播异质图建模的社交媒体多模态谣言检测方法 |
CN113781139A (zh) * | 2020-10-19 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 物品推荐方法、物品推荐装置、设备和介质 |
CN112182424B (zh) * | 2020-11-11 | 2023-01-31 | 重庆邮电大学 | 一种基于异构信息和同构信息网络融合的社交推荐方法 |
CN112182424A (zh) * | 2020-11-11 | 2021-01-05 | 重庆邮电大学 | 一种基于异构信息和同构信息网络融合的社交推荐方法 |
CN112487176A (zh) * | 2020-11-26 | 2021-03-12 | 北京智源人工智能研究院 | 社交机器人检测方法、系统、存储介质和电子设备 |
CN112801268A (zh) * | 2020-12-30 | 2021-05-14 | 上海大学 | 基于图卷积和多层感知机混合网络的定位方法 |
CN112801268B (zh) * | 2020-12-30 | 2022-09-13 | 上海大学 | 基于图卷积和多层感知机混合网络的定位方法 |
CN113378983A (zh) * | 2021-07-05 | 2021-09-10 | 北京沃东天骏信息技术有限公司 | 虚假评论检测方法、装置、存储介质与电子设备 |
CN113487109A (zh) * | 2021-07-27 | 2021-10-08 | 中国平安财产保险股份有限公司 | 群体识别方法、装置、电子设备及存储介质 |
CN113487109B (zh) * | 2021-07-27 | 2023-11-24 | 中国平安财产保险股份有限公司 | 群体识别方法、装置、电子设备及存储介质 |
CN113553446A (zh) * | 2021-07-28 | 2021-10-26 | 厦门国际银行股份有限公司 | 一种基于异构图解构的金融反欺诈方法及装置 |
CN113553446B (zh) * | 2021-07-28 | 2022-05-24 | 厦门国际银行股份有限公司 | 一种基于异构图解构的金融反欺诈方法及装置 |
CN114022058A (zh) * | 2022-01-06 | 2022-02-08 | 成都晓多科技有限公司 | 基于时序知识图谱的中小企业失信风险预测方法 |
CN114971878A (zh) * | 2022-06-17 | 2022-08-30 | 平安科技(深圳)有限公司 | 风险评估方法、风险评估装置、设备及存储介质 |
CN114971878B (zh) * | 2022-06-17 | 2024-07-12 | 平安科技(深圳)有限公司 | 风险评估方法、风险评估装置、设备及存储介质 |
CN115453356A (zh) * | 2022-09-06 | 2022-12-09 | 上海电力大学 | 一种动力设备运行状态监测分析方法、系统、终端及介质 |
CN115453356B (zh) * | 2022-09-06 | 2023-05-30 | 上海电力大学 | 一种动力设备运行状态监测分析方法、系统、终端及介质 |
CN116680633A (zh) * | 2023-05-06 | 2023-09-01 | 国网四川省电力公司广安供电公司 | 基于多任务学习的异常用户检测方法、系统及存储介质 |
CN116680633B (zh) * | 2023-05-06 | 2024-01-26 | 国网四川省电力公司广安供电公司 | 基于多任务学习的异常用户检测方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111325258B (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325258A (zh) | 特征信息获取方法、装置、设备及存储介质 | |
CN111461089B (zh) | 一种人脸检测的方法、人脸检测模型的训练方法及装置 | |
CN111298445B (zh) | 目标账号检测方法、装置、电子设备及存储介质 | |
CN111914812B (zh) | 图像处理模型训练方法、装置、设备及存储介质 | |
CN111489378B (zh) | 视频帧特征提取方法、装置、计算机设备及存储介质 | |
CN108121952A (zh) | 人脸关键点定位方法、装置、设备及存储介质 | |
CN112069414A (zh) | 推荐模型训练方法、装置、计算机设备及存储介质 | |
CN111931877B (zh) | 目标检测方法、装置、设备及存储介质 | |
CN112036331B (zh) | 活体检测模型的训练方法、装置、设备及存储介质 | |
CN112749728A (zh) | 学生模型训练方法、装置、计算机设备及存储介质 | |
CN111104980B (zh) | 确定分类结果的方法、装置、设备及存储介质 | |
CN113515942A (zh) | 文本处理方法、装置、计算机设备及存储介质 | |
CN111737573A (zh) | 资源推荐方法、装置、设备及存储介质 | |
CN112733970B (zh) | 图像分类模型处理方法、图像分类方法及装置 | |
CN111984803B (zh) | 多媒体资源处理方法、装置、计算机设备及存储介质 | |
CN112115900B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN114511864B (zh) | 文本信息提取方法、目标模型的获取方法、装置及设备 | |
CN113724189A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN113205183A (zh) | 物品推荐网络训练方法、装置、电子设备及存储介质 | |
CN114359225A (zh) | 图像检测方法、装置、计算机设备及存储介质 | |
CN111931075B (zh) | 一种内容推荐方法、装置、计算机设备及存储介质 | |
CN113570510A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN113763931A (zh) | 波形特征提取方法、装置、计算机设备及存储介质 | |
CN114898282A (zh) | 图像处理方法及装置 | |
CN113139614A (zh) | 特征提取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40023716 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |