CN115630973A - 用户数据处理方法、装置、计算机设备和存储介质 - Google Patents

用户数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN115630973A
CN115630973A CN202211119876.9A CN202211119876A CN115630973A CN 115630973 A CN115630973 A CN 115630973A CN 202211119876 A CN202211119876 A CN 202211119876A CN 115630973 A CN115630973 A CN 115630973A
Authority
CN
China
Prior art keywords
target
node
user
feature
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211119876.9A
Other languages
English (en)
Inventor
吴嘉婧
刘洁利
郭海旭
蔡倬
方耀
郑子彬
张文锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Merchants Union Consumer Finance Co Ltd
Sun Yat Sen University
Original Assignee
Merchants Union Consumer Finance Co Ltd
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Merchants Union Consumer Finance Co Ltd, Sun Yat Sen University filed Critical Merchants Union Consumer Finance Co Ltd
Priority to CN202211119876.9A priority Critical patent/CN115630973A/zh
Publication of CN115630973A publication Critical patent/CN115630973A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Game Theory and Decision Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种用户数据处理方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:获取目标用户关系图;目标用户关系图包括多个用户节点、用户节点之间的连接关系、各个用户节点的基础特征向量和标签特征向量;确定目标节点,基于用户节点之间的连接关系确定目标节点对应的各个邻居节点;聚合各个邻居节点的基础特征向量和标签特征向量,得到目标节点对应的基础特征聚合向量和标签特征聚合向量;拼接目标节点的基础特征向量、基础特征聚合向量和标签特征聚合向量得到目标特征增强向量;将目标特征增强向量输入目标账户状态预测模型,得到目标节点对应的目标账户的账户状态预测结果。采用本方法能够提高用户数据处理的准确性。

Description

用户数据处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种用户数据处理方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着计算机技术的发展,越来越多的企业开始为用户提供线上服务,人们可以通过注册账户来获得企业提供的线上服务,对于企业则需要对海量的用户数据进行处理,从而预测账户状态。基于图卷积神经网络技术预测账户状态是常用的账户状态预测方法。
然而,传统方法中,在采用图卷积神经网络对用户数据进行处理时,存在对图数据信息利用不充分的问题,因此无法得到准确的用户数据处理结果。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高用户数据处理准确性的用户数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
本申请提供了一种用户数据处理方法。所述方法包括:
获取目标用户关系图;目标用户关系图包括多个用户节点、用户节点之间的连接关系、各个用户节点对应的基础特征向量和标签特征向量,标签特征向量是基于用户节点对应的账户的历史异常行为得到的;
从各个用户节点中确定目标节点,基于用户节点之间的连接关系确定目标节点对应的各个邻居节点;
聚合各个邻居节点对应的基础特征向量,得到目标节点对应的基础特征聚合向量,聚合各个邻居节点对应的标签特征向量,得到目标节点对应的标签特征聚合向量;
拼接目标节点对应的基础特征向量、基础特征聚合向量和标签特征聚合向量,得到目标节点对应的目标特征增强向量;
将目标特征增强向量输入目标账户状态预测模型,得到目标节点对应的目标账户的账户状态预测结果。
本申请还提供了一种用户数据处理装置。所述装置包括:
目标用户关系图获取模块,用于获取目标用户关系图;目标用户关系图包括多个用户节点、用户节点之间的连接关系、各个用户节点对应的基础特征向量和标签特征向量,标签特征向量是基于用户节点对应的账户的历史异常行为得到的;
邻居节点确定模块,用于从各个用户节点中确定目标节点,基于用户节点之间的连接关系确定目标节点对应的各个邻居节点;
特征聚合向量确定模块,用于聚合各个邻居节点对应的基础特征向量,得到目标节点对应的基础特征聚合向量,聚合各个邻居节点对应的标签特征向量,得到目标节点对应的标签特征聚合向量;
目标特征增强向量确定模块,用于拼接目标节点对应的基础特征向量、基础特征聚合向量和标签特征聚合向量,得到目标节点对应的目标特征增强向量;
账户状态预测结果确定模块,用于将目标特征增强向量输入目标账户状态预测模型,得到目标节点对应的目标账户的账户状态预测结果。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述用户数据处理方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述用户数据处理方法的步骤。
一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现上述用户数据处理方法的步骤。
上述用户数据处理方法、装置、计算机设备、存储介质和计算机程序产品,通过获取目标用户关系图;目标用户关系图包括多个用户节点、用户节点之间的连接关系、各个用户节点对应的基础特征向量和标签特征向量,标签特征向量是基于用户节点对应的账户的历史异常行为得到的;从各个用户节点中确定目标节点,基于用户节点之间的连接关系确定目标节点对应的各个邻居节点;聚合各个邻居节点对应的基础特征向量,得到目标节点对应的基础特征聚合向量,聚合各个邻居节点对应的标签特征向量,得到目标节点对应的标签特征聚合向量;拼接目标节点对应的基础特征向量、基础特征聚合向量和标签特征聚合向量,得到目标节点对应的目标特征增强向量;将目标特征增强向量输入目标账户状态预测模型,得到目标节点对应的目标账户的账户状态预测结果。这样,基础特征聚合向量聚合了目标节点高阶领域的基础特征信息,标签特征向量聚合了目标节点高阶领域的标签特征信息。通过拼接目标节点对应的基础特征向量、基础特征聚合向量和标签特征聚合向量得到的目标特征增强向量,是在目标节点原始基础特征的基础上,聚合了目标用户高阶领域的基础特征信息和标签特征信息,也就是充分利用了目标用户关系图中的连接关系、各个用户节点对应的基础特征信息和标签特征信息来扩充目标节点对应的特征信息,使得目标特征增强向量可以更有效、更准确地反映目标节点对应的特征信息,从而有助于提高用户数据处理的准确性。将目标特征增强向量输入目标账户状态预测模型来预测目标节点对应的目标账户的账户状态,有助于增强账户状态预测结果的可靠性和提高用户数据处理的准确性。
附图说明
图1为一个实施例中用户数据处理方法的应用环境图;
图2为一个实施例中用户数据处理方法的流程示意图;
图3为一个实施例中确定目标节点对应的各个邻居节点的流程示意图;
图4为一个实施例中基于图数据扩充的风险用户预测模型的架构示意图;
图5为一个实施例中用户数据处理装置的结构框图;
图6为另一个实施例中用户数据处理装置的结构框图;
图7为一个实施例中计算机设备的内部结构图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的用户数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能电视、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
终端和服务器均可单独用于执行本申请实施例中提供的用户数据处理方法。
例如,终端获取目标用户关系图,目标用户关系图包括多个用户节点、用户节点之间的连接关系、各个用户节点对应的基础特征向量和标签特征向量,标签特征向量是基于用户节点对应的账户的历史异常行为得到的。终端从各个用户节点中确定目标节点,基于用户节点之间的连接关系确定目标节点对应的各个邻居节点。终端聚合各个邻居节点对应的基础特征向量,得到目标节点对应的基础特征聚合向量,聚合各个邻居节点对应的标签特征向量,得到目标节点对应的标签特征聚合向量。终端拼接目标节点对应的基础特征向量、基础特征聚合向量和标签特征聚合向量,得到目标节点对应的目标特征增强向量。终端将目标特征增强向量输入目标账户状态预测模型,得到目标节点对应的目标账户的账户状态预测结果。
终端和服务器也可协同用于执行本申请实施例中提供的用户数据处理方法。
例如,终端向服务器发送用户数据处理请求,用户数据处理请求携带目标用户对应的用户标识。服务器基于用户标识获取目标用户关系图;目标用户关系图包括多个用户节点、用户节点之间的连接关系、各个用户节点对应的基础特征向量和标签特征向量,标签特征向量是基于用户节点对应的账户的历史异常行为得到的。服务器从各个用户节点中确定目标节点,基于用户节点之间的连接关系确定目标节点对应的各个邻居节点。服务器聚合各个邻居节点对应的基础特征向量,得到目标节点对应的基础特征聚合向量,聚合各个邻居节点对应的标签特征向量,得到目标节点对应的标签特征聚合向量。服务器拼接目标节点对应的基础特征向量、基础特征聚合向量和标签特征聚合向量,得到目标节点对应的目标特征增强向量。服务器将目标特征增强向量输入目标账户状态预测模型,得到目标节点对应的目标账户的账户状态预测结果。服务器将目标节点对应的目标账户的账户状态预测结果发送至终端。终端可以将账户状态预测结果进行显示,也可以基于账户状态预测结果对目标账户进行相应的处理。
在一个实施例中,如图2所示,提供了一种用户数据处理方法,以该方法应用于计算机设备为例进行说明,计算机设备可以是终端或服务器,由终端或服务器自身单独执行,也可以通过终端和服务器之间的交互来实现。用户数据处理方法包括以下步骤:
步骤S202,获取目标用户关系图;目标用户关系图包括多个用户节点、用户节点之间的连接关系、各个用户节点对应的基础特征向量和标签特征向量,标签特征向量是基于用户节点对应的账户的历史异常行为得到的。
其中,用户关系图是指反映多个用户之间关联关系的图像。用户关系图包括多个用户节点,一个用户节点代表一个用户。在用户关系图中,存在关联关系的用户对应的用户节点之间存在连接关系。在用户关系图中,各个用户节点还存在对应的基础特征向量和标签特征向量。基础特征向量是指由用户节点对应的账户的基础信息构成的特征向量,用于表征用户的基础特征信息,例如,账户的基础信息可以包括账户创建渠道、账户登陆设备、用户属性等信息中的至少一种。用户属性包括用户的年龄、学历、职业等属性中的至少一种。标签特征向量是指由用户节点对应的账户的标签信息构成的特征向量,用于表征用户在历史时间段内存在的异常行为。标签信息可以包括用户节点对应的账户的历史异常行为的行为信息,例如,账户的标签信息可以包括行为标签、异常时间、异常次数等信息中的至少一种。历史异常行为是指用户节点对应的账户在历史时间段内存在的异常行为,例如,逾期行为、异常登录行为。以逾期行为为例,账户的标签信息可以包括逾期标签、逾期数额、逾期时间等信息。
目标用户关系图是指最终使用的用户关系图,目标用户关系图可以是原始的用户关系图,也可以是对原始用户关系图进行数据处理得到新用户关系图。
示例性地,计算机设备在本地或从其他设备上获取目标用户关系图,基于目标用户关系图来预测目标用户关系图中任意用户节点对应的账户的账户状态。
步骤S204,从各个用户节点中确定目标节点,基于用户节点之间的连接关系确定目标节点对应的各个邻居节点。
其中,目标节点是指需要预测其对应的账户的账户状态的节点,目标节点可以是目标用户关系图中任意的用户节点。例如,可以将目标用户关系图中各个用户节点分别作为目标节点。目标节点可以是人为选择的,例如,提供相应的界面来采集人为录入的节点选择信息以确定目标节点。
邻居节点是指与目标节点之间存在直接连接关系或者间接连接关系的用户节点。两个用户节点之间存在直接连接关系是指两个用户节点之间存在连接关系,两个用户节点之间存在间接连接关系是指两个用户节点之间不存在连接关系,需要通过目标用户关系图中各个用户节点之间的连接关系间接地将两个用户节点连接起来。例如,在目标用户关系图中,用户节点A和用户节点B之间不存在连接关系,用户节点A和用户节点C之间存在连接关系,用户节点C和用户B之间存在连接关系,那么用户节点A和用户节点C之间存在直接连接关系,用户节点C和用户节点B之间存在直接连接关系,用户节点A可以通过用户节点C连接用户节点B,那么用户节点A和用户节点B之间存在间接连接关系。
示例性地,计算机设备从目标用户关系图中的各个用户节点中确定目标节点,基于目标用户关系图中各个用户节点之间的连接关系,将与目标节点存在直接连接关系或间接连接关系的用户节点作为目标节点对应的邻居节点。
步骤S206,聚合各个邻居节点对应的基础特征向量,得到目标节点对应的基础特征聚合向量,聚合各个邻居节点对应的标签特征向量,得到目标节点对应的标签特征聚合向量。
其中,基础特征聚合向量是指由目标节点对应的各个邻居节点的基础特征向量聚合得到的特征向量,用于表征目标节点高阶领域的基础特征信息。标签特征聚合向量是指由目标节点对应的各个邻居节点的标签特征向量聚合得到的特征向量,用于表征目标节点高阶领域的标签特征信息。
示例性地,计算机设备获取目标节点的各个邻居节点分别对应的基础特征向量和标签特征向量,将各个邻居节点分别对应的基础特征向量进行聚合得到目标节点对应的基础特征聚合向量,将各个邻居节点分别对应的标签特征向量进行聚合得到目标节点对应的标签特征聚合向量。
在一个实施例中,对基础特征向量、标签特征向量进行聚合时可以使用中位数聚合、最大值聚合等方法。例如,在对基础特征向量聚合时,从属于同一邻居等级的各个邻居节点对应的基础特征向量中获取中位值或最大值作为参考特征向量,得到各个邻居等级分别对应的参考特征向量,基于各个邻居等级分别对应的参考特征向量得到基础特征聚合向量。
步骤S208,拼接目标节点对应的基础特征向量、基础特征聚合向量和标签特征聚合向量,得到目标节点对应的目标特征增强向量。
其中,特征增强向量是指基于节点对应的基础特征增强向量和标签特征增强向量,对节点对应的基础特征向量进行增强后得到的向量。目标特征增强向量是指目标节点对应的特征增强向量。
示例性地,计算机设备拼接目标节点对应的基础特征向量、基础特征聚合向量和标签特征聚合向量,得到目标节点对应的目标特征增强向量。
步骤S210,将目标特征增强向量输入目标账户状态预测模型,得到目标节点对应的目标账户的账户状态预测结果。
其中,目标账户状态预测模型是指经过训练的账户状态预测模型,用于预测账户状态。账户状态预测模型的输入数据是节点对应的特征增强向量,输出数据是节点对应的账户的账户状态。
目标账户是指目标节点对应的用户所使用的账户。账户状态预测结果是指账户对应的状态预测结果,分为异常状态和正常状态。
示例性地,计算机设备将目标节点对应的目标特征增强向量输入目标账户状态预测模型,经过模型的数据处理,目标账户状态预测模型输出目标节点对应的目标账户的账户状态预测结果。若账户状态预测结果为异常状态,计算机设备可以生成提示信息并发送至相关终端,以提示相关人员。例如,若目标账户为贷款账户,账户预测结果为异常状态,则发送提示信息至借贷服务提供商的相关工作人员对应的终端,以提示相关工作人员该贷款账户的账户状态预测结果为异常状态,相关工作人员可以降低该贷款账户的贷款额度。若目标账户为书籍借阅账户,账户预测结果为异常状态,则发送提示信息至书籍借阅服务提供商的相关工作人员对应的终端,以提示相关工作人员该书籍借阅账户的账户状态预测结果为异常状态,相关工作人员可以降低该书籍借阅账户的最大借阅书籍数量或最大借阅书籍时间。
上述用户数据处理方法中,通过获取目标用户关系图;目标用户关系图包括多个用户节点、用户节点之间的连接关系、各个用户节点对应的基础特征向量和标签特征向量,标签特征向量是基于用户节点对应的账户的历史异常行为得到的;从各个用户节点中确定目标节点,基于用户节点之间的连接关系确定目标节点对应的各个邻居节点;聚合各个邻居节点对应的基础特征向量,得到目标节点对应的基础特征聚合向量,聚合各个邻居节点对应的标签特征向量,得到目标节点对应的标签特征聚合向量;拼接目标节点对应的基础特征向量、基础特征聚合向量和标签特征聚合向量,得到目标节点对应的目标特征增强向量;将目标特征增强向量输入目标账户状态预测模型,得到目标节点对应的目标账户的账户状态预测结果。这样,基础特征聚合向量聚合了目标节点高阶领域的基础特征信息,标签特征向量聚合了目标节点高阶领域的标签特征信息。通过拼接目标节点对应的基础特征向量、基础特征聚合向量和标签特征聚合向量得到的目标特征增强向量,是在目标节点原始基础特征的基础上,聚合了目标用户高阶领域的基础特征信息和标签特征信息,也就是充分利用了目标用户关系图中的连接关系、各个用户节点对应的基础特征信息和标签特征信息来扩充目标节点对应的特征信息,使得目标特征增强向量可以更有效、更准确地反映目标节点对应的特征信息,从而有助于提高用户数据处理的准确性。将目标特征增强向量输入目标账户状态预测模型来预测目标节点对应的目标账户的账户状态,有助于增强账户状态预测结果的可靠性和提高用户数据处理的准确性。
在一个实施例中,获取目标用户关系图,包括:
获取初始用户关系图;计算初始用户关系图中各个用户节点的基础特征向量分别与其他用户节点的基础特征向量之间的特征相似度;基于特征相似度,对初始用户关系图中的连接关系进行扩充,得到目标用户关系图。
其中,初始用户关系图是指初始的、原始的用户关系图。特征相似度是指两个用户节点对应的基础特征向量之间的相似程度,可以用于判断两个用户节点之间是否需要增加连接关系。
示例性地,计算机设备获取初始用户关系图,基于初始用户关系图,得到各个用户节点分别对应的基础特征向量,计算各个用户节点的基础特征向量分别与其他用户节点的基础特征向量之间的特征相似度。基于各个用户节点和其他用户节点之间的特征相似度的大小,给初始用户关系图中的各个用户节点增加连接关系,得到目标用户关系图。例如,对于初始用户关系图中的每个用户节点,可以将每个用户节点与其他用户节点之间的特征相似度按照数值大小进行降序排序,再选取前k个特征相似度对应的用户节点和该用户节点建立连接关系,k的值可以根据实际需要进行设置,例如,k可以为20、50、100等,如果两个用户节点之间已经存在连接关系,则不需要重复建立连接关系。对于初始用户关系图中的每个用户节点,也可以将每个用户节点和其他用户节点之间的特征相似度与预设值进行比较,若两个用户节点之间的特征相似度大于预设值并且两个用户节点之间不存在连接关系,则给这两个用户节点建立连接关系,预设值可以根据实际需要进行设置,例如,预设值可以为0.7、0.8、0.9等;等等。
上述实施例中,计算机设备获取初始用户关系图,计算初始用户关系图中各个用户节点对应的基础特征向量之间的特征相似度,基于各个用户节点的基础特征向量和其他节点的基础特征向量之间的特征相似度的大小,给初始用户关系图中的各个用户节点增加连接关系得到目标用户关系图,这样可以增强初始用户关系图中各个用户节点之间的关联,减轻用户节点之间关联稀疏的问题,使得各个用户节点的数据信息在之后的用户数据处理中都可以被充分地利用,从而提高用户数据处理的可靠性。
在一个实施例中,如图3所示,基于用户节点之间的连接关系确定目标节点对应的各个邻居节点,包括:
步骤S302,将与目标节点存在直接连接关系的用户节点作为第一类邻居节点。
步骤S304,将与目标节点存在间接连接关系的用户节点作为第二类邻居节点。
步骤S306,将第一类邻居节点和第二类邻居节点作为目标节点对应的各个邻居节点。
其中,一个节点对应的邻居节点包括第一类邻居节点和第二类邻居节点。第一类邻居节点是指和目标节点之间存在连接关系的用户节点。第二类邻居节点是指和目标节点之间不存在连接关系,需要通过目标用户关系图中各个用户节点之间的连接关系间接地和目标节点连接起来的用户节点。
示例性地,目标节点对应的各个邻居节点包括第一类邻居节点和第二类邻居节点。计算机设备在目标用户关系图中查找所有和目标节点有直接连接关系的用户节点,将和目标节点有直接连接关系的用户节点作为目标节点对应的第一类邻居节点。在目标用户关系图中查找所有和目标节点有间接连接关系的用户节点,将和目标节点有间接连接关系的用户节点作为目标节点对应的第二类邻居节点。
上述实施例中,将与目标节点存在直接连接关系的用户节点作为第一类邻居节点,将与目标节点存在间接连接关系的用户节点作为第二类邻居节点,将第一类邻居节点和第二类邻居节点作为目标节点对应的各个邻居节点,可以使得所有与目标节点有直接连接关系或间接连接关系的用户节点都能够成为目标节点的邻居节点,能够增强目标用户关系图中各个用户节点之间的连接关系和各个用户节点对应的数据信息的利用率,提高用户数据处理的准确性和可靠性。
在一个实施例中,当前特征向量为基础特征向量或标签特征向量,聚合各个邻居节点对应的当前特征向量,得到目标节点对应的当前特征聚合向量,包括:
融合属于同一邻居等级的各个邻居节点对应的当前特征向量,得到各个邻居等级分别对应的初始特征向量;邻居节点的邻居等级是基于从目标节点到邻居节点途经的最短路径的连边数量确定的;基于同一邻居等级对应的初始特征向量和邻居节点数量的比值,得到各个邻居等级分别对应的中间特征向量;基于各个邻居等级分别对应的中间特征向量,得到当前特征聚合向量。
其中,邻居等级是指邻居节点的等级,用于表征目标节点和第二类邻居节点之间的距离,目标节点对应的用户和第二类邻居节点之间的关联程度。第二类邻居节点对应的邻居等级是基于从目标节点到第二类邻居节点途经的最短路径的连边数量确定的。
最短路径是指对于存在间接连接关系的两个用户节点,将两个用户节点连接起来的连接路径中经过的连边数量最少的路径。例如,在目标用户关系图中,若用户节点A和用户节点B之间不存在连接关系,但用户节点A和用户节点C之间存在连接关系,用户节点C和用户节点B之间存在连接关系,用户节点C和用户节点D之间存在连接关系,那么用户节点A可以通过用户节点C连接用户节点B,对应的连接路径为A-C-B,该连接路径对应的连边数量为2,用户节点A也可以先通过用户节点C,再通过用户节点D连接用户节点B,对应的连接路径为A-C-D-B,该连接路径对应的连边数量为3,此时从用户节点A到用户节点B的最短路径为A-C-B。
举例说明,在目标用户关系图中,若目标节点A存在一个第一类邻居节点B,存在两个第二类邻居节点C和D,并且目标节点A和第二类邻居节点C和第二类邻居节点D之间分别对应的最短路径为A-B-C和A-B-C-D,A-B-C和A-B-C-D分别对应的连边数量为2和3,则可以将第一类邻居节点B的邻居等级设置为1,将第二类邻居节点C的邻居等级设置为2,将第二类邻居节点D的邻居等级设置为3。
当前特征聚合向量为基础特征向量或标签特征向量。若当前特征聚合向量为基础特征向量,则通过聚合得到的当前特征聚合向量为基础特征聚合向量;若当前特征聚合向量为标签特征向量,则通过聚合得到的当前特征聚合向量为标签特征聚合向量。
示例性地,在聚合特征向量时,可以先按照邻居节点所属等级,将同一等级的邻居节点的特征向量进行聚合,再综合各个邻居等级的聚合结果得到最终的特征聚合向量。首先,计算机设备融合属于同一等级的各个邻居节点对应的当前特征向量,得到各个邻居等级分别对应的初始特征向量。接着,计算机设备计算同一邻居等级对应的初始特征向量和该邻居等级对应的邻居节点数量的比值作为中间特征向量,得到各个邻居等级分别对应的中间特征向量。最后,计算机设备融合各个邻居等级分别对应的中间特征向量,得到目标节点对应的当前特征聚合向量。
在一个实施例中,可以通过以下公式计算基础特征聚合向量:
Figure BDA0003846568100000121
其中,v为目标节点,l为目标节点对应的邻居等级的最大值,Ni(v)为目标节点对应的邻居等级为i的邻居节点的集合,Xu为邻居节点u对应的基础特征向量,
Figure BDA0003846568100000122
为目标节点对应的基础特征聚合向量。
在一个实施例中,可以通过以下公式计算标签特征聚合向量:
Figure BDA0003846568100000123
其中,Zu为邻居节点u对应的标签特征向量,
Figure BDA0003846568100000124
为目标节点对应的标签特征聚合向量。
上述实施例中,计算机设备按照邻居节点对应的邻居等级分级聚合各个邻居节点的当前特征向量,得到各个邻居等级分别对应的初始特征向量,再基于各个邻居等级分别对应的初始特征向量和该邻居等级对应的邻居节点数量得到中间特征向量,采用分级聚合的思想对各个邻居节点的初始特征向量进行聚合,使得最终得到的当前特征聚合向量能够更加准确地反映目标节点的高阶基础特征信息或高阶标签特征信息,从而提高用户数据处理的准确性。
在一个实施例中,用户数据处理方法还包括:
获取训练用户关系图;训练用户关系图包括多个初始训练节点;基于训练用户关系图生成各个初始训练节点分别对应的训练特征增强向量;基于初始训练节点对应的训练特征增强向量和训练标签,对初始账户状态预测模型进行模型训练,得到目标账户状态预测模型。
其中,训练用户关系图是指用于训练账户状态预测模型的用户关系图。初始训练节点是指训练用户关系图中的任意用户节点。训练特征增强向量是指初始训练节点对应的特征增强向量。训练标签是指表征训练节点对应账户是否出现异常行为的标签,训练标签分为异常标签和正常标签,异常标签表示出现异常行为,正常标签表示没有出现异常行为。初始账户状态预测模型是指没有经过模型训练的账户状态预测模型。
示例性地,计算机设备获取训练用户关系图,基于训练用户关系图中各个初始训练节点之间的连接关系、各个初始训练节点对应的基础特征向量和标签特征向量得到各个初始训练节点对应的训练特征增强向量。基于各个初始训练节点对应的训练特征增强向量和训练标签,对初始账户状态预测模型进行模型训练得到目标账户状态预测模型。
在一个实施例中,计算机设备将初始训练节点对应的训练特征增强向量输入初始账户状态预测模型,得到初始训练节点对应的预测标签,基于同一初始训练节点对应的预测标签和训练标签之间的差异生成训练损失,基于训练损失调整初始账户状态预测模型的模型参数,直至满足收敛条件,得到目标账户状态预测模型。其中,收敛条件包括但不限于训练损失大于预设阈值、训练迭代次数大于预设迭代次数等中的至少一种。在模型训练时,将训练特征增强向量作为模型的输入数据,将训练标签作为模型的预期输出数据,通过模型训练让模型输出的预测标签和训练标签一致或近似,使得模型具备基于特征增强向量预测账户状态的能力。
在一个实施例中,在进行模型训练时,可以使用交叉熵损失函数和Adam优化算法进行多次迭代优化得到训练后的模型。
上述实施例中,计算机设备获取训练用户关系图,基于训练用户关系图得到各个初始训练节点对应的训练特征增强向量,基于各个初始训练节点对应的训练特征增强向量和训练标签,训练初始账户状态预测模型得到目标账户状态预测模型,可以使得目标账户状态预测模型具备基于特征增强向量预测账户状态的能力,可以预测任意用户节点对应的账户的账户状态。
在一个实施例中,基于初始训练节点对应的训练特征增强向量和训练标签,对初始账户状态预测模型进行模型训练,得到目标账户状态预测模型,包括:
基于同一初始训练节点在训练用户关系图中的连边数量和对应的训练标签,生成各个初始训练节点分别对应的采样概率。基于采样概率,对各个初始训练节点进行采样得到目标训练节点。基于目标训练节点对应的训练特征增强向量和训练标签,对初始账户状态预测模型进行模型训练,得到目标账户状态预测模型。
其中,采样概率是指初始训练节点被采样的概率。目标训练节点是指从初始训练节点中采样得到的训练节点,用于训练初始账户状态预测模型。
示例性地,在进行模型训练时,除了将训练用户关系图中各个初始训练节点作为训练样本,也可以对各个初始训练节点进行采样,从初始训练节点筛选出目标训练节点作为训练样本。计算机设备可以基于训练用户关系图中各个初始训练节点分别对应的连边数量和训练标签,计算各个初始训练节点分别对应的采样概率,基于各个初始训练节点对应的采样概率,对各个初始训练节点进行采样得到目标训练节点。在计算采样概率时,可以将初始训练节点对应的连边数量和初始训练节点的训练标签所对应的初始训练节点数量进行加权融合得到初始训练节点对应的采样概率。在进行模型训练时,计算机设备基于各个目标训练节点对应的训练特征增强向量和训练标签对初始账户状态预测模型进行模型训练,得到目标账户状态预测模型。
上述实施例中,基于各个初始训练节点分别对应的连边数量和训练标签得到各个初始训练节点对应的采样概率,基于各个初始训练节点对应的采样概率对各个初始训练节点进行采样得到目标训练节点,使用目标训练节点对应的训练增强向量和训练标签对初始账户状态预测模型进行模型训练,可以优化初始账户状态预测模型训练的效果,提高用户数据处理的准确性。
在一个实施例中,采样概率与初始训练节点的连边数量呈正相关,与初始训练节点的训练标签对应的初始训练节点数量呈负相关。
示例性地,计算机设备基于训练用户关系图,获取各个初始训练节点在训练用户关系图中的连边数量,并统计训练用户关系图中具有相同训练标签的训练节点数量,得到各个不同训练标签对应的初始训练节点数量。例如,在一个训练用户关系图中,训练标签分为逾期标签和未逾期标签,有10个初始训练节点对应的训练标签为逾期标签,有200个初始训练节点对应的训练标签为未逾期标签,则逾期标签对应的初始训练节点数量为10,未逾期标签对应的初始训练节点数量为200。基于同一初始训练节点的训练标签对应的初始训练节点数量和连边数量生成初始训练节点的采样概率,得到各个初始训练节点对应的采样概率。采样概率与初始训练节点的连边数量呈正相关,连边数量较多的训练节点携带的数据信息更丰富,这样的训练节点的相关数据有助于提高模型的训练质量,提高模型的预测能力。采样概率与初始训练节点的训练标签对应的初始训练节点数量呈负相关,可以提高训练节点数量较少的训练标签对应的训练节点被采样的概率,使得模型的训练样本集中不同训练标签的训练样本数量比较均衡。
上述实施例中,在生成各个初始训练节点的采样概率时,参考了各个初始训练节点对应的训练标签和初始训练节点数量。采样概率和初始训练节点对应的连边数量呈正相关,能够减缓由于训练节点连边稀疏带来的冷启动问题,也就是连边数量较多的训练节点携带的数据信息往往比连边数量较少的训练节点携带的数据信息具有更强的影响力,使用具有连边数量越多的训练节点来训练初始账户状态预测模型得到目标账户状态预测模型,可以提高目标账户状态预测模型对用户节点的账户状态预测结果的准确性。采样概率和初始训练节点对应的训练标签对应的初始训练节点数量呈负相关,可以减缓在不同训练标签对应的训练样本数量差距过大时存在的样本不均衡问题,从而优化初始账户状态预测模型训练的效果,提高用户数据处理的准确性。
在一个具体的实施例中,本申请的用户数据处理方法可以应用于对借贷用户进行用户数据处理。首先获取各个借贷用户对应账户的特征信息和标签信息,基于特征信息生成各个账户对应的基础特征向量,并提取账户之间的关联关系,基于标签信息生成各个账户对应的标签特征向量。基于各个账户之间的关联关系,生成初始用户关系图。计算各个用户节点对应的基础特征向量之间的特征相似度,基于特征相似度给各个用户节点补充连接关系,得到目标用户关系图。从目标用户关系图中确定目标节点,聚合目标节点对应的邻居节点的基础特征向量和标签特征向量得到基础特征聚合向量和标签特征聚合向量,拼接目标节点对应的基础特征向量、基础特征聚合向量和标签特征聚合向量得到目标特征增强向量。获取训练用户关系图,基于初始训练节点的连边数量和训练标签,对初始训练节点进行采样得到目标训练节点,将各个目标训练节点对应的训练特征增强向量作为初始逾期风险预测模型的输入进行训练得到目标逾期风险预测模型。将目标节点的目标特征增强向量输入到目标逾期风险预测模型,得到目标账户的逾期风险预测结果。
用户数据处理方法包括以下步骤:
1、用户信息获取与特征处理
以用户ID为主键从数据库中检索与用户对应账户的相关的资料信息,资料信息包括账户创建渠道、关联企业、登录设备等信息。对资料信息进行缺失值补全、异常值处理、脱敏编码和归一化处理,并用决策树模型计算特征重要性,确定重要特征,基于重要特征生成各个账户的基础特征向量。获取各个账户来自历史借贷业务的逾期标签和来自征信机构的标签特征,生成各个账户的标签特征向量。
2、构建初始用户关系图
从各个账户的资料信息中提取账户的关联关系构建初始用户关系图。初始用户关系图可以表示为G=(V,E,A,X,Z)。
3、基于特征相似度对初始用户关系图进行关系扩充
采用Spark分布式计算各个用户节点的基础特征向量之间的特征相似度,将用户节点的基础特征向量和其他用户节点的基础特征向量之间的特征相似度按照数值大小进行降序排序,将前k(例如,设置为20)个特征相似度对应的用户节点和该用户节点建立连接关系。基于用户节点之间的特征相似度的大小,给初始用户关系图中的各个用户节点增加连接关系后,得到目标用户关系图。
计算机设备可以通过以下公式计算两个基础特征向量之间的特征相似度:
Figure BDA0003846568100000171
4、对目标节点的基础特征向量进行增强
在目标关系图中确定目标节点,确定目标节点的邻居节点,基于各个邻居节点对应的基础特征向量和标签特征向量,计算目标节点对应的基础特征聚合向量和标签特征聚合向量。拼接目标节点的基础特征向量、基础特征聚合向量和标签特征聚合向量得到目标特征增强向量。
计算机设备可以通过以下公式计算基础特征聚合向量:
Figure BDA0003846568100000172
计算机设备可以通过以下公式计算标签特征聚合向量:
Figure BDA0003846568100000173
计算机设备可以通过以下公式计算目标特征增强向量:
Figure BDA0003846568100000174
其中,Ev为目标节点v对应的目标特征增强向量,||表示拼接操作。
5、训练初始逾期风险预测模型并预测目标节点的逾期风险
获取训练用户关系图,基于训练用户关系图中各个初始训练节点之间的连接关系、各个初始训练节点对应的基础特征向量和标签特征向量得到各个初始训练节点对应的训练特征增强向量。基于同一初始训练节点在训练用户关系图中的连边数量和对应的训练标签,生成各个初始训练节点分别对应的采样概率。基于采样概率,对各个初始训练节点进行采样得到目标训练节点。基于目标训练节点对应的训练特征增强向量和训练标签,对初始逾期风险预测模型进行模型训练,得到目标逾期风险预测模型。将目标节点对应的目标特征增强向量输入目标逾期风险预测模型,得到目标节点对应的目标账户的逾期风险预测结果。
计算机设备可以通过以下公式计算逾期风险预测结果:
Pv=softmax(MLP(ReLU(MLP(Ev))))
其中,Pv为目标节点v的逾期风险预测结果,MLP为多层感知机,ReLU与softmax为激活函数。
在对目标用户进行用户数据处理时,整体流程如图4所示,首先从数据库中获取各个用户对应账户的资料信息,其次对各个账户的资料信息进行缺失值、异常值和特征编码处理,再根据各个账户的资料信息构建用户关系图,依据不同用户节点之间的特征相似度补充关联关系得到目标用户关系图,接着聚合目标节点的高阶领域特征对节点自身的特征进行扩充得到目标特征增强向量,采样有标签样本,将标签样本扩充后的训练特征增强向量作为初始逾期风险预测模型的输入进行训练,得到目标逾期风险预测模型。将目标用户扩充后的特征向量输入到目标逾期风险预测模型,得到逾期风险预测结果。
本方案采用了基于特征相似度的关联信息补全方法,通过补全用户节点与具有相似特征的用户的连接关系,缓解图数据关联稀疏的问题,并且在用户节点原始基础特征的基础上,聚合了高阶领域的基础特征信息和标签特征信息,将聚合后的特征作为模型的输入,能够提高逾期风险预测模型对逾期风险预测的准确性,并且提出了一种对初始训练节点的采样策略,各个初始训练节点的采样概率与训练节点的连边数量呈正比,与初始训练节点的训练标签所属类别的总样本数量呈反比,能够减缓由于训练节点之间连边稀疏和训练样本不均衡在模型训练过程中带来的问题,从而提高用户数据处理的准确性。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的用户数据处理方法的用户数据处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个用户数据处理装置实施例中的具体限定可以参见上文中对于用户数据处理方法的限定,在此不再赘述。
在一个实施例中,如图5所示,提供了一种用户数据处理装置,包括:目标用户关系图获取模块502、邻居节点确定模块504、基础特征聚合向量和标签特征聚合向量确定模块506、目标特征增强向量确定模块508和账户状态预测结果确定模块510,其中:
目标用户关系图获取模块502,用于获取目标用户关系图;目标用户关系图包括多个用户节点、用户节点之间的连接关系、各个用户节点对应的基础特征向量和标签特征向量,标签特征向量是基于用户节点对应的账户的历史异常行为得到的。
邻居节点确定模块504,用于从各个用户节点中确定目标节点,基于用户节点之间的连接关系确定目标节点对应的各个邻居节点。
基础特征聚合向量和标签特征聚合向量确定模块506,用于聚合各个邻居节点对应的基础特征向量,得到目标节点对应的基础特征聚合向量,聚合各个邻居节点对应的标签特征向量,得到目标节点对应的标签特征聚合向量。
目标特征增强向量确定模块508,用于拼接目标节点对应的基础特征向量、基础特征聚合向量和标签特征聚合向量,得到目标节点对应的目标特征增强向量。
账户状态预测结果确定模块510,用于将目标特征增强向量输入目标账户状态预测模型,得到目标节点对应的目标账户的账户状态预测结果。
上述用户数据处理装置,基础特征聚合向量聚合了目标节点高阶领域的基础特征信息,标签特征向量聚合了目标节点高阶领域的标签特征信息。通过拼接目标节点对应的基础特征向量、基础特征聚合向量和标签特征聚合向量得到的目标特征增强向量,是在目标节点原始基础特征的基础上,聚合了目标用户高阶领域的基础特征信息和标签特征信息,也就是充分利用了目标用户关系图中的连接关系、各个用户节点对应的基础特征信息和标签特征信息来扩充目标节点对应的特征信息,使得目标特征增强向量可以更有效、更准确地反映目标节点对应的特征信息,从而有助于提高用户数据处理的准确性。
在一个实施例中,目标用户关系图获取模块502还用于:
获取初始用户关系图;计算初始用户关系图中各个用户节点的基础特征向量分别与其他用户节点的基础特征向量之间的特征相似度;基于特征相似度,对初始用户关系图中的连接关系进行扩充,得到目标用户关系图。
在一个实施例中,邻居节点确定模块504还用于:
将与目标节点存在直接连接关系的用户节点作为第一类邻居节点;将与目标节点存在间接连接关系的用户节点作为第二类邻居节点;将第一类邻居节点和第二类邻居节点作为目标节点对应的各个邻居节点。
在一个实施例中,基础特征聚合向量和标签特征聚合向量确定模块506还用于:
融合属于同一邻居等级的各个邻居节点对应的当前特征向量,得到各个邻居等级分别对应的初始特征向量;邻居节点的邻居等级是基于从目标节点到邻居节点途经的最短路径的连边数量确定的;基于同一邻居等级对应的初始特征向量和邻居节点数量的比值,得到各个邻居等级分别对应的中间特征向量;基于各个邻居等级分别对应的中间特征向量,得到当前特征聚合向量。
在一个实施例中,如图6所示,用户数据处理装置还包括:
模型训练模块602,用于获取训练用户关系图;训练用户关系图包括多个初始训练节点;基于训练用户关系图生成各个初始训练节点分别对应的训练特征增强向量;基于初始训练节点对应的训练特征增强向量和训练标签,对初始账户状态预测模型进行模型训练,得到目标账户状态预测模型。
在一个实施例中,模型训练模块还用于:
基于同一初始训练节点在训练用户关系图中的连边数量和对应的训练标签,生成各个初始训练节点分别对应的采样概率;基于采样概率,对各个初始训练节点进行采样得到目标训练节点;基于目标训练节点对应的训练特征增强向量和训练标签,对初始账户状态预测模型进行模型训练,得到目标账户状态预测模型。
在一个实施例中,采样概率与初始训练节点的连边数量呈正相关,与初始训练节点的训练标签对应的初始训练节点数量呈负相关。
上述用户数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基础特征向量、标签特征向量、目标特征增强向量等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户数据处理方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种用户数据处理方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7、8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种用户数据处理方法,其特征在于,所述方法包括:
获取目标用户关系图;所述目标用户关系图包括多个用户节点、用户节点之间的连接关系、各个用户节点对应的基础特征向量和标签特征向量,所述标签特征向量是基于用户节点对应的账户的历史异常行为得到的;
从所述各个用户节点中确定目标节点,基于用户节点之间的连接关系确定所述目标节点对应的各个邻居节点;
聚合所述各个邻居节点对应的基础特征向量,得到所述目标节点对应的基础特征聚合向量,聚合所述各个邻居节点对应的标签特征向量,得到所述目标节点对应的标签特征聚合向量;
拼接所述目标节点对应的基础特征向量、所述基础特征聚合向量和所述标签特征聚合向量,得到所述目标节点对应的目标特征增强向量;
将所述目标特征增强向量输入目标账户状态预测模型,得到所述目标节点对应的目标账户的账户状态预测结果。
2.根据权利要求1所述的方法,其特征在于,所述获取目标用户关系图,包括:
获取初始用户关系图;
计算所述初始用户关系图中各个用户节点的基础特征向量分别与其他用户节点的基础特征向量之间的特征相似度;
基于所述特征相似度,对所述初始用户关系图中的连接关系进行扩充,得到目标用户关系图。
3.根据权利要求1所述的方法,其特征在于,所述基于用户节点之间的连接关系确定所述目标节点对应的各个邻居节点,包括:
将与所述目标节点存在直接连接关系的用户节点作为第一类邻居节点;
将与所述目标节点存在间接连接关系的用户节点作为第二类邻居节点;
将所述第一类邻居节点和所述第二类邻居节点作为所述目标节点对应的各个邻居节点。
4.根据权利要求1所述的方法,其特征在于,当前特征向量为基础特征向量或标签特征向量,聚合所述各个邻居节点对应的当前特征向量,得到所述目标节点对应的当前特征聚合向量,包括:
融合属于同一邻居等级的各个邻居节点对应的当前特征向量,得到各个邻居等级分别对应的初始特征向量;所述邻居节点的邻居等级是基于从所述目标节点到邻居节点途经的最短路径的连边数量确定的;
基于同一邻居等级对应的初始特征向量和邻居节点数量的比值,得到各个邻居等级分别对应的中间特征向量;
基于各个邻居等级分别对应的中间特征向量,得到所述当前特征聚合向量。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取训练用户关系图;所述训练用户关系图包括多个初始训练节点;
基于所述训练用户关系图生成各个初始训练节点分别对应的训练特征增强向量;
基于所述初始训练节点对应的训练特征增强向量和训练标签,对所述初始账户状态预测模型进行模型训练,得到目标账户状态预测模型。
6.根据权利要求5所述的方法,其特征在于,所述基于所述初始训练节点对应的训练特征增强向量和训练标签,对所述初始账户状态预测模型进行模型训练,得到目标账户状态预测模型,包括:
基于同一初始训练节点在所述训练用户关系图中的连边数量和对应的训练标签,生成各个初始训练节点分别对应的采样概率;
基于采样概率,对各个初始训练节点进行采样得到目标训练节点;
基于所述目标训练节点对应的训练特征增强向量和训练标签,对所述初始账户状态预测模型进行模型训练,得到目标账户状态预测模型。
7.根据权利要求6所述的方法,其特征在于,所述采样概率与初始训练节点的连边数量呈正相关,与初始训练节点的训练标签对应的初始训练节点数量呈负相关。
8.一种用户数据处理装置,其特征在于,所述装置包括:
目标用户关系图获取模块,用于获取目标用户关系图;所述目标用户关系图包括多个用户节点、用户节点之间的连接关系、各个用户节点对应的基础特征向量和标签特征向量,所述标签特征向量是基于用户节点对应的账户的历史异常行为得到的;
邻居节点确定模块,用于从所述各个用户节点中确定目标节点,基于用户节点之间的连接关系确定所述目标节点对应的各个邻居节点;
特征聚合向量确定模块,用于聚合所述各个邻居节点对应的基础特征向量,得到所述目标节点对应的基础特征聚合向量,聚合所述各个邻居节点对应的标签特征向量,得到所述目标节点对应的标签特征聚合向量;
目标特征增强向量确定模块,用于拼接所述目标节点对应的基础特征向量、所述基础特征聚合向量和所述标签特征聚合向量,得到所述目标节点对应的目标特征增强向量;
账户状态预测结果确定模块,用于将所述目标特征增强向量输入目标账户状态预测模型,得到所述目标节点对应的目标账户的账户状态预测结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202211119876.9A 2022-09-15 2022-09-15 用户数据处理方法、装置、计算机设备和存储介质 Pending CN115630973A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211119876.9A CN115630973A (zh) 2022-09-15 2022-09-15 用户数据处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211119876.9A CN115630973A (zh) 2022-09-15 2022-09-15 用户数据处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN115630973A true CN115630973A (zh) 2023-01-20

Family

ID=84902365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211119876.9A Pending CN115630973A (zh) 2022-09-15 2022-09-15 用户数据处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN115630973A (zh)

Similar Documents

Publication Publication Date Title
US20210073283A1 (en) Machine learning and prediction using graph communities
US11403643B2 (en) Utilizing a time-dependent graph convolutional neural network for fraudulent transaction identification
CN110705719A (zh) 执行自动机器学习的方法和装置
CN118096170A (zh) 风险预测方法及装置、设备、存储介质和程序产品
CN117573973A (zh) 资源推荐方法、装置、电子设备以及存储介质
CN117390098A (zh) 数据分析方法、装置、计算机设备和存储介质
CN115758271A (zh) 数据处理方法、装置、计算机设备和存储介质
CN116956204A (zh) 多任务模型的网络结构确定方法、数据预测方法及装置
WO2021115269A1 (zh) 用户集群的预测方法、装置、计算机设备和存储介质
CN115048561A (zh) 推荐信息确定方法及装置、电子设备和可读存储介质
CN115630973A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN116150429A (zh) 异常对象识别方法、装置、计算设备以及存储介质
CN113222632A (zh) 对象挖掘的方法和装置
CN115659022A (zh) 资源推送数据处理方法、装置、计算机设备和存储介质
CN117436972A (zh) 资源对象推荐方法、装置、计算机设备和存储介质
CN117391490A (zh) 金融业务的评价信息处理方法、装置和计算机设备
CN116881543A (zh) 金融资源对象推荐方法、装置、设备、存储介质和产品
CN114239603A (zh) 业务需求匹配方法、装置、计算机设备和存储介质
CN117407418A (zh) 信息获取方法、装置、计算机设备、存储介质和程序产品
CN116881122A (zh) 测试案例生成方法、装置、设备、存储介质和程序产品
CN117708366A (zh) 基于人工智能的图像检索方法、装置、设备及存储介质
CN115658899A (zh) 文本分类方法、装置、计算机设备和存储介质
CN117541885A (zh) 样本数据处理方法、装置、存储介质和系统
CN117440041A (zh) 静默服务信息推送方法、装置、计算机设备和存储介质
CN115907969A (zh) 账户风险评估方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: China

Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant after: Zhaolian Consumer Finance Co.,Ltd.

Applicant after: SUN YAT-SEN University

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant before: MERCHANTS UNION CONSUMER FINANCE Co.,Ltd.

Country or region before: China

Applicant before: SUN YAT-SEN University