CN114022270A - 资产数据处理方法、相关设备及介质 - Google Patents
资产数据处理方法、相关设备及介质 Download PDFInfo
- Publication number
- CN114022270A CN114022270A CN202111280712.XA CN202111280712A CN114022270A CN 114022270 A CN114022270 A CN 114022270A CN 202111280712 A CN202111280712 A CN 202111280712A CN 114022270 A CN114022270 A CN 114022270A
- Authority
- CN
- China
- Prior art keywords
- sample user
- asset
- sample
- target
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 237
- 238000013058 risk prediction model Methods 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 36
- 238000012512 characterization method Methods 0.000 claims description 62
- 238000013507 mapping Methods 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 38
- 239000011159 matrix material Substances 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 13
- 238000007405 data analysis Methods 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 10
- 238000003066 decision tree Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012502 risk assessment Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000011835 investigation Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Probability & Statistics with Applications (AREA)
- Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Development Economics (AREA)
- Evolutionary Biology (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Animal Behavior & Ethology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例公开了一种资产数据处理方法、相关设备及介质,应用于数据分析技术领域。其中方法包括:获取样本用户的样本资产数据,根据样本资产数据确定样本用户关联的资产实体,根据样本用户和资产实体生成资产知识图谱,获取资产实体的重要程度数据,根据资产知识图谱、资产实体的重要程度数据确定样本用户的特征向量,将特征向量输入权重预测模型得到目标权重,按照样本用户的目标权重确定目标样本用户,利用目标样本用户的样本资产数据得到训练后的风险预测模型,获取待预测用户的目标资产数据并输入该模型得到待预测用户的预测风险值。采用本申请实施例,可以提高模型预测准确率。本申请涉及区块链技术,如可将样本资产数据等写入区块链。
Description
技术领域
本申请涉及数据分析技术领域,具体涉及一种资产数据处理方法、相关设备及介质。
背景技术
目前,银行等金融机构可以申请业务(例如贷款)的客户进行风险预测,基于该对象的风险值确定是否同意申请,以避免客户因主观原因而导致的经济损失。现有的风险预测方式可以是通过大量样本资产数据对模型进行训练,并利用该训练得到的模型进行预测,然而,该方式中对于用于训练的样本资产数据而言,该样本资产数据的内容以及类型是各式各样的,比较冗余,因此直接使用该样本资产数据对模型进行训练,会导致模型的预测准确率低。
发明内容
本申请实施例提供了一种资产数据处理方法、相关设备及介质,可以有效地提高训练得到的模型针对用户风险值的预测准确率。
一方面,本申请实施例提供了一种资产数据处理方法,该方法包括:
获取多个样本用户的样本资产数据,并根据所述多个样本用户中每个样本用户的样本资产数据分别确定出所述每个样本用户关联的资产实体;
根据所述每个样本用户以及所述每个样本用户关联的资产实体生成资产知识图谱;
获取所述每个样本用户关联的资产实体的重要程度数据,并根据所述资产知识图谱、所述每个样本用户关联的资产实体的重要程度数据确定所述每个样本用户的特征向量;
将所述每个样本用户的特征向量分别输入权重预测模型,得到所述每个样本用户的目标权重,并按照所述每个样本用户的目标权重从所述多个样本用户中确定出目标样本用户;
利用所述目标样本用户的样本资产数据对待训练的风险预测模型进行训练,得到训练后的风险预测模型;
获取待预测用户的目标资产数据,将所述目标资产数据输入所述训练后的风险预测模型,得到所述待预测用户的预测风险值。
一方面,本申请实施例提供了一种资产数据处理装置,该装置包括:
获取模块,用于获取多个样本用户的样本资产数据;
确定模块,用于根据所述多个样本用户中每个样本用户的样本资产数据分别确定出所述每个样本用户关联的资产实体;
生成模块,用于根据所述每个样本用户以及所述每个样本用户关联的资产实体生成资产知识图谱;
所述确定模块,还用于获取所述每个样本用户关联的资产实体的重要程度数据,并根据所述资产知识图谱、所述每个样本用户关联的资产实体的重要程度数据确定所述每个样本用户的特征向量;
权重预测模块,用于将所述每个样本用户的特征向量分别输入权重预测模型,得到所述每个样本用户的目标权重;
所述确定模块,还用于按照所述每个样本用户的目标权重从所述多个样本用户中确定出目标样本用户;
训练模块,用于利用所述目标样本用户的样本资产数据对待训练的风险预测模型进行训练,得到训练后的风险预测模型;
输入模块,用于获取待预测用户的目标资产数据,将所述目标资产数据输入所述训练后的风险预测模型,得到所述待预测用户的预测风险值。
一方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,其中,存储器用于存储计算机程序,该计算机程序包括程序指令,处理器被配置用于调用该程序指令,以执行上述方法中的部分或全部步骤。
一方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时,用于执行上述方法中的部分或全部步骤。
本申请实施例中,获取并根据每个样本用户的样本资产数据确定出每个样本用户关联的资产实体,根据每个样本用户以及每个样本用户关联的资产实体生成资产知识图谱,获取每个样本用户关联的资产实体的重要程度数据,根据资产知识图谱、每个样本用户关联的资产实体的重要程度数据确定每个样本用户的特征向量,将每个样本用户的特征向量输入权重预测模型,得到每个样本用户的目标权重,并按照目标权重确定出目标样本用户,利用目标样本用户的样本资产数据对待训练的风险预测模型进行训练,得到训练后的风险预测模型,获取待预测用户的目标资产数据,并输入训练后的风险预测模型得到待预测用户的预测风险值。通过实施本申请实施例所提出的方法,可以根据样本资产数据、资产知识图谱和关联的资产实体确定样本用户的目标权重,该目标权重可以用于衡量样本用户针对模型训练的样本质量,进而确定出样本质量更好的目标样本用户以用于模型训练,以使得训练得到的模型的训练效果最佳,后续利用训练后的风险预测模型对待预测用户进行预测,可以提高针对用户风险值的预测准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种资产数据处理方法的流程示意图;
图2为本申请实施例提供的一种资产知识图谱的示意图;
图3为本申请实施例提供的一种资产数据处理方法的流程示意图;
图4a为本申请实施例提供的一种确定重要程度数据的场景示意图;
图4b为本申请实施例提供的一种确定重要程度数据的场景示意图;
图5为本申请实施例提供的一种资产数据处理装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请实施例提出的资产数据处理方法实现于电子设备,该电子设备可以为终端设备或服务器。其中,终端设备可以为智能手机、平板电脑、笔记本电脑、台式计算机等。服务器可以是独立的服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。本申请涉及区块链技术,电子设备可将涉及的数据如每个样本用户的样本资产数据,或待预测用户的预测风险值等写入区块链中,以便于电子设备可以在区块链上获取所需信息,如待预测用户的预测风险值。
在一些实施例中,电子设备可根据实际的业务需求,执行该资产数据处理方法,可以提高对风险值的预测准确性。例如,本申请技术方案可以应用于对用户进行资产风险预测的场景中,电子设备可以根据多个样本用户的样本资产数据生成资产知识图谱,根据资产知识图谱和每个样本用户的样本资产数据得到每个样本用户的特征向量,并利用权重预测模型得到每个样本用户的目标权重,进而确定出目标样本用户,以用于对待训练的风险预测模型进行训练,从而提高模型训练效果,后续电子设备可以将待预测用户的目标资产数据输入训练后的风险预测模型,得到待预测用户的用于表征资产风险的预测风险值,可以提高待预测用户的风险值的准确性。又如,本申请技术方案还可以应用于医疗风险预测的场景中,此时样本用户的样本资产数据可以为样本医疗数据,其中医疗数据可以包括就诊信息和/或参保信息等,样本用户关联的资产实体可以为医疗实体,其中医疗实体可以包括所患病症、所参医保,和医保机构等等,利用目标样本用户的样本医疗数据进行模型训练得到的风险预测模型可以用于基于待预测用户的目标医疗数据进行医疗风险预测,以得到用于表征参保风险的医疗风险值。为了便于阐述,除非特别指明,后续所提及的资产数据处理方法均以资产风险预测场景为例进行说明。
可以理解的是,上述场景仅是作为示例,并不构成对于本申请实施例提供的技术方案的应用场景的限定,本申请的技术方案还可应用于其他场景。例如,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
基于上述的描述,本申请实施例提出了一种资产数据处理方法,该方法可以由上述提及的电子设备来执行。如图1所示,本申请实施例的资产数据处理方法的流程可以包括如下:
S101、获取多个样本用户的样本资产数据,并根据多个样本用户中每个样本用户的样本资产数据分别确定出每个样本用户关联的资产实体。
在一些实施例中,样本用户可以任意存在资产流动记录的用户,如可以是在金融机构(如银行等)存在资产逾期记录的对象(如企业、个体等)等,该样本用户的样本资产数据可以是样本用户的资产行为记录,例如贷款记录、卡消费记录、征信数据记录,或日常消费记录等。电子设备可以从多个金融机构中获取到样本用户的资产行为记录,并将该多个资产行为记录进行合并,得到样本用户的样本资产数据。
在一些实施例中,样本用户关联的资产实体可以是任意与样本用户的资产相关的实体,如可以是指样本资产数据中样本用户产生资产消费行为的相关主体。每个样本用户关联的资产实体可以有一个或多个,不同的样本资产数据所确定出的关联的资产实体的类型不同。例如若样本资产数据为贷款记录,则资产实体可以是贷款产品、该贷款产品的贷款渠道等,若样本资产数据为征信数据,则资产实体可以是征信数据中发生逾期还款的产品等。
S102、根据每个样本用户以及每个样本用户关联的资产实体生成资产知识图谱。
例如,电子设备根据该每个样本用户以及每个样本用户关联的资产实体生成的资产知识图谱可以参见图2所示,其中,该资产知识图谱可以涵盖不同样本用户的逾期行为特征等,以及在资产知识图谱中,每个样本用户与所关联的资产实体存在连接关系;以样本用户1为例,样本用户1关联的资产实体为贷款产品3、贷款渠道1、逾期产品3、消费类型1以及消费类型2,该贷款渠道1表示贷款产品3对应的渠道(如银行或其他贷款机构等),消费类型表示根据样本用户1的相关消费记录所确定的日常消费的类型(如生活消费类型、网购消费类型等),逾期产品表示样本用户1发生逾期记录时所涉及的产品(如信用卡等等);可选的,资产知识图谱中资产实体之间存在关联关系时,可以基于该关联关系进一步生成资产实体之间的关联关系,以贷款产品3和贷款渠道1为例,贷款产品3对应的渠道为贷款渠道1,因为该两个资产实体存在连接关系。
可选的,电子设备在生成资产知识图谱之后,还可以获取每个样本用户的用户数据(如联系方式、所处行业等用户信息),并在资产知识图谱中融合每个样本用户的用户数据,即可以从样本用户的用户数据提取出用户信息实体,并基于该用户信息实体与样本用户的关系将用户信息实体添加到资产知识图谱中。通过该融合了用户数据的资产知识图谱,可以获取到每个样本用户之间隐含的关联性,通过该信息关联性可以确定是否存在群体行为的多个样本用户,如群体贷款的欺诈行为,若存在疑似群体行为的欺诈样本用户,则该欺诈样本用户均有较高的样本质量,若作为训练样本进行模型训练,可以使得风险预测模型学习到更多的特征,以使得后续在进行风险预测时,风险值可以更加准确。
S103、获取每个样本用户关联的资产实体的重要程度数据,并根据资产知识图谱、每个样本用户关联的资产实体的重要程度数据确定每个样本用户的特征向量。
在一个可能的实施方式中,电子设备获取每个样本用户关联的资产实体的重要程度数据可以是预先构建不同类型的资产实体与重要程度数据的映射关系,电子设备可以获取每个样本用户关联的资产实体的类型(例如为贷款产品类型、贷款渠道类型等等),并根据每个样本用户关联的资产实体的类型以及映射关系确定出每个样本用户关联的资产实体的重要程度数据。或者,电子设备获取每个样本用户关联的资产实体的重要程度数据还可以是根据生成的资产知识图谱来确定,如利用PageRank算法(一种用于对有向连接图中的节点的重要程度排序的算法)得到资产知识图谱中每个资产实体在资产知识图谱中的重要程度,将每个样本用户关联的资产实体的重要程度作为每个样本用户关联的资产实体的重要程度数据。其中,该重要程度数据可以是指资产实体的重要程度等级,也可以是指资产实体的重要度(一个数值)等。
在一个可能的实施方式中,电子设备根据资产知识图谱、每个样本用户关联的资产实体的重要程度数据确定每个样本用户的特征向量具体可以是,根据资产知识图谱确定每个样本用户的关联样本用户以及关联样本用户的关联等级,根据每个样本用户的关联样本用户以及关联样本用户的关联等级以及每个样本用户关联的资产实体的重要程度数据确定每个样本用户的特征向量。
在一些实施例中,电子设备确定每个样本用户的特征向量的过程和原理相同,此处一个样本用户为例(目标样本用户),电子设备根据每个样本用户的关联样本用户以及关联样本用户的关联等级以及每个样本用户关联的资产实体的重要程度数据确定每个样本用户的特征向量具体可以是,对目标样本用户的用户数据以及目标样本用户的关联样本用户的用户数据进行向量化处理,得到目标样本用户的初始向量以及关联样本用户的初始向量,并对目标样本用户关联的资产实体进行向量化处理,得到资产实体的初始向量,根据目标样本用户的初始向量、关联样本用户的初始向量以及关联的资产实体的初始向量确定目标样本用户的特征向量。
例如,设目标样本用户的关联样本用户为N,目标样本用户关联的资产实体为M,N和M均为正整数;电子设备根据目标样本用户的初始向量、关联样本用户的初始向量以及关联的资产实体的初始向量确定目标样本用户的特征向量V可以是:
其中,f()表示根据输入生成目标样本用户的特征向量,V1表示目标样本用户的初始向量,V2i表示第i个关联样本用户的初始向量,x1i表示第i个关联样本用户的关联等级指示的值(如可以构建关联等级与指示的值之间的映射关系,以根据该映射关系确定第i个关联样本用户的关联等级指示的值),V3i表示第j个资产实体的初始向量,x2i表示第j个资产实体的重要程度数据指示的值。
在一些实施例中,以目标样本用户为例,对目标样本用户进行向量化处理具体可以是将目标样本用户的用户数据输入预设的神经网络模型中,得到对应的初始向量,例如该神经网络模型可以是BERT(Bidirectional Encoder Representation fromTransformers,模型器的双向编码器)模型。电子设备对资产实体进行向量化处理具体可以是,预先建立向量字典,字典中存储了初始向量与资产实体之间的对应关系,因此可以基于向量字典对目标样本用户关联的资产实体进行向量表示,或者,可以使用word2vec工具构建向量模型,并对向量模型进行训练,使得训练后的向量模型可以输出资产实体对应的初始向量,因此可以将目标样本用户关联的资产实体输入至训练完成的向量模型中,由向量模型进行向量化处理并输出关联的资产实体的初始向量;一个资产实体对应一个初始向量。
在一些实施例中,电子设备根据资产知识图谱确定每个样本用户的关联样本用户以及关联样本用户的关联等级具体可以是,根据多个样本用户构建样本用户组合,该样本用户组合为任两个样本用户所组成的集合,并确定样本用户组合中的两个样本用户在资产知识图谱中所连接的资产实体的重合程度,根据重合程度所指示数值的大小确定该样本用户组合中的两个样本用户是否互为关联样本用户,若互为关联样本用户,则基于该重要程度所指示数值确定关联等级,重合程度所指示数值越大,关联等级越高。若一个样本用户的关联样本用户越多以及关联等级越高,则越可能存在群体行为,因此后续基于该样本用户所得到目标权重也会越高。
S104、将每个样本用户的特征向量分别输入权重预测模型,得到每个样本用户的目标权重,并按照每个样本用户的目标权重从多个样本用户中确定出目标样本用户。
在一个可能的实施方式中,电子设备可以分别将每个样本用户的特征向量输入权重预测模型,得到每个样本用户的用于衡量样本质量的目标权重,目标权重越大,该样本用户的样本质量也越高;该权重预测模型可以由样本特征向量和对应的样本权重对待训练的权重预测模型进行训练得到。因此,电子设备可以按照每个样本用户的目标权重,将目标权重大于权重阈值的样本用户作为目标样本用户;或者,按照每个样本用户的目标权重对该多个样本用户进行排序,并从排序后的多个样本用户中依次选取目标数量个样本用户作为目标样本用户,该权重阈值或者目标数量可以由相关业务人员根据经验值设置。
S105、利用目标样本用户的样本资产数据对待训练的风险预测模型进行训练,得到训练后的风险预测模型。
在一些实施例中,待训练的风险预测模型可以是分类模型,或者也可以是梯度提升树模型。
可选的,当风险预测模型为分类模型时,如可以是sigmoid神经网络模型或者逻辑回归模型(Logistic Regression),电子设备可以对目标样本用户进行标注以生成风险标签(如风险标签为1表示目标样本用户为风险用户,风险标签为0表示目标样本用户为非风险用户),并利用目标样本用户的样本资产数据以及目标样本用户的风险标签对待训练的风险预测模型进行训练,得到训练后的风险预测模型。
可选的,当风险预测模型为梯度提升树模型时,电子设备可以构建K个决策树(K为正整数,可由相关业务人员根据经验值设置),该K个决策树中每个决策树均包括多个叶子节点,利用目标样本用户的样本资产数据以及目标样本用户的样本风险值对待训练的风险预测模型中的K个决策树进行训练,得到训练后的风险预测模型。该训练好的梯度提升树模型中的K个决策树均包括多个具有训练好的数值的叶子节点。
S106、获取待预测用户的目标资产数据,将目标资产数据输入训练后的风险预测模型,得到待预测用户的预测风险值。
在一个可能的实施方式中,电子设备可以在得到训练后的风险预测模型之后,获取待预测用户的目标资产数据,并由该训练后的风险预测模型基于目标资产数据进行风险预测,得到待预测用户的预测风险值。后续电子设备可以基于该预测风险值判断该待预测用户的风险等级;或者可以将该预测风险值发送给风险分析平台,以对待预测用户进行风险分析。例如,由风险分析平台的分析人员基于预测风险值对待预测用户进行风险分析,以确定是否通过该待预测用户的业务申请(如贷款申请等)。
在一些实施例中,当风险预测模型为分类模型时,电子设备将目标资产数据输入训练后的风险预测模型可以预测得到针对待预测用户的分类结果,并将分类结果所表征的待预测用户为风险用户的概率作为该待预测用户的预测风险值。
在一些实施例中,当风险预测模型为梯度提升树模型时,电子设备将目标资产数据输入训练后的风险预测模型,可以由梯度提升树模型包括的各个决策树对目标资产数据进行特征划分,得到目标资产数据在各个决策树中所划分到的叶子节点,根据所划分到的叶子节点的数值确定待预测用户的预测风险值。
其中,电子设备根据所划分到的叶子节点的数值确定待预测用户的预测风险值可以是,对所划分到的叶子节点的数值进行均值计算,将计算得到的平均值确定为待预测用户的预测风险值。
例如,训练好的梯度提升树模型含有两个决策树1和决策树2,在决策树1中,根据特征划分,目标资产数据被划分到a节点,a节点对应的数值为A;在决策树2中,目标资产数据被划分到b节点,b节点对应的数值为B,即待预测用户的预测风险值y=(A+B)/2。
本申请实施例中,电子设备可以获取多个样本用户的样本资产数据,并根据多个样本用户中每个样本用户的样本资产数据分别确定出每个样本用户关联的资产实体,根据每个样本用户以及每个样本用户关联的资产实体生成资产知识图谱,获取每个样本用户关联的资产实体的重要程度数据,并根据资产知识图谱、每个样本用户关联的资产实体的重要程度数据确定每个样本用户的特征向量,将每个样本用户的特征向量分别输入权重预测模型,得到每个样本用户的目标权重,并按照每个样本用户的目标权重从多个样本用户中确定出目标样本用户,利用目标样本用户的样本资产数据对待训练的风险预测模型进行训练,得到训练后的风险预测模型,获取待预测用户的目标资产数据,将目标资产数据输入训练后的风险预测模型,得到待预测用户的预测风险值。通过实施本申请实施例所提出的方法,可以根据样本资产数据、资产知识图谱和关联的资产实体确定每个样本用户的目标权重,该目标权重可以用于衡量样本用户针对模型训练的样本质量,进而确定出样本质量更好的目标样本用户以用于对模型进行训练,以使得训练得到的模型的训练效果最佳,后续利用该训练后的风险预测模型对待预测用户进行预测,可以提高针对用户风险值的预测准确性。
请参见图3,图3为本申请实施例提供的一种资产数据处理方法的流程示意图,该方法可以由上述提及的电子设备执行。如图3所示,本申请实施例中资产数据处理方法的流程可以包括如下:
S301、获取多个样本用户的样本资产数据,并根据多个样本用户中每个样本用户的样本资产数据分别确定出每个样本用户关联的资产实体。
S302、根据每个样本用户以及每个样本用户关联的资产实体生成资产知识图谱。其中,步骤S301-S302的具体实施方式可以参见步骤S101-S102的相关描述,此处不再赘述。
S303、获取每个样本用户关联的资产实体的重要程度数据。
在一个可能的实施方式中,电子设备获取每个样本用户关联的资产实体的重要程度数据具体可以是,根据资产知识图谱确定每个样本用户关联的资产实体的重要程度数据,如利用PageRank算法计算得到资产知识图谱中每个资产实体在资产知识图谱中的重要程度,并将每个资产的重要程度作为重要程度数据。其中,资产知识图谱中的每个节点对应一个实体,则电子设备利用PageRank算法计算得到资产知识图谱中每个资产实体在资产知识图谱中的重要程度具体可以是,根据资产知识图谱构建包含每个实体的连接关系的邻接矩阵,该邻接矩阵表示每个实体之间是否存在连接关系,以及连接关系指向的方向,设每个实体的初始重要程度为1,则根据该邻接矩阵生成包含每个实体的转移矩阵,即可以是将邻接矩阵中的每一行数值做归一化处理得到转移矩阵,该转移矩阵中每一行的值之和为1,根据转移矩阵构建针对每个实体的方程组,该方程组为多个关于实体的函数,可以通过该方程组求解得到每个实体的重要程度,从而得到对应的资产实体的重要程度。
例如,如图4a-图4b所示,图4a-图4b为本申请实施例提供的一种确定重要程度数据的场景示意图,设图4a为资产知识图谱,包含的实体为①-⑥,根据资产知识图谱构建包含每个实体的连接关系的邻接矩阵可以参见图4b(1),使用邻接矩阵的形式表述实体之间的连接关系,如矩阵[①][⑥]=1表示从实体①到实体⑥有连接关系且由实体①指向实体⑥,设每个实体的初始重要程度为1,因此根据该邻接矩阵生成的转移矩阵可以参见图4b(2),其中转移矩阵中每一行的值的总和=1,根据转移矩阵构建的方程组可以参见图4b(3),通过求解该方程组得到每个实体的重要程度,进而可以从每个实体的重要程度对应得到资产实体的重要程度数据。
在一个可能的实施方式中,电子设备在确定了每个样本用户关联的资产实体的重要程度之后,可以将每个样本用户关联的资产实体的重要程度确定为每个样本用户关联的资产实体的重要程度数据,或者,也可以是分别对每个样本用户关联的资产实体的重要程度进行归一化处理,将每个样本用户关联的资产实体的归一化后的重要程度确定为每个样本用户关联的资产实体的重要程度数据。
S304、基于每个样本用户的样本资产数据确定每个样本用户的资产特征数据。
在一个可能的实施方式中,电子设备基于每个样本用户的样本资产数据确定每个样本用户的资产特征数据具体可以是,根据每个样本用户的样本资产数据确定每个样本用户与每个样本用户对应的其他样本用户(即对于一个样本用户而言,多个样本用户中除该样本用户以外的样本用户为该样本用户的其他样本用户)之间的共性特征,并将每个样本用户与每个样本用户对应的其他样本用户的共性特征作为每个样本用户的样本资产数据。因此,该样本资产数据表示样本用户的样本资产数据中重复出现的特征,该重复出现的特征对于样本用户来说,则是重要性较高的特征,在确定样本用户的特征向量时,结合该资产特征数据,可以使得样本用户的特征向量涵盖更多信息,以及后续得到的样本用户的目标权重更准确。
在一个可能的实施方式中,资产特征数据包括第一资产特征和第二资产特征,因此电子设备根据每个样本用户的样本资产数据确定每个样本用户与每个样本用户对应的其他样本用户之间的共性特征,并将每个样本用户与每个样本用户对应的其他样本用户的共性特征作为每个样本用户的样本资产数据具体可以是,根据每个样本用户的样本资产数据对多个样本用户进行分类切片,得到至少一个样本用户切片,该样本用户切片包括至少一个样本用户,分别确定至少一个样本用户切片中每个样本用户切片的第一共性特征,以作为每个样本用户切片包括的至少一个样本用户中每个样本用户的第一资产特征,该样本用户切片的第一共性特征表示样本用户切片中任两个样本用户之间的共性特征,根据至少一个样本用户切片构建多个样本用户切片组合,样本用户切片组合包括至少一个样本用户切片,分别确定多个样本用户切片组合中每个样本用户切片组合的第二共性特征,以作为每个样本用户切片组合所包含的至少一个样本用户切片所包含的每个样本用户的第二资产特征,样本用户切片组合的第二共性特征表示样本用户切片组合中任两个样本用户切片之间的共性特征。
在一些实施例中,电子设备根据每个样本用户的样本资产数据对多个样本用户进行分类切片具体可以是,根据每个样本用户的样本资产数据以及预设的切片规则对多个样本用户进行分类切片,该切片规则可以是按照样本资产数据中的目标资产行为进行分类切片等等。
在一些实施例中,该第一共性特征可以用于代表样本用户切片中的样本用户均存在的共性特征,例如使用过贷款渠道A,或均逾期还款超过三次等等。电子设备分别确定至少一个样本用户切片中每个样本用户切片的第一共性特征具体可以是,根据每个样本用户切片中包含的每个样本用户的样本资产数据确定,例如可以是样本用户切片中包含的每个样本用户共同出现的特征作为第一共性特征,也可以是将样本用户切片中包含的指定数量个样本用户共同出现的特征作为第一共性特征;或者可以是根据资产知识图谱中样本用户切片包含的每个样本用户所连接的资产知识图谱确定,例如可以是在资产知识图谱中,将样本用户切片中包含的每个样本用户均连接的资产实体确定为第一共性特征,也可以是确定样本用户切片中包含的每个样本用户连接的资产实体的共现次数,将共现次数大于预设阈值的资产实体确定为样本用户切片的第一共性特征,该预设阈值可以由相关业务人员设置。
在一些实施例中,该第二共性特征可以用于代表样本用户切片组合中的至少一个样本用户切片组合所包含的所有样本用户的均存在的共性特征。电子设备可以根据至少一个样本用户切片中的任意目标数量(例如两个或三个等)个样本用户切片构建得到至少一个样本用户切片组合,该确定样本用户切片组合的第二共性特征的具体方式可以同确定样本用户切片的第一共性特征的具体方式,此处不再赘述。因此,第一共性特征和/或第二共现特征可以包括样本用户关联的资产实体。
S305、根据资产知识图谱、每个样本用户关联的资产实体的重要程度数据、每个样本用户的资产特征数据确定每个样本用户的特征向量。
在一个可能的实施方式中,目标样本用户为每个样本用户中的任一个样本用户;电子设备根据资产知识图谱、每个样本用户关联的资产实体的重要程度数据、每个样本用户的资产特征数据确定每个样本用户的特征向量具体可以是,根据资产知识图谱确定目标样本用户的表征向量以及目标样本用户关联的资产实体的表征向量,若目标样本用户关联的资产实体属于目标样本用户的资产特征数据,则按照预设策略确定目标样本用户关联的资产实体的实体权重,若目标样本用户关联的资产实体不属于目标样本用户的资产特征数据,则将目标样本用户关联的资产实体的重要程度数据指示的值确定为目标样本用户关联的资产实体的实体权重,根据目标样本用户关联的资产实体的实体权重、目标样本用户关联的资产实体的表征向量、目标样本用户的表征向量以及目标样本用户的资产特征数据,确定目标样本用户的特征向量。
在一个可能的实施方式中,电子设备根据目标样本用户关联的资产实体的实体权重、目标样本用户关联的资产实体的表征向量、目标样本用户的表征向量以及目标样本用户的资产特征数据,确定目标样本用户的特征向量具体可以是,对资产特征数据中除目标样本用户关联的资产实体以外的资产特征进行向量化处理,得到资产特征向量,利用目标样本用户关联的资产实体的实体权重对目标样本用户关联的资产实体的表征向量进行加权,得到目标样本用户关联的资产实体的加权表征向量,根据目标样本用户的表征向量、目标样本用户关联的资产实体的加权表征向量以及资产特征向量,确定目标样本用户的特征向量。
在一些实施例中,电子设备根据目标样本用户的表征向量、目标样本用户关联的资产实体的加权表征向量以及资产特征向量,确定目标样本用户的特征向量具体可以是,将前述向量的向量之和作为目标样本用户的特征向量;也可以是确定目标样本用户的表征向量对应的加权系数、目标样本用户关联的资产实体的加权表征向量对应的加权系数以及资产特征向量对应的加权系数,并利用对应的加权系数分别对目标样本用户的表征向量、目标样本用户关联的资产实体的加权表征向量以及资产特征向量进行加权求和,得到目标样本用户的特征向量。该对应的加权系数可以由相关业务人员根据经验值设置。
在一些实施例中,电子设备对资产特征数据中除目标样本用户关联的资产实体以外的资产特征进行向量化处理,得到资产特征向量具体可以是,将除目标样本用户关联的资产实体以外的资产特征输入预设的神经网络模型,对神经网络模型中的编码器对输入的资产特征进行编码处理,得到对应的资产特征向量。
在一个可能的实施方式中,电子设备根据资产知识图谱确定目标样本用户的表征向量以及目标样本用户关联的资产实体的表征向量具体可以是,从资产知识图谱获取目标样本用户与目标样本用户关联的资产实体之间的关系,对目标样本用户和目标样本用户关联的资产实体分别进行向量表示,得到目标样本用户的初始向量和目标样本用户关联的资产实体的初始向量,基于关系对目标样本用户的初始向量和目标样本用户关联的资产实体的初始向量进行加权处理,得到目标样本用户的关系映射向量和目标样本用户关联的资产实体的关系映射向量,将目标样本用户的关联映射向量确定为目标样本用户的表征向量,并将目标样本用户关联的资产实体的关系映射向量确定为目标样本用户关联的资产实体的表征向量。其中,电子设备对目标样本用户和目标样本用户关联的资产实体分别进行向量表示,得到目标样本用户的初始向量和目标样本用户关联的资产实体的初始向量的具体方式可以参见如图1所示的实施例中步骤S103的相关描述,此处不再赘述。
在一些实施例中,电子设备基于关系对目标样本用户的初始向量和目标样本用户关联的资产实体的初始向量进行加权处理具体可以是,获取关系对应的关系映射矩阵,利用关系映射矩阵分别对目标样本用户的初始向量和目标样本用户关联的资产实体的初始向量进行加权处理。其中,一个关系对应一个关系映射矩阵,目标样本用户与不同的资产实体之间的关系不同,对应的关系映射矩阵可以是不同的,因此若目标样本用户关联的资产实体有多个,利用关系映射矩阵进行加权处理后得到的目标样本用户的表征向量也有多个,电子设备可以计算该多个目标样本用户的初始向量的平均向量,并将该平均向量作为目标样本用户最终的初始向量。
在一些实施例中,通过该关系对应的关系映射矩阵对目标样本用户的初始向量和关联的资产实体的词向量进行加权处理可以理解为是将目标样本用户映射到关系所在的关系空间,以及将关联的资产实体映射到关系所在的关系空间。
可选的,电子设备获取关系对应的关系映射矩阵可以通过是翻译距离模型得到关系对应的关系映射矩阵。可选的,该翻译距离模型可以是TransR(Learning Entity andRelation Embeddings for Knowledge Graph Completion,实体和关系分开嵌入)模型,因此电子设备得到关系映射矩阵的具体方式可以是,对第一样本实体(如样本用户)与第二样本实体(如资产实体)之间的样本关系进行向量表示,得到样本关系的样本初始向量,并构建样本关系映射矩阵,利用样本关系映射矩阵对第一样本实体的样本初始向量以及第二样本实体的样本初始向量进行加权处理,得到第一样本实体的样本表征向量以及第二样本实体的样本表征向量,并构建目标函数,根据目标函数利用第一样本实体的样本表征向量、第二样本实体的样本表征向量和样本关系的样本初始向量对样本关系映射矩阵进行训练,得到上述第一样本实体与第二样本实体之间的关系对应的关系映射矩阵。即,目标函数可以为:
其中,h表示第一样本实体的样本初始向量;r表示第一样本实体与第二样本实体之间的样本关系的样本初始向量;t表示第二样本实体的样本初始向量;hr=hMr表示第一样本实体的样本表征向量;Mr表示样本关系映射矩阵,利用该Mr对h进行加权得到hr的过程即为将第一样本实体的样本初始向量映射到样本关系对应的样本关系空间中;tr=tMr表示第二样本实体的样本表征向量;利用该Mr对t进行加权得到tr的过程即为将第二样本实体的样本初始向量映射到样本关系对应的样本关系空间中。该目标函数的训练目标为以使得f(h,r,t)尽可能为0,因此训练得到关系映射矩阵可以使得目标样本用户的表征向量与关系的初始向量的和向量近似等于关联的资产实体的表征向量。
S306、将每个样本用户的特征向量分别输入权重预测模型,得到每个样本用户的目标权重,并按照每个样本用户的目标权重从多个样本用户中确定出目标样本用户。
S307、利用目标样本用户的样本资产数据对待训练的风险预测模型进行训练,得到训练后的风险预测模型。
S308、获取待预测用户的目标资产数据,将目标资产数据输入训练后的风险预测模型,得到待预测用户的预测风险值。其中,步骤S306-S308的具体实施方式可以参见步骤S104-S106的相关描述,此处不再赘述。
本申请实施例中,电子设备可以获取多个样本用户的样本资产数据,并根据多个样本用户中每个样本用户的样本资产数据分别确定出每个样本用户关联的资产实体,根据每个样本用户以及每个样本用户关联的资产实体生成资产知识图谱,获取每个样本用户关联的资产实体的重要程度数据,基于每个样本用户的样本资产数据确定每个样本用户的资产特征数据,根据资产知识图谱、每个样本用户关联的资产实体的重要程度数据、每个样本用户的资产特征数据确定每个样本用户的特征向量,将每个样本用户的特征向量分别输入权重预测模型,得到每个样本用户的目标权重,并按照每个样本用户的目标权重从多个样本用户中确定出目标样本用户,利用目标样本用户的样本资产数据对待训练的风险预测模型进行训练,得到训练后的风险预测模型,获取待预测用户的目标资产数据,将目标资产数据输入训练后的风险预测模型,得到待预测用户的预测风险值。通过实施本申请实施例所提出的方法,可以根据样本资产数据、资产知识图谱和关联的资产实体确定每个样本用户的目标权重,该目标权重可以用于衡量样本用户针对模型训练的样本质量,进而确定出样本质量更好的目标样本用户以用于对模型进行训练,以使得训练得到的模型的训练效果最佳,后续利用该训练后的风险预测模型对待预测用户进行预测,可以提高针对用户风险值的预测准确性。
请参见图5,图5为本申请提供的一种资产数据处理装置的结构示意图。需要说明的是,图5所示的资产数据处理装置,用于执行本申请图1和图3所示实施例的方法,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示,请参照本申请图1和图3所示的实施例。该资产数据处理装置500可包括:获取模块501、确定模块502、生成模块503、权重预测模块504、训练模块505、输入模块506。其中:
获取模块501,用于获取多个样本用户的样本资产数据;
确定模块502,用于根据所述多个样本用户中每个样本用户的样本资产数据分别确定出所述每个样本用户关联的资产实体;
生成模块503,用于根据所述每个样本用户以及所述每个样本用户关联的资产实体生成资产知识图谱;
所述确定模块502,还用于获取所述每个样本用户关联的资产实体的重要程度数据,并根据所述资产知识图谱、所述每个样本用户关联的资产实体的重要程度数据确定所述每个样本用户的特征向量;
权重预测模块504,用于将所述每个样本用户的特征向量分别输入权重预测模型,得到所述每个样本用户的目标权重;
所述确定模块502,还用于按照所述每个样本用户的目标权重从所述多个样本用户中确定出目标样本用户;
训练模块505,用于利用所述目标样本用户的样本资产数据对待训练的风险预测模型进行训练,得到训练后的风险预测模型;
输入模块506,用于获取待预测用户的目标资产数据,将所述目标资产数据输入所述训练后的风险预测模型,得到所述待预测用户的预测风险值。
在一个可能的实施方式中,所述确定模块502,还用于:
基于所述每个样本用户的样本资产数据确定所述每个样本用户的资产特征数据;
所述确定模块502在用于根据所述资产知识图谱、所述每个样本用户关联的资产实体的重要程度数据确定所述每个样本用户的特征向量时,具体用于:
根据所述资产知识图谱、所述每个样本用户关联的资产实体的重要程度数据、所述每个样本用户的资产特征数据确定所述每个样本用户的特征向量。
在一个可能的实施方式中,所述资产特征数据包括第一资产特征和第二资产特征;所述确定模块502在用于基于所述每个样本用户的样本资产数据确定所述每个样本用户的资产特征数据时,具体用于:
根据所述每个样本用户的样本资产数据对所述多个样本用户进行分类切片,得到至少一个样本用户切片;所述样本用户切片包括至少一个样本用户;
分别确定所述至少一个样本用户切片中每个样本用户切片的第一共性特征,以作为所述每个样本用户切片包括的至少一个样本用户中每个样本用户的第一资产特征;所述样本用户切片的第一共性特征表示所述样本用户切片中任两个样本用户之间的共性特征;
根据所述至少一个样本用户切片构建多个样本用户切片组合;所述样本用户切片组合包括至少一个样本用户切片;
分别确定所述多个样本用户切片组合中每个样本用户切片组合的第二共性特征,以作为所述每个样本用户切片组合所包含的至少一个样本用户切片所包含的每个样本用户的第二资产特征;所述样本用户切片组合的第二共性特征表示所述样本用户切片组合中任两个样本用户切片之间的共性特征。
在一个可能的实施方式中,所述每个样本用户中的任意一个样本用户表示为目标样本用户;所述确定模块502在用于根据所述资产知识图谱、所述每个样本用户关联的资产实体的重要程度数据、所述每个样本用户的资产特征数据确定所述每个样本用户的特征向量时,具体用于:
根据所述资产知识图谱确定所述目标样本用户的表征向量以及所述目标样本用户关联的资产实体的表征向量;
若所述目标样本用户关联的资产实体属于所述目标样本用户的资产特征数据,则按照预设策略确定所述目标样本用户关联的资产实体的实体权重;
若所述目标样本用户关联的资产实体不属于所述目标样本用户的资产特征数据,则将所述目标样本用户关联的资产实体的重要程度数据指示的值确定为所述目标样本用户关联的资产实体的实体权重;
根据所述目标样本用户关联的资产实体的实体权重、所述目标样本用户关联的资产实体的表征向量、所述目标样本用户的表征向量以及所述目标样本用户的资产特征数据,确定所述目标样本用户的特征向量。
在一个可能的实施方式中,所述确定模块502在用于根据所述目标样本用户关联的资产实体的实体权重、所述目标样本用户关联的资产实体的表征向量、所述目标样本用户的表征向量以及所述目标样本用户的资产特征数据确定所述目标样本用户的特征向量时,具体用于:
对所述资产特征数据中除所述目标样本用户关联的资产实体以外的资产特征进行向量化处理,得到资产特征向量;
利用所述目标样本用户关联的资产实体的实体权重对所述目标样本用户关联的资产实体的表征向量进行加权,得到所述目标样本用户关联的资产实体的加权表征向量;
根据所述目标样本用户的表征向量、所述目标样本用户关联的资产实体的加权表征向量以及所述资产特征向量,确定所述目标样本用户的特征向量。
在一个可能的实施方式中,所述确定模块502在用于根据所述资产知识图谱确定所述目标样本用户的表征向量以及所述目标样本用户关联的资产实体的表征向量时,具体用于:
从所述资产知识图谱获取所述目标样本用户与所述目标样本用户关联的资产实体之间的关系;
对所述目标样本用户和所述目标样本用户关联的资产实体分别进行向量表示,得到所述目标样本用户的初始向量和所述目标样本用户关联的资产实体的初始向量;
基于所述关系对所述目标样本用户的初始向量和所述目标样本用户关联的资产实体的初始向量进行加权处理,得到所述目标样本用户的关系映射向量和所述目标样本用户关联的资产实体的关系映射向量;
将所述目标样本用户的关系映射向量确定为所述目标样本用户的表征向量,并将所述目标样本用户关联的资产实体的关系映射向量确定为所述目标样本用户关联的资产实体的表征向量。
在一个可能的实施方式中,所述确定模块502在用于基于所述关系对所述目标样本用户的初始向量和所述目标样本用户关联的资产实体的初始向量进行加权处理时,具体用于:
获取所述关系对应的关系映射矩阵;
利用所述关系映射矩阵分别对目标样本用户的初始向量和目标样本用户关联的资产实体的初始向量进行加权处理。
本申请实施例中,获取模块获取多个样本用户的样本资产数据;确定模块根据多个样本用户中每个样本用户的样本资产数据分别确定出每个样本用户关联的资产实体;生成模块根据每个样本用户以及每个样本用户关联的资产实体生成资产知识图谱;确定模块获取每个样本用户关联的资产实体的重要程度数据,并根据资产知识图谱、每个样本用户关联的资产实体的重要程度数据确定每个样本用户的特征向量;权重预测模块将每个样本用户的特征向量分别输入权重预测模型,得到每个样本用户的目标权重;确定模块按照每个样本用户的目标权重从多个样本用户中确定出目标样本用户;训练模块利用目标样本用户的样本资产数据对待训练的风险预测模型进行训练,得到训练后的风险预测模型;输入模块获取待预测用户的目标资产数据,将目标资产数据输入训练后的风险预测模型,得到待预测用户的预测风险值。通过实施本申请实施例所提出的装置,可以根据样本资产数据、资产知识图谱和关联的资产实体确定样本用户的目标权重,该目标权重可以用于衡量样本用户针对模型训练的样本质量,进而确定出样本质量更好的目标样本用户以用于模型训练,以使得训练得到的模型的训练效果最佳,后续利用训练后的风险预测模型对待预测用户进行预测,可以提高针对用户风险值的预测准确性。
在本申请各个实施例中的各功能模块可以集成在一个模块中,也可以是各个模块单独物理存在,也可以是两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现,本申请不做限定。
请参见图6,图6为本申请实施例提供的一种电子设备的结构示意图。如图6所示,该电子设备600包括:至少一个处理器601、存储器602。可选的,该电子设备还可包括网络接口。其中,所述处理器601、存储器602以及网络接口之间可以交互数据,网络接口受所述处理器601的控制用于收发消息,存储器602用于存储计算机程序,所述计算机程序包括程序指令,处理器601用于执行存储器602存储的程序指令。其中,处理器601被配置用于调用所述程序指令执行上述方法。
所述存储器602可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器602也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;所述存储器602还可以包括上述种类的存储器的组合。
所述处理器601可以是中央处理器601(central processing unit,CPU)。在一个实施例中,所述处理器601还可以是图形处理器601(Graphics Processing Unit,GPU)。所述处理器601也可以是由CPU和GPU的组合。
在一个可能的实施方式中,所述存储器602用于存储程序指令,所述处理器601可以调用所述程序指令,执行以下步骤:
获取多个样本用户的样本资产数据,并根据所述多个样本用户中每个样本用户的样本资产数据分别确定出所述每个样本用户关联的资产实体;
根据所述每个样本用户以及所述每个样本用户关联的资产实体生成资产知识图谱;
获取所述每个样本用户关联的资产实体的重要程度数据,并根据所述资产知识图谱、所述每个样本用户关联的资产实体的重要程度数据确定所述每个样本用户的特征向量;
将所述每个样本用户的特征向量分别输入权重预测模型,得到所述每个样本用户的目标权重,并按照所述每个样本用户的目标权重从所述多个样本用户中确定出目标样本用户;
利用所述目标样本用户的样本资产数据对待训练的风险预测模型进行训练,得到训练后的风险预测模型;
获取待预测用户的目标资产数据,将所述目标资产数据输入所述训练后的风险预测模型,得到所述待预测用户的预测风险值。
在一个可能的实施方式中,所述处理器601,还用于:
基于所述每个样本用户的样本资产数据确定所述每个样本用户的资产特征数据;
所述处理器601在用于根据所述资产知识图谱、所述每个样本用户关联的资产实体的重要程度数据确定所述每个样本用户的特征向量时,具体用于:
根据所述资产知识图谱、所述每个样本用户关联的资产实体的重要程度数据、所述每个样本用户的资产特征数据确定所述每个样本用户的特征向量。
在一个可能的实施方式中,所述资产特征数据包括第一资产特征和第二资产特征;所述处理器601在用于基于所述每个样本用户的样本资产数据确定所述每个样本用户的资产特征数据时,具体用于:
根据所述每个样本用户的样本资产数据对所述多个样本用户进行分类切片,得到至少一个样本用户切片;所述样本用户切片包括至少一个样本用户;
分别确定所述至少一个样本用户切片中每个样本用户切片的第一共性特征,以作为所述每个样本用户切片包括的至少一个样本用户中每个样本用户的第一资产特征;所述样本用户切片的第一共性特征表示所述样本用户切片中任两个样本用户之间的共性特征;
根据所述至少一个样本用户切片构建多个样本用户切片组合;所述样本用户切片组合包括至少一个样本用户切片;
分别确定所述多个样本用户切片组合中每个样本用户切片组合的第二共性特征,以作为所述每个样本用户切片组合所包含的至少一个样本用户切片所包含的每个样本用户的第二资产特征;所述样本用户切片组合的第二共性特征表示所述样本用户切片组合中任两个样本用户切片之间的共性特征。
在一个可能的实施方式中,所述每个样本用户中的任意一个样本用户表示为目标样本用户;所述处理器601在用于根据所述资产知识图谱、所述每个样本用户关联的资产实体的重要程度数据、所述每个样本用户的资产特征数据确定所述每个样本用户的特征向量时,具体用于:
根据所述资产知识图谱确定所述目标样本用户的表征向量以及所述目标样本用户关联的资产实体的表征向量;
若所述目标样本用户关联的资产实体属于所述目标样本用户的资产特征数据,则按照预设策略确定所述目标样本用户关联的资产实体的实体权重;
若所述目标样本用户关联的资产实体不属于所述目标样本用户的资产特征数据,则将所述目标样本用户关联的资产实体的重要程度数据指示的值确定为所述目标样本用户关联的资产实体的实体权重;
根据所述目标样本用户关联的资产实体的实体权重、所述目标样本用户关联的资产实体的表征向量、所述目标样本用户的表征向量以及所述目标样本用户的资产特征数据,确定所述目标样本用户的特征向量。
在一个可能的实施方式中,所述处理器601在用于根据所述目标样本用户关联的资产实体的实体权重、所述目标样本用户关联的资产实体的表征向量、所述目标样本用户的表征向量以及所述目标样本用户的资产特征数据确定所述目标样本用户的特征向量时,具体用于:
对所述资产特征数据中除所述目标样本用户关联的资产实体以外的资产特征进行向量化处理,得到资产特征向量;
利用所述目标样本用户关联的资产实体的实体权重对所述目标样本用户关联的资产实体的表征向量进行加权,得到所述目标样本用户关联的资产实体的加权表征向量;
根据所述目标样本用户的表征向量、所述目标样本用户关联的资产实体的加权表征向量以及所述资产特征向量,确定所述目标样本用户的特征向量。
在一个可能的实施方式中,所述处理器601在用于根据所述资产知识图谱确定所述目标样本用户的表征向量以及所述目标样本用户关联的资产实体的表征向量时,具体用于:
从所述资产知识图谱获取所述目标样本用户与所述目标样本用户关联的资产实体之间的关系;
对所述目标样本用户和所述目标样本用户关联的资产实体分别进行向量表示,得到所述目标样本用户的初始向量和所述目标样本用户关联的资产实体的初始向量;
基于所述关系对所述目标样本用户的初始向量和所述目标样本用户关联的资产实体的初始向量进行加权处理,得到所述目标样本用户的关系映射向量和所述目标样本用户关联的资产实体的关系映射向量;
将所述目标样本用户的关系映射向量确定为所述目标样本用户的表征向量,并将所述目标样本用户关联的资产实体的关系映射向量确定为所述目标样本用户关联的资产实体的表征向量。
在一个可能的实施方式中,所述处理器601在用于基于所述关系对所述目标样本用户的初始向量和所述目标样本用户关联的资产实体的初始向量进行加权处理时,具体用于:
获取所述关系对应的关系映射矩阵;
利用所述关系映射矩阵分别对目标样本用户的初始向量和目标样本用户关联的资产实体的初始向量进行加权处理。
具体实现中,本申请实施例中所描述的装置、处理器601、存储器602等可执行上述方法实施例所描述的实现方式,也可执行本申请实施例所描述的实现方式,在此不再赘述。
本申请实施例中还提供一种计算机(可读)存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,使所述处理器可执行上述方法实施例中所执行的部分或全部步骤。可选的,该计算机存储介质可以是易失性的,也可以是非易失性的。所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请实施例提供了一种计算机程序产品,该计算机程序产品可包括计算机程序,计算机程序被处理器执行时可实现上述方法中的部分或全部步骤,此处不赘述。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机存储介质中,该计算机存储介质可以为计算机可读存储介质,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本申请的部分实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于本申请所涵盖的范围。
Claims (10)
1.一种资产数据处理方法,其特征在于,所述方法包括:
获取多个样本用户的样本资产数据,并根据所述多个样本用户中每个样本用户的样本资产数据分别确定出所述每个样本用户关联的资产实体;
根据所述每个样本用户以及所述每个样本用户关联的资产实体生成资产知识图谱;
获取所述每个样本用户关联的资产实体的重要程度数据,并根据所述资产知识图谱、所述每个样本用户关联的资产实体的重要程度数据确定所述每个样本用户的特征向量;
将所述每个样本用户的特征向量分别输入权重预测模型,得到所述每个样本用户的目标权重,并按照所述每个样本用户的目标权重从所述多个样本用户中确定出目标样本用户;
利用所述目标样本用户的样本资产数据对待训练的风险预测模型进行训练,得到训练后的风险预测模型;
获取待预测用户的目标资产数据,将所述目标资产数据输入所述训练后的风险预测模型,得到所述待预测用户的预测风险值。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述每个样本用户的样本资产数据确定所述每个样本用户的资产特征数据;
所述根据所述资产知识图谱、所述每个样本用户关联的资产实体的重要程度数据确定所述每个样本用户的特征向量,包括:
根据所述资产知识图谱、所述每个样本用户关联的资产实体的重要程度数据、所述每个样本用户的资产特征数据确定所述每个样本用户的特征向量。
3.根据权利要求2所述的方法,其特征在于,所述资产特征数据包括第一资产特征和第二资产特征;所述基于所述每个样本用户的样本资产数据确定所述每个样本用户的资产特征数据,包括:
根据所述每个样本用户的样本资产数据对所述多个样本用户进行分类切片,得到至少一个样本用户切片;所述样本用户切片包括至少一个样本用户;
分别确定所述至少一个样本用户切片中每个样本用户切片的第一共性特征,以作为所述每个样本用户切片包括的至少一个样本用户中每个样本用户的第一资产特征;所述样本用户切片的第一共性特征表示所述样本用户切片中任两个样本用户之间的共性特征;
根据所述至少一个样本用户切片构建多个样本用户切片组合;所述样本用户切片组合包括至少一个样本用户切片;
分别确定所述多个样本用户切片组合中每个样本用户切片组合的第二共性特征,以作为所述每个样本用户切片组合所包含的至少一个样本用户切片所包含的每个样本用户的第二资产特征;所述样本用户切片组合的第二共性特征表示所述样本用户切片组合中任两个样本用户切片之间的共性特征。
4.根据权利要求2所述的方法,其特征在于,所述每个样本用户中的任意一个样本用户表示为目标样本用户;所述根据所述资产知识图谱、所述每个样本用户关联的资产实体的重要程度数据、所述每个样本用户的资产特征数据确定所述每个样本用户的特征向量,包括:
根据所述资产知识图谱确定所述目标样本用户的表征向量以及所述目标样本用户关联的资产实体的表征向量;
若所述目标样本用户关联的资产实体属于所述目标样本用户的资产特征数据,则按照预设策略确定所述目标样本用户关联的资产实体的实体权重;
若所述目标样本用户关联的资产实体不属于所述目标样本用户的资产特征数据,则将所述目标样本用户关联的资产实体的重要程度数据指示的值确定为所述目标样本用户关联的资产实体的实体权重;
根据所述目标样本用户关联的资产实体的实体权重、所述目标样本用户关联的资产实体的表征向量、所述目标样本用户的表征向量以及所述目标样本用户的资产特征数据,确定所述目标样本用户的特征向量。
5.根据权利要求4所述的方法,其特征在于,所述根据所述目标样本用户关联的资产实体的实体权重、所述目标样本用户关联的资产实体的表征向量、所述目标样本用户的表征向量以及所述目标样本用户的资产特征数据确定所述目标样本用户的特征向量,包括:
对所述资产特征数据中除所述目标样本用户关联的资产实体以外的资产特征进行向量化处理,得到资产特征向量;
利用所述目标样本用户关联的资产实体的实体权重对所述目标样本用户关联的资产实体的表征向量进行加权,得到所述目标样本用户关联的资产实体的加权表征向量;
根据所述目标样本用户的表征向量、所述目标样本用户关联的资产实体的加权表征向量以及所述资产特征向量,确定所述目标样本用户的特征向量。
6.根据权利要求4所述的方法,其特征在于,所述根据所述资产知识图谱确定所述目标样本用户的表征向量以及所述目标样本用户关联的资产实体的表征向量,包括:
从所述资产知识图谱获取所述目标样本用户与所述目标样本用户关联的资产实体之间的关系;
对所述目标样本用户和所述目标样本用户关联的资产实体分别进行向量表示,得到所述目标样本用户的初始向量和所述目标样本用户关联的资产实体的初始向量;
基于所述关系对所述目标样本用户的初始向量和所述目标样本用户关联的资产实体的初始向量进行加权处理,得到所述目标样本用户的关系映射向量和所述目标样本用户关联的资产实体的关系映射向量;
将所述目标样本用户的关系映射向量确定为所述目标样本用户的表征向量,并将所述目标样本用户关联的资产实体的关系映射向量确定为所述目标样本用户关联的资产实体的表征向量。
7.根据权利要求6所述的方法,其特征在于,所述基于所述关系对所述目标样本用户的初始向量和所述目标样本用户关联的资产实体的初始向量进行加权处理,包括:
获取所述关系对应的关系映射矩阵;
利用所述关系映射矩阵分别对所述目标样本用户的初始向量和所述目标样本用户关联的资产实体的初始向量进行加权处理。
8.一种资产数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取多个样本用户的样本资产数据;
确定模块,用于根据所述多个样本用户中每个样本用户的样本资产数据分别确定出所述每个样本用户关联的资产实体;
生成模块,用于根据所述每个样本用户以及所述每个样本用户关联的资产实体生成资产知识图谱;
所述确定模块,还用于获取所述每个样本用户关联的资产实体的重要程度数据,并根据所述资产知识图谱、所述每个样本用户关联的资产实体的重要程度数据确定所述每个样本用户的特征向量;
权重预测模块,用于将所述每个样本用户的特征向量分别输入权重预测模型,得到所述每个样本用户的目标权重;
所述确定模块,还用于按照所述每个样本用户的目标权重从所述多个样本用户中确定出目标样本用户;
训练模块,用于利用所述目标样本用户的样本资产数据对待训练的风险预测模型进行训练,得到训练后的风险预测模型;
输入模块,用于获取待预测用户的目标资产数据,将所述目标资产数据输入所述训练后的风险预测模型,得到所述待预测用户的预测风险值。
9.一种电子设备,其特征在于,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111280712.XA CN114022270B (zh) | 2021-10-29 | 2021-10-29 | 资产数据处理方法、相关设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111280712.XA CN114022270B (zh) | 2021-10-29 | 2021-10-29 | 资产数据处理方法、相关设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114022270A true CN114022270A (zh) | 2022-02-08 |
CN114022270B CN114022270B (zh) | 2024-05-24 |
Family
ID=80059384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111280712.XA Active CN114022270B (zh) | 2021-10-29 | 2021-10-29 | 资产数据处理方法、相关设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114022270B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190220524A1 (en) * | 2018-01-16 | 2019-07-18 | Accenture Global Solutions Limited | Determining explanations for predicted links in knowledge graphs |
US20190318202A1 (en) * | 2016-10-31 | 2019-10-17 | Tencent Technology (Shenzhen) Company Limited | Machine learning model training method and apparatus, server, and storage medium |
CN110674311A (zh) * | 2019-09-05 | 2020-01-10 | 国家电网有限公司 | 一种基于知识图谱的电力资产异构数据融合方法 |
CN111080440A (zh) * | 2019-12-18 | 2020-04-28 | 上海良鑫网络科技有限公司 | 大数据风控管理系统 |
CN111581516A (zh) * | 2020-05-11 | 2020-08-25 | 中国银行股份有限公司 | 投资产品的推荐方法及相关装置 |
WO2020232879A1 (zh) * | 2019-05-20 | 2020-11-26 | 平安科技(深圳)有限公司 | 风险传导关联图谱优化方法、装置、计算机设备和存储介质 |
-
2021
- 2021-10-29 CN CN202111280712.XA patent/CN114022270B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190318202A1 (en) * | 2016-10-31 | 2019-10-17 | Tencent Technology (Shenzhen) Company Limited | Machine learning model training method and apparatus, server, and storage medium |
US20190220524A1 (en) * | 2018-01-16 | 2019-07-18 | Accenture Global Solutions Limited | Determining explanations for predicted links in knowledge graphs |
WO2020232879A1 (zh) * | 2019-05-20 | 2020-11-26 | 平安科技(深圳)有限公司 | 风险传导关联图谱优化方法、装置、计算机设备和存储介质 |
CN110674311A (zh) * | 2019-09-05 | 2020-01-10 | 国家电网有限公司 | 一种基于知识图谱的电力资产异构数据融合方法 |
CN111080440A (zh) * | 2019-12-18 | 2020-04-28 | 上海良鑫网络科技有限公司 | 大数据风控管理系统 |
CN111581516A (zh) * | 2020-05-11 | 2020-08-25 | 中国银行股份有限公司 | 投资产品的推荐方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114022270B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10290058B2 (en) | System and method for determining and utilizing successful observed performance | |
US20210303970A1 (en) | Processing data using multiple neural networks | |
CN112150298B (zh) | 数据处理方法、系统、设备及可读介质 | |
Voican | Credit Card Fraud Detection using Deep Learning Techniques. | |
CN113919437A (zh) | 生成客户画像的方法、装置、设备及存储介质 | |
CN112241805A (zh) | 使用历史检验数据进行缺陷预测 | |
Meoli et al. | Machine-learning forecasting of successful ICOs | |
Murugan | Large-scale data-driven financial risk management & analysis using machine learning strategies | |
CN116340793A (zh) | 一种数据处理方法、装置、设备以及可读存储介质 | |
CN111915218A (zh) | 基于lstm-cnn的财务造假识别方法及系统 | |
CN113656699B (zh) | 用户特征向量确定方法、相关设备及介质 | |
US11538029B2 (en) | Integrated machine learning and blockchain systems and methods for implementing an online platform for accelerating online transacting | |
CN113408582B (zh) | 特征评估模型的训练方法及装置 | |
Prentzas et al. | Assessment of life insurance applications: an approach integrating neuro‐symbolic rule‐based with case‐based reasoning | |
Shan et al. | Incorporating user behavior flow for user risk assessment | |
CN113378090A (zh) | 一种互联网网站相似度分析方法、装置以及可读存储介质 | |
CN112950347A (zh) | 资源数据处理的优化方法及装置、存储介质、终端 | |
CN114022270B (zh) | 资产数据处理方法、相关设备及介质 | |
CN113724017A (zh) | 基于神经网络的定价方法、装置、电子设备和存储介质 | |
CN114529399A (zh) | 用户数据处理方法、装置、计算机设备和存储介质 | |
CN113886539A (zh) | 话术推荐方法、装置、客服设备及存储介质 | |
CN111696637A (zh) | 一种病历数据的质量检测方法和相关装置 | |
Breger | Criteria for algorithmic fairness metric selection under different supervised classification scenarios | |
CN113723524B (zh) | 基于预测模型的数据处理方法、相关设备及介质 | |
Tu et al. | A novel grey relational clustering model under sequential three-way decision framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |