CN112182320A - 聚类数据处理方法、装置、计算机设备及存储介质 - Google Patents
聚类数据处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112182320A CN112182320A CN202011025775.6A CN202011025775A CN112182320A CN 112182320 A CN112182320 A CN 112182320A CN 202011025775 A CN202011025775 A CN 202011025775A CN 112182320 A CN112182320 A CN 112182320A
- Authority
- CN
- China
- Prior art keywords
- user
- data
- target
- vector
- vector expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 233
- 230000014509 gene expression Effects 0.000 claims abstract description 123
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000007619 statistical method Methods 0.000 claims description 48
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 108010015046 cell aggregation factors Proteins 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Databases & Information Systems (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种聚类数据处理方法、装置、计算机设备及存储介质,该方法包括:根据目标用户的基本信息获取确定稠密向量表达式;根据目标用户的家庭关系数据和持仓数据生成用户的金融知识图谱,根据金融知识图谱生成用户向量表达式;根据目标用户的业务数据确定目标用户的业务评分;根据稠密向量表达式、用户向量表达式以及业务评分生成特征向量;将特征向向量作为输入,通过预设模型得到用户聚类结果。能够根据稠密向量表达式、用户向量表达式以及业务评分确定得到特征向量,此时特征向量能够全面的表示用户特征。使用该特征向量进行聚类时,能够更加准确的对用户进行聚类,提高聚类准确性。
Description
技术领域
本发明实施例涉及金融数据处理技术,尤其涉及一种聚类数据处理方法、装置、计算机设备及存储介质。
背景技术
随着金融行业发展,用户的金融行为越来越多样。金融机构在为用户提供服务时,需要根据用户自身条件以及在售业务进行推荐。为了能够更加准确的为用户推送,可以将海量客户划分成不同的客群,根据客户所属客群对客户进行个性化的金融产品推荐服务。
但是,目前用户聚类的过程中,尝尝出现用户聚类不准确的问题,导致聚类效果欠佳。
发明内容
本发明提供一种聚类数据处理方法、装置、计算机设备及存储介质,以实现提高聚类准确性。
第一方面,本发明实施例提供了一种聚类数据处理方法,包括:
根据目标用户的基本信息获取确定稠密向量表达式;
根据目标用户的家庭关系数据和持仓数据生成用户的金融知识图谱,根据金融知识图谱生成用户向量表达式;
根据目标用户的业务数据确定目标用户的业务评分;
根据稠密向量表达式、用户向量表达式以及业务评分生成特征向量;
将特征向向量作为输入,通过预设模型得到用户聚类结果。
第二方面,本发明实施例还提供了一种聚类数据处理装置,包括:
稠密向量确定模块,用于根据目标用户的基本信息获取确定稠密向量表达式;
用户向量表达式生成模块,用于根据目标用户的家庭关系数据和持仓数据生成用户的金融知识图谱,根据金融知识图谱生成用户向量表达式;
评分模块,用于根据目标用户的业务数据确定目标用户的业务评分;
特征向量生成模块,用于根据稠密向量表达式、用户向量表达式以及业务评分生成特征向量;
聚类模块,用于将特征向向量作为输入,通过预设模型得到用户聚类结果。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如本申请实施例所示的聚类数据处理方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行如本申请实施例所示的聚类数据处理方法。
本发明实施例提供的聚类数据处理方案,首先根据目标用户的基本信息获取确定稠密向量表达式;根据目标用户的家庭关系数据和持仓数据生成用户的金融知识图谱,根据金融知识图谱生成用户向量表达式;根据目标用户的业务数据确定目标用户的业务评分;然后,根据稠密向量表达式、用户向量表达式以及业务评分生成特征向量;最后,将特征向向量作为输入,通过预设模型得到用户聚类结果。相对于目前缺少准确聚类,本发明实施例能够根据用户的基本信息确定稠密向量表达式、根据用户的家庭关系数据和持仓数据确定用户向量表达式、根据用户的业务数据确定业务评分,然后将上述稠密向量表达式、用户向量表达式以及业务评分进行组合,得到特征向量,此时特征向量能够全面的表示用户特征。使用该特征向量进行聚类时,能够更加准确的对用户进行聚类,提高聚类准确性。
附图说明
图1是本发明实施例一中的聚类数据处理方法的流程图;
图2是本发明实施例二中的聚类数据处理装置的结构示意图;
图3是本发明实施例三中的计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的聚类数据处理方法的流程图,本实施例可适用于金融领域对用户进行聚类情况,该方法可以由进行用户聚类计算的计算机设备来执行,具体包括如下步骤:
步骤110、根据目标用户的基本信息获取确定稠密向量表达式。
目标用户的基本信息用于表示目标用户的基本属性,目标用户的基本信息包括:性别、年龄、收入、婚姻状态或民族中的一个或多个目标参数。稠密向量表达式用于以稠密向量的形式表示目标用户的基本信息。目标用户为目标用户群中的任意一个用户,目标用户群为进行聚类的用户集合。
可选的,步骤110可通过下述方式实施:
步骤1.1、通过外部系统获取目标用户的基本信息。
基本信息可以由外部系统提供,外部系统可以为用于统计用户基本信息的系统。
步骤1.2、根据基本信息确定基本信息的对应的稀疏向量。
基本信息包含的目标参数有连续型变量和离散型变量。连续型变量可以包括年龄或收入。离散型变量可以包括性别、婚姻状态或民族等。
如果目标参数为连续型变量,则根据目标参数的取值范围划分出多个数值区间,使用独热编码(one-hot encoder)表示目标参数所在的目标数值区间。
获取目标参数的取值范围,将取值范围划分为多个数值区间。标记目标参数数值所在的数值区间,使用目标参数所在的数值区间表示所述目标参数。示例性的,年龄取值为0-120,将年龄区间划分为(0-20)、(20-30)、(30-40)、(40-50)、(50-60)、(60-80)、(80-120)七个数值区间。若目标用户的年龄为42岁,则标记(40-50)区间作为目标用户年龄所在的目标数值区间。使用独热编码表示划分出的多个数值区间中的目标数值区间,在上例中可以表示为(0,0,0,1,0,0,0),每个元素表示一个数值区间,数值1表示目标数值区间。
如果目标参数为离散型变量,则使用独热编码表示目标参数。
如果目标参数为离散型变量,则获取目标参数可能的数值内容,为每个数值内容设置标识位,形成一个数组。在该数组中标记与目标参数数值相同的元素。示例性的,性别的取值为男或女。若目标参数数值内容为男,则使用(0,1)表示性别为男的目标参数。若目标参数数值内容为女,则使用(1,0)表示性别为女的目标参数。
在使用独热编码表示目标参数后,将一个或多个目标参数的独热编码按照预设顺序进行排列,得到基本信息对应的稀疏向量。
预设顺序可以预先设置,示例性的预设顺序为性别、年龄、收入、婚姻状态、民族。在稀疏向量中,根据预设顺序依次记录各个目标参数。
可以在Spark ML中实现上述步骤以完成将基本信息转换为稀疏向量。
步骤1.3、将稀疏向量转换为稠密向量表达式。
使用独热编码分别表示目标用户的各个目标参数后,使用自动编码器(AutoEncoder)将稀疏向量转换为稠密向量表达式。
稠密向量表达式能够使用较少的数据位较为全面的描述目标用户的基本信息,相对于稀疏向量,稠密向量表达式能够使用较少的存储空间表达更多的基本信息,提高资源利用率。
步骤120、根据目标用户的家庭关系数据和持仓数据生成用户的金融知识图谱,根据金融知识图谱生成用户向量表达式。
可选的,步骤120可通过下述方式实施:
步骤2.1、通过外部系统获取与目标用户关联的家庭关系数据和持仓数据。
外部系统除了存储有目标用户的基本信息,还可以用于存储目标用户的家庭关系数据以及持仓数据。其中,家庭关系数据用于表示目标用户的家庭成员以及家庭成员与目标用户的亲属关系,持仓数据用于表示用户持有的金融产品的信息。
步骤2.2、抽取用户节点和金融产品节点。
可以利用Spark GraphX从家庭关系数据以及持仓数据中抽取用户节点和金融产品节点。
步骤2.3、根据家庭关系数据和持仓数据,构造节点之间的边,节点之间的边包括用户节点与金融产品节点之间的边和用户节点与用户节点之间的边,用户节点、金融产品节点以及节点之间的边组成金融知识图谱。
用户节点包括目标用户节点以及关联用户节点,关联用户节点为目标用户的家庭成员的节点。根据家庭关系数据可确定关联用户节点与目标用户节点的亲属关系,该亲属关系包括配偶关系、父母关系或子女关系等。除了获取目标用户的持仓数据,还可以获取关联用户节点的金融产品节点。
在获取目标用户节点、关联用户以及金融产品节点之后,提取各用户节点之间的亲属关系,将该亲属关系作为用户节点之间的边。提取用户节点与金融产品节点的持有关系,将该持有关系作为用户节点与金融产品节点之间的边。需要说明的是,上述边为有向边。例如目标用户节点a持有金融产品节点b,则连接目标用户节点a和金融产品节点b的边ab为由目标用户节点a指向金融产品节点b的有向边。在确定了用户节点、金融产品节点以及边后,可得到金融知识图谱。
可以将金融知识图谱包换的节点数据以及边数据存储在数据仓库工具Hive中。
步骤2.4、计算目标用户在金融知识图谱中的统计分析参数,根据统计分析参数确定图谱统计特征向量。
具体的,计算目标用户在金融知识图谱中的统计分析参数,统计分析参数包括:出度、入度、中心度或聚类系数中的一种或多种。对每种统计分析参数分别进行标准化,根据标准化的统计分析参数确定图谱特征向量。
出度表示某个节点作为有向边的起点的数量。入度为某个节点作为有向边的终点的数量。中心度可以为节点的中介中心度、节点的度中心度或节点的接近中心度。集聚系数表示是金融知识图谱中的节点倾向于集聚在一起的程度。根据上述概念可分别计算出有向图中每个节点的出度、入度、中心度以及聚类系数。
对于任意一个统计分析参数,分别进行标准化。示例性的,对于目标节点的出度c,使用该出度c减去金融知识图谱中的节点的出度平均值,得到差值。使用差值除以金融知识图谱中的节点的出度的标准差,将商作为目标节点标准化后的出度。上述示例仅以出度作为一个示例。对每个节点的每个统计分析参数均按照上述流程进行计算。
在进行标准化后,每个节点的出度、入度、中心度以及聚类系数作为该节点的统计特征向量。将全部节点的统计特征向量组合为图谱统计特征向量。
步骤2.5、对金融知识图谱中多个节点进行向量化学习,得到多个节点对应的图谱学习特征向量。
可以运用基于图遍历的图表式学习方式Node2Vec对金融知识图谱中的全部节点进行向量化学习,得到图谱学习特征向量。
步骤2.6、根据图谱统计特征向量和图谱学习特征向量生成用户向量表达式。
将步骤2.4得到的图谱统计特征向量和步骤2.5得到的图谱学习特征向量进行组合,得到用户向量表达式。用户向量表达式为稠密向量。
进一步的,若目标用户缺少家庭关系数据和持仓数据,则获取全部金融知识图谱中节点的平均统计分析参数;根据平均统计分析参数确定目标用户的用户向量表达式。
若目标用户确实家庭关系数据或持仓数据,则可以获取全部金融知识图谱中节点的平均统计分析参数。将平均统计分析参数替代目标用户缺少的参数,然后参照上述步骤使用替代后的参数计算用户向量表达式。
可选的,图谱学习特征向量以及用户向量表达式可以存储在数据仓库工具Hive中。
步骤130、根据目标用户的业务数据确定目标用户的业务评分。
可选的,步骤130可通过下述方式实施:
步骤3.1、获取目标用户的业务数据,业务数据包括交易数据、合约数据或账本数据中的一种或多种。
可以通过外部系统获取用户的业务数据,业务数据包括交易数据、合约数据和账本数据。
其中交易数据用于表示用户资金流水情况。合约数据用于表示用户已签约购买的产品信息。账本数据用于表示用户的资产负载情况。
步骤3.2、根据业务数据确定目标用户的业务评分,业务评分包括资产配置评分、客户流动性评分或保障性评分中的一个或多个。
可以利用Spark、根据业务数据确定目标用户的业务评分。示例性的,可以根据用户账本数据、交易数据以及合约数据判断用户资产分配情况,根据资产分配情况计算资产配置评分。示例性的,可以根据账本数据确定用户是否偏向于长期存款,进而确定用户流动性评分。示例性的,可以根据合约数据确定用户是否购买了保险产品,进而确定保障性评分。
可选的,使用数据仓库工具Hive存储稠密向量表达式、用户向量表达式以及业务评分;通过数据仓库工具获取稠密向量表达式、用户向量表达式以及业务评分。
步骤140、根据稠密向量表达式、用户向量表达式以及业务评分生成特征向量。
使用自动编码器(Auto Encoder)将稠密向量表达式、用户向量表达式以及业务评分合成为特征向量。
步骤150、将特征向向量作为输入,通过预设模型得到用户聚类结果。
预设模型可以为FastKmeans算法支持的模型。通过FastKmeans算法进行聚类,得到用户聚类结果。
本发明实施例提供的聚类数据处理方法,首先根据目标用户的基本信息获取确定稠密向量表达式;根据目标用户的家庭关系数据和持仓数据生成用户的金融知识图谱,根据金融知识图谱生成用户向量表达式;根据目标用户的业务数据确定目标用户的业务评分;然后,根据稠密向量表达式、用户向量表达式以及业务评分生成特征向量;最后,将特征向向量作为输入,通过预设模型得到用户聚类结果。相对于目前缺少准确聚类,本发明实施例提供的聚类数据处理方法能够根据用户的基本信息确定稠密向量表达式、根据用户的家庭关系数据和持仓数据确定用户向量表达式、根据用户的业务数据确定业务评分,然后将上述稠密向量表达式、用户向量表达式以及业务评分进行组合,得到特征向量,此时特征向量能够全面的表示用户特征。使用该特征向量进行聚类时,能够更加准确的对用户进行聚类,提高聚类准确性。
实施例二
图2为本申请实施例二提供的聚类数据处理装置的结构示意图,该装置可适用于金融领域对用户进行聚类情况,该装置可以应用于进行用户聚类计算的计算机设备,具体包括:稠密向量确定模块210、用户向量表达式生成模块220、评分模块230、特征向量生成模块240以及聚类模块250。
稠密向量确定模块210,用于根据目标用户的基本信息获取确定稠密向量表达式;
用户向量表达式生成模块220,用于根据目标用户的家庭关系数据和持仓数据生成用户的金融知识图谱,根据金融知识图谱生成用户向量表达式;
评分模块230,用于根据目标用户的业务数据确定目标用户的业务评分;
特征向量生成模块240,用于根据稠密向量表达式、用户向量表达式以及业务评分生成特征向量;
聚类模块250,用于将特征向向量作为输入,通过预设模型得到用户聚类结果。
在上述实施例的基础上,稠密向量确定模块210用于:
通过外部系统获取目标用户的基本信息;
根据基本信息确定基本信息的对应的稀疏向量;
将稀疏向量转换为稠密向量表达式。
在上述实施例的基础上,基本信息包括:性别、年龄、收入、婚姻状态或民族中的一个或多个目标参数,稠密向量确定模块210用于:
如果目标参数为连续型变量,则根据目标参数的取值范围划分出多个数值区间,使用独热编码表示目标参数所在的目标数值区间;
如果目标参数为离散型变量,则使用独热编码表示目标参数;
将一个或多个目标参数的独热编码按照预设顺序进行排列,得到基本信息对应的稀疏向量。
在上述实施例的基础上,用户向量表达式生成模块220用于:
通过外部系统获取与目标用户关联的家庭关系数据和持仓数据;
抽取用户节点和金融产品节点;
根据家庭关系数据和持仓数据,构造节点之间的边,节点之间的边包括用户节点与金融产品节点之间的边和用户节点与用户节点之间的边,用户节点、金融产品节点以及节点之间的边组成金融知识图谱;
计算目标用户在金融知识图谱中的统计分析参数,根据统计分析参数确定图谱统计特征向量;
对金融知识图谱中多个节点进行向量化学习,得到多个节点对应的图谱学习特征向量;
根据图谱统计特征向量和图谱学习特征向量生成用户向量表达式。
在上述实施例的基础上,用户向量表达式生成模块220用于:
计算目标用户在金融知识图谱中的统计分析参数,统计分析参数包括:出度、入度、中心度或聚类系数中的一种或多种;
对每种统计分析参数分别进行标准化,根据标准化的统计分析参数确定图谱特征向量。
在上述实施例的基础上,用户向量表达式生成模块220还用于:
若目标用户缺少家庭关系数据和持仓数据,则获取全部金融知识图谱中节点的平均统计分析参数;
根据平均统计分析参数确定目标用户的用户向量表达式。
在上述实施例的基础上,评分模块230用于:
获取目标用户的业务数据,业务数据包括交易数据、合约数据或账本数据中的一种或多种;
根据业务数据确定目标用户的业务评分,业务评分包括资产配置评分、客户流动性评分或保障性评分中的一个或多个。
在上述实施例的基础上,还包括存储模块,存储模块用于:
使用数据仓库工具存储稠密向量表达式、用户向量表达式以及业务评分;
通过数据仓库工具获取稠密向量表达式、用户向量表达式以及业务评分。
本发明实施例提供的聚类数据处理装置,首先稠密向量确定模块210根据目标用户的基本信息获取确定稠密向量表达式;用户向量表达式生成模块220根据目标用户的家庭关系数据和持仓数据生成用户的金融知识图谱,根据金融知识图谱生成用户向量表达式;评分模块230根据目标用户的业务数据确定目标用户的业务评分;然后,特征向量生成模块240根据稠密向量表达式、用户向量表达式以及业务评分生成特征向量;最后,聚类模块250将特征向向量作为输入,通过预设模型得到用户聚类结果。相对于目前缺少准确聚类,本发明实施例提供的聚类数据处理装置,能够根据用户的基本信息确定稠密向量表达式、根据用户的家庭关系数据和持仓数据确定用户向量表达式、根据用户的业务数据确定业务评分,然后将上述稠密向量表达式、用户向量表达式以及业务评分进行组合,得到特征向量,此时特征向量能够全面的表示用户特征。使用该特征向量进行聚类时,能够更加准确的对用户进行聚类,提高聚类准确性。
本发明实施例所提供的聚类数据处理装置可执行本发明任意实施例所提供的聚类数据处理方法,具备执行方法相应的功能模块和有益效果。
实施例三
图3为本发明实施例三提供的一种计算机设备的结构示意图,如图3所示,该计算机设备包括处理器70、存储器71、输入装置72和输出装置73;计算机设备中处理器70的数量可以是一个或多个,图3中以一个处理器70为例;计算机设备中的处理器70、存储器71、输入装置72和输出装置73可以通过总线或其他方式连接,图3中以通过总线连接为例。
存储器71作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的聚类数据处理方法对应的程序指令/模块(例如,聚类数据处理装置中的稠密向量确定模块210、用户向量表达式生成模块220、评分模块230、特征向量生成模块240以及聚类模块250)。处理器70通过运行存储在存储器71中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的聚类数据处理方法。
存储器71可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器71可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器71可进一步包括相对于处理器70远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置72可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置73可包括显示屏等显示设备。
实施例四
本发明实施例四还提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种聚类数据处理方法,该方法包括:
根据目标用户的基本信息获取确定稠密向量表达式;
根据目标用户的家庭关系数据和持仓数据生成用户的金融知识图谱,根据金融知识图谱生成用户向量表达式;
根据目标用户的业务数据确定目标用户的业务评分;
根据稠密向量表达式、用户向量表达式以及业务评分生成特征向量;
将特征向向量作为输入,通过预设模型得到用户聚类结果。
进一步的,根据目标用户的基本信息获取确定稠密向量表达式,包括:
通过外部系统获取目标用户的基本信息;
根据基本信息确定基本信息的对应的稀疏向量;
将稀疏向量转换为稠密向量表达式。
进一步的,基本信息包括:性别、年龄、收入、婚姻状态或民族中的一个或多个目标参数,根据基本信息确定基本信息的对应的稀疏向量,包括:
如果目标参数为连续型变量,则根据目标参数的取值范围划分出多个数值区间,使用独热编码表示目标参数所在的目标数值区间;
如果目标参数为离散型变量,则使用独热编码表示目标参数;
将一个或多个目标参数的独热编码按照预设顺序进行排列,得到基本信息对应的稀疏向量。
进一步的,根据目标用户的家庭关系数据和持仓数据生成用户的金融知识图谱,根据金融知识图谱生成用户向量表达式,包括:
通过外部系统获取与目标用户关联的家庭关系数据和持仓数据;
抽取用户节点和金融产品节点;
根据家庭关系数据和持仓数据,构造节点之间的边,节点之间的边包括用户节点与金融产品节点之间的边和用户节点与用户节点之间的边,用户节点、金融产品节点以及节点之间的边组成金融知识图谱;
计算目标用户在金融知识图谱中的统计分析参数,根据统计分析参数确定图谱统计特征向量;
对金融知识图谱中多个节点进行向量化学习,得到多个节点对应的图谱学习特征向量;
根据图谱统计特征向量和图谱学习特征向量生成用户向量表达式。
进一步的,计算目标用户在金融知识图谱中的统计分析参数,根据统计分析参数确定图谱特征向量,包括:
计算目标用户在金融知识图谱中的统计分析参数,统计分析参数包括:出度、入度、中心度或聚类系数中的一种或多种;
对每种统计分析参数分别进行标准化,根据标准化的统计分析参数确定图谱特征向量。
进一步的,在根据目标用户的家庭关系数据和持仓数据生成用户的金融知识图谱之后,还包括:
若目标用户缺少家庭关系数据和持仓数据,则获取全部金融知识图谱中节点的平均统计分析参数;
根据平均统计分析参数确定目标用户的用户向量表达式。
进一步的,根据目标用户的业务数据确定目标用户的业务评分,包括:
获取目标用户的业务数据,业务数据包括交易数据、合约数据或账本数据中的一种或多种;
根据业务数据确定目标用户的业务评分,业务评分包括资产配置评分、客户流动性评分或保障性评分中的一个或多个。
进一步的,在根据稠密向量表达式、用户向量表达式以及业务评分生成特征向量之前,还包括:
使用数据仓库工具存储稠密向量表达式、用户向量表达式以及业务评分;
通过数据仓库工具获取稠密向量表达式、用户向量表达式以及业务评分。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本发明任意实施例所提供的聚类数据处理方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
值得注意的是,上述搜索装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (18)
1.一种聚类数据处理方法,其特征在于,包括:
根据目标用户的基本信息获取确定稠密向量表达式;
根据所述目标用户的家庭关系数据和持仓数据生成用户的金融知识图谱,根据所述金融知识图谱生成用户向量表达式;
根据所述目标用户的业务数据确定所述目标用户的业务评分;
根据所述稠密向量表达式、所述用户向量表达式以及所述业务评分生成特征向量;
将所述特征向向量作为输入,通过预设模型得到用户聚类结果。
2.根据权利要求1所述的方法,其特征在于,所述根据目标用户的基本信息获取确定稠密向量表达式,包括:
通过外部系统获取目标用户的基本信息;
根据所述基本信息确定所述基本信息的对应的稀疏向量;
将所述稀疏向量转换为稠密向量表达式。
3.根据权利要求2所述的方法,其特征在于,所述基本信息包括:性别、年龄、收入、婚姻状态或民族中的一个或多个目标参数,所述根据所述基本信息确定所述基本信息的对应的稀疏向量,包括:
如果目标参数为连续型变量,则根据所述目标参数的取值范围划分出多个数值区间,使用独热编码表示所述目标参数所在的目标数值区间;
如果目标参数为离散型变量,则使用独热编码表示所述目标参数;
将所述一个或多个目标参数的独热编码按照预设顺序进行排列,得到所述基本信息对应的稀疏向量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标用户的家庭关系数据和持仓数据生成用户的金融知识图谱,根据所述金融知识图谱生成用户向量表达式,包括:
通过外部系统获取与所述目标用户关联的家庭关系数据和持仓数据;
抽取用户节点和金融产品节点;
根据所述家庭关系数据和持仓数据,构造节点之间的边,所述节点之间的边包括用户节点与金融产品节点之间的边和用户节点与用户节点之间的边,所述用户节点、所述金融产品节点以及所述节点之间的边组成金融知识图谱;
计算所述目标用户在所述金融知识图谱中的统计分析参数,根据所述统计分析参数确定图谱统计特征向量;
对所述金融知识图谱中多个节点进行向量化学习,得到所述多个节点对应的图谱学习特征向量;
根据所述图谱统计特征向量和所述图谱学习特征向量生成用户向量表达式。
5.根据权利要求4所述的方法,其特征在于,所述计算所述目标用户在所述金融知识图谱中的统计分析参数,根据所述统计分析参数确定图谱特征向量,包括:
计算所述目标用户在所述金融知识图谱中的统计分析参数,所述统计分析参数包括:出度、入度、中心度或聚类系数中的一种或多种;
对每种所述统计分析参数分别进行标准化,根据标准化的统计分析参数确定图谱特征向量。
6.根据权利要求1所述的方法,其特征在于,在根据所述目标用户的家庭关系数据和持仓数据生成用户的金融知识图谱之后,还包括:
若所述目标用户缺少家庭关系数据和持仓数据,则获取全部金融知识图谱中节点的平均统计分析参数;
根据所述平均统计分析参数确定所述目标用户的用户向量表达式。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标用户的业务数据确定所述目标用户的业务评分,包括:
获取所述目标用户的业务数据,所述业务数据包括交易数据、合约数据或账本数据中的一种或多种;
根据所述业务数据确定所述目标用户的业务评分,所述业务评分包括资产配置评分、客户流动性评分或保障性评分中的一个或多个。
8.根据权利要求1所述的方法,其特征在于,在根据所述稠密向量表达式、所述用户向量表达式以及所述业务评分生成特征向量之前,还包括:
使用数据仓库工具存储所述稠密向量表达式、所述用户向量表达式以及所述业务评分;
通过所述数据仓库工具获取所述稠密向量表达式、所述用户向量表达式以及所述业务评分。
9.一种聚类数据处理装置,其特征在于,包括:
稠密向量确定模块,用于根据目标用户的基本信息获取确定稠密向量表达式;
用户向量表达式生成模块,用于根据所述目标用户的家庭关系数据和持仓数据生成用户的金融知识图谱,根据所述金融知识图谱生成用户向量表达式;
评分模块,用于根据所述目标用户的业务数据确定所述目标用户的业务评分;
特征向量生成模块,用于根据所述稠密向量表达式、所述用户向量表达式以及所述业务评分生成特征向量;
聚类模块,用于将所述特征向向量作为输入,通过预设模型得到用户聚类结果。
10.根据权利要求9所述的装置,其特征在于,所述稠密向量确定模块用于:
通过外部系统获取目标用户的基本信息;
根据所述基本信息确定所述基本信息的对应的稀疏向量;
将所述稀疏向量转换为稠密向量表达式。
11.根据权利要求10所述的装置,其特征在于,所述基本信息包括:性别、年龄、收入、婚姻状态或民族中的一个或多个目标参数,所述稠密向量确定模块用于:
如果目标参数为连续型变量,则根据所述目标参数的取值范围划分出多个数值区间,使用独热编码表示所述目标参数所在的目标数值区间;
如果目标参数为离散型变量,则使用独热编码表示所述目标参数;
将所述一个或多个目标参数的独热编码按照预设顺序进行排列,得到所述基本信息对应的稀疏向量。
12.根据权利要求9所述的装置,其特征在于,所述用户向量表达式生成模块用于:
通过外部系统获取与所述目标用户关联的家庭关系数据和持仓数据;
抽取用户节点和金融产品节点;
根据所述家庭关系数据和持仓数据,构造节点之间的边,所述节点之间的边包括用户节点与金融产品节点之间的边和用户节点与用户节点之间的边,所述用户节点、所述金融产品节点以及所述节点之间的边组成金融知识图谱;
计算所述目标用户在所述金融知识图谱中的统计分析参数,根据所述统计分析参数确定图谱统计特征向量;
对所述金融知识图谱中多个节点进行向量化学习,得到所述多个节点对应的图谱学习特征向量;
根据所述图谱统计特征向量和所述图谱学习特征向量生成用户向量表达式。
13.根据权利要求12所述的装置,其特征在于,所述用户向量表达式生成模块用于:
计算所述目标用户在所述金融知识图谱中的统计分析参数,所述统计分析参数包括:出度、入度、中心度或聚类系数中的一种或多种;
对每种所述统计分析参数分别进行标准化,根据标准化的统计分析参数确定图谱特征向量。
14.根据权利要求9所述的装置,其特征在于,用户向量表达式生成模块还用于:
若所述目标用户缺少家庭关系数据和持仓数据,则获取全部金融知识图谱中节点的平均统计分析参数;
根据所述平均统计分析参数确定所述目标用户的用户向量表达式。
15.根据权利要求9所述的装置,其特征在于,所述评分模块用于:
获取所述目标用户的业务数据,所述业务数据包括交易数据、合约数据或账本数据中的一种或多种;
根据所述业务数据确定所述目标用户的业务评分,所述业务评分包括资产配置评分、客户流动性评分或保障性评分中的一个或多个。
16.根据权利要求9所述的装置,其特征在于,还包括存储模块,所述存储模块用于:
使用数据仓库工具存储所述稠密向量表达式、所述用户向量表达式以及所述业务评分;
通过所述数据仓库工具获取所述稠密向量表达式、所述用户向量表达式以及所述业务评分。
17.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一所述的聚类数据处理方法。
18.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一所述的聚类数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011025775.6A CN112182320B (zh) | 2020-09-25 | 2020-09-25 | 聚类数据处理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011025775.6A CN112182320B (zh) | 2020-09-25 | 2020-09-25 | 聚类数据处理方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112182320A true CN112182320A (zh) | 2021-01-05 |
CN112182320B CN112182320B (zh) | 2023-12-26 |
Family
ID=73944072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011025775.6A Active CN112182320B (zh) | 2020-09-25 | 2020-09-25 | 聚类数据处理方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112182320B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241199A (zh) * | 2018-08-08 | 2019-01-18 | 广州初星科技有限公司 | 一种面向金融知识图谱发现的方法 |
CN110110172A (zh) * | 2017-12-28 | 2019-08-09 | 北京京东尚科信息技术有限公司 | 信息展示方法和装置 |
CN110688489A (zh) * | 2019-09-09 | 2020-01-14 | 中国电子科技集团公司电子科学研究院 | 基于交互注意力的知识图谱推演方法、装置和存储介质 |
WO2020143184A1 (zh) * | 2019-01-11 | 2020-07-16 | 平安科技(深圳)有限公司 | 知识融合方法、装置、计算机设备和存储介质 |
-
2020
- 2020-09-25 CN CN202011025775.6A patent/CN112182320B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110172A (zh) * | 2017-12-28 | 2019-08-09 | 北京京东尚科信息技术有限公司 | 信息展示方法和装置 |
CN109241199A (zh) * | 2018-08-08 | 2019-01-18 | 广州初星科技有限公司 | 一种面向金融知识图谱发现的方法 |
WO2020143184A1 (zh) * | 2019-01-11 | 2020-07-16 | 平安科技(深圳)有限公司 | 知识融合方法、装置、计算机设备和存储介质 |
CN110688489A (zh) * | 2019-09-09 | 2020-01-14 | 中国电子科技集团公司电子科学研究院 | 基于交互注意力的知识图谱推演方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112182320B (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119413B (zh) | 数据融合的方法和装置 | |
CN111737546B (zh) | 确定实体业务属性的方法及装置 | |
CN109063921B (zh) | 客户风险预警的优化处理方法、装置、计算机设备和介质 | |
CN110659318A (zh) | 基于大数据的策略推送方法、系统及计算机设备 | |
US10713573B2 (en) | Methods and systems for identifying and prioritizing insights from hidden patterns | |
CN110135943B (zh) | 产品推荐方法、装置、计算机设备和存储介质 | |
CN113379301A (zh) | 通过决策树模型对用户进行分类的方法、装置和设备 | |
CN111797320A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN111652661A (zh) | 一种手机客户端用户流失预警处理方法 | |
CN116401379A (zh) | 金融产品数据推送方法、装置、设备及存储介质 | |
Song et al. | Asymptotic distribution-free changepoint detection for data with repeated observations | |
CN113850669A (zh) | 用户分群方法、装置、计算机设备及计算机可读存储介质 | |
CN113011966A (zh) | 基于深度学习的信用评分方法及装置 | |
WO2023185125A1 (zh) | 产品资源的数据处理方法及装置、电子设备、存储介质 | |
CN112182320B (zh) | 聚类数据处理方法、装置、计算机设备及存储介质 | |
CN114238615B (zh) | 一种企业服务成果数据处理方法及系统 | |
CN115905472A (zh) | 商机业务处理方法、装置、服务器及计算机可读存储介质 | |
CN112463964B (zh) | 文本分类及模型训练方法、装置、设备及存储介质 | |
CN114997327A (zh) | 目标对象的分类方法、装置、存储介质以及电子设备 | |
CN113849580A (zh) | 一种主体评级预测方法、装置、电子设备及存储介质 | |
CN109308565B (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 | |
CN111882339A (zh) | 预测模型训练及响应率预测方法、装置、设备及存储介质 | |
CN111400594B (zh) | 一种信息向量确定方法、装置、设备及存储介质 | |
CN114065042A (zh) | 用户需求预测方法、装置、电子设备及可读存储介质 | |
CN116664190A (zh) | 电子券推荐方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |