CN116860888A - 一种用户筛选方法、装置及计算机可读存储介质 - Google Patents
一种用户筛选方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116860888A CN116860888A CN202310820418.6A CN202310820418A CN116860888A CN 116860888 A CN116860888 A CN 116860888A CN 202310820418 A CN202310820418 A CN 202310820418A CN 116860888 A CN116860888 A CN 116860888A
- Authority
- CN
- China
- Prior art keywords
- entity
- entities
- knowledge
- association
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012216 screening Methods 0.000 title claims abstract description 48
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 238000010801 machine learning Methods 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims description 45
- 238000005065 mining Methods 0.000 claims description 38
- 238000013016 damping Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000005457 optimization Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012098 association analyses Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- BASFCYQUMIYNBI-UHFFFAOYSA-N platinum Chemical compound [Pt] BASFCYQUMIYNBI-UHFFFAOYSA-N 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000282376 Panthera tigris Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000008774 maternal effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 229910052697 platinum Inorganic materials 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种用户筛选方法、装置及计算机可读存储介质,该方法包括根据实体集合中实体的实体属性和实体之间的关系生成知识图谱网络;实体包括用户、银行、银行卡、商户和商圈;挖掘知识图谱网络中的关联特征;关联特征包括两个实体之间的关联性、多个实体之间的关联关系和单个实体的中心性中的至少一项;将知识图谱中的关联特征输入训练后的机器学习算法模型,获得实体集合中的重要用户。利用上述方法可以获得多种实体之间更多的潜在关系,从而使得本申请中的机器学习算法模型可以学习到更多特征与重要用户之间的映射关系,使得本申请实施例的用户筛选方法筛选得到的重要用户的准确性更高。
Description
技术领域
本申请属于大数据领域,具体涉及一种用户筛选方法、装置及计算机可读存储介质。
背景技术
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
在大数据和人工智能的飞速发展下,智能营销是基于大数据精准定位、通过数字化媒体渠道触达用户的新营销模式。智能营销中较为重要的步骤为在众多用户中筛选重要用户,针对重要用户进行营销,可以获得较好的营销效果,在一定程度上可以提升智能营销的转化效果和实施效率。
相关技术中,对于用户的筛选主要采用了以下方法:一是基于专家规则和业务目标来选择对应的年龄、性别、消费偏好等画像标签来确定投放人群,将对筛选人群进行投放测试,筛选重要性较高的用户,这种方法需要进行长期的测试,依赖业务经验及需要长期测试,稳定性较差且无法进行迭代优化。二是基于种子用户的基本特征,使用机器学习训练模型,对于模型评分高的用户进行营销投放。但通过用户的基本特征筛选的重要用户的方法准确性较低。
因此,如何使得筛选的重要用户准确性更高是一个亟待解决的问题。
申请内容
针对上述现有技术中存在的问题,提出了一种用户筛选方法、装置及计算机可读存储介质,利用这种方法、装置及计算机可读存储介质,能够解决上述问题。
本申请提供了以下方案。
第一方面,本申请实施例提供了一种用户筛选方法,包括:
根据实体集合中实体的实体属性和实体之间的关系生成知识图谱网络;实体包括用户、银行、银行卡、商户和商圈;实体属性包括用户属性、银行属性、银行卡属性、商户属性和商圈属性中的至少一种;实体之间的关系包括银行卡与用户之间的持有关系、银行与银行卡之间的归属关系、银行卡与商户之间的交易关系、商户与商圈之间的归属关系中的至少一种;
挖掘知识图谱网络中的关联特征;关联特征包括两个实体之间的关联性、多个实体之间的关联关系和单个实体的中心性中的至少一项;
将知识图谱中的关联特征输入训练后的机器学习算法模型,获得实体集合中的重要用户。
在一些可能的实施例中,关联特征为所述两个实体之间的关联性,挖掘知识图谱网络中的关联特征,包括:
根据实体集合中的两个实体在知识图谱网络之间的共同邻居节点的数量,确定两个实体之间的关联性。
在一些可能的实施例中,关联特征为所述两个实体之间的关联性,两个实体分别为第一实体和第二实体,挖掘知识图谱网络中的关联特征,包括:
根据实体集合中的第一实体和第二实体在知识图谱网络之间的共同邻居节点的数量和共同邻居节点对应的边权重、第一实体的邻居节点的数量和第一实体的邻居节点对应的边权重、第二实体的邻居节点的数量和第二实体的邻居节点对应的边权重,确定第一实体和第二实体之间的关联性。
在一些可能的实施例中,第一实体和第二实体之间的关联性J(u,v)为:
其中,u为第一实体对应的节点;v为第二实体对应的节点;N(u)和N(v)分别表示与节点u和v相连的邻居节点集合。|N(u)∩N(v)|表示节点u和v共同的邻居节点数量。|N(u)∪N(v)|表示节点u和v总共的邻居节点数量。L(N(u)∩N(v))表示节点u和v共同邻居节点的边权重之和。L(N(u)∪N(v))表示节点u和v总共邻居节点的边权重之和。
在一些可能的实施例中,关联特征为多个实体之间的关联关系,挖掘知识图谱网络中的关联特征,包括:
以知识图谱网络的模块度最高为目标,将实体集合分为多个实体子集合;
模块度指示在同一个实体子集合中实体的关联性。
在一些可能的实施例中,模块度可以根据下述公式进行计算:
其中,u和v均为实体在知识图谱网络对应的节点;L(u,v)表示节点u和节点v之间的边权重之和;L(u)表示节点u与其他节点的边权重之和;L(v)表示节点v与其他节点的边权重之和;L_sum表示知识图谱网络中所有边的权重之和;如果节点u和节点v属于同一个社区,δ(cu,cv)取值为1;否则,δ(cu,cv)取值为0。
在一些可能的实施例中,关联特征为多个实体之间的关联关系,挖掘知识图谱网络中的关联特征,包括:
通过标签传播算法将实体集合分为多个实体子集合,多个实体子集合的标签一致。
在一些可能的实施例中,关联特征为单个实体的中心性,挖掘知识图谱网络中的关联特征,包括:
使用度中心性算法、影响力最大化算法或网页排名算法确定知识图谱网络中实体的中心性。
在一些可能的实施例中,使用网页排名算法确定知识图谱网络中实体的中心性PR(u),可以通过如下公式计算:
其中,u和v均为实体在知识图谱网络对应的节点;PR(u)表示节点u的PageRank值;d为阻尼因子,用于平衡随机跳跃和按链接传播的概率;PR(v)为指向节点u的节点v的PageRank值;Cout(v)为节点v的出度,即指向其他节点的边数量;L(v)表示节点v指向其他节点边的权重值。
在一些可能的实施例中,还包括:提取知识图谱网络中的数据,并将提取后的数据存入知识图谱数据库中;
挖掘知识图谱网络中的关联特征,包括:根据知识图谱数据库中的数据挖掘知识图谱网络中的关联特征。
在一些可能的实施例中,将知识图谱中的关联特征输入训练后的机器学习算法模型,获得实体集合中的重要用户,包括:
将知识图谱中的关联特征和用户特征输入训练后的机器学习算法模型,获得实体集合中的重要用户;用户特征包括人口属性、地域属性、用卡属性、消费能力和消费场景中的至少一种;人口属性包括性别、年龄、职业和学历中的至少一种;用卡属性包括持有银行卡的数量、持有银行卡的等级、持有银行卡的性质和持有银行卡的所属银行中的至少一种。
在一些可能的实施例中,该方法还包括通过训练数据中实体的实体属性和实体之间的关系生成训练知识图谱网络;
挖掘训练知识图谱网络中的关联特征;
根据训练知识图谱中的关联特征和训练数据中的用户特征训练机器学习算法模型;训练后的机器学习算法模型用于获得实体集合中的重要用户;用户特征包括人口属性、地域属性、用卡属性、消费能力和消费场景中的至少一种;人口属性包括性别、年龄、职业和学历中的至少一种;用卡属性包括持有银行卡的数量、持有银行卡的等级、持有银行卡的性质和持有银行卡的所属银行中的至少一种。
在一些可能的实施例中,知识图谱网络中的关联特征,还用于获得商户和商户之间的关联性,或商户和用户之间的关联性。
第二方面,本申请提供了一种用户筛选装置,包括:
生成模块,用于根据实体集合中实体的实体属性和实体之间的关系生成知识图谱网络;实体包括用户、银行、银行卡、商户和商圈;实体属性包括用户属性、银行属性、银行卡属性、商户属性和商圈属性中的至少一种;实体之间的关系包括银行卡与用户之间的持有关系、银行与银行卡之间的归属关系、银行卡与商户之间的交易关系、商户与商圈之间的归属关系中的至少一种;
挖掘模块,用于挖掘知识图谱网络中的关联特征;关联特征包括两个实体之间的关联性、多个实体之间的关联关系和单个实体的中心性中的至少一项;
输入模块,用于将知识图谱中的关联特征输入训练后的机器学习算法模型,获得实体集合中的重要用户。
在一些可能的实施例中,关联特征为所述两个实体之间的关联性,两个实体分别为第一实体和第二实体,挖掘模块具体用于:
根据实体集合中的第一实体和第二实体在知识图谱网络之间的共同邻居节点的数量和共同邻居节点对应的边权重、第一实体的邻居节点的数量和第一实体的邻居节点对应的边权重、第二实体的邻居节点的数量和第二实体的邻居节点对应的边权重,确定第一实体和第二实体之间的关联性。
在一些可能的实施例中,关联特征为多个实体之间的关联关系,挖掘模块具体用于:
以知识图谱网络的模块度最高为目标,将实体集合分为多个实体子集合;
模块度指示在同一个实体子集合中实体的关联性。
在一些可能的实施例中,关联特征为单个实体的中心性,挖掘模块具体用于:
使用度中心性算法、影响力最大化算法或网页排名算法确定知识图谱网络中实体的中心性。
第三方面,本申请提供了一种用户筛选装置,包括:
至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的用户筛选方法。
第四方面,本申请提供了一种计算机可读存储介质,计算机可读存储介质存储有程序,当程序被多核处理器执行时,使得多核处理器执行上述的用户筛选方法。
由此可知,本申请提供的用户筛选方法通过多种实体的实体属性和实体之间的关系构成知识图谱网络,并深度挖掘知识图谱网络中的关联特征。通过知识图谱网络中的关联特征,可以获得多种实体之间更多的潜在关系,从而使得本申请中的机器学习算法模型可以学习到更多特征与重要用户之间的映射关系,使得本申请实施例的用户筛选方法筛选得到的重要用户的准确性更高。
本申请的其他优点将配合以下的说明和附图进行更详细的解说。
应当理解,上述说明仅是本申请技术方案的概述,以便能够更清楚地了解本申请的技术手段,从而可依照说明书的内容予以实施。为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举例说明本申请的具体实施方式。
附图说明
通过阅读下文的示例性实施例的详细描述,本领域普通技术人员将明白本文所述的优点和益处以及其他优点和益处。附图仅用于示出示例性实施例的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的标号表示相同的部件。在附图中:
图1为本申请实施例方案涉及的硬件运行环境的结构示意图;
图2为本申请实施例提供的一种用户筛选方法的流程示意图;
图3为本申请实施例提供的一种知识图谱网络的示意图;
图4为本申请实施例提供的一种用户筛选装置结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域技术人员。
在本申请实施例的描述中,应理解,诸如“包括”或“具有”等术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不旨在排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在的可能性。
除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
另外还需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,图1是本申请实施例方案涉及的硬件运行环境的结构示意图。
需要说明的是,图1即可为用户筛选设备的硬件运行环境的结构示意图。本申请实施例基于用户筛选设备可以是PC,便携计算机等终端设备。
如图1所示,该用户筛选设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的用户筛选设备结构并不构成对用户筛选设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于区块链的信息传输程序。其中,操作系统是管理和控制用户筛选设备硬件和软件资源的程序,支持用户筛选程序以及其它软件或程序的运行。
在图1所示的用户筛选设备中,用户接口1003主要用于接收第一终端、第二终端和监管终端发送的请求、数据等;网络接口1004主要用于连接后台服务器与后台服务器进行数据通信;而处理器1001可以用于调用存储器1005中存储的用户筛选程序,并执行以下操作:
根据实体集合中实体的实体属性和实体之间的关系生成知识图谱网络;实体包括用户、银行、银行卡、商户和商圈;实体属性包括用户属性、银行属性、银行卡属性、商户属性和商圈属性中的至少一种;实体之间的关系包括银行卡与用户之间的持有关系、银行与银行卡之间的归属关系、银行卡与商户之间的交易关系、商户与商圈之间的归属关系中的至少一种;挖掘知识图谱网络中的关联特征;关联特征包括两个实体之间的关联性、多个实体之间的关联关系和单个实体的中心性中的至少一项;将知识图谱中的关联特征输入训练后的机器学习算法模型,获得实体集合中的重要用户。
由此,能够通过多种实体的实体属性和实体之间的关系构成知识图谱网络,并深度挖掘知识图谱网络中的关联特征。通过知识图谱网络中的关联特征,可以获得多种实体之间更多的潜在关系,从而使得本申请中的机器学习算法模型可以学习到更多特征与重要用户之间的映射关系,使得本申请实施例的用户筛选方法筛选得到的重要用户的准确性更高。
图2为根据本申请一实施例的用户筛选方法的流程示意图,用于用户筛选,在该流程中,从设备角度而言,执行主体可以是一个或者多个电子设备,更具体地可以是的处理模块;从程序角度而言,执行主体相应地可以是搭载于这些电子设备上的程序。在本实施例中,用户筛选方法的执行主体可以是图1所示实施例中的用户筛选设备。
如图2所示,本实施例提供的用户筛选方法可以包括以下步骤:
S201:根据实体集合中实体的实体属性和实体之间的关系生成知识图谱网络;实体包括用户、银行、银行卡、商户和商圈;实体属性包括用户属性、银行属性、银行卡属性、商户属性和商圈属性中的至少一种;实体之间的关系包括银行卡与用户之间的持有关系、银行与银行卡之间的归属关系、银行卡与商户之间的交易关系、商户与商圈之间的归属关系中的至少一种。
本申请实施例,可以通过大数据Hive SQL对原始数据进行清洗、挖掘从而得到用户基础信息、银行卡信息、交易信息、消费偏好、转账信息、商户静态信息等数据。为了整合不同来源的输入数据,本发明基于分布式计算存储平台,例如Hadoop存储平台,对原始数据进行处理,包括数据去重、数据提取和数据导出,智能识别数据的基本类型(数值、字符标识等)并进行对应的数值或者向量化转换,并将处理完成的数据存储至分布式的、面向列的开源数据库中,例如HBase。处理完成的数据中可以包括多种实体组成的集体集合、多种实体分别对应的实体属性、多种实体之间的关系和一种实体内多个实体之间的关系,本申请实施例在此不做限定。
其中,实体的种类可以包括用户、银行、银行卡、商户和商圈。实体属性可以包括用户属性、银行属性、银行卡属性、商户属性和商圈属性中的一种或多种。作为一个示例,用户属性可以包括用户ID、用户性别、用户年龄、用户职业、用户的常消费地等数据。银行属性可以包括银行名称、银行类别、银行所在地等数据。银行卡属性可以包括卡号、卡等级(例如白银/白金/钻石等)、卡性质(例如信用卡/借记卡/境外卡等)等数据。商户属性可以包括商户ID、商户名称、商户位置、商户所处行业等数据。商圈属性可以包括商圈位置、商圈类别等数据。
实体之间的关系在知识图谱网络中通过将两实体之间的有向边进行表示。实体之间的关系,可以包括不同种类的实体之间的关系,例如银行卡与用户之间的持有关系、银行与银行卡之间的归属关系、银行卡与商户之间的交易关系、商户与商圈之间的归属关系。实体之间的关系还可以包括相同种类的实体之间的关系,例如银行卡与银行卡之间的转账关系等。
本申请实施例生成的知识图谱网络可以如图3所示,银行卡card之间存在转账transfer关系;银行卡card与用户user之间存在持有have关系;银行卡card与银行bank之间存在归属(发行release)关系;银行卡card与商户mechnt存在交易buy关系;商户mechnt与商圈district之间存在归属belong关系。
作为一种可能的实施方式,本申请还可以根据实体之间的关系属性构建知识图谱网络。实体之间的关系属性用于描述实体之间的关系的特征,例如银行卡与商户之间的交易关系的交易次数和交易金额等。
在实际的应用中,本申请可以提取所述知识图谱网络中的数据,并将提取后的数据存入知识图谱数据库中。提取的数据包括实体数据、关系数据和属性数据。作为一个示例,本申请中的知识图谱网络数据库可以为TigerGraph图数据库。然后本申请可以根据所述知识图谱数据库中的数据挖掘所述知识图谱网络中的关联特征。
S202:挖掘知识图谱网络中的关联特征;关联特征包括两个实体之间的关联性、多个实体之间的关联关系和单个实体的中心性中的至少一项。
需要说明的是,本申请可以分别从关联分析、社区识别、中心性分析三个维度对知识图谱进行深层次挖掘,分别获得知识图谱网络中的两个实体之间的关联性、多个实体之间的关联关系和单个实体的中心性。
第一,本申请可以从关联分析的维度对知识图谱进行深层次挖掘,发现知识图谱网络中两个实体之间的关联性,挖掘数据中关系价值。通常来说,两个实体之间的关联性越强,这两个实体之间的关系越紧密。本申请挖掘的实体之间的关系包括银行和商户之间的关系、商户和商户之间的关系、商户和用户之间的关系、用户和用户之间的显性关系与隐性关系等。在实际的应用中,可以使用Adamic Adar算法或Jaccard算法来预测两个实体间的关系。
作为一种可能的实施方式,本申请可以根据实体集合中的两个实体在知识图谱网络之间的共同邻居节点的数量,确定两个实体之间的关联性。具体地,本申请可以通过Adamic Adar算法形成两个节点之间的共同邻居节点集合,基于共同邻居的数量来衡量两个节点的相似度(关联性),同时考虑了邻居节点的出入度对整体的影响,给定两个节点u和v,具体的计算公式如下。
其中,AA(u,v)表示节点u和v的Adamic Adar相似度。w表示节点u和v的共同邻居节点。|N(w)|表示邻居节点w的度。
作为另一种可能的实施方式,本申请还可以根据实体集合中的第一实体和第二实体在知识图谱网络之间的共同邻居节点的数量和共同邻居节点对应的边权重、第一实体的邻居节点的数量和第一实体的邻居节点对应的边权重、第二实体的邻居节点的数量和第二实体的邻居节点对应的边权重,确定第一实体和第二实体之间的关联性。
具体地,本申请可以通过Jaccard算法计算两个实体之间的关联性,首先找到两个节点之间的共同邻居节点,然后计算共享邻居节点与总共邻居节点的节点数与边权重乘积之比J(u,v),J(u,v)越高,两个节点之间的相似度越高,两个节点对应的实体的关联性也就越高。基于本申请实施例的特定场景,优化具体的计算公式如下:
其中,u为第一实体对应的节点;v为第二实体对应的节点;N(u)和N(v)表示与节点u和v相连的邻居节点集合。|N(u)∩N(v)|表示节点u和v共同的邻居节点数量。|N(u)∪N(v)|表示节点u和v总共的邻居节点数量。L(N(u)∩N(v))表示节点u和v共同邻居节点的边权重之和。L(N(u)∪N(v))表示节点u和v总共邻居节点的边权重之和。
第二,本申请可以从社区识别的维度对知识图谱进行深层次挖掘,发现知识图谱网络中多个实体之间的关联关系。本申请通过社区识别的维度发现知识图谱网络中紧密连接的节点集合(即社区)的方法,社区内的节点之间的连接密度较高,而与其他社区的节点之间的连接密度较低。作为一种可能的实施方式,本申请可以使用Louvain算法或标签传播算法来识别各实体节点分属哪个社区。
作为一种可能的实施方式,本申请可以以知识图谱网络的模块度最高为目标,将实体集合分为多个实体子集合;模块度指示在同一个实体子集合中实体的关联性。在实际的应用中,本申请可以应用Louvain算法计算模块度。Louvain算法是基于模块度优化的贪心算法,用于发现知识图谱网络中紧密连接的节点集合,主要步骤如下:步骤a1,是将每个节点视为一个单独的社区;步骤a2,是进行局部优化,遍历所有节点,尝试将每个节点移动到其邻居社区,并计算模块度的变化;步骤a3,是如果将节点移动到某个邻居社区能够带来模块度的增加,则执行移动操作;步骤a4,是进行合并社区,将上一步得到的社区合并为一个新的节点,并为新的节点分配权重,使得新图中的边权重等于原社区间的边权重之和;步骤a5,是重复步骤a2和步骤a3,直到模块度不再增加。其中,基于本申请实施例的特定场景,模块度(Q)的计算公式如下:
其中,L(u,v)表示节点u和节点v之间的边权重之和;L(u)表示节点u与其他节点的边权重之和;L(v)表示节点v与其他节点的边权重之和;L_sum表示网络中所有边的权重之和;δ(cu,cv)表示如果节点u和节点v属于同一个社区,取值为1;否则,取值为0。
作为另一种可能的实施方式,本申请可以通过标签传播算法将实体集合分为多个实体子集合,多个实体子集合的标签一致。标签传播算法是通过让节点不断地从其邻居节点中学习标签,最终达到一个稳定状态,这时具有相同标签的节点组成一个社区,主要步骤如下:步骤b1,为图中的每个节点分配唯一的节点ID;步骤b2,是进行标签更新,随机选取一个节点,将其标签更新为其邻居节点中最频繁的标签;步骤b3,是重复步骤b2,直到大部分节点的标签不再发生变化;步骤b4,是进行社区划分,根据最终的节点标签,将具有相同标签的节点划分为一个社区。
第三,本申请可以从中心性分析的维度对知识图谱进行深层次挖掘,发现知识图谱网络中单个实体的中心性。需要说明的是,本申请实施例中实体的中心性用于评估知识图谱网络中各实体节点对总体的重要性,即各实体节点对于其他节点的影响力。在本申请实施例中,使用度中心性算法、影响力最大化(Cost-Effective Lazy Forward selection,CELF)算法或网页排名PageRank算法确定知识图谱网络中实体的中心性。
度中心性算法是衡量一个实体节点的入度和出度,即有多少其他节点指向该节点和该节点指向多少其他节点。度中心性越高,表示有更多的节点与该节点有关联,从而表明该节点在知识图谱中具有较高的重要性;CELF算法是通过计算每个节点的边际收益(即单独将该节点作为初始传播节点时的信息传播范围),使用贪心算法筛选出知识图谱中具有最大边际收益的节点,即为最具影响力的节点。
PageRank算法整体思想是一个节点被很多其他重要的节点指向时,其重要性就越高,针对本申请实施例的特定场景,将每条边的属性信息融入权重值中,优化计算公式如下所示。
其中,PR(u)表示节点u的PageRank值;d为阻尼因子,用于平衡随机跳跃和按链接传播的概率;PR(v)为指向节点u的节点v的PageRank值;Cout(v)为节点v的出度,即指向其他节点的边数量;L(v)表示节点v指向其他节点边的权重值。
S203:将知识图谱中的关联特征输入训练后的机器学习算法模型,获得实体集合中的重要用户。
需要说明的是,本申请实施例中的重要用户可以为银行或商户的种子用户,即对银行或者商户来说营销价值较大的用户。对于营销价值较大的用户,对其进行营销后可以获得较好的营销效果。本申请可以将采集到的关联特征进行特征提取与训练集构建,将原始数据进行特征提取,并根据种子用户特征构建机器学习算法模型的训练集,并通过训练数据中实体的实体属性和实体之间的关系生成训练知识图谱网络;挖掘训练知识图谱网络中的关联特征;根据训练知识图谱中的关联特征和训练数据中的用户特征训练机器学习算法模型;训练后的机器学习算法模型用于获得实体集合中的重要用户;用户特征的属性与上述的用户特征一致,本申请实施例在此不再赘述。具体步骤如下:
C1:数据预处理。将提取的多元的训练数据输出成为格式统一的向量化数据。首选,对原数据进行数据清洗清,包括数据对齐(将金额、时间等数据和单位进行统一)、缺失值处理、异常值处理(通过异常值检测算法和模型预测进行异常值删除)、数据转化(对年龄、活跃天数、交易时间等连续性数据进行分段处理,根据业务规则将数据分成不同区间段)等。
C2:用户特征构建。对于用户特征,如人口属性、地域属性、用卡特征等,通过对原数据中用户信息和银行卡信息提取和挖掘,形成以用户ID为主键的基础属性特征;对于消费偏好特征,如消费能力、消费场景等,通过对原数据中交易信息、消费偏好数据提取和挖掘,形成以用户ID为主键的消费偏好特征。
C3:训练知识图谱特征构建。对于训练知识图谱中的关联特征,通过使用知识图谱挖掘模块中相关算法挖掘图数据库中储存的线下交易知识图谱,形成以用户ID为主键的知识图谱特征,具体特征如下表所示。
C4:训练集构建。首先,基于用户ID将基本特征与挖掘得到的训练知识图谱的关联特征拼接,形成以用户ID为主键的特征表;接下来,基于隐私计算获取种子用户的用户ID,与特征表中的用户ID进行匹配,形成最终训练数据集,用于后续模型训练。
在获得了训练数据集后,本申请可以利用处理完成的训练集训练机器学习算法模型。作为一种可能的实施方式,本申请实施例采用LightGBM(Light Gradient BoostingMachine)算法进行模型训练。此外,算法性能主要基于AUC值进行评估,基于各个模型在训练集中的十折交叉验证结果选择最优模型。具体步骤如下:
D1:算法选择。该实例使用LightGBM算法进行模型训练,该算法是一种高效的梯度提升决策树框架,通过使用直方图算法、特征并行训练等优化方法,实现了快速的训练速度和良好的模型性能。
D2:模型调优。该实例使用贝叶斯优化方法进行模型调优,得到用于模型的最优参数,以提高模型的性能和泛化能力。该方法是基于数据使用贝叶斯定理估计目标函数的后验分布,然后再根据分布选择下一个采样的超参数组合,充分利用了前一个采样点的信息,从而在较少的迭代次数内找到最优参数值。
D3:模型生成。在完成模型调优后,使用训练和验证数据集进行最终的训练,形成最终的模型,使用LightGBM算法提供的函数保存模型并部署到服务器,确保模型的可靠性和可复用性。
在获得了训练后的机器学习算法模型后,本申请可以将知识图谱中的关联特征输入训练后的机器学习算法模型,获得实体集合中的重要用户。作为一种可能的实施方式,本申请还可以将用户特征和预处理后的关联特征共同输入训练后的机器学习算法模型,获得实体集合中的重要用户。具体地,用户特征包括人口属性、地域属性、用卡属性、消费能力和消费场景中的至少一种。具体地,人口属性可以包括性别、年龄、职业和学历中的至少一种;用卡属性可以包括持有银行卡的数量、持有银行卡的等级、持有银行卡的性质和持有银行卡的所属银行中的至少一种。地域属性可以包括常消费地区、境内分布境外特征、消费商圈中的至少一种。消费能力可以包括消费水平、高额消费次数、消费频率、线上消费或线下消费中的至少一种。消费场景可以包括金融理财、跨境商旅、外卖餐饮、母婴教育、商超购物中的至少一种。
本申请提供的用户筛选方法通过多种实体的实体属性和实体之间的关系构成知识图谱网络,并深度挖掘知识图谱网络中的关联特征。通过知识图谱网络中的关联特征和用户特征,可以获得多种实体之间更多的潜在关系和显性关系。多种实体之间更多的潜在关系和显性关系均可以作为特征输入机器学习算法模型,更多更全面的特征可以使得本申请中的机器学习算法模型可以学习到更多特征与重要用户之间的映射关系,使得本申请实施例的用户筛选方法筛选得到的重要用户的准确性更高。
本申请实施例还可以利用知识图谱网络中的关联特征,获得商户和商户之间的关联性,或商户和用户之间的关联性。具体地,本申请可以使用已构建知识图谱网络中的节点属性、关联分析,实现营销策略优化。第一,本申请可以利用知识图谱网络挖掘银行-商户的关联关系、商户属性(客单价、消费渠道等)等信息,分析银行与商户之间的显性、隐性特征,为银行提供最匹配、具有潜在价值的优质营销商户,为商户匹配到最优的银行营销资源。第二,本申请可以利用知识图谱网络挖掘商户-商户之间的关联关系、商户属性等信息,找到最优的商户集合,配置多方聚合权益,实现交叉营销,提高营销转化率。第三,本申请可以利用知识图谱网络挖掘商户-用户之间的关联关系、用户属性等信息,分析潜在用户的属性、兴趣、行为等信息,了解用户的需求和偏好,支撑银行、商户制定个性化的营销策略。
在本说明书的描述中,参考术语“一些可能的实施方式”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
关于本申请实施例的方法流程图,将某些操作描述为以一定顺序执行的不同的步骤。这样的流程图属于说明性的而非限制性的。可以将在本文中所描述的某些步骤分组在一起并且在单个操作中执行、可以将某些步骤分割成多个子步骤、并且可以以不同于在本文中所示出的顺序来执行某些步骤。可以由任何电路结构和/或有形机制(例如,由在计算机设备上运行的软件、硬件(例如,处理器或芯片实现的逻辑功能)等、和/或其任何组合)以任何方式来实现在流程图中所示出的各个步骤。
基于相同的技术构思,本申请实施例还提供一种用户筛选装置,用于执行上述任一实施例所提供的用户筛选方法。图4为本申请实施例提供的一种用户筛选装置结构示意图。
如图4所示,本申请实施例提供的用户筛选装置包括:
生成模块100,用于根据实体集合中实体的实体属性和实体之间的关系生成知识图谱网络;实体包括用户、银行、银行卡、商户和商圈;实体属性包括用户属性、银行属性、银行卡属性、商户属性和商圈属性中的至少一种;实体之间的关系包括银行卡与用户之间的持有关系、银行与银行卡之间的归属关系、银行卡与商户之间的交易关系、商户与商圈之间的归属关系中的至少一种;
挖掘模块200,用于挖掘知识图谱网络中的关联特征;关联特征包括两个实体之间的关联性、多个实体之间的关联关系和单个实体的中心性中的至少一项;
输入模块300,用于将知识图谱中的关联特征输入训练后的机器学习算法模型,获得实体集合中的重要用户。
作为一种可能的实施方式,关联特征为所述两个实体之间的关联性,挖掘模块具体用于根据实体集合中的两个实体在知识图谱网络之间的共同邻居节点的数量,确定两个实体之间的关联性。
作为一种可能的实施方式,关联特征为所述两个实体之间的关联性,两个实体分别为第一实体和第二实体,挖掘模块具体用于根据第一实体和第二实体在知识图谱网络之间的共同邻居节点的数量和共同邻居节点对应的边权重、第一实体的邻居节点的数量和第一实体的邻居节点对应的边权重、第二实体的邻居节点的数量和第二实体的邻居节点对应的边权重,确定第一实体和第二实体之间的关联性。
作为一种可能的实施方式,第一实体和第二实体之间的相似度J(u,v)为:
其中,u为第一实体对应的节点;v为第二实体对应的节点;N(u)和N(v)分别表示与节点u和v相连的邻居节点集合。|N(u)∩N(v)|表示节点u和v共同的邻居节点数量。|N(u)∪N(v)|表示节点u和v总共的邻居节点数量。L(N(u)∩N(v))表示节点u和v共同邻居节点的边权重之和。L(N(u)∪N(v))表示节点u和v总共邻居节点的边权重之和。
作为一种可能的实施方式,关联特征为多个实体之间的关联关系,挖掘模块具体用于以知识图谱网络的模块度最高为目标,将实体集合分为多个实体子集合;模块度指示在同一个实体子集合中实体的关联性。
作为一种可能的实施方式,模块度可以根据下述公式进行计算:
其中,u和v均为实体在知识图谱网络对应的节点;L(u,v)表示节点u和节点v之间的边权重之和;L(u)表示节点u与其他节点的边权重之和;L(v)表示节点v与其他节点的边权重之和;L_sum表示知识图谱网络中所有边的权重之和;如果节点u和节点v属于同一个社区,δ(cu,cv)取值为1;否则,δ(cu,cv)取值为0。
作为一种可能的实施方式,关联特征为多个实体之间的关联关系,挖掘模块具体用于通过标签传播算法将实体集合分为多个实体子集合,多个实体子集合的标签一致。
作为一种可能的实施方式,关联特征为单个实体的中心性,挖掘模块具体用于使用度中心性算法、影响力最大化算法或网页排名算法确定知识图谱网络中实体的中心性。
作为一种可能的实施方式,使用网页排名算法确定知识图谱网络中实体的中心性PR(u),可以通过如下公式计算:
其中,u和v均为实体在知识图谱网络对应的节点;PR(u)表示节点u的PageRank值;d为阻尼因子,用于平衡随机跳跃和按链接传播的概率;PR(v)为指向节点u的节点v的PageRank值;Cout(v)为节点v的出度,即指向其他节点的边数量;L(v)表示节点v指向其他节点边的权重值。
作为一种可能的实施方式,本申请实施例中的用户筛选装置还包括:提取模块,用于提取知识图谱网络中的数据,并将提取后的数据存入知识图谱数据库中;挖掘模块用于根据知识图谱数据库中的数据挖掘知识图谱网络中的关联特征。
作为一种可能的实施方式,输入模块用于将知识图谱中的关联特征和用户特征输入训练后的机器学习算法模型,获得实体集合中的重要用户;用户特征包括人口属性、地域属性、用卡属性、消费能力和消费场景中的至少一种;人口属性包括性别、年龄、职业和学历中的至少一种;用卡属性包括持有银行卡的数量、持有银行卡的等级、持有银行卡的性质和持有银行卡的所属银行中的至少一种。
在一些可能的实施例中,该装置还包括训练模块。训练模块,用于通过训练数据中实体的实体属性和实体之间的关系生成训练知识图谱网络;挖掘训练知识图谱网络中的关联特征;根据训练知识图谱中的关联特征和训练数据中的用户特征训练机器学习算法模型;训练后的机器学习算法模型用于获得实体集合中的重要用户;用户特征包括人口属性、地域属性、用卡属性、消费能力和消费场景中的至少一种;人口属性包括性别、年龄、职业和学历中的至少一种;用卡属性包括持有银行卡的数量、持有银行卡的等级、持有银行卡的性质和持有银行卡的所属银行中的至少一种。
作为一种可能的实施方式,知识图谱网络中的关联特征,还用于获得商户和商户之间的关联性,或商户和用户之间的关联性。
需要说明的是,本申请实施例中的装置可以实现前述方法的实施例的各个过程,并达到相同的效果和功能,这里不再赘述。
根据本申请的一些实施例,提供了根据本申请一实施例的用户筛选装置,用于执行图2所示出的用户筛选方法,该装置包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述实施例所述的方法。
根据本申请的一些实施例,提供了用户筛选方法的非易失性计算机存储介质,其上存储有计算机可执行指令,该计算机可执行指令设置为在由处理器运行时执行:上述实施例所述的用户筛选方法。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备和计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以其描述进行了简化,相关之处可参见方法实施例的部分说明即可。
本申请实施例提供的装置、设备和计算机可读存储介质与方法是一一对应的,因此,装置、设备和计算机可读存储介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述装置、设备和计算机可读存储介质的有益技术效果。
虽然已经参考若干具体实施方式描述了本申请的精神和原理,但是应该理解,本申请并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (19)
1.一种用户筛选方法,其特征在于,包括:
根据实体集合中实体的实体属性和实体之间的关系生成知识图谱网络;所述实体包括用户、银行、银行卡、商户和商圈;所述实体属性包括用户属性、银行属性、银行卡属性、商户属性和商圈属性中的至少一种;所述实体之间的关系包括银行卡与用户之间的持有关系、银行与银行卡之间的归属关系、银行卡与商户之间的交易关系、商户与商圈之间的归属关系中的至少一种;
挖掘所述知识图谱网络中的关联特征;所述关联特征包括两个实体之间的关联性、多个实体之间的关联关系和单个实体的中心性中的至少一项;
将所述知识图谱中的关联特征输入训练后的机器学习算法模型,获得所述实体集合中的重要用户。
2.根据权利要求1所述的方法,其特征在于,所述关联特征为所述两个实体之间的关联性,所述挖掘所述知识图谱网络中的关联特征,包括:
根据所述实体集合中的两个实体在所述知识图谱网络之间的共同邻居节点的数量,确定所述两个实体之间的关联性。
3.根据权利要求1所述的方法,其特征在于,所述关联特征为所述两个实体之间的关联性,所述两个实体分别为第一实体和第二实体,所述挖掘所述知识图谱网络中的关联特征,包括:
根据所述第一实体和所述第二实体在所述知识图谱网络之间的共同邻居节点的数量和所述共同邻居节点对应的边权重、第一实体的邻居节点的数量和第一实体的邻居节点对应的边权重、第二实体的邻居节点的数量和第二实体的邻居节点对应的边权重,确定所述第一实体和所述第二实体之间的关联性。
4.根据权利要求3所述的方法,其特征在于,所述第一实体和所述第二实体之间的关联性J(u,v)为:
其中,u为所述第一实体对应的节点;v为所述第二实体对应的节点;N(u)和N(v)分别表示与节点u和v相连的邻居节点集合;|N(u)∩N(v)|表示节点u和v共同的邻居节点数量;|N(u)∪N(v)|表示节点u和v总共的邻居节点数量;L(N(u)∩N(v))表示节点u和v共同邻居节点的边权重之和;L(N(u)∪N(v))表示节点u和v总共邻居节点的边权重之和。
5.根据权利要求1所述的方法,其特征在于,所述关联特征为多个实体之间的关联关系,所述挖掘所述知识图谱网络中的关联特征,包括:
以所述知识图谱网络的模块度最高为目标,将所述实体集合分为多个实体子集合;
所述模块度指示在同一个实体子集合中实体的关联性。
6.根据权利要求5所述的方法,其特征在于,所述模块度可以根据下述公式进行计算:
其中,u和v均为实体在所述知识图谱网络对应的节点;L(u,v)表示节点u和节点v之间的边权重之和;L(u)表示节点u与其他节点的边权重之和;L(v)表示节点v与其他节点的边权重之和;L_sum表示所述知识图谱网络中所有边的权重之和;如果节点u和节点v属于同一个社区,δ(cu,cv)取值为1;否则,δ(cu,cv)取值为0。
7.根据权利要求1所述的方法,其特征在于,所述关联特征为多个实体之间的关联关系,所述挖掘所述知识图谱网络中的关联特征,包括:
通过标签传播算法将所述实体集合分为多个实体子集合,所述多个实体子集合的标签一致。
8.根据权利要求1所述的方法,其特征在于,所述关联特征为单个实体的中心性,所述挖掘所述知识图谱网络中的关联特征,包括:
使用度中心性算法、影响力最大化算法或网页排名算法确定所述知识图谱网络中实体的中心性。
9.根据权利要求8所述的方法,其特征在于,使用网页排名算法确定所述知识图谱网络中实体的中心性PR(u),可以通过如下公式计算:
其中,u和v均为实体在所述知识图谱网络对应的节点;PR(u)表示节点u的PageRank值;d为阻尼因子,用于平衡随机跳跃和按链接传播的概率;PR(v)为指向节点u的节点v的PageRank值;Cout(v)为节点v的出度,即指向其他节点的边数量;L(v)表示节点v指向其他节点边的权重值。
10.根据权利要求1所述的方法,其特征在于,还包括:
提取所述知识图谱网络中的数据,并将提取后的数据存入知识图谱数据库中;
所述挖掘所述知识图谱网络中的关联特征,包括:
根据所述知识图谱数据库中的数据挖掘所述知识图谱网络中的关联特征。
11.根据权利要求1所述的方法,其特征在于,所述将所述知识图谱中的关联特征输入训练后的机器学习算法模型,获得所述实体集合中的重要用户,包括:
将所述知识图谱中的关联特征和用户特征输入训练后的机器学习算法模型,获得所述实体集合中的重要用户;所述用户特征包括人口属性、地域属性、用卡属性、消费能力和消费场景中的至少一种;所述人口属性包括性别、年龄、职业和学历中的至少一种;所述用卡属性包括持有银行卡的数量、持有银行卡的等级、持有银行卡的性质和持有银行卡的所属银行中的至少一种。
12.根据权利要求1所述的方法,其特征在于,还包括:
根据训练数据中实体的实体属性和实体之间的关系生成训练知识图谱网络;
挖掘所述训练知识图谱网络中的关联特征;
根据所述训练知识图谱中的关联特征和所述训练数据中的用户特征训练机器学习算法模型;训练后的机器学习算法模型用于获得所述实体集合中的重要用户;所述用户特征包括人口属性、地域属性、用卡属性、消费能力和消费场景中的至少一种;所述人口属性包括性别、年龄、职业和学历中的至少一种;所述用卡属性包括持有银行卡的数量、持有银行卡的等级、持有银行卡的性质和持有银行卡的所属银行中的至少一种。
13.根据权利要求1-12任一项所述的方法,其特征在于,所述知识图谱网络中的关联特征,还用于获得商户和商户之间的关联性,或商户和用户之间的关联性。
14.一种用户筛选装置,其特征在于,包括:
生成模块,用于根据实体集合中实体的实体属性和实体之间的关系生成知识图谱网络;所述实体包括用户、银行、银行卡、商户和商圈;所述实体属性包括用户属性、银行属性、银行卡属性、商户属性和商圈属性中的至少一种;所述实体之间的关系包括银行卡与用户之间的持有关系、银行与银行卡之间的归属关系、银行卡与商户之间的交易关系、商户与商圈之间的归属关系中的至少一种;
挖掘模块,用于挖掘所述知识图谱网络中的关联特征;所述关联特征包括两个实体之间的关联性、多个实体之间的关联关系和单个实体的中心性中的至少一项;
输入模块,用于将所述知识图谱中的关联特征输入训练后的机器学习算法模型,获得所述实体集合中的重要用户。
15.根据权利要求14所述的装置,其特征在于,所述关联特征为所述两个实体之间的关联性,所述两个实体分别为第一实体和第二实体,所述挖掘模块具体用于:
根据所述第一实体和所述第二实体在所述知识图谱网络之间的共同邻居节点的数量和所述共同邻居节点对应的边权重、第一实体的邻居节点的数量和第一实体的邻居节点对应的边权重、第二实体的邻居节点的数量和第二实体的邻居节点对应的边权重,确定第一实体和第二实体之间的关联性。
16.根据权利要求14所述的装置,其特征在于,所述关联特征为多个实体之间的关联关系,所述挖掘模块具体用于:
以所述知识图谱网络的模块度最高为目标,将所述实体集合分为多个实体子集合;
所述模块度指示在同一个实体子集合中实体的关联性。
17.根据权利要求14所述的装置,其特征在于,所述关联特征为单个实体的中心性,所述挖掘模块具体用于:
使用度中心性算法、影响力最大化算法或网页排名算法确定所述知识图谱网络中实体的中心性。
18.一种用户筛选装置,其特征在于,包括:
至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行:如权利要求1-13中任一项所述的方法。
19.一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被多核处理器执行时,使得所述多核处理器执行如权利要求1-13中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310820418.6A CN116860888A (zh) | 2023-07-05 | 2023-07-05 | 一种用户筛选方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310820418.6A CN116860888A (zh) | 2023-07-05 | 2023-07-05 | 一种用户筛选方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116860888A true CN116860888A (zh) | 2023-10-10 |
Family
ID=88233505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310820418.6A Pending CN116860888A (zh) | 2023-07-05 | 2023-07-05 | 一种用户筛选方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116860888A (zh) |
-
2023
- 2023-07-05 CN CN202310820418.6A patent/CN116860888A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jia et al. | Efficient task-specific data valuation for nearest neighbor algorithms | |
WO2020249125A1 (zh) | 用于自动训练机器学习模型的方法和系统 | |
Gasparetti et al. | Community detection in social recommender systems: a survey | |
Wang et al. | Large-scale ensemble model for customer churn prediction in search ads | |
CN106844407B (zh) | 基于数据集相关性的标签网络产生方法和系统 | |
Lu et al. | GLR: A graph-based latent representation model for successive POI recommendation | |
Liu et al. | An efficient smart data mining framework based cloud internet of things for developing artificial intelligence of marketing information analysis | |
CN113379457A (zh) | 面向金融领域的智能营销方法 | |
Chen et al. | A context-aware recommendation approach based on feature selection | |
Gulsoy et al. | A data mining application in credit scoring processes of small and medium enterprises commercial corporate customers | |
Huang et al. | Information fusion oriented heterogeneous social network for friend recommendation via community detection | |
Song et al. | A subgraph-based knowledge reasoning method for collective fraud detection in E-commerce | |
Chen et al. | An extended study of the K-means algorithm for data clustering and its applications | |
CN112241920A (zh) | 基于图神经网络的投融资机构评估方法、系统及设备 | |
Hain et al. | The promises of Machine Learning and Big Data in entrepreneurship research | |
Duarte et al. | Machine Learning and Marketing: A Literature Review. | |
Meena et al. | A survey on community detection algorithm and its applications | |
Rao et al. | BMSP-ML: big mart sales prediction using different machine learning techniques | |
Xu et al. | Towards annotating media contents through social diffusion analysis | |
CN118071400A (zh) | 基于图计算技术在信息消费领域的应用方法及系统 | |
Urkup et al. | Customer mobility signatures and financial indicators as predictors in product recommendation | |
Zhang et al. | Multi-view dynamic heterogeneous information network embedding | |
Li et al. | An improved genetic-XGBoost classifier for customer consumption behavior prediction | |
Helal et al. | Leader‐based community detection algorithm for social networks | |
Alotaibi et al. | Customer Churn Prediction for Telecommunication Companies using Machine Learning and Ensemble Methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |