CN112241494B - 基于用户行为数据的关键信息推送方法及装置 - Google Patents
基于用户行为数据的关键信息推送方法及装置 Download PDFInfo
- Publication number
- CN112241494B CN112241494B CN202011434301.7A CN202011434301A CN112241494B CN 112241494 B CN112241494 B CN 112241494B CN 202011434301 A CN202011434301 A CN 202011434301A CN 112241494 B CN112241494 B CN 112241494B
- Authority
- CN
- China
- Prior art keywords
- user behavior
- behavior data
- field
- field factor
- factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000006399 behavior Effects 0.000 claims description 297
- 239000013598 vector Substances 0.000 claims description 59
- 238000012216 screening Methods 0.000 claims description 32
- 238000012360 testing method Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 21
- 238000012217 deletion Methods 0.000 claims description 18
- 230000037430 deletion Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 238000003064 k means clustering Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 102000003712 Complement factor B Human genes 0.000 description 18
- 108090000056 Complement factor B Proteins 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于用户行为数据的关键信息推送方法、装置、计算机设备及存储介质,涉及人工智能技术,将用户行为数据集进行至少3次细粒度的分组划分得到多个第二分类结果子集,以其为数据样本训练多个预测子模型,若接收到用户端上传的当前用户行为数据,获取对应的目标用户行为数据,以及对应的目标第二分类结果子集和目标第二分类结果子集对应的目标预测子模型,将当前用户行为数据输入至目标预测子模型进行运算,得到对应的当前预测结果,获取目标第二分类结果子集对应的目标筛选后字段因子集合,将其发送至对应的用户端。实现了获取更加匹配该当前用户行为数据进行预测的模型,得到的预测结果更加准确,而且所推送至用户端的数据更准确。
Description
技术领域
本发明涉及人工智能的智能决策技术领域,尤其涉及一种基于用户行为数据的关键信息推送方法、装置、计算机设备及存储介质。
背景技术
目前,在信息推荐分发领域,出现了越来越多的信息推荐算法。例如常见的一种信息推荐方式是先获取目标用户的用户标签,然后在数据库中筛选与用户标签对应的目标数据后,将目标数据推送至目标用户。现有技术中的信息推荐算法是适用于用户标签易获取的场景,一旦用户的用户标签难以获取则无法进行数据推荐。
例如,在采集了用户了大量行为数据和用户属性数据后,由于数据维度较多而导致获取用户标签的准确度较低,而且效率低下。由于难以快速和准确的获取用户标签,这就导致了无法准确的向用户推荐目标数据。
发明内容
本发明实施例提供了一种基于用户行为数据的关键信息推送方法、装置、计算机设备及存储介质,旨在解决现有技术中服务器中采集了用户了大量行为数据和用户属性数据后,由于数据维度较多而导致获取用户标签的准确度较低,而且效率低下,无法更准确的向用户推荐目标数据的问题。
第一方面,本发明实施例提供了一种基于用户行为数据的关键信息推送方法,其包括:
接收若干个用户端分别上传的用户行为数据,组成用户行为数据集;
调用预设的第一分组数,根据所述第一分组数对所述用户行为数据集进行K-means聚类,得到聚类结果;
调用预设的第二分组数及预设的第一分组属性,根据所述第一分组属性和所述第二分组数对所述聚类结果中每一聚类簇进行分组,得到与每一聚类簇对应的第一分类结果子集;
调用预设的第三分组数及预设的第二分组属性,根据所述第二分组属性和所述第三分组数将每一第一分类结果子集均进行分组,得到与每一第一分类结果子集对应的第二分类结果子集;
对各所述第二分类结果子集依次进行因子显著性检验和共线性检验,得到与各第二分类结果子集分别对应的筛选后字段因子集合;
在本地的用户数据库中获取与各用户行为数据对应的标注值,将各第二分类结果子集分别对应的筛选后字段因子集合作对应待训练预测子模型的输入,将筛选后字段因子集合分别对应的标注值作为对应待训练预测子模型的输出值,对各待训练预测子模型进行模型训练,得到与各第二分类结果子集分别对应的预测子模型,组成预测模型集合;
若检测接收到用户端上传的当前用户行为数据,在所述用户行为数据集中获取与所述当前用户行为数据的数据相似度为最大值的目标用户行为数据,以及获取目标用户行为数据对应的目标第二分类结果子集和所述目标第二分类结果子集对应的目标预测子模型;
将所述当前用户行为数据输入至所述目标预测子模型进行运算,得到与所述当前用户行为数据对应的当前预测结果;以及
获取所述目标第二分类结果子集对应的目标筛选后字段因子集合,将所述目标筛选后字段因子集合发送至对应的用户端。
第二方面,本发明实施例提供了一种基于用户行为数据的关键信息推送装置,其包括:
行为数据集获取单元,用于接收若干个用户端分别上传的用户行为数据,组成用户行为数据集;
第一分组单元,用于调用预设的第一分组数,根据所述第一分组数对所述用户行为数据集进行K-means聚类,得到聚类结果;
第二分组单元,用于调用预设的第二分组数及预设的第一分组属性,根据所述第一分组属性和所述第二分组数对所述聚类结果中每一聚类簇进行分组,得到与每一聚类簇对应的第一分类结果子集;
第三分组单元,用于调用预设的第三分组数及预设的第二分组属性,根据所述第二分组属性和所述第三分组数将每一第一分类结果子集均进行分组,得到与每一第一分类结果子集对应的第二分类结果子集;
重要因子筛选单元,用于对各所述第二分类结果子集依次进行因子显著性检验和共线性检验,得到与各第二分类结果子集分别对应的筛选后字段因子集合;
模型集合训练单元,用于在本地的用户数据库中获取与各用户行为数据对应的标注值,将各第二分类结果子集分别对应的筛选后字段因子集合作对应待训练预测子模型的输入,将筛选后字段因子集合分别对应的标注值作为对应待训练预测子模型的输出值,对各待训练预测子模型进行模型训练,得到与各第二分类结果子集分别对应的预测子模型,组成预测模型集合;
目标模型数据获取单元,用于若检测接收到用户端上传的当前用户行为数据,在所述用户行为数据集中获取与所述当前用户行为数据的数据相似度为最大值的目标用户行为数据,以及获取目标用户行为数据对应的目标第二分类结果子集和所述目标第二分类结果子集对应的目标预测子模型;
预测结果输出单元,用于将所述当前用户行为数据输入至所述目标预测子模型进行运算,得到与所述当前用户行为数据对应的当前预测结果;以及
目标因子集发送单元,用于获取所述目标第二分类结果子集对应的目标筛选后字段因子集合,将所述目标筛选后字段因子集合发送至对应的用户端。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于用户行为数据的关键信息推送方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于用户行为数据的关键信息推送方法。
本发明实施例提供了一种基于用户行为数据的关键信息推送方法、装置、计算机设备及存储介质,将用户行为数据集进行至少3次细粒度的分组划分后得到多个第二分类结果子集后,以每一第二分类结果子集为数据样本,训练用于预测其他的用户行为数据对应预测结果的预测子模型,若检测接收到用户端上传的当前用户行为数据,在所述用户行为数据集中获取与所述当前用户行为数据的数据相似度为最大值的目标用户行为数据,以及获取目标用户行为数据对应的目标第二分类结果子集和所述目标第二分类结果子集对应的目标预测子模型,将所述当前用户行为数据输入至所述目标预测子模型进行运算,得到与所述当前用户行为数据对应的当前预测结果,获取所述目标第二分类结果子集对应的目标筛选后字段因子集合,将所述目标筛选后字段因子集合发送至对应的用户端,实现了获取更加匹配该当前用户行为数据进行预测的模型,得到的预测结果更加准确,而且所推送至用户端的数据更准确。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于用户行为数据的关键信息推送方法的应用场景示意图;
图2为本发明实施例提供的基于用户行为数据的关键信息推送方法的流程示意图;
图3为本发明实施例提供的基于用户行为数据的关键信息推送装置的示意性框图;
图4为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的基于用户行为数据的关键信息推送方法的应用场景示意图;图2为本发明实施例提供的基于用户行为数据的关键信息推送方法的流程示意图,该基于用户行为数据的关键信息推送方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
如图2所示,该方法包括步骤S101~S109。
S101、接收若干个用户端分别上传的用户行为数据,组成用户行为数据集。
在本实施例中,在服务器中为了对若干个用户端分别上传的用户行为数据进行数据分析时,此时先接收用户端上传的用户行为数据,并存储在本地的数据库组成用户行为数据集。例如,本申请中以分析企业的业务员开展的业务活动对业绩的影响为例,业务员开展的业务活动会产生各种用户行为子数据,而且也会采集到用户的各种属性数据,通过这些用户行为子数据和用户的各种属性数据组成各用户对应的用户行为数据。更具体的,所述用户行为数据包括年龄、性别、婚姻状态、学历、兴趣爱好、服务年限、用户从业年限、用户业绩额。
S102、调用预设的第一分组数,根据所述第一分组数对所述用户行为数据集进行K-means聚类,得到聚类结果。
在本实施例中,为了更精准的将用户行为数据进行分类,此时可以选择将所述用户行为数据集进行K-means聚类,得到聚类结果。其中,所述聚类结果中所包括聚类簇的个数与所述第一分组数的个数相同。通过聚类,实现了根据数据的多字段属性将数据进行初步分组。
在一实施例中,步骤S102包括:
将所述用户行为数据集中每一用户行为数据根据预设的字段取值转换策略得到用户行为向量;
在各用户行为数据对应的用户行为向量中选取与所述第一分组数有相同个数的用户行为向量,将所选取的用户行为向量作为每一簇的初始聚类中心;
根据各用户行为向量与各初始聚类中心的欧氏距离,将各用户行为向量对应进行划分得到初始聚类结果;
根据初始聚类结果,获取每一簇的调整后聚类中心;
根据调整后聚类中心,根据与各调整后聚类中心的欧氏距离对各用户行为向量进行划分,直至聚类结果保持相同的次数多于预设的次数,得到聚类结果。
在本实施例中,对用户行为向量进行聚类时采用K-means聚类算法,过程如下:
1)从n个用户行为向量中任意选取k个用户行为向量,并作为k个簇的初始聚类中心;其中,用户行为向量的总个数为n,从其中任意选择k个用户行为向量(k<n,k等于第一分组数),将初始选择的k个用户行为向量作为初始聚类中心。
2)分别计算剩下的用户行为向量到k个初始聚类中心的欧氏距离,将剩下的待分类用户行为向量分别划归到欧氏距离最近的簇,得到初始聚类结果;
3)根据初始聚类结果,重新计算k个簇各自的聚类中心;具体计算方法是取每一个簇中所有用户行为向量的平均向量,选择一个距离平均向量最近的用户行为向量作为新的聚类中心;
4)将n个用户行为向量根据新的聚类中心重新聚类;
5)重复第4步,直到聚类结果不再变化,得到聚类结果。
例如,将第一分组数设置为8,则聚类结果中包括8个聚类簇。通过上述方式,将用户行为数据集根据各字段属性值综合考虑进行聚类,得到了分类结果准确的聚类结果,而且分类效率也较高。
S103、调用预设的第二分组数及预设的第一分组属性,根据所述第一分组属性和所述第二分组数对所述聚类结果中每一聚类簇进行分组,得到与每一聚类簇对应的第一分类结果子集。
在本实施例中,为了将用户行为数据进行更加细粒度的划分,此时可以调用预设的第二分组数及预设的第一分组属性,例如将第二分组数设置为5,第一分组属性为服务年限,此时可以将服务年限分为5档:0-3个月、3-6个月、6-9个月、9-12个月、以及1年以上。例如,上述举例所得到的8个聚类簇,此时每一聚类簇中根据服务年限的上述5个区间档位又分别划分为5个第一分类结果子集,这样一共得到40个第一分类结果子集以组成第一分类结果集。通过这一方式,实现了对用户行为数据基于指定分组属性更细粒度的划分。
S104、调用预设的第三分组数及预设的第二分组属性,根据所述第二分组属性和所述第三分组数将每一第一分类结果子集均进行分组,得到与每一第一分类结果子集对应的第二分类结果子集。
在本实施例中,为了将用户行为数据进行更进一步细粒度的划分,此时可以调用预设的第三分组数及预设的第二分组属性,例如将第三分组数设置为5,第二分组属性为用户业绩额,此时可以将用户业绩额分为5档:0-100万、100-200万、200-350万、350-700万、以及700万以上。例如,上述举例所得到的40个第一分类结果子集,此时每一第一分类结果子集中根据用户业绩额的上述5个区间档位又分别划分为5个第二分类结果子集,这样一共得到200个第二分类结果子集以组成第二分类结果集。通过这一方式,同样也实现了对用户行为数据基于指定分组属性更细粒度的划分。
S105、对各所述第二分类结果子集依次进行因子显著性检验和共线性检验,得到与各第二分类结果子集分别对应的筛选后字段因子集合。
在本实施例中,当获取了第二分类结果集后,可以通过对各第二分类结果子集依次进行因子显著性检验和共线性检验,以得到各第二分类结果子集中的核心字段。将用户行为数据包括的所有字段中需要行字段因子的重要性排序和挑选,也就是分析出用户行为数据中较为重要的一些字段,过滤掉一些不重要的字段。
具体的是将用户行为数据包括的所有字段记为字段因子集合,以正负样本为目标进行因子显著性检验和共线性检验,去除掉高相关性的部分因子,以及结果性变量后,选择出对于预测业绩提升最有效并且易于解释和理解的若干个因子。进行因子处理包括变量分箱,WOE转换(即Weight of Evidence,表示证据权重),信息量计算(即Information value)等。
在一实施例中,步骤S105包括:
将用户行为数据所包括字段组成的字段因子集合进行因子显著性检验,得到所述字段因子集合中各个字段因子分别对应的信息量值;
将所述字段因子集合中字段因子的信息量值低于预设信息量阈值的字段因子删除,得到初次筛选后字段因子集合;
将所述初次筛选后字段因子集合中的近似字段因子作为同类字段因子进行去重,得到筛选后字段因子集合;其中,所述初次筛选后字段因子集合中若存在有字段因子之间的皮尔逊相关系数超出预设相关系数阈值,对应的字段因子作为近似字段因子。
在本实施例中,所述用户行为数据均包括多个字段因子,这些字段因子中有些更重要(即因子显著性更明显)且与其他字段因子不互为相似因子,则这些字段因子则可以被保留。还有一些与其他字段因子互为相似字段因子的,可以参考数据去重的过程,仅保留互为相似字段因子的其中一个即可。
例如,所述字段因子集合为{B1,B2,B3,B4},其中字段因子B1对应的信息量值IV1=0.6,字段因子B2对应的信息量值IV2=0.1,字段因子B3对应的信息量值IV3=0.2,字段因子B4对应的信息量值IV4=0.02,且预设信息量阈值为0.03,由于字段因子B4对应的信息量值IV4是小于预设信息量阈值0.03,其他3个字段因子的信息量值是大于预设信息量阈值0.03,故由字段因子B1、字段因子B2和字段因子B3组成初次筛选后字段因子集合,即初次筛选后字段因子集合={B1,B2,B3}。
之后,计算初次筛选后字段因子集合中各个字段因子之间的皮尔逊相关系数,例如字段因子B1与字段因子B2之间的皮尔逊相关系数为0.4,字段因子B1与字段因子B3之间的皮尔逊相关系数为0.9,字段因子B1与字段因子B3之间的皮尔逊相关系数为0.3,且预设相关系数阈值为0.5,则字段因子B1与字段因子B3之间互为相似字段因子从而视为同类字段因子。此时可以从字段因子B1与字段因子B3中随机选择一个进行删除,例如随机选中了字段因子B3进行删除,则筛选后字段因子集合为{B1,B2}。
在一实施例中,所述将用户行为数据所包括字段组成的字段因子集合进行因子显著性检验,得到所述字段因子集合中各个字段因子分别对应的信息量值的步骤,包括:
将所述字段因子集合中各字段因子分别进行升序标号;其中,所述字段因子集合中包括A个字段因子,将所述字段因子集合中第j号字段因子记为Bj,j的取值范围是[1,A];
将历史目标用户数据集以第j号字段因子为主因子进行卡方分箱,得到当前分箱结果;其中,j的初始取值为1;
计算当前分箱结果中各分组数据对应的分组数据证据权重值;
根据各分组数据对应的分组数据证据权重值,以计算当前分箱结果对应的信息量值;
将第j号字段因子中的序号j加1后以更新j值,判断序号j是否超出A;
若序号j未超出A,返回执行将历史目标用户数据以第j号字段因子为主因子进行卡方分箱,得到当前分箱结果的步骤;
若序号j超出A,获取以各字段因子为主因子对应的信息量值。
在本实施例中,为了对所述字段因子集合中各字段因子进行因子显著性检验,可以对所述字段因子集合中每一个字段因子均计算对应的信息量值。在计算每一个字段因子对应的信息量值时均是依次经过数据分箱、WOE转换和信息量计算。
例如,在以第1号字段因子B1为主因子进行数据分箱时,可以采用有监督的卡方分箱法。卡方分箱是一种自底向上的数据离散化方法,依赖于卡方检验:具有最小卡方值的相邻区间合并到一起,直至满足确定的停止准则。由于卡方分箱法是现有技术,此处不再展开说明。
之后在计算第1号字段因子B1对应的当前分箱结果中各分组数据对应的分组数据证据权重值时,采用如下式(1)的公式:
例如,第1号字段因子B1具体表示用户业绩额字段因子,对应的当前分箱结果中若用户收入大于或等于1000000则为正因子,若用户收入小于1000000则为负因子,此时对第1号字段因子B1对应的各分组数据分别进行正负因子的统计后,即可计算出第1号字段因子B1对应的分组数据证据权重值WOE1,其余字段因子的分组数据证据权重值参考WOE1的计算过程即可。
在计算得到第1号字段因子B1对应的各分组数据证据权重值后,计算第1号字段因子B1的当前分箱结果对应的信息量值时,采用如下式(2)的公式:
其中,第1号字段因子B1对应的当前分箱结果中包括K个分组数据,表示K个分
组数据中第i个分组数据中的正因子占比,表示K个分组数据中第i个分组数据中的负
因子占比,WOEi表示K个分组数据中第i个分组数据中的分组数据证据权重值。通过上述两
个公式的计算,即可获取以各字段因子为主因子对应的信息量值。
在一实施例中,所述将所述初次筛选后字段因子集合中的近似字段因子作为同类字段因子进行去重,得到筛选后字段因子集合的步骤,包括:
计算得到所述初次筛选后字段因子集合中各字段因子之间的皮尔逊相关系数,获取所述初次筛选后字段因子集合中字段因子之间的皮尔逊相关系数超出预设相关系数阈值的字段因子,以组成删除候选字段因子分组和删除候选字段因子集合;其中,所述删除候选字段因子集合中包括若干组成删除候选字段因子分组,每一删除候选字段因子分组为空集或每一删除候选字段因子分组中包括两个字段因子;
将删除候选字段因子分组中包括的字段因子从所述初次筛选后字段因子集合中删除,得到第一待保留字段因子集合;
若任意两个删除候选字段因子分组中存在有相同字段因子,将对应的删除候选字段因子分组进行合并,得到更新后删除候选字段因子分组和更新后删除候选字段因子集合;
若更新后删除候选字段因子集合中存在更新后删除候选字段因子分组不为空集,将对应删除候选字段因子分组中随机选择一个字段因子进行保留,得到保留候选字段因子分组以组成第二待保留字段因子集合;
将所述第一待保留字段因子集合和所述第二待保留字段因子集合求并,得到筛选后字段因子集合。
在本实施例中,通过上述参照数据去重的过程,可以有效选择保留重要字段因子。
S106、在本地的用户数据库中获取与各用户行为数据对应的标注值,将各第二分类结果子集分别对应的筛选后字段因子集合作对应待训练预测子模型的输入,将筛选后字段因子集合分别对应的标注值作为对应待训练预测子模型的输出值,对各待训练预测子模型进行模型训练,得到与各第二分类结果子集分别对应的预测子模型,组成预测模型集合。
在本实施例中,由于根据服务器中存储的历史数据中可知某一用户行为数据对应产生的结果,例如该用户基于目前的用户行为数据,取得了较好的用户业绩额并提升了员工等级,此时这一用户行为数据对应的标注值则为1;例如该用户基于目前的用户行为数据,未取得了较好的用户业绩额且未提升员工等级,此时这一用户行为数据对应的标注值则为0。
之后,将各第二分类结果子集分别对应的筛选后字段因子集合作对应待训练预测子模型的输入,将筛选后字段因子集合分别对应的标注值作为对应待训练预测子模型的输出值,对各待训练预测子模型进行模型训练,得到与各第二分类结果子集分别对应的预测子模型,例如之前举例有200个第二分类结果子集,则对应训练出200个预测子模型,组成预测模型集合。
由于每一第二分类结果子集均对应一个预测子模型,这样因为每一第二分类结果子集中用户行为数据对应的核心字段因子有区别,这样更细粒度的预测用户是否能进一步提高用户销售额和升职所得到的结果更加准确。
S107、若检测接收到用户端上传的当前用户行为数据,在所述用户行为数据集中获取与所述当前用户行为数据的数据相似度为最大值的目标用户行为数据,以及获取目标用户行为数据对应的目标第二分类结果子集和所述目标第二分类结果子集对应的目标预测子模型。
在本实施例中,当完成了对多个预测子模型的训练后,此时若服务器任意接收到一个用户端上传的当前用户行为数据,此时可以先在所述用户行为数据集中获取与其最近似的目标用户行为数据。
在所述用户行为数据集中获取与当前用户行为数据最近似的目标用户行为数据时,可以将当前用户行为数据根据所述字段取值转换策略以转换为对应的当前用户行为向量,之后计算当前用户行为向量与所述用户行为数据集对应的各用户行为向量之间的欧氏距离以作为数据相似度,最后获取与所述当前用户行为向量的数据相似度为最大值的目标用户行为向量及其对应的目标用户行为数据。
由于可以获知该目标用户行为数据是归属于哪一第二分类结果子集,故可将其所归属的第二分类结果子集记为目标第二分类结果子集,而且还能同时获取该目标第二分类结果子集在预测模型集合中对应的目标预测子模型。通过这一方式,实现了获取更加匹配该当前用户行为数据进行预测的模型,得到的预测结果更加准确。
S108、将所述当前用户行为数据输入至所述目标预测子模型进行运算,得到与所述当前用户行为数据对应的当前预测结果。
在本实施例中,当获取了所述目标预测子模型和当前用户行为数据后,当前用户行为数据对应一个行向量(也即当前用户行为向量),将其输入至所述目标预测子模型进行运算,得到与所述当前用户行为数据对应的当前预测结果。例如,与所述当前用户行为数据对应的当前预测结果为1时,表示该当前用户行为数据对应的用户可以提升员工等级;与所述当前用户行为数据对应的当前预测结果为0时,表示该当前用户行为数据对应的用户还不可提升员工等级。
在一实施例中,步骤S108之后还包括:
获取所述当前用户行为数据对应的实际输出结果,将所述当前用户行为数据作为所述目标预测子模型的输入,将所述当前用户行为数据的实际输出结果作为所述目标预测子模型的输出对所述目标预测子模型进行模型训练,更新所述目标预测子模型。
在本实施例中,当获取了当前用户行为数据后,也即获取了当前用户的开展一些业务行为之后量化得到的特征,此时可以先基于原来的目标预测子模型预测其输出结果,但是基于用户的当前用户行为数据会产生一个实际输出结果(也即真实值),该实际输出结果与上述当前预测结果可能完全相同,也有可能存在较小误差,还有可能存在极大误差。此时为了基于不断产生的多条新的用户行为数据不仅作为预测数据集,待其产生实际输出结果之后又能作为训练集再返回去训练和调整对应的目标预测子模型。
通过上述方式,后续可以追踪到用户的用户行为数据对应的实际输出结果,并收集数据返回给模型训练,形成闭环。这样不断更新的目标预测子模型能预测得更加准确。
在一实施例中,步骤S108之后还包括:
将所述目标预测子模型的模型参数上传至区块链。
在本实施例中,基于目标预测子模型的模型参数单得到对应的摘要信息,具体来说,摘要信息由目标预测子模型的模型参数进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息,以便查证目标预测子模型的模型参数是否被篡改。
本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
S109、获取所述目标第二分类结果子集对应的目标筛选后字段因子集合,将所述目标筛选后字段因子集合发送至对应的用户端。
在本实施例中,由于在之前的步骤中是提取了所述目标第二分类结果子集对应的目标筛选后字段因子集合,也就是已知该目标第二分类结果子集对应的核心字段因子,将其推送至发送了所述当前用户行为数据的用户端,以作为该用户的数据参考。通过这一方式,所推送至用户端的数据更准确和更具参考价值。
该方法实现了获取更加匹配该当前用户行为数据进行预测的模型,得到的预测结果更加准确,而且所推送至用户端的数据更准确。
本发明实施例还提供一种基于用户行为数据的关键信息推送装置,该基于用户行为数据的关键信息推送装置用于执行前述基于用户行为数据的关键信息推送方法的任一实施例。具体地,请参阅图3,图3是本发明实施例提供的基于用户行为数据的关键信息推送装置的示意性框图。该基于用户行为数据的关键信息推送装置100可以配置于服务器中。
如图3所示,基于用户行为数据的关键信息推送装置100包括:行为数据集获取单元101、第一分组单元102、第二分组单元103、第三分组单元104、重要因子筛选单元105、模型集合训练单元106、目标模型数据获取单元107、预测结果输出单元108、目标因子集发送单元109。
行为数据集获取单元101,用于接收若干个用户端分别上传的用户行为数据,组成用户行为数据集;其中,用户行为数据包括年龄、性别、婚姻状态、学历、兴趣爱好、线下展业记录、服务年限、用户从业年限、用户业绩额。
在本实施例中,在服务器中为了对若干个用户端分别上传的用户行为数据进行数据分析时,此时先接收用户端上传的用户行为数据,并存储在本地的数据库组成用户行为数据集。例如,本申请中以分析企业的业务员开展的业务活动对业绩的影响为例,业务员开展的业务活动会产生各种用户行为子数据,而且也会采集到用户的各种属性数据,通过这些用户行为子数据和用户的各种属性数据组成各用户对应的用户行为数据。更具体的,所述用户行为数据包括年龄、性别、婚姻状态、学历、兴趣爱好、服务年限、用户从业年限、用户业绩额。
第一分组单元102,用于调用预设的第一分组数,根据所述第一分组数对所述用户行为数据集进行K-means聚类,得到聚类结果;其中,所述聚类结果中所包括聚类簇的个数与所述第一分组数的个数相同。
在本实施例中,为了更精准的将用户行为数据进行分类,此时可以选择将所述用户行为数据集进行K-means聚类,得到聚类结果。通过聚类,实现了根据数据的多字段属性将数据进行初步分组。
在一实施例中,第一分组单元102包括:
向量转换单元,用于将所述用户行为数据集中每一用户行为数据根据预设的字段取值转换策略得到用户行为向量;
初始聚类中心选定单元,用于在各用户行为数据对应的用户行为向量中选取与所述第一分组数有相同个数的用户行为向量,将所选取的用户行为向量作为每一簇的初始聚类中心;
初始聚类单元,用于根据各用户行为向量与各初始聚类中心的欧氏距离,将各用户行为向量对应进行划分得到初始聚类结果;
聚类调整单元,用于根据初始聚类结果,获取每一簇的调整后聚类中心;
聚类结果输出单元,用于根据调整后聚类中心,根据与各调整后聚类中心的欧氏距离对各用户行为向量进行划分,直至聚类结果保持相同的次数多于预设的次数,得到聚类结果。
在本实施例中,对用户行为向量进行聚类时采用K-means聚类算法,例如将第一分组数设置为8,则聚类结果中包括8个聚类簇。通过上述方式,将用户行为数据集根据各字段属性值综合考虑进行聚类,得到了分类结果准确的聚类结果,而且分类效率也较高。
第二分组单元103,用于调用预设的第二分组数及预设的第一分组属性,根据所述第一分组属性和所述第二分组数对所述聚类结果中每一聚类簇进行分组,得到与每一聚类簇对应的第一分类结果子集。
在本实施例中,为了将用户行为数据进行更加细粒度的划分,此时可以调用预设的第二分组数及预设的第一分组属性,例如将第二分组数设置为5,第一分组属性为服务年限,此时可以将服务年限分为5档:0-3个月、3-6个月、6-9个月、9-12个月、以及1年以上。例如,上述举例所得到的8个聚类簇,此时每一聚类簇中根据服务年限的上述5个区间档位又分别划分为5个第一分类结果子集,这样一共得到40个第一分类结果子集以组成第一分类结果集。通过这一方式,实现了对用户行为数据基于指定分组属性更细粒度的划分。
第三分组单元104,用于调用预设的第三分组数及预设的第二分组属性,根据所述第二分组属性和所述第三分组数将每一第一分类结果子集均进行分组,得到与每一第一分类结果子集对应的第二分类结果子集。
在本实施例中,为了将用户行为数据进行更进一步细粒度的划分,此时可以调用预设的第三分组数及预设的第二分组属性,例如将第三分组数设置为5,第二分组属性为用户业绩额,此时可以将用户业绩额分为5档:0-100万、100-200万、200-350万、350-700万、以及700万以上。例如,上述举例所得到的40个第一分类结果子集,此时每一第一分类结果子集中根据用户业绩额的上述5个区间档位又分别划分为5个第二分类结果子集,这样一共得到200个第二分类结果子集以组成第二分类结果集。通过这一方式,同样也实现了对用户行为数据基于指定分组属性更细粒度的划分。
重要因子筛选单元105,用于对各所述第二分类结果子集依次进行因子显著性检验和共线性检验,得到与各第二分类结果子集分别对应的筛选后字段因子集合。
在本实施例中,当获取了第二分类结果集后,可以通过对各第二分类结果子集依次进行因子显著性检验和共线性检验,以得到各第二分类结果子集中的核心字段。将用户行为数据包括的所有字段中需要行字段因子的重要性排序和挑选,也就是分析出用户行为数据中较为重要的一些字段,过滤掉一些不重要的字段。
具体的是将用户行为数据包括的所有字段记为字段因子集合,以正负样本为目标进行因子显著性检验和共线性检验,去除掉高相关性的部分因子,以及结果性变量后,选择出对于预测业绩提升最有效并且易于解释和理解的若干个因子。进行因子处理包括变量分箱,WOE转换(即Weight of Evidence,表示证据权重),信息量计算(即Information value)等。
在一实施例中,重要因子筛选单元105包括:
显著性检验单元,用于将用户行为数据所包括字段组成的字段因子集合进行因子显著性检验,得到所述字段因子集合中各个字段因子分别对应的信息量值;
初筛单元,用于将所述字段因子集合中字段因子的信息量值低于预设信息量阈值的字段因子删除,得到初次筛选后字段因子集合;
去重单元,用于将所述初次筛选后字段因子集合中的近似字段因子作为同类字段因子进行去重,得到筛选后字段因子集合;其中,所述初次筛选后字段因子集合中若存在有字段因子之间的皮尔逊相关系数超出预设相关系数阈值,对应的字段因子作为近似字段因子。
在本实施例中,所述用户行为数据均包括多个字段因子,这些字段因子中有些更重要(即因子显著性更明显)且与其他字段因子不互为相似因子,则这些字段因子则可以被保留。还有一些与其他字段因子互为相似字段因子的,可以参考数据去重的过程,仅保留互为相似字段因子的其中一个即可。
例如,所述字段因子集合为{B1,B2,B3,B4},其中字段因子B1对应的信息量值IV1=0.6,字段因子B2对应的信息量值IV2=0.1,字段因子B3对应的信息量值IV3=0.2,字段因子B4对应的信息量值IV4=0.02,且预设信息量阈值为0.03,由于字段因子B4对应的信息量值IV4是小于预设信息量阈值0.03,其他3个字段因子的信息量值是大于预设信息量阈值0.03,故由字段因子B1、字段因子B2和字段因子B3组成初次筛选后字段因子集合,即初次筛选后字段因子集合={B1,B2,B3}。
之后,计算初次筛选后字段因子集合中各个字段因子之间的皮尔逊相关系数,例如字段因子B1与字段因子B2之间的皮尔逊相关系数为0.4,字段因子B1与字段因子B3之间的皮尔逊相关系数为0.9,字段因子B1与字段因子B3之间的皮尔逊相关系数为0.3,且预设相关系数阈值为0.5,则字段因子B1与字段因子B3之间互为相似字段因子从而视为同类字段因子。此时可以从字段因子B1与字段因子B3中随机选择一个进行删除,例如随机选中了字段因子B3进行删除,则筛选后字段因子集合为{B1,B2}。
在一实施例中,所述显著性检验单元,包括:
标号单元,用于将所述字段因子集合中各字段因子分别进行升序标号;其中,所述字段因子集合中包括A个字段因子,将所述字段因子集合中第j号字段因子记为Bj,j的取值范围是[1,A];
卡方分箱单元,用于将第二分类结果子集以第j号字段因子为主因子进行卡方分箱,得到当前分箱结果;其中,j的初始取值为1;
数据证据权重值计算单元,用于数据证据权重值计算单元,用于计算当前分箱结果中各分组数据对应的分组数据证据权重值;
权重值综合计算单元,用于根据各分组数据对应的分组数据证据权重值,以计算当前分箱结果对应的信息量值;
序号更新单元,用于将第j号字段因子中的序号j加1后以更新j值,判断序号j是否超出A;
第一执行单元,用于若序号j未超出A,返回执行将第二分类结果子集以第j号字段因子为主因子进行卡方分箱,得到当前分箱结果的步骤;
第二执行单元,用于若序号j超出A,获取以各字段因子为主因子对应的信息量值。
在本实施例中,为了对所述字段因子集合中各字段因子进行因子显著性检验,可以对所述字段因子集合中每一个字段因子均计算对应的信息量值。在计算每一个字段因子对应的信息量值时均是依次经过数据分箱、WOE转换和信息量计算。
例如,在以第1号字段因子B1为主因子进行数据分箱时,可以采用有监督的卡方分箱法。卡方分箱是一种自底向上的数据离散化方法,依赖于卡方检验:具有最小卡方值的相邻区间合并到一起,直至满足确定的停止准则。由于卡方分箱法是现有技术,此处不再展开说明。
之后在计算第1号字段因子B1对应的当前分箱结果中各分组数据对应的分组数据证据权重值时,采用如上式(1)的公式。
例如,第1号字段因子B1具体表示用户业绩额字段因子,对应的当前分箱结果中若用户收入大于或等于1000000则为正因子,若用户收入小于1000000则为负因子,此时对第1号字段因子B1对应的各分组数据分别进行正负因子的统计后,即可计算出第1号字段因子B1对应的分组数据证据权重值WOE1,其余字段因子的分组数据证据权重值参考WOE1的计算过程即可。
在计算得到第1号字段因子B1对应的各分组数据证据权重值后,计算第1号字段因
子B1的当前分箱结果对应的信息量值时,采用如上式(2)的公式。其中,第1号字段因子B1对
应的当前分箱结果中包括K个分组数据,表示K个分组数据中第i个分组数据中的正因
子占比,表示K个分组数据中第i个分组数据中的负因子占比,WOEi表示K个分组数据中
第i个分组数据中的分组数据证据权重值。通过上述两个公式的计算,即可获取以各字段因
子为主因子对应的信息量值。
在一实施例中,所述去重单元,包括:
第一筛选单元,用于计算得到所述初次筛选后字段因子集合中各字段因子之间的皮尔逊相关系数,获取所述初次筛选后字段因子集合中字段因子之间的皮尔逊相关系数超出预设相关系数阈值的字段因子,以组成删除候选字段因子分组和删除候选字段因子集合;其中,所述删除候选字段因子集合中包括若干组成删除候选字段因子分组,每一删除候选字段因子分组为空集或每一删除候选字段因子分组中包括两个字段因子;
第二筛选单元,用于将删除候选字段因子分组中包括的字段因子从所述初次筛选后字段因子集合中删除,得到第一待保留字段因子集合;
因子合并单元,用于若任意两个删除候选字段因子分组中存在有相同字段因子,将对应的删除候选字段因子分组进行合并,得到更新后删除候选字段因子分组和更新后删除候选字段因子集合;
因子随机选择保存单元,用于若更新后删除候选字段因子集合中存在更新后删除候选字段因子分组不为空集,将对应删除候选字段因子分组中随机选择一个字段因子进行保留,得到保留候选字段因子分组以组成第二待保留字段因子集合;
集合合并单元,用于将所述第一待保留字段因子集合和所述第二待保留字段因子集合求并,得到筛选后字段因子集合。
在本实施例中,通过上述参照数据去重的过程,可以有效选择保留重要字段因子。
模型集合训练单元106,用于在本地的用户数据库中获取与各用户行为数据对应的标注值,将各第二分类结果子集分别对应的筛选后字段因子集合作对应待训练预测子模型的输入,将筛选后字段因子集合分别对应的标注值作为对应待训练预测子模型的输出值,对各待训练预测子模型进行模型训练,得到与各第二分类结果子集分别对应的预测子模型,组成预测模型集合。
在本实施例中,由于根据服务器中存储的历史数据中可知某一用户行为数据对应产生的结果,例如该用户基于目前的用户行为数据,取得了较好的用户业绩额并提升了员工等级,此时这一用户行为数据对应的标注值则为1;例如该用户基于目前的用户行为数据,未取得了较好的用户业绩额且未提升员工等级,此时这一用户行为数据对应的标注值则为0。
之后,将各第二分类结果子集分别对应的筛选后字段因子集合作对应待训练预测子模型的输入,将筛选后字段因子集合分别对应的标注值作为对应待训练预测子模型的输出值,对各待训练预测子模型进行模型训练,得到与各第二分类结果子集分别对应的预测子模型,例如之前举例有200个第二分类结果子集,则对应训练出200个预测子模型,组成预测模型集合。
由于每一第二分类结果子集均对应一个预测子模型,这样因为每一第二分类结果子集中用户行为数据对应的核心字段因子有区别,这样更细粒度的预测用户是否能进一步提高用户销售额和升职所得到的结果更加准确。
目标模型数据获取单元107,用于若检测接收到用户端上传的当前用户行为数据,在所述用户行为数据集中获取与所述当前用户行为数据的数据相似度为最大值的目标用户行为数据,以及获取目标用户行为数据对应的目标第二分类结果子集和所述目标第二分类结果子集对应的目标预测子模型。
在本实施例中,当完成了对多个预测子模型的训练后,此时若服务器任意接收到一个用户端上传的当前用户行为数据,此时可以先在所述用户行为数据集中获取与其最近似的目标用户行为数据。
在所述用户行为数据集中获取与当前用户行为数据最近似的目标用户行为数据时,可以将当前用户行为数据根据所述字段取值转换策略以转换为对应的当前用户行为向量,之后计算当前用户行为向量与所述用户行为数据集对应的各用户行为向量之间的欧氏距离以作为数据相似度,最后获取与所述当前用户行为向量的数据相似度为最大值的目标用户行为向量及其对应的目标用户行为数据。
由于可以获知该目标用户行为数据是归属于哪一第二分类结果子集,故可将其所归属的第二分类结果子集记为目标第二分类结果子集,而且还能同时获取该目标第二分类结果子集在预测模型集合中对应的目标预测子模型。通过这一方式,实现了获取更加匹配该当前用户行为数据进行预测的模型,得到的预测结果更加准确。
预测结果输出单元108,用于将所述当前用户行为数据输入至所述目标预测子模型进行运算,得到与所述当前用户行为数据对应的当前预测结果。
在本实施例中,当获取了所述目标预测子模型和当前用户行为数据后,当前用户行为数据对应一个行向量(也即当前用户行为向量),将其输入至所述目标预测子模型进行运算,得到与所述当前用户行为数据对应的当前预测结果。例如,与所述当前用户行为数据对应的当前预测结果为1时,表示该当前用户行为数据对应的用户可以提升员工等级;与所述当前用户行为数据对应的当前预测结果为0时,表示该当前用户行为数据对应的用户还不可提升员工等级。
在一实施例中基于用户行为数据的关键信息推送装置100还包括:
模型更新单元,用于获取所述当前用户行为数据对应的实际输出结果,将所述当前用户行为数据作为所述目标预测子模型的输入,将所述当前用户行为数据的实际输出结果作为所述目标预测子模型的输出对所述目标预测子模型进行模型训练,更新所述目标预测子模型。
在本实施例中,当获取了当前用户行为数据后,也即获取了当前用户的开展一些业务行为之后量化得到的特征,此时可以先基于原来的目标预测子模型预测其输出结果,但是基于用户的当前用户行为数据会产生一个实际输出结果(也即真实值),该实际输出结果与上述当前预测结果可能完全相同,也有可能存在较小误差,还有可能存在极大误差。此时为了基于不断产生的多条新的用户行为数据不仅作为预测数据集,待其产生实际输出结果之后又能作为训练集再返回去训练和调整对应的目标预测子模型。
通过上述方式,后续可以追踪到用户的用户行为数据对应的实际输出结果,并收集数据返回给模型训练,形成闭环。这样不断更新的目标预测子模型能预测得更加准确。
在一实施例中,基于用户行为数据的关键信息推送装置100还包括:
模型参数上链单元,用于将所述目标预测子模型的模型参数上传至区块链。
在本实施例中,基于目标预测子模型的模型参数单得到对应的摘要信息,具体来说,摘要信息由目标预测子模型的模型参数进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息,以便查证目标预测子模型的模型参数是否被篡改。
本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
目标因子集发送单元109,用于获取所述目标第二分类结果子集对应的目标筛选后字段因子集合,将所述目标筛选后字段因子集合发送至对应的用户端。
在本实施例中,由于在之前的步骤中是提取了所述目标第二分类结果子集对应的目标筛选后字段因子集合,也就是已知该目标第二分类结果子集对应的核心字段因子,将其推送至发送了所述当前用户行为数据的用户端,以作为该用户的数据参考。通过这一方式,所推送至用户端的数据更准确和更具参考价值。
该装置实现了获取更加匹配该当前用户行为数据进行预测的模型,得到的预测结果更加准确,而且所推送至用户端的数据更准确。
上述基于用户行为数据的关键信息推送装置可以实现为计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
请参阅图4,图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图4,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于用户行为数据的关键信息推送方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于用户行为数据的关键信息推送方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明实施例公开的基于用户行为数据的关键信息推送方法。
本领域技术人员可以理解,图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图4所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的基于用户行为数据的关键信息推送方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备 ( 可以是个人计算机,服务器,或者网络设备等 ) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U 盘、移动硬盘、只读存储器 (ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于用户行为数据的关键信息推送方法,其特征在于,包括:
接收若干个用户端分别上传的用户行为数据,组成用户行为数据集;
调用预设的第一分组数,根据所述第一分组数对所述用户行为数据集进行K-means聚类,得到聚类结果;
调用预设的第二分组数及预设的第一分组属性,根据所述第一分组属性和所述第二分组数对所述聚类结果中每一聚类簇进行分组,得到与每一聚类簇对应的第一分类结果子集;
调用预设的第三分组数及预设的第二分组属性,根据所述第二分组属性和所述第三分组数将每一第一分类结果子集均进行分组,得到与每一第一分类结果子集对应的第二分类结果子集;
对各所述第二分类结果子集依次进行因子显著性检验和共线性检验,得到与各第二分类结果子集分别对应的筛选后字段因子集合;
在本地的用户数据库中获取与各用户行为数据对应的标注值,将各第二分类结果子集分别对应的筛选后字段因子集合作对应待训练预测子模型的输入,将筛选后字段因子集合分别对应的标注值作为对应待训练预测子模型的输出值,对各待训练预测子模型进行模型训练,得到与各第二分类结果子集分别对应的预测子模型,组成预测模型集合;
若检测接收到用户端上传的当前用户行为数据,在所述用户行为数据集中获取与所述当前用户行为数据的数据相似度为最大值的目标用户行为数据,以及获取目标用户行为数据对应的目标第二分类结果子集和所述目标第二分类结果子集对应的目标预测子模型;
将所述当前用户行为数据输入至所述目标预测子模型进行运算,得到与所述当前用户行为数据对应的当前预测结果;以及
获取所述目标第二分类结果子集对应的目标筛选后字段因子集合,将所述目标筛选后字段因子集合发送至对应的用户端。
2.根据权利要求1所述的基于用户行为数据的关键信息推送方法,其特征在于,所述将所述当前用户行为数据输入至所述目标预测子模型进行运算,得到与所述当前用户行为数据对应的当前预测结果之后,还包括:
获取所述当前用户行为数据对应的实际输出结果,将所述当前用户行为数据作为所述目标预测子模型的输入,将所述当前用户行为数据的实际输出结果作为所述目标预测子模型的输出对所述目标预测子模型进行模型训练,更新所述目标预测子模型。
3.根据权利要求1所述的基于用户行为数据的关键信息推送方法,其特征在于,所述调用预设的第一分组数,根据所述第一分组数对所述用户行为数据集进行K-means聚类,得到聚类结果,包括:
将所述用户行为数据集中每一用户行为数据根据预设的字段取值转换策略得到用户行为向量;
在各用户行为数据对应的用户行为向量中选取与所述第一分组数有相同个数的用户行为向量,将所选取的用户行为向量作为每一簇的初始聚类中心;
根据各用户行为向量与各初始聚类中心的欧氏距离,将各用户行为向量对应进行划分得到初始聚类结果;
根据初始聚类结果,获取每一簇的调整后聚类中心;
根据调整后聚类中心,根据与各调整后聚类中心的欧氏距离对各用户行为向量进行划分,直至聚类结果保持相同的次数多于预设的次数,得到聚类结果。
4.根据权利要求1所述的基于用户行为数据的关键信息推送方法,其特征在于,所述对各所述第二分类结果子集依次进行因子显著性检验和共线性检验,得到与各第二分类结果子集分别对应的筛选后字段因子集合,包括:
将用户行为数据所包括字段组成的字段因子集合进行因子显著性检验,得到所述字段因子集合中各个字段因子分别对应的信息量值;
将所述字段因子集合中字段因子的信息量值低于预设信息量阈值的字段因子删除,得到初次筛选后字段因子集合;
将所述初次筛选后字段因子集合中的近似字段因子作为同类字段因子进行去重,得到筛选后字段因子集合;其中,所述初次筛选后字段因子集合中若存在有字段因子之间的皮尔逊相关系数超出预设相关系数阈值,对应的字段因子作为近似字段因子。
5.根据权利要求4所述的基于用户行为数据的关键信息推送方法,其特征在于,所述将用户行为数据所包括字段组成的字段因子集合进行因子显著性检验,得到所述字段因子集合中各个字段因子分别对应的信息量值,包括:
将所述字段因子集合中各字段因子分别进行升序标号;其中,所述字段因子集合中包括A个字段因子,将所述字段因子集合中第j号字段因子记为Bj,j的取值范围是[1,A];
将历史目标用户数据集以第j号字段因子为主因子进行卡方分箱,得到当前分箱结果;其中,j的初始取值为1;
计算当前分箱结果中各分组数据对应的分组数据证据权重值;
根据各分组数据对应的分组数据证据权重值,以计算当前分箱结果对应的信息量值;
将第j号字段因子中的序号j加1后以更新j值,判断序号j是否超出A;
若序号j未超出A,返回执行将历史目标用户数据以第j号字段因子为主因子进行卡方分箱,得到当前分箱结果的步骤;
若序号j超出A,获取以各字段因子为主因子对应的信息量值。
6.根据权利要求4所述的基于用户行为数据的关键信息推送方法,其特征在于,所述将所述初次筛选后字段因子集合中的近似字段因子作为同类字段因子进行去重,得到筛选后字段因子集合,包括:
计算得到所述初次筛选后字段因子集合中各字段因子之间的皮尔逊相关系数,获取所述初次筛选后字段因子集合中字段因子之间的皮尔逊相关系数超出预设相关系数阈值的字段因子,以组成删除候选字段因子分组和删除候选字段因子集合;其中,所述删除候选字段因子集合中包括若干组成删除候选字段因子分组,每一删除候选字段因子分组为空集或每一删除候选字段因子分组中包括两个字段因子;
将删除候选字段因子分组中包括的字段因子从所述初次筛选后字段因子集合中删除,得到第一待保留字段因子集合;
若任意两个删除候选字段因子分组中存在有相同字段因子,将对应的删除候选字段因子分组进行合并,得到更新后删除候选字段因子分组和更新后删除候选字段因子集合;
若更新后删除候选字段因子集合中存在更新后删除候选字段因子分组不为空集,将对应删除候选字段因子分组中随机选择一个字段因子进行保留,得到保留候选字段因子分组以组成第二待保留字段因子集合;
将所述第一待保留字段因子集合和所述第二待保留字段因子集合求并,得到筛选后字段因子集合。
7.根据权利要求1所述的基于用户行为数据的关键信息推送方法,其特征在于,还包括:
将所述目标预测子模型的模型参数上传至区块链。
8.一种基于用户行为数据的关键信息推送装置,其特征在于,包括:
行为数据集获取单元,用于接收若干个用户端分别上传的用户行为数据,组成用户行为数据集;
第一分组单元,用于调用预设的第一分组数,根据所述第一分组数对所述用户行为数据集进行K-means聚类,得到聚类结果;
第二分组单元,用于调用预设的第二分组数及预设的第一分组属性,根据所述第一分组属性和所述第二分组数对所述聚类结果中每一聚类簇进行分组,得到与每一聚类簇对应的第一分类结果子集;
第三分组单元,用于调用预设的第三分组数及预设的第二分组属性,根据所述第二分组属性和所述第三分组数将每一第一分类结果子集均进行分组,得到与每一第一分类结果子集对应的第二分类结果子集;
重要因子筛选单元,用于对各所述第二分类结果子集依次进行因子显著性检验和共线性检验,得到与各第二分类结果子集分别对应的筛选后字段因子集合;
模型集合训练单元,用于在本地的用户数据库中获取与各用户行为数据对应的标注值,将各第二分类结果子集分别对应的筛选后字段因子集合作对应待训练预测子模型的输入,将筛选后字段因子集合分别对应的标注值作为对应待训练预测子模型的输出值,对各待训练预测子模型进行模型训练,得到与各第二分类结果子集分别对应的预测子模型,组成预测模型集合;
目标模型数据获取单元,用于若检测接收到用户端上传的当前用户行为数据,在所述用户行为数据集中获取与所述当前用户行为数据的数据相似度为最大值的目标用户行为数据,以及获取目标用户行为数据对应的目标第二分类结果子集和所述目标第二分类结果子集对应的目标预测子模型;
预测结果输出单元,用于将所述当前用户行为数据输入至所述目标预测子模型进行运算,得到与所述当前用户行为数据对应的当前预测结果;以及
目标因子集发送单元,用于获取所述目标第二分类结果子集对应的目标筛选后字段因子集合,将所述目标筛选后字段因子集合发送至对应的用户端。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于用户行为数据的关键信息推送方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于用户行为数据的关键信息推送方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011434301.7A CN112241494B (zh) | 2020-12-10 | 2020-12-10 | 基于用户行为数据的关键信息推送方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011434301.7A CN112241494B (zh) | 2020-12-10 | 2020-12-10 | 基于用户行为数据的关键信息推送方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112241494A CN112241494A (zh) | 2021-01-19 |
CN112241494B true CN112241494B (zh) | 2021-03-26 |
Family
ID=74175482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011434301.7A Active CN112241494B (zh) | 2020-12-10 | 2020-12-10 | 基于用户行为数据的关键信息推送方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112241494B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860999B (zh) * | 2021-02-10 | 2023-04-18 | 脸萌有限公司 | 信息推荐方法、装置、设备和存储介质 |
CN113298121B (zh) * | 2021-04-30 | 2023-08-18 | 上海淇玥信息技术有限公司 | 基于多数据源建模的消息发送方法、装置和电子设备 |
CN113689085A (zh) * | 2021-07-30 | 2021-11-23 | 深圳集智数字科技有限公司 | 一种多指标要素的特征属性信息处理方法以及装置 |
CN113705657B (zh) * | 2021-08-24 | 2024-01-19 | 华北电力大学 | 一种基于差分法消除多重共线性的逐步聚类统计降尺度方法 |
CN115905924B (zh) * | 2022-12-06 | 2023-08-11 | 济南亚海凛米网络科技服务有限公司 | 基于人工智能物联网的数据处理方法、系统及云平台 |
CN116527620A (zh) * | 2023-06-25 | 2023-08-01 | 上海帜讯信息技术股份有限公司 | 基于多种消息体的机器学习发送方法、装置及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993411A (zh) * | 2019-03-01 | 2019-07-09 | 平安科技(深圳)有限公司 | 零售类资产的不良概率调整方法、装置和存储介质 |
CN111666351A (zh) * | 2020-05-29 | 2020-09-15 | 北京睿知图远科技有限公司 | 基于用户行为数据的模糊聚类系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200133254A1 (en) * | 2018-05-07 | 2020-04-30 | Strong Force Iot Portfolio 2016, Llc | Methods and systems for data collection, learning, and streaming of machine signals for part identification and operating characteristics determination using the industrial internet of things |
-
2020
- 2020-12-10 CN CN202011434301.7A patent/CN112241494B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993411A (zh) * | 2019-03-01 | 2019-07-09 | 平安科技(深圳)有限公司 | 零售类资产的不良概率调整方法、装置和存储介质 |
CN111666351A (zh) * | 2020-05-29 | 2020-09-15 | 北京睿知图远科技有限公司 | 基于用户行为数据的模糊聚类系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112241494A (zh) | 2021-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112241494B (zh) | 基于用户行为数据的关键信息推送方法及装置 | |
CN110995459B (zh) | 异常对象识别方法、装置、介质及电子设备 | |
CN110852881B (zh) | 风险账户识别方法、装置、电子设备及介质 | |
JP4772377B2 (ja) | 異常設備推定装置、異常設備推定方法、異常設備推定プログラム、および、記録媒体 | |
CN108681742B (zh) | 用于分析司机驾驶行为对车辆能耗敏感性的分析方法 | |
CN107274066B (zh) | 一种基于lrfmd模型的共享交通客户价值分析方法 | |
CN107622326A (zh) | 用户分类、可用资源预测方法、装置及设备 | |
CN112036476A (zh) | 基于二分类业务的数据特征选择方法、装置及计算机设备 | |
CN110689440A (zh) | 基于图片识别的车险理赔识别方法、装置、计算机设备及存储介质 | |
CN113537807A (zh) | 一种企业智慧风控方法及设备 | |
CN112115996B (zh) | 图像数据的处理方法、装置、设备及存储介质 | |
CN115035966B (zh) | 基于主动学习和符号回归的超导体筛选方法、装置及设备 | |
CN112217908B (zh) | 基于迁移学习的信息推送方法、装置及计算机设备 | |
CN114139931A (zh) | 企业数据评估方法、装置、计算机设备及存储介质 | |
CN112632000A (zh) | 日志文件聚类方法、装置、电子设备和可读存储介质 | |
CN117291707A (zh) | 贷款申请处理方法、装置、电子设备和存储介质 | |
CN113824580A (zh) | 一种网络指标预警方法及系统 | |
CN113240213B (zh) | 基于神经网络和树模型的人员甄选方法、装置及设备 | |
CN115689713A (zh) | 异常风险数据处理方法、装置、计算机设备和存储介质 | |
CN116049644A (zh) | 特征筛选和聚类分箱方法、装置、电子设备及存储介质 | |
CN115907954A (zh) | 账户的识别方法、装置、计算机设备和存储介质 | |
CN114154548A (zh) | 销量数据序列分类方法、装置、计算机设备和存储介质 | |
CN114510638B (zh) | 信息处理方法、装置、设备、存储介质及程序产品 | |
CN116595389B (zh) | 识别异常客户端的方法、装置、计算机设备和存储介质 | |
CN116701962B (zh) | 边缘数据处理方法、装置、计算设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |