CN112217908B - 基于迁移学习的信息推送方法、装置及计算机设备 - Google Patents
基于迁移学习的信息推送方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN112217908B CN112217908B CN202011422020.XA CN202011422020A CN112217908B CN 112217908 B CN112217908 B CN 112217908B CN 202011422020 A CN202011422020 A CN 202011422020A CN 112217908 B CN112217908 B CN 112217908B
- Authority
- CN
- China
- Prior art keywords
- user data
- field
- target user
- data
- field factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000013526 transfer learning Methods 0.000 title claims abstract description 36
- 238000012216 screening Methods 0.000 claims description 56
- 238000012360 testing method Methods 0.000 claims description 24
- 238000012217 deletion Methods 0.000 claims description 18
- 230000037430 deletion Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 102000003712 Complement factor B Human genes 0.000 description 18
- 108090000056 Complement factor B Proteins 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000013508 migration Methods 0.000 description 5
- 230000005012 migration Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0269—Targeted advertisements based on user profile or attribute
- G06Q30/0271—Personalized advertisement
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Computation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于迁移学习的信息推送方法、装置、计算机设备及存储介质,涉及人工智能技术,先获取当前产品属性数据对应相似产品的历史目标用户数据集后,再获取各条历史目标用户数据包括的字段因子集合,对字段因子集合依次进行因子显著性检验和共线性检验,得到筛选后字段因子集合,然后根据其对历史目标用户数据集进行数据简化,得到简化后目标用户数据集,最后调用预先训练的XGBoost模型,将简化后目标用户数据集中各简化后目标用户数据分别输入至XGBoost模型进行分类运算,得到与各简化后目标用户数据分别对应的分类结果。实现了利用相似产品数据对应的历史用户数据挖掘出潜在用户,从而更加准确的进行信息推送,降低了信息推送量和网络带宽占用。
Description
技术领域
本发明涉及人工智能的智能决策技术领域,尤其涉及一种基于迁移学习的信息推送方法、装置、计算机设备及存储介质。
背景技术
目前,当企业开发人员开发了新产品后(例如游戏产品、软件产品、保险产品、理财产品等)后,需要将新产品的相关信息推广至用户时,由于缺乏历史用户数据,一般采用线上投放广告、向海量用户群发推广信息、线下发放产品广告宣传单的方式进信息传递,由于接收这些信息的目标用户不确定,这就需要服务器无目标性的向大量用户发送推广信息。
通过现有的“鸟枪法”式的向大量用户端推送推广信息,不仅占用网络带宽,而且因推送对象广泛而导致信息推送量大,推送效率低下。
发明内容
本发明实施例提供了一种基于迁移学习的信息推送方法、装置、计算机设备及存储介质,旨在解决现有技术中服务器中因缺乏历史用户而无目标性的向大量用户发送推广信息时,不仅占用网络带宽,而且因推送对象广泛而导致信息推送量大,推送效率低下的问题。
第一方面,本发明实施例提供了一种基于迁移学习的信息推送方法,其包括:
若检测到用户端上传的当前产品属性数据,则在本地产品数据库中获取与所述当前产品属性数据的数据相似度为最大值的目标产品属性数据;
获取目标产品属性数据对应的目标用户数据集,筛选获取所述目标用户数据集中数据饱和度超出预设饱和度阈值的历史目标用户数据,以组成历史目标用户数据集;
获取历史目标用户数据集中各条历史目标用户数据包括的字段因子集合;
对所述字段因子集合依次进行因子显著性检验和共线性检验,得到筛选后字段因子集合;
根据所述筛选后字段因子集合对所述历史目标用户数据集进行数据简化,得到简化后目标用户数据集;
调用预先训练的XGBoost模型,将所述简化后目标用户数据集中各简化后目标用户数据分别输入至所述XGBoost模型进行分类运算,得到与各简化后目标用户数据分别对应的分类结果;以及
获取分类结果超出预设的分类结果阈值对应的简化后目标用户数据以组成待推荐用户清单,将在本地所获取的待推荐信息发送至所述待推荐用户清单中各用户对应的目标接收端。
第二方面,本发明实施例提供了一种基于迁移学习的信息推送装置,其包括:
目标产品属性数据获取单元,用于若检测到用户端上传的当前产品属性数据,则在本地产品数据库中获取与所述当前产品属性数据的数据相似度为最大值的目标产品属性数据;
历史目标用户数据集获取单元,用于获取目标产品属性数据对应的目标用户数据集,筛选获取所述目标用户数据集中数据饱和度超出预设饱和度阈值的历史目标用户数据,以组成历史目标用户数据集;
字段因子集合获取单元,用于获取历史目标用户数据集中各条历史目标用户数据包括的字段因子集合;
字段因子筛选单元,用于对所述字段因子集合依次进行因子显著性检验和共线性检验,得到筛选后字段因子集合;
数据集简化单元,用于根据所述筛选后字段因子集合对所述历史目标用户数据集进行数据简化,得到简化后目标用户数据集;
分类单元,用于调用预先训练的XGBoost模型,将所述简化后目标用户数据集中各简化后目标用户数据分别输入至所述XGBoost模型进行分类运算,得到与各简化后目标用户数据分别对应的分类结果;以及
待推荐用户清单获取单元,用于获取分类结果超出预设的分类结果阈值对应的简化后目标用户数据以组成待推荐用户清单,将在本地所获取的待推荐信息发送至所述待推荐用户清单中各用户对应的目标接收端。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于迁移学习的信息推送方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于迁移学习的信息推送方法。
本发明实施例提供了一种基于迁移学习的信息推送方法、装置、计算机设备及存储介质,先获取当前产品属性数据对应相似产品的历史目标用户数据集后,之后获取历史目标用户数据集中各条历史目标用户数据包括的字段因子集合,对所述字段因子集合依次进行因子显著性检验和共线性检验,得到筛选后字段因子集合,然后根据所述筛选后字段因子集合对所述历史目标用户数据集进行数据简化,得到简化后目标用户数据集,最后调用预先训练的XGBoost模型,将所述简化后目标用户数据集中各简化后目标用户数据分别输入至所述XGBoost模型进行分类运算,得到与各简化后目标用户数据分别对应的分类结果,能够利用相似产品数据对应的历史用户数据挖掘出潜在用户,从而更加准确的进行信息推送,降低了信息推送量和网络带宽占用。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于迁移学习的信息推送方法的应用场景示意图;
图2为本发明实施例提供的基于迁移学习的信息推送方法的流程示意图;
图3为本发明实施例提供的基于迁移学习的信息推送方法的子流程示意图;
图4为本发明实施例提供的基于迁移学习的信息推送装置的示意性框图;
图5为本发明实施例提供的基于迁移学习的信息推送装置的子单元示意性框图;
图6为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1和图2,图1为本发明实施例提供的基于迁移学习的信息推送方法的应用场景示意图;图2为本发明实施例提供的基于迁移学习的信息推送方法的流程示意图,该基于迁移学习的信息推送方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
如图2所示,该方法包括步骤S110~S170。
S110、若检测到用户端上传的当前产品属性数据,则在本地产品数据库中获取与所述当前产品属性数据的数据相似度为最大值的目标产品属性数据。
在本实施例中,当某一用户使用用户端(如平板电脑、笔记本电脑等)设计了一款新的产品(例如保险产品、理财产品等)后将产品属性数据上传至服务器,由服务器中进行相关处理后需要将该产品的产品信息推荐至用户时,由于缺乏历史用户数据,无法在服务器中直接建模,为了更精准的将产品信息推荐至潜在用户,可以先基于相关类似产品的历史用户数据进行建模,用源模型来识别新产品的高潜客户(也即该产品的产品信息优先推荐至这些用户)。
为了获取新产品(也即当前产品)的相关类似产品,可以在服务器中先获取当前产品对应的当前产品属性数据,例如该当前产品属性数据包括产品名称、产品类型(如健康险产品等)、产品特征文本(在产品特征文本中有关于该产品主要特征的描述)。
此时为了在服务器的本地产品数据库中获取当前产品的最相似目标产品,此时可以计算当前产品属性数据与本地产品数据库中各个产品属性数据的相似度,从而在则在本地产品数据库中获取与所述当前产品属性数据的数据相似度为最大值的目标产品属性数据。
在一实施例中,步骤S110包括:
判断在本地产品数据库中是否存在有与当前产品属性数据的产品类型相同的初步筛选产品属性数据;
若在本地产品数据库中存在有与当前产品属性数据的产品类型相同的初步筛选产品属性数据,获取对应的初步筛选产品属性数据以组成初步筛选产品属性数据集;
获取初步筛选产品属性数据集中每一个初步筛选产品属性数据的产品特征文本,以获取每一产品特征文本对应的产品语义向量;
获取所述当前产品属性数据的产品特征文本对应的当前产品语义向量,计算所述当前产品语义向量与每一产品特征文本对应的产品语义向量之间的欧氏距离作为数据相似度,获取与所述当前产品属性数据的数据相似度为最大值的目标产品属性数据。
在本实施例中,当获取了当前产品属性数据后,是可以获知其对应的产品类型和产品特征文本。为了在本地产品数据库中筛选出最近似产品,可以先在本地产品数据库中筛选出与当前产品属性数据的产品类型相同的初步筛选产品属性数据,以组成初步筛选产品属性数据集;之后,获取初步筛选产品属性数据集中每一个初步筛选产品属性数据的产品特征文本及其对应的产品语义向量;然后,获取所述当前产品属性数据的产品特征文本对应的当前产品语义向量,这样即可计算当前产品语义向量与每一产品语义向量对应的欧氏距离,从而作为当前产品属性数据与初步筛选产品属性数据集中各个初步筛选产品属性数据之间的数据相似度;最后在初步筛选产品属性数据集中获取与所述当前产品属性数据的数据相似度为最大值的初步筛选产品属性数据,以作为目标产品属性数据。通过上述方式即可快速且准确的在服务器的本地产品数据库中获取当前产品的最相似目标产品。
S120、获取目标产品属性数据对应的目标用户数据集,筛选获取所述目标用户数据集中数据饱和度超出预设饱和度阈值的历史目标用户数据,以组成历史目标用户数据集。
在本实施例中,当获取了当前产品的近似产品后,为了从该近似产品对应的用户数据集中挖掘潜在客户,此时可以直接以当前产品的近似产品(即目标产品属性数据对应的近似产品)对应的目标用户数据集为数据挖掘的基础,筛选获取所述目标用户数据集中数据饱和度超出预设饱和度阈值的历史目标用户数据。
其中,目标用户数据集中包括多条用户数据,每一条用户数据中均包括多个字段值,由于字段值可能为空值,此时可以定义一个数据饱和度的参数来判断一条用户数据是否饱满。例如一条用户数据中一共有M个字段值,其中的非空字段值为M1个,空字段值为M2个,M1+M2=M,那么此条用户数据的数据饱和度为M1/M。由于服务器中存储了预设饱和度阈值(例如设置该预设饱和度阈值为80%),则可以在目标用户数据集,筛选获取所述目标用户数据集中数据饱和度超出预设饱和度阈值的历史目标用户数据,以组成历史目标用户数据集。
在一实施例中,步骤S120包括:
获取所述目标用户数据集中各条目标用户数据,统计获取各条目标用户数据分别对应的非空字段值总个数;
获取单条目标用户数据的字段总个数,根据Qi=Mi/M计算得到目标用户数据集中第i条目标用户数据的数据饱和度;其中,目标用户数据集中包括N条目标用户数据,i的取值范围是[1,N],Mi表示第i条目标用户数据的非空字段值总个数,M表示单条目标用户数据的字段总个数,Qi表示第i条目标用户数据的数据饱和度;
调用本地存储的预设饱和度阈值,判断所述目标用户数据集包括的目标用户数据中是否存在有目标用户数据的数据饱和度超出预设饱和度阈值;
若有目标用户数据的数据饱和度超出预设饱和度阈值,获取所述目标用户数据集中数据饱和度超出预设饱和度阈值的历史目标用户数据,以组成历史目标用户数据集。
在本实施例中,通过上述挑选数据饱和度高的目标用户数据组成历史目标用户数据集的方式,能够挑选中数据质量较高的历史目标用户数据作为后续数据分析和处理的源数据。
S130、获取历史目标用户数据集中各条历史目标用户数据包括的字段因子集合。
在本实施例中,当获取了当前产品的最相似产品对应的目标用户数据集之后,需要对历史目标用户数据集中的数据进行字段因子的重要性排序和挑选,也就是分析出历史目标用户数据中较为重要的一些字段,过滤掉一些不重要的字段。在分析字段因子的重要性之前,需要先获取各条历史目标用户数据包括的字段因子集合,也就是获取一条历史目标用户数据中包括的字段,并由这些字段组成字段因子集合。
S140、对所述字段因子集合依次进行因子显著性检验和共线性检验,得到筛选后字段因子集合。
在本实施例中,将整理出来的字段因子以正负样本为目标进行因子显著性检验和共线性检验,去除掉高相关性的部分因子,以及结果性变量后,选择出对于预测高潜力客户最有效并且易于解释和理解的几十个因子。进行因子处理包括变量分箱,WOE转换(即Weight of Evidence,表示证据权重),信息量计算(即Information value)等。
在一实施例中,如图3所示,步骤S140包括:
S141、将所述字段因子集合进行因子显著性检验,得到所述字段因子集合中各个字段因子分别对应的信息量值;
S142、将所述字段因子集合中字段因子的信息量值低于预设信息量阈值的字段因子删除,得到初次筛选后字段因子集合;
S143、将所述初次筛选后字段因子集合中的近似字段因子作为同类字段因子进行去重,得到筛选后字段因子集合;其中,所述初次筛选后字段因子集合中若存在有字段因子之间的皮尔逊相关系数超出预设相关系数阈值,对应的字段因子作为近似字段因子。
在本实施例中,所述历史目标用户数据集中各条历史目标用户数据均包括多个字段因子,这些字段因子中有些更重要(即因子显著性更明显)且与其他字段因子不互为相似因子,则这些字段因子则可以被保留。还有一些与其他字段因子互为相似字段因子的,可以参考数据去重的过程,仅保留互为相似字段因子的其中一个即可。
例如,所述字段因子集合为{B1,B2,B3,B4},其中字段因子B1对应的信息量值IV1=0.6,字段因子B2对应的信息量值IV2=0.1,字段因子B3对应的信息量值IV3=0.2,字段因子B4对应的信息量值IV4=0.02,且预设信息量阈值为0.03,由于字段因子B4对应的信息量值IV4是小于预设信息量阈值0.03,其他3个字段因子的信息量值是大于预设信息量阈值0.03,故由字段因子B1、字段因子B2和字段因子B3组成初次筛选后字段因子集合,即初次筛选后字段因子集合={B1,B2,B3}。
之后,计算初次筛选后字段因子集合中各个字段因子之间的皮尔逊相关系数,例如字段因子B1与字段因子B2之间的皮尔逊相关系数为0.4,字段因子B1与字段因子B3之间的皮尔逊相关系数为0.9,字段因子B1与字段因子B3之间的皮尔逊相关系数为0.3,且预设相关系数阈值为0.5,则字段因子B1与字段因子B3之间互为相似字段因子从而视为同类字段因子。此时可以从字段因子B1与字段因子B3中随机选择一个进行删除,例如随机选中了字段因子B3进行删除,则筛选后字段因子集合为{B1,B2}。
在一实施例中,步骤S141包括:
将所述字段因子集合中各字段因子分别进行升序标号;其中,所述字段因子集合中包括A个字段因子,将所述字段因子集合中第j号字段因子记为Bj,j的取值范围是[1,A];
将历史目标用户数据集以第j号字段因子为主因子进行卡方分箱,得到当前分箱结果;其中,j的初始取值为1;
计算当前分箱结果中各分组数据对应的分组数据证据权重值;
根据各分组数据对应的分组数据证据权重值,以计算当前分箱结果对应的信息量值;
将第j号字段因子中的序号j加1后以更新j值,判断序号j是否超出A;
若序号j未超出A,返回执行将历史目标用户数据以第j号字段因子为主因子进行卡方分箱,得到当前分箱结果的步骤;
若序号j超出A,获取以各字段因子为主因子对应的信息量值。
在本实施例中,为了对所述字段因子集合中各字段因子进行因子显著性检验,可以对所述字段因子集合中每一个字段因子均计算对应的信息量值。在计算每一个字段因子对应的信息量值时均是依次经过数据分箱、WOE转换和信息量计算。
例如,在以第1号字段因子B1为主因子进行数据分箱时,可以采用有监督的卡方分箱法。卡方分箱是一种自底向上的数据离散化方法,依赖于卡方检验:具有最小卡方值的相邻区间合并到一起,直至满足确定的停止准则。由于卡方分箱法是现有技术,此处不再展开说明。
之后在计算第1号字段因子B1对应的当前分箱结果中各分组数据对应的分组数据证据权重值时,采用如下式(1)的公式:
例如,第1号字段因子B1具体表示用户收入字段因子,对应的当前分箱结果中若用户收入大于或等于10000则为正因子,若用户收入小于10000则为负因子,此时对第1号字段因子B1对应的各分组数据分别进行正负因子的统计后,即可计算出第1号字段因子B1对应的分组数据证据权重值WOE1,其余字段因子的分组数据证据权重值参考WOE1的计算过程即可。
在计算得到第1号字段因子B1对应的各分组数据证据权重值后,计算第1号字段因子B1的当前分箱结果对应的信息量值时,采用如下式(2)的公式:
其中,第1号字段因子B1对应的当前分箱结果中包括K个分组数据,表示K个分
组数据中第i个分组数据中的正因子占比,表示K个分组数据中第i个分组数据中的负
因子占比,WOEi表示K个分组数据中第i个分组数据中的分组数据证据权重值。通过上述两
个公式的计算,即可获取以各字段因子为主因子对应的信息量值。
具体的,当获取了以各字段因子为主因子对应的信息量值后,按降序顺序对各信息量值进行排序,之后即可获取信息量值的排名靠前(例如排名在前10位)或是信息量值大于预设信息量阈值的目标信息量值对应的字段因子,以组成初次筛选后字段因子集合。通过这一方式,实现了基于字段因子的分组数据证据权重值和信息量值进行排序和挑选。
在一实施例中,步骤S143包括:
计算得到所述初次筛选后字段因子集合中各字段因子之间的皮尔逊相关系数,获取所述初次筛选后字段因子集合中字段因子之间的皮尔逊相关系数超出预设相关系数阈值的字段因子,以组成删除候选字段因子分组和删除候选字段因子集合;其中,所述删除候选字段因子集合中包括若干组成删除候选字段因子分组,每一删除候选字段因子分组为空集或每一删除候选字段因子分组中包括两个字段因子;
将删除候选字段因子分组中包括的字段因子从所述初次筛选后字段因子集合中删除,得到第一待保留字段因子集合;
若任意两个删除候选字段因子分组中存在有相同字段因子,将对应的删除候选字段因子分组进行合并,得到更新后删除候选字段因子分组和更新后删除候选字段因子集合;
若更新后删除候选字段因子集合中存在更新后删除候选字段因子分组不为空集,将对应删除候选字段因子分组中随机选择一个字段因子进行保留,得到保留候选字段因子分组以组成第二待保留字段因子集合;
将所述第一待保留字段因子集合和所述第二待保留字段因子集合求并,得到筛选后字段因子集合。
在本实施例中,通过上述参照数据去重的过程,可以有效选择保留重要字段因子。
S150、根据所述筛选后字段因子集合对所述历史目标用户数据集进行数据简化,得到简化后目标用户数据集。
在本实施例中,当获取了据所述筛选后字段因子集合后,即可获知保留每一条用户数据中的哪些重要字段因子及其对应字段值,这样有效的降低了数据维度,而且保留了重要数据信息。
S160、调用预先训练的XGBoost模型,将所述简化后目标用户数据集中各简化后目标用户数据分别输入至所述XGBoost模型进行分类运算,得到与各简化后目标用户数据分别对应的分类结果。
在本实施例中,当获取了所述简化后目标用户数据集后,每一条简化后目标用户数据对应一个行向量,将其输入至所述XGBoost模型进行分类运算,得到该简化后目标用户数据对应的分类结果。例如,简化后目标用户数据对应的分类结果为1时,表示该简化后目标用户数据对应的用户可以被选中为潜在用户(即该用户可以被发送推荐信息以进行产品推广);简化后目标用户数据对应的分类结果为0时,表示该简化后目标用户数据对应的用户不是潜在用户(即该用户无需被发送推荐信息)。
其中,XGBoost模型本质上是一个GBDT(全称是Gradient Boosting DecisionTree,表示全梯度下降树),通过XGBoost模型可以根据简化后目标用户数据的各个字段因子的字段值为输入数据,得到简化后目标用户数据对应的分类结果。
S170、获取分类结果超出预设的分类结果阈值对应的简化后目标用户数据以组成待推荐用户清单,将在本地所获取的待推荐信息发送至所述待推荐用户清单中各用户对应的目标接收端。
在本实施例中,当获取了分类结果超出预设的分类结果阈值(如将该分类结果阈值设置为0.6)对应的简化后目标用户数据以组成待推荐用户清单,即挖掘出了潜在用户对应的用户数据,此时可以在服务器本地的数据库中查询待推荐用户清单中各目标用户数据分别对应的目标接收端,从而将在本地所获取的待推荐信息发送至所述待推荐用户清单中各用户对应的目标接收端。通过这一方式,实现了更精准的推送信息。
在一实施例中,步骤S170还包括:
将待推荐用户清单上传至区块链中。
在本实施例中,基于待推荐用户清单得到对应的摘要信息,具体来说,摘要信息由待推荐用户清单进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息,以便查证待推荐用户清单是否被篡改。
本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等
该方法利用相似产品数据对应的历史用户数据根据迁移学习挖掘出潜在目标用户,从而更加准确的进行信息推送,降低了信息推送量和网络带宽占用。
本发明实施例还提供一种基于迁移学习的信息推送装置,该基于迁移学习的信息推送装置用于执行前述基于迁移学习的信息推送方法的任一实施例。具体地,请参阅图4,图4是本发明实施例提供的基于迁移学习的信息推送装置的示意性框图。该基于迁移学习的信息推送装置100可以配置于服务器中。
如图4所示,基于迁移学习的信息推送装置100包括:目标产品属性数据获取单元110、历史目标用户数据集获取单元120、字段因子集合获取单元130、字段因子筛选单元140、数据集简化单元150、分类单元160、待推荐用户清单获取单元170。
目标产品属性数据获取单元110,用于若检测到用户端上传的当前产品属性数据,则在本地产品数据库中获取与所述当前产品属性数据的数据相似度为最大值的目标产品属性数据。
在本实施例中,当某一用户使用用户端(如平板电脑、笔记本电脑等)设计了一款新的产品(例如保险产品、理财产品等)后将产品属性数据上传至服务器,由服务器中进行相关处理后需要将该产品的产品信息推荐至用户时,由于缺乏历史用户数据,无法在服务器中直接建模,为了更精准的将产品信息推荐至潜在用户,可以先基于相关类似产品的历史用户数据进行建模,用源模型来识别新产品的高潜客户(也即该产品的产品信息优先推荐至这些用户)。
为了获取新产品(也即当前产品)的相关类似产品,可以在服务器中先获取当前产品对应的当前产品属性数据,例如该当前产品属性数据包括产品名称、产品类型(如健康险产品等)、产品特征文本(在产品特征文本中有关于该产品主要特征的描述)。
此时为了在服务器的本地产品数据库中获取当前产品的最相似目标产品,此时可以计算当前产品属性数据与本地产品数据库中各个产品属性数据的相似度,从而在则在本地产品数据库中获取与所述当前产品属性数据的数据相似度为最大值的目标产品属性数据。
在一实施例中,目标产品属性数据获取单元110包括:
初步筛选判断单元,用于判断在本地产品数据库中是否存在有与当前产品属性数据的产品类型相同的初步筛选产品属性数据;
初步筛选获取单元,用于若在本地产品数据库中存在有与当前产品属性数据的产品类型相同的初步筛选产品属性数据,获取对应的初步筛选产品属性数据以组成初步筛选产品属性数据集;
产品语义向量转换单元,用于获取初步筛选产品属性数据集中每一个初步筛选产品属性数据的产品特征文本,以获取每一产品特征文本对应的产品语义向量;
第一目标数据获取单元,用于获取所述当前产品属性数据的产品特征文本对应的当前产品语义向量,计算所述当前产品语义向量与每一产品特征文本对应的产品语义向量之间的欧氏距离作为数据相似度,获取与所述当前产品属性数据的数据相似度为最大值的目标产品属性数据。
在本实施例中,当获取了当前产品属性数据后,是可以获知其对应的产品类型和产品特征文本。为了在本地产品数据库中筛选出最近似产品,可以先在本地产品数据库中筛选出与当前产品属性数据的产品类型相同的初步筛选产品属性数据,以组成初步筛选产品属性数据集;之后,获取初步筛选产品属性数据集中每一个初步筛选产品属性数据的产品特征文本及其对应的产品语义向量;然后,获取所述当前产品属性数据的产品特征文本对应的当前产品语义向量,这样即可计算当前产品语义向量与每一产品语义向量对应的欧氏距离,从而作为当前产品属性数据与初步筛选产品属性数据集中各个初步筛选产品属性数据之间的数据相似度;最后在初步筛选产品属性数据集中获取与所述当前产品属性数据的数据相似度为最大值的初步筛选产品属性数据,以作为目标产品属性数据。通过上述方式即可快速且准确的在服务器的本地产品数据库中获取当前产品的最相似目标产品。
历史目标用户数据集获取单元120,用于获取目标产品属性数据对应的目标用户数据集,筛选获取所述目标用户数据集中数据饱和度超出预设饱和度阈值的历史目标用户数据,以组成历史目标用户数据集。
在本实施例中,当获取了当前产品的近似产品后,为了从该近似产品对应的用户数据集中挖掘潜在客户,此时可以直接以当前产品的近似产品(即目标产品属性数据对应的近似产品)对应的目标用户数据集为数据挖掘的基础,筛选获取所述目标用户数据集中数据饱和度超出预设饱和度阈值的历史目标用户数据。
其中,目标用户数据集中包括多条用户数据,每一条用户数据中均包括多个字段值,由于字段值可能为空值,此时可以定义一个数据饱和度的参数来判断一条用户数据是否饱满。例如一条用户数据中一共有M个字段值,其中的非空字段值为M1个,空字段值为M2个,M1+M2=M,那么此条用户数据的数据饱和度为M1/M。由于服务器中存储了预设饱和度阈值(例如设置该预设饱和度阈值为80%),则可以在目标用户数据集,筛选获取所述目标用户数据集中数据饱和度超出预设饱和度阈值的历史目标用户数据,以组成历史目标用户数据集。
在一实施例中,历史目标用户数据集获取单元120包括:
第一统计单元,用于获取所述目标用户数据集中各条目标用户数据,统计获取各条目标用户数据分别对应的非空字段值总个数;
第二统计单元,用于获取单条目标用户数据的字段总个数,根据Qi=Mi/M计算得到目标用户数据集中第i条目标用户数据的数据饱和度;其中,目标用户数据集中包括N条目标用户数据,i的取值范围是[1,N],Mi表示第i条目标用户数据的非空字段值总个数,M表示单条目标用户数据的字段总个数,Qi表示第i条目标用户数据的数据饱和度;
数据饱和度判断单元,用于调用本地存储的预设饱和度阈值,判断所述目标用户数据集包括的目标用户数据中是否存在有目标用户数据的数据饱和度超出预设饱和度阈值;
第二目标数据获取单元,用于若有目标用户数据的数据饱和度超出预设饱和度阈值,获取所述目标用户数据集中数据饱和度超出预设饱和度阈值的历史目标用户数据,以组成历史目标用户数据集。
在本实施例中,通过上述挑选数据饱和度高的目标用户数据组成历史目标用户数据集的方式,能够挑选中数据质量较高的历史目标用户数据作为后续数据分析和处理的源数据。
字段因子集合获取单元130,用于获取历史目标用户数据集中各条历史目标用户数据包括的字段因子集合。
在本实施例中,当获取了当前产品的最相似产品对应的目标用户数据集之后,需要对历史目标用户数据集中的数据进行字段因子的重要性排序和挑选,也就是分析出历史目标用户数据中较为重要的一些字段,过滤掉一些不重要的字段。在分析字段因子的重要性之前,需要先获取各条历史目标用户数据包括的字段因子集合,也就是获取一条历史目标用户数据中包括的字段,并由这些字段组成字段因子集合。
字段因子筛选单元140,用于对所述字段因子集合依次进行因子显著性检验和共线性检验,得到筛选后字段因子集合。
在本实施例中,将整理出来的字段因子以正负样本为目标进行因子显著性检验和共线性检验,去除掉高相关性的部分因子,以及结果性变量后,选择出对于预测高潜力客户最有效并且易于解释和理解的几十个因子。进行因子处理包括变量分箱,WOE转换(即Weight of Evidence,表示证据权重),信息量计算(即Information value)等。
在一实施例中,如图5所示,字段因子筛选单元140包括:
信息量值计算单元141,用于将所述字段因子集合进行因子显著性检验,得到所述字段因子集合中各个字段因子分别对应的信息量值;
字段因子初筛单元142,用于将所述字段因子集合中字段因子的信息量值低于预设信息量阈值的字段因子删除,得到初次筛选后字段因子集合;
字段因子去重单元143,用于将所述初次筛选后字段因子集合中的近似字段因子作为同类字段因子进行去重,得到筛选后字段因子集合;其中,所述初次筛选后字段因子集合中若存在有字段因子之间的皮尔逊相关系数超出预设相关系数阈值,对应的字段因子作为近似字段因子。
在本实施例中,所述历史目标用户数据集中各条历史目标用户数据均包括多个字段因子,这些字段因子中有些更重要(即因子显著性更明显)且与其他字段因子不互为相似因子,则这些字段因子则可以被保留。还有一些与其他字段因子互为相似字段因子的,可以参考数据去重的过程,仅保留互为相似字段因子的其中一个即可。
例如,所述字段因子集合为{B1,B2,B3,B4},其中字段因子B1对应的信息量值IV1=0.6,字段因子B2对应的信息量值IV2=0.1,字段因子B3对应的信息量值IV3=0.2,字段因子B4对应的信息量值IV4=0.02,且预设信息量阈值为0.03,由于字段因子B4对应的信息量值IV4是小于预设信息量阈值0.03,其他3个字段因子的信息量值是大于预设信息量阈值0.03,故由字段因子B1、字段因子B2和字段因子B3组成初次筛选后字段因子集合,即初次筛选后字段因子集合={B1,B2,B3}。
之后,计算初次筛选后字段因子集合中各个字段因子之间的皮尔逊相关系数,例如字段因子B1与字段因子B2之间的皮尔逊相关系数为0.4,字段因子B1与字段因子B3之间的皮尔逊相关系数为0.9,字段因子B1与字段因子B3之间的皮尔逊相关系数为0.3,且预设相关系数阈值为0.5,则字段因子B1与字段因子B3之间互为相似字段因子从而视为同类字段因子。此时可以从字段因子B1与字段因子B3中随机选择一个进行删除,例如随机选中了字段因子B3进行删除,则筛选后字段因子集合为{B1,B2}。
在一实施例中,信息量值计算单元141包括:
标号单元,用于将所述字段因子集合中各字段因子分别进行升序标号;其中,所述字段因子集合中包括A个字段因子,将所述字段因子集合中第j号字段因子记为Bj,j的取值范围是[1,A];
卡方分箱单元,用于将历史目标用户数据集以第j号字段因子为主因子进行卡方分箱,得到当前分箱结果;其中,j的初始取值为1;
数据证据权重值计算单元,用于计算当前分箱结果中各分组数据对应的分组数据证据权重值;
权重值综合计算单元,用于根据各分组数据对应的分组数据证据权重值,以计算当前分箱结果对应的信息量值;
序号更新单元,用于将第j号字段因子中的序号j加1后以更新j值,判断序号j是否超出A;
第一执行单元,用于若序号j未超出A,返回执行将历史目标用户数据以第j号字段因子为主因子进行卡方分箱,得到当前分箱结果的步骤;
第二执行单元,用于若序号j超出A,获取以各字段因子为主因子对应的信息量值。
在本实施例中,为了对所述字段因子集合中各字段因子进行因子显著性检验,可以对所述字段因子集合中每一个字段因子均计算对应的信息量值。在计算每一个字段因子对应的信息量值时均是依次经过数据分箱、WOE转换和信息量计算。
例如,在以第1号字段因子B1为主因子进行数据分箱时,可以采用有监督的卡方分箱法。卡方分箱是一种自底向上的数据离散化方法,依赖于卡方检验:具有最小卡方值的相邻区间合并到一起,直至满足确定的停止准则。由于卡方分箱法是现有技术,此处不再展开说明。
之后在计算第1号字段因子B1对应的当前分箱结果中各分组数据对应的分组数据证据权重值时,采用如上式(1)的公式。
例如,第1号字段因子B1具体表示用户收入字段因子,对应的当前分箱结果中若用户收入大于或等于10000则为正因子,若用户收入小于10000则为负因子,此时对第1号字段因子B1对应的各分组数据分别进行正负因子的统计后,即可计算出第1号字段因子B1对应的分组数据证据权重值WOE1,其余字段因子的分组数据证据权重值参考WOE1的计算过程即可。
在计算得到第1号字段因子B1对应的各分组数据证据权重值后,计算第1号字段因子B1的当前分箱结果对应的信息量值时,采用如下式(2)的公式:
其中,第1号字段因子B1对应的当前分箱结果中包括K个分组数据,表示K个分
组数据中第i个分组数据中的正因子占比,表示K个分组数据中第i个分组数据中的负
因子占比,WOEi表示K个分组数据中第i个分组数据中的分组数据证据权重值。通过上述两
个公式的计算,即可获取以各字段因子为主因子对应的信息量值。
具体的,当获取了以各字段因子为主因子对应的信息量值后,按降序顺序对各信息量值进行排序,之后即可获取信息量值的排名靠前(例如排名在前10位)或是信息量值大于预设信息量阈值的目标信息量值对应的字段因子,以组成初次筛选后字段因子集合。通过这一方式,实现了基于字段因子的分组数据证据权重值和信息量值进行排序和挑选。
在一实施例中,字段因子去重单元143包括:
第一筛选单元,用于计算得到所述初次筛选后字段因子集合中各字段因子之间的皮尔逊相关系数,获取所述初次筛选后字段因子集合中字段因子之间的皮尔逊相关系数超出预设相关系数阈值的字段因子,以组成删除候选字段因子分组和删除候选字段因子集合;其中,所述删除候选字段因子集合中包括若干组成删除候选字段因子分组,每一删除候选字段因子分组为空集或每一删除候选字段因子分组中包括两个字段因子;
第二筛选单元,用于将删除候选字段因子分组中包括的字段因子从所述初次筛选后字段因子集合中删除,得到第一待保留字段因子集合;
因子合并单元,用于若任意两个删除候选字段因子分组中存在有相同字段因子,将对应的删除候选字段因子分组进行合并,得到更新后删除候选字段因子分组和更新后删除候选字段因子集合;
因子随机选择保存单元,用于若更新后删除候选字段因子集合中存在更新后删除候选字段因子分组不为空集,将对应删除候选字段因子分组中随机选择一个字段因子进行保留,得到保留候选字段因子分组以组成第二待保留字段因子集合;
集合合并单元,用于将所述第一待保留字段因子集合和所述第二待保留字段因子集合求并,得到筛选后字段因子集合。
在本实施例中,通过上述参照数据去重的过程,可以有效选择保留重要字段因子。
数据集简化单元150,用于根据所述筛选后字段因子集合对所述历史目标用户数据集进行数据简化,得到简化后目标用户数据集。
在本实施例中,当获取了据所述筛选后字段因子集合后,即可获知保留每一条用户数据中的哪些重要字段因子及其对应字段值,这样有效的降低了数据维度,而且保留了重要数据信息。
分类单元160,用于调用预先训练的XGBoost模型,将所述简化后目标用户数据集中各简化后目标用户数据分别输入至所述XGBoost模型进行分类运算,得到与各简化后目标用户数据分别对应的分类结果。
在本实施例中,当获取了所述简化后目标用户数据集后,每一条简化后目标用户数据对应一个行向量,将其输入至所述XGBoost模型进行分类运算,得到该简化后目标用户数据对应的分类结果。例如,简化后目标用户数据对应的分类结果为1时,表示该简化后目标用户数据对应的用户可以被选中为潜在用户(即该用户可以被发送推荐信息以进行产品推广);简化后目标用户数据对应的分类结果为0时,表示该简化后目标用户数据对应的用户不是潜在用户(即该用户无需被发送推荐信息)。
其中,XGBoost模型本质上是一个GBDT(全称是Gradient Boosting DecisionTree,表示全梯度下降树),通过XGBoost模型可以根据简化后目标用户数据的各个字段因子的字段值为输入数据,得到简化后目标用户数据对应的分类结果。
待推荐用户清单获取单元170,用于获取分类结果超出预设的分类结果阈值对应的简化后目标用户数据以组成待推荐用户清单,将在本地所获取的待推荐信息发送至所述待推荐用户清单中各用户对应的目标接收端。
在本实施例中,当获取了分类结果超出预设的分类结果阈值(如将该分类结果阈值设置为0.6)对应的简化后目标用户数据以组成待推荐用户清单,即挖掘出了潜在用户对应的用户数据,此时可以在服务器本地的数据库中查询待推荐用户清单中各目标用户数据分别对应的目标接收端,从而将在本地所获取的待推荐信息发送至所述待推荐用户清单中各用户对应的目标接收端。通过这一方式,实现了更精准的推送信息。
在一实施例中,基于迁移学习的信息推送装置100还包括:
上链单元,用于将待推荐用户清单上传至区块链中。
在本实施例中,基于待推荐用户清单得到对应的摘要信息,具体来说,摘要信息由待推荐用户清单进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息,以便查证待推荐用户清单是否被篡改。
本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
该装置利用相似产品数据对应的历史用户数据根据迁移学习挖掘出潜在目标用户,从而更加准确的进行信息推送,降低了信息推送量和网络带宽占用。
上述基于迁移学习的信息推送装置可以实现为计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图6,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于迁移学习的信息推送方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于迁移学习的信息推送方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图6中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明实施例公开的基于迁移学习的信息推送方法。
本领域技术人员可以理解,图6中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图6所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的基于迁移学习的信息推送方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备 ( 可以是个人计算机,服务器,或者网络设备等 ) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U 盘、移动硬盘、只读存储器 (ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种基于迁移学习的信息推送方法,其特征在于,包括:
若检测到用户端上传的当前产品属性数据,则在本地产品数据库中获取与所述当前产品属性数据的数据相似度为最大值的目标产品属性数据;
获取目标产品属性数据对应的目标用户数据集,筛选获取所述目标用户数据集中数据饱和度超出预设饱和度阈值的历史目标用户数据,以组成历史目标用户数据集;
获取历史目标用户数据集中各条历史目标用户数据包括的字段因子集合;
对所述字段因子集合依次进行因子显著性检验和共线性检验,得到筛选后字段因子集合;
根据所述筛选后字段因子集合对所述历史目标用户数据集进行数据简化,得到简化后目标用户数据集;
调用预先训练的XGBoost模型,将所述简化后目标用户数据集中各简化后目标用户数据分别输入至所述XGBoost模型进行分类运算,得到与各简化后目标用户数据分别对应的分类结果;以及
获取分类结果超出预设的分类结果阈值对应的简化后目标用户数据以组成待推荐用户清单,将在本地所获取的待推荐信息发送至所述待推荐用户清单中各用户对应的目标接收端。
2.根据权利要求1所述的基于迁移学习的信息推送方法,其特征在于,所述则在本地产品数据库中获取与所述当前产品属性数据的数据相似度为最大值的目标产品属性数据,包括:
判断在本地产品数据库中是否存在有与当前产品属性数据的产品类型相同的初步筛选产品属性数据;
若在本地产品数据库中存在有与当前产品属性数据的产品类型相同的初步筛选产品属性数据,获取对应的初步筛选产品属性数据以组成初步筛选产品属性数据集;
获取初步筛选产品属性数据集中每一个初步筛选产品属性数据的产品特征文本,以获取每一产品特征文本对应的产品语义向量;
获取所述当前产品属性数据的产品特征文本对应的当前产品语义向量,计算所述当前产品语义向量与每一产品特征文本对应的产品语义向量之间的欧氏距离作为数据相似度,获取与所述当前产品属性数据的数据相似度为最大值的目标产品属性数据。
3.根据权利要求1所述的基于迁移学习的信息推送方法,其特征在于,所述筛选获取所述目标用户数据集中数据饱和度超出预设饱和度阈值的历史目标用户数据,以组成历史目标用户数据集,包括:
获取所述目标用户数据集中各条目标用户数据,统计获取各条目标用户数据分别对应的非空字段值总个数;
获取单条目标用户数据的字段总个数,根据Qi=Mi/M计算得到目标用户数据集中第i条目标用户数据的数据饱和度;其中,目标用户数据集中包括N条目标用户数据,i的取值范围是[1,N],Mi表示第i条目标用户数据的非空字段值总个数,M表示单条目标用户数据的字段总个数,Qi表示第i条目标用户数据的数据饱和度;
调用本地存储的预设饱和度阈值,判断所述目标用户数据集包括的目标用户数据中是否存在有目标用户数据的数据饱和度超出预设饱和度阈值;
若有目标用户数据的数据饱和度超出预设饱和度阈值,获取所述目标用户数据集中数据饱和度超出预设饱和度阈值的历史目标用户数据,以组成历史目标用户数据集。
4.根据权利要求1所述的基于迁移学习的信息推送方法,其特征在于,所述对所述字段因子集合依次进行因子显著性检验和共线性检验,得到筛选后字段因子集合,包括:
将所述字段因子集合进行因子显著性检验,得到所述字段因子集合中各个字段因子分别对应的信息量值;
将所述字段因子集合中字段因子的信息量值低于预设信息量阈值的字段因子删除,得到初次筛选后字段因子集合;
将所述初次筛选后字段因子集合中的近似字段因子作为同类字段因子进行去重,得到筛选后字段因子集合;其中,所述初次筛选后字段因子集合中若存在有字段因子之间的皮尔逊相关系数超出预设相关系数阈值,对应的字段因子作为近似字段因子。
5.根据权利要求4所述的基于迁移学习的信息推送方法,其特征在于,所述将所述字段因子集合进行因子显著性检验,得到所述字段因子集合中各个字段因子分别对应的信息量值,包括:
将所述字段因子集合中各字段因子分别进行升序标号;其中,所述字段因子集合中包括A个字段因子,将所述字段因子集合中第j号字段因子记为Bj,j的取值范围是[1,A];
将历史目标用户数据集以第j号字段因子为主因子进行卡方分箱,得到当前分箱结果;其中,j的初始取值为1;
计算当前分箱结果中各分组数据对应的分组数据证据权重值;
根据各分组数据对应的分组数据证据权重值,以计算当前分箱结果对应的信息量值;
将第j号字段因子中的序号j加1后以更新j值,判断序号j是否超出A;
若序号j未超出A,返回执行将历史目标用户数据以第j号字段因子为主因子进行卡方分箱,得到当前分箱结果的步骤;
若序号j超出A,获取以各字段因子为主因子对应的信息量值。
6.根据权利要求4所述的基于迁移学习的信息推送方法,其特征在于,所述将所述初次筛选后字段因子集合中的近似字段因子作为同类字段因子进行去重,得到筛选后字段因子集合,包括:
计算得到所述初次筛选后字段因子集合中各字段因子之间的皮尔逊相关系数,获取所述初次筛选后字段因子集合中字段因子之间的皮尔逊相关系数超出预设相关系数阈值的字段因子,以组成删除候选字段因子分组和删除候选字段因子集合;其中,所述删除候选字段因子集合中包括若干删除候选字段因子分组,每一删除候选字段因子分组为空集或每一删除候选字段因子分组中包括两个字段因子;
将删除候选字段因子分组中包括的字段因子从所述初次筛选后字段因子集合中删除,得到第一待保留字段因子集合;
若任意两个删除候选字段因子分组中存在有相同字段因子,将对应的删除候选字段因子分组进行合并,得到更新后删除候选字段因子分组和更新后删除候选字段因子集合;
若更新后删除候选字段因子集合中存在更新后删除候选字段因子分组不为空集,将对应删除候选字段因子分组中随机选择一个字段因子进行保留,得到保留候选字段因子分组以组成第二待保留字段因子集合;
将所述第一待保留字段因子集合和所述第二待保留字段因子集合求并,得到筛选后字段因子集合。
7.根据权利要求1所述的基于迁移学习的信息推送方法,其特征在于,还包括:
将待推荐用户清单上传至区块链中。
8.一种基于迁移学习的信息推送装置,其特征在于,包括:
目标产品属性数据获取单元,用于若检测到用户端上传的当前产品属性数据,则在本地产品数据库中获取与所述当前产品属性数据的数据相似度为最大值的目标产品属性数据;
历史目标用户数据集获取单元,用于获取目标产品属性数据对应的目标用户数据集,筛选获取所述目标用户数据集中数据饱和度超出预设饱和度阈值的历史目标用户数据,以组成历史目标用户数据集;
字段因子集合获取单元,用于获取历史目标用户数据集中各条历史目标用户数据包括的字段因子集合;
字段因子筛选单元,用于对所述字段因子集合依次进行因子显著性检验和共线性检验,得到筛选后字段因子集合;
数据集简化单元,用于根据所述筛选后字段因子集合对所述历史目标用户数据集进行数据简化,得到简化后目标用户数据集;
分类单元,用于调用预先训练的XGBoost模型,将所述简化后目标用户数据集中各简化后目标用户数据分别输入至所述XGBoost模型进行分类运算,得到与各简化后目标用户数据分别对应的分类结果;以及
待推荐用户清单获取单元,用于获取分类结果超出预设的分类结果阈值对应的简化后目标用户数据以组成待推荐用户清单,将在本地所获取的待推荐信息发送至所述待推荐用户清单中各用户对应的目标接收端。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于迁移学习的信息推送方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于迁移学习的信息推送方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011422020.XA CN112217908B (zh) | 2020-12-08 | 2020-12-08 | 基于迁移学习的信息推送方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011422020.XA CN112217908B (zh) | 2020-12-08 | 2020-12-08 | 基于迁移学习的信息推送方法、装置及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112217908A CN112217908A (zh) | 2021-01-12 |
CN112217908B true CN112217908B (zh) | 2021-03-09 |
Family
ID=74068174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011422020.XA Active CN112217908B (zh) | 2020-12-08 | 2020-12-08 | 基于迁移学习的信息推送方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112217908B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113393297A (zh) * | 2021-06-17 | 2021-09-14 | 中国工商银行股份有限公司 | 一种理财产品推送方法及装置 |
CN113268537A (zh) * | 2021-06-23 | 2021-08-17 | 北京深度制耀科技有限公司 | 一种遗传资源申报撰写方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260745A (zh) * | 2015-09-30 | 2016-01-20 | 西安沧海网络科技有限公司 | 一种基于大数据进行情感识别及预测的信息推送服务系统 |
CN105719156A (zh) * | 2015-10-15 | 2016-06-29 | 深圳市麻省图创科技有限公司 | 用于识别和推广已添加标签的商品的系统及方法 |
CN109935338A (zh) * | 2019-03-07 | 2019-06-25 | 平安科技(深圳)有限公司 | 基于机器学习的数据预测处理方法、装置和计算机设备 |
CN110322323A (zh) * | 2019-07-02 | 2019-10-11 | 拉扎斯网络科技(上海)有限公司 | 实体展示方法、装置、存储介质和电子设备 |
CN111210274A (zh) * | 2020-01-06 | 2020-05-29 | 北京搜狐新媒体信息技术有限公司 | 一种广告推荐方法及系统 |
-
2020
- 2020-12-08 CN CN202011422020.XA patent/CN112217908B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260745A (zh) * | 2015-09-30 | 2016-01-20 | 西安沧海网络科技有限公司 | 一种基于大数据进行情感识别及预测的信息推送服务系统 |
CN105719156A (zh) * | 2015-10-15 | 2016-06-29 | 深圳市麻省图创科技有限公司 | 用于识别和推广已添加标签的商品的系统及方法 |
CN109935338A (zh) * | 2019-03-07 | 2019-06-25 | 平安科技(深圳)有限公司 | 基于机器学习的数据预测处理方法、装置和计算机设备 |
CN110322323A (zh) * | 2019-07-02 | 2019-10-11 | 拉扎斯网络科技(上海)有限公司 | 实体展示方法、装置、存储介质和电子设备 |
CN111210274A (zh) * | 2020-01-06 | 2020-05-29 | 北京搜狐新媒体信息技术有限公司 | 一种广告推荐方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112217908A (zh) | 2021-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112241494B (zh) | 基于用户行为数据的关键信息推送方法及装置 | |
CN112217908B (zh) | 基于迁移学习的信息推送方法、装置及计算机设备 | |
CN105574544A (zh) | 一种数据处理方法和装置 | |
US11562262B2 (en) | Model variable candidate generation device and method | |
CN112070615A (zh) | 基于知识图谱的理财产品推荐方法及装置 | |
CN110689368B (zh) | 一种移动应用内广告点击率预测系统设计方法 | |
CN110310114A (zh) | 对象分类方法、装置、服务器及存储介质 | |
WO2021111540A1 (ja) | 評価方法、評価プログラム、および情報処理装置 | |
CN112861980B (zh) | 一种基于大数据的事历任务表挖掘方法及计算机设备 | |
CN107622326A (zh) | 用户分类、可用资源预测方法、装置及设备 | |
CN110689440A (zh) | 基于图片识别的车险理赔识别方法、装置、计算机设备及存储介质 | |
CN112699142A (zh) | 冷热数据处理方法、装置、电子设备及存储介质 | |
CN112990583A (zh) | 一种数据预测模型的入模特征确定方法及设备 | |
CN112329954A (zh) | 物品召回方法、装置、终端设备及存储介质 | |
CN112989182B (zh) | 信息处理方法、装置、信息处理设备及存储介质 | |
CN113205442A (zh) | 基于区块链的电子政务数据反馈管理方法及装置 | |
CN111984842B (zh) | 银行客户数据处理方法及装置 | |
CN113627997A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN110807159B (zh) | 数据标记方法、装置、存储介质及电子设备 | |
CN111177564B (zh) | 一种产品推荐方法及装置 | |
CN113240213B (zh) | 基于神经网络和树模型的人员甄选方法、装置及设备 | |
CN115099339A (zh) | 欺诈行为识别方法、装置、电子设备及存储介质 | |
CN115578113A (zh) | 潜在宽带目标用户识别方法、装置、设备及存储介质 | |
CN112199603B (zh) | 基于对抗网络的信息推送方法、装置及计算机设备 | |
CN113448954B (zh) | 业务数据执行方法、装置、电子设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |