CN116204567B - 用户挖掘及模型的训练方法、装置、电子设备和存储介质 - Google Patents

用户挖掘及模型的训练方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN116204567B
CN116204567B CN202310483889.2A CN202310483889A CN116204567B CN 116204567 B CN116204567 B CN 116204567B CN 202310483889 A CN202310483889 A CN 202310483889A CN 116204567 B CN116204567 B CN 116204567B
Authority
CN
China
Prior art keywords
user
users
sample
positive sample
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310483889.2A
Other languages
English (en)
Other versions
CN116204567A (zh
Inventor
郭雪茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Holding Co Ltd
Original Assignee
Jingdong Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Holding Co Ltd filed Critical Jingdong Technology Holding Co Ltd
Priority to CN202310483889.2A priority Critical patent/CN116204567B/zh
Publication of CN116204567A publication Critical patent/CN116204567A/zh
Application granted granted Critical
Publication of CN116204567B publication Critical patent/CN116204567B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开一种用户挖掘及模型的训练方法、装置、电子设备和存储介质,涉及大数据技术,用户挖掘模型的训练方法包括:将目标物品的类似物品的受众确定为伪正样本用户;基于伪正样本用户挖掘目标物品的受众,得到第一正样本用户;基于第一正样本用户继续挖掘目标物品的受众,得到第二正样本用户;基于第一正样本用户和第二正样本用户进行模型训练,得到用户挖掘模型,用户挖掘模型用于挖掘目标物品的待推荐用户。本发明在没有正样本时,通过类似物品的受众确定伪正样本用户,再基于伪正样本用户逐步挖掘积累正样本用户,以为模型训练提供足够的正样本,利用这些样本做模型训练,训练得到的模型可以精准挖掘用户,提升高潜用户挖掘效果。

Description

用户挖掘及模型的训练方法、装置、电子设备和存储介质
技术领域
本发明实施例涉及大数据技术,尤其涉及一种用户挖掘及模型的训练方法、装置、电子设备和存储介质。
背景技术
在拥有大数据的行业,比如零售电商、金融、通信等行业,精准推荐是一种常见且有效的经营方式。目前的技术中,一般是选取对应场景下的正负样本,采用机器学习算法基于样本进行模型训练,通过训练好的模型挖掘潜在用户做精准触达。
机器学习算法要想取得很好的成果,需要有足够的训练样本支撑。在实现本发明的过程中,发明人发现,很多应用场景下(比如新品推广、给用户匹配外部权益等),并没有足够的正样本甚至没有正样本,这种情况,将无法训练出挖掘效果精准的模型。
发明内容
本发明提供一种用户挖掘及模型的训练方法、装置、电子设备和存储介质,训练得到的模型可以精准挖掘用户,提升用户挖掘效果。
第一方面,本发明提供一种用户挖掘模型的训练方法,所述方法包括:
将目标物品的类似物品的受众确定为伪正样本用户;
基于所述伪正样本用户挖掘所述目标物品的受众,得到第一正样本用户;
基于所述第一正样本用户继续挖掘所述目标物品的受众,得到第二正样本用户;
基于所述第一正样本用户和所述第二正样本用户进行模型训练,得到用户挖掘模型,所述用户挖掘模型用于挖掘所述目标物品的待推荐用户。
第二方面,本发明提供一种用户挖掘方法,所述方法包括:
获取目标用户的原始特征;
将所述原始特征输入如本发明任一实施例所述的方法训练得到的所述用户挖掘模型进行用户挖掘,从而得到目标物品的待推荐用户。
第三方面,本发明提供一种用户挖掘模型的训练装置,包括:
伪正样本确定模块,用于将目标物品的类似物品的受众确定为伪正样本用户;
第一样本挖掘模块,用于基于所述伪正样本用户挖掘所述目标物品的受众,得到第一正样本用户;
第二样本挖掘模块,用于基于所述第一正样本用户继续挖掘所述目标物品的受众,得到第二正样本用户;
模型训练模块,用于基于所述第一正样本用户和所述第二正样本用户进行模型训练,得到用户挖掘模型,所述用户挖掘模型用于挖掘所述目标物品的待推荐用户。
第四方面,本发明提供一种用户挖掘装置,所述装置包括:
特征获取模块,用于获取目标用户的原始特征;
用户挖掘模块,用于将所述原始特征输入如本发明任一实施例所述的方法训练得到的所述用户挖掘模型进行用户挖掘,得到目标物品的待推荐用户。
第五方面,本发明提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明任一实施例所述的用户挖掘模型的训练方法,或者所述处理器执行所述程序时实现如本发明实施例所述的用户挖掘方法。
第六方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例所述的用户挖掘模型的训练方法,或者该程序被处理器执行时实现如本发明实施例所述的用户挖掘方法。
本发明实施例的方案,可以将目标物品的类似物品的受众确定为伪正样本用户;基于伪正样本用户挖掘目标物品的受众,得到第一正样本用户;基于第一正样本用户继续挖掘目标物品的受众,得到第二正样本用户;基于第一正样本用户和第二正样本用户进行模型训练,得到用户挖掘模型,用户挖掘模型用于挖掘目标物品的待推荐用户。即本发明在没有正样本时,通过类似物品的受众确定伪正样本用户,然后基于伪正样本用户逐步挖掘积累正样本用户,从而为模型训练提供足够的正样本,利用这些样本做模型训练,训练得到的模型可以精准挖掘用户,提升了高潜用户挖掘效果。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例提供的用户挖掘模型的训练方法的一个流程示意图;
图2是本发明实施例提供的挖掘第一正样本用户的方法的一个流程示意图;
图3是本发明实施例提供的挖掘第二正样本用户的方法的一个流程示意图;
图4是本发明实施例提供的圈选第二潜在用户的方法的一个流程示意图;
图5是本发明实施例提供的圈选第二潜在用户的方法的另一流程示意图;
图6是本发明实施例提供的用户挖掘模型的具体训练过程的一个示意图;
图7是本发明实施例提供的用户挖掘方法的一个流程示意图;
图8是本发明实施例提供的用户挖掘模型的训练装置的一个结构示意图;
图9是本发明实施例提供的用户挖掘装置的一个结构示意图;
图10是本发明实施例提供的电子设备的一个结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1是本发明实施例提供的用户挖掘模型的训练方法的一个流程示意图,该方法可以由本发明实施例提供的用户挖掘模型的训练装置来执行,该装置可采用软件和/或硬件的方式实现。在一个具体的实施例中,该装置可以集成在电子设备中,电子设备比如可以是计算机、服务器等。以下实施例将以该装置集成在电子设备中为例进行说明。参考图1,该训练方法具体可以包括如下步骤:
步骤10,将目标物品的类似物品的受众确定为伪正样本用户。
其中,目标物品可以是实体物品,也可以是虚拟物品;实体物品比如手机、家电、汽车等,虚拟物品可以是虚拟的数字产品、服务、业务等,例如虚拟物品可以是虚拟卡、电子会员、基金、证券等。由于各种原因(例如目标物品是首发的新品,目标物品的推广力度不够等),目标物品当前缺少或没有正样本用户,导致模型训练困难。
类似物品可以是与目标物品的特征、特质等相同或类似的物品,比如类似物品可以是与目标物品功能、类别等相同的物品。示例地,目标物品是某品牌即将发布的新款手机,类似物品可以是该品牌及其他品牌已经发布的手机;或者目标物品是某银行要推广的新信用卡,类似物品可以是市面上已存在的各种信用卡。类似物品已经积累有大量的受众,这些受众可以是已经购买、接受或使用过类似物品的用户,可以理解为类似物品的正样本用户。具体在本实施例中,由于目标物品缺乏正样本用户,为了对目标物品挖掘正样本用户,可以将类似物品的受众确定为目标物品的伪正样本用户。
步骤20,基于伪正样本用户挖掘目标物品的受众,得到第一正样本用户。
具体地,可以收集伪正样本用户的用户特征,对这些用户特征进行分析,从而得到用户挖掘规则或条件,基于用户挖掘规则或条件从预设用户群中圈选出一部分用户,向圈选出的这些用户推荐目标物品,将这些用户中接受了目标物品的推荐的用户确定为第一正样本用户,第一正样本用户可以理解为模型训练的冷启动阶段为目标物品积累的种子用户。其中,预设用户群可视实际情况而定;比如,在零售电商领域,预设用户群可以是各相关平台的注册用户、访问用户中的部分或全部构成的用户群体;在金融领域,预设用户群可以是大盘用户中的部分或全部构成的用户群体。用户特征可以是用户在多个维度的特征构成的特征集合,用户特征可以从用户在平台的注册信息、操作信息等收集,示例地,该用户特征可以包括但不限于用户画像信息、用户消费信息等。
步骤30,基于第一正样本用户继续挖掘目标物品的受众,得到第二正样本用户。
具体地,可以获取第一正样本用户的用户特征,基于第一正样本用户的用户特征从候选用户群中挖掘出与第一正样本用户特征相似的用户,向挖掘出的这些用户推荐目标物品,将这些用户中接受了目标物品的推荐的用户确定为第二正样本用户,第二正样本用户可以理解为模型训练的成长阶段为目标物品积累的种子用户。其中,候选用户群可以是预设用户群中除第一正样本用户之外的用户构成的用户群体。
步骤40,基于第一正样本用户和第二正样本用户进行模型训练,得到用户挖掘模型,用户挖掘模型用于挖掘目标物品的待推荐用户。
即第一正样本和第二正样本均是为目标物品积累的种子用户,可以在种子用户的积累达到设定条件时,开始模型训练过程。比如,可以在种子用户的积累数量达到预设数量时,开始模型训练过程;或者由于种子用户的不断积累扩散,用户转化率(指定群体中非种子用户转化为种子用户的概率)会逐渐降低,可以在用户转化率降低至预设阈值时,开始模型训练过程。
在进行模型训练时,可以先创建训练样本集,训练样本集中可以包括大量的训练样本用户,这些训练样本用户包括正样本用户和负样本用户;正样本用户即可以是前面两个阶段为目标物品积累的种子用户,负样本用户可以是预设用户群中除这些种子用户之外的用户;根据实际情况为这些训练样本用户打上样本标签,样本标签可以数值化,比如可以将正样本标记为1,将负样本标记为0,当然,反之亦可;最后可以基于打了样本标签的训练样本集进行模型训练,从而得到用户挖掘模型。
本实施例的方案中,可以将目标物品的类似物品的受众确定为伪正样本用户;基于伪正样本用户挖掘目标物品的受众,得到第一正样本用户;基于第一正样本用户继续挖掘目标物品的受众,得到第二正样本用户;基于第一正样本用户和第二正样本用户进行模型训练,得到用户挖掘模型,用户挖掘模型用于挖掘目标物品的待推荐用户。即本发明在没有正样本时,通过类似物品的受众确定伪正样本用户,然后基于伪正样本用户逐步挖掘积累正样本用户,从而为模型训练提供足够的正样本,利用这些样本做模型训练,训练得到的模型可以精准挖掘用户,提升了高潜用户挖掘效果。
下面详细介绍挖掘第一正样本用户的过程,如图2所示,即图1中的步骤20可以包括如下步骤:
步骤201,获取目标物品的特征标签。
具体地,可以从目标物品的功能、属性、特征等出发,为目标物品选取特征标签,所选取的特征标签可以包括一个或多个。比如,目标物品是某银行推出的新信用卡,则可以从新信用卡的消费、理财、取现等功能,以及新信用卡的权益优惠出发,为新信用卡选取特征标签。示例地,新信用卡的权益优惠是2年X网站会员、100元无门槛红包,则为新信用卡选取的特征标签可以包括取现、贷款、财富产品、电子红包敏感度、X网站会员距离过期时间等。
步骤202,确定与特征标签匹配的用户,得到标签匹配用户。
具体地,可以预先为预设用户群中的每个用户建立用户画像,用户画像由多个用户标签构成,可以根据用户标签从预设用户群中选取与目标物品的特征标签匹配的用户,得到标签匹配用户。比如,可以选取用户标签与特征标签相同或对应的用户,从而得到标签匹配用户。
步骤203,为标签匹配用户打样本标签。
标签匹配用户中可能有类似物品的正样本用户(即伪正样本用户),还有类似物品的负样本用户(即不是伪正样本用户),可以据此为标签匹配用户打样本标签。比如,可以为标签匹配用户中是伪正样本用户的用户打上正样本的标签,为标签匹配用户中不是伪正样本用户的用户打上负样本的标签。示例地,目标物品是新信用卡,目标物品的特征标签是X网站会员距离过期时间,则标签匹配用户可以是开通了X网站会员的用户,开通了X网站会员的用户中,有些用户开过信用卡,有些用户没有开过信用卡,则可以将开通了X网站会员的用户中开过信用卡的用户打上正样本的标签,为开通了X网站会员的用户中没有开过信用卡的用户打上负样本的标签。
步骤204,根据标签匹配用户的样本标签,确定特征标签在不同取值时的用户分布。
可以统计特征标签在不同取值时正样本数据和负样本数量,从而得到用户分布。特征标签的取值,可以用某一个具体值(比如性别这个特征标签,取值包括男和女,男可以用1表示,女可以用0表示)表示,也可以用一个取值区间(比如借贷额度这个特征标签,取值可以包括不同的额度区间)表示。
步骤205,根据特征标签在不同取值时的用户分布,计算特征标签在不同取值时的用户转化贡献度。
用户转化贡献度可以表示特征标签在某个取值时,对潜在用户转化为正样本用户的贡献程度。具体地,可以确定特征标签在不同取值时的用户分布差异,用户分布差异越大,在对应取值时的用户转化贡献度越高。比如,特征标签是X网站会员距离过期时间,可以统计X网站会员在不同过期时段内的正样本数量和负样本数量,据此计算每个过期时段内的正样本转化率和负样本转化率:
正样本转化率=该过期时段内的正样本数量/该过期时段内样本总数量;
负样本转化率=该过期时段内的负样本数量/该过期时段内样本总数量;
将正样本转化率和负样本转化率的差值作为特征标签在该过期时段的用户转化贡献度,差异越大,用户转化贡献度越大。
步骤206,确定用户转化贡献度最大时特征标签的取值,得到最优标签值。
步骤207,从预设用户群中圈选出与最优标签值匹配的用户,得到第一潜在用户。
第一潜在用户可以包括一个或多个用户,最优标签值可以是一个具体的值,也可以是一个取值区间。由于目标物品的特征标签可能有一个或多个,当目标物品的特征标签有多个时,每个特征标签都有一个最优标签值,在圈选用户时,可以按照单个最优标签值(与这一个最优标签值匹配)圈选用户,也可以按照多个最优标签值组合(与多个最优标签值均匹配)的方式圈选用户,此处不做具体限定。
示例地,目标物品的特征标签的最优标签值是X网站会员距离过期时间在3个月内,则可以从预设用户群中圈选出X网站会员距离过期时间在3个月内的用户,从而得到第一潜在用户。
步骤208,向第一潜在用户推荐目标物品,得到第一推荐结果。
步骤209,根据第一推荐结果从第一潜在用户中确定出第一正样本用户。
第一推荐结果可以包括接受推荐或不接受推荐,可以将接受推荐的第一潜在用户确定为第一正样本用户。示例地,当目标物品是新信用卡时,可以将第一潜在用户中申请办理新信用卡的用户确定为第一正样本用户。此后,还可以记录第一正样本用户申请办理新信用卡的结果,申请结果可以包括审核通过或审核拒绝,记录的申请结果可以用于后续进一步做用户挖掘使用。
本实施例中,基于伪正样本用户计算目标物品的特征标签在不同取值时的用户转化贡献度,根据特征标签在不同取值时的用户转化贡献度找到合适的样本圈选条件,根据样本圈选条件可以从潜在用户中精准挖掘出正样本用户,为模型训练提供了有效的训练数据。
下面详细介绍挖掘第二正样本用户的过程,如图3所示,即图1中的步骤30可以包括如下步骤:
步骤301,基于第一正样本用户从候选用户中圈选出第二潜在用户,候选用户为预设用户群中除第一正样本用户之外的用户。
具体实现中,可以根据特征进行用户相似度计算,从而从候选用户中圈选出第二潜在用户;还可以根据用户特征对候选用户打分,从而从候选用户中圈选出第二潜在用户。
示例地,第二潜在用户的一种圈选方式可如图4所示,可以包括如下步骤:
步骤3011,根据第一正样本用户的原始特征和候选用户的原始特征,确定与候选用户相似的第一正样本用户。
示例地,样本用户的原始特征可以是样本用户在多个维度的特征构成的特征集合,该原始特征可以是根据平台数据直接确定的特征,比如可以包括用户基本信息、用户消费记录等。在基于原始特征确定与候选用户相似的第一正样本用户时,可以采用余弦相似算法、欧式距离算法等。
示例地,采用余弦相似算法确定与候选用户相似的第一正样本用户时,可以如下:
(1)将第一正样本用户的原始特征的值进行标准化,比如标准化到0~1之间;
(2)将候选用户的原始特征的值进行标准化,比如标准化到0~1之间;
(3)根据标准化之后得到的第一正样本用户的原始特征值和候选用户的原始特征值,计算每个第一正样本用户与每个候选用户之间的余弦相似度;
(4)对余弦相似度进行分析确定每个第一正样本用户与每个候选用户是否相似;比如若两个用户之间的余弦相似度超过预设相似度值,则二者相似,否则二者不相似。
示例地,采用欧式距离算法确定与候选用户相似的第一正样本用户时,可以如下:
(1)将第一正样本用户的原始特征(可以选信息增益大于0的特征)的值进行标准化,比如转换为“(值-均值)/标准差”;
(2)将候选用户的原始特征(可以选信息增益大于0的特征)的值进行标准化,比如转换为“(值-均值)/标准差”;
(3)根据标准化之后得到的第一正样本用户的原始特征值和候选用户的原始特征值,计算每个第一正样本用户与每个候选用户之间的欧式距离;
(4)对欧式距离进行分析确定每个第一正样本用户与每个候选用户是否相似;比如两个用户之间的欧式距离超过预设距离值,则二者相似,否则二者不相似。
步骤3012,根据与候选用户相似的第一正样本用户,确定候选用户的衍生特征。
具体地,可以根据与候选用户相似的第一正样本用户的数量、用户之间的欧式距离、用户之间的余弦相似度等,确定每个候选用户的衍生特征。示例地每个候选用户的衍生特征可以包括:与该候选用户相似的第一正样本用户的数量,与该候选用户相似的第一正样本用户占比,与该候选用户相似的审核通过的第一正样本用户的数量,与该候选用户相似的审核通过的第一正样本用户占比,与该候选用户相似的审核拒绝的第一正样本用户的数量,与该候选用户相似的审核拒绝的第一正样本用户占比,该候选用户与所有第一正样本用户的平均相似度得分,该候选用户与第一正样本用户的最大相似度得分,该候选用户与第一正样本用户的最小相似度得分等。
步骤3013,将衍生特征满足预设圈选条件的候选用户确定为第二潜在用户;或者将衍生特征输入分类预测模型对候选用户进行分类预测,得到候选用户的分类预测结果,根据候选用户的分类预测结果从候选用户中圈选出第二潜在用户。
预设圈选条件可视实际情况设置,示例地,预设圈选条件可以是:圈选与之相似的第一正样本用户占比>A的候选用户,圈选与之相似的审核通过的第一正样本用户占比>B的候选用户。分类预测模型可以预先训练得到,分类预测模型用于基于用户的衍生特征对用户进行分类预测,分类预测结果表示用户接受目标物品的概率或可能性,可以从候选用户中圈选出接受目标物品的概率或可能性较大(超过某个值)的用户,得到第二潜在用户。
示例地,第二潜在用户的另一种圈选方式可如图5所示,可以包括如下步骤:
步骤3014,分别为第一正样本用户和候选用户打样本标签。
其中,为第一正样本用户打的样本标签可以为正样本,为候选用户打的样本标签可以为负样本。
步骤3015,根据第一正样本用户的样本标签和候选用户的样本标签,确定第一预设分类条件下的用户分布。
具体地,可以将第一正样本用户和候选用户的原始特征的值标准化,比如标准化到0~1之间,然后再将标准化的原始特征值转化为所在的百分位值,以便于后续确定用户分布。第一预设分类条件可以是根据用户的原始特征及特征值设置的对样本用户(由第一正样本用户和候选用户构成)进行分类的条件,所确定的用户分布比如:样本用户中的正、负样本数量,样本用户在某个原始特征下的正、负样本数量,样本用户在某个原始特征的当前取值下的正、负样本占比等。
步骤3016,根据第一预设分类条件下的用户分布计算候选用户的每个原始特征在当前特征值的信息增益和用户转化贡献度。
示例地,每个原始特征在当前特征值的信息增益可以根据整体信息熵和当前特征值的信息熵确定,比如:每个原始特征在当前特征值的信息增益=整体信息熵-当前特征值的信息熵。每个原始特征在当前特征值的用户转化贡献度可根据样本占比确定,比如:每个原始特征在当前特征值的用户转化贡献度=(该原始特征在当前特征值下正样本占比/负样本占比)-(全体正样本占比/全体负样本占比)-1。
步骤3017,将每个原始特征在当前特征值的信息增益和用户转化贡献度相乘,得到对应原始特征的特征得分。
步骤3018,根据候选用户的每个原始特征的特征得分确定候选用户的意向得分。
示例地,可以将候选用户的各个原始特征的特征得分求和,从而得到对应候选用户的意向得分。意向得分用于衡量候选用户接受目标物品的意向程度,意向得分越高,对应的候选用户接受目标物品的意向程度越高,越可能成为目标物品的受众或种子用户。
步骤3019,根据候选用户的意向得分从候选用户中圈选出第二潜在用户。
比如,可以设置得分阈值,将候选用户中意向得分超过得分阈值的用户圈选出来作为第二潜在用户。得分阈值可视实际需求设定,得分阈值设置的越高,圈选出的第二潜在用户质量越好,但随之圈选出的数量可能越少。
步骤302,向第二潜在用户推荐目标物品,得到第二推荐结果。
步骤303,根据第二推荐结果从第二潜在用户中确定出第二正样本用户。
第二推荐结果可以包括接受推荐或不接受推荐,可以将接受推荐的第二潜在用户确定为第二正样本用户。示例地,当目标物品是新信用卡时,可以将第二潜在用户中申请办理新信用卡的用户确定为第二正样本用户。此后,还可以记录第二正样本用户申请办理新信用卡的结果,申请结果可以包括审核通过或审核拒绝,记录的申请结果可以用于后续进一步做用户挖掘使用。
本实施例中,采用余弦相似、欧式距离、信息增益等算法挖掘第二正样本用户,可以从潜在用户中精准挖掘出正样本用户,为模型训练提供了有效的训练数据。
下面介绍用户挖掘模型的训练过程,如图6所示,即图1中的步骤40可以包括如下步骤:
步骤401,创建训练样本集。
训练样本集中的训练样本用户包括正样本用户和负样本用户,正样本用户包括第一正样本用户和第二正样本用户,即正样本用户是前面为目标物品积累的所有种子用户,负样本用户可以是预设用户群中除第一正样本用户和第二正样本用户之外的用户,可以为正样本用户打上正样本的样本标签,为负样本用户打上负样本的样本标签。
步骤402,将每个训练样本用户的原始特征分别输入多个预设分类模型进行分类预测,得到每个训练样本用户的多个分类预测结果。
预设分类模型可以是机器学习模型,比如逻辑回归模型、神经网络模型、支持向量机模型、提升树模型等。多个预设分类模型的类型可以相同,也可以不同,此处不做具体限定。即分别利用每个预设分类模型对每个训练样本用户进行一次分类预测,在一轮训练中,针对每个训练样本用户会得到多个分类预测结果,这里的分类预测结果可以表示训练过程中模型预测得到的、当前用户是目标物品的种子用户的概率。
步骤403,将每个训练样本用户的多个分类预测结果对应作为每个训练样本用户的多个中间特征。
即每个训练样本用户的中间特征的数量,与预设分类模型的数量相同。比如有三个预设分类模型,针对某个训练样本用户,预设分类模型1的分类预测结果是0.8,预设分类模型2的分类预测结果是0.75,预设分类模型3的分类预测结果是0.9,则该训练样本用户的中间特征及值可以表示为(模型1,0.8),(模型2,0.72),(模型3,0.9)。
步骤404,根据每个训练样本用户的样本标签确定第二预设分类条件下的用户分布。
具体地,可以将每个训练样本用户的中间特征值转化为所在的百分位值,以便于后续确定用户分布。第二预设分类条件可以是根据训练样本用户的中间特征及特征值设置的对训练样本用户(训练样本集中的用户)进行分类的条件。所确定的用户分布比如:训练样本用户中的正、负样本数量,训练样本用户在某个中间特征的当前取值下的正、负样本占比等。
步骤405,根据第二预设分类条件下的用户分布,计算每个训练样本用户的每个中间特征在当前特征值的信息增益和用户转化贡献度。
示例地,每个中间特征在当前特征值的信息增益可以根据整体信息熵和当前特征值的信息熵确定,比如:每个中间特征在当前特征值的信息增益=整体信息熵-当前特征值的信息熵。每个中间特征在当前特征值的用户转化贡献度可根据样本占比确定,比如:每个中间特征在当前特征值的用户转化贡献度=(该中间特征在当前特征值下正样本占比/负样本占比)-(全体正样本占比/全体负样本占比)-1。
步骤406,将每个中间特征在当前特征值的信息增益和用户转化贡献度相乘,得到对应中间特征的特征得分。
步骤407,根据每个训练样本用户的每个中间特征的特征得分确定每个训练样本用户的训练分类结果。
训练分类结果可以包括训练样本用户是目标物品的种子用户(对应正样本),或训练样本用户不是目标物品的种子用户(对应负样本)。比如,可以将每个训练样本用户的多个中间特征的特征得分求和,从而得到对应训练样本用户的得分,若该得分超过预设分值,则确定该训练样本用户是目标物品的种子用户,否则,确定该训练样本用户不是目标物品的种子用户。示例地,某训练样本用户的中间特征及值表示为(模型1,0.8),(模型2,0.72),(模型3,0.9);(模型1,0.8)这个特征的得分为30分,(模型2,0.72)这个特征的得分为20分、(模型3,0.9)这个特征的得分为40分,则该训练样本用户的得分为30+20+40=90分,预设分值是80分,则模型训练过程中的训练分类结果是:该训练样本用户是种子用户。
步骤408,根据每个训练样本用户的训练分类结果和每个训练样本用户的样本标签确定训练损失函数的函数值。
步骤409,基于训练损失函数的函数值优化多个预设分类模型的模型参数,得到用户挖掘模型。
示例地,可以在训练达到某个截至条件时,停止训练,将最后一轮更新后的多个分类模型作为用户挖掘模型。截至条件比如训练轮数达到预设轮数,训练损失函数的函数值低于某个值等。
本实施例采用多个分类模型参与训练,将多个分类模型的训练输出作为样本的中间特征,将信息增益算法应用于模型训练过程,可以提高训练得到的模型挖掘用户的精准度。实际应用中,还可以将信息增益算法替换为其他算法,比如替换成多个模型投票、取均值等算法。
下面介绍利用本发明实施例训练得到的用户挖掘模型挖掘用户的过程,如图7所示,具体可以包括如下步骤:
步骤501,获取目标用户的原始特征。
目标用户可以是任意的一个或多个用户,目标用户的原始特征可与模型训练过程中所取的样本用户的原始特征相同,即可以包括基本信息、画像信息、消费信息等。
步骤502,将原始特征输入用户挖掘模型进行用户挖掘,从而得到目标物品的待推荐用户。
其中,用户挖掘模型可基于前面实施例提供的训练方法训练得到,具体训练过程可参阅前面实施例,此处不再赘述。示例地,将原始特征输入用户挖掘模型之后,模型输出可以是该用户是目标物品的待推荐用户的概率,也可以是该用户是否为目标物品的待推荐用户的结果(比如是或否)。当用户挖掘模型由多个模型组成时,可以将多个模型的输出结果融合(比如投票、取均值等),从而确定目标物品的待推荐用户。
在确定目标物品的待推荐用户后,可以向待推荐用户推荐目标物品,并记录推荐结果,推荐结果可以反馈用于模型训练,通过不断反馈更新正样本,进一步提高模型的挖掘效果。
本发明的用户挖掘模型基于前面实施例提供的训练方法训练得到,模型训练有足够的正样本,因而在采用该用户挖掘模型挖掘用户时,可以精准挖掘出目标物品的待推荐用户,提高了用户转化率。
图8是本发明提供的用户挖掘模型的训练装置的一个结构示意图,该装置适用于执行本发明提供的用户挖掘模型的训练方法,如图8所示,该装置具体可以包括:
伪正样本确定模块601,用于将目标物品的类似物品的受众确定为伪正样本用户;
第一样本挖掘模块602,用于基于所述伪正样本用户挖掘所述目标物品的受众,得到第一正样本用户;
第二样本挖掘模块603,用于基于所述第一正样本用户继续挖掘所述目标物品的受众,得到第二正样本用户;
模型训练模块604,用于基于所述第一正样本用户和所述第二正样本用户进行模型训练,得到用户挖掘模型,所述用户挖掘模型用于挖掘所述目标物品的待推荐用户。
一实施例中,第一样本挖掘模块602具体用于:
根据所述伪正样本用户从预设用户群中圈选出第一潜在用户;
向所述第一潜在用户推荐所述目标物品,得到第一推荐结果;
根据所述第一推荐结果从所述第一潜在用户中确定出所述第一正样本用户。
一实施例中,第一样本挖掘模块602根据所述伪正样本用户从预设用户群中圈选出第一潜在用户,包括:
获取所述目标物品的特征标签;
根据所述伪正样本用户计算所述特征标签在不同取值时的用户转化贡献度;
确定所述用户转化贡献度最大时所述特征标签的取值,得到最优标签值;
从所述预设用户群中圈选出与所述最优标签值匹配的用户,得到所述第一潜在用户。
一实施例中,第一样本挖掘模块602根据所述伪正样本用户计算所述特征标签在不同取值时的用户转化贡献度,包括:
确定与所述特征标签匹配的用户,得到标签匹配用户;
为所述标签匹配用户打样本标签,其中,为所述标签匹配用户中的所述伪正样本用户打的样本标签为正样本,为所述标签匹配用户中除所述伪正样本用户之外的用户打的样本标签为负样本;
根据所述标签匹配用户的样本标签,确定所述特征标签在不同取值时的用户分布;
根据所述特征标签在不同取值时的用户分布,计算所述特征标签在不同取值时的用户转化贡献度。
一实施例中,第二样本挖掘模块603具体用于:
基于所述第一正样本用户从候选用户中圈选出第二潜在用户,所述候选用户为所述预设用户群中除所述第一正样本用户之外的用户;
向所述第二潜在用户推荐所述目标物品,得到第二推荐结果;
根据所述第二推荐结果从所述第二潜在用户中确定出所述第二正样本用户。
一实施例中,第二样本挖掘模块603基于所述第一正样本用户从候选用户中圈选出第二潜在用户,包括:
根据所述第一正样本用户的原始特征和所述候选用户的原始特征,确定与所述候选用户相似的所述第一正样本用户;
根据与所述候选用户相似的所述第一正样本用户,确定所述候选用户的衍生特征;
根据所述候选用户的衍生特征从所述候选用户中圈选出所述第二潜在用户。
一实施例中,第二样本挖掘模块603根据所述候选用户的衍生特征从所述候选用户中圈选出所述第二潜在用户,包括:
将衍生特征满足预设圈选条件的所述候选用户确定为所述第二潜在用户;或者
将所述衍生特征输入分类预测模型对所述候选用户进行分类预测,得到所述候选用户的分类预测结果,根据所述候选用户的分类预测结果从所述候选用户中圈选出所述第二潜在用户。
一实施例中,第二样本挖掘模块603基于所述第一正样本用户从候选用户中圈选出第二潜在用户,包括:
分别为所述第一正样本用户和所述候选用户打样本标签,其中,为所述第一正样本用户打的样本标签为正样本,为所述候选用户打的样本标签为负样本;
根据所述第一正样本用户的样本标签和所述候选用户的样本标签为所述候选用户打分,得到所述候选用户的意向得分,所述意向得分用于衡量所述候选用户接受所述目标物品的意向程度;
根据所述候选用户的意向得分从所述候选用户中圈选出所述第二潜在用户。
一实施例中,第二样本挖掘模块603根据所述第一正样本用户的样本标签和所述候选用户的样本标签为所述候选用户打分,得到所述候选用户的意向得分,包括:
根据所述第一正样本用户的样本标签和所述候选用户的样本标签,计算所述候选用户的每个原始特征的特征得分;
根据所述候选用户的每个原始特征的特征得分确定所述候选用户的意向得分。
一实施例中,第二样本挖掘模块603根据所述第一正样本用户的样本标签和所述候选用户的样本标签,计算所述候选用户的每个原始特征的特征得分,包括:
根据所述第一正样本用户的样本标签和所述候选用户的样本标签,确定第一预设分类条件下的用户分布;
根据所述第一预设分类条件下的用户分布计算所述候选用户的每个原始特征在当前特征值的信息增益和用户转化贡献度;
将所述每个原始特征在当前特征值的信息增益和用户转化贡献度相乘,得到对应原始特征的特征得分。
一实施例中,模型训练模块604具体用于:
创建训练样本集,所述训练样本集中的训练样本用户包括正样本用户和负样本用户,所述正样本用户包括所述第一正样本用户和所述第二正样本用户;
基于所述训练样本集对多个预设分类模型进行训练,得到所述用户挖掘模型。
一实施例中,模型训练模块604基于所述训练样本集对多个预设分类模型进行训练,得到所述用户挖掘模型,包括:
将每个所述训练样本用户的原始特征分别输入所述多个预设分类模型进行分类预测,得到每个所述训练样本用户的多个分类预测结果;
融合每个所述训练样本用户的多个分类预测结果,得到每个所述训练样本用户的训练分类结果;
根据每个所述训练样本用户的训练分类结果和每个所述训练样本用户的样本标签确定训练损失函数的函数值;
基于所述训练损失函数的函数值优化所述多个预设分类模型的模型参数,得到所述用户挖掘模型。
一实施例中,模型训练模块604融合每个所述训练样本用户的多个分类预测结果,得到每个所述训练样本用户的训练分类结果,包括:
将每个所述训练样本用户的多个分类预测结果对应作为每个所述训练样本用户的多个中间特征;
根据每个所述训练样本用户的样本标签,计算每个所述训练样本用户的每个中间特征的特征得分;
根据每个所述训练样本用户的每个中间特征的特征得分确定每个所述训练样本用户的训练分类结果。
一实施例中,模型训练模块604根据每个所述训练样本用户的样本标签,计算每个所述训练样本用户的每个中间特征的特征得分,包括:
根据每个所述训练样本用户的样本标签确定第二预设分类条件下的用户分布;
根据所述第二预设分类条件下的用户分布,计算每个所述训练样本用户的每个中间特征在当前特征值的信息增益和用户转化贡献度;
将所述每个中间特征在当前特征值的信息增益和用户转化贡献度相乘,得到对应中间特征的特征得分。
本领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述功能模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例的装置,可以将目标物品的类似物品的受众确定为伪正样本用户;基于伪正样本用户挖掘目标物品的受众,得到第一正样本用户;基于第一正样本用户继续挖掘目标物品的受众,得到第二正样本用户;基于第一正样本用户和第二正样本用户进行模型训练,得到用户挖掘模型,用户挖掘模型用于挖掘目标物品的待推荐用户。即本发明在没有正样本时,通过类似物品的受众确定伪正样本用户,然后基于伪正样本用户逐步挖掘积累正样本用户,从而为模型训练提供足够的正样本,利用这些样本做模型训练,训练得到的模型可以精准挖掘用户,提升了高潜用户挖掘效果。
图9是本发明实施例提供的用户挖掘装置的一个结构示意图,该装置适用于执行本发明实施例提供的用户挖掘方法,如图9所示,该装置具体可以包括:
特征获取模块701,用于获取目标用户的原始特征;
用户挖掘模块702,用于将所述原始特征输入如本发明任一实施例所述的方法训练得到的所述用户挖掘模型进行用户挖掘,得到目标物品的待推荐用户。
本发明实施例的装置,所采用的用户挖掘模型基于前面实施例提供的训练方法训练得到,模型训练有足够的正样本,因而在采用该用户挖掘模型挖掘用户时,可以精准挖掘出目标物品的待推荐用户,提高了用户转化率。
本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述任一实施例提供的用户挖掘模型的训练方法;或者处理器执行程序时实现上述任一实施例提供的用户挖掘方法。
本发明实施例还提供了一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现上述任一实施例提供的用户挖掘模型的训练方法;或者,程序被处理器执行时实现上述任一实施例提供的用户挖掘方法。
下面参考图10,其示出了适于用来实现本发明实施例的电子设备的计算机系统800的结构示意图。图10示出的电子设备仅仅是一个示例,不应对本发明的功能和使用范围带来任何限制。
如图10所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有计算机系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明中所涉及到的模块和/或单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块和/或单元也可以设置在处理器中,例如,可以描述为:一种处理器包括伪正样本确定模块、第一样本挖掘模块、第二样本挖掘模块和模型训练模块。或者,可以描述为:一种处理器包括特征获取模块和用户挖掘模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
将目标物品的类似物品的受众确定为伪正样本用户;基于所述伪正样本用户挖掘所述目标物品的受众,得到第一正样本用户;基于所述第一正样本用户继续挖掘所述目标物品的受众,得到第二正样本用户;基于所述第一正样本用户和所述第二正样本用户进行模型训练,得到用户挖掘模型,所述用户挖掘模型用于挖掘所述目标物品的待推荐用户。
或者,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
获取目标用户的原始特征;将所述原始特征输入如本发明任一实施例所述的方法训练得到的所述用户挖掘模型进行用户挖掘,从而得到目标物品的待推荐用户。
根据本发明的技术方案,将目标物品的类似物品的受众确定为伪正样本用户;基于伪正样本用户挖掘目标物品的受众,得到第一正样本用户;基于第一正样本用户继续挖掘目标物品的受众,得到第二正样本用户;基于第一正样本用户和第二正样本用户进行模型训练,得到用户挖掘模型,用户挖掘模型用于挖掘目标物品的待推荐用户。即本发明在没有正样本时,通过类似物品的受众确定伪正样本用户,然后基于伪正样本用户逐步挖掘积累正样本用户,从而为模型训练提供足够的正样本,利用这些样本做模型训练,训练得到的模型可以精准挖掘用户,提升了高潜用户挖掘效果。
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的采集、收集、更新、分析、处理、使用、传输、存储等方面,均符合相关法律法规的规定,被用于合法的用途,且不违背公序良俗。对用户个人信息采取必要措施,防止对用户个人信息数据的非法访问,维护用户个人信息安全、网络安全和国家安全。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (19)

1.一种用户挖掘模型的训练方法,其特征在于,包括:
将目标物品的类似物品的受众确定为伪正样本用户;
基于所述伪正样本用户挖掘所述目标物品的受众,得到第一正样本用户,包括:基于所述伪正样本用户计算所述目标物品的特征标签在不同取值时的用户转化贡献度,根据所述特征标签在不同取值时的用户转化贡献度从第一潜在用户中挖掘所述第一正样本用户;所述用户转化贡献度的计算方法包括:确定与所述特征标签匹配的用户,得到标签匹配用户,为所述标签匹配用户打样本标签,根据所述标签匹配用户的样本标签确定所述特征标签在不同取值时的用户分布;根据所述特征标签在不同取值时的用户分布,计算所述特征标签在不同取值时的用户转化贡献度;
基于所述第一正样本用户继续挖掘所述目标物品的受众,得到第二正样本用户;
基于所述第一正样本用户和所述第二正样本用户进行模型训练,得到用户挖掘模型,所述用户挖掘模型用于挖掘所述目标物品的待推荐用户。
2.根据权利要求1所述的方法,其特征在于,所述根据所述特征标签在不同取值时的用户转化贡献度从第一潜在用户中挖掘所述第一正样本用户,包括:
根据所述特征标签在不同取值时的用户转化贡献度从预设用户群中圈选出所述第一潜在用户;
向所述第一潜在用户推荐所述目标物品,得到第一推荐结果;
根据所述第一推荐结果从所述第一潜在用户中确定出所述第一正样本用户。
3.根据权利要求2所述的方法,其特征在于,所述根据所述特征标签在不同取值时的用户转化贡献度从预设用户群中圈选出所述第一潜在用户,包括:
确定所述用户转化贡献度最大时所述特征标签的取值,得到最优标签值;
从所述预设用户群中圈选出与所述最优标签值匹配的用户,得到所述第一潜在用户。
4.根据权利要求3所述的方法,其特征在于,所述为所述标签匹配用户打样本标签,包括:
为所述标签匹配用户中的所述伪正样本用户打的样本标签为正样本,为所述标签匹配用户中除所述伪正样本用户之外的用户打的样本标签为负样本。
5.根据权利要求2至4任一项所述的方法,其特征在于,所述基于所述第一正样本用户继续挖掘所述目标物品的受众,得到第二正样本用户,包括:
基于所述第一正样本用户从候选用户中圈选出第二潜在用户,所述候选用户为所述预设用户群中除所述第一正样本用户之外的用户;
向所述第二潜在用户推荐所述目标物品,得到第二推荐结果;
根据所述第二推荐结果从所述第二潜在用户中确定出所述第二正样本用户。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第一正样本用户从候选用户中圈选出第二潜在用户,包括:
根据所述第一正样本用户的原始特征和所述候选用户的原始特征,确定与所述候选用户相似的所述第一正样本用户;
根据与所述候选用户相似的所述第一正样本用户,确定所述候选用户的衍生特征;
根据所述候选用户的衍生特征从所述候选用户中圈选出所述第二潜在用户。
7.根据权利要求6所述的方法,其特征在于,所述根据所述候选用户的衍生特征从所述候选用户中圈选出所述第二潜在用户,包括:
将衍生特征满足预设圈选条件的所述候选用户确定为所述第二潜在用户;或者
将所述衍生特征输入分类预测模型对所述候选用户进行分类预测,得到所述候选用户的分类预测结果,根据所述候选用户的分类预测结果从所述候选用户中圈选出所述第二潜在用户。
8.根据权利要求5所述的方法,其特征在于,所述基于所述第一正样本用户从候选用户中圈选出第二潜在用户,包括:
分别为所述第一正样本用户和所述候选用户打样本标签,其中,为所述第一正样本用户打的样本标签为正样本,为所述候选用户打的样本标签为负样本;
根据所述第一正样本用户的样本标签和所述候选用户的样本标签为所述候选用户打分,得到所述候选用户的意向得分,所述意向得分用于衡量所述候选用户接受所述目标物品的意向程度;
根据所述候选用户的意向得分从所述候选用户中圈选出所述第二潜在用户。
9.根据权利要求8所述的方法,其特征在于,所述根据所述第一正样本用户的样本标签和所述候选用户的样本标签为所述候选用户打分,得到所述候选用户的意向得分,包括:
根据所述第一正样本用户的样本标签和所述候选用户的样本标签,计算所述候选用户的每个原始特征的特征得分;
根据所述候选用户的每个原始特征的特征得分确定所述候选用户的意向得分。
10.根据权利要求9所述的方法,其特征在于,所述根据所述第一正样本用户的样本标签和所述候选用户的样本标签,计算所述候选用户的每个原始特征的特征得分,包括:
根据所述第一正样本用户的样本标签和所述候选用户的样本标签,确定第一预设分类条件下的用户分布;
根据所述第一预设分类条件下的用户分布计算所述候选用户的每个原始特征在当前特征值的信息增益和用户转化贡献度;
将所述每个原始特征在当前特征值的信息增益和用户转化贡献度相乘,得到对应原始特征的特征得分。
11.根据权利要求1所述的方法,其特征在于,所述基于所述第一正样本用户和所述第二正样本用户进行模型训练,得到用于对所述目标物品的受众进行挖掘的用户挖掘模型,包括:
创建训练样本集,所述训练样本集中的训练样本用户包括正样本用户和负样本用户,所述正样本用户包括所述第一正样本用户和所述第二正样本用户;
基于所述训练样本集对多个预设分类模型进行训练,得到所述用户挖掘模型。
12.根据权利要求11所述的方法,其特征在于,所述基于所述训练样本集对多个预设分类模型进行训练,得到所述用户挖掘模型,包括:
将每个所述训练样本用户的原始特征分别输入所述多个预设分类模型进行分类预测,得到每个所述训练样本用户的多个分类预测结果;
融合每个所述训练样本用户的多个分类预测结果,得到每个所述训练样本用户的训练分类结果;
根据每个所述训练样本用户的训练分类结果和每个所述训练样本用户的样本标签确定训练损失函数的函数值;
基于所述训练损失函数的函数值优化所述多个预设分类模型的模型参数,得到所述用户挖掘模型。
13.根据权利要求12所述的方法,其特征在于,所述融合每个所述训练样本用户的多个分类预测结果,得到每个所述训练样本用户的训练分类结果,包括:
将每个所述训练样本用户的多个分类预测结果对应作为每个所述训练样本用户的多个中间特征;
根据每个所述训练样本用户的样本标签,计算每个所述训练样本用户的每个中间特征的特征得分;
根据每个所述训练样本用户的每个中间特征的特征得分确定每个所述训练样本用户的训练分类结果。
14.根据权利要求13所述的方法,其特征在于,所述根据每个所述训练样本用户的样本标签,计算每个所述训练样本用户的每个中间特征的特征得分,包括:
根据每个所述训练样本用户的样本标签确定第二预设分类条件下的用户分布;
根据所述第二预设分类条件下的用户分布,计算每个所述训练样本用户的每个中间特征在当前特征值的信息增益和用户转化贡献度;
将所述每个中间特征在当前特征值的信息增益和用户转化贡献度相乘,得到对应中间特征的特征得分。
15.一种用户挖掘方法,其特征在于,包括:
获取目标用户的原始特征;
将所述原始特征输入如权利要求1至14任一项所述的方法训练得到的所述用户挖掘模型进行用户挖掘,从而得到目标物品的待推荐用户。
16.一种用户挖掘模型的训练装置,其特征在于,包括:
伪正样本确定模块,用于将目标物品的类似物品的受众确定为伪正样本用户;
第一样本挖掘模块,用于基于所述伪正样本用户挖掘所述目标物品的受众,得到第一正样本用户,包括:基于所述伪正样本用户计算所述目标物品的特征标签在不同取值时的用户转化贡献度,根据所述特征标签在不同取值时的用户转化贡献度从第一潜在用户中挖掘所述第一正样本用户;所述用户转化贡献度的计算方法包括:确定与所述特征标签匹配的用户,得到标签匹配用户,为所述标签匹配用户打样本标签,根据所述标签匹配用户的样本标签确定所述特征标签在不同取值时的用户分布;根据所述特征标签在不同取值时的用户分布,计算所述特征标签在不同取值时的用户转化贡献度;
第二样本挖掘模块,用于基于所述第一正样本用户继续挖掘所述目标物品的受众,得到第二正样本用户;
模型训练模块,用于基于所述第一正样本用户和所述第二正样本用户进行模型训练,得到用户挖掘模型,所述用户挖掘模型用于挖掘所述目标物品的待推荐用户。
17.一种用户挖掘装置,其特征在于,包括:
特征获取模块,用于获取目标用户的原始特征;
用户挖掘模块,用于将所述原始特征输入如权利要求1至14任一项所述的方法训练得到的所述用户挖掘模型进行用户挖掘,得到目标物品的待推荐用户。
18.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至14中任一所述的用户挖掘模型的训练方法,或者所述处理器执行所述程序时实现如权利要求15所述的用户挖掘方法。
19.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至14中任一所述的用户挖掘模型的训练方法,或者该程序被处理器执行时实现如权利要求15所述的用户挖掘方法。
CN202310483889.2A 2023-04-28 2023-04-28 用户挖掘及模型的训练方法、装置、电子设备和存储介质 Active CN116204567B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310483889.2A CN116204567B (zh) 2023-04-28 2023-04-28 用户挖掘及模型的训练方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310483889.2A CN116204567B (zh) 2023-04-28 2023-04-28 用户挖掘及模型的训练方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN116204567A CN116204567A (zh) 2023-06-02
CN116204567B true CN116204567B (zh) 2023-09-05

Family

ID=86511454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310483889.2A Active CN116204567B (zh) 2023-04-28 2023-04-28 用户挖掘及模型的训练方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN116204567B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228389A (zh) * 2016-07-14 2016-12-14 武汉斗鱼网络科技有限公司 基于随机森林算法的网络潜力用户挖掘方法及系统
CN111461164A (zh) * 2020-02-25 2020-07-28 清华大学 样本数据集的扩容方法及模型的训练方法
CN112464098A (zh) * 2020-12-05 2021-03-09 北京工业大学 基于相似性成对排名的推荐系统物品预测方法
CN113378067A (zh) * 2021-07-13 2021-09-10 深圳前海微众银行股份有限公司 基于用户挖掘的消息推荐方法、设备、介质及程序产品
CN113901327A (zh) * 2021-10-28 2022-01-07 北京达佳互联信息技术有限公司 一种目标推荐模型训练方法、推荐方法、装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798390B (zh) * 2017-11-22 2023-03-21 创新先进技术有限公司 一种机器学习模型的训练方法、装置以及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228389A (zh) * 2016-07-14 2016-12-14 武汉斗鱼网络科技有限公司 基于随机森林算法的网络潜力用户挖掘方法及系统
CN111461164A (zh) * 2020-02-25 2020-07-28 清华大学 样本数据集的扩容方法及模型的训练方法
CN112464098A (zh) * 2020-12-05 2021-03-09 北京工业大学 基于相似性成对排名的推荐系统物品预测方法
CN113378067A (zh) * 2021-07-13 2021-09-10 深圳前海微众银行股份有限公司 基于用户挖掘的消息推荐方法、设备、介质及程序产品
CN113901327A (zh) * 2021-10-28 2022-01-07 北京达佳互联信息技术有限公司 一种目标推荐模型训练方法、推荐方法、装置及电子设备

Also Published As

Publication number Publication date
CN116204567A (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
JP6913241B2 (ja) 信用力があると判定された消費者にローンを発行するシステムおよび方法
CN110659318B (zh) 基于大数据的策略推送方法、系统及计算机设备
CN108550065B (zh) 评论数据处理方法、装置及设备
CN110543946A (zh) 用于训练模型的方法和装置
CN110555451A (zh) 信息识别方法和装置
CN113393306A (zh) 产品推荐方法、装置、电子设备及计算机可读介质
CN115577172A (zh) 物品推荐方法、装置、设备及介质
CN113392920B (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN111091408A (zh) 用户识别模型创建方法、装置与识别方法、装置
CN112950359B (zh) 一种用户识别方法和装置
CN111179055A (zh) 授信额度调整方法、装置和电子设备
CN116204567B (zh) 用户挖掘及模型的训练方法、装置、电子设备和存储介质
CN110210868B (zh) 数值转移数据的处理方法及电子设备
CN116821759A (zh) 类别标签的识别预测方法、装置和处理器及电子设备
CN115795345A (zh) 信息处理方法、装置、设备及存储介质
CN116029766A (zh) 用户交易决策识别方法、激励策略优化方法、装置和设备
CN115983907A (zh) 一种数据推荐方法、装置、电子设备及计算机可读介质
CN115049456A (zh) 金融产品组合的推荐方法及其装置、电子设备
CN111429257B (zh) 一种交易监控方法和装置
CN112990311A (zh) 一种准入客户的识别方法和装置
CN112949752B (zh) 业务预测系统的训练方法及装置
CN113255710B (zh) 手机号码分类方法、装置、设备及存储介质
CN117273950A (zh) 理财产品推送方法、装置、设备、介质和程序产品
CN113191422A (zh) 一种识别方法及装置
CN116108159A (zh) 一种类案推荐方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant