CN112711643B - 训练样本集获取方法及装置、电子设备、存储介质 - Google Patents

训练样本集获取方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN112711643B
CN112711643B CN201911026063.3A CN201911026063A CN112711643B CN 112711643 B CN112711643 B CN 112711643B CN 201911026063 A CN201911026063 A CN 201911026063A CN 112711643 B CN112711643 B CN 112711643B
Authority
CN
China
Prior art keywords
sample
experimental
samples
sample set
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911026063.3A
Other languages
English (en)
Other versions
CN112711643A (zh
Inventor
李翱
高宇
邵磊
连乔
刘霁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN201911026063.3A priority Critical patent/CN112711643B/zh
Publication of CN112711643A publication Critical patent/CN112711643A/zh
Application granted granted Critical
Publication of CN112711643B publication Critical patent/CN112711643B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开关于一种训练样本集获取方法及装置、电子设备、存储介质。该方法包括:获取实验样本组和对照样本组;实验样本组和对照样本组中各样本包括取值为第一设定值或者第二设定值的保持值;基于各样本的保持值的取值和预先计算的得分值构建正向样本组和负向样本组;将正向样本组和负向样本组中各样本设置分类标签后,形成训练样本集。本实施例中基于得分值和保持值形成样本差异较小的训练样本集,有利于提升所训练的分类模型的分类结果的置信度;另外,本实施例无需人工对样本数据进行分析,可以应用到线上场景中,有利于定位到样本对应的人群。

Description

训练样本集获取方法及装置、电子设备、存储介质
技术领域
本公开涉及数据处理技术领域,尤其涉及一种训练样本集获取方法及装置、电子设备、存储介质。
背景技术
目前,在AB实验中,有很多实验的结果并不显著,甚至是负向的。当AB实验的效果不够显著或者负向的时候,相关技术中通常采用离线分析的思路,利用用户的一些画像特征来寻找不同群体的实验效果,最后方便优化实验。
然而,相关技术中离线分析的思路在应用到线上的推荐系统时会有很大的难度,这是由于相关技术中的方案是基于数据分析,而实际应用场景中的情况是各种各样的且是非线性的,因此定位到特定人群会有较大的难度,最终会认为实验结果无效甚至取消实验,导致无法为AB实验进行优化。并且,在AB实验中,实验组和对照组中数据的差异通常会比较小,由于机器学习模型在训练时并未针对该较小差异着重训练,导致无法学习出该较小差异,从而使数据分析方案难以得到置信的结论。
发明内容
本公开提供一种训练样本集获取方法及装置、电子设备、存储介质,以至少解决相关技术中训练样本差异过大,导致模型无法学习出该较小差异的问题。
本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种训练样本集获取方法,包括:
获取实验样本集合和对照样本集合,其中,所述实验样本集合和所述对照样本集合中各样本用于记录使用应用程序的账户的账户信息,所述账户信息至少用于记录对应账户在使用应用程序过程中执行操作的行为;
从样本中提取用于表征对应账户是否发生目标行为的实际状态数据,以及根据所述账户信息计算用于表征所述账户发生所述目标行为的预测数据;
根据所述预测数据和所述实际状态数据,从所述实验样本集合和所述对照样本集合中筛选出有效样本;
根据所述有效样本生成训练样本集,其中,所述训练样本集中的有效样本通过分类标签表征对应样本所属的样本类别,并且用于训练所述应用程序内至少具有样本分类功能的模型。
可选地,根据所述预测数据和所述实际状态数据,从所述实验样本集合和所述对照样本集合中筛选出有效样本,包括:
针对所述实验样本集合中任一实验样本,从所述对照样本集合中选取与所述实验样本的预测数据相同且实际状态数据不同的至少一个对照样本,将所述实验样本和所述至少一个对照样本作为有效样本。
可选地,针对所述实验样本集合中任一实验样本,从所述对照样本集合中选取与所述实验样本的预测数据相同且实际状态数据不同的至少一个对照样本,将所述实验样本和所述至少一个对照样本作为有效样本,包括:
从所述实验样本集合中获取任一实际状态数据表征账户发生所述目标行为的第一实验样本;
从所述对照样本集合中选取与所述第一实验样本的预测数据相同且实际状态数据不同的第一对照样本;
所述第一实验样本和所述第一对照样本作为表征受到所述目标行为正向影响的正向有效样本。
可选地,针对所述实验样本集合中任一实验样本,从所述对照样本集合中选取与所述实验样本的预测数据相同且实际状态数据不同的至少一个对照样本,将所述实验样本和所述至少一个对照样本作为有效样本,包括:
从所述实验样本集合中获取任一实际状态数据表征账户未发生所述目标行为的第二实验样本;
从所述对照样本集合中选取与所述第二实验样本的预测数据相同且实际状态数据不同的第二对照样本;
所述第二实验样本和所述第二对照样本作为表征受到所述目标行为负向影响的负向有效样本。
可选地,根据所述有效样本生成训练样本集,包括:
分别为各有效样本设置表征对应样本所属样本类型的分类标签;所述样本类型包括正向有效样本和负向有效样本;
生成包含设置有分类标签的有效样本的样本集合,该样本集合即为所述训练样本集。
根据本公开实施例的第二方面,提供一种训练样本集获取装置,所述装置包括:
样本集合获取单元,被配置为执行获取实验样本集合和对照样本集合,其中,所述实验样本集合和所述对照样本集合中各样本用于记录使用应用程序的账户的账户信息,所述账户信息至少用于记录对应账户在使用应用程序过程中执行操作的行为;
状态数据获取单元,被配置为执行从样本中提取用于表征对应账户是否发生目标行为的实际状态数据,以及根据所述账户信息计算用于表征所述账户发生所述目标行为的预测数据;
有效样本筛选单元,被配置为执行根据所述预测数据和所述实际状态数据,从所述实验样本集合和所述对照样本集合中筛选出有效样本;
样本集生成单元,被配置为执行根据所述有效样本生成训练样本集,其中,所述训练样本集中的有效样本通过分类标签表征对应样本所属的样本类别,并且用于训练所述应用程序内至少具有样本分类功能的模型。
可选地,所述有效样本筛选单元,还被配置为执行针对所述实验样本集合中任一实验样本,从所述对照样本集合中选取与所述实验样本的预测数据相同且实际状态数据不同的至少一个对照样本,将所述实验样本和所述至少一个对照样本作为有效样本。
可选地,所述有效样本筛选单元包括:
第一实验样本获取模块,被配置为执行从所述实验样本集合中获取任一实际状态数据表征账户发生所述目标行为的第一实验样本;
第一对照样本获取模块,被配置为执行从所述对照样本集合中选取与所述第一实验样本的预测数据相同且实际状态数据不同的第一对照样本;
正向有效样本获取模块,被配置为执行将所述第一实验样本和所述第一对照样本作为表征受到所述目标行为正向影响的正向有效样本。
可选地,所述有效样本筛选单元包括:
第二实验样本获取模块,被配置为执行从所述实验样本集合中获取任一实际状态数据表征账户未发生所述目标行为的第二实验样本;
第二对照样本获取模块,被配置为执行从所述对照样本集合中选取与所述第二实验样本的预测数据相同且实际状态数据不同的第二对照样本;
负向有效样本获取模块,被配置为执行将所述第二实验样本和所述第二对照样本作为表征受到所述目标行为负向影响的负向有效样本。
可选地,所述样本集生成单元包括:
分类标签设置模块,被配置为执行分别为各有效样本设置表征对应样本所属样本类型的分类标签;所述样本类型包括正向有效样本和负向有效样本;
样本集合生成模块,被配置为执行生成包含设置有分类标签的有效样本的样本集合,该样本集合即为所述训练样本集。
根据本公开实施例的第三方面,提供一种服务器,包括:
处理器;
用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述存储器中的可执行指令,以实现如第一方面任一项所述方法的步骤。
根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由处理器执行时能够执行如第一方面任一项所述方法的步骤。
根据本公开实施例的第五方面,提供了一种应用程序,当该应用程序由电子设备的处理器执行时,使得电子设备能够执行如第一方面任一项所述方法的步骤。
本公开的实施例提供的技术方案至少带来以下有益效果:
本实施例中通过获取实验样本集合和对照样本集合,其中,实验样本集合和对照样本集合中各样本用于记录使用应用程序的账户的账户信息,账户信息至少用于记录对应账户在使用应用程序过程中执行操作的行为;然后,从样本中提取用于表征对应账户是否发生目标行为的实际状态数据,以及根据账户信息计算用于表征账户发生目标行为的预测数据;之后,根据预测数据和实际状态数据,从实验样本集合和对照样本集合中筛选出有效样本;最后,根据有效样本生成训练样本集,其中,训练样本集中的有效样本通过分类标签表征对应样本所属的样本类别,并且用于训练所述应用程序内至少具有样本分类功能的模型。这样,本实施例中根据预测数据和实际状态数据可以筛选出差异足够小的两个样本,并将该两个样本作为有效样本,有利于提高分类结果的置信度。另外,本实施例无需人工对样本数据进行分析,可以应用到线上场景中,有利于定位到样本对应的用户。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种训练样本集获取方法的流程图。
图2是根据一示例性实施例示出的获取正向有效样本的流程图。
图3是根据一示例性实施例示出的获取负向有效样本的流程图。
图4是根据一示例性实施例示出的另一种训练样本集获取方法的流程图。
图5是根据一示例性实施例示出的一种训练样本集获取装置的框图。
图6是根据一示例性实施例示出的另一种训练样本集获取装置的框图。
图7是根据一示例性实施例示出的又一种训练样本集获取装置的框图。
图8是根据一示例性实施例示出的又一种训练样本集获取装置的框图。
图9是根据一示例性实施例示出的一种服务器的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
目前,在AB实验中,有很多实验的结果并不显著,甚至是负向的。当AB实验的效果不够显著或者负向的时候,相关技术中通常采用离线分析的思路,利用用户的一些画像特征来寻找不同群体的实验效果,最后方便优化实验。
然而,相关技术中离线分析的思路在应用到线上的推荐系统时会有很大的难度,这是由于相关技术中的方案是基于数据分析,而实际应用场景中的情况是各种各样的且是非线性的,因此定位到特定人群会有较大的难度,最终会认为实验结果无效甚至取消实验,导致无法为AB实验进行优化。并且,在AB实验中,实验组和对照组中数据的差异通常会比较小,由于机器学习模型在训练时并未针对该较小差异着重训练,导致无法学习出该较小差异,从而使数据分析方案难以得到置信的结论。
为此,本公开实施例提供了一种训练样本集获取方法,其构思在于,基于实验样本组和对照样本组构建样本差异较小的训练样本集,并利用训练样本集训练分类模型。训练后的分类模型可以对待分类样本进行分类。
图1是根据一示例性实施例示出的一种训练样本集获取方法,可以适用于电子设备,其中,电子设备可以包括智能手机、平板电脑等终端,可以是服务器,还可以是由终端和服务器构成的电子系统,在此不作限定。参见图1,一种训练样本集获取方法,包括步骤101~步骤104,其中:
在步骤101中,获取实验样本集合和对照样本集合,其中,所述实验样本集合和所述对照样本集合中各样本用于记录使用应用程序的账户的账户信息,所述账户信息至少用于记录对应账户在使用应用程序过程中执行操作的行为。
实际应用中,电子设备上可安装有浏览器或者应用程序APP,用户在使APP之前,可以先进行注册得到一个账户,这样用户可以在登陆该账户后使用该APP所提供的各类服务。
在使用APP的过程中,电子设备或者APP对应的服务器会记录该账户执行各类操作的行为,例如浏览、观看、点赞、使用时间、偏好等等,从而形成该账户的账户信息。当然,账户信息并不局限于此,还可以包括个人数据,如年龄、地域、性别等,技术人员可以根据具体场景进行选择,相应方案落入本公开的保护范围。
在一实施例中,电子设备可以从指定位置读取样本,随机分为两个集合:实验样本集合和对照样本集合。
在另一实施例中,考虑到APP内可以设置有具有不同功能的模型,例如具有样本分类功能的模型,包括逻辑回归模型(Logistic Regression,LR)或者提升树模型XGBoost模型。以具有样本分类功能的模型为例,APP内设置有该模型后,可以分配给两个不同的用户组使用即AB测试,此情况下,电子设备可以分别获取两个用户组的样本,将一个组的样本划分到实验样本集合,将另一个组的样本划分到对照样本集合。
在步骤102中,从样本中提取用于表征对应账户是否发生目标行为的实际状态数据,以及根据所述账户信息计算用于表征所述账户发生所述目标行为的预测数据。
本实施例中,APP上可以提供若干服务,相应地,各服务可以对应一个目标行为,当发生目标行为时,表征用户选用相应的服务。例如,APP新设一个点赞功能,账户的目标行为可以为选用该点赞功能,在账户选用该点赞功能时,可以将实际状态数据调整为第二数据(如1),在账户未选用该点赞功能时,实际状态数据保持第一数据(如0)。这样,电子设备可以从实验样本集合和对照样本集合的各样本中提取用于表征对应账户是否发生目标行为的实际状态数据。
本实施例中,电子设备还可以获取实验样本集合和对照样本集合的各样本的账户信息,然后利用账户信息计算表征账户发生目标行为的预测数据。例如,电子设备可以从一个实验样本提取表征观看视频过程进行评述的账户信息,基于该账户信息预测该账户选用点赞功能的预测数据,又如电子设备可以从一个对照样本提取表征观看视频过程进行评述的账户信息,基于该账户信息预测该账户选用点赞功能的预测数据。在一示例中,该预测数量可以采用概率值表示。在一示例中,上述预测数据可以采用倾向评分匹配算法(Propensity Score Matching,PSM)计算出的得分值(Propensity Score)来实现。其中PSM算法计算得分值的步骤可以参考相关技术,在此不再赘述。
需要说明的是,各样本的预测数据可以在样本产生时直接计算得到,还是可以确定实验样本集合和对照样本集合后计算得到,技术人员可以根据具体场景进行选择,在此不作限定。
在步骤103中,根据所述预测数据和所述实际状态数据,从所述实验样本集合和所述对照样本集合中筛选出有效样本。
本实施例中,针对实验样本集合中任一实验样本,电子设备可以从对照样本集合中选取与实验样本的预测数据相同且实际状态数据不同的至少一个对照样本,将实验样本和至少一个对照样本作为有效样本。
参见图2,电子设备可以从实验样本集合中获取任一实际状态数据表征账户发生目标行为的第一实验样本(对应图2中步骤201),以及从对照样本集合中选取与第一实验样本的预测数据相同且实际状态数据不同的第一对照样本(对应图2中步骤202);然后,电子设备可以将第一实验样本和第一对照样本作为表征受到目标行为正向影响的正向有效样本(对应图2中步骤203)。其中,步骤201和步骤202的顺序不作限定。
参见图3,电子设备可以从实验样本集合中获取任一实际状态数据表征账户未发生目标行为的第二实验样本(对应图3中步骤301),以及从对照样本集合中选取与第二实验样本的预测数据相同且实际状态数据不同的第二对照样本(对应图3中步骤302);然后,电子设备可以将第二实验样本和第二对照样本作为表征受到目标行为负向影响的负向有效样本。
可理解的是,本实施例中,各样本的预测数据可以在一定程度上反映出用户特征,当两个样本的预测数据相等或者相近(两者差值小于预设阈值),可以反映出两个用户具有相同的用户特征,如年龄相同、性别相同、行为相同等,其区别仅在于对于某一目标行为具有不同的实际状态数据。例如,账户A和账户B在某一APP上的个人信息和行动数据均非常接近,计算出的发生目标行为的预测数据也相同,其区别在于,针对APP提供商提供的某一功能,账户A选用,其实际状态数据为1,而账户B未选用,其实际状态数据为0。
在步骤104中,根据所述有效样本生成训练样本集,其中,所述训练样本集中的有效样本通过分类标签表征对应样本所属的样本类别,并且用于训练所述应用程序内至少具有样本分类功能的模型。
本实施例中,参见图4,电子设备可以分别为各有效样本设置表征对应样本所属样本类型的分类标签;其中样本类型包括正向有效样本和负向有效样本(对应图4中步骤401)。以分类标签采用0和1为例,可以将正向有效样本的分类标签设置为1,将负向有效样本的分类标签设置为0。然后,电子设备可以生成包含设置有分类标签的有效样本的样本集合,该样本集合即为所述训练样本集(对应图4中步骤402)。
至此,本实施例中通过获取实验样本集合和对照样本集合,其中,实验样本集合和对照样本集合中各样本用于记录使用应用程序的账户的账户信息,账户信息至少用于记录对应账户在使用应用程序过程中执行操作的行为;然后,从样本中提取用于表征对应账户是否发生目标行为的实际状态数据,以及根据账户信息计算用于表征账户发生目标行为的预测数据;之后,根据预测数据和实际状态数据,从实验样本集合和对照样本集合中筛选出有效样本;最后,根据有效样本生成训练样本集,其中,训练样本集中的有效样本通过分类标签表征对应样本所属的样本类别,并且用于训练所述应用程序内至少具有样本分类功能的模型。这样,本实施例中根据预测数据和实际状态数据可以筛选出差异足够小的两个样本,并将该两个样本作为有效样本,有利于提高分类结果的置信度。另外,本实施例无需人工对样本数据进行分析,可以应用到线上场景中,有利于定位到样本对应的用户。
下面结合一留存在某一场景来描述本公开提供的训练样本集获取方法的流程。
首先,采用PSM方法,计算实验样本集合(exp)和对照样本集合(base)中各样本留存在本场景下的预测数据(propensity score)。
然后,获取实验样本集合(exp)和对照样本集合(base)中各样本的实际状态数据即保持值(retain),在留存在本场景时,retain=1,未留存在本场景时,retain=0。
之后,将exp中retain=1和base中retain=0的样本按照propensity score进行匹配。在预测数据相同或者差距小于预设阈值时匹配通过,得到正向有效样本。以及,将exp中retain=0和base中retain=1的样本按照propensity score进行匹配,得到负向有效样本。
再者,将负向有效样本和正向有效样本组合,即可得到训练样本集合。该训练样本集合可以至少用于具有分类功能模型的训练。训练后,若预测数据大于阈值(如0.5),则说明用户受到该场景的正向影响,若小于阈值,则说明用户受到该场景的负向影响。由于正向有效样本或负向有效样本中存在两个样本的差异非常小,即仅针对目标行为的实际状态数据不同,其他账户信息相同(或相近),这样训练出的模型可以对差异小的样本进行分类,达到提升分类结果的效果。
图5是根据一示例性实施例示出的一种训练样本集获取装置,参见图5,一种训练样本集获取装置500包括:
样本集合获取单元501,被配置为执行获取实验样本集合和对照样本集合,其中,所述实验样本集合和所述对照样本集合中各样本用于记录使用应用程序的账户的账户信息,所述账户信息至少用于记录对应账户在使用应用程序过程中执行操作的行为;
状态数据获取单元502,被配置为执行从样本中提取用于表征对应账户是否发生目标行为的实际状态数据,以及根据所述账户信息计算用于表征所述账户发生所述目标行为的预测数据;
有效样本筛选单元503,被配置为执行根据所述预测数据和所述实际状态数据,从所述实验样本集合和所述对照样本集合中筛选出有效样本;
样本集生成单元504,被配置为执行根据所述有效样本生成训练样本集,其中,所述训练样本集中的有效样本通过分类标签表征对应样本所属的样本类别,并且用于训练所述应用程序内至少具有样本分类功能的模型。
在一实施例中,所述有效样本筛选单元503,还被配置为执行针对所述实验样本集合中任一实验样本,从所述对照样本集合中选取与所述实验样本的预测数据相同且实际状态数据不同的至少一个对照样本,将所述实验样本和所述至少一个对照样本作为有效样本。
图6是根据一示例性实施例示出的另一种训练样本集获取装置,在图5所示的一种训练样本集获取装置的基础上,参见图6,有效样本筛选单元503包括:
第一实验样本获取模块601,被配置为执行从所述实验样本集合中获取任一实际状态数据表征账户发生所述目标行为的第一实验样本;
第一对照样本获取模块602,被配置为执行从所述对照样本集合中选取与所述第一实验样本的预测数据相同且实际状态数据不同的第一对照样本;
正向有效样本获取模块603,被配置为执行将所述第一实验样本和所述第一对照样本作为表征受到所述目标行为正向影响的正向有效样本。
图7是根据一示例性实施例示出的另一种训练样本集获取装置,在图5所示的一种训练样本集获取装置的基础上,参见图7,有效样本筛选单元503包括:
第二实验样本获取模块701,被配置为执行从所述实验样本集合中获取任一实际状态数据表征账户未发生所述目标行为的第二实验样本;
第二对照样本获取模块702,被配置为执行从所述对照样本集合中选取与所述第二实验样本的预测数据相同且实际状态数据不同的第二对照样本;
负向有效样本获取模块703,被配置为执行将所述第二实验样本和所述第二对照样本作为表征受到所述目标行为负向影响的负向有效样本。
图8是根据一示例性实施例示出的又一种训练样本集获取装置,在图6或图7所示的一种训练样本集获取装置的基础上,参见图8,样本集生成单元504包括:
分类标签设置模块801,被配置为执行分别为各有效样本设置表征对应样本所属样本类型的分类标签;所述样本类型包括正向有效样本和负向有效样本;
样本集合生成模块802,被配置为执行生成包含设置有分类标签的有效样本的样本集合,该样本集合即为所述训练样本集。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
至此,本实施例中根据预测数据和实际状态数据可以筛选出差异足够小的两个样本,并将该两个样本作为有效样本,有利于提高分类结果的置信度。另外,本实施例无需人工对样本数据进行分析,可以应用到线上场景中,有利于定位到样本对应的用户。
图9是根据一示例性实施例示出的一种电子设备的框图。例如,电子设备900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图9,电子设备900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制电子设备900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在电子设备900的操作。这些数据的示例包括用于在电子设备900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为电子设备900的各种组件提供电力。电源组件906可以包括电源管理系统,一个或多个电源,及其他与为电子设备900生成、管理和分配电力相关联的组件。
多媒体组件908包括在电子设备900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当电子设备900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当电子设备900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为电子设备900提供各个方面的状态评估。例如,传感器组件914可以检测到电子设备900的打开/关闭状态,组件的相对定位,例如所述组件为电子设备900的显示器和小键盘,传感器组件914还可以检测电子设备900或电子设备900一个组件的位置改变,用户与电子设备900接触的存在或不存在,电子设备900方位或加速/减速和电子设备900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于电子设备900和其他设备之间有线或无线方式的通信。电子设备900可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在本公开一实施例中,电子设备900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在本公开一实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由电子设备900的处理器920执行以完成上述获取观看时长的方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在本公开一实施例中,还提供了一种应用程序,当该应用程序由电子设备的处理器执行时,使得所述电子设备能够执行上述方法,以获取相同的技术效果。
在本公开一实施例中,还提供了一种计算机程序产品,当该计算机程序产品由电子设备的处理器执行时,使得所述电子设备能够执行上述方法,以获取相同的技术效果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置/电子设备/存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖上述各实施例的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (13)

1.一种训练样本集获取方法,其特征在于,所述方法包括:
获取实验样本集合和对照样本集合,其中,所述实验样本集合和所述对照样本集合中各样本用于记录使用应用程序的账户的账户信息,所述账户信息至少用于记录对应账户在使用应用程序过程中执行操作的行为;
从样本中提取用于表征对应账户是否发生目标行为的实际状态数据,以及根据所述账户信息计算用于表征所述账户发生所述目标行为的预测数据;
根据所述预测数据和所述实际状态数据,从所述实验样本集合和所述对照样本集合中筛选出有效样本;
根据所述有效样本生成训练样本集,其中,所述训练样本集中的有效样本通过分类标签表征对应样本所属的样本类别,并且用于训练所述应用程序内至少具有样本分类功能的模型。
2.根据权利要求1所述的训练样本集获取方法,其特征在于,根据所述预测数据和所述实际状态数据,从所述实验样本集合和所述对照样本集合中筛选出有效样本,包括:
针对所述实验样本集合中任一实验样本,从所述对照样本集合中选取与所述实验样本的预测数据相同且实际状态数据不同的至少一个对照样本,将所述实验样本和所述至少一个对照样本作为有效样本。
3.根据权利要求2所述的训练样本集获取方法,其特征在于,针对所述实验样本集合中任一实验样本,从所述对照样本集合中选取与所述实验样本的预测数据相同且实际状态数据不同的至少一个对照样本,将所述实验样本和所述至少一个对照样本作为有效样本,包括:
从所述实验样本集合中获取任一实际状态数据表征账户发生所述目标行为的第一实验样本;
从所述对照样本集合中选取与所述第一实验样本的预测数据相同且实际状态数据不同的第一对照样本;
所述第一实验样本和所述第一对照样本作为表征受到所述目标行为正向影响的正向有效样本。
4.根据权利要求2所述的训练样本集获取方法,其特征在于,针对所述实验样本集合中任一实验样本,从所述对照样本集合中选取与所述实验样本的预测数据相同且实际状态数据不同的至少一个对照样本,将所述实验样本和所述至少一个对照样本作为有效样本,包括:
从所述实验样本集合中获取任一实际状态数据表征账户未发生所述目标行为的第二实验样本;
从所述对照样本集合中选取与所述第二实验样本的预测数据相同且实际状态数据不同的第二对照样本;
所述第二实验样本和所述第二对照样本作为表征受到所述目标行为负向影响的负向有效样本。
5.根据权利要求3或4所述的训练样本集获取方法,其特征在于,根据所述有效样本生成训练样本集,包括:
分别为各有效样本设置表征对应样本所属样本类型的分类标签;所述样本类型包括正向有效样本和负向有效样本;
生成包含设置有分类标签的有效样本的样本集合,该样本集合即为所述训练样本集。
6.一种训练样本集获取装置,其特征在于,所述装置包括:
样本集合获取单元,被配置为执行获取实验样本集合和对照样本集合,其中,所述实验样本集合和所述对照样本集合中各样本用于记录使用应用程序的账户的账户信息,所述账户信息至少用于记录对应账户在使用应用程序过程中执行操作的行为;
状态数据获取单元,被配置为执行从样本中提取用于表征对应账户是否发生目标行为的实际状态数据,以及根据所述账户信息计算用于表征所述账户发生所述目标行为的预测数据;
有效样本筛选单元,被配置为执行根据所述预测数据和所述实际状态数据,从所述实验样本集合和所述对照样本集合中筛选出有效样本;
样本集生成单元,被配置为执行根据所述有效样本生成训练样本集,其中,所述训练样本集中的有效样本通过分类标签表征对应样本所属的样本类别,并且用于训练所述应用程序内至少具有样本分类功能的模型。
7.根据权利要求6所述的训练样本集获取装置,其特征在于,所述有效样本筛选单元,还被配置为执行针对所述实验样本集合中任一实验样本,从所述对照样本集合中选取与所述实验样本的预测数据相同且实际状态数据不同的至少一个对照样本,将所述实验样本和所述至少一个对照样本作为有效样本。
8.根据权利要求7所述的训练样本集获取装置,其特征在于,所述有效样本筛选单元包括:
第一实验样本获取模块,被配置为执行从所述实验样本集合中获取任一实际状态数据表征账户发生所述目标行为的第一实验样本;
第一对照样本获取模块,被配置为执行从所述对照样本集合中选取与所述第一实验样本的预测数据相同且实际状态数据不同的第一对照样本;
正向有效样本获取模块,被配置为执行将所述第一实验样本和所述第一对照样本作为表征受到所述目标行为正向影响的正向有效样本。
9.根据权利要求7所述的训练样本集获取装置,其特征在于,所述有效样本筛选单元包括:
第二实验样本获取模块,被配置为执行从所述实验样本集合中获取任一实际状态数据表征账户未发生所述目标行为的第二实验样本;
第二对照样本获取模块,被配置为执行从所述对照样本集合中选取与所述第二实验样本的预测数据相同且实际状态数据不同的第二对照样本;
负向有效样本获取模块,被配置为执行将所述第二实验样本和所述第二对照样本作为表征受到所述目标行为负向影响的负向有效样本。
10.根据权利要求8或9所述的训练样本集获取装置,其特征在于,所述样本集生成单元包括:
分类标签设置模块,被配置为执行分别为各有效样本设置表征对应样本所属样本类型的分类标签;所述样本类型包括正向有效样本和负向有效样本;
样本集合生成模块,被配置为执行生成包含设置有分类标签的有效样本的样本集合,该样本集合即为所述训练样本集。
11.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述存储器中的可执行指令,以实现如权利要求1~5中任一项所述方法的步骤。
12.一种存储介质,其特征在于,当所述存储介质中的指令由处理器执行时能够执行如权利要求1~5中任一项所述方法的步骤。
13.一种计算机程序产品,其特征在于,当所述计算机程序产品由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1~5中任一项所述方法的步骤。
CN201911026063.3A 2019-10-25 2019-10-25 训练样本集获取方法及装置、电子设备、存储介质 Active CN112711643B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911026063.3A CN112711643B (zh) 2019-10-25 2019-10-25 训练样本集获取方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911026063.3A CN112711643B (zh) 2019-10-25 2019-10-25 训练样本集获取方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN112711643A CN112711643A (zh) 2021-04-27
CN112711643B true CN112711643B (zh) 2023-10-10

Family

ID=75540978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911026063.3A Active CN112711643B (zh) 2019-10-25 2019-10-25 训练样本集获取方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN112711643B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319611A (zh) * 2017-01-17 2018-07-24 腾讯科技(深圳)有限公司 抽样方法和抽样装置
CN108520343A (zh) * 2018-03-26 2018-09-11 平安科技(深圳)有限公司 风险模型训练方法、风险识别方法、装置、设备及介质
CN108537291A (zh) * 2018-05-07 2018-09-14 北京京东尚科信息技术有限公司 一种样本分类方法和装置
CN109583468A (zh) * 2018-10-12 2019-04-05 阿里巴巴集团控股有限公司 训练样本获取方法,样本预测方法及对应装置
CN109615020A (zh) * 2018-12-25 2019-04-12 深圳前海微众银行股份有限公司 基于机器学习模型的特征分析方法、装置、设备及介质
CN109684478A (zh) * 2018-12-18 2019-04-26 腾讯科技(深圳)有限公司 分类模型训练方法、分类方法及装置、设备和介质
CN109840588A (zh) * 2019-01-04 2019-06-04 平安科技(深圳)有限公司 神经网络模型训练方法、装置、计算机设备及存储介质
CN109871858A (zh) * 2017-12-05 2019-06-11 北京京东尚科信息技术有限公司 预测模型建立、对象推荐方法及系统、设备及存储介质
CN110008399A (zh) * 2019-01-30 2019-07-12 阿里巴巴集团控股有限公司 一种推荐模型的训练方法及装置、一种推荐方法及装置
CN110019770A (zh) * 2017-07-24 2019-07-16 华为技术有限公司 训练分类模型的方法与装置
CN110046928A (zh) * 2019-03-06 2019-07-23 北京三快在线科技有限公司 确定标签的方法、装置、电子设备及可读存储介质
CN110046952A (zh) * 2019-01-30 2019-07-23 阿里巴巴集团控股有限公司 一种推荐模型的训练方法及装置、一种推荐方法及装置
CN110136779A (zh) * 2019-05-30 2019-08-16 上海大学 一种生物网络关键差异节点的样本特征提取及预测方法
CN110245787A (zh) * 2019-05-24 2019-09-17 阿里巴巴集团控股有限公司 一种目标群体预测方法、装置及设备

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319611A (zh) * 2017-01-17 2018-07-24 腾讯科技(深圳)有限公司 抽样方法和抽样装置
CN110019770A (zh) * 2017-07-24 2019-07-16 华为技术有限公司 训练分类模型的方法与装置
CN109871858A (zh) * 2017-12-05 2019-06-11 北京京东尚科信息技术有限公司 预测模型建立、对象推荐方法及系统、设备及存储介质
CN108520343A (zh) * 2018-03-26 2018-09-11 平安科技(深圳)有限公司 风险模型训练方法、风险识别方法、装置、设备及介质
CN108537291A (zh) * 2018-05-07 2018-09-14 北京京东尚科信息技术有限公司 一种样本分类方法和装置
CN109583468A (zh) * 2018-10-12 2019-04-05 阿里巴巴集团控股有限公司 训练样本获取方法,样本预测方法及对应装置
CN109684478A (zh) * 2018-12-18 2019-04-26 腾讯科技(深圳)有限公司 分类模型训练方法、分类方法及装置、设备和介质
CN109615020A (zh) * 2018-12-25 2019-04-12 深圳前海微众银行股份有限公司 基于机器学习模型的特征分析方法、装置、设备及介质
CN109840588A (zh) * 2019-01-04 2019-06-04 平安科技(深圳)有限公司 神经网络模型训练方法、装置、计算机设备及存储介质
CN110008399A (zh) * 2019-01-30 2019-07-12 阿里巴巴集团控股有限公司 一种推荐模型的训练方法及装置、一种推荐方法及装置
CN110046952A (zh) * 2019-01-30 2019-07-23 阿里巴巴集团控股有限公司 一种推荐模型的训练方法及装置、一种推荐方法及装置
CN110046928A (zh) * 2019-03-06 2019-07-23 北京三快在线科技有限公司 确定标签的方法、装置、电子设备及可读存储介质
CN110245787A (zh) * 2019-05-24 2019-09-17 阿里巴巴集团控股有限公司 一种目标群体预测方法、装置及设备
CN110136779A (zh) * 2019-05-30 2019-08-16 上海大学 一种生物网络关键差异节点的样本特征提取及预测方法

Also Published As

Publication number Publication date
CN112711643A (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
CN109446994B (zh) 手势关键点检测方法、装置、电子设备及存储介质
CN109447125B (zh) 分类模型的处理方法、装置、电子设备及存储介质
CN109360197B (zh) 图像的处理方法、装置、电子设备及存储介质
CN111539443A (zh) 一种图像识别模型训练方法及装置、存储介质
CN109670077B (zh) 视频推荐方法、装置和计算机可读存储介质
CN111461304B (zh) 分类神经网络的训练方法、文本分类方法、装置及设备
CN111553372B (zh) 一种训练图像识别网络、图像识别搜索的方法及相关装置
CN110688527A (zh) 视频推荐方法、装置、存储介质及电子设备
CN109255128B (zh) 多层级标签的生成方法、装置和存储介质
CN112200040A (zh) 遮挡图像检测方法、装置及介质
CN112131466A (zh) 群组展示方法、装置、系统和存储介质
CN112000266A (zh) 页面展示方法、装置、电子设备及存储介质
CN113312967B (zh) 一种检测方法、装置和用于检测的装置
CN113920293A (zh) 信息识别方法、装置、电子设备及存储介质
CN112015277B (zh) 信息显示方法、装置及电子设备
CN112784151B (zh) 一种确定推荐信息的方法及相关装置
CN110738267B (zh) 图像分类方法、装置、电子设备及存储介质
CN110650364B (zh) 视频态度标签提取方法及基于视频的交互方法
CN111859097B (zh) 数据处理方法、装置、电子设备及存储介质
CN111813932A (zh) 文本数据的处理方法、分类方法、装置及可读存储介质
CN110213062B (zh) 处理消息的方法及装置
CN109842688B (zh) 一种内容推荐方法、装置、电子设备及存储介质
US20220277204A1 (en) Model training method and apparatus for information recommendation, electronic device and medium
CN112711643B (zh) 训练样本集获取方法及装置、电子设备、存储介质
CN111898019B (zh) 信息推送方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant