CN107437095A - 类别确定方法及装置 - Google Patents

类别确定方法及装置 Download PDF

Info

Publication number
CN107437095A
CN107437095A CN201710609544.1A CN201710609544A CN107437095A CN 107437095 A CN107437095 A CN 107437095A CN 201710609544 A CN201710609544 A CN 201710609544A CN 107437095 A CN107437095 A CN 107437095A
Authority
CN
China
Prior art keywords
sample
user account
sample set
sampling
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710609544.1A
Other languages
English (en)
Inventor
钟子宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710609544.1A priority Critical patent/CN107437095A/zh
Publication of CN107437095A publication Critical patent/CN107437095A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种类别确定方法及装置。其中,该方法包括:通过分层随机抽样方法对样本集进行抽样,得到抽样样本集;其中,样本集中的样本元素包括指定对象的用户账号的特征信息和用户账号的类别信息;将抽样样本集作为训练样本集,对用于对待预测用户账号的类别进行预测的预测模型进行训练,得到训练后的预测模型;将待预测用户账号的特征信息输入到训练后的预测模型中,得到待预测用户账号的类别信息。本发明解决了由于采用整体抽样方法对用户进行分类导致分类不准确的技术问题。

Description

类别确定方法及装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种类别确定方法及装置。
背景技术
相关技术中,在机器学习算法框架中使用整体抽样方法对用户进行分类,图1是相关技术中的整体抽样方法的示意图,如图1所述,通过对T期的整体样本进行随机抽样,把抽样样本作为训练样本进行模型训练。该整体抽样方法的主要特点在于:1)不分层抽样:对整体样本进行随机抽样,而没有对样本进行分层。比如在整体样本X1,X2,…,Xn中(用户量标记为MX),直接进行随机抽样,得到抽样样本L1,L2,…,Lk(用户量标记为ML),并且,ML=α·MX(α∈(0,1)表示抽样比例)。2)等概率性:抽取样本的概率是均等的。3)随机性:每个样本的抽取是等概率的偶然形式。
然而,上述整体抽样方法存在下述缺陷:
1)容易造成样本失衡:整体随机抽样的方法由于从整体样本中进行随机抽样,对分类样本的随机抽样来讲,容易造成在各分类样本中抽取的样本量不均衡。
2)样本方差失衡:当整体随机抽样样本出现失衡的时候,会造成样本方差出现偏大或者偏小的偏向性。
3)模型权重失衡:由于样本方差与模型权重大致呈反向关系,因而样本方差失衡也导致模型权重失衡。
因而,由于上述整体抽样方法的上述缺陷会导致训练的模型权重失衡,因而可能导致分类不准确。
针对上述技术问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种类别确定方法及装置,以至少解决由于采用整体抽样方法对用户进行分类导致分类不准确的技术问题。
根据本发明实施例的一个方面,提供了一种类别确定方法,包括:通过分层随机抽样方法对样本集进行抽样,得到抽样样本集;其中,样本集中的样本元素包括指定对象的用户账号的特征信息和用户账号的类别信息;将抽样样本集作为训练样本集,对用于对待预测用户账号的类别进行预测的预测模型进行训练,得到训练后的预测模型;将待预测用户账号的特征信息输入到训练后的预测模型中,得到待预测用户账号的类别信息。
根据本发明实施例的另一方面,还提供了一种类别确定装置,包括:抽样模块,用于通过分层随机抽样方法对样本集进行抽样,得到抽样样本集;其中,样本集中的样本元素包括指定对象的用户账号的特征信息和用户账号的类别信息;训练模块,用于将抽样样本集作为训练样本集,对用于对待预测用户账号的类别进行预测的预测模型进行训练,得到训练后的预测模型;预测模块,用于将待预测用户账号的特征信息输入到训练后的预测模型中,得到待预测用户账号的类别信息。
在本发明实施例中,采用分层随机抽样方法对样本集进行抽样得到的训练样本集对用于预测指定对应的用户账号的类别信息的预测模型进行训练的方式,使得获取到的训练样本集的样本方差更接近于总体方差,因而使得预测的用户账号的类别信息更加准确,从而实现了提高用户账号分类准确性的技术效果,进而解决了由于采用整体抽样方法对用户进行分类导致分类不准确的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是相关技术中的整体抽样方法的示意图;
图2是本发明实施例的一种类别确定方法的移动终端的硬件结构框图;
图3是根据本发明实施例的类别确定方法的流程图;
图4是根据本发明实施例提供的分层随机抽样方法的示意图;
图5是相关技术中采用整体抽样方法对王者荣耀业务进行周预流失关怀的流程示意图;
图6是根据本发明优选实施例提供的一种基于分层抽样方法对王者荣耀业务进行周预流失关怀的流程示意图;
图7是根据本发明优选实施例提供的类别确定装置的结构框图;
图8是根据本发明实施例提供的终端的结构框图;
图9是根据本发明实施例提供的服务器的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图2是本发明实施例的一种类别确定方法的移动终端的硬件结构框图。如图2所示,移动终端20可以包括一个或多个(图中仅示出一个)处理器202(处理器202可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器204、以及用于通信功能的传输装置206。本领域普通技术人员可以理解,图2所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,移动终端20还可包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。
存储器204可用于存储应用软件的软件程序以及模块,如本发明实施例中的类别确定方法对应的程序指令/模块,处理器202通过运行存储在存储器204内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器204可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器204可进一步包括相对于处理器202远程设置的存储器,这些远程存储器可以通过网络连接至移动终端20。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置206用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端20的通信供应商提供的无线网络。在一个实例中,传输装置206包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置206可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本实施例中的类别确定方法运行于上述移动终端中仅是一种示例,本实施例中对此不做任何限定。
在本实施例中,采用分层随机抽样方法对样本集进行抽样得到的训练样本集对用于预测指定对应的用户账号的类别信息的预测模型进行训练的方式,使得获取到的训练样本集的样本方差更接近于总体方差,因而使得预测的用户账号的类别信息更加准确,从而实现了提高用户账号分类准确性的技术效果,进而解决了由于采用整体抽样方法对用户进行分类导致分类不准确的技术问题。
根据本发明实施例,提供了一种类别确定方法,图3是根据本发明实施例的类别确定方法的流程图,如图3所示,该流程包括如下步骤:
步骤S302,通过分层随机抽样方法对样本集进行抽样,得到抽样样本集;其中,样本集中的样本元素包括指定对象的用户账号的特征信息和用户账号的类别信息。
可选地,上述指定对象可以是游戏,比如火影、王者荣耀,地下城与勇士DNF等,但并不限于此,比如上述指定对象还可以是网页。上述用户账号的特征信息可以包括用户账号的身份信息,但并不限于此,比如还可以包括用户账号的属性信息;上述用户账号的身份信息可以包括以下至少之一,但并不限于此:qq号,电话号码,微信号;上述用户账号的属性信息可以包括普通用户账号,VIP用户账号等,但并不限于此。
可选地,上述用户账号的类别信息可以包括以下至少之一,但并不限于此:用户账号在预定时间内登录指定对象,用户账号在预定时间内没有登录指定对象。需要说明的是,上述用户账号的类别信息可以用标识符来表示,上述标识符可以是数字、字母等,但并不限于此。比如可以通过数字来表示用户账号的类别信息,1可以表示用户账号在预定时间内登录指定对象,0可以表示用户账号在预定时间内没有登录指定对象,但并不限于此。
在本实施例中,上述步骤S302可以表现为:按照用户账号的类别信息将样本集进行分层,得到多个子样本集;对多个子样本集中的每一个子样本集进行抽样,得到多个子抽样样本集;将多个子抽样样本集合并,得到抽样样本集。
需要说明的是,对多个子样本集中的每一个子样本集进行抽样,得到多个子抽样样本集可以表现为:按照相同的抽样比例对多个子样本集中的每一个子样本集进行抽样,得到多个子抽样样本集。
需要说明的是,上述多个子样本集中的抽样概率相等。
图4是根据本发明实施例提供的分层随机抽样方法的示意图,如图4所示,该分层随机抽样方法包括:
步骤401分层:在随机抽样前,先对整体样本集(相当于上述的样本集)按整体样本集中的元素的状态特征(相当于上述的类别信息)进行分层。
假设有m个状态,则将整体样本集分成m层。将整体样本集X1,X2,…,Xn(整体样本集包含的元素个数标记为MX)按m个状态分为如下m层:且n1+n2+…+nm=MX;其中,可以认为是一个子样本集,也是一个子样本集,…,同样也是一个子样本集。
需要说明的是,上述整体样本集中包括所有的用户账号以及所有的用户账号的状态特征;上述状态特征可以表示用户账号所处的某一个分类,例如,对于预流失而言,用户账号在某一天内是否登录游戏,那么就有两个状态:登录标记为1,不登录标记为0。
步骤402分层随机抽样:对分层后的每一层的样本集(子样本集)按抽样比例(每一层抽样比例要相同,因为要保证分层抽样的结果不影响整体效果)α∈(0,1)进行随机抽样,在每一个层随机抽取Ki个样本数据(其中:Ki≤ni(i=1,2,…,m)),且K1+K2+…+Km小于等于n1+n2+…+nm;需要说明的是,上述Ki个样本数据可认为是上述的子抽样样本集。
需要说明的是,上述每一层等概率:m层中的层与层之间抽取样本的概率均等。
步骤403分层随机样本合并:在分层随机抽样后,将随机抽取的样本进行合并作为模型训练的训练样本L1,L2,…,Lk(相当于上述的训练样本),该训练样本中的元素个数标记为ML,并且各层随机样本量之和满足:K1+K2+…+Km=ML,因此,合并后的样本量总和满足:ML=α·MX;将剩下的样本,作为测试样本。
步骤S304,将抽样样本集作为训练样本集,对用于对待预测用户账号的类别进行预测的预测模型进行训练,得到训练后的预测模型。
需要说明的是,上述训练样本集中包括的元素所包含的内容与上述样本集中的样本元素包含的内容是相同。
在本实施例中,在上述步骤S304之后,上述方法还可以包括:利用测试样本集对训练后的预测模型进行测试;其中,测试样本集为样本集中除了抽样样本集之外的样本元素组成的集合。
需要说明的是,上述测试样本中的元素所包含的内容与上述样本集中的样本元素包含的内容是相同。
步骤S306,将待预测用户账号的特征信息输入到训练后的预测模型中,得到待预测用户账号的类别信息。
需要说明的是,上述步骤S306中的训练后的预测模型可以是上述测试达标的预测模型。
需要说明的是,上述方法可以应用于对预测样本中的元素进行分类,该预测样本中的元素包括待预测用户账号的特征信息;通过上述方法可以得到上述预测样本中的元素的类别信息,根据该元素的类别信息可以实现对预测样本中的元素的分类。
具体的,结合以下优选的实施例进行说明。以对王者荣耀业务进行周预流失关怀为例进行说明,提前采集大量的数据组成数据源(相当于上述的整体样本),数据源中共包括70个元素,每个元素包括:注册该王者荣耀的一个用户账号和该用户账号的状态特征,需要说明的是,该状态特征可以包括很多,以下以包括两个特征为例进行说明,比如该状态特征用于指示该用户账号在之前的一周内是否登录过王者荣耀,如果登录过,该状态特征为1,没有登录过,该状态特征为0。需要说明的是,在上述数据源中包含上述状态特征为1的元素的个数为30个,包含上述状态特征为0的元素的个数为40个,需要说明的是,上述状态特征是上述类别信息的一种。
需要说明的是,上述用户账号也可以称为静态用户特征,上述用户账号的状态特征也可以称为用户分类标签,但并不限于此。
图5是相关技术中采用整体抽样方法对王者荣耀业务进行周预流失关怀的流程示意图,如图5所示,该流程如下:
步骤501:从上述数据源中随机抽取一定数量的元素,得到抽样样本集,将上述抽样样本集作为训练样本集,将上述数据源中除了上述训练样本集之外的元素组成的集合作为测试样本;比如如果抽样比例为40%的话,那么得到的抽样样本包含的元素个数为28个,需要说明的是,由于是从数据源中随机抽取,因而可能会出现抽样样本集中包含的28个元素都是状态特征为1的元素或者都是状态特征为0的元素,或者包含的状态特征为1的元素少于12个,或者包含的状态特征为0的元素少于16个等,但并不限于此。
步骤502:利用上述训练样本集对预测模型进行训练,得到训练后的预测模型;如果采用上述仅包含28个状态特征为1的元素的训练样本集进行训练的话,该训练模型无法学习到状态特征为0的元素的特征,因而输出的训练后的预测模型的权重会失衡。
步骤503:基于上述测试样本对训练后的预测模型进行测试。
在预测模型输出的用于指示训练后的预测模型的指标参数指示训练后的预测模型符合要求(比如预测的准确率达到90%以上,但并不限于此)的情况下,那么训练后的预测模型可以用于预测注册过该王者荣耀的用户账号在下一周或者下几周的状态特征(可以预测注册过王者荣耀的用户账户的类别)。
步骤504:通过上述测试符合要求的训练后的预测模型对预测样本集进行分类,即将通过上述预测模型预测得到的上述预测样本集中的用户账户的状态特征为1的归为第一类,将通过上述预测模型预测得到的上述预测样本集中的用户账户的状态特征为0的归为第二类。因而针对王者荣耀业务来讲,由于分到第二类的用户账号由于可能在下一周内不登录王者荣耀,因而可能在下一周中第二类的用户账号将会流失。
对于采用整体抽样方法对王者荣耀业务进行周预流失关怀,由于上述步骤501中得到的训练样本集所包含的状态特征为0的元素数量和状态特征为1的元素数量不均衡,导致上述步骤502中训练后的预测模型的权重失衡,因而最终可能导致步骤504中对预测样本集的分类不准确(比如本应该被分为第二类的,预测为第一类),因而导致对对王者荣耀业务进行周预流失关怀不准确。
图6是根据本发明优选实施例提供的一种基于分层抽样方法对王者荣耀业务进行周预流失关怀的流程示意图,如图6所示,该流程如下:
步骤601:按照数据源中用户账号的状态特征将数据源分为两层,一层是状态特征为1的元素组成的第一子样本集,另一层是状态特征为0的元素组成的第二子样本集;
步骤602:对上述第一子样本集和第二子样本集分别按照相同的抽样比例进行抽样,分别得到第一子抽样样本集和第二子抽样样本集;比如第一子样本集包含的元素为特征状态为1的元素,第二子样本集中包含的元素为特征状态为0的元素,如果抽样比例为40%的话,那么得到的第一子抽样样本集中包含的元素个数为12,第二子抽样样本集中包含的元素个数为16个。
需要说明的是,上述第一子样本集和第二子样本集抽取元素的概率是均等的。
步骤603:将上述第一子抽样样本集和第二子抽样样本集合并,得到抽样样本,并将该抽样样本集作为训练样本集,将该数据源中除了该训练样本集之外的元素组成的集合作为测试样本集;比如,在第一子样本集包含的元素个数为30,第二子样本集中包含的元素个数为40,抽样比例为40%的情况下,得到的抽样样本集包含的元素个数为28个。
需要说明的是,上述训练样本集中包含的元素包括用户账号和该用户账号的状态特征;类似地,上述测试样本集中包含的元素也包括用户账号和该用户账号的状态特征。
步骤604:利用上述训练样本集对预测模型进行训练,得到训练后的预测模型;
步骤605:利用上述的测试样本集对训练后的预测模型进行训练,在预测模型输出的用于指示训练后的预测模型的指标参数指示训练后的预测模型符合要求(比如预测的准确率达到90%以上,但并不限于此)的情况下,那么训练后的预测模型可以用于预测注册过该王者荣耀的用户账号在下一周或者下几周的状态特征(可以预测注册过王者荣耀的用户账户的类别)。
步骤606:通过上述测试符合要求的训练后的预测模型对预测样本集进行分类,即将通过上述预测模型预测得到的上述预测样本集中的用户账户的状态特征为1的归为第一类,将通过上述预测模型预测得到的上述预测样本集中的用户账户的状态特征为0的归为第二类。因而针对王者荣耀业务来讲,由于分到第二类的用户账号由于可能在下一周内不登录王者荣耀,因而可能在下一周中第二类的用户账号将会流失。
与相关技术中采用整体抽样方法对王者荣耀业务进行周预流失关怀的方案相比,本优选实施例采用分层抽样方法,使步骤603得到的训练样本集中包含的状态特征为1的元素个数和状态特征为0的元素个数的比例,与上述数据源中的状态特征为1的元素个数和状态特征为0的元素个数的比例相同,即得到的抽样方差更接近于总体方差,不会引用状态特征不同而造成抽样方差有偏性,进而步骤604中得到的训练后的预测模型的权重也更接近于理论,进而使得对预测样本集的分类更加准确,同样对对王者荣耀业务进行周预流失关怀更加准确。
为了具体说明分层随机方法在预流失方案中的应用,基于整体随机方法下的LR模型和基于分层随机方法下的逻辑回归(LR)模型分别对火影、DNF和王者荣耀这三款业务进行了周预流失关怀干预,表1给出了这两种方法的抽样误差、查全率、查准率的对比,如表1所示。
表1
由此可以看出,分层随机抽样方法的LR模型应用于火影、DNF和王者荣耀中,与整体随机抽样方法下的LR模型相比,分层随机抽样有以下优势:
(1)分层随机抽样方案能有效降低抽样误差;
(2)分层随机抽样方案能有效提高模型的查全率和查准率;
(3)分层随机抽样方案使得模型的效果在单一业务中更稳定。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述类别确定方法的类别确定装置,图7是根据本发明优选实施例提供的类别确定装置的结构框图,如图7所示,该装置包括:
抽样模块72,用于通过分层随机抽样方法对样本集进行抽样,得到抽样样本集;其中,样本集中的样本元素包括指定对象的用户账号的特征信息和用户账号的类别信息。
可选地,上述指定对象可以是游戏,比如火影、王者荣耀,地下城与勇士DNF等,但并不限于此,比如上述指定对象还可以是网页。上述用户账号的特征信息可以包括用户账号的身份信息,但并不限于此,比如还可以包括用户账号的属性信息;上述用户账号的身份信息可以包括以下至少之一,但并不限于此:qq号,电话号码,微信号;上述用户账号的属性信息可以包括普通用户账号,VIP用户账号等,但并不限于此。
可选地,上述用户账号的类别信息可以包括以下至少之一,但并不限于此:用户账号在预定时间内登录指定对象,用户账号在预定时间内没有登录指定对象。需要说明的是,上述用户账号的类别信息可以用标识符来表示,上述标识符可以是数字、字母等,但并不限于此。比如可以通过数字来表示用户账号的类别信息,1可以表示用户账号在预定时间内登录指定对象,0可以表示用户账号在预定时间内没有登录指定对象,但并不限于此。
在本实施例中,上述抽样模块72可以包括:分层单元,用于按照用户账号的类别信息将样本集进行分层,得到多个子样本集;抽样单元,与上述分层单元连接,用于对多个子样本集中的每一个子样本集进行抽样,得到多个子抽样样本集;合并单元,与上述抽样单元连接,用于将多个子抽样样本集合并,得到抽样样本集。
可选地,上述抽样单元还可以用于按照相同的抽样比例对多个子样本集中的每一个子样本集进行抽样,得到多个子抽样样本集。
需要说明的是,上述多个子样本集中的抽样概率相等。
具体结合一下示例进行说明,上述分层单元在抽样单元随机抽样前,先对整体样本集(相当于上述的样本集)按整体样本集中的元素的状态特征(相当于上述的类别信息)进行分层。假设有m个状态,则上述分层单元将整体样本集分成m层。将整体样本集X1,X2,…,Xn(整体样本集包含的元素个数标记为MX)按m个状态分为如下m层: 且n1+n2+…+nm=MX;其中,可以认为是一个子样本集,也是一个子样本集,…,同样也是一个子样本集。需要说明的是,上述整体样本集中包括所有的用户账号以及所有的用户账号的状态特征;上述状态特征可以表示用户账号所处的某一个分类,例如,对于预流失而言,用户账号在某一天内是否登录游戏,那么就有两个状态:登录标记为1,不登录标记为0。然后上述抽样单元对分层后的每一层的样本集(子样本集) 按抽样比例(每一层抽样比例要相同,因为要保证分层抽样的结果不影响整体效果)α∈(0,1)进行随机抽样,在每一个层随机抽取Ki个样本数据(其中:Ki≤ni(i=1,2,…,m)),且K1+K2+…+Km小于等于n1+n2+…+nm;需要说明的是,上述Ki个样本数据可认为是上述的子抽样样本集。需要说明的是,上述每一层等概率:m层中的层与层之间抽取样本的概率均等。上述合并单元在上述抽样单元分层随机抽样后,将随机抽取的样本 进行合并作为模型训练的训练样本L1,L2,…,Lk(相当于上述的训练样本),该训练样本中的元素个数标记为ML,并且各层随机样本量之和满足:K1+K2+…+Km=ML,因此,合并后的样本量总和满足:ML=α·MX;将剩下的样本,作为测试样本。
训练模块74,与上述抽样模型72连接,用于将抽样样本集作为训练样本集,对用于对待预测用户账号的类别进行预测的预测模型进行训练,得到训练后的预测模型。
需要说明的是,上述训练样本集中包括的元素所包含的内容与上述样本集中的样本元素包含的内容是相同。
可选地,上述装置还可以包括:测试模块,与上述训练模块74连接,用于利用测试样本集对训练后的预测模型进行测试;其中,测试样本集为样本集中除了抽样样本集之外的样本元素组成的集合。
需要说明的是,上述测试样本中的元素所包含的内容与上述样本集中的样本元素包含的内容是相同。
预测模块76,与上述训练模型74连接,用于将待预测用户账号的特征信息输入到训练后的预测模型中,得到待预测用户账号的类别信息。
通过本实施例提供的上述类别确定装置,采用分层随机抽样方法对样本集进行抽样得到的训练样本集对用于预测指定对应的用户账号的类别信息的预测模型进行训练的方式,使得获取到的训练样本集的样本方差更接近于总体方差,因而使得预测的用户账号的类别信息更加准确,从而实现了提高用户账号分类准确性的技术效果,进而解决了由于采用整体抽样方法对用户进行分类导致分类不准确的技术问题。
需要说明的是,上述装置可以应用于对预测样本中的元素进行分类,该预测样本中的元素包括待预测用户账号的特征信息;上述装置可以得到上述预测样本中的元素的类别信息,根据该元素的类别信息可以实现对预测样本中的元素的分类。
具体的,结合以下优选的实施例进行说明。以对王者荣耀业务进行周预流失关怀为例进行说明,提前采集大量的数据组成数据源(相当于上述的整体样本),数据源中共包括70个元素,每个元素包括:注册该王者荣耀的一个用户账号和该用户账号的状态特征,该状态特征用于指示该用户账号在之前的一周内是否登录过王者荣耀,如果登录过,该状态特征为1,没有登录过,该状态特征为0。需要说明的是,在上述数据源中包含上述状态特征为1的元素的个数为30个,包含上述状态特征为0的元素的个数为40个,需要说明的是,上述状态特征是上述类别信息的一种。
本优选实施例提供的上述类别确定装置基于分层抽样方法对王者荣耀业务进行周预流失关怀的流程如下:
步骤1:抽样模块72中的分层单元按照数据源中用户账号的状态特征将数据源分为两层,一层是状态特征为1的元素组成的第一子样本集,另一层是状态特征为0的元素组成的第二子样本集;
步骤2:抽样模块72中的抽样单元对上述第一子样本集和第二子样本集分别按照相同的抽样比例进行抽样,分别得到第一子抽样样本集和第二子抽样样本集;比如第一子样本集包含的元素为特征状态为1的元素,第二子样本集中包含的元素为特征状态为0的元素,如果抽样比例为40%的话,那么得到的第一子抽样样本集中包含的元素个数为12,第二子抽样样本集中包含的元素个数为16个。
需要说明的是,上述第一子样本集和第二子样本集抽取元素的概率是均等的。
步骤3:抽样模块72中的合并单元将上述第一子抽样样本集和第二子抽样样本集合并,得到抽样样本,并将该抽样样本集作为训练样本集,将该数据源中除了该训练样本集之外的元素组成的集合作为测试样本集;比如,在第一子样本集包含的元素个数为30,第二子样本集中包含的元素个数为40,抽样比例为40%的情况下,得到的抽样样本集包含的元素个数为28个。
需要说明的是,上述训练样本集中包含的元素包括用户账号和该用户账号的状态特征;类似地,上述测试样本集中包含的元素也包括用户账号和该用户账号的状态特征。
步骤4:训练模块74利用上述训练样本集对预测模型进行训练,得到训练后的预测模型;
步骤5:测试模块利用上述的测试样本集对训练后的预测模型进行训练,在预测模型输出的用于指示训练后的预测模型的指标参数指示训练后的预测模型符合要求(比如预测的准确率达到90%以上,但并不限于此)的情况下,那么训练后的预测模型可以用于预测注册过该王者荣耀的用户账号在下一周或者下几周的状态特征(可以预测注册过王者荣耀的用户账户的类别)。
步骤6:预测模块76通过上述测试符合要求的训练后的预测模型对预测样本集进行分类,即将通过上述预测模型预测得到的上述预测样本集中的用户账户的状态特征为1的归为第一类,将通过上述预测模型预测得到的上述预测样本集中的用户账户的状态特征为0的归为第二类。因而针对王者荣耀业务来讲,由于分到第二类的用户账号由于可能在下一周内不登录王者荣耀,因而可能在下一周中第二类的用户账号将会流失。
与相关技术中采用整体抽样方法对王者荣耀业务进行周预流失关怀的方案相比,本优选实施例的上述类别确定装置采用分层抽样方法,使通过抽样模块72得到的训练样本集中包含的状态特征为1的元素个数和状态特征为0的元素个数的比例,与上述数据源中的状态特征为1的元素个数和状态特征为0的元素个数的比例相同,即得到的抽样方差更接近于总体方差,不会引用状态特征不同而造成抽样方差有偏性,进而使得训练模块74训练得到的预测模型的权重也更接近于理论,进而使得对预测样本集的分类更加准确,同样对对王者荣耀业务进行周预流失关怀更加准确。
可选地,上述类别确定装置可以位于终端中,但并不限于此,上述终端可以包括但不限于以下至少之一:手机、平板电脑、笔记本电脑及其他移动硬件设备。
实施例3
根据本发明实施例,还提供了一种用于实施上述类别确定方法的终端,图8是根据本发明实施例提供的终端的结构框图,如图8所示,该终端包括:
处理器82,设置为通过分层随机抽样方法对样本集进行抽样,得到抽样样本集;其中,样本集中的样本元素包括指定对象的用户账号的特征信息和用户账号的类别信息;将抽样样本集作为训练样本集,对用于对待预测用户账号的类别进行预测的预测模型进行训练,得到训练后的预测模型;将待预测用户账号的特征信息输入到训练后的预测模型中,得到待预测用户账号的类别信息;
存储器84,与上述处理器82连接,设置为存储上述样本集、训练样本集和/或经上述预测模型预测得到的待预测用户账号的类别信息。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
实施例4
根据本发明实施例,还提供了一种用于实施上述类别确定方法的服务器,图9是根据本发明实施例提供的服务器的结构框图,如图9所示,该服务器包括:
处理器92,设置为通过分层随机抽样方法对样本集进行抽样,得到抽样样本集;其中,样本集中的样本元素包括指定对象的用户账号的特征信息和用户账号的类别信息;将抽样样本集作为训练样本集,对用于对待预测用户账号的类别进行预测的预测模型进行训练,得到训练后的预测模型;将待预测用户账号的特征信息输入到训练后的预测模型中,得到待预测用户账号的类别信息;
存储器94,与上述处理器92连接,设置为存储上述样本集、训练样本集和/或经上述预测模型预测得到的待预测用户账号的类别信息。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
实施例5
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以位于终端或者服务器中,上述终端可以是上述图2所示的终端或者上述实施例3所示的终端中,上述服务器可以是上述实施例4所示的服务器中。
可选地,在本实施例中,上述存储介质被设置为存储用于执行以下步骤的程序代码:
S1,通过分层随机抽样方法对样本集进行抽样,得到抽样样本集;其中,样本集中的样本元素包括指定对象的用户账号的特征信息和用户账号的类别信息;
S2,将抽样样本集作为训练样本集,对用于对待预测用户账号的类别进行预测的预测模型进行训练,得到训练后的预测模型;
S3,将待预测用户账号的特征信息输入到训练后的预测模型中,得到待预测用户账号的类别信息。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
S1,按照用户账号的类别信息将样本集进行分层,得到多个子样本集;
S2,对多个子样本集中的每一个子样本集进行抽样,得到多个子抽样样本集;
S3,将多个子抽样样本集合并,得到抽样样本集。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行以下步骤的程序代码:
S1,通过分层随机抽样方法对样本集进行抽样,得到抽样样本集;其中,样本集中的样本元素包括指定对象的用户账号的特征信息和用户账号的类别信息;
S2,将抽样样本集作为训练样本集,对用于对待预测用户账号的类别进行预测的预测模型进行训练,得到训练后的预测模型;
S3,将待预测用户账号的特征信息输入到训练后的预测模型中,得到待预测用户账号的类别信息。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行以下步骤的程序代码:
S1,按照用户账号的类别信息将样本集进行分层,得到多个子样本集;
S2,对多个子样本集中的每一个子样本集进行抽样,得到多个子抽样样本集;
S3,将多个子抽样样本集合并,得到抽样样本集。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (11)

1.一种类别确定方法,其特征在于,包括:
通过分层随机抽样方法对样本集进行抽样,得到抽样样本集;其中,所述样本集中的样本元素包括指定对象的用户账号的特征信息和所述用户账号的类别信息;
将所述抽样样本集作为训练样本集,对用于对待预测用户账号的类别进行预测的预测模型进行训练,得到训练后的预测模型;
将所述待预测用户账号的特征信息输入到所述训练后的预测模型中,得到所述待预测用户账号的类别信息。
2.根据权利要求1所述的方法,其特征在于,在将所述抽样样本集作为训练样本集,对用于对待预测用户账号的类别进行预测的预测模型进行训练,得到训练后的预测模型之后,所述方法还包括:
利用测试样本集对所述训练后的预测模型进行测试;其中,所述测试样本集为所述样本集中除了所述抽样样本集之外的样本元素组成的集合。
3.根据权利要求1或2所述的方法,其特征在于,通过分层随机抽样方法对样本集进行抽样,得到抽样样本集包括:
按照所述用户账号的类别信息将所述样本集进行分层,得到多个子样本集;
对所述多个子样本集中的每一个所述子样本集进行抽样,得到多个子抽样样本集;
将所述多个子抽样样本集合并,得到所述抽样样本集。
4.根据权利要求3所述的方法,其特征在于,对所述多个子样本集中的每一个所述子样本集进行抽样,得到多个子抽样样本集包括:
按照相同的抽样比例对所述多个子样本集中的每一个所述子样本集进行抽样,得到多个所述子抽样样本集。
5.根据权利要求3所述的方法,其特征在于,所述多个子样本集中的抽样概率相等。
6.根据权利要求1所述的方法,其特征在于,所述指定对象包括游戏;所述用户账号的类别信息包括以下至少之一:所述用户账号在预定时间内登录所述游戏,所述用户账号在预定时间内没有登录所述游戏。
7.一种类别确定装置,其特征在于,包括:
抽样模块,用于通过分层随机抽样方法对样本集进行抽样,得到抽样样本集;其中,所述样本集中的样本元素包括指定对象的用户账号的特征信息和所述用户账号的类别信息;
训练模块,用于将所述抽样样本集作为训练样本集,对用于对待预测用户账号的类别进行预测的预测模型进行训练,得到训练后的预测模型;
预测模块,用于将所述待预测用户账号的特征信息输入到所述训练后的预测模型中,得到所述待预测用户账号的类别信息。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
测试模块,用于利用测试样本集对所述训练后的预测模型进行测试;其中,所述测试样本集为所述样本集中除了所述抽样样本集之外的样本元素组成的集合。
9.根据权利要求7或8所述的装置,其特征在于,所述抽样模块包括:
分层单元,用于按照所述用户账号的类别信息将所述样本集进行分层,得到多个子样本集;
抽样单元,用于对所述多个子样本集中的每一个所述子样本集进行抽样,得到多个子抽样样本集;
合并单元,用于将所述多个子抽样样本集合并,得到所述抽样样本集。
10.根据权利要求9所述的装置,其特征在于,所述抽样单元还用于按照相同的抽样比例对所述多个子样本集中的每一个所述子样本集进行抽样,得到多个所述子抽样样本集。
11.根据权利要求7所述的装置,其特征在于,所述指定对象包括游戏;所述用户账号的类别信息包括以下至少之一:所述用户账号在预定时间内登录所述游戏,所述用户账号在预定时间内没有登录所述游戏。
CN201710609544.1A 2017-07-24 2017-07-24 类别确定方法及装置 Pending CN107437095A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710609544.1A CN107437095A (zh) 2017-07-24 2017-07-24 类别确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710609544.1A CN107437095A (zh) 2017-07-24 2017-07-24 类别确定方法及装置

Publications (1)

Publication Number Publication Date
CN107437095A true CN107437095A (zh) 2017-12-05

Family

ID=60460129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710609544.1A Pending CN107437095A (zh) 2017-07-24 2017-07-24 类别确定方法及装置

Country Status (1)

Country Link
CN (1) CN107437095A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188796A (zh) * 2019-04-25 2019-08-30 博彦科技股份有限公司 用户识别方法、装置、存储介质和处理器
CN110688273A (zh) * 2018-07-05 2020-01-14 马上消费金融股份有限公司 分类模型的监控方法、装置、终端以及计算机存储介质
CN110909890A (zh) * 2019-12-04 2020-03-24 腾讯科技(深圳)有限公司 游戏人工智能训练方法、装置及服务器和存储介质
CN111833086A (zh) * 2019-04-22 2020-10-27 百度在线网络技术(北京)有限公司 账户分类模型训练方法及装置和账户分类方法及装置
CN112200580A (zh) * 2020-10-12 2021-01-08 绿瘦健康产业集团有限公司 一种用户分类处理方法、装置、介质及终端设备
CN112685674A (zh) * 2020-12-30 2021-04-20 百果园技术(新加坡)有限公司 一种影响用户留存的特征评估方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100241598A1 (en) * 2007-12-18 2010-09-23 Fujitsu Limited Method, program, and apparatus for generating two-class classification/prediction model
CN102063457A (zh) * 2010-09-21 2011-05-18 合肥兆尹信息科技有限责任公司 一种数据分类方法及系统
CN102930007A (zh) * 2012-10-30 2013-02-13 广东电网公司 大面积停电应急处理中的用户复电紧急程度分类方法
CN104794195A (zh) * 2015-04-17 2015-07-22 南京大学 一种用于电信潜在换机用户发现的数据挖掘方法
CN105760889A (zh) * 2016-03-01 2016-07-13 中国科学技术大学 一种高效的不均衡数据集分类方法
CN106658394A (zh) * 2015-11-04 2017-05-10 中国移动通信集团公司 高铁用户分离方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100241598A1 (en) * 2007-12-18 2010-09-23 Fujitsu Limited Method, program, and apparatus for generating two-class classification/prediction model
CN102063457A (zh) * 2010-09-21 2011-05-18 合肥兆尹信息科技有限责任公司 一种数据分类方法及系统
CN102930007A (zh) * 2012-10-30 2013-02-13 广东电网公司 大面积停电应急处理中的用户复电紧急程度分类方法
CN104794195A (zh) * 2015-04-17 2015-07-22 南京大学 一种用于电信潜在换机用户发现的数据挖掘方法
CN106658394A (zh) * 2015-11-04 2017-05-10 中国移动通信集团公司 高铁用户分离方法及装置
CN105760889A (zh) * 2016-03-01 2016-07-13 中国科学技术大学 一种高效的不均衡数据集分类方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688273A (zh) * 2018-07-05 2020-01-14 马上消费金融股份有限公司 分类模型的监控方法、装置、终端以及计算机存储介质
CN110688273B (zh) * 2018-07-05 2021-02-19 马上消费金融股份有限公司 分类模型的监控方法、装置、终端以及计算机存储介质
CN111833086A (zh) * 2019-04-22 2020-10-27 百度在线网络技术(北京)有限公司 账户分类模型训练方法及装置和账户分类方法及装置
CN111833086B (zh) * 2019-04-22 2024-04-23 百度在线网络技术(北京)有限公司 账户分类模型训练方法及装置和账户分类方法及装置
CN110188796A (zh) * 2019-04-25 2019-08-30 博彦科技股份有限公司 用户识别方法、装置、存储介质和处理器
CN110909890A (zh) * 2019-12-04 2020-03-24 腾讯科技(深圳)有限公司 游戏人工智能训练方法、装置及服务器和存储介质
CN112200580A (zh) * 2020-10-12 2021-01-08 绿瘦健康产业集团有限公司 一种用户分类处理方法、装置、介质及终端设备
CN112685674A (zh) * 2020-12-30 2021-04-20 百果园技术(新加坡)有限公司 一种影响用户留存的特征评估方法及装置

Similar Documents

Publication Publication Date Title
CN107437095A (zh) 类别确定方法及装置
CN109684478A (zh) 分类模型训练方法、分类方法及装置、设备和介质
CN108427708A (zh) 数据处理方法、装置、存储介质和电子装置
CN110147711A (zh) 视频场景识别方法、装置、存储介质和电子装置
CN109508789A (zh) 预测手牌的方法、存储介质、处理器以及设备
CN109360097A (zh) 基于深度学习的股票预测方法、装置、设备及存储介质
CN106503006A (zh) 应用App中子应用的排序方法及装置
CN108073659A (zh) 一种婚恋对象推荐方法及装置
CN107735829A (zh) 用于评价构想创造力的联机测试方法及联机测试服务器
CN103761254A (zh) 多领域服务主题匹配推荐方法
CN107798027A (zh) 一种信息热度预测方法、信息推荐方法及装置
CN106815226A (zh) 文本匹配方法和装置
CN109086814A (zh) 一种数据处理方法、装置及网络设备
CN107689968A (zh) 任务的处理系统、方法及装置
CN109063935A (zh) 一种预测任务处理时间的方法、装置及存储介质
CN108304853A (zh) 游戏相关度的获取方法、装置、存储介质和电子装置
CN110288350A (zh) 用户价值预测方法、装置、设备及存储介质
CN109903103A (zh) 一种推荐物品的方法和装置
CN107590741A (zh) 一种预测图片流行度的方法及系统
CN111738785A (zh) 选品方法、系统及存储介质
CN109426985A (zh) 信息处理方法、装置、计算机设备和存储介质
CN102664744A (zh) 网络消息通信中群发推荐的方法
CN109753275A (zh) 应用编程接口的推荐方法、装置、存储介质和电子设备
CN114638391A (zh) 运单风险场景识别处理方法、装置、计算机设备和介质
CN106257507A (zh) 用户行为的风险评估方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171205

RJ01 Rejection of invention patent application after publication