CN111444930B - 一种确定二分类模型的预测效果的方法及装置 - Google Patents

一种确定二分类模型的预测效果的方法及装置 Download PDF

Info

Publication number
CN111444930B
CN111444930B CN201910043305.3A CN201910043305A CN111444930B CN 111444930 B CN111444930 B CN 111444930B CN 201910043305 A CN201910043305 A CN 201910043305A CN 111444930 B CN111444930 B CN 111444930B
Authority
CN
China
Prior art keywords
sample data
data
prediction
positive sample
negative sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910043305.3A
Other languages
English (en)
Other versions
CN111444930A (zh
Inventor
林淼哲
方桢
张峻滔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Youkun Information Technology Co ltd
Original Assignee
Shanghai Youkun Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Youkun Information Technology Co ltd filed Critical Shanghai Youkun Information Technology Co ltd
Priority to CN201910043305.3A priority Critical patent/CN111444930B/zh
Publication of CN111444930A publication Critical patent/CN111444930A/zh
Application granted granted Critical
Publication of CN111444930B publication Critical patent/CN111444930B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种确定二分类模型的预测效果的方法及装置,其中方法包括:获取P个正样本数据和Q个负样本数据,并根据P个正样本数据和Q个负样本数据,得到M个二分类模型,针对于第i个二分类模型,使用第i个二分类模型对R个正样本数据和K个负样本数据进行预测,得到R+K个样本数据的预测分值,进而根据R+K个样本数据的预测分值中至少一个正样本数据的预测分值,确定第i个二分类模型的预测效果。本发明实施例提供了一种根据正样本数据的预测分值确定二分类模型的预测效果的方法,通过基于M个样本数据的预测效果衡量机器学习的质量,可以有效确定二分类模型的预测效果。

Description

一种确定二分类模型的预测效果的方法及装置
技术领域
本发明涉及数据处理领域,尤其涉及一种确定二分类模型的预测效果的方法及装置。
背景技术
在机器学习领域中,通常可以根据用户输入的样本数据训练得到多个模型,进而使用每个模型对待预测数据进行预测,并根据待预测数据对应的预测结果,确定待预测数据的类型。比如,以二分类模型为例,预测结果可以由标签“0”和标签“1”来表示,在使用二分类模型对待预测数据进行预测时,若待预测数据对应的预测结果大于或者等于预设阈值,则可以认为待预测数据为标签“1”对应的类型,相应地,若待预测数据对应的预测结果小于预设阈值,则可以认为待预测数据为标签“0”对应的类型。
在实际应用中,由于采用的训练方式不同,或者使用的样本数据不同,可能会使得训练得到的多个二分类模型的预测效果不同。若二分类模型的预测效果较好,则使用二分类模型对待预测数据进行预测得到的预测结果很可能与待预测数据的真实类型相同,若二分类模型的预测效果较差,则使用二分类模型对待预测数据进行预测得到的预测结果很可能与待预测数据的真实类型不同。由此可知,在使用二分类模型对待预测数据进行预测之前,确定训练得到的二分类模型的效果是非常重要的,然而,目前还未有一种比较完善地能够有效确定二分类模型的预测效果的方法。
综上,目前亟需一种确定二分类模型的预测效果的方法,用以有效确定二分类模型的预测效果。
发明内容
本发明实施例提供一种确定二分类模型的预测效果的方法,用以有效确定二分类模型的预测效果。
本发明实施例提供的一种确定二分类模型的预测效果的方法,所述方法包括:
获取P个正样本数据和Q个负样本数据,所述正样本数据为已知对目标对象感兴趣的用户的数据,所述负样本数据为未知是否对所述目标对象感兴趣的用户的数据;
根据所述P个正样本数据和所述Q个负样本数据,得到M个二分类模型;其中,所述M个二分类模型为同一类型的二分类模型,且所述M个二分类模型的模型参数互不相同;或者,所述M个二分类模型为不同类型的二分类模型;
获取验证数据,所述验证数据包括R个正样本数据和K个负样本数据;所述R个正样本数据中包括除所述P个正样本数据以外的正样本数据;
针对于第i个二分类模型,使用所述第i个二分类模型对所述验证数据进行预测,得到R+K个样本数据的预测分值;根据所述R+K个样本数据的预测分值中至少一个正样本数据的预测分值,确定所述第i个二分类模型的预测效果;
其中,P、Q、M、R、K均为正整数,i=1,……,M。
可选地,所述根据所述R+K个样本数据的预测分值中至少一个正样本数据的预测分值,确定所述第i个二分类模型的预测效果,包括:
根据所述R+K个样本数据的预测分值,得到预测分值最大的W个预测分值;
根据所述W个预测分值中包括的正样本数据的预测分值的数量,确定所述第i个二分类模型的预测效果。
可选地,所述根据所述P个正样本数据和所述Q个负样本数据,得到M个二分类模型,包括:
根据所述P个正样本数据和所述Q个负样本数据的特征,从所述Q个负样本数据中筛选出R个可信负样本数据;所述可信负样本数据为对所述目标对象可能不感兴趣的用户的数据;
基于M种预设训练算法分别对所述P个正样本数据和所述R个可信负样本数据进行训练,得到与所述M种预设训练算法对应的M个二分类模型;所述M种预设训练算法包括逻辑回归算法、支持向量机算法和单层感知机算法中的任意一个或任意多个。
可选地,所述根据所述P个正样本数据和所述Q个负样本数据,得到M个二分类模型,包括:
基于M种预设筛选算法分别从所述Q个负样本数据中筛选出R个可信负样本数据;所述可信负样本数据为对所述目标对象可能不感兴趣的用户的数据;所述M种预设训练算法包括亲密算法、贝叶斯算法和聚类算法中的任意一个或任意多个;
使用所述P个正样本数据和基于所述M种预设筛选算法分别筛选得到的R个可信负样本数据进行模型训练,得到所述M种预设筛选算法对应的M个二分类模型。
可选地,所述方法还包括:根据所述M个二分类模型的预测效果,从所述M个二分类模型中确定出预测效果最好的目标二分类模型;使用所述目标二分类模型对待预测数据进行预测,得到所述待预测数据对应的预测分值,若所述待预测数据对应的预测分值大于预设阈值,则确定所述待预测数据为所述正样本数据。
本发明实施例提供的一种确定二分类模型的预测效果的装置,所述装置包括:
获取模块,用于获取P个正样本数据和Q个负样本数据,所述正样本数据为已知对目标对象感兴趣的用户的数据,所述负样本数据为未知是否对所述目标对象感兴趣的用户的数据;以及获取验证数据,所述验证数据包括R个正样本数据和K个负样本数据;所述R个正样本数据中包括除所述P个正样本数据以外的正样本数据;
训练模块,用于根据所述P个正样本数据和所述Q个负样本数据,得到M个二分类模型;其中,所述M个二分类模型为同一类型的二分类模型,且所述M个二分类模型的模型参数互不相同;或者,所述M个二分类模型为不同类型的二分类模型;
确定模块,用于针对于第i个二分类模型,使用所述第i个二分类模型对所述验证数据进行预测,得到R+K个样本数据的预测分值;根据所述R+K个样本数据的预测分值中至少一个正样本数据的预测分值,确定所述第i个二分类模型的预测效果;
其中,P、Q、M、R、K均为正整数,i=1,……,M。
可选地,所述确定模块用于:根据所述R+K个样本数据的预测分值,得到预测分值最大的W个预测分值;根据所述W个预测分值中包括的正样本数据的预测分值的数量,确定所述第i个二分类模型的预测效果。
可选地,所述训练模块用于:根据所述P个正样本数据和所述Q个负样本数据的特征,从所述Q个负样本数据中筛选出R个可信负样本数据;所述可信负样本数据为对所述目标对象可能不感兴趣的用户的数据;
基于M种预设训练算法分别对所述P个正样本数据和所述R个可信负样本数据进行训练,得到与所述M种预设训练算法对应的M个二分类模型;所述M种预设训练算法包括逻辑回归算法、支持向量机算法和单层感知机算法中的任意一个或任意多个。
可选地,所述训练模块用于:基于M种预设筛选算法分别从所述Q个负样本数据中筛选出R个可信负样本数据;所述可信负样本数据为对所述目标对象可能不感兴趣的用户的数据;所述M种预设训练算法包括亲密算法、贝叶斯算法和聚类算法中的任意一个或任意多个;
使用所述P个正样本数据和基于所述M种预设筛选算法分别筛选得到的R个可信负样本数据进行模型训练,得到所述M种预设筛选算法对应的M个二分类模型。
可选地,所述装置还包括预测模块,所述预测模块用于:
根据所述M个二分类模型的预测效果,从所述M个二分类模型中确定出预测效果最好的目标二分类模型;使用所述目标二分类模型对待预测数据进行预测,得到所述待预测数据对应的预测分值,若所述待预测数据对应的预测分值大于预设阈值,则确定所述待预测数据为所述正样本数据。
本发明的上述实施例中,获取P个正样本数据和Q个负样本数据,并根据P个正样本数据和Q个负样本数据,得到M个二分类模型,其中,M个二分类模型为同一类型的二分类模型,且M个二分类模型的模型参数互不相同,或者,M个二分类模型为不同类型的二分类模型;进一步地,针对于第i个二分类模型,可以使用第i个二分类模型对R个正样本数据和K个负样本数据进行预测,得到R+K个样本数据的预测分值,并根据R+K个样本数据的预测分值中至少一个正样本数据的预测分值,确定第i个二分类模型的预测。本发明实施例提供了一种根据正样本数据的预测分值确定二分类模型的预测效果的方法,使得用户可以通过正样本数据确定二分类模型的预测效果,而无需使用确信负样本数据(即对目标对象不兴趣的用户数据),从而可以适用于多种应用场合(比如,互联网营销系统),用户的体验较好;且,通过确定M个二分类模型的预测效果,可以采用M个二分类模型预测效果最好的二分类模型对待预测数据进行预测,从而提高预测结果的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种互联网营销系统的架构示意图;
图2为本发明实施例提供的一种确定二分类模型的预测效果的方法对应的流程示意图;
图3为本发明实施例提供的一种确定二分类模型的预测效果的装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种互联网营销系统的架构示意图,该架构可以应用于互联网营销模式下的人群扩散业务场景中。如图1所示,该架构中可以包括营销商110和营销平台120,营销商110可以通过营销平台120获取对目标对象感兴趣的用户,并可以将营销广告投放给用户。其中,目标对象可以是指广告、应用、音乐、视频、新闻资讯、产品等,具体不做限定;举例来说,营销商所经营的目标对象为产品A,则可以根据营销平台120获取对产品A感兴趣的用户,从而增加收益。
具体实施中,营销商110可以将已有的用户作为种子用户,并将种子用户的标识提交给营销平台120,其中,种子用户可以为已知对目标对象感兴趣的用户,比如,可以为已经购买过产品A的用户,或者可以为已确定的潜在用户。相应地,营销平台120中可以设置有预设数据库,预设数据库中可以存储有多个用户的数据,每个用户的数据可以称为一个样本数据。营销平台120在接收到种子用户的标识后,可以根据种子用户的标识和预设数据库的多个样本数据中确定出目标用户,并将目标用户的标识反馈给营销商110。进一步地,营销商110可以在接收到营销平台120发送的反馈信息后,向目标用户投放广告。
在一个示例中,如图1所示,营销平台120的预设数据库中存储有用户131~用户139的数据,营销平台120在接收到营销商110发送的种子用户的标识后,确定出目标用户包括用户131、用户134和用户138,因此可以将包括用户131、用户132和用户133的标识的反馈信息发送给营销商110。此时,营销商110分别向用户131、用户134和用户139投放广告。
为了确定二分类模型的预测效果,在一种可能的实现方式中,可以根据营销商输入的对目标对象感兴趣的用户的数据(即正样本数据)和对目标对象不感兴趣的用户的数据(即确信负样本数据),确定二分类模型的预测效果。具体地说,在接收到营销商提供的样本数据后,可以选择一部分正样本数据和一部分确信负样本数据作为训练数据,除训练数据以外的正样本数据和确信负样本数据作为验证数据;实际操作中,可以使用训练数据训练得到二分类模型,并使用该二分类模型对验证数据进行预测,根据验证数据中每一个正样本数据和每一个确信负样本数据的预测结果的准确性,确定该二分类模型的预测效果。
预测结果的准确性可以体现在多个方面,比如预测精准率、接收者操作特征曲线下方的面积(Area under the Curve of Receiver Operating Characteristic Curve,AUC)值、柯尔莫哥洛夫-斯摩洛夫(Kolmogorov-Smirnov,K-S)值等。预测精准率可以为验证结果正确的样本数据(包括正样本数据和确信负样本数据)的数量与样本数据的总数量的比值,比如,验证数据包括20个正样本数据和20个确信负样本数据,有15个正样本数据和10个确信负样本数据的预测结果是正确的,则预测精准率可以为(15+10)/(20+20),即为87.5%。AUC值可以通过如下方法确定:使用二分类模型对验证数据中的每一个样本数据进行预测,得到每一个样本数据的预测分值,对多个预测分值进行排序,并依次取每个预测分值作为阈值,根据阈值和多个预测分值,绘制该预测分值作为阈值时该样本数据对应的坐标点,进一步地,可以将每一个样本数据对应的坐标点平滑连接为曲线,计算曲线下的面积。K-S值为通过对AUC值所使用的曲线进行变形得到的,比如,可以将AUC值所使用的曲线的横纵坐标均转化为纵坐标,阈值作为横坐标,如此即可得到新的曲线,计算该曲线下的面积即为K-S值。具体实施中,AUC值和K-S值可以通过现有技术确定,本发明实施例不作赘述。
综上所述,采用上述方法确定二分类模型的预测效果时,需要用户同时提供正样本数据和确信负样本数据,且所采用的验证数据也需要包括正样本数据和确信负样本数据,也就是说,上述方法需要通过正样本数据和确信负样本数据来确定二分类模型的预测效果。然而,在互联网营销模式下,营销商提供的样本数据中通常仅包括正样本数据,即营销商仅提供了对营销商营销的产品感兴趣的用户的数据,且在互联网营销模式中确信负样本数据始终是未知的,在这种情况下,无法采用上述方法确定二分类模型的预测效果。
由此可知,目前亟需一种确定二分类模型的预测效果的方法,用以有效确定二分类模型的预测效果。
图2为本发明实施例提供的一种确定二分类模型的预测效果的方法对应的整体流程图,在该方法中,具体描述根据营销商提供的种子数据得到二分类模型的过程(训练阶段)和对二分类模型的预测效果进行验证的过程(验证阶段)。如图2所示,该方法包括:
步骤201,获取P个正样本数据和Q个负样本数据。
此处,正样本数据可以为已知对目标对象感兴趣的用户的数据,负样本数据可以为未知是否对目标对象感兴趣的用户的数据。在一个示例中,正样本数据和负样本数据可以均为预设数据库中存储的样本数据,正样本数据可以为根据营销商发送的种子用户的标识得到的,负样本数据可以为预设数据库中除正样本数据外的其它样本数据。
具体实施中,可以在接收到营销商发送的种子用户的标识后,将种子用户的标识与预设数据库中存储的多个样本数据进行匹配,并将匹配成功的样本数据作为正样本数据;相应地,可以将除正样本数据以外的样本数据作为负样本数据。比如,种子用户的标识包括用户A使用的终端设备的标识,则通过将用户A使用的终端设备的标识与预设数据库中存储的多个样本数据(每个样本数据中包括该样本数据对应的用户使用的终端设备的标识)进行匹配,匹配成功的样本数据即为用户A的数据,并可以将用户A的数据作为一个正样本数据。
本发明实施例中,P个正样本数据可以为预设数据库中的所有正样本数据,或者也可以为预设数据库中的部分正样本数据,Q个负样本数据可以为预设数据库中除正样本数据以外的所有样本数据,或者也可以为预设数据库中除正样本数据以外的部分样本数据,具体不作限定。举例来说,预设数据库中存储有1000个样本数据,通过将种子数据的标识与预设数据库中存储的多个样本数据进行匹配,确定预设数据库中包括200个正样本数据,则P个正样本数据可以为200个正样本数据,或者也可以为200个正样本数据中的100个正样本数据,Q个负样本数据可以为1000个样本数据中除200正样本数据以外的800个样本数据,或者也可以为1000个样本数据中除200正样本数据以外的800个样本数据中的600个样本数据。
步骤202,根据P个正样本数据和Q个负样本数据,得到M个二分类模型。
在一种可能的实现方式(为便于描述,简称为实现方式1)中,可以根据P个正样本数据和Q个负样本数据的特征,采用预设筛选算法从Q个负样本数据中筛选出R个可信负样本数据,可信负样本数据为对目标对象可能不感兴趣的用户的数据。其中,预设筛选算法可以为根据实际业务需要编写的筛选算法,或者也可以为现有的筛选算法,具体不作限定。进一步地,可以基于M种预设训练算法分别对P个正样本数据和R个可信负样本数据进行训练,得到与M种预设训练算法对应的M个二分类模型。其中,M种预设训练算法可以包括逻辑回归算法、支持向量机算法和单层感知机算法中的任意一个或任意多个,逻辑回归算法对应的二分类模型为逻辑回归模型,支持向量机算法对应的二分类模型为支持向量机模型,单层感知机算法对应的二分类模型为单层感知机模型。
在实现方式1中,M个二分类模型是基于相同的训练样本数据(即P个正样本数据和R个可信负样本数据),并采用不同的预设训练算法得到的,因此,M个二分类模型可以为不同类型的M个二分类模型。比如,确定训练样本数据为100个正样本数据和600个负样本数据后,采用3种预设训练算法(逻辑回归算法、支持向量机算法和单层感知机算法)分别对100个正样本数据和600个负样本数据进行模型训练,可以得到3个不同类型的二分类模型,分别为逻辑回归模型、支持向量机模型和单层感知机模型。
以基于支持向量机算法训练得到支持向量机模型的过程为例,具体实施中,可以根据P个正样本数据和R个可信负样本数据的特征,得到P个正样本数据的特征序列和R个可信负样本数据的特征序列,每个样本数据的特征序列可以为一个多维的向量。进一步地,模型训练系统可以基于P个正样本数据和Q负样本数据的特征序列分别将P个正样本数据和Q负样本数据映射到高维特征空间,并通过调整模型参数,得到超平面,高维特征空间的维度和特征序列的维数可以相同。超平面可以将正样本数据和负样本数据区分开,具体地说,超平面的一侧可以为正样本空间,正样本数据位于正样本空间内;相应地,超平面的另一侧可以为负样本空间,负样本数据位于负样本空间内。
本发明实施例中,基于其它预设筛选算法训练得到其它类型的二分类模型时,可以根据P个正样本数据和R个可信负样本数据的特征,得到不同的模型输入参数,比如代价函数,并可以基于不同的模型输入参数进行模型训练,此处不再赘述。
在另一种可能的实现方式(为便于描述,简称为实现方式2)中,可以基于M种预设筛选算法分别从Q个负样本数据中筛选出R个可信负样本数据,其中,M种预设训练算法可以包括亲密算法、贝叶斯算法和聚类算法中的任意一个或任意多个。进一步地,可以基于同一个预设训练算法,使用P个正样本数据和基于M种预设筛选算法分别筛选得到的R个可信负样本数据进行模型训练,得到M种预设筛选算法对应的M个二分类模型。其中,预设训练算法可以为根据实际情况编写的,或者也可以为现有的训练算法,具体不作限定。
在实现方式2中,M个二分类模型是基于不同的训练样本数据,并采用相同的预设训练算法得到的,因此,M个二分类模型可以为同一类型且模型参数互不相同的M个二分类模型。比如,预设训练算法为支持向量机算法,则M个二分类模型可以为M个模型参数互不相同的支持向量机模型。举例来说明,分别使用亲密算法、贝叶斯算法和聚类算法对1000个负样本数据进行筛选后,得到亲密算法对应的600个可信负样本数据(可信负样本数据集1)、贝叶斯算法对应的600个可信负样本数据(可信负样本数据集2)和聚类算法对应的600个可信负样本数据(可信负样本数据集3),其中,可信负样本数据集1、可信负样本数据集2和可信负样本数据集3的每个可信负样本数据集中均包括另外两个可信负样本数据集中任一个可信负样本数据集不包括的负样本数据,即可信负样本数据集1、可信负样本数据集2和可信负样本数据集3互不相同。进一步地,可以采用支持向量机算法对100个正样本数据和可信负样本数据集1进行模型训练,得到二分类模型1;采用支持向量机算法对100个正样本数据和可信负样本数据集2进行模型训练,得到二分类模型2;采用支持向量机算法对100个正样本数据和可信负样本数据集3进行模型训练,得到二分类模型3,则二分类模型1、二分类模型2和二分类模型3均可以为支持向量机模型,且二分类模型1、二分类模型2和二分类模型3的模型参数互不相同。
以基于贝叶斯算法从800个样本数据中筛选出600个可信负样本数据的过程为例,具体实施中,可以采用连续型贝叶斯算法对600个负样本数据中的每一个负样本数据进行计算,根据每一个负样本数据和P个正样本数据的差异值以及每一个负样本数据和800个负样本数据的差异值,确定每一个负样本数据是否为不可信负样本数据,不可信负样本数据可以为对目标对象可能感兴趣的用户的数据。进一步地,可以从800个负样本数据中除不可信负样本数据以外的T个负样本数据中确定600个负样本数据为可信负样本数据。若T>R,比如T为700,则可以对700个负样本数据中每一个负样本数据和P个正样本数据的差异值按照从大到小的顺序进行排序,选取靠前的600个负样本数据为600个可信负样本数据。若T<R,比如T为500,在一个示例中,可以使用P个正样本数据和500个负样本数据进行模型训练;在另一个示例中,可以根据800个负样本数据中除500个负样本数据以外的300个负样本数据中每个负样本数据和P个正样本数据的差异值,从300个负样本数据中筛选出差异值较大的100个负样本数据,将500个负样本数据和这100个负样本数据共同作为600个可信负样本数据。
在又一种可能的实现方式(为便于描述,简称为实现方式3)中,可以基于X种预设筛选算法分别从Q个负样本数据中筛选出R个可信负样本数据,针对于每种预设筛选算法筛选出的R个可信负样本数据,可以基于Y种预设训练算法对P个正样本数据和R个可信负样本数据进行训练,得到Y个二分类模型。举例来说明,分别使用亲密算法、贝叶斯算法和聚类算法对1000个负样本数据进行筛选后,针对于100个正样本数据和每种预设筛选算法筛选得到的600个可信负样本数据,分别基于逻辑回归算法、支持向量机算法和单层感知机算法进行模型训练,可以得到9个二分类模型。其中,9个二分类模型中包括三种类型的二分类模型,第一种类型的二分类模型为逻辑回归模型,包括模型参数互不相同的3个二分类模型;第二种类型的二分类模型为支持向量机模型,包括模型参数互不相同的3个二分类模型;第三种类型的二分类模型为单层感知机模型,包括模型参数互不相同的3个二分类模型。
在实现方式3中,M个二分类模型是基于不同的训练样本数据,并采用不同的预设训练算法得到的,因此,M个二分类模型可以包括不同类型的二分类模型,且每个类型的二分类模型可以包括模型参数互不相同的多个二分类模型。
上述步骤201至步骤203具体描述了训练阶段的实现过程,下面针对于确定二分类模型的预测效果(即验证阶段)的实现进行说明。
步骤203,获取验证数据,验证数据包括R个正样本数据和K个负样本数据。
此处,R个正样本数据中可以包括除P个正样本数据以外的正样本数据。在一种可能的实现方式中,R个正样本数据可以为根据营销商发送的种子数据的标识得到的,比如,在步骤201中,将营销商发送的种子数据的标识与预设数据库中存储的正样本数据匹配后,确定正样本数据为200个,在步骤202中可以选择150个正样本数据训练模型,将另外的50个正样本数据作为R个正样本数据;或者也可以从150个正样本数据中选择20个正样本数据,并从50个正样本数据中选择30个正样本数据,将这50个正样本数据作为R个正样本数据,具体不作限定。
步骤204,确定M个二分类模型中每个二分类模型的预测效果。
以二分类模型A为例描述确定二分类模型A的预测效果的实现过程,确定其它二分类模型的预测效果可以参照确定二分类模型A的预测效果的实现过程进行实施。
本发明实施例中,可以使用二分类模型A对验证数据进行预测,得到R+K个样本数据的预测分值,本发明实施例中,样本数据的预测分值越大,说明该样本数据为正样本数据的可能性越大,样本数据的预测分值越小,说明该样本数据为正样本数据的可能性越小。进一步地,可以根据R+K个样本数据的预测分值中至少一个正样本数据的预测分值,确定二分类模型A的预测效果。
具体实施中,确定二分类模型A的预测效果的方式可以有多种,在一种可能的实现方式中,可以对R+K个样本数据的预测分值按照从大到小的顺序进行排序,并获取前W个样本数据的预测分值,进而根据W个样本数据的预测分值中包括的正样本数据的预测分值的数量,确定二分类模型A的预测效果。举例来说明,W取值为100,使用二分类模型A对100个正样本数据和600个负样本数据进行预测后,确定预测分值较大的100个样本数据中包括60个正样本数据和40个负样本数据,则后续可以根据60个正样本数据确定二分类模型A的预测效果。
在示例1中,可以设置第一预设阈值,若W个样本数据的预测分值中包括的正样本数据的预测分值的数量大于或者等于第一预设阈值,则可以确定二分类模型A的预测效果较好;若W个样本数据的预测分值中包括的正样本数据的预测分值的数量小于第一预设阈值,则可以确定二分类模型A的预测效果较差。其中,第一预设阈值可以由本领域技术人员根据实际情况进行设置,具体不作限定。比如,若第一预设阈值为80,由于前W个正样本数据的预测分值中包括的正样本数据的预测分值的数量为60,60<80,因此,二分类模型A的效果较差。
在另一个示例中,可以记录M个二分类模型中每一个二分类模型对应的前W个样本数据的预测分值中包括的正样本数据的预测分值的数量(简称为正样本数据的数量),并可以按照正样本数据的数量从大到小的顺序对M个二分类模型排序,位于序列前的二分类模型的预测效果较好,位于序列后的二分类模型的预测效果较差。比如,二分类模型1~3对应的正样本数据的数量分别为60、95、70,则可以确定二分类模型2的预测效果最好,二分类模型1的预测效果较差,二分类模型3的预测效果处于二分类模型2的预测效果和二分类模型1的预测效果之间。
在示例2中,可以根据R+K个样本数据的预测分值确定R+K个样本数据的预测标签,比如,预测分值大于或者等于第二预设阈值的样本数据为正样本数据,预测分值小于第二预设阈值的样本数据为负样本数据;通过确定预测标签与真实标签相同(即预测效果正确)的正样本数据的数量,确定二分类模型A的预测效果(可以参照示例1和示例2进行实施,具体不作赘述)。其中,第二预设阈值可以由本领域技术人员根据实际情况进行设置,或者也可以根据实验进行确定,具体不作限定。
上述步骤203至步骤204具体描述了验证阶段的实现过程,下面针对于使用预测效果最好的二分类模型对待预测数据进行预测(即预测阶段)的实现进行说明。
具体实施中,可以根据M个二分类模型的预测效果,从M个二分类模型中确定出预测效果最好的目标二分类模型,进一步地,可以使用目标二分类模型对待预测数据进行预测,得到待预测数据对应的预测分值,若待预测数据对应的预测分值大于第三预设阈值,则可以确定待预测数据为正样本数据。
以目标二分类模型为支持向量机模型为例,可以在获取到待预测数据后,确定待预测数据对应的特征序列,并可以将待预测数据的特征序列输入模型训练系统中,此时,模型训练系统可以将待预测数据映射在训练得到的目标二分类模型中。若待预测数据位于超平面的一侧,即待预测数据位于正样本空间中,则可以确定待预测数据为正样本数据;若待预测数据位于超平面的另一侧,即待预测数据位于负样本空间中,则可以确定待预测数据为负样本数据。
本发明的上述实施例中,获取P个正样本数据和Q个负样本数据,并根据P个正样本数据和Q个负样本数据,得到M个二分类模型,其中,M个二分类模型为同一类型的二分类模型,且M个二分类模型的模型参数互不相同,或者,M个二分类模型为不同类型的二分类模型;进一步地,针对于第i个二分类模型,可以使用第i个二分类模型对R个正样本数据和K个负样本数据进行预测,得到R+K个样本数据的预测分值,并根据R+K个样本数据的预测分值中至少一个正样本数据的预测分值,确定第i个二分类模型的预测。本发明实施例提供了一种根据正样本数据的预测分值确定二分类模型的预测效果的方法,使得用户可以通过正样本数据确定二分类模型的预测效果,而无需使用确信负样本数据(即对目标对象不兴趣的用户数据),从而可以适用于多种应用场合(比如,互联网营销系统),用户的体验较好;且,通过确定M个二分类模型的预测效果,可以采用M个二分类模型预测效果最好的二分类模型对待预测数据进行预测,从而提高预测结果的准确性。
针对上述方法流程,本发明实施例还提供一种模型训练装置,该装置的具体内容可以参照上述方法实施。
图3为本发明实施例提供的一种确定二分类模型的预测效果的装置的结构示意图,该装置包括:
获取模块301,用于获取P个正样本数据和Q个负样本数据,所述正样本数据为已知对目标对象感兴趣的用户的数据,所述负样本数据为未知是否对所述目标对象感兴趣的用户的数据;以及获取验证数据,所述验证数据包括R个正样本数据和K个负样本数据;所述R个正样本数据中包括除所述P个正样本数据以外的正样本数据;
训练模块302,用于根据所述P个正样本数据和所述Q个负样本数据,得到M个二分类模型;其中,所述M个二分类模型为同一类型的二分类模型,且所述M个二分类模型的模型参数互不相同;或者,所述M个二分类模型为不同类型的二分类模型;
确定模块303,用于针对于第i个二分类模型,使用所述第i个二分类模型对所述验证数据进行预测,得到R+K个样本数据的预测分值;根据所述R+K个样本数据的预测分值中至少一个正样本数据的预测分值,确定所述第i个二分类模型的预测效果;
其中,P、Q、M、R、K均为正整数,i=1,……,M。
可选地,所述确定模块303用于:
根据所述R+K个样本数据的预测分值,得到预测分值最大的W个预测分值;
根据所述W个预测分值中包括的正样本数据的预测分值的数量,确定所述第i个二分类模型的预测效果。
可选地,所述训练模块302用于:
根据所述P个正样本数据和所述Q个负样本数据的特征,从所述Q个负样本数据中筛选出R个可信负样本数据;所述可信负样本数据为对所述目标对象可能不感兴趣的用户的数据;
基于M种预设训练算法分别对所述P个正样本数据和所述R个可信负样本数据进行训练,得到与所述M种预设训练算法对应的M个二分类模型;所述M种预设训练算法包括逻辑回归算法、支持向量机算法和单层感知机算法中的任意一个或任意多个。
可选地,所述训练模块302用于:
基于M种预设筛选算法分别从所述Q个负样本数据中筛选出R个可信负样本数据;所述可信负样本数据为对所述目标对象可能不感兴趣的用户的数据;所述M种预设训练算法包括亲密算法、贝叶斯算法和聚类算法中的任意一个或任意多个;
使用所述P个正样本数据和基于所述M种预设筛选算法分别筛选得到的R个可信负样本数据进行模型训练,得到所述M种预设筛选算法对应的M个二分类模型。
可选地,所述装置还包括预测模块304,所述预测模块304用于:
根据所述M个二分类模型的效果,从所述M个二分类模型中确定出预测效果最好的目标二分类模型;
使用所述目标二分类模型对待预测数据进行预测,得到所述待预测数据对应的预测分值,若所述待预测数据对应的预测分值大于预设阈值,则确定所述待预测数据为所述正样本数据。
从上述内容可以看出:本发明的上述实施例中,获取P个正样本数据和Q个负样本数据,并根据P个正样本数据和Q个负样本数据,得到M个二分类模型,其中,M个二分类模型为同一类型的二分类模型,且M个二分类模型的模型参数互不相同,或者,M个二分类模型为不同类型的二分类模型;进一步地,针对于第i个二分类模型,可以使用第i个二分类模型对R个正样本数据和K个负样本数据进行预测,得到R+K个样本数据的预测分值,并根据R+K个样本数据的预测分值中至少一个正样本数据的预测分值,确定第i个二分类模型的预测。本发明实施例提供了一种根据正样本数据的预测分值确定二分类模型的预测效果的方法,使得用户可以通过正样本数据确定二分类模型的预测效果,而无需使用确信负样本数据(即对目标对象不兴趣的用户数据),从而可以适用于多种应用场合(比如,互联网营销系统),用户的体验较好;且,通过确定M个二分类模型的预测效果,可以采用M个二分类模型预测效果最好的二分类模型对待预测数据进行预测,从而提高预测结果的准确性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-QOM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种确定二分类模型的预测效果的方法,其特征在于,所述方法包括:
获取P个正样本数据和Q个负样本数据,所述正样本数据为已知对目标对象感兴趣的用户的数据,所述负样本数据为未知是否对所述目标对象感兴趣的用户的数据;
根据所述P个正样本数据和所述Q个负样本数据,得到M个二分类模型;其中,所述M个二分类模型为同一类型的二分类模型,且所述M个二分类模型的模型参数互不相同;或者,所述M个二分类模型为不同类型的二分类模型;
获取验证数据,所述验证数据包括R个正样本数据和K个负样本数据;所述R个正样本数据中包括除所述P个正样本数据以外的正样本数据;
针对于第i个二分类模型,使用所述第i个二分类模型对所述验证数据进行预测,得到R+K个样本数据的预测分值;根据所述R+K个样本数据的预测分值中至少一个正样本数据的预测分值,确定所述第i个二分类模型的预测效果;
其中,P、Q、M、R、K均为正整数,i=1,……,M;
所述根据所述P个正样本数据和所述Q个负样本数据,得到M个二分类模型,包括:
基于M种预设筛选算法分别从所述Q个负样本数据中筛选出R个可信负样本数据;所述可信负样本数据为对所述目标对象可能不感兴趣的用户的数据;所述M种预设筛选算法包括亲密算法、贝叶斯算法和聚类算法中的任意一个或任意多个;
使用所述P个正样本数据和基于所述M种预设筛选算法分别筛选得到的R个可信负样本数据进行模型训练,得到所述M种预设筛选算法对应的M个二分类模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述R+K个样本数据的预测分值中至少一个正样本数据的预测分值,确定所述第i个二分类模型的预测效果,包括:
根据所述R+K个样本数据的预测分值,得到预测分值最大的W个预测分值;
根据所述W个预测分值中包括的正样本数据的预测分值的数量,确定所述第i个二分类模型的预测效果。
3.根据权利要求1所述的方法,其特征在于,所述根据所述P个正样本数据和所述Q个负样本数据,得到M个二分类模型,包括:
根据所述P个正样本数据和所述Q个负样本数据的特征,从所述Q个负样本数据中筛选出R个可信负样本数据;所述可信负样本数据为对所述目标对象可能不感兴趣的用户的数据;
基于M种预设训练算法分别对所述P个正样本数据和所述R个可信负样本数据进行训练,得到与所述M种预设训练算法对应的M个二分类模型;所述M种预设训练算法包括逻辑回归算法、支持向量机算法和单层感知机算法中的任意一个或任意多个。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
根据所述M个二分类模型的预测效果,从所述M个二分类模型中确定出预测效果最好的目标二分类模型;
使用所述目标二分类模型对待预测数据进行预测,得到所述待预测数据对应的预测分值,若所述待预测数据对应的预测分值大于预设阈值,则确定所述待预测数据为所述正样本数据。
5.一种确定二分类模型的预测效果的装置,其特征在于,所述装置包括:
获取模块,用于获取P个正样本数据和Q个负样本数据,所述正样本数据为已知对目标对象感兴趣的用户的数据,所述负样本数据为未知是否对所述目标对象感兴趣的用户的数据;以及获取验证数据,所述验证数据包括R个正样本数据和K个负样本数据;所述R个正样本数据中包括除所述P个正样本数据以外的正样本数据;
训练模块,用于根据所述P个正样本数据和所述Q个负样本数据,得到M个二分类模型;其中,所述M个二分类模型为同一类型的二分类模型,且所述M个二分类模型的模型参数互不相同;或者,所述M个二分类模型为不同类型的二分类模型;
确定模块,用于针对于第i个二分类模型,使用所述第i个二分类模型对所述验证数据进行预测,得到R+K个样本数据的预测分值;根据所述R+K个样本数据的预测分值中至少一个正样本数据的预测分值,确定所述第i个二分类模型的预测效果;
其中,P、Q、M、R、K均为正整数,i=1,……,M;
所述训练模块用于:
基于M种预设筛选算法分别从所述Q个负样本数据中筛选出R个可信负样本数据;所述可信负样本数据为对所述目标对象可能不感兴趣的用户的数据;所述M种预设筛选算法包括亲密算法、贝叶斯算法和聚类算法中的任意一个或任意多个;
使用所述P个正样本数据和基于所述M种预设筛选算法分别筛选得到的R个可信负样本数据进行模型训练,得到所述M种预设筛选算法对应的M个二分类模型。
6.根据权利要求5所述的装置,其特征在于,所述确定模块用于:
根据所述R+K个样本数据的预测分值,得到预测分值最大的W个预测分值;
根据所述W个预测分值中包括的正样本数据的预测分值的数量,确定所述第i个二分类模型的预测效果。
7.根据权利要求5所述的装置,其特征在于,所述训练模块用于:
根据所述P个正样本数据和所述Q个负样本数据的特征,从所述Q个负样本数据中筛选出R个可信负样本数据;所述可信负样本数据为对所述目标对象可能不感兴趣的用户的数据;
基于M种预设训练算法分别对所述P个正样本数据和所述R个可信负样本数据进行训练,得到与所述M种预设训练算法对应的M个二分类模型;所述M种预设训练算法包括逻辑回归算法、支持向量机算法和单层感知机算法中的任意一个或任意多个。
8.根据权利要求5至7中任一项所述的装置,其特征在于,所述装置还包括预测模块,所述预测模块用于:
根据所述M个二分类模型的预测效果,从所述M个二分类模型中确定出预测效果最好的目标二分类模型;
使用所述目标二分类模型对待预测数据进行预测,得到所述待预测数据对应的预测分值,若所述待预测数据对应的预测分值大于预设阈值,则确定所述待预测数据为所述正样本数据。
CN201910043305.3A 2019-01-17 2019-01-17 一种确定二分类模型的预测效果的方法及装置 Active CN111444930B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910043305.3A CN111444930B (zh) 2019-01-17 2019-01-17 一种确定二分类模型的预测效果的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910043305.3A CN111444930B (zh) 2019-01-17 2019-01-17 一种确定二分类模型的预测效果的方法及装置

Publications (2)

Publication Number Publication Date
CN111444930A CN111444930A (zh) 2020-07-24
CN111444930B true CN111444930B (zh) 2021-03-16

Family

ID=71650493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910043305.3A Active CN111444930B (zh) 2019-01-17 2019-01-17 一种确定二分类模型的预测效果的方法及装置

Country Status (1)

Country Link
CN (1) CN111444930B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112750038B (zh) * 2021-01-14 2024-02-02 中国工商银行股份有限公司 交易风险的确定方法、装置和服务器
CN113204926A (zh) * 2021-06-07 2021-08-03 杭州电力设备制造有限公司 一种基于打分机制的电器设备预测方法、装置、设备
CN113420165B (zh) * 2021-06-11 2024-03-05 北京达佳互联信息技术有限公司 二分类模型的训练、多媒体数据的分类方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1723596A1 (en) * 2004-02-27 2006-11-22 Accenture Global Services GmbH System for individualized customer interaction
CN105447730B (zh) * 2015-12-25 2020-11-06 腾讯科技(深圳)有限公司 目标用户定向方法及装置
CN106600312A (zh) * 2016-11-11 2017-04-26 中国农业大学 一种消费者购买酒的价位预测方法及系统
CN108334887B (zh) * 2017-01-19 2023-06-13 腾讯科技(深圳)有限公司 一种用户选取方法和装置
CN107679920A (zh) * 2017-10-20 2018-02-09 北京奇艺世纪科技有限公司 一种广告的投放方法和装置
CN108683949B (zh) * 2018-05-18 2021-11-02 北京奇艺世纪科技有限公司 一种直播平台潜在用户的提取方法及装置

Also Published As

Publication number Publication date
CN111444930A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN110070391B (zh) 数据处理方法、装置、计算机可读介质及电子设备
US10860858B2 (en) Utilizing a trained multi-modal combination model for content and text-based evaluation and distribution of digital video content to client devices
CN107491432B (zh) 基于人工智能的低质量文章识别方法及装置、设备及介质
CN110163647B (zh) 一种数据处理方法及装置
US11501161B2 (en) Method to explain factors influencing AI predictions with deep neural networks
CN109816483B (zh) 信息推荐方法及装置、可读存储介质
CN111444930B (zh) 一种确定二分类模型的预测效果的方法及装置
CN109685104B (zh) 一种识别模型的确定方法和装置
CN109902823B (zh) 一种基于生成对抗网络的模型训练方法及设备
CN113449011A (zh) 基于大数据预测的信息推送更新方法及大数据预测系统
CN111597446B (zh) 基于人工智能的内容推送方法、装置、服务器和存储介质
CN113449012A (zh) 基于大数据预测的互联网服务挖掘方法及大数据预测系统
CN110825969A (zh) 数据处理方法、装置、终端和存储介质
CN113256335A (zh) 数据筛选方法、多媒体数据的投放效果预测方法及装置
CN110765352B (zh) 一种用户兴趣识别方法及装置
CN111309994A (zh) 用户匹配方法、装置、电子设备及可读存储介质
CN106897282A (zh) 一种用户群的分类方法和设备
CN111159241A (zh) 一种点击转化预估方法及装置
CN110880117A (zh) 虚假业务识别方法、装置、设备和存储介质
CN111325228B (zh) 一种模型训练方法及装置
WO2020162833A1 (en) Method and system for generating content data
CN112801145A (zh) 安全监测方法、装置、计算机设备及存储介质
CN109145207B (zh) 一种基于分类指标预测的信息个性化推荐方法及装置
CN111062449A (zh) 预测模型的训练方法、兴趣度预测方法、装置和存储介质
CN111814909B (zh) 基于网络直播和在线电商带货的信息处理方法及云服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant