CN111860299B - 目标对象的等级确定方法、装置、电子设备及存储介质 - Google Patents

目标对象的等级确定方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111860299B
CN111860299B CN202010693198.1A CN202010693198A CN111860299B CN 111860299 B CN111860299 B CN 111860299B CN 202010693198 A CN202010693198 A CN 202010693198A CN 111860299 B CN111860299 B CN 111860299B
Authority
CN
China
Prior art keywords
target
level
user
output result
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010693198.1A
Other languages
English (en)
Other versions
CN111860299A (zh
Inventor
赵艳杰
段效晨
康林
秦占明
罗廷方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202010693198.1A priority Critical patent/CN111860299B/zh
Publication of CN111860299A publication Critical patent/CN111860299A/zh
Application granted granted Critical
Publication of CN111860299B publication Critical patent/CN111860299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明实施例提供了一种目标对象的等级确定方法、装置、电子设备及存储介质,上述方法包括:获得目标对象的目标数据;从目标数据中提取目标对象的特征信息;将特征信息分别输入预先训练的第一等级确定模型和预先训练的第二等级确定模型,得到第一等级确定模型输出的第一输出结果,和第二等级确定模型输出的第二输出结果;比较第一输出结果与第二输出结果;当第一输出结果与第二输出结果的等级相同时,将第一输出结果的等级或者第二输出结果的等级确定为目标对象的等级;当第一输出结果与第二输出结果的等级不相同时,将第一输出结果与第二输出结果中高的等级确定为目标对象的等级。采用发明实施例提供的方法,提高了确定目标对象等级的效率。

Description

目标对象的等级确定方法、装置、电子设备及存储介质
技术领域
本发明涉及深度学习技术领域,特别是涉及一种目标对象的等级确定方法、装置、电子设备及存储介质。
背景技术
目前,针对同一应用场景下的多个目标对象的分类问题,通常可以根据目标对象的特征信息,对目标对象进行等级标注,进而按照目标对象的等级实现对目标对象的分类。
以视频软件为例,视频软件可以通过标注用户等级的方式对其注册用户进行分类。例如,视频软件A可以根据其注册用户的特征信息,对其注册用户标注0-5级的用户等级。当注册用户的特征信息包括用户的活跃程度和用户所上传的视频的内容质量时,用户等级0级可以表示新注册视频软件A的用户,1-5级均可以反映视频软件A的注册用户的活跃程度和用户所上传的视频的内容质量,并且用户的活跃程度越高和用户所上传的视频的内容质量越高,用户的等级越高。
同样的,视频软件也可以通过标注内容等级的方式对视频软件中的多种内容数据进行分类。例如,视频软件A可以根据内容数据的特征信息,对多种内容数据分别标注不同的等级,实现对多种内容数据的分类。
然而,对目标对象进行等级标注,目前主要是通过运营人员人工标注,而人工标注等级往往会导致标注效率较低。此外,由于运营人员对不同等级的标准把握不一定正确,因此,通过运营人员人工标注目标对象的等级,会导致标注等级的正确率较低。
发明内容
本发明实施例的目的在于提供一种目标对象的等级确定方法、装置、电子设备及存储介质,以提高标注用户等级的正确率。
达到上述目的,本发明实施例提供了一种目标对象的等级确定方法,包括:
获得目标对象的目标数据;
从所述目标数据中提取目标对象的特征信息;
将所述特征信息分别输入预先训练的第一等级确定模型和预先训练的第二等级确定模型,得到所述第一等级确定模型输出的表示所述目标对象等级信息的第一输出结果,和所述第二等级确定模型输出的表示所述目标对象等级信息的第二输出结果;其中,所述第一等级确定模型为基于第一训练样本集进行训练得到的,所述第一训练样本集包含:多种等级类型的多个样本对象、各个样本对象的特征信息以及每个所述样本对象标注的等级信息;所述第二等级确定模型为基于第二训练样本集进行训练得到的,所述第二训练样本集为所述第一训练样本集的子集;其中,所述第二训练样本集中不包含:所述第一训练样本集中指定等级的样本对象的特征信息;
比较所述第一输出结果与所述第二输出结果;
当所述第一输出结果与所述第二输出结果的等级相同时,将所述第一输出结果的等级或者所述第二输出结果的等级确定为所述目标对象的等级;
当所述第一输出结果与所述第二输出结果的等级不相同时,将所述第一输出结果与所述第二输出结果中高的等级确定为所述目标对象的等级。
进一步的,所述第二等级确定模型的数量为多个;
所述将所述特征信息分别输入预先训练的第一等级确定模型和预先训练的第二等级确定模型,得到所述第一等级确定模型输出的表示所述目标对象等级信息的第一输出结果,和所述第二等级确定模型输出的表示所述目标对象等级信息的第二输出结果,包括:
将所述特征信息分别输入预先训练的第一等级确定模型和多个预先训练的各个第二等级确定模型,得到所述第一等级确定模型输出的表示所述目标对象等级信息的第一输出结果,和各个所述第二等级确定模型输出的表示所述目标对象等级信息的多个第二输出结果;
所述比较所述第一输出结果与所述第二输出结果;当所述第一输出结果与所述第二输出结果的等级相同时,将所述第一输出结果的等级或者所述第二输出结果的等级确定为所述目标对象的等级;当所述第一输出结果与所述第二输出结果的等级不相同时,将所述第一输出结果与所述第二输出结果中高的等级确定为所述目标对象的等级,包括:
根据所述第一输出结果和所述多个第二输出结果,统计各个等级的数量;
根据所述各个等级的数量,判断是否只有一个数量最多的等级;
如果是,将该数量最多的等级确定为所述目标对象的等级;
如果不是,将数量最多的等级中,最高的等级确定为所述目标对象的等级。
进一步的,所述目标对象为目标用户;所述获得目标对象的目标数据,包括:
获得目标用户上传的内容数据和/或目标用户的历史上传行为数据;
所述从所述目标数据中提取目标对象的特征信息的步骤,包括:
获得所述目标用户已上传的内容数据的类型;
计算目标用户已上传的内容数据中,各种类型的内容数据所占的比例作为内容特征信息;和/或
基于目标用户的历史上传行为数据,获得目标用户上传内容数据的频率,作为活跃度特征信息。
进一步的,所述目标对象为目标用户;
所述获得目标对象的目标数据,包括:
获得目标用户的日志数据,以及外部平台对所述目标用户的信用评分;
所述从所述目标数据中提取目标对象的特征信息,包括:
从所述日志数据中,提取目标用户的指标数据,所述指标数据包括:目标用户的用户指数等级、信用等级、用户已上传内容数据中低质内容数据占比、用户已上传内容数据中侵权内容数据占比、用户已上传内容数据中原创内容数据占比、用户已上传内容数据中转载内容数据占比、用户日均上传内容数据数和用户最后上传内容数据的时间中的一个或多个指标数据;
将提取出的一个或多个指标数据和所述信用评分,作为特征信息。
进一步的,所述目标对象为目标内容数据;所述的目标数据包括:目标内容数据的用户访问数据和/或目标内容数据的用户评价数据;
所述从所述目标数据中提取目标对象的特征信息的步骤,包括:
基于所述目标内容数据的用户访问数据,确定所述目标内容数据的用户访问热度,作为热度特征信息;和/或
基于所述目标内容数据的用户评价数据,确定所述目标内容数据的用户好评率,作为用户评价特征信息。
进一步的,采用如下步骤基于第一训练样本集训练得到所述第一等级确定模型:
将所述第一训练样本集中第一预设数量的所述样本对象的特征信息分别输入第一待训练随机森林模型,对应得到第一预设数量的输出结果;
基于所述样本对象的标注等级信息,计算所述第一待训练随机森林模型的输出结果的正确率,所述正确率为所述第一预设数量的输出结果中,与标注的所述样本对象的等级相同的输出结果的占比;
判断所述正确率是否小于预设正确率阈值;
当所述正确率不小于预设正确率阈值时,将当前的所述第一待训练随机森林模型确定为训练得到的所述第一等级确定模型;
当所述正确率小于预设正确率阈值时,调整所述第一待训练随机森林模型的参数,得到新的第一待训练随机森林模型,并返回所述将所述第一训练样本集中第一预设数量的所述样本对象的特征信息分别输入第一待训练随机森林模型的步骤。
进一步的,采用如下步骤基于第二训练样本集训练得到所述第二等级确定模型:
将所述第二训练样本集中第二预设数量的所述样本对象的特征信息分别输入第二待训练随机森林模型,对应得到第二预设数量的输出结果;
基于所述样本对象的标注等级信息,计算所述第二待训练随机森林模型的输出结果的正确率,所述正确率为所述第二预设数量的输出结果中,与标注的所述样本对象的等级相同的输出结果的占比;
判断所述正确率是否小于预设正确率阈值;
当所述正确率不小于预设正确率阈值时,将当前的所述第二待训练随机森林模型确定为训练得到的所述第二等级确定模型;
当所述正确率小于预设正确率阈值时,调整所述第二待训练随机森林模型的参数,得到新的第二待训练随机森林模型,并返回所述将所述第二训练样本集中第二预设数量的所述样本对象的特征信息分别输入第二待训练随机森林模型的步骤。
为了达到上述目的,本发明实施例还提供了一种目标对象的等级确定装置,包括:
目标数据获取模块,用于获得目标对象的目标数据;
特征信息提取模块,用于从所述目标数据中提取目标对象的特征信息;
信息输入模块,用于将所述特征信息分别输入预先训练的第一等级确定模型和预先训练的第二等级确定模型,得到所述第一等级确定模型输出的表示所述目标对象等级信息的第一输出结果,和所述第二等级确定模型输出的表示所述目标对象等级信息的第二输出结果;其中,所述第一等级确定模型为基于第一训练样本集进行训练得到的,所述第一训练样本集包含:多种等级类型的多个样本对象、各个样本对象的特征信息以及每个所述样本对象标注的等级信息;所述第二等级确定模型为基于第二训练样本集进行训练得到的,所述第二训练样本集为所述第一训练样本集的子集;其中,所述第二训练样本集中不包含:所述第一训练样本集中指定等级的样本对象的特征信息;
结果比较模块,用于比较所述第一输出结果与所述第二输出结果;
等级确定模块,用于当所述第一输出结果与所述第二输出结果的等级相同时,将所述第一输出结果的等级或者所述第二输出结果的等级确定为所述目标对象的等级;当所述第一输出结果与所述第二输出结果的等级不相同时,将所述第一输出结果与所述第二输出结果中高的等级确定为所述目标对象的等级。
进一步的,所述第二等级确定模型的数量为多个;
所述信息输入模块,具体用于将所述特征信息分别输入预先训练的第一等级确定模型和多个预先训练的各个第二等级确定模型,得到所述第一等级确定模型输出的表示所述目标对象等级信息的第一输出结果,和各个所述第二等级确定模型输出的表示所述目标对象等级信息的多个第二输出结果;
所述等级确定模块,具体用于根据所述第一输出结果和所述多个第二输出结果,统计各个等级的数量;根据所述各个等级的数量,判断是否只有一个数量最多的等级;如果是,将该数量最多的等级确定为所述目标对象的等级;如果不是,将数量最多的等级中,最高的等级确定为所述目标对象的等级。
进一步的,所述目标对象为目标用户;所述目标数据获取模块,具体用于获得目标用户上传的内容数据和/或目标用户的历史上传行为数据;
所述特征信息提取模块,具体用于获得所述目标用户已上传的内容数据的类型;计算目标用户已上传的内容数据中,各种类型的内容数据所占的比例作为内容特征信息;和/或基于目标用户的历史上传行为数据,获得目标用户上传内容数据的频率,作为活跃度特征信息。
进一步的,所述目标对象为目标用户;所述目标数据获取模块,具体用于获得目标用户的日志数据,以及外部平台对所述目标用户的信用评分;
所述特征信息提取模块,具体用于从所述日志数据中,提取目标用户的指标数据,所述指标数据包括:目标用户的用户指数等级、信用等级、用户已上传内容数据中低质内容数据占比、用户已上传内容数据中侵权内容数据占比、用户已上传内容数据中原创内容数据占比、用户已上传内容数据中转载内容数据占比、用户日均上传内容数据数和用户最后上传内容数据的时间中的一个或多个指标数据;将提取出的一个或多个指标数据和所述信用评分,作为特征信息。
进一步的,所述目标对象为目标内容数据;所述的目标数据包括:目标内容数据的用户访问数据和/或目标内容数据的用户评价数据;
所述特征信息提取模块,具体用于基于所述目标内容数据的用户访问数据,确定所述目标内容数据的用户访问热度,作为热度特征信息;和/或基于所述目标内容数据的用户评价数据,确定所述目标内容数据的用户好评率,作为用户评价特征信息。
进一步的,所述装置,还包括:第一模型训练模块;
所述第一模型训练模块,用于采用如下步骤基于第一训练样本集训练得到所述第一等级确定模型:
将所述第一训练样本集中第一预设数量的所述样本对象的特征信息分别输入第一待训练随机森林模型,对应得到第一预设数量的输出结果;
基于所述样本对象的标注等级信息,计算所述第一待训练随机森林模型的输出结果的正确率,所述正确率为所述第一预设数量的输出结果中,与标注的所述样本对象的等级相同的输出结果的占比;
判断所述正确率是否小于预设正确率阈值;
当所述正确率不小于预设正确率阈值时,将当前的所述第一待训练随机森林模型确定为训练得到的所述第一等级确定模型;
当所述正确率小于预设正确率阈值时,调整所述第一待训练随机森林模型的参数,得到新的第一待训练随机森林模型,并返回所述将所述第一训练样本集中第一预设数量的所述样本对象的特征信息分别输入第一待训练随机森林模型的步骤。
进一步的,所述装置,还包括:第二模型训练模块;
所述第二模型训练模块,用于采用如下步骤基于第二训练样本集训练得到所述第二等级确定模型:
将所述第二训练样本集中第二预设数量的所述样本对象的特征信息分别输入第二待训练随机森林模型,对应得到第二预设数量的输出结果;
基于所述样本对象的标注等级信息,计算所述第二待训练随机森林模型的输出结果的正确率,所述正确率为所述第二预设数量的输出结果中,与标注的所述样本对象的等级相同的输出结果的占比;
判断所述正确率是否小于预设正确率阈值;
当所述正确率不小于预设正确率阈值时,将当前的所述第二待训练随机森林模型确定为训练得到的所述第二等级确定模型;
当所述正确率小于预设正确率阈值时,调整所述第二待训练随机森林模型的参数,得到新的第二待训练随机森林模型,并返回所述将所述第二训练样本集中第二预设数量的所述样本对象的特征信息分别输入第二待训练随机森林模型的步骤。
为了达到上述目的,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述目标对象的等级确定方法步骤。
为了达到上述目的,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的目标对象的等级确定方法步骤。
为了达到上述目的,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的目标对象的等级确定方法步骤。
本发明实施例有益效果:
采用本发明实施例提供的方法,通过与预先使用第一训练样本集和第二训练样本集分别训练得到第一等级确定模型和第二等级确定模型,然后将特征信息分别输入预先训练的第一等级确定模型和预先训练的第二等级确定模型,得到表示目标对象等级信息的第一输出结果和第二输出结果,根据第一输出结果和第二输出结果最终确定出目标对象的等级。通过使用第一等级确定模型和第二等级确定模型确定目标对象的等级,提高了等级确定的效率,并且通过两个等级确定模型对目标对象进行等级确定,可以放大区分度不高的等级之间的差异,提高单一模型确定等级的准确率。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种目标对象的等级确定方法的流程图;
图2为本发明实施例提供的另一种目标对象的等级确定方法的流程图;
图3为本发明实施例提供的又一种目标对象的等级确定方法的流程图;
图4为本发明实施例提供的训练第一等级确定模型的流程图;
图5为本发明实施例提供的训练第二等级确定模型的流程图;
图6为本发明实施例提供的得到目标对象等级的示意图;
图7为本发明实施例提供的一种目标对象的等级确定装置的结构图;
图8为本发明实施例提供的另一种目标对象的等级确定装置的结构图;
图9为本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
由于现有的标注用户等级的方式存在标注效率较低的问题,为解决这一技术问题,本发明实施例提供了一种目标对象的等级确定方法,参见图1,目标对象的等级确定方法的一种流程,包括:
步骤101,获得目标对象的目标数据。
步骤102,从目标数据中提取目标对象的特征信息。
步骤103,将特征信息分别输入预先训练的第一等级确定模型和预先训练的第二等级确定模型,得到第一等级确定模型输出的表示目标对象等级信息的第一输出结果,和第二等级确定模型输出的表示目标对象等级信息的第二输出结果。
其中,第一等级确定模型为基于第一训练样本集进行训练得到的,第一训练样本集包含:多种等级类型的多个样本对象、各个样本对象的特征信息以及每个样本对象标注的等级信息;第二等级确定模型为基于第二训练样本集进行训练得到的,第二训练样本集为第一训练样本集的子集;其中,第二训练样本集中不包含:第一训练样本集中指定等级的样本对象的特征信息。
步骤104,比较第一输出结果与第二输出结果。
步骤105,当第一输出结果与第二输出结果的等级相同时,将第一输出结果的等级或者第二输出结果的等级确定为目标对象的等级;当第一输出结果与第二输出结果的等级不相同时,将第一输出结果与第二输出结果中高的等级确定为目标对象的等级。
采用本发明实施例提供的方法,通过与预先使用第一训练样本集和第二训练样本集分别训练得到第一等级确定模型和第二等级确定模型,然后将目标对象的特征信息分别输入预先训练的第一等级确定模型和预先训练的第二等级确定模型,得到表示目标对象等级信息的第一输出结果和第二输出结果,根据第一输出结果和第二输出结果最终确定出目标对象的等级。通过使用第一等级确定模型和第二等级确定模型确定目标对象的等级,提高了等级确定的效率,并且通过两个等级确定模型对目标对象进行等级确定,可以放大区分度不高的等级之间的差异,提高单一模型确定等级的准确率。
下面通过具体实施例对本发明实施例提供的目标对象的等级确定方法及装置进行详细描述。
参见图2,目标对象的等级确定方法的另一种流程,包括:
步骤201,获得目标对象的目标数据。
本发明实施例中,目标对象为需要通过标注等级进行类别分类的对象。目标对象的目标数据为可以反映目标对象等级信息的数据。
具体的,目标对象可以为:目标用户和目标内容数据等等。其中,目标用户可以是:视频网站的注册用户或社交软件的注册用户等等;目标内容数据可以是:视频数据和文章数据等。
本步骤中,若目标对象为目标用户,可以获得目标用户上传的内容数据和/或目标用户的历史上传行为数据,作为目标数据;也可以获得目标用户的日志数据,以及外部平台对目标用户的信用评分,作为目标数据。
若目标对象为目标内容数据,可以获得目标内容数据的用户访问数据和/或目标内容数据的用户评价数据,作为目标数据。
步骤202,从目标数据中提取目标对象的特征信息。
本发明实施例中,可以通过如下方式α、方式β或方式γ,从目标数据中提取目标对象的特征信息:
方式α:若目标对象为目标用户,目标对象的目标数据为:目标用户上传的内容数据和/或目标用户的历史上传行为数据;具体的,提取目标对象的特征信息的步骤可以包括步骤A1-步骤A2:
步骤A1:获得目标用户已上传的内容数据的类型,和/或目标用户的历史上传行为数据;
步骤A2:计算目标用户已上传的内容数据中,各种类型的内容数据所占的比例作为内容特征信息;和/或基于目标用户的历史上传行为数据,获得目标用户上传内容数据的频率,作为活跃度特征信息。
其中,目标对象的特征信息可以是内容特征信息和/或活跃度特征信息。
具体的,目标用户已上传的内容数据可以是视频。针对目标用户上传的视频,确定所上传的视频中:低质量视频的占比、侵权视频的占比、原创视频的占比和转载视频的占比,作为内容特征信息。可以获取目标用户日均上传视频的数量,作为活跃度特征信息。
举例说明,若目标对象为视频网站X的注册用户Y,目标对象的目标数据为:用户Y上传到视频网站X的视频数据,和/或用户Y的向视频网站Y上传视频的历史上传行为数据。
若用户Y在10天内上传到视频网站X的视频数量为100。用户Y所上传的100个视频中,低质量的视频数量为10,侵权视频的数量为2,原创视频的数量为60,转载视频的数量为38。则用户Y所上传的100个视频中,低质量视频的占比为0.1、侵权视频的占比0.02、原创视频的占比0.6和转载视频的占比0.38。则可以将则用户Y所上传的100个视频中:低质量视频的占比、侵权视频的占比、原创视频的占比和转载视频的占比,作为内容特征信息:[0.10.02 0.6 0.38];和/或,
用户Y在10天内上传到视频网站X的视频数量为100,则可以得到用户Y的日均上传视频数量为10。本步骤中,也可以将用户Y的日均上传视频数量,即用户Y上传视频的频率:10,作为活跃度特征信息。
方式β:目标对象为目标用户;目标对象的目标数据为:目标用户的日志数据,以及外部平台对目标用户的信用评分;具体的,提取目标对象的特征信息的步骤可以包括步骤B1-步骤B2:
步骤B1:从日志数据中,提取目标用户的指标数据,指标数据包括:目标用户的用户指数等级、信用等级、用户已上传内容数据中低质内容数据占比、用户已上传内容数据中侵权内容数据占比、用户已上传内容数据中原创内容数据占比、用户已上传内容数据中转载内容数据占比、用户日均上传内容数据数量和用户最后上传内容数据的时间中的一个或多个指标数据;
步骤B2:将信用评分,和所提取出的一个或多个指标数据,作为特征信息。
目标用户可以是视频网站的注册用户。具体的,外部平台对目标用户的信用评分可以为:信用评分平台针对视频网站的注册用户,在视频网站所上传的视频的质量,以及注册用户的上传行为所做的评分。信用评分具体可以包括:黑产得分和风控得分。其中,从日志数据中所提取的目标用户的指标数据中:目标用户的用户指数等级表示目标用户在视频网站的级别;目标用户的信用等级表示目标用户在视频网站的信用信息;用户已上传内容数据中低质内容数据占比表示:目标用户在视频网站所上传的视频中,质量低于预设质量水平的视频所占的比例;目标用户已上传内容数据中侵权内容数据占比表示:目标用户在视频网站所上传的视频中,属于原创的视频所占的比例;用户已上传内容数据中转载内容数据占比表示:目标用户在视频网站所上传的视频中,属于转载的视频所占的比例;用户日均上传内容数据数;用户最后上传内容数据的时间。
举例说明,若目标对象为视频网站X的注册用户M,目标对象的目标数据为:用户M上传到视频网站X的视频数据,以及外部平台对用户M的信用评分:60分。
若用户M在5天内上传到视频网站X的视频数量为30,用户M所上传的30个视频中,低质量的视频数量为10,侵权视频的数量为5,原创视频的数量为10,转载视频的数量为15。从用户M的日志数据中可以提取出用户M的多个指标数据:
用户M的用户指数等级:5;用户M的信用等级:3;用户M所上传的30个视频中低质量视频的占比:0.33;用户M所上传的30个视频中侵权视频的占比:0.17;用户M所上传的30个视频中原创视频的占比:0.33;用户M所上传的30个视频中转载视频的占比:0.5;用户M日均上传视频数量:5;用户M最后上传内容数据的时间:1(表示距当前时间1天之前)。
则可以任选上述用户M的一个或多个指标数据,以及用户M的信用评分,作为特征信息。例如,可以选取用户M的上述所有指标数据,以及用户M的信用评分,得到特征信息:[53 0.33 0.17 0.33 0.5 5 1 60]。
方式γ:目标对象为目标内容数据,目标对象的目标数据为:目标内容数据的用户访问数据和/或目标内容数据的用户评价数据;具体的,提取目标对象的特征信息的步骤可以包括步骤C1-步骤C2:
步骤C1:基于目标内容数据的用户访问数据,确定目标内容数据的用户访问热度,作为热度特征信息;和/或
步骤C2:基于目标内容数据的用户评价数据,确定目标内容数据的用户好评率,作为用户评价特征信息。
其中,目标对象的特征信息可以是热度特征信息和/或用户评价特征信息。
具体的,本步骤中,目标内容数据可以是:视频数据和文章数据等。若目标内容数据为视频数据,则目标内容数据的用户访问数据可以包括:视频点击量和视频留存率。本发明实施例中,可以将视频点击量和视频留存率作为热度特征信息。若目标内容数据为文章数据,则目标内容数据的用户访问数据可以为文章的浏览量。本发明实施例中,可以将文章浏览量作为热度特征信息。
本步骤中,若目标内容数据为视频数据,则目标内容数据的用户评价数据可以包括:视频评论数、视频弹幕数和视频点赞数。本发明实施例中,可以将视频评论数、视频弹幕数和视频点赞数作为用户评价特征信息。若目标内容数据为文章数据,则目标内容数据的用户访问数据可以为文章的评论数和文章的点赞数。本发明实施例中,可以将文章的评论数和文章的点赞数作为用户评价特征信息。
步骤203,将特征信息分别输入预先训练的第一等级确定模型和预先训练的第二等级确定模型,得到第一等级确定模型输出的表示目标对象等级信息的第一输出结果,和第二等级确定模型输出的表示目标对象等级信息的第二输出结果。
其中,第一等级确定模型为基于第一训练样本集进行训练得到的,第一训练样本集包含:多种等级类型的多个样本对象、各个样本对象的特征信息以及每个样本对象标注的等级信息。第二等级确定模型为基于第二训练样本集进行训练得到的,第二训练样本集为第一训练样本集的子集;其中,第二训练样本集中不包含:第一训练样本集中指定等级的样本对象的特征信息。
其中,指定等级可以根据实际训练情况具体设定,且指定等级的数量可以为一个或多个。指定等级的设定原则为:指定等级的样本对象与其相邻等级的样本对象差异较小不易区分;具体的,根据运营人员通过人工对目标对象标注等级,当目标对象对应的等级在两个等级中难以确定时,可以将这两个等级中的任意一个等级确定为指定等级。例如,若运营人员通过人工对目标对象α1-目标对象α20标注等级时,发现目标对象α1-目标对象α20对应的等级均在3级和4级之间难以确定,则可以将这3级或4级确定为指定等级。
举例说明,若样本对象的等级总共包括1级至5级,5个等级,其中,若2级样本对象与1级样本对象之间不易区分,可以将2级设定为指定等级。则第一训练样本集可以包含:1等级的样本对象、2等级的样本对象、3等级的样本对象、4等级的样本对象和5等级的样本对象。第二训练样本集为第一训练样本集的子集,第二训练样本集可以包含:1等级的样本对象、3等级的样本对象、4等级的样本对象和5等级的样本对象。即相比第一训练样本集,第二训练样本集所包含的特征信息中,少了2级样本对象的特征信息。
另举一例说明,若样本对象的等级总共包括1级至5级,5个等级。其中,若3级样本对象与4级样本对象之间不易区分,可以将4级设定为指定等级。则第一训练样本集可以包含:1等级的样本对象、2等级的样本对象、3等级的样本对象、4等级的样本对象和5等级的样本对象。第二训练样本集为第一训练样本集的子集,第二训练样本集可以包含:1等级的样本对象、2等级的样本对象、3等级的样本对象和5等级的样本对象。即相比第一训练样本集,第二训练样本集所包含的特征信息中,少了4级样本对象的特征信息。
针对包含多个指定等级的情况可以举例说明:若样本对象的等级总共包括1级至5级这5个等级,其中,若1级样本对象与2级样本对象之间不易区分,且3级样本对象与4级样本对象之间不易区分,可以将2级和4级均设定为指定等级。则第一训练样本集可以包含:1等级的样本对象、2等级的样本对象、3等级的样本对象、4等级的样本对象和5等级的样本对象。第二训练样本集为第一训练样本集的子集,第二训练样本集可以包含:1等级的样本对象、3等级的样本对象和5等级的样本对象。即相比第一训练样本集,第二训练样本集所包含的特征信息中,少了2级和4级样本对象的特征信息。
步骤204,判断第一输出结果是否大于等于第二输出结果,若判断结果为是,执行步骤205,若判断结果为否,执行步骤206。
步骤205,将第一输出结果的等级确定为目标对象的等级。
本步骤中,若第一输出结果等于第二输出结果,也可以将第二输出结果的等级确定为目标对象的等级。
步骤206,将第二输出结果的等级确定为目标对象的等级。
举例说明,若第一等级确定模型可以针对目标对象标注的等级包括:1级至5级,第二等级确定模型可以针对目标对象标注的等级包括:1级、3级、4级和5级。将目标对象特征信息输入第一等级确定模型后,得到的第一等级确定模型所输出的目标对象的等级为m级,m取值为1、2、3、4或5;当将目标对象的特征信息输入第二等级确定模型后,得到的第二等级确定模型所输出的目标对象的等级为n级,n取值为1、3、4或5。当m大于等于n时,将m所表示的等级确定为目标对象的等级;当m小于n时,将n所表示的等级确定为目标对象的等级。例如,当m等于1,n等于2时,可以确定目标对象的等级为2级。
采用本发明实施例提供的方法,通过与预先使用第一训练样本集和第二训练样本集分别训练得到第一等级确定模型和第二等级确定模型,然后将目标对象的特征信息分别输入预先训练的第一等级确定模型和预先训练的第二等级确定模型,得到表示目标对象等级信息的第一输出结果和第二输出结果,根据第一输出结果和第二输出结果最终确定出目标对象的等级。通过使用第一等级确定模型和第二等级确定模型确定目标对象的等级,提高了等级确定的效率,并且通过两个等级确定模型对目标对象进行等级确定,可以放大区分度不高的等级之间的差异,提高单一模型确定等级的准确率。
参见图3,目标对象的等级确定方法的又一种流程,包括:
步骤301和步骤302,与上述步骤201和步骤203分别对应相同,此处不再赘述。
步骤303,将特征信息分别输入预先训练的第一等级确定模型和多个预先训练的各个第二等级确定模型,得到第一等级确定模型输出的表示目标对象等级信息的第一输出结果,和各个第二等级确定模型输出的表示目标对象等级信息的多个第二输出结果。
步骤304,根据第一输出结果和多个第二输出结果,统计各个等级的数量。
步骤305,判断是否只有一个数量最多的等级,若判断结果为是,执行步骤306,若判断结果为否,执行步骤307。
步骤306,将该数量最多的等级确定为目标对象的等级。
步骤307,将数量最多的等级中,最高的等级确定为目标对象的等级。
本发明实施例中,第二等级确定模型的数量可以为多个。第二等级确定模型为基于第二训练样本集进行训练得到的,第二训练样本集为所述第一训练样本集的子集;其中,第二训练样本集中不包含:第一训练样本集中指定等级的样本对象的特征信息。其中,针对每个第二等级确定模型,该第二等级确定模型的第二训练样本集中所不包含的指定等级可以不同。
举例说明,若本实施例中,第二等级确定模型的数量为3个。若3个第二等级确定模型中,第一个第二等级确定模型针对目标对象标注的等级可以包括:1级、3级、4级和5级;第二个第二等级确定模型针对目标对象标注的等级可以包括:1级、2级、4级和5级;第三个第二等级确定模型针对目标对象标注的等级可以包括:1级、3级和5级。第一等级确定模型可以针对目标对象标注的等级包括:1级至5级。
将目标对象的特征信息分别输入第一等级确定模型和3个第二等级确定模型,得到第一等级确定模型输出的表示目标对象等级信息的第一输出结果,和3个第二等级确定模型输出的表示目标对象等级信息的多个第二输出结果。
若第一输出结果中目标对象的等级为3级,3个第二输出结果中,目标对象的等级分别为3级、3级和2级,可以将针对目标对象的4个等级中,数量最多的等级:3级,确定为目标对象的等级。
采用本发明实施例提供的方法,通过预先训练的第一等级确定模型和多个第二等级确定模型,共同确定出目标对象的等级,一方面提高了等级确定的效率,另一方面通过多个等级确定模型对目标对象进行等级确定,可以放大区分度不高的等级之间的差异,提高单一模型确定等级的准确率。
本发明实施例中,如图4所示,可以采用如下步骤基于第一训练样本集训练得到第一等级确定模型:
步骤401,将第一训练样本集中第一预设数量的样本对象的特征信息分别输入第一待训练随机森林模型,对应得到第一预设数量的输出结果。
第一预设数量可以根据实际应用情况进行具体设定,例如可以设定为100。
本步骤中,第一待训练神经网络模型可以为基于随机森林算法所得到的神经网络模型,也可以是其他可采用的神经网络模型。
随机森林算法是利用多棵决策树对训练样本进行训练并预测的一种算法,即随机森林算法是一种包含多棵决策树的算法。基于随机森林算法所得到的神经网络模型所输出的等级类别是由各决策树输出类别的众数决定的。
步骤402,基于样本对象的标注的等级信息,计算第一待训练随机森林模型的输出结果的正确率。
其中,正确率为第一预设数量的输出结果中,与样本对象的标注的等级相同的输出结果的占比。
举例说明,当所设的第一预设数量为100时,在将100个样本对象的特征信息分别输入第一待训练神经网络模型,对应得到100个的输出结果后,可以针对100个的输出结果中的每一个输出结果,比较该输出结果所表示的第一待训练神经网络模型所预测的样本对象的等级与样本对象的标注等级是否相同,进而的可以确定出100个的输出结果中,第一待训练神经网络模型所预测的样本对象的等级与样本对象的标注等级相同的输出结果所占的比例,作为正确率。例如,100个的输出结果中,第一待训练神经网络模型所预测的样本对象的等级与样本对象已知的等级相同的输出结果有70个,那么可以得到正确率为70%。
步骤403,判断正确率是否不小于预设正确率阈值,若判断结果为是,执行步骤404,若判断结果为否,执行步骤405。
预设正确率阈值可以根据实际应用情况进行具体设定,例如可以设定为80%。
步骤404,将当前的第一待训练随机森林模型确定为训练得到的第一等级确定模型。
步骤405,调整第一待训练随机森林模型的指定参数,得到新的第一待训练随机森林模型,并返回步骤401,启动下一次训练。
本步骤中,对第一待训练随机森林模型进行调整可以包括:
对第一待训练随机森林模型的各个决策树的参数进行适应调整;
对第一待训练随机森林模型的模型结构进行适应调整,例如,可以根据当前训练结果对第一待训练随机森林模型进行决策树的数量的增加或者裁减。
本发明实施例中,当第一待训练随机森林模型为基于随机森林算法所得到的模型时,可以基于随机森林算法设置模型参数,模型参数具体可以包括:num_trees(树的数量)、num_classes(等级数量)、num_features(特征数量)。此时,对第一待训练随机森林模型进行参数调整可以通过GridSearchCV(网格搜索),确定最优化参数。
采用本发明实施例提供的方法,不再需要通过运营人员手工标注目标对象的等级,可以直接通过训练第一待训练随机森林模型得到第一等级确定模型,通过第一等级确定模型确定出目标对象的等级,提高了确定目标对象等级的效率。
本发明实施例中,如图5所示,可以采用如下步骤基于第二训练样本集训练得到第二等级确定模型:
步骤501,将第二训练样本集中第二预设数量的样本对象的特征信息分别输入第二待训练随机森林模型,对应得到第二预设数量的输出结果。
第二预设数量可以根据实际应用情况进行具体设定,例如可以设定为200。
本步骤中,第二待训练随机森林模型可以为基于随机森林算法所得到的神经网络模型,也可以是其他可采用的神经网络模型。
步骤502,基于样本对象的标注等级信息,计算第二待训练随机森林模型的输出结果的正确率。
正确率为第二预设数量的输出结果中,与样本对象的标注等级相同的输出结果的占比。
举例说明,当所设的的第二预设数量为200时,在将200个样本对象的特征信息分别输入第二待训练随机森林模型,对应得到200个的输出结果后,可以确定出200个的输出结果中,第二待训练随机森林模型所预测的样本对象的等级与样本对象的标注等级相同的输出结果所占的比例,作为正确率。例如,200个的输出结果中,第二待训练随机森林模型所预测的样本对象的等级与样本对象的标注等级相同的输出结果有180个,那么可以得到正确率为90%。
步骤503,判断正确率是否不小于预设正确率阈值,若判断结果为是,执行步骤504,若判断结果为否,执行步骤505。
步骤504,将当前的第二待训练随机森林模型确定为训练得到的第二等级确定模型。
步骤505,调整第二待训练随机森林模型的指定参数,得到新的第二待训练随机森林模型,并返回步骤501,启动下一次训练。
本步骤中,对第二待训练随机森林模型进行调整可以包括:
对第二待训练随机森林模型的各个决策树的参数进行适应调整;
对第二待训练随机森林模型的模型结构进行适应调整,例如,可以根据当前训练结果对第二待训练随机森林模型进行决策数的数量的增加或者裁减。
本发明实施例中,当第二待训练随机森林模型为基于随机森林算法所得到的神经网络模型时,可以基于随机森林算法设置模型参数,模型参数具体可以包括:num_trees(树的数量)、num_classes(等级数量)、num_features(特征数量)。此时,对第二待训练随机森林模型进行参数调整也可以通过GridSearchCV(网格搜索),确定最优化参数。
本发明实施例中,第二训练样本集为第一训练样本集的子集,其中第二训练样本集中不包含:第一训练样本集中指定等级的样本对象的特征信息。具体的,第二训练样本集为第一训练样本集的何种子集,可以根据实际应用场景进行具体确定。
例如,当第一训练样本集所包含的样本对象的等级类型的数量为5个,其中,具体的样本对象的等级类型可以包括1级至5级。而第二训练样本集所包含的样本对象的等级类型的数量为4个。当样本对象的等级中1级和2级的区分度不高时,第二训练样本集所包含的样本对象的等级类型具体可以为:1级、3级、4级和5级,即相比第一训练样本集,第二训练样本集所包含的样本对象的等级类型中少了第2级的样本对象。当样本对象的等级中2级和3级的区分度不高时,第二训练样本集所包含的样本对象的等级类型具体可以为:1级、2级、4级和5级,即相比第一训练样本集,第二训练样本集所包含的样本对象的等级类型中少了第3级的样本对象。
本发明实施例中,通过将第一训练样本集的子集作为第二训练样本集,使用第二训练样本集训练得到第二等级确定模型,可以使得得到的第二等级确定模型放大区分度不高的等级之间的差别,进而在根据训练得到的第一等级确定模型和第二等级确定模型共同确定目标对象的等级时,可以将区分度不高的等级更好地确定出来。
本发明实施例中,当第一待训练随机森林模型和第二待训练随机森林模型均为基于随机森林算法所得到的神经网络模型,进而对第一待训练随机森林模型进行训练得到的第一等级确定模型和对第二待训练随机森林模型进行训练得到的第二等级确定模型也均为基于随机森林算法的神经网络模型。
本发明实施例中,可以采用Hard_Voting(努力投票)的方式对第一等级确定模型和第二等级确定模型进行集成,将集成后的模型的输出结果确定为目标对象的等级。具体可参见图6:
如图6所示,当样本对象为已经标注了等级的视频网站的用户,所标注的样本对象的等级可以包括:1级至5级。并且,样本对象的等级中1级和2级的区分度不高。可以得到,第一训练样本集所包含的样本对象的等级类型可以包括1级至5级,第二训练样本集所包含的样本对象的等级类型可以包括:1级、3级、4级和5级。采用Hard_Voting(努力投票)的方式对使用第一训练样本集进行训练得到的第一等级确定模型M1,和使用第二训练样本集进行训练得到的第二等级确定模型M2,进行集成,得到M1和M2的集成,通过M1和M2的集成对待目标对象A进行等级确定时可以得到:
若第一等级确定模型M1确定的等级为1级,第二等级确定模型M2确定的等级为1级:则最终确定的目标对象A的等级为1级;
若第一等级确定模型M1确定的等级为2+级,第二等级确定模型M2确定的等级为2+级,则最终确定的目标对象A的等级为2+级;
若第一等级确定模型M1确定的等级为2+级,第二等级确定模型M2确定的等级为1级,则最终确定的目标对象A的等级为2+级;
若第一等级确定模型M1确定的等级为1级,第二等级确定模型M2确定的等级为2+级,则最终确定的目标对象A的等级为2+级。
若本发明实施例中包含多个第二等级确定模型时,也可以采用Hard_Voting(努力投票)的方式对第一等级确定模型和多个第二等级确定模型进行集成,将集成后的模型的输出结果确定为目标对象的等级:具体的,当第一等级确定模型所输出的第一输出结果,和多个第二等级确定模型所输出的多个第二输出结果中,数量最多的等级只有一个时,可以将这一个数量最多的等级确定为目标对象的等级;当数量最多的等级不止一个时,可以将数量最多的等级中,最高的等级确定为目标对象的等级。
本发明实施例中,采用Hard_Voting的方式对第一等级确定模型和第二等级确定模型进行集成,避免了单一模型标注结果的片面性,可以使确定的目标对象等级更加准确。
基于同一发明构思,根据本发明上述实施例提供的目标对象的等级确定方法,相应地,本发明另一实施例还提供了一种目标对象的等级确定装置,其结构示意图如图7所示,具体包括:
目标数据获取模块701,用于获得目标对象的目标数据;
特征信息提取模块702,用于从所述目标数据中提取目标对象的特征信息;
信息输入模块703,用于将所述特征信息分别输入预先训练的第一等级确定模型和预先训练的第二等级确定模型,得到所述第一等级确定模型输出的表示所述目标对象等级信息的第一输出结果,和所述第二等级确定模型输出的表示所述目标对象等级信息的第二输出结果;其中,所述第一等级确定模型为基于第一训练样本集进行训练得到的,所述第一训练样本集包含:多种等级类型的多个样本对象、各个样本对象的特征信息以及每个所述样本对象标注的等级信息;所述第二等级确定模型为基于第二训练样本集进行训练得到的,所述第二训练样本集为所述第一训练样本集的子集;其中,所述第二训练样本集中不包含:所述第一训练样本集中指定等级的样本对象的特征信息;
结果比较模块704,用于比较所述第一输出结果与所述第二输出结果;
等级确定模块705,用于当所述第一输出结果与所述第二输出结果的等级相同时,将所述第一输出结果的等级或者所述第二输出结果的等级确定为所述目标对象的等级;当所述第一输出结果与所述第二输出结果的等级不相同时,将所述第一输出结果与所述第二输出结果中高的等级确定为所述目标对象的等级。
可见,采用本发明实施例提供的装置,通过与预先使用第一训练样本集和第二训练样本集分别训练得到第一等级确定模型和第二等级确定模型,然后将特征信息分别输入预先训练的第一等级确定模型和预先训练的第二等级确定模型,得到表示目标对象等级信息的第一输出结果和第二输出结果,根据第一输出结果和第二输出结果最终确定出目标对象的等级。通过使用第一等级确定模型和第二等级确定模型确定目标对象的等级,提高了等级确定的效率,并且通过两个等级确定模型对目标对象进行等级确定,可以放大区分度不高的等级之间的差异,提高单一模型确定等级的准确率。
进一步的,所述第二等级确定模型的数量为多个;
信息输入模块703,具体用于将所述特征信息分别输入预先训练的第一等级确定模型和多个预先训练的各个第二等级确定模型,得到所述第一等级确定模型输出的表示所述目标对象等级信息的第一输出结果,和各个所述第二等级确定模型输出的表示所述目标对象等级信息的多个第二输出结果;
等级确定模块705,具体用于根据所述第一输出结果和所述多个第二输出结果,统计各个等级的数量;根据所述各个等级的数量,判断是否只有一个数量最多的等级;如果是,将该数量最多的等级确定为所述目标对象的等级;如果不是,将数量最多的等级中,最高的等级确定为所述目标对象的等级。
进一步的,所述目标对象为目标用户;所述目标数据获取模块,具体用于获得目标用户上传的内容数据和/或目标用户的历史上传行为数据;
特征信息提取模块702,具体用于获得所述目标用户已上传的内容数据的类型;计算目标用户已上传的内容数据中,各种类型的内容数据所占的比例作为内容特征信息;和/或基于目标用户的历史上传行为数据,获得目标用户上传内容数据的频率,作为活跃度特征信息。
进一步的,所述目标对象为目标用户;所述目标数据获取模块,具体用于获得目标用户的日志数据,以及外部平台对所述目标用户的信用评分;
特征信息提取模块702,具体用于从所述日志数据中,提取目标用户的指标数据,所述指标数据包括:目标用户的用户指数等级、信用等级、用户已上传内容数据中低质内容数据占比、用户已上传内容数据中侵权内容数据占比、用户已上传内容数据中原创内容数据占比、用户已上传内容数据中转载内容数据占比、用户日均上传内容数据数和用户最后上传内容数据的时间中的一个或多个指标数据;将提取出的一个或多个指标数据和所述信用评分,作为特征信息。
进一步的,所述目标对象为目标内容数据;所述的目标数据包括:目标内容数据的用户访问数据和/或目标内容数据的用户评价数据;
特征信息提取模块702,具体用于基于所述目标内容数据的用户访问数据,确定所述目标内容数据的用户访问热度,作为热度特征信息;和/或基于所述目标内容数据的用户评价数据,确定所述目标内容数据的用户好评率,作为用户评价特征信息。
进一步的,参见图8,所述装置,还包括:第一模型训练模801;
第一模型训练模块801,用于采用如下步骤基于第一训练样本集训练得到所述第一等级确定模型:
将所述第一训练样本集中第一预设数量的所述样本对象的特征信息分别输入第一待训练随机森林模型,对应得到第一预设数量的输出结果;
基于所述样本对象的标注等级信息,计算所述第一待训练随机森林模型的输出结果的正确率,所述正确率为所述第一预设数量的输出结果中,与标注的所述样本对象的等级相同的输出结果的占比;
判断所述正确率是否小于预设正确率阈值;
当所述正确率不小于预设正确率阈值时,将当前的所述第一待训练随机森林模型确定为训练得到的所述第一等级确定模型;
当所述正确率小于预设正确率阈值时,调整所述第一待训练随机森林模型的参数,得到新的第一待训练随机森林模型,并返回所述将所述第一训练样本集中第一预设数量的所述样本对象的特征信息分别输入第一待训练随机森林模型的步骤。
进一步的,参加图8,所述装置,还包括:第二模型训练模,802;
第二模型训练模块802,用于采用如下步骤基于第二训练样本集训练得到所述第二等级确定模型:
将所述第二训练样本集中第二预设数量的所述样本对象的特征信息分别输入第二待训练随机森林模型,对应得到第二预设数量的输出结果;
基于所述样本对象的标注等级信息,计算所述第二待训练随机森林模型的输出结果的正确率,所述正确率为所述第二预设数量的输出结果中,与标注的所述样本对象的等级相同的输出结果的占比;
判断所述正确率是否小于预设正确率阈值;
当所述正确率不小于预设正确率阈值时,将当前的所述第二待训练随机森林模型确定为训练得到的所述第二等级确定模型;
当所述正确率小于预设正确率阈值时,调整所述第二待训练随机森林模型的参数,得到新的第二待训练随机森林模型,并返回所述将所述第二训练样本集中第二预设数量的所述样本对象的特征信息分别输入第二待训练随机森林模型的步骤。
采用本发明实施例提供的装置,通过与预先使用第一训练样本集和第二训练样本集分别训练得到第一等级确定模型和第二等级确定模型,然后将目标对象的特征信息分别输入预先训练的第一等级确定模型和预先训练的第二等级确定模型,得到表示目标对象等级信息的第一输出结果和第二输出结果,根据第一输出结果和第二输出结果最终确定出目标对象的等级。通过使用第一等级确定模型和第二等级确定模型确定目标对象的等级,提高了等级确定的效率,并且通过两个等级确定模型对目标对象进行等级确定,可以放大区分度不高的等级之间的差异,提高单一模型确定等级的准确率。
基于同一发明构思,根据本发明上述实施例提供的等级标注方法,相应地,本发明另一实施例还提供了一种电子设备,如图9所示,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信,
存储器903,用于存放计算机程序;
处理器901,用于执行存储器903上所存放的程序时,实现如下步骤:
获得目标对象的目标数据;
从所述目标数据中提取目标对象的特征信息;
将所述特征信息分别输入预先训练的第一等级确定模型和预先训练的第二等级确定模型,得到所述第一等级确定模型输出的表示所述目标对象等级信息的第一输出结果,和所述第二等级确定模型输出的表示所述目标对象等级信息的第二输出结果;其中,所述第一等级确定模型为基于第一训练样本集进行训练得到的,所述第一训练样本集包含:多种等级类型的多个样本对象、各个样本对象的特征信息以及每个所述样本对象标注的等级信息;所述第二等级确定模型为基于第二训练样本集进行训练得到的,所述第二训练样本集为所述第一训练样本集的子集;其中,所述第二训练样本集中不包含:所述第一训练样本集中指定等级的样本对象的特征信息;
比较所述第一输出结果与所述第二输出结果;
当所述第一输出结果与所述第二输出结果的等级相同时,将所述第一输出结果的等级或者所述第二输出结果的等级确定为所述目标对象的等级;
当所述第一输出结果与所述第二输出结果的等级不相同时,将所述第一输出结果与所述第二输出结果中高的等级确定为所述目标对象的等级。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一目标对象的等级确定方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一目标对象的等级确定方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备及存储介质而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种目标对象的等级确定方法,其特征在于,包括:
获得目标对象的目标数据;其中,所述目标对象为目标用户;所述目标数据包括:目标用户上传的内容数据和/或目标用户的历史上传行为数据;或,所述目标对象为目标用户;所述目标数据包括:目标用户的日志数据以及外部平台对所述目标用户的信用评分;或,所述目标对象为目标内容数据;所述目标数据包括:目标内容数据的用户访问数据和/或目标内容数据的用户评价数据;
从所述目标数据中提取目标对象的特征信息;
将所述特征信息分别输入预先训练的第一等级确定模型和预先训练的第二等级确定模型,得到所述第一等级确定模型输出的表示所述目标对象等级信息的第一输出结果,和所述第二等级确定模型输出的表示所述目标对象等级信息的第二输出结果;其中,所述第一等级确定模型为基于第一训练样本集进行训练得到的,所述第一训练样本集包含:多种等级类型的多个样本对象、各个样本对象的特征信息以及每个所述样本对象标注的等级信息;所述第二等级确定模型为基于第二训练样本集进行训练得到的,所述第二训练样本集为所述第一训练样本集的子集;其中,所述第二训练样本集中不包含:所述第一训练样本集中指定等级的样本对象的特征信息,所述指定等级的设定原则为:所述指定等级的样本对象和与其相邻的等级的样本对象之间的相似度大于预设阈值;
比较所述第一输出结果与所述第二输出结果;
当所述第一输出结果与所述第二输出结果的等级相同时,将所述第一输出结果的等级或者所述第二输出结果的等级确定为所述目标对象的等级;
当所述第一输出结果与所述第二输出结果的等级不相同时,将所述第一输出结果与所述第二输出结果中高的等级确定为所述目标对象的等级。
2.根据权利要求1所述的方法,其特征在于,所述第二等级确定模型的数量为多个;
所述将所述特征信息分别输入预先训练的第一等级确定模型和预先训练的第二等级确定模型,得到所述第一等级确定模型输出的表示所述目标对象等级信息的第一输出结果,和所述第二等级确定模型输出的表示所述目标对象等级信息的第二输出结果,包括:
将所述特征信息分别输入预先训练的第一等级确定模型和多个预先训练的各个第二等级确定模型,得到所述第一等级确定模型输出的表示所述目标对象等级信息的第一输出结果,和各个所述第二等级确定模型输出的表示所述目标对象等级信息的多个第二输出结果;
所述比较所述第一输出结果与所述第二输出结果;当所述第一输出结果与所述第二输出结果的等级相同时,将所述第一输出结果的等级或者所述第二输出结果的等级确定为所述目标对象的等级;当所述第一输出结果与所述第二输出结果的等级不相同时,将所述第一输出结果与所述第二输出结果中高的等级确定为所述目标对象的等级,包括:
根据所述第一输出结果和所述多个第二输出结果,统计各个等级的数量;
根据所述各个等级的数量,判断是否只有一个数量最多的等级;
如果是,将该数量最多的等级确定为所述目标对象的等级;
如果不是,将数量最多的等级中,最高的等级确定为所述目标对象的等级。
3.根据权利要求1所述的方法,其特征在于,所述目标对象为目标用户;所述获得目标对象的目标数据,包括:
获得目标用户上传的内容数据和/或目标用户的历史上传行为数据;
所述从所述目标数据中提取目标对象的特征信息的步骤,包括:
获得所述目标用户已上传的内容数据的类型;
计算目标用户已上传的内容数据中,各种类型的内容数据所占的比例作为内容特征信息;和/或
基于目标用户的历史上传行为数据,获得目标用户上传内容数据的频率,作为活跃度特征信息。
4.根据权利要求1所述的方法,其特征在于,所述目标对象为目标用户;
所述获得目标对象的目标数据,包括:
获得目标用户的日志数据,以及外部平台对所述目标用户的信用评分;
所述从所述目标数据中提取目标对象的特征信息,包括:
从所述日志数据中,提取目标用户的指标数据,所述指标数据包括:目标用户的用户指数等级、信用等级、用户已上传内容数据中低质内容数据占比、用户已上传内容数据中侵权内容数据占比、用户已上传内容数据中原创内容数据占比、用户已上传内容数据中转载内容数据占比、用户日均上传内容数据数和用户最后上传内容数据的时间中的一个或多个指标数据;
将提取出的一个或多个指标数据和所述信用评分,作为特征信息。
5.根据权利要求1所述的方法,其特征在于,所述目标对象为目标内容数据;所述的目标数据包括:目标内容数据的用户访问数据和/或目标内容数据的用户评价数据;
所述从所述目标数据中提取目标对象的特征信息的步骤,包括:
基于所述目标内容数据的用户访问数据,确定所述目标内容数据的用户访问热度,作为热度特征信息;和/或
基于所述目标内容数据的用户评价数据,确定所述目标内容数据的用户好评率,作为用户评价特征信息。
6.根据权利要求1所述的方法,其特征在于,采用如下步骤基于第一训练样本集训练得到所述第一等级确定模型:
将所述第一训练样本集中第一预设数量的所述样本对象的特征信息分别输入第一待训练随机森林模型,对应得到第一预设数量的输出结果;
基于所述样本对象的标注等级信息,计算所述第一待训练随机森林模型的输出结果的正确率,所述正确率为所述第一预设数量的输出结果中,与标注的所述样本对象的等级相同的输出结果的占比;
判断所述正确率是否小于预设正确率阈值;
当所述正确率不小于预设正确率阈值时,将当前的所述第一待训练随机森林模型确定为训练得到的所述第一等级确定模型;
当所述正确率小于预设正确率阈值时,调整所述第一待训练随机森林模型的参数,得到新的第一待训练随机森林模型,并返回所述将所述第一训练样本集中第一预设数量的所述样本对象的特征信息分别输入第一待训练随机森林模型的步骤。
7.根据权利要求1所述的方法,其特征在于,采用如下步骤基于第二训练样本集训练得到所述第二等级确定模型:
将所述第二训练样本集中第二预设数量的所述样本对象的特征信息分别输入第二待训练随机森林模型,对应得到第二预设数量的输出结果;
基于所述样本对象的标注等级信息,计算所述第二待训练随机森林模型的输出结果的正确率,所述正确率为所述第二预设数量的输出结果中,与标注的所述样本对象的等级相同的输出结果的占比;
判断所述正确率是否小于预设正确率阈值;
当所述正确率不小于预设正确率阈值时,将当前的所述第二待训练随机森林模型确定为训练得到的所述第二等级确定模型;
当所述正确率小于预设正确率阈值时,调整所述第二待训练随机森林模型的参数,得到新的第二待训练随机森林模型,并返回所述将所述第二训练样本集中第二预设数量的所述样本对象的特征信息分别输入第二待训练随机森林模型的步骤。
8.一种目标对象的等级确定装置,其特征在于,包括:
目标数据获取模块,用于获得目标对象的目标数据;其中,所述目标对象为目标用户;所述目标数据包括:目标用户上传的内容数据和/或目标用户的历史上传行为数据;或,所述目标对象为目标用户;所述目标数据包括:目标用户的日志数据以及外部平台对所述目标用户的信用评分;或,所述目标对象为目标内容数据;所述目标数据包括:目标内容数据的用户访问数据和/或目标内容数据的用户评价数据;
特征信息提取模块,用于从所述目标数据中提取目标对象的特征信息;
信息输入模块,用于将所述特征信息分别输入预先训练的第一等级确定模型和预先训练的第二等级确定模型,得到所述第一等级确定模型输出的表示所述目标对象等级信息的第一输出结果,和所述第二等级确定模型输出的表示所述目标对象等级信息的第二输出结果;其中,所述第一等级确定模型为基于第一训练样本集进行训练得到的,所述第一训练样本集包含:多种等级类型的多个样本对象、各个样本对象的特征信息以及每个所述样本对象标注的等级信息;所述第二等级确定模型为基于第二训练样本集进行训练得到的,所述第二训练样本集为所述第一训练样本集的子集;其中,所述第二训练样本集中不包含:所述第一训练样本集中指定等级的样本对象的特征信息,所述指定等级的设定原则为:所述指定等级的样本对象和与其相邻的等级的样本对象之间的相似度大于预设阈值;
结果比较模块,用于比较所述第一输出结果与所述第二输出结果;
等级确定模块,用于当所述第一输出结果与所述第二输出结果的等级相同时,将所述第一输出结果的等级或者所述第二输出结果的等级确定为所述目标对象的等级;当所述第一输出结果与所述第二输出结果的等级不相同时,将所述第一输出结果与所述第二输出结果中高的等级确定为所述目标对象的等级。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
CN202010693198.1A 2020-07-17 2020-07-17 目标对象的等级确定方法、装置、电子设备及存储介质 Active CN111860299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010693198.1A CN111860299B (zh) 2020-07-17 2020-07-17 目标对象的等级确定方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010693198.1A CN111860299B (zh) 2020-07-17 2020-07-17 目标对象的等级确定方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111860299A CN111860299A (zh) 2020-10-30
CN111860299B true CN111860299B (zh) 2023-09-08

Family

ID=73001935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010693198.1A Active CN111860299B (zh) 2020-07-17 2020-07-17 目标对象的等级确定方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111860299B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116170360A (zh) * 2022-12-08 2023-05-26 中国联合网络通信集团有限公司 网络质量评估方法、装置及存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136539A (zh) * 2013-03-08 2013-06-05 西安科技大学 接地网腐蚀速率等级预测方法
WO2013117147A1 (zh) * 2012-02-09 2013-08-15 腾讯科技(深圳)有限公司 微博排序、搜索、展示方法和系统
WO2017215403A1 (zh) * 2016-06-12 2017-12-21 腾讯科技(深圳)有限公司 一种用户信用评估方法、装置及存储介质
CN108090503A (zh) * 2017-11-28 2018-05-29 东软集团股份有限公司 多分类器的在线调整方法、装置、存储介质及电子设备
CN108629494A (zh) * 2018-04-19 2018-10-09 三峡大学 干旱等级评估方法及系统
CN108960884A (zh) * 2018-05-02 2018-12-07 网易无尾熊(杭州)科技有限公司 信息处理方法、模型构建方法及装置、介质和计算设备
CN108960719A (zh) * 2018-06-29 2018-12-07 北京京东尚科信息技术有限公司 选品方法和装置以及计算机可读存储介质
WO2019037202A1 (zh) * 2017-08-24 2019-02-28 平安科技(深圳)有限公司 目标客户的识别方法、装置、电子设备及介质
CN110198310A (zh) * 2019-05-20 2019-09-03 腾讯科技(深圳)有限公司 一种网络行为反作弊方法、装置及存储介质
CN110222762A (zh) * 2019-06-04 2019-09-10 恒安嘉新(北京)科技股份公司 对象预测方法、装置、设备、及介质
CN110708361A (zh) * 2019-09-18 2020-01-17 北京奇艺世纪科技有限公司 数字内容发布用户的等级确定系统、方法、装置及服务器
CN110728323A (zh) * 2019-10-12 2020-01-24 中诚信征信有限公司 目标类型用户的识别方法、装置、电子设备及存储介质
CN110995681A (zh) * 2019-11-25 2020-04-10 北京奇艺世纪科技有限公司 用户识别方法、装置、电子设备及存储介质
CN111242387A (zh) * 2020-01-21 2020-06-05 河北工业大学 一种人才离职预测方法、装置、电子设备及存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013117147A1 (zh) * 2012-02-09 2013-08-15 腾讯科技(深圳)有限公司 微博排序、搜索、展示方法和系统
CN103136539A (zh) * 2013-03-08 2013-06-05 西安科技大学 接地网腐蚀速率等级预测方法
WO2017215403A1 (zh) * 2016-06-12 2017-12-21 腾讯科技(深圳)有限公司 一种用户信用评估方法、装置及存储介质
WO2019037202A1 (zh) * 2017-08-24 2019-02-28 平安科技(深圳)有限公司 目标客户的识别方法、装置、电子设备及介质
CN108090503A (zh) * 2017-11-28 2018-05-29 东软集团股份有限公司 多分类器的在线调整方法、装置、存储介质及电子设备
CN108629494A (zh) * 2018-04-19 2018-10-09 三峡大学 干旱等级评估方法及系统
CN108960884A (zh) * 2018-05-02 2018-12-07 网易无尾熊(杭州)科技有限公司 信息处理方法、模型构建方法及装置、介质和计算设备
CN108960719A (zh) * 2018-06-29 2018-12-07 北京京东尚科信息技术有限公司 选品方法和装置以及计算机可读存储介质
CN110198310A (zh) * 2019-05-20 2019-09-03 腾讯科技(深圳)有限公司 一种网络行为反作弊方法、装置及存储介质
CN110222762A (zh) * 2019-06-04 2019-09-10 恒安嘉新(北京)科技股份公司 对象预测方法、装置、设备、及介质
CN110708361A (zh) * 2019-09-18 2020-01-17 北京奇艺世纪科技有限公司 数字内容发布用户的等级确定系统、方法、装置及服务器
CN110728323A (zh) * 2019-10-12 2020-01-24 中诚信征信有限公司 目标类型用户的识别方法、装置、电子设备及存储介质
CN110995681A (zh) * 2019-11-25 2020-04-10 北京奇艺世纪科技有限公司 用户识别方法、装置、电子设备及存储介质
CN111242387A (zh) * 2020-01-21 2020-06-05 河北工业大学 一种人才离职预测方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
An Effective and Robust Self-Training Algorithm Using k-Means and Random Forest Models for Program-Level Student Classification;Vo Thi Ngoc Chau等;《2018 Second International Conference on Inventive Communication and Computational Technologies (ICICCT)》;第1590-1596页 *

Also Published As

Publication number Publication date
CN111860299A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN107491432B (zh) 基于人工智能的低质量文章识别方法及装置、设备及介质
CN110544155B (zh) 用户信用评分的获取方法、获取装置、服务器及存储介质
CN110826320B (zh) 一种基于文本识别的敏感数据发现方法及系统
CN107341716A (zh) 一种恶意订单识别的方法、装置及电子设备
CN108376129B (zh) 一种纠错方法及装置
US20220147023A1 (en) Method and device for identifying industry classification of enterprise and particular pollutants of enterprise
CN109165691B (zh) 用于识别作弊用户的模型的训练方法、装置及电子设备
CN112446441B (zh) 模型训练数据筛选方法、装置、设备及存储介质
CN111125658A (zh) 识别欺诈用户的方法、装置、服务器和存储介质
CN110825868A (zh) 一种基于话题热度的文本推送方法、终端设备及存储介质
CN111860299B (zh) 目标对象的等级确定方法、装置、电子设备及存储介质
CN111178364A (zh) 一种图像识别方法和装置
CN113076961B (zh) 一种图像特征库更新方法、图像检测方法和装置
CN112995690B (zh) 直播内容品类识别方法、装置、电子设备和可读存储介质
CN111507850A (zh) 核保方法及相关装置、设备
CN110019809B (zh) 一种分类确定方法、装置及网络设备
CN113656575B (zh) 训练数据的生成方法、装置、电子设备及可读介质
WO2022237065A1 (zh) 分类模型的训练方法、视频分类方法及相关设备
CN111026851B (zh) 模型预测能力优化方法、装置、设备及可读存储介质
CN117523218A (zh) 标签生成、图像分类模型的训练、图像分类方法及装置
CN111327609B (zh) 数据审核方法及装置
CN111984867A (zh) 一种网络资源确定方法及装置
CN108052503B (zh) 一种置信度的计算方法及装置
CN117349407B (zh) 一种面向内容安全的自动化检测方法和系统
CN113688225B (zh) 基于大数据的新闻推荐方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant