CN109815403A - 一种样本筛选方法及装置 - Google Patents

一种样本筛选方法及装置 Download PDF

Info

Publication number
CN109815403A
CN109815403A CN201910084871.9A CN201910084871A CN109815403A CN 109815403 A CN109815403 A CN 109815403A CN 201910084871 A CN201910084871 A CN 201910084871A CN 109815403 A CN109815403 A CN 109815403A
Authority
CN
China
Prior art keywords
kinds
indexs
sample
item
tested
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910084871.9A
Other languages
English (en)
Inventor
崔阳阳
张璇
周李鑫
王源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201910084871.9A priority Critical patent/CN109815403A/zh
Publication of CN109815403A publication Critical patent/CN109815403A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Automatic Analysis And Handling Materials Therefor (AREA)

Abstract

本申请提供了一种样本筛选方法及装置,方法包括:从各条待测样本中确定出用于衡量样本质量的各类指标;利用各条待测样本中各类指标,确定各类指标的权重及设定指标阈值;利用各条待测样本中各类指标及各类指标的权重和设定指标阈值,确定各条待测样本中各类指标的分数;将各条待测样本中各类指标的分数之和,作为各条待测样本的分数;利用各条待测样本的分数,从各条待测样本中筛选出符合设定条件的样本。在本申请中,通过以上方式可以实现样本的筛选。

Description

一种样本筛选方法及装置
技术领域
本申请涉及软件技术领域,特别涉及一种样本筛选方法及装置。
背景技术
随着互联网的迅猛发展,社交网络产品越来越多,如微博、论坛和贴吧等。社交网络产品的出现使得互联网用户由被动地接受互联网信息向主动创造互联网信息转变,互联网用户既可以在社交网络产品上发表自己的言论,也可以评论其他用户发表的内容,使得社交网络产品既具有媒体传播特性,又具有社交网络特性。
为了提升媒体传播特性和社交网络特性,一般会从用户原创内容中挑选出内容质量较优、较受欢迎的内容,向用户推送。但如何挑选内容质量较优的原创内容成为问题。
发明内容
为解决上述技术问题,本申请实施例提供一种样本筛选方法及装置,以达到实现样本筛选的目的,技术方案如下:
一种样本筛选方法,包括:
从各条待测样本中确定出用于衡量样本质量的各类指标;
利用各条所述待测样本中各类所述指标,确定各类所述指标的权重及设定指标阈值;
利用各条所述待测样本中各类所述指标及各类所述指标的权重和设定指标阈值,确定各条所述待测样本中各类所述指标的分数;
将各条所述待测样本中各类所述指标的分数之和,作为各条所述待测样本的分数;
利用各条所述待测样本的分数,从各条所述待测样本中筛选出符合设定条件的样本。
优选的,所述利用各条所述待测样本中各类所述指标,确定各类所述指标的权重,包括:
利用各条所述待测样本中各类所述指标,计算各类所述指标的方差;
利用各类所述指标的方差,计算各类所述指标的标准差;
利用各条所述待测样本中各类所述指标,计算各类所述指标的均值;
将各类所述指标的标准差与均值的比值,分别作为各类所述指标的变异系数;
根据各类所述指标的变异系数,确定出权重修正值;
将各类所述指标的变异系数与所述权重修正值的乘积,作为各类所述指标的权重。
优选的,所述利用各条所述待测样本中各类所述指标及各类所述指标的权重和设定指标阈值,确定各条所述待测样本中各类所述指标的分数,包括:
判断各条所述待测样本中各类所述指标是否大于各自对应的设定指标阈值;
若是,确定各条所述待测样本中对应的指标的分数为满分;
若否,将各条所述待测样本中各类所述指标与其权重及其设定满分值相乘,得到乘积结果,并将所述乘积结果除以其设定指标阈值,作为各条所述待测样本中各类所述指标的分数。
优选的,所述利用各条所述待测样本中各类所述指标及各类所述指标的权重和设定指标阈值,确定各条所述待测样本中各类所述指标的分数之前,还包括:
从各条所述待测样本中各类所述指标中,删除与其均值之差不小于设定阈值的指标,所述设定阈值为所述标准差乘以预设倍数。
优选的,利用各条所述待测样本中各类所述指标,确定各类所述指标的设定指标阈值,包括:
分别对各条所述待测样本中各类所述指标进行从小到大的排序,并根据排序结果将顺序位于设定顺序的指标,作为各类所述指标的设定指标阈值。
一种样本筛选装置,包括:
第一确定模块,用于从各条待测样本中确定出用于衡量样本质量的各类指标;
第二确定模块,用于利用各条所述待测样本中各类所述指标,确定各类所述指标的权重及设定指标阈值;
第三确定模块,用于利用各条所述待测样本中各类所述指标及各类所述指标的权重和设定指标阈值,确定各条所述待测样本中各类所述指标的分数;
第四确定模块,用于将各条所述待测样本中各类所述指标的分数之和,作为各条所述待测样本的分数;
筛选模块,用于利用各条所述待测样本的分数,从各条所述待测样本中筛选出符合设定条件的样本。
优选的,所述第二确定模块,包括:
第一计算子模块,用于利用各条所述待测样本中各类所述指标,计算各类所述指标的方差;
第二计算子模块,用于利用各类所述指标的方差,计算各类所述指标的标准差;
第三计算子模块,用于利用各条所述待测样本中各类所述指标,计算各类所述指标的均值;
第一确定子模块,用于将各类所述指标的标准差与均值的比值,分别作为各类所述指标的变异系数;
第二确定子模块,用于根据各类所述指标的变异系数,确定出权重修正值;
第三确定子模块,用于将各类所述指标的变异系数与所述权重修正值的乘积,作为各类所述指标的权重。
优选的,所述第三确定模块,包括:
判断子模块,用于判断各条所述待测样本中各类所述指标是否大于各自对应的设定指标阈值,若是,执行第四确定子模块,若否,执行第五确定子模块;
所述第四确定子模块,用于确定各条所述待测样本中对应的指标的分数为满分;
所述第五确定子模块,用于将各条所述待测样本中各类所述指标与其权重及其设定满分值相乘,得到乘积结果,并将所述乘积结果除以其设定指标阈值,作为各条所述待测样本中各类所述指标的分数。
优选的,所述第三确定模块,还包括:
删除子模块,用于从各条所述待测样本中各类所述指标中,删除与其均值之差不小于设定阈值的指标,所述设定阈值为所述标准差乘以预设倍数。
优选的,所述第二确定模块,包括:
第六确定子模块,用于分别对各条所述待测样本中各类所述指标进行从小到大的排序,并根据排序结果将顺序位于设定顺序的指标,作为各类所述指标的设定指标阈值。
与现有技术相比,本申请的有益效果为:
在本申请中,通过从各条待测样本中确定出用于衡量样本质量的各类指标,及利用各条所述待测样本中各类所述指标,确定各类所述指标的权重,明确各类所述指标衡量样本质量时所占的比重,并利用各条所述待测样本中各类所述指标及各类所述指标的权重和设定指标阈值,确定各条所述待测样本中各类所述指标的分数,并将各条所述待测样本中各类所述指标的分数之和,作为各条所述待测样本的分数,待测样本的分数可以表征其样本质量的高低,在此基础上,利用各条所述待测样本的分数,从各条所述待测样本中筛选出符合设定条件的样本,完成样本的筛选。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的一种样本筛选方法的流程图;
图2是本申请提供的一种确定各类所述指标的权重的流程图;
图3是本申请提供的一种确定各条所述待测样本中各类所述指标的分数的流程图;
图4是本申请提供的另一种确定各条所述待测样本中各类所述指标的分数的流程图;
图5是本申请提供的一种样本筛选装置的逻辑结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了一种样本筛选方法,通过从各条待测样本中确定出用于衡量样本质量的各类指标,及利用各条所述待测样本中各类所述指标,确定各类所述指标的权重,明确各类所述指标衡量样本质量时所占的比重,并利用各条所述待测样本中各类所述指标及各类所述指标的权重和设定指标阈值,确定各条所述待测样本中各类所述指标的分数,并将各条所述待测样本中各类所述指标的分数之和,作为各条所述待测样本的分数,待测样本的分数可以表征其样本质量的高低,在此基础上,利用各条所述待测样本的分数,从各条所述待测样本中筛选出符合设定条件的样本,完成样本的筛选。
接下来对本申请实施例公开的样本筛选方法进行介绍,请参见图1,可以包括:
步骤S11、从各条待测样本中确定出用于衡量样本质量的各类指标。
本实施例中,可以从互动、阅读和内容三个方面来确定待测样本的指标。其中,互动对应的指标可以为:针对待测样本的点赞次数和分享次数。阅读对应的指标可以为:点击进入待测样本(如,feed)详情页的次数。内容对应的指标可以为:针对待测样本的评论次数和回复评论的次数。
其中,feed可以理解为:一种信息流的前端呈现样式,即被用户浏览的形式。由于用户通常在当前页滑动浏览feed,类似于瀑布流的形式,因此feed也可称为瀑布信息流。
可以理解的是,因各条待测样本各有不同,因此从各条待测样本中确定出的用于衡量样本指令的各类指标也可能不同。如,针对待测样本1涉及到点赞和分享和点击进入待测样本1的详情页,则从待测样本1中确定出的用于衡量样本质量的指标为点赞次数、分享次数和点击进入待测样本详情页的次数;针对待测样本2仅涉及到点赞和分享,则从待测样本2中确定出的用于衡量样本质量的指标为点赞次数和分享次数。
步骤S12、利用各条所述待测样本中各类指标,确定各类所述指标的权重及设定指标阈值。
一般地,不同类别的指标的权重不同。所述指标的权重,可以用于表征指标对样本质量进行衡量的占比。
指标的设定指标阈值可以理解为:针对指标设定的一个基准。可以在此基准下,执行相应的操作。如,在指标大于设定指标阈值的情况下,可以确定指标的分数为满分,在指标不大于设定指标阈值的情况下,根据具体的关系式计算指标的分数。
其中,可以根据具体的样本筛选任务进行设置,如,在不同的样本筛选任务中,可以将互动次数的设定指标阈值分别设置为200和300。
需要说明的是,各类指标各自对应一个各自的设定指标阈值。
优选的,利用各条所述待测样本中各类所述指标,确定各类所述指标的设定指标阈值的过程,可以包括:
分别对各条所述待测样本中各类所述指标进行从小到大的排序,并根据排序结果将顺序位于设定顺序的指标,作为各类所述指标的设定指标阈值。
在各条所述待测样本是一段时间内累计得到的样本的情况下,由于待测样本是随时间变化而变化的,因此各类所述指标的设定指标阈值也随待测样本的变化而变化。
步骤S13、利用各条所述待测样本中各类所述指标及各类所述指标的权重和设定指标阈值,确定各条所述待测样本中各类所述指标的分数。
如步骤S12所述,设定指标阈值作为针对指标设定的一个基准,可以在此基准下,来确定指标的分数。具体地,在指标大于设定指标阈值的情况下,可以确定指标的分数为满分;在指标不大于设定指标阈值的情况下,可以根据指标、及指标的权重和设定指标阈值,计算指标的分数。
步骤S14、将各条所述待测样本中各类所述指标的分数之和,作为各条所述待测样本的分数。
可以理解的是,待测样本中可能对应有多类指标,因此需要将待测样本中各类指标的分数之和,作为该待测样本的分数。
步骤S15、利用各条所述待测样本的分数,从各条所述待测样本中筛选出符合设定条件的样本。
设定条件可以根据具体地样本筛选任务进行设置,如,设定条件可以设置为:分数大于设定分数,或者,分数小于设定分数。
利用各条所述待测样本的分数,从各条所述待测样本中筛选出符合设定条件的样本,完成样本的筛选。
在本申请中,通过从各条待测样本中确定出用于衡量样本质量的各类指标,及利用各条所述待测样本中各类所述指标,确定各类所述指标的权重,明确各类所述指标衡量样本质量时所占的比重,并利用各条所述待测样本中各类所述指标及各类所述指标的权重和设定指标阈值,确定各条所述待测样本中各类所述指标的分数,并将各条所述待测样本中各类所述指标的分数之和,作为各条所述待测样本的分数,待测样本的分数可以表征其样本质量的高低,在此基础上,利用各条所述待测样本的分数,从各条所述待测样本中筛选出符合设定条件的样本,完成样本的筛选。
在本申请的另一个实施例中,对前述实施例中S12、利用各条所述待测样本中各类所述指标,确定各类所述指标的权重的过程进行介绍,请参见图2,可以包括:
步骤S21、利用各条所述待测样本中各类所述指标,计算各类所述指标的方差。
可以理解的是,不同样本之间的差异显著时,能够更容易筛选出符合设定条件的样本,如,在优质样本(可以理解为:质量高的样本)与非优质样本的差异显著(可以理解为:优质样本的指标与非优质样本的指标的差异显著)时,能够更容易区分出优质样本和非优质样本,进而筛选出优质样本。其中,方差本身具有的离散性可以用来衡量指标间的差异是否显著,因此可以选用方差来衡量各类指标的权重。
方差越大,指标的离散程度越高,指标间的差异越显著,进而越容易区分出质量不同的样本。
需要说明的是,利用各条所述待测样本中各类指标,计算各类所述指标的方差的过程可以为:
利用关系式计算各类所述指标的方差,其中,s2表示某一类指标的方差,x表示某一类指标的平均数,n表示某一类指标的数量,xi表示该类指标中的第i个指标。
步骤S22、利用各类所述指标的方差,计算各类所述指标的标准差。
由于标准差相比于方差,更能反映数据的离散程度,因此优选的,可以选用标准差来衡量各类指标的权重。
需要说明的是,利用各类所述指标的方差,计算各类所述指标的标准差的过程,可以为:
利用关系式s=sqrt(((x1-x)2+(x2-x)2+...+(xn-x)2)/n),计算各类所述指标的标准差,其中,sqrt()表示算数平方根,((x1-x)2+(x2-x)2+...+(xn-x)2)/n表示某一类指标的方差,x表示某一类指标的平均数,n表示某一类指标的数量,xi表示该类指标中的第i个指标。
步骤S23、利用各条所述待测样本中各类所述指标,计算各类所述指标的均值。
利用各条所述待测样本中各类所述指标,计算各类所述指标的均值的过程具体可以包括:
分别对各条所述待测样本中各类所述指标进行求和运算,得到的结果除以待测样本的总条数,得到各类所述指标的均值。
步骤S24、将各类所述指标的标准差与均值的比值,分别作为各类所述指标的变异系数。
各类所述指标的变异系数可以理解为:不同类别的指标间的相对数。
需要说明的是,不同类别的指标的标准差之间没有可比性,为了使不同类别的指标的标准差具有可比性,可以构造相对数来消除标准差具有的单位属性的影响。
步骤S25、根据各类所述指标的变异系数,确定出权重修正值。
根据各类所述指标的变异系数,确定出权重修正值的过程,可以包括:
A11、对各类所述指标的变异系数进行求和运算,得到变异系数之和。
A12、将1除以变异系数之和,得到的结果作为权重修正值。
对应步骤A11-A12,可以采用关系式∑(σ1/X1+σ2/X2+…+σn/Xn)*A=1计算权重修正值。
其中,σi/Xi表示第i类指标的变异系数,∑表示求和函数,A表示权重修正值。
步骤S26、将各类所述指标的变异系数与所述权重修正值的乘积,作为各类所述指标的权重。
将各类所述指标的变异系数与所述权重修正值的乘积,作为各类所述指标的权重,可以提高各类所述指标的权重的合理性和准确性。
在本申请的另一个实施例中,对前述实施例中S13、利用各条所述待测样本中各类所述指标及各类所述指标的权重和设定指标阈值,确定各条所述待测样本中各类所述指标的分数的过程进行介绍,请参见图3,可以包括:
步骤S31、判断各条所述待测样本中各类所述指标是否大于各自对应的设定指标阈值。
由于各类指标各自均有一个设定指标阈值,因此判断各条待测样本中各类指标是否大于各自对应的设定指标阈值。
若是,执行步骤S32;若否,执行步骤S33。
步骤S32、确定各条所述待测样本中对应的指标的分数为满分。
在步骤S31判断出各条待测样本中某类指标大于各自对应的设定指标阈值的基础下,本步骤可以确定各条待测样本中对应的指标的分数为满分。
需要说明的是,满分可以设置为100分。当然,满分也可以设置为:指标的权重乘以100。其中,指标的权重为前述实施例中步骤S26所确定出的权重。
步骤S33、将各条所述待测样本中各类所述指标与其权重及其设定满分值相乘,得到乘积结果,并将所述乘积结果除以其设定指标阈值,作为各条所述待测样本中各类所述指标的分数。
优选的,设定满分值可以设置为100。
需要说明的是,本步骤中,综合指标及其权重及其设定满分值及其设定指标阈值,来确定指标的分数,可以提高指标分数确定的可靠性。
本实施例中,可以采用关系式mi=(σi/Xi)*A*100*ti/vi,计算某一类指标的分数。
其中,mi表示第i类指标的分数,(σi/Xi)*A表示第i类指标的权重,ti表示第i类指标,vi表示第i类指标的设定指标阈值。
当然,本实施例中,确定待测样本中各类指标的分数并不局限于步骤S33示出的实施方式,也可以为:将各条所述待测样本中各类所述指标的权重及其设定满分值相乘,得到乘积结果,作为各条所述待测样本中各类所述指标的分数。
在本申请的另一个实施例中,介绍另外一种利用各条所述待测样本中各类所述指标及各类所述指标的权重和设定指标阈值,确定各条所述待测样本中各类所述指标的分数的过程,请参见图4,可以包括:
步骤S41、判断各条所述待测样本中各类所述指标是否大于各自对应的设定指标阈值。
若是,执行步骤S42;若否,执行步骤S43。
步骤S42、确定各条所述待测样本中对应的指标的分数为满分。
步骤S43、从各条所述待测样本中各类所述指标中,删除与其均值之差不小于设定阈值的指标,所述设定阈值为所述标准差乘以预设倍数。
一般地,由于所述待测样本中各类指标中与其均值之差小于所述标准差乘以预设倍数,因此,各类指标中与其均值之差不小于所述标准差乘以预设倍数的指标,不符合待测样本中各类指标的分布,因此需要将其删除,提高待测样本中各类指标的准确性。
优选的,各条所述待测样本中各类指标的分布满足正态分布时,预设倍数可以设置为3,各条所述待测样本中各类指标的分布不满足正态分布时,预设倍数可以设置为6。
步骤S44、利用各条所述待测样本中各类所述指标中目标指标及各类所述指标的权重和设定指标阈值,确定各条所述待测样本中各类所述指标的分数。
需要说明的是,各类所述指标中目标指标为:从各条所述待测样本中各类所述指标中,删除与其均值之差不小于设定阈值的指标之后,剩余的指标。
利用各条所述待测样本中各类所述指标中目标指标及各类所述指标的权重和设定指标阈值,确定各条所述待测样本中各类所述指标的分数的详细过程可以参见前述实施例中步骤S33的相关介绍,在此不再赘述。
接下来对本申请提供的样本筛选装置进行介绍,下文描述的样本筛选装置与上文描述的样本筛选方法可相互对应参照。
请参见图5,其示出了本申请提供的样本筛选装置的一种逻辑结构示意图,样本筛选装置包括:第一确定模块11、第二确定模块12、第三确定模块13、第四确定模块14和筛选模块15。
本实施例中,第一确定模块11,用于从各条待测样本中确定出用于衡量样本质量的各类指标。
第二确定模块12,用于利用各条所述待测样本中各类所述指标,确定各类所述指标的权重及设定指标阈值。
第三确定模块13,用于利用各条所述待测样本中各类所述指标及各类所述指标的权重和设定指标阈值,确定各条所述待测样本中各类所述指标的分数。
第四确定模块14,用于将各条所述待测样本中各类所述指标的分数之和,作为各条所述待测样本的分数。
筛选模块15,用于利用各条所述待测样本的分数,从各条所述待测样本中筛选出符合设定条件的样本。
本实施例中,第二确定模块12,可以包括:
第一计算子模块,用于利用各条所述待测样本中各类所述指标,计算各类所述指标的方差。
第二计算子模块,用于利用各类所述指标的方差,计算各类所述指标的标准差。
第三计算子模块,用于利用各条所述待测样本中各类所述指标,计算各类所述指标的均值。
第一确定子模块,用于将各类所述指标的标准差与均值的比值,分别作为各类所述指标的变异系数。
第二确定子模块,用于根据各类所述指标的变异系数,确定出权重修正值。
第三确定子模块,用于将各类所述指标的变异系数与所述权重修正值的乘积,作为各类所述指标的权重。
本实施例中,所述第三确定模块13,可以包括:
判断子模块,用于判断各条所述待测样本中各类所述指标是否大于各自对应的设定指标阈值,若是,执行第四确定子模块,若否,执行第五确定子模块;
所述第四确定子模块,用于确定各条所述待测样本中对应的指标的分数为满分;
所述第五确定子模块,用于将各条所述待测样本中各类所述指标与其权重及其设定满分值相乘,得到乘积结果,并将所述乘积结果除以其设定指标阈值,作为各条所述待测样本中各类所述指标的分数。
本实施例中,第三确定模块13还可以包括:
删除子模块,用于从各条所述待测样本中各类所述指标中,删除与其均值之差不小于设定阈值的指标,所述设定阈值为所述标准差乘以预设倍数。
本实施例中,第二确定模块12可以包括:
第六确定子模块,用于分别对各条所述待测样本中各类所述指标进行从小到大的排序,并根据排序结果将顺序位于设定顺序的指标,作为各类所述指标的设定指标阈值。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
以上对本申请所提供的一种样本筛选方法及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种样本筛选方法,其特征在于,包括:
从各条待测样本中确定出用于衡量样本质量的各类指标;
利用各条所述待测样本中各类所述指标,确定各类所述指标的权重及设定指标阈值;
利用各条所述待测样本中各类所述指标及各类所述指标的权重和设定指标阈值,确定各条所述待测样本中各类所述指标的分数;
将各条所述待测样本中各类所述指标的分数之和,作为各条所述待测样本的分数;
利用各条所述待测样本的分数,从各条所述待测样本中筛选出符合设定条件的样本。
2.根据权利要求1所述的方法,其特征在于,所述利用各条所述待测样本中各类所述指标,确定各类所述指标的权重,包括:
利用各条所述待测样本中各类所述指标,计算各类所述指标的方差;
利用各类所述指标的方差,计算各类所述指标的标准差;
利用各条所述待测样本中各类所述指标,计算各类所述指标的均值;
将各类所述指标的标准差与均值的比值,分别作为各类所述指标的变异系数;
根据各类所述指标的变异系数,确定出权重修正值;
将各类所述指标的变异系数与所述权重修正值的乘积,作为各类所述指标的权重。
3.根据权利要求2所述的方法,其特征在于,所述利用各条所述待测样本中各类所述指标及各类所述指标的权重和设定指标阈值,确定各条所述待测样本中各类所述指标的分数,包括:
判断各条所述待测样本中各类所述指标是否大于各自对应的设定指标阈值;
若是,确定各条所述待测样本中对应的指标的分数为满分;
若否,将各条所述待测样本中各类所述指标与其权重及其设定满分值相乘,得到乘积结果,并将所述乘积结果除以其设定指标阈值,作为各条所述待测样本中各类所述指标的分数。
4.根据权利要求2所述的方法,其特征在于,所述利用各条所述待测样本中各类所述指标及各类所述指标的权重和设定指标阈值,确定各条所述待测样本中各类所述指标的分数之前,还包括:
从各条所述待测样本中各类所述指标中,删除与其均值之差不小于设定阈值的指标,所述设定阈值为所述标准差乘以预设倍数。
5.根据权利要求1所述的方法,其特征在于,利用各条所述待测样本中各类所述指标,确定各类所述指标的设定指标阈值,包括:
分别对各条所述待测样本中各类所述指标进行从小到大的排序,并根据排序结果将顺序位于设定顺序的指标,作为各类所述指标的设定指标阈值。
6.一种样本筛选装置,其特征在于,包括:
第一确定模块,用于从各条待测样本中确定出用于衡量样本质量的各类指标;
第二确定模块,用于利用各条所述待测样本中各类所述指标,确定各类所述指标的权重及设定指标阈值;
第三确定模块,用于利用各条所述待测样本中各类所述指标及各类所述指标的权重和设定指标阈值,确定各条所述待测样本中各类所述指标的分数;
第四确定模块,用于将各条所述待测样本中各类所述指标的分数之和,作为各条所述待测样本的分数;
筛选模块,用于利用各条所述待测样本的分数,从各条所述待测样本中筛选出符合设定条件的样本。
7.根据权利要求6所述的装置,其特征在于,所述第二确定模块,包括:
第一计算子模块,用于利用各条所述待测样本中各类所述指标,计算各类所述指标的方差;
第二计算子模块,用于利用各类所述指标的方差,计算各类所述指标的标准差;
第三计算子模块,用于利用各条所述待测样本中各类所述指标,计算各类所述指标的均值;
第一确定子模块,用于将各类所述指标的标准差与均值的比值,分别作为各类所述指标的变异系数;
第二确定子模块,用于根据各类所述指标的变异系数,确定出权重修正值;
第三确定子模块,用于将各类所述指标的变异系数与所述权重修正值的乘积,作为各类所述指标的权重。
8.根据权利要求7所述的装置,其特征在于,所述第三确定模块,包括:
判断子模块,用于判断各条所述待测样本中各类所述指标是否大于各自对应的设定指标阈值,若是,执行第四确定子模块,若否,执行第五确定子模块;
所述第四确定子模块,用于确定各条所述待测样本中对应的指标的分数为满分;
所述第五确定子模块,用于将各条所述待测样本中各类所述指标与其权重及其设定满分值相乘,得到乘积结果,并将所述乘积结果除以其设定指标阈值,作为各条所述待测样本中各类所述指标的分数。
9.根据权利要求7所述的装置,其特征在于,所述第三确定模块,还包括:
删除子模块,用于从各条所述待测样本中各类所述指标中,删除与其均值之差不小于设定阈值的指标,所述设定阈值为所述标准差乘以预设倍数。
10.根据权利要求6所述的装置,其特征在于,所述第二确定模块,包括:
第六确定子模块,用于分别对各条所述待测样本中各类所述指标进行从小到大的排序,并根据排序结果将顺序位于设定顺序的指标,作为各类所述指标的设定指标阈值。
CN201910084871.9A 2019-01-29 2019-01-29 一种样本筛选方法及装置 Pending CN109815403A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910084871.9A CN109815403A (zh) 2019-01-29 2019-01-29 一种样本筛选方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910084871.9A CN109815403A (zh) 2019-01-29 2019-01-29 一种样本筛选方法及装置

Publications (1)

Publication Number Publication Date
CN109815403A true CN109815403A (zh) 2019-05-28

Family

ID=66605665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910084871.9A Pending CN109815403A (zh) 2019-01-29 2019-01-29 一种样本筛选方法及装置

Country Status (1)

Country Link
CN (1) CN109815403A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472096A (zh) * 2019-08-22 2019-11-19 腾讯音乐娱乐科技(深圳)有限公司 歌曲库的管理方法、装置、设备及存储介质
CN110533190A (zh) * 2019-07-18 2019-12-03 武汉烽火众智数字技术有限责任公司 一种基于机器学习的数据对象分析方法及装置
CN113254709A (zh) * 2021-06-30 2021-08-13 北京达佳互联信息技术有限公司 内容数据的处理方法及装置、存储介质
CN114881709A (zh) * 2022-06-09 2022-08-09 北京有竹居网络技术有限公司 一种数据处理方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544314A (zh) * 2013-11-04 2014-01-29 北京中搜网络技术股份有限公司 一种搜索数据质量统计方法
US20140074856A1 (en) * 2012-09-07 2014-03-13 Yahoo! Inc. Social content suggestions based on connections

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140074856A1 (en) * 2012-09-07 2014-03-13 Yahoo! Inc. Social content suggestions based on connections
CN103544314A (zh) * 2013-11-04 2014-01-29 北京中搜网络技术股份有限公司 一种搜索数据质量统计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李宝庆: "《精准扶贫背景下的金融扶贫及其绩效评价研究》", 31 July 2017, 中国金融出版社 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110533190A (zh) * 2019-07-18 2019-12-03 武汉烽火众智数字技术有限责任公司 一种基于机器学习的数据对象分析方法及装置
CN110533190B (zh) * 2019-07-18 2023-09-05 武汉烽火众智数字技术有限责任公司 一种基于机器学习的数据对象分析方法及装置
CN110472096A (zh) * 2019-08-22 2019-11-19 腾讯音乐娱乐科技(深圳)有限公司 歌曲库的管理方法、装置、设备及存储介质
CN113254709A (zh) * 2021-06-30 2021-08-13 北京达佳互联信息技术有限公司 内容数据的处理方法及装置、存储介质
CN113254709B (zh) * 2021-06-30 2021-12-28 北京达佳互联信息技术有限公司 内容数据的处理方法及装置、存储介质
CN114881709A (zh) * 2022-06-09 2022-08-09 北京有竹居网络技术有限公司 一种数据处理方法及装置

Similar Documents

Publication Publication Date Title
CN109815403A (zh) 一种样本筛选方法及装置
CN106023015B (zh) 课程学习路径推荐方法及装置
CN104410516B (zh) 一种用户业务感知度评估方法和装置
Binney et al. Models of our galaxy–II
CN106097044A (zh) 一种数据推荐处理方法以及装置
CN105868254A (zh) 信息推荐方法及装置
CN111708934A (zh) 知识内容的评价方法、装置、电子设备和存储介质
WO2007023076A1 (en) Computer-based method of measuring the usability of a web site
JP5786458B2 (ja) キーワード抽出及びウエブコンテンツアクセス情報の収集装置
CA2946306A1 (en) Resource evaluation for complex task execution
CN105843876B (zh) 多媒体资源的质量评估方法和装置
CN107026892A (zh) 消息推荐方法和装置
CN110188187A (zh) 文章推荐方法及装置、存储介质
CN104111970A (zh) 统计页面平均停留时间、确定页面用户黏性的方法和装置
CN108268357A (zh) 实时数据处理方法和装置
JPWO2013161932A1 (ja) コンテンツ課金方法およびコンテンツ鑑賞システム
CN108062415B (zh) 用户行为的统计方法、装置及终端设备
CN105045910B (zh) 一种应用候选集生成方法、装置及服务设备
CN105740276B (zh) 适用于商业化搜索的点击反馈模型的估算方法和装置
CN109684546A (zh) 推荐方法、装置、存储介质及终端
CN112312173A (zh) 主播推荐方法、装置、电子设备及可读存储介质
CN106960401A (zh) 就业薪酬预估方法、推荐高考院校的方法及装置
Kraemer Ensuring consistent usage statistics, part 2: working with use data for electronic journals
CN111026981B (zh) 热点话题的可视化展示方法、装置和设备
CN106557874A (zh) 互联网营销能力的确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190528