CN110807159B - 数据标记方法、装置、存储介质及电子设备 - Google Patents

数据标记方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN110807159B
CN110807159B CN201911044835.6A CN201911044835A CN110807159B CN 110807159 B CN110807159 B CN 110807159B CN 201911044835 A CN201911044835 A CN 201911044835A CN 110807159 B CN110807159 B CN 110807159B
Authority
CN
China
Prior art keywords
target data
data
label
black label
sorting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911044835.6A
Other languages
English (en)
Other versions
CN110807159A (zh
Inventor
张文会
廖剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TONGDUN TECHNOLOGY Co.,Ltd.
Original Assignee
Tongdun Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongdun Holdings Co Ltd filed Critical Tongdun Holdings Co Ltd
Priority to CN201911044835.6A priority Critical patent/CN110807159B/zh
Publication of CN110807159A publication Critical patent/CN110807159A/zh
Application granted granted Critical
Publication of CN110807159B publication Critical patent/CN110807159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种数据标记方法、装置、存储介质及电子设备,该方法包括:获取目标数据中的部分数据的标签;确定当前算法对应的超参数;获取基于所述超参数构建的模型,并基于所述模型得到所述目标数据的预测值;基于所述预测值对所述目标数据进行排序,基于所述排序提取第一预设比例的目标数据,并进行分箱操作;判断相邻两箱中前一箱的目标数据中的黑标签的浓度是否大于后一箱的目标数据中的黑标签的浓度;若判断结果为是,基于所述排序提取第二预设比例的目标数据,将所述目标数据标记为黑标签,并基于所述黑标签更新所述目标数据。相比于相关技术中提出的数据标记方法,实现了基于很少量标签对大量数据的标记。

Description

数据标记方法、装置、存储介质及电子设备
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种数据标记方法、装置、存储介质及电子设备。
背景技术
随着信息科技的发展,基于数据的预测、处理越来越频繁,在一些场景下,需要对数据进行标记,以利用标记数据进行进一步的处理。
相关技术中提出了一些数据标记方法,例如:
第一类方法,利用大量的人力给数据打标签。例如,外包100人给数据打标,然后采用有监督算法建模。
第二类方法,采用标签传播算法,基于现有的少量标签传播。
第三类方法,采用主动学习的算法,对模型识别效果不好的样本人工打标。
在实现本发明的过程中,发明人发现上述欺诈团伙的识别方法至少存在以下技术问题:
需要的样本标签多,人力打标成本高,而且,在互联网领域,黑样本的采集困难,从而黑样本标签少,样本标签单一。
因此,需要一种新的数据标记方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种数据标记方法、装置、存储介质及电子设备,实现了基于很少量标签对大量数据的标记。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明实施例的一方面,提供一种数据标记方法,其中,所述方法包括:获取目标数据中的部分数据的标签;确定当前算法对应的超参数;获取基于所述超参数构建的模型,并基于所述模型得到所述目标数据的预测值;基于所述预测值对所述目标数据进行排序,基于所述排序提取第一预设比例的目标数据,并进行分箱操作;判断相邻两箱中前一箱的目标数据中的黑标签的浓度是否大于后一箱的目标数据中的黑标签的浓度;若判断结果为是,基于所述排序提取第二预设比例的目标数据,将所述目标数据标记为黑标签,并基于所述黑标签更新所述目标数据。
在本发明的一些示例性实施例中,基于前述方案,所述方法还包括:若判断相邻两箱中前一箱的目标数据中的黑标签的浓度不大于后一箱的目标数据中的黑标签的浓度,确定当前算法对应的超参数;获取基于所述超参数构建的模型,并基于所述模型得到所述目标数据的预测值;基于所述预测值对所述目标数据进行排序,基于所述排序提取第一预设比例的目标数据,并进行分箱操作;判断相邻两箱中前一箱的目标数据中的黑标签的浓度是否大于后一箱的目标数据中的黑标签的浓度;若判断结果为是,基于所述排序提取第二预设比例的目标数据,将所述目标数据标记为黑标签,并基于所述黑标签更新所述目标数据。
在本发明的一些示例性实施例中,基于前述方案,所述方法还包括:判断更新后的目标数据是否达到预设条件;若判断结果为否,基于更新后的目标数据获取所述目标数据中的部分数据的标签;确定当前算法对应的超参数;获取基于所述超参数构建的模型,并基于所述模型得到所述目标数据的预测值;基于所述预测值对所述目标数据进行排序,基于所述排序提取第一预设比例的目标数据,并进行分箱操作;判断相邻两箱中前一箱的目标数据中的黑标签的浓度是否大于后一箱的目标数据中的黑标签的浓度;若判断结果为是,基于所述排序提取第二预设比例的目标数据,将所述目标数据标记为黑标签,并基于所述黑标签更新目标数据。
在本发明的一些示例性实施例中,基于前述方案,所述当前算法包括:单类支持向量机算法、孤立森林算法以及智能过滤算法。
在本发明的一些示例性实施例中,基于前述方案,所述方法还包括:若判断更新后的目标数据达到预设条件,获取所述目标数据的全部标签。
在本发明的一些示例性实施例中,基于前述方案,所述方法包括:利用C50算法获取所述目标数据的全部标签的特征约束信息;基于所述特征约束信息的提升度提取目标特征组合。
在本发明的一些示例性实施例中,基于前述方案,获取目标数据中的部分数据的标签,包括:获取目标数据中的初始部分数据的标签;获取目标数据中的初始部分数据的标签,包括:基于聚类算法对所述目标数据进行聚类;基于聚类结果进行分组,并获取所述目标数据中的至少一个分组的部分数据的标签。
根据本发明实施例的另一方面,提供一种数据标记装置,其中,所述装置包括:第一获取模块,配置为获取目标数据中的部分数据的标签;确定模块,配置为确定当前算法对应的超参数;第二获取模块,配置为获取基于所述超参数构建的模型,并基于所述模型得到所述目标数据的预测值;分箱模块,配置为基于所述预测值对所述目标数据进行排序,基于所述排序提取第一预设比例的目标数据,并进行分箱操作;判断模块,配置为判断相邻两箱中前一箱的目标数据中的黑标签的浓度是否大于后一箱的目标数据中的黑标签的浓度;更新模块,配置为在所述判断模块判断结果为是时,基于所述排序提取第二预设比例的目标数据,将所述目标数据标记为黑标签,并基于所述黑标签更新所述目标数据。
根据本发明实施例的再一方面,提供一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述方法步骤。
根据本发明实施例的再一方面,提供一种电子设备,其中,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述方法步骤。
本发明实施例中,获取目标数据中的部分数据的标签;确定当前算法对应的超参数;获取基于所述超参数构建的模型,并基于所述模型得到所述目标数据的预测值;基于所述预测值对所述目标数据进行排序,基于所述排序提取第一预设比例的目标数据,并进行分箱操作;判断相邻两箱中前一箱的目标数据中的黑标签的浓度是否大于后一箱的目标数据中的黑标签的浓度;若判断结果为是,基于所述排序提取第二预设比例的目标数据,将所述目标数据标记为黑标签,并基于所述黑标签更新所述目标数据。相比于相关技术中提出的数据标记方法,实现了基于很少量标签对大量数据的标记。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是根据一示例性实施例示出的一种数据标记方法的流程图;
图2根据一示例性实施例示出的另一种数据标记方法的流程图;
图3是根据一示例性实施例示出的一种数据标记装置的结构示意图;
图4是根据一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本发明将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
下面结合具体的实施例,对本发明实施例提出的数据标记方法进行详细的说明。需要说明的是,执行本发明实施例的执行主体可以包括具有计算处理能力的装置执行,例如:服务器和/或终端设备,但本发明并不限于此。
本发明实施例中提出的数据标记方法可以应用于对互联网上的日志数据、金融交易的交易数据、信用卡的申请记录数据以及用户在互联网上的行为数据等进行标记。
图1是根据一示例性实施例示出的一种数据标记方法的流程图。
如图1所示,该方法可以包括但不限于以下步骤:
在S110中,获取目标数据中的部分数据的标签。
根据本发明实施例,在获取到目标数据后,可以对目标数据进行预处理,对目标数据进行分布式数据编号,该编号为目标数据的唯一标识。
本发明实施例中,分布式编号可以包括:将目标数据分区,为各个分区设置区域编号,获取各个分区的目标数据的数量,对各个分区内的目标数据进行顺序编号,加上之前的区域编号,获取目标数据的全局编号。在获取到全局编号后,可以利用该编号指代该目标数据,并利用该全局编号将数据快速映射到目标数据中的各个数据。
本发明实施例中,目标数据中部分数据具有标签,该标签可以是黑标签或者白标签,其他的部分不具有标签,通过本发明实施例中提出的数据标记方法,可以对所有的目标数据进行标记。
本发明实施例中,在获取目标数据中的部分数据的标签时,可以获取目标数据中的初始部分数据的标签。具有标签的初始部分数据可以是很少的数据,通过更新不断的增加黑标签数据,从而确定所有目标数据的标签。
本发明实施例,在获取目标数据中的初始部分数据的标签时,可以基于聚类算法对所述目标数据进行聚类,基于聚类结果进行分组,并获取所述目标数据中的至少一个分组的部分数据的标签。
根据本发明实施例,在进行聚类分组时,可以对目标数据的各个特征做尺度变化,比如取log,尽可能的使目标数据服从正太分布。
例如,采用K-Mean(K-平均)、DBSCAN(Density-Based Spatial Clustering ofApplications with Noise,具有噪声的基于密度的聚类方法)等聚类算法建模得到群组,或采用连通分量、K-Core(K中心算法)、Louvain(基于图数据的社区发现算法)等复杂网络算法建模得到群组。这些建模要求严格,聚类算法的得到的群组的具有高质量特征,网络算法所选的边要求是强属性,如身份证号、手机号等。
根据本发明实施例,基于聚类结果分组后,可以基于人工对至少一个群组内的数据进行打标签。例如,随机抽取N(N为大于1等于1的自然数)个群组,进行人工打标,若某组共48个数据,其中35个样本的收货地址不同但结尾都有“ay”ziyang,与业务人员确认,这属于黑产团伙的“暗号”行为,所以为这35个样本都打上黑标签。这一步预计可以打出500-1000个高质量的黑标签。
本发明实施例中,通过对目标数据进行聚类分组后,获取部分群组的标签,一方面,将具有相似特征的数据聚类分组后打标签,可以提升人工打标签的速度。另一方面,更有助于从这些标签中提取出与黑标签相关的特征,提升整个数据标记的准确度。
本发明实施例中,在获取目标数据中的部分数据的标签时,还可以通过更新迭代的方式,不断的获取目标数据中的更新的部分数据的标签。
本发明实施例中,对应于各种应用场景,目标数据可以是互联网上的日志数据、金融交易的交易数据、信用卡的申请记录数据以及用户在互联网上的行为数据,黑标签可以是存在预设操作的数据,该预设操作可以是欺诈操作、购买操作、浏览操作、关注操作等,其中,欺诈操作可以如安装有欺诈应用或修改过设备标识的操作。
在S120中,确定当前算法对应的超参数。
根据本发明实施例,当前算法可以包括但不限于:单类支持向量机算法(One-Class Support Vector Machine,OCSVM)、孤立森林算法Isolation Forest以及智能过滤算法Smartfifter。其中,OCSVM算法的输入只有一类标签,孤立森林算法以及智能过滤算法输入可以是有两类标签的数据。
需要说明的是,每种算法都设置有至少一组超参数,本发明实施例中采用随机顺序遍历的方式,例如,网格搜索GridSeartch的风格搜索方法,从当前算法对应的所有组的超参数中选择一组未遍历过的一组超参数确定为当前算法对应的超参数。
需要指出的是,当某算法的所有组参数均已遍历过,则从算法中选择一个未遍历过的算法作为当前算法,并从该当前算法中选择一组未遍历过的一组超参数确定为当前算法对应的超参数。
在S130中,获取基于所述超参数构建的模型,并基于所述模型得到所述目标数据的预测值。
根据本发明实施例,在确定超参数后,基于超参数建模,需要指出的是,针对不同的当前算法对应的超参数,可以构建出不同的当前算法对应的模型,例如,若当前算法为OCSVM,可以构建出基于OCSVM算法的模型。
需要说明的是,针对OCSVM算法的模型,在基于该模型得到目标数据的预测值时,可以获取目标数据中的黑标签的数据(部分数据中的黑标签数据),将黑标签的数据输入至该算法的模型,利用黑标签数据对模型进行训练,利用训练后的模型得到所有目标数据的为黑标签数据的概率值。对于孤立森林算法以及智能过滤算法,在基于这两种算法对应的模型得到目标数据的预测值时,可以直接输入目标数据,输出每个目标数据距离黑标签的距离值。
在S140中,基于所述预测值对所述目标数据进行排序,基于所述排序提取第一预设比例的目标数据,并进行分箱操作。
根据本发明实施例,基于预测值可以确定目标数据为黑标签的概率值,进一步按照黑标签概率从大到小的顺序对预测值所对应的目标数据进行排序。例如,可以按照黑标签从大到小的顺序对目标数据进行排序。
根据本发明实施例,在排序后,基于该排序提取第一预设比例的目标数据,本发明实施例中,具体可以提取第一预设比例的黑标签概率大的目标数据,例如,若是按照黑标签概率从大到小的顺序,第一预设比例为1%,则计算出1%对应的目标数据的数量,然后按照黑标签概率从大到小选择出对应于该1%对应的目标数据的数量的目标数据。
根据本发明实施例,在提取出第一预设比例的目标数据后,对该目标数据进行等频分箱操作,按照黑标签概率从大小的顺序将目标数据分为多个箱,例如将100个目标数据等频分为2个箱,按照黑标签概率从大到小的顺序将前50个目标数据分为第1箱,将后面的50个目标数据分为第2箱。
需要说明的是,分箱的数量与提取的目标数据的数量有关系,分的箱太多或者太少,每个箱中得到的黑标签分布不均匀导致的黑样本浓度变化越明显,计算结果越不准确,本发明实施例提供一个经验数字,将目标数据等频分为2个箱。
在S150中,判断相邻两箱中前一箱的目标数据中的黑标签的浓度是否大于后一箱的目标数据中的黑标签的浓度。
根据本发明实施例,根据本发明实施例,在获取到各个分箱的目标数据后,可以基于目标数据中的已标记为黑标签的数据(前面以获取的目标数据中的部分数据中的黑标签数据),计算出每一箱中的黑标签的浓度。
本发明实施例中,浓度可以为WOE,WOE的全称是“Weight of Evidence”,即证据权重,WOE是对原始自变量的一种编码形式,公式可以如下:
Figure BDA0002253857270000091
其中,Event%表示黑标签的比例,Non Event%表示白标签比例。
但是,本发明实施例中浓度的计算方式并不仅限在于词,例如,也可以用黑标签数据占分箱内的数据的比例表示,例如,第1箱中有100条目标数据,其中,有3个是已经被标记为黑标签的数据,这一箱中的黑标签的浓度为3/100=3%。
根据本发明实施例,在获取到每一箱的黑标签浓度后,判断相邻两箱中前一箱的目标数据中的黑标签的浓度是否大于后一箱的目标数据中的黑标签的浓度。
例如,将提取的目标数据分为1箱、2箱和3箱,则判断1箱的黑标签的浓度是否大于2箱的黑标签的浓度,且,2箱的黑样本浓度是否大于3箱的黑标签的浓度。
在S160中,若判断结果为是,基于所述排序提取第二预设比例的目标数据,将所述目标数据标记为黑标签,并基于所述黑标签更新所述目标数据。
根据上述示例,在标签浓度满足:1箱>2箱>3箱时,基于排序提取第二预设比例的目标数据,例如,第二预设比例为0.1%,则从目标数据按照黑标签从大到小的排序中提取前0.1%对应数量的目标数据,若有一箱不满足上述的判断条件,则判断结果为否。
需要说明的是,第二预设比例可以与第一预设比例相同,也可以与第一预设比例不同。本发明实施例中,设置第二预设比例小于第一预设比例,从而使得提取的第二预设比例的目标数据为黑标签的概率更高,使得后面的数据标记结果更准确。
根据本发明实施例,将基于排序提取第二预设比例的目标数据标记为黑标签,并基于所述黑标签更新所述目标数据,从而使得目标数据中被标记的数据增多,以及黑标签数据增多。
本发明实施例中,获取目标数据中的部分数据的标签;确定当前算法对应的超参数;获取基于所述超参数构建的模型,并基于所述模型得到所述目标数据的预测值;基于所述预测值对所述目标数据进行排序,基于所述排序提取第一预设比例的目标数据,并进行分箱操作;判断相邻两箱中前一箱的目标数据中的黑标签的浓度是否大于后一箱的目标数据中的黑标签的浓度;若判断结果为是,基于所述排序提取第二预设比例的目标数据,将所述目标数据标记为黑标签,并基于所述黑标签更新所述目标数据,相比于相关技术中提出的数据标记方法,实现了基于很少量标签对大量数据的标记。
根据本发明实施例,若判断相邻两箱中前一箱的目标数据中的黑标签的浓度不大于后一箱的目标数据中的黑标签的浓度时,可以基于循环迭代的方式,重新执行S120-S160的步骤。
根据本发明实施例,在基于所述黑标签更新所述目标数据后,判断更新后的目标数据是否达到预设条件,若判断结果为否,重新执行S110-S160。若判断结果为是,获取所述目标数据的全部标签。其中,该预设条件可以是:目标数据的更新次数达到次数阈值N,或者,黑样本的浓度达到浓度阈值K。
根据本发明实施例,在获取到目标数据的全部标签后,还可以由人工对标签进行复核,精筛数据,进一步确定黑标签的正确性。
根据本发明实施例,在获取到目标数据的全部标签后,可以利用C50算法获取所述目标数据的全部标签的特征约束信息,基于所述特征约束信息的提升度lift提取目标特征组合。例如,目标特征组合可以是:1.特征“性别”+特征“时间”,比如“双十一”+“女性”成单率高。2.特征“性别”+特征“商品类别”,比如“运动类商品”+“男性”成单率高。
需要说明的是,可以利用本发明实施例提供的上述数据标记的实施例,对白标签进行标记,得到白标签。
下面结合具体的实施例,对本发明实施例中提出的数据标记方法进行进一步的说明。图2是根据一示例性实施例示出的另一种数据标记方法的流程图。该方法可以基于循环迭代的方式,实现对目标数据的标记。
在S210中,获取目标数据中的部分数据的标签。
需要指出的是,在其他轮迭代时,目标数据中的部分数据均是已经加入了新的黑标签的数据。在首次迭代时,可以获取目标数据中的初始部分数据的标签,基于聚类算法对所述目标数据进行聚类,基于聚类结果进行分组,并获取所述目标数据中的至少一个分组的部分数据的标签。
在S220中,确定当前算法对应的超参数。
根据本发明实施例中,当前算法可以包括单类支持向量机算法、孤立森林算法以及智能过滤算法,这些算法也可以随机顺序遍历。
在S230中,获取基于所述超参数构建的模型,并基于所述模型得到所述目标数据的预测值。
在S240中,基于所述预测值对所述目标数据进行排序,基于所述排序提取第一预设比例的目标数据,并进行分箱操作。
在S250中,判断相邻两箱中前一箱的目标数据中的黑标签的浓度是否大于后一箱的目标数据中的黑标签的浓度。
若判断结果为是,执行S260,否则,执行S220。
在S260中,若判断结果为是,基于所述排序提取第二预设比例的目标数据,将所述目标数据标记为黑标签,并基于所述黑标签更新所述目标数据。
在S270中,判断更新后的目标数据是否达到预设条件。
其中,该预设条件可以是:目标数据的更新次数达到次数阈值N,或者,黑标签的浓度达到浓度阈值K。当更新后的目标数据达到预设条件中的一个,即为达到预设条件。
若判断结果为否,执行S210,若判断结果为是,执行S280。
在S280中,获取所述目标数据的全部标签。
根据本发明实施例,若判断更新后的目标数据达到预设条件,则可以根据获取到的目标数据的预测值(如概率值、距离值),获取目标数据的全部标签。例如,设置预测值的阈值,将目标数据中达到该阈值的数据标记为黑标签,将未达到该阈值的数据标记为白标签,从而获取到目标数据的全部标签。
本发明实施例中,当判断相邻两箱中前一箱的目标数据中的黑标签的浓度不大于后一箱的目标数据中的黑标签的浓度时,重新确定当前算法的超参数,实现了基于目标数据的、当前算法的超参数循环遍历,实现了超参数寻优,得到当前循环的最优模型和目标数据的排序性。
本发明实施例中,当判断更新后的目标数据未达到预设条件时,基于提取的第二预设比例对应的目标数据的黑标签更新目标数据,实现了基于更新的目标数据的循环迭代,从而增加标记数据的数量,实现了基于少量的标签对大量数据的标记。
应清楚地理解,本发明描述了如何形成和使用特定示例,但本发明的原理不限于这些示例的任何细节。相反,基于本发明公开的内容的教导,这些原理能够应用于许多其它实施例。
下述为本发明装置实施例,可以用于执行本发明方法实施例。在下文对装置的描述中,与前述方法相同的部分,将不再赘述。
图3是根据一示例性实施例示出的一种数据标记装置的结构示意图,其中,所述装置300包括:
第一获取模块310,配置为获取目标数据中的部分数据的标签;
确定模块320,配置为确定当前算法对应的超参数;
第二获取模块330,配置为获取基于所述超参数构建的模型,并基于所述模型得到所述目标数据的预测值;
分箱模块340,配置为基于所述预测值对所述目标数据进行排序,基于所述排序提取第一预设比例的目标数据,并进行分箱操作;
判断模块350,配置为判断相邻两箱中前一箱的目标数据中的黑标签的浓度是否大于后一箱的目标数据中的黑标签的浓度;
更新模块360,配置为在所述判断模块判断结果为是时,基于所述排序提取第二预设比例的目标数据,将所述目标数据标记为黑标签,并基于所述黑标签更新所述目标数据。
本发明实施例中,获取目标数据中的部分数据的标签;确定当前算法对应的超参数;获取基于所述超参数构建的模型,并基于所述模型得到所述目标数据的预测值;基于所述预测值对所述目标数据进行排序,基于所述排序提取第一预设比例的目标数据,并进行分箱操作;判断相邻两箱中前一箱的目标数据中的黑标签的浓度是否大于后一箱的目标数据中的黑标签的浓度;若判断结果为是,基于所述排序提取第二预设比例的目标数据,将所述目标数据标记为黑标签,并基于所述黑标签更新所述目标数据,相比于相关技术中提出的数据标记方法,实现了基于很少量标签对大量数据的标记。
图4是根据一示例性实施例示出的一种电子设备的结构示意图。需要说明的是,图4示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,计算机系统400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本申请的终端中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一获取模块、确定模块、第二获取模块、分箱模块、判断模块以及更新模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定。
以上具体示出和描述了本发明的示例性实施例。应可理解的是,本发明不限于这里描述的详细结构、设置方式或实现方法;相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims (10)

1.一种数据标记方法,其特征在于,所述方法包括:
获取目标数据中的部分数据的标签;
确定当前算法对应的超参数;
获取基于所述超参数构建的模型,并基于所述模型得到所述目标数据的预测值;
基于所述预测值对所述目标数据进行排序,基于所述排序提取第一预设比例的目标数据,并进行分箱操作;
判断相邻两箱中前一箱的目标数据中的黑标签的浓度是否大于后一箱的目标数据中的黑标签的浓度;
若判断结果为是,基于所述排序提取第二预设比例的目标数据,将所述目标数据标记为黑标签,并基于所述黑标签更新所述目标数据,所述第二预设比例小于所述第一预设比例。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
若判断相邻两箱中前一箱的目标数据中的黑标签的浓度不大于后一箱的目标数据中的黑标签的浓度,确定当前算法对应的超参数;
获取基于所述超参数构建的模型,并基于所述模型得到所述目标数据的预测值;
基于所述预测值对所述目标数据进行排序,基于所述排序提取第一预设比例的目标数据,并进行分箱操作;
判断相邻两箱中前一箱的目标数据中的黑标签的浓度是否大于后一箱的目标数据中的黑标签的浓度;
若判断结果为是,基于所述排序提取第二预设比例的目标数据,将所述目标数据标记为黑标签,并基于所述黑标签更新所述目标数据。
3.如权利要求1-2任意一项所述的方法,其特征在于,所述方法还包括:
判断更新后的目标数据是否达到预设条件;
若判断结果为否,基于更新后的目标数据获取所述目标数据中的部分数据的标签;
确定当前算法对应的超参数;
获取基于所述超参数构建的模型,并基于所述模型得到所述目标数据的预测值;
基于所述预测值对所述目标数据进行排序,基于所述排序提取第一预设比例的目标数据,并进行分箱操作;
判断相邻两箱中前一箱的目标数据中的黑标签的浓度是否大于后一箱的目标数据中的黑标签的浓度;
若判断结果为是,基于所述排序提取第二预设比例的目标数据,将所述目标数据标记为黑标签,并基于所述黑标签更新目标数据。
4.如权利要求1-2任意一项所述的方法,其特征在于,所述当前算法包括:单类支持向量机算法、孤立森林算法以及智能过滤算法。
5.如权利要求2所述的方法,其特征在于,所述方法还包括:
若判断更新后的目标数据达到预设条件,获取所述目标数据的全部标签。
6.如权利要求4所述的方法,其特征在于,所述方法包括:
利用C50算法获取所述目标数据的全部标签的特征约束信息;
基于所述特征约束信息的提升度提取目标特征组合。
7.如权利要求1所述的方法,其特征在于,获取目标数据中的部分数据的标签,包括:获取目标数据中的初始部分数据的标签;
获取目标数据中的初始部分数据的标签,包括:
基于聚类算法对所述目标数据进行聚类;
基于聚类结果进行分组,并获取所述目标数据中的至少一个分组的部分数据的标签。
8.一种数据标记装置,其特征在于,所述装置包括:
第一获取模块,配置为获取目标数据中的部分数据的标签;
确定模块,配置为确定当前算法对应的超参数;
第二获取模块,配置为获取基于所述超参数构建的模型,并基于所述模型得到所述目标数据的预测值;
分箱模块,配置为基于所述预测值对所述目标数据进行排序,基于所述排序提取第一预设比例的目标数据,并进行分箱操作;
判断模块,配置为判断相邻两箱中前一箱的目标数据中的黑标签的浓度是否大于后一箱的目标数据中的黑标签的浓度;
更新模块,配置为在所述判断模块判断结果为是时,基于所述排序提取第二预设比例的目标数据,将所述目标数据标记为黑标签,并基于所述黑标签更新所述目标数据,所述第二预设比例小于所述第一预设比例。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201911044835.6A 2019-10-30 2019-10-30 数据标记方法、装置、存储介质及电子设备 Active CN110807159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911044835.6A CN110807159B (zh) 2019-10-30 2019-10-30 数据标记方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911044835.6A CN110807159B (zh) 2019-10-30 2019-10-30 数据标记方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN110807159A CN110807159A (zh) 2020-02-18
CN110807159B true CN110807159B (zh) 2021-05-11

Family

ID=69489855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911044835.6A Active CN110807159B (zh) 2019-10-30 2019-10-30 数据标记方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN110807159B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111477321B (zh) * 2020-03-11 2023-06-09 北京大学第三医院(北京大学第三临床医学院) 具有自学习能力的治疗效果预测系统及治疗效果预测终端
CN116150285A (zh) * 2022-12-13 2023-05-23 新瑞数城技术有限公司 基于大数据的楼宇自动化系统数据标记方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9392008B1 (en) * 2015-07-23 2016-07-12 Palantir Technologies Inc. Systems and methods for identifying information related to payment card breaches
KR101664109B1 (ko) * 2015-06-23 2016-10-10 인천대학교 산학협력단 웹사이트 구조 기반 개인정보 노출 위험도 제공 서비스 방법 및 시스템
CN108010533A (zh) * 2016-10-27 2018-05-08 北京酷我科技有限公司 音频数据码率的自动识别方法和装置
CN109118316A (zh) * 2018-06-25 2019-01-01 阿里巴巴集团控股有限公司 线上店铺真实性的识别方法和装置
CN109241418A (zh) * 2018-08-22 2019-01-18 中国平安人寿保险股份有限公司 基于随机森林的异常用户识别方法及装置、设备、介质
CN109598095A (zh) * 2019-01-07 2019-04-09 平安科技(深圳)有限公司 评分卡模型的建立方法、装置、计算机设备和存储介质
CN110263151A (zh) * 2019-05-06 2019-09-20 广东工业大学 一种面向多视角多标签数据的隐语义学习方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100036884A1 (en) * 2008-08-08 2010-02-11 Brown Robert G Correlation engine for generating anonymous correlations between publication-restricted data and personal attribute data
WO2010098865A1 (en) * 2009-02-26 2010-09-02 Gt Life Sciences, Inc. Mammalian cell line models and related methods
WO2016181593A1 (ja) * 2015-05-13 2016-11-17 日本電気株式会社 漏水状態推定システム、方法、および記録媒体
US20170032400A1 (en) * 2015-07-27 2017-02-02 Truecar, Inc. Vehicle data system for distribution of vehicle data in an online networked environment
CN109409757B (zh) * 2018-11-02 2021-09-24 中电科新型智慧城市研究院有限公司 一种基于朴素贝叶斯算法与曲线建模的城区学位压力评估方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101664109B1 (ko) * 2015-06-23 2016-10-10 인천대학교 산학협력단 웹사이트 구조 기반 개인정보 노출 위험도 제공 서비스 방법 및 시스템
US9392008B1 (en) * 2015-07-23 2016-07-12 Palantir Technologies Inc. Systems and methods for identifying information related to payment card breaches
CN108010533A (zh) * 2016-10-27 2018-05-08 北京酷我科技有限公司 音频数据码率的自动识别方法和装置
CN109118316A (zh) * 2018-06-25 2019-01-01 阿里巴巴集团控股有限公司 线上店铺真实性的识别方法和装置
CN109241418A (zh) * 2018-08-22 2019-01-18 中国平安人寿保险股份有限公司 基于随机森林的异常用户识别方法及装置、设备、介质
CN109598095A (zh) * 2019-01-07 2019-04-09 平安科技(深圳)有限公司 评分卡模型的建立方法、装置、计算机设备和存储介质
CN110263151A (zh) * 2019-05-06 2019-09-20 广东工业大学 一种面向多视角多标签数据的隐语义学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Development of proteomic technology of shotgun and label free";Zhuo Chen et.al;《Springer》;20140227;第322-330页 *
"校园社交网络中社会化标签系统的研究与实现";杜炤等;《计算机工程与设计》;20120816;第1-5页 *

Also Published As

Publication number Publication date
CN110807159A (zh) 2020-02-18

Similar Documents

Publication Publication Date Title
CN106651057B (zh) 一种基于安装包序列表的移动端用户年龄预测方法
CN110033026B (zh) 一种连续小样本图像的目标检测方法、装置及设备
CN112668579A (zh) 基于自适应亲和力和类别分配的弱监督语义分割方法
CN111191731A (zh) 数据处理的方法、装置、存储介质及电子设备
CN104008420A (zh) 一种基于自动编码机的分布式离群点检测方法及系统
CN110807159B (zh) 数据标记方法、装置、存储介质及电子设备
US20230342606A1 (en) Training method and apparatus for graph neural network
CN107368526A (zh) 一种数据处理方法及装置
CN111582315B (zh) 样本数据处理方法、装置及电子设备
CN114219562A (zh) 模型的训练方法、企业信用评估方法和装置、设备、介质
CN111626311B (zh) 一种异构图数据处理方法和装置
US20230230081A1 (en) Account identification method, apparatus, electronic device and computer readable medium
CN115049446A (zh) 商户识别方法、装置、电子设备及计算机可读介质
CN110765100B (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN111667018A (zh) 一种对象聚类的方法、装置、计算机可读介质及电子设备
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN111325578A (zh) 预测模型的样本确定方法及装置、介质和设备
CN111582313A (zh) 样本数据生成方法、装置及电子设备
CN113869904B (zh) 可疑数据识别方法、装置、电子设备、介质和计算机程序
CN107943943B (zh) 用户相似度的确定方法、装置、电子设备及存储介质
CN111984842B (zh) 银行客户数据处理方法及装置
CN107291722B (zh) 一种描述词的分类方法及设备
CN114610953A (zh) 一种数据分类方法、装置、设备及存储介质
CN113656586A (zh) 情感分类方法、装置、电子设备及可读存储介质
CN114067149A (zh) 互联网服务提供方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210909

Address after: Room 209, building 18, No. 998, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province, 310012

Patentee after: TONGDUN TECHNOLOGY Co.,Ltd.

Address before: Room 704, building 18, No. 998, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee before: TONGDUN HOLDINGS Co.,Ltd.