CN109492695A - 数据建模的样本处理方法、装置、电子设备及可读介质 - Google Patents

数据建模的样本处理方法、装置、电子设备及可读介质 Download PDF

Info

Publication number
CN109492695A
CN109492695A CN201811326044.8A CN201811326044A CN109492695A CN 109492695 A CN109492695 A CN 109492695A CN 201811326044 A CN201811326044 A CN 201811326044A CN 109492695 A CN109492695 A CN 109492695A
Authority
CN
China
Prior art keywords
sample
data
sample data
target labels
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811326044.8A
Other languages
English (en)
Other versions
CN109492695B (zh
Inventor
杨科斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN201811326044.8A priority Critical patent/CN109492695B/zh
Publication of CN109492695A publication Critical patent/CN109492695A/zh
Application granted granted Critical
Publication of CN109492695B publication Critical patent/CN109492695B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Generation (AREA)

Abstract

本公开实施例公开了一种数据建模的样本处理方法、装置、电子设备及可读介质。该方法包括:依据具有目标标签的第一样本数据和未具有目标标签的第二样本数据,对标记规则进行校准;采用校准后的标记规则,对未具有目标标签的第二样本数据进行目标标签标记;将具有目标标签标记的第一样本数据和第二样本数据作为数据建模的样本数据。通过采用本公开所提供的技术方案,可以实现对样本的标签标记过程更加科学,从而提高样本质量的效果。

Description

数据建模的样本处理方法、装置、电子设备及可读介质
技术领域
本公开实施例涉及数据建模技术领域,尤其涉及一种数据建模的样本处理方法、装置、电子设备及可读介质。
背景技术
目前,数据建模在很多领域都得到广泛的应用,已经成为数据处理领域的第一大工具。不同的样本数据完全可以构建出截然不同的模型,可见所构建的数据模型是否可以符合用户的预期,对于样本的确定是重中之重。现有技术中,需要对样本数据进行打目标标签,之后再进行模型的训练,然而打目标标签的环节中,会出现一个问题,就是如果出现部分或者全部样本没有明确的目标标签,对该样本数据如何进行标签标记,以及是否可以使用,成为了本领域技术人员亟待解决的技术问题。
发明内容
本公开实施例提供一种数据建模的样本处理方法、装置、电子设备及可读介质,可以实现对样本的标签标记过程更加科学,从而提高样本质量的效果。
第一方面,本公开实施例提供了一种数据建模的样本处理方法,该方法包括:
依据具有目标标签的第一样本数据和未具有目标标签的第二样本数据,对标记规则进行校准;
采用校准后的标记规则,对未具有目标标签的第二样本数据进行目标标签标记;
将具有目标标签标记的第一样本数据和第二样本数据作为数据建模的样本数据。
进一步的,依据具有目标标签的样本数据和未具有目标标签的样本数据,对标记规则进行校准,包括:
采用标记规则,对未具有目标标签的第二样本数据进行标记;
根据第一样本数据的标记结果和第二样本数据的标记结果,确定正样本和/或负样本的一致性;
若所述一致性不符合预设标准,则对所述标记规则进行校准。
进一步的,根据第一样本数据的标记结果和第二样本数据的标记结果,确定正样本和/或负样本的一致性,包括:
确定与所述目标标签关联的至少一个关联数据;
依据所述至少一个关联数据,对所述第一样本数据的标记结果与第二样本数据的标记结果中的正样本和/或负样本进行一致性计算。
进一步的,采用标记规则,对未具有目标标签的第二样本数据进行标记,包括:
确定与目标标签相关的特定维度标签;
对未具有目标标签的样本数据进行特定维度标签标记;
根据所述特定维度标签标记结果,确定所述样本数据中的第一样本范围;
根据所述第一样本范围构建预测模型,并利用所述预测模型对未具有目标标签的第二样本数据进行目标标签标定。
进一步的,将具有目标标签标记的第一样本数据和第二样本数据作为数据建模的样本数据,包括:
确定目标标签的模型入组条件;
根据所述模型入组条件,从具有目标标签标记的第一样本数据和第二样本数据中确定样本候选集合;
从所述样本候选集合中,随机抽取样本数据作为数据建模的样本数据。
第二方面,本公开实施例还提供了一种数据建模的样本处理装置,该装置包括:
标记规则校准模块,用于依据具有目标标签的第一样本数据和未具有目标标签的第二样本数据,对标记规则进行校准;
目标标签标记模块,用于采用校准后的标记规则,对未具有目标标签的第二样本数据进行目标标签标记;
样本数据确定模块,用于将具有目标标签标记的第一样本数据和第二样本数据作为数据建模的样本数据。
进一步的,所述标记规则校准模块包括:
第一样本数据标记单元,用于采用标记规则,对未具有目标标签的第二样本数据进行标记;
一致性确定单元,用于根据第一样本数据的标记结果和第二样本数据的标记结果,确定正样本和/或负样本的一致性;
校准单元,用于若所述一致性不符合预设标准,则对所述标记规则进行校准。
进一步的,所述一致性确定单元包括:
关联数据确定子单元,用于确定与所述目标标签关联的至少一个关联数据;
一致性计算子单元,用于依据所述至少一个关联数据,对所述第一样本数据的标记结果与第二样本数据的标记结果中的正样本和/或负样本进行一致性计算。
进一步的,所述第一样本数据标记单元包括:
特定维度标签确定子单元,用于确定与目标标签相关的特定维度标签;
特定维度标签标记子单元,用于对未具有目标标签的样本数据进行特定维度标签标记;
第一样本范围确定子单元,用于根据所述特定维度标签标记结果,确定所述样本数据中的第一样本范围;
目标标签标定子单元,用于根据所述第一样本范围构建预测模型,并利用所述预测模型对未具有目标标签的第二样本数据进行目标标签标定。
进一步的,所述样本数据确定模块包括:
入组条件确定单元,用于确定目标标签的模型入组条件;
样本候选集合确定单元,用于根据所述模型入组条件,从具有目标标签标记的第一样本数据和第二样本数据中确定样本候选集合;
样本数据抽取单元,用于从所述样本候选集合中,随机抽取样本数据作为数据建模的样本数据。
第三方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例所述的数据建模的样本处理方法。
第四方面,本公开实施例提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本公开实施例所述的数据建模的样本处理方法。
本公开实施例所提供的技术方案,通过依据具有目标标签的第一样本数据和未具有目标标签的第二样本数据,对标记规则进行校准;采用校准后的标记规则,对未具有目标标签的第二样本数据进行目标标签标记;将具有目标标签标记的第一样本数据和第二样本数据作为数据建模的样本数据。通过采用本公开所提供的技术方案,可以实现对样本的标签标记过程更加科学,从而提高样本质量的效果。
附图说明
图1是本公开实施例一提供的数据建模的样本处理方法的流程图;
图2是本公开实施例一提供的数据建模的样本处理方法的流程图;
图3是本公开实施例二提供的数据建模的样本处理装置的结构示意图;
图4是本公开实施例三提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本公开,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
下述各实施例中,每个实施例中同时提供了可选特征和示例,实施例中记载的各个特征可进行组合,形成多个可选方案,不应将每个编号的实施例仅视为一个技术方案。
实施例一
图1是本公开实施例一提供的数据建模的样本处理方法的流程图,本实施例可适用数据建模的情况,该方法可以由本公开实施例所提供的数据建模的样本处理装置来执行,该装置可以由软件和/或硬件的方式来实现,并可集成于客户端、终端以及服务器等电子设备中。
如图1所示,所述数据建模的样本处理方法包括:
S110、依据具有目标标签的第一样本数据和未具有目标标签的第二样本数据,对标记规则进行校准。
其中第一样本数据和第二样本数据可以是整个样本数据中的两个子集。目标标签可以是当前需要关注或者分析的标签,如职业标签。具有目标标签可以是样本数据中的一些数据已经确定该样本是具有目标标签的样本,还可以是在前面或者数据获取来源中已经确定了的样本数据。标记规则可以是对未具有目标标签进行目标标签标记的一种规则。具体的,可以是依赖于样本数据的来源、属性以及具体的参数信息等对未具有目标标签的样本数据进行标记。
对具有目标标签的样本数据无需再进行对其进行标签标记,因为其已经具有了目标标签。而对于不具有目标标签的样本数据,如果不按照标记规则进行标记的话,则该部分样本数据将无法被使用。而对于一些对目标标签有一定数量需求的模型来说,将无法完成数据模型的构建。
而对于标记规则进行校准,具体的,可以采用重合度检验法、聚类法以及其他任何能够进行标记规则校准的方法。而在本实施例中,可以知道的,由于第一样本数据具有目标标签,可以无需标记,也可以按照其所具有的目标标签进行标记,则第一样本数据的标记结果可以等同于第一样本数据本身。可以把标记后的第二样本数据与第一样本数据进行对比,确定其标记的目标标签是否合理,以及真实程度是否可靠。例如,经过校验发现,在第二样本数据中比较符合学生职业的10个样本数据均被标记为学生,则证明当前标记规则合理,其标记结果可以被使用。相反,如果在第二样本数据中比较符合学生职业的10个样本数据仅有三个样本数据被标记为学生,则证明当前标记规则不合理,需要进行校准,校准方式可以是更换为其他规则,或者改变当前规则中的一些参数,达到标记规则的标记结果可以被使用为止。
S120、采用校准后的标记规则,对未具有目标标签的第二样本数据进行目标标签标记。
其中,校准后的标记规则,可以是经过之前校准后确定标记结果可以被使用的标记规则,也可以是在最初就能够进行较理想的目标标签标记而无需再进行校准的标记规则。
对未具有目标标签的第二样本数据进行目标标签标记,可以是按照标记规则来对第二样本数据进行标记。在本实施例中,可以理解的,如果当前数据模型的构建所需要的目标标签的数量为1000个,而当前样本数据总数量为2000个,则可以先对其中对未具有目标标签的第二样本数据进行标记,在后续的操作中,从中选取1000个样本数据进行数据模型的构建。
S130、将具有目标标签标记的第一样本数据和第二样本数据作为数据建模的样本数据。
在本实施例中,在分别对第一样本数据和第二样本数据进行标签标记之后,可以将第一样本数据和第二样本数据作为数据建模的样本数据,这样设置的好处是可以避免一些噪声对数据建模所造成的影响,因为带偏数据建模的结果,使模型的使用受到影响。
本公开实施例所提供的技术方案,通过依据具有目标标签的第一样本数据和未具有目标标签的第二样本数据,对标记规则进行校准;采用校准后的标记规则,对未具有目标标签的第二样本数据进行目标标签标记;将具有目标标签标记的第一样本数据和第二样本数据作为数据建模的样本数据。通过采用本公开所提供的技术方案,可以实现对样本的标签标记过程更加科学,从而提高样本质量的效果。
图2是本公开实施例一提供的数据建模的样本处理方法的流程图。本技术方案是以上述技术方案中的各个可选方案为基础进行具体化。优化为依据具有目标标签的样本数据和未具有目标标签的样本数据,对标记规则进行校准,包括:采用标记规则,对未具有目标标签的第二样本数据进行标记;根据第一样本数据的标记结果和第二样本数据的标记结果,确定正样本和/或负样本的一致性;若所述一致性不符合预设标准,则对所述标记规则进行校准。
如图2所示,所述数据建模的样本处理方法包括:
S210、采用标记规则,对未具有目标标签的第二样本数据进行标记。
本次标记过程可以理解为是初步标记过程,所标记的结果并不是用于进行模型的训练,而是用于对标记规则进行校准。为了能够使标记规则的校准结果尽量的符合用户的需求,所以本公开所提供的技术方案是先以未校准的标记规则进行标记,然后再根据其标记结果进行校准,这样可以达到完全是数据仿真,能够真实有效的实现提高标记规则的标记结果的准确性的效果。而从初步标记的结果出发,可以更加有效的减少用户因为主观因素所做出的判断,可以实现完全客观的方式对标记规则进行校准。
S220、根据第一样本数据的标记结果和第二样本数据的标记结果,确定正样本和/或负样本的一致性。
其中,第一样本数据的标记结果可以是以其所具有的明确的目标标签所确定的。第二样本数据的标记结果为初步标记结果。其中正样本可以是在当前目标标签中得到肯定结果的样本数据。比如当前目标标签为婚姻状况,则正样本可以表示其中已婚的样本数据,而负样本可以表示其中未婚的样本数据。对于第一样本数据来说,其具有目标标签,也就是说,第一样本数据中每个样本数据是已婚还是未婚,是确定的。而第二样本数据的当前初步标记结果也标记了已婚未婚,那么可以根据第一样本数据和第二样本数据的标记结果中,正样本、负样本以及正样本和负样本的部分或者全部来进行一致性分析。
S230、若所述一致性不符合预设标准,则对所述标记规则进行校准。
其中,可以设定一个一致性阈值,当得到的一致性分析数据超过这一阈值时,则可以确定当前的标记规则不需要进行校准,而若所述一致性不符合预设标准,则对所述标记规则进行校准。
在本技术方案中,可选的,根据第一样本数据的标记结果和第二样本数据的标记结果,确定正样本和/或负样本的一致性,包括:确定与所述目标标签关联的至少一个关联数据;依据所述至少一个关联数据,对所述第一样本数据的标记结果与第二样本数据的标记结果中的正样本和/或负样本进行一致性计算。
结合上述示例来说明,其中,与目标标签关联的至少一个关联数据,可以是能够间接反映用户的婚姻状态是已婚或者未婚的关联数据。比如,用户的移动终端是否安装有孕育儿童知识相关的应用程序,或者是否参加过亲子游,以及用户的位置数据中是否经常定时出现在幼儿园以及小学等地址。如果第一样本数据的标记结果与第二样本数据的标记结果中的正样本、负样本以及正样本和负样本中,带有一个或者多个关联数据的第二样本数据的标记结果与第一样本数据所一致,或者一致性可以达到90%以上,则说明当前标记规则合理,可以用于进行目标标签的标记。
S240、采用校准后的标记规则,对未具有目标标签的第二样本数据进行目标标签标记。
S250、将具有目标标签标记的第一样本数据和第二样本数据作为数据建模的样本数据。
本技术方案在上述技术方案的基础上,提供了一种对标记规则进行校准的方法,这样设置的好处是可以根据标记规则的初步标记结果进行判断,使得标记规则是否合理的判断结果的准确性更加客观,从而提高数据建模的准确度。
在上述各技术方案的基础上,可选的,采用标记规则,对未具有目标标签的第二样本数据进行标记,包括:确定与目标标签相关的特定维度标签;对未具有目标标签的样本数据进行特定维度标签标记;根据所述特定维度标签标记结果,确定所述样本数据中的第一样本范围;根据所述第一样本范围构建预测模型,并利用所述预测模型对未具有目标标签的第二样本数据进行目标标签标定。
其中,特定维度标签可以是与目标标签强相关的标签,比如目标标签为职业,则在一般的工作时间内用户的位置标签,再如用户从图书馆借过的书籍类型标签等,可以将其作为特定维度标签。由于特定维度标签用于确定第一样本范围,而第一样本范围又用于对预测模型进行构建,所以在本技术方案中,可以在确定特定维度标签后,要求第二样本数据中,包括所有的特定维度标签才可以进入到第一样本范围。根据第一样本范围确定预测模型对第二样本数据中第一样本范围以外的其他样本数据进行预测时,可以采用特定维度标签中的部分或特定维度标签以外的其他标签。
值得说明的是,虽然在少数情况下样本数据中都包含具有目标标签的第一样本数据和未具有目标标签的第二样本数据,但是本技术方案可以解决在样本数据中只有未具有目标标签的第二样本数据的情况。而且本方案这样设置的好处是可以更加准确的对未具有目标标签的样本数据进行标记,提高数据建模过程中对样本数据的适应性。
在上述各技术方案的基础上,可选的,将具有目标标签标记的第一样本数据和第二样本数据作为数据建模的样本数据,包括:确定目标标签的模型入组条件;根据所述模型入组条件,从具有目标标签标记的第一样本数据和第二样本数据中确定样本候选集合;从所述样本候选集合中,随机抽取样本数据作为数据建模的样本数据。
示例性的,结合现实生活分析,婚姻模型的入组条件可以是年龄在[20,40]的用户。因为可以直接判定20岁以下全部没结婚,以及40岁以上全部结婚的准确率可能比用模型预测的还要准确。此外,如果不设置入组条件,预测所有的用户,会发现的模型会被20岁以下和40岁以上的人群影响,因为这两部分人的特征非常的明显,会导致最后得到的模型准确性较低,对实际不确定人群[20,40]表现可能会很差。
本技术方案在上述各技术方案的基础上,提供了一种对标记标签后的样本数据进行进一步筛选的方法,该筛选可以是运用一些客观因素作为基础,也可以是运用主观的判断条件作为基础。这样设置的好处是可以提高最终得到的数据模型的准确程度,有利于辅助得到高质量的数据模型。
实施例二
图3是本公开实施例二提供的数据建模的样本处理装置的结构示意图。如图3所示,所述数据建模的样本处理装置,包括:
标记规则校准模块310,用于依据具有目标标签的第一样本数据和未具有目标标签的第二样本数据,对标记规则进行校准;
目标标签标记模块320,用于采用校准后的标记规则,对未具有目标标签的第二样本数据进行目标标签标记;
样本数据确定模块330,用于将具有目标标签标记的第一样本数据和第二样本数据作为数据建模的样本数据。
本公开实施例所提供的技术方案,通过依据具有目标标签的第一样本数据和未具有目标标签的第二样本数据,对标记规则进行校准;采用校准后的标记规则,对未具有目标标签的第二样本数据进行目标标签标记;将具有目标标签标记的第一样本数据和第二样本数据作为数据建模的样本数据。通过采用本公开所提供的技术方案,可以实现对样本的标签标记过程更加科学,从而提高样本质量的效果。
在上述各技术方案的基础上,可选的,所述标记规则校准模块包括:
第一样本数据标记单元,用于采用标记规则,对未具有目标标签的第二样本数据进行标记;
一致性确定单元,用于根据第一样本数据的标记结果和第二样本数据的标记结果,确定正样本和/或负样本的一致性;
校准单元,用于若所述一致性不符合预设标准,则对所述标记规则进行校准。
在上述各技术方案的基础上,可选的,所述一致性确定单元包括:
关联数据确定子单元,用于确定与所述目标标签关联的至少一个关联数据;
一致性计算子单元,用于依据所述至少一个关联数据,对所述第一样本数据的标记结果与第二样本数据的标记结果中的正样本和/或负样本进行一致性计算。
在上述各技术方案的基础上,可选的,所述第一样本数据标记单元包括:
特定维度标签确定子单元,用于确定与目标标签相关的特定维度标签;
特定维度标签标记子单元,用于对未具有目标标签的样本数据进行特定维度标签标记;
第一样本范围确定子单元,用于根据所述特定维度标签标记结果,确定所述样本数据中的第一样本范围;
目标标签标定子单元,用于根据所述第一样本范围构建预测模型,并利用所述预测模型对未具有目标标签的第二样本数据进行目标标签标定。
在上述各技术方案的基础上,可选的,所述样本数据确定模块包括:
入组条件确定单元,用于确定目标标签的模型入组条件;
样本候选集合确定单元,用于根据所述模型入组条件,从具有目标标签标记的第一样本数据和第二样本数据中确定样本候选集合;
样本数据抽取单元,用于从所述样本候选集合中,随机抽取样本数据作为数据建模的样本数据。
上述产品可执行本公开任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
实施例三
图4是本公开实施例三提供的一种电子设备的结构示意图。下面参考图4,其示出了适于用来实现本公开实施例的电子设备400的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载电子设备(例如车载导航电子设备)等等的电子设备以及诸如数字TV、台式计算机等等的固定电子设备。图4示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图4所示,电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
通常,以下装置可以连接至I/O接口405:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘等的存储装置408;以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置408被安装,或者从ROM402被安装。在该计算机程序被处理装置401执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:依据具有目标标签的第一样本数据和未具有目标标签的第二样本数据,对标记规则进行校准;采用校准后的标记规则,对未具有目标标签的第二样本数据进行目标标签标记;将具有目标标签标记的第一样本数据和第二样本数据作为数据建模的样本数据。
或者,上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:依据具有目标标签的第一样本数据和未具有目标标签的第二样本数据,对标记规则进行校准;采用校准后的标记规则,对未具有目标标签的第二样本数据进行目标标签标记;将具有目标标签标记的第一样本数据和第二样本数据作为数据建模的样本数据。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块、单元的名称在某种情况下并不构成对该模块、单元本身的限定。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种数据建模的样本处理方法,其特征在于,包括:
依据具有目标标签的第一样本数据和未具有目标标签的第二样本数据,对标记规则进行校准;
采用校准后的标记规则,对未具有目标标签的第二样本数据进行目标标签标记;
将具有目标标签标记的第一样本数据和第二样本数据作为数据建模的样本数据。
2.根据权利要求1所述的方法,其特征在于,依据具有目标标签的样本数据和未具有目标标签的样本数据,对标记规则进行校准,包括:
采用标记规则,对未具有目标标签的第二样本数据进行标记;
根据第一样本数据的标记结果和第二样本数据的标记结果,确定正样本和/或负样本的一致性;
若所述一致性不符合预设标准,则对所述标记规则进行校准。
3.根据权利要求2所述的方法,其特征在于,根据第一样本数据的标记结果和第二样本数据的标记结果,确定正样本和/或负样本的一致性,包括:
确定与所述目标标签关联的至少一个关联数据;
依据所述至少一个关联数据,对所述第一样本数据的标记结果与第二样本数据的标记结果中的正样本和/或负样本进行一致性计算。
4.根据权利要求2所述的方法,其特征在于,采用标记规则,对未具有目标标签的第二样本数据进行标记,包括:
确定与目标标签相关的特定维度标签;
对未具有目标标签的样本数据进行特定维度标签标记;
根据所述特定维度标签标记结果,确定所述样本数据中的第一样本范围;
根据所述第一样本范围构建预测模型,并利用所述预测模型对未具有目标标签的第二样本数据进行目标标签标定。
5.根据权利要求1所述的方法,其特征在于,将具有目标标签标记的第一样本数据和第二样本数据作为数据建模的样本数据,包括:
确定目标标签的模型入组条件;
根据所述模型入组条件,从具有目标标签标记的第一样本数据和第二样本数据中确定样本候选集合;
从所述样本候选集合中,随机抽取样本数据作为数据建模的样本数据。
6.一种数据建模的样本处理装置,其特征在于,包括:
标记规则校准模块,用于依据具有目标标签的第一样本数据和未具有目标标签的第二样本数据,对标记规则进行校准;
目标标签标记模块,用于采用校准后的标记规则,对未具有目标标签的第二样本数据进行目标标签标记;
样本数据确定模块,用于将具有目标标签标记的第一样本数据和第二样本数据作为数据建模的样本数据。
7.根据权利要求6所述的装置,其特征在于,所述标记规则校准模块包括:
第一样本数据标记单元,用于采用标记规则,对未具有目标标签的第二样本数据进行标记;
一致性确定单元,用于根据第一样本数据的标记结果和第二样本数据的标记结果,确定正样本和/或负样本的一致性;
校准单元,用于若所述一致性不符合预设标准,则对所述标记规则进行校准。
8.根据权利要求7所述的装置,其特征在于,所述一致性确定单元包括:
关联数据确定子单元,用于确定与所述目标标签关联的至少一个关联数据;
一致性计算子单元,用于依据所述至少一个关联数据,对所述第一样本数据的标记结果与第二样本数据的标记结果中的正样本和/或负样本进行一致性计算。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的数据建模的样本处理方法。
10.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的数据建模的样本处理方法。
CN201811326044.8A 2018-11-08 2018-11-08 数据建模的样本处理方法、装置、电子设备及可读介质 Active CN109492695B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811326044.8A CN109492695B (zh) 2018-11-08 2018-11-08 数据建模的样本处理方法、装置、电子设备及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811326044.8A CN109492695B (zh) 2018-11-08 2018-11-08 数据建模的样本处理方法、装置、电子设备及可读介质

Publications (2)

Publication Number Publication Date
CN109492695A true CN109492695A (zh) 2019-03-19
CN109492695B CN109492695B (zh) 2021-07-23

Family

ID=65693930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811326044.8A Active CN109492695B (zh) 2018-11-08 2018-11-08 数据建模的样本处理方法、装置、电子设备及可读介质

Country Status (1)

Country Link
CN (1) CN109492695B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100076923A1 (en) * 2008-09-25 2010-03-25 Microsoft Corporation Online multi-label active annotation of data files
CN104166706A (zh) * 2014-08-08 2014-11-26 苏州大学 基于代价敏感主动学习的多标签分类器构建方法
CN104881689A (zh) * 2015-06-17 2015-09-02 苏州大学张家港工业技术研究院 一种多标签主动学习分类方法及系统
CN106095966A (zh) * 2016-06-15 2016-11-09 成都品果科技有限公司 一种用户可扩展的标签标注方法及系统
CN106156805A (zh) * 2016-09-12 2016-11-23 中国石油大学(华东) 一种样本标签缺失数据的分类器训练方法
CN106650780A (zh) * 2016-10-18 2017-05-10 腾讯科技(深圳)有限公司 数据处理方法及装置、分类器训练方法及系统
CN107809766A (zh) * 2017-10-20 2018-03-16 北京神州泰岳软件股份有限公司 一种用于网络优化的机器学习样本的生成方法及装置
CN108009589A (zh) * 2017-12-12 2018-05-08 腾讯科技(深圳)有限公司 样本数据处理方法、装置和计算机可读存储介质
CN108021931A (zh) * 2017-11-20 2018-05-11 阿里巴巴集团控股有限公司 一种数据样本标签处理方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100076923A1 (en) * 2008-09-25 2010-03-25 Microsoft Corporation Online multi-label active annotation of data files
CN104166706A (zh) * 2014-08-08 2014-11-26 苏州大学 基于代价敏感主动学习的多标签分类器构建方法
CN104881689A (zh) * 2015-06-17 2015-09-02 苏州大学张家港工业技术研究院 一种多标签主动学习分类方法及系统
CN106095966A (zh) * 2016-06-15 2016-11-09 成都品果科技有限公司 一种用户可扩展的标签标注方法及系统
CN106156805A (zh) * 2016-09-12 2016-11-23 中国石油大学(华东) 一种样本标签缺失数据的分类器训练方法
CN106650780A (zh) * 2016-10-18 2017-05-10 腾讯科技(深圳)有限公司 数据处理方法及装置、分类器训练方法及系统
CN107809766A (zh) * 2017-10-20 2018-03-16 北京神州泰岳软件股份有限公司 一种用于网络优化的机器学习样本的生成方法及装置
CN108021931A (zh) * 2017-11-20 2018-05-11 阿里巴巴集团控股有限公司 一种数据样本标签处理方法及装置
CN108009589A (zh) * 2017-12-12 2018-05-08 腾讯科技(深圳)有限公司 样本数据处理方法、装置和计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIANGHONG M.等: "Multi-label classification for images with missing labels", 《2017 IEEE 15TH INTERNATIONAL CONFERENCE ON INDUSTRIAL INFORMATICS (INDIN)》 *
张荣 等: "基于分水岭的图像分割训练样本的自动选择和标注", 《山西大学学报》 *

Also Published As

Publication number Publication date
CN109492695B (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
US11537941B2 (en) Remote validation of machine-learning models for data imbalance
CN109508681A (zh) 生成人体关键点检测模型的方法和装置
CN109460514A (zh) 用于推送信息的方法和装置
CN112966712A (zh) 语言模型训练方法、装置、电子设备和计算机可读介质
CN108804704A (zh) 一种用户深度画像方法及装置
CN110781413B (zh) 兴趣点确定方法及装置、存储介质、电子设备
WO2021121296A1 (zh) 习题测试数据生成方法以及装置
CN109919244A (zh) 用于生成场景识别模型的方法和装置
CN109376419A (zh) 一种数据建模的方法、装置、电子设备及可读介质
CN109214585A (zh) 用户消费预测方法、装置、电子设备及存储介质
CN108121699A (zh) 用于输出信息的方法和装置
Anthony A study of consumer acceptance of mobile payment services in Hong Kong
CN109902446A (zh) 用于生成信息预测模型的方法和装置
CN109993638A (zh) 产品推荐的方法、装置、介质和电子设备
CN110765596A (zh) 审核过程仿真模型建模方法、装置及电子设备
CN109726390A (zh) 文档处理方法、装置、电子设备和存储介质
CN110223124A (zh) 数据处理方法、装置、电子设备及计算机可读介质
CN111738010A (zh) 用于生成语义匹配模型的方法和装置
Moustaka et al. CityDNA: smart city dimensions' correlations for identifying urban profile
Ma et al. Multiple change point detection and validation in autoregressive time series data
CN110008926A (zh) 用于识别年龄的方法和装置
CN115543638B (zh) 基于不确定性的边缘计算数据收集分析方法、系统及设备
CN111026849A (zh) 数据处理方法和装置
CN109492695A (zh) 数据建模的样本处理方法、装置、电子设备及可读介质
CN110046670A (zh) 特征向量降维方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant