CN110008972B - 用于数据增强的方法和装置 - Google Patents

用于数据增强的方法和装置 Download PDF

Info

Publication number
CN110008972B
CN110008972B CN201811360022.3A CN201811360022A CN110008972B CN 110008972 B CN110008972 B CN 110008972B CN 201811360022 A CN201811360022 A CN 201811360022A CN 110008972 B CN110008972 B CN 110008972B
Authority
CN
China
Prior art keywords
model
data enhancement
training sample
type
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811360022.3A
Other languages
English (en)
Other versions
CN110008972A (zh
Inventor
易灿
袁锦程
许辽萨
王维强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201811360022.3A priority Critical patent/CN110008972B/zh
Publication of CN110008972A publication Critical patent/CN110008972A/zh
Application granted granted Critical
Publication of CN110008972B publication Critical patent/CN110008972B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Abstract

本发明涉及一种用于数据增强的方法和装置,该方法包括:利用指定训练样本集中的各个训练样本所包含的属性值,计算所述指定训练样本集的特征值;根据所计算的特征值,确定所述指定训练样本集所属的特征类型;至少根据所确定的特征类型和用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息,获得适用于对所述指定训练样本集进行数据增强处理的数据增强模型;利用所获得的数据增强模型,对所述指定训练样本集进行数据增强处理。该方法和装置能够有效确保数据增强的良好效果。

Description

用于数据增强的方法和装置
技术领域
本发明涉及机器学习领域,尤其涉及用于数据增强的方法和装置。
背景技术
数据增强是机器学习领域中的用于增加有效训练样本的数量的技术,其目的在于提高机器学习模型的分类能力。
目前,在给定训练样本之后,工程师通常根据自己的经验选择数据增强模型来对该训练样本进行数据增强处理。有时利用被数据增强处理后的训练样本所训练得到的机器学习模型的分类能力具有很大的提升,这表明数据增强的效果良好。但是,有时利用被数据增强处理后的训练样本所训练得到的机器学习模型的分类能力具有较低的提升甚至负提升,这表明数据增强的效果很差。
因此,现有的数据增强处理并不能总是确保数据增强的良好效果。
发明内容
本发明的实施例提供用于数据增强的方法和装置,其能够有效确保数据增强的良好效果。
按照本发明的实施例的一种用于数据增强的方法,包括:利用指定训练样本集中的各个训练样本所包含的属性值,计算所述指定训练样本集的特征值;根据所计算的特征值,确定所述指定训练样本集所属的特征类型;至少根据所确定的特征类型和用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息,获得适用于对所述指定训练样本集进行数据增强处理的数据增强模型;以及,利用所获得的数据增强模型,对所述指定训练样本集进行数据增强处理。
按照本发明的实施例的一种用于数据增强的装置,包括:计算模块,用于利用指定训练样本集中的各个训练样本所包含的属性值,计算所述指定训练样本集的特征值;确定模块,用于根据所计算的特征值,确定所述指定训练样本集所属的特征类型;获得模块,用于至少根据所确定的特征类型和用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息,获得适用于对所述指定训练样本集进行数据增强处理的数据增强模型;以及,处理模块,用于利用所获得的数据增强模型,对所述指定训练样本集进行数据增强处理。
按照本发明的实施例的一种计算设备,包括:处理器;以及,存储器,其上存储有可执行指令,其中,所述可执行指令当被执行时使得所述处理器执行前述的方法。
按照本发明的实施例的一种机器可读介质,其上存储有可执行指令,其中,所述可执行指令当被执行时使得机器执行前述的方法。
本发明的实施例的方案根据训练样本的特征值来选择适用于对训练样本进行数据增强处理的数据增强模型,使得所选择的数据增强模型总是与训练样本的特征相匹配的,从而利用被所选择的数据增强模型处理后的训练样本训练得到的机器学习模型的分类能力总是具有较大提升,因此,与现有技术相比,本发明的实施例的方案能够有效确保数据增强的良好效果。
附图说明
本发明的特征和优点通过以下结合附图的描述将变得更加显而易见。
图1示出了按照本发明的一个实施例的用于数据增强的方法的总体流程图。
图2示出了按照本发明的一个实施例的用于数据增强的方法的流程图。
图3示出了按照本发明的一个实施例的用于数据增强的装置的示意图。
图4示出了按照本发明的一个实施例的计算设备的示意图。
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
发明人经过大量研究发现,不同的训练样本具有不同的特征,如果选用的数据增强模型与训练样本的特征相匹配,则利用被所选用的数据增强模型处理后的训练样本训练得到的机器学习模型的分类能力具有较大提升,相反,如果选用的数据增强模型与训练样本的特征不匹配,则利用被所选用的数据增强模型处理后的训练样本训练得到的机器学习模型的分类能力具有较低提升甚至负提升。
基于以上发现,本发明的实施例的方案根据训练样本的特征来选择用于对训练样本进行数据增强处理的数据增强模型,以有效确保数据增强的良好效果。
图1示出了按照本发明的一个实施例的用于数据增强的方法的总体流程图。图1所示的方法100可以由任何合适的计算设备来实现,该计算设备可以包括但不局限于服务器、台式计算机、笔记本电脑或平板电脑等。
如图1所示,在方框102,对欲进行数据增强处理的训练样本集T中的各个训练样本进行数据预处理。
这里,数据预处理可以例如但不局限于包括数据标准化、数据归一化、数据正规化、数据二值化、数据缺值处理、数据离群点处理和/或数据类型中的一种或多种。
在方框106,计算训练样本集T的多个子特征值,其中,每一个子特征值是利用训练样本集T中的所有训练样本的其中一个属性的属性值计算的。该多个子特征值的数量与训练样本集T中的训练样本所包括的属性的数量相同。该多个子特征值构成训练样本集T的特征值,其表征训练样本集T的特性。
这里,该多个子特征值可以例如但不局限于属于均值、方差、协方差、范围、四分位距、偏度或峰度等。该范围例如可以是训练样本集中的所有训练样本的同一属性的最大属性值与最小属性值之差。均值、方差、协方差、四分位距、偏度和峰度的定义对于本领域技术人员是公知,在此省略对其的详细描述。
在方框110,根据训练样本集T的该多个子特征值,对训练样本集T进行聚类处理以将其聚类到已存在的多个簇的其中一个簇中。其中,该多个簇中的每一个簇包括至少一个其它训练样本集,该至少一个其它训练样本集各自也被计算了多个子特征值。
在方框114,根据聚类结果,确定训练样本集T所属的特征类型。例如但不局限于,当训练样本集T被聚类到该多个簇中的第一簇时将训练样本集T所属的特征类型确定为第一特征类型,当训练样本集T被聚类到该多个簇中的第二簇时将训练样本集T所属的特征类型确定为第二特征类型,依次类推。
在方框118,检查训练样本集T所包括的训练样本是否是文本类型。
在方框122,根据训练样本集T所属的特征类型、方框118的检查结果和所存储的用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息IN,获取适用于对训练样本集T进行数据增强处理的数据增强模型O。
在本实施例中,数据增强模型包括两种类型:伪标签增强类型和翻译法增强类型。
伪标签增强类型的数据增强模型可用于对非文本类型和文本类型的训练样本进行数据增强处理。伪标签增强类型的数据增强模型例如但不局限于包括lightGBM模型、xgboost模型、GBDT(梯度提升树)模型、RNN(循环神经网络)模型、CNN(卷积神经网络)模型、GRU(门循环单元)模型和LSTM(长短期记忆网络)模型,其中,lightGBM模型和xgboost模型属于树模型,GBDT模型属于随机森林模型,以及,RNN模型、CNN模型、GRU模型和LSTM模型属于神经网络模型。
翻译法增强类型的数据增强模型仅可用于对文本类型的训练样本进行数据增强处理。翻译法增强类型的数据增强模型首先将属于其中一种语言Li的训练样本翻译成属于另一种语言Lj的数据,然后再将翻译得到的属于语言Lj的数据翻译回来属于语言Li的数据作为新的训练样本。翻译法增强类型的数据增强模型例如但不局限于包括RNN模型、CNN模型、GRU模型和LSTM模型等。
在本实施例中,信息IN记载各个数据增强模型对于属于不同特征类型的训练样本的模型提升效果,其中,任一数据增强模型对于属于任一特征类型的训练样本的模型提升效果表示与第一机器学习模型相比,第二机器学习模型的分类能力的提升程度,第一机器学习模型是利用未经过所述任一数据增强模型处理过的属于所述任一特征类型的训练样本训练得到的模型,以及,第二机器学习模型是利用已经过所述任一数据增强模型处理过的属于所述任一特征类型的相同训练样本训练得到的模型。
其中,如果方框118的检查结果表明训练样本集T所包括的训练样本是文本类型,则所获取的数据增强模型O是信息IN所指示的所有翻译法增强类型和伪标签增强类型的数据增强模型中的其对属于在方框114确定的特征类型的训练样本的模型提升效果最大的那个数据增强模型。如果方框118的检查结果表明训练样本集T所包括的训练样本是非文本类型,则所获取的数据增强模型O是信息IN所指示的所有伪标签增强类型的数据增强模型中的其对属于在方框114确定的特征类型的训练样本的模型提升效果最大的那个数据增强模型。
在方框126,利用所获取的数据增强模型O对训练样本集T进行数据增强处理,以获得已进行数据增强的训练样本集T。
具体地,首先基于在方框106计算的训练样本集T的子特征值来设置所获取的数据增强模型的参数。然后,针对所获取的数据增强模型O是伪标签增强类型还是翻译法增强类型进行不同的操作。
其中,如果所获取的数据增强模型O是伪标签增强类型,则首先利用训练样本集T中的其标签相对比较准确的那些训练样本来训练所获取的数据增强模型O,然后将训练样本集T中的其标签相对比较不准确的那些训练样本中的每一个训练样本输入所获取的经过训练的数据增强模型O并用该数据增强模型O所输出的相应标签替换该训练样本的原标签,经过这样的处理后,训练样本集T中的其标签相对比较不准确的那些训练样本的标签也变成相对比较准确,这相当于增加了可用的训练样本。
其中,如果所获取的数据增强模型O是翻译法增强类型,则将训练样本集T中的各个训练样本依次输入所获取的经过训练的数据增强模型O,该数据增强模型O针对输入的每一个训练样本输出一个新的训练样本,从而得到更多的训练样本。
在获得已进行数据增强的训练样本集T之后,用户利用其来训练得到相应的机器学习模型M1。此外,用户也利用没有经过数据增强的训练样本集T训练得到机器学习模型M2。用户测量机器学习模型M1和M2各自的分类能力,并计算所测量的机器学习模型M1的分类能力与所测量的机器学习模型M2的分类能力的差值,作为所获取的数据增强模型O对于训练样本集T的模型提升效果。
在方框130,接收用户反馈的所获取的数据增强模型O对于训练样本集T的模型提升效果。
在方框134,利用所接收的模型提升效果,更新所存储的信息IN中记载的所获取的数据增强模型O对于属于训练样本集T所属的特征类型的训练样本的模型提升效果。
例如,可以将所存储的信息IN中记载的所获取的数据增强模型O对于属于训练样本集T所属的特征类型的训练样本的模型提升效果更新为所接收的模型提升效果。
又例如,可以首先计算在方框130接收的模型提升效果和以前接收的数据增强模型O对于属于训练样本集T所属的特征类型的训练样本的模型提升效果的平均模型提升效果,然后将所存储的信息IN中记载的所获取的数据增强模型O对于属于训练样本集T所属的特征类型的训练样本的模型提升效果更新为该平均模型提升效果。
从以上的描述可以看出,本实施例的方案根据训练样本的特征值来选择适用于对训练样本进行数据增强处理的数据增强模型,使得所选择的数据增强模型总是与训练样本的特征相匹配的,从而利用被所选择的数据增强模型处理后的训练样本训练得到的机器学习模型的分类能力总是具有较大提升,因此,本实施例的方案能够有效确保数据增强的良好效果。
此外,本实施例的方案还提供反馈机制来更新各个数据增强模型对属于各种增强模型的训练样本的模型提升效果,从而,数据增强模型与什么特征的训练样本相匹配的信息是最新和最准确的,这能确保选择用于对训练样本进行数据增强处理的数据增强模型总是与训练样本的特征最匹配的。
其它变型
本领域技术人员将理解,虽然在上面的实施例中,方法100包括方框102以对训练样本进行数据预处理,然而,本发明并不局限于此。在本发明的其它一些实施例中,例如但不局限于,如果训练样本事先已经被数据预处理,则方法100也可以不包括方框102。
本领域技术人员将理解,虽然在上面的实施例中,方法100包括方框130-134,然而,本发明并不局限于此。在本发明的其它一些实施例中,方法100也可以不包括方框130-134。
本领域技术人员将理解,虽然在上面的实施例中,信息IN记载的是各个数据增强模型对于属于不同特征类型的训练样本的模型提升效果,然而,本发明并不局限于此。在本发明的其它一些实施例中,信息IN记载的也可以是各个数据增强模型各自最适于对其进行数据增强处理的训练样本所属的特征类型。
本领域技术人员将理解,虽然在上面的实施例中,数据增强模型包括伪标签增强类型和翻译法增强类型两种类型,然而,本发明并不局限于此。在本发明的其它一些实施例中,数据增强模型也可以仅是伪标签增强类型和翻译法增强类型中的其中一种,在这种情况下,方方法100不包括方框118。或者,数据增强模型也可以包括至少一种其他类型的数据增强模型以及伪标签增强类型和翻译法增强类型中的至少一种。或者,数据增强模型包括除了伪标签增强类型和翻译法增强类型之外的至少一种其他类型的数据增强模型。
本领域技术人员将理解,虽然在上面的实施例中,通过根据训练样本集T的多个子特征值来将训练样本集T的聚类到已存在的多个簇的其中一个簇中并根据聚类结果确定训练样本集T所属的特征类型,然而,本发明并不局限于此。在本发明的其它一些实施例中,也可以使用任何其他合适的方式来根据训练样本集T的多个子特征值确定训练样本集T所属的特征类型。
本领域技术人员将理解,虽然在上面的实施例中,训练样本集T的特征值包括多个子特征值,每一个子特征值是利用训练样本集T中的所有训练样本的其中一个属性的属性值计算的,然而,本发明并不局限于此。在本发明的其它一些实施例中,训练样本集T的特征值也可以利用其他任何合适的方式来计算。
图2示出了按照本发明的一个实施例的用于数据增强的方法的流程图。图2所示的方法可以由任何合适的计算设备来实现,该计算设备可以包括但不局限于服务器、台式计算机、笔记本电脑或平板电脑等。
如图2所示,方法200可以包括,在方框202,利用指定训练样本集中的各个训练样本所包含的属性值,计算所述指定训练样本集的特征值。
方法200还可以包括,在方框204,根据所计算的特征值,确定所述指定训练样本集所属的特征类型。
方法200还可以包括,在方框206,至少根据所确定的特征类型和用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息,获得适用于对所述指定训练样本集进行数据增强处理的数据增强模型。
方法200还可以包括,在方框208,利用所获得的数据增强模型,对所述指定训练样本集进行数据增强处理。
在一个方面,所述信息记载所述各个数据增强模型对于属于不同特征类型的训练样本的模型提升效果,其中,任一数据增强模型对于属于任一特征类型的训练样本的模型提升效果表示与第一机器学习模型相比,第二机器学习模型的分类能力的提升程度,所述第一机器学习模型是利用未经过所述任一数据增强模型处理过的属于所述任一特征类型的训练样本训练得到的模型,以及,所述第二机器学习模型是利用已经过所述任一数据增强模型处理过的属于所述任一特征类型的训练样本训练得到的模型,以及,所获得的数据增强模型是所述各个数据增强模型中的其对于属于所确定的特征类型的训练样本的模型提升效果最大的那个数据增强模型。
在另一个方面,方法200还可以包括:获取用户反馈的所获得的数据增强模型对于所述指定训练样本集的模型提升效果;以及,利用所获取的模型提升效果,更新所述信息中包括的所获取的数据增强模型对属于所确定的特征类型的训练样本的模型提升效果。
在又一个方面,所述特征值包括多个子特征值,每一个子特征值是利用所述指定训练样本集的所有训练样本中的其中一个属性的属性值计算的,以及,方框204包括:对所述多个子特征值进行聚类;以及,根据聚类结果,判定所述指定训练样本集所属的特征类型。
在再一个方面,方法200还可以包括:检查所述指定训练样本集中的各个训练样本是否是文本类型,其中,所获得的数据增强模型是基于检查结果、所确定的特征类型和所述信息而确定的。
图3示出了按照本发明的一个实施例的用于数据增强的装置的示意图。图3所示的装置300可以利用软件、硬件或软硬件结合的方式来实现。装置300例如可以安装在计算设备中。
如图3所示,装置300可以包括计算模块302、确定模块304、获得模块306和处理模块308。计算模块320用于利用指定训练样本集中的各个训练样本所包含的属性值,计算所述指定训练样本集的特征值。确定模块304用于根据所计算的特征值,确定所述指定训练样本集所属的特征类型。获得模块306用于至少根据所确定的特征类型和用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息,获得适用于对所述指定训练样本集进行数据增强处理的数据增强模型。处理模块308用于利用所获得的数据增强模型,对所述指定训练样本集进行数据增强处理。
在一个方面,所述信息记载所述各个数据增强模型对于属于不同特征类型的训练样本的模型提升效果,其中,任一数据增强模型对于属于任一特征类型的训练样本的模型提升效果表示与第一机器学习模型相比,第二机器学习模型的分类能力的提升程度,所述第一机器学习模型是利用未经过所述任一数据增强模型处理过的属于所述任一特征类型的训练样本训练得到的模型,以及,所述第二机器学习模型是利用已经过所述任一数据增强模型处理过的属于所述任一特征类型的训练样本训练得到的模型,以及,所获得的数据增强模型是所述各个数据增强模型中的其对于属于所确定的特征类型的训练样本的模型提升效果最大的那个数据增强模型。
在另一个方面,装置300还包括:获取模块,用于获取用户反馈的所获得的数据增强模型对于所述指定训练样本集的模型提升效果;以及,更新模块,用于利用所获取的模型提升效果,更新所述信息中包括的所获取的数据增强模型对属于所确定的特征类型的训练样本的模型提升效果。
在又一个方面,所述特征值包括多个子特征值,每一个子特征值是利用所述指定训练样本集的所有训练样本中的其中一个属性的属性值计算的,以及,确定模块304包括:聚类模块,用于对所述多个子特征值进行聚类;以及,判定模块,用于根据聚类结果,判定所述指定训练样本集所属的特征类型。
在再一个方面,装置300还可以包括检查模块,用于检查所述指定训练样本集中的各个训练样本是否是文本类型,其中,所获得的数据增强模型是基于检查结果、所确定的特征类型和所述信息而确定的。
图4示出了按照本发明的一个实施例的计算设备的示意图。如图4所示,计算设备400可以包括处理器402和存储器404,其中,存储器404上存储有可执行指令,其中,所述可执行指令当被执行时使得处理器402执行图1所示的方法100或图2所示的方法200。
本发明的实施例还提供一种机器可读介质,其上存储有可执行指令,其中,所述可执行指令当被执行时使得机器执行图1所示的方法100或图2所示的方法200。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims (10)

1.一种用于数据增强的方法,包括:
利用指定训练样本集中的各个训练样本所包含的属性值,计算所述指定训练样本集的特征值,所述训练样本包括文本类型训练样本和/或非文本类型训练样本;
根据所计算的特征值,确定所述指定训练样本集所属的特征类型;
至少根据所确定的特征类型和用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息,获得适用于对所述指定训练样本集进行数据增强处理的数据增强模型;以及
利用所获得的数据增强模型,对所述指定训练样本集进行数据增强处理,
其中,所述信息记载所述各个数据增强模型对于属于不同特征类型的训练样本的模型提升效果,其中,任一数据增强模型对于属于任一特征类型的训练样本的模型提升效果表示与第一机器学习模型相比,第二机器学习模型的分类能力的提升程度,所述第一机器学习模型是利用未经过所述任一数据增强模型处理过的属于所述任一特征类型的训练样本训练得到的模型,以及,所述第二机器学习模型是利用已经过所述任一数据增强模型处理过的属于所述任一特征类型的训练样本训练得到的模型,以及
所获得的数据增强模型是所述各个数据增强模型中的其对于属于所确定的特征类型的训练样本的模型提升效果最大的那个数据增强模型,
其中,所述数据增强模型包括伪标签增强类型和翻译法增强类型,所述伪标签增强类型的数据增强模型可用于对非文本类型和文本类型的训练样本进行数据增强处理,以及所述翻译法增强类型的数据增强模型将属于其中一种语言Li的训练样本翻译成属于另一种语言Lj的数据,随后再将翻译得到的属于所述另一语言Lj的数据翻译回来属于所述一种语言Li的数据作为新的训练样本。
2.如权利要求1所述的方法,还包括:
获取用户反馈的所获得的数据增强模型对于所述指定训练样本集的模型提升效果;以及
利用所获取的模型提升效果,更新所述信息中包括的所获取的数据增强模型对属于所确定的特征类型的训练样本的模型提升效果。
3.如权利要求1所述的方法,其中
所述特征值包括多个子特征值,每一个子特征值是利用所述指定训练样本集的所有训练样本中的其中一个属性的属性值计算的,以及
所述确定所述指定训练样本集所属的特征类型包括:
对所述多个子特征值进行聚类;以及
根据聚类结果,判定所述指定训练样本集所属的特征类型。
4.如权利要求1-3中的任一项所述的方法,还包括:
检查所述指定训练样本集中的各个训练样本是否是文本类型,
其中,所获得的数据增强模型是基于检查结果、所确定的特征类型和所述信息而确定的。
5.一种用于数据增强的装置,包括:
计算模块,用于利用指定训练样本集中的各个训练样本所包含的属性值,计算所述指定训练样本集的特征值,所述训练样本包括文本类型训练样本和/或非文本类型训练样本;
确定模块,用于根据所计算的特征值,确定所述指定训练样本集所属的特征类型;
获得模块,用于至少根据所确定的特征类型和用于指示各个数据增强模型适用于对属于不同特征类型的训练样本进行数据增强处理的信息,获得适用于对所述指定训练样本集进行数据增强处理的数据增强模型;以及
处理模块,用于利用所获得的数据增强模型,对所述指定训练样本集进行数据增强处理,
其中,所述信息记载所述各个数据增强模型对于属于不同特征类型的训练样本的模型提升效果,其中,任一数据增强模型对于属于任一特征类型的训练样本的模型提升效果表示与第一机器学习模型相比,第二机器学习模型的分类能力的提升程度,所述第一机器学习模型是利用未经过所述任一数据增强模型处理过的属于所述任一特征类型的训练样本训练得到的模型,以及,所述第二机器学习模型是利用已经过所述任一数据增强模型处理过的属于所述任一特征类型的训练样本训练得到的模型,以及
所获得的数据增强模型是所述各个数据增强模型中的其对于属于所确定的特征类型的训练样本的模型提升效果最大的那个数据增强模型,
其中,所述数据增强模型包括伪标签增强类型和翻译法增强类型,所述伪标签增强类型的数据增强模型可用于对非文本类型和文本类型的训练样本进行数据增强处理,以及所述翻译法增强类型的数据增强模型将属于其中一种语言Li的训练样本翻译成属于另一种语言Lj的数据,随后再将翻译得到的属于所述另一语言Lj的数据翻译回来属于所述一种语言Li的数据作为新的训练样本。
6.如权利要求5所述的装置,还包括:
获取模块,用于获取用户反馈的所获得的数据增强模型对于所述指定训练样本集的模型提升效果;以及
更新模块,用于利用所获取的模型提升效果,更新所述信息中包括的所获取的数据增强模型对属于所确定的特征类型的训练样本的模型提升效果。
7.如权利要求5所述的装置,其中
所述特征值包括多个子特征值,每一个子特征值是利用所述指定训练样本集的所有训练样本中的其中一个属性的属性值计算的,以及
所述确定模块包括:
聚类模块,用于对所述多个子特征值进行聚类;以及
判定模块,用于根据聚类结果,判定所述指定训练样本集所属的特征类型。
8.如权利要求5-7中的任一项所述的装置,还包括:
检查模块,用于检查所述指定训练样本集中的各个训练样本是否是文本类型,
其中,所获得的数据增强模型是基于检查结果、所确定的特征类型和所述信息而确定的。
9.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行指令,所述可执行指令当被执行时使得所述处理器执行权利要求1-4中的任意一个所述的方法。
10.一种机器可读存储介质,其上存储有可执行指令,所述可执行指令当被执行时使得机器执行权利要求1-4中的任意一个所述的方法。
CN201811360022.3A 2018-11-15 2018-11-15 用于数据增强的方法和装置 Active CN110008972B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811360022.3A CN110008972B (zh) 2018-11-15 2018-11-15 用于数据增强的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811360022.3A CN110008972B (zh) 2018-11-15 2018-11-15 用于数据增强的方法和装置

Publications (2)

Publication Number Publication Date
CN110008972A CN110008972A (zh) 2019-07-12
CN110008972B true CN110008972B (zh) 2023-06-06

Family

ID=67164916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811360022.3A Active CN110008972B (zh) 2018-11-15 2018-11-15 用于数据增强的方法和装置

Country Status (1)

Country Link
CN (1) CN110008972B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570046B (zh) * 2021-09-22 2022-02-18 苏州浪潮智能科技有限公司 一种数据增强方法、系统、装置及计算机可读存储介质
CN115238763B (zh) * 2022-06-10 2024-02-13 西北工业大学 基于深度学习的仿蝠鲼航行器多周期水动力实验数据增强方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2151822A1 (en) * 2008-08-05 2010-02-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing and audio signal for speech enhancement using a feature extraction
CN105046366A (zh) * 2015-07-29 2015-11-11 腾讯科技(深圳)有限公司 模型训练方法及装置
CN108415950A (zh) * 2018-02-01 2018-08-17 腾讯科技(深圳)有限公司 一种上位词聚合方法及装置
CN108805094A (zh) * 2018-06-19 2018-11-13 合肥工业大学 基于人工脸的数据增强方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020169735A1 (en) * 2001-03-07 2002-11-14 David Kil Automatic mapping from data to preprocessing algorithms
AU2014318499B2 (en) * 2013-09-16 2019-05-16 Biodesix, Inc Classifier generation method using combination of mini-classifiers with regularization and uses thereof
US10353929B2 (en) * 2016-09-28 2019-07-16 MphasiS Limited System and method for computing critical data of an entity using cognitive analysis of emergent data
CN106776982A (zh) * 2016-12-02 2017-05-31 深圳市唯特视科技有限公司 一种采用机器学习的社交媒体情感分析方法
CN107809559A (zh) * 2017-09-21 2018-03-16 中国科学院长春光学精密机械与物理研究所 一种图像自学习增强方法和系统
CN108268899B (zh) * 2018-01-22 2019-03-01 清华大学 一种电子元件的检测方法、装置和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2151822A1 (en) * 2008-08-05 2010-02-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing and audio signal for speech enhancement using a feature extraction
CN105046366A (zh) * 2015-07-29 2015-11-11 腾讯科技(深圳)有限公司 模型训练方法及装置
CN108415950A (zh) * 2018-02-01 2018-08-17 腾讯科技(深圳)有限公司 一种上位词聚合方法及装置
CN108805094A (zh) * 2018-06-19 2018-11-13 合肥工业大学 基于人工脸的数据增强方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Brain Tumor Segmentation Using Convolutional Neural Networks in MRI Images;S. Pereira等;《IEEE Transactions on Medical Imaging》;第35卷(第5期);1240-1251 *
The Effectiveness of Data Augmentation in Image Classification using Deep Learning;Jason Wang等;《arXiv》;1-8 *

Also Published As

Publication number Publication date
CN110008972A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
Chen et al. Source-free domain adaptive fundus image segmentation with denoised pseudo-labeling
CN109840588B (zh) 神经网络模型训练方法、装置、计算机设备及存储介质
US11694109B2 (en) Data processing apparatus for accessing shared memory in processing structured data for modifying a parameter vector data structure
CN108280477B (zh) 用于聚类图像的方法和装置
US20220004878A1 (en) Systems and methods for synthetic document and data generation
CN112889042A (zh) 机器学习中超参数的识别与应用
US10452700B1 (en) Systems and methods for parsing log files using classification and plurality of neural networks
WO2019091402A1 (zh) 年龄预估方法和装置
CN108228684B (zh) 聚类模型的训练方法、装置、电子设备和计算机存储介质
WO2020056968A1 (zh) 数据降噪方法、装置、计算机设备和存储介质
CN110008972B (zh) 用于数据增强的方法和装置
WO2020168843A1 (zh) 一种基于扰动样本的模型训练方法和装置
WO2022028147A1 (zh) 图像分类模型训练方法、装置、计算机设备及存储介质
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
CN112818946A (zh) 年龄识别模型的训练、年龄识别方法、装置及电子设备
Hao et al. Iris segmentation using feature channel optimization for noisy environments
WO2019218482A1 (zh) 基于大数据的人群筛选方法、装置、终端设备及可读存储介质
WO2019177130A1 (ja) 情報処理装置および情報処理方法
US20220335274A1 (en) Multi-stage computationally efficient neural network inference
CN115526882A (zh) 一种医学图像的分类方法、装置、设备及存储介质
US11430240B2 (en) Methods and systems for the automated quality assurance of annotated images
CN114358279A (zh) 图像识别网络模型剪枝方法、装置、设备及存储介质
Abdalla et al. Brain tumor classification using principal component analysis and artificial neural network
CN112784990A (zh) 一种成员推断模型的训练方法
Kim et al. Evaluation of convolutional neural networks for the detection of inter-breath-hold motion from a stack of cardiac short axis slice images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201012

Address after: English genus

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

Effective date of registration: 20201012

Address after: English genus

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: English genus

Applicant before: Advanced innovation technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant