CN113255831A - 样本处理方法、装置、设备及计算机存储介质 - Google Patents
样本处理方法、装置、设备及计算机存储介质 Download PDFInfo
- Publication number
- CN113255831A CN113255831A CN202110695224.9A CN202110695224A CN113255831A CN 113255831 A CN113255831 A CN 113255831A CN 202110695224 A CN202110695224 A CN 202110695224A CN 113255831 A CN113255831 A CN 113255831A
- Authority
- CN
- China
- Prior art keywords
- sample
- samples
- preset
- copying
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 238000002372 labelling Methods 0.000 claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 9
- 230000010076 replication Effects 0.000 claims description 7
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000012549 training Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种样本处理方法、装置、设备及计算机存储介质,其中,样本处理方法,包括:获取N个第一样本中每一第一样本分别关联的T个预设属性的标注结果,以及每一预设属性对应的占比条件,其中,预设属性的标注结果用于指示第一样本中是否包括预设属性,第一样本为多媒体数据;根据标注结果与占比条件,确定每一第一样本的复制次数;分别按照每一第一样本的复制次数对每一第一样本进行复制,得到P个第二样本,其中,包括有目标属性的第二样本在P个第二样本中的数量占比,满足目标属性对应的占比条件,目标属性为任一预设属性,P为大于1的整数。本申请实施例可以有效解决样本类别不平衡的问题,提高样本集质量。
Description
技术领域
本申请属于机器学习技术领域,尤其涉及一种样本处理方法、装置、设备及计算机存储介质。
背景技术
众所周知,在机器学习技术领域中,通常会使用经标注的样本对机器学习模型进行训练。然而,在一些应用场景下,样本可能存在类别不平衡(class-imbalance)的情况,即不同类别的样本数目差别较大。
在处理类别不平衡的问题时,现有技术中通常会复制占比较少的类别的样本,然而,这种处理方式可能导致其他类别的样本的占比降低,难以有效解决类别不平衡的问题。
发明内容
本申请实施例提供一种在样本处理方法、装置、设备及计算机存储介质,能够有效解决样本类别不平衡的问题。
第一方面,本申请实施例提供一种样本处理方法,包括:
获取N个第一样本中每一第一样本分别关联的T个预设属性的标注结果,以及每一预设属性对应的占比条件,其中,预设属性的标注结果用于指示第一样本中是否包括预设属性,第一样本为多媒体数据,N与T均为大于1的整数;
根据标注结果与占比条件,确定每一第一样本的复制次数;
分别按照每一第一样本的复制次数对每一第一样本进行复制,得到P个第二样本,其中,包括有目标属性的第二样本在P个第二样本中的数量占比,满足目标属性对应的占比条件,目标属性为任一预设属性,P为大于1的整数。
第二方面,本申请实施例提供了一种样本处理装置,装置包括:
获取模块,用于获取N个第一样本中每一第一样本分别关联的T个预设属性的标注结果,以及每一预设属性对应的占比条件,其中,预设属性的标注结果用于指示第一样本中是否包括预设属性,第一样本为多媒体数据,N与T均为大于1的整数;
确定模块,用于根据标注结果与占比条件,确定每一第一样本的复制次数;
复制模块,用于分别按照每一第一样本的复制次数对每一第一样本进行复制,得到P个第二样本,其中,包括有目标属性的第二样本在P个第二样本中的数量占比,满足目标属性对应的占比条件,目标属性为任一预设属性,P为大于1的整数。
第三方面,本申请实施例提供了一种电子设备,设备包括:处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现上述的样本处理方法。
第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现上述的样本处理方法。
本申请实施例提供的样本处理方法,获取N个第一样本中每一第一样本分别关联的T个预设属性的标注结果,以及每一预设属性对应的占比条件。根据标注结果与占比条件,确定每一第一样本的复制次数,分别按照每一第一样本的复制次数对每一第一样本进行复制,得到P个第二样本,其中,包括有任一预设属性的第二样本在P个第二样本中的数量占比,满足该预设属性对应的占比条件。本申请实施例可以在第一样本中包括多个预设属性的情况下,合理确定每一第一样本的复制次数,以使得各个预设属性均能满足对应的占比条件,避免出现因过多复制包括一种预设属性的样本,导致包括另一预设属性的样本的数量占比过低的情况,从而有效解决样本类别不平衡的问题,提高样本集质量。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的样本处理方法的流程示意图;
图2是本申请实施例提供的样本处理装置的结构示意图;
图3是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了解决现有技术问题,本申请实施例提供了一种样本处理方法、装置、设备及计算机存储介质。下面首先对本申请实施例所提供的样本处理方法进行介绍。
图1示出了本申请一个实施例提供的样本处理方法的流程示意图。如图1所示,该样本处理方法,包括:
步骤101,获取N个第一样本中每一第一样本分别关联的T个预设属性的标注结果,以及每一预设属性对应的占比条件,其中,预设属性的标注结果用于指示第一样本中是否包括预设属性,第一样本为多媒体数据,N与T均为大于1的整数;
步骤102,根据标注结果与占比条件,确定每一第一样本的复制次数;
步骤103,分别按照每一第一样本的复制次数对每一第一样本进行复制,得到P个第二样本,其中,包括有目标属性的第二样本在P个第二样本中的数量占比,满足目标属性对应的占比条件,目标属性为任一预设属性,P为大于1的整数。
本实施例中,第一样本可以是多媒体数据,例如,第一样本可以是图像、视频、音频、文本等类型的多媒体数据。
针对第一样本,可以预先对其标注。具体的标注方式,可以是人工标注,也可以是自动标注等,此处不做具体限制。
一般来说,对第一样本的标注,可以是将第一样本中的各种类别,或者说属性进行标注。
比如,以第一样本为行人图像为例,对第一样本的标注,可以是对行人图像中的行人的帽子、围巾、衣服、裤子、推车等属性进行标注。
当然,如上文所示的,第一样本也可以是视频、音频或者文本等多媒体数据,相应地,也可以根据需要对这些类型的多媒体数据进行标注。
为了简化描述,以下将主要以第一样本为行人图像为例进行说明。
容易理解的是,对第一样本进行标记,可以得到相应的标注结果。当需要标注的属性的数量存在多个时,每一属性均可以存在对应的标注结果。而这些需要标注的属性,可以是根据需要预先设定的,因此,这些属性可以对应为上述的预设属性。
结合上文中行人图像的举例,预设属性可以是帽子、围巾、衣服、裤子、鞋子、推车等等。
以对帽子进行标注为例,预设属性可以是“戴帽子”;属性值可以是“1”或“0”。其中,属性值为“1”时,表示有戴帽子,而属性值为“0”时,表示未戴帽子。
而如果需要对帽子的颜色进行标注时,可以针对帽子颜色设置多个预设属性,每一种预设属性可以代表一种帽子颜色。例如,预设属性可以包括“帽子黑”、“帽子白”、“帽子红”、“帽子黄”。当属性值为(1,0,0,0)表示帽子颜色为黑色;当属性值为(0,1,0,0)表示帽子颜色为白色。
可见,每一种预设属性的标注结果,均可以通过“有”(对应属性值为“1”)和“无”(对应属性值为“0”)进行指示。
当然,以上仅仅是为了便于理解预设属性的标注结果而进行的举例说明。在实际应用中,具体的预设属性可以根据需要进行设定,上述的属性值,也可以通过其他形式的标识来进行体现,此处不再一一举例说明。
本实施例中,第一样本的数量可以是N个,每一第一样本中,均关联有T个预设属性的标注结果。预设属性的标注结果,可以指示第一样本中是否包括了该预设属性。
举例来说,当“戴帽子”这一预设属性的标注结果为“1”时,表示第一样本中包括了“戴帽子”这一属性。从正负样本的角度来说,可以认为该第一样本可以作为用于帽子识别的训练模型的正样本。
反之,当“戴帽子”这一预设属性的标注结果为“0”时,标识第一样本中不包括“戴帽子”这一属性。
可见,在N个第一样本中,可能并非是每一第一样本中均包括“戴帽子”这一预设属性。因此,包括了“戴帽子”这一预设属性的第一样本,在N个第一样本中,存在一数量占比。
结合一些实际应用场景,在行人图像中,包括“穿衣服”或“穿鞋子”等预设属性的图像的数量占比通常会比较高;而包括“戴围巾”或“抱小孩”等预设属性的图像的数量占比则通常比较低。因此,在行人属性识别过程中,容易带来类别不平衡的问题。
容易理解的是,如果直接将经标注的N个行人图像(对应N个第一样本)用于行人属性识别模型的训练,则由于“戴帽子”、“戴围巾”或“抱小孩”等的正样本的数量较少,将导致训练得到的行人属性识别模型对这些预设属性的识别效果较差。
因此,本实施例中,针对每一种预设属性,可以设置一占比条件,用于约束该预设属性在所有用于对行人属性识别模型进行训练的样本中的数量占比。
比如,在N个第一样本中,包括了“戴帽子”这一预设属性的第一样本的数量占比为5%,为了提升该预设属性对应的正样本的数量,可以对包括了该预设属性的第一样本进行复制。
而占比条件,在一定程度则可以认为是对复制结果一个约束。比如,“戴帽子”这一预设属性对应的占比条件可以是不低于30%,则通过复制得到的全部样本中,包括了“戴帽子”这一预设属性的样本的数量占比应不低于30%。
当然,对于一个第一样本,可以包括了“戴帽子”这一预设属性,但是可能不包括“抱小孩”这一预设属性。如果单纯复制包括了“戴帽子”这一预设属性的第一样本,则可能导致包括“抱小孩”这一预设属性的样本的数量占比明显下降。因此,也可以对“抱小孩”这一预设属性设置对应的占比条件。
结合上文的描述,每一第一样本分别关联的T个预设属性的标注结果,可以是在对N个第一样本完成标注后直接得出的。而各预设属性对应的占比条件,可以是默认的,也可以是人工设置的。此外,各个预设属性对应的占比条件,可以相同,也可以存在不同。
综上,在步骤101中,可以对上述的标注结果和占比条件进行获取。
而在步骤102中,则可以根据标注结果和占比条件,确定每一第一样本的复制次数。
如上文所示的,标注结果可以指示第一样本中是否包括相应的预设属性,而占比条件则可以是对第一样本进行复制以后,包括预设属性的样本在复制后的样本集中的数量占比。
通过合理规划各第一样本的复制次数,可以使得各预设属性能够满足对应的占比条件。
结合一个举例,若N=1000,其中,包括“戴帽子”预设属性的第一样本(记为样本A)的数量为50,包括“抱小孩”预设属性的第一样本(记为样本B)的数量为20,同时包括“戴帽子”与“抱小孩”的第一样本的数量为0。此时,样本A的占比为5%,样本B的占比为2%。
设“戴帽子”对应的占比条件为大于或等于30%,“抱小孩”对应的占比条件为大于或等于20%。则可以对每一样本A复制14次,将每一样本B复制20次。复制后得到的样本集的数量为2100,样本A的数量为750,样本B的数量为420。相应地,样本A的数量占比为35.7%,样本B的数量为20%。
可见,复制得到的样本集中,样本A的数量占比和样本B的数量占比,分别满足了对应的占比条件。
基于以上举例可知,在已知标注结果和占比条件的基础上,可以确定每一第一样本的复制次数。
在步骤103中,将各第一样本按照对应确定的复制次数进行复制后,可以得到复制后的样本集,即上述的P个第二样本。而在P个第二样本中,包括某一预设属性的第二样本的数量与P的比值,可以满足该预设属性对应的占比条件。这里的某一预设属性,可以是指上述T个预设属性中的任一预设属性,也就是上述的目标属性。
当然,以上仅仅是对确定每一第一样本的复制次数的一些举例说明,在实际应用中,上述预设属性可能存在更多个,在一个第一样本中可能同时包括多个预设属性。或者,对包括各预设数量的第二样本的数量存在对应的数量要求等等。这些都可以作为在步骤102中的约束条件,以用于确定各第一样本的复制次数,此处不做一一举例说明。
本申请实施例提供的样本处理方法,获取N个第一样本中每一第一样本分别关联的T个预设属性的标注结果,以及每一预设属性对应的占比条件。根据标注结果与占比条件,确定每一第一样本的复制次数,分别按照每一第一样本的复制次数对每一第一样本进行复制,得到P个第二样本,其中,包括有任一预设属性的第二样本在P个第二样本中的数量占比,满足该预设属性对应的占比条件。本申请实施例可以在第一样本中包括多个预设属性的情况下,合理确定每一第一样本的复制次数,以使得各个预设属性均能满足对应的占比条件,避免出现因过多复制包括一种预设属性的样本,导致包括另一预设属性的样本的数量占比过低的情况,从而有效解决样本类别不平衡的问题,提高样本集质量。
在一个实施方式中,上述步骤102,根据标注结果与占比条件,确定每一第一样本的复制次数,包括:
根据标注结果与占比条件,建立整数规划模型;
求解整数规划模型,得到每一第一样本的复制次数,其中,整数规划模型以P的最小值函数作为损失函数。
整数规划通常将规划中的变量限制为整数,来对各个变量进行规划(或者说求解)。整数规划模型,则可以是集成了预设求解算法的模型。比如,在整数规划中,采用的预设求解算法可以是分枝定界法、割平面法或蒙特卡洛法等等。当然,整数规划模型可以根据实际需要进行选取,此处不做具体限定。
本实施方式中,整数规划模型中所规划的变量,可以是各第一样本的复制次数。而占比条件则可以认为是对变量的约束条件。
当然,实际应用中,整数规划模型中所规划的变量,可以存在多种表现形式,比如,可以是上述的复制次数,也可以是一个第一样本经过复制后的数量(对应复制次数+1)等。
为了避免整数规划模型存在过多的解,整数规划模型中可以具有相应的损失函数。本实施方式中,可以将上述P的最小值函数作为损失函数。换而言之,确定的各个第一样本的复制次数,可以使得复制得到的样本集(对应P个第二样本)中样本最小。
从另一个角度来说,(P-N)可以对应N个第一样本中各个第一样本的复制次数之和,由于N是固定的,因此,P的最小值函数实际上是与各个第一样本的复制次数之和的最小值函数对应的。上述损失函数也可以认为是各个第一样本的复制次数之和的最小值函数。
可见,本实施方式可以利用整数规划模型解决类别不均衡的问题,有助于提升样本集质量。
在一个示例中,得到的样本集可以用于进行机器学习模型(例如分类模型等)的训练。在解决了类别不均衡的问题的基础上,采用上述样本集训练机器学习模型,可以有效提高训练得到的机器学习模型的识别精度。同时,也可以避免在机器学习模型中引入其他用于适应类别不均衡样本集的模块,保证机器学习模型的识别效率。
在一个实施方式中,上述根据标注结果与占比条件,建立整数规划模型,具体包括:
获取每一第一样本的复制次数条件;
根据标注结果、占比条件以及复制次数条件,建立整数规划模型。
容易理解的是,当某一第一样本的复制次数过多时,比如,明显高于其他第一样本的复制次数时,可能对P个第二样本的样本集质量带来较大影响。比如,包括某一预设属性的第二样本过于单一,导致训练后的机器学习模型过拟合,难以对该预设属性进行有效识别。
而在另一些应用场景下,可能对上述第二样本的总数量P有最低数量要求,相应地,该最低数量要求也可以分配到每一样本的最小复制次数之中。
可见,在实际应用中,可能对各个第一样本的复制次数存在要求,比如对最大复制次数和/或最小复制次数存在要求等。这种复制次数的要求,可以体现在复制次数条件之中。
换而言之,复制次数条件,可以对各第一样本的复制次数进行限制。这种限制可以作为一种约束条件,加入到上述的整数规划模型中。
至于各第一样本的复制次数条件,可以是相同的,也可以存在不同。
复制次数条件可以是默认的,或者是用户手动设置的。本实施方式中,获取各第一样本的复制次数条件,根据标注结果、占比条件以及复制次数条件,建立整数规划模型,可以使得基于整数规划模型求解得到的各第一样本的复制次数,比较符合实际应用的需求。
为便于理解整数规划模型求解得到各第一样本的复制次数的过程,以下以第一样本为图像为例,对整数规划模型中约束条件的建立过程进行说明。
该举例中,第一样本(Samples)可以是图像(Image),每一第一样本可以包括有T个预设属性(Attributes)的标注结果。
N个第一样本分别记为Image-1, Image-2,…, Image-N,T个预设属性可以分为记为Attrib-1, Attrib-2,…, Attrib-T。
针对每一第一样本,可以定义属性标签为:
该属性标签可以反映第i个第一样本中T个预设属性的标注结果。比如,当a ij =1时,表示第i个第一样本中包括第j个预设属性,当a ij =0时,表示第i个第一样本中不包括第j个预设属性。
设N个第一样本复制后的数量(Variable)分别为x 1,x 2,…,x N ,可详见如下列表:
则复制后的每个预设属性的占比条件可以表示为:
公式(1)可改写为:
其中,上述的M i 可以是对复制后第i个第一样本的总数的上界,在一定程度上可以认为是第i个第一样本的复制次数条件的组成部分。当然x i 的取值范围,可以根据实际需要进行调整,此处不做一一举例说明。
整数规划模型的损失函数可以表示为:
其中,公式(2)和(3)即为样本复制问题的数学描述,是一种整数规划问题。一般情况下,通过设置ε j ,可以解得x i 即可以确定出第i个第一样本的复制次数。
如上文所示的,本申请实施例中,第一样本可以是多媒体数据,而多媒体数据则可以具体包括视频、图像、文本或音频等。
换而言之,本申请实施例提供的样本处理方法,可以解决对不同类型多媒体数据的类别不平衡的问题,样本处理方法的适用范围较广。
可选地,上述步骤103,分别按照每一第一样本的复制次数对每一第一样本进行复制,得到P个第二样本之后,样本处理方法还可以包括:
对Q个第二样本进行数据增强处理,得到Q个第三样本,Q为小于或等于P的正整数。
以第二样本为图像为例,对图像的数据增强处理,可以是具体为图像增强处理。
一般来说,图像增强处理可以指有目的地强调图像的整体或局部特性,将原来不清晰的图像变得清晰或强调某些感兴趣的特征,扩大图像中不同物体特征之间的差别,抑制不感兴趣的特征,使之改善图像质量、丰富信息量,加强图像判读和识别效果,满足某些特殊分析的需要。
从图像增强的具体实现方式来说,图像增强可主要分成两大类:频率域法和空间域法。
而从图像增强的具体处理方式来说,可以是对图像添加噪声、模糊处理、添加特效、颜色调整或者仿射变换等等。
当然,在第二样本为其他类型的多媒体数据的情况下,也可以进行相应的数据增强处理。
例如,第二样本为音频的情况下,数据增强处理可以是对音频加噪音、调低\高音量或者倍速播放等。
再例如,第二样本为文本的情况下,数据增强处理可以是对文本进行同义词替换、随机插入、随机删除或者随机打乱文本顺序等等。
实施例中,可以是上述P个第二样本中的全部或部分第二样本进行数据增强处理,以便于提升处理得到的样本集的多样性,在将样本集用于机器学习模型的训练时,可以有效增强训练得到的机器学习模型的鲁棒性。
此外,通过复制第一样本以及对第二样本进行数据增强处理的方式,可以有效降低样本收集的难度。
进行数据增强处理的Q个第二样本,可以是P个第二样本中的全部或部分第二样本。而为了使得提高每一种预设属性的样本的多样性,在一个示例中,上述Q个第二样本中,包括T个预设属性。
举例来说,包括某一种预设属性的第二样本的数量若为p个,p为大于1的整数,那么,选取出来进行数据增强处理的Q个第二样本中,包括了这p个第二样本中的至少一个第二样本。
如此,可以保证丰富了每一种预设属性的样本,有助于提升机器学习模型对T个预设属性中每一预设属性的识别效果。
在一个示例中,对Q个第二样本进行数据增强处理,包括:
在第二样本为图像的情况下,按以下至少一种方式对第二样本进行数据增强处理:添加噪声、模糊处理、添加特效、颜色调整以及仿射变换。
也就是说,本示例中,对于Q个第二样本中的任一第二样本,可以使用至少一种数据增强处理方式对其进行处理。
上述的数据增强处理方式均可以通过现有技术手段进行实现。举例来说,当第二样本为行人图像时,为了模仿不同的天气条件,可以在行人图像中增加雨、雪、雾等形式的特效。而为了模仿光线的变化,可以调整行人图像的亮度、色调、对比度或者饱和度等等。
可见,对图像类型的第二样本进行图像增强处理,可以在提升样本集的多样性的同时,还可以使得训练得到的机器学习模型能够适应不同环境下的属性识别,提高机器学习模型的鲁棒性。
在一个示例中,上述的机器学习模型可以采用Inception-v2作为主干网络。在使用经过本申请实施例提供的样本处理方法得到的样本集对主干网络进行训练后,可以使主干网络具有较强的特征提取能力,适用于属性识别任务。训练后的机器学习模型,可以用于对上述的T个预设属性进行预测。
当然,这里仅仅是对机器学习模型的一个示例性说明,至于机器学习模型的具体框架,可以根据实际需要进行选择,在训练完成后能够用于实现上述T个预设属性的识别即可,此处不做一一举例说明。
如图2所示,本申请实施例还提供了一种样本处理装置,该装置包括:
获取模块201,用于获取N个第一样本中每一第一样本分别关联的T个预设属性的标注结果,以及每一预设属性对应的占比条件,其中,预设属性的标注结果用于指示第一样本中是否包括预设属性,第一样本为多媒体数据,N与T均为大于1的整数;
确定模块202,用于根据标注结果与占比条件,确定每一第一样本的复制次数;
复制模块203,用于分别按照每一第一样本的复制次数对每一第一样本进行复制,得到P个第二样本,其中,包括有目标属性的第二样本在P个第二样本中的数量占比,满足目标属性对应的占比条件,目标属性为任一预设属性,P为大于1的整数。
可选地,确定模块202,可以包括:
建立单元,用于根据标注结果与占比条件,建立整数规划模型;
求解单元,用于求解整数规划模型,得到每一第一样本的复制次数,其中,整数规划模型以P的最小值函数作为损失函数。
可选地,建立单元,具体可具体用于:
获取每一第一样本的复制次数条件;
根据标注结果、占比条件以及复制次数条件,建立整数规划模型。
可选地,多媒体数据包括视频、图像、文本或音频。
可选地,样本处理装置还可以包括:
数据增强处理模块,用于对Q个第二样本进行数据增强处理,得到Q个第三样本,Q为小于或等于P的正整数。
可选地,Q个第二样本中,包括T个预设属性。
可选地,数据增强处理模块,可以具体用于:
在第二样本为图像的情况下,按以下至少一种方式对第二样本进行数据增强处理:添加噪声、模糊处理、添加特效、颜色调整以及仿射变换。
需要说明的是,该样本处理装置是与上述样本处理方法对应的装置,上述方法实施例中所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
图3示出了本申请实施例提供的电子设备的硬件结构示意图。
在电子设备可以包括处理器301以及存储有计算机程序指令的存储器302。
具体地,上述处理器301可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit ,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器302可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器302可在综合网关容灾设备的内部或外部。在特定实施例中,存储器302是非易失性固态存储器。
存储器可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的方法所描述的操作。
处理器301通过读取并执行存储器302中存储的计算机程序指令,以实现上述实施例中的任意一种样本处理方法。
在一个示例中,电子设备还可包括通信接口303和总线304。其中,如图3所示,处理器301、存储器302、通信接口303通过总线304连接并完成相互间的通信。
通信接口303,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线304包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线304可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的样本处理方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种样本处理方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种样本处理方法,其特征在于,包括:
获取N个第一样本中每一所述第一样本分别关联的T个预设属性的标注结果,以及每一所述预设属性对应的占比条件,其中,所述预设属性的标注结果用于指示所述第一样本中是否包括所述预设属性,所述第一样本为多媒体数据,N与T均为大于1的整数;
根据所述标注结果与所述占比条件,确定每一所述第一样本的复制次数;
分别按照每一所述第一样本的复制次数对每一所述第一样本进行复制,得到P个第二样本,其中,包括有目标属性的第二样本在所述P个第二样本中的数量占比,满足所述目标属性对应的占比条件,所述目标属性为任一所述预设属性,P为大于1的整数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述标注结果与所述占比条件,确定每一所述第一样本的复制次数,包括:
根据所述标注结果与所述占比条件,建立整数规划模型;
求解所述整数规划模型,得到每一所述第一样本的复制次数,其中,所述整数规划模型以所述P的最小值函数作为损失函数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述标注结果与所述占比条件,建立整数规划模型,具体包括:
获取每一所述第一样本的复制次数条件;
根据所述标注结果、所述占比条件以及所述复制次数条件,建立整数规划模型。
4.根据权利要求1所述的方法,其特征在于,所述多媒体数据包括视频、图像、文本或音频。
5.根据权利要求1或4所述的方法,其特征在于,所述分别按照每一所述第一样本的复制次数对每一所述第一样本进行复制,得到P个第二样本之后,所述方法还包括:
对Q个所述第二样本进行数据增强处理,得到Q个第三样本,Q为小于或等于P的正整数。
6.根据权利要求5所述的方法,其特征在于,Q个所述第二样本中,包括所述T个预设属性。
7.根据权利要求5所述的方法,其特征在于,所述对Q个所述第二样本进行数据增强处理,包括:
在所述第二样本为图像的情况下,按以下至少一种方式对所述第二样本进行数据增强处理:添加噪声、模糊处理、添加特效、颜色调整以及仿射变换。
8.一种样本处理装置,其特征在于,所述装置包括:
获取模块,用于获取N个第一样本中每一所述第一样本分别关联的T个预设属性的标注结果,以及每一所述预设属性对应的占比条件,其中,所述预设属性的标注结果用于指示所述第一样本中是否包括所述预设属性,所述第一样本为多媒体数据,N与T均为大于1的整数;
确定模块,用于根据所述标注结果与所述占比条件,确定每一所述第一样本的复制次数;
复制模块,用于分别按照每一所述第一样本的复制次数对每一所述第一样本进行复制,得到P个第二样本,其中,包括有目标属性的第二样本在所述P个第二样本中的数量占比,满足所述目标属性对应的占比条件,所述目标属性为任一所述预设属性,P为大于1的整数。
9.一种电子设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-7任意一项所述的样本处理方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的样本处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110695224.9A CN113255831A (zh) | 2021-06-23 | 2021-06-23 | 样本处理方法、装置、设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110695224.9A CN113255831A (zh) | 2021-06-23 | 2021-06-23 | 样本处理方法、装置、设备及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113255831A true CN113255831A (zh) | 2021-08-13 |
Family
ID=77189305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110695224.9A Pending CN113255831A (zh) | 2021-06-23 | 2021-06-23 | 样本处理方法、装置、设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255831A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156029A (zh) * | 2015-03-24 | 2016-11-23 | 中国人民解放军国防科学技术大学 | 基于集成学习的多标签不平衡虚拟资产数据分类方法 |
EP3355244A1 (en) * | 2017-01-26 | 2018-08-01 | AGT International GmbH | Data fusion and classification with imbalanced datasets |
CN108846355A (zh) * | 2018-06-11 | 2018-11-20 | 腾讯科技(深圳)有限公司 | 图像处理方法、人脸识别方法、装置和计算机设备 |
CN108960312A (zh) * | 2018-06-27 | 2018-12-07 | 北京京东尚科信息技术有限公司 | 用于生成分类模型的方法和装置 |
CN108985342A (zh) * | 2018-06-22 | 2018-12-11 | 华南理工大学 | 一种基于深度增强学习的不平衡分类方法 |
CN112381446A (zh) * | 2020-11-30 | 2021-02-19 | 山东师范大学 | 一种保持长期公平性的排班方法、系统、介质及电子设备 |
-
2021
- 2021-06-23 CN CN202110695224.9A patent/CN113255831A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156029A (zh) * | 2015-03-24 | 2016-11-23 | 中国人民解放军国防科学技术大学 | 基于集成学习的多标签不平衡虚拟资产数据分类方法 |
EP3355244A1 (en) * | 2017-01-26 | 2018-08-01 | AGT International GmbH | Data fusion and classification with imbalanced datasets |
CN108846355A (zh) * | 2018-06-11 | 2018-11-20 | 腾讯科技(深圳)有限公司 | 图像处理方法、人脸识别方法、装置和计算机设备 |
CN108985342A (zh) * | 2018-06-22 | 2018-12-11 | 华南理工大学 | 一种基于深度增强学习的不平衡分类方法 |
CN108960312A (zh) * | 2018-06-27 | 2018-12-07 | 北京京东尚科信息技术有限公司 | 用于生成分类模型的方法和装置 |
CN112381446A (zh) * | 2020-11-30 | 2021-02-19 | 山东师范大学 | 一种保持长期公平性的排班方法、系统、介质及电子设备 |
Non-Patent Citations (1)
Title |
---|
腾讯云: "样本不平衡数据集防坑骗指南", 《HTTP://CLOUD.TENCENT.COM/DEVELOPER/NEWS/236307》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112200273B (zh) | 数据标注方法、装置、设备及计算机存储介质 | |
CN113936302B (zh) | 行人重识别模型的训练方法、装置、计算设备及存储介质 | |
CN112613543B (zh) | 增强策略验证方法、装置、电子设备及存储介质 | |
CN112214707A (zh) | 网页内容表征方法、分类方法、装置及设备 | |
CN110956123B (zh) | 一种富媒体内容的审核方法、装置、服务器及存储介质 | |
CN114529490B (zh) | 一种数据处理方法、装置、设备以及可读存储介质 | |
CN113505854A (zh) | 一种人脸图像质量评价模型构建方法、装置、设备及介质 | |
CN116543221B (zh) | 关节病变智能检测方法、装置、设备及可读存储介质 | |
CN110782448A (zh) | 渲染图像的评价方法及装置 | |
CN111639545B (zh) | 一种人脸识别方法、装置、设备及介质 | |
CN111783812A (zh) | 违禁图像识别方法、装置和计算机可读存储介质 | |
CN113780492A (zh) | 一种二维码二值化方法、装置、设备及可读存储介质 | |
CN103065133A (zh) | 雾天行人检测方法及装置 | |
CN113505653B (zh) | 目标检测方法、装置、设备、介质及程序产品 | |
CN113255831A (zh) | 样本处理方法、装置、设备及计算机存储介质 | |
CN111611781B (zh) | 数据标注方法、问答方法、装置及电子设备 | |
CN111311573B (zh) | 枝条确定方法、装置及电子设备 | |
CN116152197B (zh) | 膝关节分割方法、装置、电子设备及计算机可读存储介质 | |
CN112434547B (zh) | 一种用户身份稽核方法和设备 | |
CN116758373A (zh) | 深度学习模型的训练方法、图像处理方法、装置和设备 | |
CN113762382B (zh) | 模型的训练及场景识别方法、装置、设备及介质 | |
CN112686851B (zh) | 一种图像检测方法、装置及存储介质 | |
CN112634059A (zh) | 一种联邦学习优化方法、装置、设备及计算机存储介质 | |
CN113034449A (zh) | 目标检测模型训练方法、装置及通信设备 | |
CN116485638A (zh) | 基于深度卷积网络的图像风格迁移方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210813 |
|
RJ01 | Rejection of invention patent application after publication |