CN113221991A - 一种利用深度学习重新标注数据集的方法 - Google Patents
一种利用深度学习重新标注数据集的方法 Download PDFInfo
- Publication number
- CN113221991A CN113221991A CN202110486297.7A CN202110486297A CN113221991A CN 113221991 A CN113221991 A CN 113221991A CN 202110486297 A CN202110486297 A CN 202110486297A CN 113221991 A CN113221991 A CN 113221991A
- Authority
- CN
- China
- Prior art keywords
- data set
- label
- image
- classification model
- target data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000002372 labelling Methods 0.000 title claims abstract description 16
- 238000013135 deep learning Methods 0.000 title claims abstract description 12
- 238000013145 classification model Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000011176 pooling Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 abstract description 6
- 238000013140 knowledge distillation Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000135 prohibitive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种利用深度学习重新标注数据集的方法,包括获取多标签训练数据集,所述多标签训练数据集的包含类别与目标数据集相同;搭建分类模型,并将所述分类模型在所述多标签训练数据集上进行训练;对目标数据集进行随机裁剪图像增强,并将训练好的分类模型用于目标数据集,得到多标签标注数据集三个步骤,本发明修改原始分类器模型,在数据集上得到像素级标签。相比于知识蒸馏方法,当使用随机裁剪策略时,知识蒸馏每次都要重新计算得到一个新的特征映射,而本方法对每一张图都对应一个像素级的标签映射,裁剪后的图像只需根据这个标签映射做相应的调整即可得到标签信息,省时省力,效果显著。
Description
技术领域
本发明涉及深度学习技术领域,尤其涉及一种利用深度学习重新标注数据集的方法。
背景技术
随着人工智能的兴起,深度学习、增强学习、机器学习等人工智能领域对数据标注的需求度越来越高,数据标注的重要性也不断凸显。但是其在发展过程中也面临着一些问题和挑战:
在早期标注规范还不够严谨的情况下,许多单标签的数据集经常出现图像中存在多个类别却只有一个类别被标注的现象,这些标签噪音会不可避免的对训练过程产生干扰,分类器或者检测器对图像前景背景的区分会变得模糊,从而使得模型的准确性下降。如果使用人工重新标注的话耗时耗力,成本高昂,所以自动且低成本的重新标注数据集方法就十分必要。
发明内容
针对上述问题,本发明提出一种利用深度学习重新标注数据集的方法,主要解决背景技术中的问题。
本发明提出一种利用深度学习重新标注数据集的方法,包括以下步骤:
S1、获取多标签训练数据集,所述多标签训练数据集的包含类别与目标数据集相同;
S2、搭建分类模型,并将所述分类模型在所述多标签训练数据集上进行训练;
S3、对目标数据集进行随机裁剪图像增强,并将训练好的分类模型用于目标数据集,得到多标签标注数据集。
2.根据权利要求1所述的一种利用深度学习重新标注数据集的方法,其特征在于,所述分类模型网络采用残差网络,所述分类模型根据数据处理先后顺序包括一个7*7的卷积层、一个最大池化层、四个残差块网络、一个1*1的卷积层。
3.根据权利要求2所述的一种利用深度学习重新标注数据集的方法,其特征在于,所述分类模型的网络输出f(x)为L∈RH×W×C,H为lable map的高度,W为label map的宽度,C代表要分类的类别数量,即输出C张H×W大小的标签映射图。
4.根据权利要求1所述的一种利用深度学习重新标注数据集的方法,其特征在于,所述步骤S3具体包括:
S31、对目标数据集进行随机裁剪图像增强:随机选取图像中的几块区域,并放缩到原图像大小尺寸;
S32、将训练好的分类模型用于目标数据集,得到目标数据集中每张图像对应的多标签信息。然后对裁剪后的图像进行特征提取,根据裁剪的区域在原图像中的位置对应到label map上,得到1×1×C大小的矩阵,最后使用softmax操作进行分类:
其中Vi是分类器输出单元的输出,也就是池化后矩阵中的各个元素,i表示是第i类,C为总类别数,输出Si表示图像属于第i类的概率,越大表示图像包含i目标的可能性越大,把池化后的矩阵元素归一化到[0,1]区间,得到一个1×1×C概率向量,且向量所有元素之和等于1,设定一个阈值t,取向量中的元素Sj,当Sj大于阈值t时,则认为图像包含j类目标,并为图像打上j类的标签,若一张图像打上多种类别的标签,且没有任何元素超过阈值,则认为是前景不含任何类别,对目标数据集中的每幅图像都进行如上操作得到多标签标注数据集。
与现有技术相比,本发明的有益效果为:
本发明修改原始分类器模型,在数据集上得到像素级标签。相比于知识蒸馏方法,当使用随机裁剪策略时,知识蒸馏每次都要重新计算得到一个新的特征映射,而本方法对每一张图都对应一个像素级的标签映射,裁剪后的图像只需根据这个标签映射做相应的调整即可得到标签信息,省时省力,效果显著。
附图说明
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
图1为本发明一实施方式的原始分类模型结构示意图;
图2为本发明一实施方式的修改后的分类模型结构示意图;
图3为本发明一实施方式的裁剪图像标签池化示意图。
具体实施方式
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以是通过中间媒介间接连接,可以说两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明的具体含义。下面结合附图和实施例对本发明的技术方案做进一步的说明。
参照图1、图2和图3,一种利用深度学习重新标注数据集的方法,包括以下步骤:
步骤1:获取与目标数据集包含类别相近的多标签数据集;
步骤2:搭建分类器模型,在步骤1得到的数据集上训练;
优选的,在步骤2中采用分类器模型而不是检测器模型来获得标签,因为交叉熵损失函数的特性,即使是在但标签数据集上训练,训练的模型也会倾向于预测多标签输出,此外,我们去掉分类器的全局平均池化层,将后面的全连接层变成1x1的卷积层,从而将分类器变成一个全卷积网络,模型输出一个label map来提取像素级别的标签信息。分类器网络采用残差网络(ResNet),如图1所示。输入图像后,先经过一个7x7的卷积层,输出64张分辨率为原图二分之一大小的特征图,经过一个最大池化层后再缩小二分之一,维度不变。之后进入4个残差块网络,经过每个残差块后的输出特征图分辨率变为原来的二分之一,维度加倍。最后在原网络结构基础上去掉了全局平均池化层,将后面的全连接层变成1x1的卷积层,从而将分类器变成一个全卷积网络,如图2所示。修改后的网络输出f(x)变为L∈RH×W×C,H为lable map的高度,W为label map的宽度,C代表要分类的类别数量,即输出C张H×W大小的标签映射图,每张图包含图像在某一类别的像素级别的标注信息。
优选的,在步骤3中考虑到有时数据增强会用到随机裁剪测量。所以在训练前先对数据集进行随机裁剪数据增强,在模型中考虑到局部的多标签,使对每个裁剪块的监督训练更加合理。步骤3:对目标数据集进行随机裁剪图像增强,将训练好的模型用于目标数据集上,得到数据集的多标签标注;
步骤3-1对目标数据集进行随机裁剪图像增强:随机选取图像中的几块区域,并放缩到原图像大小尺寸;
步骤3-2使用步骤2训练好的模型用于目标数据集,得到数据集中每张图像对应的多标签信息L。然后对裁剪后的图像进行特征提取,根据裁剪的区域在原图像中的位置对应到label map上,如图3所示。使用全局池化,池化的窗口就是特征图的大小,简化计算,免去附加的池化操作,得到1×1×C大小的矩阵,最后使用softmax操作进行分类:
其中Vi是分类器输出单元的输出,也就是池化后矩阵中的各个元素,i表示是第i类,C为总类别数,输出Si表示图像属于第i类的概率,越大表示图像包含i目标的可能性越大,把池化后的矩阵元素归一化到[0,1]区间,得到一个1×1×C概率向量,且向量所有元素之和等于1。设定一个阈值t,取向量中的元素Sj,当Sj大于阈值t时,则认为图像包含j类目标,并为图像打上j类的标签,一张图像可能会打上多种类别的标签,若是没有元素超过阈值,则认为是前景不含任何类别。对数据集中的每幅图像都进行如上操作,就将原本的单标签数据集转变为了多标签数据集。
图中,描述位置关系仅用于示例性说明,不能理解为对本专利的限制;显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (4)
1.一种利用深度学习重新标注数据集的方法,其特征在于,包括以下步骤:
S1、获取多标签训练数据集,所述多标签训练数据集的包含类别与目标数据集相同;
S2、搭建分类模型,并将所述分类模型在所述多标签训练数据集上进行训练;
S3、对目标数据集进行随机裁剪图像增强,并将训练好的分类模型用于目标数据集,得到多标签标注数据集。
2.根据权利要求1所述的一种利用深度学习重新标注数据集的方法,其特征在于,所述分类模型网络采用残差网络,所述分类模型根据数据处理先后顺序包括一个7*7的卷积层、一个最大池化层、四个残差块网络、一个1*1的卷积层。
3.根据权利要求2所述的一种利用深度学习重新标注数据集的方法,其特征在于,所述分类模型的网络输出f(x)为L∈RH×W×C,为lable map的高度,为label map的宽度,代表要分类的类别数量,即输出C张H×W大小的标签映射图。
4.根据权利要求1所述的一种利用深度学习重新标注数据集的方法,其特征在于,所述步骤S3具体包括:
S31、对目标数据集进行随机裁剪图像增强:随机选取图像中的几块区域,并放缩到原图像大小尺寸;
S32、将训练好的分类模型用于目标数据集,得到目标数据集中每张图像对应的多标签信息。然后对裁剪后的图像进行特征提取,根据裁剪的区域在原图像中的位置对应到labelmap上,得到1×1×C大小的矩阵,最后使用softmax操作进行分类:
其中Vi是分类器输出单元的输出,也就是池化后矩阵中的各个元素,i表示是第i类,C为总类别数,输出Si表示图像属于第i类的概率,越大表示图像包含i目标的可能性越大,把池化后的矩阵元素归一化到[0,1]区间,得到一个1×1×C概率向量,且向量所有元素之和等于1,设定一个阈值t,取向量中的元素Sj,当Sj大于阈值t时,则认为图像包含j类目标,并为图像打上j类的标签,若一张图像打上多种类别的标签,且没有任何元素超过阈值,则认为是前景不含任何类别,对目标数据集中的每幅图像都进行如上操作得到多标签标注数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110486297.7A CN113221991A (zh) | 2021-04-30 | 2021-04-30 | 一种利用深度学习重新标注数据集的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110486297.7A CN113221991A (zh) | 2021-04-30 | 2021-04-30 | 一种利用深度学习重新标注数据集的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113221991A true CN113221991A (zh) | 2021-08-06 |
Family
ID=77090740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110486297.7A Pending CN113221991A (zh) | 2021-04-30 | 2021-04-30 | 一种利用深度学习重新标注数据集的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221991A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114241243A (zh) * | 2021-12-20 | 2022-03-25 | 百度在线网络技术(北京)有限公司 | 图像分类模型的训练方法、装置、电子设备和存储介质 |
CN114332452A (zh) * | 2021-12-13 | 2022-04-12 | 南京行者易智能交通科技有限公司 | 一种针对目标检测或目标分割的图像标注结果的自动检测方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115995A (zh) * | 2020-09-11 | 2020-12-22 | 北京邮电大学 | 一种基于半监督学习的图像多标签分类方法 |
-
2021
- 2021-04-30 CN CN202110486297.7A patent/CN113221991A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115995A (zh) * | 2020-09-11 | 2020-12-22 | 北京邮电大学 | 一种基于半监督学习的图像多标签分类方法 |
Non-Patent Citations (1)
Title |
---|
SANGDOO YUN等: ""Re-labeling ImageNet:from Single to Multi-Labels, from Global to Localized Labels"", 《ARXIV》, pages 3 - 5 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114332452A (zh) * | 2021-12-13 | 2022-04-12 | 南京行者易智能交通科技有限公司 | 一种针对目标检测或目标分割的图像标注结果的自动检测方法 |
CN114241243A (zh) * | 2021-12-20 | 2022-03-25 | 百度在线网络技术(北京)有限公司 | 图像分类模型的训练方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728200B (zh) | 一种基于深度学习的实时行人检测方法及系统 | |
CN102915438B (zh) | 一种视频字幕的提取方法及装置 | |
CN111428781A (zh) | 遥感影像地物分类方法及系统 | |
CN109345547B (zh) | 基于深度学习多任务网络的交通车道线检测方法及装置 | |
CN111160205B (zh) | 一种交通场景嵌入式多类目标端对端统一检测方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN103049763A (zh) | 一种基于上下文约束的目标识别方法 | |
CN105608454A (zh) | 基于文字结构部件检测神经网络的文字检测方法及系统 | |
CN110059539A (zh) | 一种基于图像分割的自然场景文本位置检测方法 | |
CN113221991A (zh) | 一种利用深度学习重新标注数据集的方法 | |
CN115359370B (zh) | 一种遥感图像云检测方法、装置、计算机装置及存储介质 | |
CN111126401A (zh) | 一种基于上下文信息的车牌字符识别方法 | |
CN112819837B (zh) | 一种基于多源异构遥感影像的语义分割方法 | |
CN113689434B (zh) | 一种基于条带池化的图像语义分割方法 | |
CN114648714A (zh) | 一种基于yolo的车间规范行为的监测方法 | |
CN110610230A (zh) | 一种台标检测方法、装置及可读存储介质 | |
CN116129291A (zh) | 一种面向无人机畜牧的图像目标识别方法及其装置 | |
CN115661777A (zh) | 一种联合语义的雾天道路目标检测算法 | |
CN112446376B (zh) | 一种工业图像智能分割压缩方法 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN114743126A (zh) | 一种基于图注意力机制网络的车道线标志分割方法 | |
CN113850253A (zh) | 基于深度学习的车牌识别方法及系统、服务器及介质 | |
CN114694133B (zh) | 一种基于图像处理与深度学习相结合的文本识别方法 | |
CN116452900A (zh) | 一种基于轻量级神经网络的目标检测方法 | |
CN109800758A (zh) | 一种极大值区域检测的自然场景文字检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |