CN112560925A - 一种复杂场景目标检测数据集构建方法及系统 - Google Patents
一种复杂场景目标检测数据集构建方法及系统 Download PDFInfo
- Publication number
- CN112560925A CN112560925A CN202011438924.1A CN202011438924A CN112560925A CN 112560925 A CN112560925 A CN 112560925A CN 202011438924 A CN202011438924 A CN 202011438924A CN 112560925 A CN112560925 A CN 112560925A
- Authority
- CN
- China
- Prior art keywords
- data set
- image
- images
- data
- visually impaired
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 29
- 238000010276 construction Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000001771 impaired effect Effects 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000012216 screening Methods 0.000 claims abstract description 17
- 238000013135 deep learning Methods 0.000 claims abstract description 15
- 238000002372 labelling Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 4
- 238000003672 processing method Methods 0.000 claims description 2
- 238000005286 illumination Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 206010047571 Visual impairment Diseases 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 208000029257 vision disease Diseases 0.000 description 2
- 230000004393 visual impairment Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种复杂场景目标检测数据集构建方法及系统。该方法包括:从公开数据集中筛选出适用于视障人群生活场景的图像,构成初始数据集;利用深度学习特征提取模型来提取所述初始数据集对应的多维深度特征数据;利用所述初始数据集及对应的多维深度特征数据进行无监督学习,以将所述多维特征数据整合到无监督聚类模型中,进而将聚类得到的视障人群生活场景的图像构成数据集;基于所述数据集训练生成对抗网络;利用经训练的生成对抗网络的生成器构建多种场景的目标检测数据集。利用本发明构建的数据集,适用于视障人群生活场景的目标检测,解决了数据样本丰富和准确标定之间的矛盾。
Description
技术领域
本发明涉及图像处理技术领域,更具体地,涉及一种复杂场景目标检测数据集构建方法及系统。
背景技术
在现有技术中,已经公开类似车载摄像头的视频KITTI跟踪数据集,或显示了各种不同视角的行人MOT Challenge数据集,或静态场景解析的ADE20K数据集都是用于无人驾驶的检测算法的benchmark(标准)数据集。目前并没有一套适用于视障人群生活场景解析的数据集,例如社区、学校和工作场所等。
目前大部分建立标准的训练和验证数据库主要是人工采集图像,并手动对图像的感兴趣的目标进行标定。但是由于视障人群生活场景图像的复杂性、光照变化不均匀、数据量大等自身特点,人工标注结果一方面工作量过于繁重,另一方面又受限于标注者自身经验主观性以及图像中本身就出现的人肉眼难以区分的对象。如果要在短期内构建标准的训练和验证数据库以用于模型训练,人工采集并标注的方法已无法满足研究和生产工作的需要。
基于深度学习的数据集构建方法成为近年来国内外非常热门的前沿领域之一。相对于传统的人工采集标注,计算机图像生成标注具有多样性、量化和低成本的优势,从而提高了图像标注的准确性和工作效率。现有技术往往是通过生成对抗网络(GAN)来生成图像,以扩展数据样本的多样性。但是生成的样本并不含有标准信息,无法适用于目标检测任务。
目前目标检测benchmark的构建还主要依靠人工采集和图像生成的方法来组建,后期再依靠人工标注。在针对视障人群构建复杂生活场景的数据集过程中,这种方法仍具有一定的缺陷,这主要是因为:
1)、图像的复杂性。由于生活场景的多样,图像中会出现遮挡,运动物体的畸变,低照度下的物体肉眼难以识别。
2)、图像的多样性。要使构建的数据集足以训练鲁棒性高的检测器需要丰富的、大量的数据,而在一定时期内搜集相关场景并拍摄的方法不足以涵盖各种情况。
3)、标注的工作量巨大。由于构建一个好的数据集需要大量的数据样本,要训练一个好的检测器,如何对上万张图像进行标注也是个非常大的技术难点。
上述技术问题制约了实际生产和研究的应用,据目前已发表的文献来看,尚没有一个系统的解决方案来构建适用于视障人群生活场景的目标检测,尤其是难以解决数据样本丰富和准确标定之间的矛盾。
发明内容
本发明的目的是克服上述现有技术的缺陷,提供一种复杂场景目标检测数据集构建方法及系统,基于生成对抗方法构建数据集,生成多种光照、不同场景下的图像数据,通过利用深度学习方法批量生成数据,使得构造数据集的工作效率大幅提升。
根据本发明的第一方面,提供一种复杂场景目标检测数据集构建方法。该方法包括以下步骤:
从公开数据集中筛选出适用于视障人群生活场景的图像,构成初始数据集;
利用深度学习特征提取模型来提取所述初始数据集对应的多维深度特征数据;
利用所述初始数据集及对应的多维深度特征数据进行无监督学习,以将所述多维特征数据整合到无监督聚类模型中,进而将聚类得到的视障人群生活场景的图像构成数据集;
基于所述数据集训练生成对抗网络,该生成对抗网络包括图像生成器和图像判别器,其中图像生成器基于所述数据集和不同风格图像来生成图像,并将生成图像输入训练的所述深度学习特征提取模型来提取特征,图像判别器针对所提取的生成图像的特征和所述不同风格图像特征进行对抗训练;
利用经训练的图像生成器构建多种场景的目标检测数据集。
根据本发明的第二方面,提供一种复杂场景目标检测数据集构建系统。该系统包括:
图像搜集模块:用于从公开数据集中筛选出适用于视障人群生活场景的图像,构成初始数据集;
特征提取模块:用于利用深度学习特征提取模型来提取所述初始数据集对应的多维深度特征数据;
图像筛选模块:用于利用所述初始数据集及对应的多维深度特征数据进行无监督学习,以将所述多维特征数据整合到无监督聚类模型中,进而将聚类得到的视障人群生活场景的图像构成数据集;
对抗训练模块:用于基于所述数据集训练生成对抗网络,该生成对抗网络包括图像生成器和图像判别器,其中图像生成器基于所述数据集和不同风格图像来生成图像,并将生成图像输入训练的所述深度学习特征提取模型来提取特征,图像判别器针对所提取的生成图像的特征和所述不同风格图像特征进行对抗训练;
图像标注模块:用带标注的数据集预训练网络,重点检测出视障人群感兴趣的目标;
数据集构建模块:用于利用经训练的图像生成器构建多种场景的目标检测数据集。
与现有技术相比,本发明的优点在于,通过计算机和信息技术对海量数据进行图像筛选,并生成风格(光照、场景)多样的图片;用半监督的目标检测器对图像进行标注,相比于人工筛选和采集标注,显著提高了工作效率,也提高了图像标注的质量。本发明对构建大样本的benchmark具有重要的生产、研究价值,显著降低了构建大量数据集的成本。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是根据本发明一个实施例的复杂场景目标检测数据集构建系统的框架图;
图2是根据本发明一个实施例的复杂场景目标检测数据集构建方法的流程图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
参见图1所示,该实施例提供的复杂场景目标检测数据集构建系统包括图像搜集模块、图像筛选模块、特征提取模块、图像生成模块、图像判别模块和图像标注模块。
图像搜集模块用于从已有的公开数据集中重新筛选出一部分适用于视障人群生活场景的图像,构成初始数据集。例如,具体包括搜集包含感兴趣目标的数据集,并从已有数据集中筛选出包含目标对象的图片(或称图像)。
特征提取模块(或称深度学习特征提取模型)用于基于筛选出的初始数据集提取深层次特征。需要从数据集中筛选出视障人群的生活场景图片来构成数据集,人肉眼可以很明显的观察出图片是否符合这样的需求,然而由于数据集中包含的海量图像数据,且图像内容复杂多变,面对大量的数据,人工筛选过程十分缓慢。本发明的特征提取模块可以实现自动、快速的特征提取,在无需人工干预的条件下对上述图像质量标准化模块中的感兴趣区域图像块的颜色、形态学、纹理和空间分布特征进行检测。例如,利用残差网络来设计更深的网络,以便学到更深层的图像特征,同时,采取金字塔的网络结构来提取不同尺度的特征。为了加快计算速度,本发明优选采用GPU对上述各个图像块独立进行特征提取,提取的特征例如包括形状特征、颜色特征和高维纹理特征等多维度特征。
图像筛选模块是基于先期训练的图像筛选系统,利用前期挑选的少量目标图像(例如提取的深层特征)以及大量的待挑选的数据集进行无监督学习,将不断学习前期挑选的图像的形状、颜色、高维纹理特征集整合到一个无监督聚类模型中。例如,聚类后的结果就可以自动将大量的数据划分为不同的视障人群生活场景和不感兴趣的图像两类。进一步地,将所有视障人群生活场景的图像构成数据集。
图像生成模块和图像判别模块:由于图像筛选模块得到的数据集只是从其他公开数据中筛选得到,包含的场景种类、光照强度都比较有限,为了提高目标检测的泛化性能,优选地,还利用GAN网络来生成不同光照、不同场景的图像,GAN整体上包括生成器和辨别器。图像生成模块(即生成对抗网络的生成器)用于将筛选后的图片和所需要的不同光照和场景图像来生成需要的数据,再将图片放入之前训练好的特征提取模块中,共享卷积层来提取特征。并将提取的生成图像的特征和筛选的图片特征一同放入判别器中来对抗训练。
图像标注模块:用带标注的数据集预训练网络,重点检测出视障人群感兴趣的目标。对于部分数据未进行数据标注的如视频图像中每个人的脸部标识或生活场景的标识,通过部分样本进行人工多目标实例标注,然后对上述网络进行微调整学习,从而得到较为准确的标准结果,最后在人工的核对每张图片并对标注缺陷的图像进行人工标注矫正。
在一个实施例中,整个训练过程的损失函数定义如下:
L(G,F,DX,DY)=LGAN(G,DY,X,Y)+LGAN(F,DX,Y,X)+λLcyc(G,F)
其中前两项是常规生成对抗网络中的损失函数,最后一项是循环一致性损失函数,λ是一个调节系数。对于前两项,优选地采用LSGAN(最小二乘GAN)的思想,可以进一步表达为:
其中X,Y分别表示原域和目标域的数据,而x,y则表示为从原数据域和目标数据域中采样得到的数据样本。G:X→Y,F:Y→X表示两个生成器的映射过程,DX,DY分别表示针对原数据域和目标数据域的判别器。
对于循环一致性损失,其相当于自动编码器的重构误差,可以表达为:
优选地,本发明还包括图像标注模块。图像标注是训练目标检测器的金标准,而大部分筛选出的数据中,其中包含目标boundingbox(边界框)的图像只有一部分,而对剩下的数据进行人工标注仍需要大量的精力和时间。而且有部分图像由于光照等因素,人肉眼无法准确的标定目标。本发明从已有的公开数据集中重新筛选出适用于视障人群生活场景的视频图像,然后采用全卷积语义分割网络对整理数据集进行网络预训练,并重点标注出符合视障人群生活需求的感兴趣目标,对于部分数据未进行数据标注的如视频图像中每个人的脸部标识或生活场景的标识,通过部分样本进行人工多目标实例标注,然后对上述网络进行微调整学习,从而得到较为准确的标准结果,最后再人工核对每张图片并对标注缺陷的图像进行勾画矫正。而部分生成的图像由于只是进行了光照的变化,并无图像内容的变化,若风格迁移前的图像包含标注信息,则直接利用原标注,若原图像不包含标注信息,则对风格转换后的图像和原图像共同检测,两者标注以互补的形式工作。
相应地,本发明还提供一种复杂场景目标检测数据集构建方法,可实现图1所示系统的功能。例如,参见图2所示,该方法包括:
步骤S210,从公开数据集中筛选出适用于视障人群生活场景的图像,构成初始数据集。
步骤S220,利用深度学习特征提取模型来提取所述初始数据集对应的多维深度特征数据。
步骤S230,利用所述初始数据集及对应的多维深度特征数据进行无监督学习,以将所述多维特征数据整合到无监督聚类模型中,进而将聚类得到的视障人群生活场景的图像构成数据集。
步骤S240,基于所述数据集训练生成对抗网络,该生成对抗网络包括图像生成器和图像判别器。
图像生成器基于所述数据集和不同风格图像来生成图像,并将生成图像输入训练的深度学习特征提取模型来提取特征,图像判别器针对所提取的生成图像的特征和不同风格图像特征进行对抗训练。不同风格图像是指不同角度、不同光照或不同场景的图像。
步骤S250,利用经训练的图像生成器构建多种场景的目标检测数据集。
综上所述,本发明设计了一套完整的基于深度学习的数据筛选、生成以及标注系统和方法,可显著减少构建数据集的人力和精力,并提供风格多样的数据,有助于目标检测器的训练;提出了基于聚类方法和颜色分布信息的多尺度图像块构建,根据图像特征快速的筛选出适用于视障人群的数据集,并加快图像特征提取计算速度;针对视障人群的生活场景,利用残差网络提取深层特征,再用金字塔结构提取不同尺度的特征,并提出了融合了颜色、形态、纹理和空间分布等多维特征提取和描述方法,能够兼顾不同场景中不同大小的关键特征信息,且可以兼顾鲁棒性和计算速度。总之,本发明针对适用视障人群生活场景下的现有数据集少、图像标注困难的特点,提供一种图像生成、图像标注自动化技术领域,解决适用于视障人群复杂场景目标检测数据集不足以训练模型的难题。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
Claims (9)
1.一种复杂场景目标检测数据集构建方法,包括以下步骤:
从公开数据集中筛选出适用于视障人群生活场景的图像,构成初始数据集;
利用深度学习特征提取模型来提取所述初始数据集对应的多维深度特征数据;
利用所述初始数据集及对应的多维深度特征数据进行无监督学习,以将所述多维特征数据整合到无监督聚类模型中,进而将聚类得到的视障人群生活场景的图像构成数据集;
基于所述数据集训练生成对抗网络,该生成对抗网络包括图像生成器和图像判别器,其中图像生成器基于所述数据集和不同风格图像来生成图像,并将生成图像输入训练的所述深度学习特征提取模型来提取特征,图像判别器针对所提取的生成图像的特征和所述不同风格图像特征进行对抗训练;
利用经训练的图像生成器构建多种场景的目标检测数据集。
2.根据权利要求1所述的方法,其中,利用深度学习特征提取模型来提取所述初始数据集对应的多维深度特征数据包括:
将所述初始数据集输入到残差网络得到特征图;
对于所述特征图利用金字塔结构提取不同尺度的多维深度特征数据。
3.根据权利要求1所述的方法,其中,还包括:
利用经训练的图像生成器获得的带标注的符合视障人群生活需求的感兴趣目标;
对于部分未进行数据标注的图像中每个人的脸部标识或生活场景的标识,进行多目标实例标注;
利用所有标注数据通过网络学习进行调整,获得最终的目标检测数据集。
4.根据权利要求1所述的方法,其中,所述多维深度特征数据包括感兴趣区域图像块的颜色、形态学、纹理和空间分布特征。
5.根据权利要求1所述的方法,其中,所述生成对抗网络训练过程的损失函数包含常规的生成对抗网络损失函数和循环一致性损失函数,并通过设置调节系数来调整该循环一致性损失函数的权重。
6.根据权利要求1所述的方法,其中,所述不同风格图像包括不同光照和不同场景图像。
7.一种复杂场景目标检测数据集构建系统,包括:
图像搜集模块:用于从公开数据集中筛选出适用于视障人群生活场景的图像,构成初始数据集;
特征提取模块:用于利用深度学习特征提取模型来提取所述初始数据集对应的多维深度特征数据;
图像筛选模块:用于利用所述初始数据集及对应的多维深度特征数据进行无监督学习,以将所述多维特征数据整合到无监督聚类模型中,进而将聚类得到的视障人群生活场景的图像构成数据集;
对抗训练模块:用于基于所述数据集训练生成对抗网络,该生成对抗网络包括图像生成器和图像判别器,其中图像生成器基于所述数据集和不同风格图像来生成图像,并将生成图像输入训练的所述深度学习特征提取模型来提取特征,图像判别器针对所提取的生成图像的特征和所述不同风格图像特征进行对抗训练;
图像标注模块:用带标注的数据集预训练网络,以检测出视障人群感兴趣的目标;
数据集构建模块:用于利用经训练的图像生成器构建多种场景的目标检测数据集。
8.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求1至6中任一项所述方法的步骤。
9.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011438924.1A CN112560925A (zh) | 2020-12-10 | 2020-12-10 | 一种复杂场景目标检测数据集构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011438924.1A CN112560925A (zh) | 2020-12-10 | 2020-12-10 | 一种复杂场景目标检测数据集构建方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112560925A true CN112560925A (zh) | 2021-03-26 |
Family
ID=75060741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011438924.1A Pending CN112560925A (zh) | 2020-12-10 | 2020-12-10 | 一种复杂场景目标检测数据集构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112560925A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392804A (zh) * | 2021-07-02 | 2021-09-14 | 昆明理工大学 | 一种基于多角度的交警目标数据集的场景化构建方法及系统 |
CN113554087A (zh) * | 2021-07-20 | 2021-10-26 | 清华大学深圳国际研究生院 | 一种基于生成式对抗网络的考古线图自动生成方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109242097A (zh) * | 2018-07-12 | 2019-01-18 | 上海交通大学 | 无监督学习的视觉表示学习系统及方法 |
CN109657149A (zh) * | 2018-12-25 | 2019-04-19 | 合肥学院 | 一种基于生成对抗网络和双聚类的推荐方法及系统 |
CN109948561A (zh) * | 2019-03-25 | 2019-06-28 | 广东石油化工学院 | 基于迁移网络的无监督图像视频行人重识别的方法及系统 |
CN110111335A (zh) * | 2019-05-08 | 2019-08-09 | 南昌航空大学 | 一种自适应对抗学习的城市交通场景语义分割方法及系统 |
CN110414462A (zh) * | 2019-08-02 | 2019-11-05 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种无监督的跨域行人重识别方法及系统 |
CN110503654A (zh) * | 2019-08-01 | 2019-11-26 | 中国科学院深圳先进技术研究院 | 一种基于生成对抗网络的医学图像分割方法、系统及电子设备 |
CN110569033A (zh) * | 2019-09-12 | 2019-12-13 | 北京工商大学 | 一种数字化交易类智能合约基础代码生成方法 |
CN111126360A (zh) * | 2019-11-15 | 2020-05-08 | 西安电子科技大学 | 基于无监督联合多损失模型的跨域行人重识别方法 |
-
2020
- 2020-12-10 CN CN202011438924.1A patent/CN112560925A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109242097A (zh) * | 2018-07-12 | 2019-01-18 | 上海交通大学 | 无监督学习的视觉表示学习系统及方法 |
CN109657149A (zh) * | 2018-12-25 | 2019-04-19 | 合肥学院 | 一种基于生成对抗网络和双聚类的推荐方法及系统 |
CN109948561A (zh) * | 2019-03-25 | 2019-06-28 | 广东石油化工学院 | 基于迁移网络的无监督图像视频行人重识别的方法及系统 |
CN110111335A (zh) * | 2019-05-08 | 2019-08-09 | 南昌航空大学 | 一种自适应对抗学习的城市交通场景语义分割方法及系统 |
CN110503654A (zh) * | 2019-08-01 | 2019-11-26 | 中国科学院深圳先进技术研究院 | 一种基于生成对抗网络的医学图像分割方法、系统及电子设备 |
CN110414462A (zh) * | 2019-08-02 | 2019-11-05 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种无监督的跨域行人重识别方法及系统 |
CN110569033A (zh) * | 2019-09-12 | 2019-12-13 | 北京工商大学 | 一种数字化交易类智能合约基础代码生成方法 |
CN111126360A (zh) * | 2019-11-15 | 2020-05-08 | 西安电子科技大学 | 基于无监督联合多损失模型的跨域行人重识别方法 |
Non-Patent Citations (4)
Title |
---|
HEHE FAN 等: "Unsupervised Person Re-identification: Clustering and Fine-tuning" * |
VITTAL PREMACHANDRAN 等: "Unsupervised learning using generative adversarial training and clustering" * |
ZHU JUN-YAN 等: "Unpaired image-to-image translation using cycle-consistent adversarial networks" * |
曹亮 等: "基于多样性约束和离散度分层聚类的无监督视频行人重识别" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392804A (zh) * | 2021-07-02 | 2021-09-14 | 昆明理工大学 | 一种基于多角度的交警目标数据集的场景化构建方法及系统 |
CN113554087A (zh) * | 2021-07-20 | 2021-10-26 | 清华大学深圳国际研究生院 | 一种基于生成式对抗网络的考古线图自动生成方法 |
CN113554087B (zh) * | 2021-07-20 | 2023-11-10 | 清华大学深圳国际研究生院 | 一种基于生成式对抗网络的考古线图自动生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476284B (zh) | 图像识别模型训练及图像识别方法、装置、电子设备 | |
CN111488921B (zh) | 一种全景数字病理图像智能分析系统及方法 | |
CN106815604B (zh) | 基于多层信息融合的注视点检测方法 | |
CN107766933B (zh) | 一种解释卷积神经网络的可视化方法 | |
CN105808610B (zh) | 一种互联网图片过滤方法及装置 | |
CN110379020B (zh) | 一种基于生成对抗网络的激光点云上色方法和装置 | |
CN106610969A (zh) | 基于多模态信息的视频内容审查系统及方法 | |
CN109410184B (zh) | 基于稠密对抗网络半监督学习的直播色情图像检测方法 | |
Haigh et al. | Optimising and comparing source-extraction tools using objective segmentation quality criteria | |
CN111860235A (zh) | 高低层特征融合的注意力遥感图像描述的生成方法及系统 | |
WO2016205286A1 (en) | Automatic entity resolution with rules detection and generation system | |
CN105205782A (zh) | 超解像方法和系统、服务器、用户设备及其方法 | |
CN102385592B (zh) | 图像概念的检测方法和装置 | |
CN106408030A (zh) | 基于中层语义属性和卷积神经网络的sar图像分类方法 | |
CN114998220B (zh) | 一种基于改进的Tiny-YOLO v4自然环境下舌像检测定位方法 | |
CN111680753A (zh) | 一种数据标注方法、装置、电子设备及存储介质 | |
CN112990282B (zh) | 一种细粒度小样本图像的分类方法及装置 | |
CN112560925A (zh) | 一种复杂场景目标检测数据集构建方法及系统 | |
CN109376736A (zh) | 一种基于深度卷积神经网络的视频小目标检测方法 | |
CN111783812A (zh) | 违禁图像识别方法、装置和计算机可读存储介质 | |
Lin et al. | Integrated circuit board object detection and image augmentation fusion model based on YOLO | |
Jayanthiladevi et al. | Text, images, and video analytics for fog computing | |
CN110532449A (zh) | 一种业务文档的处理方法、装置、设备和存储介质 | |
CN114329050A (zh) | 视觉媒体数据去重处理方法、装置、设备和存储介质 | |
CN113395584B (zh) | 一种视频数据处理方法、装置、设备以及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210326 |
|
RJ01 | Rejection of invention patent application after publication |