CN107798389B - 一种图像数据集构建方法、系统及计算机可读存储设备 - Google Patents

一种图像数据集构建方法、系统及计算机可读存储设备 Download PDF

Info

Publication number
CN107798389B
CN107798389B CN201711078506.4A CN201711078506A CN107798389B CN 107798389 B CN107798389 B CN 107798389B CN 201711078506 A CN201711078506 A CN 201711078506A CN 107798389 B CN107798389 B CN 107798389B
Authority
CN
China
Prior art keywords
hash value
target
subset
target hash
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711078506.4A
Other languages
English (en)
Other versions
CN107798389A (zh
Inventor
钱基业
伏进
何国军
宋伟
周小龙
赵恒军
张海兵
肖前波
吴国照
张盈
黄江晨
彭姝迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of State Grid Chongqing Electric Power Co Ltd
State Grid Corp of China SGCC
Chongqing University of Arts and Sciences
Original Assignee
Electric Power Research Institute of State Grid Chongqing Electric Power Co Ltd
State Grid Corp of China SGCC
Chongqing University of Arts and Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of State Grid Chongqing Electric Power Co Ltd, State Grid Corp of China SGCC, Chongqing University of Arts and Sciences filed Critical Electric Power Research Institute of State Grid Chongqing Electric Power Co Ltd
Priority to CN201711078506.4A priority Critical patent/CN107798389B/zh
Publication of CN107798389A publication Critical patent/CN107798389A/zh
Application granted granted Critical
Publication of CN107798389B publication Critical patent/CN107798389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Processing (AREA)

Abstract

本申请公开了一种图像数据集构建方法、系统及计算机可读存储介质,其中,该方法包括:划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,哈希值子集有M个哈希值,M为大于或等于1的整数;分别从任一哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于M的正整数;计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,利用第二目标哈希值集,在原始图像中获取对应的图像,以构建目标图像数据集;获得第一目标哈希值集的过程包括:获取原始图像数据集,得到对应的原始图像;计算原始图像的哈希值,根据计算得到的哈希值剔除重复的哈希值,得到第一目标哈希值集。本申请实现了构建差异化的图像数据集。

Description

一种图像数据集构建方法、系统及计算机可读存储设备
技术领域
本发明涉及计算机技术领域,特别涉及一种图像数据集构建方法、系统及计算机可读存储设备。
背景技术
数据、算法和计算能力是机器学习的三大支柱。数据对机器学习模型的性能影响巨大,充足的数据是训练性能良好的机器学习模型的基础。而数据的充足性不仅体现在数据的量上,还体现在数据的多样性上。有差异化的数据才是对问题更全面的描述,大量相同或相似的数据只是对问题某一方面的重复刻画。例如:输电线路无人机巡检通常都会采集大量图像,多种因素导致其中存在不少相同和相似的图像:(1)对于同塔多回的线路巡检,完全相同的图像通常会保存在不同线路的巡检结果中;(2)人工通过巡线图像查找输电线路缺陷时,为便于发现缺陷,有时会调整图像的饱和度、对比度等参数,导致相同的图像对应效果不同的多个版本;(3)在巡线抓拍过程中,存在同一位置附近多次拍摄、连拍,这会采集到多张非常相似的图像。所以,训练机器学习模型即使采用了大量数据,但由于其中包含大量相同和相似的数据,这不仅浪费了数据标注成本,更重要的是难以训练出性能良好的机器学习模型。
因此,如何构建差异化的图像数据集是本领域技术人员亟待解决的问题。
发明内容
有鉴于此,本发明提供一种图像数据集构建方法、系统及计算机可读存储设备,目的在于构建差异化的图像数据集。其具体方案如下:
一种图像数据集构建方法,包括:
划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,所述哈希值子集有M个哈希值,M为大于或等于1的整数;得到所述第一目标哈希值集的过程包括:获取原始图像数据集,得到对应的原始图像;计算所述原始图像的哈希值,并根据计算得到的哈希值剔除重复的哈希值,得到所述第一目标哈希值集;
分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于M的正整数;
计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集。
可选的,所述划分预先得到的第一目标哈希值集,得到对应的哈希值子集的过程包括:
从所述第一目标哈希值集中抽取a个哈希值,得到第三目标哈希值集;其中,a为大于或等于1的整数;
划分所述第三目标哈希值集,得到对应的哈希值子集。
可选的,所述分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集的过程之后还包括:
从所述第一目标哈希值子集中任选一个哈希值,并移动选中的哈希值至第二目标哈希值子集;
计算所述第一目标哈希值子集中剩余哈希值中任选第二个哈希值与所述选中的哈希值之间的距离;
判断所述第二个哈希值与所述选中的哈希值是否大于预设阈值距离,若是,则移动所述第二个哈希值至所述第二目标哈希值子集;
计算所述第一目标哈希值子集中剩余哈希值中任选的第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离;其中,b为大于1的整数;
判断第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离是否都大于预设阈值距离,若是,则移动所述第b个哈希值至所述第二目标哈希值子集。
可选的,所述计算距离的公式为:
Figure GDA0003001794090000031
式中,
Figure GDA0003001794090000032
Figure GDA0003001794090000033
其中,
Figure GDA0003001794090000034
为任意两个哈希值
Figure GDA0003001794090000035
Figure GDA0003001794090000036
之间的距离;
Figure GDA0003001794090000037
为提取二进制串的第p至第q位,且p≤q;i表示将
Figure GDA0003001794090000038
Figure GDA0003001794090000039
划分为MH段后的任一段;
Figure GDA00030017940900000310
为将
Figure GDA00030017940900000311
划分为MH段后的第i段的哈希值;
Figure GDA00030017940900000312
为将
Figure GDA00030017940900000313
划分为MH段后的第i段的哈希值;
CH
Figure GDA00030017940900000314
平均分成MH段,每段包含的字符数目;NH=MH×CH
Figure GDA00030017940900000315
Figure GDA00030017940900000316
转换成的二进制串,
Figure GDA00030017940900000317
Figure GDA00030017940900000318
转换成的二进制串;每个
Figure GDA00030017940900000319
含有4CH位二进制数;
Figure GDA00030017940900000320
Figure GDA00030017940900000321
右移k-1位后
Figure GDA00030017940900000322
Figure GDA00030017940900000323
的距离,
Figure GDA00030017940900000324
Figure GDA00030017940900000325
左移k-1位后
Figure GDA00030017940900000326
Figure GDA00030017940900000327
的距离,
Figure GDA00030017940900000328
表示二进制的异或运算,O1表示统计二进制中1的个数,k为位移参数,且
Figure GDA00030017940900000329
Figure GDA00030017940900000330
Figure GDA00030017940900000331
右移k-1位后
Figure GDA00030017940900000332
Figure GDA00030017940900000333
的距离和
Figure GDA00030017940900000334
左移k-1位后
Figure GDA00030017940900000335
Figure GDA00030017940900000336
的距离的最小值。
可选的,所述计算所有第一目标哈希值子集的并集,得到第二目标哈希值集;并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集的过程包括:
计算所有第二目标哈希值子集的并集,得到第四目标哈希值集;并利用所述第四目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集。
相应的,本发明还提供了一种图像数据集构建系统,包括:
哈希值子集获取模块,用于划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,所述哈希值子集有M个哈希值,M为大于或等于1的整数;
目标哈希值子集获取模块,用于分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于N的正整数;
图像数据集构建模块,用于计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集。
可选的,所述目标哈希值子集获取模块之后还包括:
哈希值选取单元,用于从所述第一目标哈希值子集中任选一个哈希值,并移动选中的哈希值至第二目标哈希值子集;
第一距离计算单元,用于计算所述第一目标哈希值子集中剩余哈希值中任选第二个哈希值与所述选中的哈希值之间的距离;
第一距离判断单元,用于判断所述第二个哈希值与所述选中的哈希值是否大于预设阈值距离,若是,则移动所述第二个哈希值至所述第二目标哈希值子集;
第二距离计算单元,用于计算所述第一目标哈希值子集中剩余哈希值中任选的第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离;其中,b为大于1的整数;
第二距离判断单元,用于判断第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离是否都大于预设阈值距离,若是,则移动所述第b个哈希值至所述第二目标哈希值子集。
可选的,所述图像数据集构建模块,用于计算所有第二目标哈希值子集的并集,得到第四目标哈希值集,并利用所述第四目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有图像数据集构建程序,所述图像数据集构建程序被处理器执行时实现如上述图像数据集构建方法的步骤。
本发明提供的图像数据集构建方法,通过划分预先得到的第一目标哈希值集,得到对应的哈希值子集;然后,分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;最后,计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集;其中,得到所述第一目标哈希值集的过程包括:获取原始图像数据集,得到对应的原始图像;计算所述原始图像的哈希值,并根据计算得到的哈希值剔除重复的哈希值,得到所述第一目标哈希值集。可见,本发明提供的图像数据集构建方法,通过计算原始图像的哈希值,剔除重复的哈希值,得到第一目标哈希值子集,然后通过分组的方法随机抽取每组哈希值子集中的哈希值,得到第一目标哈希值子集,最后计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,从而构建差异化的图像数据集,而有差异化的图像数据集才是对问题更全面的描述,更有利于训练性能良好的机器学习模型。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种图像数据集构建方法的流程图;
图2为本发明实施例提供的另外一种图像数据集构建方法的流程图;
图3为本发明实施例提供的一种图像数据集构建系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种图像数据集构建方法,如图1所示,包括:
步骤S11:划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,哈希值子集有M个哈希值,M为大于或等于1的整数;
其中,得到第一目标哈希值集的过程包括:获取原始图像数据集,得到对应的原始图像;计算原始图像的哈希值,并根据计算得到的哈希值剔除重复的哈希值,得到第一目标哈希值集。
需要进行说明的是,划分预先得到的第一目标哈希值集是无重复的划分,例如,当上述第一目标哈希值集为{A,B,C,D,E}时,可以进行的划分是{A,B},{C},{D,E}。可以理解的是,上述划分第一目标哈希值集可以根据第一目标哈希值集的数目进行平均划分;当然也可以是非平均划分,例如根据用户的需要进行非平均划分。
步骤S12:分别从任一哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于M的正整数;
需要进行说明的是,分别从任一哈希值子集中抽取N个哈希值,生成第一目标哈希值子集,可以是采用随机抽取的方式,当然也可以是根据用户的需要进行有目的的抽取。
步骤S13:计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用第二目标哈希值集,在原始图像中获取对应的图像,以构建目标图像数据集。
可见,本发明实施例提供的图像数据集构建方法,通过计算原始图像的哈希值,剔除重复的哈希值,得到第一目标哈希值子集,然后通过分组的方法抽取每组哈希值子集中的哈希值,得到第一目标哈希值子集,最后计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,从而构建差异化的图像数据集,而有差异化的图像数据集才是对问题更全面的描述,更有利于训练性能良好的机器学习模型。
本发明实施例还提供了另外一种图像数据集构建方法,如图2所示,包括:
步骤S21:划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,哈希值子集有M个哈希值,M为大于或等于1的整数;
其中,得到第一目标哈希值集的过程包括:获取原始图像数据集,得到对应的原始图像;计算原始图像的哈希值,并根据计算得到的哈希值剔除重复的哈希值,得到第一目标哈希值集。
需要进一步说明的是,上述得到第一目标哈希值集的过程具体可以是:
(a1)原始图像数据集D′I包含N′张图像,可表示为D′I=(I′1,I′2,...,I′N′)。利用基于图像内容的哈希(Hash)算法,计算每张图像的哈希值,将每张图片表示为一个与图片内容相关的字符串,得到原始图像数据集D′I对应的哈希值集D′H=(H′1,H′2,...,H′N′),其中H′i=Hash(I′i)表示图像Ii的哈希值;
(b1)从哈希值集D′H=(H′1,H′2,...,H′N′)中抽取无重复哈希值的元素,得到新的哈希值集DH={H1,H2,...,HN},其中N≤N′;
(c1)根据新的哈希值集DH,从图像数据集D′I中抽取对应的图像,得到新的图像数据集DI={I1,I2,...,IN},DH=Hash(DI)。
此外,划分预先得到的第一目标哈希值集,得到对应的哈希值子集的过程可以是下述的方法:
(a2)对哈希值集DH中的N个元素排序,得到有序的哈希值集
Figure GDA0003001794090000071
其中
Figure GDA0003001794090000072
(b2)计算每个子集最少可包含元素的个数
Figure GDA0003001794090000073
其中
Figure GDA0003001794090000074
表示下取整;
(c3)依次将
Figure GDA0003001794090000075
分割为包含不少于Ns′个元素的M个哈希值子集,
Figure GDA0003001794090000076
步骤S22:分别从任一哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于M的正整数;
需要进行说明的是,分别从任一哈希值子集中抽取N个哈希值,生成第一目标哈希值子集,可以是采用随机抽取的方式,当然也可以是根据用户的需要进行有目的的抽取。
具体的,上述步骤S22的过程可以是:从D′Hi中随机抽取Ns(1≤Ns≤N′s)个元素生成哈希值子集DHi
步骤S23:从第一目标哈希值子集中任选一个哈希值,并移动选中的哈希值至第二目标哈希值子集;
计算第一目标哈希值子集中剩余哈希值中任选第二个哈希值与选中的哈希值之间的距离;
判断第二个哈希值与选中的哈希值是否大于预设阈值距离,若是,则移动第二个哈希值至第二目标哈希值子集。
步骤S24:计算第一目标哈希值子集中剩余哈希值中任选的第b个哈希值与第二目标哈希值子集中所有哈希值之间的距离;其中,b为大于1的整数;
判断第b个哈希值与第二目标哈希值子集中所有哈希值之间的距离是否都大于预设阈值距离,若是,则移动第b个哈希值至第二目标哈希值子集。
需要进行说明的是,上述步骤S23和步骤S24的过程具体可以是:
(a4)初始时
Figure GDA0003001794090000081
为空
Figure GDA0003001794090000082
给定约束哈希值子集相似性的距离阈值为Δthth≥0)。
(b4)从DHi中随机移动一个哈希值
Figure GDA0003001794090000083
Figure GDA0003001794090000084
Figure GDA0003001794090000085
(c4)若DHi非空
Figure GDA0003001794090000086
从DHi中抽取一个哈希值
Figure GDA0003001794090000087
并从DHi中移除
Figure GDA0003001794090000088
(d4)从
Figure GDA0003001794090000089
中抽取一个哈希值
Figure GDA00030017940900000810
(e4)依次将哈希值分割为长度相等的MH(1≤MH≤NH)段,每段包含CH(NH≥CH≥1)个字符,NH=MH×CH
Figure GDA00030017940900000811
Figure GDA00030017940900000812
的第i(1≤i≤MH)段分别记为
Figure GDA00030017940900000813
Figure GDA00030017940900000814
Figure GDA00030017940900000815
可表示为
Figure GDA00030017940900000816
Figure GDA00030017940900000817
可表示为
Figure GDA00030017940900000818
(f4)将
Figure GDA00030017940900000819
Figure GDA00030017940900000820
转换为二进制串
Figure GDA00030017940900000821
Figure GDA00030017940900000822
每个二进制串包含4CH个二进制位。
(g4)用
Figure GDA00030017940900000823
表示提取二进制串的第p至第q位(p≤q),计算
Figure GDA00030017940900000824
右移和左移k-1(1≤k≤4CH)位后
Figure GDA00030017940900000825
Figure GDA00030017940900000826
的距离:
Figure GDA00030017940900000827
其中,
Figure GDA00030017940900000828
表示二进制的异或运算,O1表示统计二进制中1的个数。
(h4)计算
Figure GDA00030017940900000829
Figure GDA00030017940900000830
在位移参数k作用下的距离,
Figure GDA00030017940900000831
(i4)构建位移参数集合K,满足
Figure GDA00030017940900000832
(j4)计算两个哈希值
Figure GDA00030017940900000833
Figure GDA00030017940900000834
之间的距离:
Figure GDA00030017940900000835
其中,
Figure GDA00030017940900000836
为任意两个哈希值
Figure GDA00030017940900000837
Figure GDA00030017940900000838
之间的距离;
Figure GDA00030017940900000839
为提取二进制串的第p至第q位,且p≤q;“i”表示将
Figure GDA00030017940900000840
Figure GDA00030017940900000841
划分为MH段后的任一段;
Figure GDA00030017940900000842
为将
Figure GDA00030017940900000843
划分为MH段后的第i段的哈希值;
Figure GDA00030017940900000844
为将
Figure GDA00030017940900000845
划分为MH段后的第i段的哈希值;
CH
Figure GDA0003001794090000091
平均分成MH段,每段包含的字符数目;NH=MH×CH
Figure GDA0003001794090000092
Figure GDA0003001794090000093
转换成的二进制串,
Figure GDA0003001794090000094
Figure GDA0003001794090000095
转换成的二进制串;每个
Figure GDA0003001794090000096
含有4CH位二进制数;
Figure GDA0003001794090000097
Figure GDA0003001794090000098
右移k-1位后
Figure GDA0003001794090000099
Figure GDA00030017940900000910
的距离,
Figure GDA00030017940900000911
Figure GDA00030017940900000912
左移k-1位后
Figure GDA00030017940900000913
Figure GDA00030017940900000914
的距离,
Figure GDA00030017940900000915
表示二进制的异或运算,O1表示统计二进制中1的个数,k为位移参数,且
Figure GDA00030017940900000916
Figure GDA00030017940900000917
Figure GDA00030017940900000918
右移k-1位后
Figure GDA00030017940900000919
Figure GDA00030017940900000920
的距离和
Figure GDA00030017940900000921
左移k-1位后
Figure GDA00030017940900000922
Figure GDA00030017940900000923
的距离的最小值。
(k4)按照(d4)-(j4)的方法,计算
Figure GDA00030017940900000924
中每个哈希值与
Figure GDA00030017940900000925
之间的距离,若所有距离均大于或等于Δth,将
Figure GDA00030017940900000926
加入
Figure GDA00030017940900000927
(l4)按照(c4)-(k4)将
Figure GDA00030017940900000928
从DHi移至
Figure GDA00030017940900000929
直至DHi为空
Figure GDA00030017940900000930
步骤S25:计算所有第二目标哈希值子集的并集,得到第四目标哈希值集;并利用第四目标哈希值集,在原始图像中获取对应的图像,以构建目标图像数据集。
具体的,步骤S25的过程可以是:
(a5)计算哈希值子集
Figure GDA00030017940900000931
的并集,得到新的哈希值集
Figure GDA00030017940900000932
(b5)从图像集DI中提取哈希值属于哈希值集
Figure GDA00030017940900000933
的图像,构建新的图像集
Figure GDA00030017940900000934
Figure GDA00030017940900000935
就是所需的差异化图像数据集,
Figure GDA00030017940900000936
相应的,本发明实施例还公开了一种图像数据集构建系统,如图3所示,包括:
哈希值子集获取模块11,用于划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,哈希值子集有M个哈希值,M为大于或等于1的整数;
目标哈希值子集获取模块12,用于分别从任一哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于N的正整数;
图像数据集构建模块13,用于计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用第二目标哈希值集,在原始图像中获取对应的图像,以构建目标图像数据集。
为了满足用户多样化的需求,上述目标哈希值子集获取模块之后还包括:
哈希值选取单元,用于从第一目标哈希值子集中任选一个哈希值,并移动选中的哈希值至第二目标哈希值子集;
第一距离计算单元,用于计算第一目标哈希值子集中剩余哈希值中任选第二个哈希值与选中的哈希值之间的距离;
第一距离判断单元,用于判断第二个哈希值与选中的哈希值是否大于预设阈值距离,若是,则移动第二个哈希值至第二目标哈希值子集;
第二距离计算单元,用于计算第一目标哈希值子集中剩余哈希值中任选的第b个哈希值与第二目标哈希值子集中所有哈希值之间的距离;其中,b为大于1的整数;
第二距离判断单元,用于判断第b个哈希值与第二目标哈希值子集中所有哈希值之间的距离是否都大于预设阈值距离,若是,则移动第b个哈希值至第二目标哈希值子集。
与上述各单元相适应的图像数据集构建模块13具体用于:
计算所有第二目标哈希值子集的并集,得到第四目标哈希值集,并利用第四目标哈希值集,在原始图像中获取对应的图像,以构建目标图像数据集。
可见,本发明实施例提供的图像数据集构建系统,通过计算原始图像的哈希值,剔除重复的哈希值,得到第一目标哈希值子集,然后通过分组的方法抽取每组哈希值子集中的哈希值,得到第一目标哈希值子集,最后计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,从而构建差异化的图像数据集,而有差异化的图像数据集才是对问题更全面的描述,更有利于训练性能良好的机器学习模型。
本发明实施例还公开了一种计算机可读存储介质,计算机可读存储介质上存储有图像数据集构建程序,所述图像数据集构建程序被处理器执行时实现如上述的图像数据集构建方法的步骤。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种图像数据集构建方法、系统及计算机可读存储设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.一种图像数据集构建方法,其特征在于,包括:
划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,所述哈希值子集有M个哈希值,M为大于或等于1的整数;得到所述第一目标哈希值集的过程包括:获取原始图像数据集,得到对应的原始图像;计算所述原始图像的哈希值,并根据计算得到的哈希值剔除重复的哈希值,得到所述第一目标哈希值集;
分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于M的正整数;
从所述第一目标哈希值子集中任选一个哈希值,并移动选中的哈希值至第二目标哈希值子集;
计算所述第一目标哈希值子集中剩余哈希值中任选第二个哈希值与所述选中的哈希值之间的距离;
判断所述第二个哈希值与所述选中的哈希值是否大于预设阈值距离,若是,则移动所述第二个哈希值至所述第二目标哈希值子集;
计算所述第一目标哈希值子集中剩余哈希值中任选的第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离;其中,b为大于1的整数;
判断第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离是否都大于预设阈值距离,若是,则移动所述第b个哈希值至所述第二目标哈希值子集;
计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集。
2.根据权利要求1所述的图像数据集构建方法,其特征在于,所述划分预先得到的第一目标哈希值集,得到对应的哈希值子集的过程包括:
从所述第一目标哈希值集中抽取a个哈希值,得到第三目标哈希值集;其中,a为大于或等于1的整数;
划分所述第三目标哈希值集,得到对应的哈希值子集。
3.根据权利要求1所述的图像数据集构建方法,其特征在于,所述计算距离的公式为:
Figure FDA0003001794080000021
式中,
Figure FDA0003001794080000022
Figure FDA0003001794080000023
其中,
Figure FDA0003001794080000024
为任意两个哈希值
Figure FDA0003001794080000025
Figure FDA0003001794080000026
之间的距离;
Figure FDA0003001794080000027
为提取二进制串的第p至第q位,且p≤q;i表示将
Figure FDA0003001794080000028
Figure FDA0003001794080000029
划分为MH段后的任一段;
Figure FDA00030017940800000210
为将
Figure FDA00030017940800000211
划分为MH段后的第i段的哈希值;
Figure FDA00030017940800000212
为将
Figure FDA00030017940800000213
划分为MH段后的第i段的哈希值;
CH
Figure FDA00030017940800000214
平均分成MH段,每段包含的字符数目;NH=MH×CH
Figure FDA00030017940800000215
Figure FDA00030017940800000216
转换成的二进制串,
Figure FDA00030017940800000217
Figure FDA00030017940800000218
转换成的二进制串;每个
Figure FDA00030017940800000219
含有4CH位二进制数;
Figure FDA00030017940800000220
Figure FDA00030017940800000221
右移k-1位后
Figure FDA00030017940800000222
Figure FDA00030017940800000223
的距离,
Figure FDA00030017940800000224
Figure FDA00030017940800000225
左移k-1位后
Figure FDA00030017940800000226
Figure FDA00030017940800000227
的距离,
Figure FDA00030017940800000228
表示二进制的异或运算,O1表示统计二进制中1的个数,k为位移参数,且
Figure FDA00030017940800000229
Figure FDA00030017940800000230
Figure FDA00030017940800000231
右移k-1位后
Figure FDA00030017940800000232
Figure FDA00030017940800000233
的距离和
Figure FDA00030017940800000234
左移k-1位后
Figure FDA00030017940800000235
Figure FDA00030017940800000236
的距离的最小值。
4.根据权利要求1所述的图像数据集构建方法,其特征在于,所述计算所有第一目标哈希值子集的并集,得到第二目标哈希值集;并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集的过程包括:
计算所有第二目标哈希值子集的并集,得到第四目标哈希值集;并利用所述第四目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集。
5.一种图像数据集构建系统,其特征在于,包括:
哈希值子集获取模块,用于划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,所述哈希值子集有M个哈希值,M为大于或等于1的整数;得到所述第一目标哈希值集的过程包括:获取原始图像数据集,得到对应的原始图像;计算所述原始图像的哈希值,并根据计算得到的哈希值剔除重复的哈希值,得到所述第一目标哈希值集;
目标哈希值子集获取模块,用于分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于N的正整数;
哈希值选取单元,用于从所述第一目标哈希值子集中任选一个哈希值,并移动选中的哈希值至第二目标哈希值子集;
第一距离计算单元,用于计算所述第一目标哈希值子集中剩余哈希值中任选第二个哈希值与所述选中的哈希值之间的距离;
第一距离判断单元,用于判断所述第二个哈希值与所述选中的哈希值是否大于预设阈值距离,若是,则移动所述第二个哈希值至所述第二目标哈希值子集;
第二距离计算单元,用于计算所述第一目标哈希值子集中剩余哈希值中任选的第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离;其中,b为大于1的整数;
第二距离判断单元,用于判断第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离是否都大于预设阈值距离,若是,则移动所述第b个哈希值至所述第二目标哈希值子集;
图像数据集构建模块,用于计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集。
6.根据权利要求5所述的图像数据集构建系统,其特征在于,
所述图像数据集构建模块,用于计算所有第二目标哈希值子集的并集,得到第四目标哈希值集,并利用所述第四目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有图像数据集构建程序,所述图像数据集构建程序被处理器执行时实现如权利要求1至4任一项所述的图像数据集构建方法的步骤。
CN201711078506.4A 2017-11-06 2017-11-06 一种图像数据集构建方法、系统及计算机可读存储设备 Active CN107798389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711078506.4A CN107798389B (zh) 2017-11-06 2017-11-06 一种图像数据集构建方法、系统及计算机可读存储设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711078506.4A CN107798389B (zh) 2017-11-06 2017-11-06 一种图像数据集构建方法、系统及计算机可读存储设备

Publications (2)

Publication Number Publication Date
CN107798389A CN107798389A (zh) 2018-03-13
CN107798389B true CN107798389B (zh) 2021-05-14

Family

ID=61549024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711078506.4A Active CN107798389B (zh) 2017-11-06 2017-11-06 一种图像数据集构建方法、系统及计算机可读存储设备

Country Status (1)

Country Link
CN (1) CN107798389B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490250A (zh) * 2019-08-19 2019-11-22 广州虎牙科技有限公司 一种人工智能训练集的获取方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6760698A (en) * 1997-03-31 1998-10-22 Intel Corporation A peripheral device preventing post-scan modification
US6557102B1 (en) * 1997-09-05 2003-04-29 Koninklijke Philips Electronics N.V. Digital trust center for medical image authentication
CN101084499A (zh) * 2004-09-15 2007-12-05 迪利根特技术公司 用于搜索和存储数据的系统和方法
CN103902595A (zh) * 2012-12-27 2014-07-02 北京新媒传信科技有限公司 一种构建数据库的方法和装置
CN105930391A (zh) * 2016-04-14 2016-09-07 京东方科技集团股份有限公司 超解像系统中图像样本数据库的更新方法及图像服务器
CN106294573A (zh) * 2016-07-28 2017-01-04 Tcl集团股份有限公司 一种海量数据实时查询方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6760698A (en) * 1997-03-31 1998-10-22 Intel Corporation A peripheral device preventing post-scan modification
US6557102B1 (en) * 1997-09-05 2003-04-29 Koninklijke Philips Electronics N.V. Digital trust center for medical image authentication
CN101084499A (zh) * 2004-09-15 2007-12-05 迪利根特技术公司 用于搜索和存储数据的系统和方法
CN103902595A (zh) * 2012-12-27 2014-07-02 北京新媒传信科技有限公司 一种构建数据库的方法和装置
CN105930391A (zh) * 2016-04-14 2016-09-07 京东方科技集团股份有限公司 超解像系统中图像样本数据库的更新方法及图像服务器
CN106294573A (zh) * 2016-07-28 2017-01-04 Tcl集团股份有限公司 一种海量数据实时查询方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Fast computation of min-hash signatures for image collections;ondrej chum et al.;《2012 IEEE conference on computer vision and pattern recognition》;20120726;第1-8页 *
空间局部重合图像的快速聚类;汪国安等;《河南省教育学院学报(自然科学版)》;20150713;第23-29页 *

Also Published As

Publication number Publication date
CN107798389A (zh) 2018-03-13

Similar Documents

Publication Publication Date Title
CN109816009B (zh) 基于图卷积的多标签图像分类方法、装置及设备
CN104113789B (zh) 一种基于深度学习的视频摘要在线生成方法
CN107944020B (zh) 人脸图像查找方法及装置、计算机装置和存储介质
CN105512289B (zh) 基于深度学习和哈希的图像检索方法
CN107016708B (zh) 一种基于深度学习的图像哈希编码方法
CN112308158A (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN110110323B (zh) 一种文本情感分类方法和装置、计算机可读存储介质
CN105956093B (zh) 一种基于多视图锚点图哈希技术的个性化推荐方法
CN104765768A (zh) 海量人脸库的快速准确检索方法
WO2015134900A1 (en) Neural network and method of neural network training
CN104809481A (zh) 一种基于自适应色彩聚类的自然场景文本检测的方法
WO2018112696A1 (zh) 一种内容推荐方法及内容推荐系统
CN111950728B (zh) 图像特征提取模型的构建方法、图像检索方法及存储介质
CN106204597B (zh) 一种基于自步式弱监督学习的视频物体分割方法
CN111144548A (zh) 抽油机井工况的识别方法及装置
CN103116893A (zh) 基于多示例多标记学习的数字图像标注方法
CN104036493A (zh) 一种基于多重分形谱的无参考图像质量评价方法
CN111127360A (zh) 一种基于自动编码器的灰度图像迁移学习方法
CN104036296A (zh) 一种图像的表示和处理方法及装置
CN109871379A (zh) 一种基于数据块学习的在线哈希最近邻查询方法
CN104463922B (zh) 一种基于集成学习的图像特征编码及识别方法
CN107798389B (zh) 一种图像数据集构建方法、系统及计算机可读存储设备
CN111382305B (zh) 一种视频去重方法、装置、计算机设备和存储介质
CN109740672B (zh) 多流特征距离融合系统与融合方法
CN103177105A (zh) 一种图像检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant