CN107798389A - 一种图像数据集构建方法、系统及计算机可读存储设备 - Google Patents

一种图像数据集构建方法、系统及计算机可读存储设备 Download PDF

Info

Publication number
CN107798389A
CN107798389A CN201711078506.4A CN201711078506A CN107798389A CN 107798389 A CN107798389 A CN 107798389A CN 201711078506 A CN201711078506 A CN 201711078506A CN 107798389 A CN107798389 A CN 107798389A
Authority
CN
China
Prior art keywords
mrow
cryptographic hash
hash
target
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711078506.4A
Other languages
English (en)
Other versions
CN107798389B (zh
Inventor
钱基业
伏进
何国军
宋伟
周小龙
赵恒军
张海兵
肖前波
吴国照
张盈
黄江晨
彭姝迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of State Grid Chongqing Electric Power Co Ltd
State Grid Corp of China SGCC
Chongqing University of Arts and Sciences
Original Assignee
Electric Power Research Institute of State Grid Chongqing Electric Power Co Ltd
State Grid Corp of China SGCC
Chongqing University of Arts and Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of State Grid Chongqing Electric Power Co Ltd, State Grid Corp of China SGCC, Chongqing University of Arts and Sciences filed Critical Electric Power Research Institute of State Grid Chongqing Electric Power Co Ltd
Priority to CN201711078506.4A priority Critical patent/CN107798389B/zh
Publication of CN107798389A publication Critical patent/CN107798389A/zh
Application granted granted Critical
Publication of CN107798389B publication Critical patent/CN107798389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Processing (AREA)

Abstract

本申请公开了一种图像数据集构建方法、系统及计算机可读存储介质,其中,该方法包括:划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,哈希值子集有M个哈希值,M为大于或等于1的整数;分别从任一哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于M的正整数;计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,利用第二目标哈希值集,在原始图像中获取对应的图像,以构建目标图像数据集;获得第一目标哈希值集的过程包括:获取原始图像数据集,得到对应的原始图像;计算原始图像的哈希值,根据计算得到的哈希值剔除重复的哈希值,得到第一目标哈希值集。本申请实现了构建差异化的图像数据集。

Description

一种图像数据集构建方法、系统及计算机可读存储设备
技术领域
本发明涉及计算机技术领域,特别涉及一种图像数据集构建方法、系统及计算机可读存储设备。
背景技术
数据、算法和计算能力是机器学习的三大支柱。数据对机器学习模型的性能影响巨大,充足的数据是训练性能良好的机器学习模型的基础。而数据的充足性不仅体现在数据的量上,还体现在数据的多样性上。有差异化的数据才是对问题更全面的描述,大量相同或相似的数据只是对问题某一方面的重复刻画。例如:输电线路无人机巡检通常都会采集大量图像,多种因素导致其中存在不少相同和相似的图像:(1)对于同塔多回的线路巡检,完全相同的图像通常会保存在不同线路的巡检结果中;(2)人工通过巡线图像查找输电线路缺陷时,为便于发现缺陷,有时会调整图像的饱和度、对比度等参数,导致相同的图像对应效果不同的多个版本;(3)在巡线抓拍过程中,存在同一位置附近多次拍摄、连拍,这会采集到多张非常相似的图像。所以,训练机器学习模型即使采用了大量数据,但由于其中包含大量相同和相似的数据,这不仅浪费了数据标注成本,更重要的是难以训练出性能良好的机器学习模型。
因此,如何构建差异化的图像数据集是本领域技术人员亟待解决的问题。
发明内容
有鉴于此,本发明提供一种图像数据集构建方法、系统及计算机可读存储设备,目的在于构建差异化的图像数据集。其具体方案如下:
一种图像数据集构建方法,包括:
划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,所述哈希值子集有M个哈希值,M为大于或等于1的整数;
分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于M的正整数;
计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集;
其中,得到所述第一目标哈希值集的过程包括:获取原始图像数据集,得到对应的原始图像;计算所述原始图像的哈希值,并根据计算得到的哈希值剔除重复的哈希值,得到所述第一目标哈希值集。
可选的,所述划分预先得到的第一目标哈希值集,得到对应的哈希值子集的过程包括:
从所述第一目标哈希值集中抽取a个哈希值,得到第三目标哈希值集;其中,a为大于或等于1的整数;
划分所述第三目标哈希值集,得到对应的哈希值子集。
可选的,所述分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集的过程之后还包括:
从所述第一目标哈希值子集中任选一个哈希值,并移动选中的哈希值至第二目标哈希值子集;
计算所述第一目标哈希值子集中剩余哈希值中任选第二个哈希值与所述选中的哈希值之间的距离;
判断所述第二个哈希值与所述选中的哈希值是否大于预设阈值距离,若是,则移动所述第二个哈希值至所述第二目标哈希值子集;
计算所述第一目标哈希值子集中剩余哈希值中任选的第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离;其中,b为大于1的整数;
判断第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离是否都大于预设阈值距离,若是,则移动所述第b个哈希值至所述第二目标哈希值子集。
可选的,所述计算距离的公式为:
式中,
其中,为任意两个哈希值之间的距离;为提取二进制串的第p至第q位,且p≤q;i表示将划分为MH段后的任一段;为将划分为MH段后的第i段的哈希值;为将划分为MH段后的第i段的哈希值;
CH平均分成MH段,每段包含的字符数目;NH=MH×CH转换成的二进制串,转换成的二进制串;每个含有4CH位二进制数;
右移k-1位后的距离,左移k-1位后的距离,表示二进制的异或运算,O1表示统计二进制中1的个数,k为位移参数,且右移k-1位后的距离和左移k-1位后的距离的最小值。
可选的,所述计算所有第一目标哈希值子集的并集,得到第二目标哈希值集;并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集的过程包括:
计算所有第二目标哈希值子集的并集,得到第四目标哈希值集;并利用所述第四目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集。
相应的,本发明还提供了一种图像数据集构建系统,包括:
哈希值子集获取模块,用于划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,所述哈希值子集有M个哈希值,M为大于或等于1的整数;
目标哈希值子集获取模块,用于分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于N的正整数;
图像数据集构建模块,用于计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集。
可选的,所述目标哈希值子集获取模块之后还包括:
哈希值选取单元,用于从所述第一目标哈希值子集中任选一个哈希值,并移动选中的哈希值至第二目标哈希值子集;
第一距离计算单元,用于计算所述第一目标哈希值子集中剩余哈希值中任选第二个哈希值与所述选中的哈希值之间的距离;
第一距离判断单元,用于判断所述第二个哈希值与所述选中的哈希值是否大于预设阈值距离,若是,则移动所述第二个哈希值至所述第二目标哈希值子集;
第二距离计算单元,用于计算所述第一目标哈希值子集中剩余哈希值中任选的第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离;其中,b为大于1的整数;
第二距离判断单元,用于判断第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离是否都大于预设阈值距离,若是,则移动所述第b个哈希值至所述第二目标哈希值子集。
可选的,所述图像数据集构建模块,用于计算所有第二目标哈希值子集的并集,得到第四目标哈希值集,并利用所述第四目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有图像数据集构建程序,所述图像数据集构建程序被处理器执行时实现如上述图像数据集构建方法的步骤。
本发明提供的图像数据集构建方法,通过划分预先得到的第一目标哈希值集,得到对应的哈希值子集;然后,分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;最后,计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集;其中,得到所述第一目标哈希值集的过程包括:获取原始图像数据集,得到对应的原始图像;计算所述原始图像的哈希值,并根据计算得到的哈希值剔除重复的哈希值,得到所述第一目标哈希值集。可见,本发明提供的图像数据集构建方法,通过计算原始图像的哈希值,剔除重复的哈希值,得到第一目标哈希值子集,然后通过分组的方法随机抽取每组哈希值子集中的哈希值,得到第一目标哈希值子集,最后计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,从而构建差异化的图像数据集,而有差异化的图像数据集才是对问题更全面的描述,更有利于训练性能良好的机器学习模型。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种图像数据集构建方法的流程图;
图2为本发明实施例提供的另外一种图像数据集构建方法的流程图;
图3为本发明实施例提供的一种图像数据集构建系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种图像数据集构建方法,如图1所示,包括:
步骤S11:划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,哈希值子集有M个哈希值,M为大于或等于1的整数;
其中,得到第一目标哈希值集的过程包括:获取原始图像数据集,得到对应的原始图像;计算原始图像的哈希值,并根据计算得到的哈希值剔除重复的哈希值,得到第一目标哈希值集。
需要进行说明的是,划分预先得到的第一目标哈希值集是无重复的划分,例如,当上述第一目标哈希值集为{A,B,C,D,E}时,可以进行的划分是{A,B},{C},{D,E}。可以理解的是,上述划分第一目标哈希值集可以根据第一目标哈希值集的数目进行平均划分;当然也可以是非平均划分,例如根据用户的需要进行非平均划分。
步骤S12:分别从任一哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于M的正整数;
需要进行说明的是,分别从任一哈希值子集中抽取N个哈希值,生成第一目标哈希值子集,可以是采用随机抽取的方式,当然也可以是根据用户的需要进行有目的的抽取。
步骤S13:计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用第二目标哈希值集,在原始图像中获取对应的图像,以构建目标图像数据集。
可见,本发明实施例提供的图像数据集构建方法,通过计算原始图像的哈希值,剔除重复的哈希值,得到第一目标哈希值子集,然后通过分组的方法抽取每组哈希值子集中的哈希值,得到第一目标哈希值子集,最后计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,从而构建差异化的图像数据集,而有差异化的图像数据集才是对问题更全面的描述,更有利于训练性能良好的机器学习模型。
本发明实施例还提供了另外一种图像数据集构建方法,如图2所示,包括:
步骤S21:划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,哈希值子集有M个哈希值,M为大于或等于1的整数;
其中,得到第一目标哈希值集的过程包括:获取原始图像数据集,得到对应的原始图像;计算原始图像的哈希值,并根据计算得到的哈希值剔除重复的哈希值,得到第一目标哈希值集。
需要进一步说明的是,上述得到第一目标哈希值集的过程具体可以是:
(a1)原始图像数据集D′I包含N′张图像,可表示为D′I=(I′1,I′2,…,I′N′)。利用基于图像内容的哈希(Hash)算法,计算每张图像的哈希值,将每张图片表示为一个与图片内容相关的字符串,得到原始图像数据集D′I对应的哈希值集D′H=(H′1,H′2,…,H′N′),其中H′i=Hash(I′i)表示图像Ii的哈希值;
(b1)从哈希值集D′H=(H′1,H′2,…,H′N′)中抽取无重复哈希值的元素,得到新的哈希值集DH={H1,H2,…,HN},其中N≤N′;
(c1)根据新的哈希值集DH,从图像数据集D′I中抽取对应的图像,得到新的图像数据集DI={I1,I2,…,IN},DH=Hash(DI)。
此外,划分预先得到的第一目标哈希值集,得到对应的哈希值子集的过程可以是下述的方法:
(a2)对哈希值集DH中的N个元素排序,得到有序的哈希值集
其中
(b2)计算每个子集最少可包含元素的个数其中表示下取整;
(c3)依次将分割为包含不少于N′s个元素的M个哈希值子集,
步骤S22:分别从任一哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于M的正整数;
需要进行说明的是,分别从任一哈希值子集中抽取N个哈希值,生成第一目标哈希值子集,可以是采用随机抽取的方式,当然也可以是根据用户的需要进行有目的的抽取。
具体的,上述步骤S22的过程可以是:从D′Hi中随机抽取Ns(1≤Ns≤Ns′)个元素生成哈希值子集DHi
步骤S23:从第一目标哈希值子集中任选一个哈希值,并移动选中的哈希值至第二目标哈希值子集;
计算第一目标哈希值子集中剩余哈希值中任选第二个哈希值与选中的哈希值之间的距离;
判断第二个哈希值与选中的哈希值是否大于预设阈值距离,若是,则移动第二个哈希值至第二目标哈希值子集。
步骤S24:计算第一目标哈希值子集中剩余哈希值中任选的第b个哈希值与第二目标哈希值子集中所有哈希值之间的距离;其中,b为大于1的整数;
判断第b个哈希值与第二目标哈希值子集中所有哈希值之间的距离是否都大于预设阈值距离,若是,则移动第b个哈希值至第二目标哈希值子集。
需要进行说明的是,上述步骤S23和步骤S24的过程具体可以是:
(a4)初始时为空给定约束哈希值子集相似性的距离阈值为Δthth≥0)。
(b4)从DHi中随机移动一个哈希值
(c4)若DHi非空从DHi中抽取一个哈希值并从DHi中移除
(d4)从中抽取一个哈希值
(e4)依次将哈希值分割为长度相等的MH(1≤MH≤NH)段,每段包含CH(NH≥CH≥1)个字符,NH=MH×CH的第i(1≤i≤MH)段分别记为 可表示为 可表示为
(f4)将转换为二进制串每个二进制串包含4CH个二进制位。
(g4)用表示提取二进制串的第p至第q位(p≤q),计算右移和左移k-1(1≤k≤4CH)位后的距离:
其中,表示二进制的异或运算,O1表示统计二进制中1的个数。
(h4)计算在位移参数k作用下的距离,
(i4)构建位移参数集合K,满足
(j4)计算两个哈希值之间的距离:
其中,为任意两个哈希值之间的距离;为提取二进制串的第p至第q位,且p≤q;“i”表示将划分为MH段后的任一段;为将划分为MH段后的第i段的哈希值;为将划分为MH段后的第i段的哈希值;
CH平均分成MH段,每段包含的字符数目;NH=MH×CH转换成的二进制串,转换成的二进制串;每个含有4CH位二进制数;
右移k-1位后的距离,左移k-1位后的距离,表示二进制的异或运算,O1表示统计二进制中1的个数,k为位移参数,且 右移k-1位后的距离和左移k-1位后的距离的最小值。
(k4)按照(d4)-(j4)的方法,计算中每个哈希值与之间的距离,若所有距离均大于或等于Δth,将加入
(l4)按照(c4)-(k4)将从DHi移至直至DHi为空
步骤S25:计算所有第二目标哈希值子集的并集,得到第四目标哈希值集;并利用第四目标哈希值集,在原始图像中获取对应的图像,以构建目标图像数据集。
具体的,步骤S25的过程可以是:
(a5)计算哈希值子集的并集,得到新的哈希值集
(b5)从图像集DI中提取哈希值属于哈希值集的图像,构建新的图像集就是所需的差异化图像数据集,
相应的,本发明实施例还公开了一种图像数据集构建系统,如图3所示,包括:
哈希值子集获取模块11,用于划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,哈希值子集有M个哈希值,M为大于或等于1的整数;
目标哈希值子集获取模块12,用于分别从任一哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于N的正整数;
图像数据集构建模块13,用于计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用第二目标哈希值集,在原始图像中获取对应的图像,以构建目标图像数据集。
为了满足用户多样化的需求,上述目标哈希值子集获取模块之后还包括:
哈希值选取单元,用于从第一目标哈希值子集中任选一个哈希值,并移动选中的哈希值至第二目标哈希值子集;
第一距离计算单元,用于计算第一目标哈希值子集中剩余哈希值中任选第二个哈希值与选中的哈希值之间的距离;
第一距离判断单元,用于判断第二个哈希值与选中的哈希值是否大于预设阈值距离,若是,则移动第二个哈希值至第二目标哈希值子集;
第二距离计算单元,用于计算第一目标哈希值子集中剩余哈希值中任选的第b个哈希值与第二目标哈希值子集中所有哈希值之间的距离;其中,b为大于1的整数;
第二距离判断单元,用于判断第b个哈希值与第二目标哈希值子集中所有哈希值之间的距离是否都大于预设阈值距离,若是,则移动第b个哈希值至第二目标哈希值子集。
与上述各单元相适应的图像数据集构建模块13具体用于:
计算所有第二目标哈希值子集的并集,得到第四目标哈希值集,并利用第四目标哈希值集,在原始图像中获取对应的图像,以构建目标图像数据集。
可见,本发明实施例提供的图像数据集构建系统,通过计算原始图像的哈希值,剔除重复的哈希值,得到第一目标哈希值子集,然后通过分组的方法抽取每组哈希值子集中的哈希值,得到第一目标哈希值子集,最后计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,从而构建差异化的图像数据集,而有差异化的图像数据集才是对问题更全面的描述,更有利于训练性能良好的机器学习模型。
本发明实施例还公开了一种计算机可读存储介质,计算机可读存储介质上存储有图像数据集构建程序,所述图像数据集构建程序被处理器执行时实现如上述的图像数据集构建方法的步骤。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种图像数据集构建方法、系统及计算机可读存储设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种图像数据集构建方法,其特征在于,包括:
划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,所述哈希值子集有M个哈希值,M为大于或等于1的整数;
分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于M的正整数;
计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集;
其中,得到所述第一目标哈希值集的过程包括:获取原始图像数据集,得到对应的原始图像;计算所述原始图像的哈希值,并根据计算得到的哈希值剔除重复的哈希值,得到所述第一目标哈希值集。
2.根据权利要求1所述的图像数据集构建方法,其特征在于,所述划分预先得到的第一目标哈希值集,得到对应的哈希值子集的过程包括:
从所述第一目标哈希值集中抽取a个哈希值,得到第三目标哈希值集;其中,a为大于或等于1的整数;
划分所述第三目标哈希值集,得到对应的哈希值子集。
3.根据权利要求1至2任一项所述的图像数据集构建方法,其特征在于,所述分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集的过程之后还包括:
从所述第一目标哈希值子集中任选一个哈希值,并移动选中的哈希值至第二目标哈希值子集;
计算所述第一目标哈希值子集中剩余哈希值中任选第二个哈希值与所述选中的哈希值之间的距离;
判断所述第二个哈希值与所述选中的哈希值是否大于预设阈值距离,若是,则移动所述第二个哈希值至所述第二目标哈希值子集;
计算所述第一目标哈希值子集中剩余哈希值中任选的第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离;其中,b为大于1的整数;
判断第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离是否都大于预设阈值距离,若是,则移动所述第b个哈希值至所述第二目标哈希值子集。
4.根据权利要求3所述的图像数据集构建方法,其特征在于,所述计算距离的公式为:
<mrow> <mi>&amp;lambda;</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>H</mi> <mo>~</mo> </mover> <mi>m</mi> </msub> <mo>,</mo> <msub> <mover> <mi>H</mi> <mo>~</mo> </mover> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>M</mi> <mi>H</mi> </msub> </munderover> <mrow> <mo>(</mo> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <mi>k</mi> <mo>&amp;Element;</mo> <mi>K</mi> </mrow> </munder> <msubsup> <mi>&amp;delta;</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> <mrow> <mi>B</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>;</mo> </mrow>
式中,
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msubsup> <mi>&amp;delta;</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> <mrow> <mi>R</mi> <mi>B</mi> <mrow> <mo>(</mo> <mrow> <mi>m</mi> <mo>,</mo> <mi>n</mi> </mrow> <mo>)</mo> </mrow> </mrow> </msubsup> <mo>=</mo> <msub> <mi>O</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mrow> <msubsup> <mover> <mi>H</mi> <mo>~</mo> </mover> <mrow> <mi>m</mi> <mo>,</mo> <mi>i</mi> </mrow> <mi>B</mi> </msubsup> <mrow> <mo>(</mo> <mrow> <mi>k</mi> <mo>,</mo> <mn>4</mn> <msub> <mi>C</mi> <mi>H</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>&amp;CirclePlus;</mo> <msubsup> <mover> <mi>H</mi> <mo>~</mo> </mover> <mrow> <mi>n</mi> <mo>,</mo> <mi>i</mi> </mrow> <mi>B</mi> </msubsup> <mrow> <mo>(</mo> <mrow> <mn>1</mn> <mo>,</mo> <mn>4</mn> <msub> <mi>C</mi> <mi>H</mi> </msub> <mo>-</mo> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msubsup> <mi>&amp;delta;</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> <mrow> <mi>L</mi> <mi>B</mi> <mrow> <mo>(</mo> <mrow> <mi>m</mi> <mo>,</mo> <mi>n</mi> </mrow> <mo>)</mo> </mrow> </mrow> </msubsup> <mo>=</mo> <msub> <mi>O</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mrow> <msubsup> <mover> <mi>H</mi> <mo>~</mo> </mover> <mrow> <mi>m</mi> <mo>,</mo> <mi>i</mi> </mrow> <mi>B</mi> </msubsup> <mrow> <mo>(</mo> <mrow> <mn>1</mn> <mo>,</mo> <mn>4</mn> <msub> <mi>C</mi> <mi>H</mi> </msub> <mo>-</mo> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> <mo>)</mo> </mrow> <mo>&amp;CirclePlus;</mo> <msubsup> <mover> <mi>H</mi> <mo>~</mo> </mover> <mrow> <mi>n</mi> <mo>,</mo> <mi>i</mi> </mrow> <mi>B</mi> </msubsup> <mrow> <mo>(</mo> <mrow> <mi>k</mi> <mo>,</mo> <mn>4</mn> <msub> <mi>C</mi> <mi>H</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>;</mo> </mrow>
其中,为任意两个哈希值之间的距离;为提取二进制串的第p至第q位,且p≤q;i表示将划分为MH段后的任一段;为将划分为MH段后的第i段的哈希值;为将划分为MH段后的第i段的哈希值;
CH平均分成MH段,每段包含的字符数目;NH=MH×CH转换成的二进制串,转换成的二进制串;每个含有4CH位二进制数;
右移k-1位后的距离,左移k-1位后的距离,表示二进制的异或运算,O1表示统计二进制中1的个数,k为位移参数,且 右移k-1位后的距离和左移k-1位后的距离的最小值。
5.根据权利要求3所述的图像数据集构建方法,其特征在于,所述计算所有第一目标哈希值子集的并集,得到第二目标哈希值集;并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集的过程包括:
计算所有第二目标哈希值子集的并集,得到第四目标哈希值集;并利用所述第四目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集。
6.一种图像数据集构建系统,其特征在于,包括:
哈希值子集获取模块,用于划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,所述哈希值子集有M个哈希值,M为大于或等于1的整数;
目标哈希值子集获取模块,用于分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于N的正整数;
图像数据集构建模块,用于计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集。
7.根据权利要求6所述的图像数据集构建系统,其特征在于,所述目标哈希值子集获取模块之后还包括:
哈希值选取单元,用于从所述第一目标哈希值子集中任选一个哈希值,并移动选中的哈希值至第二目标哈希值子集;
第一距离计算单元,用于计算所述第一目标哈希值子集中剩余哈希值中任选第二个哈希值与所述选中的哈希值之间的距离;
第一距离判断单元,用于判断所述第二个哈希值与所述选中的哈希值是否大于预设阈值距离,若是,则移动所述第二个哈希值至所述第二目标哈希值子集;
第二距离计算单元,用于计算所述第一目标哈希值子集中剩余哈希值中任选的第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离;其中,b为大于1的整数;
第二距离判断单元,用于判断第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离是否都大于预设阈值距离,若是,则移动所述第b个哈希值至所述第二目标哈希值子集。
8.根据权利要求7所述的图像数据集构建系统,其特征在于,
所述图像数据集构建模块,用于计算所有第二目标哈希值子集的并集,得到第四目标哈希值集,并利用所述第四目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有图像数据集构建程序,所述图像数据集构建程序被处理器执行时实现如权利要求1至5任一项所述的图像数据集构建方法的步骤。
CN201711078506.4A 2017-11-06 2017-11-06 一种图像数据集构建方法、系统及计算机可读存储设备 Active CN107798389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711078506.4A CN107798389B (zh) 2017-11-06 2017-11-06 一种图像数据集构建方法、系统及计算机可读存储设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711078506.4A CN107798389B (zh) 2017-11-06 2017-11-06 一种图像数据集构建方法、系统及计算机可读存储设备

Publications (2)

Publication Number Publication Date
CN107798389A true CN107798389A (zh) 2018-03-13
CN107798389B CN107798389B (zh) 2021-05-14

Family

ID=61549024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711078506.4A Active CN107798389B (zh) 2017-11-06 2017-11-06 一种图像数据集构建方法、系统及计算机可读存储设备

Country Status (1)

Country Link
CN (1) CN107798389B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490250A (zh) * 2019-08-19 2019-11-22 广州虎牙科技有限公司 一种人工智能训练集的获取方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6760698A (en) * 1997-03-31 1998-10-22 Intel Corporation A peripheral device preventing post-scan modification
US6557102B1 (en) * 1997-09-05 2003-04-29 Koninklijke Philips Electronics N.V. Digital trust center for medical image authentication
CN101084499A (zh) * 2004-09-15 2007-12-05 迪利根特技术公司 用于搜索和存储数据的系统和方法
CN103902595A (zh) * 2012-12-27 2014-07-02 北京新媒传信科技有限公司 一种构建数据库的方法和装置
CN105930391A (zh) * 2016-04-14 2016-09-07 京东方科技集团股份有限公司 超解像系统中图像样本数据库的更新方法及图像服务器
CN106294573A (zh) * 2016-07-28 2017-01-04 Tcl集团股份有限公司 一种海量数据实时查询方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6760698A (en) * 1997-03-31 1998-10-22 Intel Corporation A peripheral device preventing post-scan modification
US6557102B1 (en) * 1997-09-05 2003-04-29 Koninklijke Philips Electronics N.V. Digital trust center for medical image authentication
CN101084499A (zh) * 2004-09-15 2007-12-05 迪利根特技术公司 用于搜索和存储数据的系统和方法
CN103902595A (zh) * 2012-12-27 2014-07-02 北京新媒传信科技有限公司 一种构建数据库的方法和装置
CN105930391A (zh) * 2016-04-14 2016-09-07 京东方科技集团股份有限公司 超解像系统中图像样本数据库的更新方法及图像服务器
CN106294573A (zh) * 2016-07-28 2017-01-04 Tcl集团股份有限公司 一种海量数据实时查询方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ONDREJ CHUM ET AL.: "Fast computation of min-hash signatures for image collections", 《2012 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
汪国安等: "空间局部重合图像的快速聚类", 《河南省教育学院学报(自然科学版)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490250A (zh) * 2019-08-19 2019-11-22 广州虎牙科技有限公司 一种人工智能训练集的获取方法及装置

Also Published As

Publication number Publication date
CN107798389B (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN105912533B (zh) 面向神经机器翻译的长句切分方法及装置
CN103116893B (zh) 基于多示例多标记学习的数字图像标注方法
CN109682392A (zh) 基于深度强化学习的视觉导航方法及系统
Gao et al. Graph planarization problem optimization based on triple‐valued gravitational search algorithm
CN106780512A (zh) 分割图像的方法、应用及计算设备
CN108038821A (zh) 一种基于生成式对抗网络的图像风格迁移方法
CN105160678A (zh) 基于卷积神经网络的无参考立体图像质量评估方法
CN104318575B (zh) 一种基于综合学习差分演化算法的多阈值图像分割方法
CN103745498A (zh) 一种基于图像的快速定位方法
CN105354330A (zh) 一种基于稀疏数据预处理的协同过滤推荐方法
CN104268629B (zh) 一种基于先验信息和网络固有信息的复杂网络社区检测方法
CN104866903B (zh) 基于遗传算法的最美路径导航算法
CN105631037A (zh) 一种图像检索方法
CN108564166A (zh) 基于带对称跨层连接的卷积神经网络半监督特征学习方法
CN107423689A (zh) 智能交互式人脸关键点标注方法
CN115100238A (zh) 基于知识蒸馏的轻量化单目标跟踪器训练方法
CN107798389A (zh) 一种图像数据集构建方法、系统及计算机可读存储设备
CN109960755A (zh) 一种基于动态迭代快速梯度的用户隐私保护方法
CN108882152A (zh) 一种基于路径选择上报的用户隐私保护方法
CN110334751A (zh) 用于捆扎节点的图像处理方法及装置、终端
CN107995278A (zh) 一种基于城域级物联网感知数据的场景智能分析系统与方法
CN107301618A (zh) 基于gpu并行加速的基础矩阵和单应矩阵估计方法和系统
CN103413328B (zh) 运动物体的跟踪方法和装置
CN104462055B (zh) 一种名称相似度获取方法及装置
CN105243091A (zh) 基于超链分析的页面语义信息提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant