CN107958272A - 图片数据集更新方法、装置、系统及计算机存储介质 - Google Patents

图片数据集更新方法、装置、系统及计算机存储介质 Download PDF

Info

Publication number
CN107958272A
CN107958272A CN201711325798.7A CN201711325798A CN107958272A CN 107958272 A CN107958272 A CN 107958272A CN 201711325798 A CN201711325798 A CN 201711325798A CN 107958272 A CN107958272 A CN 107958272A
Authority
CN
China
Prior art keywords
picture
classification
image data
updated
data collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711325798.7A
Other languages
English (en)
Other versions
CN107958272B (zh
Inventor
李明昊
张祥雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Beijing Maigewei Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Beijing Maigewei Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd, Beijing Maigewei Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN201711325798.7A priority Critical patent/CN107958272B/zh
Publication of CN107958272A publication Critical patent/CN107958272A/zh
Application granted granted Critical
Publication of CN107958272B publication Critical patent/CN107958272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种图片数据集更新方法、装置、系统及计算机存储介质,涉及图像分类的技术领域,该方法包括:响应用户输入的图片数据集的更新指示,获取与更新指示对应的待更新的图片数据集;根据更新指示对待更新的图片数据集进行更新;其中,更新指示包括:增加待更新的图片数据集中现有图片类别的图片数量;和/或,增加待更新的图片数据集的图片类别。本发明所述的图片数据集更新方法、装置、系统及计算机存储介质,在更新的过程中不仅能增加待更新的图片数据集中现有图片类别的图片数量,也可以增加待更新的图片数据集的图片类别,便于对数据集进行扩充,进而提高图片数据集的质量。

Description

图片数据集更新方法、装置、系统及计算机存储介质
技术领域
本发明涉及图像分类的技术领域,尤其是涉及一种图片数据集更新方法、装置、系统及计算机存储介质。
背景技术
通常,图片分类数据集的作用在于训练出更好的图片分类器,然而不同的图片对于图片分类器性能有不同的提升效果。现有的图片分类器大部分都是基于神经网络模型的。神经网络分类器分类能力的强弱在很大程度上依赖数据集的质量,而数据集的质量和数据集中含有的图片数量有很大关系,因此,通常采用向数据集中添加图片的方式来提高数据集的质量。
现有技术中在搜索符合类别的图片时,大多仅基于现有的图片类别进行扩充,缺乏对图片类别之间的逻辑联系的刻画,从而难以增加数据集中的图片类别,同时也缺乏合理的图片类别增加方法,不利于提升整个数据集的质量。
发明内容
有鉴于此,本发明的目的在于提供一种图片数据集更新方法、装置、系统及计算机存储介质,以提高数据集的质量。
第一方面,本发明实施例提供了一种图片数据集更新方法,包括:响应用户输入的图片数据集的更新指示,获取与更新指示一致的待更新的图片数据集;根据更新指示对待更新的图片数据集进行更新;其中,更新指示包括:增加待更新的图片数据集中现有图片类别的图片数量;和/或,增加待更新的图片数据集的图片类别;
在本发明较佳的实施例中,上述当更新指示为增加待更新的图片数据集中现有图片类别的图片数量时,根据更新指示对待更新的图片数据集进行更新的步骤,包括:获取待增加图片数量的图片类别,将图片类别标记为选定图片类别;选取选定图片类别的搜索词;搜索与搜索词匹配的图片,直至搜索到的图片的数量达到预先设定的数量值;对搜索到的图片进行筛选,将筛选合格的图片加入到选定图片类别,以对待更新的数据集进行更新。
在本发明较佳的实施例中,上述获取待增加图片数量的图片类别的步骤,包括:接收用户指定的类别,将指定的类别作为待增加图片数量的图片类别;或者,根据预先设定的选择标准自动获取待增加图片数量的图片类别,其中,选择标准包括以下标准之一:选择待更新的数据集中包含图片数量少于其他所有类别的图片类别;选择当前图片分类器的错误率高于其他所有类别的图片类别;选择当前图片分类器的错误率低于其他所有类别的图片类别。
在本发明较佳的实施例中,上述选取选定图片类别的搜索词的步骤,包括:当选定图片类别对应的图片数量为零时,将选定图片类别的名称,以及名称的同义词作为搜索词;当选定图片类别对应的图片数量不为零时,从预先存储的词典中查询描述选定图片类别的文本,对文本进行分词操作,去除分词操作结果中包含的停用词后,在分词操作结果中随机选取搜索词。
在本发明较佳的实施例中,上述对搜索到的图片进行筛选的步骤,包括:将搜索到的图片输入至预先训练好的图片分类器,计算搜索到的图片属于选定图片类别的概率;判断每个图片的概率是否满足预先设置的概率范围;如果是,将图片标记为筛选合格的图片。
在本发明较佳的实施例中,上述计算搜索到的图片属于选定图片类别的概率之后,上述方法还包括:统计上述概率满足预先设置的概率范围的图片数量,上述概率高于第一概率阈值的图片数量,以及上述概率低于第二概率阈值的图片数量;其中,第二概率阈值低于第一概率阈值,概率范围为高于第二概率阈值且低于第一概率阈值的范围。
在本发明较佳的实施例中,当上述更新指示为增加待更新的图片数据集的图片类别时,根据更新指示对待更新的图片数据集进行更新的步骤,包括:获取用户输入的待添加的图片类别,以及待更新的图片数据集的类别从属关系;根据类别从属关系确定待添加的图片类别在类别从属关系中的位置;将待添加的图片类别添加到所述位置,以对待更新的图片数据集进行更新。
在本发明较佳的实施例中,上述方法还包括:将待添加的图片类别添加到位置之后,将添加的图片类别标记为待增加图片数量的图片类别;接收更新指示,根据更新指示向标记后的待增加图片数量的图片类别中添加图片。
在本发明较佳的实施例中,上述方法还包括:根据待增加图片数量的从属关系寻找待添加的图片类别的兄弟节点,当寻找到兄弟节点后,计算添加的图片属于兄弟节点的概率;判断属于兄弟节点的概率是否超过第三概率阈值;如果是,删除图片;如果否,将图片加入到新添加图片类别中。
在本发明较佳的实施例中,上述方法还包括:利用更新的图片数据集对图片分类器进行训练,其中,图片分类器为基于ResNeXt结构神经网络模型的图片分类器。
第二方面,本发明实施例还提供了一种图片数据集更新装置,包括:获取模块,用于响应用户输入的图片数据集的更新指示,获取与更新指示对应的待更新的图片数据集;更新模块,用于根据更新指示对待更新的图片数据集进行更新;其中,上述更新指示包括:增加待更新的图片数据集中现有图片类别的图片数量;和/或,增加待更新的图片数据集的图片类别。
第三方面,本发明实施例还提供了一种图片数据集更新系统,包括存储器以及处理器,存储器用于存储支持处理器执行上述第一方面所述方法的程序,处理器被配置为用于执行存储器中存储的程序。
第四方面,本发明实施例提供了一种计算机存储介质,用于储存上述第一方面所述方法的计算机软件指令。
本发明实施例带来了以下有益效果:
本发明实施例提供的图片数据集更新方法、装置、系统及计算机存储介质,能够响应用户输入的图片数据集的更新指示,并获取与更新指示对应的待更新的图片数据集,根据更新指示对待更新的图片数据集进行更新,在更新的过程中不仅能增加待更新的图片数据集中现有图片类别的图片数量,也可以增加待更新的图片数据集的图片类别,进而对图片数据集中的图片数量进行合理的添加,不仅便于对图片数据集进行扩充,也有助于提高图片数据集的质量。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种图片数据集更新方法的流程图;
图2为本发明实施例提供的另一种图片数据集更新方法的流程图;
图3为本发明实施例提供的另一种图片数据集更新方法的流程图;
图4为本发明实施例提供的一种图片数据集更新装置的结构示意图;
图5为本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,所使用的图片分类器大部分都是基于神经网络模型的。神经网络模型初始时并不具备图片分类器的分类能力,需要用数据集对神经网络模型进行训练,训练好以后的神经网络模型才是具有图像分类功能的分类器。而训练得到的图片分类器的分类能力的强弱很大程度依赖训练时使用的图片数据集的质量,图片数据集的质量又和图片数据集的质量中含有的图片数量关系很大。因此,通常采用向图片数据集中添加图片的方式来提高数据集的质量。
为了训练出更好的图片分类器,通常将符合搜索类别的图片全部送给人工审查,这种方式会给数据集中添加大量的对图片分类器几乎没有提升的无用数据,不仅消耗了大量的人力用以审查无用数据,而且降低了整个数据集的质量;同时,在搜索过程中,通常以图片类别作为关键词来搜索图片,相当于对搜索得到的图片分布添加了一个人为的先验知识,会造成和现实生活中的图片的概率分布差距很大,从而影响了图片分类器的泛化性能。
基于此,本发明实施例提供了一种图片数据集更新方法、装置、系统及计算机存储介质,可以有效增加图片数据集的图片数量,进而提升图片数据集的质量。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种图片数据集更新方法进行详细介绍。
本发明实施例提供了一种图片数据集更新方法,如图1所示的一种图片数据集更新方法的流程图,包括以下步骤:
步骤S102,响应用户输入的图片数据集的更新指示,获取与更新指示对应的待更新的图片数据集。
步骤S104,根据更新指示对待更新的图片数据集进行更新。
其中,上述更新指示包括:增加待更新的图片数据集中现有图片类别的图片数量,和/或,增加待更新的图片数据集的图片类别。
具体实现时,基于上述更新指示的类型,在对图片数据集进行更新时,可以仅增加待更新的图片数据集中现有图片类别的图片数量;也可以先增加待更新的图片数据集的图片类别,当增加完图片类别后,继续增加新增图片类别中包含的图片数量;或者,还可以通过多个进程实现同时增加现有图片类别的图片数量,以及增加待更新的图片数据集的图片类别,和新增图片类别包含的图片数量等等,具体以实际使用情况为准,本发明实施例对此不进行限制。
本发明实施例提供的图片数据集更新方法,能够响应用户输入的图片数据集的更新指示,并获取与更新指示对应的待更新的图片数据集,根据更新指示对待更新的图片数据集进行更新,在更新的过程中不仅能增加待更新的图片数据集中现有图片类别的图片数量,也可以增加待更新的图片数据集的图片类别,进而对图片数据集中的图片数量进行合理的增加,不仅便于对图片数据集进行扩充,也有助于提高图片数据集的质量。
基于图1所示的方法,本发明实施例提供了另一种图片数据集更新方法的流程图,该方法以上述更新指示为增加待更新的图片数据集中现有图片类别的图片数量为例,对待更新的图片数据集进行更新的步骤进行说,如图2所示的另一种图片数据集更新方法的流程图,该方法可以在服务器上执行,包括以下步骤:
步骤S202,当接收到用户输入的图片数据集的更新指示时,获取与更新指示对应的待更新的图片数据集。
其中,该更新指示为增加待更新的图片数据集中现有图片类别的图片数量。
通常,由于图片数据集是用来对神经网络模型进行训练的,因此,服务器中存储的数据集可以有多个,如,动、植物,生活用品、自然环境等等,因此,在对某个图片数据集进行更新时,用户输入更新指示时,可以携带某个图片数据集的标识,以便于查找与更新指示一致的图片数据集进行更新,或者,直接指定某个数据集进行更新等。
步骤S204,获取待更新的图片数据集中,待增加图片数量的图片类别,将图片类别标记为选定图片类别。
在该步骤中,获取待增加图片数量的图片类别的方式,可以包括:(1)接收用户指定的类别,将指定的类别作为待增加图片数量的图片类别;(2)根据预先设定的选择标准自动获取待增加图片数量的图片类别。
例如,当用户根据实际使用情况判断出当前某个图片类别需要更新时,可以直接指定该类别,将指定的类别作为待更新的数据集的图片类别。
当上述图片类别由程序自动选择时,可以根据预先设定的选择标准自动获取待更新的数据集的图片类别,其中,上述选择标准包括以下标准之一:(1)选择待更新的数据集中包含图片数量少于其他所有类别的图片类别;(2)选择当前图片分类器的错误率高于其他所有类别的图片类别;(3)选择当前图片分类器的错误率低于其他所有类别的图片类别。
以上述图片数据集为动物数据集为例对上述选择标准进行说明,其图片类别可以是“猫、狗、蛇”等动物类别,当用户输入上述选择标准(1)时,可以选择出当前图片数量最少的图片类别,比如,现在有一个动物数据集,其中图片类别只包含猫、狗、蛇三种,猫类别和狗类别各有10万张图,蛇类别只有1万张图。这时可以蛇类别即为“当前图片数量最少的图片类别”,可以考虑选择它作为增加图片数量的类别,避免因为数据集类别之间图片数量差距过大,影响训练出的图片分类器的分类能力。
当用户输入上述选择标准(2)时,可以选择出当前图片分类器错误率最高的图片类别,继续以上述动物数据集为例,比如,蛇类别1万张图中,分类错误9千张,那么错误率为90%。选择错误率最高的类别的原因在于,错误率高的原因可能是图片数量不够,图片之间方差过大导致图片分类器难以学习等等,增加该类别的图片数量和质量,可以提升训练出的图片分类器的分类能力。
当用户输入上述选择标准(3)时,可以选择出当前图片分类器错误率最低的图片类别,继续以上述动物数据集为例,错误率低的原因可能是该类图片方差太小过于相似,就会导致虽然在该数据集上错误率较低,但是训练图片分类器是为了对数据集以外的图片进行分类,所以重点不是对于已知数据的分类能力强,而是对于未知数据的分类能力强,因此,可以增加该类别的图片数量,提升训练出的图片分类器的泛化能力。
步骤S206,选取选定图片类别的搜索词。
具体选取搜索词的过程,可以包括两种情况:(1)当选定图片类别对应的图片数量为零,即第一次向该类别添加图片时,将选定图片类别的名称,以及该名称的同义词作为搜索词;(2)当选定图片类别对应的图片数量不为零时,从预先存储的词典中查询描述选定图片类别的文本,对文本进行分词操作,去除分词操作结果中包含的停用词后,在分词操作结果中随机选取搜索词。
具体地,上述对文本进行分词操作的过程,可以采用2-gram算法进行,这样选择的搜索词虽然不能保证搜到的图片和图片类别名强相关,但是可以通过后续图片筛选的过程筛除不相关的图片,极大地减轻人为先验带来的影响,使得数据集中的图片分布更贴近真实世界的图片分布,从而使训练得到的图片分类器拥有更好的泛化能力。
步骤S208,搜索与搜索词匹配的图片,直至搜索到的图片的数量达到预先设定的数量值。
其中,该步骤的搜索过程可以通过爬虫程序实现,例如,将选取的搜索词输入给爬虫程序,爬虫程序从互联网上爬取大量图片并进行保存,其中,本发明实施例中在保存图片时,会同时保存图片的链接,以判断是否有重复的图片。如果该图片类别的图片数量为0,即第一次向该类别添加图片时,则会不断搜索图片直至加入到图片类别的图片与其它图片类别的最少图片数量相同为止;否则,则会一次爬取指定数量,如一万张图片,因此,上述预先设定的数量值可以根据其它图片类别的图片数量确定,或者,由用户输入指定数量,如一万张,具体以实际使用情况为准,本发明实施例对此不进行限制。
步骤S210,将搜索到的图片输入至预先训练好的图片分类器,计算搜索到的图片属于选定图片类别的概率。
通常,该计算过程可以通过基于ResNeXt结构神经网络模型的图片分类器实现,ResNeXt是一个用于图像分类的简单、高度模块化的网络结构,基于该结构的神经网络模型能够对图片进行分类,以及给出每张图片属于相应分类的概率,即该图片属于这个图片类别的概率有多大。具体计算过程可以参考现有技术中的相关资料,本发明实施例对此不进行限制。
可选地,上述计算搜索到的图片属于选定图片类别的概率之后,上述方法还包括:统计上述概率满足概率范围的图片数量,上述概率高于第一概率阈值的图片数量,以及上述概率低于第二概率阈值的图片数量;其中,第二概率阈值低于第一概率阈值,概率范围为高于第二概率阈值且低于第一概率阈值的范围。
具体地,设置上述两个概率阈值的原因,是因为概率太高的图片往往与图片数据集中该选定图片类别的图片相似度较高,而本发明实施例提供的方法扩充图片数据集的目标是要加强图片数据集的丰富性和提升训练模型性能,所以需要图片分类器给出概率不太高的图片;进一步,概率太低的图片往往并不属于图片分类器判断的选定图片类别,这样的图片过多会极大地增加审查的工作量,所以需要筛除。
具体实现时,上述第一概率阈值和第二概率阈值的设定,可以直接设定为固定值。或者,由用户(工作人员)在图片数据集扩充更新过程中进行调控。本发明实施例提供的方法,在每一轮更新完成后,都会给出高概率图片数量,低概率图片数量,以及满足预先设置的概率范围的图片数量,以辅助工作人员判断当前概率阈值是否合理。
步骤S212,判断每个图片的概率是否满足预先设置的概率范围;如果是,执行步骤S214;如果否,执行步骤S216。
可选地,上述步骤S212的判断过程,可以是基于人工审查的半自动化过程,具体实现时,在判断出每个图片的概率满足预先设置的概率范围之后,还可以通过人工审查的方式审查满足上述概率范围的图片是否属于选定图片类别;例如,当上述筛选出符合概率范围的图片后,可以将上述图片,以及上述选定图片类别展示给负责审查的工作人员,并接收工作人员输入的审查结果命令,工作人员只需要判断分类器每张图片是否属于上述选定图片类别即可,而不必判断这张图片属于什么类别,极大地减小了人工审查的工作量。
步骤S214,将图片标记为筛选合格的图片。
步骤S216,删除该图片。
步骤S218,将筛选合格的图片加入到选定图片类别,以对待更新的数据集进行更新。
以上述待更新的数据集为动物数据集为例进行说明,图片类别包括猫、狗、蛇等动物类别,以猫类别为选定图片类别,选择搜索词“猫”,并爬取一万张图片,将一万张图片输入至图片分类器,图片分类器分别给出这一万张图片中,每一张图片是猫类别的概率,然后根据概率范围筛选出6千张图片,送给人工审查,判断概率满足概率范围的图片是否属于猫类别,审查工作人员判断每一张图是否是猫,是或否,并输入是或否的标识符,如“Y”或者“N”,如果审查之后,剩余5千张,即概率满足概率范围的图片中属于猫类别的图片有5千张,则将该五千张图片加入到猫类别中,完成对上述动物数据集的更新过程。
通过上述方法可以不断迭代地更新数据集,并且可以并行地处理不同图片类别,以使得每次迭代可以增加多个图片类别的图片数据,从而成倍地增加图片数量的增长速度。
本发明实施例所述的图片数据集更新方法,通过获取待增加图片数量的图片类别,选取合适的搜索词来搜索与搜索词匹配的图片,对搜索到的图片进行筛选,将筛选合格的图片加入到选定图片类别,以对待更新的数据集进行更新。这种通过筛选的方式不仅能够自动删除大量冗余图片,避免给数据集中添加大量的无用数据,同时也减少了审查的工作量,提高了工作效率,也有助于提升整个数据集的质量。
上述对图片数据集的更新过程是基于现有的图片类别对图片数据集进行扩充的过程,而在实际使用过程中,还可以增加数据集的图片类别,进而对新增加的图片类别进行扩充,以实现图片数据集的更新过程,即上述更新指示为增加待更新的图片数据集的图片类别,因此,在另一种可能的实施例中,本发明提供了另一种图片数据集更新方法,如图3所示的另一种图片数据集更新方法的流程图,该方法在服务器上执行,包括以下步骤:
步骤S302,当接收到用户输入的图片数据集的更新指示时,获取与更新指示一致的待更新的图片数据集。
其中,该更新指示为增加待更新的图片数据集的图片类别。
步骤S304,获取用户输入的待添加的图片类别,以及待更新的图片数据集的类别从属关系。
其中,本发明实施例中所述待更新的图片数据集,参考WordNet结构,对图片数据集含有的图片类别根据类别从属关系建立逻辑关系,形成该图片类别的DAG(Directedacyclic graph,简称DAG)逻辑关系有向图。该DAG逻辑关系有向图上的边代表这两个类别之间有父子关系,即一个类别从逻辑上包含另一个。每次向图片数据集中添加图片类别时,都需要维护并修改图片类别的逻辑关系有向图。因此,需要确定指定的图片类别在类别从属关系中的位置。
步骤S306,根据类别从属关系确定待添加的图片类别在类别从属关系中的位置。
具体位置的确定过程可以通过以下步骤实现:将待添加的图片类别记为new_node,设定x为现有DAG逻辑关系有向图的根节点,通过下面的算法确定指待添加的图片类别的位置:
(a)如果x没有子节点,则进行步骤(d);
否则遍历x的子节点,若x的子节点中有至少一个节点在逻辑上是new_node的子节点,则记这些节点为集合y进行步骤(b);
若x的子节点y在逻辑上是new_node的父亲节点,则进行步骤(c);
否则进行步骤(d);
(b)将new_node设置为x的子节点,并将y中所有节点从x的子节点改为new_node的子节点;进行步骤(e);
(c)将x设置为y,进行步骤(a);
(d)将new_node设置为x的子节点,进行步骤(e);
(e)此时new_node已经有了父节点,但是在DAG逻辑关系有向图中,可能存在多个节点为new_node的父节点,可能还有别的节点应该成为new_node的子节点。所以,遍历整个DAG逻辑关系有向图,判断是否还有其他节点与new_node存在父子节点关系,直接添加DAG逻辑关系有向图的边即可,然后结束程序。
以上述图片数据集为动物数据集为例进行说明,假如,现有图片数据集中含有的类别是猫科动物,猫,波斯猫,他们的类别从属关系的DAG逻辑关系有向图为:猫科动物->猫,猫->波斯猫。假如我们要新加入的类别是豹,那么根据新的类别从属关系,DAG逻辑关系有向图的点为:猫科动物,猫,豹,波斯猫;DAG逻辑关系有向图的边:猫科动物->猫,猫科动物->豹,猫->波斯猫。
通过上述算法确定出待添加的图片类别在类别从属关系中的位置后,继续执行后面的步骤。
步骤S308,将待添加的图片类别添加到该位置。
步骤S310,将添加的图片类别标记为待增加图片数量的图片类别。
标记完成后,可以继续接收用户输入的更新指示,根据该更新指示,向标记后的待增加图片数量的图片类别中添加图片,以对新添加的图片类别进行扩充。
具体的扩充步骤如步骤S312~步骤S326所示。
步骤S312,接收更新指示,将待增加图片数量的图片类别设置为选定图片类别。
步骤S314~步骤S326的执行过程,与上述实施例中的步骤S206~步骤S218的过程一致,具体可以参考上述步骤的内容,本发明实施例对此不在赘述。
可选地,上述对新添加的图片类别进行扩充的步骤,还包括以下过程:(1)根据待增加图片数量的图片类别的从属关系寻找待添加的图片类别的兄弟节点,当寻找到兄弟节点后,计算添加的图片属于该兄弟节点的概率;(2)判断属于兄弟节点的概率是否超过第三概率阈值;如果是,删除该图片;如果否,将该图片加入到新添加的图片类别中。其中,上述概率的计算过程,也可以采用训练好的基于ResNeXt结构神经网络模型的图片分类器实现,该图片分类器对每一张新添加的图片,计算其属于兄弟节点的概率,进而判断该概率是否超过第三概率阈值;
其中,上述第三概率阈值,可以由工作人员根据实际的图片搜索情况进行设置,本发明实施例对此不进行限制。
以上述图片数据集为动物数据集为例进行说明,DAG逻辑关系有向图的点为:猫科动物,猫,豹,波斯猫;DAG逻辑关系有向图的边:猫科动物->猫,猫科动物->豹,猫->波斯猫,那么,猫和豹都是猫科动物的子节点,所以它们是兄弟节点。
以上述图片数据集中有两种猫为例进行说明,该两种猫分别为A猫和B猫,它们外形上很像,图片分类器和人都不易区分它们,现在图片数据集中的图片类别只有:猫科动物,猫,A猫三种,向其中添加新的图片类别B猫,比如,搜索了很多图片,图片分类器对某张图片分类,算出这张图片是A猫的可能性是0.45,B猫的可能性是0.46,那么这张图片可能是A猫也可能是B猫,这种说不清楚是哪类的图片不能放入数据集中,所以要筛掉。
进一步,上述方法还包括:利用更新的图片数据集对图片分类器进行训练,其中,该图片分类器为基于ResNeXt结构神经网络模型的图片分类器,以使该图片分类器具有更好的图像分类功能。
本发明实施例所述的图片数据集更新方法,通过向待更新的数据集增加图片类别,从而对新增加的图片类别进行扩充,以达到对图片数据集进行更新,同时,在更新过程中,还充分考虑新增的图片类别与待更新的数据集的类别从属关系,确定新增的图片类别在类别从属关系中的位置,以及判断新增图片属于该图片类别的兄弟节点的概率,使得图片数据集的更新过程更加合理,避免给数据集中添加大量的无用数据,提高了更新效率,也有助于提升整个数据集的质量。
基于上述图片数据集更新方法,本发明实施例还提供了一种图片数据集更新装置,该装置可以设置于服务器,如图4所示的一种图片数据集更新装置的结构示意图,该装置包括以下结构:
获取模块40,用于响应用户输入的图片数据集的更新指示,获取与更新指示一致的待更新的图片数据集;
更新模块42,用于根据更新指示对待更新的图片数据集进行更新;
其中,上述更新指示包括:增加待更新的图片数据集中现有图片类别的图片数量;或者,增加待更新的图片数据集的图片类别;
本发明实施例提供的图片数据集更新装置,与上述实施例提供的图片数据集更新方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明还提供了一种图片数据集更新系统,该系统可以通过图片数据集更新服务器实现,包括存储器以及处理器,存储器用于存储支持处理器执行上述图片数据集更新方法的程序,处理器被配置为用于执行存储器中存储的程序。
进一步,本发明实施例提供了一种计算机存储介质,用于存储为上述图片数据集更新方法所用的计算机软件指令。
参见图5,本发明实施例还提供一种服务器的结构示意图,包括:处理器600,存储器601,总线602和通信接口603,处理器600、通信接口603和存储器601通过总线602连接;处理器600用于执行存储器601中存储的可执行模块,例如计算机程序。
其中,存储器601可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口603(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线602可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器601用于存储程序,处理器600在接收到执行指令后,执行程序,前述本发明实施例任一实施例揭示的图片数据集更新装置所执行的方法可以应用于处理器600中,或者由处理器600实现。
处理器600可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器600中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器600可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器601,处理器600读取存储器601中的信息,结合其硬件完成上述方法的步骤。
本发明实施例所提供的图片数据集更新方法、装置、系统及计算机存储介质的计算机程序产品,包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面方法实施例中的方法,具体实现可参见方法实施例,在此不再赘述。
上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (13)

1.一种图片数据集更新方法,其特征在于,包括:
响应用户输入的图片数据集的更新指示,获取与所述更新指示对应的待更新的图片数据集;
根据所述更新指示对所述待更新的图片数据集进行更新;
其中,所述更新指示包括:增加所述待更新的图片数据集中现有图片类别的图片数量;和/或,增加所述待更新的图片数据集的图片类别。
2.根据权利要求1所述的方法,其特征在于,当所述更新指示为增加所述待更新的图片数据集中现有图片类别的图片数量时,所述根据所述更新指示对所述待更新的图片数据集进行更新的步骤,包括:
获取待增加图片数量的图片类别,将所述图片类别标记为选定图片类别;
选取所述选定图片类别的搜索词;
搜索与所述搜索词匹配的图片,直至搜索到的所述图片的数量达到预先设定的数量值;
对搜索到的所述图片进行筛选,将筛选合格的图片加入到所述选定图片类别,以对所述待更新的数据集进行更新。
3.根据权利要求2所述的方法,其特征在于,所述获取待增加图片数量的所述图片类别的步骤,包括:
接收用户指定的类别,将所述指定的类别作为待增加图片数量的图片类别;
或者,根据预先设定的选择标准自动获取待增加图片数量的图片类别,其中,所述选择标准包括以下标准之一:
选择待更新的数据集中包含图片数量少于其他所有类别的图片类别;
选择当前图片分类器的错误率高于其他所有类别的图片类别;
选择当前图片分类器的错误率低于其他所有类别的图片类别。
4.根据权利要求2所述的方法,其特征在于,所述选取所述选定图片类别的搜索词的步骤,包括:
当所述选定图片类别对应的图片数量为零时,将所述选定图片类别的名称,以及所述名称的同义词作为搜索词;
当所述选定图片类别对应的图片数量不为零时,从预先存储的词典中查询描述所述选定图片类别的文本,对所述文本进行分词操作,去除分词操作结果中包含的停用词后,在所述分词操作结果中随机选取搜索词。
5.根据权利要求2所述的方法,其特征在于,所述对搜索到的所述图片进行筛选的步骤,包括:
将搜索到的所述图片输入至预先训练好的图片分类器,计算搜索到的所述图片属于所述选定图片类别的概率;
判断每个所述图片的概率是否满足预先设置的概率范围;
如果是,将所述图片标记为筛选合格的图片。
6.根据权利要求5所述的方法,其特征在于,所述计算搜索到的所述图片属于所述选定图片类别的概率之后,所述方法还包括:
统计所述概率满足所述概率范围的图片数量,所述概率高于第一概率阈值的图片数量,以及所述概率低于第二概率阈值的图片数量;其中,所述第二概率阈值低于所述第一概率阈值,所述概率范围为高于所述第二概率阈值且低于所述第一概率阈值的范围。
7.根据权利要求1所述的方法,其特征在于,当所述更新指示为增加所述待更新的图片数据集的图片类别时,所述根据所述更新指示对所述待更新的图片数据集进行更新的步骤,包括:
获取用户输入的待添加的图片类别,以及待更新的图片数据集的类别从属关系;
根据所述类别从属关系确定所述待添加的图片类别在所述类别从属关系中的位置;
将所述待添加的图片类别添加到所述位置,以对所述待更新的图片数据集进行更新。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
将所述待添加的图片类别添加到所述位置之后,将添加的图片类别标记为待增加图片数量的图片类别;
接收所述更新指示,根据所述更新指示向标记后的所述待增加图片数量的图片类别中添加图片。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
根据所述待增加图片数量的图片类别的从属关系寻找所述待添加的图片类别的兄弟节点,当寻找到所述兄弟节点后,计算添加的图片属于所述兄弟节点的概率;
判断属于所述兄弟节点的概率是否超过第三概率阈值;
如果是,删除所述图片;
如果否,将所述图片加入到所述新添加的图片类别中。
10.根据权利要求1~9任一项所述的方法,其特征在于,所述方法还包括:
利用更新的所述图片数据集对图片分类器进行训练,其中,所述图片分类器为基于ResNeXt结构神经网络模型的图片分类器。
11.一种图片数据集更新装置,其特征在于,包括:
获取模块,用于响应用户输入的图片数据集的更新指示,获取与所述更新指示对应的待更新的图片数据集;
更新模块,用于根据所述更新指示对所述待更新的图片数据集进行更新;其中,所述更新指示包括:增加所述待更新的图片数据集中现有图片类别的图片数量;和/或,增加所述待更新的图片数据集的图片类别。
12.一种图片数据集更新系统,其特征在于,包括存储器以及处理器,所述存储器用于存储支持所述处理器执行权利要求1~10任一项所述方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
13.一种计算机存储介质,其特征在于,其中存储计算机程序指令,当计算机执行所述计算机程序指令时,执行如权利要求1-10任一项所述的方法。
CN201711325798.7A 2017-12-12 2017-12-12 图片数据集更新方法、装置、系统及计算机存储介质 Active CN107958272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711325798.7A CN107958272B (zh) 2017-12-12 2017-12-12 图片数据集更新方法、装置、系统及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711325798.7A CN107958272B (zh) 2017-12-12 2017-12-12 图片数据集更新方法、装置、系统及计算机存储介质

Publications (2)

Publication Number Publication Date
CN107958272A true CN107958272A (zh) 2018-04-24
CN107958272B CN107958272B (zh) 2020-11-24

Family

ID=61957800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711325798.7A Active CN107958272B (zh) 2017-12-12 2017-12-12 图片数据集更新方法、装置、系统及计算机存储介质

Country Status (1)

Country Link
CN (1) CN107958272B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647723A (zh) * 2018-05-11 2018-10-12 湖北工业大学 一种基于深度学习网络的图像分类方法
CN109558508A (zh) * 2018-10-22 2019-04-02 百度在线网络技术(北京)有限公司 数据挖掘方法、装置、计算机设备及存储介质
CN110275974A (zh) * 2019-06-28 2019-09-24 武汉轻工大学 样本数据集的数据添加方法、装置、终端设备及存储介质
CN112381167A (zh) * 2020-11-20 2021-02-19 北京百度网讯科技有限公司 训练任务分类模型的方法、任务分类方法和装置
WO2021143267A1 (zh) * 2020-09-07 2021-07-22 平安科技(深圳)有限公司 基于图像检测的细粒度分类模型处理方法、及其相关设备
CN114546522A (zh) * 2022-02-07 2022-05-27 北京百度网讯科技有限公司 应用的图片配置方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003274103A (ja) * 2002-03-15 2003-09-26 Kishimoto:Kk 写真配信システム
US20050091232A1 (en) * 2003-10-23 2005-04-28 Xerox Corporation Methods and systems for attaching keywords to images based on database statistics
CN101510217A (zh) * 2009-03-09 2009-08-19 阿里巴巴集团控股有限公司 图像数据库中的图像更新方法、服务器及系统
CN104318259A (zh) * 2014-10-20 2015-01-28 北京齐尔布莱特科技有限公司 一种识别目标图片的设备、方法以及计算设备
CN104459692A (zh) * 2014-11-27 2015-03-25 西安空间无线电技术研究所 一种提高geosar差分干涉形变测量精度的数据快速处理方法
CN105005616A (zh) * 2015-07-20 2015-10-28 清华大学 基于文本图片特征交互扩充的文本图解方法及系统
CN105930391A (zh) * 2016-04-14 2016-09-07 京东方科技集团股份有限公司 超解像系统中图像样本数据库的更新方法及图像服务器

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003274103A (ja) * 2002-03-15 2003-09-26 Kishimoto:Kk 写真配信システム
US20050091232A1 (en) * 2003-10-23 2005-04-28 Xerox Corporation Methods and systems for attaching keywords to images based on database statistics
CN101510217A (zh) * 2009-03-09 2009-08-19 阿里巴巴集团控股有限公司 图像数据库中的图像更新方法、服务器及系统
CN104318259A (zh) * 2014-10-20 2015-01-28 北京齐尔布莱特科技有限公司 一种识别目标图片的设备、方法以及计算设备
CN104459692A (zh) * 2014-11-27 2015-03-25 西安空间无线电技术研究所 一种提高geosar差分干涉形变测量精度的数据快速处理方法
CN105005616A (zh) * 2015-07-20 2015-10-28 清华大学 基于文本图片特征交互扩充的文本图解方法及系统
CN105930391A (zh) * 2016-04-14 2016-09-07 京东方科技集团股份有限公司 超解像系统中图像样本数据库的更新方法及图像服务器

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647723A (zh) * 2018-05-11 2018-10-12 湖北工业大学 一种基于深度学习网络的图像分类方法
CN109558508A (zh) * 2018-10-22 2019-04-02 百度在线网络技术(北京)有限公司 数据挖掘方法、装置、计算机设备及存储介质
CN109558508B (zh) * 2018-10-22 2020-06-26 百度在线网络技术(北京)有限公司 数据挖掘方法、装置、计算机设备及存储介质
CN110275974A (zh) * 2019-06-28 2019-09-24 武汉轻工大学 样本数据集的数据添加方法、装置、终端设备及存储介质
WO2021143267A1 (zh) * 2020-09-07 2021-07-22 平安科技(深圳)有限公司 基于图像检测的细粒度分类模型处理方法、及其相关设备
CN112381167A (zh) * 2020-11-20 2021-02-19 北京百度网讯科技有限公司 训练任务分类模型的方法、任务分类方法和装置
CN114546522A (zh) * 2022-02-07 2022-05-27 北京百度网讯科技有限公司 应用的图片配置方法、装置、电子设备及存储介质
CN114546522B (zh) * 2022-02-07 2023-12-12 北京百度网讯科技有限公司 应用的图片配置方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN107958272B (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN107958272A (zh) 图片数据集更新方法、装置、系统及计算机存储介质
WO2022134794A1 (zh) 新闻事件的舆情处理方法及装置、存储介质、计算机设备
US20180357302A1 (en) Method and device for processing a topic
CN107515873A (zh) 一种垃圾信息识别方法及设备
CN109063152A (zh) 智能问答方法、装置及智能终端
CN110442702B (zh) 搜索方法、装置、可读存储介质和电子设备
CN109598307A (zh) 数据筛选方法、装置、服务器及存储介质
Manzoor et al. Expanding taxonomies with implicit edge semantics
CN110069690B (zh) 一种主题网络爬虫方法、装置及介质
CN109284385A (zh) 基于机器学习的文本分类方法及终端设备
CN103136355A (zh) 一种基于自动阈值鱼群算法的文本聚类方法
CN107943792A (zh) 一种语句分析方法、装置及终端设备、存储介质
CN111581956B (zh) 基于bert模型和k近邻的敏感信息识别方法及系统
CN111767725A (zh) 一种基于情感极性分析模型的数据处理方法及装置
Hong et al. THE MFFP‐TREE FUZZY MINING ALGORITHM TO DISCOVER COMPLETE LINGUISTIC FREQUENT ITEMSETS
CN109582847A (zh) 一种信息处理方法及装置、存储介质
CN108984514A (zh) 词语的获取方法及装置、存储介质、处理器
CN115456043A (zh) 分类模型处理、意图识别方法、装置和计算机设备
CN108228656A (zh) 基于cart决策树的url分类方法及装置
CN115858906A (zh) 企业搜索方法、装置、设备、计算机存储介质及程序
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN114970525A (zh) 一种文本同事件识别方法、装置及应用
US20170024659A1 (en) Method for data searching by learning and generalizing relational concepts from a few positive examples
CN109583208A (zh) 基于移动应用评论数据的恶意软件识别方法和系统
CN116663662B (zh) 基于多源语义网络的地理实体多层次关系构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method, device, system, and computer storage medium for updating image datasets

Effective date of registration: 20230404

Granted publication date: 20201124

Pledgee: Shanghai Yunxin Venture Capital Co.,Ltd.

Pledgor: BEIJING KUANGSHI TECHNOLOGY Co.,Ltd.|MEGVII (BEIJING) TECHNOLOGY Co.,Ltd.

Registration number: Y2023990000191

PE01 Entry into force of the registration of the contract for pledge of patent right