CN110135483A - 训练图像识别模型的方法、装置及相关设备 - Google Patents

训练图像识别模型的方法、装置及相关设备 Download PDF

Info

Publication number
CN110135483A
CN110135483A CN201910363927.4A CN201910363927A CN110135483A CN 110135483 A CN110135483 A CN 110135483A CN 201910363927 A CN201910363927 A CN 201910363927A CN 110135483 A CN110135483 A CN 110135483A
Authority
CN
China
Prior art keywords
image
data
characteristic data
element characteristic
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910363927.4A
Other languages
English (en)
Inventor
张家栋
李超
刘国翌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910363927.4A priority Critical patent/CN110135483A/zh
Publication of CN110135483A publication Critical patent/CN110135483A/zh
Priority to US16/828,845 priority patent/US11227186B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本公开的实施例涉及一种训练图像识别模型的方法、装置及相关设备。该方法包括:从输入图像的检测框子图中提取子图特征数据。该方法还可以包括:从索引要素库中确定与子图特征数据相匹配的要素特征数据,该索引要素库是基于从多个备选图像中提取的多个要素特征数据而预先构建的。此外,该方法还可以包括:输出与要素特征数据相关的图像作为训练图像,以训练图像识别模型。本公开的技术方案通过提供或自行标注少量图像来快速且准确地获取足够数量的检测框内容相似的已标注图像,从而显著提高了工作效率。

Description

训练图像识别模型的方法、装置及相关设备
技术领域
本公开的实施例主要涉及信息处理领域,并且更具体地,涉及用于训练图像识别模型的方法、装置及相关设备(电子设备和计算机可读存储介质)。
背景技术
随着近年来深度学习技术的普及,神经网络被越来越频繁地用于训练计算机视觉的相关任务。例如,物体(目标)检测是一类比较经典的问题,其任务是用检测框来标注出图像中物体的位置,并给出物体的类别。然而,即便基于深度学习的物体检测技术愈发成熟,获取物体检测训练数据的成本依旧很高。在训练图像识别模型前,技术人员通常需要从公开数据集中筛选、清洗可用的训练数据,或者更为繁琐地直接进行人工标注。这在整个模型迭代过程中占据了相当多的时间和人力成本。为此,需要寻找一种快速高效、低成本的训练图像识别模型的方法。
发明内容
根据本公开的示例实施例,提供了一种训练图像识别模型的方案。
在本公开的第一方面中,提供了一种训练图像识别模型的方法,包括:从输入图像的检测框子图中提取子图特征数据;从索引要素库中确定与子图特征数据相匹配的要素特征数据,其中索引要素库是基于从多个备选图像中提取的多个要素特征数据而预先构建的;以及输出与要素特征数据相关的图像作为训练图像,以训练图像识别模型。
在本公开的第二方面中,提供了一种用于图像识别的方法,包括:基于图像识别模型进行图像识别,其中图像识别模型是基于本公开的第一方面的训练图像训练得到的
在本公开的第三方面中,提供了一种训练图像识别模型的装置,包括:特征数据提取模块,被配置为从输入图像的检测框子图中提取子图特征数据;匹配数据确定模块,被配置为从索引要素库中确定与子图特征数据相匹配的要素特征数据,其中索引要素库是基于从多个备选图像中提取的多个要素特征数据而预先构建的;以及图像输出模块,被配置为输出与要素特征数据相关的图像作为训练图像,以训练图像识别模型。
在本公开的第四方面中,提供了一种用于图像识别的装置,包括:图像识别模块,被配置为基于图像识别模型进行图像识别,其中图像识别模型是基于本公开的第三方面的训练图像训练得到的。
在本公开的第五方面中,提供了一种设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一、第二方面的方法。
在本公开的第六方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一、第二方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图;
图2示出了根据本公开的一些实施例的详细示例环境的示意图;
图3示出了根据本公开的实施例的用于训练图像识别模型的过程的流程图;
图4示出了根据本公开的实施例的将未标注图像的特征数据提取至索引要素库中的过程的流程图;
图5示出了根据本公开的实施例的用于训练图像识别模型的装置的示意框图;以及
图6示出了能够实施本公开的多个实施例的计算设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如上文提及的,亟需一种训练图像识别模型的方法,来快速高效且低成本地获取较为全面的训练数据,从而降低训练图像识别模型的时间和人力成本。物体检测对训练数据的门槛要求较高,目前存在一些传统方法。例如,通过挖掘或人工收集带有相关文字标签的图片(即,未标注图像),再由人工进行数据清洗、检测框标注等任务,最终生成带检测框位置、检测框类别的图片集合。又例如,通过一些公开数据集的相关类别筛选来进行数据图像(即,已标注图像)的提取。人工标注的缺点是耗时长,成本高,且需对标注团队进行相关培训。而公开数据集通常只包含了一些常用的固定类别,且伴随有误标等情况,故仍然需要投入人力成本进行清洗和勘误。因此,如何准确且自动化地确定训练数据集是训练图像识别模型时亟待解决的问题。
根据本公开的实施例,提出了一种用于训练图像识别模型的方案。在该方案中,可以基于一个或若干个图像来寻找到多个具有相似特征数据的图像。具体地,可以从海量的未标注图像和/或已标注图像中提取相应的要素特征数据,从而形成一个索引要素库。当用户需要与某个图像类似的多个训练图像时,可以将从该图像中提取的特征数据与索引要素库中的海量要素特征数据进行比对,并获得匹配度较高的要素特征数据。与这些要素特征数据相关的图像将被返回至用户,以作为训练图像来训练图像识别模型。需要注意的是,未标注图像并不需要进行人工标注检测框,而是可以利用目前已知的物体检测模型来针对图像中的一个或多个对象标注出相应检测框。因此,用户可以通过提供或自行标注少量图像来快速且准确地获取足够数量的检测框内容相似的已标注图像。
以下将参照附图来具体描述本公开的实施例。图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。如图1所示,示例环境100中包含计算设备110、输入图像120和输出图像130。此外,计算设备110中还包含索引要素库140。输入图像120可以是用户输入的已标注图像,例如,至少带有检测框的图像。计算设备110可以接收输入图像120,并基于输入图像120中提取的特征数据来从索引要素库140中寻找与其类似的要素特征数据。之后,计算设备110将与该要素特征数据相关的图像130作为训练图像返回给用户,以用于训练图像识别模型。输出图像130通常与输入图像120强相关。
应当理解,由于存在已知的物体检测模型,本公开的实施例中的输入图像120可以不局限于已标注图像,还可以是未标注图像。也就是说,当用户输入一个未标注图像时,计算设备110可以基于已知的物体检测模型来标注出图像中的一个或多个物体的检测框(下文会示出检测框的示例),进而在后续过程中实现对特征数据的提取。还应理解,无论是对用户输入的未标注图像还是对上文提及的海量的未标注图像,可以采取相同的物体检测模型和特征提取服务来进行检测框标注和特征数据提取。下文会详细描述特征数据提取的详细步骤。
在图1中,基于输入图像120生成输出图像130的关键在于,需要将表示输入图像120中的检测框子图的特征数据与由计算设备110管理的索引要素库140中的多个要素特征数据进行比对,一旦找到匹配的要素特征数据,就可以基于该要素特征数据来确定输出图像130作为训练图像。上述多个要素特征数据可以从海量的已标注数据和/或未标注数据中提取。在某些实施例中,可以通过创建如图1所示的索引要素库140来存储这些待比对的要素特征数据。下文将详细描述示例环境100的具体实施例。
图2示出了根据本公开的一些实施例的详细示例环境200的示意图。与图1类似地,示例环境200可以包含计算设备210、输入图像220和多个输出图像230,并且计算设备210中还包含索引要素库240。此外,示例环境200还包括已标注图像250和未标注图像260。在创建索引要素库240时,对于已标注图像250,可以先对图像250中的所有已标注的检测框270进行图像截取,并使用特征服务提取每个检测框子图的特征数据。而对于未标注图像260,可以先用已知的物体检测模型或语义分隔模型来标注出图像260中的一个或多个物体的检测框,对图像260中的所有已标注的检测框进行图像截取,并使用特征服务提取每个检测框子图的特征数据。应理解,如图2所示的检测框270的边可以与被截取的子图(无表情脸)相切地包围该子图,也可以与被截取的子图相隔一定距离地包围该子图。
如图2所示,输入图像220可以是用户输入的已标注图像,例如,至少带有检测框的图像。计算设备210可以接收输入图像220,并基于输入图像220中提取的特征数据来从索引要素库240中寻找与其类似的要素特征数据。如果在创建索引要素库240时,从诸如已标注图像250和/或未标注图像260中提取的特征数据也被存储在索引要素库240中,则输入图像220中的检测框子图(无表情脸,居中)的特征数据就有可能被确定为与已标注图像250中的检测框子图(笑脸,居左)的特征数据和未标注图像260中的检测框子图(哭脸,居右)的特征数据相匹配。
之后,计算设备210可以根据诸如映射信息等的索引信息找到匹配的特征数据所属的已标注图像250和未标注图像260,并至少输出这两个图像作为输出图像230,以用于训练图像识别模型。需要注意的是,输出的图像260已经成为了已标注图像。由此可见,输入图像120与输出图像230中的图像250、260均是包含人脸的图像,即,输出图像230通常与输入图像220强相关。上文描述的技术方案中的人脸仅用于示例,而非限制本发明。应理解,还可以使用诸如杯子等的其他物体来进行检测。为了更清楚地解释上述方案的原理,下文将参考图3来更详细描述训练图像识别模型的过程。
图3示出了根据本公开的实施例的用于训练图像识别模型的过程300的流程图。过程300可以由图1的计算设备110或图2的计算设备210来实现,这些计算设备均可以是设置在服务器侧或用户侧的独立设备。为了方便讨论,将结合图2来描述过程300。
在310,通过计算设备210从输入图像220的检测框子图中提取子图特征数据。作为示例,输入图像220可以是已标注图像。当计算设备210接收到输入图像220时,可以先对输入图像220中的所有已标注的检测框进行图像截取,并使用构建索引要素库240时使用的特征服务来提取每个检测框子图的特征数据。备选地或附加地,输入图像220可以是未标注图像。在这种情况下,当计算设备210接收到输入图像220时,可以先用已知的物体检测模型或语义分隔模型来标注出图像220中的一个或多个物体的检测框,对图像220中的所有已标注的检测框进行图像截取,并使用特征服务提取每个检测框子图的特征数据。
更为优选地,还可以对提取的子图特征数据进行向量化。经向量化的特征表示并不是图像数据的形式,而是浮点矩阵(一维)的形式。因此,在与上文描述的多个备选图像中提取的多个要素特征数据进行匹配时,即便可能没有找到与提取的子图特征数据完全匹配的要素特征数据,但仍然可以找到与提取的子图特征数据相似度或匹配度较高的要素特征数据。
在320,通过计算设备210从索引要素库240中确定与上述子图特征数据相匹配的要素特征数据,索引要素库240是基于从多个备选图像(诸如图像250、260)中提取的多个要素特征数据而预先构建的。作为示例,可以将子图特征数据与索引要素库中的要素特征数据进行比对,并且当子图特征数据与要素特征数据的相似度大于预定阈值时,输出要素特征数据。当然,如果不存在相似度大于预定阈值的要素特征数据,则说明目前的索引要素库240中存储的样本图像不足,仍需要进一步扩充。备选地或优选地,当子图特征数据和上述多个要素特征数据均是被向量话的特征数据时,计算子图特征数据与索引要素库240中的每个要素特征数据的相似度,并且将相似度较高的预定个数的要素特征数据确定为与子图特征数据相匹配的要素特征数据。这里描述的“比对”过程可以是指一个子图特征数据与多个要素特征数据的逐一比对。此外,比对的方式可以采用向量欧式距离或余弦距离的方式。
在某些实施例中,当作为样本的备选图像是已标注图像(例如,图2中的图像250)时,构建索引要素库240的过程可以包括从已标注的多个备选图像的相应检测框子图中提取多个要素特征数据。此外,还可以将上述多个要素特征数据存储在索引要素库240中。这里,可以采用正排索引或者采用分片、聚类、倒排索引等方式来提升检索效率。
在另一些实施例中,当作为样本的备选图像是未标注图像(例如,图2中的图像260)时,可以采用更为完备且自动化的图像处理过程。图4示出了根据本公开的实施例的将未标注图像260的特征数据提取至索引要素库240中的过程400的流程图。
在410,确定未标注的多个备选图像的相应检测框子图。作为示例,可以利用目前已知的物体检测模型来标注出图像260中的一个或多个对象(例如,图2中的哭脸)的相应检测框。之后,在420,从未标注的多个备选图像的相应检测框子图中提取多个要素特征数据,以及在430,将这些要素特征数据存储在索引要素库240中。由此,可以自动确定未标注图像的检测框,并将其特征数据与其他特征数据进行比对。这一方面节省了人工标注的成本,还能够通过循环迭代的方式逐步提高自动标注的准确性。
优选地,在将要素特征数据存储至索引要素库240的过程中,还可以生成要素特征数据与对应备选图像、位于该对应备选图像中的位置的映射信息。备选地或附加地,还可以建立诸如“特征数据-检测框ID-原图ID-所在原图的位置”的索引映射信息。计算设备210可以基于这些映射信息来查找与匹配的要素特征数据对应的备选图像。
在详细描述了将未标注图像260的特征数据提取至索引要素库240中的过程400之后,回到图3,继续讨论训练图像识别模型的过程300。在确定了与输入图像220的子图特征数据相匹配的要素特征数据之后,过程300进行到330。
在330,计算设备210输出与要素特征数据相关的图像230作为训练图像,以训练图像识别模型。应理解,为了便于对输入图像220的要素特征数据进行查询,计算设备210在将要素特征数据存储至索引要素库240的过程中预先建立了包含要素特征数据与对应备选图像、位于该对应备选图像中的位置的映射信息。备选地或附加地,还可以建立诸如“特征数据-检测框ID-原图ID-所在原图的位置”的映射信息。应注意,为了节约索引要素库240的存储空间并且简化查询过程的复杂度,索引要素库240中可以仅包含向量化的要素特征数据。与这些要素特征数据相关联的对应图片仍位于计算设备210的诸如临时存储或网络存储的其他存储位置中。因此,当确定了匹配的要素特征数据之后,需要返回查找与该要素特征数据对应的备选图像。
在某些实施例中,可以基于上述映射信息确定对应的备选图像和位于该对应备选图像中的位置,并输出该对应备选图像作为训练图像。优选地,当匹配的多个要素特征数据均属于同一备选图像时,还可以基于上述诸如“特征数据-检测框ID-原图ID-所在原图的位置”的映射信息来合并确定的多个相同的备选图像。
根据本公开的一个或多个实施方式,基于上述各实施例的所得到的训练图像来训练出图像识别模型。基于该图像识别模型,能够进行图像识别,从而实现图像识别的功能。例如,为了识别某类图像,用户可以将已标注的一个图像输入计算设备210,从而基于上述各实施例得到多个(几十个至几千个、或更多个)训练图像。基于这些训练图像就可以进一步基于深度卷积神经网络训练出图像识别模型,用于识别与上述输入图像类似的图像。
通过以上方式来获取训练图像是十分高效的,由此可以基于上述训练图像来训练图像识别模型,以进行基于图像识别模型进行图像识别。
与传统技术相比,本公开的方案采用了特征(例如向量特征)比对的处理技术,能通过少量标注图片快速构建含有类似特征子图的训练图像集。这样就极大的降低人工标注成本和时间成本,尤其是针对未标注数据的标注和检索工作。此外,由于可以从海量的未标注数据中提取要素特征数据,故可以实现大型且通用的基于内容的带检测框图像检索。检测框内的物体结构简单,特征明显,利用上述的计算设备110或210,还能解决文字、标签检索的误标注、未标注等问题。
以上讨论了在一些示例场景下综合索引要素库140或240中各要素特征数据来确定与输入图像120或220相似的一个或多个备选图像作为输出图像130或230的示例。然而,应当理解,这些场景的描述仅为了以示例方式来解释说明本公开的实施例。取决于实际需要,在不同或类似场景下,还可以选择不同的策略,以便使输出图像130或230的准确性得到最大化。还需要注意的是,本公开的技术方案本质上不限于应用到图像处理、图像识别领域,本公开的技术方案在应用于需要检索相似数据的其他领域时同样可以具备上文提到的各种优点。
图5示出了根据本公开的实施例的用于训练图像识别模型的装置500的示意框图。装置500可以被包括在图1的计算设备110或图2的计算设备210中,或者被实现为计算设备110或计算设备210。如图5所示,装置500包括特征数据提取模块510,被配置为从输入图像的检测框子图中提取子图特征数据。装置500还包括匹配数据确定模块520,被配置为从索引要素库中确定与子图特征数据相匹配的要素特征数据,其中索引要素库是基于从多个备选图像中提取的多个要素特征数据而预先构建的。装置500进一步包括图像输出模块530,被配置为输出与要素特征数据相关的图像作为训练图像,以训练图像识别模型。
在一些实施例中,特征数据提取模块510还被配置为从已标注的多个备选图像的相应检测框子图中提取多个要素特征数据。装置500还可以包括:特征数据存储模块(未示出),被配置为将多个要素特征数据存储在索引要素库中。
在一些实施例中,装置500还可以包括:检测框确定模块(未示出),被配置为确定未标注的多个备选图像的相应检测框子图。作为示例,特征数据提取模块510还可以被配置为从未标注的多个备选图像的相应检测框子图中提取多个要素特征数据。装置500还可以包括:特征数据存储模块(未示出),被配置为将多个要素特征数据存储在索引要素库中。
在一些实施例中,装置500还可以包括:映射信息生成模块(未示出),被配置为生成多个要素特征数据与对应备选图像、位于对应备选图像中的位置的映射信息。
在一些实施例中,图像输出模块530可以包括:位置确定模块(未示出),被配置为基于映射信息确定对应备选图像和位于对应备选图像中的位置;以及训练图像输出模块(未示出),被配置为输出对应备选图像作为训练图像。
在一些实施例中,匹配数据确定模块520可以包括:特征数据比对模块(未示出),被配置为将子图特征数据与索引要素库中的要素特征数据进行比对;以及特征数据输出模块,被配置为当子图特征数据与要素特征数据的相似度大于预定阈值时,输出要素特征数据。
在一些实施例中,子图特征数据和多个要素特征数据均是特征向量,并且其中匹配数据确定模块520可以包括:相似度计算模块(未示出),被配置为计算子图特征数据与索引要素库中的每个要素特征数据的相似度;以及相似度排序模块(未示出),被配置为将相似度较高的预定个数的要素特征数据确定为与子图特征数据相匹配的要素特征数据。
根据本公开的一个或多个实施方式,基于上述各实施例的所得到训练图像训练出图像识别模型。基于该图像识别模型,进行图像识别,从而可以构建用于图像识别的装置。例如,为了识别某类图像,用户可以将已标注的一个图像输入上述装置500,从而基于上述各实施例得到多个(几十个至几千个、或更多个)训练图像。基于这些训练图像就可以进一步基于深度卷积神经网络训练出图像识别模型,用于识别与上述输入图像类似的图像。
图6示出了可以用来实施本公开的实施例的示例设备600的示意性框图。设备600可以用于实现图1的计算设备110或图2的计算设备210。如图所示,设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的计算机程序指令或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序指令,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理单元601执行上文所描述的各个方法和处理,例如过程300或400。例如,在一些实施例中,过程300或400可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由CPU 601执行时,可以执行上文描述的过程300或400的一个或多个步骤。备选地,在其他实施例中,CPU601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行过程300。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (18)

1.一种用于训练图像识别模型的方法,包括:
从输入图像的检测框子图中提取子图特征数据;
从索引要素库中确定与所述子图特征数据相匹配的要素特征数据,其中所述索引要素库是基于从多个备选图像中提取的多个要素特征数据而预先构建的;以及
输出与所述要素特征数据相关的图像作为训练图像,以训练所述图像识别模型。
2.根据权利要求1所述的方法,其中构建所述索引要素库包括:
从已标注的所述多个备选图像的相应检测框子图中提取所述多个要素特征数据;以及
将所述多个要素特征数据存储在所述索引要素库中。
3.根据权利要求1所述的方法,其中构建所述索引要素库包括:
确定未标注的所述多个备选图像的相应检测框子图;
从未标注的所述多个备选图像的相应检测框子图中提取所述多个要素特征数据;以及
将所述多个要素特征数据存储在所述索引要素库中。
4.根据权利要求2或3所述的方法,其中构建所述索引要素库还包括:
生成所述多个要素特征数据与对应备选图像、位于所述对应备选图像中的位置的映射信息。
5.根据权利要求4所述的方法,其中输出与所述要素特征数据相关的图像作为所述训练图像包括:
基于所述映射信息,确定所述对应备选图像和位于所述对应备选图像中的位置;以及
输出所述对应备选图像作为所述训练图像。
6.根据权利要求1所述的方法,其中从所述索引要素库中确定与所述子图特征数据相匹配的要素特征数据包括:
将所述子图特征数据与所述索引要素库中的所述要素特征数据进行比对;以及
响应于所述子图特征数据与所述要素特征数据的相似度大于预定阈值,输出所述要素特征数据。
7.根据权利要求2或3所述的方法,其中所述子图特征数据和所述多个要素特征数据均是特征向量,并且其中从所述索引要素库中确定与所述子图特征数据相匹配的要素特征数据包括:
计算所述子图特征数据与所述索引要素库中的每个要素特征数据的相似度;以及
将相似度较高的预定个数的要素特征数据确定为与所述子图特征数据相匹配的要素特征数据。
8.一种用于图像识别的方法,包括:
基于图像识别模型进行图像识别,
其中所述图像识别模型是基于如权利要求1-7中任一项所述的训练图像训练得到的。
9.一种用于训练图像识别模型的装置,包括:
特征数据提取模块,被配置为从输入图像的检测框子图中提取子图特征数据;
匹配数据确定模块,被配置为从索引要素库中确定与所述子图特征数据相匹配的要素特征数据,其中所述索引要素库是基于从多个备选图像中提取的多个要素特征数据而预先构建的;以及
图像输出模块,被配置为输出与所述要素特征数据相关的图像作为训练图像,以训练所述图像识别模型。
10.根据权利要求9所述的装置,其中所述特征数据提取模块还被配置为从已标注的所述多个备选图像的相应检测框子图中提取所述多个要素特征数据,并且其中所述装置还包括:
特征数据存储模块,被配置为将所述多个要素特征数据存储在所述索引要素库中。
11.根据权利要求9所述的装置,还包括:
检测框确定模块,被配置为确定未标注的所述多个备选图像的相应检测框子图,其中所述特征数据提取模块还被配置为从未标注的所述多个备选图像的相应检测框子图中提取所述多个要素特征数据,并且其中所述装置还包括:
特征数据存储模块,被配置为将所述多个要素特征数据存储在所述索引要素库中。
12.根据权利要求10或11所述的装置,还包括:
映射信息生成模块,被配置为生成所述多个要素特征数据与对应备选图像、位于所述对应备选图像中的位置的映射信息。
13.根据权利要求12所述的装置,其中所述图像输出模块包括:
位置确定模块,被配置为基于所述映射信息确定所述对应备选图像和位于所述对应备选图像中的位置;以及
训练图像输出模块,被配置为输出所述对应备选图像作为所述训练图像。
14.根据权利要求9所述的装置,其中所述匹配数据确定模块包括:
特征数据比对模块,被配置为将所述子图特征数据与所述索引要素库中的所述要素特征数据进行比对;以及
特征数据输出模块,被配置为响应于所述子图特征数据与所述要素特征数据的相似度大于预定阈值,输出所述要素特征数据。
15.根据权利要求10或11所述的装置,其中所述子图特征数据和所述多个要素特征数据均是特征向量,并且其中所述匹配数据确定模块包括:
相似度计算模块,被配置为计算所述子图特征数据与所述索引要素库中的每个要素特征数据的相似度;以及
相似度排序模块,被配置为将相似度较高的预定个数的要素特征数据确定为与所述子图特征数据相匹配的要素特征数据。
16.一种用于图像识别的装置,包括:
图像识别模块,被配置为基于图像识别模型进行图像识别,
其中所述图像识别模型是基于如权利要求9-15中任一项所述的训练图像训练得到的。
17.一种电子设备,所述电子设备包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1-8中任一项所述的方法。
CN201910363927.4A 2019-04-30 2019-04-30 训练图像识别模型的方法、装置及相关设备 Pending CN110135483A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910363927.4A CN110135483A (zh) 2019-04-30 2019-04-30 训练图像识别模型的方法、装置及相关设备
US16/828,845 US11227186B2 (en) 2019-04-30 2020-03-24 Method and device for training image recognition model and related device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910363927.4A CN110135483A (zh) 2019-04-30 2019-04-30 训练图像识别模型的方法、装置及相关设备

Publications (1)

Publication Number Publication Date
CN110135483A true CN110135483A (zh) 2019-08-16

Family

ID=67576174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910363927.4A Pending CN110135483A (zh) 2019-04-30 2019-04-30 训练图像识别模型的方法、装置及相关设备

Country Status (2)

Country Link
US (1) US11227186B2 (zh)
CN (1) CN110135483A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1967526A (zh) * 2006-09-14 2007-05-23 浙江大学 基于对等索引的图像检索方法
CN101038668A (zh) * 2006-03-18 2007-09-19 辽宁师范大学 基于重要位平面的图像检索新方法
CN102915372A (zh) * 2012-11-06 2013-02-06 成都理想境界科技有限公司 图像检索方法、装置及系统
CN103049446A (zh) * 2011-10-13 2013-04-17 中国移动通信集团公司 一种图像检索方法及装置
CN104933688A (zh) * 2014-03-19 2015-09-23 联想(北京)有限公司 一种数据处理方法及电子设备
US9171230B2 (en) * 2012-12-18 2015-10-27 Canon Kabushiki Kaisha Object detection method, object detection apparatus and image pickup apparatus
CN106570015A (zh) * 2015-10-09 2017-04-19 杭州海康威视数字技术股份有限公司 图像搜索方法和装置
CN108319938A (zh) * 2017-12-31 2018-07-24 奥瞳系统科技有限公司 用于高性能人脸识别系统的高质量训练数据准备系统
CN108763580A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机存储介质
CN108875814A (zh) * 2018-06-04 2018-11-23 联想(北京)有限公司 图片检索方法、装置及电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6618375B2 (en) * 1999-09-13 2003-09-09 Qualcomm, Incorporated Radio link protocol frame sorting mechanism for dynamic capacity wireless data channels
US7376276B2 (en) * 2000-08-29 2008-05-20 Imageid Ltd Indexing, storage and retrieval of digital images
JP5632472B2 (ja) * 2010-06-16 2014-11-26 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 映像検索装置、映像検索方法、記録媒体、プログラム、集積回路
US9760970B2 (en) * 2015-03-18 2017-09-12 Hitachi, Ltd. Video analysis and post processing of multiple video streams
US9811761B2 (en) * 2015-08-28 2017-11-07 International Business Machines Corporation System, method, and recording medium for detecting video face clustering with inherent and weak supervision
US10083347B2 (en) * 2016-07-29 2018-09-25 NTech lab LLC Face identification using artificial neural network

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101038668A (zh) * 2006-03-18 2007-09-19 辽宁师范大学 基于重要位平面的图像检索新方法
CN1967526A (zh) * 2006-09-14 2007-05-23 浙江大学 基于对等索引的图像检索方法
CN103049446A (zh) * 2011-10-13 2013-04-17 中国移动通信集团公司 一种图像检索方法及装置
CN102915372A (zh) * 2012-11-06 2013-02-06 成都理想境界科技有限公司 图像检索方法、装置及系统
US9171230B2 (en) * 2012-12-18 2015-10-27 Canon Kabushiki Kaisha Object detection method, object detection apparatus and image pickup apparatus
CN104933688A (zh) * 2014-03-19 2015-09-23 联想(北京)有限公司 一种数据处理方法及电子设备
CN106570015A (zh) * 2015-10-09 2017-04-19 杭州海康威视数字技术股份有限公司 图像搜索方法和装置
CN108319938A (zh) * 2017-12-31 2018-07-24 奥瞳系统科技有限公司 用于高性能人脸识别系统的高质量训练数据准备系统
CN108875814A (zh) * 2018-06-04 2018-11-23 联想(北京)有限公司 图片检索方法、装置及电子设备
CN108763580A (zh) * 2018-06-08 2018-11-06 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机存储介质

Also Published As

Publication number Publication date
US20200349389A1 (en) 2020-11-05
US11227186B2 (en) 2022-01-18

Similar Documents

Publication Publication Date Title
CN110175527B (zh) 行人再识别方法及装置、计算机设备及可读介质
CN108288051B (zh) 行人再识别模型训练方法及装置、电子设备和存储介质
CN108960331A (zh) 一种基于行人图像特征聚类的行人再识别方法
TW202203212A (zh) 關鍵點檢測方法、電子設備及電腦可讀儲存介質
CN112581438B (zh) 切片图像识别方法、装置和存储介质及电子设备
CN110135437A (zh) 用于车辆的定损方法、装置、电子设备和计算机存储介质
CN109165540A (zh) 一种基于先验候选框选择策略的行人搜索方法和装置
CN114758362B (zh) 基于语义感知注意力和视觉屏蔽的换衣行人重识别方法
US20210312163A1 (en) Face recognition method, device and electronic equipment, and computer non-volatile readable storage medium
WO2024060684A1 (zh) 模型训练方法、图像处理方法、设备及存储介质
CN111967527B (zh) 一种基于人工智能牡丹品种识别方法及识别系统
CN110188763A (zh) 一种基于改进图模型的图像显著性检测方法
CN111190595A (zh) 基于界面设计图自动生成界面代码的方法、装置、介质及电子设备
CN109670423A (zh) 一种基于深度学习的图像识别系统、方法及介质
CN112446350A (zh) 一种改进YOLOv3复杂棉田背景下棉花检测方法
CN114579794A (zh) 特征一致性建议的多尺度融合地标图像检索方法及系统
CN109857878A (zh) 物品标注方法及装置、电子设备及存储介质
CN111241326B (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN115797795B (zh) 基于强化学习的遥感影像问答式检索系统及方法
CN107341189A (zh) 一种辅助人工对图像进行筛查、分类和存储的方法及系统
CN110135483A (zh) 训练图像识别模型的方法、装置及相关设备
CN116958724A (zh) 一种产品分类模型的训练方法和相关装置
CN114220082A (zh) 一种车道线识别方法、装置和计算机可读存储介质
CN113282781A (zh) 图像检索方法及装置
CN110674342B (zh) 查询目标图像的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination