CN112580750A - 图像识别方法、装置、电子设备及存储介质 - Google Patents
图像识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112580750A CN112580750A CN202011613926.XA CN202011613926A CN112580750A CN 112580750 A CN112580750 A CN 112580750A CN 202011613926 A CN202011613926 A CN 202011613926A CN 112580750 A CN112580750 A CN 112580750A
- Authority
- CN
- China
- Prior art keywords
- image
- main body
- classification
- label
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- 238000013145 classification model Methods 0.000 claims abstract description 149
- 238000012549 training Methods 0.000 claims description 66
- 238000000605 extraction Methods 0.000 claims description 59
- 238000002372 labelling Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 8
- 230000003247 decreasing effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 241000282472 Canis lupus familiaris Species 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 210000000746 body region Anatomy 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000283690 Bos taurus Species 0.000 description 1
- 244000025254 Cannabis sativa Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像识别方法、装置、电子设备及存储介质。该图像识别方法包括:获取待识别图像;将待识别图像输入预先训练好的多标签分类模型,多标签分类模型包括共享模块、主体分类模块以及非主体分类模块,共享模块用于提取待识别图像的共享图像特征,并分别输入至主体分类模块以及非主体分类模块,主体分类模块用于根据共享图像特征,输出待识别图像中主体对象对应的主体标签,非主体分类模块用于根据共享图像特征,输出待识别图像中场景对应的非主体标签;获取多标签分类模型输出的主体标签以及非主体标签,作为待识别图像的图像识别结果。本方法可以在实现图像的多标签识别的同时,提高图像识别的准确率和召回率。
Description
技术领域
本申请涉及计算机技术领域,更具体地,涉及一种图像识别方法、装置、电子设备及存储介质。
背景技术
图像识别是数据挖掘技术中的一个重要研究分支,它旨在通过训练图像样本数据集来构造一个分类函数或分类器,并利用该分类函数或分类器来识别待测图像的标签或标签集。现有的图像识别方法往往是单标签的,即每张图像对应唯一的类别标签。然而,在实际应用中,由于客观事物本身的复杂性,一张图像往往包含多个类别的内容,这也更加符合人的认知习惯,所以一张图像也可能同时包含多个不同的标签。因此,目前的图像识别方法准确率不高。
发明内容
鉴于上述问题,本申请提出了一种图像识别方法、装置、电子设备及存储介质,可改善上述问题。
第一方面,本申请实施例提供了一种图像识别方法,所述方法包括:获取待识别图像;将所述待识别图像输入预先训练好的多标签分类模型,所述多标签分类模型包括共享模块、主体分类模块以及非主体分类模块,所述共享模块用于提取所述待识别图像的共享图像特征,并分别输入至所述主体分类模块以及所述非主体分类模块,所述主体分类模块用于根据所述共享图像特征,输出所述待识别图像中主体对象对应的主体标签,所述非主体分类模块用于根据所述共享图像特征,输出所述待识别图像中场景对应的非主体标签;获取所述多标签分类模型输出的所述主体标签以及所述非主体标签,作为所述待识别图像的图像识别结果。
第二方面,本申请实施例提供了一种图像识别方法,所述方法包括:图像获取模块,用于获取待识别图像;图像识别模块,用于将所述待识别图像输入预先训练好的多标签分类模型,所述多标签分类模型包括共享模块、主体分类模块以及非主体分类模块,所述共享模块用于提取所述待识别图像的共享图像特征,并分别输入至所述主体分类模块以及所述非主体分类模块,所述主体分类模块用于根据所述共享图像特征,输出所述待识别图像中主体对象对应的主体标签,所述非主体分类模块用于根据所述共享图像特征,输出所述待识别图像中场景对应的非主体标签;结果获取模块,用于获取所述多标签分类模型输出的所述主体标签以及所述非主体标签,作为所述待识别图像的图像识别结果。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储器;一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行上述第一方面提供的图像识别方法
第四方面,本申请实施例提供了一种计算机可读取存储介质,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述第一方面提供的图像识别方法。
本申请提供的方案,通过将待识别图像输入预先训练好的多标签分类模型,可以获取到多标签分类模型输出的该待识别图像对应的主体标签以及非主体标签,作为该待识别图像的图像识别结果。其中,多标签分类模型包括共享模块、主体分类模块以及非主体分类模块,共享模块用于提取待识别图像的共享图像特征,并分别输入至主体分类模块以及非主体分类模块,主体分类模块用于根据共享图像特征,输出待识别图像中主体对象对应的主体标签,非主体分类模块用于根据共享图像特征,输出待识别图像中场景对应的非主体标签。本申请通过多标签分类模型中的共享结构,以及将多标签分类模型中的分类任务划分为主体和非主体两大类别,不仅可以实现图像的多标签分类识别,而且还可以实现主体标签和非主体标签的同时识别,提高了图像识别的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了一种图像识别方法的示意框图。
图2示出了另一种图像识别方法的示意框图。
图3示出了根据本申请一个实施例的图像识别方法的一种流程图。
图4示出了本申请提供的图像识别方法的一种示意框图。
图5示出了根据本申请另一个实施例的图像识别方法的一种流程图。
图6示出了本申请提供的图像识别方法的另一种示意框图。
图7示出了根据本申请又一个实施例的图像识别方法的一种流程图。
图8示出了本申请提供的图像识别方法的又一种示意框图。
图9示出了本申请提供的图像识别方法的再一种示意框图。
图10示出了根据本申请再一个实施例的图像识别方法的一种流程图。
图11示出了根据本申请再一个实施例的图像识别方法中步骤S420的一种流程图。
图12示出了本申请提供的图像识别方法的还一种示意框图。
图13示出了本申请提供的图像识别方法的还再一种示意框图。
图14示出了根据本申请还一个实施例的图像识别方法的一种流程图。
图15是本申请实施例的用于执行根据本申请实施例的图像识别方法的电子设备的框图。
图16是本申请实施例的用于执行根据本申请实施例的图像识别方法的电子设备的框图。
图17是本申请实施例的用于保存或者携带实现根据本申请实施例的图像识别方法的程序代码的存储单元。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
现有的图像识别方法往往是单标签的,即每张图像对应唯一的类别标签,然而,在实际应用中,由于客观事物本身的复杂性,一张图像往往包含多个类别的内容,所以一张图像可能会同时包含多个不同的标签。因此,有必要设计一个较为准确地多标签图像识别方法。
尽管现在有一些图像多标签识别算法的相关研究,但通常是使用单个普通的分类模型对所有标签进行识别。示例性地,请参阅图1,图1示出了现有的一种图像识别方法的示意框图,其仅基于单个普通的分类模型识别图像,且是直接输出所有标签类别。
然而,由于图像信息的复杂丰富性,图像的标签类别可能是成千上万的,远多于文本仅涉及的几十个标签类别。因此,要想准确完整地标记海量的训练图像,需要大量的人工劳动和精力,成本非常高,获得完整标记的多标签训练数据集往往是非常困难的。这就意味着,训练数据中的标注通常是不完全的,基本会存在漏标的情况。如果用单个普通的分类模型来训练,由于不完全标注,会在训练时引入大量的噪声数据,导致模型的召回率大幅降低。例如,图像中实际包含有狗但标注图像时未标注出狗,那么给到模型训练的标注数据就是错误、不准确的,相当于引入了噪声数据,降低了模型的召回率。
但是,发明人经过长期研究发现,目前的图像标签虽然比较多,但可以分为两大类别:主体类别的标签和非主体类别的标签。其中,主体类别的标签通常是有明确个体的、可计数的物体标签,如人、汽车、猫、牛排等。非主体类别的标签通常是由整张图像的特征及其中的主体内容推测得到,可以是场景类的标签、或者事件类的标签,如天空、草原、婚礼、运动、特写等。因此,发明人提出了本申请的图像多标签识别方法,将多标签识别任务划分为主体和非主体两大类别,可以在一定程度上减少非完全标注带来的噪声数据,使模型的召回率得到提升。
在一些实施例中,可以使用两个独立的模型,分类对两大类标签进行识别。示例性地,请参阅图2,图2示出了一种图像识别方法的示意框图,其中可以包含一个主体分类模型和一个非主体分类模型,主体分类模型识别图像后,可输出所有主体类别标签,非主体分类模型识别图像后,可输出所有的非主体类别标签。
发明人经过长期研究发现,虽然上述方法,可以区分处理特征存在差异的主体类和非主体类,可以在一定程度上减少非完全标注带来的噪声数据,使模型的召回率得到提升。但是该方法使得模型体积翻倍,推理繁琐且速度过慢,在许多应用场景无法达到需求(如不利于移动终端或者计算能力有一定限制的设备等的应用)。此外,该方法由于两个模型都没有见过另一个模型的训练数据,因此很容易产生open set(开放集)问题,从而影响了模型的识别准确度。例如,非主体模型只学习过机场的图片,没有见过不在机场中的飞机的图片,会误以为所有包含飞机的图片都是机场,导致机场类别的准确度较低。
因此,发明人提出了本申请实施例提供的图像识别方法、装置、服务器、电子设备以及存储介质,可构建一个具备共享结构的多标签分类模型,来区分处理特征存在差异的主体类和非主体类,在减少非完全标注带来的噪声数据,提升模型的召回率的同时,也减少了模型体积,提高了模型识别的准确度。具体的图像识别方法在后续的实施例中进行详细的说明。
请参阅图3,图3示出了本申请一个实施例提供的图像识别方法的流程示意图。该图像识别方法可以应用于电子设备。下面将针对图3所示的流程进行详细的阐述,所示图像识别方法具体可以包括以下步骤:
步骤S110:获取待识别图像。
在本申请实施例中,电子设备在需要进行图像识别时,可以先获取待识别图像。其中,待识别图像可以是需要生成图像标签或类别的图像,其可以是仅包含一个类别内容的图像,也可以是包含多个类别内容(两个或两个以上)的图像,此处不作限定。该类别内容可以是风景、海滩、蓝天、绿草、雪景、夜景、黑暗、背光、日出/日落、烟火、聚光灯、室内、远距、微距、婚礼、运动、人、猫、狗、美食等。当然,以上并不是穷举,还包含很多其他的类别内容。
在一些实施例中,待识别图像可以是电子设备拍摄获取的图像,也可以是电子设备中存储的图像(如拍摄完成后保存在本地的图像),还可以是电子设备下载的图像;其可以是二维平面图像,也可以是三维立体图像,具体的待识别图像在此并不作限定。
例如,电子设备上可以安装摄像头,电子设备在检测到拍摄指令时,通过拍摄指令控制摄像头来采集待识别图像。电子设备在获取到待识别图像之后,可以立即对待识别图像进行识别,也可以将待识别图像统一存放在一个文件夹中,在该文件夹中存储的待识别图像到达一定数量之后,再将存储的待识别图像统一进行识别处理。示例性地,电子设备可以将获取的待识别图像存储到相册中,当相册中存储的待识别图像大于一定数量时,就触发对相册中的待识别图像进行识别处理。
在另一些实施例中,待识别图像也可以电子设备通过用户的输入操作,接收到的用户输入的待进行图像识别的图像。在又一种实施例中,电子设备为服务器时,待识别图像还可以从数据库服务器或者从用户的客户端获取到的待进行图像识别的图像。
当然,上述仅为举例,电子设备具体获取待识别图像的方式在本申请实施例中可以不作为限定。例如,待识别图像也可以是视频中的图像,电子设备可以截取视频中前N帧图像作为待识别图像,也可以获取视频的关键帧作为待识别图像,此处不作限定。
步骤S120:将所述待识别图像输入预先训练好的多标签分类模型,所述多标签分类模型包括共享模块、主体分类模块以及非主体分类模块。
在本申请实施例中,采用了一种包括共享模块、主体分类模块以及非主体分类模块的多标签分类模型进行多标签的图像识别,可以有效且准确地识别出的图像中的多个标签。其中,多标签的图像识别即针对每张图像输出多个同时存在的标签。
具体地,在获取了待识别图像之后,电子设备将待识别图像输入预先训练好的多标签分类模型,以通过多标签分类模型中的共享模块、主体分类模块以及非主体分类模块对待识别图像进行逐级处理,进而输出待识别图像对应的主体标签和非主体标签。
在本申请实施例中,共享模块可用于提取待识别图像的共享图像特征,并可将提取到该共享图像特征分别输入至主体分类模块以及非主体分类模块,主体分类模块可用于根据该共享图像特征,输出待识别图像中主体对象对应的主体标签,非主体分类模块可用于根据该共享图像特征,输出待识别图像中场景对应的非主体标签。其中,该主体标签和非主体标签可以是前述的主体类别的标签和非主体类别的标签。
具体地,上述共享模块可以包括多层特征提取层,特征提取层的具体层数在此并不作限定。例如,特征提取层的层数可以为4层、5层、6层等。其中,特征提取层可以是卷积层,也可以是卷积层与池化层(Pooling层)、反卷积层以及上采样层(Upsampling层)的任意组合,此处不作限定,根据具体场景合理设定各个特征提取层的具体参数即可。
在本申请实施例中,待识别图像输入至共享模块后,可以通过该多层特征提取层逐层对待识别图像进行特征提取,以得到待识别图像的共享图像特征。在一些实施例中,共享模块中每层特征提取层的输入和输出均是一组向量构成的特征图(feature map)。其中,共享图像特征可以是经过多层特征提取层逐层处理后最终输出的特征图,共享模块可该特征图分别输入至主体分类模块以及非主体分类模块,以使主体分类模块和非主体分类模块可共享该特征图,并对该特征图进行各自的特征处理。
在一些实施例中,主体分类模块可以包括多层主体特征提取层,主体特征提取层的具体层数在此并不作限定。例如,主体特征提取层的层数可以为2层、3层、4层等。其中,主体特征提取层可以是卷积层,也可以是卷积层与池化层、反卷积层以及上采样层的任意组合,此处不作限定,根据具体场景合理设定各个主体特征提取层的具体参数即可。
在本申请实施例中,共享模块将提取到的共享图像特征输入至主体分类模块后,主体分类模块可以通过该多层主体特征提取层逐层对共享图像特征进行主体特征提取,并根据提取出的主体特征信息输出待识别图像中主体对象对应的主体标签。在一些实施例中,每层主体特征提取层的输入和输出均是一组向量构成的特征图。
在一些实施例中,非主体分类模块可以包括多层非主体特征提取层,非主体特征提取层的具体层数在此并不作限定。例如,非主体特征提取层的层数可以为2层、3层、4层等。其中,非主体特征提取层可以是卷积层,也可以是卷积层与池化层、反卷积层以及上采样层的任意组合,此处不作限定,根据具体场景合理设定各个非主体特征提取层的具体参数即可。
在本申请实施例中,共享模块将提取到的共享图像特征输入至非主体分类模块后,非主体分类模块可以通过该多层非主体特征提取层逐层对共享图像特征进行非主体特征提取,并根据提取出的非主体特征信息输出待识别图像中场景对应的非主体标签。在一些实施例中,每层非主体特征提取层的输入和输出均是一组向量构成的特征图。
示例性地,如图4所示,本申请的多标签分类模型可以是在一个多分类模型的基础上,以特定节点为分界,前半部分为共享层,后半部分直至最终的输出层分叉为两个分支,一个主体分类模块的分支输出待识别图像中所有主体类别的主体标签,另一个非主体分类模块的分支输出待识别图像中所有场景、事件类别的非主体标签。如此,能在计算量和模型大小有限的条件下,精确、高效地实现主体和非主体两大类标签同时识别的问题。
可以理解的是,由于本申请在进行主体和非主体分类之前的特征提取过程中,存在部分的特征提取结构是共享的,因此,相对于利用两个独立的模型来分别进行主体和非主体分类,本申请减小了模型体积,满足了更多应用场景的需求,且前半部分共享的特征提取层会经过更多数据训练,其也会具备拥有更强的特征提取能力,提升了模型识别准确率。此外,由于该共享结构,即使是采用非完全标注的训练数据训练多标签分类模型,主体和非主体中的任一分支都可以通过该共享结构见过另一个分支的训练数据,避免了open set问题,提高了模型的识别准确度。
例如,即使非主体分类模块只学习过机场的图片,但因为共享模块见过了非主体机场的图片,也见过了主体飞机的图片(包括在机场中的飞机以及不在机场中的飞机),所以非主体分类模块通过共享模块输出的共享图像特征可以知道,有不在机场中的飞机,所以不会误以为所有包含飞机的图片都是机场,提高了机场类别的准确度。
在一些实施例中,可以是先利用两个独立的模型来分别进行主体和非主体分类训练,然后将这两个独立模型的前几层特征提取层用共享模块的特征提取层替换,剩下几层特征提取层仍然用的是各自模型的特征提取层,从而形式了主体分类模块和非主体分类模块。例如,分别进行主体和非主体分类训练的两个独立模型的特征提取层数为10层,若共享模块中的特征提取层为8层,那么主体分类模块中的特征提取层可以为独立的主体分类模型中的剩下2层,而非主体分类模块中的特征提取层可以为独立的非主体分类模型的剩下2层。
在一些实施例中,上述预先训练好的多标签分类模型可以预先根据大量训练样本进行训练得到。其中,训练样本可以包括图像样本以及该图像样本进行预设标签标注后的标注样本,该预设标签可以是主体标签,也可以是非主体标签,还可以是主体标签和非主体标签都有。从而预先训练好的多标签分类模型可以用于根据获取的待识别图像,输出待识别图像对应的主体标签和非主体标签。
在一些实施例中,多标签分类模型可以预先存储于电子设备本地,电子设备可以直接从本地调用多标签分类模型,并将待识别图像输入至多标签分类模型。在另一些实施例中,多标签分类模型也可以存储于服务器,电子设备在需要对待识别图像进行多标签识别时,可以调用服务器中的多标签分类模型。例如,将待识别图像发送至服务器,以指示服务器将该待识别图像输入至多标签分类模型中,进行图像内容的多标签识别。
步骤S130:获取所述多标签分类模型输出的所述主体标签以及所述非主体标签,作为所述待识别图像的图像识别结果。
在本申请实施例中,电子设备将待识别图像输入预先训练好的多标签分类模型之后,可以获得多标签分类模型输出的待识别图像对应的主体标签以及非主体标签,电子设备可以将该主体标签以及非主体标签作为待识别图像的图像识别结果进行输出。从而实现图像的多标签识别。
在一些实施例中,电子设备在获取到上述待识别图像的主体标签以及非主体标签后,可根据该主体标签以及非主体标签对上述待识别图像进行图像处理。可选地,电子设备可根据上述主体标签以及非主体标签对上述待识别图像进行分组处理、图像全局处理、图像局部处理等。上述分组处理是指根据主体标签以及非主体标签将待识别图像进行分组,例如将同一主体标签对应的图像分为一组,将同一非主体标签对应的图像分为一组。上述图像全局处理是指对图像整体进行色彩处理、饱和度处理、亮度处理、对比度处理以及其他处理等。上述图像局部处理是指对图像中局部进行色彩处理、饱和度处理、亮度处理、对比度处理以及其他处理等。具体的图像处理方式在本申请实施例中不作限定,可以根据具体应用场景合理确定即可。例如,也可以是根据主体标签以及非主体标签对应的图像处理策略,对待识别图像进行图像处理。如电子设备可查找上述主体标签对应的主体区域,对上述待识别图像中主体区域进行图像局部处理。
示例性地,如图4所示,本申请的多标签分类模型可以是在一个多分类模型的基础上,以特定节点为分界,前半部分为共享模块,后半部分直至最终的输出层分叉为两个分支,一个主体分类模块的分支输出待识别图像中所有主体类别的主体标签,另一个非主体分类模块的分支输出待识别图像中所有场景、事件类别的非主体标签。如此,能在计算量和模型大小有限的条件下,精确、高效地实现主体和非主体两大类标签同时识别的问题。
在一些实施例中,当待识别图像为视频中的图像时,得到该待识别图像的图像识别结果后,也可以是基于该图像识别结果,对视频进行多标签分类。
本申请实施例提供的图像识别方法,通过将待识别图像输入预先训练好的多标签分类模型,可以获取到多标签分类模型输出的该待识别图像对应的主体标签以及非主体标签,作为该待识别图像的图像识别结果。其中,多标签分类模型包括共享模块、主体分类模块以及非主体分类模块,共享模块用于提取待识别图像的共享图像特征,并分别输入至主体分类模块以及非主体分类模块,主体分类模块用于根据共享图像特征,输出待识别图像中主体对象对应的主体标签,非主体分类模块用于根据共享图像特征,输出待识别图像中场景对应的非主体标签。本申请通过多标签分类模型中的共享结构,以及将多标签分类模型中的分类任务划分为主体和非主体两大类别,不仅可以实现图像的多标签分类识别,而且还可以实现主体标签和非主体标签的同时识别,提高了图像识别的准确率。
请参阅图5,图5示出了本申请另一个实施例提供的图像识别方法的流程示意图,所示图像识别方法具体可以包括以下步骤:
步骤S210:获取待识别图像。
步骤S220:将所述待识别图像输入预先训练好的多标签分类模型的共享模块,得到所述待识别图像的共享图像特征。
步骤S230:所述多标签分类模型的非主体分类模块根据所述共享图像特征,输出所述待识别图像中场景对应的非主体标签。
步骤S240:所述多标签分类模型的第一分类模块根据所述共享图像特征,对所述待识别图像中的主体对象进行一级主体分类,获得所述待识别图像的第一分类结果。
在一些实施例中,当主体分类比较复杂,种类比较多时,本申请也可以进行更多层级的主体识别。作为一种实施方式,可以是对主体进行第二层级的分类。具体地,主体分类模块可以包括第一分类模块以及第二分类模块,其中,第一分类模块用于进行第一层级的主体分类,第二分类模块用于根据第一分类模块输出的待识别图像的一级主体分类结果,进行第二层级的主体分类,得到待识别图像的二级主体分类结果。在一些实施例中,第一分类模块可以包括多层一级主体的特征提取层,第二分类模块可以包括多层二级主体的特征提取层,具体地模型参数此处不作限定,仅需实现一级主体分类和二级主体分类即可。
在本实施例中,待识别图像输入共享模块得到待识别图像的共享图像特征后,可以将该共享图像特征输入第一分类模块,以使第一分类模块对待识别图像中的主体对象进行一级主体分类,获得待识别图像的第一分类结果,然后第一分类模块可以将第一分类结果输入至第二分类模块,以使第二分类模块基于该第一分类结果进行二级主体分类。其中,每一类一级主体包括至少一类二级主体。例如,一级主体标签“人”可以包括“男人”,“女人”,“青年”,“老人”,幼童”等二级主体标签。
步骤S250:所述多标签分类模型的第二分类模块根据所述第一分类结果,对所述主体对象进行二级主体分类,获得所述待识别图像的第二分类结果,并根据所述第二分类结果,输出所述待识别图像中所述主体对象对应的主体标签。
在本实施例中,第一分类模块得到待识别图像的第一分类结果后,可以将该第一分类结果输入第二分类模块,以使第二分类模块根据第一分类结果,对主体对象进行二级主体分类,获得待识别图像的第二分类结果,然后根据第二分类结果,输出待识别图像中主体对象对应的主体标签。
示例性地,如图6所示,本申请的多标签分类模型的前半部分为共享模块,后半部分直至最终的输出层分叉为两个分支,一个主体分类模块的分支输出待识别图像中所有主体类别的主体标签,其中,该主体分类模块由第一分类模块和第二分类模块构成,第一分类模块用于输出待识别图像中所有主体类别的一级主体标签,第二分类模块用于基于该一级主体标签,输出待识别图像中所有主体类别的二级主体标签。另一个非主体分类模块的分支输出待识别图像中所有场景、事件类别的非主体标签。从而实现主体的精细多标签分类。
在一些实施例中,可以是在具备第二分类结果时,根据第二分类结果,输出待识别图像中主体对象对应的主体标签,也即最终输出的主体标签为二级主体类别的标签。在不具备第二分类结果时,也可以根据第一分类结果,输出待识别图像中主体对象对应的主体标签,也即最终输出的主体标签为一级主体类别的标签。在另一些实施例中,还可以在具备第二分类结果时,根据第二分类结果和第一分类结果,输出待识别图像中主体对象对应的一级主体标签以及二级主体标签。此处不作限定。
当然,可以理解的是,还可以是根据具体场景的需要,对主体类别进行更多层级的分类。如第三层级的主体分类,将第二分类模块的输出结果输入至三级分类的模块。此处不作限定。
步骤S260:获取所述多标签分类模型输出的所述主体标签以及所述非主体标签,作为所述待识别图像的图像识别结果。
在本申请实施例中,步骤S260可参阅前述步骤,此处不再赘述。
本申请实施例提供的图像识别方法,通过将待识别图像输入预先训练好的多标签分类模型,可以获取到多标签分类模型输出的该待识别图像对应的主体标签以及非主体标签,作为该待识别图像的图像识别结果。其中,多标签分类模型包括共享模块、主体分类模块以及非主体分类模块,主体分类模块包括第一分类模块以及第二分类模块。将待识别图像输入共享模块,可以得到待识别图像的共享图像特征;非主体分类模块根据共享图像特征,可以输出待识别图像中场景对应的非主体标签;第一分类模块根据共享图像特征,可以对待识别图像中的主体对象进行一级主体分类,获得待识别图像的第一分类结果,其中,每一类一级主体包括至少一类二级主体;第二分类模块根据第一分类结果,可以对主体对象进行二级主体分类,获得待识别图像的第二分类结果,并可以根据第二分类结果,输出待识别图像中所述主体对象对应的主体标签。本申请通过多标签分类模型中的共享结构,以及将多标签分类模型中的分类任务划分为主体和非主体两大类别,不仅可以实现图像的多标签分类识别,而且还可以实现主体标签和非主体标签的同时识别,提高了图像识别的准确率。此外,在主体分类比较复杂,种类比较多时,本申请也可以进行第二层级的主体分类,实现主体的精细分类,提升了多标签分类的准确度。
请参阅图7,图7示出了本申请又一个实施例提供的图像识别方法的流程示意图,所示图像识别方法具体可以包括以下步骤:
步骤S310:获取待识别图像。
步骤S320:将所述待识别图像输入预先训练好的多标签分类模型的共享模块,得到所述待识别图像的共享图像特征。
步骤S330:所述多标签分类模型的主体分类模块根据所述共享图像特征,输出所述待识别图像中主体对象对应的主体标签。
步骤S340:所述多标签分类模型的第三分类模块根据所述共享图像特征,对所述待识别图像中的场景进行一级非主体分类,获得所述待识别图像的第三分类结果。
在一些实施例中,当非主体分类比较复杂,种类比较多时,本申请也可以进行更多层级的非主体识别。作为一种实施方式,可以是对非主体进行第二层级的分类。具体地,非主体分类模块可以包括第三分类模块以及第四分类模块,其中,第三分类模块用于进行第一层级的非主体分类,第四分类模块用于根据第三分类模块输出的待识别图像的一级非主体分类结果,进行第二层级的非主体分类,得到待识别图像的二级非主体分类结果。在一些实施例中,第三分类模块可以包括多层一级非主体的特征提取层,第四分类模块可以包括多层二级非主体的特征提取层,具体地模型参数此处不作限定,仅需实现一级非主体分类和二级非主体分类即可。
在本实施例中,待识别图像输入共享模块得到待识别图像的共享图像特征后,可以将该共享图像特征输入第三分类模块,以使第三分类模块对待识别图像中的场景进行一级非主体分类,获得待识别图像的第三分类结果,然后第三分类模块可以将第三分类结果输入至第四分类模块,以使第四分类模块基于该第三分类结果进行二级非主体分类。其中,每一类一级非主体包括至少一类二级非主体。例如,一级非主体标签“运动”可以包括“跑步”,“骑车”,“爬山”等二级非主体标签。
步骤S350:所述多标签分类模型的第四分类模块根据所述第三分类结果,对所述场景进行二级非主体分类,获得所述待识别图像的第四分类结果,并根据所述第四分类结果,输出所述待识别图像中所述场景对应的非主体标签。
在本实施例中,第三分类模块得到待识别图像的第三分类结果后,可以将该第三分类结果输入第四分类模块,以使第四分类模块根据第三分类结果,对待识别图像的场景进行二级非主体分类,获得待识别图像的第四分类结果,然后根据第四分类结果,输出待识别图像中场景对应的非主体标签。
示例性地,如图8所示,本申请的多标签分类模型的前半部分为共享模块,后半部分直至最终的输出层分叉为两个分支,一个主体分类模块的分支输出待识别图像中所有主体类别的主体标签,另一个非主体分类模块的分支输出待识别图像中所有场景、事件类别的非主体标签。其中,该非主体分类模块由第三分类模块和第四分类模块构成,第三分类模块用于输出待识别图像中所有场景、事件类别的一级非主体标签,第四分类模块用于基于该一级非主体标签,输出待识别图像中所有场景、事件类别的二级非主体标签。从而实现非主体的精细多标签分类。
在一些实施例中,可以是在具备第四分类结果时,根据第四分类结果,输出待识别图像中场景对应的非主体标签,也即最终输出的非主体标签为二级非主体类别的标签。在不具备第四分类结果时,也可以根据第三分类结果,输出待识别图像中场景对应的非主体标签,也即最终输出的非主体标签为一级非主体类别的标签。在另一些实施例中,还可以在具备第四分类结果时,根据第四分类结果和第三分类结果,输出待识别图像中场景对应的一级非主体标签以及二级非主体标签。此处不作限定。
当然,可以理解的是,还可以是根据具体场景的需要,对非主体类别进行更多层级的分类。如第三层级的非主体分类,将第四分类模块的输出结果输入至三级分类的模块。此处不作限定。
在一些实施例中,在主体分类和非主体分类均比较复杂,种类比较多时,本申请也可以均进行第二层级的主体分类和非主体分类。示例性地,如图9所示,本申请的多标签分类模型的前半部分为共享模块,后半部分直至最终的输出层分叉为两个分支,一个主体分类模块的分支输出待识别图像中所有主体类别的主体标签,另一个非主体分类模块的分支输出待识别图像中所有场景、事件类别的非主体标签。从而实现主体的精细多标签分类。其中,该主体分类模块由第一分类模块和第二分类模块构成,以输出待识别图像中所有主体类别的二级主体标签,该非主体分类模块由第三分类模块和第四分类模块构成,以输出待识别图像中所有场景、事件类别的二级非主体标签。
步骤S360:获取所述多标签分类模型输出的所述主体标签以及所述非主体标签,作为所述待识别图像的图像识别结果。
在本申请实施例中,步骤S360可参阅前述步骤,此处不再赘述。
本申请实施例提供的图像识别方法,通过将待识别图像输入预先训练好的多标签分类模型,可以获取到多标签分类模型输出的该待识别图像对应的主体标签以及非主体标签,作为该待识别图像的图像识别结果。其中,多标签分类模型包括共享模块、主体分类模块以及非主体分类模块,非主体分类模块包括第三分类模块以及第四分类模块。将待识别图像输入共享模块,可以得到待识别图像的共享图像特征;主体分类模块根据共享图像特征,可以输出待识别图像中主体对象对应的主体标签;第三分类模块根据共享图像特征,可以对待识别图像中的场景进行一级非主体分类,获得待识别图像的第三分类结果,其中,每一类一级非主体包括至少一类二级非主体;第四分类模块根据第三分类结果,可以对该场景进行二级非主体分类,获得待识别图像的第四分类结果,并可以根据第四分类结果,输出待识别图像中场景对应的非主体标签。本申请通过多标签分类模型中的共享结构,以及将多标签分类模型中的分类任务划分为主体和非主体两大类别,不仅可以实现图像的多标签分类识别,而且还可以实现主体标签和非主体标签的同时识别,提高了图像识别的准确率。此外,在非主体分类比较复杂,种类比较多时,本申请也可以进行第二层级的非主体分类,实现非主体的精细分类,提升了多标签分类的准确度。
请参阅图10,图10示出了本申请又一个实施例提供的图像识别方法的流程示意图,所示图像识别方法具体可以包括以下步骤:
步骤S410:获取训练样本集合,所述训练样本集合包括图像样本以及与所述图像样本对应的标注样本,所述标注样本为仅标注主体的第一样本、仅标注非主体的第二样本、以及主体和非主体均标注的第三样本中的任意一种。
在本实施例中,训练多标签分类模型首先要获取模型训练的训练样本集合。训练样本集合中包括多组训练样本,一个图像样本、一个与该图像样本对应的标注样本为一组训练样本。其中,该标注样本可以是被标注有预设标签的正样本图像,也可以是被标注有非预设标签的负样本图像。
在一些实施例中,标注样本可以为仅标注主体标签的第一样本,也可以为仅标注非主体标签的第二样本,还可以是主体标签和非主体标签均标注的第三样本。此处不作限定,训练样本集合中可以是第一样本、第二样本、第三样本的任意组合。
在一些实施例中,为了提高非主体类别的识别精确度Precision,可以在对非主体类别训练时增加非主体类别的负样本。作为一种方式,当图像样本对应上述第一样本时,可以对该图像样本进行非主体标注,得到第一负样本,该第一负样本用于对多标签分类模型中共享模块以及非主体分类模块进行训练。从而非主体分类模块分支能学习到主体分类模块分支的训练数据,提高了非主体类别的识别精确度。其中,当图像样本中不存在模型训练中预设非主体标签时,在对该图像样本进行非主体标注时,可以标注空集,如此,非主体分类模块可以学习到有非预设的非主体类别的负样本图像。
同理,在一些实施例中,为了提高主体类别的识别精确度Precision,可以在对主体类别训练时增加主体类别的负样本。作为一种方式,当图像样本对应第二样本时,对图像样本进行主体标注,得到第二负样本,该第二负样本用于对多标签分类模型中共享模块以及主体分类模块进行训练。从而主体分类模块分支能学习到非主体分类模块分支的训练数据,提高了主体类别的识别精确度。其中,当图像样本中不存在模型训练中预设主体标签时,在对该图像样本进行主体标注时,可以标注空集,如此,主体分类模块可以学习到有非预设的主体类别的负样本图像。
步骤S420:将所述图像样本作为所述多标签分类模型的输入,将所述标注样本作为所述多标签分类模型的期望输出,对所述多标签分类模型进行训练,得到所述预先训练好的多标签分类模型。
在本申请实施例中,图像样本作为模型的输入,图像样本对应的标注样本作为模型的期望输出(即学习目标),从而可通过模型的实际输出和期望输出,对多标签分类模型进行训练,得到前述预先训练好的多标签分类模型。
具体地,在得到图像样本之后,可以将该图像样本输入多标签分类模型进行前向计算,得到多标签分类模型的实际输出,该实际输出为多标签分类模型预测的主体标签和非主体标签。由于将标注样本作为多标签分类模型的期望输出,因此,可以根据预测的主体标签和非主体标签,与标注样本的误差进行模型参数的更新,通过大量的迭代训练,从而得到前述预先训练好的多标签分类模型。
在一些实施例中,当图像样本对应上述第一样本时,可以认为该图像样本的标签为主体分类模块分支所包含的主体类别,此时理论上只会走共享模块至主体分类模块这一分支,训练时的模型参数的更新也会仅更新主体分类模块这一分支,因此,可以利用反向传播算法更新多标签分类模型中共享模块以及主体分类模块的参数。在一些实施例中,为了保证训练效果,可以人为控制非主体分类模块这一分支的模型参数不变。
在一些实施例中,当图像样本对应第二样本时,可以认为该图像样本的标签为非主体分类模块分支所包含的非主体类别,此时理论上只会走共享模块至非主体分类模块这一分支,训练时的模型参数的更新也会仅更新非主体分类模块这一分支,因此,利用反向传播算法更新多标签分类模型中共享模块以及非主体分类模块的参数。在一些实施例中,为了保证训练效果,可以人为控制主体分类模块这一分支的模型参数不变。
在一些实施例中,当图像样本对应第三样本时,可以认为该图像样本的标签为主体分类模块和非主体分类模块两个分支均包含的主体类别和非主体类别,此时理论上两个分支均会走,训练时的模型参数的更新也均会更新两个分支,因此,可以利用反向传播算法更新多标签分类模型中共享模块、主体分类模块以及非主体分类模块的参数。
在一些实施例中,也可以根据学习目标,自适应动态调整模型的分支节点,以使得共享模块中的特征提取层更多或者更少。请参阅图11,步骤S420可以包括:
步骤S421:获取所述多标签分类模型的实际输出。
步骤S422:当所述实际输出与所述期望输出的误差满足预设条件时,调整所述特征提取层的层数,得到新的多标签分类模型。
在多标签分类模块的训练过程中,在输入图样样本进行训练时,可以获取多标签分类模型对该图像样本的实际输出,然后计算该实际输出与期望输出(即该图像样本对应的标注样本)的误差,并判断该误差是否满足预设条件。其中,该预设条件可以是误差阈值,用于表征预测的多标签分类差距较大。当实际输出与期望输出的误差满足预设条件时,可以认为模型预测的多标签类别不准,此时可以调整共享模块中特征提取层的层数,得到新的多标签分类模型。作为一种方式,在不限定模型体积的情况下,可以是仅增加或减少特征提取层的层数。作为另一种方式,在限定模型体积的情况下,也可以是在增加或减少特征提取层的层数,减少或增加主体分类模块和非主体分类模块中相应的特征提取层的层数,相当于将模型分支点进行前移或后移。
可以理解的是,当共享模块中的共享层数越多时,主体分支模块和非主体分支模块共享的特征信息就越多,主体标签和非主体标签的划分差距就越小(相关度就越大),主体标签和非主体标签的分类就越准确;当共享模块中的共享层数越少时,主体分支模块和非主体分支模块共享的特征信息就越少,主体分支模块和非主体分支模块各自提取的特征信息就越多,类别划分的差距就越大(相关度就越小),主体标签和非主体标签的分类就越不准确。当然,在限定模型体积的情况下,共享模块中的共享层数越多,主体分类模块和非主体分类模块中的特征提取层越少,对于同一主体类别下的精细分类效果就越差。此时,虽然模型的主体和非主体标签分类的Precision得到提升,但模型的召回率会有一定降低。也就是说,当将模型分支点进行前移时,可以使模型的共享层更少,降低Precision,提升Recall,当将模型分支点进行后移时,可以使模型的共享层更多,提升Precision,降低Recall。
在一些实施例中,也可以根据具体的标注样本或者模型训练的参数,来确定模型分支点在网络结构中的位置,当图像样本中的标注样本中的类别差距较大时或者更侧重于模型召回率时,可以将模型分支点进行前移;当图像样本中的标注样本中的类别差距较小时或者更侧重于模型准确率时,可以将模型分支点进行后移。
步骤S423:对所述新的多标签分类模型进行训练。
在一些实施例中,在调整了共享模块中特征提取层的层数后,可以继续对新的多标签分类模型进行训练,重复上述流程,以实现模型的自适应动态调整。从而得到上述训练好的多标签分类模型,进而后续用于待识别图像的多标签识别。
示例性地,请参阅图12,共享模块中具备Q个特征提取层,主体分类模块中具备M个特征提取层,非主体分类模块中具备N个特征提取层时,当实际输出与所述期望输出的误差满足预设条件时,可以调整共享模块中特征提取层的层数。例如,请参阅图13,为了降低共享层数,可以将模型分支点前移,也即减少到共享模块中特征提取层至Q-a个,与此同时,主体分类模块中特征提取层增加至M+a个,非主体分类模块中特征提取层增加至N+a个。
步骤S430:获取待识别图像。
步骤S440:将所述待识别图像输入预先训练好的多标签分类模型,所述多标签分类模型包括共享模块、主体分类模块以及非主体分类模块。
步骤S450:获取所述多标签分类模型输出的所述主体标签以及所述非主体标签,作为所述待识别图像的图像识别结果。
在本申请实施例中,步骤S430~步骤S450可参阅前述步骤,此处不再赘述。
本申请实施例提供的图像识别方法,可以根据训练样本中的具体标注情况,对应训练多标签分类模型中的相应模块,可以提高模型的训练效果,保证模型的识别准确度。同时也可以根据标注情况和模型训练指标,来调整共享模块中的特征提取层的层数,实现模型的自适应调整。
请参阅图14,图14示出了本申请再一个实施例提供的图像识别方法的流程示意图,所示图像识别方法具体可以包括以下步骤:
步骤S510:获取待识别图像,所述待识别图像包括相册中的图片。
在本申请实施例中,本申请的多标签分类模型可以应用于实际应用场景中。在一些实施例中,可以应用相册的管理和搜索功能。具体地,电子设备可以获取相册中的图片作为待识别图像,以对待识别图像进行多标签识别。
步骤S520:将所述待识别图像输入预先训练好的多标签分类模型,所述多标签分类模型包括共享模块、主体分类模块以及非主体分类模块。
步骤S530:获取所述多标签分类模型输出的所述主体标签以及所述非主体标签,作为所述待识别图像的图像识别结果。
步骤S540:响应针对查看所述相册的操作,根据所述相册中每张图片的图像识别结果,生成每个主体标签以及每个非主体标签的图集。
在一些实施例中,电子设备将相册中的图片输入预先训练好的多标签分类模型,得到每张图片的图像识别结果后,可以得到每张图片的主体标签和非主体标签。电子设备可以根据每张图片的主体标签和非主体标签,进行相应的检索和管理。
作为一种方式,当用户进入相册以查看图片时,电子设备可以响应针对查看相册的操作,根据相册中每张图片的图像识别结果,生成每个主体标签以及每个非主体标签的图集,也即将相同标签的图片聚在一起。作为一种方式,可以是根据相同主体标签的图片,生成一个图集,也可以是根据相同非主体标签的图片,生成一个图集。此处不作限定。作为另一种方式,也可以是用户搜索某个标签时,可以从相册中获取到与该标签对应的所有图片,并聚在一起生成一个途径。
步骤S550:将所述图集进行展示。
电子设备在得到图集时,可以将其进行展示。作为一种方式,可以是基于标签的数量多少进行展示,也可以是基于图片的查看频率的高低进行展示,此处不作限定。
本申请实施例提供的图像识别方法,可以应用于相册中的图片,可以通过上述预先训练好的多标签分类模型输出每张图片对应的主体标签以及非主体标签,得到相册中每张图片的图像识别结果。从而在响应针对查看相册的操作时,可以根据相册中每张图片的图像识别结果,生成每个主体标签以及每个非主体标签的图集,并将该图集进行展示。本申请通过多标签分类模型中的共享结构,以及将多标签分类模型中的分类任务划分为主体和非主体两大类别,不仅可以实现相册图片的多标签分类识别,而且还可以实现主体标签和非主体标签的同时识别,提高了图像识别的准确率。从而提升了相册的管理和搜索体验。
请参阅图15,其示出了本申请实施例提供的一种图像识别装置700的结构框图,该图像识别装置700包括:图像获取模块710、图像识别模块720以及结果获取模块730。其中,图像获取模块710用于获取待识别图像;图像识别模块720用于将所述待识别图像输入预先训练好的多标签分类模型,所述多标签分类模型包括共享模块、主体分类模块以及非主体分类模块,所述共享模块用于提取所述待识别图像的共享图像特征,并分别输入至所述主体分类模块以及所述非主体分类模块,所述主体分类模块用于根据所述共享图像特征,输出所述待识别图像中主体对象对应的主体标签,所述非主体分类模块用于根据所述共享图像特征,输出所述待识别图像中场景对应的非主体标签;结果获取模块730用于获取所述多标签分类模型输出的所述主体标签以及所述非主体标签,作为所述待识别图像的图像识别结果。
在一些实施例中,上述主体分类模块可以包括第一分类模块以及第二分类模块,上述图像识别模块720可以具体用于:将所述待识别图像输入所述共享模块,得到所述待识别图像的共享图像特征;所述非主体分类模块根据所述共享图像特征,输出所述待识别图像中场景对应的非主体标签;所述第一分类模块根据所述共享图像特征,对所述待识别图像中的主体对象进行一级主体分类,获得所述待识别图像的第一分类结果,其中,每一类所述一级主体包括至少一类二级主体;所述第二分类模块根据所述第一分类结果,对所述主体对象进行二级主体分类,获得所述待识别图像的第二分类结果,并根据所述第二分类结果,输出所述待识别图像中所述主体对象对应的主体标签。
在一些实施例中,上述非主体分类模块可以包括第三分类模块以及第四分类模块,上述图像识别模块720可以具体用于:将所述待识别图像输入所述共享模块,得到所述待识别图像的共享图像特征;所述主体分类模块根据所述共享图像特征,输出所述待识别图像中主体对象对应的主体标签;所述第三分类模块根据所述共享图像特征,对所述待识别图像中的场景进行一级非主体分类,获得所述待识别图像的第三分类结果,其中,每一类所述一级非主体包括至少一类二级非主体;所述第四分类模块根据所述第三分类结果,对所述场景进行二级非主体分类,获得所述待识别图像的第四分类结果,并根据所述第四分类结果,输出所述待识别图像中所述场景对应的非主体标签。
在一些实施例中,上述图像识别装置700还可以包括:样本获取模块以及模型训练模块。其中,样本获取模块用于获取训练样本集合,所述训练样本集合包括图像样本以及与所述图像样本对应的标注样本,所述标注样本为仅标注主体的第一样本、仅标注非主体的第二样本、以及主体和非主体均标注的第三样本中的任意一种;模型训练模块用于将所述图像样本作为所述多标签分类模型的输入,将所述标注样本作为所述多标签分类模型的期望输出,对所述多标签分类模型进行训练,得到所述预先训练好的多标签分类模型。
在一些实施例中,上述样本获取模块可以具体用于:当所述图像样本对应所述第一样本时,对所述图像样本进行非主体标注,得到第一负样本,所述第一负样本用于对所述多标签分类模型中所述共享模块以及所述非主体分类模块进行训练;当所述图像样本对应所述第二样本时,对所述图像样本进行主体标注,得到第二负样本,所述第二负样本用于对所述多标签分类模型中所述共享模块以及所述主体分类模块进行训练。
在一些实施例中,上述模型训练模块可以具体用于:当所述图像样本对应所述第一样本时,利用反向传播算法更新所述多标签分类模型中所述共享模块以及所述主体分类模块的参数;当所述图像样本对应所述第二样本时,利用反向传播算法更新所述多标签分类模型中所述共享模块以及所述非主体分类模块的参数;当所述图像样本对应所述第三样本时,利用反向传播算法更新所述多标签分类模型中所述共享模块、所述主体分类模块以及所述非主体分类模块的参数。
在一些实施例中,上述模型训练模块可以具体用于:获取所述多标签分类模型的实际输出;当所述实际输出与所述期望输出的误差满足预设条件时,调整所述特征提取层的层数,得到新的多标签分类模型;对所述新的多标签分类模型进行训练。
在一些实施例中,上述待识别图像可以包括相册中的图片,该图像识别装置700还可以包括:图集生成模块以及图集展示模块。其中,图集生成模块用于响应针对查看所述相册的操作,根据所述相册中每张图片的图像识别结果,生成每个主体标签以及每个非主体标签的图集;图集展示模块用于将所述图集进行展示。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
综上所述,本申请实施例提供的图像识别装置用于实现前述方法实施例中相应的图像识别方法,并具有相应的方法实施例的有益效果,在此不再赘述。
请参考图16,其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备100可以是PC电脑、移动终端、服务器等能够运行应用程序的终端设备。本申请中的电子设备100可以包括一个或多个如下部件:处理器110、存储器120以及一个或多个应用程序,其中,一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行,一个或多个应用程序配置用于执行如前述方法实施例所描述的方法。
处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
存储器120可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
可以理解,图16所示结构仅为示例,电子设备100还可以包括比图16所示更多或更少的组件,或是具有与图16所示完全不同的配置。本申请实施例对此没有限制。
请参考图17,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (11)
1.一种图像识别方法,其特征在于,所述方法包括:
获取待识别图像;
将所述待识别图像输入预先训练好的多标签分类模型,所述多标签分类模型包括共享模块、主体分类模块以及非主体分类模块,所述共享模块用于提取所述待识别图像的共享图像特征,并分别输入至所述主体分类模块以及所述非主体分类模块,所述主体分类模块用于根据所述共享图像特征,输出所述待识别图像中主体对象对应的主体标签,所述非主体分类模块用于根据所述共享图像特征,输出所述待识别图像中场景对应的非主体标签;
获取所述多标签分类模型输出的所述主体标签以及所述非主体标签,作为所述待识别图像的图像识别结果。
2.根据权利要求1所述的方法,其特征在于,所述主体分类模块包括第一分类模块以及第二分类模块,所述将所述待识别图像输入预先训练好的多标签分类模型,包括:
将所述待识别图像输入所述共享模块,得到所述待识别图像的共享图像特征;
所述非主体分类模块根据所述共享图像特征,输出所述待识别图像中场景对应的非主体标签;
所述第一分类模块根据所述共享图像特征,对所述待识别图像中的主体对象进行一级主体分类,获得所述待识别图像的第一分类结果,其中,每一类所述一级主体包括至少一类二级主体;
所述第二分类模块根据所述第一分类结果,对所述主体对象进行二级主体分类,获得所述待识别图像的第二分类结果,并根据所述第二分类结果,输出所述待识别图像中所述主体对象对应的主体标签。
3.根据权利要求1所述的方法,其特征在于,所述非主体分类模块包括第三分类模块以及第四分类模块,所述将所述待识别图像输入预先训练好的多标签分类模型,包括:
将所述待识别图像输入所述共享模块,得到所述待识别图像的共享图像特征;
所述主体分类模块根据所述共享图像特征,输出所述待识别图像中主体对象对应的主体标签;
所述第三分类模块根据所述共享图像特征,对所述待识别图像中的场景进行一级非主体分类,获得所述待识别图像的第三分类结果,其中,每一类所述一级非主体包括至少一类二级非主体;
所述第四分类模块根据所述第三分类结果,对所述场景进行二级非主体分类,获得所述待识别图像的第四分类结果,并根据所述第四分类结果,输出所述待识别图像中所述场景对应的非主体标签。
4.根据权利要求1所述的方法,其特征在于,在所述将所述待识别图像输入预先训练好的多标签分类模型之前,所述方法还包括:
获取训练样本集合,所述训练样本集合包括图像样本以及与所述图像样本对应的标注样本,所述标注样本为仅标注主体的第一样本、仅标注非主体的第二样本、以及主体和非主体均标注的第三样本中的任意一种;
将所述图像样本作为所述多标签分类模型的输入,将所述标注样本作为所述多标签分类模型的期望输出,对所述多标签分类模型进行训练,得到所述预先训练好的多标签分类模型。
5.根据权利要求4所述的方法,其特征在于,所述获取训练样本集合,包括:
当所述图像样本对应所述第一样本时,对所述图像样本进行非主体标注,得到第一负样本,所述第一负样本用于对所述多标签分类模型中所述共享模块以及所述非主体分类模块进行训练;
当所述图像样本对应所述第二样本时,对所述图像样本进行主体标注,得到第二负样本,所述第二负样本用于对所述多标签分类模型中所述共享模块以及所述主体分类模块进行训练。
6.根据权利要求4所述的方法,其特征在于,所述对所述多标签分类模型进行训练,包括:
当所述图像样本对应所述第一样本时,利用反向传播算法更新所述多标签分类模型中所述共享模块以及所述主体分类模块的参数;
当所述图像样本对应所述第二样本时,利用反向传播算法更新所述多标签分类模型中所述共享模块以及所述非主体分类模块的参数;
当所述图像样本对应所述第三样本时,利用反向传播算法更新所述多标签分类模型中所述共享模块、所述主体分类模块以及所述非主体分类模块的参数。
7.根据权利要求4所述的方法,其特征在于,所述共享模块包括多层特征提取层,所述对所述多标签分类模型进行训练,包括:
获取所述多标签分类模型的实际输出;
当所述实际输出与所述期望输出的误差满足预设条件时,调整所述特征提取层的层数,得到新的多标签分类模型;
对所述新的多标签分类模型进行训练。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述待识别图像包括相册中的图片,在所述获取所述多标签分类模型输出的所述待识别图像对应的所述主体标签以及所述非主体标签,作为所述待识别图像的图像识别结果之后,所述方法还包括:
响应针对查看所述相册的操作,根据所述相册中每张图片的图像识别结果,生成每个主体标签以及每个非主体标签的图集;
将所述图集进行展示。
9.一种图像识别装置,其特征在于,所述装置包括:
图像获取模块,用于获取待识别图像;
图像识别模块,用于将所述待识别图像输入预先训练好的多标签分类模型,所述多标签分类模型包括共享模块、主体分类模块以及非主体分类模块,所述共享模块用于提取所述待识别图像的共享图像特征,并分别输入至所述主体分类模块以及所述非主体分类模块,所述主体分类模块用于根据所述共享图像特征,输出所述待识别图像中主体对象对应的主体标签,所述非主体分类模块用于根据所述共享图像特征,输出所述待识别图像中场景对应的非主体标签;
结果获取模块,用于获取所述多标签分类模型输出的所述主体标签以及所述非主体标签,作为所述待识别图像的图像识别结果。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行如权利要求1-8任一项所述的方法。
11.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011613926.XA CN112580750A (zh) | 2020-12-30 | 2020-12-30 | 图像识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011613926.XA CN112580750A (zh) | 2020-12-30 | 2020-12-30 | 图像识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112580750A true CN112580750A (zh) | 2021-03-30 |
Family
ID=75145199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011613926.XA Pending CN112580750A (zh) | 2020-12-30 | 2020-12-30 | 图像识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580750A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177131A (zh) * | 2021-04-09 | 2021-07-27 | 深圳时空引力科技有限公司 | 图片处理的方法、装置以及存储介质 |
CN114581706A (zh) * | 2022-03-02 | 2022-06-03 | 平安科技(深圳)有限公司 | 证件识别模型的配置方法、装置、电子设备、存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130208977A1 (en) * | 2011-11-02 | 2013-08-15 | Nec Laboratories America, Inc. | Receptive field learning for pooled image features |
CN108229519A (zh) * | 2017-02-17 | 2018-06-29 | 北京市商汤科技开发有限公司 | 图像分类的方法、装置及系统 |
CN108664924A (zh) * | 2018-05-10 | 2018-10-16 | 东南大学 | 一种基于卷积神经网络的多标签物体识别方法 |
CN110580428A (zh) * | 2018-06-08 | 2019-12-17 | Oppo广东移动通信有限公司 | 图像处理方法、装置、计算机可读存储介质和电子设备 |
CN111708913A (zh) * | 2020-08-19 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 一种标签生成方法、设备及计算机可读存储介质 |
-
2020
- 2020-12-30 CN CN202011613926.XA patent/CN112580750A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130208977A1 (en) * | 2011-11-02 | 2013-08-15 | Nec Laboratories America, Inc. | Receptive field learning for pooled image features |
CN108229519A (zh) * | 2017-02-17 | 2018-06-29 | 北京市商汤科技开发有限公司 | 图像分类的方法、装置及系统 |
CN108664924A (zh) * | 2018-05-10 | 2018-10-16 | 东南大学 | 一种基于卷积神经网络的多标签物体识别方法 |
CN110580428A (zh) * | 2018-06-08 | 2019-12-17 | Oppo广东移动通信有限公司 | 图像处理方法、装置、计算机可读存储介质和电子设备 |
CN111708913A (zh) * | 2020-08-19 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 一种标签生成方法、设备及计算机可读存储介质 |
Non-Patent Citations (5)
Title |
---|
JIAQI MA 等: "Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts", 《PROCEEDINGS OF THE 24TH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY & DATA MINING》, pages 1930 - 1939 * |
YOUCAI ZHANG 等: "Learning Cross-Modal Aligned Representation With Graph Embedding", 《IEEE ACCESS》, vol. 6, pages 77321 - 77333, XP011694513, DOI: 10.1109/ACCESS.2018.2881997 * |
吴杰 等: "基于注意力机制的行人属性识别", 《电子世界》, pages 26 - 28 * |
姚哲 等: "多源适应多标签分类框架", 《计算机工程与应用》, pages 88 - 96 * |
薛致远: "基于卷积神经网络的人群计数方法研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑(月刊)》, no. 1, pages 138 - 1797 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113177131A (zh) * | 2021-04-09 | 2021-07-27 | 深圳时空引力科技有限公司 | 图片处理的方法、装置以及存储介质 |
CN114581706A (zh) * | 2022-03-02 | 2022-06-03 | 平安科技(深圳)有限公司 | 证件识别模型的配置方法、装置、电子设备、存储介质 |
CN114581706B (zh) * | 2022-03-02 | 2024-03-08 | 平安科技(深圳)有限公司 | 证件识别模型的配置方法、装置、电子设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368893B (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN112232293B (zh) | 图像处理模型训练、图像处理方法及相关设备 | |
CN109173263B (zh) | 一种图像数据处理方法和装置 | |
CN107993191A (zh) | 一种图像处理方法和装置 | |
CN112381104B (zh) | 一种图像识别方法、装置、计算机设备及存储介质 | |
CN112990390B (zh) | 一种图像识别模型的训练方法、图像识别的方法及装置 | |
CN111340131A (zh) | 图像的标注方法、装置、可读介质和电子设备 | |
CN111739027B (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
CN106611015B (zh) | 标签的处理方法及装置 | |
CN113704531A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN112287994A (zh) | 伪标签处理方法、装置、设备及计算机可读存储介质 | |
CN112328823A (zh) | 多标签分类模型的训练方法、装置、电子设备及存储介质 | |
CN113627402B (zh) | 一种图像识别方法及相关装置 | |
CN114399644A (zh) | 一种基于小样本目标检测方法及装置 | |
JP6787831B2 (ja) | 検索結果による学習が可能な対象検出装置、検出モデル生成装置、プログラム及び方法 | |
CN112418327A (zh) | 图像分类模型的训练方法、装置、电子设备以及存储介质 | |
CN112580750A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN111652181A (zh) | 目标跟踪方法、装置及电子设备 | |
CN109963072B (zh) | 对焦方法、装置、存储介质及电子设备 | |
CN109977875A (zh) | 基于深度学习的手势识别方法及设备 | |
CN113780532B (zh) | 语义分割网络的训练方法、装置、设备及存储介质 | |
CN110909797B (zh) | 图像检测方法以及装置、设备、存储介质 | |
CN115761529B (zh) | 图像处理方法和电子设备 | |
CN112069342A (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN116958729A (zh) | 对象分类模型的训练、对象分类方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |