CN113223018A - 细粒度图像分析处理方法 - Google Patents

细粒度图像分析处理方法 Download PDF

Info

Publication number
CN113223018A
CN113223018A CN202110560210.6A CN202110560210A CN113223018A CN 113223018 A CN113223018 A CN 113223018A CN 202110560210 A CN202110560210 A CN 202110560210A CN 113223018 A CN113223018 A CN 113223018A
Authority
CN
China
Prior art keywords
fine
grained
processing method
analysis processing
image analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110560210.6A
Other languages
English (en)
Inventor
郭伶伶
陈菁菁
王勇
李璜玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sinyada Technology Co ltd
Original Assignee
Sinyada Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sinyada Technology Co ltd filed Critical Sinyada Technology Co ltd
Priority to CN202110560210.6A priority Critical patent/CN113223018A/zh
Publication of CN113223018A publication Critical patent/CN113223018A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Abstract

本发明公开了一种细粒度图像分析处理方法,包含以下步骤:S1:将带有标记的图像输入到全连接分割网络对其进行训练。S2:获取待分类图像。S3:将待分类图像输入训练好的全连接分割网络得到多个区域。S4:构造包含多个分支的细粒度分类模型。S5:通过细粒度分类模型抽取每个区域对应的卷积特征描述子。S6:对卷积特征描述子进行选择。S7:将各分支最终获得的卷积特征描述子融合以生成包含物体级信息和细粒度信息的综合特征表示。通过本发明的细粒度图像分析处理方法,对卷积特征描述子进行选择,提高了新增类别时的自适应性。本发明的细粒度图像分析处理方法,能够提高复杂开放环境下新增类别时细粒度图像语义分析的自适应性和可泛化能力。

Description

细粒度图像分析处理方法
技术领域
本发明涉及一种细粒度图像分析处理方法。
背景技术
细粒度视觉分析问题是计算机视觉领域一项极具挑战的研究课题,其目标是对细粒度级别图像、视频和文本等媒体中的物体子类进行定位、识别及检索等,其在生物多样性自动监测、气候变化评估、智能零售、智能交通和互联网信息监测等领域中具有广泛的应用价值。由于子类别间细微的类间差异和较大的类内差异,
传统的分类和检索算法不得不依赖于大量的人工标注信息,严重制约了算法的实用性。
近年来,随着深度学习技术的发展,各类深度神经网络模型为细粒度视觉分类带来了新的机遇,但相关研究和应用仍然面临严峻的挑战。细粒度视觉分析涉及两类子问题,一是图像标记的粒度非常细微(如鸟的众多不同子类,或车的不同子类);二是对细粒度级别图像而言,即使是属于同一子类的图像本身也具有形态、姿势、颜色、背景等巨大差异。因此,如何准确定位到具有分辨力的关键区域,以及从检测到的关键区域中提取细粒度特征是该研究主题的重点和难点。同时,细粒度视觉推理综合了图像处理和自然语言理解技术,是一个典型的多领域交叉的研究方向。通过接收图像和用自然语言描述的问题作为输入,给出用自然语言描述的答案的系统。细粒度视觉推理所研究的问题和视觉问答很相似,只是细粒度视觉推理所涉及到的问题更加复杂,需要更多相互依赖的有序的推理步骤才能解决问题。
发明内容
本发明提供了一种细粒度图像分析处理方法,采用如下的技术方案:
一种细粒度图像分析处理方法,包含以下步骤:
将带有标记的图像输入到全连接分割网络对其进行训练;
获取待分类图像;
将待分类图像输入训练好的全连接分割网络得到多个区域;
构造包含多个分支的细粒度分类模型;
通过细粒度分类模型抽取每个区域对应的卷积特征描述子;
对卷积特征描述子进行选择;
将各分支最终获得的卷积特征描述子融合以生成包含物体级信息和细粒度信息的综合特征表示。
进一步地,细粒度分类模型的分支的数量与多个区域的区域数量相对应。
进一步地,多个区域包含背景区域和若干部件区域。
进一步地,对卷积特征描述子进行选择得具体方法为:
丢弃表示背景区域的卷积特征描述子,保留表示部件的卷积特征描述子。
进一步地,对卷积特征描述子进行选择得具体方法还包括:
表示物体部件的卷积特征描述子在不同语义分支以掩码对应的权重保留。
进一步地,背景区域和若干部件区域附有对应的置信度值;
在将各分支最终获得的卷积特征描述子融合以生成包含物体级信息和细粒度信息的综合特征表示的过程中将置信度值作为融合计算参数之一。
进一步地,在获取待分类图像之后,细粒度图像分析处理方法还包含视觉推理步骤;
视觉推理步骤具体包含:
提取待分类图像的语义表征;
提取问题的问题表征;
通过细粒度视觉推理深度神经网络处理语义表征和问题表征得到问题的答案。
进一步地,提取待分类图像的语义表征的具体方法为:
将待分类图像的实体分割出来;
利用神经网络提取每个实体的属性;
根据提取出的属性构建出语义表征。
进一步地,提取问题的问题表征的具体方法为:
通过循环神经网络将问题的自然语言问句映射到向量空间形成问题表征。
进一步地,循环神经网络为长短期记忆网络;
通过长短期记忆网络将问题的自然语言问句映射到向量空间形成问题表征。
本发明的有益之处在于所提供的细粒度图像分析处理方法,能够提高复杂开放环境下新增类别时细粒度图像语义分析的自适应性和可泛化能力。
本发明的有益之处还在于所提供的细粒度图像分析处理方法,在视觉推理任务中引入了更高层级的知识表征形式——语义表征来提升图像推理流程的透明度,解决推理可解释性不足的问题。
附图说明
图1是本发明的细粒度图像分析处理方法的示意图;
图2是本发明的全连接分割网络分割图像的示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示为本发明的一种细粒度图像分析处理方法,其主要包含以下步骤:S1:将带有标记的图像输入到全连接分割网络对其进行训练。S2:获取待分类图像。S3:将待分类图像输入训练好的全连接分割网络得到多个区域。S4:构造包含多个分支的细粒度分类模型。S5:通过细粒度分类模型抽取每个区域对应的卷积特征描述子。S6:对卷积特征描述子进行选择。S7:将各分支最终获得的卷积特征描述子融合以生成包含物体级信息和细粒度信息的综合特征表示。通过本发明的细粒度图像分析处理方法,对卷积特征描述子进行选择,提高了新增类别时的自适应性。以下具体介绍上述步骤。
对于步骤S1:将带有标记的图像输入到全连接分割网络对其进行训练。
首先,选择训练图像集,对训练图像集进行标记,再将标记好的图像输入到全连接分隔网络对其进行训练。
对于步骤S2:获取待分类图像。
对于步骤S3:将待分类图像输入训练好的全连接分割网络得到多个区域。
在本发明中,全连接分割网络分隔的区域与训练图像集的标记直接对应,即对训练图像集的标记直接决定了全连接分割网络的分隔结果。在本发明中,多个区域包含背景区域和若干部件区域。全连接分割网络训练完毕后即可预测待分类图像中的部件区域与背景区域。如图2所示,在本发明中,以鸟类图像进行说明,在预测过程中,全连接分割网络可对待分类图像返回三张与原图大小等大的类别置信图,分别对应“头部”、“躯干”和“背景”。三张图中每个位置对应的三个数值之和为一,同时该数值可被同时视作对应类别的预测置信度以供后续卷积特征描述子融合使用。
对于步骤S4:构造包含多个分支的细粒度分类模型。
在完成细粒度分割的基础上,进一步构造包含多个分支的细粒度分类模型。细粒度分类模型的分支的数量与多个区域的区域数量相对应。在本发明中,进一步构造包含三个分支的细粒度分类模型。
对于步骤S5:通过细粒度分类模型抽取每个区域对应的卷积特征描述子。
通过细粒度分类模型抽取每个区域对应的卷积特征描述子。其中。细粒度分类模型中对应于传统卷积神经网络的全连接层被去掉以便于抽取其卷积层的输出特征作为卷积特征描述子。
对于步骤S6:对卷积特征描述子进行选择。
对卷积特征描述子进行选择得具体方法为:丢弃表示背景区域的卷积特征描述子,保留表示部件的卷积特征描述子。表示物体部件的卷积特征描述子在不同语义分支以掩码对应的权重保留。
对于步骤S7:将各分支最终获得的卷积特征描述子融合以生成包含物体级信息和细粒度信息的综合特征表示。
如步骤S3中所述,背景区域和若干部件区域附有对应的置信度值。在将各分支最终获得的卷积特征描述子融合以生成包含物体级信息和细粒度信息的综合特征表示的过程中将置信度值作为融合计算参数之一。在此基础上,使用基于显著性的无监督部件划分策略来提升特征的判别能力,使用图像显著度特性来自动学习类内形状较大差异对象的细粒度特征,进一步提升细粒度图像分析的自适应性。同时,针对新旧类别的样本不均衡问题所带来的负面影响,允许模型在不断到来的新数据上持续更新的学习策略,是学习一个一致的细粒度图像分类器,能够在每个阶段训练结束时对当前观测到的所有类别进行判别。
作为一种优选的实施方式,在获取待分类图像之后,细粒度图像分析处理方法还包含视觉推理步骤。具体地,视觉推理步骤具体包含:提取待分类图像的语义表征。提取问题的问题表征。通过细粒度视觉推理深度神经网络处理语义表征和问题表征得到问题的答案。
作为一种优选的实施方式,提取待分类图像的语义表征的具体方法为:在图像语义表征提取环节,根据语义网络的结构特性,将待分类图像的实体利用目标检测技术检测并分割出来,并利用神经网络提取每个实体的属性,再根据提取出的属性构建出语义表征。其中,卷积神经网络提取出的图像特征将不直接作为输入,而是在此基础上构建出空间复杂度低的能够表征图像足够多信息的语义表征。这里的语义表征指的是更高层次的、省去了不相关细节的、抽象的、结构化、概念化的知识表示形式,是以语义网络形式存在的。而语义网络是一种以网络的形式的知识表征形式,被广泛应用于知识图谱和自然语言处理等领域。通常而言,语义网络是一个表达知识、描述语义信息的有向图。语义网络的优点在于相较于神经网络的黑盒系统,其可以更加地清晰而精准地表达出概念的语义关系,和人类的语义记忆和联想方式很相似。此外,语义网络对其他系统而言也是透明可读的,这有便于在不同的系统之间传递信息。在推理环节还可以直接利用语义网络本身的结构来进行关系检索,可以简化推理模型复杂度,提升视觉推理的可解释性。
作为一种优选的实施方式,提取问题的问题表征的具体方法为:通过循环神经网络将问题的自然语言问句映射到向量空间形成问题表征。具体地,循环神经网络为长短期记忆网络。通过长短期记忆网络将问题的自然语言问句映射到向量空间形成问题表征,再和提取出的图像语义表征共同作为后续推理模型的输入。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (10)

1.一种细粒度图像分析处理方法,其特征在于,包含以下步骤:
将带有标记的图像输入到全连接分割网络对其进行训练;
获取待分类图像;
将所述待分类图像输入训练好的所述全连接分割网络得到多个区域;
构造包含多个分支的细粒度分类模型;
通过所述细粒度分类模型抽取每个区域对应的卷积特征描述子;
对所述卷积特征描述子进行选择;
将各分支最终获得的所述卷积特征描述子融合以生成包含物体级信息和细粒度信息的综合特征表示。
2.根据权利要求1所述的细粒度图像分析处理方法,其特征在于,
所述细粒度分类模型的分支的数量与所述多个区域的区域数量相对应。
3.根据权利要求1所述的细粒度图像分析处理方法,其特征在于,
所述多个区域包含背景区域和若干部件区域。
4.根据权利要求3所述的细粒度图像分析处理方法,其特征在于,
所述对所述卷积特征描述子进行选择得具体方法为:
丢弃表示背景区域的所述卷积特征描述子,保留表示部件的所述卷积特征描述子。
5.根据权利要求4所述的细粒度图像分析处理方法,其特征在于,
所述对所述卷积特征描述子进行选择得具体方法还包括:
表示物体部件的所述卷积特征描述子在不同语义分支以掩码对应的权重保留。
6.根据权利要求5所述的细粒度图像分析处理方法,其特征在于,
所述背景区域和若干所述部件区域附有对应的置信度值;
在所述将各分支最终获得的所述卷积特征描述子融合以生成包含物体级信息和细粒度信息的综合特征表示的过程中将所述置信度值作为融合计算参数之一。
7.根据权利要求1所述的细粒度图像分析处理方法,其特征在于,
在获取待分类图像之后,所述细粒度图像分析处理方法还包含视觉推理步骤;
所述视觉推理步骤具体包含:
提取所述待分类图像的语义表征;
提取问题的问题表征;
通过细粒度视觉推理深度神经网络处理所述语义表征和所述问题表征得到问题的答案。
8.根据权利要求7所述的细粒度图像分析处理方法,其特征在于,
所述提取所述待分类图像的语义表征的具体方法为:
将所述待分类图像的实体分割出来;
利用神经网络提取每个实体的属性;
根据提取出的所述属性构建出所述语义表征。
9.根据权利要求8所述的细粒度图像分析处理方法,其特征在于,
所述提取问题的问题表征的具体方法为:
通过循环神经网络将问题的自然语言问句映射到向量空间形成所述问题表征。
10.根据权利要求9所述的细粒度图像分析处理方法,其特征在于,
所述循环神经网络为长短期记忆网络;
通过所述长短期记忆网络将问题的自然语言问句映射到向量空间形成所述问题表征。
CN202110560210.6A 2021-05-21 2021-05-21 细粒度图像分析处理方法 Pending CN113223018A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110560210.6A CN113223018A (zh) 2021-05-21 2021-05-21 细粒度图像分析处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110560210.6A CN113223018A (zh) 2021-05-21 2021-05-21 细粒度图像分析处理方法

Publications (1)

Publication Number Publication Date
CN113223018A true CN113223018A (zh) 2021-08-06

Family

ID=77098006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110560210.6A Pending CN113223018A (zh) 2021-05-21 2021-05-21 细粒度图像分析处理方法

Country Status (1)

Country Link
CN (1) CN113223018A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452896A (zh) * 2023-06-16 2023-07-18 中国科学技术大学 用于提升细粒度图像分类性能的方法、系统、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110043A (zh) * 2019-04-11 2019-08-09 中山大学 一种多跳视觉问题推理模型及其推理方法
CN110717431A (zh) * 2019-09-27 2020-01-21 华侨大学 一种结合多视角注意力机制的细粒度视觉问答方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110043A (zh) * 2019-04-11 2019-08-09 中山大学 一种多跳视觉问题推理模型及其推理方法
CN110717431A (zh) * 2019-09-27 2020-01-21 华侨大学 一种结合多视角注意力机制的细粒度视觉问答方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIU-SHEN WEI 等: ""Mask-CNN: Localizing parts and selecting descriptors for fine-grained bird species categorization"", 《PATTERN RECOGNITION》 *
倪旭彬: "基于语义网络的图像信息表征和视觉推理", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
张迪雅: ""面向视觉问答的图像处理技术研究"", 《万方数据》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116452896A (zh) * 2023-06-16 2023-07-18 中国科学技术大学 用于提升细粒度图像分类性能的方法、系统、设备及介质
CN116452896B (zh) * 2023-06-16 2023-10-20 中国科学技术大学 用于提升细粒度图像分类性能的方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
Han et al. A unified metric learning-based framework for co-saliency detection
CN107133569B (zh) 基于泛化多标记学习的监控视频多粒度标注方法
Seguí et al. Learning to count with deep object features
CN108830285B (zh) 一种基于Faster-RCNN的加强学习的目标检测方法
Lee et al. Learning the easy things first: Self-paced visual category discovery
CN109002834B (zh) 基于多模态表征的细粒度图像分类方法
Agarwal et al. Learning to detect objects in images via a sparse, part-based representation
CN112131978B (zh) 一种视频分类方法、装置、电子设备和存储介质
CN105574550A (zh) 一种车辆识别方法及装置
CN109919106B (zh) 渐进式目标精细识别与描述方法
CN102385592B (zh) 图像概念的检测方法和装置
CN113378676A (zh) 基于多特征融合的图像中人物交互检测方法
CN111125406A (zh) 一种基于自适应聚类学习的视觉关系检测方法
Ajagbe et al. Investigating the efficiency of deep learning models in bioinspired object detection
CN112749738B (zh) 一种融合上下文进行超类推理的零样本对象检测方法
CN114241260A (zh) 一种基于深度神经网络的开集目标检测与识别方法
CN111523421A (zh) 基于深度学习融合各种交互信息的多人行为检测方法及系统
CN114821014A (zh) 基于多模态与对抗学习的多任务目标检测识别方法及装置
CN113870254B (zh) 目标对象的检测方法、装置、电子设备及存储介质
CN113223018A (zh) 细粒度图像分析处理方法
Shishkin et al. Implementation of yolov5 for detection and classification of microplastics and microorganisms in marine environment
CN114022698A (zh) 一种基于二叉树结构的多标签行为识别方法及装置
CN112818175A (zh) 一种厂区工作人员搜索方法及人员识别模型的训练方法
CN112598056A (zh) 一种基于屏幕监控的软件识别方法
Ma Research on intelligent evaluation system of sports training based on video image acquisition and scene semantics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210806

RJ01 Rejection of invention patent application after publication