CN113792175A - 一种基于细粒度特征提取的图像理解方法 - Google Patents

一种基于细粒度特征提取的图像理解方法 Download PDF

Info

Publication number
CN113792175A
CN113792175A CN202110967584.XA CN202110967584A CN113792175A CN 113792175 A CN113792175 A CN 113792175A CN 202110967584 A CN202110967584 A CN 202110967584A CN 113792175 A CN113792175 A CN 113792175A
Authority
CN
China
Prior art keywords
image
feature extraction
fine
area
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110967584.XA
Other languages
English (en)
Inventor
俞文心
张志强
丁劲皓
凌德玉
车璐
龚俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University of Science and Technology
Original Assignee
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology filed Critical Southwest University of Science and Technology
Priority to CN202110967584.XA priority Critical patent/CN113792175A/zh
Publication of CN113792175A publication Critical patent/CN113792175A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于细粒度特征提取的图像理解方法,包括步骤:对输入图像进行特征提取;基于提取特征进行图像子区域定位,对每一个子定位区域提取对应的区域特征;然后基于所述区域特征生成各自的区域描述信息;将所有区域描述信息进行统一的整合生成针对于输入图像内容的长文本描述。本发明采用细粒度的特征提取方式实现更准确的区域定位从而促进区域内容描述的准确性。同时本发明对所有合成的图像区域内容描述进行统一的整合并生成几句更高准确度的长文本描述,提高图像充分理解技术的实用性。同时本发明也能够使机器更好的理解图像内容并为人类提供更好的服务,这对于促进机器更加智能具有重大作用。

Description

一种基于细粒度特征提取的图像理解方法
技术领域
本发明属于图像处理技术领域,特别是涉及一种基于细粒度特征提取的图像理解方法。
背景技术
图像理解是根据图像给出能够描述图像内容的自然语言语句,它类似于看图说话,即直接描述看到的图像内容。图像理解技术的本质是从视觉到语言的翻译,这对于人类来说是一件比较简单的任务,但对于机器来说却极具挑战。与人类直接看到的图像、文本信息不同,机器接收到的信息都是二进制的数据,在它看来并无明显区别,因此让它在两种不同形式的信息之间进行翻译是十分困难的。近几年随着人工智能中深度学习技术的发展,结合深度卷积神经网络和循环神经网络的技术在图像理解方面取得了成功。对于输入的图像,该技术能够生成较为准确的文本描述。图像理解技术目前正朝着全方位理解的方向去发展,即对输入图像的各个区域内容进行文本描述从而实现图像内容的充分理解。图像充分理解技术能够较好的帮助人们更好的理解图像内容,发现一些人们不易观察到的细节内容。这对于提高图像理解技术的实用性以及推广相关图像理解系统和软件均具有良好的促进作用。
现有的大多数图像理解技术最大的缺点在于只能基于输入的图像生成一句对应的文本描述,这使得当前的技术对图像内容理解程度有限从而不具有良好的实用性。当前有些方法能够基于输入的图像进行密集的文本生成,即先对输入图像的显著性区域进行定位,然后对每个定位的区域内容进行文本描述从而实现图像的充分理解。然后当前的这种做法在区域内容描述的准确率上仍有进一步提升的空间,另一方面当前的区域描述内容均为简单的短语,缺少对所有区域描述进行有效整合。这些使得当前图像充分理解技术的实用效果较差。
发明内容
为了解决上述问题,本发明提出了一种基于细粒度特征提取的图像理解方法,采用细粒度的特征提取方式实现更准确的区域定位从而促进区域内容描述的准确性。同时本发明对所有合成的图像区域内容描述进行统一的整合并生成几句更高准确度的长文本描述,提高图像充分理解技术的实用性。同时本发明也能够使机器更好的理解图像内容并为人类提供更好的服务,这对于促进机器更加智能具有重大作用。
为达到上述目的,本发明采用的技术方案是:一种基于细粒度特征提取的图像理解方法,包括步骤:
S10,对输入图像进行特征提取;
S20,基于提取特征进行图像子区域定位,对每一个子定位区域提取对应的区域特征;然后基于所述区域特征生成各自的区域描述信息;
S30,将所有区域描述信息进行统一的整合生成针对于输入图像内容的长文本描述。
进一步的是,在所述步骤S10中:利用卷积神经网络对对输入图像进行特征提取,获取输入图像的特征。
进一步的是,在所述步骤S20中:通过区域建议网络将输入图像的特征进行图像子区域定位。
进一步的是,在所述步骤S20中:对每个子定位区域通过卷积神经网络进行区域特征提取。
进一步的是,在所述步骤S20中:对每个子定位区域的区域特征通过循环神经网络生成各自的区域描述信息。
进一步的是,在步骤S30中,将所有区域描述信息进行统一的整合生成针对于输入图像内容的长文本描述,包括步骤:对第i个长文本描述的生成是在第i个区域描述信息的基础上使用其他所有的区域描述去合成的。
进一步的是,利用卷积神经网络将所有区域描述信息进行统一的整合生成针对于输入图像内容的长文本描述。
采用本技术方案的有益效果:
本发明使用细粒度的特征提取方法去提升图像理解的准确率,对图像充分理解后的密集区域内容描述进行了统一性的整合,基于将这些区域描述内容去生成多句准确度更高的长文本描述。本发明在提高图像理解的准确率的同时大幅度提高了图像理解技术的实用性,能够起到辅助人们更好理解图像内容的作用。
本发明能够很好的帮助人们更快更准确的理解图像的所有内容,这可以让人们节省图像全部内容理解的时间。如此就能够更好的推广图像理解系统和软件。
附图说明
图1为本发明的一种基于细粒度特征提取的图像理解方法流程示意图;
图2为本发明实施例中一种基于细粒度特征提取的图像理解方法的原理示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步阐述。
在本实施例中,参见图1和图2所示,本发明提出了一种基于细粒度特征提取的图像理解方法,包括步骤:
S10,对输入图像进行特征提取;
S20,基于提取特征进行图像子区域定位,对每一个子定位区域提取对应的区域特征;然后基于所述区域特征生成各自的区域描述信息;
S30,将所有区域描述信息进行统一的整合生成针对于输入图像内容的长文本描述。
作为上述实施例的优化方案,在所述步骤S10中:利用卷积神经网络对对输入图像进行特征提取,获取输入图像的特征。
作为上述实施例的优化方案,在所述步骤S20中:通过区域建议网络将输入图像的特征进行图像子区域定位;对每个子定位区域通过卷积神经网络进行区域特征提取;对每个子定位区域的区域特征通过循环神经网络生成各自的区域描述信息。
图像特征提取、区域定位、区域特征提取和区域描述生成的具体过程如式:
fea_image=CNN(I);
L=RPN(fea_image);
fea_reigon_i=CNN(li);
cap_reigon_i=RNN(fea_reigon_i)。
其中I表示输入的图像;fea_image表示提取到的图像特征;L表示区域定位的结果;li表示的是第i个定位区域;fea_reigon_i和cap_reigon_i分别表示第i个区域对应的特征和生成的区域描述;CNN、RPN和RNN分别表示卷积神经网络、区域建议网络和循环神经网络。
作为上述实施例的优化方案,在步骤S30中,将所有区域描述信息进行统一的整合生成针对于输入图像内容的长文本描述,包括步骤:对第i个长文本描述的生成是在第i个区域描述信息的基础上使用其他所有的区域描述去合成的。这样做的好处在于可以在有针对性的前提下充分利用所有的区域描述内容去生成更为准确的图像理解结果。
利用卷积神经网络将所有区域描述信息进行统一的整合生成针对于输入图像内容的长文本描述。
具体的统一整合过程如式:
long_cap_i=RNN(cap_reigon_1,...,cap_reigon_(i-1),cap_reigon_(i+1),...,cap_reigon_n|cap_reigon_i)。
第i个长文本描述的生成是在第i个区域描述的基础上使用其他所有的区域描述去合成的。这样做的好处在于可以在有针对性的前提下充分利用所有的区域描述内容去生成更为准确的图像理解结果。
具体实施例可采用:
一、图像理解系统
提供网页系欸按的图像理解系统,在系统中用户可以上传图像,然后系统根据上传的图像自动生成对应的文本内容并展示在网页之中。以这种方式帮助人们快速理解图像的所有内容。
二、图像理解软件
该软件包含两个部分:图像理解、图像剖析。
采用本发明形成的图像理解软件允许用户在软件之中选择本地的图像,然后软件可以自动合成对应的文本描述结果。生成的文本结果将直接在软件之中进行展示从而让用户快速理解到图像的内容。同时用户可以选择图像剖析功能,软件可以展示在生成文本描述过程中的阶段性结果,即展示图像中的显著区域定位结果、每个定位区域的描述内容以及基于区域描述内容生成的几句长文本结果。这种方式可以让用户充分的理解到图像中包含哪些重要区域以及重要区域的内容,同时还可以了解到图像的整体内容。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.一种基于细粒度特征提取的图像理解方法,其特征在于,包括步骤:
S10,对输入图像进行特征提取;
S20,基于提取特征进行图像子区域定位,对每一个子定位区域提取对应的区域特征;然后基于所述区域特征生成各自的区域描述信息;
S30,将所有区域描述信息进行统一的整合生成针对于输入图像内容的长文本描述。
2.根据权利要求1所述的一种基于细粒度特征提取的图像理解方法,其特征在于,在所述步骤S10中:利用卷积神经网络对对输入图像进行特征提取,获取输入图像的特征。
3.根据权利要求2所述的一种基于细粒度特征提取的图像理解方法,其特征在于,在所述步骤S20中:通过区域建议网络将输入图像的特征进行图像子区域定位。
4.根据权利要求3所述的一种基于细粒度特征提取的图像理解方法,其特征在于,在所述步骤S20中:对每个子定位区域通过卷积神经网络进行区域特征提取。
5.根据权利要求4所述的一种基于细粒度特征提取的图像理解方法,其特征在于,在所述步骤S20中:对每个子定位区域的区域特征通过循环神经网络生成各自的区域描述信息。
6.根据权利要求1-5中任一所述的一种基于细粒度特征提取的图像理解方法,其特征在于,在步骤S30中,将所有区域描述信息进行统一的整合生成针对于输入图像内容的长文本描述,包括步骤:对第i个长文本描述的生成是在第i个区域描述信息的基础上使用其他所有的区域描述去合成的。
7.根据权利要求6所述的一种基于细粒度特征提取的图像理解方法,其特征在于,利用卷积神经网络将所有区域描述信息进行统一的整合生成针对于输入图像内容的长文本描述。
CN202110967584.XA 2021-08-23 2021-08-23 一种基于细粒度特征提取的图像理解方法 Pending CN113792175A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110967584.XA CN113792175A (zh) 2021-08-23 2021-08-23 一种基于细粒度特征提取的图像理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110967584.XA CN113792175A (zh) 2021-08-23 2021-08-23 一种基于细粒度特征提取的图像理解方法

Publications (1)

Publication Number Publication Date
CN113792175A true CN113792175A (zh) 2021-12-14

Family

ID=78876292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110967584.XA Pending CN113792175A (zh) 2021-08-23 2021-08-23 一种基于细粒度特征提取的图像理解方法

Country Status (1)

Country Link
CN (1) CN113792175A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018147431A (ja) * 2017-03-09 2018-09-20 コニカミノルタ株式会社 画像認識装置及び画像認識方法
CN109543699A (zh) * 2018-11-28 2019-03-29 北方工业大学 一种基于目标检测的图像摘要生成方法
CN109740585A (zh) * 2018-03-28 2019-05-10 北京字节跳动网络技术有限公司 一种文本定位方法及装置
CN110851627A (zh) * 2019-09-24 2020-02-28 昆明理工大学 一种用于描述全日面图像中太阳黑子群的方法
CN111462282A (zh) * 2020-04-02 2020-07-28 哈尔滨工程大学 一种场景图生成方法
CN111723789A (zh) * 2020-02-19 2020-09-29 王春宝 一种基于深度学习的图像文本坐标定位方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018147431A (ja) * 2017-03-09 2018-09-20 コニカミノルタ株式会社 画像認識装置及び画像認識方法
CN109740585A (zh) * 2018-03-28 2019-05-10 北京字节跳动网络技术有限公司 一种文本定位方法及装置
CN109543699A (zh) * 2018-11-28 2019-03-29 北方工业大学 一种基于目标检测的图像摘要生成方法
CN110851627A (zh) * 2019-09-24 2020-02-28 昆明理工大学 一种用于描述全日面图像中太阳黑子群的方法
CN111723789A (zh) * 2020-02-19 2020-09-29 王春宝 一种基于深度学习的图像文本坐标定位方法
CN111462282A (zh) * 2020-04-02 2020-07-28 哈尔滨工程大学 一种场景图生成方法

Similar Documents

Publication Publication Date Title
CN112230772B (zh) 一种虚实融合的教具自动生成方法
Sridhar et al. Include: A large scale dataset for indian sign language recognition
US20240054767A1 (en) Multi-modal Model Training Method, Apparatus and Device, and Storage Medium
CN110446063B (zh) 视频封面的生成方法、装置及电子设备
CN111652202B (zh) 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其系统
CN108090400A (zh) 一种图像文本识别的方法和装置
CN109543165B (zh) 基于循环卷积注意力模型的文本生成方法及装置
CN105631468A (zh) 一种基于rnn的图片描述自动生成方法
CN115294427A (zh) 一种基于迁移学习的风格化图像描述生成方法
CN111143617A (zh) 一种图片或视频文本描述自动生成方法及系统
CN114972929B (zh) 一种医学多模态模型的预训练方法及装置
CN111475656A (zh) 基于外部知识聚合的视觉问答方法及系统
CN111046148A (zh) 智能交互系统及智能客服机器人
US20230082715A1 (en) Method for training image processing model, image processing method, apparatus, electronic device, and computer program product
US20210117723A1 (en) Method and system for auto multiple image captioning
CN111553138B (zh) 用于规范内容结构文档的辅助写作方法及装置
CN110969137A (zh) 家居图像描述生成方法、装置、系统及存储介质
CN112801217B (zh) 文本相似度判断方法、装置、电子设备以及可读存储介质
CN111881900B (zh) 语料生成、翻译模型训练、翻译方法、装置、设备及介质
CN113792175A (zh) 一种基于细粒度特征提取的图像理解方法
CN110019768B (zh) 生成文本摘要的方法及装置
CN112084788A (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
CN112528680B (zh) 语料扩充方法及系统
CN114331932A (zh) 目标图像生成方法和装置、计算设备以及计算机存储介质
CN111161737A (zh) 数据处理方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211214

RJ01 Rejection of invention patent application after publication