CN109871457A - 基于图像的数据处理方法、装置、电子设备和存储介质 - Google Patents

基于图像的数据处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN109871457A
CN109871457A CN201910094119.2A CN201910094119A CN109871457A CN 109871457 A CN109871457 A CN 109871457A CN 201910094119 A CN201910094119 A CN 201910094119A CN 109871457 A CN109871457 A CN 109871457A
Authority
CN
China
Prior art keywords
correlation
degree
image
attribute
inquiry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910094119.2A
Other languages
English (en)
Inventor
黄苹苹
乔敏
李盈
黄剑辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910094119.2A priority Critical patent/CN109871457A/zh
Publication of CN109871457A publication Critical patent/CN109871457A/zh
Priority to EP19210667.2A priority patent/EP3690673A1/en
Priority to US16/690,387 priority patent/US11314800B2/en
Priority to KR1020190150445A priority patent/KR102279126B1/ko
Priority to JP2019210904A priority patent/JP6997161B2/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本公开的实施例提供了一种基于图像的数据处理方法、装置、电子设备和计算机可读存储介质。在该方法中,响应于关于图像所输入的查询,基于对象与属性之间的预定映射来确定与图像中呈现的对象相关联的属性。此外,基于对象和属性来确定对象与查询之间的相关度。进一步地,基于对象与查询之间的相关度来提供查询的响应。本公开的实施例可以提高基于图像的数据处理系统的性能。

Description

基于图像的数据处理方法、装置、电子设备和存储介质
技术领域
本公开的实施例一般地涉及信息处理技术领域,并且更特别地,涉及一种基于图像的数据处理方法、装置、电子设备和计算机可读存储介质。
背景技术
视觉问答(VQA)是一种涉及计算机视觉和自然语言处理的信息处理技术。视觉问答系统通常以某个图像和关于该图像的形式自由的、开放式的自然语言问题作为输入,以生成针对该问题的自然语言答案作为输出。这样的问题可以认为是用户关于图像的一种查询,而视觉问答系统提供的答案可以认为是针对该查询的响应。因此,用户可以向视觉问答系统输入图像,然后向视觉问答系统提出关于该图像的查询。在视觉问答系统给出响应后,用户可以判断该响应是否正确,由此来考察视觉问答系统对图像的理解能力。更一般地,视觉问答系统可以认为是一种基于图像的数据处理系统。
然而,传统的基于图像的数据处理系统提供的响应在准确率方面仍然较低,在很多场合下无法满足用户的需求,造成了不良的用户体验。
发明内容
本公开的实施例涉及一种基于图像的数据处理方法、装置、电子设备和计算机可读存储介质。
在本公开的第一方面,提供了一种基于图像的数据处理方法。该方法包括:响应于关于图像所输入的查询,基于对象与属性之间的预定映射,来确定与图像中呈现的对象相关联的属性。该方法还包括:基于对象和属性来确定对象与查询之间的相关度。该方法进一步包括:基于相关度来提供查询的响应。
在本公开的第二方面,提供了一种基于图像的数据处理装置。该装置包括:属性确定模块,被配置为响应于关于图像所输入的查询,基于对象与属性之间的预定映射,来确定与图像中呈现的对象相关联的属性。该装置还包括:相关度确定模块,被配置为基于对象和属性来确定对象与查询之间的相关度。该装置进一步包括:响应提供模块,被配置为基于相关度来提供查询的响应。
在本公开的第三方面,提供了一种电子设备。该电子设备包括一个或多个处理器;以及存储装置,用于存储一个或多个程序。当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现第一方面的方法。
在本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其他特征通过以下的描述将变得容易理解。
附图说明
通过参考附图阅读下文的详细描述,本公开的实施例的上述以及其他目的、特征和优点将变得容易理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施例,其中:
图1A-图1C示出了用于由基于图像的数据处理系统来处理的三个示例性图像;
图2A-图2C示出了采用注意力机制的传统方案的基于图像的数据处理系统的关注区域的示意图;
图3示出了本公开的一些实施例能够在其中实现的示例环境的示意图;
图4示出了根据本公开的实施例的基于图像的数据处理的方法的示意性流程图;
图5A-图5C示出了根据本公开的实施例的基于图像的数据处理系统的关注区域的示意图;
图6示出了根据本公开的实施例的示例性基于图像的数据处理系统的结构框图;
图7示出了根据本公开的实施例的用于基于图像的数据处理的装置的示意性框图;以及
图8示出了一种可以被用来实施本公开的实施例的设备的示意性框图。
贯穿所有附图,相同或者相似的参考标号被用来表示相同或者相似的组件。
具体实施方式
下面将参考附图中所示出的若干示例性实施例来描述本公开的原理和精神。应当理解,描述这些具体的实施例仅是为了使本领域的技术人员能够更好地理解并实现本公开,而并非以任何方式限制本公开的范围。
如上文提到的,传统的基于图像的数据处理系统提供的响应在准确率方面仍然较低,在很多场合下无法满足用户的需求,造成了不良的用户体验。发明人通过研究发现,传统的基于图像的数据处理系统的响应准确率低的主要原因之一在于,传统的基于图像的数据处理系统在回答用户的查询的过程中不能准确地确定图像中应当关注的对象,从而造成基于图像的数据处理系统输出错误的响应。下面通过示例的方式对此进行详细说明。
图1A-图1C示出了用于由基于图像的数据处理系统来处理的三个示例性图像。如图1A所示,图像110中呈现了一个人物的形象,该人物穿戴有领带112和裤子114。举例而言,用户针对图像110所输入的查询可能是“他的领带和裤子搭配吗?”如图1B所示,图像120中呈现了若干不同的水果,包括香蕉122和菠萝124等。举例而言,用户针对图像120所输入的查询可能是“黄色的水果是什么?”将理解,尽管这里示出的图像120是无色的,但是在实际的场景中,图像120呈现的水果可以是带有色彩的。如图1C所示,图像130中呈现了一张床及相关物品,包括床头132和枕头134等。举例而言,用户针对图像130所输入的查询可能是“床头是软的吗?”。
应当理解,这里给出的图像110-130以及针对它们的具体查询仅是示例性的,无意以任何方式限制本公开的范围。在其他实施例中,由基于图像的数据处理系统来处理的图像可以是呈现任何对象的任何图像,而用户针对图像提出的查询可以是关于图像中呈现的对象的任何查询。也即,本公开的实施例可以适用于任何可以由基于图像的数据处理系统来处理的图像和查询。
关于图1A-图1C中的图像110、图像120、图像130以及针对它们提出的上述查询,一些传统的基于图像的数据处理系统的处理过程是先对图像和查询分别抽取特征,然后对两者的特征进行多模态融合,最终经过分类器输出查询的响应。但是,图像中往往包含着各式各样、复杂冗余的物体和场景,这给基于图像的数据处理系统对图像的理解带来了很大的挑战。因此,通过上述传统方式对图像提取全局特征,然后再与查询特征进行多模态融合的效果较差。
在另外的一些传统的基于图像的数据处理系统中,为了缩小对图像信息的搜索范围,以将更多的计算资源放在关键对象上,基于图像的数据处理系统可以采用注意力机制。具体地,借助于对象检测算法,基于图像的数据处理系统可以筛选出图像中显著的若干物体(例如,对象检测算法置信度分数最高的前36个物体),并且提取这些对象的特征代替全局图像特征来与查询特征进行多模态融合。
针对这种采用注意力机制的传统的基于图像的数据处理系统,发明人通过一种通用的可视化方法,对其关注区域进行了可视化的分析和研究。通过该研究,发明人发现这种传统的基于图像的数据处理系统在某些情况下的关注焦点偏离了查询的原意,这最终导致基于图像的数据处理系统给出错误的响应。下面结合图2A-图2C对此进行详细说明。
图2A-图2C示出了采用注意力机制的传统方案的基于图像的数据处理系统的关注区域的示意图。如图2A所示,关于图像110,传统方案的基于图像的数据处理系统更多地关注于区域210和区域220,而这些区域没有包括用户的查询中涉及到的领带112。如图2B所示,关于图像120,传统方案的基于图像的数据处理系统更多地关注于区域230和区域240,而这些区域没有包括用户的查询中涉及到的香蕉122。如图2C所示,关于图像130,传统方案的基于图像的数据处理系统更多地关注于区域250和区域260,而这些区域没有包括用户的查询中涉及到的床头132。将理解,这里的区域210-260的特定数目、大小和形状仅是示意性的,以帮助读者理解基于图像的数据处理系统的关注区域,而无意以任何方式限制本公开的范围。在其他的实施例中,基于图像的数据处理系统可以关注于图像中的任何数目、任何大小和任何形状的区域。
从图2A-图2C可以看出,传统的基于图像的数据处理系统关注的区域与查询之间缺少相关性,从而导致基于图像的数据处理系统输出错误的响应。造成这种情况的根本原因是,传统的注意力机制没有将对象检测算法所提供的显著对象信息与用户的查询进行有效的融合与联系,导致基于图像的数据处理系统仍然不确定将关注的焦点具体放在哪个或哪些对象上。因此,虽然传统方法采用了注意力机制,通过对象检测算法引入了图像中最显著的对象信息,但是在很多情况下,这种基于图像的数据处理系统仍然无法提供正确的响应。
鉴于传统方案中存在的上述问题以及其他潜在的问题,本公开的实施例提出了一种基于图像的数据处理的方法、装置、电子设备和计算机可读存储介质,用以改进基于图像的数据处理系统的注意力机制和关注焦点,从而提高基于图像的数据处理系统提供的响应的准确率。
在一些实施例中,所提出的基于图像的数据处理系统不仅利用对象检测算法来提供对象的特征信息,还确定对象与查询的相关度。例如,基于图像的数据处理系统可以引入这些对象及其属性的组合(也称为类别标签),并将这些类别标签转化成与查询特征相同维度的特征表示。然后,基于图像的数据处理系统通过对每个对象的类别标签特征与查询特征进行相似度计算,以得到每个对象与查询的相关度。
此外,基于图像的数据处理系统根据对象与查询的相关度来设置对象的关注权重。例如,对象的关注权重越大,代表基于图像的数据处理系统在确定查询的响应时对该对象的关注程度越高,从而改进基于图像的数据处理系统的关注焦点的准确性。下面结合附图来描述本公开的若干实施例。
图3示出了本公开的一些实施例能够在其中实现的示例环境300的示意图。如图3所示,在示例环境300中,用户(未示出)可以将图像305和关于图像305的查询310输入到计算设备330中。计算设备330可以从图像305中识别出对象315。如本文中使用的,图像305中的对象315可以是指图像305中呈现的任何物体,例如具有一定形状和大小的物体,诸如建筑物、人体、动物等。在其他情况下,对象315也可以是没有固定形状和大小的事物,例如天空、草地、云朵等。更为一般地,对象315可以是通过当前的或未来开发的任何对象识别技术能够从图像305中识别出的任何对象。
在识别出对象315之后,计算设备330可以确定对象315的属性320。如本文中使用的,属性320可以是指对象315通常具有的某种性质,例如,对象315的颜色或状态等。在对象315是人物的情况下,对象315的状态可以是指该人物是站立的或其他状态等。更为一般地,属性320可以是指对象315在图像305中可以表现出来的任何性质。由于该性质可以通过图像305表现出来,所以用户针对对象315的查询310可能涉及到对象315的该性质。
继续参考图3,在确定对象315的属性320之后,计算设备330可以利用对象315和属性320来确定对象315与查询310之间的相关度。也即,计算设备330确定查询310是否与对象315有关以及相关联的程度。例如,如果查询310中直接提到了对象315或属性320,这通常表示查询310与对象315具有很高的相关度。又例如,如果查询310中提到了与对象315或属性320相近或相似的对象或属性,这也可能表示查询310与对象315具有较高的相关度。
在确定对象315与查询310的相关度之后,计算设备330可以基于该相关度来提供针对查询310的响应340。例如,计算设备330可以针对图像305中呈现的多个对象分别确定它们与查询310的相关度,然后在提供响应340的过程中更多地关注于具有较高相关度的对象,而更少地关注于具有较低相关度的对象。将理解,除了针对查询310的明确回答之外,这里的响应340还可以包括其他各种形式的对查询310的回应。例如,响应340可以是向用户指示计算设备330无法提供针对查询310的明确回答,或其他任何回应信息。
将理解,计算设备330可以是任意类型的移动终端、固定终端或便携式终端,包括移动电话、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。还预见到的是,计算设备330能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。下面结合图4来描述根据本公开的实施例的基于图像的数据处理的示例操作。
图4示出了根据本公开的实施例的基于图像的数据处理的方法400的示意性流程图。在一些实施例中,方法400可以由图3的计算设备330来实现,例如可以由计算设备330的处理器或处理单元来实现。在其他实施例中,方法400的全部或部分也可以由独立于计算设备系统330的计算设备来实现,或者可以由示例环境300中的其他单元来实现。为便于讨论,将结合图3来描述方法400。
在410处,响应于关于图像305所输入的查询310,计算设备330基于对象与属性之间的预定映射,来确定与图像305中呈现的对象315相关联的属性320。在一些实施例中,计算设备330可以通过任何已有的或未来开发的对象检测算法来检测图像310中的对象315。在检测出对象315之后,计算设备330可以确定对象315是否与查询310存在相关性,以确定在提供响应340时是否应当考虑对象315以及多大程度地考虑对象315。在确定这种相关性时,除了对象315本身之外,计算设备330还将利用对象315的属性320,原因解释如下。
在一些情况下,查询310中可能直接提到对象315,这表明查询310是与对象315有关的。在另一些情况下,查询310中可能并不直接涉及对象315,而是涉及对象315的某种属性。例如,在上文针对图像120的查询“黄色物体是什么?”中,该查询没有直接提到图像中的对象(例如,香蕉122),但是涉及到香蕉122的属性(颜色为黄色)。也就是说,在查询310涉及到对象315的属性320的情况下,计算设备330也可以认为查询310是与对象315有关的。因此,在用户针对图像305输入了查询310之后,计算设备330首先在图像305中检测出对象315及其属性320。具体地,计算设备330可以通过对象与属性之间的预定映射来确定属性320。例如,这种预定映射可能基于先验的知识,诸如香蕉通常是黄色的,而苹果通常是红色的,等等。
在一些实施例中,为了确定对象315的属性320,计算设备330可以基于对象315从预定义的数据集中来获得属性320。例如,该数据集可以包括从多个图像预先标注出的对象和属性,诸如视觉基因组(Visual Genome)数据集,其例如包含从10万个图像中预先标注出的1600个实体名称标签和400个属性标签。通过这样的方式,计算设备330可以充分利用已经良好建立的呈现在预先标注的图像上的对象和属性的预定关系,因此减少了基于对象来确定其属性的计算复杂性。
在420处,计算设备330基于对象315和属性320来确定对象315与查询310之间的相关度。如上文提到的,如果查询310直接涉及到对象315本身或其属性320,这可以表明查询310与对象315具有很高的相关度。在更为一般的情况下,计算设备330可以通过确定查询310中的描述单位与对象315和属性320的相关度,来确定对象315与查询310的相关性。例如,这里的描述单位可以是指查询310中的词语、词组、句子、任何其他适当的描述单位、或它们的任何组合。
在确定查询310的描述单位与对象315之间的相关性时,计算设备330可以确定对象315和属性320的组合的第一特征表示。例如,对象315和属性320的这种组合(在本文中也可以称为对象315的类别标签)可以是“黄色的香蕉”、“黑色的钢笔”、“站立的猴子”,等等。计算设备330可以通过词语与特征之间的预定义映射表,将对象315的类别标签转化为特定维度(例如,300维)的第一特征表示。
接着,计算设备330可以确定与查询310中的至少一个描述单位相对应的至少一个第二特征表示。例如,计算设备330可以从查询310中提取出特定数目(诸如14个)的词语。在该示例数目的情况下,计算设备330可以基于将对象315的类别标签特征化时使用的相同的词语与特征之间的预定义映射表,将这14个词语转换成14个第二特征表示。应当理解,这里使用的各种具体数目、具体对象和具体属性仅是示例性的,无意以任何方式限制本公开的范围。在其他实施例中,对象315和属性320可以是任何适当的对象和相关联的属性,计算设备330也可以从查询310中确定任何适当数目的描述单位。
然后,计算设备330可以基于对象315的类别标签的第一特征表示和查询310的至少一个第二特征表示,来获得对象315与查询310之间的相关度。在仅存在一个第二特征表示的情况下,计算设备330可以直接在计算第一特征表示和第二特征表示之间的相似度(例如,余弦相似度),从而确定对象315与查询310之间的相关度。通过该的方式,计算设备330可以通过数值计算的方式来量化对象315与查询310之间的相关度。
在存在多个第二特征表示的情况下,计算设备330可以计算第一特征表示分别与多个第二特征表示之间的多个相似度。然后,计算设备330可以基于计算得出的多个相似度来得出对象315与查询310之间的相关度。通过该方式,计算设备330可以综合考虑对象315的特征表示与查询310的多个描述单位的特征表示之间的相似性,从而可以更准确地确定对象315与查询310之间的相关度。例如,计算设备330可以选择多个相似度中的最大值、中间值、平均值、加权值、其他任何适合的计算值、或它们的任何组合来作为对象315与查询310之间的相关度。这样,计算设备330可以使用不同的计算方式来处理得到的多个相似度,从而调整最终得出的相关度的准确性和合理性。
在430处,计算设备330基于对象315与查询310之间的相关度来提供查询的响应340。例如,如果计算设备330确定对象315与查询310具有较高的相关度,则相对于图像305中的与查询310具有较低相关度的其他对象,计算设备330在确定响应340时应当更多地考虑对象315。反之,如果计算设备330确定对象315与查询310具有较低的相关度,则相对于图像305中的与查询310具有较高相关度的其他对象,计算设备330在确定响应340时应当更少地考虑对象315。
在一些实施例中,为了量化计算设备330在确定响应340时对于对象315的考虑程度,计算设备330可以基于对象315与查询310之间的相关度来确定对象315的权重。该权重可以指示计算设备330在确定响应340时对象315的重要程度。在确定该权重之后,计算设备330可以基于该权重来确定响应340的内容。通过这种方式,计算设备330可以为图像305中的多个不同的对象设置不同的权重,从而改进计算设备330在确定响应340的过程中的关注焦点,最终提高响应340的准确率。
图5A-图5C示出了根据本公开的实施例的基于图像的数据处理系统的关注区域的示意图。如图5A所示,关于图像110,根据本公开的实施例的基于图像的数据处理系统可以关注于区域510和区域520,而区域510中包括查询中涉及到的领带112。如图5B所示,关于图像120,根据本公开的实施例的基于图像的数据处理系统可以关注于区域530和区域540,而区域540中包括查询中涉及到的香蕉122。如图5C所示,关于图像130,根据本公开的实施例的基于图像的数据处理系统可以关注于区域550和区域560,而区域550中包括查询中涉及到的床头132。将理解,这里的区域510-560的特定数目、大小和形状仅是示意性的,用以帮助读者理解基于图像的数据处理系统的关注区域,而无意以任何方式限制本公开的范围。在其他的实施例中,基于图像的数据处理系统可以关注于图像中的任何数目、任何大小和任何形状的区域。
从图5A-图5C可以看出,根据本公开的实施例的基于图像的数据处理系统有效地纠正了错误的关注焦点,并且给出了正确的响应。由此可见,本公开的实施例通过引入图像中的对象的类别标签,在图像与查询之间建立了更直接的联系,有助于更精确地找到图像中最应受到关注的区域,从而减轻或消除了传统的基于图像的数据处理系统的关注焦点偏离的问题。例如,本公开的实施例强化了查询与图像之间的相关性关系,帮助基于图像的数据处理系统正确找到关注区域,从而有效地提高了基于图像的数据处理系统的性能。
图6示出了根据本公开的实施例的示例性基于图像的数据处理系统600的结构框图。将理解,示例性基于图像的数据处理系统600可以是实现本公开的实施例的一种示例结构,而无意以任何方式限制本公开的范围。在其他实施例中,本公开的实施例可以采用任何适当的系统结构被实施在计算设备330中,或其他任何具有计算能力的设备中。
如图6所示,系统600可以认为具有三路输入。具体地,第一路输入将查询310的文本输入到词嵌入模块610中以转换为词向量。例如,词嵌入模块610可以根据“词语—特征”映射表,将查询310中的每个词语转化成特定维度(例如,300维)的特征表示。然后,特征提取模块625可以基于查询310的词向量表示来提取查询310的特征。在一些实施例中,特征提取模块625可以基于门控循环单元(GRU)来实现。
第二路输入首先通过对象检测算法在输入的图像305中提取最显著的数目k(k为自然数)个对象。特征提取模块615可以将每个显著对象用预定维度(例如,2048维)的卷积神经网络(CNN)特征来表示。权重计算模块630可以将例如14×300维度的查询特征与例如k×2048(k一般取值36)维度的图像特征进行多模态融合,从而得到k个对象的关注权重。注意到,权重计算模块630是基于图像305与查询310的特征表示来计算对象权重,此处的对象权重没有考虑到对象与查询310之间的相关度。然后,加权求和模块640可以将权重计算模块630计算出的关注权重与来自下文将描述的第三路输入的基于对象与查询310之间的相关性所确定的对象关注权重相加。
第三路输入是图像中呈现的对象的类别标签605,每个对象的类别标签可以是“属性+实体名称”的组合。如上文提到的,这些类别标签可以来自于视觉基因组数据集。具体地,在k个对象的类别标签(可以与第二路输入的图像中的对象特征顺序一致)被输入之后,词嵌入模块620可以根据“词语—特征”映射表,将每个对象的类别标签转化为预定维度(例如,300维)的特征表示。相关性计算模块635可以对查询310的预定数目的(例如14个)词语特征与图像的k个对象的类别标签特征分别计算余弦相似度,公式如下:
其中A、B可以分别表示对象的类别标签特征和查询310的一个词语特征,上面公式(1)中的similarity表示所计算的余弦相似度。通过公式(1),可以得到一个k×14维的余弦相似度矩阵。然后,可以从该余弦相似度矩阵的每行中选取一个最大值(即,对每个对象类别标签,从该类别标签的对应的预定数目的余弦相似度中选择最大值),以作为该类别标签(即,对象)的关注权重。最终可以得到k×1维的关注权重。
此外,加权求和模块640可以将第三路输入中得到的k个对象的关注权重与由权重计算模块630计算得到的对象的关注权重相加,然后将相加后的关注权重提供给响应计算模块645。响应计算模块645可以基于多个对象的关注权重来输出最终的响应340。例如,响应计算模块645可以计算多个候选查询响应的分数,将分数最高的候选响应作为最终的响应内容。
图7示出了根据本公开的实施例的用于基于图像的数据处理的装置700的示意性框图。在一些实施例中,装置700可以被包括在图3的计算设备330中或者被实现为计算设备330。
如图7所示,装置700包括属性确定模块710、相关度确定模块720和响应提供模块730。属性确定模块710被配置为响应于关于图像所输入的查询,基于对象与属性之间的预定映射,来确定与图像中呈现的对象相关联的属性。相关度确定模块720被配置为基于对象和属性,来确定对象与查询之间的相关度。响应提供模块730被配置为基于相关度来提供查询的响应。
在一些实施例中,属性确定模块710包括:属性获得模块,被配置为基于对象从预定义的数据集中获得属性,数据集包括从多个图像预先标注出的对象和属性。
在一些实施例中,相关度确定模块720包括:第一特征表示确定模块,被配置为确定对象和属性的组合的第一特征表示;第二特征表示确定模块,被配置为确定与查询中的至少一个描述单位相对应的至少一个第二特征表示;以及相关度获得模块,被配置为基于第一特征表示和至少一个第二特征表示,来获得相关度。
在一些实施例中,至少一个第二特征表示包括多个第二特征表示,并且相关度获得模块包括:相似度计算模块,被配置为计算第一特征表示分别与多个第二特征表示之间的多个相似度;以及相关度得出模块,被配置为基于多个相似度来得出相关度。
在一些实施例中,相关度得出模块包括:选择模块,被配置为选择多个相似度中的最大值、中间值、平均值、加权值中的至少一项作为相关度。
在一些实施例中,响应提供模块730包括:权重确定模块,被配置为基于相关度来确定对象的权重,权重指示对象在确定响应时的重要程度;以及响应确定模块,被配置为基于对象的权重来确定响应的内容。
图8示意性地示出了一种可以被用来实施本公开的实施例的设备800的框图。如图8中所示出的,设备800包括中央处理单元(CPU)801,其可以根据存储在只读存储设备(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储设备(RAM)803中的计算机程序指令,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如方法400可由处理单元801来执行。例如,在一些实施例中,方法400可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序被加载到RAM803并由CPU 801执行时,可以执行上文描述的方法400的一个或多个步骤。
如本文所使用的,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。本文还可能包括其他明确的和隐含的定义。
如本文所使用的,术语“确定”涵盖各种各样的动作。例如,“确定”可以包括运算、计算、处理、导出、调查、查找(例如,在表格、数据库或另一数据结构中查找)、查明等。此外,“确定”可以包括接收(例如,接收信息)、访问(例如,访问存储器中的数据)等。此外,“确定”可以包括解析、选择、选取、建立等。
应当注意,本公开的实施例可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。
此外,尽管在附图中以特定顺序描述了本公开的方法的操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤组合为一个步骤执行,和/或将一个步骤分解为多个步骤执行。还应当注意,根据本公开的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
虽然已经参考若干具体实施例描述了本公开,但是应当理解,本公开不限于所公开的具体实施例。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等效布置。

Claims (14)

1.一种基于图像的数据处理方法,包括:
响应于关于图像所输入的查询,基于对象与属性之间的预定映射,来确定与所述图像中呈现的对象相关联的属性;
基于所述对象和所述属性,来确定所述对象与所述查询之间的相关度;以及
基于所述相关度来提供所述查询的响应。
2.根据权利要求1所述的方法,其中确定所述属性包括:
基于所述对象从预定义的数据集中获得所述属性,所述数据集包括从多个图像预先标注出的对象和属性。
3.根据权利要求1所述的方法,其中确定所述相关度包括:
确定所述对象和所述属性的组合的第一特征表示;
确定与所述查询中的至少一个描述单位相对应的至少一个第二特征表示;以及
基于所述第一特征表示和所述至少一个第二特征表示,来获得所述相关度。
4.根据权利要求3所述的方法,其中所述至少一个第二特征表示包括多个第二特征表示,并且其中获得所述相关度包括:
计算所述第一特征表示分别与所述多个第二特征表示之间的多个相似度;以及
基于所述多个相似度来得出所述相关度。
5.根据权利要求4所述的方法,其中得出所述相关度包括:
选择所述多个相似度中的最大值、中间值、平均值、加权值中的至少一项作为所述相关度。
6.根据权利要求1所述的方法,其中提供所述响应包括:
基于所述相关度来确定所述对象的权重,所述权重指示所述对象在确定所述响应时的重要程度;以及
基于所述对象的所述权重来确定所述响应的内容。
7.一种基于图像的数据处理装置,包括:
属性确定模块,被配置为响应于关于图像所输入的查询,基于对象与属性之间的预定映射,来确定与所述图像中呈现的对象相关联的属性;
相关度确定模块,被配置为基于所述对象和所述属性,来确定所述对象与所述查询之间的相关度;以及
响应提供模块,被配置为基于所述相关度来提供所述查询的响应。
8.根据权利要求7所述的装置,其中所述属性确定模块包括:
属性获得模块,被配置为基于所述对象从预定义的数据集中获得所述属性,所述数据集包括从多个图像预先标注出的对象和属性。
9.根据权利要求7所述的装置,其中所述相关度确定模块包括:
第一特征表示确定模块,被配置为确定所述对象和所述属性的组合的第一特征表示;
第二特征表示确定模块,被配置为确定与所述查询中的至少一个描述单位相对应的至少一个第二特征表示;以及
相关度获得模块,被配置为基于所述第一特征表示和所述至少一个第二特征表示,来获得所述相关度。
10.根据权利要求9所述的装置,其中所述至少一个第二特征表示包括多个第二特征表示,并且其中所述相关度获得模块包括:
相似度计算模块,被配置为计算所述第一特征表示分别与所述多个第二特征表示之间的多个相似度;以及
相关度得出模块,被配置为基于所述多个相似度来得出所述相关度。
11.根据权利要求10所述的装置,其中所述相关度得出模块包括:
选择模块,被配置为选择所述多个相似度中的最大值、中间值、平均值、加权值中的至少一项作为所述相关度。
12.根据权利要求7所述的装置,其中所述响应提供模块包括:
权重确定模块,被配置为基于所述相关度来确定所述对象的权重,所述权重指示所述对象在确定所述响应时的重要程度;以及
响应确定模块,被配置为基于所述对象的所述权重来确定所述响应的内容。
13.一种电子设备,包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-6中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如权利要求1-6中任一项所述的方法。
CN201910094119.2A 2019-01-30 2019-01-30 基于图像的数据处理方法、装置、电子设备和存储介质 Pending CN109871457A (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201910094119.2A CN109871457A (zh) 2019-01-30 2019-01-30 基于图像的数据处理方法、装置、电子设备和存储介质
EP19210667.2A EP3690673A1 (en) 2019-01-30 2019-11-21 Method, apparatus, electronic device, and storage medium for image-based data processing
US16/690,387 US11314800B2 (en) 2019-01-30 2019-11-21 Method, apparatus, electronic device, and storage medium for image-based data processing
KR1020190150445A KR102279126B1 (ko) 2019-01-30 2019-11-21 이미지 기반의 데이터 처리 방법, 장치, 전자 기기 및 저장 매체
JP2019210904A JP6997161B2 (ja) 2019-01-30 2019-11-21 画像に基づくデータ処理方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910094119.2A CN109871457A (zh) 2019-01-30 2019-01-30 基于图像的数据处理方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN109871457A true CN109871457A (zh) 2019-06-11

Family

ID=66918287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910094119.2A Pending CN109871457A (zh) 2019-01-30 2019-01-30 基于图像的数据处理方法、装置、电子设备和存储介质

Country Status (5)

Country Link
US (1) US11314800B2 (zh)
EP (1) EP3690673A1 (zh)
JP (1) JP6997161B2 (zh)
KR (1) KR102279126B1 (zh)
CN (1) CN109871457A (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12045288B1 (en) * 2020-09-24 2024-07-23 Amazon Technologies, Inc. Natural language selection of objects in image data
CN112288512B (zh) * 2020-10-09 2024-07-16 北京三快在线科技有限公司 信息处理方法、装置、电子设备及可读存储介质
JP7481995B2 (ja) * 2020-10-28 2024-05-13 株式会社東芝 状態判定装置、方法およびプログラム
US11769018B2 (en) * 2020-11-24 2023-09-26 Openstream Inc. System and method for temporal attention behavioral analysis of multi-modal conversations in a question and answer system
KR102259009B1 (ko) * 2021-02-26 2021-06-01 아이오크롭스 주식회사 수확 대상 과실 판단 방법 및 과실 수확 장치
CN113722458B (zh) * 2021-08-27 2024-09-06 海信电子科技(武汉)有限公司 视觉问答处理方法、设备、计算机可读介质和程序产品
CN114840697B (zh) * 2022-04-14 2024-04-26 山东大学 一种云服务机器人的视觉问答方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169111A (zh) * 2017-05-19 2017-09-15 深圳市唯特视科技有限公司 一种在视觉问答场景中提高问题前提可信度的方法
CN108228703A (zh) * 2017-10-31 2018-06-29 北京市商汤科技开发有限公司 图像问答方法、装置、系统和存储介质
CN108446404A (zh) * 2018-03-30 2018-08-24 中国科学院自动化研究所 面向无约束视觉问答指向问题的检索方法及系统
CN109241267A (zh) * 2018-09-27 2019-01-18 北京百度网讯科技有限公司 生成vqa系统的训练数据的方法、装置、设备和介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240423B1 (en) * 1998-04-22 2001-05-29 Nec Usa Inc. Method and system for image querying using region based and boundary based image matching
JP5089482B2 (ja) * 2008-05-12 2012-12-05 キヤノン株式会社 情報処理装置、データ処理方法およびプログラム
US8903198B2 (en) * 2011-06-03 2014-12-02 International Business Machines Corporation Image ranking based on attribute correlation
US8811727B2 (en) * 2012-06-15 2014-08-19 Moataz A. Rashad Mohamed Methods for efficient classifier training for accurate object recognition in images and video
US9536178B2 (en) * 2012-06-15 2017-01-03 Vufind, Inc. System and method for structuring a large scale object recognition engine to maximize recognition accuracy and emulate human visual cortex
JP5963609B2 (ja) 2012-08-23 2016-08-03 キヤノン株式会社 画像処理装置、画像処理方法
US10909329B2 (en) 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering
US10534810B1 (en) * 2015-05-21 2020-01-14 Google Llc Computerized systems and methods for enriching a knowledge base for search queries
US9965705B2 (en) 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
CN106933867B (zh) * 2015-12-30 2020-02-21 杭州华为企业通信技术有限公司 一种图像查询方法和装置
JP2017220019A (ja) 2016-06-07 2017-12-14 日本電信電話株式会社 画像検索装置、方法、及びプログラム
JP6751684B2 (ja) 2017-03-28 2020-09-09 株式会社Nttドコモ 類似画像検索装置
US10719744B2 (en) * 2017-12-28 2020-07-21 Intel Corporation Automated semantic inference of visual features and scenes

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169111A (zh) * 2017-05-19 2017-09-15 深圳市唯特视科技有限公司 一种在视觉问答场景中提高问题前提可信度的方法
CN108228703A (zh) * 2017-10-31 2018-06-29 北京市商汤科技开发有限公司 图像问答方法、装置、系统和存储介质
CN108446404A (zh) * 2018-03-30 2018-08-24 中国科学院自动化研究所 面向无约束视觉问答指向问题的检索方法及系统
CN109241267A (zh) * 2018-09-27 2019-01-18 北京百度网讯科技有限公司 生成vqa系统的训练数据的方法、装置、设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李庆: ""基于深度神经网络和注意力机制的图像问答研究"", 《万方》 *

Also Published As

Publication number Publication date
KR102279126B1 (ko) 2021-07-19
US20200242152A1 (en) 2020-07-30
EP3690673A1 (en) 2020-08-05
US11314800B2 (en) 2022-04-26
JP2020123319A (ja) 2020-08-13
JP6997161B2 (ja) 2022-01-17
KR20200094624A (ko) 2020-08-07

Similar Documents

Publication Publication Date Title
CN109871457A (zh) 基于图像的数据处理方法、装置、电子设备和存储介质
US10599709B2 (en) Object recognition device, object recognition method, and program for recognizing an object in an image based on tag information
US9430719B2 (en) System and method for providing objectified image renderings using recognition information from images
WO2021169347A1 (zh) 提取文本关键字的方法及装置
US8897505B2 (en) System and method for enabling the use of captured images through recognition
US7809192B2 (en) System and method for recognizing objects from images and identifying relevancy amongst images and information
Ahsan et al. Multi-modal image captioning for the visually impaired
CN109740447A (zh) 基于人工智能的通信方法、设备及可读存储介质
CN110516096A (zh) 合成感知数字图像搜索
WO2018196718A1 (zh) 图像消歧方法、装置、存储介质和电子设备
CN101305368A (zh) 语义可视搜索引擎
CN108228844A (zh) 一种图片筛选方法及装置、存储介质、计算机设备
CN113515942A (zh) 文本处理方法、装置、计算机设备及存储介质
CN101236609A (zh) 用于分析并确定文档中信息的相关性的装置和方法
WO2023280106A1 (zh) 信息获取方法、装置、设备及介质
CN109241299A (zh) 多媒体资源搜索方法、装置、存储介质及设备
CN111339737A (zh) 实体链接方法、装置、设备及存储介质
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
JP2019197534A (ja) 文書及びテーブルの周囲の人物の検出に基づく文書及び人物を検索するためのシステム、方法並びにプログラム
CN118113901A (zh) 多模态大语言模型训练方法、相关性计算及标签生成方法
CN112446214A (zh) 广告关键词的生成方法、装置、设备及存储介质
WO2023168997A9 (zh) 一种跨模态搜索方法及相关设备
CN114510942A (zh) 获取实体词的方法、模型的训练方法、装置及设备
CN110933519A (zh) 一种基于多路特征的记忆网络视频摘要方法
CN114445878B (zh) 基于ar眼镜的信息提示方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination