CN108205684B

CN108205684B - 图像消歧方法、装置、存储介质和电子设备

Info

Publication number: CN108205684B
Application number: CN201710278676.0A
Authority: CN
Inventors: 汤晓鸥; 李亦宁; 黄琛; 吕健勤
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-04-25
Filing date: 2017-04-25
Publication date: 2022-02-11
Anticipated expiration: 2037-04-25
Also published as: WO2018196718A1; US20200057925A1; CN108205684A; US11144800B2

Abstract

本发明实施例提供了一种图像消歧方法、装置、存储介质和电子设备，其中，所述方法包括：对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别，得到N个K维语义特征概率向量，其中，所述图像集合包括N个图像，N和K均为正整数，且N大于或等于2；根据所述N个K维语义特征概率向量确定差异特征组合，所述差异特征组合用于描述图像集合中各图像相似目标之间的区别；根据所述差异特征组合和所述图像集合中的各图像的图像特征，生成用于表示或提示所述图像集合中各图像中相似目标的区别的自然语言。本发明实施例提升了图像消歧的效果。

Description

图像消歧方法、装置、存储介质和电子设备

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种图像消歧方法、装置、存储介质和电子设备。

背景技术

近年来，随着人工智能技术的普及与发展，利用计算机对图像进行处理被应用到越来越多的场景当中。图像消歧作为一种图像处理手段能够为用户提供很多方便，例如对包含相似目标的图像进行处理，目的是对图像中的相似目标进行区分。

发明内容

本发明实施例提供了图像消歧方法、装置、存储介质和电子设备技术方案。

根据本发明实施例的第一方面，提供了一种图像消歧方法，包括：对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别，得到N个K维语义特征概率向量，其中，所述图像集合包括N个图像，N和K均为正整数，且N大于或等于2；根据所述N个K维语义特征概率向量确定差异特征组合，所述差异特征组合用于描述图像集合中各图像相似目标之间的区别；根据所述差异特征组合和所述图像集合中的各图像的图像特征，生成用于表示或提示所述图像集合中各图像中相似目标的区别的自然语言。

可选地，所述自然语言包括：至少一条提问形式的自然语言。

可选地，所述对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别，得到N个K维语义特征概率向量，包括：基于深度神经网络提取所述图像集合中各图像的图像特征；根据提取的各图像特征并基于多层感知器对各图像进行语义识别，得到所述N个K维语义特征概率向量。

可选地，所述根据所述N个K维语义特征概率向量确定差异特征组合，包括：分别从所述各图像中选择任一语义特征概率向量进行组合，得到K^N个特征组合；对所述K^N个特征组合分别进行所述图像集合中各图像相似目标之间的区别描述能力的评分；根据评分结果确定所述K^N个特征组合中的部分特征组合为所述差异特征组合。

可选地，所述根据评分结果确定所述K^N个特征组合中的部分特征组合为所述差异特征组合，包括：将所述评分结果中分数最高的特征组合确定为所述差异特征组合，或者，将所述评分结果中分数高于预定阈值的一个或者多个特征组合确定为所述差异特征组合。

可选地，所述对所述K^N个特征组合分别进行所述图像集合中各图像相似目标之间的区别描述能力的评分，包括：根据所述K^N个特征组合的至少一种语义特征信息，对所述K^N个特征组合分别进行所述图像集合中各图像相似目标之间的区别描述能力的评分。

可选地，所述根据所述K^N个特征组合的至少一种语义特征信息，对所述K^N个特征组合分别进行所述图像集合中各图像相似目标之间的区别描述能力的评分，包括：根据所述K^N个特征组合中的语义特征的置信概率、语义特征的类型、语义特征的差别中的至少一种语义特征信息，对所述K^N个特征组合分别进行所述图像集合中各图像相似目标之间的区别描述能力的评分。

可选地，在评分时依据多种语义特征信息的情形下，所述对所述K^N个特征组合分别进行所述图像集合中各图像相似目标之间的区别描述能力的评分，还包括：将所述K^N个特征组合中同一特征组合的所述多种语义特征信息分别对应的评分合并或加权合并，得到每个特征组合的评分结果。

可选地，所述根据所述差异特征组合和所述图像集合中的各图像的图像特征，生成用于表示或提示所述图像集合中各图像中相似目标的区别的自然语言，包括：根据所述差异特征组合和所述图像集合中的各图像的图像特征，并基于长短记忆单元递归神经网络对各图像进行自然语言识别，生成所述用于表示或提示所述图像集合中各图像中相似目标的区别的自然语言。

可选地，在所述生成用于表示或提示所述图像集合中各图像中相似目标的区别的自然语言之后，所述方法还包括：接收针对所述自然语言的回复信息；根据所述回复信息生成新的自然语言，和/或，根据所述回复信息在所述图像集合中确定目标图像。

可选地，所述对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别之前，还包括：接收图像或视频的搜索信息。

根据本发明实施例的第二方面，还提供了一种图像消歧装置，包括：提取识别模块，用于对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别，得到N个K维语义特征概率向量，其中，所述图像集合包括N个图像，N和K均为正整数，且N大于或等于2；确定模块，用于根据所述N个K维语义特征概率向量确定差异特征组合，所述差异特征组合用于描述图像集合中各图像相似目标之间的区别；生成模块，用于根据所述差异特征组合和所述图像集合中的各图像的图像特征，生成用于表示或提示所述图像集合中各图像中相似目标的区别的自然语言。

可选地，所述提取识别模块，包括：提取子模块，用于基于深度神经网络提取所述图像集合中各图像的图像特征；识别子模块，用于根据提取的各图像特征并基于多层感知器对各图像进行语义识别，得到所述N个K维语义特征概率向量。

可选地，所述确定模块，包括：组合子模块，用于分别从所述各图像中选择任一语义特征概率向量进行组合，得到K^N个特征组合；评分子模块，用于对所述K^N个特征组合分别进行所述图像集合中各图像相似目标之间的区别描述能力的评分；确定子模块，用于根据评分结果确定所述K^N个特征组合中的部分特征组合为所述差异特征组合。

可选地，所述确定子模块，用于将所述评分结果中分数最高的特征组合确定为所述差异特征组合，或者，将所述评分结果中分数高于预定阈值的一个或者多个特征组合确定为所述差异特征组合。

可选地，所述评分子模块，用于根据所述K^N个特征组合的至少一种语义特征信息，对所述K^N个特征组合分别进行所述图像集合中各图像相似目标之间的区别描述能力的评分。

可选地，所述评分子模块，用于根据所述K^N个特征组合中的语义特征的置信概率、语义特征的类型、语义特征的差别中的至少一种语义特征信息，对所述K^N个特征组合分别进行所述图像集合中各图像相似目标之间的区别描述能力的评分。

可选地，所述评分子模块，还用于在评分时依据多种语义特征信息的情形下，将所述K^N个特征组合中同一特征组合的所述多种语义特征信息分别对应的评分合并或加权合并，得到每个特征组合的评分结果。

可选地，所述生成模块，用于根据所述差异特征组合和所述图像集合中的各图像的图像特征，并基于长短记忆单元递归神经网络对各图像进行自然语言识别，生成所述用于表示或提示所述图像集合中各图像中相似目标的区别的自然语言。

可选地，所述装置还包括：回复接收模块，用于在所述生成模块生成所述用于表示或提示所述图像集合中各图像中相似目标的区别的自然语言之后，接收针对所述自然语言的回复信息；回复处理模块，用于根据所述回复信息生成新的自然语言，和/或，根据所述回复信息在所述图像集合中确定目标图像。

可选地，所述装置还包括：搜索接收模块，用于在所述提取识别模块对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别之前，接收图像或视频的搜索信息。

根据本发明实施例的第三方面，还提供了一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如上所述的图像消歧方法对应的操作。

根据本发明实施例的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有：用于对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别，得到N个K维语义特征概率向量的可执行指令，其中，所述图像集合包括N个图像，N和K均为正整数，且N大于或等于2；用于根据所述N个K维语义特征概率向量确定差异特征组合的可执行指令，所述差异特征组合用于描述图像集合中各图像相似目标之间的区别；用于根据所述差异特征组合和所述图像集合中的各图像的图像特征，生成用于表示或提示所述图像集合中各图像中相似目标的区别的自然语言的可执行指令。

本发明实施例提供的技术方案，对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别，为图像集合中的各图像的每个语义特征输出语义特征在图像中出现的置信概率，得到图像集合中各图像的K维语义特征概率向量。其中，图像集合中可以包括2个或者2个以上的图像，各图像均包含K个语义特征，语义特征可以理解为描述目标的单词或者短语。进而，根据得到的各图像的K维语义特征概率向量确定差异特征组合，差异特征组合用于描述各图像相似目标之间的区别。根据差异特征组合和图像集合中各图像的图像特征，生成自然语言，该自然语言用于表示或者提示图像集合中各图像中相似目标的区别。

本发明实施例先对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别，得到各图像的K维语义特征概率向量，再根据各图像的K维语义特征向量确定用于描述各图像相似目标之间的明显区别的差异特征组合，然后根据差异特征组合和各图像的图像特征生成图像集合的自然语言，由此提高了不同图像所包括的相似目标的区分度，提升了图像消歧的效果，有利于提高图像/视频搜索的准确性和效率。

附图说明

图1是根据本发明实施例一的图像消歧方法的步骤流程图；

图2是根据本发明实施例二的图像消歧方法的步骤流程图；

图3是根据本发明实施例三的图像消歧装置的结构框图；

图4是根据本发明实施例四的图像消歧装置的结构框图；

图5是根据本发明实施例五的电子设备的结构示意图。

具体实施方式

下面结合附图(若干附图中相同的标号表示相同的元素)和实施例，对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

实施例一

参照图1，示出了根据本发明实施例一的图像消歧方法的步骤流程图。

本实施例的图像消歧方法包括以下步骤。

步骤S100、对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别，得到N个K维语义特征概率向量。

其中，图像集合包括N个图像，N和K均为正整数，且N大于或等于2。

本实施例中，包含相似目标的图像集合中的各图像可以是来源于图像采集设备的视频图像，由一帧一帧的图像组成，也可以为单独的一帧图像或者一幅图像，还可以来源于其他设备。本实施例对包含相似目标的图像集合的来源和获得途径等不做限制。

本实施例中的目标可以理解为人、车、动物、植物、建筑等等，本实施例对目标的具体类型不做限制。

可选地，可以根据语义特征分类器对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别，得到N个K维语义特征概率向量。本实施例中的语义特征分类器用于提取图像集合中各图像的图像特征，识别出图像集合中各图像的语义特征，并为各图像中的每个语义特征输出一个分数，该分数表示对应的语义特征在图像中出现的置信概率。本实施例中，可以预先定义语义特征集合，将语义特征定义为描述目标的单词或者短语，例如，语义特征包括目标类型(如“人”，“汽车”)，颜色(如“红色”，“绿色”)，动作(如“站立”，“打网球”)，位置(如“在桌上”，“在水中”)等等。本实施例中，选择K个常见的语义特征构成语义特征集合。语义特征分类器识别出的语义特征可以为语义特征集合中的语义特征。

步骤S102、根据N个K维语义特征概率向量确定差异特征组合。

本实施例中，差异特征组合用于描述图像集合中各图像相似目标之间的区别，如颜色的区别、位置的区别或者动作的区别等等。可选地，进一步提高不同图像中相似目标的区分性，可根据N个K维语义特征概率向量确定图像集合中各图像相似目标之间的明显区别的特征组合为差异特征组合。

步骤S104、根据差异特征组合和图像集合中的各图像的图像特征，生成用于表示或提示图像集合中各图像中相似目标的区别的自然语言。

本实施例中，各图像的图像特征可以通过步骤S100中的语义分类器获得，也可以通过其他方式，如利用现有的卷积神经网络获得各图像的图像特征，本实施例对获取图像特征的具体技术手段不做限制。

可选地，本步骤S104可以将差异特征组合和图像特征输入至预先训练完毕的语言模型，语言模型可以综合差异特征组合和图像特征两方面的输入信息，输出一个针对相似目标之间的区别的自然语言。所述自然语言可包括“陈述式”的自然语言，用于表示相似目标之间的差异；和/或，所述自然语言还可包括“提问式”自然语言，用于用类人的方式来表达相似目标之间的差异，在图像消歧中引入人机交互方式，由此提高相似目标的区分度，进而有利于提高图像搜索的准确率和效率。例如，若差异特征组合为{蓝色，白色}，则“提问式”自然语言为“这个人的衬衫是什么颜色”。本实施例对生成“提问式”自然语言所采用的语言模型不做限制。

本实施例提供的技术方案，对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别，为图像集合中的各图像的每个语义特征输出语义特征在图像中出现的置信概率，得到图像集合中各图像的K维语义特征概率向量。其中，图像集合中可以包括2个或者2个以上的图像，各图像均包含K个语义特征，语义特征可以理解为描述目标的单词或者短语。进而，根据得到的各图像的K维语义特征概率向量确定差异特征组合，差异特征组合用于描述各图像相似目标之间的区别。根据差异特征组合和图像集合中各图像的图像特征，生成自然语言，该自然语言用于表示或者提示图像集合中各图像中相似目标的区别。

本实施例先对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别，得到各图像的K维语义特征概率向量，再根据各图像的K维语义特征向量确定用于描述相似目标之间的区别的差异特征组合，然后根据差异特征组合和各图像的图像特征，生成用于表示或提示图像集合中各图像中相似目标的区别的自然语言，由此提高了不同图像所包括的相似目标的区分度，提升了图像消歧的效果，有利于提高图像/视频搜索的准确性和效率。

本实施例可以通过公开数据集Visual Genome中的图像和“图像区域描述”标注信息作为训练数据预先训练语义特征分类器，本实施例对语义特征分类器的训练数据不做具体限制。然后通过训练完毕的语义特征分类器对图像集合中的各图像进行图像特征提取和语义识别。借助语义特征分类器可以实现对图像集合中的图像进行批量图像特征提取和语义识别，而且，语义识别得到的语义特征为预先设定的语义特征集合中的语义特征，使得图像集合中的各图像的语义特征均属于一个相对稳定的语义特征集合内。

可选的，本实施例可以通过公开数据集Visual Genome中的图像和“自然语言问答”标注信息作为训练数据预先训练基于神经网络的语言模型，语言模型输出的自然语言可以是一个或一系列“提问式”自然语言。基于上述标注语言，对基于神经网络的语言模型的训练方法可采用现有神经网络的训练方法进行，如反向传播、梯度回归等等，本发明实施例对此并不限制。

实施例二

参照图2，示出了根据本发明实施例二的图像消歧方法的步骤流程图。

本实施例在上述实施例的基础上，强调与上述实施例的不同之处，相同之处可以参照上述实施例中的介绍和说明。本实施例以图像集合中包括一对含有相似目标的图像为例进行说明。

步骤S200、定义语义特征集合，并训练语义特征分类器。

本实施例中，语义特征可以理解为描述目标的单词或者短语，例如，目标类型(如“人”，“汽车”)，颜色(如“红色”，“绿色”)，动作(如“站立”，“打网球”)，位置(如“在桌上”，“在水中”)等等。

本实施例中的语义特征分类器可以由深度神经网络和感知器组成，在一种可选的实施方式中，深度神经网络可以为深度卷积神经网络，感知器可以为多层感知器，通过多层感知器中的每个感知层内携带的大量参数对图像进行语义识别，优化了语义识别的效果。本实施例对深度神经网络和感知器的具体类型不做限制。可以利用公开数据集VisualGenome中的图像和“图像区域描述”标注信息作为语义特征分类器的训练数据，本实施例对语义特征分类器的训练数据以及训练过程不做限制。

步骤S202、根据训练完毕的语义特征分类器对一对图像进行图像特征提取和语义识别，得到一对K维语义特征概率向量。

基于深度神经网络提取图像集合中各图像的图像特征；根据提取的各图像特征并基于多层感知器对各图像进行语义识别，得到一对K维语义特征概率向量。可选地，将一对图像输入至语义特征分类器，先将一对图像输入至深度神经网络，输出图像的图像特征；再将图像特征输入至多层感知器，输出一对K维语义特征概率向量。

可选地，在本步骤S202之前，可以接收图像或视频的搜索信息，根据搜索信息获取图像或者视频。进一步可选地，若获取到的是视频，则可以进一步在视频中确定待消歧的图像。

步骤S204、根据一对K维语义特征概率向量确定差异特征组合。

本实施例中的差异特征组合可以为一组，也可以为多组，差异特征组合的数量可以根据具体的实际应用场景而定，本实施例对此不做限制。

一种可选的实施方式中，本步骤S204可以包括如下子步骤：

子步骤S2040、分别从各图像中选择任一语义特征概率向量进行组合，得到K²个特征组合。

子步骤S2042、对K²个特征组合分别进行图像集合中各图像相似目标之间的区别描述能力的评分，得到K²个评分结果。

可选地，本子步骤S2042可以根据K²个特征组合的至少一种语义特征信息，对K²个特征组合分别进行图像集合中各图像相似目标之间的区别描述能力的评分，其中，语义特征信息包括但不限于：语义特征的置信概率、语义特征的类型和语义特征的差别等。

在依据多种语义特征信息进行评分时，可以将K²个特征组合中同一特征组合的多种语义特征信息分别对应的评分合并或加权合并，得到每个特征组合的评分结果。其中，评分合并可以采用累加、相乘等；加权合并可以采用平均加权、线性加权等，本实施例对评分合并和加权合并的具体技术手段不做限制。

本步骤S204的目的是从一对图像中的各图像分别选择一个语义特征，组成差异特征组合，用于表示这对图像的一处区别，例如，一个图像中的人穿白色上衣，另一个图像中的人穿蓝色上衣，则{白色，蓝色}可以作为一个差异特征组合。

由于每个图像上可以存在K个语义特征，所以存在K²个特征组合，每个特征组合即为一语义特征对，可借助评分函数对每个特征组合进行评分，分数高表示特征组合适合用于表示这对图像的明显区别。评分函数的构建可根据实际需要确定，旨在从K²个特征组合中选出适合用于表示这对图像的明显区别的特征组合。

可选地，本实施例中的评分函数可基于但不限于以下三个方面中的至少之一个方面进行构建。

a)、置信概率对比

置信概率对比是从特征组合中不同特征对应的置信概率得分的差异大小的角度进行打分评价。置信概率对比大的特征组合的得分，通常高于置信概率对比小的特征组合的得分。换而言之，如果某个特征组合中，对一个图像中的目标有较高的置信概率，对另一图像中的目标有较低的置信概率，则该特征组合的得分较高；反之，如果某个特征组合中，对两个目标的置信概率相差不大，则该特征组合的得分较低。单从置信概率对比因素来看，相对得分较低的特征组合而言，得分较高的特征组合更适合用来表示这对图像的明显区别。

b)、语义特征的类型相似性

语义特征的类型相似性是从特征组合中不同特征对应的类型是否属于相同类型进行打分评价。语义特征的类型属于相同类型的特征组合的得分，通常高于语义特征的类型不属于相同类型的特征组合的得分。如“蓝色”和“白色”均属于颜色类型的语义特征；“网球”和“棒球”均属于运动类型的语义特征；“蓝色”和“网球”不属于相同类型的语义特征。如果某个特征组合中，两个目标的语义特征不属于相同类型，则特征组合的得分较低，两个目标的语义特征属于相同类型，则特征组合的得分较高。单从语义特征的类型相似性因素来看，相对得分较低的特征组合而言，得分较高的特征组合更适合用来表示这对图像的明显区别。

c)、语义特征的易区分性

语义特征的易区分性是从特征组合中不同特征在视觉上是否易于区分进行打分评价。语义特征在视觉上易于区分的特征组合的得分，通常高于语义特征在视觉上难于区分的特征组合的得分。如“蓝色”和“白色”是视觉上易于区分的语义特征；“网球拍”和“棒球棒”是视觉上相对不易于区分的语义特征。如果某个特征组合中，两个目标的语义特征在视觉上难于区分，则特征组合的得分较低，两个目标的语义特征在视觉上易于区分，则特征组合的得分较高。单从语义特征的易区分性因素来看，相对得分较低的特征组合而言，得分较高的特征组合更适合用来表示这对图像的明显区别。

一种可选的实施方式中，本实施例中的评分函数可以利用如下公式

其中，A和B分别表示两个图像，i和j分别表示两个语义特征。S(i，j)的值为“对于图像A选择语义特征i，对于图像B选择语义特征j，将语义特征i和语义特征j组成特征组合”的评分。

a)、置信概率对比

为“语义特征i仅在图像A中出现，且语义特征j仅在图像B中出现”的概率，v是语义特征分类器输出的置信概率，v_i ^A表示图像A中具有语义特征i的概率；v_i ^B表示图像B中具有语义特征i的概率；v_j ^A表示图像A中具有语义特征j的概率；v_j ^B表示图像B中具有语义特征j的概率。

b)、语义特征的类型相似性

中的α是可调整权重的参数，s_q(i，j)表示语义特征i和语义特征j的类型相似性。

本实施例中，可以通过图像问答模型计算s_q(i，j)。图像问答模型是结合计算机视觉和自然语言理解的模型，通过图像问答模型对与图像内容有关的问题作出回答。本实施例中的图像问答模型可以先采用两个通道分别对输入的图像和问题进行编码，其中，图像通道使用卷积神经网络，问题通道使用长短记忆单元递归神经网络。然后将答案预测作为分类问题，即从一个候选答案集合中选择一个正确的答案作为输出，具体地，在图像通道和问题通道的编码器后分别连接一个全连接层作为分类器，对所有候选答案评分，最后将两个通道的评分相加作为候选答案的最红分数，分数最高的候选答案即为图像问答模型预测的问题答案。

上述全连接层的参数矩阵中的每个向量对应于候选答案集合中的一个候选答案。相似性较高的候选答案，其对应的向量也较为相近。因而可以用两个候选答案对应向量的内积，表示两个候选答案的相似性。如果使用的是问题通道分类器的参数向量，则该内积表示的是候选答案关于输入问题的相似性。相似性高，表示这两个候选答案通常被用来回答同类问题，也就是说这两个候选答案很可能作为同一个问题的答案。

在图像问答模型的训练过程中，训练数据的形式是(图像，问题，答案)的三元组。训练数据的“候选答案集合”和步骤S200中定义的“语义特征集合”是一致的。

c)、语义特征的易区分性

只与语义特征i和语义特征j相关，与图像A和图像B无关，其中的β是可调整权重的参数。由于希望对相似程度低(易于区分)的语义特征组合给出较高的分数，因此在s_f(i，j)之前增加负号。

s_f(i，j)的计算方式与s_q(i，j)的计算方式相似，但s_f(i，j)的计算方式使用了语义特征分类器最后一个全连接层的参数向量作为语义特征的表示，与s_q(i，j)的计算方式中使用图像问答模型中的问题通道里最后一个全连接层的参数向量作为语义特征的表示不同。具体可以参照上述关于计算s_q(i，j)的相关说明，在此不再赘述。

子步骤S2044、根据评分结果确定K²个特征组合中的部分特征组合为差异特征组合。

可选地，本子步骤S2046可以将评分结果中分数最高的评分结果对应的特征组合确定为差异特征组合，或者，可以将评分结果中分数高于预定阈值的一个或者多个特征组合确定为差异特征组合，其中，预定阈值可以根据实际场景进行设置，本实施例对预定阈值的具体数值不做限制。

步骤S206、将差异特征组合和一对图像的图像特征输入至语言模型，生成一对图像的自然语言。

本实施例中，可以使用带有长短记忆单元的递归神经网络作为语言模型，可以利用公开数据集Visual Genome中的图像和“自然语言问答”标注信息作为语言模型的训练数据，本实施例对语言模型的训练数据和训练过程不做限制。可选地，本步骤S206可以将差异特征组合和一对图像的图像特征输入至长短记忆单元递归神经网络，生成一对图像的自然语言。本实施例中，生成的自然语言可以为一个提问形式的自然语言，也可以为一个提问形式的自然语言序列。

本实施例中的自然语言包括至少一条提问形式的自然语言，例如，这个人的衬衫是什么颜色？

步骤S208、接收针对自然语言的回复信息，根据回复信息生成新的自然语言，和/或，根据回复信息在图像集合中确定目标图像。

接上例，在生成“这个人的衬衫是什么颜色”之后，用户回答“蓝色”。可以进一步根据用户回答的“蓝色”生成新的自然语言信息“这个穿蓝色衬衫的人在做什么”。需要说明的是，新的自然语言信息的作用是进一步进行图像消歧，可以是之前的自然语言信息的延伸，也可以与之前的自然语言信息没有直接关系。

本步骤S208除可以生成新的自然语言之外，还可以进一步根据回复信息在图像集合中确定目标图像，例如，在生成“这个人的衬衫是什么颜色”之后，用户回答“蓝色”。可以进一步在图像集合中以设定形式确定穿蓝色衬衫的人所在的图像，其中，设定形式可以为突出、高亮等，本实施例对设定形式不做限制。

本实施例提供的技术方案，根据语义特征分类器对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别，为图像集合中的各图像的每个语义特征输出语义特征在图像中出现的置信概率，得到图像集合中各图像的K维语义特征概率向量。其中，图像集合中可以包括2个或者2个以上的图像，各图像均包含K个语义特征，语义特征可以理解为描述目标的单词或者短语。进而，根据得到的各图像的K维语义特征概率向量确定差异特征组合，差异特征组合用于描述各图像相似目标之间的区别。将差异特征组合和图像集合中各图像的图像特征输入至语言模型，生成自然语言，该自然语言用于表示或者提示图像集合中各图像中相似目标的区别。

本实施例先通过语义特征分类器对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别，得到各图像的K维语义特征概率向量，再根据各图像的K维语义特征向量确定用于描述相似目标之间的区别的差异特征组合，然后将差异特征组合和各图像的图像特征均输入至语言模型，生成图像集合的自然语言，由此提高了不同图像所包括的相似目标的区分度，提高了语言模型区分相似目标的能力，提升了图像消歧的效果，有利于提高图像/视频搜索的准确性和效率。

本实施例中语义特征分类器可以由深度神经网络和多层感知器组成，通过深度神经网络提取图像的图像特征，通过多层感知器识别图像的语义特征，然后对相似目标的语义特征进行选择和配对，确定出具有明显区别的语义特征，用于描述相似目标之间的差异。本实施例的语义特征分类器中采用多层感知器可以对图像中多层面的目标进行语义识别，扩大了对图像中的目标进行语义识别的范围。

本实施例利用语义特征分类器进行语义识别，利用语言模型生成自然语言，在对相似目标进行差异分析过程和自然语言生成过程各自采用一套独立的模型，使得各模型的功能更加明确，更加有针对性。

本实施例利用评分函数对语义特征组合进行评分，综合考虑了置信概率对比、语义特征类型的相似性和语义特征的易区分性三方面因素，使得从多个语义特征组合中确定得到的差异特征组合更加准确地表述相似目标之间的区别。

本实施例利用带有长短记忆单元的递归神经网络作为语言模型生成自然语言信息，语言模型可以综合图像特征和差异特征组合两方面的输入信息，使得生成的自然语言可以准确描述相似目标之间的区别。

本实施例可以生成非提问形式的自然语言，也可以生成提问形式的自然语言。其中，生成提问形式的自然语言能够以类人的方式描述相似目标之间的差异，可以实现图像消歧过程中的人机对话，带来交互体验，使得本实施例中的技术方案可以应用于更加广泛的实际场景。

本实施例的图像消歧方法可以应用在人机交互系统中，实现机器与人之间的交流。当人向机器发出的指令含糊，致使机器无法准确执行指令时，机器可以按照本实施例中的图像消歧方法生成提问形式的自然语言，通过提问形式的自然语言重新获取清楚、准确的指令。

本实施例的图像消歧方法还可以应用在交互式的图像搜索场景，通过生成提问形式的自然语言引导用户输入图像搜索的关键字或关键词，提高了图像搜索的效率和准确度。

本实施例的图像消歧方法可以由任意适当的具有图像或数据处理能力的设备执行，包括但不限于：摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备等。

实施例三

参照图3，示出了根据本发明实施例三的图像消歧装置的结构框图。

本实施例提供的图像消歧装置包括：提取识别模块30，用于对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别，得到N个K维语义特征概率向量，其中，图像集合包括N个图像，N和K均为正整数，且N大于或等于2；确定模块31，用于根据N个K维语义特征概率向量确定差异特征组合，差异特征组合用于描述图像集合中各图像相似目标之间的区别；生成模块32，用于根据差异特征组合和图像集合中的各图像的图像特征，生成用于表示或提示图像集合中各图像中相似目标的区别的自然语言。

本实施例提供的技术方案，提取识别模块对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别，为图像集合中的各图像的每个语义特征输出语义特征在图像中出现的置信概率，得到图像集合中各图像的K维语义特征概率向量。其中，图像集合中可以包括2个或者2个以上的图像，各图像均包含K个语义特征，语义特征可以理解为描述目标的单词或者短语。进而，确定模块根据得到的各图像的K维语义特征概率向量确定差异特征组合，差异特征组合用于描述各图像相似目标之间的区别。生成模块根据差异特征组合和图像集合中各图像的图像特征，生成自然语言，该自然语言用于表示或者提示图像集合中各图像中相似目标的区别。

实施例四

参照图4，示出了根据本发明实施例四的图像消歧装置的结构框图。

本实施例提供的图像消歧装置包括：提取识别模块40，用于对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别，得到N个K维语义特征概率向量，其中，图像集合包括N个图像，N和K均为正整数，且N大于或等于2；确定模块41，用于根据N个K维语义特征概率向量确定差异特征组合，差异特征组合用于描述图像集合中各图像相似目标之间的区别；生成模块42，用于根据差异特征组合和图像集合中的各图像的图像特征，生成用于表示或提示图像集合中各图像中相似目标的区别的自然语言。

可选地，自然语言包括至少一条提问形式的自然语言。

可选地，提取识别模块40包括：提取子模块400，用于基于深度神经网络提取图像集合中各图像的图像特征；识别子模块402，用于根据提取的各图像特征并基于多层感知器对各图像进行语义识别，得到N个K维语义特征概率向量。

可选地，确定模块41包括：组合子模块410，用于分别从各图像中选择任一语义特征概率向量进行组合，得到K^N个特征组合；评分子模块412，用于对K^N个特征组合分别进行图像集合中各图像相似目标之间的区别描述能力的评分；确定子模块414，用于根据评分结果确定K^N个特征组合中的部分特征组合为差异特征组合。

可选地，确定子模块414，用于将评分结果中分数最高的特征组合确定为差异特征组合，或者，将评分结果中分数高于预定阈值的一个或者多个特征组合确定为差异特征组合。

可选地，评分子模块412，用于根据K^N个特征组合的至少一种语义特征信息，对K^N个特征组合分别进行图像集合中各图像相似目标之间的区别描述能力的评分。

可选地，评分子模块412，用于根据K^N个特征组合中的语义特征的置信概率、语义特征的类型、语义特征的差别中的至少一种语义特征信息，对K^N个特征组合分别进行图像集合中各图像相似目标之间的区别描述能力的评分。

可选地，评分子模块412，还用于在评分时依据多种语义特征信息的情形下，将K^N个特征组合中同一特征组合的多种语义特征信息分别对应的评分合并或加权合并，得到每个特征组合的评分结果。

可选地，生成模块42，用于根据差异特征组合和图像集合中的各图像的图像特征，并基于长短记忆单元递归神经网络对各图像进行自然语言识别，生成用于表示或提示图像集合中各图像中相似目标的区别的自然语言。

可选地，本实施例提供的图像消歧装置还包括：回复接收模块43，用于在生成模块42生成用于表示或提示图像集合中各图像中相似目标的区别的自然语言之后，接收针对自然语言的回复信息；回复处理模块44，用于根据回复信息生成新的自然语言，和/或，根据回复信息在图像集合中确定目标图像。

可选地，本实施例提供的图像消歧装置还包括：搜索接收模块45，用于在提取识别模块40对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别之前，接收图像或视频的搜索信息。

本实施例提供的图像消歧装置用于实现前述多个方法实施例中相应的图像消歧方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例五

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图5，其示出了适于用来实现本发明实施例的图像消歧装置的电子设备500的结构示意图：如图5所示，电子设备500包括一个或多个处理器、通信元件等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)501，和/或一个或多个图像处理器(GPU)513等，处理器可以根据存储在只读存储器(ROM)502中的可执行指令或者从存储部分508加载到随机访问存储器(RAM)503中的可执行指令而执行各种适当的动作和处理。通信元件包括通信组件512和/或通信接口509。其中，通信组件512可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口509包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口509经由诸如因特网的网络执行通信处理。

处理器可与只读存储器502和/或随机访问存储器503中通信以执行可执行指令，通过通信总线504与通信组件512相连、并经通信组件512与其他目标设备通信，从而完成本发明实施例提供的任一项图像消歧方法对应的操作，例如，对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别，得到N个K维语义特征概率向量，其中，所述图像集合包括N个图像，N和K均为正整数，且N大于或等于2；根据所述N个K维语义特征概率向量确定差异特征组合，所述差异特征组合用于描述图像集合中各图像相似目标之间的区别；根据所述差异特征组合和所述图像集合中的各图像的图像特征，生成用于表示或提示所述图像集合中各图像中相似目标的区别的自然语言。

此外，在RAM503中，还可存储有装置操作所需的各种程序和数据。CPU501或GPU513、ROM502以及RAM503通过通信总线504彼此相连。在有RAM503的情况下，ROM502为可选模块。RAM503存储可执行指令，或在运行时向ROM502中写入可执行指令，可执行指令使处理器执行上述通信方法对应的操作。输入/输出(I/O)接口505也连接至通信总线504。通信组件512可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在通信总线链接上。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口509。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

需要说明的，如图5所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图5的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信元件可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令，例如，对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别，得到N个K维语义特征概率向量，其中，所述图像集合包括N个图像，N和K均为正整数，且N大于或等于2；根据所述N个K维语义特征概率向量确定差异特征组合，所述差异特征组合用于描述图像集合中各图像相似目标之间的区别；根据所述差异特征组合和所述图像集合中的各图像的图像特征，生成用于表示或提示所述图像集合中各图像中相似目标的区别的自然语言。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被处理器执行时，执行本发明实施例的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明实施例的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明实施例的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明实施例的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明实施例的方法的程序的记录介质。

本发明实施例的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式，很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种图像消歧方法，其特征在于，包括：

对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别，得到N个K维语义特征概率向量，其中，所述图像集合包括N个图像，N和K均为正整数，且N大于或等于2；

根据所述N个K维语义特征概率向量确定差异特征组合，所述差异特征组合用于描述图像集合中各图像相似目标之间的区别；

根据所述差异特征组合和所述图像集合中的各图像的图像特征，生成用于表示或提示所述图像集合中各图像中相似目标之间的至少一个语义特征的区别的提问式自然语言；

所述根据所述N个K维语义特征概率向量确定差异特征组合，包括：

分别从所述各图像中选择任一语义特征概率向量进行组合，得到K^N个特征组合；

根据所述K^N个特征组合中的语义特征的置信概率、语义特征的类型、语义特征的差别中的至少一种语义特征信息，对所述K^N个特征组合分别进行所述图像集合中各图像相似目标之间的区别描述能力的评分；

根据评分结果确定所述K^N个特征组合中的部分特征组合为所述差异特征组合。

2.根据权利要求1所述的方法，其特征在于，所述对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别，得到N个K维语义特征概率向量，包括：

基于深度神经网络提取所述图像集合中各图像的图像特征；

根据提取的各图像特征并基于多层感知器对各图像进行语义识别，得到所述N个K维语义特征概率向量。

3.根据权利要求1所述的方法，其特征在于，所述根据评分结果确定所述K^N个特征组合中的部分特征组合为所述差异特征组合，包括：

将所述评分结果中分数最高的特征组合确定为所述差异特征组合，或者，将所述评分结果中分数高于预定阈值的一个或者多个特征组合确定为所述差异特征组合。

4.根据权利要求1所述的方法，其特征在于，在评分时依据多种语义特征信息的情形下，所述对所述K^N个特征组合分别进行所述图像集合中各图像相似目标之间的区别描述能力的评分，还包括：

将所述K^N个特征组合中同一特征组合的所述多种语义特征信息分别对应的评分合并或加权合并，得到每个特征组合的评分结果。

5.根据权利要求1-4任一所述的方法，其特征在于，所述根据所述差异特征组合和所述图像集合中的各图像的图像特征，生成用于表示或提示所述图像集合中各图像中相似目标之间的至少一个语义特征的区别的提问式自然语言，包括：

根据所述差异特征组合和所述图像集合中的各图像的图像特征，并基于长短记忆单元递归神经网络对各图像进行自然语言识别，生成所述用于表示或提示所述图像集合中各图像中相似目标之间的至少一个语义特征的区别的提问式自然语言。

6.根据权利要求1-5任一所述的方法，其特征在于，在所述生成用于表示或提示所述图像集合中各图像中相似目标之间的至少一个语义特征的区别的自然语言之后，所述方法还包括：

接收针对所述提问式自然语言的回复信息；

根据所述回复信息生成新的自然语言，和/或，根据所述回复信息在所述图像集合中确定目标图像。

7.根据权利要求1-6任一所述的方法，其特征在于，所述对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别之前，还包括：

接收图像或视频的搜索信息。

8.一种图像消歧装置，其特征在于，包括：

提取识别模块，用于对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别，得到N个K维语义特征概率向量，其中，所述图像集合包括N个图像，N和K均为正整数，且N大于或等于2；

确定模块，用于根据所述N个K维语义特征概率向量确定差异特征组合，所述差异特征组合用于描述图像集合中各图像相似目标之间的区别；

生成模块，用于根据所述差异特征组合和所述图像集合中的各图像的图像特征，生成用于表示或提示所述图像集合中各图像中相似目标之间的至少一个语义特征的区别的提问式自然语言；

所述确定模块，包括：

组合子模块，用于分别从所述各图像中选择任一语义特征概率向量进行组合，得到K^N个特征组合；

评分子模块，用于根据所述K^N个特征组合中的语义特征的置信概率、语义特征的类型、语义特征的差别中的至少一种语义特征信息，对所述K^N个特征组合分别进行所述图像集合中各图像相似目标之间的区别描述能力的评分；

确定子模块，用于根据评分结果确定所述K^N个特征组合中的部分特征组合为所述差异特征组合。

9.根据权利要求8所述的装置，其特征在于，所述提取识别模块，包括：

提取子模块，用于基于深度神经网络提取所述图像集合中各图像的图像特征；

识别子模块，用于根据提取的各图像特征并基于多层感知器对各图像进行语义识别，得到所述N个K维语义特征概率向量。

10.根据权利要求9所述的装置，其特征在于，所述确定子模块，用于将所述评分结果中分数最高的特征组合确定为所述差异特征组合，或者，将所述评分结果中分数高于预定阈值的一个或者多个特征组合确定为所述差异特征组合。

11.根据权利要求8所述的装置，其特征在于，所述评分子模块，还用于在评分时依据多种语义特征信息的情形下，将所述K^N个特征组合中同一特征组合的所述多种语义特征信息分别对应的评分合并或加权合并，得到每个特征组合的评分结果。

12.根据权利要求8-11任一所述的装置，其特征在于，所述生成模块，用于根据所述差异特征组合和所述图像集合中的各图像的图像特征，并基于长短记忆单元递归神经网络对各图像进行自然语言识别，生成所述用于表示或提示所述图像集合中各图像中相似目标之间的至少一个语义特征的区别的提问式自然语言。

13.根据权利要求8-12任一所述的装置，其特征在于，所述装置还包括：

回复接收模块，用于在所述生成模块生成所述用于表示或提示所述图像集合中各图像中相似目标之间的至少一个语义特征的区别的自然语言之后，接收针对所述提问式自然语言的回复信息；

回复处理模块，用于根据所述回复信息生成新的自然语言，和/或，根据所述回复信息在所述图像集合中确定目标图像。

14.根据权利要求8-13任一所述的装置，其特征在于，所述装置还包括：

搜索接收模块，用于在所述提取识别模块对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别之前，接收图像或视频的搜索信息。

15.一种电子设备，其特征在于，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7任一项所述的图像消歧方法对应的操作。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有：

用于对包含相似目标的图像集合中的各图像进行图像特征提取和语义识别，得到N个K维语义特征概率向量的可执行指令，其中，所述图像集合包括N个图像，N和K均为正整数，且N大于或等于2；

用于根据所述N个K维语义特征概率向量确定差异特征组合的可执行指令，所述差异特征组合用于描述图像集合中各图像相似目标之间的区别；

用于根据所述差异特征组合和所述图像集合中的各图像的图像特征，生成用于表示或提示所述图像集合中各图像中相似目标之间的至少一个语义特征的区别的提问式自然语言的可执行指令；

所述根据所述N个K维语义特征概率向量确定差异特征组合的可执行指令，包括：