CN109063732B

CN109063732B - 基于特征交互和多任务学习的图像排序方法及系统

Info

Publication number: CN109063732B
Application number: CN201810668293.9A
Authority: CN
Inventors: 聂礼强; 陈召峥; 杜存宵; 宋雪萌; 程志勇; 王英龙
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2018-06-26
Filing date: 2018-06-26
Publication date: 2019-07-09
Anticipated expiration: 2038-06-26
Also published as: CN109063732A

Abstract

本发明公开了一种基于特征交互和多任务学习的图像排序方法及系统。其中，基于特征交互和多任务学习的图像排序方法，包括提取原始图像的视觉特征；利用提取的图像视觉特征来进行基于区域的图像视觉特征交互；利用多任务学习神经网络来聚集进行交互后的图像视觉特征；将聚集后的图像视觉特征输入至已完成训练的分类器中进行分类，按照分类结果对图像进行排序。其具有排序结果更准确的效果。

Description

基于特征交互和多任务学习的图像排序方法及系统

技术领域

本发明属于图像处理领域，尤其涉及一种基于特征交互和多任务学习的图像排序方法及系统。

背景技术

由扫描仪、摄像机等输入设备捕捉实际的画面产生的图像，是由像素点阵构成的位图，其用数字任意描述像素点、强度和颜色。因此，图像所包含的特征较多。而目前在图像各个特征方面比较排序的方法较多，但是仍面临一些问题：

比如：在比较两张街景图片哪一张更安全、更漂亮、更压抑、更热闹、更富有、更无聊时，现有的方法直接对两张图片分别进行评估打分，然后进行比较，这种没有考虑图像区域之间的对比，也可以说是特征交互的方法，不能有效的注意到图像中关键元素之间的对比，不利于准确的对两张街景图片进行判断。

发明内容

为了解决现有技术的不足，本发明的第一目的是提供一种基于特征交互和多任务学习的图像排序方法，其具有排序结果更准确的效果。

本发明的一种基于特征交互和多任务学习的图像排序方法，包括：

提取原始图像的视觉特征；

利用提取的图像视觉特征来进行基于区域的图像视觉特征交互；

利用多任务学习神经网络来聚集进行交互后的图像视觉特征；

将聚集后的图像视觉特征输入至已完成训练的分类器中进行分类，按照分类结果对图像进行排序。

进一步的，利用卷积神经网络提取原始图像的视觉特征。

例如：使用VGG网络架构，并使用其在ImageNet上的预训练参数，在训练过程中，对其参数进行微调。

进一步的，利用一张图像的每一个区域的特征信息的向量去和另一张图像的每一个区域的特征信息的向量去进行点乘操作，来实现基于区域的图像视觉特征交互。

通过这种交互方式，能够训练模型去注意到原来图片中的关键信息，来进行两张图片之间的区域对区域的对比，从而获得更能代表两张图片之间的差异的特征信息。

进一步的，利用多任务学习神经网络来聚集进行交互后的图像视觉特征的过程为：

将交互后的图像视觉特征输入至多任务学习神经网络中，输出聚集的相应图像视觉特征；

再对输出的聚集图像视觉特征进行降维处理。

进一步的，分类器使用softmax函数对聚集后的图像视觉特征进行分类。

需要说明的是，分类器除了使用softmax函数实现之外，还可以采用其他分类函数来实现。

本发明的第二目的是提供一种基于特征交互和多任务学习的图像排序系统。

本发明的一种基于特征交互和多任务学习的图像排序系统，包括图像排序服务器，所述图像排序服务器包括：

图像视觉特征提取模块，其被配置为：提取原始图像的视觉特征；

图像视觉特征交互模块，其被配置为：利用提取的图像视觉特征来进行基于区域的图像视觉特征交互；

图像视觉特征聚集模块，其被配置为：利用多任务学习神经网络来聚集进行交互后的图像视觉特征；

图像分类及排序模块，其被配置为：将聚集后的图像视觉特征输入至已完成训练的分类器中进行分类，按照分类结果对图像进行排序。

进一步的，在所述图像视觉特征提取模块中，利用卷积神经网络提取原始图像的视觉特征。

进一步的，在所述图像视觉特征交互模块中，利用一张图像的每一个区域的特征信息的向量去和另一张图像的每一个区域的特征信息的向量去进行点乘操作，来实现基于区域的图像视觉特征交互。

进一步的，所述图像视觉特征聚集模块还被配置为：

再对输出的聚集图像视觉特征进行降维处理。

进一步的，在所述图像分类及排序模块中，分类器使用softmax函数对聚集后的图像视觉特征进行分类。

与现有技术相比，本发明的有益效果是：

本发明利用特征交互技术，能够有效的注意到图像中关键元素并利用这些关键元素进行两张图片之间的对比，有利于准确的对两张街景图片进行判断；利用多任务学习神经网络，可以充分利用隐含在各个属性之间信息，提高模型的特征提取能力，有利于对两张图片进行准确判断。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是多任务学习示意图。

图2是本发明的基于特征交互和多任务学习的图像排序方法流程图。

图3是本发明的基于特征交互和多任务学习的图像排序服务器结构示意图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

术语解释：

利用机器学习解决排序问题，被称为Learn to rank，简称LTR。LTR方法通常可以分为Pointwise、Pairwise和Listwise三类。基于特征交互和多任务的成对学习模型就属于Pairwise Learning的方法。

如图1所示，多任务学习是一种归纳迁移方法，充分利用隐含在多个相关任务训练信号中的特定领域信息。在后向传播过程中，多任务学习允许共享隐层中专用于某个任务的特征被其他任务使用；多任务学习将可以学习到可适用于几个不同任务的特征，这样的特征在单任务学习网络中往往不容易学到。

在比较两张街景图片的时候，可以通过进行每个小区域的对比，来得出最终的答案，还可以充分利用隐含在图片的不同属性之间的相关信息，来学习出更好的模型。

如图2所示，本发明的基于特征交互和多任务学习的图像排序方法，包括：

步骤1：提取原始图像的视觉特征。

在该步骤中，利用卷积神经网络提取原始图像的视觉特征。

其中，原始图像的视觉特征包括一个线条，或者一个物体，或者某种颜色。

具体地，输入为两张图片，利用卷积神经网络进行特征提取，使用在ImageNet上预训练过的VGG来进行特征提取，VGG是一个常用的特征提取器，是一个层数较多的卷积神经网络，并在训练过程中对VGG的参数进行微调，从训练数据中进行学习，本阶段的输出为两张图片的高层次抽象特征。

需要说明的是，除了VGG网络架构之外，也可采用其他卷积神经网络框架。

步骤2：利用提取的图像视觉特征来进行基于区域的图像视觉特征交互。

具体地，利用一张图像的每一个区域的特征信息的向量去和另一张图像的每一个区域的特征信息的向量去进行点乘操作，来实现基于区域的图像视觉特征交互。

步骤3：利用多任务学习神经网络来聚集进行交互后的图像视觉特征。

具体地，利用多任务学习神经网络来聚集进行交互后的图像视觉特征的过程为：

再对输出的聚集图像视觉特征进行降维处理。

在特征聚集过程中，输入为特征交互阶段的结果，对于每个不同的任务，各自利用卷积神经网络进行进一步的特征提取，并根据这些特征进行最终结果的预测。

步骤4：将聚集后的图像视觉特征输入至已完成训练的分类器中进行分类，按照分类结果对图像进行排序。

在具体实施中，分类器使用softmax函数对特征聚集阶段得到的预测结果进行处理，具体形式如下：

其中，Θ表示待估参数；z表示各个属性的标签，表示输入的两张图片经过特征提取、特征交互，特征聚集后的结果，1{statement}是一种指示函数，当statement为真时，该函数值为1，当statement为假时，该函数值为0，M代表任务的数量，N_i代表第i个任务中训练集图片对的数量，D_i代表当前属性的第j个图片对，代表第i个任务中第j个图片对的标签。

利用Place Pulse 2.0数据集对上述模型进行了训练和测试，和现有的基准模型进行比较，有较大的提升，如下表所示：

方法

安全

漂亮

压抑

热闹

富有

无聊

总体

RankNet

62.57％

61.45％

64.89％

62.81％

59.64％

58.81％

61.98％

VGG19

59.97％

59.85％

66.55％

60.55％

62.85％

58.25％

61.09％

SS-CNN

64.01％

63.24％

67.52％

66.74％

64.10％

60.91％

64.37％

本发明

64.81％

64.04％

68.74％

68.11％

66.01％

61.95％

65.45％

说明：RankNet,VGG19,SS-CNN都是现有的方法。

除了与现有的基准模型进行比较，还使用了不同的特征交互方式、有无多任务学习的模型进行了比较，结果表明本发明表现更好，如下表所示：

本发明的一种基于特征交互和多任务学习的图像排序系统，包括图像排序服务器。如图3所示，所述图像排序服务器包括：

(1)图像视觉特征提取模块，其被配置为：提取原始图像的视觉特征；

在所述图像视觉特征提取模块中，利用卷积神经网络提取原始图像的视觉特征。

(2)图像视觉特征交互模块，其被配置为：利用提取的图像视觉特征来进行基于区域的图像视觉特征交互；

在所述图像视觉特征交互模块中，利用一张图像的每一个区域的特征信息的向量去和另一张图像的每一个区域的特征信息的向量去进行点乘操作，来实现基于区域的图像视觉特征交互。

(3)图像视觉特征聚集模块，其被配置为：利用多任务学习神经网络来聚集进行交互后的图像视觉特征；

具体地，所述图像视觉特征聚集模块还被配置为：

再对输出的聚集图像视觉特征进行降维处理。

(4)图像分类及排序模块，其被配置为：将聚集后的图像视觉特征输入至已完成训练的分类器中进行分类，按照分类结果对图像进行排序。

在所述图像分类及排序模块中，分类器使用softmax函数对聚集后的图像视觉特征进行分类。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于特征交互和多任务学习的图像排序方法，其特征在于，包括：

提取原始图像的视觉特征；

将聚集后的图像视觉特征输入至已完成训练的分类器中进行分类，按照分类结果对图像进行排序；

利用一张图像的每一个区域的特征信息的向量去和另一张图像的每一个区域的特征信息的向量去进行点乘操作，来实现基于区域的图像视觉特征交互；

利用多任务学习神经网络来聚集进行交互后的图像视觉特征的过程为：

再对输出的聚集图像视觉特征进行降维处理。

2.如权利要求1所述的一种基于特征交互和多任务学习的图像排序方法，其特征在于，利用卷积神经网络提取原始图像的视觉特征。

3.如权利要求1所述的一种基于特征交互和多任务学习的图像排序方法，其特征在于，分类器使用softmax函数对聚集后的图像视觉特征进行分类。

4.一种基于特征交互和多任务学习的图像排序系统，其特征在于，包括图像排序服务器，所述图像排序服务器包括：

图像分类及排序模块，其被配置为：将聚集后的图像视觉特征输入至已完成训练的分类器中进行分类，按照分类结果对图像进行排序；

在所述图像视觉特征交互模块中，利用一张图像的每一个区域的特征信息的向量去和另一张图像的每一个区域的特征信息的向量去进行点乘操作，来实现基于区域的图像视觉特征交互；

所述图像视觉特征聚集模块还被配置为：

再对输出的聚集图像视觉特征进行降维处理。

5.如权利要求4所述的一种基于特征交互和多任务学习的图像排序系统，其特征在于，在所述图像视觉特征提取模块中，利用卷积神经网络提取原始图像的视觉特征。

6.如权利要求4所述的一种基于特征交互和多任务学习的图像排序系统，其特征在于，在所述图像分类及排序模块中，分类器使用softmax函数对聚集后的图像视觉特征进行分类。