CN110008365B

CN110008365B - 一种图像处理方法、装置、设备及可读存储介质

Info

Publication number: CN110008365B
Application number: CN201910287394.6A
Authority: CN
Inventors: 尹子健; 肖燕珊; 刘波; 梁飞; 汪槐沛; 苌征; 郝志峰
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2023-02-07
Anticipated expiration: 2039-04-09
Also published as: CN110008365A

Abstract

本发明公开了一种图像处理方法，该方法包括以下步骤：获取待分类的双视角数据集；其中，双视角包括图像视角和文本视角；对双视角数据集中的图像进行分组划分，利用分组结果确定图像包；对双视角数据集中的文本信息进行段落划分，利用段落划分结果确定文本包；将图像包和文本包输入至双视角分类器中进行分类处理，获得图像分类结果；其中，双视角分类器为利用多示例学习，进行迭代求解得到的分类器；存储图像分类结果，并利用图像分类结果进行图像检索。该方法可得到提高图像处理中图像检索性能。本发明还公开了一种图像处理装置、设备及可读存储介质，具有相应的技术效果。

Description

一种图像处理方法、装置、设备及可读存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种图像处理方法、装置、设备及可读存储介质。

背景技术

图像分类是根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。利用计算机对图像进行定量分析，把图像或图像中的每个像元或区域划归为若干个类别中的某一种，以代替人的视觉判读。除模拟人脑智能外，图像分类和目标识别技术给生活带来帮助和便利。如人脸识别，车牌号识别。针对可穿戴式设备，手势分类识别和跟踪算法可以识别手势并做出交互。近年来，图像分类与识别是计算机视觉领域热门研究方向之一，也是其他图像应用领域的基础。图像分类系统通常分为底层特征抽取、图像表达、分类器这三个重要组成部分，另有图像预处理，特征降维等可选模块嵌套其中。

目前，智能手机、数码相机、个人电脑等电子产品已入寻常百姓家。通过这些产品，能够轻松获取各种各样的图像信息。大数据时代，图像数据量大、种类繁多、价值密度低，用户对图像相关服务的需求也越来越迫切。数据挖掘和机器学习一直被致力于发展用于分析和理解不同应用中的图像数据。在云存储技术的发展、线上社群工具的创新下，在线照片共享平台(如Flickr，Photosig)大量涌现，为用户提供足够大的存储空间。用户可在线上分享私人照片，能够将照片分类、标上标签或文本描述，并且以此方式浏览。用户添加的文本描述可用于图像检索的同时，也因个人主观因素影响产生“噪声(Noise)”导致检索性能下降。具体为，对具有文本信息的图像进行分类检索时，该文本信息往往作为“噪音”存在，影响分类准确率，进一步导致检索性能下降。

综上所述，如何有效地提升图像分类准确率等问题，是目前本领域技术人员急需解决的技术问题。

发明内容

本发明的目的是提供一种图像处理方法、装置、设备及可读存储介质，在对具有文本信息的图像进行分类时，通过结合图像视角和文本视角进行图像分类，可提高图像分类的准确率，进一步提高图像检索性能。

为解决上述技术问题，本发明提供如下技术方案：

一种图像处理方法，包括：

获取待分类的双视角数据集；其中，所述双视角包括图像视角和文本视角；

对所述双视角数据集中的图像进行分组划分，利用分组结果确定图像包；

对所述双视角数据集中的文本信息进行段落划分，利用段落划分结果确定文本包；

将所述图像包和所述文本包输入至双视角分类器中进行分类处理，获得图像分类结果；其中，所述双视角分类器为利用多示例学习，进行迭代求解得到的分类器；

存储所述图像分类结果，并利用所述图像分类结果进行图像检索。

优选地，对所述双视角数据集中的图像进行分组划分，利用分组结果确定图像包，包括：

对所述双视角数据集中的图像进行图像特征提取处理，获得图像特征；

利用所述聚类算法并结合所述图像特征对所述图像进行聚合，并按照聚合结果确定初始图像包；

对所述初始图像包进行评分以确定正负性，并计算图像正包中各个图像示例间的相似度，获得所述图像包。

优选地，对所述双视角数据集中的文本信息进行段落划分，利用段落划分结果确定文本包，包括：

对所述双视角数据集中的文本信息划分段落，并将每一段文本作为一个初始文本包；

提取每一段文本的关键字列表，并将所述关键字列表中的每个关键字分别作为一个文本示例；

对每个所述初始文本包进行评分，并利用评分结果对所述初始文本包进行评分，获得所述文本包。

优选地，所述对每个所述初始文本包进行评分，包括：

利用所述关键字在所述关键字列表中的位置信息和所述初始文本包中关键字的总数，对所述文本示例进行评分。

优选地，所述双视角分类器的获取过程，包括：

利用交互式迭代框架更新每个模型变量的方式求解模型，得到所述双视角分类器。

优选地，所述利用交互式迭代框架更新每个模型变量的方式求解模型，包括：

获取包括文本信息的图像训练集，并将图像训练集中的图像和文本信息分别划分到图像视角和文本视角中，获得图像视角数据和文本视角数据；

利用聚类算法对所述图像视角数据进行聚类，获得聚类结果，并将聚类结果作为图像训练包；其中，所述图像训练包中的每一张图像分别作为一个图像训练示例；

将文本视角数据中的每一段文本信息作为文本训练包，每段文本信息中的关键字作为文本训练示例；

利用包注释评分方法对所述图像训练包和所述文本训练包进行评分，并利用评分结果确定正负性；

利用相似度模型处理正包中的模糊标签，计算相似度权值；

将模糊示例及所述相似性权重作为输入数据，构建初始分类器；

计算所述初始分类器中所述文本视角的超平面，以及所述图像视角的超平面，获得所述双视角分类器。

优选地，所述利用评分结果确定正负性，包括：

利用所述评分结果对所述图像训练包进行排序，将排序在指定数值前的图像训练包确定为正包，将排序在所述指定数值后的图像训练包确定为负包。

一种图像处理装置，包括：

双视角数据集获取模块，用于获取待分类的双视角数据集；其中，所述双视角包括图像视角和文本视角；

图像包确定模块，用于对所述双视角数据集中的图像进行分组划分，利用分组结果确定图像包；

文本包确定模块，用于对所述双视角数据集中的文本信息进行段落划分，利用段落划分结果确定文本包；

图像分类模块，用于将所述图像包和所述文本包输入至双视角分类器中进行分类处理，获得图像分类结果；其中，所述双视角分类器为利用多示例学习，进行迭代求解得到的分类器；

图像检索模块，用于存储所述图像分类结果，并利用所述图像分类结果进行图像检索。

一种图像处理设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述图像处理方法的步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述图像处理方法的步骤。

应用本发明实施例所提供的方法，获取待分类的双视角数据集；其中，双视角包括图像视角和文本视角；对双视角数据集中的图像进行分组划分，利用分组结果确定图像包；对双视角数据集中的文本信息进行段落划分，利用段落划分结果确定文本包；将图像包和文本包输入至双视角分类器中进行分类处理，获得图像分类结果；其中，双视角分类器为利用多示例学习，进行迭代求解得到的分类器；存储图像分类结果，并利用图像分类结果进行图像检索。

根据日常经验可知，图像附带的文本信息从一定程度上可反映该图像的一些特征，因此图像上的文本信息对进行图像分类具有一定的参考价值。基于此，结合文本视角和图像视角这两种视角进行图像分类，可提升图像分类准确率，进一步基于该图像分类结果进行图像检索，便可提升图像检索性能。具体的，得到待分类的双视角数据集对应的图像包和文本包之后，便可利用基于多示例学习并进行迭代求解而得的双视角分类器，对双视角数据集进行分类。得到较为准确的分类结果，进一步还可提高图像检索性能。

相应地，本发明实施例还提供了与上述图像处理方法相对应的图像处理装置、设备和可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种图像处理方法的实施流程图；

图2为本发明实施例一种基于相似度双视角分类方法流程图；

图3为本发明实施例中一种图像处理装置的结构示意图；

图4为本发明实施例中一种图像处理设备的结构示意图；

图5为本发明实施例中一种图像处理设备的结构示意图。

具体实施方式

本发明的核心是提供一种图像处理方法，在相似性的基础上，结合多视角学习、多示例学习实现对有文本信息的图像分类，以提高图像分类准确率。较为准确的图像分类结果，有利于提高图像检索性能。

其中，多示例学习(Multi-instance Learning，MIL)广泛应用于场景分类、图像标注中，它是由监督型学习(SupervisedLearning)算法演变出来的一种方法，定义“包”为多个示例的集合。与传统的分类问题不同，只有“包”的标签被给出，示例的标签是未知的。为描述示例标签和“包”标签之间的关系，一般地，“负包”中的每个示例都是负示例，而“正包”中至少含有一个正示例。多示例学习取得了广泛的研究与应用，如文档分类、图像识别、情感分析、人脸识别、对象检测等。以图像分类为例，大多数情况下，对整幅图像进行标记，而不是将图像中的每个区域进行标记。有人提出将图像精准分割成一个个区域然后进行标记，这种方法可以提高分类精确度的同时也需要大量的人力成本和时间成本。将图像视为“包”，多个示例看成图像的分割，这样可以将图像分类问题转化成多示例问题，有利于提高分类的效率。同时，多示例学习不仅可以用于图像分类，还可用于文本分类，可将每段文本视为一个“包”，每个句子都被视为一个“示例”。

多视角学习(Multi-view Learning，MVL)最初由Cowan等人提出，并应用于未标记的数据分类。这里的“视角”表示来自多个源或不同特征子集的数据。例如，多媒体视频，包含图像信息和语音信息两个不同的特征，它们可以被视为两视图数据；具有文本信息的图像，包含图像和文本信息两个不同的特征，这些不同的特征具有互补性。多视角学习有多种模型，如协同训练、多核学习、子空间学习等。加权协同训练算法可用于跨域图像情感分类，以预测图像的情感极性。该算法用图像和相应的文本注释训练两个情感分类器，并将源域和目标域之间的相似性设置为分类器的权重。基于多类多核学习的多特征融合方法可对图像进行分类。该方法融合许多特征，有效避免将多种类型的问题分解为多个二进制分类，同时直接得到分类器。半监督多模式子空间学习(SS-MMSL)利用未标记数据揭示的数据分布来增强子空间学习，并使用交替迭代优化算法来探索不同模式的互补特征。

本发明的另一核心是提供与上述图像处理方法相对应的图像处理装置、设备和可读存储介质。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

请参考图1，图1为本发明实施例中一种图像处理方法的流程图，该方法包括以下步骤：

S101、获取待分类的双视角数据集。

其中，双视角包括图像视角和文本视角。

双视角数据集指该数据集中的数据具有两种视角，即图像视角和文本视角。具体而言，即双视角数据集为具有文本信息的图像，即从图像视角的角度看，具体图像信息，而从文本视角的角度看，具有文本信息。可通过直接从可读的存储介质中，或通信传输过程中直接获得该双视角数据集，当然也可通过对具有文本信息的图像，如伴有文本描述的web图像，从不同视角进行处理，进一步获得该双视角数据集。其中，文本信息可以以对图像进行文本描述的方式呈现，文本信息的具体内容可以为描述图像本身的内容，也可为其他内容。例如，对一张蓝天的图像，该图像附带的文本描述可以为“蓝天”，也可以为“心情好”。

获得到双视角数据集之后，便可通过不同的视角，对双视角数据集中的数据进行处理，具体处理过程即可参照步骤S102-S104。

S102、对双视角数据集中的图像进行分组划分，利用分组结果确定图像包。

在本发明实施例中，对图像进行分组划分，然后基于分组划分的结果，确定图像包。其中，图像包为与多示例学习相匹配的图像包，即图像包具有正包和负包的区别，即负包中全是负示例，正包中至少存在一个正示例。具体的，一个分组即可视为一个图像包，而每个分组内的各个图像则分别作为该图像包中的各个示例。对图像进行划分时，可采集常见的聚类算法，如K-means算法、K-MEDOIDS算法、CLARANS算法，对图像进行聚类，将聚类结果直接作为分组结果；也可采取其他方法进行分组，如EM Clustering、GrabCut和MILCut对双视角数据集中的图像进行分组划分。

下面以采用聚类算法对图像进行分组划分为例，对如何确定图像包进行详细说明，该分组划分过程，包括：

步骤一、对双视角数据集中的图像进行图像特征提取处理，获得图像特征；

步骤二、利用聚类算法并结合图像特征对图像进行聚合，并按照聚合结果确定初始图像包；

步骤三、对初始图像包进行评分以确定正负性，并计算图像正包中各个图像示例间的相似度，获得图像包。

为了便于描述，下面将上述三个步骤结合起来进行说明。

在对双视角数据集中的图像进行图像特征提取处理时，可提取包括颜色直方图，颜色相关图，边缘方向直方图，小波纹理，块颜色矩和基于500-D数据包等图像特征中的至少一种。具体的特征提取的具体实现流程，可参照于已有的图像特征提取方法或直接使用特征提取网络进行图像特征提取，在此不再一一赘述特征提取的具体流程。得到图像特征之后，便可利用聚类算法，如K-means算法，结合图像特征按照相似距离对图像进行聚合。具体的，聚合时所需的K值可以预先设置，初始中心点可预先设置也可随机选择。得到聚合结果之后，便可按照聚合结果确定初始图像包。即将每个聚合中心作为一个初始图像包，每个初始图像包中包括属于该聚合中心的各个图像，即一个图像即为一个示例。然后，对初始图像包进行评分，以确定初始图像包的正负性。确定初始图像包的正负性之后，即确定出哪些初始图像包为图像正包，哪些初始图像包为图像负包。计算图像正包中各个图像示例间的相似度，获得图像包。该相似度可具体为各个示例与距离结果中的距离中心的相似距离。

S103、对双视角数据集中的文本信息进行段落划分，利用段落划分结果确定文本包。

对文本信息进行段落划分时，可采取常见的文本段落划分方法，将文本信息划分为若干段落。然后，基于段落划分结果确定文本包。具体的，可将每一个段落作为文本包，每个段落中的关键字作为文本包中的示例。其中，关键字可为对段落进行词组划分之后，所获得的词汇。当然，优选地，关键字还可以为对进行词组划分之后，对所获得的词汇进行进一步筛选，如去除助词、连词等无实义的词之后所获得的词汇。需要说明的是，该文本包的确定过程同图像包类似，也需进行正负包的确定。文本包的具体确定过程，包括：

步骤一、对双视角数据集中的文本信息划分段落，并将每一段文本作为一个初始文本包；

步骤二、提取每一段文本的关键字列表，并将关键字列表中的每个关键字分别作为一个文本示例；

步骤三、对每个初始文本包进行评分，并利用评分结果对初始文本包进行评分，获得文本包。

为了便于描述，下面将上述三个步骤结合起来进行说明。

在本发明实施例中，对文本信息进行段落划分之后，便可直接将每一段文本作为一个初始文本包，然后提取出每一段文本的关键字列表，然后将关键字列表中的每一个关键做分别作为一个文本示例，归属至各自对应的初始文本包中。然后对每个初始文本包进行评分，可利用关键字在关键字列表中的位置信息和初始文本包中关键字的总数，对文本示例进行评分，然后基于文本示例的评分结果对初始文本包进行评分。具体的，利用r(x_i)＝-p_i+1/n_i对每个文本示例进行评分：利用

对每个初始文本包进行评分；其中，n_i为图像x_i中关键字的总数，p_i为图像x_i中关键字列表中的位置，|B_I|为包B_I中示例的总数。评分结束之后，可将评分排名在预设阈值之前的初始文本包作为正包，将其他初始文本包作为负包，即确定了初始文本包的正负性，得到可输入至双视角分类器的文本包。

S104、将图像包和文本包输入至双视角分类器中进行分类处理，获得图像分类结果。

其中，双视角分类器为利用多示例学习，进行迭代求解得到的分类器。

在本发明实施例中，可以预先设置一个双视角分类器，该双视角分类器相较于常见分类器而言，该分类器进行分类判决的视角有两种，一种为图像视角，另一种为文本视角。该双视角分类器可利用多示例信息，进行迭代求解的方式获得。

在得到图像包和文本包之后，便可将图像包和文本包一并输入至双视角分类器中进行分类处理，得到基于图像视角和文本视角的图像分类结果。

S105、存储图像分类结果，并利用图像分类结果进行图像检索。

得到图像分类结果之后，便可进一步进行图像检索。由于该图像分类结果是基于图像视角和文本视角两种视角所进行的图像分类，因此该图像分类结果可用于基于内容的图像检索或基于文本的图像检索，还可结合文本和内容的图像检索。其中，基于文本和内容的图像检索，即可为检索条件包括文本和内容，检索的结果为文本和内容均符合该检索条件的图像。具体的图像检索的实现过程则可参见现有的基于内容的图像检索，以及基于文本的图像检索，在此不再一一赘述。

应用本发明实施例所提供的方法，获取待分类的双视角数据集；其中，双视角包括图像视角和文本视角；对双视角数据集中的图像进行分组划分，利用分组结果确定图像包；对双视角数据集中的文本信息进行段落划分，利用段落划分结果确定文本包；将图像包和文本包输入至双视角分类器中进行分类处理，获得图像分类结果；其中，双视角分类器为利用多示例学习，进行迭代求解得到的分类器；存储图像分类结果，并利用图像分类结果进行图像检索。若直接用于到日常图片的检索中，如在网页或库中检索相关图片时，性能较高的图像检索性能，可提升用户的满意度；若是图像识别技术(如人脸识别、车牌号识别等应用采集中)中应用到图像检索，则可基于较高的图像检索性能进一步提升图像识别技术的性能。

需要说明的是，基于上述实施例，本发明实施例还提供了相应的改进方案。在优选/改进实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考，相应的有益效果也可相互参照，在本文的优选/改进实施例中不再一一赘述。

实施例二：

为了便于本领域技术人员更好地理解本发明实施例所提供的图像处理方法，下面对双视角分类器的获取过程进行详细说明。在获取双视角分类器的过程中，可利用交互式迭代框架更新每个模型变量的方式求解模型，得到双视角分类器。其中，模型变量即为用于进行图像分类判决所需的变量值，如用于确定文本视角和图像视角各自对应的超平面(hyperplane)的变量值。其中，超平面即分类的决策边界。

其中，利用交互式迭代框架更新每个模型变量的方式求解模型，即求解分类器的超平面的过程，包括：

步骤一、获取包括文本信息的图像训练集，并将图像训练集中的图像和文本信息分别划分到图像视角和文本视角中，获得图像视角数据和文本视角数据；

步骤二、利用聚类算法对图像视角数据进行聚类，获得聚类结果，并将聚类结果作为图像训练包；其中，图像训练包中的每一张图像分别作为一个图像训练示例；

步骤三、将文本视角数据中的每一段文本信息作为文本训练包，每段文本信息中的关键字作为文本训练示例；

步骤四、利用包注释评分方法对图像训练包和文本训练包进行评分，并利用评分结果确定正负性；

步骤五、利用相似度模型处理正包中的模糊标签，计算相似度权值；

步骤六、将模糊示例及相似性权重作为输入数据，构建初始分类器；

步骤七、计算初始分类器中文本视角的超平面，以及图像视角的超平面，获得双视角分类器。

为便于描述，下面将上述步骤结合起来进行说明。

需要说明的是，上述步骤中存在部分步骤与上述实施例中的步骤相似，相似步骤之间可相互参照。例如，利用评分结果确定正负性，可利用评分结果对图像训练包进行排序，将排序在指定数值前的图像训练包确定为正包，将排序在指定数值后的图像训练包确定为负包。即非正包以外的其他图像训练包均为负包。具体的评分方式，则可参照上文所描述的文本包的确定过程中所执行的评分步骤。

双视角分类器的获取过程，包括：

给定一个示例x和一个子集S，基于单集的相似度定义如下：

其中，示例x表示的是一张图像或一个关键字(经过预处理的)，子集S对应的是一组图像或一段文本信息的集合。

基于相似度的两视角数据的建立：用

来表示训练包的集合。其中，

表示一个“正包”，其标签为

表示一个“负包”，其标签为

N⁺和N^-分别表示“正包”和“负包”的数量。每个“包”中都包含了一组示例x及其标签y＝±1。于是训练包的集合可写成D＝{(x₁，y₁)，(x₂，y₂)，...，(x_i，y_i)，...，(x_n，y_n)}，一个“正包”中的一个示例x_i使用数据模型{x_i，m⁺(x_i)，m^-(x_i)}来表示。其中m⁺和m^-分别表示示例x_i面向正类和负类的相似度，且0≤m⁺(x)≤1，0≤m^-(x)≤1。正负类相似度权值m⁺(x_i)，m^-(x_i)分别定义如下：

其中，S_p用来存放“正包”中的正候选，S^-用来存放“负包”中的示例。其中，正候选表示MIL的特性：正包中至少包含一个正示例，负包中的示例全部为负；但正包中的示例的标签最初是未知的，所以，与同一个包中的其他示例相比，“正候选”更有可能是正的，可利用公式(1)进行计算。例如：以“狗”为关键字搜索出一组图片，有些图像与“狗”有关(正示例)，有些图像与“狗”无关(负示例)。但是，计算机不知道这些图像是“正”还是“负”，于是通过计算相似度，粗略地给定一个标签，相似度较大的，称之为“正候选”。

假定f_A＝ω_Aφ(x)+b_A和f_B＝ω_Bφ(x)+b_B分别表示VA视角和VB视角的超平面，则可以通过解决下列问题来求得双视角分类器：

ω_Aφ(x_i)+b_A≥1-ξ_i

ω_Aφ(x_j)+b_A≤-1+ξ_j

ω_Bφ(x_k)+b_B≥1-ξ_k

ω_Bφ(x_h)+b_B≤-1+ξ_h

ξ_i≥0，ξ_j≥0，ξ_k≥0，ξ_h≥0，η_i≥0

其中，D_A和D_B分别是控制两个视图的首选项，如果D_A＞D_B，则V_A视角优于V_B视角；反之，则V_B视角优于V_A视角。b_A和b_B是偏差，ξ_i，ξ_j，ξ_k，ξ_h是松弛变量，即分别是第i，j，k，h个训练样本的误差，C是边缘与经验损失的权衡。

其中

分别存放V_A视角和V_B视角中的正候选，

分别存放V_A视角和V_B视角中除正候选外的示例。

其中

分别存放V_A视角和V_B视角“负包”中的负示例。

是两视角间的约束。

在求解SVM分类器的过程中，可以使用libSVM工具箱直接求解。优选地，为了提高求解效率，可采用较为常用的是拉格朗日乘子法和SVM核函数进行求解。其中，拉格朗日乘子法是一种经典的求解条件极值的解析方法，可将所有约束的优化模型问题转化为无约束极值问题的求解。SVM核函数能够降低计算的复杂度，将线性不可分的样本映射到高维空间，设K(v，x)＝φ(v)·φ(x)。通过将约束条件函数与原函数联立，引入SVM核函数，从而求出原函数的最优解：

0≤β_i≤C，0≤β_j≤C，0≤δ_i≤C

优化求解：通过一个交互式迭代框架固定其他变量来更新每个变量，来求解模型，得到预测分类器。

具体步骤如下：

(1)、给定一个包含图像和文本信息的双视角数据集，并将图像和文本分别划分到V_A视角和V_B视角中，产生两视角数据；

(2)、对包含图像的V_A视角使用k-means聚类算法，得到的结果视为“包”，“包”中的每一张图像视为“示例”；在包含文本信息的V_B视角中，将一段文本信息视为“包”，每段文本的中的关键字视为“示例”；

(3)、初始化的标签：使用“包注释评分”方法对所有“包”评分，并依据“包”的评分进行排名，选出视角的前若干个“包”视为“正包”，其余视为“负包”，数目由自己根据情况而定；

(4)、使用相似度模型处理“正包”中的模糊标签，计算两相似度权值m⁺(x_i)，m^-(x_i)，并将模糊示例及其相似性权重并入学习阶段构建分类器，输出ω_A，ω_B，b_A，b_B。

其中，评分是用来确定“包”的正负性：每张图像都带有若干个关键字，通过统计关键字的出现频率与个数，来对“包”进行评分。分值大的“包”，视为“正包”，意味着“包”中的图像与搜索的内容更相关。例：以“狗”为关键字搜索的一组图片，“包”中包含“狗”的关键字越多，则“包”的分值越大，则意味着这个“包”与搜索的内容相关性更大。

其中，在样本空间中，划分超平面可通过如下线性方程来描述：

ωx+b＝0，其中，ω为法向量，决定了超平面的方向；b为位移项，决定了超平面与原点之间的距离。显然，划分超平面可被法向量ω和位移b确定。于是：于是：f^A＝ω_Aφ(x_i)+b_A是V_A视角的超平面，通过这个超平面，可将正类和负类划分开，解出了ω_A和b_A，即找到了正负类之间的超平面。同理，ω_B和b_B亦是如此。

其中，示例包括模糊示例，根据定义，“负包”中的示例全为“负”，是已经确定的。“正包”中至少有一个“正示例”，至于哪些是“正示例”、“负示例”，是未知的，所以称为“模糊示例”。

上述步骤中所涉及的算法及其详细过程如下：

K-means聚类算法的具体实现过程：

(1)、从n张图像中随机选择k₁张作为初始聚类中心；

(2)、从m段文本信息中随机选择k₂段作为初始聚类中心；

(3)、重复以下(4)和(5)：

(4)、对剩余的每张图像和每段文本测量其到每个聚类中心的距离，并把它归到最近的聚类中心的类；

(5)、重新计算已经得到的各个类的聚类中心；

(6)、直到新的聚类中心与原聚类中心相等。

包注释评分方法的具体实现过程，包括：

(1)、每张图像和每句文本信息中的关键字分别为一个“示例”；

(2)、对每个“示例”评分：r(x_i)＝-p_i+1/n_i；

(3)、对每个“包”评分：

其中，n_i为图像x_i中关键字的总数，p_i为图像x_i中关键字列表中的位置，|B_I|为包B_I中示例的总数。

请参考图2，基于相似度双视角分类方法的实现过程，包括：

(1)、初始化α^A，α^B，β，

令t＝0；

(2)、重复计算以下(3)-(14)；

(3)、t＝t+1；对于V_A和V_B视角中的每个“正包”

重复计算以下(4)-(11)；

(4)、对于“正包”

中的每一个“示例”，重复计算以下(5)-(9)；

(5)、令

为包

的正候选；

(6)、

(7)、通过用

替代

来更新

(8)、

其中，箭头的指向即更新方向，如A←B，意思是用B来更新A。例：假设A＝{a1，a2}，通过计算发现a3也满足条件，则A←a3，用a3来更新A，得到A＝{a1，a2，a3}；

(9)、计算f^A，f^B表示为F(x_i)；

f^A＝ω_Aφ(x_i)+b_A，先固定拉格朗日乘子之外的所有参数，然后求拉格朗日拉格朗日乘子上的极值，求解式(4)获得更新后的拉格朗日乘子，通过对式(3)中的ω_A和b_A求偏导，并令偏导数＝0，解出ω_A和b_A来得到f^A。同理可得f^B。

(10)、通过用

替代

来更新

(11)、获得新的正候选并返回argmax F(x_i)；

(12)、

(13)、

F^(t)←F；

(14)、直到|F^(t-1)-F^(t)|≤τF^(t-1)；

(15)、输出ω_A，b_A，ω_B，b_B。

其中，(2)是记录第t次和第t+1次超平面的变化情况。当第t次和第t+1次超平面之间的差异小于某个阀值时(即|F^(t-1)-F^(t)|≤τF^(t-1)))，分类完成，输出最终的ω_A，b_A，ω_B，b_B，即可获得双视角分类器。(3)是控制“包”的遍历，直到每个“包”都被遍历。(4)的意义是在V_A视角中，首先在一个“正包”

中挑选“正候选”，然后遍历并计算“包”中的每一个示例，每遍历一个示例，超平面f_A可能会发生变化，当遍历完这个“包”中的所有“示例”时，本轮循环结束(同理，V_B视角中的

亦是如此)。简言之，(4)是控制“正包”中的“示例”的遍历，直到这个“包”中的每一个“示例”都被遍历。

可见，本发明实施例所提供的图像处理方法，在学习阶段(即获取双视角分类器的过程中)没有忽略“正包”中难以确定标签的模糊示例，使用相似度数据模型，计算两个相似性权重，初步对模糊示例进行归类处理。接着使用文本信息对“包”进行正类和负类的标记，将分类问题转化成多示例学习问题，然后训练分类器，提高了分类的精确度，降低对“噪声”的敏感度。与其他多示例学习方法相比，本发明实施例所提供的图像处理方法，能够应用在伴有文本信息的图像分类问题，以及进一步利用分类结果所进行的图像检索问题，能够处理大批量这类型的数据。

为便于本领域技术人员更好地理解本发明实施例所提供的图像处理方法中能够提高分类准确率的技术效果，下面将本发明实施例所提供的方法应用到双视角数据分类领域，其性能可有计算机进行如下仿真实验给出。

实验采用NUS-WIDE数据集，该数据集包括来自Flickr的269648张图像和相关标签中的5018个唯一标签。NUS-WIDE数据集是从这些图像中提取的六种低级特征，包括64-D颜色直方图，144-D颜色相关图，73-D边缘方向直方图，128-D小波纹理，225-D块颜色矩和SIFT基于500-D数据包，可用于评估81个概念的验证。为了充分比较本发明所提方法和其它多视角分类方法的分类性能，对本发明所提方法和其它图像分类方法(Ourmethod)进行了性能对比。以分类准确率为标准，具体实验结果参见表1，表1为各算法分类准确率对比表：

算法	Our method	GMI-SVM	mi-SVM	DD-SVM	WellSVM
						准确度	0.662	0.626	0.616	0.594	0.521

表1

可见，本发明实施例所提供的图像分类方法STMIL-SVM文提出的算法为算法，分类准确率比其它几种方法要高。

实施例三：

相应于上面的方法实施例，本发明实施例还提供了一种图像处理装置，下文描述的图像处理装置与上文描述的图像处理方法可相互对应参照。

参见图3所示，该装置包括以下模块：

双视角数据集获取模块101，用于获取待分类的双视角数据集；其中，双视角包括图像视角和文本视角；

图像包确定模块102，用于对双视角数据集中的图像进行分组划分，利用分组结果确定图像包；

文本包确定模块103，用于对双视角数据集中的文本信息进行段落划分，利用段落划分结果确定文本包；

图像处理模块104，用于将图像包和文本包输入至双视角分类器中进行分类处理，获得图像分类结果；其中，双视角分类器为利用多示例学习，进行迭代求解得到的分类器；

图像检索模块105，用于存储图像分类结果，并利用图像分类结果进行图像检索。

应用本发明实施例所提供的装置，获取待分类的双视角数据集；其中，双视角包括图像视角和文本视角；对双视角数据集中的图像进行分组划分，利用分组结果确定图像包；对双视角数据集中的文本信息进行段落划分，利用段落划分结果确定文本包；将图像包和文本包输入至双视角分类器中进行分类处理，获得图像分类结果；其中，双视角分类器为利用多示例学习，进行迭代求解得到的分类器；存储图像分类结果，并利用图像分类结果进行图像检索。

在本发明的一种具体实施方式中，图像包确定模块102，具体用于对双视角数据集中的图像进行图像特征提取处理，获得图像特征；利用聚类算法并结合图像特征对图像进行聚合，并按照聚合结果确定初始图像包；对初始图像包进行评分以确定正负性，并计算图像正包中各个图像示例间的相似度，获得图像包。

在本发明的一种具体实施方式中，文本包确定模块103，具体用于对双视角数据集中的文本信息划分段落，并将每一段文本作为一个初始文本包；提取每一段文本的关键字列表，并将关键字列表中的每个关键字分别作为一个文本示例；对每个初始文本包进行评分，并利用评分结果对初始文本包进行评分，获得文本包。

在本发明的一种具体实施方式中，文本包确定模块103，具体用于利用关键字在关键字列表中的位置信息和初始文本包中关键字的总数，对文本示例进行评分。

在本发明的一种具体实施方式中，还包括：

双视角分类器获取模块，用于利用交互式迭代框架更新每个模型变量的方式求解模型，得到双视角分类器。

在本发明的一种具体实施方式中，双视角分类器获取模块，具体用于获取包括文本信息的图像训练集，并将图像训练集中的图像和文本信息分别划分到图像视角和文本视角中，获得图像视角数据和文本视角数据；利用聚类算法对图像视角数据进行聚类，获得聚类结果，并将聚类结果作为图像训练包；其中，图像训练包中的每一张图像分别作为一个图像训练示例；将文本视角数据中的每一段文本信息作为文本训练包，每段文本信息中的关键字作为文本训练示例；利用包注释评分方法对图像训练包和文本训练包进行评分，并利用评分结果确定正负性；利用相似度模型处理正包中的模糊标签，计算相似度权值；将模糊示例及相似性权重作为输入数据，构建初始分类器；计算初始分类器中文本视角的超平面，以及图像视角的超平面，获得双视角分类器。

在本发明的一种具体实施方式中，双视角分类器获取模块，具体用于利用评分结果对图像训练包进行排序，将排序在指定数值前的图像训练包确定为正包，将排序在指定数值后的图像训练包确定为负包。

实施例四：

相应于上面的方法实施例，本发明实施例还提供了一种图像处理设备，下文描述的一种图像处理设备与上文描述的一种图像处理方法可相互对应参照。

参见图4所示，该图像处理设备包括：

存储器D1，用于存储计算机程序；

处理器D2，用于执行计算机程序时实现上述方法实施例的图像处理方法的步骤。

具体的，请参考图5，为本实施例提供的一种图像处理设备的具体结构示意图，该图像处理设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在图像处理设备301上执行存储介质330中的一系列指令操作。

图像处理设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。例如，Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等。

上文所描述的图像处理方法中的步骤可以由图像处理设备的结构实现。

实施例五：

相应于上面的方法实施例，本发明实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种图像处理方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的图像处理方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

Claims

1.一种图像处理方法，其特征在于，包括：

存储所述图像分类结果，并利用所述图像分类结果进行图像检索；

其中，所述双视角分类器的获取过程，包括：利用交互式迭代框架更新每个模型变量的方式求解模型，得到所述双视角分类器；

所述利用交互式迭代框架更新每个模型变量的方式求解模型，包括：获取包括文本信息的图像训练集，并将图像训练集中的图像和文本信息分别划分到图像视角和文本视角中，获得图像视角数据和文本视角数据；利用聚类算法对所述图像视角数据进行聚类，获得聚类结果，并将聚类结果作为图像训练包；其中，所述图像训练包中的每一张图像分别作为一个图像训练示例；将文本视角数据中的每一段文本信息作为文本训练包，每段文本信息中的关键字作为文本训练示例；利用包注释评分方法对所述图像训练包和所述文本训练包进行评分，并利用评分结果确定正负性；利用相似度模型处理正包中的模糊标签，计算相似度权值；将模糊示例及所述相似度权值作为输入数据，构建初始分类器；计算所述初始分类器中所述文本视角的超平面，以及所述图像视角的超平面，获得所述双视角分类器。

2.根据权利要求1所述的图像处理方法，其特征在于，对所述双视角数据集中的图像进行分组划分，利用分组结果确定图像包，包括：

利用聚类算法并结合所述图像特征对所述图像进行聚合，并按照聚合结果确定初始图像包；

3.根据权利要求1所述的图像处理方法，其特征在于，对所述双视角数据集中的文本信息进行段落划分，利用段落划分结果确定文本包，包括：

4.根据权利要求3所述的图像处理方法，其特征在于，所述对每个所述初始文本包进行评分，包括：

5.根据权利要求1所述的图像处理方法，其特征在于，所述利用评分结果确定正负性，包括：

6.一种图像处理装置，其特征在于，包括：

图像检索模块，用于存储所述图像分类结果，并利用所述图像分类结果进行图像检索；

其中，所述装置，还用于利用交互式迭代框架更新每个模型变量的方式求解模型，得到所述双视角分类器；

所述装置，还用于获取包括文本信息的图像训练集，并将图像训练集中的图像和文本信息分别划分到图像视角和文本视角中，获得图像视角数据和文本视角数据；利用聚类算法对所述图像视角数据进行聚类，获得聚类结果，并将聚类结果作为图像训练包；其中，所述图像训练包中的每一张图像分别作为一个图像训练示例；将文本视角数据中的每一段文本信息作为文本训练包，每段文本信息中的关键字作为文本训练示例；利用包注释评分方法对所述图像训练包和所述文本训练包进行评分，并利用评分结果确定正负性；利用相似度模型处理正包中的模糊标签，计算相似度权值；将模糊示例及所述相似度权值作为输入数据，构建初始分类器；计算所述初始分类器中所述文本视角的超平面，以及所述图像视角的超平面，获得所述双视角分类器。

7.一种图像处理设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述图像处理方法的步骤。

8.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述图像处理方法的步骤。