CN104573711B

CN104573711B - 基于文本‑物体‑场景关系的物体和场景的图像理解方法

Info

Publication number: CN104573711B
Application number: CN201410831227.0A
Authority: CN
Inventors: 熊红凯; 王博韬
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2014-12-22
Filing date: 2014-12-22
Publication date: 2017-12-15
Anticipated expiration: 2034-12-22
Also published as: CN104573711A

Abstract

本发明涉及一种基于文本‑物体‑场景关系的物体和场景的图像理解方法，通过一个条件随机场融合三个域的信息：场景、物体和文本；不同域的特征通过三种关系相互关联：场景与物体，场景与文本，物体与文本；文本以两种不同的方式与物体和场景相关联。文本和物体的关系通过名词和物体的匹配概率来表示，而文本和场景的关系通过名词在不同场景的描述中出现的概率来表示。其中文本和物体的匹配概率通过求解弱监督条件下的受约束的双向匹配优化问题得到。这种方法仅仅需要简单的标注信息，提高了精度，能够充分借助网络资源用于图像理解，节省了巨大的人力标注开销。

Description

基于文本-物体-场景关系的物体和场景的图像理解方法

技术领域

本发明涉及一种信号处理的计算机视觉技术领域的方法，具体是一种基于文本-物体-场景关系的物体和场景的图像理解方法。

背景技术

在大数据时代，互联网上的图像数据呈现爆炸式增长，迫切需要一种能够自动提取图像中语义信息的智能视觉系统。经过计算机视觉领域的不懈努力，目前已经在诸多关键任务，如物体检测，场景分类，人脸识别上取得了显著的进步。然而，作为计算机视觉领域的终极目标，图像理解仍然是一个极具挑战的问题。当面对网络上海量的图像理解，这一问题变得更为艰巨。人们无法再像过去那样依靠精确标注的图像数据集来训练模型，因为对包含了上千类物体的上百万图像做精确标注耗费巨大。相比传统图像数据，网络图像数据的一个显著特点是它们往往伴随着描述性的文本，例如图像标题，关键词和发布者的说明。这些文本提供了与图像语义高度相关的重要信息。

经过对现有技术的文献检索发现，传统的利用文字进行图像理解的方法主要分为三类：基于特征的方法，基于主题模型的方法和基于条件随机场的方法。基于特征的方法先从图像和文本提取特征，然后在特征层面进行融合。Li等人在2009年ICCV会议上发表的“Landmark classification in large-scale image collections”论文中提出，将文本特征和视觉特征拼接成最终的特征向量用于训练支持向量机。Wang等人在2009年CVPR会议上发表的“Building text features for object image classification”论文中提出，将文本特征和视觉特征分别训练分类器，然后再训练一个分类器用于融合上述两个分类器的分类结果。基于主题模型的方法主要通过LDA方法对图像和文本联合建模。Barnard在2003年JMLR期刊上发表的“Matching words and pictures”论文中提出利用LDA方法建立图像和文本的联合概率分布。后来，Blei等人在2003年ACM SIGIR会议上发表的“Modelingannotated data”论文中基于文本主题和视觉主题的一一对应的假设，提出了Corr-LDA方法。近年来流行的条件随机场也用于建模图像和文本。Fidler等人在2013年的CVPR会议上发表的“A sentence is worth a thousand pixels”论文中提出了通过解析文本建立语义图模型的方法对图像进行联合分割、物体检测和分类。然而该方法的主要不足在于需要物体和文本实例的一一对应关系来训练模型，并且在预测过程中需要手动标定名词所对应的物体。

发明内容

本发明针对现有技术的不足，提供了一种基于文本-物体-场景关系的物体和场景的图像理解方法，通过利用描述性文本，结合视觉信息和文本信息，对图像做出更有效的理解。

本发明是通过以下技术方案实现的：利用条件随机场建模场景、物体和文本的联合概率密度函数，联合预测图像的场景类别和图像中存在的物体。弱监督的条件下学习出不同域之间的关系，包括：场景-物体关系，场景-文本关系和文本-物体关系。

本发明所述的基于文本-物体-场景关系的物体和场景的图像理解方法，对于输入的图像-文本对，具体处理步骤如下：

第一步：用物体检测器计算图像中各类物体存在的可能性大小，进而确定物体势函数。

第二步：将文本用自然语言分析工具提取其中的名词信息，确定文本节点的取值。

第三步：用场景分析算法计算图像属于各种场景类别的概率，确定场景势函数。

第四步：根据文本节点的值和文本与场景的关系计算场景-文本势函数。

第五步：根据场景和物体的关系计算场景-物体势函数。

第六步：根据物体和文本的对应关系计算文本-物体势函数。

第七步：将上述第一步～到第六步中确定的五种势函数用条件随机场联合概率建模，求解最大后验概率，得到物体节点和场景节点的值，即图像中存在哪些物体和图像属于的场景类别。

所述方法对于输入的图像-文本对，具体处理步骤如下：

第一步：用物体检测器计算图像中各类物体存在的可能性大小，进而确定物体势函数；

第二步：将文本用自然语言分析工具提取其中的名词信息，确定文本节点的取值；

第三步：用场景分析算法计算图像属于各种场景类别的概率，确定场景势函数；

第四步：根据文本节点的值和文本与场景的关系计算场景-文本势函数；

第五步：根据场景和物体的关系计算场景-物体势函数；

第六步：根据物体和文本的对应关系计算文本-物体势函数；

第六步：将上述第一步～到第五步中确定的五种势函数用条件随机场联合概率建模，求解最大后验概率，得到物体节点和场景节点的值，即图像中存在哪些物体和图像属于的场景类别；

所述用条件随机场联合概率建模，是指：每个图像-文本对用条件随机场模型建模文本、场景和物体之间的联合概率密度分布函数，条件随机场由三种类型的节点和三种类型的边组成；三种类型的节点分别为：场景节点、物体节点和文本节点；三种类型的边为：场景-物体边、场景-文本边和文本-物体边。

优选的，所述的用条件随机场联合概率建模，其中场景节点有一个，用随机变量s表示该图像的场景类别。

优选的，所述的场景节点的一元势函数(对应第三步得到的势函数)由一组线下场景检测器定义，该势函数有S种可能的取值，S为场景类别的数量，每种取值为对应的场景分类器对该类场景的判别值。

优选的，所述的用条件随机场联合概率建模，其中物体节点有O个，其中O是物体类别的数量，每个物体节点用随机变量z表示相应物体在图像中存在与否。

优选的，所述的物体节点的一元势函数(对应第一步得到的势函数)由一组线下物体检测器定义，每个物体检测器对一幅图像返回多个该物体可能存在的位置，每个位置都伴有一个判别值指示物体存在于该位置的可能性大小，势函数取所有判别值中的最大值一个作为图像中存在该类物体的指示。

优选的，所述的用条件随机场联合概率建模，其中文本节点有N个，其中N是名词类别的数量，每个文本节点用随机变量q表示相应名词在图像的文字描述中存在与否。

优选的，所述的用条件随机场联合概率建模，其中场景-物体边：场景和物体之间的关系用场景-物体边对应的二元势函数(对应第五步得到的势函数)表征，具体表示为各类物体在不同场景中出现的概率。

优选的，所述的用条件随机场联合概率建模，其中场景和文本之间的关系用场景-文本边对应的二元势函数(对应第四步得到的势函数)表征，具体表示为各类名词在不同场景中出现的概率。

优选的，所述的用条件随机场联合概率建模，其中文本-物体边：文本和物体之间的关系用文本-物体边对应的势函数(对应第六步得到的势函数)表征，具体表示为名词和物体之间的相关概率。

优选的，所述的文本和物体之间的相关概率，其表示方法是通过对每个图像-文本对求解受约束的双向匹配优化问题得到样本级的名词与物体的映射关系；具体如下：

(1)用自然语言分析工具提取文本中的名词及其数量，其中名词为文本中词性标签为NN，NNS，NNP的单词；名词的数量有两类，第一类为精确数量，包含了单数名词和指出数量的复数名词；第二类为模糊数量，包含了未给出数量的复数名词，这类名词的数量为2；

(2)求出名词和物体之间的初始相关概率，具体为其共同出现在一个样本中的概率；

(3)建立受约束的文本-物体的优化问题，其中，约束一要求映射到某物体的名词的个体数量不能大于该物体的数量；约束二要求一个名词只能映射到一个类别的物体；

(4)重新估计文本-物体间的相关概率，即在训练集中统计某名词的所有个体中被映射到某物体的个体的比例。

与现有技术相比，本发明具有以下有益效果：

本发明基于文本-物体-场景关系的弱监督学习的物体和场景实现图像理解，利用条件随机场建模场景、物体和文本的联合概率密度函数，联合预测图像的场景类别和图像中存在的物体；在弱监督的条件下学习出不同域之间的关系，包括：场景-物体关系，场景-文本关系和文本-物体关系。这种方法仅仅需要简单的标注信息，用于训练的每张图像只需要知道其包含了哪些物体，而不需要具体指出每个物体在哪里，且提高了精度。这种简单的标注信息广泛地存在于互联网上，从而使得本发明能够充分借助网络资源用于图像理解方法，节省了巨大的人力标注开销。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明的训练过程方法流程图；

图2是本发明的测试过程方法流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明通过一个条件随机场融合三个域的信息：场景、物体和文本。不同域的特征通过三种关系相互关联：场景与物体，场景与文本，物体与文本。文本以两种不同的方式与物体和场景相关联。文本和物体的关系通过名词和物体的匹配概率来表示，而文本和场景的关系通过名词在不同场景的描述中出现的概率来表示。其中文本和物体的匹配概率通过求解弱监督条件下的受约束的双向匹配优化问题得到。

基于上述技术思路，本发明对于输入的图像-文本对：

(1)用一组现有的物体检测器(如DPM,)计算图像中各类物体存在的可能性大小，进而确定了物体势函数。

(2)将文本用自然语言分析工具提取其中的名词信息，进而确定文本节点的取值。

(3)用现有的场景分析算法(如SPM)计算图像属于各种场景类别的概率，进而确定了场景势函数。

(4)根据文本节点的值和文本与场景的关系计算场景-文本势函数。

(5)根据场景和物体的关系计算场景-物体势函数。

(6)根据物体和文本的对应关系计算文本-物体势函数。

(7)将上述五种势函数用条件随机场联合概率建模，求解最大后验概率，得到物体节点和场景节点的值，即图像中存在哪些物体和图像属于的场景类别。

进一步的，对上述技术细节详细说明如下：

(1)一个场景节点，表示图像的场景类别，用随机变量s：1≤s≤S表示，其中S是场景类别的数量。场景节点的势函数为

f_S(s)＝D_s，1≤s≤S

它由一个线下场景分类器定义，其中D_s为场景分类器将图像分类为场景s的判别值。f_S根据图像的视觉特征倾向于选择判别值高的场景类别。

(2)N个文本节点，其中N是所有文本中所含的名词类别的数量。每个文本节点用随机变量q∈{0，1}表示其对应的名词在文本中的存在与否。文本节点的取值由文本分析得到。

(3)O个物体节点，其中O是物体类别的数量。每个物体节点用随机变量z∈{0，1}表示该物体在图像中的存在与否。物体节点的势函数为

其中z_o表示第o类物体在图像中是否存在，L_o为第o类物体的预定阈值，可通过梯度下降算法求得最优值。f_O由一系列线下物体检测器定义。d_o为物体o的检测器对图像输出的最大判别值，表示根据图像视觉特征判断物体o存在的可能性。当判别值足够大(即大于阈值)，f_O倾向于判断物体存在于图像中。

(4)O个场景-物体边，每条边连接场景节点和一个物体节点。场景-物体边用势函数f_SO(s，z)表示：

f_SO(s，z_o)＝F_O(s，o)z_o+(1-F_o(s，o))(1-z_o)

其中z_o表示物体o在图像中存在与否。若存在，z_o＝1；反之z_o＝0。s代表场景类别，F_O(s，o)为物体o出现在场景s中的概率。f_SO反映了在某类场景中特定物体存在与否的可能性。

(5)N个场景-文本边，每条边连接场景节点和一个文本节点。场景-文本边用势函数f_ST(s，q)表示：

f_ST(s，q_u)＝F_T(s，u)q_u+(1-F_T(s，u))(1-q_u)

其中u表示名词的类别，s代表场景类别，q_u表示名词u在文本中存在与否。F_T(s，u)表示名词u在对场景s的图像的描述中出现的概率。f_ST反映了在对某类场景图像的文字描述中特定名词被提到的概率。

(6)N×O个文本-物体边，每条边连接一个文本节点和一个物体节点。文本-物体边用势函数f_TO(q，z)表示：

f_TO(q_u，z_o)＝max(P(u，o)-T，0)q_uz_o

其中q_u表示名词u是否存在，z_o表示物体o是否存在，P(u，o)为名词u和物体o的匹配概率，T为预定阈值，在实验中通过交叉验证法确定，使得匹配的精度在0.8左右为宜。f_TO反映了某个名词的在文本描述中的存在与否对特定物体在图像中存在与否的暗示程度。若名词和物体的相关性足够强，则该名词在图像描述中的出现暗示着相应物体存在于图像中。

最终，物体节点z＝[z₁，...，z_O]和场景节点s的最优值可通过最大化该图模型的联合概率密度函数得到，采用max-product方法计算。

文本中的名词和物体类别的匹配概率通过逐样本匹配名词和物体实例得到，具体过程为：

(1)利用文本分析工具提取文本中的名词和数量。其中名词为词性标签为NN，NNS，NNP的单词。名词的数量有两种类型：第一类为精确数量，包括单数名词和说明个数的复数名词；第二类为不精确数量，包括数量未被说明的复数名词，这类名词的数量设为其下限2。最终得到名词的数量c_i。物体的数量C_j由标注得到。

(2)建立受约束的双向匹配优化问题

其中是文本中提取出的名词集合，u_i是第i个名词的类别，c_i表示第i个名词的数量，是图像中存在的物体的集合，o_j表示第j个物体的类别，C_j表示第j个物体的数量，X为二元匹配矩阵，b₀为初始名词和物体的匹配概率。约束1表明被匹配到某物体的名词的个体总数量不能超过该物体的个体总数量。约束2表明某名词只能被匹配到一个物体类别。匹配概率的初始值b_o为名词和物体共同出现的概率

(3)对于训练集中的每个图像-文本对求解上述匹配问题，得到匹配矩阵重新估计匹配概率

其中n为训练集的样本数，为第t个样本的名词集合，为第t个样本的物体集合，为第t个样本的第i个名词的数量，为第t个样本的第i个名词的类别，为第t个样本的第j个物体的类别，1(条件)是一个布尔函数，条件为真时取值为1，条件为假时取值为0。公式中分母为名词u的个体数量，分子为名词u和物体o的匹配对的数量。

最终，将场景与物体、场景与文本、文本与物体之间的联合概率密度用本发明提出的场景-物体，场景-文本，文本-物体的关系建模，建立综合场景-文本-物体三者的概率密度分布，通过求解最大后验概率可以得到图像中包含了哪些物体、该图像刻画了哪类场景，即对图像内容作出了语义层面的理解。

本发明上述方法在一具体实施例中实施时，可以分为训练过程和测试过程两个模块。其中模型的参数通过训练过程确定。测试过程即模型的实际应用场景，用于衡量本发明的有效性。

如图1所示，本实施例训练过程包括如下步骤：

步骤一，对文本的语法分析:对训练集中的文本利用自然语言分析工具抽取名词及其数量；

步骤二，根据训练集中每个样本的场景类别和步骤一中抽取出的名词，计算出场景和文本的相关概率F_T，即知道了对于某一类场景图像的描述中各类名词被提及的概率；

步骤三，根据训练集中标注信息指出的每个样本的场景类别和所包含的物体计算出场景和物体的相关概率，即知道了某一类图像场景中各类物体出现的概率；

步骤四，根据步骤一中抽取的名词及数量和标注给出的物体及数量，按照抽约束的双向匹配优化问题求解名文本和物体的匹配概率，即得到了文本和物体的相关关系，如名词“的士”和物体“车”的相关性高，而与物体“牛”的相关性低；

步骤五，对输入图像的场景分类、物体检测:利用线下物体检测器和场景分类器分析图像，求出各物体和场景的判别值。这是根据图像低层特征通过判别性方法计算出的图像中物体和图像的场景的判断。结合步骤一至步骤四得到的各量值，建立条件随机场模型，按照最大似然概率准则，利用随机梯度下降法求解最优势函数权重w，它反映了不同线索在推断图像中包含的物体和图像场景时的相对贡献。

如图2所示，本实例测试过程包括如下步骤：

步骤一，利用自然语言分析工具从输入的图像文本描述中提取名词，得到条件随机场中文本节点的值q，即知道了哪些名词用来描述该幅图像；

步骤二，利用线下物体检测器和场景分类器对图像计算出各物体和场景的判别值，得到场景节点和物体节点的势函数值，即通过图像低层特征判断图像中从存在哪些物体以及图像所属的场景；

步骤三，根据最大后验概率准则计算条件随机场的场景节点和物体节点的最优取值。通过综合分析来自图像低层特征所显示的和文本内容蕴含的关于图像中物体和图像场景的判断，最终确定图像最有可能包含了哪些物体记忆图像所描述的场景。

实施效果

根据上述步骤，实验采用UIUC公开数据集进行测试。

1.实验用全部样本计算文本和物体的匹配概率，初始匹配概率b0的平均精度为0.579，而通过本发明提出受约束的双向匹配优化问题求出的匹配概率P的平均精度为0.732，相较初始匹配概率提高了26％。

2.在场景分类的测试中，采用学界流行的DPM作为物体检测器，以及三种最新的场景分类方法：SPM，ScSPM和LLC。关键参数设置为：

(a)数据集中60％的样本用作训练，40％的样本用作测试；

(b)图像的局部描述子为C-SIFT，每隔8像素均匀采样；

(c)用三层空间金字塔计算图像最终的特征向量；

(d)分类器为线性支持向量机。

实验结果为：

(1)三种场景分类器，独立使用的平均精度为0.446，0.510和0.565；

(2)物体检测与场景分类器结合，平均精度为0.729，0.721和0.729；

(3)文本分析和场景分类器结合，平均精度为0.880，0.888和0.889；

(4)三者结合，最终的平均精度为0.921，0.916和0.914，相较场景分类器的结果分别提升了107％，80％和62％。

3.在物体分类的测试中，分别采用两种基本的物体检测器：DPM和exemplar SVM。实验结果为：

(1)单独使用两种物体检测器，平均精度为0.498和0.395；

(2)单独使用文本和物体的匹配概率的平均精度为0.845；

(3)综合基于图像的物体检测器和文本-物体的匹配概率得到的平均精度为0.879和0.881，相较单独使用物体检测器分别提升了77％和123％。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于文本-物体-场景关系的物体和场景的图像理解方法，其特征在于：所述方法对于输入的图像-文本对，具体处理步骤如下：

第五步：根据场景和物体的关系计算场景-物体势函数；

第六步：根据物体和文本的对应关系计算文本-物体势函数；

第七步：将上述第一步～到第六步中确定的五种势函数用条件随机场联合概率建模，求解最大后验概率，得到物体节点和场景节点的值，即图像中存在哪些物体和图像属于的场景类别；

2.根据权利要求1所述的图像理解方法，其特征是，所述的用条件随机场联合概率建模，其中场景节点有一个，用随机变量s表示该图像的场景类别。

3.根据权利要求2所述的图像理解方法，其特征是，所述的场景节点的一元势函数由一组线下场景检测器定义，该势函数有S种可能的取值，S为场景类别的数量，每种取值为对应的场景分类器对该类场景的判别值。

4.根据权利要求1所述的图像理解方法，其特征是，所述的用条件随机场联合概率建模，其中物体节点有O个，其中O是物体类别的数量，每个物体节点用随机变量z表示相应物体在图像中存在与否。

5.根据权利要求4所述的图像理解方法，其特征是，所述的物体节点的一元势函数由一组线下物体检测器定义，每个物体检测器对一幅图像返回多个该物体可能存在的位置，每个位置都伴有一个判别值指示物体存在于该位置的可能性大小，势函数取所有判别值中的最大值一个作为图像中存在该类物体的指示。

6.根据权利要求1-5任一项所述的图像理解方法，其特征是，所述的用条件随机场联合概率建模，其中文本节点有N个，其中N是名词类别的数量，每个文本节点用随机变量q表示相应名词在图像的文字描述中存在与否。

7.根据权利要求1-5任一项所述的图像理解方法，其特征是，所述的用条件随机场联合概率建模，其中场景-物体边：场景和物体之间的关系用场景-物体边对应的二元势函数表征，具体表示为各类物体在不同场景中出现的概率。

8.根据权利要求1-5任一项所述的图像理解方法，其特征是，所述的用条件随机场联合概率建模，其中场景和文本之间的关系用场景-文本边对应的二元势函数表征，具体表示为各类名词在不同场景中出现的概率。

9.根据权利要求1-5任一项所述的图像理解方法，其特征是，所述的用条件随机场联合概率建模，其中文本-物体边：文本和物体之间的关系用文本-物体边对应的势函数表征，具体表示为名词和物体之间的相关概率。

10.根据权利要求9所述的图像理解方法，其特征是，所述的文本和物体之间的相关概率，其表示方法是通过对每个图像-文本对求解受约束的双向匹配优化问题得到样本级的名词与物体的映射关系；具体如下：