CN104715071B

CN104715071B - 一种基于不完整文本描述的特定行人检索方法

Info

Publication number: CN104715071B
Application number: CN201510153983.7A
Authority: CN
Inventors: 胡瑞敏; 叶茫; 梁超; 柳东静; 王正; 陈军; 刘俊
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2015-04-02
Filing date: 2015-04-02
Publication date: 2017-10-03
Anticipated expiration: 2035-04-02
Also published as: CN104715071A

Abstract

本发明公开了一种基于不完整文本描述的特定行人检索方法，主要思想是把用户不完整的文本描述转化为一个属性向量，然后采用一种属性完善的算法来丰富这个属性向量的描述能力。在检索阶段，基于完善后的属性向量的检索过程被分为成对的两个流程：离线处理和在线处理。对于离线处理，需要训练几个属性分类器来检测库中图片的属性；另外，还应从属性向量中学习一个距离度量标准。对于在线处理，首先采用线性稀疏重建方法来完善用户提供的属性，然后将离线学习得到的距离度量标准运用到完善后的属性向量中。实验证明，本发明的方法在两个具有代表性的数据集上获得了优越的性能。

Description

一种基于不完整文本描述的特定行人检索方法

技术领域

本发明属于监控视频检索技术领域，涉及一种行人检索方法，尤其涉及一种基于不完整文本描述的特定行人检索方法。

背景技术

传统的特定行人检索方法(行人重识别)都是基于行人的视觉影像，但在更加实际的视频监控应用中，只能获得一些文本的描述，比如目击者向警察这样描述犯罪嫌疑人：“一个背着双肩包身穿红色休闲服的年轻女士”。这类行人特征描述很显然是不完整的，传统的行人检索方法对此便无能为力。

在上述情况下，仅依赖于给定的属性来解决特定行人检索问题是至关重要的。在[文献1]中，这些特定属性主要从口头描述中抽象而来。相关的行人重识别研究也提出了一些基于属性的方法。Layne在[文献2]中使用了一种通过筛选和加权中层语义属性的方法来描述行人；Liu在[文献1]中提出了ARLTM(属性受限的潜在主题模型)，将目标编码进语义查询；Nguyen在[文献3]提出基于属性间关系的方法，该方法利用属性间的关系来改善属性检测的结果。然而上述的方法不适合本文描述的问题，因为对于该问题，用于检索的图片信息是无法获得的。因此需要研究一种新方法来解决此问题。

另外，正如[文献4]所描述的那样，用户提供的属性经常是不完整的。这些不完整的属性很可能导致行人检索应用性能倒退(参见[文献1])。而且，从更广泛的层面上来讲，这种属性补全问题主要采用传统的TBIR(基于标签的图片检索)。在监控视频检索领域，这类问题是被忽视了的。

[文献1]X.Liu,M.Song,Q.Zhao,D.Tao,and etal.Attribute-restricted latenttopic model forpersonre-identification.In PR,2012.

[文献2]R.Layne,T.M.Hospedales,S.Gong,and Q.Mary.Person re-identification byattributes.In BMVC,2012.

[文献3]N.N.B,N.V.H,D.T.N,and et al.Attrel:An approach to person re-identification byexploitingattribute relationships.In MMM,2015.

[文献4]L.Wu,R.Jin,and A.Jain.Tag completion for imageretrieval.InPAMI,2013.

发明内容

为了解决上述的技术问题，本发明提供了一种基于不完整文本描述的特定行人检索方法。

本发明所采用的技术方案是：一种基于不完整文本描述的特定行人检索方法，由两部分组成：离线处理和在线处理；其特征在于：所述的离线处理包括对图像库中的训练图片训练属性分类器和距离尺度学习；所述的在线处理首先把用户针对查询文本进行的不完整的描述转化为一个初始属性向量，然后采用线性稀疏重建的方法将初始属性向量重建成一个完整的向量最后使用基于属性的尺度学习得到的矩阵M进行距离计算；使用训练得到的属性分类器提取图像库中的测试图片属性向量，使用向量图像库中测试图片的属性向量和矩阵M，获得查询文本与图像库中的测试图片的距离，根据得到的距离进行升序排列，即可相应的对图像库中的测试图片进行排名。

作为优选，所述的离线处理，预先计算测试图片的视觉特征向量和属性向量，其中将尺度学习引入到属性向量的距离计算；具体实现包括以下子步骤：

步骤1.1：采用线性SVM来训练属性分类器，训练数据包含两部分：视觉特征向量和已标签化的属性；对于每一种属性，都会训练一个分类器，其中所有包含该属性的样本视为正样本，而其余的则视为负样本；

步骤1.2：在训练分类器的基础上，提取测试图片的属性向量；因为分类器对每个属性的输出值是从负无穷到正无穷，所以使用logistic函数将输出值变换到(0,1)区间内；所述的logistic函数为：

其中，x为分类器的原始输出，y为变换值，表明拥有该属性的可能性；

步骤1.3：基于属性的尺度学习；给定一对样本x_i,x_j(x_i,x_j∈R_d)，它们之间的马氏距离定义如下：

其中，M≥0，并且是一个半正定矩阵；R_d表示实数空间；

定义马氏距离的矩阵M如下：

其中，

y_ij＝1表示相似样本对的协方差矩阵，y_ij＝0表示不相似样本对的协方差矩阵；矩阵M用来计算属性向量之间的距离。

作为优选，所述的在线处理，具体实现包括以下子步骤：

步骤2.1：把用户不完整的文本描述转化为一个初始属性向量t_1×n，其中n是指预定义属性的个数，对于用户提供的属性，n标记为1，否则，n标记为0；

步骤2.2：对于初始属性向量t_1×n，给定训练属性矩阵其中m是训练图像的个数；令W表示重建的权重向量，第i组的重建权重定义为其中(i,j)表示权重向量w中第i组的第j个权重，则重建问题能用公式表示如下：

其中：为字典矩阵，包含了训练图像的属性向量；w_m×1为客观的重建权重向量；λ为调整因子，用于平衡组的稀疏性；组的稀疏性将L1范式和L2范式结合在一起；定义一个对角矩阵W_i,i＝exp(t_i)，用来衡量t初始的重建权重；

步骤2.2：使用线性稀疏重建，得到一个最优的权重矩阵W，则重建向量

本发明通过线性稀疏重构对不完整文本进行自动的补全；并且将尺度学习引入到对属性向量的度量中；此发明通过以文本搜图的方式能够解决传统的以图搜图检索算法无法解决的问题，引入稀疏重构提高检索准确率，并且通过尺度学习大幅提高检索准确率。

附图说明

附图1：本发明实施例的流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于不完整文本描述的特定行人检索方法，由两部分组成：离线处理和在线处理；离线处理包括对图像库中的训练图片训练属性分类器和距离尺度学习；在线处理首先把用户针对查询文本进行的不完整的描述转化为一个初始属性向量，然后采用线性稀疏重建的方法将初始属性向量重建成一个完整的向量最后使用基于属性的尺度学习得到的矩阵M进行距离计算；使用训练得到的属性分类器提取图像库中的测试图片属性向量，使用向量图像库中测试图片的属性向量和矩阵M，获得查询文本与图像库中的测试图片的距离，根据得到的距离进行升序排列，即可相应的对图像库中的测试图片进行排名。

本实施例的离线处理，具体实现包括以下子步骤：

步骤1.2：在训练分类器的基础上，提取测试图片的属性向量；因为分类器对每个属性的输出值是从负无穷到正无穷，所以使用logistic函数将输出值变换到(0,1)区间内；logistic函数为：

其中，x为分类器的原始输出，y为变换值，表明拥有该属性的可能性；y越接近1，表明它更有可能拥有该属性，而x＝0表明该图像没有该属性。

其中，M≥0，并且是一个半正定矩阵；R_d表示实数空间；

从统计推断的观点上看，KISSME定义马氏距离的矩阵M如下：

其中，

y_ij＝1表示相似样本对的协方差矩阵，y_ij＝0表示不相似样本对的协方差矩阵。所以，M很容易从训练样本中习得。更多细节请参考文献(M.Kostinger,M.Hirzer,P.Wohlhart,and et al.Large scale metric learning fromequivalenceconstraints.In CVPR,2012)中的KISSME。矩阵M用来计算属性向量之间的距离。

本实施例的在线处理，具体实现包括以下子步骤：

步骤2.2：对于初始属性向量t_1×n，给定训练属性矩阵其中m是训练图像的个数；线性稀疏重建旨在使用其他图像的属性向量来重建一个属性向量。据观察，拥有相同属性的图像倾向于拥有更多的语义内容，因此这些图像可归为一组(参见文献：Z.S,H.J,H.Y,and et al.Automatic imageannotation using group sparsity.In CVPR,2010.)。比如，“长发”更有可能是“女性”，我们将这种现象称为共生性。我们也考虑一种互斥性的观察结论，比如，属性“男”和“女”不大可能同时出现。因此采用一个组的稀疏结构来表示重建的权重。令W表示重建的权重向量，第i组的重建权重定义为其中(i,j)表示权重向量w中第i组的第j个权重，很容易发现每个属性对应一组重建权重，即包含该属性的图像的权重。特别的，共生性对应着较高的权重，而互斥性对应着较低的权重。因为有的图像仅被标记了几个属性，所以组之间可能有重叠。重建问题能用公式表示如下：

其中：为字典矩阵，包含了训练图像的属性向量；w_m×1为客观的重建权重向量；λ为调整因子，用于平衡组的稀疏性；组的稀疏性将L1范式和L2范式(参见文献：Z.S,H.J,H.Y,and et al.Automatic imageannotation using group sparsity.InCVPR,2010.)结合在一起；因为目标查询图像(组间稀疏性)仅被标记了几个属性，所以使用L1标准来强调组间的稀疏性。考虑到同一组的图像如果有相应的属性就会对重建有所贡献(组内平滑性)，所以采用L2标准平滑组内的权重。另外，对于标记了的属性(非零的入口)应该分配更高的权重。定义一个对角矩阵W_i,i＝exp(t_i)，用来衡量t初始的重建权重；容易发现，未被标记的属性(零值入口)分配了较低的权重。

步骤2.2：使用线性稀疏重建，得到一个最优的权重矩阵W，则重建向量在本实施例中，的最大值被归一化。

本实施例的数据集，采用VIPeR数据集(参见文献：D.Gray,S.Brennan,andH.Tao.Evaluatingappearance models for recognition,reacquisition,andtracking.In International workshop on performanceevaluation of trackingandsurveillance,2007.)和PRID2011数据集(参见文献M.Kostinger,M.Hirzer,P.Wohlhart,and et al.Large scale metric learningfromequivalenceconstraints.In CVPR,2012.)。

本实施例的提取视觉特征是为了训练SVM分类器和生成图像库的属性向量。和文献(Y.Wang,R.Hu,C.Liang,C.Zhang,and Q.Leng.Camera compensation usingfeatureprojection matrixfor person re-identification.In TCSVT,2014.)一样，本文将色彩和纹理特征组合在一起形成一个特征描述符。特别的，对每一张图片，都会以的步长从的重叠块中提取RGB和HSV颜色直方图以及LBP描述符。

本实施例从PETA数据集(参见文献：Y.Deng,P.Luo,C.C.Loy,andX.Tang.Pedestrianattribute recognition at far distance.In MM,2014.)获得了所需的属性。该数据集包含了61种属性。比如，“女性”、“30岁以下的人”和“背着双肩包的人”等等。

对每个数据集，本实施例抽取一半的样本用来训练，另一半样本用来测试行人重识别的性能。首先，本实施例根据属性检测的精确度来评价SVM的性能。此外，使用基于10次试验的平均CMC曲线(参见文献：X.Wang,G.Doretto,T.Sebastian,J.Rittscher,andP.Tu.Shape and appearancecontext modeling.InICCV,2007.)来评价行人重识别的性能.特别地，本实施例随机选择每次检索的5-8个属性作为初始的文本检索。根据文献(Z.Lin,G.Ding,M.Hu,J.Wang,and et al.Image tagcompletion via image-specificandtag-specific linearsparse reconstructions.In CVPR,2013.)的推荐，调整因子λ＝2。

本实施例用精确度来表示属性检测的性能。在VIPeR数据集上做的实验的部分结果展示在表1中。由于使用了基于文献(S.Shalev-Shwartz and T.Zhang.Stochasticdualcoordinate ascent methods forregularized loss.InJMLR,2013.)的SVM软件包，本实验的检测精确度要比文献(Y.Deng,P.Luo,C.C.Loy,and X.Tang.Pedestrianattributerecognition at far distance.In MM,2014.)和(R.Layne,T.M.Hospedales,S.Gong,andQ.Mary.Person re-identification byattributes.In BMVC,2012.)中的高一些。平均精确度是76％，并且有超过一半的属性检测器精确度高于70％，这比文献(Y.Deng,P.Luo,C.C.Loy,and X.Tang.Pedestrianattribute recognition at far distance.In MM,2014.)、(R.Layne,T.M.Hospedales,S.Gong,and Q.Mary.Person re-identificationbyattributes.In BMVC,2012.)和(M.Ye,J.Chen,Q.Leng,and et al.Copuled-viewbasedranking optimization forpersonre-identification.In MMM,2015.)中的略高一点。在PRID2011数据集上的属性检测精确度大约为70％，其中大部分属性分类器能达到65％。

本实施例使用CMC曲线来表示检索结果。为了评价属性补全的性能，本实施例随机选择了文本查询中的N个属性。根据实验结果可得到以下几个结论：(1)属性补全效率高。使用属性补全后，检索结果明显地改善了。rank@10提高了约17.2％，rank@25提高了约15.7％。(2)使用度量学习处理属性向量，效果仍然令人满意。距离度量学习一般适用于视觉特征，而很少使用在属性距离度量中。而且，正如表1中显示的那样，本实验的结果明显优于行人重识别的工作。应该注意的是，先关的行人重识别工作是基于视觉信息的，而本实施例的实验没有使用这些信息。

表1：在VIPeR数据集上的检索结果

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于不完整文本描述的特定行人检索方法，由两部分组成：离线处理和在线处理；其特征在于：所述的离线处理包括对图像库中的训练图片训练属性分类器和距离尺度学习；所述的在线处理首先把用户针对查询文本进行的不完整的描述转化为一个初始属性向量，然后采用线性稀疏重建的方法将初始属性向量重建成一个完整的向量最后使用基于属性的尺度学习得到的矩阵M进行距离计算；使用训练得到的属性分类器提取图像库中的测试图片属性向量，使用向量图像库中测试图片的属性向量和矩阵M，获得查询文本与图像库中的测试图片的距离，根据得到的距离进行升序排列，即可相应的对图像库中的测试图片进行排名。

2.根据权利要求1所述的基于不完整文本描述的特定行人检索方法，其特征在于：所述的离线处理，预先计算测试图片的视觉特征向量和属性向量，其中将尺度学习引入到属性向量的距离计算；具体实现包括以下子步骤：

步骤1.3：基于属性的尺度学习；给定一对样本xi,xj(xi,xj∈Rd)，它们之间的马氏距离定义如下：

其中，M≥0，并且是一个半正定矩阵；R_d表示实数空间；

定义马氏距离的矩阵M如下：

<mrow> <mi>M</mi> <mo>=</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>-</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>;</mo> </mrow>

其中，

<mrow> <msub> <mi>&Sigma;</mi> <mrow> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mn>1</mn> </mrow> </munder> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mo>;</mo> </mrow>

<mrow> <msub> <mi>&Sigma;</mi> <mrow> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mn>0</mn> </mrow> </msub> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mn>0</mn> </mrow> </munder> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mo>;</mo> </mrow>

yij＝1表示相似样本对的协方差矩阵，yij＝0表示不相似样本对的协方差矩阵；矩阵M用来计算属性向量之间的距离。

3.根据权利要求1所述的基于不完整文本描述的特定行人检索方法，其特征在于：所述的在线处理，具体实现包括以下子步骤：

步骤2.1：把用户不完整的文本描述转化为一个初始属性向量t1×n，其中n是指预定义属性的个数，对于用户提供的属性，n标记为1，否则，n标记为0；

步骤2.2：对于初始属性向量t_1×n，给定训练属性矩阵其中m是训练图像的个数；令W表示重建的权重向量，第i组的重建权重定义为gi＝{w(i,1),w(i,2),...,w(i,|g_i|)}，其中(i,j)表示权重向量w中第i组的第j个权重，则重建问题能用公式表示如下：

<mrow> <mi>J</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>w</mi> </munder> <mo>|</mo> <mo>|</mo> <mi>W</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>-</mo> <mover> <mi>T</mi> <mo>^</mo> </mover> <mi>w</mi> <mo>)</mo> </mrow> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> <mo>+</mo> <mi>&lambda;</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mo>|</mo> <mo>|</mo> <msub> <mi>g</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mo>|</mo> <mn>2</mn> </msub> <mo>;</mo> </mrow>