CN111143625B

CN111143625B - 一种基于半监督多模态哈希编码的跨模态检索方法

Info

Publication number: CN111143625B
Application number: CN201911295770.2A
Authority: CN
Inventors: 田大湧; 周德云; 魏仪文; 侍佼; 雷雨
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2019-09-03
Filing date: 2019-12-16
Publication date: 2023-04-25
Anticipated expiration: 2039-12-16
Also published as: CN111143625A

Abstract

本发明公开了一种基于半监督多模态哈希编码的跨模态检索方法，包括：对原始图像数据进行预处理，获得所述原始图像数据的实数矩阵向量；根据所述实数向量获取辅助变量；根据所述辅助变量估计所述原始图像数据中无标记数据的标记矩阵；根据原始图像数据中有标记数据的标记矩阵和已估计的无标记数据的标记矩阵生成哈希编码矩阵。该半监督多模态哈希编码方法调整了哈希编码过程中，原始图像数据中已有真实标记与估计标记的权重，并且采用了非线性模型，能够有效地利用有限的标记信息提高数据的检索精度。

Description

一种基于半监督多模态哈希编码的跨模态检索方法

技术领域

本发明属于跨模态检索技术领域，具体涉及一种基于半监督多模态哈希编码的跨模态检索方法。

背景技术

哈希编码是一种将实数向量表示为二进制数向量的方法，用二进制数向量的检索替代对实数向量的检索能够减少计算量。多模态数据是指不同类型的实数向量，例如用于表示图像的SIFT(Scale-invariant feature transform，尺度不变特征变换)特征的是一个128维的实数向量，用于表示文字的LDA(Latent Dirichlet Allocation，文档主题生成模型)特征是一个10维的实数向量，这两组实数向量就是两种不同模态的数据。

多模态哈希编码是将多组成对实数向量用同一组二进制数向量表示，从而实现跨模态的检索。例如从社交网络上抓取的图像及其文字标签信息就是成对的，通过多模态哈希编码，可以实现用文字标签检索图像，或者用图像检索文字标签。半监督，是指数据中只有一部分是有标记的。半监督多模态哈希编码，是指利用部分标记来提高多模态数据哈希编码效果的方法。

目前，具有代表性半监督多模态哈希编码方法包括S3FH方法(J.Wang,G.Li,P.Pan,and X.Zhao,“Semi-supervised semantic factor-ization hashing for fastcross-modal retrieval,”Multimedia Tools Appl.,vol.76,no.19,pp.20197–20215,Oct.2017)和SSMH方法(D.Tian,D.Zhou,M.Gong and Y.Wei,“Interval type-2fuzzylogic for semisupervisedmultimodal hashing”,IEEE Transactions on Cybernetics,in press)。S3FH方法采用的是一种基于图的哈希编码方法，它同时为有标记和无标记的数据生成新的标记，由于生成的新标记在准确度上不如真实的标记，因此S3FH方法效果有所限制。而SSMH采用二类模糊逻辑，表示不同模态新生成的标记之间的关系，但是它采用的是线性模型，因此无法处理非线性的数据结构。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于半监督多模态哈希编码的跨模态检索方法。本发明要解决的技术问题通过以下技术方案实现：

本发明提供了一种基于半监督多模态哈希编码的跨模态检索方法，包括：

S1：对原始图像数据进行预处理，获得所述原始图像数据的实数矩阵向量；

S2：根据所述实数向量获取辅助变量；

S3：根据所述辅助变量估计所述原始图像数据中无标记数据的标记矩阵；

S4：根据原始图像数据中有标记数据的标记矩阵和已估计的无标记数据的标记矩阵生成哈希编码矩阵；

S5：根据所述哈希编码矩阵进行数据检索，搜索检索数据库中与目标向量距离最近的向量。

在本发明的一个实施例中，所述S1包括：

对所述原始图像数据进行提取特征，获得所述原始图像数据的实数向量，所述实数向量包括所述原始图像数据中有标记数据组成的有标记数据矩阵X^l、所述原始图像数据中无标记数据组成的无标记数据矩阵X^u以及所述原始图像数据中有标记数据的标记组成的标记矩阵L^l。

在本发明的一个实施例中，所述S2包括：

S21：建立辅助变量H^l,W_i,O的最小化问题模型：

其中，

表示第i个模态中有标记数据组成的矩阵向量，L^l表示所述原始图像数据中有标记数据的标记组成的标记矩阵，α表示预设参数，K表示模态数量，f是sigmoid函数，f(x)＝1/(1+e^-x)，F表示计算矩阵F范数；

S22：利用梯度下降法计算所述辅助变量H^l,W_i和O。

在本发明的一个实施例中，所述S22包括：

S221：对所述辅助变量W_i和O进行随机初始化；

S222：计算辅助变量H^l，计算公式为：

其中，round表示四舍五入取整函数，L^l表示所述原始图像数据中有标记数据的标记组成的标记矩阵，K≥i≥1；

S223：更新辅助变量O，更新公式为：

其中，Δt表示预设参数，°表示矩阵内积，T表示转置；

S224：更新辅助变量W_i，更新公式为：

S225：根据更新后的辅助变量H^l,W_i和O计算并更新所述最小化问题模型E₁并与更新前的E₁进行比较，判断更新前后E₁的变化值是否小于预定值，若否，则返回S222继续进行迭代计算，若是，则执行S226；

S226：停止迭代，获取所述辅助变量H^l,W_i和O的最终值。

在本发明的一个实施例中，所述S3包括：

S31：建立所述原始图像数据中无标记数据的标记矩阵Lⁱ的估计模型：

其中，tr表示取矩阵的迹，P_i，

为辅助变量，

表示第i个模态中无标记数据组成的矩阵向量；

S32：利用交替迭代法获取所述标记矩阵L^u。

在本发明的一个实施例中，所述S32包括：

S321：对所述标记矩阵L^u和所述辅助变量P_i进行随机初始化，且令迭代次数q＝1；

S322：计算所述辅助变量P_i，计算公式为：

其中，

表示转置，°表示矩阵内积，I表示单位矩阵，K≥i≥1，K≥k≥1，且i≠k；

S323：更新所述标记矩阵L^u，更新公式为：

S324：令所述迭代次数q加1；

S325：判断当前迭代计算次数q与预设的最大迭代次数Q的大小，若q<Q，则返回S322继续进行迭代计算，若q＝Q，则执行步骤S326；

S326：停止迭代，获取所述标记矩阵L^u的最终值。

在本发明的一个实施例中，所述S4包括：

S41：建立所述哈希编码矩阵B的最小化问题模型：

其中，U_i和S为辅助变量，B^l表示所述原始图像数据中有标记数据

的哈希编码，B^u表示所述原始图像数据中无标记数据

的哈希编码，

β^l和β^u表示预设参数；

S42：利用梯度下降法获取所述哈希编码B^l和B^u；

S43：根据所述哈希编码B^l和B^u生成哈希编码矩阵B。

在本发明的一个实施例中，所述S42包括：

S421：对所述辅助变量U_i和S进行随机初始化；

S422：更新所述哈希编码B^l和所述哈希编码B^u，更新公式为：

S423：更新所述辅助变量U_i，更新公式为：

S424：更新所述辅助变量S，更新公式为：

S425：根据更新后的哈希编码B^l、B^u和辅助变量U_i、S计算并更新所述最小化问题模型E₃并与更新前的E₃进行比较，判断更新前后E₃的变化值是否小于预定值，若否，则返回S422继续进行迭代计算，若是，则执行S426；

S426：停止迭代，获取所述原始图像数据中有标记数据

的哈希编码B^l的最终值和所述原始图像数据中无标记数据

的哈希编码B^u的最终值。

本发明的另一方面提供了一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如上述实施例中任一项所述基于半监督多模态哈希编码的跨模态检索方法。

本发明的又一方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例中任一项所述基于半监督多模态哈希编码的跨模态检索方法。

与现有技术相比，本发明的有益效果在于：

本发明的半监督多模态哈希编码方法，调整了哈希编码过程中，原始图像数据中已有真实标记与估计标记的权重，并且采用了非线性模型，能够有效地利用有限的标记信息提高数据的检索精度。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种基于半监督多模态哈希编码的跨模态检索方法的流程图。

具体实施方式

为了进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及具体实施方式，对依据本发明提出的一种基于半监督多模态哈希编码的跨模态检索方法进行详细说明。

有关本发明的前述及其他技术内容、特点及功效，在以下配合附图的具体实施方式详细说明中即可清楚地呈现。通过具体实施方式的说明，可对本发明为达成预定目的所采取的技术手段及功效进行更加深入且具体地了解，然而所附附图仅是提供参考与说明之用，并非用来对本发明的技术方案加以限制。

应当说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。

实施例一

多模态哈希编码是将多组成对实数向量用同一组二进制数向量表示，从而实现跨模态的检索。例如从社交网络上抓取的图像及其文字标签信息就是成对的，通过多模态哈希编码，可以实现用文字标签检索图像，或者用图像检索文字标签。半监督，是指数据中只有一部分是有标记的。标记是指数据的类别标识，一般是二进制向量。例如，一个生物数据集中，用标记(0,1)表示动物，用标记(1,0)表示植物。半监督多模态哈希编码，是指利用部分标记，提高多模态数据哈希编码效果的方法。

本实施例提供了一种基于半监督多模态哈希编码的跨模态检索方法，请参见图1，图1是本发明实施例提供的一种基于半监督多模态哈希编码的跨模态检索方法的流程图。该方法包括：

具体地，对待处理的原始图像数据进行提取特征，获得所述原始图像数据的实数向量，所述实数向量包括所述原始图像数据中有标记数据组成的有标记数据矩阵X^l、所述原始图像数据中无标记数据组成的无标记数据矩阵X^u以及所述原始图像数据中有标记数据的标记组成的标记矩阵L^l。

优选地，图像数据用SIFT特征表示，文字数据用LDA特征表示。

S2：根据所述实数向量获取辅助变量；

具体地，所述S2包括：

S21：建立辅助变量H^l,W_i,O的最小化问题模型：

其中，

表示第i个模态中有标记数据组成的矩阵向量，L^l表示所述原始图像数据中有标记数据的标记组成的标记矩阵，α表示预设参数，在本实施例中，取α＝10，K表示模态数量，f是sigmoid函数，f(x)＝1/(1+e^-x)，F表示计算矩阵F范数，具体为将矩阵中的每个元素平方后求和再开根号；

S22：利用梯度下降法计算所述辅助变量H^l,W_i和O。

S221：对所述辅助变量W_i和O进行随机初始化；

S222：计算辅助变量H^l，计算公式为：

S223：更新辅助变量O，更新公式为：

其中，Δt表示预设参数，在本实施例中，取Δt＝0.001，°表示矩阵内积，即对应位置元素相乘，

表示转置；

S224：更新辅助变量W_i，更新公式为：

在此公式中，取Δt＝0.001；

S225：根据更新后的辅助变量H^l,W_i和O计算并更新所述最小化问题模型E₁，并与更新前的E₁进行比较，判断更新前后E₁的变化值是否小于预定值，若否，则返回S222继续进行迭代计算，若是，则执行S226；

在本实施例中，所述预定值设定为1％，也就是说，当更新前的E₁和更新后的E₁的之间的变化范围(即，更新前的E₁与更新后的E₁的差的绝对值)大于1％，则返回S222继续进行迭代计算，当更新前的E₁和更新后的E₁的之间的变化范围小于1％，则执行S226；

S226：停止迭代，获取所述辅助变量H^l,W_i和O的最终值，也就是最后一次迭代计算中获得的H^l,W_i和O值。

进一步地，S3：根据所述辅助变量估计所述原始图像数据中无标记数据的标记矩阵；

具体地，所述S3包括：

其中，tr表示取矩阵的迹，P_i，

为辅助变量，

表示第i个模态中无标记数据组成的矩阵向量；

S32：利用交替迭代法获取所述标记矩阵L^u。

进一步地，所述S32包括：

S322：计算所述辅助变量P_i，计算公式为：

其中，

S323：更新所述标记矩阵L^u，更新公式为：

S324：令所述迭代次数q加1；

在本实施例中，设定了迭代次数变量q，每进行依次迭代运算，则令q+1。

在本实施例中，取Q＝15，即，当前迭代计算次数q小于15次时，返回S322继续进行迭代计算，当q等于15次时，执行步骤S326。

S326：停止迭代，获取所述标记矩阵L^u的最终值，即最后一次迭代计算中获得的L^u值。

进一步地，S4：根据原始图像数据中有标记数据的标记矩阵和已估计的无标记数据的标记矩阵生成哈希编码矩阵。

具体地，所述S4包括：

S41：建立所述哈希编码矩阵B的最小化问题模型：

的哈希编码，B^u表示所述原始图像数据中无标记数据

的哈希编码，

β^l和β^u表示预设参数，在本实施例中，取β^l＝1，β^u＝0.1；

S42：利用梯度下降法获取所述哈希编码B^l和B^u；

具体地，所述S42包括：

S421：对所述辅助变量U_i和S进行随机初始化；

S422：更新所述哈希编码B^l和所述哈希编码B^u，更新公式为：

S423：更新所述辅助变量U_i，更新公式为：

S424：更新所述辅助变量S，更新公式为：

S425：根据更新后的哈希编码B^l、B^u和辅助变量U_i、S计算并更新所述最小化问题模型E₃，并与更新前的E₃进行比较，判断更新前后E₃的变化值是否小于预定值，若否，则返回S422继续进行迭代计算，若是，则执行S426；

在本实施例中，所述预定值设定为1％，也就是说，当更新前的E₃和更新后的E₃的之间的变化范围(即，更新前的E₃与更新后的E₃的差的绝对值)大于1％，则返回S422继续进行迭代计算，当更新前的E₃和更新后的E₃的之间的变化范围小于1％，则执行S426；

S426：停止迭代，获取所述原始图像数据中有标记数据

的哈希编码B^l的最终值和所述原始图像数据中无标记数据

的哈希编码B^u的最终值，即最后一次迭代计算中获得的B^l和B^u值。

接着，S43：根据所述哈希编码B^l和B^u生成哈希编码矩阵B。

具体地，将所述原始图像数据中有标记数据

的哈希编码B^l的最终结果和所述原始图像数据中无标记数据

的哈希编码B^u的最终结果叠加在一起，组成所述原始图像数据的哈希编码矩阵B。

哈希编码是二进制的编码，这个方法的目的就是把实数向量转换为二进制向量，并且可以用于检索。也就是说两个实数向量之间距离为d1，这两个实数向量的哈希编码之间的汉明距离为d1'，另外两个实数向量之间的距离为d2，这两个实数向量的哈希编码之间的汉明距离为d2'，如果d1>d2，那么d1'>d2'。具体地，根据所述哈希编码矩阵B进行数据检索，搜索检索数据库中与目标向量距离最近的向量。

接着，采用MAP(mean Average Precision，平均准确率)值来评估本发明实施例的半监督多模态哈希编码方法的检索正确率。

首先，给定一个检索样本集合，此处使用MIRFlickr数据集，MIRFlickr是一个包含25000对图像和文字标签的多模态数据集。对数据集中的图像提取GIST特征，将图像表示为一个512维的实数向量，所有图像的GIST特征可以组成一个25000×512的矩阵X₁。将数据集中的文字标签先用一个1366维的二进制向量表示，向量中每个位置表示一个单词，如果该标签中包含某个单词，则二进制向量对应位置的值为1，否则为0；随后，对文字标签的二进制向量进行降维，用主成分分析法(PCA)将其降维成500维的实数向量。所有文字标签的实数向量可以组成一个25000×500的矩阵X₂。

接着，从该MIRFlickr数据集中随机取出5％的数据作为测试数据，其余数据为训练数据。在训练数据中只保留10％数据的标记，这10％的数据作为矩阵

它们的标记矩阵作为L，其余无标记数据作为矩阵

其中，

i＝{1,2}，即模态数量设定为2。

在本实施例中，检索效果用前50个检索结果的MAP评价。MAP计算流程如下：

首先，计算每一个测试数据检索的准确率(AP)：

其中，N表示检索样本集中的样本总数，P(r)表示前r个检索结果的准确度，若第r个检索得到的样本与查询样本相关，则δ(r)＝1，否则

δ(r)＝0。所有样本的AP值的平均值即MAP。

表1给出了本发明实施例的方法与现有技术的S3FH方法和SSMH方法的平均检索准确率的对比效果

表1本发明实施例的方法与S3FH和SSMH方法的平均检索准确率的对比效果

从表1中可以看出，相比于现有技术的S3FH方法和SSMH方法，本发明实施例的方法获得的MAP较高，说明本方法能够有效提高数据的检索精度。

本实施例的基于半监督多模态哈希编码的跨模态检索方法，调整了哈希编码过程中，原始图像数据中已有真实标记与估计标记的权重，并且采用了非线性模型，能够有效地利用有限的标记信息提高数据的检索精度。

实施例二

本实施例的目的是提供一种计算机系统。

一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现：

对原始图像数据进行预处理，获得所述原始图像数据的实数矩阵向量；

根据所述实数向量获取辅助变量；

根据所述辅助变量估计所述原始图像数据中无标记数据的标记矩阵；

根据原始图像数据中有标记数据的标记矩阵和已估计的无标记数据的标记矩阵生成哈希编码矩阵。

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行以下步骤：

根据所述实数向量获取辅助变量；

以上实施例二和实施例三中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。例如，本实施例的计算机可读存储介质包括U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于半监督多模态哈希编码的跨模态检索方法，其特征在于，包括：

S1：对原始图像数据进行预处理，获得所述原始图像数据的实数矩阵向量，具体地，所述实数矩阵向量包括所述原始图像数据中有标记数据组成的有标记数据矩阵X^l、所述原始图像数据中无标记数据组成的无标记数据矩阵X^u以及所述原始图像数据中有标记数据的标记组成的标记矩阵L^l；

S2：根据所述实数矩阵向量获取辅助变量；

S5：根据所述哈希编码矩阵进行数据检索，搜索检索数据库中与目标向量距离最近的向量，

所述S2包括：

S21：建立辅助变量H^l,_i,的最小化问题模型：

其中，表示第i个模态中有标记数据组成的矩阵向量，L^l表示所述原始图像数据中有标记数据的标记组成的标记矩阵，α表示预设参数，K表示模态数量，f是sigmoid函数，f(x)＝1/(1+e^-x)，F表示计算矩阵F范数；

S22：利用梯度下降法计算所述辅助变量H^l,_i和O；

所述S3包括：

S31：建立所述原始图像数据中无标记数据的标记矩阵L^u的估计模型：

其中，tr表示取矩阵的迹，P_i，为辅助变量，表示第i个模态中无标记数据组成的矩阵向量；

S32：利用交替迭代法获取所述标记矩阵L^u；

所述S4包括：

S41：建立所述哈希编码矩阵B的最小化问题模型：

其中，U_i和S为辅助变量，B^l表示所述原始图像数据中有标记数据的哈希编码，B^u表示所述原始图像数据中无标记数据的哈希编码，β^l和β^u表示预设参数；

S42：利用梯度下降法获取所述哈希编码B^l和B^u；

S43：根据所述哈希编码B^l和B^u生成哈希编码矩阵B。

2.根据权利要求1所述的基于半监督多模态哈希编码的跨模态检索方法，其特征在于，所述S22包括：

S221：对所述辅助变量W_i和O进行随机初始化；

S222：计算辅助变量H^l，计算公式为：

S223：更新辅助变量O，更新公式为：

其中，Δt表示预设参数，表示矩阵内积，T表示转置；

S224：更新辅助变量W_i，更新公式为：

S225：根据更新后的辅助变量H^l,_i和O计算并更新所述最小化问题模型E₁并与更新前的E₁进行比较，判断更新前后E₁的变化值是否小于预定值，若否，则返回S222继续进行迭代计算，若是，则执行S226；

S226：停止迭代，获取所述辅助变量H^l,_i和O的最终值。

3.根据权利要求2所述的基于半监督多模态哈希编码的跨模态检索方法，其特征在于，所述S32包括：

S322：计算所述辅助变量P_i，计算公式为：

其中，T表示转置，表示矩阵内积，I表示单位矩阵，K≥i≥1，K≥k≥1，且i≠k；

S323：更新所述标记矩阵L^u，更新公式为：

S324：令所述迭代次数q加1；

S326：停止迭代，获取所述标记矩阵L^u的最终值。

4.根据权利要求3所述的基于半监督多模态哈希编码的跨模态检索方法，其特征在于，所述S42包括：

S421：对所述辅助变量U_i和S进行随机初始化；

S422：更新所述哈希编码B^l和所述哈希编码B^u，更新公式为：

S423：更新所述辅助变量U_i，更新公式为：

S424：更新所述辅助变量S，更新公式为：

S426：停止迭代，获取所述原始图像数据中有标记数据的哈希编码B^l的最终值和所述原始图像数据中无标记数据的哈希编码B^u的最终值。

5.一种计算机系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4任一项所述的基于半监督多模态哈希编码的跨模态检索方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4任一项所述的基于半监督多模态哈希编码的跨模态检索方法。