CN116089731A

CN116089731A - 一种缓解灾难性遗忘的在线哈希检索方法及系统

Info

Publication number: CN116089731A
Application number: CN202310368630.3A
Authority: CN
Inventors: 罗昕; 张崇宇; 陈振铎; 许信顺
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-05-09
Anticipated expiration: 2043-04-10
Also published as: CN116089731B

Abstract

本发明提供了一种缓解灾难性遗忘的在线哈希检索方法及系统，属于电数字数据处理技术领域。所述方法，包括：根据获取的当前轮流数据以及前一轮流数据，进行哈希码学习，得到当前轮流数据的最新哈希函数；根据查询数据的核特征以及学习到的最新哈希函数，计算查询数据的哈希码；计算查询数据的哈希码与所有流数据的哈希码的汉明距离，返回汉明距离最小的至少一个数据。本发明能够有效地缓解灾难性遗忘问题，通过引入数据低级特征，有效地挖掘数据间更具判别力的相似性关系，有利于学到更高质量的哈希码，实现了更精准的在线哈希检索。

Description

一种缓解灾难性遗忘的在线哈希检索方法及系统

技术领域

本发明涉及电数字数据处理技术领域，特别涉及一种缓解灾难性遗忘的在线哈希检索方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术，并不必然构成现有技术。

随着互联网技术的快速发展，来自各行各业的（社交媒体）数据在数量和维度呈现爆炸式增长，近似最近邻（Approximate Nearest Neighbor，ANN）搜索逐渐替代最近邻（Nearest Neighbor，NN）用于大规模媒体检索任务，其中，基于哈希学习的方法由于数据存储和计算效率的优势，受到了研究者广泛的关注。哈希学习旨在将高维数据映射到低维汉明空间紧凑的二进制哈希码，同时保留数据在原始空间的相似性，然后通过计算数据的汉明距离进行相似性排序，汉明距离越小表明数据点相似度越高。哈希学习根据是否使用监督信息可以分为监督哈希、无监督哈希、半监督哈希和弱监督哈希。监督哈希方法能够利用高层次的语义信息，因此能够取得比无监督哈希方法更好的检索效果。

尽管基于哈希学习的近似最近邻搜索方法引起了广泛的关注，但是仍存在一些问题，一般来说，互联网数据由用户不断增量生成，随着时间的推移以数据流的形式到达互联网，因此，从互联网流式数据中进行大规模媒体相似性检索已经成为研究热点；大部分现有的哈希方法是基于批处理的，在新的一批流数据到达时，需要积累新数据和历史数据重新训练哈希函数，存储成本高，检索效率低，不能实际应用于在线检索任务，为了克服上述限制，在线哈希检索方法被提出；

但是，现有的在线哈希检索方法只利用当前流数据，更新当前轮次的哈希函数，不使用旧数据，不对旧数据哈希码进行更新，而且现有的在线哈希检索方法不能很好地利用新旧数据关系，造成了灾难性遗忘问题。

发明内容

为了解决现有技术的不足，本发明提供了一种缓解灾难性遗忘的在线哈希检索方法及系统，能够有效地缓解灾难性遗忘问题，通过引入数据低级特征，有效地挖掘数据间更具判别力的相似性关系，有利于学到更高质量的哈希码，实现了更精准的在线哈希检索。

为了实现上述目的，本发明采用如下技术方案：

本发明第一方面提供了一种缓解灾难性遗忘的在线哈希检索方法。

一种缓解灾难性遗忘的在线哈希检索方法，包括以下过程：

根据获取的当前轮流数据以及前一轮流数据，进行哈希码学习，得到当前轮流数据的最新哈希函数；

根据查询数据的核特征以及学习到的最新哈希函数，计算查询数据的哈希码；

计算查询数据的哈希码与所有流数据的哈希码的汉明距离，返回汉明距离最小的至少一个数据。

作为本发明第一方面进一步的限定，哈希码学习过程中，根据矩阵，随机生成一个码本，为查询数据的每一个类别指定一个码字，形成全局类别哈希码矩阵，作为全局信息指导类别哈希码的学习。

作为本发明第一方面进一步的限定，哈希码的学习过程中，构建损失函数以使得当前轮流数据的类别哈希码与前一轮流数据的类别哈希码相互作用。

作为本发明第一方面进一步的限定，哈希码的学习过程中，采用高级语义标签和低级特征的余弦相似度分别构建高级相似性矩阵和低级相似性矩阵，以高级相似性矩阵和低级相似性矩阵的均值为最终的相似性矩阵。

作为本发明第一方面进一步的限定，哈希码的学习过程中，使用基于记忆的数据点筛选方式，从前一轮和当前轮筛选部分数据加入记忆，构造记忆数据与新数据的相似性。

作为本发明第一方面更进一步的限定，取标签矩阵和哈希码矩阵与类别哈希码矩阵量化误差最小的个流数据作为筛选的数据点，记忆的容量为个数据点，；

在当前轮的学习中，从前一轮学习的记忆中随机筛选出个数据点，在当前轮中量化误差最小的个流数据筛选个数据点，取作为记忆数据；

每一轮更新内存中的数据点，在第一轮中旧数据不存在，只筛选量化误差最小的个数据点。

作为本发明第一方面进一步的限定，总体损失函数包括当前轮流数据的哈希码、实值辅助变量、当前轮流数据的类别哈希码以及当前轮的哈希函数四个待优化变量；

固定当前轮流数据的哈希码、实值辅助变量和当前轮流数据的类别哈希码，对当前轮的哈希函数进行优化更新，得到学习到的最新哈希函数。

本发明第二方面提供了一种缓解灾难性遗忘的在线哈希检索系统。

一种缓解灾难性遗忘的在线哈希检索系统，包括：

哈希码学习模块，被配置为：根据获取的当前轮流数据以及前一轮流数据，进行哈希码学习，得到当前轮流数据的最新哈希函数；

查询数据哈希计算模块，被配置为：根据查询数据的核特征以及学习到的最新哈希函数，计算查询数据的哈希码；

哈希检索模块，被配置为：计算查询数据的哈希码与所有流数据的哈希码的汉明距离，返回汉明距离最小的至少一个数据。

作为本发明第二方面进一步的限定，哈希码的学习过程中，使用基于记忆的数据点筛选方式，从前一轮和当前轮筛选部分数据加入记忆，构造记忆数据与新数据的相似性。

作为本发明第二方面更进一步的限定，取标签矩阵和哈希码矩阵与类别哈希码矩阵量化误差最小的个流数据作为筛选的数据点，记忆的容量为个数据点，；

与现有技术相比，本发明的有益效果是：

1、本发明创新性的提出了一种新的融合多种技术缓解灾难性遗忘的在线哈希检索策略，通过融合多种新旧数据交互的技术，能够更好的地缓解灾难性遗忘问题；通过引入数据低级特征，有效地挖掘数据间更具判别力的相似性关系，有利于学到更高质量的哈希码。

2、本发明创新性的设计了一种新颖的学习类别哈希码的方法，通过与旧数据类别哈希码和哈希码的交互，嵌入更多的标签语义信息，有效地解决了在线场景的灾难性遗忘问题；通过约束类别哈希码的变化，有效缓解了哈希码学习的灾难性遗忘问题。

3、本发明创新性的设计了一种基于记忆的数据点筛选方法，筛选部分旧数据和新数据加入记忆，构造记忆数据与新数据的相似性，并随着流数据的到来更新记忆，有效地缓解了灾难性遗忘问题，有利于学习到高质量的哈希码；设计了有效和高效的离散在线优化算法，使在线学习可以容易地扩展到大规模数据学习中。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的缓解灾难性遗忘的在线哈希检索方法的流程示意图；

图2为本发明实施例2提供的缓解灾难性遗忘的在线哈希检索系统的结构示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1：

本发明实施例1提供了一种缓解灾难性遗忘的在线哈希检索方法，融合类别哈希码技术、知识蒸馏技术和基于记忆的数据点筛选技术，缓解了灾难性遗忘问题，能够学习到更具有区分性的哈希码，如图1所示，包括以下过程：

S1：获取流数据；

互联网中流式媒体数据以数据流的形式不断到达，因此获取数据集后，将其分为训练数据和查询数据两部分，并将训练数据分为 t轮数据块的形式，用于模拟流式数据的到来。

S2：哈希码的学习；

首先，基于矩阵（哈达玛矩阵）生成每个类的标签表示，即全局类别哈希码，作为全局信息，指导每一轮类别哈希码的学习；

其次，属于同一个类别的数据应该具有相似的哈希码，构造损失函数，使共享标签的数据的哈希码更相似；

然后，第轮流数据（即当前轮流数据）的类别哈希码和第轮流数据（即前一轮流数据）的类别哈希码相互作用，为了防止类别哈希码变化过快，缓解灾难性遗忘，使用（Radial Basis Function，径向基函数）核映射捕获流数据低级特征的非线性特征与高级语义标签进行融合，构建相似性矩阵，增强相似性保持的能力；

最后，使用基于记忆的数据点筛选技术，从第轮和第轮筛选部分数据加入记忆，构造记忆数据与新数据的相似性，并随着流数据的到来更新记忆，有效地缓解灾难性遗忘问题，有利于学习到高质量的哈希码。

S3：生成查询数据的哈希码；

第轮损失函数优化结束后，对查询数据求核特征，利用S2学习到的最新的哈希函数，采用一个简单的线性回归模型，计算查询数据的哈希码。

S4：计算数据间的汉明距离；

在第轮生成查询数据的哈希码后，计算查询数据的哈希码矩阵和此刻所有训练数据的哈希码矩阵的汉明距离，度量两个数据的相似性，返回汉明距离最小的前个数据（大于或等于1），由此实现快速且高效的在线哈希检索。

S5：存储哈希码和哈希函数；

第轮流数据学习结束后，将第轮流数据的哈希码与前批轮流数据的哈希码一并储存，存储第轮次的哈希函数，上一轮次的哈希函数无需保留，若此时下一轮流数据到达，重复上述过程。

更具体的，包括以下内容：

（1）哈希码的学习。

步骤（1.1）：基于矩阵生成每个类的标签表示。

本发明首先根据矩阵的定义，随机生成一个码本，为数据的每一个类别指定一个码字，形成类别的标签表示，即全局类别哈希码，作为全局信息，指导类别哈希码的学习，其中，表示哈希码的长度，表示流式媒体数据类别的个数。

其中，矩阵的大小由如下公式设置：

（1）

因此，构建了一个正方形的编码矩阵，随后用于构建全局类别标签表示以及类别哈希码。

步骤（1.2）：哈希学习的核心是保留相似性，属于同一个类别的数据应该具有相似的哈希码，在第轮中，类别哈希码矩阵，与第轮流数据的标签构造如下损失函数：

其中，为第轮流数据的哈希码，是第轮流数据的数量，代表矩阵的范数（弗罗贝尼乌斯范数），表示平衡这一项的超参数，上述损失函数能够使共享标签的数据的哈希码更相似，从而实现保持相似性的目标。

同时，为了防止类别哈希码变化过快，构造如下损失函数，使第轮流数据的类别哈希码与第轮流数据的类别哈希码相互作用，矩阵为全矩阵，表示平衡这一项的超参数，在第一轮数据出现时，由于没有旧数据的存在，只需要用初始生成的类别哈希码指导哈希学习，因此，损失函数构造如下：

步骤（1.3）：将由矩阵生成的类别标签表示矩阵作为（教师），第轮流数据的类别哈希码作为（学生），由（教师）指导（学生）学习，能够传递知识，缓解灾难性遗忘问题，损失函数由下式具体表示，其中表示平衡这一项的超参数：

步骤（1.4）：使用RBF（Radial Basis Function，径向基函数）核映射捕获流数据低级特征的非线性特征，公式如下所示：

其中，表示从第一轮次训练数据中随机选取的个锚点，表示核宽度，表示核特征的维度，n表示核特征的个数。

步骤（1.5）：构建相似性矩阵。

根据哈希学习相似性嵌入范式，本发明除了使用流数据的高级语义标签构建相似性矩阵之外，加入了流数据的低级特征，其中，为流数据训练集的数据总数，为流数据低级特征的维度。流数据的低级特征为由卷积神经网络（ConvolutionalNeural Networks，）提取或提取的特征。为了准确测量数据的语义关系，本发明采用高级语义标签和低级特征的余弦相似度分别构建高级相似性矩阵和低级相似性矩阵，其中，是归一化矩阵：

是高级相似性矩阵的第行，是低级相似性矩阵的第行，因此，相似性矩阵可以根据下式构建：

则用于在第轮学习流数据哈希码的损失函数可以写作：

其中，为平衡这一项的超参数，表示当前轮次的流数据的成对相似性矩阵，具体表示为：

步骤（1.6）：基于记忆的数据点筛选技术，为了缓解灾难性遗忘，本发明提出了一种基于记忆的数据点筛选技术，根据实验设置，取标签矩阵和哈希码矩阵与类别哈希码矩阵量化误差最小的个流数据作为筛选的数据点，记忆的容量为个数据点，，在第轮的学习中，从第轮学习的记忆中随机筛选出个数据点，在第轮中量化误差最小的个流数据筛选个数据点。记忆由上述两部分组成，即，每一轮更新内存中的数据点，在第一轮中旧数据不存在，只筛选量化误差最小的个数据点，数据点和第轮流数据的成对相似性可以用以下式子表示，其中和分别表示数据点的高级语义标签和低级特征：

表示数据点的哈希码，为平衡这一项的超参数，根据数据点和流数据之间的成对相似性，在第轮学习流数据哈希码的损失函数可以写作：

步骤（1.7）：哈希函数学习。

线性哈希函数在在线哈希领域占据主流地位，较少方法使用神经网络，因此，本发明使用高效和直接的线性映射设计哈希函数学习部分。

哈希函数损失函数项具体如下：

其中，为第轮的哈希函数，将流数据的低级特征映射到哈希码，为平衡哈希函数这一项的超参数，用于平衡正则化项。根据哈希函数损失函数项可以看出，本发明同时将第轮和前轮旧数据的哈希码嵌入到哈希函数中，使旧数据参与到了哈希函数的学习中，能够缓解灾难性遗忘问题。

（2）损失函数优化。

步骤（2.1）：由于的二值约束，优化非常困难，所以本发明引入有正交约束和平衡约束的实值辅助变量作为的中间变量，替换了一个。因此变量可以更容易地使用迭代优化求解。此外，实值辅助变量比能够捕获更准确的语义信息，确保在相似性保持过程中可接受的信息损失。

整合上述所有损失函数，得到总体损失函数：

（13）

从损失函数中可以看出，需要优化的变量有四个，分别是，为了解决上述变量的优化问题，本发明提出了一种四步迭代优化算法，即在每一步骤中只更新一个变量，其他变量保持不变。

步骤（2.2）：固定变量，更新，当其他变量固定后，损失函数可以改写为：

（14）

通过对求导取零，可以得到的解：

其中，

；

可以很容易的地观察到，在第轮时，只需计算的第二项来更新，第一项可以直接从上一轮中获得，是中间变量，可以保存供下一轮使用，使优化变得高效。

步骤（2.3）：固定变量，更新，当其他变量固定后，损失函数可以改写为：

其中，。

将本发明构造的相似性矩阵

代入可得：

（17）

令，对进行特征值分解，得到下式：

其中，是非零特征值的对角矩阵，是非零特征值的数量，是全0矩阵，是非零特征值对应的特征向量，是剩余的特征向量，即零特征值对应的特征向量。计算，根据施密特正交化，是正交化的，并且随机初始化，如果矩阵对角线上的值全部大于0，则为空，最后求得的解为：

步骤（2.4）：固定变量，更新，当其他变量固定后，损失函数可以改写为：

（20）

对上式第一项进行优化：

（21）

其中，是矩阵的迹，根据步骤（1.2）所述，矩阵为全矩阵，则为 const，相似地，其他项可以写作：

（22）

则损失函数可以写为：

其中，本发明使用离散循环坐标下降算法（Discrete Cyclic Coordinate Descent，DCC）来获取每一行的闭式解，即逐比特更新。使用表示类别哈希码矩阵的第列，表示除去第列的其余部分。使用表示第轮类别哈希码矩阵的第列，表示除去第列的其余部分。使用表示第轮流数据的哈希码矩阵的第列，表示除去第列的其余部分，表示的第列。

第一项可以写作：

（24）

因为上式中，第一项为向量相乘，最后得到常量，最后一项和无关，所以可以写作，中间两项经过求迹公式的性质，可以合并成一项，由于合并后的这一项是标量，而又因为标量的迹等于其本身，所以得到结果，相似地，包含的损失函数其他各项可以写作：

；

（25）

因此，损失函数可以写作：

则的闭式解为：

其中是符号函数，当输入大于等于零时，函数输出为1，否则输出-1。

步骤（2.5）：固定变量，更新，当其他变量固定后，损失函数可以改写为：

（28）

和步骤（2.4）相似，本发明使用离散循环坐标下降算法（DCC）来获取每一行的闭式解，即逐比特更新，相似地，上述损失函数可以写作：

其中，使用表示第轮流数据的矩阵的第列：

和步骤（2.4）相似，上述损失函数可以写作：

则的闭式解为：

（3）在线哈希检索。

步骤（3.1）：生成查询数据的哈希码。第轮损失函数优化结束后，根据步骤（1.4）对查询数据求核特征，利用步骤（2.2）中学习到的最新的哈希函数，采用一个简单的线性回归模型，计算查询数据的哈希码，过程具体为：

步骤（3.2）：在第轮生成查询数据的哈希码后，计算查询数据的哈希码矩阵和此刻所有训练数据（代表所有流数据）的哈希码矩阵的汉明距离，度量两个数据的相似性，返回汉明距离小的数据，由此实现快速且高效的在线哈希检索。

实施例2：

如图2所示，本发明实施例2提供了一种缓解灾难性遗忘的在线哈希检索系统，包括：

所述系统的工作方法与实施例1提供的缓解灾难性遗忘的在线哈希检索方法相同，这里不再赘述。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种缓解灾难性遗忘的在线哈希检索方法，其特征在于，包括以下过程：

2.如权利要求1所述的缓解灾难性遗忘的在线哈希检索方法，其特征在于，

哈希码学习过程中，根据矩阵，随机生成一个码本，为查询数据的每一个类别指定一个码字，形成全局类别哈希码矩阵，作为全局信息指导类别哈希码的学习。

3.如权利要求1所述的缓解灾难性遗忘的在线哈希检索方法，其特征在于，

哈希码的学习过程中，构建损失函数以使得当前轮流数据的类别哈希码与前一轮流数据的类别哈希码相互作用。

4.如权利要求1所述的缓解灾难性遗忘的在线哈希检索方法，其特征在于，

哈希码的学习过程中，采用高级语义标签和低级特征的余弦相似度分别构建高级相似性矩阵和低级相似性矩阵，以高级相似性矩阵和低级相似性矩阵的均值为最终的相似性矩阵。

5.如权利要求1所述的缓解灾难性遗忘的在线哈希检索方法，其特征在于，

哈希码的学习过程中，使用基于记忆的数据点筛选方式，从前一轮和当前轮筛选部分数据加入记忆，构造记忆数据与新数据的相似性。

6.如权利要求5所述的缓解灾难性遗忘的在线哈希检索方法，其特征在于，

取标签矩阵和哈希码矩阵与类别哈希码矩阵量化误差最小的个流数据作为筛选的数据点，记忆的容量为个数据点，；

7.如权利要求1所述的缓解灾难性遗忘的在线哈希检索方法，其特征在于，

总体损失函数包括当前轮流数据的哈希码、实值辅助变量、当前轮流数据的类别哈希码以及当前轮的哈希函数四个待优化变量；

8.一种缓解灾难性遗忘的在线哈希检索系统，其特征在于，包括：

9.如权利要求8所述的缓解灾难性遗忘的在线哈希检索系统，其特征在于，

10.如权利要求9所述的缓解灾难性遗忘的在线哈希检索系统，其特征在于，