CN116825210A

CN116825210A - 基于多源生物数据的哈希检索方法、系统、设备和介质

Info

Publication number: CN116825210A
Application number: CN202311082477.4A
Authority: CN
Inventors: 余国先; 王月群; 王峻
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-09-29
Anticipated expiration: 2043-08-28
Also published as: CN116825210B

Abstract

本发明提出了基于多源生物数据的哈希检索方法、系统、设备和介质，涉及大规模数据检索领域，具体方案包括：利用训练好的哈希模型，分别生成待检索样本的哈希码和数据库中各样本的哈希码，所述样本为多源生物数据，包括图像和文本；基于哈希码间的汉明距离，得到检索结果；其中，所述哈希模型在训练过程中，以不同模态样本间的跨模态相似性作为监督信息，学习文本特征和图像特征间的自适应融合系数，利用自适应融合系数，用文本特征自适应增强图像特征，基于增强后的特征，生成哈希码；本发明设计了特征自适应融合模块，计算自适应融合系数，并使用文本特征自适应增强图像特征，将哈希技术引入生物数据的跨模态数据检索中。

Description

基于多源生物数据的哈希检索方法、系统、设备和介质

技术领域

本发明属于大规模数据检索领域，尤其涉及基于多源生物数据的哈希检索方法、系统、设备和介质。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着移动设备、社交网络和自媒体平台的快速发展，人们可以获取到如文本、图像、视频和音频等多种不同类型的数据，这些数据被称为多模态数据。由于互联网上多模态数据的快速增长，将多模态数据编码成二进制码，以实现快速检索和低存储成本的多模态哈希引起了广泛关注，成为近年来的热门话题。

哈希学习的目标是通过学习哈希函数，将不同模态数据在各自特征空间中的特征表示映射到公共的汉明空间中，同时在映射的过程保留数据在原始空间中的相似性；使用二进制哈希码来表示原始数据可以显著降低存储成本，此外，通过使用哈希码构建索引，可以实现常数级或亚线性级时间复杂度的搜索；类似于互联网上的多模态数据，生物学研究中也会涉及到各种类型的生物数据，例如属于图像模态的病理切片数据以及属于文本模态的基因组、转录组中的序列数据等；这些生物数据的快速增长也给生物数据的处理、存储和检索带来了挑战。

因此，将哈希技术引入生物数据的检索中，具有非常重要的意义；哈希技术的引入可以有效地对生物数据进行编码和索引，实现快速的数据检索和查询；这将为生物学研究和医学领域的进展提供支持，帮助研究人员更高效地挖掘生物数据中的关联和信息；因此，跨模态哈希技术在生物数据的处理与分析中具有重要的应用前景，值得进一步深入研究和探索。

目前的跨模态哈希方法，按照是否使用标签数据分为两类：无监督跨模态哈希和监督跨模态哈希；无监督跨模态哈希在训练过程中不依赖于任何外部标记信息，仅通过自适应学习数据内在的相关性，实现对不同模态数据的哈希学习；监督跨模态哈希方法则利用数据的标签信息作为监督信息指导生成哈希码，因此表现一般要优于无监督的方法；此外，根据使用特征的不同，跨模态哈希方法还可以分为基于浅层结构的方法和基于深度学习的方法；与传统的浅层哈希方法相比，深度跨模态哈希能够直接处理原始数据，这在特征学习方面取得了很大的进步，但是深度神经网络的参数量通常比较大，需要大量的训练样本才能拟合出较好的效果。

近年来，哈希技术在文本、图像的跨模态检索中已经取得了显著的进展，但在将哈希技术引入生物数据的存储和检索中时仍然会遇到一些新的问题；例如，受限于数据获取难度和标记代价，生物数据中的标记样本数量通常有限，会影响到哈希模型的性能，使得样本的识别和检索变得更加困难；因此，将哈希技术引入到生物数据的存储和检索中，仍存在一些性能问题和精度问题。

发明内容

为克服上述现有技术的不足，本发明提供了基于多源生物数据的哈希检索方法、系统、设备和介质，设计了特征自适应融合模块，计算自适应融合系数，并使用文本特征自适应增强图像特征，将哈希技术引入生物数据的跨模态数据检索中。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

本发明第一方面提供了基于多源生物数据的哈希检索方法。

基于多源生物数据的哈希检索方法，包括：

利用训练好的哈希模型，分别生成待检索样本的哈希码和数据库中各样本的哈希码，所述样本为多源生物数据，包括图像和文本；

基于哈希码间的汉明距离，得到检索结果；

其中，所述哈希模型在训练过程中，以不同模态样本间的跨模态相似性作为监督信息，学习文本特征和图像特征间的自适应融合系数，利用自适应融合系数，用文本特征自适应增强图像特征，基于增强后的特征，生成哈希码。

进一步的，所述哈希模型，包括向量表示模块、特征提取模块、自适应融合模块和哈希码学习模块；

所述向量表示模块，对图像样本和文本样本进行数值化的向量表示，得到图像向量和文本向量；

所述特征提取模块，基于图像向量和文本向量，提取图像特征和文本特征；

所述自适应融合模块，利用自适应融合系数，对文本特征、图像特征进行动态融合，增强图像特征，得到鉴别性更强的图像特征；

所述哈希码学习模块，将文本特征和增强后的图像特征进行二值化得到相应的哈希码。

进一步的，所述文本向量的获取方式为：通过获取文本样本中表征miRNA表达水平的值，得到数值化的向量表示；

所述图像向量的获取方式为：对图片样本进行区域划分，分区域进行初级特征的提取和融合，得到图像的数值化向量表示。

进一步的，在分区域进行初级特征的提取和融合前，依据分块是否可用，进行分块的过滤，具体为：

将分块转换为灰度图像，并对灰度图像进行二值化，然后计算其表面未覆盖背景的比例，根据比例与指定阈值的比较，判断分块是否可用。

进一步的，所述自适应融合系数，具体公式为：

其中，表示自适应融合系数，/>表示文本特征，/>表示文本样本，/>是特征提取模块的文本网络参数，/>表示文本/>经过自适应融合模块的输出值，/>表示自适应融合模块的网络参数。

进一步的，所述用文本特征自适应增强图像特征，具体公式为：

其中，分别表示图像文本和文本样本，/>、/>分别表示图像特征和文本特征，/>是特征提取模块的图像网络参数和文本网络参数，/>表示自适应融合系数。

进一步的，所述哈希模型在训练过程中，将特征提取、自适应融合、哈希码学习三个模块联合优化，优化的目标函数由三部分组成：

保持跨模态相似性的负对数似然函数；

特征量化成哈希码过程的损失；

平衡哈希码中1/-1数量的损失。

本发明第二方面提供了基于多源生物数据的哈希检索系统。

基于多源生物数据的哈希检索系统，包括生成模块和检索模块：

生成模块，被配置为：利用训练好的哈希模型，分别生成待检索样本的哈希码和数据库中各样本的哈希码，所述样本为多源生物数据，包括图像和文本；

检索模块，被配置为：基于哈希码间的汉明距离，得到检索结果；

本发明第三方面提供了计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的基于多源生物数据的哈希检索方法中的步骤。

本发明第四方面提供了电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的基于多源生物数据的哈希检索方法中的步骤。

以上一个或多个技术方案存在以下有益效果：

针对生物数据中标记样本数量不足、图像特征之间不容易区分的问题，本发明设计了特征自适应融合模块，计算自适应融合系数，并使用文本数据特征自适应增强图像数据特征，增加图像数据的鉴别力，以达到好的检索效果，从而将哈希技术引入生物数据的存储和跨模态、跨组学的数据检索中，高效处理生物信息学中的多模态数据。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为第一个实施例的方法流程图。

图2为第二个实施例的系统结构图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

在一个或多个实施方式中，公开了基于多源生物数据的哈希检索方法，如图1所示，包括如下步骤：

步骤S1：利用训练好的哈希模型，分别生成待检索样本的哈希码和数据库中各样本的哈希码，所述样本为多源生物数据，包括图像和文本；

步骤S2：基于哈希码间的汉明距离，得到检索结果；

下面对本实施例基于多源生物数据的哈希检索方法的实现过程进行详细说明。

这里的多源生物数据，是关于生物的多模态数据，包括图像数据，如病理切片；文本数据，如miRNA序列数据；利用深度学习的哈希模型，生成多源生物数据的哈希码，基于哈希码的汉明距离，进行数据的检索。

哈希模型包括向量表示模块、特征提取模块、自适应融合模块和哈希码学习模块。

一、向量表示模块

用于将样本数据转变为计算机可计算的形式，具体的，对于文本数据，从miRNA文件中读取表征miRNA表达水平的值，返回数值化的向量表示，即文本向量。对于诸如病理切片等占用空间通常较大的图像数据，先进行区域化处理，分割成较小的分块。

由于分块中存在空白部分，需要判断每个分块是否可用，判断过程如下：对于每个小分块，首先将其转换为灰度图像，并对灰度图像进行二值化，将像素值小于 220 的像素置为 0，大于等于 220 的像素置为 1，然后计算其表面未覆盖背景的比例，即为被置为1的像素数量与像素总数量的比值，如果该数值小于指定阈值，则判断该小分块是可用的。

过滤掉不可用小分块后，利用经过预训练的网络，如Inception V3，对每个可用小分块进行初级特征提取，最后将全部可用分块的特征进行融合，得到该图像数据完整的数值化向量表示，即图像向量。

二、特征提取模块

利用图像网络、文本网络分别对图像数据、文本数据进行特征提取，这里的图像网络和文本网络，可以采用多层感知机（Multi-Layer Perceptron，MLP）。MLP是一种前馈人工神经网络模型，由多个全连接的隐藏层组成。通过堆叠多个隐藏层，MLP可以捕获复杂的特征和模式，自动学习从数据中提取有意义的特征，从而为后续任务提供更好的表示。

具体地，通过文本网络、图像网络，分别对输入的miRNA序列数据、病理切片数据进行进一步的深度特征提取，得到64维的特征表示，维度数即为哈希码的位数；图像和文本特征形式化定义如下：

其中，公式（1）表示图像通过图像网络提取的图像特征，公式（2）表示文本/>通过文本网络提取的文本特征，/>为哈希码的位数，也就是两个网络最后一层的输出维度，/>和分别表示图像网络参数和文本网络参数。

三、自适应融合模块

利用自适应融合系数，对文本特征、图像特征进行动态融合，增强图像特征，得到鉴别性更强的图像特征。

具体地，针对生物数据中标记样本不充足的问题，为了从数据中挖掘更多信息，得到更有鉴别力的特征表示，本实施例引入了自适应融合模块。具体地，自适应融合模块接收文本特征作为输入，输出大小在0-1之间的自适应融合系数/>，融合系数定义如下：

其中，表示文本/>经过自适应融合模块的输出值，/>表示自适应融合模块的网络参数；自适应融合模块的输出值通过/>函数缩放到0-1的范围内。

在计算融合后的图像特征时，一方面将图像通过图像网络得到图像特征，另一方面将该图像对应的文本/>通过文本特征网络得到文本特征/>，再将文本特征输入自适应融合模块计算融合系数/>，通过公式(4)得到增强后的图像特征：

通过公式（4），文本特征和图像特征可以实现动态融合，达到文本特征自适应增强图像特征的效果。

四、哈希码学习模块

将文本特征和增强后的图像特征进行二值化得到相应的哈希码，具体地，通过公式（5）的指示函数，将文本特征和增强后的图像特征进行二值化得到相应的哈希码：

（5）

例如，对于图像和文本/>的哈希码，形式化定义如下：

其中，表示图像/>的哈希码，/>表示文本/>的哈希码。

哈希模型的训练过程中，在计算图像哈希码时，需要先将该图像对应的文本数据通过文本网络得到文本特征，再将该文本特征输入到自适应融合模块以生成自适应融合系数，然后基于自适应融合系数将图像特征与文本特征进行加权融合，得到增强后的图像特征，再通过指示函数二值化，生成该样本对应的增强后的图像模态的哈希码；上述流程是在跨模态相似性矩阵的监督下进行。

这里的跨模态相似性矩阵，具体构建方法为：

获取患者样本训练集，每个患者样本包括患者及对应的疾病亚型、图像样本和文本样本；

基于患者样本训练集，设置样本之间的相似性指示值，构建跨模态相似性矩阵，/>表示图像第/>个样本和文本第/>个样本的相似性，可以分为三个等级进行设置，具体而言：

（1）若图像样本和文本样本/>来自具有不同亚型的不同患者，则将/>设置为0，表示样本/>和样本/>应当尽可能不相似；

（2）若图像样本和文本样本/>来自具有相同亚型的不同患者，则将/>设置为0.5，表示样本/>和样本/>应当具有一定程度的相似性；

（3）若图像样本和文本样本/>来自同一个患者，则将/>设置为1，表示样本/>和样本应当尽可能相似。

基于跨模态相似性矩阵，本实施例将特征提取、自适应融合、哈希码学习三个步骤联合优化，在训练过程中可以相互反馈、联合优化，克服分别训练导致的不兼容的问题；其中，优化的目标函数定义如下：

其中，表示跨模态相似性矩阵，/>表示图像第/>个样本和文本第/>个样本之间的相似性指示值，/>表示/>个训练样本的图像特征矩阵，/> ；表示/>个训练样本的文本特征矩阵，/>；/>可以用来衡量样本/>图像和文本两个跨模态特征的相似度；图像的哈希码是/>，文本的哈希码是/>；γ和是超参数；/>和/>是训练过程要学习的参数。

目标函数第一部分，是保持跨模态相似性的负对数似然函数，训练过程使用跨模态相似性矩阵作为监督信息可以保持相同亚型不同模态样本之间以及同一患者不同模态样本之间的跨模态相似性。

目标函数第二部分，是用以减少特征量化成哈希码过程的损失，因为和/>可以保持跨模态相似性，使用特征指导哈希学习，这样学习得到的图像哈希码/>和文本哈希码也可以保持跨模态相似性。

目标函数第三部分，是用来平衡哈希码中1，-1的数量，这样可以最大化每一位提供的信息。

在哈希模型训练后，利用哈希模型，生成待检索样本和数据库中各样本的哈希码，将待检索样本的哈希码分别与数据库中各样本哈希码计算汉明距离，汉明距离描述为相同位置上不同字符的个数，定义如下：

（9）

其中，分别表示两个待计算的哈希码，^代表异或运算，/>(/>)代表/>对应的二进制数中1的个数；进一步地，对汉明距离进行排序，将排名靠前的样本作为检索结果返回。

综上所述，本实施例将哈希技术应用于生物数据的存储和检索中，为生物数据的存储和检索提供了一种高效的方案，解决了生物数据中标记样本数量不足和图像特征之间不容易区分的问题。

实施例二

在一个或多个实施例中，公开了基于多源生物数据的哈希检索系统，如图2所示，包括生成模块和检索模块：

实施例三

本实施例的目的是提供计算机可读存储介质。

计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开实施例一所述的基于多源生物数据的哈希检索方法中的步骤。

实施例四

本实施例的目的是提供电子设备。

电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例一所述的基于多源生物数据的哈希检索方法中的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于多源生物数据的哈希检索方法，其特征在于，包括：

基于哈希码间的汉明距离，得到检索结果；

2.如权利要求1所述的基于多源生物数据的哈希检索方法，其特征在于，所述哈希模型，包括向量表示模块、特征提取模块、自适应融合模块和哈希码学习模块；

3.如权利要求2所述的基于多源生物数据的哈希检索方法，其特征在于，所述文本向量的获取方式为：通过获取文本样本中表征miRNA表达水平的值，得到数值化的向量表示；

4.如权利要求3所述的基于多源生物数据的哈希检索方法，其特征在于，在分区域进行初级特征的提取和融合前，依据分块是否可用，进行分块的过滤，具体为：

5.如权利要求2所述的基于多源生物数据的哈希检索方法，其特征在于，所述自适应融合系数，具体公式为：

其中，表示自适应融合系数，/>表示文本特征，/>表示文本样本，/>是特征提取模块的文本网络参数，/> 表示文本/> 经过自适应融合模块的输出值，表示自适应融合模块的网络参数。

6.如权利要求1所述的基于多源生物数据的哈希检索方法，其特征在于，所述用文本特征自适应增强图像特征，具体公式为：

7.如权利要求1所述的基于多源生物数据的哈希检索方法，其特征在于，所述哈希模型在训练过程中，将特征提取、自适应融合、哈希码学习三个模块联合优化，优化的目标函数由三部分组成：

保持跨模态相似性的负对数似然函数；

特征量化成哈希码过程的损失；

平衡哈希码中1/-1数量的损失。

8.基于多源生物数据的哈希检索系统，其特征在于，包括生成模块和检索模块：

9.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行上述权利要求1-7任一项所述的方法。

10.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行权利要求1-7任一项所述方法的指令。