CN111522903A

CN111522903A - 一种深度哈希检索方法、设备及介质

Info

Publication number: CN111522903A
Application number: CN202010250546.8A
Authority: CN
Inventors: 姚洪磊; 乔廷慧; 李锐
Original assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Current assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-08-11

Abstract

本申请公开了一种深度哈希检索方法、设备及介质，方法包括：确定通过多组训练样本以及预设算法预先生成的哈希检索模型；通过哈希检索模型生成并存储各文章对应的哈希码；确定用户输入的待检索文章，并通过哈希检索模型输出待检索文章的哈希码；根据待检索文章的哈希码，以及存储的各文章对应的哈希码，确定检索结果。通过预设算法来训练生成哈希检索模型，使得哈希检索模型在针对用户输入的待检索文章时，能够有效考虑文章中所包含的内容，提高了生成的哈希码的质量，也提高了最终检索的精确度，提升了用户体验。可以充分挖掘不同模态之间的互补信息，相比于单一的通过文本模态的检测方法更具有鲁棒性。

Description

一种深度哈希检索方法、设备及介质

技术领域

本申请涉及检索领域，具体涉及一种深度哈希检索方法、设备及介质。

背景技术

近年来，随着互联网的快速发展，多媒体数据(例如图片、文本、视频、音频等)呈现出爆炸式的增长，如何从浩如烟海的数据流中找寻出需要的信息成为当下研究的热门话题。

通常情况下，人们有需要查阅相关资料时，会根据手中已有的文章来检索同领域的相关文章。但是在进行检索时，如果仅根据文章标题或摘要来进行检索，结果往往不够全面，而认为的阅读整篇文章后再检索则耗时太多。一般解决的方案是通过用户输入关键词进行检索，然后返回包含关键词的文章。但是，当用户给的关键词不够准确或不够充分时，得到的查询结果往往差强人意。

发明内容

为了解决上述问题，本申请提出了一种深度哈希检索方法，包括：确定通过多组训练样本以及预设算法预先生成的哈希检索模型，其中，所述预设算法用于将所述训练样本中的文本模态的数据转换为向量，每组所述训练样本中包括锚点样本、正例样本和负例样本，所述训练样本包括多种模态的数据；通过所述哈希检索模型生成并存储各文章对应的哈希码，其中，所述文章中至少包括一种所述模态的数据；确定用户输入的待检索文章，并通过所述哈希检索模型输出所述待检索文章的哈希码；根据所述待检索文章的哈希码，以及存储的所述各文章对应的哈希码，确定检索结果。

在一个示例中，训练生成所述哈希检索模型时，所述方法还包括：在所有的训练样本中选取一篇文章作为锚点样本；在所有的训练样本中，选取与所述锚点样本相似程度高于第一阈值的文章作为正例样本，选取与所述锚点样本相似程度低于第二阈值的文章作为负例样本；将所述锚点样本、所述正例样本、所述负例样本作为一组训练样本，用于训练所述哈希检索模型。

在一个示例中，训练生成所述哈希检索模型时，所述方法还包括：通过不包含全连接层的卷积神经网络提取所述训练样本中图像模态数据的图像特征；和/或通过所述预设算法提取所述训练样本中文本模态数据的文本特征。

在一个示例中，训练生成所述哈希检索模型时，所述方法还包括：将所述图像特征和/或所述文本特征输入至全连接网络中，生成所述训练样本对应的哈希码，其中，所述全连接网络中包括至少一个全连接层。

在一个示例中，训练生成所述哈希检索模型时，所述方法还包括：通过损失函数对所述哈希检索模型进行优化，其中，设所述损失函数为L，则 L＝L₁+L₂+L₃+L₄＝-logρ((q_m,p_m,n_m)|G)-logρ((q_m,p_m,n_m)|F)- logρ((q_m,p_m,n_m)|F,G,G)-logρ((q_m,p_m,n_m)|G,F,F)，其中，(q_m,p_m,n_m)为一组训练样本，q_m为锚点样本，p_m为正例样本，n_m为负例样本，F为图像特征， G为文本特征，L₁为图像模态数据对应的相似度保持函数，L₂为文本模态数据对应的相似度保持函数，L₃与L₄为类间相似度保持函数。

在一个示例中，

其中，x 为文本模态的数据，y为图像模态的数据，M为训练样本的组数，

α为超参数，且α为正例样本和负例样本间的最小间隔。

在一个示例中，根据所述待检索文章的哈希码，以及存储的所述各文章对应的哈希码，确定检索结果，包括：确定已存储的所述各文章的哈希码，与所述待检索文章的哈希码之间的接近程度，并根据所述接近成都从高到低的选取若干个文章作为检索结果。

在一个示例中，所述接近程度通过海明距离确定。

另一方面，本申请还提出了包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：确定通过多组训练样本以及预设算法预先生成的哈希检索模型，其中，所述预设算法用于将所述训练样本中的文本模态的数据转换为向量，每组所述训练样本中包括锚点样本、正例样本和负例样本，所述训练样本包括多种模态的数据；通过所述哈希检索模型生成并存储各文章对应的哈希码，其中，所述文章中至少包括一种所述模态的数据；确定用户输入的待检索文章，并通过所述哈希检索模型输出所述待检索文章的哈希码；根据所述待检索文章的哈希码，以及存储的所述各文章对应的哈希码，确定检索结果。

另一方面，本申请还提出了一种深度哈希检索的非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：确定通过多组训练样本以及预设算法预先生成的哈希检索模型，其中，所述预设算法用于将所述训练样本中的文本模态的数据转换为向量，每组所述训练样本中包括锚点样本、正例样本和负例样本，所述训练样本包括多种模态的数据；通过所述哈希检索模型生成并存储各文章对应的哈希码，其中，所述文章中至少包括一种所述模态的数据；确定用户输入的待检索文章，并通过所述哈希检索模型输出所述待检索文章的哈希码；根据所述待检索文章的哈希码，以及存储的所述各文章对应的哈希码，确定检索结果。

通过本申请提出的深度哈希检索方法能够带来如下有益效果：

通过预设算法来训练生成哈希检索模型，使得哈希检索模型在针对用户输入的待检索文章时，能够有效考虑文章中所包含的内容，提高了生成的哈希码的质量，也提高了最终检索的精确度，提升了用户体验。

对于文章中多种模态的数据，可以充分挖掘不同模态之间的互补信息，相比于单一的通过文本模态的检测方法更具有鲁棒性。并且也可以解决只通过关键词进行检索时，容易产生的关键词不够准确或不够充分的问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中深度哈希检索方法的流程示意图；

图2为本申请实施例中深度哈希检索的设备示意图；

图3为本申请实施例中训练哈希检索模型的训练示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

如图1所示，本申请实施例提供一种深度哈希检索方法，包括：

S101、确定通过多组训练样本以及预设算法预先生成的哈希检索模型，其中，所述预设算法用于将所述训练样本中的文本模态的数据转换为向量，每组所述训练样本中包括锚点样本、正例样本和负例样本，所述训练样本包括多种模态的数据。

首先采集多个训练样本，用于对哈希检索模型的训练。其中，由于本申请实施例主要针对的是解决在查询文章时的相关问题，因此，训练样本可以设置为是各种类型的文章。而通常情况下，文章中往往包含有多种模态的数据，例如，文本模态、图像模态、视频模态等，由于在大部分文章中，文本模态和图像模态是最常包含的数据类型，因此，在本申请实施例中，以训练样本中所包含的数据的多种模态以文本模态和图像模态为例进行解释说明。

在训练哈希检索模型时，如果只是将训练样本单独分开始使用，可能会使得最终得到的训练效果不尽如人意。因此，可以将训练样本构造生成三元组样本，每个三元组样本作为一组训练样本，然后以每组训练样本为一个单位，训练生成哈希检索模型，可以使得最终得到的哈希检索模型效果更佳优秀。

具体地，每个三元组样本中包含有锚点样本、正例样本和负例样本。其中，锚点样本指的是当前的训练样本，选取锚点样本的方法可以是在所有的训练样本中，选取出一篇文章作为锚点样本，选取的方法可以是随机的，或者按照一定的规律，例如通过编号、或者内容等进行选取，在此不做限定。正例样本则是指和锚点样本相似程度高于第一阈值的文章，即与锚点样本相似程度较高的样本，负例样本则是指和锚点样本相似程度低于第二阈值的文章，即与锚点样本相似程度较低的样本。当然，通常情况下，锚点样本、正例样本和负例样本的数量都为1，此时可以将锚点样本、正例样本和负例样本组成三元组样本，作为一组训练样本，来用于训练哈希检索模型。

在确定了训练样本后，即可基于训练样本以及预设算法来训练生成哈希检索模型。由于文章中肯定会包含有文本模态的数据，因此，预设算法可以用于将训练样本中文本模态的数据转换为向量，来训练哈希检索模型。

具体地，可以使用预设算法，将文章中所包含的文本模态的数据转换为向量，来提取训练样本中文本模态数据的文本特征。在进行提取文本特征时，可以采用多种方法，例如Word2Vec，GloVe，Doc2Vec等。Word2Vec表示的词向量不仅考虑了词之间的语义信息，还压缩了维度。但是，有时候当我们需要得到Sentence/Document的向量表示，虽然可以直接将句子或文档中所有词的向量取均值作为Sentence/Document的向量表示，但是这样会忽略单词之间的排列顺序对句子或文本信息的影响。而Doc2vec是在Word2vec的基础上做出的改进，它不仅考虑了词和词之间的语义，也考虑了词序，因此采用Doc2vec 来提取文章中的文本特征更为合适。Doc2vec有两种模型，分别为：句向量的分布记忆模型(Distributed Memory Model of Paragraph Vectors，PV-DM)和句向量的分布词袋(Distributed Bag of Words version of Paragraph Vector， PV-DBOW)，在此可以选择通过PV-DBOW的方法来提取文本特征。

当然，文章中除了文本模态的数据，还经常会包含有图像模态的数据，此时可以通过不包含全连接层的卷积神经网络(Convolutional Neural Networks, CNN)提取训练样本中图像模态数据的图像特征，例如，可以通过使用不包含全连接层的resnet50来提取图像模态数据的图像特征。

由于在获取文本特征和图像特征时，哈希检索模型并未包含全连接层，因此，在获取了文本特征和图像特征后，可以将其输入至全连接网络中，学习生成训练样本对应的哈希码，以便于后续的检索。其中，全连接网络中至少包括一个全连接层，当然，全连接层的数量可以根据实际要求进行设置，在此不做限定。

在通过全连接网络生成了哈希码后，即可通过构造损失函数来对学习过程进行优化。而由于训练样本是以三元组样本为一组训练样本进行训练的，因此也可以构造三元组损失函数，来对学习过程进行优化。

具体地，可以设损失函数为L，则损失函数L＝L₁+L₂+L₃+L₄＝ -logρ((q_m,p_m,n_m)|G)-logρ((q_m,p_m,n_m)|F)-logρ((q_m,p_m,n_m)|F,G,G)- logρ((q_m,p_m,n_m)|G,F,F)，其中，(q_m,p_m,n_m)为一组训练样本，即三元组样本， q_m为锚点样本，p_m为正例样本，n_m为负例样本，F为图像特征，G为文本特征，L₁为图像模态数据对应的相似度保持函数，保证两个相似图像之间尽可能接近，而相似度较低的两个图像之间尽可能远离，L₂为文本模态数据对应的相似度保持函数，保证两个相似文本之间尽可能接近，而相似度较低的两个文本之间尽可能远离，L₃与L₄为类间相似度保持函数，即文本和图像分别作相似性保持。

进一步地，在上述损失函数中，L₁、L₂、L₃、L₄这四个相似度保持函数具体公示可以如下：

α为超参数，且为正例样本和负例样本间的最小间隔。通过三元组损失函数的迭代优化，即可完成哈希检索模型的训练。

S102、通过所述哈希检索模型生成并存储各文章对应的哈希码，其中，所述文章中至少包括一种所述模态的数据。

在确定了已经训练完毕的哈希检索模型后，即可通过哈希检索模型生成并存储个文章对应的哈希码。其中，这里的文章可以是在本申请实施例中，方法所对应的系统或平台中已拥有的文章，也可以是可以在网络上通过合法手段获取到的文章，在此不做限定。当然，在存储哈希码时，可以存储在一个数据库中，也可以基于文章的类别、内容、长度等存储在不同的数据库中，在此不做限定。

S103、确定用户输入的待检索文章，并通过所述哈希检索模型输出所述待检索文章的哈希码。

S104、根据所述待检索文章的哈希码，以及存储的所述各文章对应的哈希码，确定检索结果。

在存储完各文章对应的哈希码后，用户如果想进行检索，则需要输入相应的文章，在此将该文章称作待检索文章。然后可以通过哈希检索模型来生成待检索文章对应的哈希码。在生成了哈希码后，即可根据待检索文章的哈希码，在存储有相应哈希码的各文章中，确定得到检索结果。其中，确定检索结果时，可以根据已存储的各文章的哈希码，与待检索文章的哈希码之间的接近程度，由高到低的选取若干个文章作为检索结果。并在向用户输出时，可以按照哈希码的接近程度，从高至低依次展示给用户，使得最符合的文章是排在检索结果的最前面，提高用户体验。在输出检索结果时，输出的个数可以根据需要进行设置，在此不再赘述。

其中，在确定哈希码的接近程度时，可以通过确定哈希码之间的海明距离来确定。在信息编码中，两个合法代码对应位上编码不同的位数称为海明距离。当海明距离越短时，说明两个哈希码之间不同的位数越少，也就说明两个哈希码越接近，同时也代表着两个信息之间的相似程度越高。

如图2所示，本申请实施例还提供了一种深度哈希检索设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

确定通过多组训练样本以及预设算法预先生成的哈希检索模型，其中，所述预设算法用于将所述训练样本中的文本模态的数据转换为向量，每组所述训练样本中包括锚点样本、正例样本和负例样本，所述训练样本包括多种模态的数据；

通过所述哈希检索模型生成并存储各文章对应的哈希码，其中，所述文章中至少包括一种所述模态的数据；

确定用户输入的待检索文章，并通过所述哈希检索模型输出所述待检索文章的哈希码；

根据所述待检索文章的哈希码，以及存储的所述各文章对应的哈希码，确定检索结果。

本申请实施例还提供了一种深度哈希检索的非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备和介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的设备和介质与方法是一一对应的，因此，设备和介质也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述设备和介质的有益技术效果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种深度哈希检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，训练生成所述哈希检索模型时，所述方法还包括：

在所有的训练样本中选取一篇文章作为锚点样本；

在所有的训练样本中，选取与所述锚点样本相似程度高于第一阈值的文章作为正例样本，选取与所述锚点样本相似程度低于第二阈值的文章作为负例样本；

将所述锚点样本、所述正例样本、所述负例样本作为一组训练样本，用于训练所述哈希检索模型。

3.根据权利要求1所述的方法，其特征在于，训练生成所述哈希检索模型时，所述方法还包括：

通过不包含全连接层的卷积神经网络提取所述训练样本中图像模态数据的图像特征；和/或

通过所述预设算法提取所述训练样本中文本模态数据的文本特征。

4.根据权利要求3所述的方法，其特征在于，训练生成所述哈希检索模型时，所述方法还包括：

将所述图像特征和/或所述文本特征输入至全连接网络中，生成所述训练样本对应的哈希码，其中，所述全连接网络中包括至少一个全连接层。

5.根据权利要求4所述的方法，其特征在于，训练生成所述哈希检索模型时，所述方法还包括：

通过损失函数对所述哈希检索模型进行优化，其中，设所述损失函数为L，则L＝L₁+L₂+L₃+L₄＝-logρ((q_m,p_m,n_m)|G-logρ((q_m,p_m,n_m)|F)-logρ((q_m,p_m,n_m)|F,G,G)-logρ((q_m,p_m,n_m)|G,F,F)，其中，(q_m,p_m,n_m)为一组训练样本，q_m为锚点样本，p_m为正例样本，n_m为负例样本，F为图像特征，G为文本特征吗，L₁为图像模态数据对应的相似度保持函数，L₂为文本模态数据对应的相似度保持函数，L₃与L₄为类间相似度保持函数。

6.根据权利要求5所述的方法，其特征在于，

其中，x为文本模态的数据，y为图像模态的数据，M为训练样本的组数，

α为超参数，且α为正例样本和负例样本间的最小间隔。

7.根据权利要求1所述的方法，其特征在于，根据所述待检索文章的哈希码，以及存储的所述各文章对应的哈希码，确定检索结果，包括：

确定已存储的所述各文章的哈希码，与所述待检索文章的哈希码之间的接近程度，并根据所述接近成都从高到低的选取若干个文章作为检索结果。

8.根据权利要求7所述的方法，其特征在于，所述接近程度通过海明距离确定。

9.一种深度哈希检索设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

10.一种深度哈希检索的非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为：