CN113449849B

CN113449849B - 基于自编码器的学习型文本哈希方法

Info

Publication number: CN113449849B
Application number: CN202110724953.2A
Authority: CN
Inventors: 林煜明; 黄正果; 李优; 周娅
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2022-05-27
Anticipated expiration: 2041-06-29
Also published as: CN113449849A

Abstract

本发明公开一种基于自编码器的学习型文本哈希方法，先利用真实采集的文本数据和/或程序生成的文本数据构建训练数据集；再构建5层的自编码器结构的哈希函数模型，并利用训练数据集对哈希函数模型进行训练；后将待哈希的文本数据输入到步骤3所训练好的哈希函数模型中，得到待哈希的文本数据的哈希值。本发明使用机器学习方法，构建学习型哈希函数模型来实现文本型数据的哈希，与传统哈希方法相比，有较低的哈希冲突率，与此同时，在哈希的运算时间上有较大改进，提高了文本哈希的效率，能够适应于大规模文本数据的哈希处理。

Description

基于自编码器的学习型文本哈希方法

技术领域

本发明涉及计算机信息处理技术领域，具体涉及一种基于自编码器的学习型文本哈希方法。

背景技术

哈希(Hash，或译为散列)是信息存储和查询所用的一项基本技术，是把任意长度的输入数据通过散列算法，经过压缩映射变换成固定长度的输出散列值，该输出散列值也被称为消息摘要。哈希算法在诸多领域有着广泛的应用，如数据库索引、区块链、信息检索等。Hash函数是指把一个大范围映射到一个小范围，其目的往往是为了节省空间，使得数据容易保存。Hash函数应用的主要对象是数组(比如，字符串)，而其目标一般是一个整数类型。一般的说，Hash函数可以划分为如下几类：数学运算Hash、位运算Hash、查表Hash、混合Hash。常用的数学运算Hash主要有通过加法操作(+)和乘法操作(*)两种方式，加法Hash通过累加输入元素得到最后的结果，乘法Hash利用了乘法的不相关性得到最后结果。常用的位运算Hash通过移位(<<，>>，<<<，>>>)、异或(^)、与(&)、或(|)、非(！)等位操作来达到充分混合输入元素的目的，位运算Hash的特点是首先会进行移位操作，然后再进行其他操作。常用的查表Hash有CRC算法。常用的混合Hash是利用多种通用哈希算法的组合。但是上面这些哈希函数往往都是串行执行，而且无法并行化，另外上述方法无法从数据分布中获得数据特征，因此哈希碰撞的几率较高，哈希运算时间上往往较长。

发明内容

本发明所要解决的是传统哈希函数存在冲突率高以及哈希时间长的问题，提供一种基于自编码器的学习型文本哈希方法。

为解决上述问题，本发明是通过以下技术方案实现的：

基于自编码器的学习型文本哈希方法，包括步骤如下：

步骤1、利用真实采集的文本数据和/或程序生成的文本数据构建训练数据集；

步骤2、构建哈希函数模型：该哈希函数模型为包括输入层、编码隐藏层、中间表示层、解码隐藏层和输出层的5层自编码器结构，其目标函数O为：

式中，N表示训练数据集中文本数据的条数，x_i为训练数据集的第i条文本数据，x_j为训练数据集的第j条文本数据，w_e表示编码隐藏层的参数矩阵，w_d表示解码隐藏层的参数矩阵，min表示最小化函数，ReLU表示线性整流函数，tanh表示双曲正切函数，log表示对数函数，T表示矩阵的转置；

步骤3、利用步骤1的训练数据集对步骤2的哈希函数模型进行训练，在训练的过程中，利用梯度下降法去优化哈希函数模型的目标函数O，以训练哈希函数模型的模型参数即编码隐藏层的参数矩阵w_e和解码隐藏层的参数矩阵w_d，得到训练好的哈希函数模型；

步骤4、将待哈希的文本数据即哈希前的文本数据输入到步骤3所训练好的哈希函数模型中，得到待哈希的文本数据的哈希值即哈希后的文本数据。

上述步骤2中，哈希函数模型的输入层、编码隐藏层、解码隐藏层和输出层的激活函数为线性整流函数ReLU，中间表示层的激活函数为双曲正切函数tanh。

上述步骤4中，哈希函数模型的输入与输出关系为：

式中，x为哈希函数模型的输入即哈希前的文本数据，y为哈希函数模型的输出即哈希后的文本数据，w_e表示编码隐藏层的参数矩阵，T表示矩阵的转置，ReLU表示线性整流函数，sign为符号函数，tanh为双曲正切函数。

与现有技术相比，本发明使用机器学习方法，构建学习型哈希函数模型来实现文本型数据的哈希，与传统哈希方法相比，有较低的哈希冲突率，与此同时，在哈希的运算时间上有较大改进，提高了文本哈希的效率，能够适应于大规模文本数据的哈希处理。

附图说明

图1为哈希函数模型的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实例，对本发明进一步详细说明。

基于自编码器的学习型文本哈希方法，其具体包括步骤如下：

步骤1、利用真实采集的文本数据和/或程序生成的文本数据构建训练数据集。

程序生成的文本数据的流程为：首先需要获得待生成文本的字符数L，以及记录的数量N，指定文件保存的文件的路径，例如需要生成的训练集共1000条短文本，每条短文本的字符数固定为128个，保存路径为train.txt，则L为128，N为1000。获得上述的参数后，准备一个文本集合，通过循环方式逐条生成N条文本数据，当完成生成N条数据后，跳出循环，保存文本集合中的文本数据到指定路径。

步骤2、构建哈希函数模型，如图1所示。

自编码器(AutoEncoder，AE)是一类在半监督学习和非监督学习中使用的人工神经网络(Artificial Neural Networks，ANNs)，其功能是通过将输入信息作为学习目标，对输入信息进行表征学习(representation learning)。自编码器包含编码器(encoder)和解码器(decoder)两部分。自编码器可以将输入信息压缩为更低维度的表示，并保留原始信息中的重要特征，这一特性使得自编码器天然适用于数据的降维。

本发明的哈希函数模型使用了5层的自编码器模型，即输入层、编码隐藏层、中间表示层、解码隐藏层和输出层。之所以使用浅层的神经网络是考虑到复杂网络的时间消耗较简单网络更高，因此为了快速实现哈希值的计算不适合采用过于复杂的神经网络。

本发明的哈希函数模型的参数设置表1所示：

表1哈希函数模型的参数设置

本发明的哈希函数模型中间表示层与其他的网络层不同，中间表示层采用的激活函数为双曲正切函数tanh，这是因为tanh函数相比于Sigmoid函数在0附近的导数更大，使输出结果逼近-1或1，因此，能更好地模拟哈希值每一位的。如图1模型中所示，得到中间表示层的输出并非最终的哈希值，还需要将中间表示层的输出进行离散化处理，即输出结果映射为0/1，映射方法如公式(1)所示。

给定一个数据集合

目标是学习哈希函数h，其中N表示数据集合X的大小，D表示数据维度的大小，M表示二进制哈希值h(x_i)的长度，模型的输入为X，输出为h(x_i)。

数据x_i对应的哈希值h(x_i)可以使用编码器作用于符号函数sign和ReLU激活函数来得到：

h(x_i)＝ReLU(sign(e(x_i))) (1)

损失函数loss分为两个部分：

loss＝loss_r(X,d(X))+loss_h(X,e(X)) (5)

目标函数O的目的是使平均的损失最小，公式(9)为模型的目标函数：

O＝min(loss) (9)

式中，loss_r(X,d(X))表示模型的重构损失，即输入与解码之后的交叉熵；loss_h(X,e(X))表示散列误差。N表示训练数据集中文本数据的条数，x_i为训练数据集的第i条文本数据，x_j为训练数据集的第j条文本数据，w_e表示编码隐藏层的参数矩阵，w_d表示解码隐藏层的参数矩阵，min表示最小化函数，ReLU表示线性整流函数，tanh表示双曲正切函数，log表示对数函数，T表示矩阵的转置。

由于原始的自编码器无法提供低冲突率的保证，因此本发明在损失函数中引入散列误差loss_n(X,e(X))。loss_h(X,e(X))可以衡量出中间隐含层二进制哈希码之间的相似程度，本发明的目标是尽可能使得不同输入数据产生的哈希码相似程度尽可能低，相似程度越低哈希值产生冲突的概率也就越低。由于公式(1)中的二进制哈希值h(x_i)的计算使用了符号函数sign，这个函数为离散函数，如果使用直接使用二进制哈希值h(x_i)来计算损失函数会导致损失函数不可导，从而无法进行梯度下降算法来对目标函数进行优化。我们的解决方法是放弃离散约束，在损失函数loss中使用e(x_i)来代替h(x_i)从而可以使用梯度下降算法来对目标函数进行优化。

步骤3、利用步骤1的训练数据集对步骤2的哈希函数模型进行训练，在训练的过程中，利用梯度下降法去优化模型的目标函数，以训练哈希函数模型的模型参数即编码隐藏层的参数矩阵w_e和解码隐藏层的参数矩阵w_d，得到训练好的哈希函数模型。

步骤4、将待哈希的文本数据(哈希前的文本数据)输入到步骤3所训练好的哈希函数模型中，得到待哈希的文本数据的哈希值(哈希后的文本数据)，其中哈希函数模型的输入与输出关系为：

下面结合实验检验本方法的有效性，选取多组数据集对其进行测试，本发明方法测试的硬件平台为Intel(R)Core(TM)i5-9400F CPU@2.90GHz，64G内存。基于开源机器学习平台TensorFlow2.0开发，开发语言为Python3.6。

在所有的实验中，中间隐含层HiddenM神经单元数为32，即(1)式中M＝32，输入层Input神经单元数为128，Hidden1层神经单元数为64，隐含层HiddenN的神经单元数为64，输出层的神经单元数为128。模型采用梯度下降Adam算法来进行优化，模型参数使用随机初始化。

本发明在一个合成数据集以及两个真实数据集上评估了模型。合成数据集的生成方法是生成长度固定的随机字符串。真实数据集包括亚马逊食品评论数据集以及新闻标题数据集。每个数据集的数据量如表2所示。

表2实验测试数据集

数据集	数量(1M代表100万条数据)	数据类型
			Ran1	1M	合成数据集
Ran2	2M	合成数据集
			Text of the headline	3.08M	真实数据集
Ran5	5M	合成数据集
			Ran10	10M	合成数据集

Ran1、Ran2、Ran5、Ran10数据集是合成数据集，此数据集分别包含1M、2M、5M、10M条合成字符串，每个字符串的长度都为128，包含大小写字母、数字以及空格。Text of theheadline数据集是新闻网站The Examiner在2010年到2015年的新闻标题数据，共计3.08M条数据记录。

本发明与RSHash哈希方法做了冲突率与哈希处理时间上的比较。为了公平起见，两种哈希方法都使用相同的测试数据。并且所有哈希方法生成的二进制代码长度都为一个相同的固定值，在本发明的实验中这个固定值都设置为64，最多可以表示2⁶⁴个不同的整数。

在冲突率方面，表3提供了在5个数据集上冲突数量的实验结果，数据集的规模从1M到10M，实验结果表明，相比于传统的通用型哈希函数，本发明所提出的哈希方法能够可以提供更低的哈希冲突。而且本发明的方法是基于无监督的学习方法，无需人工标注，可以直接获取训练数据。

传统的通用型哈希函数虽然设计简单，但是随着数据规模扩大冲突率往往呈现指数增长的趋势。

表3冲突率结果

在哈希计算时间方面，传统通用哈希函数由于在计算时依赖前置的计算的结果，所以很难实现并行计算，而本发明构建的模型计算哈希值本质上是在进行矩阵的乘法运算，可以很方便的实现并行，得益于现代新硬件，如多核处理器、GUP、FPGA，的快速发展，本发明的哈希方法可以实现高度并行的计算，快速的获得哈希值。

通过表4的实验结果可以看出，本发明构建的模型在计算速度上比RSHash要快多个数量级。除此之外，本发明哈希方法的低冲突率也减少了处理冲突数据时的耗时。

表4哈希计算时间结果

	Ran1	Ran2
			RSHash	23395.22s	44295.00s
本发明	2.87s	6.39s

综上，本发明针对传统哈希函数冲突率高，处理效率低的问题，建立了基于自编码器的学习型文本哈希方法，该方法能从合成数据集中学习数据特征，并利用自编码器进行重建从而对原始数据进行压缩获得二进制哈希编码，在合成数据集以及真实数据集上的大量的实验证明本发明在降低冲突率以及减少哈希时间上的优势。解决了大规模文本哈希冲突率高、哈希处理时间效率低的问题，而且本发明的方法具有很好的鲁棒性，对训练数据集不敏感，方便迁移到其他数据集上。

需要说明的是，尽管以上本发明所述的实施例是说明性的，但这并非是对本发明的限制，因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下，凡是本领域技术人员在本发明的启示下获得的其它实施方式，均视为在本发明的保护之内。

Claims

1.基于自编码器的学习型文本哈希方法，其特征是，包括步骤如下：

2.根据权利要求1所述的基于自编码器的学习型文本哈希方法，其特征是，步骤2中，哈希函数模型的输入层、编码隐藏层、解码隐藏层和输出层的激活函数为线性整流函数ReLU，中间表示层的激活函数为双曲正切函数tanh。

3.根据权利要求1所述的基于自编码器的学习型文本哈希方法，其特征是，步骤4中，哈希函数模型的输入与输出关系为：

式中，x为哈希前的文本数据，y为哈希后的文本数据，w_e表示编码隐藏层的参数矩阵，T表示矩阵的转置，ReLU表示线性整流函数，sign为符号函数，tanh为双曲正切函数。