CN113449849B - 基于自编码器的学习型文本哈希方法 - Google Patents

基于自编码器的学习型文本哈希方法 Download PDF

Info

Publication number
CN113449849B
CN113449849B CN202110724953.2A CN202110724953A CN113449849B CN 113449849 B CN113449849 B CN 113449849B CN 202110724953 A CN202110724953 A CN 202110724953A CN 113449849 B CN113449849 B CN 113449849B
Authority
CN
China
Prior art keywords
hash
function
text data
text
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110724953.2A
Other languages
English (en)
Other versions
CN113449849A (zh
Inventor
林煜明
黄正果
李优
周娅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202110724953.2A priority Critical patent/CN113449849B/zh
Publication of CN113449849A publication Critical patent/CN113449849A/zh
Application granted granted Critical
Publication of CN113449849B publication Critical patent/CN113449849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开一种基于自编码器的学习型文本哈希方法,先利用真实采集的文本数据和/或程序生成的文本数据构建训练数据集;再构建5层的自编码器结构的哈希函数模型,并利用训练数据集对哈希函数模型进行训练;后将待哈希的文本数据输入到步骤3所训练好的哈希函数模型中,得到待哈希的文本数据的哈希值。本发明使用机器学习方法,构建学习型哈希函数模型来实现文本型数据的哈希,与传统哈希方法相比,有较低的哈希冲突率,与此同时,在哈希的运算时间上有较大改进,提高了文本哈希的效率,能够适应于大规模文本数据的哈希处理。

Description

基于自编码器的学习型文本哈希方法
技术领域
本发明涉及计算机信息处理技术领域,具体涉及一种基于自编码器的学习型文本哈希方法。
背景技术
哈希(Hash,或译为散列)是信息存储和查询所用的一项基本技术,是把任意长度的输入数据通过散列算法,经过压缩映射变换成固定长度的输出散列值,该输出散列值也被称为消息摘要。哈希算法在诸多领域有着广泛的应用,如数据库索引、区块链、信息检索等。Hash函数是指把一个大范围映射到一个小范围,其目的往往是为了节省空间,使得数据容易保存。Hash函数应用的主要对象是数组(比如,字符串),而其目标一般是一个整数类型。一般的说,Hash函数可以划分为如下几类:数学运算Hash、位运算Hash、查表Hash、混合Hash。常用的数学运算Hash主要有通过加法操作(+)和乘法操作(*)两种方式,加法Hash通过累加输入元素得到最后的结果,乘法Hash利用了乘法的不相关性得到最后结果。常用的位运算Hash通过移位(<<,>>,<<<,>>>)、异或(^)、与(&)、或(|)、非(!)等位操作来达到充分混合输入元素的目的,位运算Hash的特点是首先会进行移位操作,然后再进行其他操作。常用的查表Hash有CRC算法。常用的混合Hash是利用多种通用哈希算法的组合。但是上面这些哈希函数往往都是串行执行,而且无法并行化,另外上述方法无法从数据分布中获得数据特征,因此哈希碰撞的几率较高,哈希运算时间上往往较长。
发明内容
本发明所要解决的是传统哈希函数存在冲突率高以及哈希时间长的问题,提供一种基于自编码器的学习型文本哈希方法。
为解决上述问题,本发明是通过以下技术方案实现的:
基于自编码器的学习型文本哈希方法,包括步骤如下:
步骤1、利用真实采集的文本数据和/或程序生成的文本数据构建训练数据集;
步骤2、构建哈希函数模型:该哈希函数模型为包括输入层、编码隐藏层、中间表示层、解码隐藏层和输出层的5层自编码器结构,其目标函数O为:
Figure BDA0003138218750000021
式中,N表示训练数据集中文本数据的条数,xi为训练数据集的第i条文本数据,xj为训练数据集的第j条文本数据,we表示编码隐藏层的参数矩阵,wd表示解码隐藏层的参数矩阵,min表示最小化函数,ReLU表示线性整流函数,tanh表示双曲正切函数,log表示对数函数,T表示矩阵的转置;
步骤3、利用步骤1的训练数据集对步骤2的哈希函数模型进行训练,在训练的过程中,利用梯度下降法去优化哈希函数模型的目标函数O,以训练哈希函数模型的模型参数即编码隐藏层的参数矩阵we和解码隐藏层的参数矩阵wd,得到训练好的哈希函数模型;
步骤4、将待哈希的文本数据即哈希前的文本数据输入到步骤3所训练好的哈希函数模型中,得到待哈希的文本数据的哈希值即哈希后的文本数据。
上述步骤2中,哈希函数模型的输入层、编码隐藏层、解码隐藏层和输出层的激活函数为线性整流函数ReLU,中间表示层的激活函数为双曲正切函数tanh。
上述步骤4中,哈希函数模型的输入与输出关系为:
Figure BDA0003138218750000022
式中,x为哈希函数模型的输入即哈希前的文本数据,y为哈希函数模型的输出即哈希后的文本数据,we表示编码隐藏层的参数矩阵,T表示矩阵的转置,ReLU表示线性整流函数,sign为符号函数,tanh为双曲正切函数。
与现有技术相比,本发明使用机器学习方法,构建学习型哈希函数模型来实现文本型数据的哈希,与传统哈希方法相比,有较低的哈希冲突率,与此同时,在哈希的运算时间上有较大改进,提高了文本哈希的效率,能够适应于大规模文本数据的哈希处理。
附图说明
图1为哈希函数模型的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,对本发明进一步详细说明。
基于自编码器的学习型文本哈希方法,其具体包括步骤如下:
步骤1、利用真实采集的文本数据和/或程序生成的文本数据构建训练数据集。
程序生成的文本数据的流程为:首先需要获得待生成文本的字符数L,以及记录的数量N,指定文件保存的文件的路径,例如需要生成的训练集共1000条短文本,每条短文本的字符数固定为128个,保存路径为train.txt,则L为128,N为1000。获得上述的参数后,准备一个文本集合,通过循环方式逐条生成N条文本数据,当完成生成N条数据后,跳出循环,保存文本集合中的文本数据到指定路径。
步骤2、构建哈希函数模型,如图1所示。
自编码器(AutoEncoder,AE)是一类在半监督学习和非监督学习中使用的人工神经网络(Artificial Neural Networks,ANNs),其功能是通过将输入信息作为学习目标,对输入信息进行表征学习(representation learning)。自编码器包含编码器(encoder)和解码器(decoder)两部分。自编码器可以将输入信息压缩为更低维度的表示,并保留原始信息中的重要特征,这一特性使得自编码器天然适用于数据的降维。
本发明的哈希函数模型使用了5层的自编码器模型,即输入层、编码隐藏层、中间表示层、解码隐藏层和输出层。之所以使用浅层的神经网络是考虑到复杂网络的时间消耗较简单网络更高,因此为了快速实现哈希值的计算不适合采用过于复杂的神经网络。
本发明的哈希函数模型的参数设置表1所示:
表1哈希函数模型的参数设置
Figure BDA0003138218750000031
本发明的哈希函数模型中间表示层与其他的网络层不同,中间表示层采用的激活函数为双曲正切函数tanh,这是因为tanh函数相比于Sigmoid函数在0附近的导数更大,使输出结果逼近-1或1,因此,能更好地模拟哈希值每一位的。如图1模型中所示,得到中间表示层的输出并非最终的哈希值,还需要将中间表示层的输出进行离散化处理,即输出结果映射为0/1,映射方法如公式(1)所示。
给定一个数据集合
Figure BDA0003138218750000032
目标是学习哈希函数h,其中N表示数据集合X的大小,D表示数据维度的大小,M表示二进制哈希值h(xi)的长度,模型的输入为X,输出为h(xi)。
数据xi对应的哈希值h(xi)可以使用编码器作用于符号函数sign和ReLU激活函数来得到:
h(xi)=ReLU(sign(e(xi))) (1)
Figure BDA0003138218750000041
Figure BDA0003138218750000042
Figure BDA0003138218750000043
损失函数loss分为两个部分:
loss=lossr(X,d(X))+lossh(X,e(X)) (5)
Figure BDA0003138218750000044
Figure BDA0003138218750000045
Figure BDA0003138218750000046
目标函数O的目的是使平均的损失最小,公式(9)为模型的目标函数:
O=min(loss) (9)
式中,lossr(X,d(X))表示模型的重构损失,即输入与解码之后的交叉熵;lossh(X,e(X))表示散列误差。N表示训练数据集中文本数据的条数,xi为训练数据集的第i条文本数据,xj为训练数据集的第j条文本数据,we表示编码隐藏层的参数矩阵,wd表示解码隐藏层的参数矩阵,min表示最小化函数,ReLU表示线性整流函数,tanh表示双曲正切函数,log表示对数函数,T表示矩阵的转置。
由于原始的自编码器无法提供低冲突率的保证,因此本发明在损失函数中引入散列误差lossn(X,e(X))。lossh(X,e(X))可以衡量出中间隐含层二进制哈希码之间的相似程度,本发明的目标是尽可能使得不同输入数据产生的哈希码相似程度尽可能低,相似程度越低哈希值产生冲突的概率也就越低。由于公式(1)中的二进制哈希值h(xi)的计算使用了符号函数sign,这个函数为离散函数,如果使用直接使用二进制哈希值h(xi)来计算损失函数会导致损失函数不可导,从而无法进行梯度下降算法来对目标函数进行优化。我们的解决方法是放弃离散约束,在损失函数loss中使用e(xi)来代替h(xi)从而可以使用梯度下降算法来对目标函数进行优化。
步骤3、利用步骤1的训练数据集对步骤2的哈希函数模型进行训练,在训练的过程中,利用梯度下降法去优化模型的目标函数,以训练哈希函数模型的模型参数即编码隐藏层的参数矩阵we和解码隐藏层的参数矩阵wd,得到训练好的哈希函数模型。
步骤4、将待哈希的文本数据(哈希前的文本数据)输入到步骤3所训练好的哈希函数模型中,得到待哈希的文本数据的哈希值(哈希后的文本数据),其中哈希函数模型的输入与输出关系为:
Figure BDA0003138218750000047
式中,x为哈希函数模型的输入即哈希前的文本数据,y为哈希函数模型的输出即哈希后的文本数据,we表示编码隐藏层的参数矩阵,T表示矩阵的转置,ReLU表示线性整流函数,sign为符号函数,tanh为双曲正切函数。
下面结合实验检验本方法的有效性,选取多组数据集对其进行测试,本发明方法测试的硬件平台为Intel(R)Core(TM)i5-9400F CPU@2.90GHz,64G内存。基于开源机器学习平台TensorFlow2.0开发,开发语言为Python3.6。
在所有的实验中,中间隐含层HiddenM神经单元数为32,即(1)式中M=32,输入层Input神经单元数为128,Hidden1层神经单元数为64,隐含层HiddenN的神经单元数为64,输出层的神经单元数为128。模型采用梯度下降Adam算法来进行优化,模型参数使用随机初始化。
本发明在一个合成数据集以及两个真实数据集上评估了模型。合成数据集的生成方法是生成长度固定的随机字符串。真实数据集包括亚马逊食品评论数据集以及新闻标题数据集。每个数据集的数据量如表2所示。
表2实验测试数据集
数据集 数量(1M代表100万条数据) 数据类型
Ran1 1M 合成数据集
Ran2 2M 合成数据集
Text of the headline 3.08M 真实数据集
Ran5 5M 合成数据集
Ran10 10M 合成数据集
Ran1、Ran2、Ran5、Ran10数据集是合成数据集,此数据集分别包含1M、2M、5M、10M条合成字符串,每个字符串的长度都为128,包含大小写字母、数字以及空格。Text of theheadline数据集是新闻网站The Examiner在2010年到2015年的新闻标题数据,共计3.08M条数据记录。
本发明与RSHash哈希方法做了冲突率与哈希处理时间上的比较。为了公平起见,两种哈希方法都使用相同的测试数据。并且所有哈希方法生成的二进制代码长度都为一个相同的固定值,在本发明的实验中这个固定值都设置为64,最多可以表示264个不同的整数。
在冲突率方面,表3提供了在5个数据集上冲突数量的实验结果,数据集的规模从1M到10M,实验结果表明,相比于传统的通用型哈希函数,本发明所提出的哈希方法能够可以提供更低的哈希冲突。而且本发明的方法是基于无监督的学习方法,无需人工标注,可以直接获取训练数据。
传统的通用型哈希函数虽然设计简单,但是随着数据规模扩大冲突率往往呈现指数增长的趋势。
表3冲突率结果
Figure BDA0003138218750000051
Figure BDA0003138218750000061
在哈希计算时间方面,传统通用哈希函数由于在计算时依赖前置的计算的结果,所以很难实现并行计算,而本发明构建的模型计算哈希值本质上是在进行矩阵的乘法运算,可以很方便的实现并行,得益于现代新硬件,如多核处理器、GUP、FPGA,的快速发展,本发明的哈希方法可以实现高度并行的计算,快速的获得哈希值。
通过表4的实验结果可以看出,本发明构建的模型在计算速度上比RSHash要快多个数量级。除此之外,本发明哈希方法的低冲突率也减少了处理冲突数据时的耗时。
表4哈希计算时间结果
Ran1 Ran2
RSHash 23395.22s 44295.00s
本发明 2.87s 6.39s
综上,本发明针对传统哈希函数冲突率高,处理效率低的问题,建立了基于自编码器的学习型文本哈希方法,该方法能从合成数据集中学习数据特征,并利用自编码器进行重建从而对原始数据进行压缩获得二进制哈希编码,在合成数据集以及真实数据集上的大量的实验证明本发明在降低冲突率以及减少哈希时间上的优势。解决了大规模文本哈希冲突率高、哈希处理时间效率低的问题,而且本发明的方法具有很好的鲁棒性,对训练数据集不敏感,方便迁移到其他数据集上。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。

Claims (3)

1.基于自编码器的学习型文本哈希方法,其特征是,包括步骤如下:
步骤1、利用真实采集的文本数据和/或程序生成的文本数据构建训练数据集;
步骤2、构建哈希函数模型:该哈希函数模型为包括输入层、编码隐藏层、中间表示层、解码隐藏层和输出层的5层自编码器结构,其目标函数O为:
Figure FDA0003138218740000011
式中,N表示训练数据集中文本数据的条数,xi为训练数据集的第i条文本数据,xj为训练数据集的第j条文本数据,we表示编码隐藏层的参数矩阵,wd表示解码隐藏层的参数矩阵,min表示最小化函数,ReLU表示线性整流函数,tanh表示双曲正切函数,log表示对数函数,T表示矩阵的转置;
步骤3、利用步骤1的训练数据集对步骤2的哈希函数模型进行训练,在训练的过程中,利用梯度下降法去优化哈希函数模型的目标函数O,以训练哈希函数模型的模型参数即编码隐藏层的参数矩阵we和解码隐藏层的参数矩阵wd,得到训练好的哈希函数模型;
步骤4、将待哈希的文本数据即哈希前的文本数据输入到步骤3所训练好的哈希函数模型中,得到待哈希的文本数据的哈希值即哈希后的文本数据。
2.根据权利要求1所述的基于自编码器的学习型文本哈希方法,其特征是,步骤2中,哈希函数模型的输入层、编码隐藏层、解码隐藏层和输出层的激活函数为线性整流函数ReLU,中间表示层的激活函数为双曲正切函数tanh。
3.根据权利要求1所述的基于自编码器的学习型文本哈希方法,其特征是,步骤4中,哈希函数模型的输入与输出关系为:
Figure FDA0003138218740000012
式中,x为哈希前的文本数据,y为哈希后的文本数据,we表示编码隐藏层的参数矩阵,T表示矩阵的转置,ReLU表示线性整流函数,sign为符号函数,tanh为双曲正切函数。
CN202110724953.2A 2021-06-29 2021-06-29 基于自编码器的学习型文本哈希方法 Active CN113449849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110724953.2A CN113449849B (zh) 2021-06-29 2021-06-29 基于自编码器的学习型文本哈希方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110724953.2A CN113449849B (zh) 2021-06-29 2021-06-29 基于自编码器的学习型文本哈希方法

Publications (2)

Publication Number Publication Date
CN113449849A CN113449849A (zh) 2021-09-28
CN113449849B true CN113449849B (zh) 2022-05-27

Family

ID=77813949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110724953.2A Active CN113449849B (zh) 2021-06-29 2021-06-29 基于自编码器的学习型文本哈希方法

Country Status (1)

Country Link
CN (1) CN113449849B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114666011B (zh) * 2022-03-23 2024-04-16 锐捷网络股份有限公司 一种数据处理方法、装置及电子设备
CN115495546B (zh) * 2022-11-21 2023-04-07 中国科学技术大学 相似文本检索方法、系统、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649715A (zh) * 2016-12-21 2017-05-10 中国人民解放军国防科学技术大学 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
CN109325140A (zh) * 2018-07-12 2019-02-12 北京奇虎科技有限公司 从图像中提取哈希码的方法、装置及图像检索方法、装置
CN109960737A (zh) * 2019-03-15 2019-07-02 西安电子科技大学 半监督深度对抗自编码哈希学习的遥感影像内容检索方法
CN111078911A (zh) * 2019-12-13 2020-04-28 宁波大学 一种基于自编码器的无监督哈希方法
CN111914950A (zh) * 2020-08-20 2020-11-10 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于深度对偶变分哈希的无监督跨模态检索模型训练方法
CN112163106A (zh) * 2020-09-30 2021-01-01 华中科技大学 二阶相似感知的图像哈希码提取模型建立方法及其应用
CN112199607A (zh) * 2020-10-30 2021-01-08 天津大学 基于可变邻域内平行社交上下文融合的微博主题挖掘方法
CN112528065A (zh) * 2020-12-17 2021-03-19 重庆邮电大学 一种流形相似度保持自编码器的医学超声图像检索方法
CN112734000A (zh) * 2020-11-11 2021-04-30 江西理工大学 一种入侵检测方法、系统、设备及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10872087B2 (en) * 2017-10-13 2020-12-22 Google Llc Systems and methods for stochastic generative hashing

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649715A (zh) * 2016-12-21 2017-05-10 中国人民解放军国防科学技术大学 一种基于局部敏感哈希算法和神经网络的跨媒体检索方法
CN109325140A (zh) * 2018-07-12 2019-02-12 北京奇虎科技有限公司 从图像中提取哈希码的方法、装置及图像检索方法、装置
CN109299216A (zh) * 2018-10-29 2019-02-01 山东师范大学 一种融合监督信息的跨模态哈希检索方法和系统
CN109960737A (zh) * 2019-03-15 2019-07-02 西安电子科技大学 半监督深度对抗自编码哈希学习的遥感影像内容检索方法
CN111078911A (zh) * 2019-12-13 2020-04-28 宁波大学 一种基于自编码器的无监督哈希方法
CN111914950A (zh) * 2020-08-20 2020-11-10 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于深度对偶变分哈希的无监督跨模态检索模型训练方法
CN112163106A (zh) * 2020-09-30 2021-01-01 华中科技大学 二阶相似感知的图像哈希码提取模型建立方法及其应用
CN112199607A (zh) * 2020-10-30 2021-01-08 天津大学 基于可变邻域内平行社交上下文融合的微博主题挖掘方法
CN112734000A (zh) * 2020-11-11 2021-04-30 江西理工大学 一种入侵检测方法、系统、设备及可读存储介质
CN112528065A (zh) * 2020-12-17 2021-03-19 重庆邮电大学 一种流形相似度保持自编码器的医学超声图像检索方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Francisco Mena等.Interpretable and Effective Hashing via Bernoulli Variational Auto-Encoders.《Intelligent Data Analysis》.2020,第24卷 *
Jingkun Qin等.Image Retrieval Based on a Hybrid Model of Deep Convolutional Encoder.《2018 the International Conference of Intelligent Robotic and Control Engineering》.2018, *
YananLiu等.Multimodal video classification with stacked contractive autoencoders.《Signal Processing》.2015, *
代亚兰等.基于稀疏自编码的无监督图像哈希算法.《计算机工程》.2019,第45卷(第5期), *
张忠林等.基于自编码器语义哈希的大规模文本预处理.《计算机仿真》.2019,第36卷(第3期), *
欧新宇等.基于深度自学习的图像哈希检索方法.《计算机工程与科学》.2015,第37卷(第12期), *
陈彦至.神经网络降维算法研究与应用.《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》.2015,(第12期), *

Also Published As

Publication number Publication date
CN113449849A (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN112567355B (zh) 用于知识库补全的端到端的结构感知卷积网络
CN108334574B (zh) 一种基于协同矩阵分解的跨模态检索方法
CN113449849B (zh) 基于自编码器的学习型文本哈希方法
CN110196980B (zh) 一种基于卷积网络在中文分词任务上的领域迁移
Gueniche et al. Cpt+: Decreasing the time/space complexity of the compact prediction tree
CN113535984A (zh) 一种基于注意力机制的知识图谱关系预测方法及装置
CN108920720A (zh) 基于深度哈希和gpu加速的大规模图像检索方法
CN112732864B (zh) 一种基于稠密伪查询向量表示的文档检索方法
CN109389151A (zh) 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN106033426A (zh) 一种基于潜在语义最小哈希的图像检索方法
CN109710921B (zh) 词语相似度的计算方法、装置、计算机设备及存储介质
CN104199923A (zh) 基于最优k均值哈希算法的大规模图像库检索方法
CN113177141A (zh) 基于语义嵌入软相似性的多标签视频哈希检索方法及设备
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
CN111782804A (zh) 基于TextCNN同分布文本数据选择方法、系统及存储介质
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
CN111507108B (zh) 别名生成方法、装置、电子设备及计算机可读存储介质
CN112199533B (zh) 一种基于节点表征的无监督深度哈希模型训练方法及图像检索方法
Ehlers et al. k-Abelian pattern matching
CN110659375A (zh) 哈希模型训练方法、相似对象检索方法及装置
CN107944045B (zh) 基于t分布哈希的图像检索方法及系统
Wang et al. Regularizing model complexity and label structure for multi-label text classification
He et al. Semisupervised network embedding with differentiable deep quantization
CN115905546A (zh) 基于阻变存储器的图卷积网络文献识别装置与方法
CN115424663A (zh) 一种基于attention的双向表示模型的RNA修饰位点预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210928

Assignee: Guilin Zhongchen Information Technology Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2022450000215

Denomination of invention: Learning Text Hash Method Based on Self Encoder

Granted publication date: 20220527

License type: Common License

Record date: 20221206