CN108280180B - 一种基于主题模型的半监督哈希算法的检索方法 - Google Patents

一种基于主题模型的半监督哈希算法的检索方法 Download PDF

Info

Publication number
CN108280180B
CN108280180B CN201810063076.7A CN201810063076A CN108280180B CN 108280180 B CN108280180 B CN 108280180B CN 201810063076 A CN201810063076 A CN 201810063076A CN 108280180 B CN108280180 B CN 108280180B
Authority
CN
China
Prior art keywords
topic
data
hash
word
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810063076.7A
Other languages
English (en)
Other versions
CN108280180A (zh
Inventor
姜志国
张浩鹏
麻义兵
谢凤英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201810063076.7A priority Critical patent/CN108280180B/zh
Publication of CN108280180A publication Critical patent/CN108280180A/zh
Application granted granted Critical
Publication of CN108280180B publication Critical patent/CN108280180B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于主题模型的半监督哈希算法,使用主题模型将单词特征转化为主题特征,然后对主题特征进行半监督训练,实现了半监督条件下准确、稳定并能涵盖所有数据,增强了模型对数据的泛化能力,使模型对数据分布有更准确的描述,从而获得更准确的哈希码;通过替换核化监督哈希的核方法,减少随机因素,使得模型更加稳定。

Description

一种基于主题模型的半监督哈希算法的检索方法
技术领域
本发明涉及机器学习领域,更具体的说是涉及一种基于主题模型的半监督哈希算法。
背景技术
在大规模数据集检索中,哈希算法是解决效率问题的有效途径。给定一组数据的特征向量
Figure BDA0001555892790000011
哈希算法的目标是找到一组合适的哈希函数hi:Rd→{1,-1},i=1,…,r,其中r为编码位数。每个哈希函数单独产生一位哈希码,将其中的-1改为0,这样每个特征被赋予一个r位的二进制哈希编码。在训练阶段,将数据库中的特征按照哈希码存储形成哈希表,同一个哈希码对应一个桶(bucket);在应用阶段,使用相同的哈希函数得到查询特征的哈希码,然后在该码对应桶中的候选区域范围内查找相似结果,其中暴力搜索计算所有相似度并排序的时间复杂度为O(n·log(n)),但是将连续的实数特征转化为二进制编码的过程会造成信息损失。
目前,关于半监督哈希的典型代表是核化监督哈希(kernel-based supervisedhashing,KSH)。KSH由两部分组成,即核方法与监督训练。核方法可以处理实际问题中近似线性可分的数据。监督训练通过优化算法使哈希码的相似性等效于数据标签的相似性,提升检索准确率。但是KSH仅仅使用数据集中有标签的数据,忽略了无标签数据的分布规律;KSH中核方法在其目标(特征线性可分性增强)中效果并不令人满意;KSH中核方法引入了随机因素,导致稳定性较差。
因此,如何提供一种不但能够保证检索的准确率,而且能够保证算法稳定性的基于主题模型的半监督哈希算法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于主题模型的半监督哈希算法,将KSH 中核方法替换为主题模型,对单词特征进行哈希编码;通过主题模型利用数据集中所有数据的单词特征,增强了模型对数据的泛化能力,使模型对数据分布有更准确的描述,从而获得更准确的哈希码;通过替换核方法,减少随机因素,使得模型更加稳定。
为了实现上述目的,本发明提供如下技术方案:
一种基于主题模型的半监督哈希算法,其特征在于,具体包括以下步骤:
S1:根据所有数据训练主题模型,由单词特征得到主题特征,并对所述主题模型进行求解;
S2:通过半监督训练将主题特征转化为哈希码;
S3:对未知数据进行哈希编码并检索。
本发明的技术效果:将KSH中核方法替换为主题模型,对单词特征进行哈希编码,其中主题模型为潜在狄利克雷分配(Latent Dirichilet Allocation, LDA);通过主题模型利用数据集中所有数据的单词特征,增强了模型对数据的泛化能力,使模型对数据分布有更准确的描述,从而获得更准确的哈希码;通过替换核方法,减少随机因素,使得模型更加稳定。
优选的,在上述一种基于主题模型的半监督哈希算法中,在S1中具体步骤包括:
S11:设主题z为隐含变量,表示为主题库中的一个索引,z∈{1,…,K},其中 K为主题总类数;
S12:定义超参数α和β;
S13::定义数据集W={w1,…,wM},wi=[wi,1,…,wi,Ni],其中wij∈{1,…,V},M为数据数,Ni为第i个数据中单词个数,V为单词总类数;
S14:通过主题模型求解每个数据的主题概率分布特征θm=[θm1,…,θmK] (m=1,…,M)以及主题-单词概率分布
Figure BDA0001555892790000031
其中,θmk表示第m个数据属于主题k的概率,
Figure BDA0001555892790000032
表示主题k中包含单词v的概率。
本发明的技术效果:通过主题模型利用数据集中所有数据的单词特征,增强了模型对数据的泛化能力,使模型对数据分布有更准确的描述。
优选的,在上述一种基于主题模型的半监督哈希算法中,对所述超参数进行优化,选择一组最优超参数。
本发明的技术效果:对超参数进行优化,选择一组最优超参数,以提高学习的性能和效果。
优选的,在上述一种基于主题模型的半监督哈希算法中,在S14中,求解所述主题模型采用吉布斯采样法具体包括:
S141:给每个特征的每个单词w随机分配一个主题z;
S142:然后每个单词的主题通过下式重新采样并更新;
Figure BDA0001555892790000033
Figure BDA0001555892790000034
其中
Figure BDA0001555892790000035
Figure BDA0001555892790000036
分别为θmk
Figure BDA0001555892790000037
的期望值,
Figure BDA0001555892790000038
表示忽略第i个单词的情况下第m 个数据中主题为k的单词数,
Figure BDA0001555892790000039
表示忽略第i个单词的情况下所有数据中主题k中单词为v的数量,
Figure BDA00015558927900000310
表示忽略第i个单词的情况下第i个单词属于主题k的概率;
S143:令i在(1,1)到(M,NM)之间循环变化,反复执行上述重采样与更新过程,直到收敛;
S144:通过统计得到主题-单词的共现矩阵[n(k,v)]K×V和数据-主题的共现矩阵[n(m,k)]M×K
S145:通过下式计算得到θmk
Figure BDA00015558927900000311
Figure BDA0001555892790000041
本发明的技术效果:通过主题模型利用数据集中所有数据的单词特征,增强了模型对数据的泛化能力,使模型对数据分布有更准确的描述。
优选的,在上述一种基于主题模型的半监督哈希算法中,在S2中具体步骤包括:
S21:设主题特征数据集为X={x(1),…,x(n)},其中
Figure BDA0001555892790000042
表示第i个训练样本的主题特征向量,定义哈希函数为哈希函数h(x)=sgn(f(x)),其中
Figure BDA0001555892790000043
其中,
Figure BDA0001555892790000044
表示任意数据的主题特征向量;
S22:从X中随机选择l个带标签的样本,其中l远远小于n,构建标签矩阵S;根据第i个样本与第j个样本标签是否相同对Sij与Sji赋予1或-1;
S23:不失一般性地假设带标签样本集为Xl={x(1),…,x(l)},定义
Figure BDA0001555892790000045
Figure BDA0001555892790000046
残差矩阵
Figure BDA0001555892790000047
其中
Figure BDA0001555892790000048
为a在第t次迭代后的最佳取值;
S24:定义函数σ(x)=2/(1+exp(-x))-1,使用梯度下降法优化以下目标函数
Figure BDA0001555892790000049
S25:最终解得a并根据S21得到所有数据的哈希码。
本发明的技术效果:为了保持检索精度,保证生成的每位编码都有均衡且互相独立的分布,以保证每位编码的最大信息以及所有位之间的最小冗余。
优选的,在上述一种基于主题模型的半监督哈希算法中,在S3中具体步骤包括:
S31:对于未知数据的单词特征wQ=[wQ,1,…,wQ,NQ],wQj∈{1,…,V},根据S1 和S2中训练的模型依次求其主题特征与哈希码;
S32:将
Figure BDA0001555892790000051
固定为
Figure BDA0001555892790000052
并使用S14过程求得未知数据的主题特征θQ,然后固定a 并利用S21转化为哈希码,将所有哈希码中的-1替换为0,进行哈希码的检索。
本发明的技术效果:针对未知数据采用同样的方法,实现模型对数据分布更准确的描述,从而获得更准确的哈希码,进一步减少随机因素,使得模型更加稳定。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于主题模型的半监督哈希算法,使用主题模型将单词特征转化为主题特征,然后对主题特征进行半监督训练,实现了半监督条件下准确、稳定并能涵盖所有数据,增强了模型对数据的泛化能力,使模型对数据分布有更准确的描述,从而获得更准确的哈希码;通过替换核方法,减少随机因素,使得模型更加稳定。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明的流程图;
图2附图为本发明吉布斯采样的流程图;
图3附图为本发明转化哈希码的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于主题模型的半监督哈希算法,使用主题模型将单词特征转化为主题特征,然后对主题特征进行半监督训练,实现了半监督条件下准确、稳定并能涵盖所有数据,增强了模型对数据的泛化能力,使模型对数据分布有更准确的描述,从而获得更准确的哈希码;通过替换核方法,减少随机因素,使得模型更加稳定。
实施例1
请参阅附图1-3为本发明提供了一种基于主题模型的半监督哈希算法,具体包括以下步骤:
S1:根据所有数据训练主题模型,由单词特征得到主题特征,并对所述主题模型进行求解;
S2:通过半监督训练将主题特征转化为哈希码;
S3:对未知数据进行哈希编码并检索。
为了优化上述技术方案,在S1中具体步骤包括:
S11:设主题z为隐含变量,表示为主题库中的一个索引,z∈{1,…,K},其中 K为主题总类数;
S12:定义超参数α和β;
S13:定义数据集W={w1,…,wM},wi=[wi,1,…,wi,Ni],其中wij∈{1,…,V},M为数据数,Ni为第i个数据中单词个数,V为单词总类数;
S14:通过主题模型求解每个数据的主题概率分布特征θm=[θm1,…,θmK]
(m=1,…,M)以及主题-单词概率分布
Figure BDA0001555892790000079
其中,θmk表示第m个数据属于主题k的概率,
Figure BDA00015558927900000710
表示主题k中包含单词v的概率。
为了优化上述技术方案,在S12中定义所述超参数,对超参数进行优化,选择一组最优超参数。
为了优化上述技术方案,在S14中,求解所述主题模型采用吉布斯采样法,且所述吉布斯采样法具体包括:
S141:给每个特征的每个单词w随机分配一个主题z;
S142:每个单词的主题z通过下式重新采样并更新;
Figure BDA0001555892790000071
Figure BDA0001555892790000072
其中
Figure BDA0001555892790000073
Figure BDA0001555892790000074
分别为θmk
Figure BDA00015558927900000711
的期望值,
Figure BDA0001555892790000075
表示忽略第i个单词的情况下第m 个数据中主题为k的单词数,
Figure BDA0001555892790000076
表示忽略第i个单词的情况下所有数据中主题k中单词为v的数量,
Figure BDA0001555892790000078
表示忽略第i个单词的情况下第i个单词属于主题k的概率;
S143:令i在(1,1)到(M,NM)之间循环变化,反复执行上述重采样与更新过程,直到收敛;
S144:通过统计得到主题-单词的共现矩阵[n(k,v)]K×V和数据-主题的共现矩阵[n(m,k)]M×K
S145:通过下式计算得到θmk
Figure BDA00015558927900000712
Figure BDA0001555892790000077
为了优化上述技术方案,在S2中具体步骤包括:
S21:设主题特征数据集为X={x(1),…,x(n)},其中
Figure BDA0001555892790000081
表示第i个训练样本的主题特征向量,定义哈希函数为哈希函数h(x)=sgn(f(x)),其中
Figure BDA0001555892790000082
其中,
Figure BDA0001555892790000083
表示任意数据的主题特征向量;
S22:从X中随机选择l个带标签的样本,其中l远远小于n,构建标签矩阵S;根据第i个样本与第j个样本标签是否相同对Sij与Sji赋予1或-1;
S23:不失一般性地假设带标签样本集为Xl={x(1),…,x(l)},定义
Figure BDA0001555892790000084
Figure BDA0001555892790000085
残差矩阵
Figure BDA0001555892790000086
其中
Figure BDA0001555892790000087
为a在第t次迭代后的最佳取值;
S24:定义函数σ(x)=2/(1+exp(-x))-1,使用梯度下降法优化以下目标函数
Figure BDA0001555892790000088
S25:最终解得a并根据S21得到所有数据的哈希码。
为了优化上述技术方案,在S3中具体步骤包括:
S31:对于未知数据的单词特征wQ=[wQ,1,…,wQ,NQ],wQj∈{1,…,V},根据S1 和S2中训练的模型依次求其主题特征与哈希码;
S32:将
Figure BDA0001555892790000089
固定为
Figure BDA00015558927900000810
并使用S14过程求得未知数据的主题特征θQ,然后固定a 并利用S21转化为哈希码,将所有哈希码中的-1替换为0,进行哈希码的检索。
实施例2
一种基于主题模型的半监督哈希算法,其中主题模型采用潜在语义分析,是用于知识获取和展示的计算理论和方法,它使用统计计算的方法对大量的文本集进行分析,从而提取出词与词之间潜在的语义结构,并用这种潜在的语义结构来表示词和文本,达到消除词之间的相关性和简化文本向量实现降维的目的。潜在语义分析的基本观点是:把高维的向量空间模型(VSM)表示中的文档映射到低维的潜在语义空间中。这个映射是通过对项/文档矩阵的奇异值分解(SVD)来实现的。
求解主题模型的方法采用期望最大化,首先初始化分布函数;估计未知参数的期望值,给出当前的参数估计;重新估计分布函数,以使得数据的似然性最大,给出未知变量的期望估计。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (4)

1.一种基于主题模型的半监督哈希算法的检索方法,其特征在于,具体包括以下步骤:
S1:根据所有数据训练主题模型,由单词特征得到主题特征,并对所述主题模型进行求解;
S2:通过半监督训练将主题特征转化为哈希码;
S3:对未知数据进行哈希编码并检索;
在S1中具体步骤包括:
S11:设主题z为隐含变量,表示为主题库中的一个索引,z∈{1,…,K},其中K为主题总类数;
S12:定义超参数α和β;
S13:定义数据集W={w1,…,wM},wi=[wi,1,…,wi,Ni],其中wij∈{1,…,V},M为数据数,Ni为第i个数据中单词个数,V为单词总类数;
S14:通过主题模型求解每个数据的主题概率分布特征θm=[θm1,…,θmK](m=1,…,M)以及主题-单词概率分布
Figure FDA0003543025680000011
其中,θmk表示第m个数据属于主题k的概率,
Figure FDA0003543025680000012
表示主题k中包含单词v的概率;
在S2中具体步骤包括:
S21:设主题特征数据集为X={x(1),…,x(n)},其中
Figure FDA0003543025680000013
表示第i个训练样本的主题特征向量,定义哈希函数为哈希函数h(x)=sgn(f(x)),其中
Figure FDA0003543025680000014
其中,
Figure FDA0003543025680000015
表示任意数据的主题特征向量;
S22:从X中随机选择l个带标签的样本,其中l远远小于n,构建标签矩阵S;
根据第i个样本与第j个样本标签是否相同对Sij与Sji赋予1或-1;
S23:不失一般性地假设带标签样本集为Xl={x(1),…,x(l)},定义
Figure FDA0003543025680000021
Figure FDA0003543025680000022
残差矩阵
Figure FDA0003543025680000023
其中
Figure FDA0003543025680000024
为a在第t次迭代后的最佳取值;
S24:定义函数σ(x)=2/(1+exp(-x))-1,使用梯度下降法优化以下目标函数
Figure FDA0003543025680000025
S25:最终解得a并根据S21得到所有数据的哈希码。
2.根据权利要求1所述的一种基于主题模型的半监督哈希算法的检索方法,其特征在于,在S12中定义所述超参数,对超参数进行优化,选择一组最优超参数。
3.根据权利要求1所述的一种基于主题模型的半监督哈希算法的检索方法,其特征在于,在S14中,求解所述主题模型采用吉布斯采样法,且所述吉布斯采样法具体包括:
S141:给每个特征的每个单词w随机分配一个主题z;
S142:每个单词的主题z通过下式重新采样并更新;
Figure FDA0003543025680000026
Figure FDA0003543025680000027
其中
Figure FDA0003543025680000028
Figure FDA0003543025680000029
分别为θmk
Figure FDA00035430256800000210
的期望值,
Figure FDA00035430256800000211
表示忽略第i个单词的情况下第m个数据中主题为k的单词数,
Figure FDA00035430256800000212
表示忽略第i个单词的情况下所有数据中主题k中单词为v的数量,
Figure FDA00035430256800000213
表示忽略第i个单词的情况下第i个单词属于主题k的概率;
S143:令i在(1,1)到(M,NM)之间循环变化,反复执行上述重采样与更新过程,直到收敛;
S144:通过统计得到主题-单词的共现矩阵[n(k,v)]K×V和数据-主题的共现矩阵[n(m,k)]M×K
S145:通过下式计算得到θmk
Figure FDA0003543025680000031
Figure FDA0003543025680000032
4.根据权利要求1所述的一种基于主题模型的半监督哈希算法的检索方法,其特征在于,在S3中具体步骤包括:
S31:对于未知数据的单词特征wQ=[wQ,1,…,wQ,NQ],wQj∈{1,…,V},根据S1和S2中训练的模型依次求其主题特征与哈希码;
S32:将
Figure FDA0003543025680000033
固定为
Figure FDA0003543025680000034
并使用S14过程求得未知数据的主题特征θQ,然后固定a并利用S21转化为哈希码,将所有哈希码中的-1替换为0,进行哈希码的检索。
CN201810063076.7A 2018-01-23 2018-01-23 一种基于主题模型的半监督哈希算法的检索方法 Expired - Fee Related CN108280180B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810063076.7A CN108280180B (zh) 2018-01-23 2018-01-23 一种基于主题模型的半监督哈希算法的检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810063076.7A CN108280180B (zh) 2018-01-23 2018-01-23 一种基于主题模型的半监督哈希算法的检索方法

Publications (2)

Publication Number Publication Date
CN108280180A CN108280180A (zh) 2018-07-13
CN108280180B true CN108280180B (zh) 2022-05-13

Family

ID=62804696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810063076.7A Expired - Fee Related CN108280180B (zh) 2018-01-23 2018-01-23 一种基于主题模型的半监督哈希算法的检索方法

Country Status (1)

Country Link
CN (1) CN108280180B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083734B (zh) * 2019-04-15 2024-05-03 中南大学 基于自编码网络和鲁棒核哈希的半监督图像检索方法
CN111143625B (zh) * 2019-09-03 2023-04-25 西北工业大学 一种基于半监督多模态哈希编码的跨模态检索方法
CN111553145B (zh) * 2020-07-10 2020-10-16 支付宝(杭州)信息技术有限公司 主题生成方法、装置和电子设备
CN112069807A (zh) * 2020-11-11 2020-12-11 平安科技(深圳)有限公司 文本数据的主题提取方法、装置、计算机设备及存储介质
CN113641588B (zh) * 2021-08-31 2024-05-24 北京航空航天大学 一种基于lda主题建模的软件可理解性确定方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408153A (zh) * 2014-12-03 2015-03-11 中国科学院自动化研究所 一种基于多粒度主题模型的短文本哈希学习方法
CN106095811A (zh) * 2016-05-31 2016-11-09 天津中科智能识别产业技术研究院有限公司 一种基于最优编码的监督离散哈希的图像检索方法
CN107346327A (zh) * 2017-04-18 2017-11-14 电子科技大学 基于监督转移的零样本哈希图片检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408153A (zh) * 2014-12-03 2015-03-11 中国科学院自动化研究所 一种基于多粒度主题模型的短文本哈希学习方法
CN106095811A (zh) * 2016-05-31 2016-11-09 天津中科智能识别产业技术研究院有限公司 一种基于最优编码的监督离散哈希的图像检索方法
CN107346327A (zh) * 2017-04-18 2017-11-14 电子科技大学 基于监督转移的零样本哈希图片检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LDAHash: Improved matching with smaller descriptors;Christoph Strecha et al.;《Technical Report》;20100827;1-28 *
基于LDA主题模型的短文本分类;杨萌萌 等;《计算机工程与设计》;20161231;第37卷(第12期);第2-3节 *

Also Published As

Publication number Publication date
CN108280180A (zh) 2018-07-13

Similar Documents

Publication Publication Date Title
CN108280180B (zh) 一种基于主题模型的半监督哈希算法的检索方法
CN113792818B (zh) 意图分类方法、装置、电子设备及计算机可读存储介质
CN109189925B (zh) 基于点互信息的词向量模型和基于cnn的文本分类方法
CN108334574B (zh) 一种基于协同矩阵分解的跨模态检索方法
CN110275936B (zh) 一种基于自编码神经网络的相似法律案例检索方法
Xu et al. Short text clustering via convolutional neural networks
CN106033426B (zh) 一种基于潜在语义最小哈希的图像检索方法
CN111881256B (zh) 文本实体关系抽取方法、装置及计算机可读存储介质设备
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及系统
Sun et al. Automatic text summarization using deep reinforcement learning and beyond
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN112860898B (zh) 一种短文本框聚类方法、系统、设备及存储介质
CN114090769A (zh) 实体挖掘方法、装置、计算机设备和存储介质
CN113159187A (zh) 分类模型训练方法及装置、目标文本确定方法及装置
CN117407532A (zh) 一种利用大模型与协同训练进行数据增强的方法
CN117131383A (zh) 一种提高双塔模型搜索精排性能的方法
Qiu et al. Efficient document retrieval by end-to-end refining and quantizing BERT embedding with contrastive product quantization
Yang et al. Named entity recognition of power substation knowledge based on transformer-BiLSTM-CRF network
Shah et al. A hybrid approach of text summarization using latent semantic analysis and deep learning
CN112836491B (zh) 面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法
Liu et al. Nonnegative sparse locality preserving hashing
CN113486668A (zh) 一种电力知识实体识别方法、装置、设备和介质
CN112926340A (zh) 一种用于知识点定位的语义匹配模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220513

CF01 Termination of patent right due to non-payment of annual fee