CN108280180B - 一种基于主题模型的半监督哈希算法的检索方法 - Google Patents
一种基于主题模型的半监督哈希算法的检索方法 Download PDFInfo
- Publication number
- CN108280180B CN108280180B CN201810063076.7A CN201810063076A CN108280180B CN 108280180 B CN108280180 B CN 108280180B CN 201810063076 A CN201810063076 A CN 201810063076A CN 108280180 B CN108280180 B CN 108280180B
- Authority
- CN
- China
- Prior art keywords
- topic
- data
- hash
- word
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000009826 distribution Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 6
- 238000012952 Resampling Methods 0.000 claims description 3
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 claims description 3
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000006870 function Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9014—Indexing; Data structures therefor; Storage structures hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于主题模型的半监督哈希算法,使用主题模型将单词特征转化为主题特征,然后对主题特征进行半监督训练,实现了半监督条件下准确、稳定并能涵盖所有数据,增强了模型对数据的泛化能力,使模型对数据分布有更准确的描述,从而获得更准确的哈希码;通过替换核化监督哈希的核方法,减少随机因素,使得模型更加稳定。
Description
技术领域
本发明涉及机器学习领域,更具体的说是涉及一种基于主题模型的半监督哈希算法。
背景技术
在大规模数据集检索中,哈希算法是解决效率问题的有效途径。给定一组数据的特征向量哈希算法的目标是找到一组合适的哈希函数hi:Rd→{1,-1},i=1,…,r,其中r为编码位数。每个哈希函数单独产生一位哈希码,将其中的-1改为0,这样每个特征被赋予一个r位的二进制哈希编码。在训练阶段,将数据库中的特征按照哈希码存储形成哈希表,同一个哈希码对应一个桶(bucket);在应用阶段,使用相同的哈希函数得到查询特征的哈希码,然后在该码对应桶中的候选区域范围内查找相似结果,其中暴力搜索计算所有相似度并排序的时间复杂度为O(n·log(n)),但是将连续的实数特征转化为二进制编码的过程会造成信息损失。
目前,关于半监督哈希的典型代表是核化监督哈希(kernel-based supervisedhashing,KSH)。KSH由两部分组成,即核方法与监督训练。核方法可以处理实际问题中近似线性可分的数据。监督训练通过优化算法使哈希码的相似性等效于数据标签的相似性,提升检索准确率。但是KSH仅仅使用数据集中有标签的数据,忽略了无标签数据的分布规律;KSH中核方法在其目标(特征线性可分性增强)中效果并不令人满意;KSH中核方法引入了随机因素,导致稳定性较差。
因此,如何提供一种不但能够保证检索的准确率,而且能够保证算法稳定性的基于主题模型的半监督哈希算法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于主题模型的半监督哈希算法,将KSH 中核方法替换为主题模型,对单词特征进行哈希编码;通过主题模型利用数据集中所有数据的单词特征,增强了模型对数据的泛化能力,使模型对数据分布有更准确的描述,从而获得更准确的哈希码;通过替换核方法,减少随机因素,使得模型更加稳定。
为了实现上述目的,本发明提供如下技术方案:
一种基于主题模型的半监督哈希算法,其特征在于,具体包括以下步骤:
S1:根据所有数据训练主题模型,由单词特征得到主题特征,并对所述主题模型进行求解;
S2:通过半监督训练将主题特征转化为哈希码;
S3:对未知数据进行哈希编码并检索。
本发明的技术效果:将KSH中核方法替换为主题模型,对单词特征进行哈希编码,其中主题模型为潜在狄利克雷分配(Latent Dirichilet Allocation, LDA);通过主题模型利用数据集中所有数据的单词特征,增强了模型对数据的泛化能力,使模型对数据分布有更准确的描述,从而获得更准确的哈希码;通过替换核方法,减少随机因素,使得模型更加稳定。
优选的,在上述一种基于主题模型的半监督哈希算法中,在S1中具体步骤包括:
S11:设主题z为隐含变量,表示为主题库中的一个索引,z∈{1,…,K},其中 K为主题总类数;
S12:定义超参数α和β;
S13::定义数据集W={w1,…,wM},wi=[wi,1,…,wi,Ni],其中wij∈{1,…,V},M为数据数,Ni为第i个数据中单词个数,V为单词总类数;
本发明的技术效果:通过主题模型利用数据集中所有数据的单词特征,增强了模型对数据的泛化能力,使模型对数据分布有更准确的描述。
优选的,在上述一种基于主题模型的半监督哈希算法中,对所述超参数进行优化,选择一组最优超参数。
本发明的技术效果:对超参数进行优化,选择一组最优超参数,以提高学习的性能和效果。
优选的,在上述一种基于主题模型的半监督哈希算法中,在S14中,求解所述主题模型采用吉布斯采样法具体包括:
S141:给每个特征的每个单词w随机分配一个主题z;
S142:然后每个单词的主题通过下式重新采样并更新;
其中和分别为θmk和的期望值,表示忽略第i个单词的情况下第m 个数据中主题为k的单词数,表示忽略第i个单词的情况下所有数据中主题k中单词为v的数量,表示忽略第i个单词的情况下第i个单词属于主题k的概率;
S143:令i在(1,1)到(M,NM)之间循环变化,反复执行上述重采样与更新过程,直到收敛;
S144:通过统计得到主题-单词的共现矩阵[n(k,v)]K×V和数据-主题的共现矩阵[n(m,k)]M×K;
本发明的技术效果:通过主题模型利用数据集中所有数据的单词特征,增强了模型对数据的泛化能力,使模型对数据分布有更准确的描述。
优选的,在上述一种基于主题模型的半监督哈希算法中,在S2中具体步骤包括:
S22:从X中随机选择l个带标签的样本,其中l远远小于n,构建标签矩阵S;根据第i个样本与第j个样本标签是否相同对Sij与Sji赋予1或-1;
S24:定义函数σ(x)=2/(1+exp(-x))-1,使用梯度下降法优化以下目标函数
S25:最终解得a并根据S21得到所有数据的哈希码。
本发明的技术效果:为了保持检索精度,保证生成的每位编码都有均衡且互相独立的分布,以保证每位编码的最大信息以及所有位之间的最小冗余。
优选的,在上述一种基于主题模型的半监督哈希算法中,在S3中具体步骤包括:
S31:对于未知数据的单词特征wQ=[wQ,1,…,wQ,NQ],wQj∈{1,…,V},根据S1 和S2中训练的模型依次求其主题特征与哈希码;
本发明的技术效果:针对未知数据采用同样的方法,实现模型对数据分布更准确的描述,从而获得更准确的哈希码,进一步减少随机因素,使得模型更加稳定。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于主题模型的半监督哈希算法,使用主题模型将单词特征转化为主题特征,然后对主题特征进行半监督训练,实现了半监督条件下准确、稳定并能涵盖所有数据,增强了模型对数据的泛化能力,使模型对数据分布有更准确的描述,从而获得更准确的哈希码;通过替换核方法,减少随机因素,使得模型更加稳定。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明的流程图;
图2附图为本发明吉布斯采样的流程图;
图3附图为本发明转化哈希码的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种基于主题模型的半监督哈希算法,使用主题模型将单词特征转化为主题特征,然后对主题特征进行半监督训练,实现了半监督条件下准确、稳定并能涵盖所有数据,增强了模型对数据的泛化能力,使模型对数据分布有更准确的描述,从而获得更准确的哈希码;通过替换核方法,减少随机因素,使得模型更加稳定。
实施例1
请参阅附图1-3为本发明提供了一种基于主题模型的半监督哈希算法,具体包括以下步骤:
S1:根据所有数据训练主题模型,由单词特征得到主题特征,并对所述主题模型进行求解;
S2:通过半监督训练将主题特征转化为哈希码;
S3:对未知数据进行哈希编码并检索。
为了优化上述技术方案,在S1中具体步骤包括:
S11:设主题z为隐含变量,表示为主题库中的一个索引,z∈{1,…,K},其中 K为主题总类数;
S12:定义超参数α和β;
S13:定义数据集W={w1,…,wM},wi=[wi,1,…,wi,Ni],其中wij∈{1,…,V},M为数据数,Ni为第i个数据中单词个数,V为单词总类数;
S14:通过主题模型求解每个数据的主题概率分布特征θm=[θm1,…,θmK]
为了优化上述技术方案,在S12中定义所述超参数,对超参数进行优化,选择一组最优超参数。
为了优化上述技术方案,在S14中,求解所述主题模型采用吉布斯采样法,且所述吉布斯采样法具体包括:
S141:给每个特征的每个单词w随机分配一个主题z;
S142:每个单词的主题z通过下式重新采样并更新;
其中和分别为θmk和的期望值,表示忽略第i个单词的情况下第m 个数据中主题为k的单词数,表示忽略第i个单词的情况下所有数据中主题k中单词为v的数量,表示忽略第i个单词的情况下第i个单词属于主题k的概率;
S143:令i在(1,1)到(M,NM)之间循环变化,反复执行上述重采样与更新过程,直到收敛;
S144:通过统计得到主题-单词的共现矩阵[n(k,v)]K×V和数据-主题的共现矩阵[n(m,k)]M×K;
为了优化上述技术方案,在S2中具体步骤包括:
S22:从X中随机选择l个带标签的样本,其中l远远小于n,构建标签矩阵S;根据第i个样本与第j个样本标签是否相同对Sij与Sji赋予1或-1;
S24:定义函数σ(x)=2/(1+exp(-x))-1,使用梯度下降法优化以下目标函数
S25:最终解得a并根据S21得到所有数据的哈希码。
为了优化上述技术方案,在S3中具体步骤包括:
S31:对于未知数据的单词特征wQ=[wQ,1,…,wQ,NQ],wQj∈{1,…,V},根据S1 和S2中训练的模型依次求其主题特征与哈希码;
实施例2
一种基于主题模型的半监督哈希算法,其中主题模型采用潜在语义分析,是用于知识获取和展示的计算理论和方法,它使用统计计算的方法对大量的文本集进行分析,从而提取出词与词之间潜在的语义结构,并用这种潜在的语义结构来表示词和文本,达到消除词之间的相关性和简化文本向量实现降维的目的。潜在语义分析的基本观点是:把高维的向量空间模型(VSM)表示中的文档映射到低维的潜在语义空间中。这个映射是通过对项/文档矩阵的奇异值分解(SVD)来实现的。
求解主题模型的方法采用期望最大化,首先初始化分布函数;估计未知参数的期望值,给出当前的参数估计;重新估计分布函数,以使得数据的似然性最大,给出未知变量的期望估计。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (4)
1.一种基于主题模型的半监督哈希算法的检索方法,其特征在于,具体包括以下步骤:
S1:根据所有数据训练主题模型,由单词特征得到主题特征,并对所述主题模型进行求解;
S2:通过半监督训练将主题特征转化为哈希码;
S3:对未知数据进行哈希编码并检索;
在S1中具体步骤包括:
S11:设主题z为隐含变量,表示为主题库中的一个索引,z∈{1,…,K},其中K为主题总类数;
S12:定义超参数α和β;
S13:定义数据集W={w1,…,wM},wi=[wi,1,…,wi,Ni],其中wij∈{1,…,V},M为数据数,Ni为第i个数据中单词个数,V为单词总类数;
在S2中具体步骤包括:
S22:从X中随机选择l个带标签的样本,其中l远远小于n,构建标签矩阵S;
根据第i个样本与第j个样本标签是否相同对Sij与Sji赋予1或-1;
S24:定义函数σ(x)=2/(1+exp(-x))-1,使用梯度下降法优化以下目标函数
S25:最终解得a并根据S21得到所有数据的哈希码。
2.根据权利要求1所述的一种基于主题模型的半监督哈希算法的检索方法,其特征在于,在S12中定义所述超参数,对超参数进行优化,选择一组最优超参数。
3.根据权利要求1所述的一种基于主题模型的半监督哈希算法的检索方法,其特征在于,在S14中,求解所述主题模型采用吉布斯采样法,且所述吉布斯采样法具体包括:
S141:给每个特征的每个单词w随机分配一个主题z;
S142:每个单词的主题z通过下式重新采样并更新;
其中和分别为θmk和的期望值,表示忽略第i个单词的情况下第m个数据中主题为k的单词数,表示忽略第i个单词的情况下所有数据中主题k中单词为v的数量,表示忽略第i个单词的情况下第i个单词属于主题k的概率;
S143:令i在(1,1)到(M,NM)之间循环变化,反复执行上述重采样与更新过程,直到收敛;
S144:通过统计得到主题-单词的共现矩阵[n(k,v)]K×V和数据-主题的共现矩阵[n(m,k)]M×K;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810063076.7A CN108280180B (zh) | 2018-01-23 | 2018-01-23 | 一种基于主题模型的半监督哈希算法的检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810063076.7A CN108280180B (zh) | 2018-01-23 | 2018-01-23 | 一种基于主题模型的半监督哈希算法的检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108280180A CN108280180A (zh) | 2018-07-13 |
CN108280180B true CN108280180B (zh) | 2022-05-13 |
Family
ID=62804696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810063076.7A Expired - Fee Related CN108280180B (zh) | 2018-01-23 | 2018-01-23 | 一种基于主题模型的半监督哈希算法的检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108280180B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083734B (zh) * | 2019-04-15 | 2024-05-03 | 中南大学 | 基于自编码网络和鲁棒核哈希的半监督图像检索方法 |
CN111143625B (zh) * | 2019-09-03 | 2023-04-25 | 西北工业大学 | 一种基于半监督多模态哈希编码的跨模态检索方法 |
CN111553145B (zh) * | 2020-07-10 | 2020-10-16 | 支付宝(杭州)信息技术有限公司 | 主题生成方法、装置和电子设备 |
CN112069807A (zh) * | 2020-11-11 | 2020-12-11 | 平安科技(深圳)有限公司 | 文本数据的主题提取方法、装置、计算机设备及存储介质 |
CN113641588B (zh) * | 2021-08-31 | 2024-05-24 | 北京航空航天大学 | 一种基于lda主题建模的软件可理解性确定方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408153A (zh) * | 2014-12-03 | 2015-03-11 | 中国科学院自动化研究所 | 一种基于多粒度主题模型的短文本哈希学习方法 |
CN106095811A (zh) * | 2016-05-31 | 2016-11-09 | 天津中科智能识别产业技术研究院有限公司 | 一种基于最优编码的监督离散哈希的图像检索方法 |
CN107346327A (zh) * | 2017-04-18 | 2017-11-14 | 电子科技大学 | 基于监督转移的零样本哈希图片检索方法 |
-
2018
- 2018-01-23 CN CN201810063076.7A patent/CN108280180B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104408153A (zh) * | 2014-12-03 | 2015-03-11 | 中国科学院自动化研究所 | 一种基于多粒度主题模型的短文本哈希学习方法 |
CN106095811A (zh) * | 2016-05-31 | 2016-11-09 | 天津中科智能识别产业技术研究院有限公司 | 一种基于最优编码的监督离散哈希的图像检索方法 |
CN107346327A (zh) * | 2017-04-18 | 2017-11-14 | 电子科技大学 | 基于监督转移的零样本哈希图片检索方法 |
Non-Patent Citations (2)
Title |
---|
LDAHash: Improved matching with smaller descriptors;Christoph Strecha et al.;《Technical Report》;20100827;1-28 * |
基于LDA主题模型的短文本分类;杨萌萌 等;《计算机工程与设计》;20161231;第37卷(第12期);第2-3节 * |
Also Published As
Publication number | Publication date |
---|---|
CN108280180A (zh) | 2018-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108280180B (zh) | 一种基于主题模型的半监督哈希算法的检索方法 | |
CN113792818B (zh) | 意图分类方法、装置、电子设备及计算机可读存储介质 | |
CN109189925B (zh) | 基于点互信息的词向量模型和基于cnn的文本分类方法 | |
CN108334574B (zh) | 一种基于协同矩阵分解的跨模态检索方法 | |
CN110275936B (zh) | 一种基于自编码神经网络的相似法律案例检索方法 | |
Xu et al. | Short text clustering via convolutional neural networks | |
CN106033426B (zh) | 一种基于潜在语义最小哈希的图像检索方法 | |
CN111881256B (zh) | 文本实体关系抽取方法、装置及计算机可读存储介质设备 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
CN113821635A (zh) | 一种用于金融领域的文本摘要的生成方法及系统 | |
Sun et al. | Automatic text summarization using deep reinforcement learning and beyond | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
CN113392191B (zh) | 一种基于多维度语义联合学习的文本匹配方法和装置 | |
CN112860898B (zh) | 一种短文本框聚类方法、系统、设备及存储介质 | |
CN114090769A (zh) | 实体挖掘方法、装置、计算机设备和存储介质 | |
CN113159187A (zh) | 分类模型训练方法及装置、目标文本确定方法及装置 | |
CN117407532A (zh) | 一种利用大模型与协同训练进行数据增强的方法 | |
CN117131383A (zh) | 一种提高双塔模型搜索精排性能的方法 | |
Qiu et al. | Efficient document retrieval by end-to-end refining and quantizing BERT embedding with contrastive product quantization | |
Yang et al. | Named entity recognition of power substation knowledge based on transformer-BiLSTM-CRF network | |
Shah et al. | A hybrid approach of text summarization using latent semantic analysis and deep learning | |
CN112836491B (zh) | 面向NLP基于GSDPMM和主题模型的Mashup服务谱聚类方法 | |
Liu et al. | Nonnegative sparse locality preserving hashing | |
CN113486668A (zh) | 一种电力知识实体识别方法、装置、设备和介质 | |
CN112926340A (zh) | 一种用于知识点定位的语义匹配模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220513 |
|
CF01 | Termination of patent right due to non-payment of annual fee |