CN104408153A - 一种基于多粒度主题模型的短文本哈希学习方法 - Google Patents

一种基于多粒度主题模型的短文本哈希学习方法 Download PDF

Info

Publication number
CN104408153A
CN104408153A CN201410729347.XA CN201410729347A CN104408153A CN 104408153 A CN104408153 A CN 104408153A CN 201410729347 A CN201410729347 A CN 201410729347A CN 104408153 A CN104408153 A CN 104408153A
Authority
CN
China
Prior art keywords
hash
many granularities
topic model
text
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410729347.XA
Other languages
English (en)
Other versions
CN104408153B (zh
Inventor
郝红卫
许家铭
徐博
田冠华
王方圆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201410729347.XA priority Critical patent/CN104408153B/zh
Publication of CN104408153A publication Critical patent/CN104408153A/zh
Application granted granted Critical
Publication of CN104408153B publication Critical patent/CN104408153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多粒度主题模型的短文本哈希学习方法,采用外部大规模语料库训练候选主题模型,可依据数据集类型选择最优的多粒度主题特征,并赋予权重,由该方法选择出来的多粒度主题模型有较好的区分度,在构建稀疏短文本间相似语义关联的同时有助于哈希函数学习;本发明方法采用了两种基于多主题模型的哈希学习策略,分别为多粒度主题特征融合、哈希码学习同哈希函数训练相独立的学习方法,以及多粒度主题特征独立、哈希码学习同哈希函数训练相耦合的学习方法,较基于单粒度主题特征方法,在精度和召回率等多项测评指标上均有大幅度提升。

Description

一种基于多粒度主题模型的短文本哈希学习方法
技术领域
本发明涉及文本信息检索领域,更具体地涉及一种短文本哈希学习方法,可应用于海量短文本快速语义检索、问答系统相似问句快速匹配、微博语义相似内容推荐等子领域。
背景技术
随着社交媒体的迅猛发展,大量的短文本以各种形式产生,如:微博、短消息、问答网站中的问题,以及在线广告等。为了解决海量文本数据的快速相似查询问题,近几年相关研究者提出一种语义哈希方法,它可以将文本特征映射到具有相似信息保存性的二进制编码中,并在快速语义搜索中得到了广泛的应用。然而,目前许多哈希学习方法都是基于关键词特征空间的,短文本原始特征空间的稀疏性导致这些哈希方法不能很好的保存语义相似信息。例如,有三个短文本:
文本1:“拉斐尔纳达尔错过了澳网公开赛”;
文本2:“罗杰费德勒荣获大满贯头衔”;
文本3:“泰格伍兹打破多次高尔夫记录”。
显然,基于关键词特征空间的哈希学习方法无法保存文本1、文本2和文本3之间的语义关联信息。近些年,一些研究者尝试通过潜层主题模型来解决文本表示中语义鸿沟给哈希学习方法所带来的上述问题。但是,基于特定粒度的主题特征并没有充分表示文本间的内在语义关联。如我们所知,指定不同主题数的主题模型能够从文本中抽取出不同层次的语义特征。当我们设定的主题数较多时,可以从文本中抽取出细粒的隐层主题特征,如:从文本1、2中抽取出“网球”,从文本3中抽取出“高尔夫”。这种粒度的主题特征无法构建文本3和其他文本间的关联性。当主题数设定的较少时,我们可以从文本中抽取出较粗粒的隐层主题特征,如:从文本1、2及3中都抽取出“运动员”和“明星”。这种粒度的主题特征缺乏区分度信息而无法有效地学习哈希映射函数。因而,针对短文本哈希问题,多粒度主题特征更适合用于哈希码的相似度保存及哈希映射函数学习。
另一方面,在哈希学习方法中应该充分挖掘文本中的标签信息。因为在很多实际应用中,文本都是具有多标签信息的。例如:问答系统中,提问者会给自己的问句张贴所属类别或相关类别标签;在微博文本中,很多用户会通过“#关键词”形式给微博张贴相关内容标签。因此,有必要充分挖掘这些标签信息来增强相关文本间的语义相似度。
发明内容
针对上述问题,作为本发明的一个方面,本发明提出了一种基于多粒度主题模型的短文本哈希离线训练方法,包括以下步骤:
步骤1,利用大规模语料库训练N个候选主题模型T={T1,T2,...,TN},其中所述大规模语料库为外部通用的大规模语料库,N为训练得到的候选主题模型的数目,为一个正整数;
步骤2,从训练集X中随即抽取一部分带有标签信息的样本选择M个最优多粒度主题模型集合及对应权重μ={μ(T1),μ(T2),...,μ(TN)},其中,M为预先设定的最优多粒度主题模型的数目,为一个正整数;
步骤3,计算训练集原始特征的TF-IDF特征w,并进行归一化;
步骤4,从最优的M个主题模型中抽取多粒度主题特征{θ1,θ2,...,θM};
步骤5,通过两种学习策略融合多粒度主题特征及标签信息进行哈希学习,得到训练集哈希码和哈希函数。
其中,在步骤2中,所述选择M个最优多粒度主题模型集合及对应权重的步骤包括:
步骤2.1,从训练样本X中随机采样小部分带有标签的样本
步骤2.2,从候选的N个主题模型中抽出样本集的多粒度主题特征其中主题特征θ为文本上主题概率分布p(z|x),并初始化权重向量μ=0;
步骤2.3,开始遍历样本集合中的每个样本
步骤2.4,寻找样本的两组近邻集合
其中,集合是从同样本所带标签有任意匹配的样本集合中找到k+近邻,另一个集合是从同样本所带标签未有任意匹配的样本集合中找到k-近邻,k+=k-=10;
步骤2.5,开始遍历候选主题集合T中的每个主题模型Ti
步骤2.6,按照下面的公式(1)更新当前主题模型Ti的权重值μ(Ti):
μ ( T i ) = μ ( T i ) + Σ j = 1 k - D KL ( T i ( x ) , T i ( nn j - ( x ) ) ) k - - Σ p = 1 k + D KL ( T i ( x ) , T i ( nn p + ( x ) ) ) k + - - - ( 1 )
其中:
D KL ( T i ( x ) , T i ( nn j - ( x ) ) ) = 1 2 Σ z k ∈ T i ( p ( z k | x ) · log ( p ( z k | x ) p ( z k | nn j - ( x ) ) ) + p ( z k | nn j - ( x ) ) · log ( p ( z k | nn j - ( x ) ) p ( z k | x ) ) ) ,
D KL ( T i ( x ) , T i ( nn j + ( x ) ) ) = 1 2 Σ z k ∈ T i ( p ( z k | x ) · log ( p ( z k | x ) p ( z k | nn j + ( x ) ) ) + p ( z k | nn j + ( x ) ) · log ( p ( z k | nn j + ( x ) ) p ( z k | x ) ) ) ;
步骤2.7,判断候选主题模型T是否已经全部遍历完毕,若是则继续,若否则跳转至步骤2.5;
步骤2.8,判断样本集合是否已经全部遍历完毕,若是则继续,若否则跳转至步骤2.3;
步骤2.9,权重向量更新完毕之后,直接根据前M个最高权重值选出对应的主题模型集合o,即为最优多粒度主题模型。
其中,在步骤5中,所述两种学习策略如下所示:
第一策略,基于多粒度主题特征融合、哈希码学习同哈希函数训练相独立的学习方法,包括以下步骤:
步骤5.1,将多粒度主题特征{θ1,θ2,...,θM}及原始特征w整合到一个高维向量中:
Ω = [ λw , μ ^ 1 θ 1 , μ ^ 2 θ 2 , . . . , μ ^ M θ M ]
其中,λ为原始特征与多粒度主题特征的权衡系数,为多粒度主题特征之间的权重调节系数:
步骤5.2,基于高维特征Ω构造相似度矩阵s,同时引入标签信息增强相关文本间的语义相似度;
构建局部相似度矩阵,并重新定义文本之间的相似度计算方法如下:
其中,NNk(x)表示样本x的k近邻集合,cij为置信系数;当两个样本xi和xj共享任意相同标签时(Tij=1),置cij一个较高的值a;相反地,如果两个样本xi和xj不相关时(Tij=0),置cij一个较低的值b,如下所示:
c ij = a , if T ij = 1 b , if T ij = 0
其中,参数a和b满足1≥a≥b>0;
步骤5.3,引入到两步哈希方法中进行学习;
通过引入一个两阶段的自学习式哈希框架,哈希码和哈希函数可独立学习,优化目标函数如下:
min Y Σ i , j = 1 n S ij | | y i - y j | | F 2
s.t.Y∈{-1,1}n×l,YT1=0,YTY=I
其中,Sij是基于高维特征Ω构造的局部相似度矩阵,yi是文本xi的哈希码,||·||F是F-范数;通过松弛哈希码离散化的约束条件Y∈{-1,1}n×l,最优的l维实值向量可以通过求解拉普拉斯特征映射问题解决;
步骤5.4,得到l维实值向量及其中值向量
步骤5.5,采用m为阈值对实值向量进行二值化,得到哈希码Y;所述哈希码Y即为训练样本集语料X映射后的l维二进制编码集合;
步骤5.6,训练l个线性支持向量机分类器;
基于前面得到的l维哈希码及现有训练集语料X的特征集合学习l个线性支持向量机二值分类器f(x)=sgn(wTx),输出为0或1;以及
第二策略,基于多粒度主题特征独立、哈希码学习同哈希函数训练相耦合的学习方法,包括以下步骤:
步骤5.1,提取训练样本集X的M+1种特征集合{w,θ1,θ2,...,θM};
步骤5.2,基于M+1种特征构造M+1个相似度矩阵集合{S1,S2,...,SM+1},同时引入标签信息增强相关文本间的语义相似度;构建局部相似度矩阵,并重新定义文本之间的相似度计算方法如下:
其中,NNk(x)表示样本x的k近邻集合,cij为置信系数;当两个样本xi和xj共享任意相同标签时(Tij=1),置cij一个较高的值a;相反地,如果两个样本xi和xj不相关时(Tij=0),置cij一个较低的值b,如下所示:
c ij = a , if T ij = 1 b , if T ij = 0
其中,参数a和b满足1≥a≥b>0;
步骤5.3,引入到多源哈希方法中进行学习;
通过引入一种多源哈希学习框架,同时进行哈希码和哈希函数学习;直接对M+1种特征所对应的相似度矩阵{S1,S2,...,SM+1}进行线性组合,如下:
Σ k = 1 M + 1 Σ i , j = 1 n S ij ( k ) | | y i - y j | | F 2
其中,是第k个特征对应的相似度矩阵;通过引入一个n×n对角矩阵D(k),其对角元素则上式可重新为如下形式:
tr ( Y T Σ k = 1 M + 1 ( D ( k ) - S ( k ) ) Y ) = tr ( Y T Σ k = 1 M + 1 L ( k ) Y )
其中,L(k)是定义在第k个特征上的拉普拉斯矩阵;该步骤整体优化目标函数如下:
min Y , W , α J ( Y , W , α ) = C 1 tr ( Y T Σ k = 1 M + 1 L ~ ( k ) Y ) + C 2 | | Y - Σ k = 1 M + 1 α k ( W ( k ) ) T X ( k ) | | F 2 + Σ k = 1 M + 1 | | W ( k ) | | F 2
s.t.Y∈{-1,1}n×k,YT1=0,YTY=1,αT1=1,α≥0
其中,C1和C2是权衡系数,通过交叉验证方式进行参数寻优;α为M+1维调和系数向量,来权衡M+1种特征的线性函数输出权重;松弛哈希码离散化的约束条件Y∈{-1,1}n×l,并参考多源哈希学习方法中的迭代优化过程进行求解,可得到l维实值向量M+1维调和系数向量α,及M+1个线性函数{W(1),W(2),...,W(M+1)};
步骤5.4,得到l维实值向量及其中值向量
步骤5.5,采用m为阈值对实值向量进行二值化,得到哈希码Y;
步骤5.6,由步骤5.3得到M+1个l维线性哈希函数及调和系数向量α。
作为本发明的另一个方面,本发明还提供了一种基于多粒度主题模型的短文本哈希检索方法,包括以下步骤:
步骤1,计算查询文本q的TF-IDF特征w,并进行归一化;
步骤2,对如上所述的基于多粒度主题模型的短文本哈希离线训练方法中选定的训练文本集X进行主题特征抽取,从最优的M个主题模型中抽取多粒度主题特征{θ1,θ2,...,θM};
步骤3,通过如权利要求1至3任意一项所述的基于多粒度主题模型的短文本哈希离线训练方法得到的哈希函数得到所述查询文本的哈希码yq
步骤4,通过所述查询文本的哈希码在二值汉明空间中进行匹配搜索来对所述查询文本进行语义相似检索。
其中,在步骤3中所述通过哈希函数得到查询文本的哈希码的步骤包括:
第一策略,基于多粒度主题特征融合、哈希码学习同哈希函数训练相独立的学习方法的在线哈希编码步骤包括:
步骤3.1,将多粒度主题特征{θ1,θ2,...,θM}及原始特征w整合到一个高维向量中 Ω = [ λw , μ ^ 1 θ 1 , μ ^ 2 θ 2 , . . . , μ ^ M θ M ] ;
步骤3.2,通过如权利要求1至3任意一项所述的基于多粒度主题模型的短文本哈希离线训练方法得到的l个线性支持向量机二值分类器对高维特征Ω进行二分类得到查询样本q的l维哈希码;或者
第二策略,基于多粒度主题特征独立、哈希码学习同哈希函数训练相耦合的学习方法的在线哈希编码步骤包括:
步骤3.1,得到查询样本q的M+1种特征{w,θ1,θ2,...,θM};
步骤3.2,通过如权利要求1至3任意一项所述的基于多粒度主题模型的短文本哈希离线训练方法得到的M+1个l维线性函数{W(1),W(2),...,W(M+1)}及输出权重向量α进行映射,得到l维实值低维向量
y ~ q = α 1 · W ( 1 ) w , α 2 · W ( 2 ) θ 1 , . . . , α M + 1 · W ( M + 1 ) θ M + 1 } - - - ( 10 ) ;
步骤3.3,采用m为阈值对实值向量进行二值化,得到哈希码yq
作为本发明的再一个方面,本发明还提供了一种基于多粒度主题的短文本哈希学习方法,包括以下步骤:
离线训练阶段,通过大规模语料库对输入的短文本训练集X={x1,x2,...,xn}、对应标签信息t={t1,t2,...,tn}及最优多粒度主题数M进行离线训练,得到所述短文本训练集的哈希码和哈希函数、最优多粒度主题模型O={T1,T2,...,TM}和权重向量μ={μ(T1),μ(T2),...,μ(TN)};以及
在线预测阶段,根据所述离线训练阶段得到的哈希函数、最优多粒度主题模型O={T1,T2,...,TM},权重向量μ={μ(T1),μ(T2),...,μ(TN)}计算待查询文本的哈希码和哈希函数,通过哈希码在二值汉明空间中进行匹配搜索来对查询文本进行语义相似检索。
其中,所述离线训练阶段采用如上所述的基于多粒度主题模型的短文本哈希离线训练方法来得到所述短文本训练集的哈希码和哈希函数、最优多粒度主题模型O={T1,T2,...,TM}和权重向量μ={μ(T1),μ(T2),...,μ(TN)}。
其中,所述在线预测阶段采用如上所述的基于多粒度主题模型的短文本哈希检索方法来根据所述离线训练阶段得到的哈希函数、最优多粒度主题模型O={T1,T2,...,TM},权重向量μ={μ(T1),μ(T2),...,μ(TN)}计算待查询文本的哈希码和哈希函数。
本发明的基于多粒度主题模型的短文本哈希学习方法首先从大规模语料库中训练出多个候选主题模型,能够覆盖大部分词汇、概念及主题,可大幅降低短文本哈希学习时原始特征的语义鸿沟问题,然后根据训练集内容及标签信息挑选出区分度较高的多个最优主题模型,能够更加有效地训练哈希函数,有效改善基于哈希学习的海量短文本语义相似检索的召回率和精度。本发明从两个不同角度提出两种多粒度主题特征融合策略,同时对这两种策略进行了对比试验,两种方法均大幅度提高哈希学习的有效性,相对于基于单粒度主题的哈希学习方法,基于多粒度的主题方法显著提高了检索精度。本发明虽然主要针对基于哈希学习的海量短文本语义相似内容检索领域,但对于其他相似领域亦具有借鉴意义。
附图说明
图1是本发明的基于多粒度主题模型的短文本哈希学习方法的流程框架示意图;
图2是本发明的基于训练集内容及标签信息的最优多粒度主题模型选择方法的流程图;
图3是本发明的基于特征层融合多粒度主题的哈希学习策略的流程图;
图4是本发明的基于决策层融合多粒度主题的哈希学习策略的流程图;
图5是本发明的哈希学习方法、自学习哈希、监督型自学习哈希以及位置敏感哈希在不同哈希码位数(=4∶4∶64),特定汉明距离(=3)下的精度、召回结果曲线;
图6是本发明的哈希学习方法、自学习哈希、监督型自学习哈希以及位置敏感哈希在特定哈希码位数(=16,32)下的精度、召回结果曲线;
图7是本发明的哈希学习方法中两种多粒度主题特征融合策略在不同标签使用率情况,不同哈希码位数(=4∶4∶64)、特定汉明距离(=3)下的精度、召回结果曲线;
图8是本发明的哈希学习方法中两种多粒度主题特征融合策略基于最优多粒度主题相对于单粒度主题在不同哈希码位数(=4∶4∶64)、特定汉明距离(=3)下的精度、召回结果曲线;
图9是本发明的哈希学习方法中两种多粒度主题特征融合策略基于最优多粒度主题相对于其他多粒度主题在不同哈希码位数(=4∶4∶64)、特定汉明距离(=3)下的精度、召回结果曲线。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
本发明提出了一种基于多粒度主题模型的短文本哈希学习方法,其基本特征主要有以下几个方面:一是采用外部大规模语料库训练候选主题模型,大规模语料库应覆盖大量同特定任务相关的词汇、概念及主题;二是提出并应用了一种基于主题分布对称KL散度的最优选择方法,该方法可以根据数据集类型进行最优主题模型选择,并赋予权重,由该方法选择出来的多粒度主题模型有较好的区分度,在构建稀疏短文本间相似语义关联的同时有助于哈希函数学习;三是提出并应用了两种融入多粒度主题特征的短文本哈希学习方法,分别从特征层和决策层进行多粒度主题特征融合以改善基于单粒度主题特征哈希学习方法的局限性;四是提出并应用了一种简单而有效挖掘标签语义信息的方法,能够在哈希学习过程中充分挖掘标签信息来增强相似文本间的语义相关度。实验证明,与以往方法相比,本发明所提方法,在多项检索性能指标上均有明显改善,且在大量标签丢失或不全时,本发明方法具有较强的鲁棒性。
本发明的目的在于,给定一个短文本集合,可以通过融入多粒度主题特征及标签方式从该集合中以离线方式学习到低维二进制哈希码集合及哈希映射函数。在线给定一个查询文本时,可通过哈希映射函数进行转码,并直接在汉明空间中进行语义相似文本匹配。该方法有助于改善基于哈希学习方法的海量短文本快速语义相似文本检索性能。
图1是本发明基于多粒度主题模型的短文本哈希学习方法的示意图,如图1所示,本发明所提出的短文本哈希学习方法包括两个阶段:离线训练阶段和在线预测阶段,每个阶段包括以下几个步骤:
离线训练阶段:
输入:大规模语料库,短文本训练集X={x1,x2,...,xn}及对应标签信息t={t1,t2,...,tn},最优多粒度主题数M;
输出:最优多粒度主题模型O={T1,T2,...,TM},权重向量μ={μ(T1),μ(T2),...,μ(TN)};哈希函数;
步骤1,利用大规模语料库训练N个候选主题模型T={T1,T2,...,TN};
由于大多数主题模型方法通过文档层词共现关系挖掘主题特征,而直接应用于短文本数据集,受文本稀疏性影响而效果不好。因此本发明采用一个外部通用的大规模语料库来训练候选多粒度主题模型。此语料库应覆盖大量的词汇、概念及主题。比如,本发明中我们选用潜在狄利克雷分布作为主题模型,并人为事先设置好7组候选主题个数{10,30,50,70,90,120,150},同时我们采用了外部的维基百科语料来训练主题模型。
步骤2,从训练集X中随机抽取一部分带有标签信息的样本选择M个最优主题模型及对应权重μ={μ(T1),μ(T2),...,μ(TN)};
为了选择最优的M个主题模型,我们需要利用标签信息对主题模型进行评估,最优的主题模型应有助于区分当前数据集中不共享任意标签文本的数据。该步骤中,只需随机采样小部分带有标签文本参与主题模型的评估选择即可。图2为该最优选择方法流程图,所述步骤2进一步包括以下步骤:
步骤2.1,从训练样本X中随机采样小部分带有标签的样本
本发明实施例中,从每类标签样本中随机选择100个样本进行主题模型评估。
步骤2.2,从候选的N个主题模型中抽出样本集的多粒度主题特征其中主题特征θ为文本上主题概率分布p(z|x),并初始化多个主题模型的权重向量μ=0。
步骤2.3,开始遍历样本集合中的每个样本
步骤2.4,寻找样本的两组近邻集合
其中集合是从同样本所带标签有任意匹配的样本集合中找到k+近邻,另一个集合是从同样本所带标签未有任意匹配的样本集合中找到k-近邻。在本发明的实施例中,k+=k-=10。
步骤2.5,开始遍历候选主题集合T中的每个主题模型Ti
步骤2.6,按照下面的公式(1)更新当前主题模型Ti的权重值μ(Ti):
μ ( T i ) = μ ( T i ) + Σ j = 1 k - D KL ( T i ( x ) , T i ( nn j - ( x ) ) ) k - - Σ p = 1 k + D KL ( T i ( x ) , T i ( nn p + ( x ) ) ) k + - - - ( 1 )
其中:
D KL ( T i ( x ) , T i ( nn j - ( x ) ) ) = 1 2 Σ z k ∈ T i ( p ( z k | x ) · log ( p ( z k | x ) p ( z k | nn j - ( x ) ) ) + p ( z k | nn j - ( x ) ) · log ( p ( z k | nn j - ( x ) ) p ( z k | x ) ) ) ,
D KL ( T i ( x ) , T i ( nn j + ( x ) ) ) = 1 2 Σ z k ∈ T i ( p ( z k | x ) · log ( p ( z k | x ) p ( z k | nn j + ( x ) ) ) + p ( z k | nn j + ( x ) ) · log ( p ( z k | nn j + ( x ) ) p ( z k | x ) ) ) .
步骤2.7,判断候选主题模型T是否已经全部遍历完毕,若是则继续,若不是则转至步骤2.5;
步骤2.8,判断样本集合是否已经全部遍历完毕,若是则继续,若不是则转至步骤2.3;
步骤2.9,权重向量更新完毕之后,直接根据前M个最高权重值选出对应的主题模型集合O={T1,T2,...,TM},即为最优多粒度主题模型。挑选出对应权重值最高的M个主题模型作为最优多粒度主题模型。
选择主题特征过少时,语义表达空间不够充分,而选择主题特征过多时,则容易引入额外噪音。本发明实施例中,根据经验设置最优主题模型粒度数为M=3。
步骤3,计算训练集原始特征的TF-IDF特征w,并进行归一化;
TF-IDF特征w的计算及归一化方法均为本领域的公知技术,在此不再赘述。
步骤4,从最优的M个主题模型中抽取多粒度主题特征{θ1,θ2,...,θM};
该步骤对整个训练文本集X进行主题特征抽取,从步骤2选择的M个主题模型中抽取最优的主题特征{θ1,θ2,...,θM}。
步骤5,通过两种策略融合多粒度主题特征及标签信息进行哈希学习,得到训练集哈希码和哈希函数;
该步骤采取了两种不同的融合策略,分别从特征层和决策层融合多粒度主题特征进行哈希学习。特征层融合策略直接把多种特征整合为一个高维向量中,多粒度主题特征融合,哈希码学习同哈希函数训练相独立的学习方法(以下简称为基于特征层融合的哈希方法),如图3所示。决策层融合策略中多粒度主题特征独立,哈希码学习同哈希函数训练相耦合的学习方法(以下简称为基于决策层融合的哈希方法),如图4所示。
所述策略一:基于特征层融合的哈希学习进一步包括以下步骤:
步骤5.1,将多粒度主题特征{θ1,θ2,...,θM}及原始特征w整合到一个高维向量中:
Ω = [ λw , μ ^ 1 θ 1 , μ ^ 2 θ 2 , . . . , μ ^ M θ M ] - - - ( 2 )
其中,λ为原始特征与多粒度主题特征的权衡系数,为多粒度主题特征之间的权重调节系数,且直接由公式(1)中的权重向量值获得:
μ ^ i = μ i ( T i ) / min T k ∈ O ( μ k ( T k ) ) - - - ( 3 )
步骤5.2,基于高维特征Ω构造相似度矩阵s,同时引入标签信息增强相关文本间的语义相似度;
传统相似度度量的方法有多种,简单列举如下几种:
本发明实施例中以夹角余弦为例构建局部相似度矩阵,并重新定义文本之间的相似度计算方法如下:
其中,NNk(x)表示样本x的k近邻集合,cij为置信系数。当两个样本xi和xj共享任意相同标签时(Tij=1),置cij一个较高的值a。相反地,如果两个样本xi和xj不相关时(Tij=0),置cij一个较低的值b。如下所示:
c ij = a , if T ij = 1 b , if T ij = 0 - - - ( 5 )
其中,参数a和b满足1≥a≥b>0。针对特定数据集,标签的可信度越高则设定参数a和b间的差距越大。本发明实施例中,设定参数a=1,b=0.1。
步骤5.3,引入到两步哈希方法中进行学习;
通过引入一个两阶段的自学习式哈希框架,哈希码和哈希函数可独立学习。该步骤进行哈希码学习,其优化目标函数如下:
min Y Σ i , j = 1 n S ij | | y i - y j | | F 2
s.t.Y∈{-1,1}n×l,YT1=0,YTY=I     (6)
其中,Sij是由公式(4)构造的局部相似度矩阵,yi是文本xi的哈希码,||·||F是F-范数。通过松弛哈希码离散化的约束条件Y∈{-1,1}n×l,最优的l维实值向量可以通过求解拉普拉斯特征映射问题解决,在此不再赘述。
步骤5.4,得到l维实值向量及其中值向量
步骤5.5,采用m为阈值对实值向量进行二值化,得到哈希码Y;
哈希码Y即为训练样本集语料X映射后的l维二进制编码集合。
步骤5.6,训练l个线性支持向量机分类器,为此策略方法的哈希函数;
该步骤为哈希函数学习阶段,基于前面得到的l维哈希码及现有训练集语料X的特征集合学习l个线性支持向量机二值分类器f(x)=sgn(wTx),每个二值分类器的输出为0或1,分别以训练样本集对应l维哈希码中的每一位做为标签信息进行训练。
所述策略二:基于决策层融合的哈希学习进一步包括以下步骤:
步骤5.1,提取训练样本集X的M+1种特征集合{w,θ1,θ2,...,θM};
步骤5.2,基于M+1种特征构造M+1个相似度矩阵集合{S1,S2,...,SM+1},同时引入标签信息增强相关文本间的语义相似度;
相似度矩阵s构造方法同特征层多粒度主题特征融合策略中的步骤5.2中构造方法类似,在此不再赘述。
步骤5.3,引入到多源哈希方法中进行学习;
通过引入一种多源哈希学习框架,同时进行哈希码和哈希函数学习,耦合性较强,可避免引入外部干扰。为保存多种特征的语义相似信息,本发明中直接对M+1种特征所对应的相似度矩阵{S1,S2,...,SM+1}进行线性组合,如下:
Σ k = 1 M + 1 Σ i , j = 1 n S ij ( k ) | | y i - y j | | F 2 - - - ( 7 )
其中,是第k个特征对应的相似度矩阵。通过引入一个n×n对角矩阵D(k),其对角元素则公式(7)可重新为如下形式:
tr ( Y T Σ k = 1 M + 1 ( D ( k ) - S ( k ) ) Y ) = tr ( Y T Σ k = 1 M + 1 L ( k ) Y ) - - - ( 8 )
其中,L(k)是定义在第k个特征上的拉普拉斯矩阵。同前一个策略不同,该策略同时学习训练样本集X的哈希码Y和一组线性哈希函数该步骤整体优化目标函数如下:
min Y , W , α J ( Y , W , α ) = C 1 tr ( Y T Σ k = 1 M + 1 L ~ ( k ) Y ) + C 2 | | Y - Σ k = 1 M + 1 α k ( W ( k ) ) T X ( k ) | | F 2 + Σ k = 1 M + 1 | | W ( k ) | | F 2
s.t.Y∈{-1,1}n×k,YT1=0,YTY=I,αT1=1,α≥0     (9)
其中,C1和C2是权衡系数,通过交叉验证方式进行参数寻优;W(k)是第k个特征对应的哈希映射矩阵;α为M+1维调和系数向量,来权衡M+1种特征的线性函数输出权重。松弛哈希码离散化的约束条件Y∈{-1,1}n×l,并参考多源哈希学习方法中的迭代优化过程进行求解,可得到l维实值向量M+1维调和系数向量α,及M+1个线性函数{W(1),W(2),...,W(M+1)}。具体迭代优化过程,在此不再赘述。
步骤5.4,得到l维实值向量及其中值向量
步骤5.5,采用m为阈值对实值向量进行二值化,得到哈希码Y;
哈希码Y即为训练样本集语料X映射后的l维二进制编码集合。
步骤5.6,由步骤5.3得到M+1个l维线性哈希函数及调和系数向量α;
在线预测阶段:
输入:哈希函数,最优多粒度主题模型O={T1,T2,...,TM},权重向量μ={μ(T1),μ(T2),...,μ(TM)},查询文本q;
输出:查询文本的哈希码yq
步骤1,在线查询样本q原始特征的TF-IDF特征w,并进行归一化;
该步骤类似于离线训练阶段步骤3,在此不再赘述。
步骤2,从最优的M个主题模型中抽取多粒度主题特征{θ1,θ2,...,θM};
该步骤类似于离线训练阶段步骤4,在此不再赘述。
步骤3,通过哈希函数得到查询文本q的哈希码yq
在线查询样本q的哈希编码过程对应本发明所提出的两种多粒度主题特征融合策略:
所述策略一:基于特征层多粒度主题特征融合的在线哈希编码进一步包括以下步骤:
步骤3.1,将多粒度主题特征{θ1,θ2,...,θM}及原始特征w整合到一个高维向量中 Ω = [ λw , μ ^ 1 θ 1 , μ ^ 2 θ 2 , . . . , μ ^ M θ M ] .
步骤3.2,利用离线训练阶段中第一种哈希学习策略的步骤5.6得到的哈希函数,l个线性支持向量机二值分类器对高维特征Ω进行二分类得到查询样本q的l维哈希码。即,l维哈希码的每一维为一个(0,1)的二分类问题,利用训练好的线性支持向量机进行查询样本的哈希码预测。
所述策略二:基于决策层多粒度主题特征融合的在线哈希编码进一步包括以下步骤:
步骤3.1,由前面两步骤得到查询样本q的M+1种特征{w,θ1,θ2,...,θM};
步骤3.2,利用离线训练阶段中第二种哈希学习策略的步骤5.3得到的哈希函数,M+1个l维线性函数{W(1),W(2),...,W(M+1)}及输出权重向量α对于M+1种特征进行映射,得到l维实值低维向量
y ~ q = α 1 · W ( 1 ) w , α 2 · W ( 2 ) θ 1 , . . . , α M + 1 · W ( M + 1 ) θ M + 1 } - - - ( 10 )
步骤3.3,采用m为阈值对实值向量进行二值化,得到哈希码yq
哈希码yq即为查询样本q映射后的l维二进制编码。
完成以上所述步骤后,查询文本的语义相似检索则直接通过在线预测阶段得到的哈希码yq在二值汉明空间中对训练文本集的哈希码集合Y进行匹配搜索,以汉明距离为评价标准对结果进行排序,得到查询文本的语义相似文本集合。
作为一个优选实施例,本发明也可以将离线训练阶段选用的大规模语料库和由此训练得到的最优多粒度主题模型O={T1,T2,...,TM}、权重向量μ={μ(T1),μ(T2),...,μ(TN)}、哈希函数等存储在系统中,以供以后在线预测阶段多次调用,而不必每次均执行离线训练阶段的步骤。
为了全面准确的评估本发明所提出的方法的性能,本发明采用精度(Precision)、召回率(Recall)来评价本发明方法的总体效果。相关指标为本信息检索领域通用指标,在此不再赘述。由于短文本数据集的原始特征不能很好的反映文档间的语义相似关系,本发明试验中通过判别两个样本之间是否共享任意标签来决定是否为语义相关文本。本发明试验中的所有评测指标结果为所有测试样本在训练样本集检索结果的平均值。
本发明试验中采用一种公开短文本数据集SearchSnippets,该数据集包含有8种类别文本。本发明实验中进一步对该数据集去停用词和词干还原,最终剩余20139个词特征,10059个训练样本,2279个测试样本。
本发明试验采用以下对比哈希方法:
对比方法一,自学习哈希方法:该方法是一种典型的两步哈希方法,第一步采用文本原始特征进行拉普拉斯特征降维,通过中值向量进行二值化后得哈希码。第二步阶段,由前一阶段生成训练样本原始特征及对应的l维哈希码,训练l个二值支持向量机分类器作为哈希函数;
对比方法二,监督型自学习哈希方法:该方法是对比方法一的一个改进版,加入全监督信息作为约束。在构建局部相似度矩阵s时,只考虑具有相同类别标签的样本间相似度;
对比方法三:位置敏感哈希:该方法是目前应用最广泛的哈希方法,通过随机映射方式产生l个超平面作为哈希映射函数。
由于本发明旨在验证融入多粒度主题特征能够明显改善短文本哈希学习方法,因而本发明试验只考虑文本集的隐层主题特征而暂不考虑关键词特征。即需设置公式(2)中的λ=0,公式(9)中只保留M个特征参与哈希学习。
本发明试验首先依据训练集数据类型选择出最优多粒度主题模型,最优选择流程对应本发明离线训练阶段步骤2,且图2为该步骤流程图。所有候选主题模型进行权重更新结果见表1。由于本发明试验中根据经验设置最优主题模型粒度数为M=3,因而最优多粒度主题模型为{10,30,50}。
表1基于本发明的多粒度选择方法的不同候选主题模型权重值
主题模型/主题数 10 30 50 70 90 120 150
权重值/μ(Ti) 11.3 5.6 3.3 2.4 1.8 1.2 1.0
为了有效地对比本发明方法及其他对比方法在标签信息丢失或不全情况下的鲁棒性能,本发明试验中随机移除60%的标签信息。图5是本发明哈希学习方法、自学习哈希、监督型自学习哈希以及位置敏感哈希在不同哈希码位数(=4∶4∶64),特定汉明距离(=3)下的精度、召回结果曲线。图6是本发明哈希学习方法、自学习哈希、监督型自学习哈希以及位置敏感哈希在特定哈希码位数(=16,32)下的精度、召回结果曲线。可以看出,本发明方法中的两种哈希学习策略明显优于其他对比方法。其中,监督型自学习哈希虽然采用了标签信息,但由于该方法采用的全监督方法约束过强,标签信息不全时不能有效构建样本集之间的语义相似度关系而导致哈希编码性能变差。
图7中对比了本发明哈希学习方法中两种多粒度主题特征融合策略在不同标签使用率情况,不同哈希码位数(=4∶4∶64),特定汉明距离(=3)下的精度、召回结果曲线。可以看出在本发明的两种方法中,标签使用率对哈希编码性能影响明显,且标签使用率越多,改善哈希学习性能越明显。在下面的试验中,本发明保留全部标签信息以提高哈希编码性能。
下面试验中,主要对比本发明中最优多粒度主题特征与单粒度主题特征及其他多粒度主题特征融入哈希学习中的性能影响。同时,为了验证多粒度主题特征间权衡系数的有效性,本发明试验中将其统一固定为1。具体地,将本发明方法一中公式(2)的参数及本发明方法二中公式(9)中的参数αi都设置为1。
图8是本发明哈希学习方法中两种多粒度主题特征融合策略基于最优多粒度主题相对于单粒度主题在不同哈希码位数(=4∶4∶64),特定汉明距离(=3)下的精度、召回结果曲线。图9是本发明哈希学习方法中两种多粒度主题特征融合策略基于最优多粒度主题相对于其他多粒度主题在不同哈希码位数(=4∶4∶64),特定汉明距离(=3)下的精度、召回结果曲线。从图8中可以清晰地看出,融入最优多粒度主题特征的哈希学习方法明显优于融入单粒度主题特征的哈希学习方法。而在图9结果中,可以看出,多种融入多粒度主题特征的哈希学习方法之间性能差异性并不明显。
为了更加清晰容易地对比如上所述各种方法性能,本发明试验在表2-4中报告了量化性能结果。
表2本发明方法两种策略基于最优多粒度主题相对于单粒度主题及其他多粒度主题在特定哈希码位数(=8,16,32)、特定汉明距离(=3)下的精度、召回结果值
表3本发明方法两种策略基于最优多粒度主题相对于单粒度主题及其他多粒度主题在特定哈希码位数(=8,16,32)、特定汉明距离(=3)下的前100检索结果的精度值
表4本发明方法两种策略基于最优多粒度主题相对于单粒度主题及其他多粒度主题在特定哈希码位数(=8,16,32)、特定汉明距离(=3)下的前200检索结果的精度值
其中,表2是本发明方法两种策略基于最优多粒度主题相对于单粒度主题及其他多粒度主题在特定哈希码位数(=8,16,32),特定汉明距离(=3)下的精度、召回结果值。表3是本发明方法两种策略基于最优多粒度主题相对于单粒度主题及其他多粒度主题在特定哈希码位数(=8,16,32),特定汉明距离(=3)下的前100检索结果的精度值。表4是本发明方法两种策略基于最优多粒度主题相对于单粒度主题及其他多粒度主题在特定哈希码位数(=8,16,32),特定汉明距离(=3)下的前200检索结果的精度值。从本发明量化的试验结果中,同样可以看出融入最优多粒度主题特征的哈希学习方法性能明显由于融入单粒度主题特征的哈希学习方法。同时,在考虑的多种不同的多粒度主题模型中,融入最优多粒度主题特征的两种哈希学习策略在多数情况下都表现出最优性能结果。
综上所述,本发明提出了一种基于多粒度主题模型的短文本哈希学习方法,该方法能够根据特定数据集类型选择最优的多粒度主题模型,并提供两种不同的融入多粒度主题特征的哈希学习框架以改善短文本哈希性能。实验证明了本发明方法较以往方法,能够大幅提高基于哈希编码的语义相似检索性能。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于多粒度主题模型的短文本哈希离线训练方法,包括以下步骤:
步骤1,利用大规模语料库训练N个候选主题模型T={T1,T2,...,TN},其中所述大规模语料库为外部通用的大规模语料库,N为训练得到的候选主题模型的数目,为一个正整数;
步骤2,从训练集X中随即抽取一部分带有标签信息的样本选择M个最优多粒度主题模型集合及对应权重μ={μ(T1),μ(T2),...,μ(TN)},其中,M为预先设定的最优多粒度主题模型的数目,为一个正整数;
步骤3,计算训练集原始特征的TF-IDF特征w,并进行归一化;
步骤4,从最优的M个主题模型中抽取多粒度主题特征{θ1,θ2,...,θM};
步骤5,通过两种学习策略融合多粒度主题特征及标签信息进行哈希学习,得到训练集哈希码和哈希函数。
2.根据权利要求1所述的基于多粒度主题模型的短文本哈希离线训练方法,其中在步骤2中,所述选择M个最优多粒度主题模型集合及对应权重的步骤包括:
步骤2.1,从训练样本X中随机采样小部分带有标签的样本
步骤2.2,从候选的N个主题模型中抽出样本集的多粒度主题特征其中主题特征θ为文本上主题概率分布p(z|x),并初始化权重向量μ=0;
步骤2.3,开始遍历样本集合中的每个样本
步骤2.4,寻找样本的两组近邻集合
其中,集合是从同样本所带标签有任意匹配的样本集合中找到k+近邻,另一个集合是从同样本所带标签未有任意匹配的样本集合中找到k-近邻,k+=k-=10;
步骤2.5,开始遍历候选主题集合T中的每个主题模型Ti
步骤2.6,按照下面的公式(1)更新当前主题模型Ti的权重值μ(Ti):
μ ( T i ) = μ ( T i ) + Σ j = 1 k - D KL ( T i ( x ) , T i ( nn j - ( x ) ) ) k - - Σ p = 1 k + D kL ( T i ( x ) , T i ( nn p + ( x ) ) ) k + - - - ( 1 )
其中:
D KL ( T i ( x ) , T i ( nn j - ( x ) ) ) = 1 2 Σ z k ∈ T i ( p ( z k | x ) · log ( p ( z k | x ) p ( z k | nn j - ( x ) ) ) + p ( z k | nn j - ( x ) ) · log ( p ( z k | nn j - ( x ) ) p ( z k | x ) ) ) ,
D KL ( T i ( x ) , T i ( nn j + ( x ) ) ) = 1 2 Σ z k ∈ T i ( p ( z k | x ) · log ( p ( z k | x ) p ( z k | nn j + ( x ) ) ) + p ( z k | nn j + ( x ) ) · log ( p ( z k | nn j + ( x ) ) p ( z k | x ) ) ) ;
步骤2.7,判断候选主题模型T是否已经全部遍历完毕,若是则继续,若否则跳转至步骤2.5;
步骤2.8,判断样本集合是否已经全部遍历完毕,若是则继续,若否则跳转至步骤2.3;
步骤2.9,权重向量更新完毕之后,直接根据前M个最高权重值选出对应的主题模型集合O,即为最优多粒度主题模型。
3.根据权利要求1所述的基于多粒度主题模型的短文本哈希离线训练方法,其中在步骤5中,所述两种学习策略如下所示:
第一策略,基于多粒度主题特征融合、哈希码学习同哈希函数训练相独立的学习方法,包括以下步骤:
步骤5.1,将多粒度主题特征{θ1,θ2,...,θM}及原始特征w整合到一个高维向量中:
Ω = [ λw , μ ^ 1 θ 1 , μ ^ 2 θ 2 , . . . , μ ^ M θ M ]
其中,λ为原始特征与多粒度主题特征的权衡系数,为多粒度主题特征之间的权重调节系数:
步骤5.2,基于高维特征Ω构造相似度矩阵s,同时引入标签信息增强相关文本间的语义相似度;
构建局部相似度矩阵,并重新定义文本之间的相似度计算方法如下:
其中,NNk(x)表示样本x的k近邻集合,cij为置信系数;当两个样本xi和xj共享任意相同标签时(Tij=1),置cij一个较高的值a;相反地,如果两个样本xi和xj不相关时(Tij=0),置cij一个较低的值b,如下所示:
c ij = a , if T ij = 1 b , if T ij = 0
其中,参数a和b满足1≥a≥b>0;
步骤5.3,引入到两步哈希方法中进行学习;
通过引入一个两阶段的自学习式哈希框架,哈希码和哈希函数可独立学习,优化目标函数如下:
min Y Σ i , j = 1 n S ij | | y i - y j | | F 2
s.t.Y∈{-1,1}n×l,YT1=0,YTY=I
其中,Sij是基于高维特征Ω构造的局部相似度矩阵,yi是文本xi的哈希码,||·||F是F-范数;通过松弛哈希码离散化的约束条件Y∈{-1,1}n×l,最优的l维实值向量可以通过求解拉普拉斯特征映射问题解决;
步骤5.4,得到l维实值向量及其中值向量
步骤5.5,采用m为阈值对实值向量进行二值化,得到哈希码Y;所述哈希码Y即为训练样本集语料X映射后的l维二进制编码集合;
步骤5.6,训练l个线性支持向量机分类器;
基于前面得到的l维哈希码及现有训练集语料X的特征集合学习l个线性支持向量机二值分类器f(x)=sgn(wTx),输出为0或1;以及
第二策略,基于多粒度主题特征独立、哈希码学习同哈希函数训练相耦合的学习方法,包括以下步骤:
步骤5.1,提取训练样本集X的M+1种特征集合{w,θ1,θ2,...,θM};
步骤5.2,基于M+1种特征构造M+1个相似度矩阵集合{S1,S2,...,SM+1},同时引入标签信息增强相关文本间的语义相似度;构建局部相似度矩阵,并重新定义文本之间的相似度计算方法如下:
其中,NNk(x)表示样本x的k近邻集合,cij为置信系数;当两个样本xi和xj共享任意相同标签时(Tij=1),置cij一个较高的值a;相反地,如果两个样本xi和xj不相关时(Tij=0),置cij一个较低的值b,如下所示:
c ij = a , if T ij = 1 b , if T ij = 0
其中,参数a和b满足1≥a≥b>0;
步骤5.3,引入到多源哈希方法中进行学习;
通过引入一种多源哈希学习框架,同时进行哈希码和哈希函数学习;直接对M+1种特征所对应的相似度矩阵{S1,S2,...,SM+1}进行线性组合,如下:
Σ k = 1 M + 1 Σ i , j = 1 n S ij ( k ) | | y i - y j | | F 2
其中,是第k个特征对应的相似度矩阵;通过引入一个n×n对角矩阵D(k),其对角元素则上式可重新为如下形式:
tr ( Y T Σ k = 1 M + 1 ( D ( k ) - S ( k ) ) Y ) = tr ( Y T Σ k = 1 M + 1 L ( k ) Y )
其中,L(k)是定义在第k个特征上的拉普拉斯矩阵;该步骤整体优化目标函数如下:
min Y , W , α J ( Y , W , α ) = C 1 tr ( Y T Σ k = 1 M + 1 L ~ ( k ) Y ) + C 2 | | Y - Σ k = 1 M + 1 α k ( W ( k ) ) T X ( k ) | | F 2 + Σ k = 1 M + 1 | | W ( k ) | | F 2
s.t.Y∈{-1,1}n×k,YT1=0,YTY=I,αT1=1,α≥0
其中,C1和C2是权衡系数,通过交叉验证方式进行参数寻优;α为M+1维调和系数向量,来权衡M+1种特征的线性函数输出权重;松弛哈希码离散化的约束条件Y∈{-1,1}n×l,并参考多源哈希学习方法中的迭代优化过程进行求解,可得到l维实值向量M+1维调和系数向量α,及M+1个线性函数{W(1),W(2),...,W(M+1)};
步骤5.4,得到l维实值向量及其中值向量
步骤5.5,采用m为阈值对实值向量进行二值化,得到哈希码Y;
步骤5.6,由步骤5.3得到M+1个l维线性哈希函数及调和系数向量α。
4.一种基于多粒度主题模型的短文本哈希检索方法,包括以下步骤:
步骤1,计算查询文本q的TF-IDF特征w,并进行归一化;
步骤2,对如权利要求1至3任意一项所述的基于多粒度主题模型的短文本哈希离线训练方法中选定的训练文本集X进行主题特征抽取,从最优的M个主题模型中抽取多粒度主题特征{θ1,θ2,...,θM};
步骤3,通过如权利要求1至3任意一项所述的基于多粒度主题模型的短文本哈希离线训练方法得到的哈希函数得到所述查询文本的哈希码yq
步骤4,通过所述查询文本的哈希码在二值汉明空间中进行匹配搜索来对所述查询文本进行语义相似检索。
5.根据权利要求4所述的基于多粒度主题模型的短文本哈希检索方法,其中在步骤3中所述通过哈希函数得到查询文本的哈希码的步骤包括:
第一策略,基于多粒度主题特征融合、哈希码学习同哈希函数训练相独立的学习方法的在线哈希编码步骤包括:
步骤3.1,将多粒度主题特征{θ1,θ2,...,θM}及原始特征w整合到一个高维向量中 Ω = [ λw , μ ^ 1 θ 1 , μ ^ 2 θ 2 , . . . , μ ^ M θ M ] ;
步骤3.2,通过如权利要求1至3任意一项所述的基于多粒度主题模型的短文本哈希离线训练方法得到的l个线性支持向量机二值分类器对高维特征Ω进行二分类得到查询样本q的l维哈希码;或者
第二策略,基于多粒度主题特征独立、哈希码学习同哈希函数训练相耦合的学习方法的在线哈希编码步骤包括:
步骤3.1,得到查询样本q的M+1种特征{w,θ1,θ2,...,θM};
步骤3.2,通过如权利要求1至3任意一项所述的基于多粒度主题模型的短文本哈希离线训练方法得到的M+1个l维线性函数{W(1),W(2),...,W(M+1)}及输出权重向量α进行映射,得到l维实值低维向量
y ~ q = α 1 · W ( 1 ) w , α 2 · W ( 2 ) θ 1 , . . . , α M + 1 · W ( M + 1 ) θ M + 1 } - - - ( 10 ) ;
步骤3.3,采用m为阈值对实值向量进行二值化,得到哈希码yq
6.一种基于多粒度主题的短文本哈希学习方法,包括以下步骤:
离线训练阶段,通过大规模语料库对输入的短文本训练集X={x1,x2,...,xn}、对应标签信息t={t1,t2,...,tn}及最优多粒度主题数M进行离线训练,得到所述短文本训练集的哈希码和哈希函数、最优多粒度主题模型O={T1,T2,...,TM}和权重向量μ={μ(T1),μ(T2),...,μ(TN)};以及
在线预测阶段,根据所述离线训练阶段得到的哈希函数、最优多粒度主题模型O={T1,T2,...,TM},权重向量μ={μ(T1),μ(T2),...,μ(TN)}计算待查询文本的哈希码和哈希函数,通过哈希码在二值汉明空间中进行匹配搜索来对查询文本进行语义相似检索。
7.根据权利要求6所述的基于多粒度主题的短文本哈希学习方法,其中所述离线训练阶段采用如权利要求1至3任意一项所述的基于多粒度主题模型的短文本哈希离线训练方法来得到所述短文本训练集的哈希码和哈希函数、最优多粒度主题模型O={T1,T2,...,TM}和权重向量μ={μ(T1),μ(T2),...,μ(TN)}。
8.根据权利要求6所述的基于多粒度主题的短文本哈希学习方法,其中所述在线预测阶段采用如权利要求4或5所述的基于多粒度主题模型的短文本哈希检索方法来根据所述离线训练阶段得到的哈希函数、最优多粒度主题模型O={T1,T2,...,TM},权重向量μ={μ(T1),μ(T2),...,μ(TN)}计算待查询文本的哈希码和哈希函数。
CN201410729347.XA 2014-12-03 2014-12-03 一种基于多粒度主题模型的短文本哈希学习方法 Active CN104408153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410729347.XA CN104408153B (zh) 2014-12-03 2014-12-03 一种基于多粒度主题模型的短文本哈希学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410729347.XA CN104408153B (zh) 2014-12-03 2014-12-03 一种基于多粒度主题模型的短文本哈希学习方法

Publications (2)

Publication Number Publication Date
CN104408153A true CN104408153A (zh) 2015-03-11
CN104408153B CN104408153B (zh) 2018-07-31

Family

ID=52645784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410729347.XA Active CN104408153B (zh) 2014-12-03 2014-12-03 一种基于多粒度主题模型的短文本哈希学习方法

Country Status (1)

Country Link
CN (1) CN104408153B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778234A (zh) * 2015-03-31 2015-07-15 南京邮电大学 基于局部敏感哈希技术的多标记文件近邻查询方法
CN105631018A (zh) * 2015-12-29 2016-06-01 上海交通大学 基于主题模型的文章特征抽取方法
CN106776553A (zh) * 2016-12-07 2017-05-31 中山大学 一种基于深度学习的非对称文本哈希方法
CN106777335A (zh) * 2017-01-13 2017-05-31 深圳爱拼信息科技有限公司 一种基于长短期记忆(lstm)模型的多标签行业分类方法及装置
CN106815244A (zh) * 2015-11-30 2017-06-09 北京国双科技有限公司 文本向量表示方法及装置
CN106844345A (zh) * 2017-02-06 2017-06-13 厦门大学 一种基于参数线性约束的多任务分词方法
CN107015961A (zh) * 2016-01-27 2017-08-04 中文在线数字出版集团股份有限公司 一种文本相似性比对方法
CN107315731A (zh) * 2016-04-27 2017-11-03 北京京东尚科信息技术有限公司 文本相似度计算方法
CN108280180A (zh) * 2018-01-23 2018-07-13 北京航空航天大学 一种基于主题模型的半监督哈希算法
CN108519993A (zh) * 2018-03-02 2018-09-11 华南理工大学 基于多数据流计算的社交网络热点事件检测方法
CN108549915A (zh) * 2018-04-27 2018-09-18 成都考拉悠然科技有限公司 基于二值权重的图像哈希码训练模型算法及分类学习方法
CN108596687A (zh) * 2018-05-09 2018-09-28 南京大学 一种基于哈希学习的广告定向投放方法
CN108763367A (zh) * 2018-05-17 2018-11-06 南京大学 一种基于深度对齐矩阵分解模型进行学术论文推荐的方法
CN108875057A (zh) * 2018-06-29 2018-11-23 北京百度网讯科技有限公司 用于确定数据主题的方法、装置、设备和计算机可读介质
CN109299273A (zh) * 2018-11-02 2019-02-01 广州语义科技有限公司 基于改进seq2seq模型的多源多标签文本分类方法及其系统
CN110704624A (zh) * 2019-09-30 2020-01-17 武汉大学 一种地理信息服务元数据文本多层级多标签分类方法
CN111125411A (zh) * 2019-12-20 2020-05-08 昆明理工大学 一种深度强相关哈希学习的大规模图像检索方法
CN111310438A (zh) * 2020-02-20 2020-06-19 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN112016004A (zh) * 2020-08-21 2020-12-01 重庆邮电大学 一种基于多粒度信息融合的职务犯罪筛查系统及方法
CN113704513A (zh) * 2021-07-27 2021-11-26 北京三快在线科技有限公司 一种模型训练的方法、信息展示的方法以及装置
US11373041B2 (en) 2020-09-18 2022-06-28 International Business Machines Corporation Text classification using models with complementary granularity and accuracy
CN115658730A (zh) * 2022-09-20 2023-01-31 中国科学院自动化研究所 稀疏数据的查询方法、装置、设备和计算机可读存储介质
CN116775849A (zh) * 2023-08-23 2023-09-19 成都运荔枝科技有限公司 一种线上问题处理系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377769A (zh) * 2007-08-29 2009-03-04 中国科学院自动化研究所 一种文本信息的多粒度表示方法
CN101710334A (zh) * 2009-12-04 2010-05-19 大连理工大学 基于图像哈希的大规模图像库检索方法
WO2012105967A1 (en) * 2011-02-01 2012-08-09 Limelight Networks, Inc. Asset management architecture for content delivery networks
CN104090957A (zh) * 2014-03-10 2014-10-08 中国科学院软件研究所 一种异构网络可交互可视化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101377769A (zh) * 2007-08-29 2009-03-04 中国科学院自动化研究所 一种文本信息的多粒度表示方法
CN101710334A (zh) * 2009-12-04 2010-05-19 大连理工大学 基于图像哈希的大规模图像库检索方法
WO2012105967A1 (en) * 2011-02-01 2012-08-09 Limelight Networks, Inc. Asset management architecture for content delivery networks
CN104090957A (zh) * 2014-03-10 2014-10-08 中国科学院软件研究所 一种异构网络可交互可视化方法

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778234A (zh) * 2015-03-31 2015-07-15 南京邮电大学 基于局部敏感哈希技术的多标记文件近邻查询方法
CN106815244B (zh) * 2015-11-30 2020-02-07 北京国双科技有限公司 文本向量表示方法及装置
CN106815244A (zh) * 2015-11-30 2017-06-09 北京国双科技有限公司 文本向量表示方法及装置
CN105631018B (zh) * 2015-12-29 2018-12-18 上海交通大学 基于主题模型的文章特征抽取方法
CN105631018A (zh) * 2015-12-29 2016-06-01 上海交通大学 基于主题模型的文章特征抽取方法
CN107015961A (zh) * 2016-01-27 2017-08-04 中文在线数字出版集团股份有限公司 一种文本相似性比对方法
CN107015961B (zh) * 2016-01-27 2021-06-25 中文在线数字出版集团股份有限公司 一种文本相似性比对方法
CN107315731A (zh) * 2016-04-27 2017-11-03 北京京东尚科信息技术有限公司 文本相似度计算方法
CN106776553A (zh) * 2016-12-07 2017-05-31 中山大学 一种基于深度学习的非对称文本哈希方法
CN106777335A (zh) * 2017-01-13 2017-05-31 深圳爱拼信息科技有限公司 一种基于长短期记忆(lstm)模型的多标签行业分类方法及装置
CN106844345A (zh) * 2017-02-06 2017-06-13 厦门大学 一种基于参数线性约束的多任务分词方法
CN106844345B (zh) * 2017-02-06 2019-07-09 厦门大学 一种基于参数线性约束的多任务分词方法
CN108280180A (zh) * 2018-01-23 2018-07-13 北京航空航天大学 一种基于主题模型的半监督哈希算法
CN108280180B (zh) * 2018-01-23 2022-05-13 北京航空航天大学 一种基于主题模型的半监督哈希算法的检索方法
CN108519993A (zh) * 2018-03-02 2018-09-11 华南理工大学 基于多数据流计算的社交网络热点事件检测方法
CN108549915A (zh) * 2018-04-27 2018-09-18 成都考拉悠然科技有限公司 基于二值权重的图像哈希码训练模型算法及分类学习方法
CN108549915B (zh) * 2018-04-27 2021-06-15 成都考拉悠然科技有限公司 基于二值权重的图像哈希码训练模型算法及分类学习方法
CN108596687A (zh) * 2018-05-09 2018-09-28 南京大学 一种基于哈希学习的广告定向投放方法
CN108596687B (zh) * 2018-05-09 2021-07-09 南京大学 一种基于哈希学习的广告定向投放方法
CN108763367A (zh) * 2018-05-17 2018-11-06 南京大学 一种基于深度对齐矩阵分解模型进行学术论文推荐的方法
CN108763367B (zh) * 2018-05-17 2020-07-10 南京大学 一种基于深度对齐矩阵分解模型进行学术论文推荐的方法
CN108875057A (zh) * 2018-06-29 2018-11-23 北京百度网讯科技有限公司 用于确定数据主题的方法、装置、设备和计算机可读介质
CN108875057B (zh) * 2018-06-29 2021-08-27 北京百度网讯科技有限公司 用于确定数据主题的方法、装置、设备和计算机可读介质
CN109299273A (zh) * 2018-11-02 2019-02-01 广州语义科技有限公司 基于改进seq2seq模型的多源多标签文本分类方法及其系统
CN110704624B (zh) * 2019-09-30 2021-08-10 武汉大学 一种地理信息服务元数据文本多层级多标签分类方法
CN110704624A (zh) * 2019-09-30 2020-01-17 武汉大学 一种地理信息服务元数据文本多层级多标签分类方法
CN111125411B (zh) * 2019-12-20 2022-06-21 昆明理工大学 一种深度强相关哈希学习的大规模图像检索方法
CN111125411A (zh) * 2019-12-20 2020-05-08 昆明理工大学 一种深度强相关哈希学习的大规模图像检索方法
CN111310438A (zh) * 2020-02-20 2020-06-19 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN112016004A (zh) * 2020-08-21 2020-12-01 重庆邮电大学 一种基于多粒度信息融合的职务犯罪筛查系统及方法
US11373041B2 (en) 2020-09-18 2022-06-28 International Business Machines Corporation Text classification using models with complementary granularity and accuracy
CN113704513A (zh) * 2021-07-27 2021-11-26 北京三快在线科技有限公司 一种模型训练的方法、信息展示的方法以及装置
CN113704513B (zh) * 2021-07-27 2023-03-24 北京三快在线科技有限公司 一种模型训练的方法、信息展示的方法以及装置
CN115658730A (zh) * 2022-09-20 2023-01-31 中国科学院自动化研究所 稀疏数据的查询方法、装置、设备和计算机可读存储介质
CN115658730B (zh) * 2022-09-20 2024-02-13 中国科学院自动化研究所 稀疏数据的查询方法、装置、设备和计算机可读存储介质
CN116775849A (zh) * 2023-08-23 2023-09-19 成都运荔枝科技有限公司 一种线上问题处理系统及方法
CN116775849B (zh) * 2023-08-23 2023-10-24 成都运荔枝科技有限公司 一种线上问题处理系统及方法

Also Published As

Publication number Publication date
CN104408153B (zh) 2018-07-31

Similar Documents

Publication Publication Date Title
CN104408153A (zh) 一种基于多粒度主题模型的短文本哈希学习方法
CN109684440B (zh) 基于层级标注的地址相似度度量方法
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
CN104951548B (zh) 一种负面舆情指数的计算方法及系统
CN109635280A (zh) 一种基于标注的事件抽取方法
CN106557462A (zh) 命名实体识别方法和系统
CN103049470B (zh) 基于情感相关度的观点检索方法
CN105469096A (zh) 一种基于哈希二值编码的特征袋图像检索方法
CN107291688A (zh) 基于主题模型的裁判文书相似度分析方法
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN107193797A (zh) 中文微博的热点话题检测及趋势预测方法
CN105893609A (zh) 一种基于加权混合的移动app推荐方法
CN108875809A (zh) 联合attention机制与神经网络的生物医学实体关系分类方法
CN106126751A (zh) 一种具有时间适应性的分类方法及装置
CN110415071B (zh) 一种基于观点挖掘分析的汽车竞品对比方法
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
CN106127242A (zh) 基于集成学习的年极端降水预测系统及其预测方法
CN105389505A (zh) 基于栈式稀疏自编码器的托攻击检测方法
CN111709244A (zh) 一种用于矛盾纠纷事件因果关系识别的深度学习方法
CN112215001A (zh) 一种谣言识别方法及系统
CN104317837A (zh) 一种基于主题模型的跨模态检索方法
CN109325125A (zh) 一种基于cnn优化的社交网络谣言方法
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
Nguyen et al. Adaptive name entity recognition under highly unbalanced data
CN110245234A (zh) 一种基于本体和语义相似度的多源数据样本关联方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant