CN108470025A - 局部话题概率生成正则化自编码文本嵌入表示方法 - Google Patents

局部话题概率生成正则化自编码文本嵌入表示方法 Download PDF

Info

Publication number
CN108470025A
CN108470025A CN201810235907.4A CN201810235907A CN108470025A CN 108470025 A CN108470025 A CN 108470025A CN 201810235907 A CN201810235907 A CN 201810235907A CN 108470025 A CN108470025 A CN 108470025A
Authority
CN
China
Prior art keywords
text
subspace
pseudo
neighbor
constructing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810235907.4A
Other languages
English (en)
Inventor
潘丽敏
董思佳
罗森林
魏超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201810235907.4A priority Critical patent/CN108470025A/zh
Publication of CN108470025A publication Critical patent/CN108470025A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及局部话题概率生成正则化自编码文本嵌入表示方法,属于自然语言处理与机器学习领域。本发明首先实现文本集近邻图的构建,包括计算任意文本词对相似性权重、查找文本对的最大加权匹配距离、计算平均化最大加权匹配距离(NMD)相似度、根据NMD结果选择k最近邻并以NMD结果作为边权构建近邻图;然后通过近邻图上直推式多代理随机游走过程构建子空间,进行子空间判定;最后利用子空间的LDA模型生成伪文本,并将伪文本作为正则约束项,与真实文本一起作为自编码网络的重构对象,指导编码网络对抗局部近邻文本话题概率生成结构变化,构建光滑的仿射映射。本发明可以有效保持局部近邻文本话题概率生成结构的光滑性,从而构建光滑的仿射映射函数,增强样本外文本嵌入表示向量的类内紧凑性及类间分离性,提升文本分类、聚类等应用效果。

Description

局部话题概率生成正则化自编码文本嵌入表示方法
技术领域
本发明涉及局部话题概率生成正则化自编码文本嵌入表示方法,属于自然语言处理与机器学习领域。
背景技术
为了更易估计和使用文本语义特征,文本嵌入表示方法可以通过某种特定的仿射映射来构建文本的嵌入表示向量,其广泛应用于涉及文本聚类和信息检索的信息处理系统中。为了通过保持子空间文本话题的概率生成结构的光滑性,构建光滑的仿射映射函数,增强文本嵌入表示向量的局部光滑性,提升文本聚类和分类的效果,本发明将提供融合局部近邻文本话题概率生成结构的自编码网络文本嵌入表示方法。
现有基于流形学习的文本嵌入表示方法需要解决的基本问题是:如何弥补对于邻域判定十分敏感的缺陷,并有效保持局部近邻文本话题概率生成结构的光滑性。综观现有的基于流形结构特性的文本嵌入表示方法,通常可归为两类:
1.基于矩阵因子分解的流形文本嵌入方法
矩阵因子分解技术的主要思想是通过将给定的高维观测矩阵拆解为数个矩阵的乘积,从而找到一组转换基向量对文本进行嵌入表示,其中最著名的矩阵分解技术是SVD。现有的主要的方法是:
(1)浅层语义索引(Latent Semantic Indexing,LSI)
LSI在传统的向量空间模型的基础上发展起来,该方法的基本原理是通过对VSM表征的文本-词语矩阵进行奇异值分解(SVD),并以奇异值最大k个特征向量作为潜在语义空间,构造文本的低维语义表示。LSI在SVD的基础上通过保留最大的k个奇异值(k<r),而丢弃较小的奇异值,就得到k维的潜在语义空间,利用奇异值分解进行反运算,就可以使原矩阵塌陷,找到一个保留潜在语义同时又去除了一定噪声的近似矩阵。图1展示了LSI通过截断奇异值来实现文本降维表示的过程。其中,表示文本词语矩阵,表示文本语义矩阵,表示语义词语矩阵,表示奇异值矩阵。表示利用截断矩阵和Sk经过反运算后得到的近似矩阵。但是该方法奇异值存在负值的情况,使得浅层语义的解释性变差。
(2)非负矩阵分解(NMF)
该方法能够提升浅层语义的解释性,基本原理是给定一个数据矩阵 其中xi是表示每条数据的列向量,然后找到两个非负矩阵通过这两个矩阵的线性组合可以较好的恢复原始的观测数据,
X≈UVT (1)
为了衡量这种组合与真实数据的差异,可以利用如下两种形式的损失函数:
1)两个矩阵的均方误差(即Frobenius范数),
2)两个矩阵的散度,
其中,Y=[yij]=UVT。对于一个迭代周期内,参数更新公式如下:
对于参数更新公式如下:
如果限定K<<M且K<<N,那么U就确定了一个K维的低维空间,该空间以U的每个列向量为基底,而矩阵V的每一行向量就对应着原数据的一个低维表示。
虽然NMF改善了LSI中解释性不强的问题,但是非负约束的引入,限制所有操作必须在原始观测空间上执行,导致NMF无法有效的利用核方法的理论研究成果处理非线性数据的降维表示。
(3)概念分解(Concept Factorization,CF)
该方法在NMF的基础上,将每个基底向量uk定义为原始数据的非负线性组合,计算公式如下:
其中,wjk>0,令CF的目的是求解线性近似问题,
X≈UWVT (8)
通过计算均方误差来衡量近似精确度,
CF模型中参数可以通过以下公式进行迭代式的更新,
其中,K=XTX,由于这种乘法规则仅涉及样本的内积操作,所以CF可以比较轻易的利用核方法。
2.基于神经网络的流形文本嵌入表示方法
(1)基于上下文信息构造文本嵌入表示向量
该类方法的代表工作是NNTR,其基本原理是首先将每个词汇进行one-hot编码,每篇文本表示为VSM形式,并将每个词汇与文本组成数据对,作为神经网络的输入,目标输出是二者之间的匹配得分,即如果词汇出现在当前的文本上下文中,那么神经网络就赋予一个较高的得分,反之赋予较低得分。这种做法能够将词汇与上下文之间的依赖关系融入到文本嵌入表示的过程中,相比于VSM等传统模型,可以较好的利用词汇间的语义依赖关系。
(2)基于信息重构构造文本嵌入表示向量
该类方法的代表工作是AE,且研究方法多基于AE学习框架提出。其中降噪编码网络模型(DAE)的基本原理是将含有噪声的信号作为自编码网络的输入,以初始的清洁信号为重构目标,通过自编码的重构学习实现降噪过程,从而更好的提取数据中的本质特征。收缩编码网络模型(CAE)的基本原理是将隐藏层权重的雅克比矩阵的F范数作为正则项,使得构建的文本嵌入表示向量能够对输入数据一定程度的扰动具有收缩性,进而提升文本聚类和分类的表现。LAE模型的基本原理是在AE的框架中加入图拉普拉斯正则项作为优化目标,能够更好的保持低维嵌入表示向量的局部不变性。HSAE模型的基本原理是将海森正则项与稀疏约束共同惩罚项对编码网络施加影响,使得自编码网络同样具有了捕捉数据集局部不变结构的特性。
综上所述,现有基于流形学习的文本嵌入表示方法主要通过保持局部近邻文本的几何结构的光滑性建立仿射映射,这种做法对邻域判定十分敏感,无法有效保持局部近邻文本话题概率生成结构的光滑性,难以有效估计样本外文本的语义特征。所以本发明提出融合局部近邻文本话题概率生成结构的自编码网络文本嵌入表示方法。
发明内容
本发明的目的是为构建针对样本外文本数据的光滑仿射映射以提高文本聚类和分类的效果,提出融合局部近邻文本话题概率生成结构的自编码网络文本嵌入表示方法。
本发明的设计原理为:首先实现文本集近邻图的构建,包括计算任意文本对词对相似性权重、查找文本对的最大加权匹配距离、计算平均化最大加权匹配距离(NMD)相似度、根据NMD结果选择k最近邻并以NMD结果作为边权构建近邻图;然后通过近邻图上直推式多代理随机游走过程构建子空间,进行子空间判定;最后利用子空间的LDA模型生成伪文本,并将伪文本作为正则约束项,与真实文本一起作为自编码网络的重构对象,指导编码网络对抗局部近邻文本话题概率生成结构变化,构建光滑的仿射映射。该发明的算法原理见图2。
本发明的技术方案是通过如下步骤实现的:
步骤1,构建文本集近邻图。
步骤1.1,对任意的文本对计算词对相似性权重。
步骤1.2,查找文本对的最大加权匹配距离。
步骤1.3,通过平均化最大加权匹配距离(NMD)计算文本相似度。
步骤1.4,由NMD结果选择k最近邻并以NMD结果作为边权构建近邻图。
步骤2,采用直推式多代理随机游走方法进行子空间判定。
步骤2.1,设定惩罚系数,利用给定的文本子集训练SVM分离超平面。
步骤2.2,对于每个类别集合记录多代理随机游走结果。
步骤2.3,预测每个近邻文本,记录所有满足预测结果与当前点类别一致的文本,保存选择的已经具有标签且类别一致的近邻文本,记录结果。
步骤2.4,对于原有集合和步骤2.3的结果矩阵中每一列组合情况执行直推式学习,直到找到一种组合使误差最小,指导每个“代理人”判定“落脚点”。
步骤2.5,更新惩罚系数,重新训练SVM分离超平面,并选择非支持向量文本加入到新的标签子集中,重复步骤2.3、2.4、2.5,得到辨识子空间。
步骤3,构建仿射映射。
步骤3.1,利用LDA对辨识子空间进行话题建模,计算伪文本的词分布。
步骤3.2,基于AE正则训练构建光滑仿射映射。
有益效果
相比于基于矩阵因子分解的流形文本嵌入方法,本发明可以有效解决样本外文本嵌入表示问题。
相比于基于神经网络的流形文本嵌入表示方法,本发明可以有效保持局部近邻文本话题概率生成结构的光滑性。
附图说明
图1为背景技术中LSI的奇异值截断降维过程原理图。
图2为局部话题概率生成正则化自编码文本嵌入表示方法的原理图。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合实施例对本发明方法的实施方式做进一步详细说明。
选取20newsgroups、Amazon reviews和RCV1公开数据集,其中20newsgroups包含20个不同主题的新闻讨论组,Amazon reviews由亚马逊网站上关于商品的140多万条评论组成,选取其中10类商品的相关评论,RCV1有超过80万个手动分类的新闻稿故事,选取其中3个子话题的文本。
为验证本发明方法所建立的参数化仿射映射能够提升样本外文本嵌入表示向量的光滑性且提升文本聚类和分类的效果,采用K-means算法进行文本聚类实验和1-NN算法进行文本分类实验。其中对于聚类实验,采用平均互信息(NMI)作为评价指标,对于分类实验,采用加权F值来评估最终结果的准确率。下面将对测试流程逐一说明。
具体流程为:
步骤1,构建文本集近邻图。
步骤1.1,输入一个包含m篇文本的文本集最近邻数目k值和词嵌入集合
步骤1.2,对于任意的文本对(xi,xj),计算词对相似性权重,则δst=max(σ(δ(s))t,σ(δ(t))s)。
步骤1.3,根据匈牙利算法查找文本对的最大加权匹配距离。
步骤1.4,计算NMD相似度,则
步骤1.5,根据文本对的NMD结果选择k最近邻并以NMD结果作为边权构建近邻图,得到文本集近邻图G=(X,A)。
步骤2,采用直推式多代理随机游走方法进行子空间判定。
步骤2.1,给定文本集和近邻图,采用增量设置进行子空间划定,从训练集样本中随机选择30%带标签的数据构建初始的分离超平面H0:KwT+b=0,记作Disc-LDE-30%。
步骤2.2,对于每个类别集合,记作随机选择一个文本xi作为起始点,记作Ut=0=[xi…,xi]T,并开始多代理的随机游走过程,对于类别l,其多代理随机游走记作MARWl
步骤2.3,对于每一个MARWl,在时间步骤时刻,多代理所处当前点的组合情况记作Ut,根据近邻图连通情况,随机的挑选当前点Ut的近邻文本,记作Vt,并利用SVM分离平面Ht-1对每个近邻文本执行预测,记录所有满足预测结果与当前点类别一致的文本,如果选择的近邻文本已经具有标签且类别一致,则直接保存,最后的结果记作它表示一个矩阵,每一列代表一种可能的“落脚点”组合情况。
步骤2.4,对于每一个MARWl,在时间步骤时刻,采用t-1时刻设定的惩罚系数利用原有集合XC中每一列组合情况执行一个直推式学习,直到找到一种组合使取得最优的误差表现,并把此时的组合情况记作然后每个“代理人”游走到
步骤2.5,对于每一个MARWl,在时间步骤时刻,设定一个新的惩罚系数其中并利用重新训练SVM分离超平面,记作Ht,根据新的分离平面,选择那些非支持向量文本加入到新的标签子集中,重复步骤2.3、2.4、2.5,直到t=last或小于一个极小值,算法结束,最终的辨识子空间成员记作
步骤3,构建仿射映射。
步骤3.1,利用LDA对进行话题建模,并计算伪文本的词分布,伪文本的生成表示为其中θi是关于伪文本的话题分布, 是关于特定话题的词分布。
步骤3.2,基于AE正则训练构建光滑仿射映射。
步骤3.2.1,输入整个训练语料X,并随机初始化参数
步骤3.2.2,当没有满足终止条件时,对所有网络层设定Δw(l)=0,Δb(l)=0和Δc(l)=0,随机选取一个小的批量
步骤3.2.3,对于批量中任意的xi,执行前向传递,计算每一层的激励输出值。
步骤3.2.4,计算关于输入数据的偏导数,则
步骤3.2.5,计算参数的改变量:
步骤3.2.6,更新参数
步骤3.2.7,构建仿射映射的参数
测试结果:采用K-means聚类算法进行实验时,对于20newsgroups,在50维时NMI达到67.24%,对于Amazon reviews,在100维时NMI达到66.52%,对于RCV1,在80维时达到71.62%。采用1-NN算法进行分类实验时,对于20newsgroups,在60%训练样本数据和180维时达到82.88%,对于Amazon reviews,在300维时达到73.66%,对于RCV1,在120维时达到72.84%。实验测试结果证明了本发明方法不仅增强了类内的紧凑性,而且提升了类间的分离特性,从而使得嵌入表示的辨识性得到了显著改善。本发明可以有效保持局部近邻文本话题概率生成结构的光滑性,从而构建光滑的仿射映射函数,增强样本外文本嵌入表示向量的类内紧凑性及类间分离性,提升文本分类、聚类等应用效果。

Claims (4)

1.局部话题概率生成正则化自编码文本嵌入表示方法,其特征在于所述方法包括如下步骤:
步骤1,构建文本集近邻图;
步骤2,通过近邻图上直推式多代理随机游走过程构建子空间,进行子空间判定;
步骤3,利用子空间的LDA模型生成伪文本,并将伪文本作为正则约束项,与真实文本一起作为自编码网络的重构对象,指导编码网络对抗局部近邻文本话题概率生成结构变化,从而构建光滑的仿射映射,具体包括如下步骤:
步骤3.1,利用LDA对进行话题建模,并计算伪文本的词分布,伪文本的生成表示为其中θi是关于伪文本的话题分布,是关于特定话题的词分布;
步骤3.2,基于AE正则训练构建光滑仿射映射。
2.根据权利要求1所述的局部话题概率生成正则化自编码文本嵌入表示方法,其特征在于:步骤1中构建文本集近邻图的具体过程如下:
步骤1.1,输入一个包含m篇文本的文本集最近邻数目k值和词嵌入集合
步骤1.2,对于任意的文本对(xi,xj),计算词对相似性权重,则δst=max(σ(δ(s))t,σ(δ(t))s);
步骤1.3,基于匈牙利算法查找文本对的最大加权配距离;
步骤1.4,计算平均最大加权配距离(NMD)相似度,则
步骤1.5,根据文本对的NMD结果选择k最近邻并以NMD结果作为边权构建近邻图,得到文本集近邻图G=(X,A)。
3.根据权利要求1所述的局部话题概率生成正则化自编码文本嵌入表示方法,其特征在于:步骤2中通过近邻图上直推式多代理随机游走过程构建子空间,进行子空间判定的具体过程如下:
步骤2.1,给定文本集和近邻图,采用增量设置进行子空间划定,从训练集样本中随机选择30%带标签的数据构建初始的分离超平面H0:KwT+b=0,记作Disc-LDE-30%;
步骤2.2,对于每个类别集合,记作随机选择一个文本xi作为起始点,记作Ut=0=[xi,...,xi]T,并开始多代理的随机游走过程,对于类别l,其多代理随机游走记作MARWl
步骤2.3,对于每一个MARWl,在时间步骤时刻,多代理所处当前点的组合情况记作Ut,根据近邻图连通情况,随机的挑选当前点Ut的近邻文本,记作Vt,并利用SVM分离平面Ht-1对每个近邻文本执行预测,记录所有满足预测结果与当前点类别一致的文本,如果选择的近邻文本已经具有标签且类别一致,则直接保存,最后的结果记作它表示一个矩阵,每一列代表一种可能的“落脚点”组合情况;
步骤2.4,对于每一个MARWl,在时间步骤时刻,采用t-1时刻设定的惩罚系数利用原有集合XC中每一列组合情况执行一个直推式学习,直到找到一种组合使取得最优的误差表现,并把此时的组合情况记作然后每个“代理人”游走到
步骤2.5,对于每一个MARWl,在时间步骤时刻,设定一个新的惩罚系数其中并利用重新训练SVM分离超平面,记作Ht,根据新的分离平面,选择那些非支持向量文本加入到新的标签子集中,重复步骤2.3、2.4、2.5,直到t=last或小于一个极小值,算法结束,最终的辨识子空间成员记作
4.根据权利要求1所述的局部话题概率生成正则化自编码文本嵌入表示方法,其特征在于:步骤3.2中AE正则训练构建光滑仿射映射的具体过程如下:
步骤3.2.1,输入整个训练语料X,并随机初始化参数
步骤3.2.2,当没有满足终止条件时,对所有网络层设定Δw(l)=0,Δb(l)=0和Δc(l)=0,随机选取一个小的批量
步骤3.2.3,对于批量中任意的xi,执行前向传递,计算每一层的激励输出值;
步骤3.2.4,计算关于输入数据的偏导数,则
步骤3.2.5,计算参数的改变量:
步骤3.2.6,更新参数:
步骤3.2.7,构建仿射映射的参数
CN201810235907.4A 2018-03-21 2018-03-21 局部话题概率生成正则化自编码文本嵌入表示方法 Pending CN108470025A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810235907.4A CN108470025A (zh) 2018-03-21 2018-03-21 局部话题概率生成正则化自编码文本嵌入表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810235907.4A CN108470025A (zh) 2018-03-21 2018-03-21 局部话题概率生成正则化自编码文本嵌入表示方法

Publications (1)

Publication Number Publication Date
CN108470025A true CN108470025A (zh) 2018-08-31

Family

ID=63265722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810235907.4A Pending CN108470025A (zh) 2018-03-21 2018-03-21 局部话题概率生成正则化自编码文本嵌入表示方法

Country Status (1)

Country Link
CN (1) CN108470025A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032642A (zh) * 2019-03-26 2019-07-19 广东工业大学 基于词嵌入的流形主题模型的建模方法
CN111860614A (zh) * 2020-06-30 2020-10-30 西安工程大学 基于深度子空间自表达的多标签分类方法
CN112955829A (zh) * 2018-09-29 2021-06-11 通快机床两合公司 用于平板机床的切割过程的工件嵌套
CN113158079A (zh) * 2021-04-22 2021-07-23 昆明理工大学 基于差异性案件要素的案件舆情时间线生成方法
CN116431816A (zh) * 2023-06-13 2023-07-14 浪潮电子信息产业股份有限公司 一种文献分类方法、装置、设备和计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110125837A1 (en) * 2009-11-23 2011-05-26 Hamid Hatami-Hanza Automatic Content Composition Generation
CN107220311A (zh) * 2017-05-12 2017-09-29 北京理工大学 一种利用局部嵌入话题建模的文本表示方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110125837A1 (en) * 2009-11-23 2011-05-26 Hamid Hatami-Hanza Automatic Content Composition Generation
CN107220311A (zh) * 2017-05-12 2017-09-29 北京理工大学 一种利用局部嵌入话题建模的文本表示方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHAO WEI等: "Discriminative locally document embedding: Learning a smooth affine map by approximation of the probabilistic generative structure of subspace", 《KNOWLEDGE-BASED SYSTEMS》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112955829A (zh) * 2018-09-29 2021-06-11 通快机床两合公司 用于平板机床的切割过程的工件嵌套
CN110032642A (zh) * 2019-03-26 2019-07-19 广东工业大学 基于词嵌入的流形主题模型的建模方法
CN110032642B (zh) * 2019-03-26 2022-02-11 广东工业大学 基于词嵌入的流形主题模型的建模方法
CN111860614A (zh) * 2020-06-30 2020-10-30 西安工程大学 基于深度子空间自表达的多标签分类方法
CN111860614B (zh) * 2020-06-30 2023-09-19 西安工程大学 基于深度子空间自表达的多标签分类方法
CN113158079A (zh) * 2021-04-22 2021-07-23 昆明理工大学 基于差异性案件要素的案件舆情时间线生成方法
CN113158079B (zh) * 2021-04-22 2022-06-17 昆明理工大学 基于差异性案件要素的案件舆情时间线生成方法
CN116431816A (zh) * 2023-06-13 2023-07-14 浪潮电子信息产业股份有限公司 一种文献分类方法、装置、设备和计算机可读存储介质
CN116431816B (zh) * 2023-06-13 2023-09-19 浪潮电子信息产业股份有限公司 一种文献分类方法、装置、设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110084296B (zh) 一种基于特定语义的图表示学习框架及其多标签分类方法
CN109189925B (zh) 基于点互信息的词向量模型和基于cnn的文本分类方法
CN109376242B (zh) 基于循环神经网络变体和卷积神经网络的文本分类方法
CN107526785B (zh) 文本分类方法及装置
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
CN104899253B (zh) 面向社会图像的跨模态图像-标签相关度学习方法
CN104463202B (zh) 一种多类图像半监督分类方法及系统
CN110837846B (zh) 一种图像识别模型的构建方法、图像识别方法及装置
CN111291556B (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN108470025A (zh) 局部话题概率生成正则化自编码文本嵌入表示方法
CN112800292B (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
EP3029606A2 (en) Method and apparatus for image classification with joint feature adaptation and classifier learning
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN113515632B (zh) 基于图路径知识萃取的文本分类方法
CN111125358A (zh) 一种基于超图的文本分类方法
CN111125411B (zh) 一种深度强相关哈希学习的大规模图像检索方法
CN104966105A (zh) 一种鲁棒机器错误检索方法与系统
CN112597302B (zh) 基于多维评论表示的虚假评论检测方法
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
CN109614611B (zh) 一种融合生成非对抗网络与卷积神经网络的情感分析方法
CN112163114B (zh) 一种基于特征融合的图像检索方法
CN113537304A (zh) 一种基于双向cnn的跨模态语义聚类方法
CN108805280B (zh) 一种图像检索的方法和装置
CN103559510B (zh) 一种利用相关主题模型识别社会群体行为的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180831

WD01 Invention patent application deemed withdrawn after publication