CN107220311A - 一种利用局部嵌入话题建模的文本表示方法 - Google Patents

一种利用局部嵌入话题建模的文本表示方法 Download PDF

Info

Publication number
CN107220311A
CN107220311A CN201710332228.4A CN201710332228A CN107220311A CN 107220311 A CN107220311 A CN 107220311A CN 201710332228 A CN201710332228 A CN 201710332228A CN 107220311 A CN107220311 A CN 107220311A
Authority
CN
China
Prior art keywords
text
parameter
function
word
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710332228.4A
Other languages
English (en)
Other versions
CN107220311B (zh
Inventor
罗森林
刘望桐
潘丽敏
毛炎颖
魏超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201710332228.4A priority Critical patent/CN107220311B/zh
Publication of CN107220311A publication Critical patent/CN107220311A/zh
Application granted granted Critical
Publication of CN107220311B publication Critical patent/CN107220311B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种利用局部嵌入话题建模的文本表示方法,属于计算机科学与信息检索技术领域。在该方法中,根据文本在词空间的欧氏距离选取近邻集,构造局部加权正则项,把正则项加入传统的自编码网络进行训练获得模型,进而构造一个显示映射函数,并最终利用编码网络抽取样本外文档的向量表示。本发明引入局部加权正则项,有效地保持文本所在空间的内部固有几何结构。此外,本发明生成了一个观测空间和低维流形之间的显式嵌入映射,提供了一种从样本外文本提取嵌入向量表示的简便方法。

Description

一种利用局部嵌入话题建模的文本表示方法
技术领域
本发明涉及一种利用局部嵌入话题建模的文本表示方法,属于计算机科学与信息检索技术领域。
背景技术
近年来,网络的快速发展使得文本信息比例急速增长,这对信息检索技术提出了更高的要求。文本表示作为信息检索的关键技术对于提升信息的有效获取具有重要意义。文本表示是将包含大量字符,非结构化的文档集合,转化为半结构或结构化的数据结构,进而方便计算机利用聚类,分类技术进行信息检索。经典的文本表示方法是空间向量模型(VSM),它将组成文档集合的所有词汇作为特征,并根据每篇文本中每个特征词的词频信息组成一个向量来表示该文本。但是这种表示由于孤立地看待每个词汇,忽略了词的多义和歧义性,因为在实际的信息检索中效果有限。
针对该问题的改进工作包括概率潜层语义分析(PLSA)和隐性狄利克雷分布(LDA)。它们是一种话题模型,即假设每个文本是由一系列潜在话题按照一定比例混合生成,其中,每个话题又是通过词语的某种概率分布决定。和PLSA不同的是,LDA将文本的话题混合比例假设为狄利克雷随机变量来进行建模,这使得LDA能够定义一种文本级别的概率生成模型,可以有效解决样本外文本话题建模问题。但是,它们是将文本空间看作欧式空间来挖掘隐藏话题的,这种做法并没有考虑文档所在的空间的内部固有几何结构,也没有考虑如何提取样本外文本的话题表示。对于利用局部嵌入话题建模的文本表示方法,主要解决:①保持文本所在的空间的内部固有几何结构,以区分文本在词语概率分布上的差异性;②计算观察结果和低维流形之间的嵌入映射y=fΘ(x)。
基于PLSA的话题模型包括:拉普拉斯概率潜层语义索引(LapPLSI)、局部连续话题建模(LTM),和区别性话题模型(DTM)。
在PLSA中,n(di,wj)表示单词wj出现在文本di中的次数,n(di,wj)与K个隐含话题变量{z1,z2,…,zK}中的一个变量有关。形式上,这个生成过程被描述如下:选择一个概率为P(di)的文本di;选择一个概率为P(zk|di)的潜层话题(类)zk;产生一个概率为P(wj|zk)的单词wj
1.拉普拉斯概率潜层语义索引(LapPLSI):
它的目标是最大化正则对数似然函数,如下所示:
λ是正则化参数,W是一个测量基于词共现的文本对的局部相似度的N×N矩阵。从这些数据点的最邻近曲线,得出边界权重矩阵W,定义如下:
Np(di)表示这组p的最邻近文本di.
2.局部连续话题建模(LTM):
LTM采用KL散度作为一个正则项,等式定义如下:
矩阵W和上面的相同,概率分布P(z|di)和P(z|dj)的KL散度是:
主要的区别是LapPLSA用欧式距离构造正则化矩阵,而LTM使用对比散度进行测量。通过最大化表达式(3)相当于最小化它们的正则化矩阵,得到一个在文本流形上充分光滑的条件概率分布函数P(zk|d)。
3.区别性话题模型(DTM):
DTM进一步考虑了差异文本间关系而且通过相似文本对的距离和PLSA对数似然函数差异文本对的可分辨性定义了一个新的正则项。
其中,λ是正则化参数,W是一个基于词共现测量文本对的局部相似度的N×N矩阵,
HI(di dj)是两个文件的直方图相交(HI).它的计算如下:
n(di wk)通过应用tf-idf权重计划和传统词共现的LI标准获得。
也是一个N×N矩阵用来衡量文本对的局部或者全局差异。
其中,ξ是为了避免分母为零的一个小的正值,是词共现的局部差异矩阵。通过最大化等式5,DTM会把相似的P(zk|d)给最靠近流形的文本,而分配不同的P(zk|d)给距文本流形较远的点。
然而,对于这三个模型,都不能提供一种显式的映射函数,无法有效地将已知数据的知识迁移到未知数据,这对于样本外点既不是一个概率密度也不是一个映射。
发明内容
本发明提出一种基于局部加权嵌入的半监督文本表示(L-ETM),有效地保持文本所在空间的内部固有几何结构,构造了流形的一个显式嵌入映射,提供了一种从样本外文本提取嵌入向量表示的简便方法。
本发明的技术方案包括如下内容:
首先,根据文本在词空间的欧氏距离选取近邻集,然后构造局部加权正则项,把正则项加入传统的自编码网络进行训练获得模型,进而得到嵌入映射函数,最终利用编码网络抽取样本外文本的嵌入向量表示。
步骤1,选取文本近邻集
给定一个语料库Ω={x1,x2,…,xi,…,xN},其中xi表示第i个文本的词代表达。X(i)的K个近邻表示成S(X(i))={…,S(j),…,S(K)},其中S(j)是第j个较近的近邻且它们有相同的类标签。计算每个实例(X(i),C(i))到其他文本向量的欧式距离,
C(i)是X(i)的标注,服从C(i)=C(j)和(i≠j),按d(X(i),X(j))从最低到最高选择K个最近的实例到S(X(i))。
步骤2,构造局部加权正则项
步骤2.1,通过计算正则化矩阵来近似估计各个近邻的词共现可以保持近邻的几何结构。由于不同近邻的贡献是不同的,为此,我们采用径向基核函数(RBF)为不同近邻分配加权系数在文本X(i)和它的近邻S(j)上的RBF核定义如下:
其中,X(i)={w1,w2,…,wM}而且wj是词j的tf权重。||X(i)-S(j)||被称作两个文本之间的平方欧几里得距离,σ是一个控制RBF宽度的超参数。
步骤2.2,利用RBF高斯核近似当前文本X(i)来加权近邻,正则项表示如下,
时SSE取得最小值。因此,本发明的联合损失函数表示如下,
步骤3,基于正则性约束,训练自编码网络
通过随机梯度下降算法更新参数W,b,和c使联合损失函数J(W,b,c)最小。给定一个固定的训练集{(X(1),C(1)),…(X(i),C(i)),…(X(m),C(m))},对于一个单独的训练实例(X(i),C(i)),通过随机梯度下降(SGD)训练正则化自动编码网络。基于正则项,对话题建模,给定一个文本di,词分布用X(i)={w1,w2,…,wM}表示,在词分布基础上生成话题分布Y(i)={p(z1|x),p(z2|x),…,p(zK|x)},话题分布Y可以通过编码网络生成,对话题分布Y(i)重构词分布Z(i)={p(w1|z),p(w2|z),…,p(wN|z)}。
我们用以下数学符号描述模型拟合:
nx 输入和输出的大小
ny 隐藏单元的大小
xj,j∈{1,2,...,nx} 第j个输入值,0或1
sj (k) 第j个S(k)值,词j的tf重量,S(k)是X(i)的第
k个近邻
zj,j∈{1,2,...,nx} 第j个输出
yj,j∈{1,2,...,nx} 隐藏层的第i个值
Wij 连接第i个隐藏层和第j个输入的权重
bi 隐藏层的第i个偏差
cj 输出层的第j个偏差
θ 任何个别的权重或偏差
X(i)和S(j)之间的加权系数
λ 非负的正则化参数
步骤3.1,联合损失函数可以通过以上所述修改成如下:
其中,zl=p(wl|z)=σ(WTy+c),yi=p(zi|x)=σ(WX(i)+b),σ(.)是s型激励函数,W,b,c是随机初始化的模型参数,项是权重衰减项,用于控制W的大小,防止过拟合;
步骤3.2,计算损失函数的偏微分:
步骤3.3,通过SGD算法,参数作如下更新:
其中η是学习速率,是对应变量的偏导数。循环步骤3.1,3.2,3.3,直至联合误差不再减小,此时的最优参数记为W*,b*,c*。
步骤4,利用上一步得到的最优参数构造嵌入映射函数:
p(wj|z)=gθ'(y)=σ(W*Ty+b*T) (20)
其中,σ是s型逻辑函数,然后抽取样本外文本的向量表示。
有益效果
相比于VSM方法,本发明可以构建文本的低维表示向量,适用于大数据环境下的信息检索应用。
相比于pLSA、LDA方法,本发明有效地保持环绕空间的内部固有几何结构,使话题分布在文本的领域变得平滑。
相比于LapPLSI、LTM、DTM方法,本发明生成了一个观察结果和低维流形之间的嵌入映射y=fΘ(x),提供了一种从样本外文本提取嵌入向量表示的简便方法。
相比于其他模型,本发明实用性更广,性能最稳定连贯。
附图说明
图1为本发明的局部嵌入话题建模算法原理图;
图2为实验装置的流程图;
图3为各种模型在20newsgroup上使用1-NN(上)和SVM(下)训练的平均分类性能;
图4为各种模型在RCV1上使用1-NN(上)和SVM(下)训练的平均分类性能;
具体实施方式
为了更好的说明本发明的目的和优点,下面结合附图和实例对本发明方法的实施方式做进一步详细说明。
实验中采用两个广泛应用的英语文本分类语料库(20newsgroup,RCV1)测试本发明。20newsgroup由20个相关联新闻组组成,包括20,000篇文本集合。RCV1是一个大规模多类数据集,它是由路透社获得的超过800,000份的人工分类的新闻专线故事存档。我们提取出4类文本:M11(产权投资市场)、M12(债券市场)、M131(国际银行市场)和M132(外汇交易市场)。表1展示了一些关于这些数据集的统计信息。表1展示了一些关于这些数据集的统计信息。
表1 2个语料库的统计信息,D是文本的总数。W是词汇量,是文本长度的均值,St.Dev是文本长度的标准估计差,Dtrain是训练集的数目,Dtest是测试集的数目。
为了获得一个全面的评价,我们在上述两个数据集上进行了5次实验评价。首先,我们将两个数据集随机地打乱5次,然后把每个数据集分成2部分。对于20newsgroup,我们选取6821个文本作为测试集,其他12000个样本用于构建L-ETM和其他对比模型。而对于RCV1中,我们选取69,808个文本用于测试,其余50,000个文本中训练不同的模型。其次,在第一次运行时,在训练集上进行5折交叉验证(CV),并根据实验表现确定构建所有模型的最优参数。最后,基于上述最优参数设置,在其他4份训练集上分别构建所有模型。具体实验设置流程图如图1示。
为了验证本发明构建的文本表示在文本检索的改进效果,将生成的嵌入表示向量用于文本分类实验。下面将对上述测试流程逐一进行说明,所有测试均在同一台计算机上完成,具体配置为:Intel双核CPU(主频3.0G),2.00G内存,Windows7SP1操作系统。
步骤1,执行话题建模:
步骤1.1,通过随机梯度下降最小化等式(5)来训练正则化自动编码网络,并根据在训练集1上的5-CV效果,确定构建模型的最佳参数;
步骤1.2,基于最佳参数构建一个由词空间到嵌入话题空间之间显式映射函数,进而提取测试文本的嵌入向量表示。
步骤2,利用测试文本的嵌入向量表示,通过分类算法对测试文本进行分类预测:
步骤2.1,将已经生成嵌入向量表示的测试文本平分成两份,其中一部分作为测试集,用于评估分类效果,另一部分作为分类器的训练集,我们选择了最常用的两种分类算法:1最近邻(1-NN)和支持向量机(SVM)训练分类模型;
步骤2.2,上述两种分类器通过增量实验训练得到,具体训练集和测试集比例为:1:5,3:5和5:5。最后分类实验结果使用F值的加权平均值进行评估,值越高表示分类性能越好。计算形式如下:
其中ci是实例在测试集的i类中所占的比例,C是测试集的大小。Fi是分类i中的F值,它可以在精确率Pi和召回率Ri基础上计算得来。精确率Pi,召回率Ri和分类i中的F值Fi定义如下:
图2表示所有方法在20newsgroup数据集上的两种分类算法(1-NN(上)和SVM(下))运行5次得到平均值从左到右的图是当训练大小为10%,30%和50%时的分类性能,图中这些点表示平均值和标准差。当训练集等于测试集(右列)时,L-ETM把平均提升到80.09%(1-NN)和82.09%(SVM)。当训练集和测试集之比为1.5(右列)时,L-ETM的贡献比其他维持在77.83%(1-NN)和80.17%(SVM)的模型更大。图2显示,本发明使分类性能显著提高,且性能始终是最稳定的。这些好性能可以归结于本发明考虑了数据空间的局部一致性。
图3表示所有方法在RCV1上运行5次语料库得到平均值如图3所示。从左到右的图是当训练大小为10%,30%,50%的分类性能,图中这些点表示平均值和标准差。本发明把平均提升到了接近78%,优于其他模型。同时,和其他训练集相比,性能最稳定连贯。
图2和图3证明了本发明对于确定语义标注提供了更好的泛化能力。这是因为本发明不仅近似给定的文本还近似属于相同组的加权近邻。最终,本发明在近邻附近变化平滑,并且对于分布在近邻范围的文本可以分配更相似的嵌入向量表示。此外,和其他流形方法(DTM,LTM和LapPLSI)不同,本发明能够从样本外挖掘嵌入向量表示。这是因为编码器在观察空间和流形空间之间提供了一个明确的映射函数。

Claims (3)

1.一种利用局部嵌入话题建模的文本表示方法,所述方法包括以下步骤:
步骤1,根据文本在词空间的欧氏距离选取近邻集;
步骤2,利用近邻集构造局部加权正则项;
步骤2.1,给定一个文本di,词分布用X(i)={w1,w2,…,wM}表示,在词分布基础上生成话题分布Y(i)={p(z1|x),p(z2|x),…,p(zK|x)},对话题分布Y(i)重构词分布Z(i)={p(w1|z),p(w2|z),…,p(wN|z)},采用径向基核函数(RBF)为不同近邻分配加权系数计算公式如下:
其中,X(i)={w1,w2,…,wM},wj是词j的tf权重,||X(i)-S(j)||是两个文本之间的平方欧几里得距离,σ是RBF函数的非负的宽度参数,取值范围(0,1],控制了径向作用的范围;
步骤2.2,利用加权系数,通过计算加权均方误差来近似当前文本X(i)的各近邻,正则项表示如下:
步骤3,训练自编码网络,模型拟合;
步骤3.1,利用局部加权正则项,构造样本集的联合损失函数:
其中,zl=p(wl|z)=σ(WTy+c),yi=p(zi|x)=σ(WX(i)+b),xl是第l个输入值,σ(.)是s型激励函数,W,b,c是随机初始化的模型参数,1/2||W||2是权重衰减项;
步骤3.2,通过随机梯度下降算法更新训练自编码网络参数W,b和c,使联合损失函数最小;
步骤4,利用自编码网络参数,构造映射函数;
步骤4.1,构造一个观察空间和低维流形空间之间的嵌入映射函数;
步骤4.2,利用编码网络抽取样本外文本的嵌入向量表示。
2.根据权利要求1所述的一种利用局部嵌入话题建模的文本表示方法,其特征在于,步骤3.2所述的通过随机梯度下降算法更新训练自编码网络参数W,b和c,使联合损失函数J(W,b,c)最小的方法为:
计算损失函数的偏微分:▽WJ(W;X(i)),▽bJ(b;X(i)),▽cJ(c;X(i)),计算公式为:
更新参数W,b,c:
W=W-[▽WJ(W;X(i))+W]
b=b-[▽bJ(b;X(i))]
c=c-[▽cJ(c;X(i))]
其中,▽是对应变量的偏导数,将算法训练终止得到的参数记为最优参数W*,b*,c*。
3.根据权利要求1所述的一种利用局部嵌入话题建模的文本表示方法,其特征在于,步骤4中构造映射函数的具体步骤为:
步骤1,通过最优参数W*,b*和c*,构造一个观察空间和低维流形空间之间的嵌入映射函数,嵌入映射函数为:
p(zi|x)=σ(W*x+b*)
其中,σ(.)是s型逻辑函数;
步骤2,利用编码网络抽取样本外文本的嵌入向量表示。
CN201710332228.4A 2017-05-12 2017-05-12 一种利用局部嵌入话题建模的文本表示方法 Expired - Fee Related CN107220311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710332228.4A CN107220311B (zh) 2017-05-12 2017-05-12 一种利用局部嵌入话题建模的文本表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710332228.4A CN107220311B (zh) 2017-05-12 2017-05-12 一种利用局部嵌入话题建模的文本表示方法

Publications (2)

Publication Number Publication Date
CN107220311A true CN107220311A (zh) 2017-09-29
CN107220311B CN107220311B (zh) 2020-12-08

Family

ID=59944218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710332228.4A Expired - Fee Related CN107220311B (zh) 2017-05-12 2017-05-12 一种利用局部嵌入话题建模的文本表示方法

Country Status (1)

Country Link
CN (1) CN107220311B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363685A (zh) * 2017-12-25 2018-08-03 北京牡丹电子集团有限责任公司数字电视技术中心 基于递归变分自编码模型的自媒体数据文本表示方法
CN108427762A (zh) * 2018-03-21 2018-08-21 北京理工大学 利用随机游走的自编码文档表示方法
CN108470025A (zh) * 2018-03-21 2018-08-31 北京理工大学 局部话题概率生成正则化自编码文本嵌入表示方法
CN109992773A (zh) * 2019-03-20 2019-07-09 华南理工大学 基于多任务学习的词向量训练方法、系统、设备及介质
CN110516040A (zh) * 2019-08-14 2019-11-29 出门问问(武汉)信息科技有限公司 文本间的语义相似性比较方法、设备及计算机存储介质
CN112084338A (zh) * 2020-09-18 2020-12-15 达而观数据(成都)有限公司 一种文档自动归类方法、系统、计算机设备及存储介质
CN112115705A (zh) * 2020-09-23 2020-12-22 普信恒业科技发展(北京)有限公司 一种电子简历的筛选方法及装置
CN112115981A (zh) * 2020-08-26 2020-12-22 微梦创科网络科技(中国)有限公司 一种社交网络博主的embedding评估方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150046459A1 (en) * 2010-04-15 2015-02-12 Microsoft Corporation Mining multilingual topics
CN105427869A (zh) * 2015-11-02 2016-03-23 北京大学 一种基于深度学习的会话情感自动分析方法
CN105975499A (zh) * 2016-04-27 2016-09-28 深圳大学 一种文本主题检测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150046459A1 (en) * 2010-04-15 2015-02-12 Microsoft Corporation Mining multilingual topics
CN105427869A (zh) * 2015-11-02 2016-03-23 北京大学 一种基于深度学习的会话情感自动分析方法
CN105975499A (zh) * 2016-04-27 2016-09-28 深圳大学 一种文本主题检测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHAO WEI: "Discriminative Locally Document", 《KNOWLEDGE BASED SYSTEM》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363685A (zh) * 2017-12-25 2018-08-03 北京牡丹电子集团有限责任公司数字电视技术中心 基于递归变分自编码模型的自媒体数据文本表示方法
CN108363685B (zh) * 2017-12-25 2021-09-14 北京牡丹电子集团有限责任公司数字电视技术中心 基于递归变分自编码模型的自媒体数据文本表示方法
CN108427762A (zh) * 2018-03-21 2018-08-21 北京理工大学 利用随机游走的自编码文档表示方法
CN108470025A (zh) * 2018-03-21 2018-08-31 北京理工大学 局部话题概率生成正则化自编码文本嵌入表示方法
CN109992773A (zh) * 2019-03-20 2019-07-09 华南理工大学 基于多任务学习的词向量训练方法、系统、设备及介质
CN110516040A (zh) * 2019-08-14 2019-11-29 出门问问(武汉)信息科技有限公司 文本间的语义相似性比较方法、设备及计算机存储介质
CN110516040B (zh) * 2019-08-14 2022-08-05 出门问问(武汉)信息科技有限公司 文本间的语义相似性比较方法、设备及计算机存储介质
CN112115981A (zh) * 2020-08-26 2020-12-22 微梦创科网络科技(中国)有限公司 一种社交网络博主的embedding评估方法及系统
CN112115981B (zh) * 2020-08-26 2024-05-03 微梦创科网络科技(中国)有限公司 一种社交网络博主的embedding评估方法及系统
CN112084338A (zh) * 2020-09-18 2020-12-15 达而观数据(成都)有限公司 一种文档自动归类方法、系统、计算机设备及存储介质
CN112084338B (zh) * 2020-09-18 2024-02-06 达而观数据(成都)有限公司 一种文档自动归类方法、系统、计算机设备及存储介质
CN112115705A (zh) * 2020-09-23 2020-12-22 普信恒业科技发展(北京)有限公司 一种电子简历的筛选方法及装置

Also Published As

Publication number Publication date
CN107220311B (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
CN107220311A (zh) 一种利用局部嵌入话题建模的文本表示方法
Akimushkin et al. Text authorship identified using the dynamics of word co-occurrence networks
CN105005589B (zh) 一种文本分类的方法和装置
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
Liao et al. A neighbor decay cellular automata approach for simulating urban expansion based on particle swarm intelligence
CN109740154A (zh) 一种基于多任务学习的在线评论细粒度情感分析方法
Nadimi-Shahraki et al. A systematic review of the whale optimization algorithm: theoretical foundation, improvements, and hybridizations
CN109933670A (zh) 一种基于组合矩阵计算语义距离的文本分类方法
CN111667022A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN112925908A (zh) 一种基于Attention的图注意力网络的文本分类方法及系统
Peng et al. Hierarchical Harris hawks optimizer for feature selection
Huang et al. Expert as a service: Software expert recommendation via knowledge domain embeddings in stack overflow
De Almeida et al. Fuzzy Kohonen clustering networks for interval data
CN107273505A (zh) 基于非参数贝叶斯模型的监督跨模态哈希检索方法
CN109062958B (zh) 一种基于TextRank和卷积神经网络的小学作文自动分类方法
Madhavan Mastering python for data science
Hu Tolerance rough sets for pattern classification using multiple grey single-layer perceptrons
Fu et al. Collaborative filtering recommendation algorithm towards intelligent community
CN114519508A (zh) 基于时序深度学习和法律文书信息的信用风险评估方法
Fan et al. An improved quantum clustering algorithm with weighted distance based on PSO and research on the prediction of electrical power demand
Joseph et al. Arab Spring: from newspaper
CN114970684A (zh) 一种结合vae的提取网络核心结构的社区检测方法
CN113535945B (zh) 文本类别的识别方法、装置、设备及计算机可读存储介质
Madraky et al. Analytic methods for spatio-temporal data in a nature-inspired data model
Liu et al. Overlapping community detection method based on network representation learning and density peaks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201208

CF01 Termination of patent right due to non-payment of annual fee