CN109726394A - 基于融合btm模型的短文本主题聚类方法 - Google Patents

基于融合btm模型的短文本主题聚类方法 Download PDF

Info

Publication number
CN109726394A
CN109726394A CN201811546170.4A CN201811546170A CN109726394A CN 109726394 A CN109726394 A CN 109726394A CN 201811546170 A CN201811546170 A CN 201811546170A CN 109726394 A CN109726394 A CN 109726394A
Authority
CN
China
Prior art keywords
text
distance
model
btm
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811546170.4A
Other languages
English (en)
Inventor
贾海涛
李泽华
刘小清
任利
贾宇明
赫熙煦
周焕来
罗心
王启杰
李清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201811546170.4A priority Critical patent/CN109726394A/zh
Publication of CN109726394A publication Critical patent/CN109726394A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于融合BTM模型的短文本主题聚类方法,属于数据聚类技术领域。本发明首先对待聚类的短文本进行文本预处理,得到数据集D;然后分别提取基于BTM模型、VSM模型的文本向量;在对数据集D进行k‑means聚类时,基于本发明所设置的估计聚类数k方式所获得的聚类数,进行k聚类处理,且聚类处理时采用的聚类标准为:基于两个文本向量所分别计算的任意两个文本间的距离的加权和。本发明结合BTM模型和VSM模型实现对短文本主题的聚类处理,以提高聚类效果;同时基于类内、类间距离对聚类效果进行度量,自动调节聚簇数量,补偿BTM模型需提前预指定主题数量导致的精度下降的技术问题。

Description

基于融合BTM模型的短文本主题聚类方法
技术领域
本发明属于数据聚类技术领域,具体涉及一种基于融合BTM模型的短文本主题聚类方法。
背景技术
当前,关于短文本主题的模型主要有BTM(Biterm topic model)模型、VSM(VectorSpace Model)模型和LDA(Latent Dirichlet Allocation)模型。
其中,BTM模型是一种文本主题模型,但是它和传统的主题模型如PLSA(隐形语义分析)或LDA有明显的区别。一般传统的主题模型只适用于长文本处理,因为短文本的特征稀疏和缺失会对模型建立产生严重的影响,但是也有很多研究人员试图对模型进行扩展和优化,来增强对短文本的适用性。例如通过引入外部知识来扩充短文本,或将短文本进行拼接,作为伪长文本来处理。这种做法虽然可以改进模型上的不足,但是无法克服传统模型天生的缺点,而BTM模型的建模过程却可以避免上述缺点,取得较好效果。
VSM模型,即向量空间模型,其原理比较简单,即将文本内用基于空间向量进行表示,后续便可以使用向量的运算方法对文本进行运算。所以,将一篇文本映射到向量空间之后,文本间的相似度就可以通过向量间距离来进行度量,且易于理解。
当前,经典的聚类算法有k-means和k-medoids等,但是这类算法需要事先指定聚类个数,同时最优聚类个数不能事先进行评估。
发明内容
本发明的发明目的在于:针对上述存在的问题,结合BTM模型和VSM模型实现对短文本主题的聚类处理,以提高聚类效果;同时基于类内、类间距离对聚类效果进行度量,自动调节聚簇数量,补偿BTM模型需提前预指定主题数量导致的精度下降的技术问题。
本发明的基于融合BTM模型的短文本主题聚类方法,包括下列步骤:
步骤S1:对待聚类的短文本进行文本预处理,得到数据集D;
步骤S2:基于数据集D,以及预设的主题个数K,进行BTM模型建模,生成文档-主题分布矩阵θ和主题-词分布矩阵
并基于文档-主题分布矩阵θ表示数据集D中的任意文本i的文本向量,记为di_btm
步骤S3:基于数据集D,基于TF-IDF策略对数据集D中的任意文本i进行文本向量表示,记为di_vsm
步骤S4:初始化标记位k=kmin,其中kmin表示k-means算法的聚类个数的下限;
步骤S5:若k>kmax,则执行步骤8;否则执行步骤S6;其中kmax表示k-means算法的聚类个数的上限;
步骤S6:从数据集D中随机选取k个文本向量作为初始聚类中心,并基于k-means算法对数据集D进行k聚类处理,基于得到的聚类结果计算对应k值的聚类质量J(k);
定义标记位对应的k的聚类质量为则更新后,再执行步骤S7;否则直接执行步骤S7;
其中,在进行聚类处理时,采用的聚类标准为:第一距离和第二距离的加权和,其中第一距离为基于文本向量di_btm的JS(Jensen-Shannon)距离,第二距离为基于文本向量di_vsm的余弦距离;
聚类质量其中I(k)表示类内距离,B(k)表示类间距离;
所述类内距离为每个文本与其他文本的平均距离的最小值;
所述类间距离为不同聚类间最近的两个文本的距离;
步骤S7:更新k=k+1后,继续执行步骤S5;
步骤S8:基于k-means算法进行k聚类处理,其中
综上所述,由于采用了上述技术方案,本发明的有益效果是:结合BTM和VSM两者特点并优化文本特征,提高聚类效果,同时基于类内、类间距离对聚类效果进行度量,自动调节聚簇数量,补偿BTM模型需提前预指定主题数量导致的精度下降的问题。
附图说明
图1是BTM voca.txt输入格式的示意图;
图2是BTM输doc_wids.txt输入格式的示意图;
图3是融合BTM模型聚类流程图;
图4是分词编号结果图示意图;
图5是BTM模型词对编号结果示意图;
图6是文档空间向量矩阵示意图;
图7是BTM模型文档-主题分布矩阵的示意图;
图8是BTM和LDA在不同主题数K下F值对比图;
图9是融合模型不同λ取值曲线;
图10是不同聚类个数下类内类间距离示意图;
图11是各模型聚类准确率对比图;
图12是各模型F值对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
短文本主题模型BTM(Biterm Topic Model)主要针对整体文档-主题分布概率进行研究,淡化了单文档内词频特征,而向量空间模型VSM(Vector Space Model)侧重词频特征,为了克服两个模型单独实现时的不足,本发明结合两者特点并优化文本特征,提高聚类效果,同时基于类内、类间距离对聚类效果进行度量,自动调节聚簇数量,补偿BTM模型需提前预指定主题数量导致的精度下降的问题。
VSM的内在原理比较简单,即将文本内用基于空间向量进行表示,后续便可以使用向量的运算方法对文本进行运算。所以,将一篇文本映射到向量空间之后,文本间的相似度就可以通过向量间距离来进行度量,且易于理解。
假设有m篇文档,其中共有n个不同的词,故这m篇文档可以基于n个词wi(i=1,…,n)进行表示。所以文档向量空间模型可以表示为di={w1,w2,w3...wn},m篇文档的文本向量矩阵D可以表示为:
其中,该矩阵的每行代表一篇文本,每列代表一个独立的词,矩阵中元素dij表示第j个词在第i个文档中所占比重。
BTM是一个基于统计的模型,它规避了传统短文本模型易受短文本特征稀疏影响的缺点,利用词间隐含语义,将文本映射到主题空间上。所以基于该模型,可以得出较为理想的文档-主题和主题-词分布。本具体实施方式中,基于文档-主题分布矩阵来表示文档特征,标记为dbtm。同时,利用TF-IDF加权策略将短文本进行向量化表示,标记为dvsm,最后在文档相似度计算过程中引入加权融合系数λ,进行融合处理。
其中第i个文本的dvsm、dbtm的向量表示分别为:
di_vsm={w1,w2,w3...wn};
di_btm={p(z1|d),p(z2|d),p(z3|d)....p(zk|d)};
其中p(zj|d)表示第j个主题zj在文本d的分布概率,j=1,2,…,K;
TF-IDF是向量空间中对特征词进行加权的最经典也是最常用的方法。在本具体实施方式中,将短文本中独立的词作为特征项,对应的权由TF和IDF进行加权计算。
TF(Term Frequency)表示某特征词tk在特定某篇文中本di中出现的次数。随着出现次数的增多,表明该特征词所占的比重就越大,其出现的次数标记为TF(i,k)。但是对于短文本来说,其中包含的特征词在该文本中出现次数总体相近,所以单独依靠TF很难判断出文本总体特征。
IDF(Inverse Document Frequency)是指特征词在文本集中出当前文本之外的文本中出现的次数。如果出现次数较多次,说明该词不能很好的进行区分文本,如果出现次数较少,说明该词可以被当作某些文本的特征进行考量,IDF的计算方法为:
其中,i为文档(文本)区分符,k为词区分符,N表示文档库中所有文本条数,n表示包含有词tk的文本条数,α是一个经验值,一般情况下取α=0.01。
综上可得,任意文本di中特征词tk的权重为:w(i,k)=TF(i,k)×IDF(i,k),即用权重w(i,k)表征di_vsm={w1,w2,w3...wn}中的每个单词,从而得到基于TF-IDF策略对数据集D中的任意文本i进行文本向量。
文本通过主题分布的向量dbtm进行表示,所以在后续对比中,本发明基于文本的主题特征进行相似性计算。同时由于主题向量是以统计模型得出,故采用概率进行描述。
使用基于KL距离(Kullback-Leibler差异)的对称版本,即JS距离进行度量。即对于任意文本di和dj之间的第一距离(第一相似度)可以表示为:
其中,函数
而对于基于特征词词权重表示的全文本向量dvsm,则采取直接计算两向量余弦距离进行度量,即对于任意文本di和dj之间的第二距离(第二相似度)可以表示为:
在计算完成以上两种相似度后,引入加权系数λ,进行加权融合度量,形成基于JS距离的加权文本相似度计算公式:D(di,dj)=λDbtm(di,dj)+(1-λ)Dvsm(di,dj)。
参见图1,本具体实施方式中,基于上述融合BTM模型的短文本主题聚类包括下列步骤:
(1)对待聚类的短文本进行文本预处理,得到数据集D,其中文本预处理包括对短文本进行分词和去掉停用词处理;
其中,待聚类的短文本通常为:经日志聚类后有微博、贴吧、论坛评论或通信行为的用户会话中的短文本数据。
(2)BTM模型预处理,即规则化处理,分别生成两个文档,其中一个文档为词典文档,记为voca.txt,目的是为每个词进行编号;另一个文档记为doc_winds.txt,用于将整个文本集中词进行编号替换。两文件具体格式如图2、3所示。
(3)基于BTM模型进行建模,生成文档-主题分布矩阵θ和主题-词分布矩阵
模型的输入是words.txt和words_winds.txt两文档,主题个数K及Dirichlet先验分布的两个超参数α和β,其中α=50/K和β=0.01。输出为文档-主题分布矩阵θ和主题-词分布矩阵由于BTM模型的建模过程为现有技术,此处不再赘述。
(4)基于TF-IDF策略进行文本向量表示;
(5)基于k-means算法对BTM模型生成的文档-主题向量和文档VSM向量进行加权聚类;
(6)对聚类产生的聚簇进行描述,为网络管理或舆论监控做出参考。
即本发明的融合BTM模型的短文本主题聚类的具体实现过程如下:
步骤S1:输入待聚类的数据集D,以及设置BTM的主题个数,k-means算法的聚类个数范围[kmin,kmax];
步骤S2:基于数据集D,进行BTM模型建模,生成文档-主题分布矩阵θ和主题-词分布矩阵
步骤S3:基于数据集D,基于TF-IDF策略进行文本向量表示,得到dvsm
步骤S4:初始化标记位k=kmin
步骤S5:若k>kmax,则执行步骤8;否则执行步骤S6;
步骤S6:从数据集D中随机选取k个初始聚类中心,并基于k-means算法进行k聚类处理,基于得到的聚类结果计算对应k值的聚类质量J(k);
定义标记位对应的k的聚类质量为则更新后,再执行步骤S7;否则直接执行步骤S7(标记位保持不变);
其中,在进行聚类处理时,采用的聚类标准为:第一距离和第二距离的加权和;
聚类质量其中I(k)表示类内距离,B(k)表示类间距离;
所述类内距离为每个文本与其他文本的平均距离的最小值,即:
其中,|Cj|表示在聚类Cj中的文本数量,xi、xp分别表示所属于聚类Cj中的文本对象。
所述类间距离为不同聚类间最近的两个文本的距离,即:
其中,i=1,2,...,k;j=1,2,...,k;且i≠j,xp,xq表示聚类Ci和Cj中的文本对象。
步骤S7:更新k=k+1后,继续执行步骤S5;
步骤S8:基于k-means算法进行k聚类处理,其中
实施例
采用的实验数据来自新浪微博,并基于本文算法在数据上进行建模及聚类分析。实验部分主要包括融合全文本VSM和BTM的加权算法聚类算法,以及单独使用BTM、VSM和LDA的算法进行的对比。
其中实验数据集(采用的语料库)是来自新浪微博2014年5月的开源数据,其中共有6个热点类别(房价、公务员、韩剧、雾霾、转基因、手机),每个类别1000篇并已经带有类别标签,词表大小:9372词。
在实验进行前,首先进行数据的预处理工作,将文本进行分词编号,BTM模型需要进行词对编号。分词编号结果如图4所示,词对编号如图5所示。
在完成数据预处理后,对基于IF-IDF算法进行文档向量化表示,形成VSM模型,文档表示结果如图6所示。
(1)BTM与LDA主题聚类效果对比:
BTM模型是一种非监督模型,在运算中不需要人为干预,但是缺点是需要在建模前人为预设文档集整体主题聚类个数K,K的设定是否贴合数据的实际情况,会影响到模型的聚类性能。
在本实验中,事先已知文档集有6个类别,也就是有6话题,来分别验证BTM和LDA主题模型最优主题数K。为确定最优主题数K,本次实验主题数分别取5,6,7,8,9,10,11,12,13,14进行实验,模型迭代次数为1000次,α=50/K,β=0.01。在模型训练后基于k-means算法进行聚类,聚类个数k=6,由于该聚类算法容易陷入局部最优解,所以每次实验中重复10次聚类实验,取聚类结果的平均F值(同时考量准确率和召回率)进行评估。在实验之后,确定的最优主题数K将用于后续实验中。BTM模型中文本-主题矩阵如图7所示。
从表1和图8中的实验结果中可以看到,在已知文档集分类的情况下进行聚类主题数K验证,BTM模型在K取6时得到的主题聚类效果最好,LDA模型在K取10时主题聚类效果最好,总体来说,BTM效果要优于LDA。
随着主题数K的增加,两模型效果都有不同程度的减弱。这说明BTM模型中,在词对数量不变的情况下,预设主题数量偏离真是数量太多会导致原有主题概率被细分,造成文档-主题分布变化,最终导致依据此概率分布进行文档聚类的结果也随之改变。在LDA模型中,建模效果整体较差,原因是模型受到短文本特征稀疏的影响,导致文档-主题分布不准确,进而聚类效果较差。
表1 BTM和LDA在不同K值下建模F值对比
(2)融合系数λ的设置:
基于上述实验结果,本次实验取BTM模型主题数K=6,k-means算法聚类个数k∈[5,15]时分别进行实验,最后整体结果取均值进行表示。实验中,设λ={0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0},分别验证主题聚类精度。在结果中可以发现,当λ=0.8时,整体聚类结果比较好,在后续实验中,取λ=0.8进行实验。实验结果如图9所示。
(3)最优聚类个数确定:
在实际情况中,并不知道文档的分类情况,所以本次实验在默认不知道聚类个数的情况下,基于类内类间距离进行聚类效果评估。在融合BTM模型主题数K=6,λ=0.8的情况下,输入聚类范围[5,15]进行聚类。图10为在不同聚类个数下得到的类内类间距离比值折线图。在结果中可以看到,当取聚类个数为6时类内类间距离比值最小,聚类效果最好。结果与数据集特征相符合,说明了类内类间距离度量聚类结果的有效性。所以,取聚类数目为6进行后续的实验。
(4)各模型聚类效果对比:
本次实验主要是基于文档集的6个类别进行聚类效果对比。比较模型为融合BTM模型、BTM模型、LDA模型和VSM模型。模型中,BTM模型的主题数K取6,LDA主题数K取10,k-means算法聚类个数设为6。在实验结果中,分别采用准确率P和F值对聚类效果进行评价。聚类算法聚类效果越好,其对应的准确率P值就越大,而F值则是同时考量了准确率和召回率,聚类效果也是正比于F值的大小,几种模型的聚类效果如下表所示:
表2各模型准确率P
图11给出了对应表2的各模型聚类准确率对比曲线图,由图可知,本发明的准确率性能最好。
表3各模型F值对比
图12给出了对应表3的各模型聚类F值对比曲线图,由图可知,本发明的优势最明显。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

Claims (3)

1.一种基于融合BTM模型的短文本主题聚类方法,其特征在于,包括下列步骤:
步骤S1:对待聚类的短文本进行文本预处理,得到数据集D;
步骤S2:基于数据集D,以及预设的主题个数K,进行BTM模型建模,生成文档-主题分布矩阵和主题-词分布矩阵;
并基于文档-主题分布矩阵表示数据集D中的任意文本i的文本向量,记为di_btm
步骤S3:基于数据集D,基于TF-IDF策略对数据集D中的任意文本i进行文本向量表示,记为di_vsm
步骤S4:初始化标记位k=kmin,其中kmin表示k-means算法的聚类个数的下限;
步骤S5:若k>kmax,则执行步骤S8;否则执行步骤S6;其中kmax表示k-means算法的聚类个数的上限;
步骤S6:从数据集D中随机选取k个文本向量作为初始聚类中心,并基于k-means算法对数据集D进行k聚类处理,基于得到的聚类结果计算对应k值的聚类质量J(k);
定义标记位对应的k的聚类质量为则更新后,再执行步骤S7;否则直接执行步骤S7;
其中,在进行聚类处理时,采用的聚类标准为:第一距离和第二距离的加权和,其中第一距离为基于文本向量di_btm的JS距离,第二距离为基于文本向量di_vsm的余弦距离;
聚类质量其中I(k)表示类内距离,B(k)表示类间距离;
所述类内距离为每个文本与其他文本的平均距离的最小值;
所述类间距离为不同聚类间最近的两个文本的距离;
步骤S7:更新k=k+1后,继续执行步骤S5;
步骤S8:基于k-means算法进行k聚类处理,其中
2.如权利要求1所述的方法,其特征在于,第一距离的权重设置为0.8,第二距离的权重为0.2。
3.权利要求1所述的方法,其特征在于,文本预处理包括对短文本进行分词和去掉停用词处理。
CN201811546170.4A 2018-12-18 2018-12-18 基于融合btm模型的短文本主题聚类方法 Pending CN109726394A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811546170.4A CN109726394A (zh) 2018-12-18 2018-12-18 基于融合btm模型的短文本主题聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811546170.4A CN109726394A (zh) 2018-12-18 2018-12-18 基于融合btm模型的短文本主题聚类方法

Publications (1)

Publication Number Publication Date
CN109726394A true CN109726394A (zh) 2019-05-07

Family

ID=66296329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811546170.4A Pending CN109726394A (zh) 2018-12-18 2018-12-18 基于融合btm模型的短文本主题聚类方法

Country Status (1)

Country Link
CN (1) CN109726394A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263343A (zh) * 2019-06-24 2019-09-20 北京理工大学 基于短语向量的关键词抽取方法及系统
CN110941961A (zh) * 2019-11-29 2020-03-31 秒针信息技术有限公司 一种信息聚类方法、装置、电子设备及存储介质
CN111191036A (zh) * 2019-12-30 2020-05-22 杭州远传新业科技有限公司 短文本主题聚类方法、装置、设备及介质
CN111523594A (zh) * 2020-04-23 2020-08-11 湖州师范学院 一种基于lda-kmedoids的改进knn故障分类方法
CN111897952A (zh) * 2020-06-10 2020-11-06 中国科学院软件研究所 一种面向社交媒体的敏感数据发现方法
CN112132624A (zh) * 2020-09-27 2020-12-25 平安医疗健康管理股份有限公司 医疗理赔数据预测系统
CN113420112A (zh) * 2021-06-21 2021-09-21 中国科学院声学研究所 一种基于无监督学习的新闻实体分析方法及装置
WO2023159758A1 (zh) * 2022-02-22 2023-08-31 平安科技(深圳)有限公司 数据增强方法和装置、电子设备、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279556A (zh) * 2013-06-09 2013-09-04 南方报业传媒集团 基于自适应子空间学习的迭代文本聚类方法
CN106776579A (zh) * 2017-01-19 2017-05-31 清华大学 Biterm主题模型的采样加速方法
CN108197144A (zh) * 2017-11-28 2018-06-22 河海大学 一种基于BTM和Single-pass的热点话题发现方法
US20180285348A1 (en) * 2016-07-19 2018-10-04 Tencent Technology (Shenzhen) Company Limited Dialog generation method, apparatus, and device, and storage medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279556A (zh) * 2013-06-09 2013-09-04 南方报业传媒集团 基于自适应子空间学习的迭代文本聚类方法
US20180285348A1 (en) * 2016-07-19 2018-10-04 Tencent Technology (Shenzhen) Company Limited Dialog generation method, apparatus, and device, and storage medium
CN106776579A (zh) * 2017-01-19 2017-05-31 清华大学 Biterm主题模型的采样加速方法
CN108197144A (zh) * 2017-11-28 2018-06-22 河海大学 一种基于BTM和Single-pass的热点话题发现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李泽华: "基于短文本的Web日志挖掘系统的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263343A (zh) * 2019-06-24 2019-09-20 北京理工大学 基于短语向量的关键词抽取方法及系统
CN110941961A (zh) * 2019-11-29 2020-03-31 秒针信息技术有限公司 一种信息聚类方法、装置、电子设备及存储介质
CN110941961B (zh) * 2019-11-29 2023-08-25 秒针信息技术有限公司 一种信息聚类方法、装置、电子设备及存储介质
CN111191036A (zh) * 2019-12-30 2020-05-22 杭州远传新业科技有限公司 短文本主题聚类方法、装置、设备及介质
CN111523594A (zh) * 2020-04-23 2020-08-11 湖州师范学院 一种基于lda-kmedoids的改进knn故障分类方法
CN111897952A (zh) * 2020-06-10 2020-11-06 中国科学院软件研究所 一种面向社交媒体的敏感数据发现方法
CN111897952B (zh) * 2020-06-10 2022-10-14 中国科学院软件研究所 一种面向社交媒体的敏感数据发现方法
CN112132624A (zh) * 2020-09-27 2020-12-25 平安医疗健康管理股份有限公司 医疗理赔数据预测系统
CN113420112A (zh) * 2021-06-21 2021-09-21 中国科学院声学研究所 一种基于无监督学习的新闻实体分析方法及装置
WO2023159758A1 (zh) * 2022-02-22 2023-08-31 平安科技(深圳)有限公司 数据增强方法和装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
CN109726394A (zh) 基于融合btm模型的短文本主题聚类方法
CN107330049B (zh) 一种新闻热度预估方法及系统
CN104572631B (zh) 一种语言模型的训练方法及系统
CN105550211A (zh) 一种融合社交网络和项目内容的协同推荐系统
CN103970866B (zh) 基于微博文本的微博用户兴趣发现方法及系统
CN107526819A (zh) 一种面向短文本主题模型的大数据舆情分析方法
CN107368542A (zh) 一种涉密数据的涉密等级评定方法
Zhou et al. Self-selective attention using correlation between instances for distant supervision relation extraction
CN111709225B (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
Aziguli et al. A robust text classifier based on denoising deep neural network in the analysis of big data
Cai et al. Financial news quantization and stock market forecast research based on CNN and LSTM
CN108664558A (zh) 一种面向大规模用户的网络电视个性化推荐服务方法
JP2020098592A (ja) ウェブページ内容を抽出する方法、装置及び記憶媒体
CN108694176A (zh) 文档情感分析的方法、装置、电子设备和可读存储介质
CN117034921A (zh) 一种基于用户数据的提示学习训练方法、装置和介质
WO2020147259A1 (zh) 一种用户画像方法、装置、可读存储介质及终端设备
Sun et al. Rumour detection technology based on the BiGRU_capsule network
CN116842934A (zh) 一种基于持续学习的多文档融合深度学习标题生成方法
Wang Research on the art value and application of art creation based on the emotion analysis of art
Ren [Retracted] Pop Music Trend and Image Analysis Based on Big Data Technology
Yu et al. Computer Image Content Retrieval considering K‐Means Clustering Algorithm
Tang [Retracted] Analysis of English Multitext Reading Comprehension Model Based on Deep Belief Neural Network
Chen Emotional Calculation Method of Rural Tourist Based on Improved SPCA‐LSTM Algorithm
Lu et al. A novel method for Chinese named entity recognition based on character vector
CN110413782A (zh) 一种表自动主题分类方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190507

RJ01 Rejection of invention patent application after publication