CN109726394A - 基于融合btm模型的短文本主题聚类方法 - Google Patents
基于融合btm模型的短文本主题聚类方法 Download PDFInfo
- Publication number
- CN109726394A CN109726394A CN201811546170.4A CN201811546170A CN109726394A CN 109726394 A CN109726394 A CN 109726394A CN 201811546170 A CN201811546170 A CN 201811546170A CN 109726394 A CN109726394 A CN 109726394A
- Authority
- CN
- China
- Prior art keywords
- text
- distance
- model
- btm
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于融合BTM模型的短文本主题聚类方法,属于数据聚类技术领域。本发明首先对待聚类的短文本进行文本预处理,得到数据集D;然后分别提取基于BTM模型、VSM模型的文本向量;在对数据集D进行k‑means聚类时,基于本发明所设置的估计聚类数k方式所获得的聚类数,进行k聚类处理,且聚类处理时采用的聚类标准为:基于两个文本向量所分别计算的任意两个文本间的距离的加权和。本发明结合BTM模型和VSM模型实现对短文本主题的聚类处理,以提高聚类效果;同时基于类内、类间距离对聚类效果进行度量,自动调节聚簇数量,补偿BTM模型需提前预指定主题数量导致的精度下降的技术问题。
Description
技术领域
本发明属于数据聚类技术领域,具体涉及一种基于融合BTM模型的短文本主题聚类方法。
背景技术
当前,关于短文本主题的模型主要有BTM(Biterm topic model)模型、VSM(VectorSpace Model)模型和LDA(Latent Dirichlet Allocation)模型。
其中,BTM模型是一种文本主题模型,但是它和传统的主题模型如PLSA(隐形语义分析)或LDA有明显的区别。一般传统的主题模型只适用于长文本处理,因为短文本的特征稀疏和缺失会对模型建立产生严重的影响,但是也有很多研究人员试图对模型进行扩展和优化,来增强对短文本的适用性。例如通过引入外部知识来扩充短文本,或将短文本进行拼接,作为伪长文本来处理。这种做法虽然可以改进模型上的不足,但是无法克服传统模型天生的缺点,而BTM模型的建模过程却可以避免上述缺点,取得较好效果。
VSM模型,即向量空间模型,其原理比较简单,即将文本内用基于空间向量进行表示,后续便可以使用向量的运算方法对文本进行运算。所以,将一篇文本映射到向量空间之后,文本间的相似度就可以通过向量间距离来进行度量,且易于理解。
当前,经典的聚类算法有k-means和k-medoids等,但是这类算法需要事先指定聚类个数,同时最优聚类个数不能事先进行评估。
发明内容
本发明的发明目的在于:针对上述存在的问题,结合BTM模型和VSM模型实现对短文本主题的聚类处理,以提高聚类效果;同时基于类内、类间距离对聚类效果进行度量,自动调节聚簇数量,补偿BTM模型需提前预指定主题数量导致的精度下降的技术问题。
本发明的基于融合BTM模型的短文本主题聚类方法,包括下列步骤:
步骤S1:对待聚类的短文本进行文本预处理,得到数据集D;
步骤S2:基于数据集D,以及预设的主题个数K,进行BTM模型建模,生成文档-主题分布矩阵θ和主题-词分布矩阵
并基于文档-主题分布矩阵θ表示数据集D中的任意文本i的文本向量,记为di_btm;
步骤S3:基于数据集D,基于TF-IDF策略对数据集D中的任意文本i进行文本向量表示,记为di_vsm;
步骤S4:初始化标记位k=kmin,其中kmin表示k-means算法的聚类个数的下限;
步骤S5:若k>kmax,则执行步骤8;否则执行步骤S6;其中kmax表示k-means算法的聚类个数的上限;
步骤S6:从数据集D中随机选取k个文本向量作为初始聚类中心,并基于k-means算法对数据集D进行k聚类处理,基于得到的聚类结果计算对应k值的聚类质量J(k);
定义标记位对应的k的聚类质量为若则更新后,再执行步骤S7;否则直接执行步骤S7;
其中,在进行聚类处理时,采用的聚类标准为:第一距离和第二距离的加权和,其中第一距离为基于文本向量di_btm的JS(Jensen-Shannon)距离,第二距离为基于文本向量di_vsm的余弦距离;
聚类质量其中I(k)表示类内距离,B(k)表示类间距离;
所述类内距离为每个文本与其他文本的平均距离的最小值;
所述类间距离为不同聚类间最近的两个文本的距离;
步骤S7:更新k=k+1后,继续执行步骤S5;
步骤S8:基于k-means算法进行k聚类处理,其中
综上所述,由于采用了上述技术方案,本发明的有益效果是:结合BTM和VSM两者特点并优化文本特征,提高聚类效果,同时基于类内、类间距离对聚类效果进行度量,自动调节聚簇数量,补偿BTM模型需提前预指定主题数量导致的精度下降的问题。
附图说明
图1是BTM voca.txt输入格式的示意图;
图2是BTM输doc_wids.txt输入格式的示意图;
图3是融合BTM模型聚类流程图;
图4是分词编号结果图示意图;
图5是BTM模型词对编号结果示意图;
图6是文档空间向量矩阵示意图;
图7是BTM模型文档-主题分布矩阵的示意图;
图8是BTM和LDA在不同主题数K下F值对比图;
图9是融合模型不同λ取值曲线;
图10是不同聚类个数下类内类间距离示意图;
图11是各模型聚类准确率对比图;
图12是各模型F值对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
短文本主题模型BTM(Biterm Topic Model)主要针对整体文档-主题分布概率进行研究,淡化了单文档内词频特征,而向量空间模型VSM(Vector Space Model)侧重词频特征,为了克服两个模型单独实现时的不足,本发明结合两者特点并优化文本特征,提高聚类效果,同时基于类内、类间距离对聚类效果进行度量,自动调节聚簇数量,补偿BTM模型需提前预指定主题数量导致的精度下降的问题。
VSM的内在原理比较简单,即将文本内用基于空间向量进行表示,后续便可以使用向量的运算方法对文本进行运算。所以,将一篇文本映射到向量空间之后,文本间的相似度就可以通过向量间距离来进行度量,且易于理解。
假设有m篇文档,其中共有n个不同的词,故这m篇文档可以基于n个词wi(i=1,…,n)进行表示。所以文档向量空间模型可以表示为di={w1,w2,w3...wn},m篇文档的文本向量矩阵D可以表示为:
其中,该矩阵的每行代表一篇文本,每列代表一个独立的词,矩阵中元素dij表示第j个词在第i个文档中所占比重。
BTM是一个基于统计的模型,它规避了传统短文本模型易受短文本特征稀疏影响的缺点,利用词间隐含语义,将文本映射到主题空间上。所以基于该模型,可以得出较为理想的文档-主题和主题-词分布。本具体实施方式中,基于文档-主题分布矩阵来表示文档特征,标记为dbtm。同时,利用TF-IDF加权策略将短文本进行向量化表示,标记为dvsm,最后在文档相似度计算过程中引入加权融合系数λ,进行融合处理。
其中第i个文本的dvsm、dbtm的向量表示分别为:
di_vsm={w1,w2,w3...wn};
di_btm={p(z1|d),p(z2|d),p(z3|d)....p(zk|d)};
其中p(zj|d)表示第j个主题zj在文本d的分布概率,j=1,2,…,K;
TF-IDF是向量空间中对特征词进行加权的最经典也是最常用的方法。在本具体实施方式中,将短文本中独立的词作为特征项,对应的权由TF和IDF进行加权计算。
TF(Term Frequency)表示某特征词tk在特定某篇文中本di中出现的次数。随着出现次数的增多,表明该特征词所占的比重就越大,其出现的次数标记为TF(i,k)。但是对于短文本来说,其中包含的特征词在该文本中出现次数总体相近,所以单独依靠TF很难判断出文本总体特征。
IDF(Inverse Document Frequency)是指特征词在文本集中出当前文本之外的文本中出现的次数。如果出现次数较多次,说明该词不能很好的进行区分文本,如果出现次数较少,说明该词可以被当作某些文本的特征进行考量,IDF的计算方法为:
其中,i为文档(文本)区分符,k为词区分符,N表示文档库中所有文本条数,n表示包含有词tk的文本条数,α是一个经验值,一般情况下取α=0.01。
综上可得,任意文本di中特征词tk的权重为:w(i,k)=TF(i,k)×IDF(i,k),即用权重w(i,k)表征di_vsm={w1,w2,w3...wn}中的每个单词,从而得到基于TF-IDF策略对数据集D中的任意文本i进行文本向量。
文本通过主题分布的向量dbtm进行表示,所以在后续对比中,本发明基于文本的主题特征进行相似性计算。同时由于主题向量是以统计模型得出,故采用概率进行描述。
使用基于KL距离(Kullback-Leibler差异)的对称版本,即JS距离进行度量。即对于任意文本di和dj之间的第一距离(第一相似度)可以表示为:
其中,函数
而对于基于特征词词权重表示的全文本向量dvsm,则采取直接计算两向量余弦距离进行度量,即对于任意文本di和dj之间的第二距离(第二相似度)可以表示为:
在计算完成以上两种相似度后,引入加权系数λ,进行加权融合度量,形成基于JS距离的加权文本相似度计算公式:D(di,dj)=λDbtm(di,dj)+(1-λ)Dvsm(di,dj)。
参见图1,本具体实施方式中,基于上述融合BTM模型的短文本主题聚类包括下列步骤:
(1)对待聚类的短文本进行文本预处理,得到数据集D,其中文本预处理包括对短文本进行分词和去掉停用词处理;
其中,待聚类的短文本通常为:经日志聚类后有微博、贴吧、论坛评论或通信行为的用户会话中的短文本数据。
(2)BTM模型预处理,即规则化处理,分别生成两个文档,其中一个文档为词典文档,记为voca.txt,目的是为每个词进行编号;另一个文档记为doc_winds.txt,用于将整个文本集中词进行编号替换。两文件具体格式如图2、3所示。
(3)基于BTM模型进行建模,生成文档-主题分布矩阵θ和主题-词分布矩阵
模型的输入是words.txt和words_winds.txt两文档,主题个数K及Dirichlet先验分布的两个超参数α和β,其中α=50/K和β=0.01。输出为文档-主题分布矩阵θ和主题-词分布矩阵由于BTM模型的建模过程为现有技术,此处不再赘述。
(4)基于TF-IDF策略进行文本向量表示;
(5)基于k-means算法对BTM模型生成的文档-主题向量和文档VSM向量进行加权聚类;
(6)对聚类产生的聚簇进行描述,为网络管理或舆论监控做出参考。
即本发明的融合BTM模型的短文本主题聚类的具体实现过程如下:
步骤S1:输入待聚类的数据集D,以及设置BTM的主题个数,k-means算法的聚类个数范围[kmin,kmax];
步骤S2:基于数据集D,进行BTM模型建模,生成文档-主题分布矩阵θ和主题-词分布矩阵
步骤S3:基于数据集D,基于TF-IDF策略进行文本向量表示,得到dvsm;
步骤S4:初始化标记位k=kmin;
步骤S5:若k>kmax,则执行步骤8;否则执行步骤S6;
步骤S6:从数据集D中随机选取k个初始聚类中心,并基于k-means算法进行k聚类处理,基于得到的聚类结果计算对应k值的聚类质量J(k);
定义标记位对应的k的聚类质量为若则更新后,再执行步骤S7;否则直接执行步骤S7(标记位保持不变);
其中,在进行聚类处理时,采用的聚类标准为:第一距离和第二距离的加权和;
聚类质量其中I(k)表示类内距离,B(k)表示类间距离;
所述类内距离为每个文本与其他文本的平均距离的最小值,即:
其中,|Cj|表示在聚类Cj中的文本数量,xi、xp分别表示所属于聚类Cj中的文本对象。
所述类间距离为不同聚类间最近的两个文本的距离,即:
其中,i=1,2,...,k;j=1,2,...,k;且i≠j,xp,xq表示聚类Ci和Cj中的文本对象。
步骤S7:更新k=k+1后,继续执行步骤S5;
步骤S8:基于k-means算法进行k聚类处理,其中
实施例
采用的实验数据来自新浪微博,并基于本文算法在数据上进行建模及聚类分析。实验部分主要包括融合全文本VSM和BTM的加权算法聚类算法,以及单独使用BTM、VSM和LDA的算法进行的对比。
其中实验数据集(采用的语料库)是来自新浪微博2014年5月的开源数据,其中共有6个热点类别(房价、公务员、韩剧、雾霾、转基因、手机),每个类别1000篇并已经带有类别标签,词表大小:9372词。
在实验进行前,首先进行数据的预处理工作,将文本进行分词编号,BTM模型需要进行词对编号。分词编号结果如图4所示,词对编号如图5所示。
在完成数据预处理后,对基于IF-IDF算法进行文档向量化表示,形成VSM模型,文档表示结果如图6所示。
(1)BTM与LDA主题聚类效果对比:
BTM模型是一种非监督模型,在运算中不需要人为干预,但是缺点是需要在建模前人为预设文档集整体主题聚类个数K,K的设定是否贴合数据的实际情况,会影响到模型的聚类性能。
在本实验中,事先已知文档集有6个类别,也就是有6话题,来分别验证BTM和LDA主题模型最优主题数K。为确定最优主题数K,本次实验主题数分别取5,6,7,8,9,10,11,12,13,14进行实验,模型迭代次数为1000次,α=50/K,β=0.01。在模型训练后基于k-means算法进行聚类,聚类个数k=6,由于该聚类算法容易陷入局部最优解,所以每次实验中重复10次聚类实验,取聚类结果的平均F值(同时考量准确率和召回率)进行评估。在实验之后,确定的最优主题数K将用于后续实验中。BTM模型中文本-主题矩阵如图7所示。
从表1和图8中的实验结果中可以看到,在已知文档集分类的情况下进行聚类主题数K验证,BTM模型在K取6时得到的主题聚类效果最好,LDA模型在K取10时主题聚类效果最好,总体来说,BTM效果要优于LDA。
随着主题数K的增加,两模型效果都有不同程度的减弱。这说明BTM模型中,在词对数量不变的情况下,预设主题数量偏离真是数量太多会导致原有主题概率被细分,造成文档-主题分布变化,最终导致依据此概率分布进行文档聚类的结果也随之改变。在LDA模型中,建模效果整体较差,原因是模型受到短文本特征稀疏的影响,导致文档-主题分布不准确,进而聚类效果较差。
表1 BTM和LDA在不同K值下建模F值对比
(2)融合系数λ的设置:
基于上述实验结果,本次实验取BTM模型主题数K=6,k-means算法聚类个数k∈[5,15]时分别进行实验,最后整体结果取均值进行表示。实验中,设λ={0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0},分别验证主题聚类精度。在结果中可以发现,当λ=0.8时,整体聚类结果比较好,在后续实验中,取λ=0.8进行实验。实验结果如图9所示。
(3)最优聚类个数确定:
在实际情况中,并不知道文档的分类情况,所以本次实验在默认不知道聚类个数的情况下,基于类内类间距离进行聚类效果评估。在融合BTM模型主题数K=6,λ=0.8的情况下,输入聚类范围[5,15]进行聚类。图10为在不同聚类个数下得到的类内类间距离比值折线图。在结果中可以看到,当取聚类个数为6时类内类间距离比值最小,聚类效果最好。结果与数据集特征相符合,说明了类内类间距离度量聚类结果的有效性。所以,取聚类数目为6进行后续的实验。
(4)各模型聚类效果对比:
本次实验主要是基于文档集的6个类别进行聚类效果对比。比较模型为融合BTM模型、BTM模型、LDA模型和VSM模型。模型中,BTM模型的主题数K取6,LDA主题数K取10,k-means算法聚类个数设为6。在实验结果中,分别采用准确率P和F值对聚类效果进行评价。聚类算法聚类效果越好,其对应的准确率P值就越大,而F值则是同时考量了准确率和召回率,聚类效果也是正比于F值的大小,几种模型的聚类效果如下表所示:
表2各模型准确率P
图11给出了对应表2的各模型聚类准确率对比曲线图,由图可知,本发明的准确率性能最好。
表3各模型F值对比
图12给出了对应表3的各模型聚类F值对比曲线图,由图可知,本发明的优势最明显。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (3)
1.一种基于融合BTM模型的短文本主题聚类方法,其特征在于,包括下列步骤:
步骤S1:对待聚类的短文本进行文本预处理,得到数据集D;
步骤S2:基于数据集D,以及预设的主题个数K,进行BTM模型建模,生成文档-主题分布矩阵和主题-词分布矩阵;
并基于文档-主题分布矩阵表示数据集D中的任意文本i的文本向量,记为di_btm;
步骤S3:基于数据集D,基于TF-IDF策略对数据集D中的任意文本i进行文本向量表示,记为di_vsm;
步骤S4:初始化标记位k=kmin,其中kmin表示k-means算法的聚类个数的下限;
步骤S5:若k>kmax,则执行步骤S8;否则执行步骤S6;其中kmax表示k-means算法的聚类个数的上限;
步骤S6:从数据集D中随机选取k个文本向量作为初始聚类中心,并基于k-means算法对数据集D进行k聚类处理,基于得到的聚类结果计算对应k值的聚类质量J(k);
定义标记位对应的k的聚类质量为若则更新后,再执行步骤S7;否则直接执行步骤S7;
其中,在进行聚类处理时,采用的聚类标准为:第一距离和第二距离的加权和,其中第一距离为基于文本向量di_btm的JS距离,第二距离为基于文本向量di_vsm的余弦距离;
聚类质量其中I(k)表示类内距离,B(k)表示类间距离;
所述类内距离为每个文本与其他文本的平均距离的最小值;
所述类间距离为不同聚类间最近的两个文本的距离;
步骤S7:更新k=k+1后,继续执行步骤S5;
步骤S8:基于k-means算法进行k聚类处理,其中
2.如权利要求1所述的方法,其特征在于,第一距离的权重设置为0.8,第二距离的权重为0.2。
3.权利要求1所述的方法,其特征在于,文本预处理包括对短文本进行分词和去掉停用词处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811546170.4A CN109726394A (zh) | 2018-12-18 | 2018-12-18 | 基于融合btm模型的短文本主题聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811546170.4A CN109726394A (zh) | 2018-12-18 | 2018-12-18 | 基于融合btm模型的短文本主题聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109726394A true CN109726394A (zh) | 2019-05-07 |
Family
ID=66296329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811546170.4A Pending CN109726394A (zh) | 2018-12-18 | 2018-12-18 | 基于融合btm模型的短文本主题聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109726394A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263343A (zh) * | 2019-06-24 | 2019-09-20 | 北京理工大学 | 基于短语向量的关键词抽取方法及系统 |
CN110941961A (zh) * | 2019-11-29 | 2020-03-31 | 秒针信息技术有限公司 | 一种信息聚类方法、装置、电子设备及存储介质 |
CN111191036A (zh) * | 2019-12-30 | 2020-05-22 | 杭州远传新业科技有限公司 | 短文本主题聚类方法、装置、设备及介质 |
CN111523594A (zh) * | 2020-04-23 | 2020-08-11 | 湖州师范学院 | 一种基于lda-kmedoids的改进knn故障分类方法 |
CN111897952A (zh) * | 2020-06-10 | 2020-11-06 | 中国科学院软件研究所 | 一种面向社交媒体的敏感数据发现方法 |
CN112132624A (zh) * | 2020-09-27 | 2020-12-25 | 平安医疗健康管理股份有限公司 | 医疗理赔数据预测系统 |
CN113420112A (zh) * | 2021-06-21 | 2021-09-21 | 中国科学院声学研究所 | 一种基于无监督学习的新闻实体分析方法及装置 |
WO2023159758A1 (zh) * | 2022-02-22 | 2023-08-31 | 平安科技(深圳)有限公司 | 数据增强方法和装置、电子设备、存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279556A (zh) * | 2013-06-09 | 2013-09-04 | 南方报业传媒集团 | 基于自适应子空间学习的迭代文本聚类方法 |
CN106776579A (zh) * | 2017-01-19 | 2017-05-31 | 清华大学 | Biterm主题模型的采样加速方法 |
CN108197144A (zh) * | 2017-11-28 | 2018-06-22 | 河海大学 | 一种基于BTM和Single-pass的热点话题发现方法 |
US20180285348A1 (en) * | 2016-07-19 | 2018-10-04 | Tencent Technology (Shenzhen) Company Limited | Dialog generation method, apparatus, and device, and storage medium |
-
2018
- 2018-12-18 CN CN201811546170.4A patent/CN109726394A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279556A (zh) * | 2013-06-09 | 2013-09-04 | 南方报业传媒集团 | 基于自适应子空间学习的迭代文本聚类方法 |
US20180285348A1 (en) * | 2016-07-19 | 2018-10-04 | Tencent Technology (Shenzhen) Company Limited | Dialog generation method, apparatus, and device, and storage medium |
CN106776579A (zh) * | 2017-01-19 | 2017-05-31 | 清华大学 | Biterm主题模型的采样加速方法 |
CN108197144A (zh) * | 2017-11-28 | 2018-06-22 | 河海大学 | 一种基于BTM和Single-pass的热点话题发现方法 |
Non-Patent Citations (1)
Title |
---|
李泽华: "基于短文本的Web日志挖掘系统的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263343A (zh) * | 2019-06-24 | 2019-09-20 | 北京理工大学 | 基于短语向量的关键词抽取方法及系统 |
CN110941961A (zh) * | 2019-11-29 | 2020-03-31 | 秒针信息技术有限公司 | 一种信息聚类方法、装置、电子设备及存储介质 |
CN110941961B (zh) * | 2019-11-29 | 2023-08-25 | 秒针信息技术有限公司 | 一种信息聚类方法、装置、电子设备及存储介质 |
CN111191036A (zh) * | 2019-12-30 | 2020-05-22 | 杭州远传新业科技有限公司 | 短文本主题聚类方法、装置、设备及介质 |
CN111523594A (zh) * | 2020-04-23 | 2020-08-11 | 湖州师范学院 | 一种基于lda-kmedoids的改进knn故障分类方法 |
CN111897952A (zh) * | 2020-06-10 | 2020-11-06 | 中国科学院软件研究所 | 一种面向社交媒体的敏感数据发现方法 |
CN111897952B (zh) * | 2020-06-10 | 2022-10-14 | 中国科学院软件研究所 | 一种面向社交媒体的敏感数据发现方法 |
CN112132624A (zh) * | 2020-09-27 | 2020-12-25 | 平安医疗健康管理股份有限公司 | 医疗理赔数据预测系统 |
CN113420112A (zh) * | 2021-06-21 | 2021-09-21 | 中国科学院声学研究所 | 一种基于无监督学习的新闻实体分析方法及装置 |
WO2023159758A1 (zh) * | 2022-02-22 | 2023-08-31 | 平安科技(深圳)有限公司 | 数据增强方法和装置、电子设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109726394A (zh) | 基于融合btm模型的短文本主题聚类方法 | |
CN107330049B (zh) | 一种新闻热度预估方法及系统 | |
CN104572631B (zh) | 一种语言模型的训练方法及系统 | |
CN105550211A (zh) | 一种融合社交网络和项目内容的协同推荐系统 | |
CN103970866B (zh) | 基于微博文本的微博用户兴趣发现方法及系统 | |
CN107526819A (zh) | 一种面向短文本主题模型的大数据舆情分析方法 | |
CN107368542A (zh) | 一种涉密数据的涉密等级评定方法 | |
Zhou et al. | Self-selective attention using correlation between instances for distant supervision relation extraction | |
CN111709225B (zh) | 一种事件因果关系判别方法、装置和计算机可读存储介质 | |
Aziguli et al. | A robust text classifier based on denoising deep neural network in the analysis of big data | |
Cai et al. | Financial news quantization and stock market forecast research based on CNN and LSTM | |
CN108664558A (zh) | 一种面向大规模用户的网络电视个性化推荐服务方法 | |
JP2020098592A (ja) | ウェブページ内容を抽出する方法、装置及び記憶媒体 | |
CN108694176A (zh) | 文档情感分析的方法、装置、电子设备和可读存储介质 | |
CN117034921A (zh) | 一种基于用户数据的提示学习训练方法、装置和介质 | |
WO2020147259A1 (zh) | 一种用户画像方法、装置、可读存储介质及终端设备 | |
Sun et al. | Rumour detection technology based on the BiGRU_capsule network | |
CN116842934A (zh) | 一种基于持续学习的多文档融合深度学习标题生成方法 | |
Wang | Research on the art value and application of art creation based on the emotion analysis of art | |
Ren | [Retracted] Pop Music Trend and Image Analysis Based on Big Data Technology | |
Yu et al. | Computer Image Content Retrieval considering K‐Means Clustering Algorithm | |
Tang | [Retracted] Analysis of English Multitext Reading Comprehension Model Based on Deep Belief Neural Network | |
Chen | Emotional Calculation Method of Rural Tourist Based on Improved SPCA‐LSTM Algorithm | |
Lu et al. | A novel method for Chinese named entity recognition based on character vector | |
CN110413782A (zh) | 一种表自动主题分类方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190507 |
|
RJ01 | Rejection of invention patent application after publication |