CN107798043A - 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法 - Google Patents

基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法 Download PDF

Info

Publication number
CN107798043A
CN107798043A CN201710504980.2A CN201710504980A CN107798043A CN 107798043 A CN107798043 A CN 107798043A CN 201710504980 A CN201710504980 A CN 201710504980A CN 107798043 A CN107798043 A CN 107798043A
Authority
CN
China
Prior art keywords
text
word
theme
distribution
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710504980.2A
Other languages
English (en)
Other versions
CN107798043B (zh
Inventor
黄瑞章
闫盈盈
马灿
徐立洋
丁志远
王瑞
黄庭
刘博伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Farming Technology Co Ltd
Guizhou University
Original Assignee
Guizhou Farming Technology Co Ltd
Guizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Farming Technology Co Ltd, Guizhou University filed Critical Guizhou Farming Technology Co Ltd
Priority to CN201710504980.2A priority Critical patent/CN107798043B/zh
Publication of CN107798043A publication Critical patent/CN107798043A/zh
Application granted granted Critical
Publication of CN107798043B publication Critical patent/CN107798043B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法。针对短文本的特征稀疏问题,本发明提出了主题相关长文本辅助短文本的思想,辅助的基础是长文本与短文本共享相同的主题‑词语分配。为了更好地提升聚类效果,该发明能够自动判断长文本中的有用词和噪音词,利用长文本中高质量的有用词与短文本集合进行文本聚类。此外,本发明能够自动识别文本集类的数目,改进了传统文本集类数目需要人为提前给定的情况。

Description

基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类 方法
技术领域
本发明涉及文本分析领域,特别涉及到一种长文本辅助短文本的 文本聚类方法。
随着互联网的快速发展,网络上产生了大量的短文本,如新闻网 站的标题、腾讯空间的说说、新浪微博、百度知识问答、商品评论等 等。短文本聚类已经引起了各行各业的广泛关注。短文本聚类对于获 取用户的观点,监测突发性事件等具有重要的作用。然而,发现短文 本的主题信息是不容易的。直接用传统的主题模型处理短文本效果不 佳,主要原因是短文本字数有严格限制(例如:推文为140字符以内)。 除此之外,短文本还具有书写随意,噪音大等特点。这些特点都干扰 了短文本的主题发现过程。
与短文本相比,长文本具有非常丰富的词语信息,并且以Latent DirichletAllocation(LDA)模型为代表的传统主题模型在挖掘和理解 以新闻为代表的长文本主题方面已经收到了良好的效果。此外,实际 生活中很方便收集与短文本主题相关的长文本信息。例如:新浪微博 上讨论的一些热门话题通常也会出现在新浪推送的新闻中;网页的搜索片段一般都与某些网站的内容是相关联的。因此,为了解决短文本 的稀疏性问题,利用长文本中高质量的主题知识改善短文本文档聚类 是可行的。通常,并不是长文本中每个词语都是有用的。长文本中的 词语包括判别词和噪音词两种,但仅仅判别词对于文本聚类是有用 的。长文本中的无关噪声词会拉低长文本获得高质量结构化知识的能 力,从而干扰短文本聚类过程。当类的数目不确定时,这种干扰情况 将会加剧。
短文本聚类的第二大挑战是类的数目不确定问题。传统的短文本 聚类方法假设类的数目是人为提前给定的。然而,给定大规模的短文 本,用户必须浏览整个文档集合,目的是估计类的数目。显然,这一 过程是耗时的、不切实际的。此外,错误的类估计将会误导短文本聚 类过程,产生一个较差的聚类结果。
因此,针对短文本的特征稀疏和类数目不确定两大问题,需要一 种新的短文本聚类方法以获取更为理想的聚类结果。
发明内容
本发明的目的是:提供一种基于狄利克雷多项混合模型的长文本 辅助短文本的文本聚类方法,它改善了短文本的聚类效果,并能够提 高辅助短文本聚类的长文本的质量,还能自动推断长短文本各自的主 题个数。
本发明是这样实现的:基于狄利克雷多项混合模型的长文本辅助 短文本的文本聚类方法,包括如下步骤:
1)将主题相关的长文本集与短文本集进行文本预处理:进行分 词,去停用词、低频词及标点数字;
2)基于狄利克雷多项混合模型构建主题模型:构建得到主题模 型,主题模型如图2所示;
图2中,α表示狄利克雷分布的参数,是一个向量,维度等于主 题的个数;β,λ表示狄利克雷分布的参数,维度等于语料库词汇总数; ω表示伯努利分布的参数,表示一个词为有用词的概率;θL表示长文 本集的主题分布;θS短文本集的主题分布;短文本集词语与长文本 集有用词形成的主题-词语分布;噪音词的词语分布,模型假设长 文本中的噪音词来源于一个主题;zl表示从θL中采样的长文本和短文 本的主题;zs表示从θS中采样的长文本和短文本的主题;γ伯努利分 布的结果,如果γ=1为该词为有用词,如果γ=0为该词为噪音词; xl,xs分别表示一篇长文本,短文本;L长文本总篇数;S短文本总 篇数;K初始化时主题的总数目;
3)模型的参数估计:基于主题模型(1),利用Blocked Gibbs采 样算法,得到长短文本集共同的词-主题分布,长文本集的主题分布、 噪音词分布,以及短文本集的主题分布;
4)根据主题进行聚类:将Blocked Gibbs采样算法运行1000-2000 次后,得到目标短文本的主题分配情况并进行文本聚类。
所述步骤(3)进一步包括下列具体步骤:
首先初始化模型参数,需要初始化的模型参数包括超参数 {α,β,λ,ω}和隐藏变量{γ,zl,zs};初始化模型参数之后,Blocked Gibbs sampling的推断过程如下:
(a)更新词类型标识γ;
(b)更新长文本有用词和短文本的主题-主题分布φ;
(c)更新长文本噪音词分布φ0
(d)更新长文本集分布θL
(e)更新短文本集分布θS
(f)更新每篇长文本的主题zl,其中l={1,2,…,L};
(g)更新每篇短文本的主题zs,其中s={1,2,…,S};
其中,α表示狄利克雷分布的参数,是一个向量,维度等于主 题的个数;β,λ表示狄利克雷分布的参数,维度等于语料库词汇总数; ω表示伯努利分布的参数,表示一个词为有用词的概率;θL表示长文 本集的主题分布;,θS短文本集的主题分布;短文本集词语与长文本 集有用词形成的主题-词语分布;噪音词的词语分布,模型假设长 文本中的噪音词来源于一个主题;zl表示从θL中采样的长文本和短文 本的主题;zs表示从θS中采样的长文本和短文本的主题;γ伯努利分 布的结果,如果γ=1为该词为有用词,如果γ=0为该词为噪音词; zl={z1,…,zL}是长文本集中L篇文档的主题标签集合,zs={z1,…,zS}是短文本集中S篇文档的主题标签集合。
与现有技术相比,本发明通过共享长文本中的高质量结构化知识 改善短文本的聚类效果;所建立的模型能够自动判别长文本中类的数 目,而不需要人为提前给定,能实现自动将长文本中的词语分为判别 词和噪音词,判别词作为高质量的结构化知识能够提高长文本的质 量,长文本的有用词与短文本共用一个主题-词语分布,是长文本辅 助短文本的基础,长短文本拥有各自的主题分布,因此本发明能自动 推断长短文本各自的主题个数。本发明能够较大程度地提高短文本聚 类效果。
附图说明
图1是本发明的执行流程图;
图2是本发明的主题模型。
具体实施方式
为了使本发明的目的,技术方案以及优点更加清晰明了,以下结 合附图及实施例来具体地阐述本发明的实施方式。需要说明的是,本 发明的保护范围不限于下述的实施例,根据本发明的想法,本领域的 研究人员可以适当修改,这些修改可以在权利要求书所限制的发明范 围之内。
本发明的实施例:基于狄利克雷多项混合模型的长文本辅助短文 本的文本聚类方法,如图1的执行流程图所示,根据本发明具体实例 的基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法, 包括如下步骤:
(1)执行本发明的方法,首先执行步骤S1,获取待聚类的文本 集。
本实施例的第一个文本集AMpaperSet来源于AMinerPaper语料 库。选择该语料库中主题为“graphical image”、“computer network”、 “database”的文章形成语料库的子集。提取这些文章的标题部分作 为该文本集的目标短文本集,并提取这些文章的摘要部分作为该文本 集的辅助长文本集。本实施例的第二个文本集为TweetSet。包括三个 主题:“JeSuisParis”、“RefugeesWelcome”、“PlutoFlyby”。短文本集 部分为从Twitter上爬取的推文,长文本集部分为推文中可访问的链 接所连接的内容。
(2)其次,执行S2步骤,对获取的文本集进行文本预处理工作。 对文本集进行分词、词根还原、去停用词、去低频词等工作。经过预 处理之后,去除文本中冗余的信息,使得文本集变得简洁工整非常节 省资源且便于计算。
(3)文本集处理好之后,执行S3建模步骤。建立基于狄利克雷 多项混合模型的长文本辅助短文本的概率主题模型。首先,该模型能 够自动判别长文本中类的数目,而不需要人为提前给定。其次,为了 提高短文本的聚类效果,模型能够自动判别长文本中的噪声词,仅利 用长文本中有用词辅助短文本聚类;长文本的有用词与短文本共用一 个主题-词语分布,是长文本辅助短文本的基础。另一方面,长短文 本集具有各自的主题分布。
首先解释模型中的符号。本实施例中符号说明如表1所示。
表1
以下是模型的生成过程。
1)选择γj∣ω~B(1,ω),其中j=1,2,…,V.
2)选择∣xs∣~Possion(ξ),其中s=1,2,…,S;
选择∣xl∣~Possion(ζ),其中l=1,2,…,L.
3)选择φk∣β~Dirichlet(β12,…,βV),其中k=1,2,…,K
4)选择φ0∣λ~Dirichlet(λ12,…,λV).
5)选择
选择
6)选择zs∣θS~Discrete(θS1S2,…,θSK),其中s=1,2,…,S;
选择zl∣θL~Discrete(θL1L2,…,θLK),其中l=1,2,…,L.
7)选择其中s=1,2,…,S;
选择
选择xl·(1-γ)∣φ0,γ~Multinomial(∣xl1-γ;φ0),其中 l=1,2,…,L.
xs的概率密度函数为:
xl的概率密度函数为:
积掉中的φ。在给定{z1,z2,…,zS},{z1,z2,…,zL}, 和γ的前提下,文本集DS和DL的概率密度近似为:
其中:
基于上述模型,执行本发明的S4步骤,在该步骤中,利用Blocked Gibbs采样方法推断长短文本集类的数目以及长文本的有用词。马尔 科夫链的状态由γ={γ1,…,γV},zl={z1,…,zL},zs={z1,…,zS}, φ={φ01,…,φK},θL和θS组成。
首先初始化模型参数。需要初始化的模型参数包括超参数 {α,β,λ,ω}和隐藏变量{γ,zl,zs}。初始化模型参数之后,Blocked Gibbs sampling的推断过程如下:
1)更新词类型标识γ。重复下列的Metropolis-Hasting算法R次: 从[0,V-1]中随机选择一个词并标识为γold,改变γold的值为γnew。γnew通 过下列概率进行转移。
其中,p(γ∣DL,zl)∝p(DL∣γ,zl)·p(γ)。p(DL∣γ,zl)在上述公式中已给 出。
2)更新长文本有用词和短文本的主题-主题分布φ。对于 k={1,2,…,K},如果k不在中,从具有参数β的狄利 克雷分布采用φk,否则,从具有如下参数的狄利克雷分布中采样φk
3)更新长文本噪音词分布φ0。从具有如下参数的狄利克雷分布 中采样噪音词分布:
4)更新长文本集分布θL。从具有如下参数的狄利克雷参数中采 样主题分布:
其中I(zl=k)是一个标识函数。当zl=k时,I(zl=k)=1。
5)更新短文本集分布θS。从具有如下参数的狄利克雷参数中采 样主题分布:
其中I(zs=k)是一个标识函数。当zs=k时,I(zs=k)=1。
6)更新每篇长文本的主题zl,其中l={1,2,…,L}。从离散分布中 采样,其参数是{pl1,…,plK},满足:
7)更新每篇短文本的主题zs,其中s={1,2,…,S}。从带有参数 {qs1,…,qsK}的离散分布中采样,其中参数满足如下条件:
需要注意的是:假设模型估计的类的数目为K*,其值为向量 的大小,小于初始化的K值。
执行S5参数估计步骤。当Blocked Gibbs采样算法趋于稳定后, 采样长短文本共同的词-主题分布;长文本集的主题分布、噪音词分 布;短文本的主题分布。
执行本发明的S6步骤,进行文本聚类。根据采样得到每篇目标 短文本的主题分配情况进行聚类。
以上是本发明的实施方式,应当指出,对于本技术领域的普通技 术人员来说,在不脱离本发明原理的情况下,可以做出若干改进,而 这些改进也视为本发明的保护范围。

Claims (2)

1.一种基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法,其特征在于,包括如下步骤:
1)将主题相关的长文本集与短文本集进行文本预处理:进行分词,去停用词、低频词及标点数字;
2)基于狄利克雷多项混合模型构建主题模型:构建得到主题模型,主题模型如图2所示;
图2中,α表示狄利克雷分布的参数,是一个向量,维度等于主题的个数;β,λ表示狄利克雷分布的参数,维度等于语料库词汇总数;ω表示伯努利分布的参数,表示一个词为有用词的概率;θL表示长文本集的主题分布;θS短文本集的主题分布;短文本集词语与长文本集有用词形成的主题-词语分布;噪音词的词语分布,模型假设长文本中的噪音词来源于一个主题;zl表示从θL中采样的长文本和短文本的主题;zs表示从θS中采样的长文本和短文本的主题;γ伯努利分布的结果,如果γ=1为该词为有用词,如果γ=0为该词为噪音词;xl,xs分别表示一篇长文本,短文本;L长文本总篇数;S短文本总篇数;K初始化时主题的总数目;
3)模型的参数估计:基于主题模型(1),利用Blocked Gibbs采样算法,采样长短文本共同的词-主题分布,长文本集的主题分布、噪音词分布,以及短文本的主题分布;
4)根据主题进行聚类:将Blocked Gibbs采样算法运行1000-2000次后,得到目标短文本的主题分配情况并进行文本聚类。
2.如权利要求1所述的基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法,其特征在于,所述步骤(3)进一步包括下列具体步骤:
首先初始化模型参数,需要初始化的模型参数包括超参数{α,β,λ,ω}和隐藏变量{γ,zl,zs};初始化模型参数之后,Blocked Gibbs sampling的推断过程如下:
(a)更新词类型标识γ;
(b)更新长文本有用词和短文本的主题-主题分布
(c)更新长文本噪音词分布
(d)更新长文本集分布θL
(e)更新短文本集分布θS
(f)更新每篇长文本的主题zl,其中l={1,2,…,L};
(g)更新每篇短文本的主题zs,其中s={1,2,…,S};
其中,α表示狄利克雷分布的参数,是一个向量,维度等于主题的个数;β,λ表示狄利克雷分布的参数,维度等于语料库词汇总数;ω表示伯努利分布的参数,表示一个词为有用词的概率;θL表示长文本集的主题分布;θS短文本集的主题分布;短文本集词语与长文本集有用词形成的主题-词语分布;噪音词的词语分布,模型假设长文本中的噪音词来源于一个主题;zl表示从θL中采样的长文本和短文本的主题z;zs表示从θS中采样的长文本和短文本的主题;γ伯努利分布的结果,如果γ=1为该词为有用词,如果γ=0为该词为噪音词;zl={z1,…,zL}是长文本集中L篇文档的主题标签集合,zs={z1,…,zS}是短文本集中S篇文档的主题标签集合。
CN201710504980.2A 2017-06-28 2017-06-28 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法 Active CN107798043B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710504980.2A CN107798043B (zh) 2017-06-28 2017-06-28 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710504980.2A CN107798043B (zh) 2017-06-28 2017-06-28 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法

Publications (2)

Publication Number Publication Date
CN107798043A true CN107798043A (zh) 2018-03-13
CN107798043B CN107798043B (zh) 2022-05-03

Family

ID=61531079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710504980.2A Active CN107798043B (zh) 2017-06-28 2017-06-28 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法

Country Status (1)

Country Link
CN (1) CN107798043B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086375A (zh) * 2018-07-24 2018-12-25 武汉大学 一种基于词向量增强的短文本主题抽取方法
CN109299364A (zh) * 2018-09-26 2019-02-01 贵州大学 一种具有新主题偏向性的短文本动态聚类方法
CN109509110A (zh) * 2018-07-27 2019-03-22 福州大学 基于改进bbtm模型的微博热点话题发现方法
CN110032639A (zh) * 2018-12-27 2019-07-19 中国银联股份有限公司 将语义文本数据与标签匹配的方法、装置及存储介质
CN110046228A (zh) * 2019-04-18 2019-07-23 合肥工业大学 短文本主题识别方法和系统
CN110096704A (zh) * 2019-04-29 2019-08-06 扬州大学 一种短文本流的动态主题发现算法
CN111506785A (zh) * 2020-03-06 2020-08-07 之江实验室 基于社交文本的网络舆情话题识别方法和系统
CN111813935A (zh) * 2020-06-22 2020-10-23 贵州大学 一种基于层次狄利克雷多项分配模型的多源文本聚类方法
CN111813934A (zh) * 2020-06-22 2020-10-23 贵州大学 一种基于dma模型和特征划分多源文本主题模型聚类方法
CN112597769A (zh) * 2020-12-15 2021-04-02 中山大学 一种基于狄利克雷变分自编码器的短文本主题识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870447A (zh) * 2014-03-11 2014-06-18 北京优捷信达信息科技有限公司 一种基于隐含狄利克雷模型的关键词抽取方法
CN104573070A (zh) * 2015-01-26 2015-04-29 清华大学 一种针对混合长度文本集的文本聚类方法
CN105740354A (zh) * 2016-01-26 2016-07-06 中国人民解放军国防科学技术大学 自适应潜在狄利克雷模型选择的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870447A (zh) * 2014-03-11 2014-06-18 北京优捷信达信息科技有限公司 一种基于隐含狄利克雷模型的关键词抽取方法
CN104573070A (zh) * 2015-01-26 2015-04-29 清华大学 一种针对混合长度文本集的文本聚类方法
CN105740354A (zh) * 2016-01-26 2016-07-06 中国人民解放军国防科学技术大学 自适应潜在狄利克雷模型选择的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
郑锦良: ""基于选择性长短文本结合的论坛主题模型研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
金瓯: ""长文本辅助短文本的知识迁移聚类方法"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086375A (zh) * 2018-07-24 2018-12-25 武汉大学 一种基于词向量增强的短文本主题抽取方法
CN109086375B (zh) * 2018-07-24 2021-10-22 武汉大学 一种基于词向量增强的短文本主题抽取方法
CN109509110B (zh) * 2018-07-27 2021-08-31 福州大学 基于改进bbtm模型的微博热点话题发现方法
CN109509110A (zh) * 2018-07-27 2019-03-22 福州大学 基于改进bbtm模型的微博热点话题发现方法
CN109299364A (zh) * 2018-09-26 2019-02-01 贵州大学 一种具有新主题偏向性的短文本动态聚类方法
CN110032639A (zh) * 2018-12-27 2019-07-19 中国银联股份有限公司 将语义文本数据与标签匹配的方法、装置及存储介质
CN110032639B (zh) * 2018-12-27 2023-10-31 中国银联股份有限公司 将语义文本数据与标签匹配的方法、装置及存储介质
US11586658B2 (en) 2018-12-27 2023-02-21 China Unionpay Co., Ltd. Method and device for matching semantic text data with a tag, and computer-readable storage medium having stored instructions
CN110046228A (zh) * 2019-04-18 2019-07-23 合肥工业大学 短文本主题识别方法和系统
CN110046228B (zh) * 2019-04-18 2021-06-11 合肥工业大学 短文本主题识别方法和系统
CN110096704B (zh) * 2019-04-29 2023-05-05 扬州大学 一种短文本流的动态主题发现方法
CN110096704A (zh) * 2019-04-29 2019-08-06 扬州大学 一种短文本流的动态主题发现算法
CN111506785A (zh) * 2020-03-06 2020-08-07 之江实验室 基于社交文本的网络舆情话题识别方法和系统
CN111813934A (zh) * 2020-06-22 2020-10-23 贵州大学 一种基于dma模型和特征划分多源文本主题模型聚类方法
CN111813935A (zh) * 2020-06-22 2020-10-23 贵州大学 一种基于层次狄利克雷多项分配模型的多源文本聚类方法
CN111813935B (zh) * 2020-06-22 2024-04-30 贵州大学 一种基于层次狄利克雷多项分配模型的多源文本聚类方法
CN111813934B (zh) * 2020-06-22 2024-04-30 贵州大学 一种基于dma模型和特征划分多源文本主题模型聚类方法
CN112597769A (zh) * 2020-12-15 2021-04-02 中山大学 一种基于狄利克雷变分自编码器的短文本主题识别方法
CN112597769B (zh) * 2020-12-15 2022-06-03 中山大学 一种基于狄利克雷变分自编码器的短文本主题识别方法

Also Published As

Publication number Publication date
CN107798043B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN107798043A (zh) 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法
AU2017243270B2 (en) Method and device for extracting core words from commodity short text
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
WO2017167067A1 (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
CN104281653B (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN107203507B (zh) 特征词汇提取方法及装置
CN110110075A (zh) 网页分类方法、装置以及计算机可读存储介质
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN107066555A (zh) 面向专业领域的在线主题检测方法
CN107273474A (zh) 基于潜在语义分析的自动摘要抽取方法及系统
CN104978354B (zh) 文本分类方法和装置
CN108052509B (zh) 一种文本相似度计算方法、装置及服务器
CN105787121B (zh) 一种基于多故事线的微博事件摘要提取方法
CN108763348A (zh) 一种扩展短文本词特征向量的分类改进方法
CN108536868A (zh) 社交网络上短文本数据的数据处理方法及应用
CN103886077A (zh) 短文本的聚类方法和系统
Rashid et al. Analysis of streaming data using big data and hybrid machine learning approach
CN110032622A (zh) 关键词确定方法、装置、设备及计算机可读存储介质
CN104572874B (zh) 一种网页信息的抽取方法及装置
Rehman et al. Statistical topic modeling for urdu text articles
CN110489759A (zh) 基于词频的文本特征加权及短文本相似性计算方法、系统和介质
CN107590163B (zh) 文本特征选择的方法、装置和系统
CN108804422A (zh) 一种科技论文文本建模方法
CN104331472B (zh) 分词训练数据的构造方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant