CN109086375B - 一种基于词向量增强的短文本主题抽取方法 - Google Patents

一种基于词向量增强的短文本主题抽取方法 Download PDF

Info

Publication number
CN109086375B
CN109086375B CN201810816147.6A CN201810816147A CN109086375B CN 109086375 B CN109086375 B CN 109086375B CN 201810816147 A CN201810816147 A CN 201810816147A CN 109086375 B CN109086375 B CN 109086375B
Authority
CN
China
Prior art keywords
word
topic
pseudo
semantic
enhancement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810816147.6A
Other languages
English (en)
Other versions
CN109086375A (zh
Inventor
彭敏
高望
胡刚
谢倩倩
李冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201810816147.6A priority Critical patent/CN109086375B/zh
Publication of CN109086375A publication Critical patent/CN109086375A/zh
Application granted granted Critical
Publication of CN109086375B publication Critical patent/CN109086375B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于词向量增强的短文本主题抽取方法,具体涉及了一种新的短文本主题抽取模型,称为CRFTM(Condition Random Field regularized Topic Model)。首先,本发明设计了一种通用的短文本距离衡量方式——基于词向量的平均最小距离,通过将短文本聚合成伪文档来缓解稀疏性问题。其次,CRFTM还利用条件随机场(CRF)正则化模型,对语义相关的词语进行语义强化,使其以更高的概率分配至同一的主题。在新闻数据集上的实验结果表明,本发明的短文本主题抽取方法在主题连贯性指标上优于5种基准主题模型。

Description

一种基于词向量增强的短文本主题抽取方法
技术领域
本发明属于短文本主题抽取算法技术领域,这种技术是结合词语的分布式表示和基于条件随机场的语义增强两方面优势提出的一种新的基于词向量增强的短文本主题抽取方法。
背景技术
随着社交网络的兴起,短文本己成为网络上信息传递的主要载体。例如网页的标题、微博、知乎、Facebook等网站的主要内容都是以短文本的形式呈现。主题模型是一种用于发现文档集合中抽象的“主题”的概率统计模型,可以帮助普通用户通过简单的主题或关键词从海量短文本数据中挖掘出有价值的信息资源。减轻用户阅读负担,提高阅读质量,有着十分重要的应用意义。从短文本中发现主题信息还有着其他广泛的应用场景,例如舆情监控、用户兴趣挖掘、新兴话题发现等等。
传统的主题模型依赖于文本中的词之间的共现关系来抽取文档主题,而短文本字数较少的特点使得其词共现信息非常稀疏。而这种稀疏性导致传统的主题模型在短文本主题挖掘方面的效果并不理想。一种行之有效的方法是将相似的短文本进行合并,聚合成为伪长文本。例如,将微博中同一用户发的多条微博整合在一起,成为一个伪长文本,然后再利用传统的主题模型抽取此伪长文本的主题,在主题抽取的连贯性上有一定的提升。这种方法的问题在于它首先假设相似的短文本具有相同的主题分布,然而并非所有的短文本都和微博一样,同一用户发布的多条微博在主题上有一定的延续性。因此,这种方法无法应用多样化的短文本领域中,有一定的局限性。
近年来,还出现了一些利用词向量提高主题模型在短文本上性能的方法。这类方法利用词向量内在丰富的语义关系,增强短文本的语言关联,缓解上述稀疏性问题,在词向量上进行主题抽取,提高短文本主题建模的能力。虽然此类方法从一定程度上提高了模型表现,但却忽略了词向量的生成机制导致每个词仅对应一个词向量,而对于多义词,这种机制会在主题建模过程中加入噪声,从而影响主题抽取效果,这也是本发明要解决的问题。
发明内容
本发明旨在发现一种将短文本聚合成伪长文本的通用方法,不受短文本形式的限制。并设计一种新的主题模型在利用词向量增强主题建模的同时,可以区分词义差别,以克服多义词的噪声问题。本发明通过将条件随机场融入LDA主题模型利用语义关联增强相似词归属同一主题的概率,从而有效增强短文本主题抽取的连贯性,剔除噪声。
本发明是一种基于词向量增强的短文本主题模型构建方法,具体步骤如下:
一种基于词向量增强的短文本主题抽取方法,其特征在于,包括:
步骤1、对短文本语料数据集进行预处理;
步骤2、利用基于词向量的平均最小距离对短文本聚类,生成伪长文本,具体是基于以下定义:对于短文本s1和s2,计算出s1中的每个词与s2中每个词的词向量余弦相似度,并将其保存在距离矩阵D中;D中每行的最小距离平均值表示s1到s2的距离d(s1->s2),而每列的最小距离平均值表示s2到s1的距离d(s2->s1),则衡量s1,s2之间的距离的方式为
Figure BDA0001740365740000021
步骤3、识别伪长文本中的语义相关词对,为步骤4语义强化奠定基础;具体是首先判断词对中两个词的词向量余弦相似度是否小于设定阈值;若小于设定阈值,则将该词对识别为语义相关词对,对其进行语义强化,否则,不进行语义强化;
步骤4、基于主题模型CRFTM对强化后的伪长文本进行主题抽取,具体是利用条件随机场将语义强化机制融入主题层,使得语义相关词汇以高概率归属于同一主题,并利用下上文相关词来消除主题推断过程中所产生的噪声;
步骤5、利用坍缩吉布斯采样的方法对如下CRFTM模型的主题后验分布进行参数推断。
在上述的一种基于词向量增强的短文本主题抽取方法,步骤1中预处理基于以下处理条件:
处理条件一、将所有字母转变为小写字母;
处理条件二、过滤掉非拉丁字符和停用词;
处理条件三、过滤掉出现次数小于设定次数的词。
在上述的一种基于词向量增强的短文本主题抽取方法,步骤2中,对短文本聚类的具体方法是利用K中心点聚类将短文本聚合成伪长文本,具体是基于目标函数:
Figure BDA0001740365740000022
其中,d(si,ci)表示短文本si和聚类中心cj之间的基于词向量的平均最小距离;通过K中心点聚类,所有短文本将聚合成伪长文本。
在上述的一种基于词向量增强的短文本主题抽取方法,所述步骤3中,对于伪长文档中的每个词对(wi,wi),如果满足条件d(wi,wi)<μ,其中d(wi,wi)表示词对两个词向量的余弦相似度,μ表示设定阈值,则将该词对识别为语义相关词对,词wi和词wj之间是语义强化关系。
在上述的一种基于词向量增强的短文本主题抽取方法,所述步骤4中,若两个词之间是语义强化的关系,则在CRFTM概率图模型中,用一条无向边连接它们的主题标签,此时,主题标签的联合概率如下所示:
Figure BDA0001740365740000031
其中zm表示第m篇伪长文本的主题概率分布,xm表示第m篇伪长文本的下上文相关词概率分布,如果词wi的上下文相关词xi与wj的余弦相似度超过设定阈值,则解除词wi和词wj之间是语义强化关系,以消除主题推断过程中所产生的噪声;Nm代表第m篇文章的长度,ψ(.)表示语义强化函数,如下所示:
Figure BDA0001740365740000032
其中,λ是平衡超参数,如果λ为0,CRFTM则和LDA模型一致;A是概率归一化因子;E表示语义强化连通图;f(zmi,zmj)是计数函数,表示wmi有多少个语义强化词属于同一主题zmi,最终强化词wmi归属于主题zmi的概率。
在上述的一种基于词向量增强的短文本主题抽取方法,所述步骤5中,进行参数推断基于以下公式:
Figure BDA0001740365740000033
其中,V表示字典的词汇个数,α是θ的狄利克雷先验分布参数,β是
Figure BDA0001740365740000034
的狄利克雷先验分布参数,充分统计量
Figure BDA0001740365740000037
表示将词wmi排除出伪长文档m或主题k之外的计数;根据狄利克雷分布与多项式分布的共轭关系,能够依次估计出文档-主题分布θ和主题-词分布
Figure BDA0001740365740000035
Figure BDA0001740365740000036
其中,
Figure BDA0001740365740000041
表示词w属于主题k的概率,θm,k表示伪长文本m属于主题k的概率,
Figure BDA0001740365740000042
表示第m篇伪长文本中词汇w属于主题k出现的次数,
Figure BDA0001740365740000043
表示第m篇伪长文本中主题k出现的次数。
因此本发明具有如下优点:1、本发明利用基于词向量的平均最小距离,通过聚类的方式解决了传统主题模型应用在短文本上的稀疏性问题。并且,这种距离衡量方式并不受短文本形式的限制,大大提高了本发明的普适性。2、本发明设计了一种新的主题模型,利用条件随机场在主题层融入语义强化的外部信息,实现了短文本上抽取高质量主题的抽取。
附图说明
附图1是CRFTM概率图模型示意图。
附图2是基于词向量增强的短文本主题抽取方法的框架图。
附图3a是与基准方法的主题连贯性比较示意图(主题个数为5)。
附图3b是与基准方法的主题连贯性比较示意图(主题个数为10)。
具体实施方式
一、本发明所提出的方法和基准主题模型通过实验比较可以验证本发明方法的高效性。本发明实验所用的数据集是从三家热门报纸网站(纽约时报nyt.com,今日美国usatoday.com,路透社reuters.com)的RSS中提取的31,150条英文新闻文章的新闻描述,因为它们是典型的短文本。新闻的分类分别是:体育,商业,美国,健康,科技,世界和娱乐。为了保证实验的准确性,本发明做了如下预处理工作:
1、基于词向量的平均最小距离:本发明利用词向量衡量短文本之间的距离,提出基于词向量的平均最小距离,可以作为一种通用的短文本距离评价标准,而不受短文本形式的影响。具体来说,距离矩阵D中的第i行第j列的数据表示着短文本s1中第i个词与短文本s2中第j个词的词向量的余弦相似度,而两个短文本之间的距离可由它们中每一个词之间的平均最小距离表示。即使两个短文本中没有一个完全相同的词,这种短文本的距离衡量方式也能够有效的评价出两个短文本之间的主题相似度。此外,基于词向量的最小平均距离并不受短文本形式的限制,大大提高了本发明的普适性。
2、当有了短文本距离评价方式之后,本发明利用K中心点聚类的方式将短文本聚合成伪长文本,从而克服主题模型在短文本上的稀缺性问题。K-means聚类是每次选簇的均值作为新的中心,迭代直到簇中对象分布不再变化。其缺点是对于离群点是敏感的,因为一个具有很大极端值的对象会扭曲数据分布。因此,本发明利用K中心点聚类,新的簇中心不选择均值而是选择簇内的某个对象来克服这一问题。此外,本发明还对K中心点聚类进行约束,使得聚类后的每类数量相同,进一步缓解短文本的稀疏性问题。当有n条短文本要聚合成m条伪长文本,算法的目标是最小化公式(1)所示的目标函数。
Figure BDA0001740365740000051
其中,d(si,ci)表示短文本si和聚类中心cj之间的基于词向量的平均最小距离。通过K中心点聚类,所有短文本将聚合成伪长文本,一定程度上缓解稀疏性问题,为下一步主题抽取奠定坚实基础。
3、本发明基于LDA提出一种新的主题模型CRFTM。CRFTM利用条件随机场在主题层融入语义强化的外部信息,可以在伪长文档上抽取高质量主题。语义强化指的是当一篇文档中的两个词向量的余弦相似度小于某个阈值,则给予它们更高的概率归属于同一主题。对于伪长文档中的每个词对(wi,wi),如果满足条件d(wi,wi)<μ,其中d(wi,wi)表示词对两个词向量的余弦相似度,μ表示设定阈值,则将该词对识别为语义相关词对,词wi和词wj之间是语义强化关系。由于词向量的机制是每个词仅有一个对应的词向量,这对于多义词来说,会在语义强化过程加入噪声。因此本发明还利用下上文相关词来克服这种情况,如果词wi的上下文相关词xi与wj的余弦相似度超过设定阈值,则解除词wi和词wj之间是语义强化关系。如附图1所示,在CRFTM概率图模型中,如果两个词之间是语义强化的关系,则用一条无向边连接它们的主题标签(例如:(zm1,zm2),(zm1,zm4),(zm1,zm5),(zm2,zm6),(zm3,zm6)),此时,主题标签的联合概率如下所示:
Figure BDA0001740365740000052
其中zm表示第m篇伪长文本的主题概率分布,xm表示第m篇伪长文本的下上文相关词概率分布,Nm代表第m篇文章的长度,ψ(.)表示语义强化函数,如下所示:
Figure BDA0001740365740000053
其中,λ是平衡超参数,如果λ为0,CRFTM则和LDA模型一致;A是概率归一化因子;E表示语义强化连通图;f(zmi,zmj)是计数函数,表示wmi有多少个语义强化词属于同一主题zmi。通过这一机制,词wmi归属于主题zmi的概率将得到强化。
4、本发明利用坍缩吉布斯采样的方法对如下CRFTM模型的主题后验分布进行参数推断:
Figure BDA0001740365740000061
其中,V表示字典的词汇个数,α是θ的狄利克雷先验分布参数,β是
Figure BDA0001740365740000062
的狄利克雷先验分布参数,充分统计量
Figure BDA0001740365740000068
表示将词wmi排除出伪长文档m或主题k之外的计数。根据狄利克雷分布与多项式分布的共轭关系,能够依次估计出文档-主题分布θ和主题-词分布
Figure BDA0001740365740000063
Figure BDA0001740365740000064
其中,
Figure BDA0001740365740000065
表示词w属于主题k的概率,θm,k表示伪长文本m属于主题k的概率,
Figure BDA0001740365740000066
表示第m篇伪长文本中词汇w属于主题k出现的次数,
Figure BDA0001740365740000067
表示第m篇伪长文本中主题k出现的次数。
二、本发明的具体实施方式流程图如附图2所示。实现过程如下:
1、根据实验数据的特性进行数据预处理,(1)将所有字母转变为小写字母;(2)过滤掉非拉丁字符和停用词;(3)过滤掉出现次数小于3的词。
2、利用基于词向量的平均最小距离对短文本聚类,生成伪长文本。词向量使用谷歌word2vec工具,如果某个词没有词向量,则不会对该词进行语义强化。
3、使用本发明所提出主题模型CRFTM对伪长文本进行主题抽取。CRFTM利用条件随机场将语义强化机制融入主题层,使得语义相关词汇以更高概率归属于同一主题,并利用下上文相关词来消除主题推断过程中所产生的噪声。
最后,本发明通过计算不同主题数,不同主题词下的主题连贯性与主流基准主题模型LDA,MRF-LDA,BTM,PTM,GPU-DMM比较主题抽取质量。本发明的超参数α=50/K,β=0.01;吉布斯采样次数为1000词;当两个词词向量的余弦相似度小于0.3则进行语义强化。实验结果如附图3所示,本发明的实验效果要优于5种基准主题模型。这是因为本发明从伪长文本中抽取主题,这显著提高了主题抽取的质量。此外,CRFTM利用语义强化机制促进语义相关词汇归属于同一主题,并利用下上文相关词来消除噪音词,使得主题语义相关性更强。

Claims (6)

1.一种基于词向量增强的短文本主题抽取方法,其特征在于,包括:
步骤1、对短文本语料数据集进行预处理;
步骤2、利用基于词向量的平均最小距离对短文本聚类,生成伪长文本,具体是基于以下定义:对于短文本s1和s2,计算出s1中的每个词与s2中每个词的词向量余弦相似度,并将其保存在距离矩阵D中;D中每行的最小距离平均值表示s1到s2的距离d(s1->s2),而每列的最小距离平均值表示s2到s1的距离d(s2->s1),则衡量s1,s2之间的距离的方式为
Figure FDA0003260060850000011
步骤3、识别伪长文本中的语义相关词对,为步骤4语义强化奠定基础;具体是首先判断词对中两个词的词向量余弦相似度是否小于设定阈值;若小于设定阈值,则将该词对识别为语义相关词对,对其进行语义强化,否则,不进行语义强化;
步骤4、基于主题模型CRFTM对强化后的伪长文本进行主题抽取,具体是利用条件随机场将语义强化机制融入主题层,使得语义相关词汇以高概率归属于同一主题,并利用下上文相关词来消除主题推断过程中所产生的噪声;
步骤5、利用坍缩吉布斯采样的方法对如下CRFTM模型的主题后验分布进行参数推断。
2.根据权利要求1所述的一种基于词向量增强的短文本主题抽取方法,其特征在于,步骤1中预处理基于以下处理条件:
处理条件一、将所有字母转变为小写字母;
处理条件二、过滤掉非拉丁字符和停用词;
处理条件三、过滤掉出现次数小于设定次数的词。
3.根据权利要求1所述的一种基于词向量增强的短文本主题抽取方法,其特征在于,步骤2中,对短文本聚类的具体方法是利用K中心点聚类将短文本聚合成伪长文本,
Figure FDA0003260060850000012
其中,d(si,ci)表示短文本si和聚类中心cj之间的基于词向量的平均最小距离;通过K中心点聚类,所有短文本将聚合成伪长文本。
4.根据权利要求1所述的一种基于词向量增强的短文本主题抽取方法,其特征在于,所述步骤3中,对于伪长文档中的每个词对(wi,wj),如果满足条件d(wi,wj)<μ,其中d(wi,wj)表示词对两个词向量的余弦相似度,μ表示设定阈值,则将该词对识别为语义相关词对,词wi和词wj之间是语义强化关系。
5.根据权利要求1所述的一种基于词向量增强的短文本主题抽取方法,其特征在于,所述步骤4中,若两个词之间是语义强化的关系,则在CRFTM概率图模型中,用一条无向边连接它们的主题标签,此时,主题标签的联合概率如下所示:
Figure FDA0003260060850000021
其中zm表示第m篇伪长文本的主题概率分布,xm表示第m篇伪长文本的下上文相关词概率分布,如果词wi的上下文相关词xi与wj的余弦相似度超过设定阈值,则解除词wi和词wj之间是语义强化关系,以消除主题推断过程中所产生的噪声;Nm代表第m篇文章的长度,ψ(.)表示语义强化函数,如下所示:
Figure FDA0003260060850000022
其中,λ是平衡超参数,如果λ为0,CRFTM则和LDA模型一致;A是概率归一化因子;E表示语义强化连通图;f(zmi,zmj)是计数函数,表示wmi有多少个语义强化词属于同一主题zmi,最终强化词wmi归属于主题zmi的概率。
6.根据权利要求1所述的一种基于词向量增强的短文本主题抽取方法,其特征在于,所述步骤5中,进行参数推断基于以下公式:
Figure FDA0003260060850000023
其中,V表示字典的词汇个数,α是θ的狄利克雷先验分布参数,β是
Figure FDA0003260060850000024
的狄利克雷先验分布参数,充分统计量
Figure FDA0003260060850000025
表示将词wmi排除出伪长文档m或主题k之外的计数;根据狄利克雷分布与多项式分布的共轭关系,能够依次估计出文档-主题分布θ和主题-词分布
Figure FDA0003260060850000026
Figure FDA0003260060850000027
其中,
Figure FDA0003260060850000031
表示词w属于主题k的概率,θm,k表示伪长文本m属于主题k的概率,
Figure FDA0003260060850000032
表示第m篇伪长文本中词汇w属于主题k出现的次数,
Figure FDA0003260060850000033
表示第m篇伪长文本中主题k出现的次数。
CN201810816147.6A 2018-07-24 2018-07-24 一种基于词向量增强的短文本主题抽取方法 Active CN109086375B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810816147.6A CN109086375B (zh) 2018-07-24 2018-07-24 一种基于词向量增强的短文本主题抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810816147.6A CN109086375B (zh) 2018-07-24 2018-07-24 一种基于词向量增强的短文本主题抽取方法

Publications (2)

Publication Number Publication Date
CN109086375A CN109086375A (zh) 2018-12-25
CN109086375B true CN109086375B (zh) 2021-10-22

Family

ID=64838204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810816147.6A Active CN109086375B (zh) 2018-07-24 2018-07-24 一种基于词向量增强的短文本主题抽取方法

Country Status (1)

Country Link
CN (1) CN109086375B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840324B (zh) * 2019-01-09 2023-03-24 武汉大学 一种语义强化主题模型构建方法及主题演化分析方法
CN109918509B (zh) * 2019-03-12 2021-07-23 明白四达(海南经济特区)科技有限公司 基于信息提取的场景生成方法及场景生成系统的存储介质
CN110069635A (zh) * 2019-04-30 2019-07-30 秒针信息技术有限公司 一种热度词的确定方法及装置
CN110263854B (zh) * 2019-06-20 2023-06-27 广州酷狗计算机科技有限公司 直播标签确定方法、装置及存储介质
CN110532556A (zh) * 2019-08-29 2019-12-03 苏州朗动网络科技有限公司 文本新闻的处理方法、设备和存储介质
CN111368068A (zh) * 2020-03-18 2020-07-03 江苏鸿程大数据技术与应用研究院有限公司 一种基于词性特征和语义增强的短文本主题建模方法
CN111897952B (zh) * 2020-06-10 2022-10-14 中国科学院软件研究所 一种面向社交媒体的敏感数据发现方法
CN111881257B (zh) * 2020-07-24 2022-06-03 广州大学 基于主题词和语句主旨的自动匹配方法、系统及存储介质
CN112686043B (zh) * 2021-01-12 2024-02-06 武汉大学 一种基于词向量的企业所属新兴产业分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103024017A (zh) * 2012-12-04 2013-04-03 武汉大学 一种社交网络重要目标及社区群体识别方法
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
CN104391942A (zh) * 2014-11-25 2015-03-04 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法
CN107451187A (zh) * 2017-06-23 2017-12-08 天津科技大学 基于互约束主题模型的半结构短文本集中子话题发现方法
CN107798043A (zh) * 2017-06-28 2018-03-13 贵州大学 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9235812B2 (en) * 2012-12-04 2016-01-12 Msc Intellectual Properties B.V. System and method for automatic document classification in ediscovery, compliance and legacy information clean-up

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103024017A (zh) * 2012-12-04 2013-04-03 武汉大学 一种社交网络重要目标及社区群体识别方法
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
CN104391942A (zh) * 2014-11-25 2015-03-04 中国科学院自动化研究所 基于语义图谱的短文本特征扩展方法
CN107451187A (zh) * 2017-06-23 2017-12-08 天津科技大学 基于互约束主题模型的半结构短文本集中子话题发现方法
CN107798043A (zh) * 2017-06-28 2018-03-13 贵州大学 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Parallelization of massive textstream compression based on compressed sensing;Tao P et al.;《ACM Transactions on Information Systems》;20171231;全文 *

Also Published As

Publication number Publication date
CN109086375A (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
CN109086375B (zh) 一种基于词向量增强的短文本主题抽取方法
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
Li et al. Filtering out the noise in short text topic modeling
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及系统
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
Yang et al. Discovering topic representative terms for short text clustering
WO2022095374A1 (zh) 关键词抽取方法、装置、终端设备及存储介质
CN108763348B (zh) 一种扩展短文本词特征向量的分类改进方法
CN107590128B (zh) 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法
CN108710611B (zh) 一种基于词网络和词向量的短文本主题模型生成方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN103617157A (zh) 基于语义的文本相似度计算方法
CN112559747B (zh) 事件分类处理方法、装置、电子设备和存储介质
CN109840324B (zh) 一种语义强化主题模型构建方法及主题演化分析方法
Yang et al. A topic model for co-occurring normal documents and short texts
Bhutada et al. Semantic latent dirichlet allocation for automatic topic extraction
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
Sabbah et al. Hybrid support vector machine based feature selection method for text classification.
Wang et al. Improving short text classification through better feature space selection
TWI452477B (zh) 以模糊相似度與k最近鄰居法為基礎之多標籤文件分類方法
CN113032573A (zh) 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统
CN109871429B (zh) 融合Wikipedia分类及显式语义特征的短文本检索方法
CN116881451A (zh) 基于机器学习的文本分类方法
Liang et al. An efficient hierarchical near-duplicate video detection algorithm based on deep semantic features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant