CN105955948A - 一种基于单词语义相似度的短文本主题建模方法 - Google Patents

一种基于单词语义相似度的短文本主题建模方法 Download PDF

Info

Publication number
CN105955948A
CN105955948A CN201610254533.1A CN201610254533A CN105955948A CN 105955948 A CN105955948 A CN 105955948A CN 201610254533 A CN201610254533 A CN 201610254533A CN 105955948 A CN105955948 A CN 105955948A
Authority
CN
China
Prior art keywords
word
theme
short text
similarity
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610254533.1A
Other languages
English (en)
Other versions
CN105955948B (zh
Inventor
李晨亮
王浩然
张芷芊
孙爱欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201610254533.1A priority Critical patent/CN105955948B/zh
Publication of CN105955948A publication Critical patent/CN105955948A/zh
Application granted granted Critical
Publication of CN105955948B publication Critical patent/CN105955948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于单词语义相似度的短文本主题建模方法,根据外部提供的单词语义相似度,构建短文本集中单词的相似词集;确定建模采用的主题数;随机分配各个短文本的主题;通过吉布斯采样过程迭代地确定各个短文本的主题和单词在主题下的分布;根据上述变量的最终分配结果向用户反馈各个主题下的单词分布与各个短文本所关联的主题。本发明很好地解决了短文本上信息量稀疏,语义表达不明确的问题。根据本发明所提供的模型结果,可以很好地将短文本表示为主题向量,作为短文的最终特征向量,这种主题向量式的表达具有良好的语义解释性,可作为多种应用的算法基础。本发明可以广泛应用到各种短文本数据之上,具有广泛的实际意义和商业价值。

Description

一种基于单词语义相似度的短文本主题建模方法
技术领域
本发明属于计算机技术领域,涉及一种文本挖掘、主题建模的方法,具体涉及一种利用外部单词语义相似度信息,来加强短文本中单词之间的关联度,从而加强短文本上主题建模效果的方法。
背景技术
随着互联网的兴起,我们逐步进入大数据时代。与此同时,短文本已经成为互联网上一种越来越流行的文本数据。常见的有网页页面摘要、新闻标题、文本广告、微博、朋友圈更新等等。如何建立一种高效的主题模型并从大量的短文本数据集中挖掘出潜在的语义信息已经成为众多应用的基石。通过主题模型,我们就能获得对短文本的一种计算机可理解的形式化表达,从而可以应用到用户兴趣分析、内容推荐、主题探测、文本分类等众多基本文本挖掘任务之中。
传统的主题模型,旨在构建一个更为完全概率生成模型的主题模型方法,使得不同长度的文本可以以相同的维度向量进行表示。例如2003年,Bei.在Journal of Machine LearningResearch发表的一篇名为“Latent Dirichlet Allocation”,常用于传统文本的分析,但是由于短文本的稀疏性,传统主题模型很难在短文本上取得较好的效果。
发明内容
为了解决上述技术问题,本发明利用了外部语料知识库提供的单词之间的关联性,提出了一种基于单词语义相似度的短文本主题建模方法,加强了短文本中词语之间的联系,从而提高了主题模型在短文本上的效果。
短文本的明显特征之一就是词语之间的共现性是非常稀疏的,这就导致了传统的主题模型在短文本上不能取得理想的结果。本发明旨在解决短文本上的数据稀疏性,从而提高主题模型在短文本上的效果。本发明提出了一个从短文本集合中抽取主题模式的方法。该模型对每个短文本设置一个主题变量,该变量表示短文本所关联的主题,即短文本中每个单词都由该主题生成。该模型在训练算法中结合了单词语义相似度信息,从而使得相似单词关联到同一个主题之下。单词语义相似度信息通过外部语料知识库获取,例如WordNet/维基百科、或者基于海量文本数据得到的LDA话题模型/词向量等,获得词语之间的相似度,进而对每一个单词构建一个相似词集合。主题模型能反馈在语料集上的主题单词分布,利用此信息就能计算得到文档的主题分布,即各个文档会被表示成同样维度大小下的一个向量,这种表达是其他数据挖掘任务的基础。
本发明所采用的技术方案是:一种基于单词语义相似度的短文本主题建模方法,其特征在于,包括以下步骤:
步骤1:计算单词两两之间的语义相似度;
步骤2:根据单词间的相似度,构建短文本集中单词的相似词集;
步骤3:针对公开的短文本数据集,训练得出针对短文本的主题模型,确定出各个短文本的主题和单词在主题下的分布;
步骤4:根据步骤3中获得的结果向用户反馈各个主题下的单词分布与各个短文本所关联的主题。
作为优选,步骤1的具体实现过程是,通过外部语义知识库,利用词向量和余弦相似度来表示单词之间的相似度。
作为优选,使用余弦相似度来计算两个单词wi和wj之间的相似度sim(wi,wj),公式如下:
s i m ( w i , w j ) = A · B | | A | | | | B | | = Σ i = 1 n A i B i Σ i = 1 n A i 2 Σ i = 1 n B i 2 ;
其中,Α,B分别表示单词wi和wj的向量,其向量维度为n;
作为优选,步骤2的具体实现包括以下子步骤:
步骤2.1:预先设定一个阈值∈,如若单词wi和wj之间的相似度sim(wi,wj)大于∈,则互相添加彼此到对方的相似词集合中;
步骤2.2:对相似词集合的大小进行限制,如果某个单词的相似词数量大于预设值τ,则认为该单词具有普遍性,清空该词的相似词集合。
作为优选,步骤3的具体实现包括以下子步骤:
步骤3.1:对短文本数据集进行预处理,包含去除停用词,低频词;
步骤3.2:给定模型的Hyper-parameterα和β,其中α是文档到主题的狄利克雷分布的先验参数,β是主题到单词的狄利克雷分布的先验参数,主题数目T,模型训练迭代次数Iter,相似度过滤阈值∈,相似词促进量μ,相似词数量过滤阈值τ;
步骤3.3:在对单词进行相似词促进操作之前,确定其每个相似词w′相对当前词w的促进量的大小
步骤3.4:遍历数据集中每一篇文档d,随机赋予一个主题k,主题k关联的文档数量,记为mk,主题k关联的单词数量,记为nk,各个主题k下各个单词w与主题k关联的数量,记为此时不考虑单词的相似词,对每篇文档d的每个单词w的相似词促进标记置为0;
步骤3.5:对于短文本数据集中的每一篇文档d依次执行步骤3.6至步骤3.9
步骤3.6:对于文档d的每一个单词w,以及上一轮迭代中文档赋予的主题k,首先从计数器中mk,nk减去当前词带来的影响,即分别从计数器中减去1,同时若当前词w的相似词促进标记为1,需要对单词w的每个相似词w′的计数器和nk减去其促进量否则跳过相似词促进阶段;
步骤3.7:对文档d采样出一个新主题knew赋予文档d;
步骤3.8:对文档d中的单词w更新相似词促进标记
步骤3.9:得到knew后,依次更新相计数器即分别在计数器中加上1,同时若当前词w更新后的为1,需要对单词w的每个相似词w′的计数器和nk加上其促进量否则跳过相似词促进阶段;
步骤3.10:更新单词集合中每一个单词的主题概率分布p(z|w);
步骤3.11:循环执行步骤3.5至步骤3.10,直到运行完预设迭代次数Iter后,计算出该数据集下的主题单词分布p(w|z);
步骤3.12:利用主题单词分布p(w|z)计算得出文档主题分布p(z|d),即文档被表示成k维的向量。
作为优选,步骤3.4中,当前单词本身的促进量为1,其相似词的促进量为μ,结果用矩阵表示,其中表示单词w和单词w′的相似度,具体表示如下:
其中,表示单词w的相似词集合。
作为优选,步骤3.6中,抽样公式为:
其中,mk指在主题k关联的文档数目,指在文档d中出现单词w的次数,指单词w与主题k所关联的数量,指相关变量计算中不包含文档d及其所包含的单词,α和β为预先设定的狄利克雷分布的先验参数,D表示短文本语料中的文档总数,V表示语料中的单词总数,T表示指定的主题数目。
作为优选,步骤3.8中,更新相似词促进的公式为:
λ w , z = p ( z | w ) p max ( z ′ | w )
p m a x ( z | w ) = m a x k p ( z = k | w )
p ( z = k | w ) = p ( z = k ) p ( w | z = k ) Σ i = 1 T p ( z = i ) p ( w | z = i )
p ( w | z = k ) = n z w + β Σ w n z w + V β ;
上式中,p(z|w)表示给定单词w的条件下,w属于主题z的概率;p(w|z)表示在给定主题z的条件下,出现单词w的概率,表示文档d中单词w的相似词促进标记,由伯努利分布采样得到,λw,z表示单词w在主题z下相似词促进标记的伯努利分布参数,表示主题z与单词w关联的数量,V表示语料集中的单词总数。
作为优选,步骤3.9中,计算公式如下:
p ( z = k | w ) = p ( z = k ) p ( w | z = k ) Σ i = 1 T p ( z = i ) p ( w | z = i )
上式中,p(z=k)表示主题k出现的概率,p(w|z)表示在给定主题z的条件下,出现单词w的概率。
作为优选,步骤3.10中,计算公式如下:
p ( w | z = k ) = n k w + β Σ w V R k w + V β ;
上式中,表示单词w与主题k所关联的数量,V表示语料中的单词总数,β表示主题到单词的狄利克雷分布的先验参数。
作为优选,步骤3.11中,计算公式如下:
p ( z = k | d ) ∝ Σ w p ( z = k | w ) p ( w | d ) ;
其中,p(z=k|d)表示在文档d下主题为k的概率,p(z=k|w)表示在单词w下主题为k的概率,p(w|d)表示在文档d中单词w出现的概率。
本发明模型利用外部语料知识库得到的单词语义相似度信息,很好地解决了短文本上信息量稀疏,语义表达不明确的问题。根据本发明所提供的模型结果,可以很好地将短文本表示为主题向量,作为短文的最终特征向量,这种主题向量式的表达具有良好的语义解释性,可作为多种应用的算法基础,譬如说提升短文本的分类、聚类准确度、并可用于各类推荐、语义分析和用户画像等。由于该方法是一种非监督性的方法,不需要人工对数据进行标注,使得本发明可以广泛应用到各种短文本数据之上,具有广泛的实际意义和商业价值。
附图说明
图1:本发明实施例的模型应用示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供了一种基于单词语义相似度的短文本主题建模的方法,该方法利用了外部语料知识库的语义信息,极大增强了短文本的单词共现性上的稀疏性。本发明一定程度上解决了传统主题模型常在短文本数据集上遇到的困难。本发明模型提出了一个从短文本集合中抽取的主题模式的方法,该模型对每个短文本设置一个主题变量,该变量表示短文本所关联的主题,即短文本中每个单词都由该主题生成。该模型在训练算法中结合了单词语义相似度信息,从而使得相似单词关联到同一个主题之下。本发明模型在训练集上迭代指定次数后,会得到主题下的单词分布以及文档的主题分布,可以用其进行例如分类、聚类等更多数据挖掘任务。从图1中可以看到整个模型主要分为两部分,一部分是相似词的收集,一部分是主题模型的训练,具体实现过程包括以下步骤:
步骤1:计算单词两两之间的语义相似度;
a)下载Google公开的基于维基百科训练完毕的英语词向量(https://code.google.com/p/word2vec),即每一个英语单词会表示成一个300维的向量;
b)使用余弦相似度来计算两个单词wi和wj之间的相似度sim(wi,wj),公式如下:
s i m ( w i , w j ) = A · B | | A | | | | B | | = Σ i = 1 n A i B i Σ i = 1 n A i 2 Σ i = 1 n B i 2 ;
其中,Α,B分别表示单词wi和wj的向量,其向量维度为n;
步骤2:根据单词间的相似度,构建短文本集中单词的相似词集;
a)在英语环境下,确定某一个阈值∈,若Cosine相似度大于∈,则加入到该词的相似词集合中最优阈值∈的设定在后续指定实验任务中进行调优;
b)对相似词集合的大小进行限制,如果相似词集合的大小超过20,则认为该词不具有代表性,清空其相似词集合,即弃置掉所有相似词;
步骤3:针对公开的短文本数据集,训练得出针对短文本的主题模型,确定出各个短文本的主题和单词在主题下的分布;
下载公开的短文本数据集Snippet(http://acube.di.unipi.it/tmn-dataset/),该数据集中每个文档都被赋予一个类别标签;在预处理过程中去除其中的停用词,过滤掉单词频率小于5的单词,最后得到12,265篇文档,文档平均长度为10.72,共有单词数目5,581;
针对公开的短文本数据集,训练得出针对短文本的主题模型;该模型是狄利克雷多项分布模型的一种扩展,即对每一个文档赋予一个主题,并认为该文档中的每一个词都来自于该主题;在采样出新主题后,不仅要增加当前词在新主题下的概率,还要以一定概率地增加当前词的相似词在新主题下的概率,具体实现过程是:
a)给定模型的Hyper-parameterα和β,其中α是文档到主题的狄利克雷分布的先验参数,β是主题到单词的狄利克雷分布的先验参数,主题数目T,模型训练迭代次数Iter,相似度过滤阈值∈,相似词促进量μ,相似词数量过滤阈值τ;
b)在对词语进行相似词促进操作之前,要确定其每个相似词促进量的大小,当前词本身促进量为1,其相似词促进量为μ,结果用矩阵表示,其中表示单词w和单词w′的相似度,具体表示如下:
其中,表示单词w的相似词集合。
c)遍历数据集中每一篇文档d,随机赋予一个主题k,主题k关联的文档数量,记为mk,主题k关联的单词数量,记为nk,各个主题k下各个单词w与主题k关联的数量,记为此时不考虑单词的相似词,对每篇文档d的每个单词w的相似词促进标记置为0;
d)对于短文本数据集中的每一篇文档d依次执行步骤e至步骤i;
e)对于每一篇文档d的每一个单词w,以及上一轮迭代中文档赋予的主题k,首先从计数器中mk,nk减去当前词带来的影响,即分别从计数器中减去1,同时若当前词w的相似词促进标记为1,需要对单词w的每个相似词w′的计数器和nk减去其促进量否则跳过相似词促进阶段;
f)对文档d从如下分布中采样出一个新主题knew赋予文档d,抽样公式如下:
在上式中,mk指与主题k关联的文档数目,指在文档d中出现单词w的次数,指单词w与主题k所关联的数量,指相关变量计算中不包含文档d及其所包含的单词,α和β为预先设定的狄利克雷分布的先验参数,D表示短文本语料中的文档总数,V表示语料中的单词总数,T表示指定的主题数目。
g)对文档d中的单词w更新相似词促进标记公式如下:
λ w , z = p ( z | w ) p max ( z ′ | w )
p m a x ( z | w ) = m a x k p ( z = k | w )
p ( z = k | w ) = p ( z = k ) p ( w | z = k ) Σ i = 1 T p ( z = i ) p ( w | z = i )
p ( w | z = k ) = n z w + β Σ w n z w + V β ;
上式中,p(z|w)表示给定单词w的条件下,w属于主题z的概率;p(w|z)表示在给定主题z的条件下,出现单词w的概率,表示文档d中单词w的相似词促进标记,由伯努利分布采样得到,λw,z表示单词w在主题z下相似词促进标记的伯努利分布参数,表示主题z与单词w关联的数量,V表示语料集中的单词总数。
h)从步骤e中得到knew后,依次更新相计数器即分别在计数器中加上1,同时若当前词w更新后的为1,需要对单词w的每个相似词w′的计数器加上其促进量否则跳过相似词促进阶段;
i)更新单词集合中每一个单词的主题概率分布p(z|w),公式如下:
p ( z = k | w ) = p ( z = k ) p ( w | z = k ) Σ i = 1 T p ( z = i ) p ( w | z = i )
上式中,p(z=k)表示主题k出现的概率,p(w|z)表示在给定主题z的条件下,出现单词w的概率。
j)循环步骤d到步骤i步,直到运行完预设迭代次数后,计算出该数据集下的主题单词分布Φ,计算公式如下:
p ( w | z = k ) = n k w + β Σ w V R k w + V β ;
上式中,表示单词w与主题k所关联的数量,V表示语料中的单词总数,β表示主题到单词的狄利克雷分布的先验参数;
k)利用主题单词分布Φ计算得出文档主题分布θ,即文档被表示成k维的向量,具体计算公式如下:
p ( z = k | d ) ∝ Σ w p ( z = k | w ) p ( w | d ) ;
上式中,p(z=k|d)表示在文档d下主题为k的概率,p(z=k|w)表示在单词
w下主题为k的概率,p(w|d)表示在文档d中单词w出现的概率。
步骤4:根据步骤3中获得的结果向用户反馈各个主题下的单词分布p(w|z)与各个短文本下的主题分布p(z|d)。
本发明的模型获得文档的主题分布向量后,可以用于各种基础的机器学习任务中,譬如可以对文档进行分类、聚类、推荐等。可以直接使用的算法有SVM、K-Means等。外部语料知识库中语义信息的引入可以极大的加强短文本上单词之间的共现性,解决了短文本上数据稀疏的缺点,提高了主题模型在短文本数据集上的效果。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (11)

1.一种基于单词语义相似度的短文本主题建模方法,其特征在于,包括以下步骤:
步骤1:计算单词两两之间的语义相似度;
步骤2:根据单词间的相似度,构建短文本集中单词的相似词集;
步骤3:针对需要处理的短文本数据集,训练得出该短文本数据集的主题模型,确定出各个短文本的主题和单词在主题下的分布;
步骤4:根据步骤3中获得的结果向用户反馈各个主题下的单词分布与各个短文本所关联的主题。
2.根据权利要求1所述的基于单词语义相似度的短文本主题建模方法,其特征在于:步骤1的具体实现过程是,通过外部语料知识库,利用词向量和余弦相似度来表示单词之间的相似度。
3.根据权利要求2所述的基于单词语义相似度的短文本主题建模方法,其特征在于:使用余弦相似度来计算两个单词wi和wj之间的相似度sim(wi,wj),公式如下:
s i m ( w i , w j ) = A · B | | A | | | | B | | = Σ i = 1 n A i B i Σ i = 1 n A i 2 Σ i = 1 n B i 2 ;
其中,Α,Β分别表示单词wi和wj的词向量,其向量维度为n。
4.根据权利要求1所述的基于单词语义相似度的短文本主题建模方法,其特征在于,步骤2的具体实现包括以下子步骤:
步骤2.1:预先设定一个阈值∈,如若单词wi和wj之间的相似度sim(wi,wj)大于∈,则互相添加彼此到对方的相似词集合中;
步骤2.2:对相似词集合的大小进行限制,如果某个单词的相似词数量大于预设值τ,则认为该单词具有普遍性,清空该词的相似词集合。
5.根据权利要求1所述的基于单词语义相似度的短文本主题建模方法,其特征在于,步骤3的具体实现包括以下子步骤:
步骤3.1:对短文本数据集进行预处理,包含去除停用词,低频词;
步骤3.2:给定模型的Hyper-parameterα和β,其中α是文档到主题的狄利克雷分布的先验参数,β是主题到单词的狄利克雷分布的先验参数,主题数目T,模型训练迭代次数Iter,相似度过滤阈值∈,相似词促进量μ,相似词数量过滤阈值τ;
步骤3.3:在对单词进行相似词促进操作之前,确定其每个相似词w′相对当前词w的促进量的大小
步骤3.4:遍历数据集中每一篇文档d,随机赋予一个主题k,关联到主题k的文档数量,记为mk,关联到主题k下的单词数量,记为nk,各个主题k下各个单词w与主题k所关联的数量,记为此时不考虑单词的相似词,对每篇文档d的每个单词w的相似词促进标记置为0;
步骤3.5:对于短文本数据集中的每一篇文档d依次执行步骤3.6至步骤3.9
步骤3.6:对于文档d的每一个单词w,以及上一轮迭代中文档d赋予的主题k,首先从计数器中mk,nk减去当前词带来的影响,即分别从计数器中减去1,同时若当前词w的相似词促进标记为1,需要对单词w的每个相似词w′的计数器和nk减去其促进量否则跳过相似词促进阶段;
步骤3.7:对文档d采样出一个新主题knew赋予文档d;
步骤3.8:对文档d中的单词w更新相似词促进标记
步骤3.9:得到knew后,依次更新相关计数器 即分别在计数器中加上1,同时若当前词w更新后的为1,需要对单词w的每个相似词w′的计数器加上其促进量否则跳过相似词促进阶段;
步骤3.10:更新单词集合中每一个单词的主题概率分布p(z|w);
步骤3.11:循环执行步骤3.5至步骤3.10,直到运行完预设迭代次数Iter后,计算出该数据集下的主题单词分布p(w|z);
步骤3.12:利用主题单词分布p(w|z)计算得出文档主题分布p(z|d),即文档被表示成k维的向量。
6.根据权利要求5所述的基于单词语义相似度的短文本主题建模方法,其特征在于,步骤3.3中,当前单词本身的促进量为1,其相似词的促进量为μ,结果用矩阵表示,其中表示单词w和单词w′的相似度,具体表示如下:
其中,表示单词w的相似词集合。
7.根据权利要求5所述的基于单词语义相似度的短文本主题建模方法,其特征在于,步骤3.6中,抽样公式为:
其中,mk指在主题为k的文档数目,指在文档d中出现单词w的次数,指单词w与主题k所关联的数量,指相关变量计算中不包含文档d及其所包含的单词,α和β为预先设定的狄利克雷分布的先验参数,D表示短文本语料中的文档总数,V表示语料中的单词总数,T表示指定的主题数目。
8.根据权利要求5所述的基于单词语义相似度的短文本主题建模方法,其特征在于,步骤3.7中,更新相似词促进标记公式为:
λ w , z = p ( z | w ) p max ( z ′ | w )
p m a x ( z | w ) = m a x k p ( z = k | w )
p ( z = k | w ) = p ( z = k ) p ( w | z = k ) Σ i = 1 T p ( z = i ) p ( w | z = i )
p ( w | z ) = n z w + β Σ w n z w + V β
上式中,p(z|w)表示给定单词w的条件下,w属于主题z的概率;p(w|z)表示在给定主题z的条件下,出现单词w的概率,表示文档d中单词w的相似词促进标记,由伯努利分布采样得到,λw,z表示单词w在主题z下相似词促进标记的伯努利分布参数,表示主题z与单词w关联的数量,V表示语料集中的单词总数。
9.根据权利要求5所述的基于单词语义相似度的短文本主题建模方法,其特征在于,步骤3.9中,计算公式如下:
p ( z = k | w ) = p ( z = k ) p ( w | z = k ) Σ i = 1 T p ( z = i ) p ( w | z = i )
上式中,p(z=k)表示主题k出现的概率,p(w|z)表示在给定主题z的条件下,出现单词w的概率。
10.根据权利要求5所述的基于单词语义相似度的短文本主题建模方法,其特征在于,步骤3.10中,计算公式如下:
p ( w | z = k ) = n k w + β Σ w V n k w + V β ;
上式中,表示单词w与主题k所关联的数量,V表示语料中的单词总数,β表示主题到单词的狄利克雷分布的先验参数。
11.根据权利要求5所述的基于单词语义相似度的短文本主题建模方法,其特征在于,步骤3.11中,计算公式如下:
p ( z = k | d ) ∝ Σ w p ( z = k | w ) p ( w | d ) ;
其中,p(z=k|d)表示在文档d下主题为k的概率,p(z=k|w)表示在单词w下主题为k的概率,p(w|d)表示在文档d中单词w出现的概率。
CN201610254533.1A 2016-04-22 2016-04-22 一种基于单词语义相似度的短文本主题建模方法 Active CN105955948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610254533.1A CN105955948B (zh) 2016-04-22 2016-04-22 一种基于单词语义相似度的短文本主题建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610254533.1A CN105955948B (zh) 2016-04-22 2016-04-22 一种基于单词语义相似度的短文本主题建模方法

Publications (2)

Publication Number Publication Date
CN105955948A true CN105955948A (zh) 2016-09-21
CN105955948B CN105955948B (zh) 2018-07-24

Family

ID=56914686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610254533.1A Active CN105955948B (zh) 2016-04-22 2016-04-22 一种基于单词语义相似度的短文本主题建模方法

Country Status (1)

Country Link
CN (1) CN105955948B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649273A (zh) * 2016-12-26 2017-05-10 东软集团股份有限公司 一种文本处理方法及装置
CN106649730A (zh) * 2016-12-23 2017-05-10 中山大学 一种基于社交网络短文本流的用户聚类和短文本聚类方法
CN107480241A (zh) * 2017-08-10 2017-12-15 北京奇鱼时代科技有限公司 一种基于潜在主题的相似企业推荐方法
CN108052520A (zh) * 2017-11-01 2018-05-18 平安科技(深圳)有限公司 基于主题模型的关联词分析方法、电子装置及存储介质
CN108280164A (zh) * 2018-01-18 2018-07-13 武汉大学 一种基于类别相关单词的短文本过滤与分类方法
CN108415901A (zh) * 2018-02-07 2018-08-17 大连理工大学 一种基于词向量和上下文信息的短文本主题模型
CN108681557A (zh) * 2018-04-08 2018-10-19 中国科学院信息工程研究所 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN108710611A (zh) * 2018-05-17 2018-10-26 南京大学 一种基于词网络和词向量的短文本主题模型生成方法
CN109885675A (zh) * 2019-02-25 2019-06-14 合肥工业大学 基于改进lda的文本子话题发现方法
CN110046228A (zh) * 2019-04-18 2019-07-23 合肥工业大学 短文本主题识别方法和系统
CN110134958A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于语义词网络的短文本主题挖掘方法
CN110299206A (zh) * 2018-03-21 2019-10-01 华东师范大学 一种多内容隐含狄利克雷分布模型及中医医案隐含病机挖掘方法
CN110705304A (zh) * 2019-08-09 2020-01-17 华南师范大学 一种属性词提取方法
CN110851602A (zh) * 2019-11-13 2020-02-28 精硕科技(北京)股份有限公司 一种主题聚类的方法及装置
CN111144104A (zh) * 2018-11-02 2020-05-12 中国电信股份有限公司 文本相似度的确定方法、装置和计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970729A (zh) * 2014-04-29 2014-08-06 河海大学 一种基于语义类的多主题提取方法
US20150046459A1 (en) * 2010-04-15 2015-02-12 Microsoft Corporation Mining multilingual topics

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150046459A1 (en) * 2010-04-15 2015-02-12 Microsoft Corporation Mining multilingual topics
CN103970729A (zh) * 2014-04-29 2014-08-06 河海大学 一种基于语义类的多主题提取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIANSHU WENG ET AL.: "TwitterRank: Finding Topic-sensitive Influential Twitterers", 《"10 PROCEEDINGS OF THE THIRD ACM INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MINING》 *
XUEQI CHENG ET AL.: "BTM: Topic Modeling over Short Texts", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *
江大鹏: "基于词向量的短文本分类方法研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649730B (zh) * 2016-12-23 2021-08-10 中山大学 一种基于社交网络短文本流的用户聚类和短文本聚类方法
CN106649730A (zh) * 2016-12-23 2017-05-10 中山大学 一种基于社交网络短文本流的用户聚类和短文本聚类方法
CN106649273B (zh) * 2016-12-26 2020-03-17 东软集团股份有限公司 一种文本处理方法及装置
CN106649273A (zh) * 2016-12-26 2017-05-10 东软集团股份有限公司 一种文本处理方法及装置
CN107480241A (zh) * 2017-08-10 2017-12-15 北京奇鱼时代科技有限公司 一种基于潜在主题的相似企业推荐方法
CN108052520A (zh) * 2017-11-01 2018-05-18 平安科技(深圳)有限公司 基于主题模型的关联词分析方法、电子装置及存储介质
CN108280164B (zh) * 2018-01-18 2021-10-01 武汉大学 一种基于类别相关单词的短文本过滤与分类方法
CN108280164A (zh) * 2018-01-18 2018-07-13 武汉大学 一种基于类别相关单词的短文本过滤与分类方法
CN108415901A (zh) * 2018-02-07 2018-08-17 大连理工大学 一种基于词向量和上下文信息的短文本主题模型
CN110299206A (zh) * 2018-03-21 2019-10-01 华东师范大学 一种多内容隐含狄利克雷分布模型及中医医案隐含病机挖掘方法
CN108681557A (zh) * 2018-04-08 2018-10-19 中国科学院信息工程研究所 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
CN108710611A (zh) * 2018-05-17 2018-10-26 南京大学 一种基于词网络和词向量的短文本主题模型生成方法
CN108710611B (zh) * 2018-05-17 2021-08-03 南京大学 一种基于词网络和词向量的短文本主题模型生成方法
CN111144104A (zh) * 2018-11-02 2020-05-12 中国电信股份有限公司 文本相似度的确定方法、装置和计算机可读存储介质
CN109885675A (zh) * 2019-02-25 2019-06-14 合肥工业大学 基于改进lda的文本子话题发现方法
CN110046228B (zh) * 2019-04-18 2021-06-11 合肥工业大学 短文本主题识别方法和系统
CN110046228A (zh) * 2019-04-18 2019-07-23 合肥工业大学 短文本主题识别方法和系统
CN110134958B (zh) * 2019-05-14 2021-05-18 南京大学 一种基于语义词网络的短文本主题挖掘方法
CN110134958A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于语义词网络的短文本主题挖掘方法
CN110705304A (zh) * 2019-08-09 2020-01-17 华南师范大学 一种属性词提取方法
CN110851602A (zh) * 2019-11-13 2020-02-28 精硕科技(北京)股份有限公司 一种主题聚类的方法及装置

Also Published As

Publication number Publication date
CN105955948B (zh) 2018-07-24

Similar Documents

Publication Publication Date Title
CN105955948A (zh) 一种基于单词语义相似度的短文本主题建模方法
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN106570148A (zh) 一种基于卷积神经网络的属性抽取方法
CN109948121A (zh) 文章相似度挖掘方法、系统、设备及存储介质
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN104268197A (zh) 一种行业评论数据细粒度情感分析方法
CN101714135B (zh) 一种跨领域文本情感倾向性分析方法
CN104090890A (zh) 关键词相似度获取方法、装置及服务器
CN105701084A (zh) 一种基于互信息的文本分类的特征提取方法
CN105912716A (zh) 一种短文本分类方法及装置
Wu et al. Personalized microblog sentiment classification via multi-task learning
CN111400432A (zh) 事件类型信息处理方法、事件类型识别方法及装置
CN104199845B (zh) 基于主体模型的网上评论情感分类方法
CN111353044B (zh) 一种基于评论的情感分析方法及系统
CN110008473B (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN105760524A (zh) 一种科学新闻标题的多层次多分类方法
Syaifudin et al. Twitter data mining for sentiment analysis on peoples feedback against government public policy
CN110705304A (zh) 一种属性词提取方法
CN105068986A (zh) 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法
CN104750484A (zh) 一种基于最大熵模型的代码摘要生成方法
CN103886097A (zh) 基于自适应提升算法的中文微博观点句识别特征的提取方法
Zhang et al. Mining source code topics through topic model and words embedding
CN110852094B (zh) 检索目标的方法、装置及计算机可读存储介质
Hulliyah et al. A Benchmark of Modeling for Sentiment Analysis of The Indonesian Presidential Election in 2019
Liebeskind et al. Challenges in applying machine learning methods: Studying political interactions on social networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant