CN110046228B - 短文本主题识别方法和系统 - Google Patents
短文本主题识别方法和系统 Download PDFInfo
- Publication number
- CN110046228B CN110046228B CN201910311522.6A CN201910311522A CN110046228B CN 110046228 B CN110046228 B CN 110046228B CN 201910311522 A CN201910311522 A CN 201910311522A CN 110046228 B CN110046228 B CN 110046228B
- Authority
- CN
- China
- Prior art keywords
- word
- topic
- corpus
- feature vector
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种短文本主题识别方法和系统,涉及数据处理技术领域。本发明包括以下步骤:S1、获取第一语料集和第二语料集,所述第一语料集为待处理的短文本数据集,所述第二语料集为辅助语料集;S2、基于所述第二语料集上单词得到隐特征向量,基于所述第一语料集构建狄利克雷过程混合模型;S3、基于所述隐特征向量和所述狄利克雷过程混合模型构建非参主题模型;S4、对所述非参主题模型的主题后验分布进行参数推断;S5、基于参数推断识别出第一语料集中主题数量,同时得到第一语料集中文档‑主题分布以及主题‑词分布。本发明通构建狄利克雷过程混合模型以及引进词的隐特征向量表示,能有效缓解稀疏性问题,从而提高短文本主题识别的准确性。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种短文本主题识别方法和系统。
背景技术
随着互联网技术的飞速发展,人们越来越多的通过各种网络平台发表自己的观点或意见。例如,用户可以通过介绍影视剧的网站对电影或电视剧作品发表影评或剧评,还可以通过网络购物平台对购买或使用过的商品发表商品评价,也可以通过意见反馈渠道向提供服务或应用的运营商提出意见建议等。由于这些评论大多只是进行片断性的描述说明,其所包括的文字内容较少,因此均可以被看作是短文本数据。
近年来,国内外专家学者对短文本主题识别算法展开了深入研究,提出了诸多短文本主题识别算法,目前,主题模型(TopicModel)成为短文本挖掘领域的热点,它能够发现文档-词语之间所蕴含的潜在语义关系(即主题),有效提高处理网络舆情中短文本语义信息的性能,其中运用较多的主题聚类模型为LDA(LantentDirichletAllocation,文档主题生成模型)。
然而,现实应用场景中,文本数据集存在明显的类分布不平衡问题,特别是短文本由于篇幅有限,词共现稀疏,对现有主题识别算法带来了挑战。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种短文本主题识别方法和系统,解决了短文本词共现稀疏的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种短文本主题识别方法,该方法包括以下步骤:
S1、获取第一语料集和第二语料集,所述第一语料集为待处理的短文本数据集,所述第二语料集为辅助语料集;
S2、基于所述第二语料集上单词得到隐特征向量以及基于所述第一语料集构建狄利克雷过程混合模型;
S3、基于所述隐特征向量和所述狄利克雷过程混合模型构建非参主题模型;
S4、对所述非参主题模型的主题后验分布进行参数推断;
S5、基于参数推断识别出第一语料集中主题数量,同时得到第一语料集中文档-主题分布以及主题-词分布。
优选的,所述步骤S1还包括定义语料集中的相关变量,所述相关变量包括文档篇数、每篇文档包含的单词个数,所有文档中包含的不同单词的个数。
优选的,所述步骤S2具体包括以下步骤:
S201、获取第二语料集上单词的隐特征向量表示;
S202、根据所述语料集1,构造词对;
S203、基于所述词对构建狄利克雷过程混合模型,将所述词对分配到不同主题上。
优选的,所述步骤S201包括以下步骤:
S2011、定义Skip-gram模型的学习目标;
S2012、使用负采样算法对Skip-gram模型进行训练,得到单词的隐特征向量表示。
优选的,所述步骤S2011中定义Skip-gram模型的学习目标的具体方法为:
其中:
c为目标单词ei的上下文窗口;
T为文档的长度,即文档中单词的个数;
条件概率p(ei+j|ei)的表达式:
其中:
|V|表示数据集中单词总数;
优选的,所述步骤S2012中得到单词的隐特征向量的具体方法为:
使用负采样算法对Skip-gram模型进行训练,在每次迭代中,将一个目标单词与其上下文窗口的单词一起采样,利用随机梯度下降法对参数进行优化;迭代完成,得到所有单词的隐特征向量表示。
优选的,所述步骤S203包括:
S2031、定义狄利克雷过程混合模型;
S2032、以stick-breaking的方式构建狄利克雷过程混合模型,
S2033、根据步骤S2032为每个词对分配主题。
优选的,所述步骤S4包括:
S401、定义每个单词对的隐主题变量和二元指示变量的条件概率分布;
S402、根据定义后的每个单词对采样隐主题变量;
S403、基于步骤S402为每个单词对采样二元指示变量;
S404、应用最大后验估计方法,估计主题隐特征向量。
本发明还提供一种短文本主题识别系统,其包括:
语料集获取单元,所述语料集获取单元用于获取第一语料集和第二语料集;
建模准备单元,所述建模准备单元用于基于所述第二语料集上单词得到隐特征向量,基于所述第一语料集构建狄利克雷过程混合模型;
构建非参主题模型单元,所述构建非参主题模型单元将所述单词的隐特征向量与所述狄利克雷过程混合模型相结合构建非参主题模型;
参数推断单元,所述参数推断单元用于对所述非参主题模型的主题后验分布进行参数推断;
主题分布识别单元,所述主题分布识别单元用于基于参数推断识别出第一语料集中主题数量,同时得到第一语料集中文档-主题分布以及主题-词分布。
优选的,所述建模准备单元包括:
隐特征向量获取模块,所述隐特征向量获取模块用于学习所述第二语料集上单词的隐特征向量;
构造词对模块,所述构造词对模块用于根据所述第一语料集,构造词对;
词对分配模块,所述词对分配模块用于根据所述词对构建狄利克雷过程混合模型,将所述词对分配到不同主题上。
(三)有益效果
本发明提供了一种短文本主题识别方法和系统。与现有技术相比,具备以下有益效果:
本发明通过构建狄利克雷过程混合模型以及引进词的隐特征向量表示,能有效缓解稀疏性问题,从而提高短文本主题识别的准确性;同时通过将词的隐特征向量表示与狄利克雷过程混合模型结合,来改进短文本中词与主题的映射,在主题一致性、文档聚类与文本分类等方面有明显的改进,特别是在小的语料集或者短文档上能够自动确定短文本中的主题数量,不需要人为的指定主题的数量,从而提高主题识别效率;本发明可以得到文本的主题分布,以及主题词的分布,可广泛应用于短文本主题识别任务、短文本聚类任务、推荐系统等领域。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种短文本主题识别方法的流程图;
图2为本发明实施例一种短文本主题识别系统的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例通过提供一种短文本主题识别方法和系统,解决了短文本词共现稀疏问题,实现更加准确的对待处理的短文本数据集进行聚类。
本发明实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例通过构建狄利克雷过程混合模型以及引进词的隐特征向量表示,有效缓解稀疏性问题,同时通过将词的隐特征向量表示与狄利克雷过程混合模型结合,来改进短文本中词与主题的映射,在主题一致性、文档聚类与文本分类等方面有明显的改进,特别是在小的语料集或者短文档上能够自动确定短文本中的主题数量,不需要人为的指定主题的数量,从而提高主题识别效率;本发明实施例可以得到文本的主题分布,以及主题词的分布,可广泛应用于短文本主题识别任务、短文本聚类任务、推荐系统等领域。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供了一种短文本主题识别方法,如图1所示,主要包括以下步骤:
S1、获取第一语料集和第二语料集,所述第一语料集为待处理的短文本数据集,所述第二语料集为辅助语料集;
S2、基于所述第二语料集上单词得到隐特征向量,基于所述第一语料集构建狄利克雷过程混合模型;
S3、基于所述隐特征向量和所述狄利克雷过程混合模型构建非参主题模型;
S4、对所述非参主题模型的主题后验分布进行参数推断;
S5、识别出第一语料集中主题数量,同时得到第一语料集中文档-主题分布以及主题-词分布。
本发明实施例通过构建狄利克雷过程混合模型以及引进词的隐特征向量表示,能有效缓解稀疏性问题,同时通过将词的隐特征向量表示与狄利克雷过程混合模型结合,来改进短文本中词主题的映射,在主题一致性、文档聚类与文本分类等方面有明显的改进,特别是在小的语料集或者短文档上能够自动确定短文本中的主题数量,而不需要人为的指定主题的数量,从而提高主题识别效率。
下面对各步骤进行详细描述:
S1、获取第一语料集和第二语料集,并定义相关变量,其中第一语料集为待处理的短文本数据集,第二语料集为辅助语料集,优选的,预料集2为维基百科语料集。定义第一语料集中共U篇文档,每篇文档包含Nu个单词,U篇文档总共包含|E|个不同的单词,第u篇文档表示成
S2、基于所述第二语料集上单词得到隐特征向量,基于所述第一语料集构建狄利克雷过程混合模型,具体包括步骤S201~S203:
S201、获取第二语料集上单词的隐特征向量表示,具体包括步骤S2011~S2012:
其中:
c为目标单词ei的上下文窗口,例如,将c设置为8,表示在单词ei前后各取4个单词;
T为文档的长度(即文档中单词的个数);
条件概率p(ei+j|ei)的表达式:
其中:
|V|表示数据集中单词总数;
S2012、使用负采样算法对Skip-gram模型进行训练,在每次迭代中,将一个目标单词与其上下文窗口的单词一起采样,利用随机梯度下降法对参数进行优化。迭代完成,得到所有单词的隐特征向量表示。
S202、根据第一语料集,构造词对,具体过程如下:
对于第u篇文档,词对定义为其中例如,一篇文档若包含4个单词,将会构造出6组无序词对,如每篇文档将产生NBu个词对遍历第一语料集中的所有文档,共产生|B|个词对,优选的,为了能更有效的构造词对,避免干扰词汇,对第一语料集中的所有文档进行预处理,具体为对评论进行分词、去停用词、去噪声词。
S203、基于词对构建狄利克雷过程混合模型,将第一语料集中的词分配到不同主题上,具体包括步骤S2031~S2033:
S2031、定义狄利克雷过程混合模型,具体过程如下:
首先,定义各文档主题分布G服从DP(α0,G0)分布,其中α0>0是控制狄利克雷过程混合模型DP方差的集中度参数,G0是控制DP平均值的基分布。第d(d=1,...,|B|)个词对主题θd服从G分布,第d个词对bd服从参数为θd的F分布,具体表达式如下:
然后,再对主题分布G进行积分,得到θd的条件分布为:
其中:
θd表示第d个词对主题;
θ-d表示j≠d的θj的集合;
G0是控制DP平均值的基分布;
α0是α0>0表示控制狄利克雷过程混合模型DP方差的集中度参数;
δθj是θj的概率测度;
最后,定义φ1,φ2,…,φK为θ1,θ2,…,θ|B|的不同取值,其中K为主题的个数,mk为φk在θ-d中出现的次数,则等式(4)可写成以下形式:
其中:
θd表示第d个词对主题;
θ-d表示j≠d的θj的集合;
G0是控制DP平均值的基分布;
α0是α0>0表示控制狄利克雷过程混合模型DP方差的集中度参数;
δφk是φk的概率测度;
等式(5)表明词对bd(同一词对中的词主题是一样的)以正比于mk的概率选择已存在的主题,以正比于α0的概率选择新的主题。
其中:
πk是子主题k在整个主题上占的权重;
G0是控制DP平均值的基分布;
α0是α0>0表示控制狄利克雷过程混合模型DP方差的集中度参数;
S3、将单词的隐特征向量与狄利克雷过程混合模型相结合构建非参主题模型LF-WPDP,具体过程如下:
将词的隐特征向量表示与基于词对的狄利克雷过程混合模型相结合。LF-WPDP模型由狄利克雷多项式组分和隐特征组分双组分混合,生成主题词。引入二元指示变量 服从伯努利分布,取值0或者1,取值为1表示单词对中的单词是由隐特征组分生成,否则由狄利克雷多项式组分生成。狄利克雷多项式组分在给定主题k时,生成词的概率满足狄利克雷分布φk,隐特征组分在给定主题k时生成词的概率满足CatE分布,如公式(7):
其中:
τk表示主题k隐特征向量;
LF-WPDP模型生成词的过程定义如下:
其中:
Dir表示狄利克雷分布;
Mult表示多项式分布;
Ber表示伯努利分布;
S4、利用吉布斯采样和最大后验估计对LF-WPDP模型的主题后验分布进行参数推断,所述参数包括隐主题变量、二元指示变量、主题隐特征向量,具体包括步骤S401~S404;
S401、对于每个单词对,定义隐主题变量和二元指示变量的条件概率分布,具体为:
其中:
其中:
S402、根据步骤S401为每个单词对采样隐主题变量,具体为:
S403、基于步骤S402为每个单词对采样二元指示变量,具体为:
其中子主题k向量中第j个元素的导数如下:
其中:
S5、根据步骤S4识别出第一语料集中主题数量,同时得到第一语料集中文档-主题分布以及主题-词分布,具体为:
根据步骤S4,识别出主题的数量K,根据公式(19)得到各子主题的权重π=(π1,π2,…,πK),根据公式(20)得到主题k生成单词e的概率Φk,e,从而推断得到第一语料集的中文档-主题分布以及主题-词分布,进而
本发明另一个实施例提供了一种短文本主题识别系统,如图2所示,该系统包括:语料集获取单元、建模准备单元、构建非参主题模型单元、参数推断单元、主题分布识别单元。
其中:
语料集获取单元用于获取第一语料集和第二语料集;
建模准备单元用于基于所述第二语料集上单词得到隐特征向量,基于所述第一语料集构建狄利克雷过程混合模型;
构建非参主题模型单元将所述单词的隐特征向量与所述狄利克雷过程混合模型相结合构建非参主题模型;
参数推断单元用于对所述非参主题模型的主题后验分布进行参数推断;
主题分布识别单元用于基于参数推断识别出第一语料集中主题数量,同时得到第一语料集中文档-主题分布以及主题-词分布。
上述的建模准备单元包括:隐特征向量获取模块、构造词对模块、词对分配模块。
其中:
隐特征向量获取模块用于学习所述第二语料集上单词的隐特征向量;
构造词对模块用于根据所述第一语料集,构造词对;
词对分配模块用于根据所述词对构建狄利克雷过程混合模型,将所述词对分配到不同主题上。
综上所述,与现有技术相比,具备以下有益效果:
本发明实施例通过构建狄利克雷过程混合模型以及引进词的隐特征向量表示,能有效缓解稀疏性问题,从而提高短文本主题识别的准确性;同时通过将词的隐特征向量表示与狄利克雷过程混合模型结合,来改进短文本中词与主题的映射,在主题一致性、文档聚类与文本分类等方面有明显的改进,特别是在小的语料集或者短文档上能够自动确定短文本中的主题数量,不需要人为的指定主题的数量,从而提高主题识别效率;本发明实施例可以得到文本的主题分布,以及主题词的分布,可广泛应用于短文本主题识别任务、推荐系统等领域。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种短文本主题识别方法,其特征在于,包括以下步骤:
S1、获取第一语料集和第二语料集,所述第一语料集为待处理的短文本数据集,所述第二语料集为辅助语料集;
S2、基于所述第二语料集上单词得到隐特征向量以及基于所述第一语料集构建狄利克雷过程混合模型;
S3、基于所述隐特征向量和所述狄利克雷过程混合模型构建非参主题模型;
S4、对所述非参主题模型的主题后验分布进行参数推断;
S5、基于参数推断识别出第一语料集中主题数量,同时得到第一语料集中文档-主题分布以及主题-词分布;
其中,所述基于所述隐特征向量和所述狄利克雷过程混合模型构建非参主题模型,包括:
将词的隐特征向量表示与基于词对的狄利克雷过程混合模型相结合,非参主题模型由狄利克雷多项式组分和隐特征组分双组分混合,生成主题词;引入二元指示变量 服从伯努利分布,取值0或者1,取值为1表示单词对中的单词是由隐特征组分生成,否则由狄利克雷多项式组分生成;狄利克雷多项式组分在给定主题k时,生成词的概率满足狄利克雷分布φk,隐特征组分在给定主题k时生成词的概率满足CatE分布,如公式(7):
其中:
τk表示主题k隐特征向量;
非参主题模型生成词的过程定义如下:
其中:
Dir表示狄利克雷分布;
Mult表示多项式分布;
Ber表示伯努利分布;
α0是α0>0表示控制狄利克雷过程混合模型DP方差的集中度参数;
2.如权利要求1所述的短文本主题识别方法,其特征在于,所述步骤S1还包括定义语料集中的相关变量,所述相关变量包括文档篇数、每篇文档包含的单词个数,所有文档中包含的不同单词的个数。
3.如权利要求1所述的短文本主题识别方法,其特征在于,所述步骤S2具体包括以下步骤:
S201、获取第二语料集上单词的隐特征向量表示;
S202、根据所述第一语料集,构造词对;
S203、基于所述词对构建狄利克雷过程混合模型,将所述词对分配到不同主题上。
4.如权利要求3所述的短文本主题识别方法,其特征在于,所述步骤S201包括以下步骤:
S2011、定义Skip-gram模型的学习目标;
S2012、使用负采样算法对Skip-gram模型进行训练,得到单词的隐特征向量表示。
6.如权利要求5所述的短文本主题识别方法,其特征在于,所述步骤S2012中得到单词的隐特征向量的具体方法为:
使用负采样算法对Skip-gram模型进行训练,在每次迭代中,将一个目标单词与其上下文窗口的单词一起采样,利用随机梯度下降法对参数进行优化;迭代完成,得到所有单词的隐特征向量表示。
7.如权利要求3所述的短文本主题识别方法,其特征在于,所述步骤S203包括:
S2031、定义狄利克雷过程混合模型;
S2032、以stick-breaking的方式构建狄利克雷过程混合模型,
S2033、根据步骤S2032为每个词对分配主题。
8.如权利要求1所述的短文本主题识别方法,其特征在于,所述步骤S4包括:
S401、定义每个单词对的隐主题变量和二元指示变量的条件概率分布;
S402、根据定义后的每个单词对采样隐主题变量;
S403、基于步骤S402为每个单词对采样二元指示变量;
S404、应用最大后验估计方法,估计主题隐特征向量。
9.一种短文本主题识别系统,其特征在于,包括:
语料集获取单元,所述语料集获取单元用于获取第一语料集和第二语料集;
建模准备单元,所述建模准备单元用于基于所述第二语料集上单词得到隐特征向量,基于所述第一语料集构建狄利克雷过程混合模型;
构建非参主题模型单元,所述构建非参主题模型单元将所述单词的隐特征向量与所述狄利克雷过程混合模型相结合构建非参主题模型;
参数推断单元,所述参数推断单元用于对所述非参主题模型的主题后验分布进行参数推断;
主题分布识别单元,所述主题分布识别单元用于基于参数推断识别出第一语料集中主题数量,同时得到第一语料集中文档-主题分布以及主题-词分布;
其中,所述基于所述隐特征向量和所述狄利克雷过程混合模型构建非参主题模型,包括:
将词的隐特征向量表示与基于词对的狄利克雷过程混合模型相结合,非参主题模型由狄利克雷多项式组分和隐特征组分双组分混合,生成主题词;引入二元指示变量 服从伯努利分布,取值0或者1,取值为1表示单词对中的单词是由隐特征组分生成,否则由狄利克雷多项式组分生成;狄利克雷多项式组分在给定主题k时,生成词的概率满足狄利克雷分布φk,隐特征组分在给定主题k时生成词的概率满足CatE分布,如公式(7):
其中:
τk表示主题k隐特征向量;
非参主题模型生成词的过程定义如下:
其中:
Dir表示狄利克雷分布;
Mult表示多项式分布;
Ber表示伯努利分布;
α0是α0>0表示控制狄利克雷过程混合模型DP方差的集中度参数;
10.如权利要求9所述的短文本主题识别系统,其特征在于,所述建模准备单元包括:
隐特征向量获取模块,所述隐特征向量获取模块用于学习所述第二语料集上单词的隐特征向量;
构造词对模块,所述构造词对模块用于根据所述第一语料集,构造词对;
词对分配模块,所述词对分配模块用于根据所述词对构建狄利克雷过程混合模型,将所述词对分配到不同主题上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910311522.6A CN110046228B (zh) | 2019-04-18 | 2019-04-18 | 短文本主题识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910311522.6A CN110046228B (zh) | 2019-04-18 | 2019-04-18 | 短文本主题识别方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110046228A CN110046228A (zh) | 2019-07-23 |
CN110046228B true CN110046228B (zh) | 2021-06-11 |
Family
ID=67277715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910311522.6A Active CN110046228B (zh) | 2019-04-18 | 2019-04-18 | 短文本主题识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110046228B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110825842B (zh) * | 2019-10-10 | 2022-07-29 | 北京航空航天大学 | 基于不同人格特征的文本观点挖掘方法 |
CN111090995B (zh) * | 2019-11-15 | 2023-03-31 | 合肥工业大学 | 短文本主题识别方法和系统 |
CN111506785B (zh) * | 2020-03-06 | 2023-07-07 | 之江实验室 | 基于社交文本的网络舆情话题识别方法和系统 |
CN111695358B (zh) * | 2020-06-12 | 2023-08-08 | 腾讯科技(深圳)有限公司 | 生成词向量的方法、装置、计算机存储介质和电子设备 |
CN111813935B (zh) * | 2020-06-22 | 2024-04-30 | 贵州大学 | 一种基于层次狄利克雷多项分配模型的多源文本聚类方法 |
CN112597769B (zh) * | 2020-12-15 | 2022-06-03 | 中山大学 | 一种基于狄利克雷变分自编码器的短文本主题识别方法 |
CN112860883B (zh) * | 2021-02-08 | 2022-06-24 | 国网河北省电力有限公司营销服务中心 | 电力工单短文本热点话题识别方法、装置及终端 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105955948A (zh) * | 2016-04-22 | 2016-09-21 | 武汉大学 | 一种基于单词语义相似度的短文本主题建模方法 |
CN107122349A (zh) * | 2017-04-24 | 2017-09-01 | 无锡中科富农物联科技有限公司 | 一种基于word2vec‑LDA模型的文本主题词提取方法 |
CN107526819A (zh) * | 2017-08-29 | 2017-12-29 | 江苏飞搏软件股份有限公司 | 一种面向短文本主题模型的大数据舆情分析方法 |
CN107798043A (zh) * | 2017-06-28 | 2018-03-13 | 贵州大学 | 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法 |
CN108052593A (zh) * | 2017-12-12 | 2018-05-18 | 山东科技大学 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
CN108829799A (zh) * | 2018-06-05 | 2018-11-16 | 中国人民公安大学 | 基于改进lda主题模型的文本相似度计算方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573070B (zh) * | 2015-01-26 | 2018-06-15 | 清华大学 | 一种针对混合长度文本集的文本聚类方法 |
CN104991891B (zh) * | 2015-07-28 | 2018-03-30 | 北京大学 | 一种短文本特征提取方法 |
CN106815244B (zh) * | 2015-11-30 | 2020-02-07 | 北京国双科技有限公司 | 文本向量表示方法及装置 |
CN105975499B (zh) * | 2016-04-27 | 2019-06-25 | 深圳大学 | 一种文本主题检测方法及系统 |
CN108090075A (zh) * | 2016-11-23 | 2018-05-29 | 中移(杭州)信息技术有限公司 | 文本过滤的方法及装置 |
CN106599086A (zh) * | 2016-11-25 | 2017-04-26 | 山东科技大学 | 一种基于Gaussian LDA和词嵌入的语义稀疏Web服务发现方法 |
US10216724B2 (en) * | 2017-04-07 | 2019-02-26 | Conduent Business Services, Llc | Performing semantic analyses of user-generated textual and voice content |
CN109446320A (zh) * | 2018-09-29 | 2019-03-08 | 昆明理工大学 | 一种基于lda的生物医药技术主题挖掘方法 |
-
2019
- 2019-04-18 CN CN201910311522.6A patent/CN110046228B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105955948A (zh) * | 2016-04-22 | 2016-09-21 | 武汉大学 | 一种基于单词语义相似度的短文本主题建模方法 |
CN107122349A (zh) * | 2017-04-24 | 2017-09-01 | 无锡中科富农物联科技有限公司 | 一种基于word2vec‑LDA模型的文本主题词提取方法 |
CN107798043A (zh) * | 2017-06-28 | 2018-03-13 | 贵州大学 | 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法 |
CN107526819A (zh) * | 2017-08-29 | 2017-12-29 | 江苏飞搏软件股份有限公司 | 一种面向短文本主题模型的大数据舆情分析方法 |
CN108052593A (zh) * | 2017-12-12 | 2018-05-18 | 山东科技大学 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
CN108829799A (zh) * | 2018-06-05 | 2018-11-16 | 中国人民公安大学 | 基于改进lda主题模型的文本相似度计算方法及系统 |
Non-Patent Citations (2)
Title |
---|
NLP(1)——词向量one hot编码词向量编码思想Word2VecEmbeddingSkip-gram的原理负采样;DC童生;《https://cloud.tencent.com/developer/article/1148561》;20180619;第1-4页 * |
改进主题模型的短文本评论情感分析;花树雯 等;《计算机系统应用》;20190315(第03期);第255-259页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110046228A (zh) | 2019-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110046228B (zh) | 短文本主题识别方法和系统 | |
Jang et al. | Knowledge unlearning for mitigating privacy risks in language models | |
CN108681557B (zh) | 基于自扩充表示和相似双向约束的短文本主题发现方法及系统 | |
CN112507248A (zh) | 一种基于用户评论数据和信任关系的旅游景点推荐方法 | |
CN111061962A (zh) | 一种基于用户评分分析的推荐方法 | |
CN112256866B (zh) | 一种基于深度学习的文本细粒度情感分析算法 | |
CN112364161B (zh) | 基于异构社会媒体用户动态行为的微博主题挖掘方法 | |
CN111813895B (zh) | 一种基于层次注意力机制和门机制的属性级别情感分析方法 | |
CN111832312A (zh) | 文本处理方法、装置、设备和存储介质 | |
CN113408706B (zh) | 训练用户兴趣挖掘模型、用户兴趣挖掘的方法和装置 | |
CN111368082A (zh) | 一种基于层次网络的领域自适应词嵌入的情感分析方法 | |
CN116467443A (zh) | 基于主题识别的网络舆情文本分类方法 | |
Grivolla et al. | A hybrid recommender combining user, item and interaction data | |
Isaac et al. | A conceptual enhancement of lstm using knowledge distillation for hate speech detection | |
Wang et al. | Application of an emotional classification model in e-commerce text based on an improved transformer model | |
Liao et al. | Topic-based integrator matching for pull request | |
Chan et al. | Optimization of language models by word computing | |
CN112487303B (zh) | 一种基于社交网络用户属性的主题推荐方法 | |
CN107203632A (zh) | 基于相似关系和共现关系的话题流行度预测方法 | |
Luneva et al. | Natural language text parsing for social network user sentiment analysis based on fuzzy sets | |
Bai et al. | Text Sentiment Analysis of Hotel Online Reviews | |
CN112580348A (zh) | 政策文本关联性分析方法及系统 | |
CN111737466A (zh) | 一种用于深度神经网络交互信息量化的方法 | |
Wu et al. | A text emotion analysis method using the dual-channel convolution neural network in social networks | |
CN109558546A (zh) | 一种基于行为分析的微博话题表示模型生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |