CN111506785A

CN111506785A - 基于社交文本的网络舆情话题识别方法和系统

Info

Publication number: CN111506785A
Application number: CN202010150112.0A
Authority: CN
Inventors: 姜元春; 张吉; 孙见山; 任祖杰; 单海军; 刘心语; 钱洋; 梁瑞成
Original assignee: Hefei University of Technology; Zhejiang Lab
Current assignee: Hefei University of Technology; Zhejiang Lab
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-08-07
Anticipated expiration: 2040-03-06
Also published as: CN111506785B

Abstract

本发明提供一种基于社交文本的网络舆情话题识别方法，涉及文本数据处理技术领域。本发明考虑到噪音词对文本话题发现的影响，将生成词中的主题词和生成词的噪声词分开，将噪音词过滤并推断出每个词的主题词分布，从而能准确的判断出生成该词对应的网络舆情话题，提高网络舆情话题识别的准确率，为后续的舆情监测、政府或者相关管理部门舆情引导和个性化营销等实际场景提供准确的数据支持。

Description

基于社交文本的网络舆情话题识别方法和系统

技术领域

本发明涉及文本数据处理技术领域，具体涉及一种基于社交文本的网络舆情话题识别方法和系统。

背景技术

随着互联网的快速发展，社交网络成为社交媒体环境中一个重要组成部分，如新浪微博、Facebook、Twitter等正在成为非常受欢迎的社交平台。越来越多的用户在社交平台上发表自己的观点和评论，产生了大量的用户数据。面对这些可用的网络数据，准确发现其对应的主题，对于舆情监测、个性化营销等实际场景具有很高的应用价值。例如，在社会舆情监测中，政府或者相关管理部门可以根据用户在不同平台上发布的言论确定其态度和感情，从而进行正确的引导。

由于海量网络信息的快速增长，近年来的研究主要集中在利用大规模的在线数据来挖掘有价值的主题信息，例如，在网络舆情分析系统中，网络事件具有突发性和快速传播性，及时迅速地对网络文本进行话题检测有助于相关监管部门对于网络舆情进行科学地决策；在知识转移领域中，将知识库中的知识进行话题检测，可以除去冗余数据并且将知识进行归类，可以提高后续知识传输和吸收过程中的效率。在话题发现中，文本聚类是常用的话题发现方法，近年来，越来越多学者开始将LDA应用到网络文本的话题发现，通过LDA模型的训练得到文本的潜在主题信息，进而有效地提取文本主题，实现话题的发现，

然而，LDA模型忽略了随意性语言(即为本申请中所述的噪声词)可能导致的问题，导致模型不能准确识别出网络舆情话题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于社交文本的网络舆情话题识别方法和系统，解决了现有技术不能准确识别出网络舆情话题的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明提供一种基于社交文本的网络舆情话题识别方法，所述方法由计算机执行，包括以下步骤：

S1、获取多个用户的社交媒体数据的文本集合，并确定所述文本集合的主题数量；

S2、基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型，其中单词包括生成词中的主题词和生成词的噪声词；

S3、根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计；

S4、基于所述潜在参数的值获取所述文本集合中文本-主题分布，主题-主题词分布，主题-噪声词分布，确定网络舆情话题。

优选的，在S1中，所述获取社交媒体数据的文本集合，并确定所述文本集合的主题数量，包括：

S101、获取|M|条社交文本构成的文本集合D，记为

|M|表示文本集合D中的文本数量，一个用户对应一条文本；

S102、对所述文本集合D进行预处理；

S103、基于预处理后的文本集合D建立向量

1≤i≤N_m，用来表示集合D中的第m个用户的文本；D_mn表示第m个用户文本中的第n个词，N_m表示第m个用户文本中的单词数，V表示文本D_m中的不同词的数量，用v∈{1,2,...,V}作为不同词的索引；

S104、确定文本集合D中的主题个数K。

优选的，在S2中，所述基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型，其中单词包括生成词中的主题词和生成词的噪声词，包括：

S201、基于文本集合D中的K个主题，按照公式(1)进行采样从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布

和噪声词分布

式(1)中：

β和β'是狄利克雷分布的超参数；

S202、对于每个用户的文本m∈{1,2,...,M}，按照公式(2)建立文本-主题分布，用向量

表示；

式(2)中：

α是狄利克雷分布的超参数；

表示用户文本m中对应的主题分布，服从参数为α的狄利克雷分布；

S203、基于文本的主题分布，利用公式(3)生成主题-单词分布；

式(3)中：

服从参数为γ,γ'的Beta分布，用于选择主题-单词分布，

与

构成Beta-Multinomial共轭；

c_mn是二元指示变量，服从伯努利分布，决定主题-单词分布的超参数，

式(4)中，

z_mn服从多项式分布，表示第m条文本的第n个词的主题编号；

当c_mn＝1时，表示文本D_m是从主题词分布中生成词w_mn的；当c_mn＝0时，表示文本D_m是从噪声词分布中生成词w_mn的。

优选的，在S3中，所述根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计，包括：

S301、设计折叠Gibbs采样算法进行近似后验推断，对潜在参数z_mn和c_mn进行采样，包括：

S30101、基于贝叶斯准则，使用公式(5)计算单词w_mn对应主题z_mn的后验概率：

式(5)中：

z_-(mn)指除单词w_mn外所有单词对应的主题编号；

表示当c_mn＝1时，单词v被分配到主题k上的次数；

表示当c_mn＝1时，被分配到主题k上的所有单词数；

表示第m个用户文本中被分配到主题k上的单词数；

所有带有公式-(mn)的计数均表示去除了单词w_mn；

γ,γ'表示Beta分布的参数；

S30102、采样二元指示变量c_mn，计算条件概率分布，采样二元指示变量c_mn，如式(6)，二元指示变量c_mn是分布选择器，决定了第m篇文本中，生成第n个词所选择的主题词分布；

式(6)中：

表示所有由噪声词分布生成的单词数，去除单词w_mn；

表示所有由主题词分布生成的单词数，去除单词w_mn；

表示噪声词分布生成单词v的次数，去除单词w_mn；

表示噪声词分布生成所有词的次数，去除单词w_mn；

表示c＝0时表示所有由噪声词分布生成的单词数，去除单词w_mn；c＝1时表示所有由主题词分布生成的单词数，去除单词w_mn；

表示c_mn＝1时，单词v被分配到主题k上的次数，除去单词单词w_mn；

表示噪声词分布生成所有词的次数；

所有带有公式-(mn)的计数均表示去除了单词w_mn；

S302、为S301中两个潜在参数z_mn和c_mn随机初始化值；

S303、按照S301中的样公式(5)(6)依次采样，更新潜在参数z_mn和c_mn的值；

S304、将步骤S303重复I₀次，完成网络舆情话题识别模型中潜在参数的更新，I₀是迭代次数。

优选的，在S4中，所述基于所述潜在参数的值获取所述文本集合中文本-主题分布，主题-主题词分布，主题-噪声词分布，确定网络舆情话题，包括：

基于所述潜在参数的值更新文本集合中的各个参数的值，根据各个参数的值计算文本集合文本文本-主题分布，主题-主题词分布，是主题-噪声词分布，计算公式如下：

式(7)(8)(9)中：

θ_mk表示文本-主题分布；

φ_kv表示主题-主题词分布；

φ′_v表示主题-噪声词分布；

N_m表示第m个用户文本中的单词数；

K表示文本集合D中的主题个数；

V表示文本D_m中的不同词的数量；

表示第m个用户文本中被分配到主题k上的单词数；

表示当c＝1时，单词v被分配到主题k上的次数；

表示当c＝1时，被分配到主题k上的所有单词数；

表示噪声词分布生成单词v的次数；

表示噪声词分布生成所有词的次数；

α表示狄利克雷分布的超参数；

β和β'表示狄利克雷分布的超参数；

通过Gibbs采样算法获取文本集合中每个单词对应每个主题的概率，确定文本对应的主题，实现网络舆情话题的发现。

本发明还提供一种基于社交文本的网络舆情话题识别系统，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

其中，所述至少一个存储单元中存储有至少一条指令，所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤：

S101、获取|M|条社交文本构成的文本集合D，记为

|M|表示文本集合D中的文本数量，一个用户对应一条文本；

S102、对所述文本集合D进行预处理；

S103、基于预处理后的文本集合D建立向量

S104、确定文本集合D中的主题个数K。

和噪声词分布

式(1)中：

β和β'是狄利克雷分布的超参数；

表示；

式(2)中：

α是狄利克雷分布的超参数；

式(3)中：

服从参数为γ,γ'的Beta分布，用于选择主题-单词分布，

与

构成Beta-Multinomial共轭；

式(4)中，

z_mn服从多项式分布，表示第m条文本的第n个词的主题编号；

式(5)中：

z_-(mn)指除单词w_mn外所有单词对应的主题编号；

表示当c_mn＝1时，单词v被分配到主题k上的次数；

表示当c_mn＝1时，被分配到主题k上的所有单词数；

表示第m个用户文本中被分配到主题k上的单词数；

所有带有公式-(mn)的计数均表示去除了单词w_mn；

γ,γ'表示Beta分布的参数；

式(6)中：

表示所有由噪声词分布生成的单词数，去除单词w_mn；

表示所有由主题词分布生成的单词数，去除单词w_mn；

表示噪声词分布生成单词v的次数，去除单词w_mn；

表示噪声词分布生成所有词的次数，去除单词wmn；

表示噪声词分布生成所有词的次数；

所有带有公式-(mn)的计数均表示去除了单词w_mn；

S302、为S301中两个潜在参数z_mn和c_mn随机初始化值；

式(7)(8)(9)中：

θ_mk表示文本-主题分布；

φ_kv表示主题-主题词分布；

φ′_v表示主题-噪声词分布；

N_m表示第m个用户文本中的单词数；

K表示文本集合D中的主题个数；

V表示文本Dm中的不同词的数量；

表示文本集合m中被分配到主题k上的单词数；

表示当c＝1时，单词v被分配到主题k上的次数；

表示当c＝1时，被分配到主题k上的所有单词数；

表示噪声词分布生成单词v的次数；

表示噪声词分布生成所有词的次数；

α表示狄利克雷分布的超参数；

β和β'表示狄利克雷分布的超参数；

(三)有益效果

本发明提供了一种基于社交文本的网络舆情话题识别方法和系统。与现有技术相比，具备以下有益效果：

本发明首先获取多个用户的社交媒体数据的文本集合，并确定所述文本集合的主题数量；然后基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型，其中单词包括生成词中的主题词和生成词的噪声词；根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计；最后基于所述潜在参数的值获取所述文本集合中文本-主题分布，主题-主题词分布，主题-噪声词分布，确定网络舆情话题。本发明考虑到噪音词对文本话题发现的影响，将生成词中的主题词和生成词的噪声词分开，将噪音词过滤并推断出每个词的主题词分布，从而能准确的判断出生成该词对应的网络舆情话题，提高网络舆情话题识别的准确率，为后续的舆情监测、政府或者相关管理部门舆情引导和个性化营销等实际场景提供准确的数据支持。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种基于社交文本的网络舆情话题识别方法的框图；

图2为本发明实施例中有参贝叶斯模型的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于社交文本的网络舆情话题识别方法，解决了现有技术不能准确识别出网络舆情话题的技术问题，实现提高网络舆情话题识别的准确率，为后续的舆情监测、政府或者相关管理部门舆情引导和个性化营销等实际场景提供准确的数据支持。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例考虑到噪音词对文本话题发现的影响，将生成词中的主题词和生成词的噪声词分开，将噪音词过滤并推断出每个词的主题词分布，从而能准确的判断出生成该词对应的网络舆情话题，提高网络舆情话题识别的准确率，为后续的舆情监测、政府或者相关管理部门舆情引导和个性化营销等实际场景提供准确的数据支持。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供一种基于社交文本的网络舆情话题识别方法，如图1所示，该方法由计算机执行，包括步骤S1～S5：

S1、获取多个用户的社交媒体数据的文本集合，并确定文本集合的主题数量；

S2、基于有参贝叶斯模型、文本集合和文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型，其中单词包括生成词中的主题词和生成词的噪声词；

S3、根据贝叶斯准则使用Gibbs采样算法对网络舆情话题识别模型中的潜在参数进行参数估计；

S4、基于潜在参数的值获取文本集合D文本文本-主题分布，主题-主题词分布，主题-噪声词分布，确定网络舆情话题。

下面对各个步骤进行详细描述。

在步骤S1中，获取多个用户的社交媒体数据的文本集合，并确定文本集合的主题数量。具体为：

S101、通过网络爬虫技术获取|M|条社交文本构成的文本集合D，记为

|M|表示文本集合D中的文本数量，一个用户对应一条文本。

S102、对文本集合D进行预处理，预处理主要包括对文本集合D中的文本进行分词处理和去除文本集合D中的文本的所有停用词。

S103、基于预处理后的文本集合D建立向量

1≤i≤N_m，用来表示集合D中的第m个用户的文本；D_mn表示第m个用户文本中的第n个词，N_m表示第m个用户文本中的单词数，V表示文本D_m中的不同词的数量，用v∈{1,2,...,V}作为不同词的索引。

S104、确定文本集合D中的主题个数K。

在步骤S2中，基于有参贝叶斯模型(模型结构图如图2所示)、文本集合和文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型，其中单词包括生成词中的主题词和生成词的噪声词。具体为：

和噪声词分布

式(1)中：

β和β'是狄利克雷分布的超参数。

主题词分布用于与主题相关的词汇的分布，噪声词分布用于与主题不相关的噪音词汇的分布。两个分布的不同在于文本中选择词的不同原因，例如：在微博中，针对“雾霾”这一话题的讨论，用户发表的评论可能来自多个方面，如地区、危害、形成原因等。每个组都有自己的一组主题词分布。除了类似这些的特定主题词分布，其余词是一组通用的过滤词分布生成的，由所有组共享，例如“存在”、“事件”、“认为”、“信息”等词汇，这些词汇普遍与主题无关，因此将其看做噪音词汇过滤掉，仅用主题词汇进行文本的主题发现。

表示；

式(2)中：

α是狄利克雷分布的超参数；

表示用户文本m中对应的主题分布，服从参数为α的狄利克雷分布。

式(3)中：

服从参数为γ,γ'的Beta分布，用于选择主题-单词分布，

与

构成Beta-Multinomial共轭；

式(4)中，

z_mn服从多项式分布，表示第m条文本的第n个词的主题编号；当c_mn＝1时，表示文本D_m是从主题词分布中生成词w_mn的；当c_mn＝0时，表示文本D_m是从噪声词分布中生成词w_mn的。通过这个二元指示变量来决定单词从主题词分布还是噪声词分布中产生。

公式(1)、(2)、(3)和(4)组成网络舆情话题识别模型。

在步骤S3中，根据贝叶斯准则使用Gibbs采样算法对网络舆情话题识别模型中的潜在参数进行参数估计。具体为：

S30101、采样单词对应的主题分布

基于贝叶斯准则，使用公式(5)计算单词w_mn对应主题z_mn的后验概率：

式(5)中：

z_-(mn)指除单词w_mn外所有单词对应的主题编号；

表示当c_mn＝1时，单词v被分配到主题k上的次数；

表示当c_mn＝1时，被分配到主题k上的所有单词数；

表示第m个用户文本中被分配到主题k上的单词数；

所有带有公式-(mn)的计数均表示去除了单词w_mn；

γ,γ'表示Beta分布的参数；

S30102、采样二元指示变量

采样二元指示变量c_mn，计算条件概率分布，采样二元指示变量c_mn，如式(6)，二元指示变量c_mn是分布选择器，决定了第m篇文本中，生成第n个词所选择的主题词分布；

式(6)中：

表示所有由噪声词分布生成的单词数，去除单词w_mn；

表示所有由主题词分布生成的单词数，去除单词w_mn；

表示噪声词分布生成单词v的次数，去除单词w_mn；

表示噪声词分布生成所有词的次数，去除单词w_mn；

表示噪声词分布生成所有词的次数；

所有带有公式-(mn)的计数均表示去除了单词w_mn；

S302、为S301中两个潜在参数z_mn和c_mn随机初始化值；

S304、将步骤S303重复I₀次，完成网络舆情话题识别模型中潜在参数的更新，I₀是迭代次数，可自行赋值。

在步骤S4中，基于潜在参数的值获取文本集合D文本文本-主题分布，主题-主题词分布，主题-噪声词分布，确定网络舆情话题。具体为：

基于潜在参数的值更新文本集合D中的各个参数的值，根据各个参数的值计算文本集合D文本文本-主题分布，主题-主题词分布，是主题-噪声词分布。计算公式如下：

式(7)(8)(9)中：

θ_mk表示文本-主题分布；

φ_kv表示主题-主题词分布；

φ′_v表示主题-噪声词分布；

N_m表示第m个用户文本中的单词数；

K表示文本集合D中的主题个数；

V表示文本D_m中的不同词的数量；

表示第m个用户文本中被分配到主题k上的单词数；

表示当c＝1时，单词v被分配到主题k上的次数；

表示当c＝1时，被分配到主题k上的所有单词数；

表示噪声词分布生成单词v的次数；

表示噪声词分布生成所有词的次数；

α表示狄利克雷分布的超参数；

β和β'表示狄利克雷分布的超参数。

在本发明实施例中，通过Gibbs采样算法获取文本集合中每个单词对应每个主题的概率，从而确定文本对应的主题，进而实现网络舆情话题的发现。对于主题k(k∈{1,2,…,K})，根据φ_kv(主题-主题词分布)解释该主题实际含义，帮助了解文本中词对应的主题分布，减少了由于噪音词汇对主题分布的影响。

本发明实施例还提供一种基于社交文本的网络舆情话题识别系统，上述系统包括计算机，上述计算机包括：

至少一个存储单元；

至少一个处理单元；

其中，上述至少一个存储单元中存储有至少一条指令，上述至少一条指令由上述至少一个处理单元加载并执行以实现以下步骤：

可理解的是，本发明实施例提供的上述基于社交文本的网络舆情话题识别系统与上述基于社交文本的网络舆情话题识别方法相对应，其有关内容的解释、举例、有益效果等部分可以参考基于社交文本的网络舆情话题识别方法中的相应内容，此处不再赘述。

综上所述，与现有技术相比，具备以下有益效果：

需要说明的是，通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于社交文本的网络舆情话题识别方法，其特征在于，所述方法由计算机执行，包括以下步骤：

2.如权利要求1所述的基于社交文本的网络舆情话题识别方法，其特征在于，在S1中，所述获取社交媒体数据的文本集合，并确定所述文本集合的主题数量，包括：

S101、获取|M|条社交文本构成的文本集合D，记为

|M|表示文本集合D中的文本数量，一个用户对应一条文本；

S102、对所述文本集合D进行预处理；

S103、基于预处理后的文本集合D建立向量

S104、确定文本集合D中的主题个数K。

3.如权利要求2所述的基于社交文本的网络舆情话题识别方法，其特征在于，在S2中，所述基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型，其中单词包括生成词中的主题词和生成词的噪声词，包括：

和噪声词分布

式(1)中：

β和β'是狄利克雷分布的超参数；

表示；

式(2)中：

α是狄利克雷分布的超参数；

式(3)中：

服从参数为γ,γ'的Beta分布，用于选择主题-单词分布，

与

构成Beta-Multinomial共轭；

式(4)中，

z_mn服从多项式分布，表示第m条文本的第n个词的主题编号；

4.如权利要求3所述的基于社交文本的网络舆情话题识别方法，其特征在于，在S3中，所述根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计，包括：

式(5)中：

z_-(mn)指除单词w_mn外所有单词对应的主题编号；

表示当c_mn＝1时，单词v被分配到主题k上的次数；

表示当c_mn＝1时，被分配到主题k上的所有单词数；

表示第m个用户文本中被分配到主题k上的单词数；

所有带有公式-(mn)的计数均表示去除了单词w_mn；

γ,γ'表示Beta分布的参数；

式(6)中：

表示所有由噪声词分布生成的单词数，去除单词w_mn；

表示所有由主题词分布生成的单词数，去除单词w_mn；

表示噪声词分布生成单词v的次数，去除单词w_mn；

表示噪声词分布生成所有词的次数，去除单词w_mn；

表示噪声词分布生成所有词的次数；

所有带有公式-(mn)的计数均表示去除了单词w_mn；

S302、为S301中两个潜在参数z_mn和c_mn随机初始化值；

5.如权利要求1所述的基于社交文本的网络舆情话题识别方法，其特征在于，在S4中，所述基于所述潜在参数的值获取所述文本集合中文本-主题分布，主题-主题词分布，主题-噪声词分布，确定网络舆情话题，包括：

式(7)(8)(9)中：

θ_mk表示文本-主题分布；

φ_kv表示主题-主题词分布；

φ′_v表示主题-噪声词分布；

N_m表示第m个用户文本中的单词数；

K表示文本集合D中的主题个数；

V表示文本D_m中的不同词的数量；

表示第m个用户文本中被分配到主题k上的单词数；

表示当c＝1时，单词v被分配到主题k上的次数；

表示当c＝1时，被分配到主题k上的所有单词数；

表示噪声词分布生成单词v的次数；

表示噪声词分布生成所有词的次数；

α表示狄利克雷分布的超参数；

β和β'表示狄利克雷分布的超参数；

6.一种基于社交文本的网络舆情话题识别系统，其特征在于，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

7.如权利要求6所述的基于社交文本的网络舆情话题识别系统，其特征在于，在S1中，所述获取社交媒体数据的文本集合，并确定所述文本集合的主题数量，包括：

S101、获取|M|条社交文本构成的文本集合D，记为

|M|表示文本集合D中的文本数量，一个用户对应一条文本；

S102、对所述文本集合D进行预处理；

S103、基于预处理后的文本集合D建立向量

1≤i≤N_m，用来表示集合D中的第m个用户的文本；D_mn表示第m个用户文本中的第n个词，N_m表示第m个用户文本中的单词数，V表示文本Dm中的不同词的数量，用v∈{1,2,...,V}作为不同词的索引；

S104、确定文本集合D中的主题个数K。

8.如权利要求7所述的基于社交文本的网络舆情话题识别系统，其特征在于，在S2中，所述基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型，其中单词包括生成词中的主题词和生成词的噪声词，包括：

和噪声词分布

式(1)中：

β和β'是狄利克雷分布的超参数；

表示；

式(2)中：

α是狄利克雷分布的超参数；

式(3)中：

服从参数为γ,γ'的Beta分布，用于选择主题-单词分布，

与

构成Beta-Multinomial共轭；

式(4)中，

z_mn服从多项式分布，表示第m条文本的第n个词的主题编号；

9.如权利要求8所述的基于社交文本的网络舆情话题识别系统，其特征在于，在S3中，所述根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计，包括：

式(5)中：

z_-(mn)指除单词w_mn外所有单词对应的主题编号；

表示当c_mn＝1时，单词v被分配到主题k上的次数；

表示当c_mn＝1时，被分配到主题k上的所有单词数；

表示第m个用户文本中被分配到主题k上的单词数；

所有带有公式-(mn)的计数均表示去除了单词w_mn；

γ,γ'表示Beta分布的参数；

式(6)中：

表示所有由噪声词分布生成的单词数，去除单词w_mn；

表示所有由主题词分布生成的单词数，去除单词w_mn；

表示噪声词分布生成单词v的次数，去除单词w_mn；

表示噪声词分布生成所有词的次数，去除单词w_mn；

表示噪声词分布生成所有词的次数；

所有带有公式-(mn)的计数均表示去除了单词w_mn；

S302、为S301中两个潜在参数z_mn和c_mn随机初始化值；

10.如权利要求6所述的基于社交文本的网络舆情话题识别方法，其特征在于，在S4中，所述基于所述潜在参数的值获取所述文本集合中文本-主题分布，主题-主题词分布，主题-噪声词分布，确定网络舆情话题，包括：

式(7)(8)(9)中：

θ_mk表示文本-主题分布；

φ_kv表示主题-主题词分布；

φ′_v表示主题-噪声词分布；

N_m表示第m个用户文本中的单词数；

K表示文本集合D中的主题个数；

V表示文本D_m中的不同词的数量；

表示文本集合m中被分配到主题k上的单词数；

表示当c＝1时，单词v被分配到主题k上的次数；

表示当c＝1时，被分配到主题k上的所有单词数；

表示噪声词分布生成单词v的次数；

表示噪声词分布生成所有词的次数；

α表示狄利克雷分布的超参数；

β和β'表示狄利克雷分布的超参数；