CN111506785A - 基于社交文本的网络舆情话题识别方法和系统 - Google Patents
基于社交文本的网络舆情话题识别方法和系统 Download PDFInfo
- Publication number
- CN111506785A CN111506785A CN202010150112.0A CN202010150112A CN111506785A CN 111506785 A CN111506785 A CN 111506785A CN 202010150112 A CN202010150112 A CN 202010150112A CN 111506785 A CN111506785 A CN 111506785A
- Authority
- CN
- China
- Prior art keywords
- distribution
- text
- word
- words
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000009826 distribution Methods 0.000 claims abstract description 270
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000005070 sampling Methods 0.000 claims description 49
- 239000013598 vector Substances 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 239000011541 reaction mixture Substances 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 abstract description 8
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Educational Administration (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Evolutionary Computation (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于社交文本的网络舆情话题识别方法,涉及文本数据处理技术领域。本发明考虑到噪音词对文本话题发现的影响,将生成词中的主题词和生成词的噪声词分开,将噪音词过滤并推断出每个词的主题词分布,从而能准确的判断出生成该词对应的网络舆情话题,提高网络舆情话题识别的准确率,为后续的舆情监测、政府或者相关管理部门舆情引导和个性化营销等实际场景提供准确的数据支持。
Description
技术领域
本发明涉及文本数据处理技术领域,具体涉及一种基于社交文本的网络舆情话题识别方法和系统。
背景技术
随着互联网的快速发展,社交网络成为社交媒体环境中一个重要组成部分,如新浪微博、Facebook、Twitter等正在成为非常受欢迎的社交平台。越来越多的用户在社交平台上发表自己的观点和评论,产生了大量的用户数据。面对这些可用的网络数据,准确发现其对应的主题,对于舆情监测、个性化营销等实际场景具有很高的应用价值。例如,在社会舆情监测中,政府或者相关管理部门可以根据用户在不同平台上发布的言论确定其态度和感情,从而进行正确的引导。
由于海量网络信息的快速增长,近年来的研究主要集中在利用大规模的在线数据来挖掘有价值的主题信息,例如,在网络舆情分析系统中,网络事件具有突发性和快速传播性,及时迅速地对网络文本进行话题检测有助于相关监管部门对于网络舆情进行科学地决策;在知识转移领域中,将知识库中的知识进行话题检测,可以除去冗余数据并且将知识进行归类,可以提高后续知识传输和吸收过程中的效率。在话题发现中,文本聚类是常用的话题发现方法,近年来,越来越多学者开始将LDA应用到网络文本的话题发现,通过LDA模型的训练得到文本的潜在主题信息,进而有效地提取文本主题,实现话题的发现,
然而,LDA模型忽略了随意性语言(即为本申请中所述的噪声词)可能导致的问题,导致模型不能准确识别出网络舆情话题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于社交文本的网络舆情话题识别方法和系统,解决了现有技术不能准确识别出网络舆情话题的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种基于社交文本的网络舆情话题识别方法,所述方法由计算机执行,包括以下步骤:
S1、获取多个用户的社交媒体数据的文本集合,并确定所述文本集合的主题数量;
S2、基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词;
S3、根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计;
S4、基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题。
优选的,在S1中,所述获取社交媒体数据的文本集合,并确定所述文本集合的主题数量,包括:
S102、对所述文本集合D进行预处理;
S103、基于预处理后的文本集合D建立向量1≤i≤Nm,用来表示集合D中的第m个用户的文本;Dmn表示第m个用户文本中的第n个词,Nm表示第m个用户文本中的单词数,V表示文本Dm中的不同词的数量,用v∈{1,2,...,V}作为不同词的索引;
S104、确定文本集合D中的主题个数K。
优选的,在S2中,所述基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词,包括:
式(1)中:
β和β'是狄利克雷分布的超参数;
式(2)中:
α是狄利克雷分布的超参数;
S203、基于文本的主题分布,利用公式(3)生成主题-单词分布;
式(3)中:
cmn是二元指示变量,服从伯努利分布,决定主题-单词分布的超参数,
式(4)中,
zmn服从多项式分布,表示第m条文本的第n个词的主题编号;
当cmn=1时,表示文本Dm是从主题词分布中生成词wmn的;当cmn=0时,表示文本Dm是从噪声词分布中生成词wmn的。
优选的,在S3中,所述根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计,包括:
S301、设计折叠Gibbs采样算法进行近似后验推断,对潜在参数zmn和cmn进行采样,包括:
S30101、基于贝叶斯准则,使用公式(5)计算单词wmn对应主题zmn的后验概率:
式(5)中:
z-(mn)指除单词wmn外所有单词对应的主题编号;
所有带有公式-(mn)的计数均表示去除了单词wmn;
γ,γ'表示Beta分布的参数;
S30102、采样二元指示变量cmn,计算条件概率分布,采样二元指示变量cmn,如式(6),二元指示变量cmn是分布选择器,决定了第m篇文本中,生成第n个词所选择的主题词分布;
式(6)中:
所有带有公式-(mn)的计数均表示去除了单词wmn;
S302、为S301中两个潜在参数zmn和cmn随机初始化值;
S303、按照S301中的样公式(5)(6)依次采样,更新潜在参数zmn和cmn的值;
S304、将步骤S303重复I0次,完成网络舆情话题识别模型中潜在参数的更新,I0是迭代次数。
优选的,在S4中,所述基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题,包括:
基于所述潜在参数的值更新文本集合中的各个参数的值,根据各个参数的值计算文本集合文本文本-主题分布,主题-主题词分布,是主题-噪声词分布,计算公式如下:
式(7)(8)(9)中:
θmk表示文本-主题分布;
φkv表示主题-主题词分布;
φ′v表示主题-噪声词分布;
Nm表示第m个用户文本中的单词数;
K表示文本集合D中的主题个数;
V表示文本Dm中的不同词的数量;
α表示狄利克雷分布的超参数;
β和β'表示狄利克雷分布的超参数;
通过Gibbs采样算法获取文本集合中每个单词对应每个主题的概率,确定文本对应的主题,实现网络舆情话题的发现。
本发明还提供一种基于社交文本的网络舆情话题识别系统,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、获取多个用户的社交媒体数据的文本集合,并确定所述文本集合的主题数量;
S2、基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词;
S3、根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计;
S4、基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题。
优选的,在S1中,所述获取社交媒体数据的文本集合,并确定所述文本集合的主题数量,包括:
S102、对所述文本集合D进行预处理;
S103、基于预处理后的文本集合D建立向量1≤i≤Nm,用来表示集合D中的第m个用户的文本;Dmn表示第m个用户文本中的第n个词,Nm表示第m个用户文本中的单词数,V表示文本Dm中的不同词的数量,用v∈{1,2,...,V}作为不同词的索引;
S104、确定文本集合D中的主题个数K。
优选的,在S2中,所述基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词,包括:
式(1)中:
β和β'是狄利克雷分布的超参数;
式(2)中:
α是狄利克雷分布的超参数;
S203、基于文本的主题分布,利用公式(3)生成主题-单词分布;
式(3)中:
cmn是二元指示变量,服从伯努利分布,决定主题-单词分布的超参数,
式(4)中,
zmn服从多项式分布,表示第m条文本的第n个词的主题编号;
当cmn=1时,表示文本Dm是从主题词分布中生成词wmn的;当cmn=0时,表示文本Dm是从噪声词分布中生成词wmn的。
优选的,在S3中,所述根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计,包括:
S301、设计折叠Gibbs采样算法进行近似后验推断,对潜在参数zmn和cmn进行采样,包括:
S30101、基于贝叶斯准则,使用公式(5)计算单词wmn对应主题zmn的后验概率:
式(5)中:
z-(mn)指除单词wmn外所有单词对应的主题编号;
所有带有公式-(mn)的计数均表示去除了单词wmn;
γ,γ'表示Beta分布的参数;
S30102、采样二元指示变量cmn,计算条件概率分布,采样二元指示变量cmn,如式(6),二元指示变量cmn是分布选择器,决定了第m篇文本中,生成第n个词所选择的主题词分布;
式(6)中:
所有带有公式-(mn)的计数均表示去除了单词wmn;
S302、为S301中两个潜在参数zmn和cmn随机初始化值;
S303、按照S301中的样公式(5)(6)依次采样,更新潜在参数zmn和cmn的值;
S304、将步骤S303重复I0次,完成网络舆情话题识别模型中潜在参数的更新,I0是迭代次数。
优选的,在S4中,所述基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题,包括:
基于所述潜在参数的值更新文本集合中的各个参数的值,根据各个参数的值计算文本集合文本文本-主题分布,主题-主题词分布,是主题-噪声词分布,计算公式如下:
式(7)(8)(9)中:
θmk表示文本-主题分布;
φkv表示主题-主题词分布;
φ′v表示主题-噪声词分布;
Nm表示第m个用户文本中的单词数;
K表示文本集合D中的主题个数;
V表示文本Dm中的不同词的数量;
α表示狄利克雷分布的超参数;
β和β'表示狄利克雷分布的超参数;
通过Gibbs采样算法获取文本集合中每个单词对应每个主题的概率,确定文本对应的主题,实现网络舆情话题的发现。
(三)有益效果
本发明提供了一种基于社交文本的网络舆情话题识别方法和系统。与现有技术相比,具备以下有益效果:
本发明首先获取多个用户的社交媒体数据的文本集合,并确定所述文本集合的主题数量;然后基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词;根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计;最后基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题。本发明考虑到噪音词对文本话题发现的影响,将生成词中的主题词和生成词的噪声词分开,将噪音词过滤并推断出每个词的主题词分布,从而能准确的判断出生成该词对应的网络舆情话题,提高网络舆情话题识别的准确率,为后续的舆情监测、政府或者相关管理部门舆情引导和个性化营销等实际场景提供准确的数据支持。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种基于社交文本的网络舆情话题识别方法的框图;
图2为本发明实施例中有参贝叶斯模型的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于社交文本的网络舆情话题识别方法,解决了现有技术不能准确识别出网络舆情话题的技术问题,实现提高网络舆情话题识别的准确率,为后续的舆情监测、政府或者相关管理部门舆情引导和个性化营销等实际场景提供准确的数据支持。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例考虑到噪音词对文本话题发现的影响,将生成词中的主题词和生成词的噪声词分开,将噪音词过滤并推断出每个词的主题词分布,从而能准确的判断出生成该词对应的网络舆情话题,提高网络舆情话题识别的准确率,为后续的舆情监测、政府或者相关管理部门舆情引导和个性化营销等实际场景提供准确的数据支持。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供一种基于社交文本的网络舆情话题识别方法,如图1所示,该方法由计算机执行,包括步骤S1~S5:
S1、获取多个用户的社交媒体数据的文本集合,并确定文本集合的主题数量;
S2、基于有参贝叶斯模型、文本集合和文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词;
S3、根据贝叶斯准则使用Gibbs采样算法对网络舆情话题识别模型中的潜在参数进行参数估计;
S4、基于潜在参数的值获取文本集合D文本文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题。
本发明实施例考虑到噪音词对文本话题发现的影响,将生成词中的主题词和生成词的噪声词分开,将噪音词过滤并推断出每个词的主题词分布,从而能准确的判断出生成该词对应的网络舆情话题,提高网络舆情话题识别的准确率,为后续的舆情监测、政府或者相关管理部门舆情引导和个性化营销等实际场景提供准确的数据支持。
下面对各个步骤进行详细描述。
在步骤S1中,获取多个用户的社交媒体数据的文本集合,并确定文本集合的主题数量。具体为:
S102、对文本集合D进行预处理,预处理主要包括对文本集合D中的文本进行分词处理和去除文本集合D中的文本的所有停用词。
S103、基于预处理后的文本集合D建立向量1≤i≤Nm,用来表示集合D中的第m个用户的文本;Dmn表示第m个用户文本中的第n个词,Nm表示第m个用户文本中的单词数,V表示文本Dm中的不同词的数量,用v∈{1,2,...,V}作为不同词的索引。
S104、确定文本集合D中的主题个数K。
在步骤S2中,基于有参贝叶斯模型(模型结构图如图2所示)、文本集合和文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词。具体为:
式(1)中:
β和β'是狄利克雷分布的超参数。
主题词分布用于与主题相关的词汇的分布,噪声词分布用于与主题不相关的噪音词汇的分布。两个分布的不同在于文本中选择词的不同原因,例如:在微博中,针对“雾霾”这一话题的讨论,用户发表的评论可能来自多个方面,如地区、危害、形成原因等。每个组都有自己的一组主题词分布。除了类似这些的特定主题词分布,其余词是一组通用的过滤词分布生成的,由所有组共享,例如“存在”、“事件”、“认为”、“信息”等词汇,这些词汇普遍与主题无关,因此将其看做噪音词汇过滤掉,仅用主题词汇进行文本的主题发现。
式(2)中:
α是狄利克雷分布的超参数;
S203、基于文本的主题分布,利用公式(3)生成主题-单词分布;
式(3)中:
cmn是二元指示变量,服从伯努利分布,决定主题-单词分布的超参数,
式(4)中,
zmn服从多项式分布,表示第m条文本的第n个词的主题编号;当cmn=1时,表示文本Dm是从主题词分布中生成词wmn的;当cmn=0时,表示文本Dm是从噪声词分布中生成词wmn的。通过这个二元指示变量来决定单词从主题词分布还是噪声词分布中产生。
公式(1)、(2)、(3)和(4)组成网络舆情话题识别模型。
在步骤S3中,根据贝叶斯准则使用Gibbs采样算法对网络舆情话题识别模型中的潜在参数进行参数估计。具体为:
S301、设计折叠Gibbs采样算法进行近似后验推断,对潜在参数zmn和cmn进行采样,包括:
S30101、采样单词对应的主题分布
基于贝叶斯准则,使用公式(5)计算单词wmn对应主题zmn的后验概率:
式(5)中:
z-(mn)指除单词wmn外所有单词对应的主题编号;
所有带有公式-(mn)的计数均表示去除了单词wmn;
γ,γ'表示Beta分布的参数;
S30102、采样二元指示变量
采样二元指示变量cmn,计算条件概率分布,采样二元指示变量cmn,如式(6),二元指示变量cmn是分布选择器,决定了第m篇文本中,生成第n个词所选择的主题词分布;
式(6)中:
所有带有公式-(mn)的计数均表示去除了单词wmn;
S302、为S301中两个潜在参数zmn和cmn随机初始化值;
S303、按照S301中的样公式(5)(6)依次采样,更新潜在参数zmn和cmn的值;
S304、将步骤S303重复I0次,完成网络舆情话题识别模型中潜在参数的更新,I0是迭代次数,可自行赋值。
在步骤S4中,基于潜在参数的值获取文本集合D文本文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题。具体为:
基于潜在参数的值更新文本集合D中的各个参数的值,根据各个参数的值计算文本集合D文本文本-主题分布,主题-主题词分布,是主题-噪声词分布。计算公式如下:
式(7)(8)(9)中:
θmk表示文本-主题分布;
φkv表示主题-主题词分布;
φ′v表示主题-噪声词分布;
Nm表示第m个用户文本中的单词数;
K表示文本集合D中的主题个数;
V表示文本Dm中的不同词的数量;
α表示狄利克雷分布的超参数;
β和β'表示狄利克雷分布的超参数。
在本发明实施例中,通过Gibbs采样算法获取文本集合中每个单词对应每个主题的概率,从而确定文本对应的主题,进而实现网络舆情话题的发现。对于主题k(k∈{1,2,…,K}),根据φkv(主题-主题词分布)解释该主题实际含义,帮助了解文本中词对应的主题分布,减少了由于噪音词汇对主题分布的影响。
本发明实施例还提供一种基于社交文本的网络舆情话题识别系统,上述系统包括计算机,上述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,上述至少一个存储单元中存储有至少一条指令,上述至少一条指令由上述至少一个处理单元加载并执行以实现以下步骤:
S1、获取多个用户的社交媒体数据的文本集合,并确定文本集合的主题数量;
S2、基于有参贝叶斯模型、文本集合和文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词;
S3、根据贝叶斯准则使用Gibbs采样算法对网络舆情话题识别模型中的潜在参数进行参数估计;
S4、基于潜在参数的值获取文本集合D文本文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题。
可理解的是,本发明实施例提供的上述基于社交文本的网络舆情话题识别系统与上述基于社交文本的网络舆情话题识别方法相对应,其有关内容的解释、举例、有益效果等部分可以参考基于社交文本的网络舆情话题识别方法中的相应内容,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
本发明实施例考虑到噪音词对文本话题发现的影响,将生成词中的主题词和生成词的噪声词分开,将噪音词过滤并推断出每个词的主题词分布,从而能准确的判断出生成该词对应的网络舆情话题,提高网络舆情话题识别的准确率,为后续的舆情监测、政府或者相关管理部门舆情引导和个性化营销等实际场景提供准确的数据支持。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于社交文本的网络舆情话题识别方法,其特征在于,所述方法由计算机执行,包括以下步骤:
S1、获取多个用户的社交媒体数据的文本集合,并确定所述文本集合的主题数量;
S2、基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词;
S3、根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计;
S4、基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题。
3.如权利要求2所述的基于社交文本的网络舆情话题识别方法,其特征在于,在S2中,所述基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词,包括:
式(1)中:
β和β'是狄利克雷分布的超参数;
式(2)中:
α是狄利克雷分布的超参数;
S203、基于文本的主题分布,利用公式(3)生成主题-单词分布;
式(3)中:
cmn是二元指示变量,服从伯努利分布,决定主题-单词分布的超参数,
式(4)中,
zmn服从多项式分布,表示第m条文本的第n个词的主题编号;
当cmn=1时,表示文本Dm是从主题词分布中生成词wmn的;当cmn=0时,表示文本Dm是从噪声词分布中生成词wmn的。
4.如权利要求3所述的基于社交文本的网络舆情话题识别方法,其特征在于,在S3中,所述根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计,包括:
S301、设计折叠Gibbs采样算法进行近似后验推断,对潜在参数zmn和cmn进行采样,包括:
S30101、基于贝叶斯准则,使用公式(5)计算单词wmn对应主题zmn的后验概率:
式(5)中:
z-(mn)指除单词wmn外所有单词对应的主题编号;
所有带有公式-(mn)的计数均表示去除了单词wmn;
γ,γ'表示Beta分布的参数;
S30102、采样二元指示变量cmn,计算条件概率分布,采样二元指示变量cmn,如式(6),二元指示变量cmn是分布选择器,决定了第m篇文本中,生成第n个词所选择的主题词分布;
式(6)中:
所有带有公式-(mn)的计数均表示去除了单词wmn;
S302、为S301中两个潜在参数zmn和cmn随机初始化值;
S303、按照S301中的样公式(5)(6)依次采样,更新潜在参数zmn和cmn的值;
S304、将步骤S303重复I0次,完成网络舆情话题识别模型中潜在参数的更新,I0是迭代次数。
5.如权利要求1所述的基于社交文本的网络舆情话题识别方法,其特征在于,在S4中,所述基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题,包括:
基于所述潜在参数的值更新文本集合中的各个参数的值,根据各个参数的值计算文本集合文本文本-主题分布,主题-主题词分布,是主题-噪声词分布,计算公式如下:
式(7)(8)(9)中:
θmk表示文本-主题分布;
φkv表示主题-主题词分布;
φ′v表示主题-噪声词分布;
Nm表示第m个用户文本中的单词数;
K表示文本集合D中的主题个数;
V表示文本Dm中的不同词的数量;
α表示狄利克雷分布的超参数;
β和β'表示狄利克雷分布的超参数;
通过Gibbs采样算法获取文本集合中每个单词对应每个主题的概率,确定文本对应的主题,实现网络舆情话题的发现。
6.一种基于社交文本的网络舆情话题识别系统,其特征在于,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、获取多个用户的社交媒体数据的文本集合,并确定所述文本集合的主题数量;
S2、基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词;
S3、根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计;
S4、基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题。
8.如权利要求7所述的基于社交文本的网络舆情话题识别系统,其特征在于,在S2中,所述基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词,包括:
式(1)中:
β和β'是狄利克雷分布的超参数;
式(2)中:
α是狄利克雷分布的超参数;
S203、基于文本的主题分布,利用公式(3)生成主题-单词分布;
式(3)中:
cmn是二元指示变量,服从伯努利分布,决定主题-单词分布的超参数,
式(4)中,
zmn服从多项式分布,表示第m条文本的第n个词的主题编号;
当cmn=1时,表示文本Dm是从主题词分布中生成词wmn的;当cmn=0时,表示文本Dm是从噪声词分布中生成词wmn的。
9.如权利要求8所述的基于社交文本的网络舆情话题识别系统,其特征在于,在S3中,所述根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计,包括:
S301、设计折叠Gibbs采样算法进行近似后验推断,对潜在参数zmn和cmn进行采样,包括:
S30101、基于贝叶斯准则,使用公式(5)计算单词wmn对应主题zmn的后验概率:
式(5)中:
z-(mn)指除单词wmn外所有单词对应的主题编号;
所有带有公式-(mn)的计数均表示去除了单词wmn;
γ,γ'表示Beta分布的参数;
S30102、采样二元指示变量cmn,计算条件概率分布,采样二元指示变量cmn,如式(6),二元指示变量cmn是分布选择器,决定了第m篇文本中,生成第n个词所选择的主题词分布;
式(6)中:
所有带有公式-(mn)的计数均表示去除了单词wmn;
S302、为S301中两个潜在参数zmn和cmn随机初始化值;
S303、按照S301中的样公式(5)(6)依次采样,更新潜在参数zmn和cmn的值;
S304、将步骤S303重复I0次,完成网络舆情话题识别模型中潜在参数的更新,I0是迭代次数。
10.如权利要求6所述的基于社交文本的网络舆情话题识别方法,其特征在于,在S4中,所述基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题,包括:
基于所述潜在参数的值更新文本集合中的各个参数的值,根据各个参数的值计算文本集合文本文本-主题分布,主题-主题词分布,是主题-噪声词分布,计算公式如下:
式(7)(8)(9)中:
θmk表示文本-主题分布;
φkv表示主题-主题词分布;
φ′v表示主题-噪声词分布;
Nm表示第m个用户文本中的单词数;
K表示文本集合D中的主题个数;
V表示文本Dm中的不同词的数量;
α表示狄利克雷分布的超参数;
β和β'表示狄利克雷分布的超参数;
通过Gibbs采样算法获取文本集合中每个单词对应每个主题的概率,确定文本对应的主题,实现网络舆情话题的发现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010150112.0A CN111506785B (zh) | 2020-03-06 | 2020-03-06 | 基于社交文本的网络舆情话题识别方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010150112.0A CN111506785B (zh) | 2020-03-06 | 2020-03-06 | 基于社交文本的网络舆情话题识别方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111506785A true CN111506785A (zh) | 2020-08-07 |
CN111506785B CN111506785B (zh) | 2023-07-07 |
Family
ID=71877658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010150112.0A Active CN111506785B (zh) | 2020-03-06 | 2020-03-06 | 基于社交文本的网络舆情话题识别方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111506785B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069394A (zh) * | 2020-08-14 | 2020-12-11 | 上海风秩科技有限公司 | 文本信息的挖掘方法及装置 |
CN112100518A (zh) * | 2020-09-21 | 2020-12-18 | 之江实验室 | 一种考虑用户在线关系网络的舆情主题发现方法 |
CN114003815A (zh) * | 2021-11-04 | 2022-02-01 | 之江实验室 | 一种网络舆情主题及其关注用户群体的发现方法 |
CN116386895A (zh) * | 2023-04-06 | 2023-07-04 | 之江实验室 | 基于异构图神经网络的流行病舆情实体识别方法与装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100125540A1 (en) * | 2008-11-14 | 2010-05-20 | Palo Alto Research Center Incorporated | System And Method For Providing Robust Topic Identification In Social Indexes |
US20130124437A1 (en) * | 2011-11-16 | 2013-05-16 | Marco Pennacchiotti | Social media user recommendation system and method |
US20140129510A1 (en) * | 2011-07-13 | 2014-05-08 | Huawei Technologies Co., Ltd. | Parameter Inference Method, Calculation Apparatus, and System Based on Latent Dirichlet Allocation Model |
US20150193482A1 (en) * | 2014-01-07 | 2015-07-09 | 30dB, Inc. | Topic sentiment identification and analysis |
US20170124174A1 (en) * | 2015-10-29 | 2017-05-04 | Qualtrics, Llc | Organizing survey text responses |
CN106844424A (zh) * | 2016-12-09 | 2017-06-13 | 宁波大学 | 一种基于lda的文本分类方法 |
CN107798043A (zh) * | 2017-06-28 | 2018-03-13 | 贵州大学 | 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法 |
CN107808008A (zh) * | 2017-11-17 | 2018-03-16 | 合肥工业大学 | 一种考虑用户特征信息的主题‑情感联合建模方法 |
US20180293505A1 (en) * | 2017-04-06 | 2018-10-11 | Universite Paris Descartes | Method for clustering nodes of a textual network taking into account textual content, computer-readable storage device and system implementing said method |
CN110046228A (zh) * | 2019-04-18 | 2019-07-23 | 合肥工业大学 | 短文本主题识别方法和系统 |
CN110457711A (zh) * | 2019-08-20 | 2019-11-15 | 电子科技大学 | 一种基于主题词的社交媒体事件主题识别方法 |
-
2020
- 2020-03-06 CN CN202010150112.0A patent/CN111506785B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100125540A1 (en) * | 2008-11-14 | 2010-05-20 | Palo Alto Research Center Incorporated | System And Method For Providing Robust Topic Identification In Social Indexes |
US20140129510A1 (en) * | 2011-07-13 | 2014-05-08 | Huawei Technologies Co., Ltd. | Parameter Inference Method, Calculation Apparatus, and System Based on Latent Dirichlet Allocation Model |
US20130124437A1 (en) * | 2011-11-16 | 2013-05-16 | Marco Pennacchiotti | Social media user recommendation system and method |
US20150193482A1 (en) * | 2014-01-07 | 2015-07-09 | 30dB, Inc. | Topic sentiment identification and analysis |
US20170124174A1 (en) * | 2015-10-29 | 2017-05-04 | Qualtrics, Llc | Organizing survey text responses |
CN106844424A (zh) * | 2016-12-09 | 2017-06-13 | 宁波大学 | 一种基于lda的文本分类方法 |
US20180293505A1 (en) * | 2017-04-06 | 2018-10-11 | Universite Paris Descartes | Method for clustering nodes of a textual network taking into account textual content, computer-readable storage device and system implementing said method |
CN107798043A (zh) * | 2017-06-28 | 2018-03-13 | 贵州大学 | 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法 |
CN107808008A (zh) * | 2017-11-17 | 2018-03-16 | 合肥工业大学 | 一种考虑用户特征信息的主题‑情感联合建模方法 |
CN110046228A (zh) * | 2019-04-18 | 2019-07-23 | 合肥工业大学 | 短文本主题识别方法和系统 |
CN110457711A (zh) * | 2019-08-20 | 2019-11-15 | 电子科技大学 | 一种基于主题词的社交媒体事件主题识别方法 |
Non-Patent Citations (1)
Title |
---|
韩肖?;侯再恩;孙绵;: "主题模型在短文本上的应用研究", no. 01 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069394A (zh) * | 2020-08-14 | 2020-12-11 | 上海风秩科技有限公司 | 文本信息的挖掘方法及装置 |
CN112069394B (zh) * | 2020-08-14 | 2023-09-29 | 上海风秩科技有限公司 | 文本信息的挖掘方法及装置 |
CN112100518A (zh) * | 2020-09-21 | 2020-12-18 | 之江实验室 | 一种考虑用户在线关系网络的舆情主题发现方法 |
CN112100518B (zh) * | 2020-09-21 | 2023-11-28 | 之江实验室 | 一种考虑用户在线关系网络的舆情主题发现方法 |
CN114003815A (zh) * | 2021-11-04 | 2022-02-01 | 之江实验室 | 一种网络舆情主题及其关注用户群体的发现方法 |
CN114003815B (zh) * | 2021-11-04 | 2024-03-29 | 之江实验室 | 一种网络舆情主题及其关注用户群体的发现方法 |
CN116386895A (zh) * | 2023-04-06 | 2023-07-04 | 之江实验室 | 基于异构图神经网络的流行病舆情实体识别方法与装置 |
CN116386895B (zh) * | 2023-04-06 | 2023-11-28 | 之江实验室 | 基于异构图神经网络的流行病舆情实体识别方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111506785B (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | Curriculum learning for natural language understanding | |
CN111506785A (zh) | 基于社交文本的网络舆情话题识别方法和系统 | |
CN110647626B (zh) | 基于互联网服务域的rest数据服务聚类方法 | |
CN105740342A (zh) | 一种基于社会关系主题模型的社交网络朋友推荐方法 | |
Rajamohana et al. | An effective hybrid cuckoo search with harmony search for review spam detection | |
Balli et al. | Sentimental analysis of Twitter users from Turkish content with natural language processing | |
CN114048729A (zh) | 医学文献评价方法、电子设备、存储介质和程序产品 | |
CN112100518B (zh) | 一种考虑用户在线关系网络的舆情主题发现方法 | |
CN110209962B (zh) | 主题层次高影响力用户的获取方法和系统 | |
CN113157993A (zh) | 一种基于时序图极化分析的网络水军行为预警模型 | |
Joung et al. | Importance-performance analysis of product attributes using explainable deep neural network from online reviews | |
CN111090995B (zh) | 短文本主题识别方法和系统 | |
CN110084710B (zh) | 确定消息主题的方法及装置 | |
CN114003815B (zh) | 一种网络舆情主题及其关注用户群体的发现方法 | |
CN116304728A (zh) | 一种基于句子表征的短文本相似度匹配方法及应用 | |
CN114861004A (zh) | 一种社交事件检测方法、装置及系统 | |
Agarwal et al. | Performance Analysis of Various Machine Learning Classification Models Using Twitter Data: National Education Policy | |
CN108733824B (zh) | 考虑专家知识的交互式主题建模方法及装置 | |
Borkar et al. | Comparative study of supervised learning algorithms for fake news classification | |
Ding et al. | A vectorization approach to language identification of social media short texts | |
Rafdi et al. | Sentiment Analysis Using Naive Bayes Algorithm with Feature Selection Particle Swarm Optimization (PSO) and Genetic Algorithm | |
Balbi et al. | A two-step strategy for improving categorisation of short texts | |
Akbari et al. | Sentiment Analysis Using Learning Vector Quantization Method | |
Dhanya et al. | Comparative performance of machine learning algorithms in detecting offensive speech in malayalam-english code-mixed data | |
Wang et al. | A novel feature-based text classification improving the accuracy of twitter sentiment analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |