CN111506785A - 基于社交文本的网络舆情话题识别方法和系统 - Google Patents

基于社交文本的网络舆情话题识别方法和系统 Download PDF

Info

Publication number
CN111506785A
CN111506785A CN202010150112.0A CN202010150112A CN111506785A CN 111506785 A CN111506785 A CN 111506785A CN 202010150112 A CN202010150112 A CN 202010150112A CN 111506785 A CN111506785 A CN 111506785A
Authority
CN
China
Prior art keywords
distribution
text
word
words
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010150112.0A
Other languages
English (en)
Other versions
CN111506785B (zh
Inventor
姜元春
张吉
孙见山
任祖杰
单海军
刘心语
钱洋
梁瑞成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Zhejiang Lab
Original Assignee
Hefei University of Technology
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology, Zhejiang Lab filed Critical Hefei University of Technology
Priority to CN202010150112.0A priority Critical patent/CN111506785B/zh
Publication of CN111506785A publication Critical patent/CN111506785A/zh
Application granted granted Critical
Publication of CN111506785B publication Critical patent/CN111506785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Computational Linguistics (AREA)
  • Development Economics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Educational Administration (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于社交文本的网络舆情话题识别方法,涉及文本数据处理技术领域。本发明考虑到噪音词对文本话题发现的影响,将生成词中的主题词和生成词的噪声词分开,将噪音词过滤并推断出每个词的主题词分布,从而能准确的判断出生成该词对应的网络舆情话题,提高网络舆情话题识别的准确率,为后续的舆情监测、政府或者相关管理部门舆情引导和个性化营销等实际场景提供准确的数据支持。

Description

基于社交文本的网络舆情话题识别方法和系统
技术领域
本发明涉及文本数据处理技术领域,具体涉及一种基于社交文本的网络舆情话题识别方法和系统。
背景技术
随着互联网的快速发展,社交网络成为社交媒体环境中一个重要组成部分,如新浪微博、Facebook、Twitter等正在成为非常受欢迎的社交平台。越来越多的用户在社交平台上发表自己的观点和评论,产生了大量的用户数据。面对这些可用的网络数据,准确发现其对应的主题,对于舆情监测、个性化营销等实际场景具有很高的应用价值。例如,在社会舆情监测中,政府或者相关管理部门可以根据用户在不同平台上发布的言论确定其态度和感情,从而进行正确的引导。
由于海量网络信息的快速增长,近年来的研究主要集中在利用大规模的在线数据来挖掘有价值的主题信息,例如,在网络舆情分析系统中,网络事件具有突发性和快速传播性,及时迅速地对网络文本进行话题检测有助于相关监管部门对于网络舆情进行科学地决策;在知识转移领域中,将知识库中的知识进行话题检测,可以除去冗余数据并且将知识进行归类,可以提高后续知识传输和吸收过程中的效率。在话题发现中,文本聚类是常用的话题发现方法,近年来,越来越多学者开始将LDA应用到网络文本的话题发现,通过LDA模型的训练得到文本的潜在主题信息,进而有效地提取文本主题,实现话题的发现,
然而,LDA模型忽略了随意性语言(即为本申请中所述的噪声词)可能导致的问题,导致模型不能准确识别出网络舆情话题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于社交文本的网络舆情话题识别方法和系统,解决了现有技术不能准确识别出网络舆情话题的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种基于社交文本的网络舆情话题识别方法,所述方法由计算机执行,包括以下步骤:
S1、获取多个用户的社交媒体数据的文本集合,并确定所述文本集合的主题数量;
S2、基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词;
S3、根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计;
S4、基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题。
优选的,在S1中,所述获取社交媒体数据的文本集合,并确定所述文本集合的主题数量,包括:
S101、获取|M|条社交文本构成的文本集合D,记为
Figure BDA0002402138560000031
|M|表示文本集合D中的文本数量,一个用户对应一条文本;
S102、对所述文本集合D进行预处理;
S103、基于预处理后的文本集合D建立向量
Figure BDA0002402138560000032
1≤i≤Nm,用来表示集合D中的第m个用户的文本;Dmn表示第m个用户文本中的第n个词,Nm表示第m个用户文本中的单词数,V表示文本Dm中的不同词的数量,用v∈{1,2,...,V}作为不同词的索引;
S104、确定文本集合D中的主题个数K。
优选的,在S2中,所述基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词,包括:
S201、基于文本集合D中的K个主题,按照公式(1)进行采样从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布
Figure BDA0002402138560000033
和噪声词分布
Figure BDA0002402138560000034
Figure BDA0002402138560000035
式(1)中:
β和β'是狄利克雷分布的超参数;
S202、对于每个用户的文本m∈{1,2,...,M},按照公式(2)建立文本-主题分布,用向量
Figure BDA0002402138560000036
表示;
Figure BDA0002402138560000041
式(2)中:
α是狄利克雷分布的超参数;
Figure BDA0002402138560000042
表示用户文本m中对应的主题分布,服从参数为α的狄利克雷分布;
S203、基于文本的主题分布,利用公式(3)生成主题-单词分布;
Figure BDA0002402138560000043
Figure BDA0002402138560000048
式(3)中:
Figure BDA0002402138560000044
服从参数为γ,γ'的Beta分布,用于选择主题-单词分布,
Figure BDA0002402138560000045
Figure BDA0002402138560000046
构成Beta-Multinomial共轭;
cmn是二元指示变量,服从伯努利分布,决定主题-单词分布的超参数,
Figure BDA0002402138560000047
式(4)中,
zmn服从多项式分布,表示第m条文本的第n个词的主题编号;
当cmn=1时,表示文本Dm是从主题词分布中生成词wmn的;当cmn=0时,表示文本Dm是从噪声词分布中生成词wmn的。
优选的,在S3中,所述根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计,包括:
S301、设计折叠Gibbs采样算法进行近似后验推断,对潜在参数zmn和cmn进行采样,包括:
S30101、基于贝叶斯准则,使用公式(5)计算单词wmn对应主题zmn的后验概率:
Figure BDA0002402138560000051
式(5)中:
z-(mn)指除单词wmn外所有单词对应的主题编号;
Figure BDA0002402138560000052
表示当cmn=1时,单词v被分配到主题k上的次数;
Figure BDA0002402138560000053
表示当cmn=1时,被分配到主题k上的所有单词数;
Figure BDA0002402138560000054
表示第m个用户文本中被分配到主题k上的单词数;
所有带有公式-(mn)的计数均表示去除了单词wmn
γ,γ'表示Beta分布的参数;
S30102、采样二元指示变量cmn,计算条件概率分布,采样二元指示变量cmn,如式(6),二元指示变量cmn是分布选择器,决定了第m篇文本中,生成第n个词所选择的主题词分布;
Figure BDA0002402138560000055
Figure BDA00024021385600000510
式(6)中:
Figure BDA0002402138560000056
表示所有由噪声词分布生成的单词数,去除单词wmn
Figure BDA0002402138560000057
表示所有由主题词分布生成的单词数,去除单词wmn
Figure BDA0002402138560000058
表示噪声词分布生成单词v的次数,去除单词wmn
Figure BDA0002402138560000059
表示噪声词分布生成所有词的次数,去除单词wmn
Figure BDA0002402138560000061
表示c=0时表示所有由噪声词分布生成的单词数,去除单词wmn;c=1时表示所有由主题词分布生成的单词数,去除单词wmn
Figure BDA0002402138560000062
表示cmn=1时,单词v被分配到主题k上的次数,除去单词单词wmn
Figure BDA0002402138560000063
表示噪声词分布生成所有词的次数;
所有带有公式-(mn)的计数均表示去除了单词wmn
S302、为S301中两个潜在参数zmn和cmn随机初始化值;
S303、按照S301中的样公式(5)(6)依次采样,更新潜在参数zmn和cmn的值;
S304、将步骤S303重复I0次,完成网络舆情话题识别模型中潜在参数的更新,I0是迭代次数。
优选的,在S4中,所述基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题,包括:
基于所述潜在参数的值更新文本集合中的各个参数的值,根据各个参数的值计算文本集合文本文本-主题分布,主题-主题词分布,是主题-噪声词分布,计算公式如下:
Figure BDA0002402138560000064
Figure BDA0002402138560000065
Figure BDA0002402138560000066
式(7)(8)(9)中:
θmk表示文本-主题分布;
φkv表示主题-主题词分布;
φ′v表示主题-噪声词分布;
Nm表示第m个用户文本中的单词数;
K表示文本集合D中的主题个数;
V表示文本Dm中的不同词的数量;
Figure BDA0002402138560000071
表示第m个用户文本中被分配到主题k上的单词数;
Figure BDA0002402138560000072
表示当c=1时,单词v被分配到主题k上的次数;
Figure BDA0002402138560000073
表示当c=1时,被分配到主题k上的所有单词数;
Figure BDA0002402138560000074
表示噪声词分布生成单词v的次数;
Figure BDA0002402138560000075
表示噪声词分布生成所有词的次数;
α表示狄利克雷分布的超参数;
β和β'表示狄利克雷分布的超参数;
通过Gibbs采样算法获取文本集合中每个单词对应每个主题的概率,确定文本对应的主题,实现网络舆情话题的发现。
本发明还提供一种基于社交文本的网络舆情话题识别系统,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、获取多个用户的社交媒体数据的文本集合,并确定所述文本集合的主题数量;
S2、基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词;
S3、根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计;
S4、基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题。
优选的,在S1中,所述获取社交媒体数据的文本集合,并确定所述文本集合的主题数量,包括:
S101、获取|M|条社交文本构成的文本集合D,记为
Figure BDA0002402138560000081
|M|表示文本集合D中的文本数量,一个用户对应一条文本;
S102、对所述文本集合D进行预处理;
S103、基于预处理后的文本集合D建立向量
Figure BDA0002402138560000082
1≤i≤Nm,用来表示集合D中的第m个用户的文本;Dmn表示第m个用户文本中的第n个词,Nm表示第m个用户文本中的单词数,V表示文本Dm中的不同词的数量,用v∈{1,2,...,V}作为不同词的索引;
S104、确定文本集合D中的主题个数K。
优选的,在S2中,所述基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词,包括:
S201、基于文本集合D中的K个主题,按照公式(1)进行采样从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布
Figure BDA0002402138560000091
和噪声词分布
Figure BDA0002402138560000092
Figure BDA0002402138560000093
式(1)中:
β和β'是狄利克雷分布的超参数;
S202、对于每个用户的文本m∈{1,2,...,M},按照公式(2)建立文本-主题分布,用向量
Figure BDA0002402138560000094
表示;
Figure BDA0002402138560000095
式(2)中:
α是狄利克雷分布的超参数;
Figure BDA0002402138560000096
表示用户文本m中对应的主题分布,服从参数为α的狄利克雷分布;
S203、基于文本的主题分布,利用公式(3)生成主题-单词分布;
Figure BDA0002402138560000097
Figure BDA00024021385600000912
式(3)中:
Figure BDA0002402138560000098
服从参数为γ,γ'的Beta分布,用于选择主题-单词分布,
Figure BDA0002402138560000099
Figure BDA00024021385600000910
构成Beta-Multinomial共轭;
cmn是二元指示变量,服从伯努利分布,决定主题-单词分布的超参数,
Figure BDA00024021385600000911
式(4)中,
zmn服从多项式分布,表示第m条文本的第n个词的主题编号;
当cmn=1时,表示文本Dm是从主题词分布中生成词wmn的;当cmn=0时,表示文本Dm是从噪声词分布中生成词wmn的。
优选的,在S3中,所述根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计,包括:
S301、设计折叠Gibbs采样算法进行近似后验推断,对潜在参数zmn和cmn进行采样,包括:
S30101、基于贝叶斯准则,使用公式(5)计算单词wmn对应主题zmn的后验概率:
Figure BDA0002402138560000101
式(5)中:
z-(mn)指除单词wmn外所有单词对应的主题编号;
Figure BDA0002402138560000102
表示当cmn=1时,单词v被分配到主题k上的次数;
Figure BDA0002402138560000103
表示当cmn=1时,被分配到主题k上的所有单词数;
Figure BDA0002402138560000104
表示第m个用户文本中被分配到主题k上的单词数;
所有带有公式-(mn)的计数均表示去除了单词wmn
γ,γ'表示Beta分布的参数;
S30102、采样二元指示变量cmn,计算条件概率分布,采样二元指示变量cmn,如式(6),二元指示变量cmn是分布选择器,决定了第m篇文本中,生成第n个词所选择的主题词分布;
Figure BDA0002402138560000111
Figure BDA0002402138560000119
式(6)中:
Figure BDA0002402138560000112
表示所有由噪声词分布生成的单词数,去除单词wmn
Figure BDA0002402138560000113
表示所有由主题词分布生成的单词数,去除单词wmn
Figure BDA0002402138560000114
表示噪声词分布生成单词v的次数,去除单词wmn
Figure BDA0002402138560000115
表示噪声词分布生成所有词的次数,去除单词wmn;
Figure BDA0002402138560000116
表示c=0时表示所有由噪声词分布生成的单词数,去除单词wmn;c=1时表示所有由主题词分布生成的单词数,去除单词wmn
Figure BDA0002402138560000117
表示cmn=1时,单词v被分配到主题k上的次数,除去单词单词wmn
Figure BDA0002402138560000118
表示噪声词分布生成所有词的次数;
所有带有公式-(mn)的计数均表示去除了单词wmn
S302、为S301中两个潜在参数zmn和cmn随机初始化值;
S303、按照S301中的样公式(5)(6)依次采样,更新潜在参数zmn和cmn的值;
S304、将步骤S303重复I0次,完成网络舆情话题识别模型中潜在参数的更新,I0是迭代次数。
优选的,在S4中,所述基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题,包括:
基于所述潜在参数的值更新文本集合中的各个参数的值,根据各个参数的值计算文本集合文本文本-主题分布,主题-主题词分布,是主题-噪声词分布,计算公式如下:
Figure BDA0002402138560000121
Figure BDA0002402138560000122
Figure BDA0002402138560000123
式(7)(8)(9)中:
θmk表示文本-主题分布;
φkv表示主题-主题词分布;
φ′v表示主题-噪声词分布;
Nm表示第m个用户文本中的单词数;
K表示文本集合D中的主题个数;
V表示文本Dm中的不同词的数量;
Figure BDA0002402138560000124
表示文本集合m中被分配到主题k上的单词数;
Figure BDA0002402138560000125
表示当c=1时,单词v被分配到主题k上的次数;
Figure BDA0002402138560000126
表示当c=1时,被分配到主题k上的所有单词数;
Figure BDA0002402138560000127
表示噪声词分布生成单词v的次数;
Figure BDA0002402138560000128
表示噪声词分布生成所有词的次数;
α表示狄利克雷分布的超参数;
β和β'表示狄利克雷分布的超参数;
通过Gibbs采样算法获取文本集合中每个单词对应每个主题的概率,确定文本对应的主题,实现网络舆情话题的发现。
(三)有益效果
本发明提供了一种基于社交文本的网络舆情话题识别方法和系统。与现有技术相比,具备以下有益效果:
本发明首先获取多个用户的社交媒体数据的文本集合,并确定所述文本集合的主题数量;然后基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词;根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计;最后基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题。本发明考虑到噪音词对文本话题发现的影响,将生成词中的主题词和生成词的噪声词分开,将噪音词过滤并推断出每个词的主题词分布,从而能准确的判断出生成该词对应的网络舆情话题,提高网络舆情话题识别的准确率,为后续的舆情监测、政府或者相关管理部门舆情引导和个性化营销等实际场景提供准确的数据支持。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种基于社交文本的网络舆情话题识别方法的框图;
图2为本发明实施例中有参贝叶斯模型的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于社交文本的网络舆情话题识别方法,解决了现有技术不能准确识别出网络舆情话题的技术问题,实现提高网络舆情话题识别的准确率,为后续的舆情监测、政府或者相关管理部门舆情引导和个性化营销等实际场景提供准确的数据支持。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例考虑到噪音词对文本话题发现的影响,将生成词中的主题词和生成词的噪声词分开,将噪音词过滤并推断出每个词的主题词分布,从而能准确的判断出生成该词对应的网络舆情话题,提高网络舆情话题识别的准确率,为后续的舆情监测、政府或者相关管理部门舆情引导和个性化营销等实际场景提供准确的数据支持。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供一种基于社交文本的网络舆情话题识别方法,如图1所示,该方法由计算机执行,包括步骤S1~S5:
S1、获取多个用户的社交媒体数据的文本集合,并确定文本集合的主题数量;
S2、基于有参贝叶斯模型、文本集合和文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词;
S3、根据贝叶斯准则使用Gibbs采样算法对网络舆情话题识别模型中的潜在参数进行参数估计;
S4、基于潜在参数的值获取文本集合D文本文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题。
本发明实施例考虑到噪音词对文本话题发现的影响,将生成词中的主题词和生成词的噪声词分开,将噪音词过滤并推断出每个词的主题词分布,从而能准确的判断出生成该词对应的网络舆情话题,提高网络舆情话题识别的准确率,为后续的舆情监测、政府或者相关管理部门舆情引导和个性化营销等实际场景提供准确的数据支持。
下面对各个步骤进行详细描述。
在步骤S1中,获取多个用户的社交媒体数据的文本集合,并确定文本集合的主题数量。具体为:
S101、通过网络爬虫技术获取|M|条社交文本构成的文本集合D,记为
Figure BDA0002402138560000151
|M|表示文本集合D中的文本数量,一个用户对应一条文本。
S102、对文本集合D进行预处理,预处理主要包括对文本集合D中的文本进行分词处理和去除文本集合D中的文本的所有停用词。
S103、基于预处理后的文本集合D建立向量
Figure BDA0002402138560000161
1≤i≤Nm,用来表示集合D中的第m个用户的文本;Dmn表示第m个用户文本中的第n个词,Nm表示第m个用户文本中的单词数,V表示文本Dm中的不同词的数量,用v∈{1,2,...,V}作为不同词的索引。
S104、确定文本集合D中的主题个数K。
在步骤S2中,基于有参贝叶斯模型(模型结构图如图2所示)、文本集合和文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词。具体为:
S201、基于文本集合D中的K个主题,按照公式(1)进行采样从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布
Figure BDA0002402138560000162
和噪声词分布
Figure BDA0002402138560000163
Figure BDA0002402138560000164
式(1)中:
β和β'是狄利克雷分布的超参数。
主题词分布用于与主题相关的词汇的分布,噪声词分布用于与主题不相关的噪音词汇的分布。两个分布的不同在于文本中选择词的不同原因,例如:在微博中,针对“雾霾”这一话题的讨论,用户发表的评论可能来自多个方面,如地区、危害、形成原因等。每个组都有自己的一组主题词分布。除了类似这些的特定主题词分布,其余词是一组通用的过滤词分布生成的,由所有组共享,例如“存在”、“事件”、“认为”、“信息”等词汇,这些词汇普遍与主题无关,因此将其看做噪音词汇过滤掉,仅用主题词汇进行文本的主题发现。
S202、对于每个用户的文本m∈{1,2,...,M},按照公式(2)建立文本-主题分布,用向量
Figure BDA0002402138560000171
表示;
Figure BDA0002402138560000172
式(2)中:
α是狄利克雷分布的超参数;
Figure BDA0002402138560000173
表示用户文本m中对应的主题分布,服从参数为α的狄利克雷分布。
S203、基于文本的主题分布,利用公式(3)生成主题-单词分布;
Figure BDA0002402138560000174
Figure BDA0002402138560000179
式(3)中:
Figure BDA0002402138560000175
服从参数为γ,γ'的Beta分布,用于选择主题-单词分布,
Figure BDA0002402138560000176
Figure BDA0002402138560000177
构成Beta-Multinomial共轭;
cmn是二元指示变量,服从伯努利分布,决定主题-单词分布的超参数,
Figure BDA0002402138560000178
式(4)中,
zmn服从多项式分布,表示第m条文本的第n个词的主题编号;当cmn=1时,表示文本Dm是从主题词分布中生成词wmn的;当cmn=0时,表示文本Dm是从噪声词分布中生成词wmn的。通过这个二元指示变量来决定单词从主题词分布还是噪声词分布中产生。
公式(1)、(2)、(3)和(4)组成网络舆情话题识别模型。
在步骤S3中,根据贝叶斯准则使用Gibbs采样算法对网络舆情话题识别模型中的潜在参数进行参数估计。具体为:
S301、设计折叠Gibbs采样算法进行近似后验推断,对潜在参数zmn和cmn进行采样,包括:
S30101、采样单词对应的主题分布
基于贝叶斯准则,使用公式(5)计算单词wmn对应主题zmn的后验概率:
Figure BDA0002402138560000181
式(5)中:
z-(mn)指除单词wmn外所有单词对应的主题编号;
Figure BDA0002402138560000182
表示当cmn=1时,单词v被分配到主题k上的次数;
Figure BDA0002402138560000183
表示当cmn=1时,被分配到主题k上的所有单词数;
Figure BDA0002402138560000184
表示第m个用户文本中被分配到主题k上的单词数;
所有带有公式-(mn)的计数均表示去除了单词wmn
γ,γ'表示Beta分布的参数;
S30102、采样二元指示变量
采样二元指示变量cmn,计算条件概率分布,采样二元指示变量cmn,如式(6),二元指示变量cmn是分布选择器,决定了第m篇文本中,生成第n个词所选择的主题词分布;
Figure BDA0002402138560000191
Figure BDA0002402138560000192
式(6)中:
Figure BDA0002402138560000193
表示所有由噪声词分布生成的单词数,去除单词wmn
Figure BDA0002402138560000194
表示所有由主题词分布生成的单词数,去除单词wmn
Figure BDA0002402138560000195
表示噪声词分布生成单词v的次数,去除单词wmn
Figure BDA0002402138560000196
表示噪声词分布生成所有词的次数,去除单词wmn
Figure BDA0002402138560000197
表示c=0时表示所有由噪声词分布生成的单词数,去除单词wmn;c=1时表示所有由主题词分布生成的单词数,去除单词wmn
Figure BDA0002402138560000198
表示cmn=1时,单词v被分配到主题k上的次数,除去单词单词wmn
Figure BDA0002402138560000199
表示噪声词分布生成所有词的次数;
所有带有公式-(mn)的计数均表示去除了单词wmn
S302、为S301中两个潜在参数zmn和cmn随机初始化值;
S303、按照S301中的样公式(5)(6)依次采样,更新潜在参数zmn和cmn的值;
S304、将步骤S303重复I0次,完成网络舆情话题识别模型中潜在参数的更新,I0是迭代次数,可自行赋值。
在步骤S4中,基于潜在参数的值获取文本集合D文本文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题。具体为:
基于潜在参数的值更新文本集合D中的各个参数的值,根据各个参数的值计算文本集合D文本文本-主题分布,主题-主题词分布,是主题-噪声词分布。计算公式如下:
Figure BDA0002402138560000201
Figure BDA0002402138560000202
Figure BDA0002402138560000203
式(7)(8)(9)中:
θmk表示文本-主题分布;
φkv表示主题-主题词分布;
φ′v表示主题-噪声词分布;
Nm表示第m个用户文本中的单词数;
K表示文本集合D中的主题个数;
V表示文本Dm中的不同词的数量;
Figure BDA0002402138560000204
表示第m个用户文本中被分配到主题k上的单词数;
Figure BDA0002402138560000205
表示当c=1时,单词v被分配到主题k上的次数;
Figure BDA0002402138560000206
表示当c=1时,被分配到主题k上的所有单词数;
Figure BDA0002402138560000207
表示噪声词分布生成单词v的次数;
Figure BDA0002402138560000208
表示噪声词分布生成所有词的次数;
α表示狄利克雷分布的超参数;
β和β'表示狄利克雷分布的超参数。
在本发明实施例中,通过Gibbs采样算法获取文本集合中每个单词对应每个主题的概率,从而确定文本对应的主题,进而实现网络舆情话题的发现。对于主题k(k∈{1,2,…,K}),根据φkv(主题-主题词分布)解释该主题实际含义,帮助了解文本中词对应的主题分布,减少了由于噪音词汇对主题分布的影响。
本发明实施例还提供一种基于社交文本的网络舆情话题识别系统,上述系统包括计算机,上述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,上述至少一个存储单元中存储有至少一条指令,上述至少一条指令由上述至少一个处理单元加载并执行以实现以下步骤:
S1、获取多个用户的社交媒体数据的文本集合,并确定文本集合的主题数量;
S2、基于有参贝叶斯模型、文本集合和文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词;
S3、根据贝叶斯准则使用Gibbs采样算法对网络舆情话题识别模型中的潜在参数进行参数估计;
S4、基于潜在参数的值获取文本集合D文本文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题。
可理解的是,本发明实施例提供的上述基于社交文本的网络舆情话题识别系统与上述基于社交文本的网络舆情话题识别方法相对应,其有关内容的解释、举例、有益效果等部分可以参考基于社交文本的网络舆情话题识别方法中的相应内容,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
本发明实施例考虑到噪音词对文本话题发现的影响,将生成词中的主题词和生成词的噪声词分开,将噪音词过滤并推断出每个词的主题词分布,从而能准确的判断出生成该词对应的网络舆情话题,提高网络舆情话题识别的准确率,为后续的舆情监测、政府或者相关管理部门舆情引导和个性化营销等实际场景提供准确的数据支持。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于社交文本的网络舆情话题识别方法,其特征在于,所述方法由计算机执行,包括以下步骤:
S1、获取多个用户的社交媒体数据的文本集合,并确定所述文本集合的主题数量;
S2、基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词;
S3、根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计;
S4、基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题。
2.如权利要求1所述的基于社交文本的网络舆情话题识别方法,其特征在于,在S1中,所述获取社交媒体数据的文本集合,并确定所述文本集合的主题数量,包括:
S101、获取|M|条社交文本构成的文本集合D,记为
Figure FDA0002402138550000011
|M|表示文本集合D中的文本数量,一个用户对应一条文本;
S102、对所述文本集合D进行预处理;
S103、基于预处理后的文本集合D建立向量
Figure FDA0002402138550000012
1≤i≤Nm,用来表示集合D中的第m个用户的文本;Dmn表示第m个用户文本中的第n个词,Nm表示第m个用户文本中的单词数,V表示文本Dm中的不同词的数量,用v∈{1,2,...,V}作为不同词的索引;
S104、确定文本集合D中的主题个数K。
3.如权利要求2所述的基于社交文本的网络舆情话题识别方法,其特征在于,在S2中,所述基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词,包括:
S201、基于文本集合D中的K个主题,按照公式(1)进行采样从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布
Figure FDA0002402138550000021
和噪声词分布
Figure FDA0002402138550000022
Figure FDA0002402138550000023
式(1)中:
β和β'是狄利克雷分布的超参数;
S202、对于每个用户的文本m∈{1,2,...,M},按照公式(2)建立文本-主题分布,用向量
Figure FDA0002402138550000024
表示;
Figure FDA0002402138550000025
式(2)中:
α是狄利克雷分布的超参数;
Figure FDA0002402138550000026
表示用户文本m中对应的主题分布,服从参数为α的狄利克雷分布;
S203、基于文本的主题分布,利用公式(3)生成主题-单词分布;
Figure FDA0002402138550000027
Figure FDA0002402138550000028
式(3)中:
Figure FDA0002402138550000031
服从参数为γ,γ'的Beta分布,用于选择主题-单词分布,
Figure FDA0002402138550000032
Figure FDA0002402138550000033
构成Beta-Multinomial共轭;
cmn是二元指示变量,服从伯努利分布,决定主题-单词分布的超参数,
Figure FDA0002402138550000034
式(4)中,
zmn服从多项式分布,表示第m条文本的第n个词的主题编号;
当cmn=1时,表示文本Dm是从主题词分布中生成词wmn的;当cmn=0时,表示文本Dm是从噪声词分布中生成词wmn的。
4.如权利要求3所述的基于社交文本的网络舆情话题识别方法,其特征在于,在S3中,所述根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计,包括:
S301、设计折叠Gibbs采样算法进行近似后验推断,对潜在参数zmn和cmn进行采样,包括:
S30101、基于贝叶斯准则,使用公式(5)计算单词wmn对应主题zmn的后验概率:
Figure FDA0002402138550000035
式(5)中:
z-(mn)指除单词wmn外所有单词对应的主题编号;
Figure FDA0002402138550000036
表示当cmn=1时,单词v被分配到主题k上的次数;
Figure FDA0002402138550000041
表示当cmn=1时,被分配到主题k上的所有单词数;
Figure FDA0002402138550000042
表示第m个用户文本中被分配到主题k上的单词数;
所有带有公式-(mn)的计数均表示去除了单词wmn
γ,γ'表示Beta分布的参数;
S30102、采样二元指示变量cmn,计算条件概率分布,采样二元指示变量cmn,如式(6),二元指示变量cmn是分布选择器,决定了第m篇文本中,生成第n个词所选择的主题词分布;
Figure FDA0002402138550000043
Figure FDA0002402138550000044
式(6)中:
Figure FDA0002402138550000045
表示所有由噪声词分布生成的单词数,去除单词wmn
Figure FDA0002402138550000046
表示所有由主题词分布生成的单词数,去除单词wmn
Figure FDA0002402138550000047
表示噪声词分布生成单词v的次数,去除单词wmn
Figure FDA0002402138550000048
表示噪声词分布生成所有词的次数,去除单词wmn
Figure FDA0002402138550000049
表示c=0时表示所有由噪声词分布生成的单词数,去除单词wmn;c=1时表示所有由主题词分布生成的单词数,去除单词wmn
Figure FDA00024021385500000410
表示cmn=1时,单词v被分配到主题k上的次数,除去单词单词wmn
Figure FDA00024021385500000411
表示噪声词分布生成所有词的次数;
所有带有公式-(mn)的计数均表示去除了单词wmn
S302、为S301中两个潜在参数zmn和cmn随机初始化值;
S303、按照S301中的样公式(5)(6)依次采样,更新潜在参数zmn和cmn的值;
S304、将步骤S303重复I0次,完成网络舆情话题识别模型中潜在参数的更新,I0是迭代次数。
5.如权利要求1所述的基于社交文本的网络舆情话题识别方法,其特征在于,在S4中,所述基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题,包括:
基于所述潜在参数的值更新文本集合中的各个参数的值,根据各个参数的值计算文本集合文本文本-主题分布,主题-主题词分布,是主题-噪声词分布,计算公式如下:
Figure FDA0002402138550000051
Figure FDA0002402138550000052
Figure FDA0002402138550000053
式(7)(8)(9)中:
θmk表示文本-主题分布;
φkv表示主题-主题词分布;
φ′v表示主题-噪声词分布;
Nm表示第m个用户文本中的单词数;
K表示文本集合D中的主题个数;
V表示文本Dm中的不同词的数量;
Figure FDA0002402138550000061
表示第m个用户文本中被分配到主题k上的单词数;
Figure FDA0002402138550000062
表示当c=1时,单词v被分配到主题k上的次数;
Figure FDA0002402138550000063
表示当c=1时,被分配到主题k上的所有单词数;
Figure FDA0002402138550000064
表示噪声词分布生成单词v的次数;
Figure FDA0002402138550000065
表示噪声词分布生成所有词的次数;
α表示狄利克雷分布的超参数;
β和β'表示狄利克雷分布的超参数;
通过Gibbs采样算法获取文本集合中每个单词对应每个主题的概率,确定文本对应的主题,实现网络舆情话题的发现。
6.一种基于社交文本的网络舆情话题识别系统,其特征在于,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、获取多个用户的社交媒体数据的文本集合,并确定所述文本集合的主题数量;
S2、基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词;
S3、根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计;
S4、基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题。
7.如权利要求6所述的基于社交文本的网络舆情话题识别系统,其特征在于,在S1中,所述获取社交媒体数据的文本集合,并确定所述文本集合的主题数量,包括:
S101、获取|M|条社交文本构成的文本集合D,记为
Figure FDA0002402138550000071
|M|表示文本集合D中的文本数量,一个用户对应一条文本;
S102、对所述文本集合D进行预处理;
S103、基于预处理后的文本集合D建立向量
Figure FDA0002402138550000072
1≤i≤Nm,用来表示集合D中的第m个用户的文本;Dmn表示第m个用户文本中的第n个词,Nm表示第m个用户文本中的单词数,V表示文本Dm中的不同词的数量,用v∈{1,2,...,V}作为不同词的索引;
S104、确定文本集合D中的主题个数K。
8.如权利要求7所述的基于社交文本的网络舆情话题识别系统,其特征在于,在S2中,所述基于有参贝叶斯模型、所述文本集合和所述文本集合的主题数量获取主题-单词分布、文本-主题分布和网络舆情话题识别模型,其中单词包括生成词中的主题词和生成词的噪声词,包括:
S201、基于文本集合D中的K个主题,按照公式(1)进行采样从单词V的狄利克雷分布β中抽取主题k∈{1,2,...,K}的主题词分布
Figure FDA0002402138550000073
和噪声词分布
Figure FDA0002402138550000074
Figure FDA0002402138550000075
式(1)中:
β和β'是狄利克雷分布的超参数;
S202、对于每个用户的文本m∈{1,2,...,M},按照公式(2)建立文本-主题分布,用向量
Figure FDA0002402138550000081
表示;
Figure FDA0002402138550000082
式(2)中:
α是狄利克雷分布的超参数;
Figure FDA0002402138550000083
表示用户文本m中对应的主题分布,服从参数为α的狄利克雷分布;
S203、基于文本的主题分布,利用公式(3)生成主题-单词分布;
Figure FDA0002402138550000084
Figure FDA0002402138550000085
式(3)中:
Figure FDA0002402138550000086
服从参数为γ,γ'的Beta分布,用于选择主题-单词分布,
Figure FDA0002402138550000087
Figure FDA0002402138550000088
构成Beta-Multinomial共轭;
cmn是二元指示变量,服从伯努利分布,决定主题-单词分布的超参数,
Figure FDA0002402138550000089
式(4)中,
zmn服从多项式分布,表示第m条文本的第n个词的主题编号;
当cmn=1时,表示文本Dm是从主题词分布中生成词wmn的;当cmn=0时,表示文本Dm是从噪声词分布中生成词wmn的。
9.如权利要求8所述的基于社交文本的网络舆情话题识别系统,其特征在于,在S3中,所述根据贝叶斯准则使用Gibbs采样算法对所述网络舆情话题识别模型中的潜在参数进行参数估计,包括:
S301、设计折叠Gibbs采样算法进行近似后验推断,对潜在参数zmn和cmn进行采样,包括:
S30101、基于贝叶斯准则,使用公式(5)计算单词wmn对应主题zmn的后验概率:
Figure FDA0002402138550000091
式(5)中:
z-(mn)指除单词wmn外所有单词对应的主题编号;
Figure FDA0002402138550000092
表示当cmn=1时,单词v被分配到主题k上的次数;
Figure FDA0002402138550000093
表示当cmn=1时,被分配到主题k上的所有单词数;
Figure FDA0002402138550000094
表示第m个用户文本中被分配到主题k上的单词数;
所有带有公式-(mn)的计数均表示去除了单词wmn
γ,γ'表示Beta分布的参数;
S30102、采样二元指示变量cmn,计算条件概率分布,采样二元指示变量cmn,如式(6),二元指示变量cmn是分布选择器,决定了第m篇文本中,生成第n个词所选择的主题词分布;
Figure FDA0002402138550000101
Figure FDA0002402138550000102
式(6)中:
Figure FDA0002402138550000103
表示所有由噪声词分布生成的单词数,去除单词wmn
Figure FDA0002402138550000104
表示所有由主题词分布生成的单词数,去除单词wmn
Figure FDA0002402138550000105
表示噪声词分布生成单词v的次数,去除单词wmn
Figure FDA0002402138550000106
表示噪声词分布生成所有词的次数,去除单词wmn
Figure FDA0002402138550000107
表示c=0时表示所有由噪声词分布生成的单词数,去除单词wmn;c=1时表示所有由主题词分布生成的单词数,去除单词wmn
Figure FDA0002402138550000108
表示cmn=1时,单词v被分配到主题k上的次数,除去单词单词wmn
Figure FDA0002402138550000109
表示噪声词分布生成所有词的次数;
所有带有公式-(mn)的计数均表示去除了单词wmn
S302、为S301中两个潜在参数zmn和cmn随机初始化值;
S303、按照S301中的样公式(5)(6)依次采样,更新潜在参数zmn和cmn的值;
S304、将步骤S303重复I0次,完成网络舆情话题识别模型中潜在参数的更新,I0是迭代次数。
10.如权利要求6所述的基于社交文本的网络舆情话题识别方法,其特征在于,在S4中,所述基于所述潜在参数的值获取所述文本集合中文本-主题分布,主题-主题词分布,主题-噪声词分布,确定网络舆情话题,包括:
基于所述潜在参数的值更新文本集合中的各个参数的值,根据各个参数的值计算文本集合文本文本-主题分布,主题-主题词分布,是主题-噪声词分布,计算公式如下:
Figure FDA0002402138550000111
Figure FDA0002402138550000112
Figure FDA0002402138550000113
式(7)(8)(9)中:
θmk表示文本-主题分布;
φkv表示主题-主题词分布;
φ′v表示主题-噪声词分布;
Nm表示第m个用户文本中的单词数;
K表示文本集合D中的主题个数;
V表示文本Dm中的不同词的数量;
Figure FDA0002402138550000114
表示文本集合m中被分配到主题k上的单词数;
Figure FDA0002402138550000115
表示当c=1时,单词v被分配到主题k上的次数;
Figure FDA0002402138550000116
表示当c=1时,被分配到主题k上的所有单词数;
Figure FDA0002402138550000117
表示噪声词分布生成单词v的次数;
Figure FDA0002402138550000118
表示噪声词分布生成所有词的次数;
α表示狄利克雷分布的超参数;
β和β'表示狄利克雷分布的超参数;
通过Gibbs采样算法获取文本集合中每个单词对应每个主题的概率,确定文本对应的主题,实现网络舆情话题的发现。
CN202010150112.0A 2020-03-06 2020-03-06 基于社交文本的网络舆情话题识别方法和系统 Active CN111506785B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010150112.0A CN111506785B (zh) 2020-03-06 2020-03-06 基于社交文本的网络舆情话题识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010150112.0A CN111506785B (zh) 2020-03-06 2020-03-06 基于社交文本的网络舆情话题识别方法和系统

Publications (2)

Publication Number Publication Date
CN111506785A true CN111506785A (zh) 2020-08-07
CN111506785B CN111506785B (zh) 2023-07-07

Family

ID=71877658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010150112.0A Active CN111506785B (zh) 2020-03-06 2020-03-06 基于社交文本的网络舆情话题识别方法和系统

Country Status (1)

Country Link
CN (1) CN111506785B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069394A (zh) * 2020-08-14 2020-12-11 上海风秩科技有限公司 文本信息的挖掘方法及装置
CN112100518A (zh) * 2020-09-21 2020-12-18 之江实验室 一种考虑用户在线关系网络的舆情主题发现方法
CN114003815A (zh) * 2021-11-04 2022-02-01 之江实验室 一种网络舆情主题及其关注用户群体的发现方法
CN116386895A (zh) * 2023-04-06 2023-07-04 之江实验室 基于异构图神经网络的流行病舆情实体识别方法与装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100125540A1 (en) * 2008-11-14 2010-05-20 Palo Alto Research Center Incorporated System And Method For Providing Robust Topic Identification In Social Indexes
US20130124437A1 (en) * 2011-11-16 2013-05-16 Marco Pennacchiotti Social media user recommendation system and method
US20140129510A1 (en) * 2011-07-13 2014-05-08 Huawei Technologies Co., Ltd. Parameter Inference Method, Calculation Apparatus, and System Based on Latent Dirichlet Allocation Model
US20150193482A1 (en) * 2014-01-07 2015-07-09 30dB, Inc. Topic sentiment identification and analysis
US20170124174A1 (en) * 2015-10-29 2017-05-04 Qualtrics, Llc Organizing survey text responses
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN107798043A (zh) * 2017-06-28 2018-03-13 贵州大学 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法
CN107808008A (zh) * 2017-11-17 2018-03-16 合肥工业大学 一种考虑用户特征信息的主题‑情感联合建模方法
US20180293505A1 (en) * 2017-04-06 2018-10-11 Universite Paris Descartes Method for clustering nodes of a textual network taking into account textual content, computer-readable storage device and system implementing said method
CN110046228A (zh) * 2019-04-18 2019-07-23 合肥工业大学 短文本主题识别方法和系统
CN110457711A (zh) * 2019-08-20 2019-11-15 电子科技大学 一种基于主题词的社交媒体事件主题识别方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100125540A1 (en) * 2008-11-14 2010-05-20 Palo Alto Research Center Incorporated System And Method For Providing Robust Topic Identification In Social Indexes
US20140129510A1 (en) * 2011-07-13 2014-05-08 Huawei Technologies Co., Ltd. Parameter Inference Method, Calculation Apparatus, and System Based on Latent Dirichlet Allocation Model
US20130124437A1 (en) * 2011-11-16 2013-05-16 Marco Pennacchiotti Social media user recommendation system and method
US20150193482A1 (en) * 2014-01-07 2015-07-09 30dB, Inc. Topic sentiment identification and analysis
US20170124174A1 (en) * 2015-10-29 2017-05-04 Qualtrics, Llc Organizing survey text responses
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
US20180293505A1 (en) * 2017-04-06 2018-10-11 Universite Paris Descartes Method for clustering nodes of a textual network taking into account textual content, computer-readable storage device and system implementing said method
CN107798043A (zh) * 2017-06-28 2018-03-13 贵州大学 基于狄利克雷多项混合模型的长文本辅助短文本的文本聚类方法
CN107808008A (zh) * 2017-11-17 2018-03-16 合肥工业大学 一种考虑用户特征信息的主题‑情感联合建模方法
CN110046228A (zh) * 2019-04-18 2019-07-23 合肥工业大学 短文本主题识别方法和系统
CN110457711A (zh) * 2019-08-20 2019-11-15 电子科技大学 一种基于主题词的社交媒体事件主题识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩肖?;侯再恩;孙绵;: "主题模型在短文本上的应用研究", no. 01 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069394A (zh) * 2020-08-14 2020-12-11 上海风秩科技有限公司 文本信息的挖掘方法及装置
CN112069394B (zh) * 2020-08-14 2023-09-29 上海风秩科技有限公司 文本信息的挖掘方法及装置
CN112100518A (zh) * 2020-09-21 2020-12-18 之江实验室 一种考虑用户在线关系网络的舆情主题发现方法
CN112100518B (zh) * 2020-09-21 2023-11-28 之江实验室 一种考虑用户在线关系网络的舆情主题发现方法
CN114003815A (zh) * 2021-11-04 2022-02-01 之江实验室 一种网络舆情主题及其关注用户群体的发现方法
CN114003815B (zh) * 2021-11-04 2024-03-29 之江实验室 一种网络舆情主题及其关注用户群体的发现方法
CN116386895A (zh) * 2023-04-06 2023-07-04 之江实验室 基于异构图神经网络的流行病舆情实体识别方法与装置
CN116386895B (zh) * 2023-04-06 2023-11-28 之江实验室 基于异构图神经网络的流行病舆情实体识别方法与装置

Also Published As

Publication number Publication date
CN111506785B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
Xu et al. Curriculum learning for natural language understanding
CN111506785A (zh) 基于社交文本的网络舆情话题识别方法和系统
CN110647626B (zh) 基于互联网服务域的rest数据服务聚类方法
Rajamohana et al. An effective hybrid cuckoo search with harmony search for review spam detection
Balli et al. Sentimental analysis of Twitter users from Turkish content with natural language processing
CN114048729A (zh) 医学文献评价方法、电子设备、存储介质和程序产品
CN112100518B (zh) 一种考虑用户在线关系网络的舆情主题发现方法
CN110209962B (zh) 主题层次高影响力用户的获取方法和系统
Joung et al. Importance-performance analysis of product attributes using explainable deep neural network from online reviews
CN111090995B (zh) 短文本主题识别方法和系统
CN116304728A (zh) 一种基于句子表征的短文本相似度匹配方法及应用
Razeen et al. Predicting movie success using regression techniques
CN114861004A (zh) 一种社交事件检测方法、装置及系统
Agarwal et al. Performance Analysis of Various Machine Learning Classification Models Using Twitter Data: National Education Policy
Van de Guchte et al. Near real-time detection of misinformation on online social networks
CN110084710B (zh) 确定消息主题的方法及装置
Siddiqui et al. An ensemble approach for the identification and classification of crime tweets in the English language
Balbi et al. A two-step strategy for improving categorisation of short texts
Ding et al. A vectorization approach to language identification of social media short texts
Dhanya et al. Comparative performance of machine learning algorithms in detecting offensive speech in malayalam-english code-mixed data
Wen et al. Blockchain-based reviewer selection
Wang et al. A novel feature-based text classification improving the accuracy of twitter sentiment analysis
Rafdi et al. Sentiment Analysis Using Naive Bayes Algorithm with Feature Selection Particle Swarm Optimization (PSO) and Genetic Algorithm
CN114003815B (zh) 一种网络舆情主题及其关注用户群体的发现方法
CN113836292B (zh) 生物医学文献摘要的结构化方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant