CN112115327B - 一种基于主题模型的舆情新闻事件跟踪方法 - Google Patents
一种基于主题模型的舆情新闻事件跟踪方法 Download PDFInfo
- Publication number
- CN112115327B CN112115327B CN202010141439.1A CN202010141439A CN112115327B CN 112115327 B CN112115327 B CN 112115327B CN 202010141439 A CN202010141439 A CN 202010141439A CN 112115327 B CN112115327 B CN 112115327B
- Authority
- CN
- China
- Prior art keywords
- topic
- public opinion
- distribution
- news
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000009826 distribution Methods 0.000 claims abstract description 75
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000010276 construction Methods 0.000 claims abstract description 5
- 238000005070 sampling Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 12
- 238000011161 development Methods 0.000 claims description 10
- 230000018109 developmental process Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000009193 crawling Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000007476 Maximum Likelihood Methods 0.000 claims description 2
- 238000013459 approach Methods 0.000 claims description 2
- 230000001174 ascending effect Effects 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 230000010354 integration Effects 0.000 claims description 2
- 238000009827 uniform distribution Methods 0.000 claims description 2
- BZLVMXJERCGZMT-UHFFFAOYSA-N Methyl tert-butyl ether Chemical compound COC(C)(C)C BZLVMXJERCGZMT-UHFFFAOYSA-N 0.000 claims 1
- 230000008602 contraction Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000011160 research Methods 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000630 rising effect Effects 0.000 description 2
- 241000135164 Timea Species 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000855 fermentation Methods 0.000 description 1
- 230000004151 fermentation Effects 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 101150011264 setB gene Proteins 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于主题模型的舆情新闻事件跟踪方法。针对舆情新闻的稀疏性、时序性、易演化性等特点,给出了一种舆情主题模型MBTM(Minority Biterm Topic Model)的构建方法,然后利用MBTM对舆情新闻数据进行建模、推断隐含主题,进一步设置时间节点,在每个时间节点上对主题‑词分布进行采样,获取对应主题中的词项,再利用JS散度和主题强度两个指标挖掘主题演化轨迹,完成对特定舆情新闻事件的在线跟踪。本发明在构建MBTM的过程中,使用了一种基于随机更新思想的近似推断方法来更新参数,从而能够精确、高效的实现舆情新闻事件追踪,也为特定领域新闻事件跟踪技术提供参考。
Description
技术领域
本发明公开了一种基于主题模型的舆情新闻事件跟踪方法,涉及基于主题模型对舆情新闻事件进行隐含主题推断,以及利用JS散度和主题强度进行舆情新闻主题演化轨迹挖掘,实现舆情新闻事件跟踪的方法,属于知识发现领域。
背景技术
新闻主题检测与跟踪技术是信息处理领域中备受关注的研究热点,其任务是在事件发展初期将新闻媒体信息流作为研究对象,通过监控新闻描述的主题,发现新闻潜在信息并跟踪下去,最后将涉及某个主题的新闻组织起来以新闻线索的方式呈现给用户。随着社交媒体的快速发展,在社交媒体文本内容中利用主题模型进行主题演化跟踪,成为近年来研究的热点,该领域的研究有助于跟踪主题的发展趋势,对突发事件应急监测等实际应用都有重要的指导作用。已有许多公知的新闻主题跟踪方法,例如:庄锅冕等(<专利CN106599181B>,2019)将LDA主题模型应用在新闻热点检测中;李心舒等(<北京邮电大学硕士论文>,2019)结合新闻热点主题特点和大数据处理平台优势,设计并实现了基于Spark的多领域网络新闻热点挖掘系统,有效提升了新闻热点挖掘与跟踪的性能;车蕾(<国防科技大学学报>,2017)提出基于多特征融合文本聚类的新闻主题发现模型。这些方法针对一般新闻数据源能完成新闻主题跟踪任务。但针对特定领域的新闻数据,仍需要提供相应的新闻事件跟踪方法。
随着我国文化战略的深入推进和新媒体的不断发展,围绕舆情新闻获取、分析与利用的研究不断增多。例如:赵倩等(<中央民族大学硕士论文>,2016)在藏汉可比语料的基础上构建LDA主题模型,对样本新闻文本的主题进行推断,实现对特定新闻事件相关主题的热度及趋势发展的跟踪;高璐等(<中央民族大学硕士论文>,2017)利用LDA对源语言或者目标语言文档进行独立主体建模,从而进行藏汉跨语言信息检索的查询扩展;孙媛等(<中文信息学报>,2017)利用词向量对文本进行语义扩展,进而构建LDA主题模型抽取出藏语和汉语主题,并提出基于4种相似度算法的投票方法来实现藏汉主题的对齐。这些方法对于部分舆情语言文字新闻的舆情监控研究具有一定的参考价值,但是需要对舆情新闻事件进行实时跟踪,才能观察舆情发酵的经过、跟踪事件焦点的演化、分析舆情的脉络。与一般新闻相比,舆情新闻的稀疏性、时序性、易演化性等特点,使得舆情新闻事件跟踪的难度相对较大。
因此,本发明针对舆情新闻事件的特点,以舆情新闻数据和主题模型为基础,以从舆情新闻在线数据流中跟踪事件为目标,给出了一种舆情主题模型MBTM的构建方法,利用MBTM对舆情新闻数据进行建模,进一步设置时间节点,在每个时间节点上对主题-词分布进行采样,获取对应主题中的词项,再利用JS散度和主题强度两个指标挖掘主题演化轨迹,完成对特定舆情新闻事件的在线跟踪。
综上,本发明给出一种基于主题模型的舆情新闻事件跟踪方法,能够更精确和高效地从舆情新闻数据中跟踪事件演化轨迹,也为特定领域新闻事件跟踪提供参考。
发明内容
一、本发明的目的
为解决公知的新闻主题检测与跟踪技术没有考虑舆情新闻特点,不能有效跟踪舆情新闻事件等不足,本发明针对舆情新闻的稀疏性、时序性、易演化性等特点,给出了一种舆情主题模型MBTM的构造方法,通过该模型对舆情新闻数据的隐含主题进行推断。
为解决公知技术无法有效处理舆情新闻事件在线数据流,只能对历史数据进行分析等问题,本发明给出一种基于主题模型的舆情新闻事件跟踪方法,利用MBTM、JS散度和主题强度等技术,挖掘主题演化轨迹,进行舆情新闻事件的在线跟踪。
二、本发明的步骤
本发明的执行过程分为4个步骤。
(1)舆情新闻数据在线获取与预处理:首先选取需要进行跟踪的舆情新闻事件,然后持续地从社交网络和新闻网页上爬取该事件的新闻数据,将在线获取的数据进行预处理,去除停用词并进行分词。
(2)构建MBTM(Minority Biterm Topic Model)并推断舆情新闻事件隐含主题:定义舆情新闻数据词典,提取二元组,给定参数构建MBTM,利用该模型对预处理后的舆情新闻数据进行建模,并推断舆情新闻事件的隐含主题。
(3)舆情新闻事件主题演化轨迹跟踪:设置时间节点,在每个时间节点处对模型当前的主题-词分布进行采样,获取对应主题中的词项。通过观察不同时间节点对应词项的演变,得到特定舆情新闻事件主题的演化轨迹。
(4)基于JS散度和主题强度的舆情新闻事件主题的演化轨迹分析:计算相邻时间节点主题-词分布间的JS散度,衡量特定舆情新闻事件主题在特定时间段内是否发生演化。将舆情新闻事件的主题强度看作该事件主题在上一个时间节点到当前时间节点内被讨论的次数,计算主题在每个时间节点的强度,从而监控舆情新闻事件的发展情况。
具体步骤如下:
1:舆情新闻数据在线获取与预处理
1.1:数据在线获取
选取一个需要进行跟踪的舆情新闻事件,通过新闻网页和社交媒体持续爬取该事件相关报道的新闻数据,记为I={I 1, I 2, ..., I M },其中I j 表示第j条舆情新闻数据,M为获取到的新闻数据的总条数,,I j 表示为三元组(R j , T j , seg_T j ),R j 为新闻I j 的发布时间,T j 为I j 的文字内容,seg_T j 为T j 经预处理后的文字内容。
预处理
1.2.1:从https://github.com/goto456/stopwords获取适用于新闻分类的中文停用词集Stop_words,停用词包括一些应用广泛但无法确定主题的词,例如“的,地,得”和语气助词、副词、介词、连词等。
从https://github.com/fxsjy/jieba获取中文分词组件jieba,对舆情新闻数据的文字内容进行分词处理,分词前先将Stop_words添加到分词工具默认停用词集中,存储去除停用词并分词后的文字内容。
构建MBTM且推断舆情新闻事件隐含主题。
定义舆情新闻数据词典
获取步骤1.2.2预处理后得到的文字内容,将其中包含的全部词项存储在舆情新闻数据词典中,记为W={w 1, w 2, ..., w s }中,词典即为新闻数据中出现的所有词项的集合,其中,S为词典中词项的总数,即词典的大小,词典中没有重复的词项,即。
提取舆情新闻数据中的二元组。
将每条舆情新闻数据作为一个单独的上下文单元,其中任何两个不同的词项构成一个二元组,一个包含3个不同词项的上下文单元将生成3个二元组表示为
(w 1, w 2, w 3) → {(w 1, w 2), (w 2, w 3), (w 1, w 3)} (2-1)
按照式2-1的规则提取每条舆情新闻数据文字内容中的二元组,得到二元组集合,其中,|B|为该集合中二元组的个数,b i 为第i个二元组,,,,和为二元组b i 中的两个词项。二元组的提取过程可以通过对I的一次扫描来完成。
构建MTBM。
用舆情新闻数据词典W中的S个词项来表示K个主题,K为设定的主题总数,,z k 为主题的指示变量,k为主题序号,θ为数据集的主题分布,为主题z k 的主题-词分布,和分别为整个数据集的主题分布和每个主题下的主题-词分布的先验参数。MBTM按照以下生成过程构建:
2.3.1:从参数为α的狄利克雷分布中对所有新闻数据的主题分布θ进行随机采样,从而推断出概率分布中的隐含变量θ、得到具体的概率分布,即有θ~Dir(α),表示为
(2-2)
其中,α是K维参数,α i >0,Γ(x)是Gamma函数,上述过程对应于图2中随机变量间的概率依赖关系。
对每个主题z k ,基于参数为β的狄利克雷分布对每个主题进行随机采样,得到主题-词分布,简称为词项分布,即有~Dir(β)。
对二元组集合中的每个二元组b:基于参数θ的多项式分布,为每个二元组b随机采样一个主题z,即有z~Multinomial(θ)。基于参数的多项式分布对词项w 1(b)和w 2(b)进行随机采样,即有w 1(b), w 2(b)~Multinomial()。
通过MBTM推断舆情新闻事件的隐含主题。
MBTM模型在步骤2.3模型生成过程的基础上,将主题分布θ和每个主题的词项分布通过求边际积分的收缩变分表示方法,从后验分布中去除。收缩变分表示的MBTM图模型如图3所示,只对隐含主题变量z进行推断,z服从于变分多项分布Multinomial(),为该多项式分布的变分参数。舆情新闻事件隐含主题按如下步骤进行推断:
2.4.1:随机初始化N k 和N k,w ,令时间步长t=1,对每个二元组b,更新变分参数。首先对于变分参数,使用变分推断中经常使用的坐标上升法,对变分后验分布的变分下限(Evidence Lower Bound, ELBO)进行最大化,该过程采用零阶近似方法,即在近似时只保留零阶泰勒展开,最终得到的近似更新公式为,从而克服变分期望项的较高计算代价带来的困难:
(2-3)
其中,N k 和N k,w 为表示执行更新和恢复参数所需要的全部数据的统计量,当一个新的二元组b出现时,随机地更新统计量,从而迭代地更新变分参数直至收敛;\b表示统计量计数时要去掉当前二元组b。
基于得到的变分参数,按照公式2-4和2-5估计N k 和N k,w :
(2-4)
(2-5)
2.4.3:按照公式2-6定义Robbins-Monro序列,用来描述当时间步长t改变时,模型在新数据和历史数据之间的权衡,随着步长t的增加,对新数据变得不敏感。τ和κ是Robbins-Monro序列的超参数。
(2-6)
2.4.4:和分别是N k 和N k,w 进行了一次平行坐标上升更新后的无偏估计,描述一个二元组是从二元组集合B中通过均匀分布被抽取出来的。平行坐标上升利用前一时刻的参数进行迭代更新,对剩余参数进行最大似然估计,动态计算局部最优解,以此逼近局部最优解。使用这种估计方法,重新按照公式2-7和2-8来更新N k 和N k,w ,从而得到N k 和N k,w 的更新规则:
(2-7)
(2-8)
2.4.5:更新时间步长t。在N k 和N k,w 的每次更新操作后将时间步长t加1。
在对所有的二元组进行了更新操作后,由于全局参数θ k 和仅与充分统计量N k 、N k,w 和模型参数有关,仅需要更新这些充分统计量,就可以进行全局参数的更新,从而推断出舆情新闻事件的隐含主题分布和主题-词分布。全局参数θ k 和的更新公式如下:
(2-9)
(2-10)
其中,符号“”表示成正比例,N k 和N k,w 表示对整个二元组集合B更新后的样本充分统计量。
舆情新闻事件主题演化轨迹跟踪
3.1:设置时间节点跟踪舆情新闻事件主题的演化轨迹
3.1.1:基于步骤2构建的MBTM,设置时间节点A t (t=1, 2, …, T),时间间隔根据文本更新速度和需观察主题的粒度来设置,通常是时间单位,日、月或者年等的整倍数。
由于MBTM中的参数是实时更新的,因此在每个时间节点采样当前的主题-词分布,并将该分布保存在主题-词向量中。同理,采样每条数据上所有主题的概率分布θ j,k ,并将该分布保存在主题向量Δ j =(θ j,1,θ j,2,...,θ j,K )中。
得出各时间节点下的主题-词分布,获取对应主题中的词项,按词项的概率分布降序排列,用主题在词项上的变化来描述事件主题的演化轨迹。
基于JS散度和主题强度的舆情新闻事件主题的演化轨迹分析
4.1:利用JS散度来度量两个舆情新闻事件主题间的相似度
4.1.1:设定舆情新闻事件主题演化时同一主题在相邻时间节点的相似度阈值。
为了度量同一主题z k 在两个时间节点之间的相似度,读取3.1.2中得到的主题-词向量Λ k,w ,使用公式4-1中的Jensen-Shannon散度(简称JS散度)来计算概率分布的相似度。
(4-1)
其中,和分别为的前一个时间节点和当前时间节点下舆情新闻事件主题z k 中词项w的概率分布,S为词典中词项的总数。
判定舆情新闻事件主题的演化状态。当两个时间节点的舆情新闻事件主题间的JS散度小于阈值时,则判定为主题发生了演化,否则判定为该主题停止演化。进一步形成舆情新闻事件主题演化状态图,横坐标表示时间节点,纵坐标表示节点间主题的JS散度,展示新闻事件主题的演化轨迹。
度量舆情新闻事件的主题强度
将舆情新闻事件的主题强度看作该事件的主题在上一个时间节点到当前时间节点内被讨论的次数,次数多则认为该主题强度高,反之则低。每一条新闻数据上的主题分布以概率形式给出,首先确定一条舆情新闻最有可能属于的主题,然后按如下步骤度量主题强度:
(1)设定两个阈值和,。
(2)读取3.1.2中得到的主题向量Δ j ,将每条数据I j 上所有主题的分布概率和阈值对比,将大于阈值的主题放入候选主题列表。
(3)从候选主题列表中选出概率值最大的主题,即max{θ j,k },将候选主题列表中所有主题的分布概率与相比,大于该值的主题作为新闻数据I j 的主题。
(4)统计前一个时间节点到当前时间节点内所有讨论主题z k 的新闻数据的条数D k ,按公式(4-2)计算主题强度:
(4-2)
其中,为前一个时间节点到当前时间节点内获取的新闻数据的总条数。
(5)在每个时间节点上执行如上操作,即可获得主题在每个节点的强度,进一步形成舆情新闻事件主题强度演化图,横坐标表示时间节点,纵坐标表示主题强度,展示该新闻事件主题强度的演化过程,以监控该舆情新闻事件的发展状况。
具体实施时,可以设定主题总数K为10,狄利克雷先验参数α=1,β=0.01,Robbins-Monro序列的超参数τ=1000和κ=0.8;设定时间节点总数T=5;设定相似度阈值=0.5;设定强度阈值=0.1,=0.5。
三、具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例:“快递机器人进校园”舆情新闻事件跟踪流程分析。
舆情新闻数据在线获取与预处理
1.1:数据在线获取
首先通过新闻网页和社交媒体持续爬取“快递机器人进校园”事件相关报道的新闻数据,获取到的新闻数据的总条数M为50000000条,新闻发布的时间跨度从2019年1月9日到2019年10月23日。
表1 “快递机器人进校园”主题对应的部分数据示例
1.2:预处理
1.2.1:从https://github.com/goto456/stopwords获取适用于新闻分类的中文停用词集Stop_words。
从https://github.com/fxsjy/jieba获取中文分词组件jieba,对舆情新闻数据的文字内容进行分词处理,分词前先将Stop_words添加到分词工具默认停用词集中,将去除停用词并分词后的文字内容存储在seg_T j 中,如表2所示。
表2数据预处理后的结果
2:构建MBTM且推断舆情新闻事件隐含主题
2.1:定义舆情新闻数据词典
获取步骤1.2.2预处理后得到的舆情新闻数据的文字内容,定义舆情新闻数据词典W,词典中词项的总数S=117449。
提取舆情新闻数据中的二元组。
提取每条舆情新闻数据中的二元组,通过对数据一次扫描后得到二元组集合B,集合中二元组的个数|B|=121825490。
构建MTBM。
用舆情新闻数据词典W中的117449个词项来表示K个主题,K为设定的主题总数,在实施例中给定K=10,狄利克雷先验参数α=1,β=0.01。采样主题z~Multinomial(θ),采样主题的词项w 1(b),w 2(b)~Multinomial,使得词项都能分配到相应主题。
通过MBTM推断舆情新闻事件的隐含主题。
随机初始化N k 和N k,w 。令N k =0,N k,w =0,时间步长t=1,在第一个二元组到来时,按照公式2-3更新变分参数:
2.4.2:基于步骤2.4.1得到的变分参数,按照公式2-4和2-5来计算和:
2.4.3:设置Robbins-Monro序列的超参数τ=1000和κ=0.8,按照公式2-6定义Robbins-Monro序列:
2.4.4:重新按照公式2-7和2-8来更新N k 和N k,w :
2.4.5:更新时间步长t。t每次更新时增加1。
对所有的二元组进行2.4.1至2.4.5步的更新操作后,通过公式2-9和2-10来更新全局参数θ k 和:
3:舆情新闻主题演化轨迹跟踪
3.1:设置时间节点跟踪舆情新闻事件主题的演化轨迹
3.1.1:在步骤2构建的MBTM的基础上设置时间节点A t (t=1, 2, …, T),T=5。
在每个时间节点处采样当前的主题-词分布:
将这些概率分布保存在主题-词向量中。
得出各时间节点下的主题-词分布,获取对应主题中的词项,按词项的概率分布降序排列,本实施例选取概率值最大的前10个词项作为该时间节点的主题词项,用主题在词项上的变化来描述事件主题的演化轨迹,结果如表3所示。
表3各时间节点下的主题-词分布的对应词项(前10个)
4:基于JS散度和主题强度的舆情新闻事件主题的演化轨迹分析
4.1:利用JS散度来度量两个舆情新闻事件主题间的相似度
4.1.1:设定快递机器人进校园”这一舆情新闻事件同一主题在相邻时间节点的相似度阈值。
读取3.1.2中得到的主题-词向量Λ k,w ,按照式4-1计算相邻时间节点的JS散度,度量两个时间节点同一主题z k 间的相似性,的计算过程如下:
同理可计算出后4个时间节点间的JS散度值,如表4所示。
表4各时间节点间的JS散度
4.1.3:将每个JS散度值与相似度阈值比较,判断该事件主题的演化状态。
由于,则主题z k 发生演化;
由于,则主题z k 停止演化;
由于,则主题z k 停止演化;
由于,则主题z k 发生演化。
进一步形成如图4所示的事件主题演化状态图,可以发现主题在A 2的主题相似度高于阈值,这与“快递机器人进校园”这一事件主题的出现时间完全一致,其后时间的主题相似度都要低于阈值,与该主题在这段时间内在媒体上传播的趋势相符合,但是在A 5时间节点,主题相似度又出现了超过阈值的情况,说明在这个时期主题与舆论的内容和中心发生了转移。
度量主题强度。
(1)设定两个阈值=0.1,=0.5。
(2)读取3.1.2中得到的主题向量Δ j ,将每条数据I j 上所有主题的分布概率和阈值相比,将大于阈值的主题放入候选主题列表。第一条数据上所有主题的概率分布为:
(3)从上述概率分布可见,大于阈值的主题只有主题z k ,k=1,该主题的概率值为0.1431、高于阈值,因此将该主题放入候选主题列表。对所有数据进行上述操作后,得到最终的候选主题列表。从候选主题列表中选出概率值最大的主题,其分布概率max{θ j,k }为0.1739。将候选主题列表中所有主题的分布概率与相比,按照0.1739*0.5计算得到0.08685,将大于该值的主题作为新闻数据的主题。因此,可得到第一条新闻数据的主题为z k ,k=1,2,3,4,5。
(4)在每两个相邻时间节点内,统计所有讨论主题z k 的新闻数D k 。
统计前一个时间节点到时间节点内讨论主题z k 的新闻数D k =1000。前一个时间节点到时间节点内获取的新闻数据的总条数。按照式4-2计算时间节点上主题z k 的强度,
同理,可计算出主题在每个时间节点的强度,结果如表5所示。
表5各个时间节点的主题强度
进一步根据表5最终形成如图5所示的舆情新闻事件主题强度演化图,可以得知主题在A 1时刻出现,随后强度不断增加,在A 2时刻达到峰值,最后在A 5时刻逐渐消亡,该主题的演化趋势与实际情形相吻合。
四、与现有技术相比本发明具有的优点及积极效果
(1)本发明考虑了舆情新闻的稀疏性、时序性、易演化性等特点,给出了一种舆情主题模型MBTM的构建方法,利用SCVB0算法对主题模型的参数进行更新,与公知的主题模型跟踪方法相比,该方法在保留传统BTM主题模型优势特性的同时,引入在线学习的思想,只需要动态存储少量的舆情新闻数据进行参数更新,无论是大规模舆情新闻事件在线数据流还是小语料库,该方法都能从中实时有效地学习主题,更适合于舆情新闻事件跟踪。
(2)本发明引入时间节点,给出一种基于主题模型的舆情新闻事件跟踪方法,利用MBTM、JS散度和主题强度等技术,有效地挖掘主题演化轨迹,可以较好地应用在舆情新闻事件舆情监控系统中。
(3)本发明提出的舆情新闻事件主题强度计算方法,将舆情新闻事件的强度看作事件主题在上一个时间节点到当前时间节点内被讨论的次数,通过分析主题强度的演化过程,有效监控舆情新闻事件的发展状况。
附图说明:
图1,本发明执行流程图
图2,MBTM图模型
图3,收缩变分表示的MBTM图模型
图4,“快递机器人进校园”事件主题演化状态图
图5,“快递机器人进校园”事件主题强度演化图。
Claims (5)
1.一种舆情新闻事件跟踪方法,其特征在于执行过程分为以下4个步骤:
(1)舆情新闻数据在线获取与预处理:首先选取需要进行跟踪的舆情新闻事件,然后持续地从社交网络和新闻网页上爬取该事件的新闻数据,将在线获取的数据进行预处理,去除停用词并进行分词;
(2)构建MBTM(Minority Biterm Topic Model)并推断舆情新闻事件隐含主题:定义舆情新闻数据词典,提取二元组;给定参数,对新闻数据的主题分布、主题和二元组进行随机采样,重复采样生成过程以此构建MBTM模型,利用该模型对预处理后的舆情新闻数据进行建模,通过求边际积分的收缩变分表示方法推断舆情新闻事件的隐含主题;
(3)舆情新闻事件主题演化轨迹跟踪:设置时间节点,在每个时间节点处对模型当前的主题-词分布进行采样,获取对应主题中的词项,通过观察不同时间节点对应词项的演变,得到特定舆情新闻事件主题的演化轨迹;
(4)基于JS散度和主题强度的舆情新闻事件主题的演化轨迹分析:计算相邻时间节点主题-词分布间的JS散度,衡量特定舆情新闻事件主题在特定时间段内是否发生演化;将舆情新闻事件的主题强度看作该事件主题在上一个时间节点到当前时间节点内被讨论的次数,计算主题在每个时间节点的强度,从而监控舆情新闻事件的发展情况。
2.根据权利要求1所述的方法,特征在于,所述步骤(2)进一步包括以下具体步骤:
2.1:定义舆情新闻数据词典
获取步骤1.2.2预处理后得到的文字内容,将其中包含的全部词项存储在舆情新闻数据词典中,记为W={w1,w2,...,ws}中,词典即为新闻数据中出现的所有词项的集合,其中,S为词典中词项的总数,即词典的大小,词典中没有重复的词项,即wi≠wj(1≤i,j≤S,i≠j);
2.2:提取舆情新闻数据中的二元组
将每条舆情新闻数据作为一个单独的上下文单元,其中任何两个不同的词项构成一个二元组,一个包含3个不同词项的上下文单元将生成3个二元组表示为(w1, w2, w3) →{(w1, w2), (w2, w3), (w1, w3)} (2-1)
按照式2-1的规则提取每条舆情新闻数据文字内容中的二元组,得到二元组集合其中,|B|为该集合中二元组的个数,bi为第i个二元组,1≤i≤|B|,bi=(w1(bi),w2(bi)),w1(bi)和w2(bi)为二元组bi中的两个词项;二元组的提取过程可以通过对I的一次扫描来完成;
2.3:构建MTBM
用舆情新闻数据词典W中的S个词项来表示K个主题,K为设定的主题总数,K≥1,zk为主题的指示变量,k为主题序号(k∈{1,2,...,K}),θ为数据集的主题分布,φk为主题zk的主题-词分布,α(0≤α≤1)和β(0≤β≤1)分别为整个数据集的主题分布和每个主题下的主题-词分布的先验参数,MBTM按照以下生成过程构建:
2.3.1:从参数为α的狄利克雷分布中对所有新闻数据的主题分布θ进行随机采样,从而推断出概率分布中的隐含变量θ、得到具体的概率分布,即有θ~Dir(α),表示为
其中,α是K维参数,αi>0,Γ(x)是Gamma函数;
2.3.2:对每个主题zk,基于参数为β的狄利克雷分布对每个主题进行随机采样,得到主题-词分布φk,简称为词项分布,即有φk~Dir(β);
2.3.3:对二元组集合中的每个二元组b:基于参数θ的多项式分布,为每个二元组b随机采样一个主题z,即有z~Multinomial(θ),基于参数φk的多项式分布对词项w1(b)和w2(b)进行随机采样,即有w1(b),w2(b)~Multinomial(φk);
2.4:通过MBTM推断舆情新闻事件的隐含主题
MBTM模型在步骤2.3模型生成过程的基础上,将主题分布θ和每个主题的词项分布φk通过求边际积分的收缩变分表示方法,从后验分布中去除,只对隐含主题变量z进行推断,z服从于变分多项分布Multinomial(γbk),γbk为该多项式分布的变分参数,舆情新闻事件隐含主题按如下步骤进行推断:
2.4.1:随机初始化Nk和Nk,w,令时间步长t=1,对每个二元组b,更新变分参数γbk,首先对于变分参数γbk,使用变分推断中经常使用的坐标上升法,对变分后验分布的变分下限(Evidence Lower Bound,ELBO)进行最大化,该过程采用零阶近似方法,即在近似时只保留零阶泰勒展开,最终得到γb的近似更新公式为,从而克服变分期望项的较高计算代价带来的困难:
其中,Nk和Nk,w为表示执行更新和恢复参数所需要的全部数据的统计量,当一个新的二元组b出现时,随机地更新统计量,从而迭代地更新变分参数γbk直至收敛;\b表示统计量计数时要去掉当前二元组b;
2.4.2:基于得到的变分参数γbk,按照公式2-4和2-5估计Nk和Nk,w:
2.4.3:按照公式2-6定义Robbins-Monro序列,用来描述当时间步长t改变时,模型在新数据和历史数据之间的权衡,随着步长t的增加,对新数据变得不敏感,τ和κ是Robbins-Monro序列的超参数(τ≥1,0≤κ≤1);
2.4.4:和分别是Nk和Nk,w进行了一次平行坐标上升更新后的无偏估计,描述一个二元组是从二元组集合B中通过均匀分布被抽取出来的,平行坐标上升利用前一时刻的参数γbk进行迭代更新,对剩余参数进行最大似然估计,动态计算局部最优解,以此逼近局部最优解,使用这种估计方法,重新按照公式2-7和2-8来更新Nk和Nk,w,从而得到Nk和Nk,w的更新规则:
2.4.5:更新时间步长t:在Nk和Nk,w的每次更新操作后将时间步长t加1;
2.4.6:在对所有的二元组进行了更新操作后,由于全局参数θk和φk,w仅与充分统计量Nk、Nk,w和模型参数有关,仅需要更新这些充分统计量,就可以进行全局参数的更新,从而推断出舆情新闻事件的隐含主题分布和主题-词分布,全局参数θk和φk,w的更新公式如下:
θk∝Nk+α (2-9)
φk,w∝Nk,w+β (2-10)
其中,符号“∝”表示成正比例,Nk和Nk,w表示对整个二元组集合B更新后的样本充分统计量。
3.根据权利要求1所述的方法,特征在于,所述步骤(3)进一步包括以下具体步骤:
3.1:设置时间节点跟踪舆情新闻事件主题的演化轨迹
3.1.1:基于步骤2构建的MBTM,设置时间节点At(t=1,2,…,T),时间间隔根据文本更新速度和需观察主题的粒度来设置,通常是时间单位,日、月或者年的整倍数;
3.1.2:由于MBTM中的参数是实时更新的,因此在每个时间节点采样当前的主题-词分布并将该分布保存在主题-词向量中;同理,采样每条数据上所有主题的概率分布θj,k,并将该分布保存在主题向量Δj=(θj,1,θj,2,...,θj,K)中;
3.1.3:得出各时间节点下的主题-词分布,获取对应主题中的词项,按词项的概率分布降序排列,用主题在词项上的变化来描述事件主题的演化轨迹。
4.根据权利要求3所述的方法,特征在于,所述步骤(4)进一步包括以下具体步骤:
4.1:利用JS散度来度量两个舆情新闻事件主题间的相似度
4.1.1:设定舆情新闻事件主题演化时同一主题在相邻时间节点的相似度阈值ξ,0≤ξ≤1;
4.1.2:为了度量同一主题zk在两个时间节点之间的相似度,读取3.1.2中得到的主题-词向量Λk,w,使用公式4-1中的Jensen-Shannon散度(简称JS散度)来计算概率分布的相似度;
其中,和分别为At的前一个时间节点和当前时间节点下舆情新闻事件主题zk中词项w的概率分布,S为词典中词项的总数;
4.1.3:判定舆情新闻事件主题的演化状态:当两个时间节点的舆情新闻事件主题间的JS散度小于阈值ξ(0≤ξ≤1)时,则判定为主题发生了演化,否则判定为该主题停止演化;进一步形成舆情新闻事件主题演化状态图,横坐标表示时间节点,纵坐标表示节点间主题的JS散度,展示新闻事件主题的演化轨迹;
4.2:度量舆情新闻事件的主题强度
将舆情新闻事件的主题强度看作该事件的主题在上一个时间节点到当前时间节点内被讨论的次数,次数多则认为该主题强度高,反之则低,每一条新闻数据上的主题分布以概率形式给出,首先确定一条舆情新闻最有可能属于的主题,然后按如下步骤度量主题强度:
(1)设定两个阈值λ和μ,0≤λ≤1,0≤μ≤1;
(2)读取3.1.2中得到的主题向量Δj,将每条数据Ij上所有主题的分布概率θj,k(k∈{1,2,...,K})和阈值λ对比,将大于阈值λ的主题放入候选主题列表;
(3)从候选主题列表中选出概率值最大的主题,即max{θj,k},将候选主题列表中所有主题的分布概率与μ*max{θj,k}相比,大于该值的主题作为新闻数据Ij的主题;
(4)统计前一个时间节点到当前时间节点内所有讨论主题zk的新闻数据的条数Dk,按公式(4-2)计算主题强度:
其中,为前一个时间节点到当前时间节点At内获取的新闻数据的总条数;
(5)在每个时间节点上执行如上操作,即可获得主题在每个节点的强度,进一步形成舆情新闻事件主题强度演化图,横坐标表示时间节点,纵坐标表示主题强度,展示该新闻事件主题强度的演化过程,以监控该舆情新闻事件的发展状况。
5.根据权利要求2,3或4所述的方法,特征在于:
步骤2.4中,设定主题总数K为10,狄利克雷先验参数α=1,β=0.01,Robbins-Monro序列的超参数τ=1000和κ=0.8;
步骤3.1.1设定时间节点总数T=5;
步骤4.1.1设定相似度阈值ξ=0.5;
步骤4.2设定强度阈值λ=0.1,μ=0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010141439.1A CN112115327B (zh) | 2020-03-04 | 2020-03-04 | 一种基于主题模型的舆情新闻事件跟踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010141439.1A CN112115327B (zh) | 2020-03-04 | 2020-03-04 | 一种基于主题模型的舆情新闻事件跟踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112115327A CN112115327A (zh) | 2020-12-22 |
CN112115327B true CN112115327B (zh) | 2023-10-20 |
Family
ID=73798746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010141439.1A Active CN112115327B (zh) | 2020-03-04 | 2020-03-04 | 一种基于主题模型的舆情新闻事件跟踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112115327B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139389B (zh) * | 2021-04-29 | 2023-01-13 | 南宁师范大学 | 基于动态优化的图模型语义查询扩展方法和装置 |
CN113269272B (zh) * | 2021-04-30 | 2024-10-15 | 清华大学 | 用于人工智能文本分析的模型训练方法及相关设备 |
CN113360647B (zh) * | 2021-06-03 | 2022-08-26 | 云南大学 | 一种基于聚类的5g移动业务投诉溯源分析方法 |
CN114707517B (zh) * | 2022-04-01 | 2024-05-03 | 中国人民解放军国防科技大学 | 一种基于开源数据事件抽取的目标跟踪方法 |
CN118070786B (zh) * | 2024-02-27 | 2024-10-15 | 中国医学科学院医学信息研究所 | 一种主题监测方法、装置、电子设备和可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201210661D0 (en) * | 2012-06-15 | 2012-08-01 | Qatar Foundation | Unsupervised cross-media summarization from news and twitter |
CN104933622A (zh) * | 2015-03-12 | 2015-09-23 | 中国科学院计算技术研究所 | 一种基于用户和微博主题的微博流行度预测方法及系统 |
WO2017035922A1 (zh) * | 2015-09-02 | 2017-03-09 | 杨鹏 | 一种基于改进lda模型的互联网话题在线挖掘方法 |
CN109871434A (zh) * | 2019-02-25 | 2019-06-11 | 内蒙古工业大学 | 一种基于动态增量式的概率图模型的舆情演化跟踪方法 |
-
2020
- 2020-03-04 CN CN202010141439.1A patent/CN112115327B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201210661D0 (en) * | 2012-06-15 | 2012-08-01 | Qatar Foundation | Unsupervised cross-media summarization from news and twitter |
CN104933622A (zh) * | 2015-03-12 | 2015-09-23 | 中国科学院计算技术研究所 | 一种基于用户和微博主题的微博流行度预测方法及系统 |
WO2017035922A1 (zh) * | 2015-09-02 | 2017-03-09 | 杨鹏 | 一种基于改进lda模型的互联网话题在线挖掘方法 |
CN109871434A (zh) * | 2019-02-25 | 2019-06-11 | 内蒙古工业大学 | 一种基于动态增量式的概率图模型的舆情演化跟踪方法 |
Non-Patent Citations (1)
Title |
---|
刘玉文 ; 郭强 ; 吴宣够 ; 张钰 ; .基于TSSCM模型的新闻舆情演化识别.情报杂志.2017,(02),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN112115327A (zh) | 2020-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112115327B (zh) | 一种基于主题模型的舆情新闻事件跟踪方法 | |
Abrishami et al. | Predicting citation counts based on deep neural network learning techniques | |
Du et al. | Extracting and tracking hot topics of micro-blogs based on improved Latent Dirichlet Allocation | |
CN109036577B (zh) | 糖尿病并发症分析方法及装置 | |
Jiang et al. | Pre-training on large-scale heterogeneous graph | |
CN108717408A (zh) | 一种敏感词实时监控方法、电子设备、存储介质及系统 | |
Cochez et al. | Twister tries: Approximate hierarchical agglomerative clustering for average distance in linear time | |
Chang et al. | Timeline Summarization from Social Media with Life Cycle Models. | |
Singh et al. | Monte Carlo MCMC: Efficient inference by approximate sampling | |
MA Basher et al. | Analyzing topics and authors in chat logs for crime investigation | |
CN113962293A (zh) | 一种基于LightGBM分类与表示学习的姓名消歧方法和系统 | |
Du | Automatic text classification algorithm based on Gauss improved convolutional neural network | |
Lubis et al. | Classifying news based on Indonesian news using LightGBM | |
Zou et al. | An improved fast shapelet selection algorithm and its application to pervasive EEG | |
Fan et al. | Large margin nearest neighbor embedding for knowledge representation | |
CN115496075A (zh) | 基于超图神经网络的生物医学事件触发词提取方法与系统 | |
Şapcı et al. | Focusing on potential named entities during active label acquisition | |
Chhikara et al. | Classification of cyber hate speech from social networks using machine learning | |
Fan et al. | Research and application of automated search engine based on machine learning | |
Tang et al. | An integrated classification model for massive short texts with few words | |
Perwira et al. | Effect of information gain on document classification using k-nearest neighbor | |
Chen et al. | A preprocess algorithm of filtering irrelevant information based on the minimum class difference | |
Ates et al. | Graph-SeTES: A graph based search task extraction using Siamese network | |
Niu et al. | Short text similarity computation method based on feature expansion and Siamese network | |
Davari et al. | Model breadcrumbs: Scalable upcycling of finetuned foundation models via sparse task vectors merging |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |