CN103984681A - 基于时序分布信息和主题模型的新闻事件演化分析方法 - Google Patents

基于时序分布信息和主题模型的新闻事件演化分析方法 Download PDF

Info

Publication number
CN103984681A
CN103984681A CN201410127095.3A CN201410127095A CN103984681A CN 103984681 A CN103984681 A CN 103984681A CN 201410127095 A CN201410127095 A CN 201410127095A CN 103984681 A CN103984681 A CN 103984681A
Authority
CN
China
Prior art keywords
theme
event
subclass
document
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410127095.3A
Other languages
English (en)
Other versions
CN103984681B (zh
Inventor
王俊丽
王志成
赵卫东
王坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201410127095.3A priority Critical patent/CN103984681B/zh
Publication of CN103984681A publication Critical patent/CN103984681A/zh
Application granted granted Critical
Publication of CN103984681B publication Critical patent/CN103984681B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明“基于时序分布信息和主题模型的新闻事件演化分析方法”,涉及文本分析领域。首先通过分析新闻报道在时间序列上表现出来的分布特征,并利用K-Means聚类算法,将语料库按时间划分成几个子语料库;然后利用主题模型依次对每个子语料库进行主题建模,通过Gibbs抽样的方法将模型学习出来,得到每个子语料的主题分布信息;最后通过计算相邻子语料库中两两主题之间的Jensen-Shannon距离,取距离最小的主题串联起来,被串联起来的主题便是该事件的主主题,每个子语料中除了主主题之外的辅助主题,便是该事件在各个阶段的关注点和新的发展。能更好地刻画新闻预料中事件发展的主线以及在各个阶段爆发出来的新的关注点。

Description

基于时序分布信息和主题模型的新闻事件演化分析方法
技术领域
本发明涉及文本分析领域,特别涉及到一种新闻事件主题演化分析的方法。
背景技术
互联网时代,信息以爆炸式的速度增长,但是寻找自己真正需要的信息却变得越来越困难,因此,我们需要新的方法来帮助我们组织和理解这些庞大的信息。主题模型作为一种可以自动组织、理解、搜索和概括大规模电子文档的方法,能够用于挖掘隐藏在文档集合中的主题信息,然后根据文档的主题进行标记,最后可以根据标记来组织、概括和搜索文本。
主题模型(Topic Models)的基本思想是,一个文档是由多个主题混合而成的,而主题是在词库上的一个概率分布。主题模型是一个生成式模型,为了生成一个文档,首先选择一个主题的概率分布,然后对于文档的每个词,根据主题的概率分布随机的选择一个主题,并从该主题中选择一个词。利用统计学的一个方法,我们可以推理出生成该文档集合的主题集合。
主题模型的起源是隐性语义索引(Latent Semantic Indexing,LSI)。LSI并不是概率模型,因此也算不上一个主题模型,但是其基本思想为主题模型的发展奠定了基础。在LSI基础上,Hofmann(1999;2001)提出了pLSI(Probabilistic LatentSemantic Indexing)模型,但pLSI并没有用一个概率模型来模拟文档的产生,只是通过对训练集种的有限文档进行拟合,得到特定文档的主题混合比例。这样就导致了pLSI模型参数随着训练集中的文档数目线性增加,出现过拟合现象,而且对于训练集以外的文档很难分配合适的概率。2003年,Blei等人pLSI基础上加以扩展,提出了LDA(Latent Dirichlet Allocation)模型。LDA模型用服从Drichlet分布的K维隐含随机变量表示文档的主题混合比例,来模拟文档的产生。Dirchlet分布作为多项分布的共轭先验,很好的简化了统计推理问题。
但是LDA模型假设语料库中的所有文档是可交换的,但是在许多实际的语料中,该假设并不合适,如学术期刊,邮件,新闻等等的内容,都是随着时间不断演化的。为了显示地描述和发现主题的动态变化情况,2006年Blei和Lafferty又提出了DTM(Dynamic Topic Model)。在DTM模型中,作者按时间片对文档集合进行划分,然后分别对每个时间片内地文档用LDA模型进行建模,而时间片t的主题是从时间片t-1的主题进化而来的。
但是DTM模型中,每个时间片内的主题数是确定的,并且所有的主题都是由第一个时间片内的主题演变而来,因此该模型比较适合大规模的涵盖多个主题的语料库,这样的情况下,DTM模型能够很好的跟踪每个主题,如何从第一个时间片一步一步演变到最后一个时间片。对于只包含特定新闻事件的语料库,DTM很难发现后续时间片内事件的新变化。
发明内容
本发明目的在于克服现有技术的不足,公开一种基于时序分布信息和主题模型的新闻事件演化分析方法,本发明方法将主题模型应用到新闻事件的主题跟踪和演化分析,同时结合新闻报道在时序上表现出的分布信息,改进主题模型在新闻事件跟踪和演化分析的效果,以更好获取新闻事件发展脉络。
本发明方法技术方案概括为:首先通过分析新闻报道在时间序列上表现出来的分布特征,并利用K-Means聚类算法,将语料库按时间划分成几个子语料库;然后利用主题模型(LDA)依次对每个子语料库进行主题建模,通过Gibbs抽样的方法可以将模型学习出来,得到每个子语料的主题分布信息;最后通过计算相邻子语料库中两两主题之间的Jensen-Shannon距离,取距离最小的主题串联起来,被串联起来的主题便是该事件的主主题,每个子语料中除了主主题之外的辅助主题,便是该事件在各个阶段的关注点和新的发展。
上述技术方案,具体包括实施步骤:
(1)文档时序分析。通过遍历某一事件相关报道的文档集合,生成报道在时间上的分布信息,即每天各有多少数量的相关报道,并在二维空间绘制分布图,横轴表示时间,纵轴表示数量;
(2)通过自适应的K-Means算法,将(1)获得分布数据进行聚类分析,从而将该事件相关报道的文档集合划分成多个子集合,每个子集合拥有不同的时间跨度,并且在时间上拥有连续性,即前一个子集合的结束时间是下一个子集合的开始时间;
(3)文档预处理,构建新闻演化分析的语料库。给定关于某一事件的相关报道的文档集合,通过词性标注仅保留名词(包括专有名词)、动词(及其变形)、形容词(及其变形),去掉停用词等处理,获取文档集合中的有效词作为语料库;
(4)词典和文档矩阵构建。基于(3)获得的语料库,构建语料库词典,给每个唯一词编号,并用该编号构建文档-词的矩阵,文档矩阵中每一行记录文档中出现的所有词;
(5)模型构建和推导。基于(2)的划分,分别对每个子集合的构建LDA主题模型,并通过Gibbs抽样算法,推导出每个子集合内的文档-主题分布,以及主题-词分布;
(6)绘制主题演化图,发现主主题。基于(5)获得的分布信息,分别计算各个相邻子集合内的主题相似度,并将各相邻子集合中相似度最高的主题通过有向边串联起来;通过串联所有子集合后,被串联起来的主题便是主主题,各个子集合中非主主题的其它所有主题便是辅助主题;
(7)事件演化发展分析。通过(6)获得了主主题和辅助主题,主主题描述了事件的核心焦点,并且在各子集合中保持较高的相似度,辅助主题在各个子集合中有较大的差异性,表现了事件在各个阶段的新发展和焦点。
在上述方法中,步骤(2)使用自适应的K-Means算法将文档划分成时间跨度各不相同的子文档集;由于新闻事件的报道在时间序列表现出一定的分布特性,通过聚类后的文档子集合在内容上表现出较高的相似性。
在上述方法中,所述步骤(2)进一步包括下列具体的步骤:
(21)设置初始聚类数量为2,最大迭代次数max_k以及阀值t;
(22)若聚类数量小于max_k,运行K-Means算法,获得每个点的类别以及到聚类中心的距离;
(23)计算当前每个聚类中所有点到该聚类中心的平均距离(mean distance,md);
(24)计算所有类的平均距离的加权平均值(weighted mean distance,wmd);
(25)若当前wmd与前一次的wmd的差值小于阀值t,则结束迭代;否则,聚类数量加1,并重新执行步骤b);若聚类数量等于max_t,也结束迭代;
(26)获取最优聚类数量K,以及各个点的类标。
其中K-Means算法在计算距离时采用的是欧式距离,wmd的计算公式如下:
wmd = Σ i = 1 n mean dis tan ce of cluster i n
上述方法中,步骤(6)中所定义的主主题和辅助主题的详细定义如下:
(61)主主题是贯穿在所有子集合中,在不同的子集合中变化很小,有很高的相似性,它是对事件高度的概括和提炼;
(62)在各个子集合中除了主主题之外的所有主题,叫做辅助主题;在不同的子集合中,辅助主题随着时间变化而变化,它是对事件在不同时间段最新的发展和变化的概括;
主题的发现,是通过计算相邻子集合中两两主题之间的距离,距离最小的两个主题即主主题。由于主题是用词的分布来表示,所以主题之间的距离可以用Jensen-Shannon距离表示,计算公式可以表示如下:
D JS ( P | | Q ) = 1 2 D KL ( P | | M ) + 1 2 D KL ( Q | | M )
其中DKL(Q||M)表示分布Q和M之间的KL距离。
本发明能够更好的刻画新闻预料中事件发展的主线以及在各个阶段爆发出来的新的关注点。
附图说明
图1是本发明的基本框架图。
图2是本发明中自适应K-Means算法在一个具体实例上的聚类效果图。
图3是本发明在一个具体实例上实验所得的主题演化效果。
图4是通过自适应的K-Means算法,将获得分布数据进行聚类分析流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明实施例的本体概念及层次生成方法进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明,即本发明的保护范围不限于下述的实施例,相反,根据本发明的发明构思,本领域普通技术人员可以进行适当改变,这些改变可以落入权利要求书所限定的发明范围之内。
如图1的基本框架图所示,根据本发明具体实例的基于时序分布信息和主题模型的新闻事件演化分析,包括如下步骤:
1)新闻报道的时序分析和划分。
本实例采用的文档集合是从英国《卫报》爬取1550篇关于“Edward Snowden”事件报道的文章,时间跨度从2013年6月9号事件爆发,到2014年初。如图4所示,通过自适应的K-Means算法,我们可以得到时间片的划分,如图2所示。从图2我们可以看到,整个文档集合被划分成了12个时间跨度各不相同的子集合。
2)词典和文档矩阵构建。
整个文档集的1550篇文章中共包含了150万个单词,通过Stanford Parser工具包进行词性标注,我们只保留了名字(包括专有名词)、动词(及其变形)、形容词(及其变形),接着进行词性还原,最后去除停用词和低频词(总共出现次数低于5),我们获得的词典大小为7732个词。我们用词典对1550篇文档进行表示,构建文档的词矩阵,每片文档对应一个词的数组(同一个词可能多次出现)
3)模型构建和参数推导。
通过步骤(2)和(3),我们可以对每个时间片内的文档子集分别构建LDA模型。通过Gibbs抽样算法,分别推导各个时间片内文档-主题分布,以及主题-词分布。其中Gibbs抽样算法的参数设置如下:迭代次数为1000次,burn-in次数为200,采样间隔为3;LDA模型的初始参数如下:α=2,β=0.5。
4)事件主题演化图绘制。
通过步骤(3)我们获得了所有时间片内所有主题的词分布,通过计算相邻时间片内两两主题之间的Jensen-Shannon距离,公式如下:
D JS ( P | | Q ) = 1 2 D KL ( P | | M ) + 1 2 D KL ( Q | | M ) , M = 1 2 ( P + Q )
选取距离最小的两个主题,用有向边连接起来。最终能得到如图3所示的主题演化图,图3中我们只保留了每个事件片内最主要的3个主题进行绘制。图3中用有向边连接的即是该新闻事件的主主题,各个时间片内除主主题之外的主题即是辅助主题,从辅助主题我们可以知道事件在各个阶段的不同关注点和发展脉络。

Claims (4)

1.一种基于时序分布信息和主题模型的新闻事件演化分析方法,其特征在于,首先通过分析新闻报道在时间序列上表现出来的分布特征,并利用K-Means聚类算法,将语料库按时间划分成几个子语料库;然后利用主题模型依次对每个子语料库进行主题建模,通过Gibbs抽样的方法将模型学习出来,得到每个子语料的主题分布信息;最后通过计算相邻子语料库中两两主题之间的Jensen--Shannon距离,取距离最小的主题串联起来,被串联起来的主题便是该事件的主主题,每个子语料中除了主主题之外的辅助主题,便是该事件在各个阶段的关注点和新的发展。
2.如权利要求1所述的基于时序分布信息和主题模型的新闻事件演化分析方法,其特征在于,具体包括下列步骤:
(1)文档时序分析
通过遍历某一事件相关报道的文档集合,生成报道在时间上的分布信息,即每天各有多少数量的相关报道,并在二维空间绘制分布图,横轴表示时间,纵轴表示数量;
(2)通过自适应的K-Means算法,将(1)获得分布数据进行聚类分析,从而将该事件相关报道的文档集合划分成多个子集合,每个子集合拥有不同的时间跨度,并且在时间上拥有连续性,即前一个子集合的结束时间是下一个子集合的开始时间;
(3)文档预处理,构建新闻演化分析的语料库
给定关于某一事件的相关报道的文档集合,通过词性标注仅保留名词(包括专有名词)、动词(及其变形)、形容词(及其变形),去掉停用词等处理,获取文档集合中的有效词作为语料库;
(4)词典和文档矩阵构建
基于(3)获得的语料库,构建语料库词典,给每个唯一词编号,并用该编号构建文档-词的矩阵,文档矩阵中每一行记录文档中出现的所有词;
(5)模型构建和推导
基于(2)的划分,分别对每个子集合的构建LDA主题模型,并通过Gibbs抽样算法,推导出每个子集合内的文档-主题分布,以及主题-词分布;
(6)绘制主题演化图,发现主主题
基于(5)获得的分布信息,分别计算各个相邻子集合内的主题相似度,并将各相邻子集合中相似度最高的主题通过有向边串联起来;通过串联所有子集合后,被串联起来的主题便是主主题,各个子集合中非主主题的其它所有主题便是辅助主题;
(7)事件演化发展分析
通过(6)获得了主主题和辅助主题,主主题描述了事件的核心焦点,并且在各子集合中保持较高的相似度,辅助主题在各个子集合中有较大的差异性,表现了事件在各个阶段的新发展和焦点。
3.根据权利要求2所述的基于时序分布信息和主题模型的新闻事件演化分析方法,其特征在于,所述步骤(2)进一步包括下列具体的步骤:
(21)设置初始聚类数量为2,最大迭代次数max_k以及阀值t;
(22)若聚类数量小于max_k,运行K-Means算法,获得每个点的类别以及到聚类中心的距离;
(23)计算当前每个聚类中所有点到该聚类中心的平均距离(mean distance,md);
(24)计算所有类的平均距离的加权平均值(weighted mean distance,wmd);
(25)若当前wmd与前一次的wmd的差值小于阀值t,则结束迭代;否则,聚类数量加1,并重新执行步骤b);若聚类数量等于max_t,也结束迭代;
(26)获取最优聚类数量K,以及各个点的类标。
其中K-Means算法在计算距离时采用的是欧式距离,wmd的计算公式如下:
wmd = Σ i = 1 n mean dis tan ce of cluster i n
4.根据权利要求2所述的基于时序分布信息和主题模型的新闻事件演化分析方法,其特征在于,所述步骤(6)中所定义的主主题和辅助主题的详细定义如下:
(61)主主题是贯穿在所有子集合中,在不同的子集合中变化很小,有很高的相似性,它是对事件高度的概括和提炼;
(62)在各个子集合中除了主主题之外的所有主题,叫做辅助主题;在不同的子集合中,辅助主题随着时间变化而变化,它是对事件在不同时间段最新的发展和变化的概括;
主题的发现,是通过计算相邻子集合中两两主题之间的距离,距离最小的两个主题即主主题;主题之间的距离用Jensen-Shannon距离表示,计算公式表示如下:
D JS ( P | | Q ) = 1 2 D KL ( P | | M ) + 1 2 D KL ( Q | | M )
其中DKL(Q||M)表示分布Q和M之间的KL距离。
CN201410127095.3A 2014-03-31 2014-03-31 基于时序分布信息和主题模型的新闻事件演化分析方法 Active CN103984681B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410127095.3A CN103984681B (zh) 2014-03-31 2014-03-31 基于时序分布信息和主题模型的新闻事件演化分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410127095.3A CN103984681B (zh) 2014-03-31 2014-03-31 基于时序分布信息和主题模型的新闻事件演化分析方法

Publications (2)

Publication Number Publication Date
CN103984681A true CN103984681A (zh) 2014-08-13
CN103984681B CN103984681B (zh) 2017-01-25

Family

ID=51276657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410127095.3A Active CN103984681B (zh) 2014-03-31 2014-03-31 基于时序分布信息和主题模型的新闻事件演化分析方法

Country Status (1)

Country Link
CN (1) CN103984681B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809751A (zh) * 2015-04-30 2015-07-29 百度在线网络技术(北京)有限公司 生成事件组演化图的方法和装置
CN104915446A (zh) * 2015-06-29 2015-09-16 华南理工大学 基于新闻的事件演化关系自动提取方法及其系统
CN105468669A (zh) * 2015-10-13 2016-04-06 中国科学院信息工程研究所 一种融合用户关系的自适应微博话题追踪方法
CN105760499A (zh) * 2016-02-22 2016-07-13 浪潮软件股份有限公司 一种基于lda主题模型来分析和预测网络舆情的方法
CN105930404A (zh) * 2016-04-15 2016-09-07 清华大学 一种基于共生关系分析的服务组合主题演化图构造方法
CN105956130A (zh) * 2016-05-09 2016-09-21 浙江农林大学 多信息融合的科研文献主题发现和跟踪方法及其系统
CN106021222A (zh) * 2016-05-09 2016-10-12 浙江农林大学 一种科研文献主题演化的分析方法和装置
CN106067029A (zh) * 2016-05-24 2016-11-02 哈尔滨工程大学 面向数据空间的实体分类方法
CN106570088A (zh) * 2016-10-20 2017-04-19 浙江大学 一种科研文献话题发现和演化跟踪的方法
CN107229645A (zh) * 2016-03-24 2017-10-03 腾讯科技(深圳)有限公司 信息处理方法、服务平台及客户端
CN107656919A (zh) * 2017-09-12 2018-02-02 中国软件与技术服务股份有限公司 一种基于主题间最小平均相似度的最优lda模型自动选择方法
CN107688652A (zh) * 2017-08-31 2018-02-13 苏州大学 面向互联网新闻事件的演化式摘要生成方法
CN107918611A (zh) * 2016-10-09 2018-04-17 郑州大学 一种分析微博话题演化的模型
CN108536673A (zh) * 2018-03-16 2018-09-14 数库(上海)科技有限公司 新闻事件抽取方法及装置
CN109325524A (zh) * 2018-08-31 2019-02-12 中国科学院自动化研究所 事件追踪与变化阶段划分方法、系统及相关设备
CN109408782A (zh) * 2018-10-18 2019-03-01 中南大学 基于kl距离相似性度量的研究热点演变行为检测方法
CN109710936A (zh) * 2018-12-27 2019-05-03 中电科大数据研究院有限公司 一种跨层级政府公文公告主题分析方法
CN110737819A (zh) * 2019-10-16 2020-01-31 乐山师范学院 一种基于新闻报道的突发事件线索提取方法
CN110909130A (zh) * 2019-11-19 2020-03-24 招商局金融科技有限公司 文本主题提取分析方法、装置及计算机可读存储介质
CN111414487A (zh) * 2020-03-20 2020-07-14 北京百度网讯科技有限公司 事件主题的关联扩展方法、装置、设备及介质
CN112417162A (zh) * 2020-11-13 2021-02-26 中译语通科技股份有限公司 实体关系线索片段的关联方法及装置
WO2021093012A1 (zh) * 2019-11-13 2021-05-20 深圳大学 时间序列数据组成模式的提取方法、装置及终端设备
CN113065781A (zh) * 2021-04-12 2021-07-02 中国电子科技集团公司第二十八研究所 一种目标群体活动事件的演化路径及发展进程分析方法
US11436287B2 (en) 2020-12-07 2022-09-06 International Business Machines Corporation Computerized grouping of news articles by activity and associated phase of focus

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207856A (zh) * 2013-04-03 2013-07-17 同济大学 一种本体概念及层次关系生成方法
CN103324700A (zh) * 2013-06-08 2013-09-25 同济大学 一种基于Web信息的本体概念属性学习方法
KR20130116982A (ko) * 2012-04-17 2013-10-25 한국과학기술원 Sns에서 사회적 이웃의 관심사와 사회적 활동의 토픽을 통해 사용자 관심사를 추론하는 방법 및 그 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130116982A (ko) * 2012-04-17 2013-10-25 한국과학기술원 Sns에서 사회적 이웃의 관심사와 사회적 활동의 토픽을 통해 사용자 관심사를 추론하는 방법 및 그 시스템
CN103207856A (zh) * 2013-04-03 2013-07-17 同济大学 一种本体概念及层次关系生成方法
CN103324700A (zh) * 2013-06-08 2013-09-25 同济大学 一种基于Web信息的本体概念属性学习方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
楚克明等: "基于LDA话题关联的话题演化", 《上海交通大学学报》 *
田野等: "短信息的会话检测及组织", 《软件学报》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809751A (zh) * 2015-04-30 2015-07-29 百度在线网络技术(北京)有限公司 生成事件组演化图的方法和装置
CN104809751B (zh) * 2015-04-30 2017-11-24 百度在线网络技术(北京)有限公司 生成事件组演化图的方法和装置
CN104915446A (zh) * 2015-06-29 2015-09-16 华南理工大学 基于新闻的事件演化关系自动提取方法及其系统
CN104915446B (zh) * 2015-06-29 2019-01-29 华南理工大学 基于新闻的事件演化关系自动提取方法及其系统
CN105468669A (zh) * 2015-10-13 2016-04-06 中国科学院信息工程研究所 一种融合用户关系的自适应微博话题追踪方法
CN105468669B (zh) * 2015-10-13 2019-05-21 中国科学院信息工程研究所 一种融合用户关系的自适应微博话题追踪方法
CN105760499A (zh) * 2016-02-22 2016-07-13 浪潮软件股份有限公司 一种基于lda主题模型来分析和预测网络舆情的方法
CN107229645A (zh) * 2016-03-24 2017-10-03 腾讯科技(深圳)有限公司 信息处理方法、服务平台及客户端
CN105930404A (zh) * 2016-04-15 2016-09-07 清华大学 一种基于共生关系分析的服务组合主题演化图构造方法
CN105930404B (zh) * 2016-04-15 2019-02-12 清华大学 一种基于共生关系分析的服务组合主题演化图构造方法
CN106021222A (zh) * 2016-05-09 2016-10-12 浙江农林大学 一种科研文献主题演化的分析方法和装置
CN105956130A (zh) * 2016-05-09 2016-09-21 浙江农林大学 多信息融合的科研文献主题发现和跟踪方法及其系统
CN106021222B (zh) * 2016-05-09 2019-04-30 浙江农林大学 一种科研文献主题演化的分析方法和装置
CN105956130B (zh) * 2016-05-09 2019-04-09 浙江农林大学 多信息融合的科研文献主题发现和跟踪方法及其系统
CN106067029B (zh) * 2016-05-24 2019-06-18 哈尔滨工程大学 面向数据空间的实体分类方法
CN106067029A (zh) * 2016-05-24 2016-11-02 哈尔滨工程大学 面向数据空间的实体分类方法
CN107918611A (zh) * 2016-10-09 2018-04-17 郑州大学 一种分析微博话题演化的模型
CN106570088A (zh) * 2016-10-20 2017-04-19 浙江大学 一种科研文献话题发现和演化跟踪的方法
CN107688652B (zh) * 2017-08-31 2020-12-29 苏州大学 面向互联网新闻事件的演化式摘要生成方法
CN107688652A (zh) * 2017-08-31 2018-02-13 苏州大学 面向互联网新闻事件的演化式摘要生成方法
CN107656919A (zh) * 2017-09-12 2018-02-02 中国软件与技术服务股份有限公司 一种基于主题间最小平均相似度的最优lda模型自动选择方法
CN107656919B (zh) * 2017-09-12 2018-10-26 中国软件与技术服务股份有限公司 一种基于主题间最小平均相似度的最优lda模型自动选择方法
CN108536673A (zh) * 2018-03-16 2018-09-14 数库(上海)科技有限公司 新闻事件抽取方法及装置
CN109325524A (zh) * 2018-08-31 2019-02-12 中国科学院自动化研究所 事件追踪与变化阶段划分方法、系统及相关设备
CN109408782A (zh) * 2018-10-18 2019-03-01 中南大学 基于kl距离相似性度量的研究热点演变行为检测方法
CN109710936A (zh) * 2018-12-27 2019-05-03 中电科大数据研究院有限公司 一种跨层级政府公文公告主题分析方法
CN110737819A (zh) * 2019-10-16 2020-01-31 乐山师范学院 一种基于新闻报道的突发事件线索提取方法
CN110737819B (zh) * 2019-10-16 2022-09-16 乐山师范学院 一种基于新闻报道的突发事件线索提取方法
WO2021093012A1 (zh) * 2019-11-13 2021-05-20 深圳大学 时间序列数据组成模式的提取方法、装置及终端设备
CN110909130A (zh) * 2019-11-19 2020-03-24 招商局金融科技有限公司 文本主题提取分析方法、装置及计算机可读存储介质
CN111414487A (zh) * 2020-03-20 2020-07-14 北京百度网讯科技有限公司 事件主题的关联扩展方法、装置、设备及介质
CN112417162A (zh) * 2020-11-13 2021-02-26 中译语通科技股份有限公司 实体关系线索片段的关联方法及装置
CN112417162B (zh) * 2020-11-13 2024-07-05 中译语通科技股份有限公司 实体关系线索片段的关联方法及装置
US11436287B2 (en) 2020-12-07 2022-09-06 International Business Machines Corporation Computerized grouping of news articles by activity and associated phase of focus
CN113065781A (zh) * 2021-04-12 2021-07-02 中国电子科技集团公司第二十八研究所 一种目标群体活动事件的演化路径及发展进程分析方法

Also Published As

Publication number Publication date
CN103984681B (zh) 2017-01-25

Similar Documents

Publication Publication Date Title
CN103984681A (zh) 基于时序分布信息和主题模型的新闻事件演化分析方法
Ferreira et al. Towards automatic content analysis of social presence in transcripts of online discussions
CN102411611B (zh) 一种面向即时交互文本的事件识别与跟踪方法
CN110930008B (zh) 一种基于卷积神经网络的矿山灾害事件检测方法
CN109359290B (zh) 试题文本的知识点确定方法、电子设备及存储介质
CN115393692A (zh) 基于生成式预训练语言模型的联想文本到图像生成方法
CN105760499A (zh) 一种基于lda主题模型来分析和预测网络舆情的方法
CN103412878B (zh) 基于领域知识地图社区结构的文档主题划分方法
CN109446423A (zh) 一种新闻以及文本的情感判断系统及方法
JP2018084627A (ja) 言語モデル学習装置およびそのプログラム
CN108228779B (zh) 一种基于学习社区对话流的成绩预测方法
Susilawati Public services satisfaction based on sentiment analysis: Case study: Electrical services in Indonesia
Huertas-Tato et al. PART: Pre-trained Authorship Representation Transformer
CN105573985A (zh) 基于汉语句义结构模型和主题模型的句子表示方法
CN105912700A (zh) 一种基于tmpp模型的摘要生成方法
CN116991976A (zh) 模型训练方法、装置、电子设备及可读存储介质
CN109977194B (zh) 基于无监督学习的文本相似度计算方法、系统、设备及介质
He et al. Construction of Diachronic Ontologies from People's Daily of Fifty Years.
CN113901793A (zh) 结合rpa和ai的事件抽取方法及装置
CN111538898A (zh) 基于组合特征提取的Web服务包推荐方法及系统
Zheng et al. Topic sentiment trend model: modeling facets and sentiment dynamics
Phade et al. Question Answering System for low resource language using Transfer Learning
KR101240330B1 (ko) 다차원 문서 분류 시스템 및 방법
Robinson Disaster tweet classification using parts-of-speech tags: a domain adaptation approach
CN112562665A (zh) 一种基于信息交互的语音识别方法、存储介质及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant