CN108170838B

CN108170838B - 话题演变的可视化展现方法、应用服务器及计算机可读存储介质

Info

Publication number: CN108170838B
Application number: CN201810031859.7A
Authority: CN
Inventors: 王健宗; 吴天博; 黄章成; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-01-12
Filing date: 2018-01-12
Publication date: 2022-07-08
Anticipated expiration: 2038-01-12
Also published as: WO2019136920A1; CN108170838A

Abstract

本发明公开了一种话题演变的可视化展现方法，包括：提取涉及同一事件的多个文本资料的主题，并确定每一所述主题之间的关联关系，以建立一主题流；从多个所述主题中筛选出包含重要事件的多个第一主题；提取每一所述第一主题的关键字，并确定每一所述第一主题的关键字的关联关系；及将每一所述第一主题的关键字及其关联关系添加至所述主题流，以生成与所述多个文本资料对应的话题演变脉络图。本发明还提供一种应用服务器及计算机可读存储介质。本发明提供的话题演变的可视化展现方法、应用服务器及计算机可读存储介质可将一事件的话题演变过程进行可视化显示，让用户能够快速地了解和分析整个事件的演变过程。

Description

话题演变的可视化展现方法、应用服务器及计算机可读存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及话题演变的可视化展现方法、应用服务器及计算机可读存储介质。

背景技术

信息爆炸时代，人们可以从互联网上免费阅读、下载关于一个新闻话题的各类新闻报道。由于网络上关于一个新闻话题(尤其是热点新闻话题)的相关新闻文章数量非常多，导致很难从众多相关的新闻报道中高效、省时地了解目标新闻话题的发展趋势和演变过程。而理解社交媒体上的部分话题的演变对投资者/管理者等有着重要的意义。当投资者/管理者了解话题深层的意义，可以做出合适的判断并据此采取进一步的行动。然而，现有技术在分析话题在时间上的演变是比较困难的，无法快速检测并区别出每个话题及话题中包含的重大事件、演变脉络等，同时对于话题的产生、结束、分裂和合并亦无有效的识别机制。

发明内容

有鉴于此，本发明提出一种话题演变的可视化展现方法、应用服务器及计算机可读存储介质，可以实现将一事件的话题演变过程进行可视化显示，让用户能够快速地了解和分析整个事件的演变过程。

首先，为实现上述目的，本发明提出一种应用服务器，所述应用服务器包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的话题演变的可视化展现系统，所述话题演变的可视化展现系统被所述处理器执行时实现如下步骤：

提取涉及同一事件的多个文本资料的主题，并确定每一所述主题之间的关联关系，以建立一主题流；

从多个所述主题中筛选出包含重要事件的多个第一主题；

提取每一所述第一主题的关键字，并确定每一所述第一主题的关键字的关联关系；及

将每一所述第一主题的关键字及其关联关系添加至所述主题流，以生成与所述多个文本资料对应的话题演变脉络图。

可选地，所述建立所述主题流的步骤之后还包括：

识别每一所述主题的产生、分裂、合并、结束在所述主题流中的节点位置；及

对每一所述主题的产生、分裂、合并、结束的节点位置运用不同的标记符号进行标示。

可选地，所述从多个所述主题中筛选出包含重要事件的多个第一主题的步骤包括：

利用信息熵算法来计算每一所述主题的分值；及

根据计算得到的分值大小来从多个所述主题中筛选出包含重要事件的多个所述第一主题，其中，所述信息熵算法的计算公式为：

R(r,t)是簇r在时间t的排序分值，N_r是流入簇r的元素数量。

此外，为实现上述目的，本发明还提供一种话题演变的可视化展现方法，应用于应用服务器，所述方法包括：

从多个所述主题中筛选出包含重要事件的多个第一主题；

可选地，所述可视化展现方法还包括：

对所述多个文本资料进行预处理，所述预处理包括：对所述文本资料进行切分、繁简转化、替换歧义词、去除停用词、低频词、数字及标点符号。

可选地，所述建立所述主题流的步骤之后还包括：

可选地，所述确定每一所述主题之间的关联关系，以建立一主题流的步骤包括：

通过分层狄利克雷过程确定每一所述主题之间的关联关系，以建立所述主题流；

其中，所述分层狄利克雷过程包括计算从时刻t-1到时刻t，簇r中来自簇s的比例，及从时刻t-1到时刻t，簇s中流向簇r的比例，以确定每一所述主题之间的关联关系，将t时刻到来的第i个资料记为

其所在的簇记为

所述簇r中来所述自簇s的比例通过以下公式计算得到:

式中，

表示所述簇r中来所述自簇s的比例，I()为满足括号内条件的数量，从公式整体含义来讲，分母是t-1到t时刻簇r中所有资料的数量总和，分子是t-1到t时刻簇r中来自簇s的资料数量总和；

所述簇s中流向所述簇r的比例通过以下公式计算得到:

式中，

表示所述簇s中流向所述簇r的比例，I()为满足括号内条件的数量，从公式整体含义来讲，分母是t-1到t时刻簇s所有资料的数量总和，分子是t-1到t时刻主题由簇s变为簇r的资料数量总和。

利用信息熵算法来计算每一所述主题的分值；及

R(r,t)是簇r在时间t的排序分值，N_r是流入簇r的元素数量。

可选地，所述提取每一所述第一主题的关键字，并确定每一所述第一主题的关键字的关联关系的步骤包括：

利用TF-IDF算法提取每一所述第一主题的关键字；及

通过分层狄利克雷过程确定每一所述第一主题的关键字的关联关系。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有话题演变的可视化展现系统，所述话题演变的可视化展现系统可被至少一个处理器执行，以使所述至少一个处理器执行如上述话题演变的可视化展现方法的步骤。

相较于现有技术，本发明所提出的话题演变的可视化展现方法、应用服务器及计算机可读存储介质，首先，提取涉及同一事件的多个文本资料的主题，并确定每一所述主题之间的关联关系，以建立一主题流；其次，从多个所述主题中筛选出包含重要事件的多个第一主题；再者，提取每一所述第一主题的关键字，并确定每一所述第一主题的关键字的关联关系；最后，将每一所述第一主题的关键字及其关联关系添加至所述主题流，以生成与所述多个文本资料对应的话题演变脉络图。这样，可以对时序性的社会事件挖掘其主题，并把事件的演变趋势通过随时间变化的主题流可视化地表现出来，使用户能够对话题的演变过程和其中的重大事件有更好的了解，避免由于话题关联引起的话题漂移，实现帮助用户深入地了解话题深层的意义，避免得出错误认知或决断。

附图说明

图1是本发明应用服务器一可选的硬件架构的示意图；

图2是本发明话题演变的可视化展现系统第一实施例的程序模块示意图；

图3是本发明话题演变的可视化展现系统第二实施例的程序模块示意图；

图4为本发明话题演变的可视化展现方法第一实施例的实施流程示意图；

图5为本发明话题演变的可视化展现方法第二实施例的实施流程示意图。

附图标记：

应用服务器	2
		存储器	11
处理器	12
		网络接口	13
话题演变的可视化展现系统	100
		第一提取模块	101
筛选模块	102
		第二提取模块	103
生成模块	104
		标示模块	105

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参阅图1所示，是本发明应用服务器2一可选的硬件架构的示意图。

本实施例中，所述应用服务器2可包括，但不仅限于，可通过系统总线相互通信连接存储器11、处理器12、网络接口13。需要指出的是，图1仅示出了具有组件11-13的应用服务器2，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述应用服务器2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备，该应用服务器2可以是独立的服务器，也可以是多个服务器所组成的服务器集群。

所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器11可以是所述应用服务器2的内部存储单元，例如该应用服务器2的硬盘或内存。在另一些实施例中，所述存储器11也可以是所述应用服务器2的外部存储设备，例如该应用服务器2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器11还可以既包括所述应用服务器2的内部存储单元也包括其外部存储设备。本实施例中，所述存储器11通常用于存储安装于所述应用服务器2的操作系统和各类应用软件，例如话题演变的可视化展现系统100的程序代码等。此外，所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述应用服务器2的总体操作，例如执行与所述终端设备1进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行所述话题演变的可视化展现系统100等。

所述网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在所述应用服务器2与其他电子设备之间建立通信连接。

至此，己经详细介绍了本发明相关设备的硬件结构和功能。下面，将基于上述介绍提出本发明的各个实施例。

首先，本发明提出一种话题演变的可视化展现系统100。

参阅图2所示，是本发明话题演变的可视化展现系统100第一实施例的程序模块图。

本实施例中，所述话题演变的可视化展现系统100包括一系列的存储于存储器11上的计算机程序指令，当该计算机程序指令被处理器12执行时，可以实现本发明各实施例的话题演变的可视化展现操作。在一些实施例中，基于该计算机程序指令各部分所实现的特定的操作，话题演变的可视化展现系统100可以被划分为一个或多个模块。例如，在图2中，话题演变的可视化展现系统100可以被分割成第一提取模块101、筛选模块102、第二提取模块103及生成模块104。其中：

所述第一提取模块101用于提取涉及同一事件的多个文本资料的主题，并确定每一所述主题之间的关联关系，以建立一主题流。

在一实施例中，所述文本资料可以是线上新闻文本，所述第一提取模块101可以通过接入网络来提取涉及同一事件的多个新闻文本。具体地，可以通过输入某一事件的关键字(例如事件的发生地点、主要人物、事由等)来从网络上搜寻并提取涉及该事件的多个新闻文本，再根据提取到得多个新闻文本来提取其主题。所述第一提取模块101可以获取当前新闻文本的人物、地点、事件等要素，并在该些要素的基础上生成一事件摘要作为所述新闻文本的主题。

在一实施方式中，所述第一提取模块101还用于对所述提取的多个文本资料进行预处理。所述预处理可以包括：对所述文本资料进行切分、繁简转化、替换歧义词、去除停用词、低频词、数字及标点符号等等。

在一实施方式中，所述第一提取模块101可以通过分层狄利克雷过程对每一主题进行建模，将t时刻到来的第i个文本资料记为

其所在的簇记为

如果在两个时间点上，

的簇标记不同，即

与

不一致，那么就可认为

的主题发生了改变，以此可以计算出两个量来得出主题的分裂与合并，该两个量分别是从时刻t-1到时刻t，簇r中来自簇s的比例:

，式中，

和从时刻t-1到时刻t簇s中流向簇r的比例:

式中，

表示所述簇s中流向所述簇r的比例，I()为满足括号内条件的数量，从公式整体含义来讲，分母是t-1到t时刻簇s所有资料的数量总和，分子是t-1到t时刻主题由簇s变为簇r的资料数量总和

在一实施方式中，主题的产生与结束可以通过运用哈希表来进行检测。在哈希表中，每一主题具有唯一的存储位置相对应，进而来通过哈希表检测主题的产生与结束。

在一实施方式中，所述第一提取模块101可以根据每一文本资料的发文时间对每一文本资料的主题进行排序。所述第一提取模块101建立的主题流代表多个主题随着时间的演变，主题流的高度可以代表属于该主题的文档数。主题流也可以分为几个分支，数个分支也可以合并成一个主题。

所述筛选模块102用于从多个所述主题中筛选出包含重要事件的多个第一主题。

在一实施方式中，多个第一主题优选为存在分裂、合并的主题。主题的分裂与合并可以用分值进行表示。具体地可以使用信息熵算法来计算分值。存在合并的主题的分值可以通过以下公式进行计算：

其中，R(r,t)是簇r在时间t的排序分值，N_r是流入簇r的元素数量，存在分裂的主题的分值可以通过以下公式进行计算：

其中，R(s,t)是簇s在时间t的排序分值，N_s是流入簇r的元素数量。

所述筛选模块102可以根据计算得到的每一主题的分值，选取分值排序(分值可由大到小进行排列)前列的多个主题作为包含所述重要事件的第一主题。例如，所述筛选模块102选取分值排序前十的主题作为所述第一主题。

所述第二提取模块103用于提取每一所述第一主题的关键字，并确定每一所述第一主题的关键字的关联关系。

在一实施方式中，所述第二提取模块103可以使用TF-IDF算法来提取每一所述第一主题的关键字。TF-IDF算法可以用于评估一字词对于一个主题文本中的重要程度。字词的重要性会随着它在文本中出现的次数成正比增加。在进行TF-IDF计算时，通过词频(TF)与逆文档频率(IDF)得出某个字词的TF-IDF值，若该字词对主题文本的重要性越高则该TF-IDF值越大。因此第二提取模块103可以将TF-IDF值排在最前面的几个字词作为该主题文本的关键词。例如，将TF-IDF值排在前五的字词作为该第一主题的关键词。

在一实施方式中，所述第二提取模块103可以通过分层狄利克雷过程确定每一所述第一主题的关键字的关联关系。所述第二提取模块103还可以进一步结合每一所述第一主题在主题流的节点位置来确定每一所述第一主题的关键字的关联关系。

所述生成模块104用于将每一所述第一主题的关键字及其关联关系添加至所述主题流，以生成与所述多个文本资料对应的话题演变脉络图。

在一实施方式中，所述生成模块104可以将每一所述第一主题的关键字及其关联关系可视化为词云交叠在所述主题流上。话题演变脉络图可以通过显示模块(图未示)进行显示。

通过上述程序模块101-104，本发明所提出的话题演变的可视化展现系统100，首先，提取涉及同一事件的多个文本资料的主题，并确定每一所述主题之间的关联关系，以建立一主题流；其次，从多个所述主题中筛选出包含重要事件的多个第一主题；再者，提取每一所述第一主题的关键字，并确定每一所述第一主题的关键字的关联关系；最后，将每一所述第一主题的关键字及其关联关系添加至所述主题流，以生成与所述多个文本资料对应的话题演变脉络图。这样，可以对时序性的社会事件挖掘其主题，并把事件的演变趋势通过随时间变化的主题流可视化地表现出来，使用户能够对话题的演变过程和其中的重大事件有更好的了解，避免由于话题关联引起的话题漂移，实现帮助用户深入地了解话题深层的意义，避免得出错误认知或决断。

参阅图3所示，是本发明话题演变的可视化展现系统100第二实施例的程序模块图。本实施例中，所述话题演变的可视化展现系统100包括一系列的存储于存储器11上的计算机程序指令，当该计算机程序指令被处理器12执行时，可以实现本发明各实施例的话题演变的可视化展现操作。在一些实施例中，基于该计算机程序指令各部分所实现的特定的操作，话题演变的可视化展现系统100可以被划分为一个或多个模块。例如，在图3中，话题演变的可视化展现系统100可以被分割成第一提取模块101、筛选模块102、第二提取模块103、生成模块104及标示模块105。所述各程序模块101-104与本发明话题演变的可视化展现系统100第一实施例相同，并在此基础上增加标示模块105。其中：

其所在的簇记为

如果在两个时间点上，

的簇标记不同，即

与

不一致，那么就可认为

，式中，

和从时刻t-1到时刻t簇s中流向簇r的比例:

式中，

所述标示模块105用于识别每一所述主题的产生、分裂、合并、结束在所述主题流中的节点位置，并对每一所述主题的产生、分裂、合并、结束的节点位置运用不同的标记符号进行标示。例如，使用实心圆圈代表主题的产生，使用空心圆圈代表主题的结束，使用不同角度的三叉标记分别代表主题的分裂和合并。

在一实施方式中，所述标示模块105可以运用哈希表及分层狄利克雷过程可以识别每一所述主题的产生、分裂、合并、结束在所述主题流中的节点位置，进而可以对每一所述主题的产生、分裂、合并、结束的节点位置运用不同的预设标记符号进行标示。对于分裂和合并的主题，所述标示模块105还可以选用与代表原主题相似的颜色进行标示。

所述筛选模块102可以根据计算得到的每一主题的分值，选取分值排序(分值可由大到小进行排列)前列的多个主题作为包含所述重要事件的第一主题。例如，所述筛选模块102选取分值排序前十的主题作为所述第一主题。所述第一主题也可在所述主题流上运用特定的颜色或标记符号进行标示。

在一实施方式中，所述生成模块104可以将每一所述第一主题的关键字及其关联关系可视化为词云交叠在所述主题流上。话题演变脉络图可以通过显示模块(例如投影屏、显示器等)进行显示。

通过上述程序模块101-105，本发明所提出的话题演变的可视化展现系统100，首先，提取涉及同一事件的多个文本资料的主题，并确定每一所述主题之间的关联关系，以建立一主题流；其次，识别每一所述主题的产生、分裂、合并、结束在所述主题流中的节点位置，并对每一所述主题的产生、分裂、合并、结束的节点位置运用不同的标记符号进行标示；再者，从多个所述主题中筛选出包含重要事件的多个第一主题；再者，提取每一所述第一主题的关键字，并确定每一所述第一主题的关键字的关联关系；最后，将每一所述第一主题的关键字及其关联关系添加至所述主题流，以生成与所述多个文本资料对应的话题演变脉络图。这样，可以对时序性的社会事件挖掘其主题，并把事件的演变趋势通过随时间变化的主题流可视化地表现出来，使用户能够对话题的演变过程和其中的重大事件有更好的了解，避免由于话题关联引起的话题漂移，实现帮助用户深入地了解话题深层的意义，避免得出错误认知或决断。

此外，本发明还提出一种话题演变的可视化展现方法。

参阅图4所示，是本发明话题演变的可视化展现方法第一实施例的实施流程示意图。在本实施例中，根据不同的需求，图4所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

步骤S500，提取涉及同一事件的多个文本资料的主题，并确定每一所述主题之间的关联关系，以建立一主题流。

在一实施例中，所述文本资料可以是线上新闻文本，可以通过接入网络来提取涉及同一事件的多个新闻文本。具体地，可以通过输入某一事件的关键字(例如事件的发生地点、主要人物、事由等)来从网络上搜寻并提取涉及该事件的多个新闻文本，再根据提取到得多个新闻文本来提取其主题。

在一实施方式中，可以通过获取当前新闻文本的人物、地点、事件等要素，并在该些要素的基础上生成一事件摘要作为所述新闻文本的主题。

在一实施方式中，可以在提取文本资料主题之前对所述提取的多个文本资料进行预处理。所述预处理可以包括：对所述文本资料进行切分、繁简转化、替换歧义词、去除停用词、低频词、数字及标点符号等等。

在一实施方式中，可以通过分层狄利克雷过程对每一主题进行建模，将t时刻到来的第i个文本资料记为

其所在的簇记为

如果在两个时间点上，

的簇标记不同，即

与

不一致，那么就可认为

，式中，

和从时刻t-1到时刻t簇s中流向簇r的比例:

式中，

在一实施方式中，可以根据每一文本资料的发文时间对每一文本资料的主题进行排序。建立的主题流可以代表多个主题随着时间的演变，主题流的高度可以代表属于该主题的文档数。主题流也可以分为几个分支，数个分支也可以合并成一个主题。

步骤S502，从多个所述主题中筛选出包含重要事件的多个第一主题。

在一实施方式总，可以根据计算得到的每一主题的分值，选取分值排序(分值可由大到小进行排列)前列的多个主题作为包含所述重要事件的第一主题。例如，选取分值排序前十的主题作为所述第一主题。

步骤S504，提取每一所述第一主题的关键字，并确定每一所述第一主题的关键字的关联关系。

在一实施方式中，可以使用TF-IDF算法来提取每一所述第一主题的关键字。TF-IDF算法可以用于评估一字词对于一个主题文本中的重要程度。字词的重要性会随着它在文本中出现的次数成正比增加。在进行TF-IDF计算时，通过词频(TF)与逆文档频率(IDF)得出某个字词的TF-IDF值，若该字词对主题文本的重要性越高则该TF-IDF值越大。可以将TF-IDF值排在最前面的几个字词作为该主题文本的关键词。例如，将TF-IDF值排在前五的字词作为该第一主题的关键词。

在一实施方式中，还可以通过分层狄利克雷过程确定每一所述第一主题的关键字的关联关系。

在一实施方式中，还可以进一步结合每一所述第一主题在主题流的节点位置来确定每一所述第一主题的关键字的关联关系。

步骤S506，将每一所述第一主题的关键字及其关联关系添加至所述主题流，以生成与所述多个文本资料对应的话题演变脉络图。

在一实施方式中，可以将每一所述第一主题的关键字及其关联关系可视化为词云交叠在所述主题流上。话题演变脉络图可以通过投影屏、显示器等设备进行显示。

通过上述步骤S500-S506，本发明所提出的话题演变的可视化展现方法，首先，提取涉及同一事件的多个文本资料的主题，并确定每一所述主题之间的关联关系，以建立一主题流；其次，从多个所述主题中筛选出包含重要事件的多个第一主题；再者，提取每一所述第一主题的关键字，并确定每一所述第一主题的关键字的关联关系；最后，将每一所述第一主题的关键字及其关联关系添加至所述主题流，以生成与所述多个文本资料对应的话题演变脉络图。这样，可以对时序性的社会事件挖掘其主题，并把事件的演变趋势通过随时间变化的主题流可视化地表现出来，使用户能够对话题的演变过程和其中的重大事件有更好的了解，避免由于话题关联引起的话题漂移，实现帮助用户深入地了解话题深层的意义，避免得出错误认知或决断。

参阅图5所示，是本发明话题演变的可视化展现方法第二实施例的实施流程示意图。在本实施例中，根据不同的需求，图5所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

其所在的簇记为

如果在两个时间点上，

的簇标记不同，即

与

不一致，那么就可认为

，式中，

和从时刻t-1到时刻t簇s中流向簇r的比例:

式中，

步骤S508，识别每一所述主题的产生、分裂、合并、结束在所述主题流中的节点位置，并对每一所述主题的产生、分裂、合并、结束的节点位置运用不同的标记符号进行标示。例如，使用实心圆圈代表主题的产生，使用空心圆圈代表主题的结束，使用不同角度的三叉标记分别代表主题的分裂和合并。

在一实施方式中，可以运用哈希表及分层狄利克雷过程可以识别每一所述主题的产生、分裂、合并、结束在所述主题流中的节点位置，进而可以对每一所述主题的产生、分裂、合并、结束的节点位置运用不同的预设标记符号进行标示。对于分裂和合并的主题，还可以选用与代表原主题相似的颜色进行标示。

在一实施方式总，可以根据计算得到的每一主题的分值，选取分值排序(分值可由大到小进行排列)前列的多个主题作为包含所述重要事件的第一主题。例如，选取分值排序前十的主题作为所述第一主题。所述第一主题也可在所述主题流上运用特定的颜色或标记符号进行标示。

通过上述步骤S500-S508，本发明所提出的话题演变的可视化展现方法，首先，提取涉及同一事件的多个文本资料的主题，并确定每一所述主题之间的关联关系，以建立一主题流；其次，识别每一所述主题的产生、分裂、合并、结束在所述主题流中的节点位置，并对每一所述主题的产生、分裂、合并、结束的节点位置运用不同的标记符号进行标示；再者，从多个所述主题中筛选出包含重要事件的多个第一主题；再者，提取每一所述第一主题的关键字，并确定每一所述第一主题的关键字的关联关系；最后，将每一所述第一主题的关键字及其关联关系添加至所述主题流，以生成与所述多个文本资料对应的话题演变脉络图。这样，可以对时序性的社会事件挖掘其主题，并把事件的演变趋势通过随时间变化的主题流可视化地表现出来，使用户能够对话题的演变过程和其中的重大事件有更好的了解，避免由于话题关联引起的话题漂移，实现帮助用户深入地了解话题深层的意义，避免得出错误认知或决断。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。