CN108170838B - 话题演变的可视化展现方法、应用服务器及计算机可读存储介质 - Google Patents

话题演变的可视化展现方法、应用服务器及计算机可读存储介质 Download PDF

Info

Publication number
CN108170838B
CN108170838B CN201810031859.7A CN201810031859A CN108170838B CN 108170838 B CN108170838 B CN 108170838B CN 201810031859 A CN201810031859 A CN 201810031859A CN 108170838 B CN108170838 B CN 108170838B
Authority
CN
China
Prior art keywords
cluster
topic
time
topics
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810031859.7A
Other languages
English (en)
Other versions
CN108170838A (zh
Inventor
王健宗
吴天博
黄章成
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810031859.7A priority Critical patent/CN108170838B/zh
Priority to PCT/CN2018/090694 priority patent/WO2019136920A1/zh
Publication of CN108170838A publication Critical patent/CN108170838A/zh
Application granted granted Critical
Publication of CN108170838B publication Critical patent/CN108170838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种话题演变的可视化展现方法,包括:提取涉及同一事件的多个文本资料的主题,并确定每一所述主题之间的关联关系,以建立一主题流;从多个所述主题中筛选出包含重要事件的多个第一主题;提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系;及将每一所述第一主题的关键字及其关联关系添加至所述主题流,以生成与所述多个文本资料对应的话题演变脉络图。本发明还提供一种应用服务器及计算机可读存储介质。本发明提供的话题演变的可视化展现方法、应用服务器及计算机可读存储介质可将一事件的话题演变过程进行可视化显示,让用户能够快速地了解和分析整个事件的演变过程。

Description

话题演变的可视化展现方法、应用服务器及计算机可读存储 介质
技术领域
本发明涉及图像处理技术领域,尤其涉及话题演变的可视化展现方法、应用服务器及计算机可读存储介质。
背景技术
信息爆炸时代,人们可以从互联网上免费阅读、下载关于一个新闻话题的各类新闻报道。由于网络上关于一个新闻话题(尤其是热点新闻话题)的相关新闻文章数量非常多,导致很难从众多相关的新闻报道中高效、省时地了解目标新闻话题的发展趋势和演变过程。而理解社交媒体上的部分话题的演变对投资者/管理者等有着重要的意义。当投资者/管理者了解话题深层的意义,可以做出合适的判断并据此采取进一步的行动。然而,现有技术在分析话题在时间上的演变是比较困难的,无法快速检测并区别出每个话题及话题中包含的重大事件、演变脉络等,同时对于话题的产生、结束、分裂和合并亦无有效的识别机制。
发明内容
有鉴于此,本发明提出一种话题演变的可视化展现方法、应用服务器及计算机可读存储介质,可以实现将一事件的话题演变过程进行可视化显示,让用户能够快速地了解和分析整个事件的演变过程。
首先,为实现上述目的,本发明提出一种应用服务器,所述应用服务器包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的话题演变的可视化展现系统,所述话题演变的可视化展现系统被所述处理器执行时实现如下步骤:
提取涉及同一事件的多个文本资料的主题,并确定每一所述主题之间的关联关系,以建立一主题流;
从多个所述主题中筛选出包含重要事件的多个第一主题;
提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系;及
将每一所述第一主题的关键字及其关联关系添加至所述主题流,以生成与所述多个文本资料对应的话题演变脉络图。
可选地,所述建立所述主题流的步骤之后还包括:
识别每一所述主题的产生、分裂、合并、结束在所述主题流中的节点位置;及
对每一所述主题的产生、分裂、合并、结束的节点位置运用不同的标记符号进行标示。
可选地,所述从多个所述主题中筛选出包含重要事件的多个第一主题的步骤包括:
利用信息熵算法来计算每一所述主题的分值;及
根据计算得到的分值大小来从多个所述主题中筛选出包含重要事件的多个所述第一主题,其中,所述信息熵算法的计算公式为:
Figure GDA0003575317790000021
R(r,t)是簇r在时间t的排序分值,Nr是流入簇r的元素数量。
此外,为实现上述目的,本发明还提供一种话题演变的可视化展现方法,应用于应用服务器,所述方法包括:
提取涉及同一事件的多个文本资料的主题,并确定每一所述主题之间的关联关系,以建立一主题流;
从多个所述主题中筛选出包含重要事件的多个第一主题;
提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系;及
将每一所述第一主题的关键字及其关联关系添加至所述主题流,以生成与所述多个文本资料对应的话题演变脉络图。
可选地,所述可视化展现方法还包括:
对所述多个文本资料进行预处理,所述预处理包括:对所述文本资料进行切分、繁简转化、替换歧义词、去除停用词、低频词、数字及标点符号。
可选地,所述建立所述主题流的步骤之后还包括:
识别每一所述主题的产生、分裂、合并、结束在所述主题流中的节点位置;及
对每一所述主题的产生、分裂、合并、结束的节点位置运用不同的标记符号进行标示。
可选地,所述确定每一所述主题之间的关联关系,以建立一主题流的步骤包括:
通过分层狄利克雷过程确定每一所述主题之间的关联关系,以建立所述主题流;
其中,所述分层狄利克雷过程包括计算从时刻t-1到时刻t,簇r中来自簇s的比例,及从时刻t-1到时刻t,簇s中流向簇r的比例,以确定每一所述主题之间的关联关系,将t时刻到来的第i个资料记为
Figure GDA0003575317790000031
其所在的簇记为
Figure GDA0003575317790000032
所述簇r中来所述自簇s的比例通过以下公式计算得到:
Figure GDA0003575317790000033
式中,
Figure GDA0003575317790000034
表示所述簇r中来所述自簇s的比例,I()为满足括号内条件的数量,从公式整体含义来讲,分母是t-1到t时刻簇r中所有资料的数量总和,分子是t-1到t时刻簇r中来自簇s的资料数量总和;
所述簇s中流向所述簇r的比例通过以下公式计算得到:
Figure GDA0003575317790000035
式中,
Figure GDA0003575317790000041
表示所述簇s中流向所述簇r的比例,I()为满足括号内条件的数量,从公式整体含义来讲,分母是t-1到t时刻簇s所有资料的数量总和,分子是t-1到t时刻主题由簇s变为簇r的资料数量总和。
可选地,所述从多个所述主题中筛选出包含重要事件的多个第一主题的步骤包括:
利用信息熵算法来计算每一所述主题的分值;及
根据计算得到的分值大小来从多个所述主题中筛选出包含重要事件的多个所述第一主题,其中,所述信息熵算法的计算公式为:
Figure GDA0003575317790000042
R(r,t)是簇r在时间t的排序分值,Nr是流入簇r的元素数量。
可选地,所述提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系的步骤包括:
利用TF-IDF算法提取每一所述第一主题的关键字;及
通过分层狄利克雷过程确定每一所述第一主题的关键字的关联关系。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有话题演变的可视化展现系统,所述话题演变的可视化展现系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述话题演变的可视化展现方法的步骤。
相较于现有技术,本发明所提出的话题演变的可视化展现方法、应用服务器及计算机可读存储介质,首先,提取涉及同一事件的多个文本资料的主题,并确定每一所述主题之间的关联关系,以建立一主题流;其次,从多个所述主题中筛选出包含重要事件的多个第一主题;再者,提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系;最后,将每一所述第一主题的关键字及其关联关系添加至所述主题流,以生成与所述多个文本资料对应的话题演变脉络图。这样,可以对时序性的社会事件挖掘其主题,并把事件的演变趋势通过随时间变化的主题流可视化地表现出来,使用户能够对话题的演变过程和其中的重大事件有更好的了解,避免由于话题关联引起的话题漂移,实现帮助用户深入地了解话题深层的意义,避免得出错误认知或决断。
附图说明
图1是本发明应用服务器一可选的硬件架构的示意图;
图2是本发明话题演变的可视化展现系统第一实施例的程序模块示意图;
图3是本发明话题演变的可视化展现系统第二实施例的程序模块示意图;
图4为本发明话题演变的可视化展现方法第一实施例的实施流程示意图;
图5为本发明话题演变的可视化展现方法第二实施例的实施流程示意图。
附图标记:
应用服务器 2
存储器 11
处理器 12
网络接口 13
话题演变的可视化展现系统 100
第一提取模块 101
筛选模块 102
第二提取模块 103
生成模块 104
标示模块 105
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参阅图1所示,是本发明应用服务器2一可选的硬件架构的示意图。
本实施例中,所述应用服务器2可包括,但不仅限于,可通过系统总线相互通信连接存储器11、处理器12、网络接口13。需要指出的是,图1仅示出了具有组件11-13的应用服务器2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述应用服务器2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备,该应用服务器2可以是独立的服务器,也可以是多个服务器所组成的服务器集群。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述应用服务器2的内部存储单元,例如该应用服务器2的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述应用服务器2的外部存储设备,例如该应用服务器2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器11还可以既包括所述应用服务器2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器11通常用于存储安装于所述应用服务器2的操作系统和各类应用软件,例如话题演变的可视化展现系统100的程序代码等。此外,所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述应用服务器2的总体操作,例如执行与所述终端设备1进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行所述话题演变的可视化展现系统100等。
所述网络接口13可包括无线网络接口或有线网络接口,该网络接口13通常用于在所述应用服务器2与其他电子设备之间建立通信连接。
至此,己经详细介绍了本发明相关设备的硬件结构和功能。下面,将基于上述介绍提出本发明的各个实施例。
首先,本发明提出一种话题演变的可视化展现系统100。
参阅图2所示,是本发明话题演变的可视化展现系统100第一实施例的程序模块图。
本实施例中,所述话题演变的可视化展现系统100包括一系列的存储于存储器11上的计算机程序指令,当该计算机程序指令被处理器12执行时,可以实现本发明各实施例的话题演变的可视化展现操作。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,话题演变的可视化展现系统100可以被划分为一个或多个模块。例如,在图2中,话题演变的可视化展现系统100可以被分割成第一提取模块101、筛选模块102、第二提取模块103及生成模块104。其中:
所述第一提取模块101用于提取涉及同一事件的多个文本资料的主题,并确定每一所述主题之间的关联关系,以建立一主题流。
在一实施例中,所述文本资料可以是线上新闻文本,所述第一提取模块101可以通过接入网络来提取涉及同一事件的多个新闻文本。具体地,可以通过输入某一事件的关键字(例如事件的发生地点、主要人物、事由等)来从网络上搜寻并提取涉及该事件的多个新闻文本,再根据提取到得多个新闻文本来提取其主题。所述第一提取模块101可以获取当前新闻文本的人物、地点、事件等要素,并在该些要素的基础上生成一事件摘要作为所述新闻文本的主题。
在一实施方式中,所述第一提取模块101还用于对所述提取的多个文本资料进行预处理。所述预处理可以包括:对所述文本资料进行切分、繁简转化、替换歧义词、去除停用词、低频词、数字及标点符号等等。
在一实施方式中,所述第一提取模块101可以通过分层狄利克雷过程对每一主题进行建模,将t时刻到来的第i个文本资料记为
Figure GDA0003575317790000081
其所在的簇记为
Figure GDA0003575317790000082
如果在两个时间点上,
Figure GDA0003575317790000083
的簇标记不同,即
Figure GDA0003575317790000084
Figure GDA0003575317790000085
不一致,那么就可认为
Figure GDA0003575317790000086
的主题发生了改变,以此可以计算出两个量来得出主题的分裂与合并,该两个量分别是从时刻t-1到时刻t,簇r中来自簇s的比例:
Figure GDA0003575317790000087
,式中,
Figure GDA0003575317790000088
表示所述簇r中来所述自簇s的比例,I()为满足括号内条件的数量,从公式整体含义来讲,分母是t-1到t时刻簇r中所有资料的数量总和,分子是t-1到t时刻簇r中来自簇s的资料数量总和;
和从时刻t-1到时刻t簇s中流向簇r的比例:
Figure GDA0003575317790000091
式中,
Figure GDA0003575317790000092
表示所述簇s中流向所述簇r的比例,I()为满足括号内条件的数量,从公式整体含义来讲,分母是t-1到t时刻簇s所有资料的数量总和,分子是t-1到t时刻主题由簇s变为簇r的资料数量总和
在一实施方式中,主题的产生与结束可以通过运用哈希表来进行检测。在哈希表中,每一主题具有唯一的存储位置相对应,进而来通过哈希表检测主题的产生与结束。
在一实施方式中,所述第一提取模块101可以根据每一文本资料的发文时间对每一文本资料的主题进行排序。所述第一提取模块101建立的主题流代表多个主题随着时间的演变,主题流的高度可以代表属于该主题的文档数。主题流也可以分为几个分支,数个分支也可以合并成一个主题。
所述筛选模块102用于从多个所述主题中筛选出包含重要事件的多个第一主题。
在一实施方式中,多个第一主题优选为存在分裂、合并的主题。主题的分裂与合并可以用分值进行表示。具体地可以使用信息熵算法来计算分值。存在合并的主题的分值可以通过以下公式进行计算:
Figure GDA0003575317790000093
其中,R(r,t)是簇r在时间t的排序分值,Nr是流入簇r的元素数量,存在分裂的主题的分值可以通过以下公式进行计算:
Figure GDA0003575317790000094
其中,R(s,t)是簇s在时间t的排序分值,Ns是流入簇r的元素数量。
所述筛选模块102可以根据计算得到的每一主题的分值,选取分值排序(分值可由大到小进行排列)前列的多个主题作为包含所述重要事件的第一主题。例如,所述筛选模块102选取分值排序前十的主题作为所述第一主题。
所述第二提取模块103用于提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系。
在一实施方式中,所述第二提取模块103可以使用TF-IDF算法来提取每一所述第一主题的关键字。TF-IDF算法可以用于评估一字词对于一个主题文本中的重要程度。字词的重要性会随着它在文本中出现的次数成正比增加。在进行TF-IDF计算时,通过词频(TF)与逆文档频率(IDF)得出某个字词的TF-IDF值,若该字词对主题文本的重要性越高则该TF-IDF值越大。因此第二提取模块103可以将TF-IDF值排在最前面的几个字词作为该主题文本的关键词。例如,将TF-IDF值排在前五的字词作为该第一主题的关键词。
在一实施方式中,所述第二提取模块103可以通过分层狄利克雷过程确定每一所述第一主题的关键字的关联关系。所述第二提取模块103还可以进一步结合每一所述第一主题在主题流的节点位置来确定每一所述第一主题的关键字的关联关系。
所述生成模块104用于将每一所述第一主题的关键字及其关联关系添加至所述主题流,以生成与所述多个文本资料对应的话题演变脉络图。
在一实施方式中,所述生成模块104可以将每一所述第一主题的关键字及其关联关系可视化为词云交叠在所述主题流上。话题演变脉络图可以通过显示模块(图未示)进行显示。
通过上述程序模块101-104,本发明所提出的话题演变的可视化展现系统100,首先,提取涉及同一事件的多个文本资料的主题,并确定每一所述主题之间的关联关系,以建立一主题流;其次,从多个所述主题中筛选出包含重要事件的多个第一主题;再者,提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系;最后,将每一所述第一主题的关键字及其关联关系添加至所述主题流,以生成与所述多个文本资料对应的话题演变脉络图。这样,可以对时序性的社会事件挖掘其主题,并把事件的演变趋势通过随时间变化的主题流可视化地表现出来,使用户能够对话题的演变过程和其中的重大事件有更好的了解,避免由于话题关联引起的话题漂移,实现帮助用户深入地了解话题深层的意义,避免得出错误认知或决断。
参阅图3所示,是本发明话题演变的可视化展现系统100第二实施例的程序模块图。本实施例中,所述话题演变的可视化展现系统100包括一系列的存储于存储器11上的计算机程序指令,当该计算机程序指令被处理器12执行时,可以实现本发明各实施例的话题演变的可视化展现操作。在一些实施例中,基于该计算机程序指令各部分所实现的特定的操作,话题演变的可视化展现系统100可以被划分为一个或多个模块。例如,在图3中,话题演变的可视化展现系统100可以被分割成第一提取模块101、筛选模块102、第二提取模块103、生成模块104及标示模块105。所述各程序模块101-104与本发明话题演变的可视化展现系统100第一实施例相同,并在此基础上增加标示模块105。其中:
所述第一提取模块101用于提取涉及同一事件的多个文本资料的主题,并确定每一所述主题之间的关联关系,以建立一主题流。
在一实施例中,所述文本资料可以是线上新闻文本,所述第一提取模块101可以通过接入网络来提取涉及同一事件的多个新闻文本。具体地,可以通过输入某一事件的关键字(例如事件的发生地点、主要人物、事由等)来从网络上搜寻并提取涉及该事件的多个新闻文本,再根据提取到得多个新闻文本来提取其主题。所述第一提取模块101可以获取当前新闻文本的人物、地点、事件等要素,并在该些要素的基础上生成一事件摘要作为所述新闻文本的主题。
在一实施方式中,所述第一提取模块101还用于对所述提取的多个文本资料进行预处理。所述预处理可以包括:对所述文本资料进行切分、繁简转化、替换歧义词、去除停用词、低频词、数字及标点符号等等。
在一实施方式中,所述第一提取模块101可以通过分层狄利克雷过程对每一主题进行建模,将t时刻到来的第i个文本资料记为
Figure GDA0003575317790000111
其所在的簇记为
Figure GDA0003575317790000112
如果在两个时间点上,
Figure GDA0003575317790000121
的簇标记不同,即
Figure GDA0003575317790000122
Figure GDA0003575317790000123
不一致,那么就可认为
Figure GDA0003575317790000124
的主题发生了改变,以此可以计算出两个量来得出主题的分裂与合并,该两个量分别是从时刻t-1到时刻t,簇r中来自簇s的比例:
Figure GDA0003575317790000125
,式中,
Figure GDA0003575317790000126
表示所述簇r中来所述自簇s的比例,I()为满足括号内条件的数量,从公式整体含义来讲,分母是t-1到t时刻簇r中所有资料的数量总和,分子是t-1到t时刻簇r中来自簇s的资料数量总和;
和从时刻t-1到时刻t簇s中流向簇r的比例:
Figure GDA0003575317790000127
式中,
Figure GDA0003575317790000128
表示所述簇s中流向所述簇r的比例,I()为满足括号内条件的数量,从公式整体含义来讲,分母是t-1到t时刻簇s所有资料的数量总和,分子是t-1到t时刻主题由簇s变为簇r的资料数量总和。
在一实施方式中,主题的产生与结束可以通过运用哈希表来进行检测。在哈希表中,每一主题具有唯一的存储位置相对应,进而来通过哈希表检测主题的产生与结束。
在一实施方式中,所述第一提取模块101可以根据每一文本资料的发文时间对每一文本资料的主题进行排序。所述第一提取模块101建立的主题流代表多个主题随着时间的演变,主题流的高度可以代表属于该主题的文档数。主题流也可以分为几个分支,数个分支也可以合并成一个主题。
所述标示模块105用于识别每一所述主题的产生、分裂、合并、结束在所述主题流中的节点位置,并对每一所述主题的产生、分裂、合并、结束的节点位置运用不同的标记符号进行标示。例如,使用实心圆圈代表主题的产生,使用空心圆圈代表主题的结束,使用不同角度的三叉标记分别代表主题的分裂和合并。
在一实施方式中,所述标示模块105可以运用哈希表及分层狄利克雷过程可以识别每一所述主题的产生、分裂、合并、结束在所述主题流中的节点位置,进而可以对每一所述主题的产生、分裂、合并、结束的节点位置运用不同的预设标记符号进行标示。对于分裂和合并的主题,所述标示模块105还可以选用与代表原主题相似的颜色进行标示。
所述筛选模块102用于从多个所述主题中筛选出包含重要事件的多个第一主题。
在一实施方式中,多个第一主题优选为存在分裂、合并的主题。主题的分裂与合并可以用分值进行表示。具体地可以使用信息熵算法来计算分值。存在合并的主题的分值可以通过以下公式进行计算:
Figure GDA0003575317790000131
其中,R(r,t)是簇r在时间t的排序分值,Nr是流入簇r的元素数量,存在分裂的主题的分值可以通过以下公式进行计算:
Figure GDA0003575317790000132
其中,R(s,t)是簇s在时间t的排序分值,Ns是流入簇r的元素数量。
所述筛选模块102可以根据计算得到的每一主题的分值,选取分值排序(分值可由大到小进行排列)前列的多个主题作为包含所述重要事件的第一主题。例如,所述筛选模块102选取分值排序前十的主题作为所述第一主题。所述第一主题也可在所述主题流上运用特定的颜色或标记符号进行标示。
所述第二提取模块103用于提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系。
在一实施方式中,所述第二提取模块103可以使用TF-IDF算法来提取每一所述第一主题的关键字。TF-IDF算法可以用于评估一字词对于一个主题文本中的重要程度。字词的重要性会随着它在文本中出现的次数成正比增加。在进行TF-IDF计算时,通过词频(TF)与逆文档频率(IDF)得出某个字词的TF-IDF值,若该字词对主题文本的重要性越高则该TF-IDF值越大。因此第二提取模块103可以将TF-IDF值排在最前面的几个字词作为该主题文本的关键词。例如,将TF-IDF值排在前五的字词作为该第一主题的关键词。
在一实施方式中,所述第二提取模块103可以通过分层狄利克雷过程确定每一所述第一主题的关键字的关联关系。所述第二提取模块103还可以进一步结合每一所述第一主题在主题流的节点位置来确定每一所述第一主题的关键字的关联关系。
所述生成模块104用于将每一所述第一主题的关键字及其关联关系添加至所述主题流,以生成与所述多个文本资料对应的话题演变脉络图。
在一实施方式中,所述生成模块104可以将每一所述第一主题的关键字及其关联关系可视化为词云交叠在所述主题流上。话题演变脉络图可以通过显示模块(例如投影屏、显示器等)进行显示。
通过上述程序模块101-105,本发明所提出的话题演变的可视化展现系统100,首先,提取涉及同一事件的多个文本资料的主题,并确定每一所述主题之间的关联关系,以建立一主题流;其次,识别每一所述主题的产生、分裂、合并、结束在所述主题流中的节点位置,并对每一所述主题的产生、分裂、合并、结束的节点位置运用不同的标记符号进行标示;再者,从多个所述主题中筛选出包含重要事件的多个第一主题;再者,提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系;最后,将每一所述第一主题的关键字及其关联关系添加至所述主题流,以生成与所述多个文本资料对应的话题演变脉络图。这样,可以对时序性的社会事件挖掘其主题,并把事件的演变趋势通过随时间变化的主题流可视化地表现出来,使用户能够对话题的演变过程和其中的重大事件有更好的了解,避免由于话题关联引起的话题漂移,实现帮助用户深入地了解话题深层的意义,避免得出错误认知或决断。
此外,本发明还提出一种话题演变的可视化展现方法。
参阅图4所示,是本发明话题演变的可视化展现方法第一实施例的实施流程示意图。在本实施例中,根据不同的需求,图4所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。
步骤S500,提取涉及同一事件的多个文本资料的主题,并确定每一所述主题之间的关联关系,以建立一主题流。
在一实施例中,所述文本资料可以是线上新闻文本,可以通过接入网络来提取涉及同一事件的多个新闻文本。具体地,可以通过输入某一事件的关键字(例如事件的发生地点、主要人物、事由等)来从网络上搜寻并提取涉及该事件的多个新闻文本,再根据提取到得多个新闻文本来提取其主题。
在一实施方式中,可以通过获取当前新闻文本的人物、地点、事件等要素,并在该些要素的基础上生成一事件摘要作为所述新闻文本的主题。
在一实施方式中,可以在提取文本资料主题之前对所述提取的多个文本资料进行预处理。所述预处理可以包括:对所述文本资料进行切分、繁简转化、替换歧义词、去除停用词、低频词、数字及标点符号等等。
在一实施方式中,可以通过分层狄利克雷过程对每一主题进行建模,将t时刻到来的第i个文本资料记为
Figure GDA0003575317790000151
其所在的簇记为
Figure GDA0003575317790000152
如果在两个时间点上,
Figure GDA0003575317790000153
的簇标记不同,即
Figure GDA0003575317790000154
Figure GDA0003575317790000155
不一致,那么就可认为
Figure GDA0003575317790000156
的主题发生了改变,以此可以计算出两个量来得出主题的分裂与合并,该两个量分别是从时刻t-1到时刻t,簇r中来自簇s的比例:
Figure GDA0003575317790000157
,式中,
Figure GDA0003575317790000158
表示所述簇r中来所述自簇s的比例,I()为满足括号内条件的数量,从公式整体含义来讲,分母是t-1到t时刻簇r中所有资料的数量总和,分子是t-1到t时刻簇r中来自簇s的资料数量总和;
和从时刻t-1到时刻t簇s中流向簇r的比例:
Figure GDA0003575317790000159
式中,
Figure GDA0003575317790000161
表示所述簇s中流向所述簇r的比例,I()为满足括号内条件的数量,从公式整体含义来讲,分母是t-1到t时刻簇s所有资料的数量总和,分子是t-1到t时刻主题由簇s变为簇r的资料数量总和。
在一实施方式中,主题的产生与结束可以通过运用哈希表来进行检测。在哈希表中,每一主题具有唯一的存储位置相对应,进而来通过哈希表检测主题的产生与结束。
在一实施方式中,可以根据每一文本资料的发文时间对每一文本资料的主题进行排序。建立的主题流可以代表多个主题随着时间的演变,主题流的高度可以代表属于该主题的文档数。主题流也可以分为几个分支,数个分支也可以合并成一个主题。
步骤S502,从多个所述主题中筛选出包含重要事件的多个第一主题。
在一实施方式中,多个第一主题优选为存在分裂、合并的主题。主题的分裂与合并可以用分值进行表示。具体地可以使用信息熵算法来计算分值。存在合并的主题的分值可以通过以下公式进行计算:
Figure GDA0003575317790000162
其中,R(r,t)是簇r在时间t的排序分值,Nr是流入簇r的元素数量,存在分裂的主题的分值可以通过以下公式进行计算:
Figure GDA0003575317790000163
其中,R(s,t)是簇s在时间t的排序分值,Ns是流入簇r的元素数量。
在一实施方式总,可以根据计算得到的每一主题的分值,选取分值排序(分值可由大到小进行排列)前列的多个主题作为包含所述重要事件的第一主题。例如,选取分值排序前十的主题作为所述第一主题。
步骤S504,提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系。
在一实施方式中,可以使用TF-IDF算法来提取每一所述第一主题的关键字。TF-IDF算法可以用于评估一字词对于一个主题文本中的重要程度。字词的重要性会随着它在文本中出现的次数成正比增加。在进行TF-IDF计算时,通过词频(TF)与逆文档频率(IDF)得出某个字词的TF-IDF值,若该字词对主题文本的重要性越高则该TF-IDF值越大。可以将TF-IDF值排在最前面的几个字词作为该主题文本的关键词。例如,将TF-IDF值排在前五的字词作为该第一主题的关键词。
在一实施方式中,还可以通过分层狄利克雷过程确定每一所述第一主题的关键字的关联关系。
在一实施方式中,还可以进一步结合每一所述第一主题在主题流的节点位置来确定每一所述第一主题的关键字的关联关系。
步骤S506,将每一所述第一主题的关键字及其关联关系添加至所述主题流,以生成与所述多个文本资料对应的话题演变脉络图。
在一实施方式中,可以将每一所述第一主题的关键字及其关联关系可视化为词云交叠在所述主题流上。话题演变脉络图可以通过投影屏、显示器等设备进行显示。
通过上述步骤S500-S506,本发明所提出的话题演变的可视化展现方法,首先,提取涉及同一事件的多个文本资料的主题,并确定每一所述主题之间的关联关系,以建立一主题流;其次,从多个所述主题中筛选出包含重要事件的多个第一主题;再者,提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系;最后,将每一所述第一主题的关键字及其关联关系添加至所述主题流,以生成与所述多个文本资料对应的话题演变脉络图。这样,可以对时序性的社会事件挖掘其主题,并把事件的演变趋势通过随时间变化的主题流可视化地表现出来,使用户能够对话题的演变过程和其中的重大事件有更好的了解,避免由于话题关联引起的话题漂移,实现帮助用户深入地了解话题深层的意义,避免得出错误认知或决断。
参阅图5所示,是本发明话题演变的可视化展现方法第二实施例的实施流程示意图。在本实施例中,根据不同的需求,图5所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。
步骤S500,提取涉及同一事件的多个文本资料的主题,并确定每一所述主题之间的关联关系,以建立一主题流。
在一实施例中,所述文本资料可以是线上新闻文本,可以通过接入网络来提取涉及同一事件的多个新闻文本。具体地,可以通过输入某一事件的关键字(例如事件的发生地点、主要人物、事由等)来从网络上搜寻并提取涉及该事件的多个新闻文本,再根据提取到得多个新闻文本来提取其主题。
在一实施方式中,可以通过获取当前新闻文本的人物、地点、事件等要素,并在该些要素的基础上生成一事件摘要作为所述新闻文本的主题。
在一实施方式中,可以在提取文本资料主题之前对所述提取的多个文本资料进行预处理。所述预处理可以包括:对所述文本资料进行切分、繁简转化、替换歧义词、去除停用词、低频词、数字及标点符号等等。
在一实施方式中,可以通过分层狄利克雷过程对每一主题进行建模,将t时刻到来的第i个文本资料记为
Figure GDA0003575317790000181
其所在的簇记为
Figure GDA0003575317790000182
如果在两个时间点上,
Figure GDA0003575317790000183
的簇标记不同,即
Figure GDA0003575317790000184
Figure GDA0003575317790000185
不一致,那么就可认为
Figure GDA0003575317790000186
的主题发生了改变,以此可以计算出两个量来得出主题的分裂与合并,该两个量分别是从时刻t-1到时刻t,簇r中来自簇s的比例:
Figure GDA0003575317790000187
,式中,
Figure GDA0003575317790000188
表示所述簇r中来所述自簇s的比例,I()为满足括号内条件的数量,从公式整体含义来讲,分母是t-1到t时刻簇r中所有资料的数量总和,分子是t-1到t时刻簇r中来自簇s的资料数量总和;
和从时刻t-1到时刻t簇s中流向簇r的比例:
Figure GDA0003575317790000191
式中,
Figure GDA0003575317790000192
表示所述簇s中流向所述簇r的比例,I()为满足括号内条件的数量,从公式整体含义来讲,分母是t-1到t时刻簇s所有资料的数量总和,分子是t-1到t时刻主题由簇s变为簇r的资料数量总和
在一实施方式中,主题的产生与结束可以通过运用哈希表来进行检测。在哈希表中,每一主题具有唯一的存储位置相对应,进而来通过哈希表检测主题的产生与结束。
在一实施方式中,可以根据每一文本资料的发文时间对每一文本资料的主题进行排序。建立的主题流可以代表多个主题随着时间的演变,主题流的高度可以代表属于该主题的文档数。主题流也可以分为几个分支,数个分支也可以合并成一个主题。
步骤S508,识别每一所述主题的产生、分裂、合并、结束在所述主题流中的节点位置,并对每一所述主题的产生、分裂、合并、结束的节点位置运用不同的标记符号进行标示。例如,使用实心圆圈代表主题的产生,使用空心圆圈代表主题的结束,使用不同角度的三叉标记分别代表主题的分裂和合并。
在一实施方式中,可以运用哈希表及分层狄利克雷过程可以识别每一所述主题的产生、分裂、合并、结束在所述主题流中的节点位置,进而可以对每一所述主题的产生、分裂、合并、结束的节点位置运用不同的预设标记符号进行标示。对于分裂和合并的主题,还可以选用与代表原主题相似的颜色进行标示。
步骤S502,从多个所述主题中筛选出包含重要事件的多个第一主题。
在一实施方式中,多个第一主题优选为存在分裂、合并的主题。主题的分裂与合并可以用分值进行表示。具体地可以使用信息熵算法来计算分值。存在合并的主题的分值可以通过以下公式进行计算:
Figure GDA0003575317790000201
其中,R(r,t)是簇r在时间t的排序分值,Nr是流入簇r的元素数量,存在分裂的主题的分值可以通过以下公式进行计算:
Figure GDA0003575317790000202
其中,R(s,t)是簇s在时间t的排序分值,Ns是流入簇r的元素数量。
在一实施方式总,可以根据计算得到的每一主题的分值,选取分值排序(分值可由大到小进行排列)前列的多个主题作为包含所述重要事件的第一主题。例如,选取分值排序前十的主题作为所述第一主题。所述第一主题也可在所述主题流上运用特定的颜色或标记符号进行标示。
步骤S504,提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系。
在一实施方式中,可以使用TF-IDF算法来提取每一所述第一主题的关键字。TF-IDF算法可以用于评估一字词对于一个主题文本中的重要程度。字词的重要性会随着它在文本中出现的次数成正比增加。在进行TF-IDF计算时,通过词频(TF)与逆文档频率(IDF)得出某个字词的TF-IDF值,若该字词对主题文本的重要性越高则该TF-IDF值越大。可以将TF-IDF值排在最前面的几个字词作为该主题文本的关键词。例如,将TF-IDF值排在前五的字词作为该第一主题的关键词。
在一实施方式中,还可以通过分层狄利克雷过程确定每一所述第一主题的关键字的关联关系。
在一实施方式中,还可以进一步结合每一所述第一主题在主题流的节点位置来确定每一所述第一主题的关键字的关联关系。
步骤S506,将每一所述第一主题的关键字及其关联关系添加至所述主题流,以生成与所述多个文本资料对应的话题演变脉络图。
在一实施方式中,可以将每一所述第一主题的关键字及其关联关系可视化为词云交叠在所述主题流上。话题演变脉络图可以通过投影屏、显示器等设备进行显示。
通过上述步骤S500-S508,本发明所提出的话题演变的可视化展现方法,首先,提取涉及同一事件的多个文本资料的主题,并确定每一所述主题之间的关联关系,以建立一主题流;其次,识别每一所述主题的产生、分裂、合并、结束在所述主题流中的节点位置,并对每一所述主题的产生、分裂、合并、结束的节点位置运用不同的标记符号进行标示;再者,从多个所述主题中筛选出包含重要事件的多个第一主题;再者,提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系;最后,将每一所述第一主题的关键字及其关联关系添加至所述主题流,以生成与所述多个文本资料对应的话题演变脉络图。这样,可以对时序性的社会事件挖掘其主题,并把事件的演变趋势通过随时间变化的主题流可视化地表现出来,使用户能够对话题的演变过程和其中的重大事件有更好的了解,避免由于话题关联引起的话题漂移,实现帮助用户深入地了解话题深层的意义,避免得出错误认知或决断。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种话题演变的可视化展现方法,应用于应用服务器,其特征在于,所述方法包括:
提取涉及同一事件的多个文本资料的主题,并通过分层狄利克雷过程确定每一所述主题之间的关联关系,以建立一主题流,所述分层狄利克雷过程包括计算从时刻t-1到时刻t,簇r中来自簇s的比例,及从时刻t-1到时刻t,簇s中流向簇r的比例,以确定每一所述主题之间的关联关系,将t时刻到来的第i个资料记为
Figure FDA0003575317780000011
其所在的簇记为
Figure FDA0003575317780000012
所述簇r中来所述自簇s的比例通过以下公式计算得到:
Figure FDA0003575317780000013
式中,
Figure FDA0003575317780000014
表示所述簇r中来所述自簇s的比例,I()为满足括号内条件的数量,从公式整体含义来讲,分母是t-1到t时刻簇r中所有资料的数量总和,分子是t-1到t时刻簇r中来自簇s的资料数量总和;
所述簇s中流向所述簇r的比例通过以下公式计算得到:
Figure FDA0003575317780000015
式中,
Figure FDA0003575317780000016
表示所述簇s中流向所述簇r的比例,I()为满足括号内条件的数量,从公式整体含义来讲,分母是t-1到t时刻簇s所有资料的数量总和,分子是t-1到t时刻主题由簇s变为簇r的资料数量总和;
从多个所述主题中筛选出包含重要事件的多个第一主题;
提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系;及
将每一所述第一主题的关键字及其关联关系添加至所述主题流,以生成与所述多个文本资料对应的话题演变脉络图。
2.如权利要求1所述的可视化展现方法,其特征在于,所述可视化展现方法还包括:
对所述多个文本资料进行预处理,所述预处理包括:对所述文本资料进行切分、繁简转化、替换歧义词、去除停用词、低频词、数字及标点符号。
3.如权利要求1所述的可视化展现方法,其特征在于,所述建立所述主题流的步骤之后还包括:
识别每一所述主题的产生、分裂、合并、结束在所述主题流中的节点位置;及
对每一所述主题的产生、分裂、合并、结束的节点位置运用不同的标记符号进行标示。
4.根据权利要求1所述的可视化展现方法,其特征在于,所述从多个所述主题中筛选出包含重要事件的多个第一主题的步骤包括:
利用信息熵算法来计算每一所述主题的分值;及
根据计算得到的分值大小来从多个所述主题中筛选出包含重要事件的多个所述第一主题;
其中,所述信息熵算法的计算公式为:
Figure FDA0003575317780000021
R(r,t)是簇r在时间t的排序分值,Nr是流入簇r的元素数量。
5.根据权利要求1所述的可视化展现方法,其特征在于,所述提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系的步骤包括:
利用TF-IDF算法提取每一所述第一主题的关键字;及
通过分层狄利克雷过程确定每一所述第一主题的关键字的关联关系。
6.一种应用服务器,其特征在于,所述应用服务器包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的话题演变的可视化展现系统,所述话题演变的可视化展现系统被所述处理器执行时实现如下步骤:
提取涉及同一事件的多个文本资料的主题,并通过分层狄利克雷过程确定每一所述主题之间的关联关系,以建立一主题流,所述分层狄利克雷过程包括计算从时刻t-1到时刻t,簇r中来自簇s的比例,及从时刻t-1到时刻t,簇s中流向簇r的比例,以确定每一所述主题之间的关联关系,将t时刻到来的第i个资料记为
Figure FDA0003575317780000031
其所在的簇记为
Figure FDA0003575317780000032
所述簇r中来所述自簇s的比例通过以下公式计算得到:
Figure FDA0003575317780000033
式中,
Figure FDA0003575317780000034
表示所述簇r中来所述自簇s的比例,I()为满足括号内条件的数量,从公式整体含义来讲,分母是t-1到t时刻簇r中所有资料的数量总和,分子是t-1到t时刻簇r中来自簇s的资料数量总和;
所述簇s中流向所述簇r的比例通过以下公式计算得到:
Figure FDA0003575317780000035
式中,
Figure FDA0003575317780000036
表示所述簇s中流向所述簇r的比例,I()为满足括号内条件的数量,从公式整体含义来讲,分母是t-1到t时刻簇s所有资料的数量总和,分子是t-1到t时刻主题由簇s变为簇r的资料数量总和;
从多个所述主题中筛选出包含重要事件的多个第一主题;
提取每一所述第一主题的关键字,并确定每一所述第一主题的关键字的关联关系;及
将每一所述第一主题的关键字及其关联关系添加至所述主题流,以生成与所述多个文本资料对应的话题演变脉络图。
7.如权利要求6所述的应用服务器,其特征在于,所述建立所述主题流的步骤之后还包括:
识别每一所述主题的产生、分裂、合并、结束在所述主题流中的节点位置;及
对每一所述主题的产生、分裂、合并、结束的节点位置运用不同的标记符号进行标示。
8.如权利要求6所述的应用服务器,其特征在于,所述从多个所述主题中筛选出包含重要事件的多个第一主题的步骤包括:
利用信息熵算法来计算每一所述主题的分值;及
根据计算得到的分值大小来从多个所述主题中筛选出包含重要事件的多个所述第一主题;
其中,所述信息熵算法的计算公式为:
Figure FDA0003575317780000041
R(r,t)是簇r在时间t的排序分值,Nr是流入簇r的元素数量。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有话题演变的可视化展现系统,所述话题演变的可视化展现系统可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-5中任一项所述的话题演变的可视化展现方法的步骤。
CN201810031859.7A 2018-01-12 2018-01-12 话题演变的可视化展现方法、应用服务器及计算机可读存储介质 Active CN108170838B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810031859.7A CN108170838B (zh) 2018-01-12 2018-01-12 话题演变的可视化展现方法、应用服务器及计算机可读存储介质
PCT/CN2018/090694 WO2019136920A1 (zh) 2018-01-12 2018-06-11 话题演变的可视化展现方法、应用服务器及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810031859.7A CN108170838B (zh) 2018-01-12 2018-01-12 话题演变的可视化展现方法、应用服务器及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108170838A CN108170838A (zh) 2018-06-15
CN108170838B true CN108170838B (zh) 2022-07-08

Family

ID=62514662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810031859.7A Active CN108170838B (zh) 2018-01-12 2018-01-12 话题演变的可视化展现方法、应用服务器及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN108170838B (zh)
WO (1) WO2019136920A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287172A (zh) * 2020-10-29 2021-01-29 药渡经纬信息科技(北京)有限公司 视频专辑生成方法及装置
CN112328747B (zh) * 2020-11-06 2024-05-24 平安科技(深圳)有限公司 事件脉络生成方法、装置、终端设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231640A (zh) * 2007-01-22 2008-07-30 北大方正集团有限公司 一种自动计算互联网上主题演化趋势的方法及系统
CN103177024A (zh) * 2011-12-23 2013-06-26 微梦创科网络科技(中国)有限公司 一种话题信息展现方法和装置
CN103473263A (zh) * 2013-07-18 2013-12-25 大连理工大学 一种面向新闻事件演变过程的可视化展现方法
JP2016066269A (ja) * 2014-09-25 2016-04-28 Kddi株式会社 クラスタリング装置、方法及びプログラム
CN106649726A (zh) * 2016-12-23 2017-05-10 中山大学 一种社交网络中社团话题演化挖掘方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9569547B2 (en) * 2013-12-31 2017-02-14 Google Inc. Generating a news timeline
CN104915446B (zh) * 2015-06-29 2019-01-29 华南理工大学 基于新闻的事件演化关系自动提取方法及其系统
CN106951554B (zh) * 2017-03-29 2021-04-20 浙江大学 一种层次化新闻热点及其演化的挖掘与可视化方法
CN107315807B (zh) * 2017-06-26 2020-08-04 三螺旋大数据科技(昆山)有限公司 人才推荐方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231640A (zh) * 2007-01-22 2008-07-30 北大方正集团有限公司 一种自动计算互联网上主题演化趋势的方法及系统
CN103177024A (zh) * 2011-12-23 2013-06-26 微梦创科网络科技(中国)有限公司 一种话题信息展现方法和装置
CN103473263A (zh) * 2013-07-18 2013-12-25 大连理工大学 一种面向新闻事件演变过程的可视化展现方法
JP2016066269A (ja) * 2014-09-25 2016-04-28 Kddi株式会社 クラスタリング装置、方法及びプログラム
CN106649726A (zh) * 2016-12-23 2017-05-10 中山大学 一种社交网络中社团话题演化挖掘方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A Tool for Visualizing Topic Evolution in Large Text Collections;Feipeng Sun et al;《2013 IEEE 13th International Conference on Advanced Learning Technologies》;20130919;第53-54页 *
LDA-based model for topic evolution mining on text;Qingqiang Wu et al;《2011 6th International Conference on Computer Science & Education (ICCSE)》;20110926;第946-949页 *
一种基于特征演变的新闻话题演化挖掘方法;赵旭剑 等;《计算机学报》;20140430;第37卷(第4期);第819-832页 *
基于LDA模型的网络舆情事件话题演化分析;林萍 等;《情报杂志》;20131231;第32卷(第12期);第26-30页 *
基于主题模型的BBS话题演化趋势分析;曹丽娜 等;《基于主题模型的BBS话题演化趋势分析》;20141130;第17卷(第11期);第109-121页 *

Also Published As

Publication number Publication date
WO2019136920A1 (zh) 2019-07-18
CN108170838A (zh) 2018-06-15

Similar Documents

Publication Publication Date Title
CN109271512B (zh) 舆情评论信息的情感分析方法、装置及存储介质
JP2017224184A (ja) 機械学習装置
CN104067567B (zh) 用于使用字符直方图进行垃圾邮件检测的系统和方法
CN110765770A (zh) 一种合同自动生成方法及装置
CN112016273A (zh) 文档目录生成方法、装置、电子设备及可读存储介质
CN112287914B (zh) Ppt视频段提取方法、装置、设备及介质
JP6780655B2 (ja) ログ分析システム、方法およびプログラム
CN111860377A (zh) 基于人工智能的直播方法、装置、电子设备及存储介质
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN111522901A (zh) 文本中地址信息的处理方法及装置
CN112445915A (zh) 一种基于机器学习的文书图谱抽取方法、装置及存储介质
CN108170838B (zh) 话题演变的可视化展现方法、应用服务器及计算机可读存储介质
CN113962199B (zh) 文本识别方法、装置、设备、存储介质及程序产品
CN113360768A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
CN109815243B (zh) 一种文档界面化修改时的结构化存储方法和装置
CN108921193B (zh) 图片录入方法、服务器及计算机存储介质
CN111444368B (zh) 构建用户画像的方法、装置、计算机设备及存储介质
CN113591881A (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN110968584B (zh) 一种画像生成系统、方法、电子设备及可读存储介质
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN109670183B (zh) 一种文本重要性的计算方法、装置、设备和存储介质
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN110688995A (zh) 地图查询的处理方法,计算机可读存储介质和移动终端
CN111667547B (zh) Gan网络训练方法、服装图片生成方法、装置及电子设备
Apostolova et al. Digital leafleting: Extracting structured data from multimedia online flyers

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant