CN108804432A

CN108804432A - 一种基于网络媒体数据流发现并跟踪热点话题的方法、系统和装置

Info

Publication number: CN108804432A
Application number: CN201710282133.6A
Authority: CN
Inventors: 唐晓丽; 梁颖琪
Original assignee: Wisers Information Ltd
Current assignee: Wisers Information Ltd
Priority date: 2017-04-26
Filing date: 2017-04-26
Publication date: 2018-11-13
Also published as: TWI653542B; TW201839628A

Abstract

本发明提供了一种基于网络媒体数据流发现热点话题的方法，包括：根据预设的时间间隔，从网络媒体平台获取当前时间窗口t内的多篇不同类型的文本数据，并对所获取的数据进行预处理；采用分类算法识别经预处理的每篇文本数据的类别，并根据所识别的类别对各篇文本数据进行过滤；以各篇经预处理和过滤的文本数据作为输入，统计关键词共现关系；根据关键词共现关系的统计结果，构建或更新对应的关键词图；按照预定的规则对关键词图进行逐步切分，以获得作为候选话题集合的一系列子图；针对候选话题集合中的各个候选话题，基于对应的子图进行聚类合并，以获取作为结果的热点话题。本发明还提供了基于网络媒体数据流发现热点话题的系统和装置。

Description

一种基于网络媒体数据流发现并跟踪热点话题的方法、系统和装置

技术领域

本发明属于互联网数据挖掘技术领域，特别涉及一种基于网络媒体数据流发现并跟踪热点话题的方法、系统和装置。

背景技术

计算机、通信以及网络技术的迅速发展使包括PC、平板电脑、智能手机、网络电视等在内的终端设备的性能不断提高。相应地，互联网媒体，特别是互联网社交媒体，凭借其多元性、迅捷性、交互性、易复制性、多媒体化等特点，已逐渐成为大众获取新闻资讯的主要途径之一。互联网社交媒体作为人们沟通交流的工具，越来越多地被用于传播新闻报道，更新个人状态，发布目击记录和交流思想看法。社交媒体上的数据量每天以数百万计的速度迅速增长，如何从海量的数据中实时发现和跟踪热点话题来为企业决策和政府舆情监控提供指引，已成为业界研究的热点。

然而，现有的热点话题发现和跟踪技术方案或多或少存在以下缺陷：1)数据来源单一，发现的热点话题不全面；2)对于采用聚类/主题模型进行热点话题发现的方法，由于社交媒体数据简短和不规范性，使得精确度较低；3)对于根据源数据类型将话题简单定义为在特定时间地点常用/常见的关键词、短语、话题标签或文章等的方法，则存在无法对话题进行丰富的及语意层面的分析与描述的不足，并且无法实现对话题的跟踪；4)对于单纯采用图搜索(例如广度优先搜索)对词共现图(简称词图)进行切分以实现热点话题发现的方法，由于词图体积较大，图搜索算法复杂度高，算法效率低。

发明内容

本发明的目的是克服现有技术中的不足，提供一种热点话题发现与跟踪技术。本发明以互联网媒体数据流为对象，以词共现图的构建/更新为基础，通过对词图的逐步切分处理获取候选话题集合，并进行候选话题聚类以实现对热点话题的发现；进一步地，通过时间维度对发现的热点话题进行对比，从而实现对热点话题的跟踪。

对应地，本发明提供了一种基于网络媒体数据流发现热点话题的方法，包括以下步骤：根据预设的时间间隔，从网络媒体平台获取当前时间窗口t内的多篇不同类型的文本数据，并对所获取的数据进行预处理；采用分类算法识别经预处理的每篇文本数据的类别，并根据所识别的类别对各篇文本数据进行过滤；以各篇经预处理和过滤的文本数据作为输入，统计关键词共现关系；根据关键词共现关系的统计结果，构建或更新对应的关键词图；按照预定的规则对关键词图进行逐步切分，以获得作为候选话题集合的一系列子图；针对候选话题集合中的各个候选话题，基于对应的子图进行聚类合并，以获取作为结果的热点话题。

优选地，所述关键词图中的节点由各个关键词构成，所述关键词图中的边由各个关键词的共现关系构成。

优选地，所述构建或更新对应的关键词图的步骤包括：根据词共现的统计结果为每条边赋权值；根据每个节点所连接边的权值为对应的节点赋权值。

优选地，所述按照预定的规则对关键词图进行逐步切分的步骤包括：根据关键词图中节点的权值信息，按照预定的规则选取节点集合；针对选取的节点集合，从权值最高的节点开始，计算每个当前节点与其邻接点的紧密度；根据每个当前节点与其邻接点的紧密度是否大于预定的第一阈值，将整个关键词图逐步切分为一系列子图集合。

优选地，所述预定的规则包括：top-K个节点，top-K％个节点，权值高于阈值的节点，包含特定关键词的节点，与特定行业、特定公司、特定产品和/或特定人物相关的节点，和/或所有节点。

优选地，所述预定的规则可以单独使用或任意交叉组合使用。

优选地，针对每个邻接点，所述紧密度是根据该邻接点与邻居节点之间连接分布关系计算获取的。

优选地，所述将整个关键词图逐步切分为一系列子图集合的步骤包括：选取所述紧密度大于预定的第一阈值的邻接点集合与所述当前节点构建的子图，作为切分的一个候选话题。

优选地，所述方法还包括：针对切分得到的每一个子图，进一步采用图搜索的方式判断是否需要对子图进行再次切分。

优选地，所述针对各个候选话题进行聚类合并的步骤包括：将每个候选话题所对应的子图以向量的形式表示；利用候选话题的向量进行聚类合并处理。

优选地，所述将每个候选话题所对应的子图以向量的形式表示的步骤包括：基于语义相似性模型，利用词向量表示工具来提取每个候选话题所对应的子图的语义特征向量。

优选地，所述针对各个候选话题基于对应的子图进行子图聚类合并的步骤包括：选取候选话题集合中的一个候选话题；计算所选取的候选话题的向量与当前时间窗口t中已有的各热点话题的向量之间的相似度；选取针对该候选话题计算得到的各个相似度中的最大值；将所述相似度最大值与预定的第二阈值比较；如果所述相似度最大值大于所述预定的第二阈值，则将所选取的候选话题聚合到与所述相似度最大值对应的热点话题中，否则，使所选取的话题自成一个热点话题。

优选地，除对应的关键词图外，每个热点话题还具有以下中的至少一个：相关文章列表、趋势分析表、话题摘要、话题类别。

优选地，在上述方法中，在获取作为结果的热点话题之后，进一步执行以下步骤，以实现话题跟踪：针对当前时间窗口t内发现的每个热点话题j，计算该热点话题j与各个现有热点话题i之间的相关度，并记录与该热点话题j相关度最大的热点话题为i_max、其相关度为s_max；如果s_max值大于预设的第三阈值，则保存该热点话题j，并建立热点话题j与对应的热点话题i_max在当前时间窗口t出现的关联关系；如果s_max值不大于预设的第三阈值，则直接保留热点话题j，以作为时间窗口t内的一个新话题。

优选地，所述方法还包括：当s_max值大于预设的第三阈值时，合并所述热点话题j与对应的热点话题i_max的关键词图。

优选地，所述计算热点话题j与各个现有热点话题i之间的相关度的步骤包括：通过热点话题i和热点话题j的关键词集合的交集中词的数量与并集中词的数量之比得到这两个话题的相关度。

优选地，所述计算热点话题j与各个现有热点话题i之间的相关度可以通过计算关键词图之间相关度、相关文章之间相关度和/或话题摘要之间相关度获取。

优选地，所述关联关系包括：所述热点话题j是所述热点话题i_max的延伸、演变、子话题或相关话题。

本发明还提供给了一种基于网络媒体数据流发现热点话题的系统，包括：预处理单元，其用于根据预设的时间间隔，从网络媒体平台获取当前时间窗口t内的多篇不同类型的文本数据，并对所获取的数据进行预处理；分类和过滤单元，其用于采用分类算法识别经预处理的每篇文本数据的类别，并根据所识别的类别对各篇文本数据进行过滤；统计单元，其用于以各篇经预处理和过滤的文本数据作为输入，统计关键词共现关系；构建/更新单元，其用于根据关键词共现关系的统计结果，构建或更新对应的关键词图；切分单元，其用于按照预定的规则对关键词图进行逐步切分，以获得作为候选话题集合的一系列子图；聚类单元，其用于针对候选话题集合中的各个候选话题，基于对应的子图进行聚类合并，以获取作为结果的热点话题。

优选地，所述构建/更新单元还用于：根据词共现的统计结果为每条边赋权值；根据每个节点所连接边的权值为对应的节点赋权值。

优选地，所述切分单元还用于：根据关键词图中节点的权值信息，按照预定的规则选取节点集合；针对选取的节点集合，从权值最高的节点开始，计算每个当前节点与其邻接点的紧密度；根据每个当前节点与其邻接点的紧密度是否大于预定的第一阈值，将整个关键词图逐步切分为一系列子图集合。

优选地，所述切分单元还用于：选取所述紧密度大于预定的第一阈值的邻接点集合与所述当前节点构建的子图，作为切分的一个候选话题。

优选地，所述切分单元还用于：针对切分得到的每一个子图，进一步采用图搜索的方式判断是否需要对子图进行再次切分。

优选地，所述聚类单元还用于：将每个候选话题所对应的子图以向量的形式表示；利用候选话题的向量进行子图聚类合并处理。

优选地，所述聚类单元还用于：基于语义相似性模型，利用词向量表示工具来提取每个候选话题所对应的子图的语义特征向量。

优选地，所述聚类单元还用于：选取候选话题集合中的一个候选话题；计算所选取的候选话题的向量与当前时间窗口t中已有的各热点话题的向量之间的相似度；选取针对该候选话题计算得到的各个相似度中的最大值；将所述相似度最大值与预定的第二阈值比较；如果所述相似度最大值大于所述预定的第二阈值，则将所选取的候选话题聚合到与所述相似度最大值对应的热点话题中，否则，使所选取的话题自成一个热点话题。

优选地，上述系统还包括以下用于实现话题跟踪的单元：计算单元，其用于针对当前时间窗口t内发现的每个热点话题j，计算该热点话题j与各个现有热点话题i之间的相关度并记录与该热点话题j相关度最大的热点话题为i_max、其相关度为s_max；确定和保存单元，其用于：在确定相关度计算结果s_max值大于预设的第三阈值时，保存该热点话题j，并建立热点话题j与对应的热点话题i_max在当前时间窗口t出现的关联关系；并且在确定相关度计算结果不大于预设的第三阈值，则直接保留热点话题j，以作为时间窗口t内的一个新话题。

优选地，所述系统还包括合并单元，其用于当相关度计算结果s_max值大于预设的第三阈值时，合并所述热点话题j与对应的热点话题i_max的关键词图。

优选地，所述计算单元还用于：通过热点话题i和热点话题j的关键词集合的交集中词的数量与并集中词的数量之比得到这两个话题的相关度。

优选地，所述计算单元还用于：计算关键词图之间相关度、相关文章之间相关度和/或话题摘要之间相关度，以获取热点话题j与各个现有热点话题i之间的相关度。

本发明还提供了一种基于网络媒体数据流发现热点话题的装置，包括：处理器；存储器，其与所述处理器耦接，并且存储有用于执行以下操作的计算机程序代码：根据预设的时间间隔，从网络媒体平台获取当前时间窗口t内的多篇不同类型的文本数据，并对所获取的数据进行预处理；采用分类算法识别经预处理的每篇文本数据的类别，并根据所识别的类别对各篇文本数据进行过滤；以各篇经预处理和过滤的文本数据作为输入，统计关键词共现关系；根据关键词共现关系的统计结果，构建或更新对应的关键词图；按照预定的规则对关键词图进行逐步切分，以获得作为候选话题集合的一系列子图；针对候选话题集合中的各个候选话题，基于对应的子图进行聚类合并，以获取作为结果的热点话题。

优选地，所述存储器还存储有用于执行以下操作的计算机程序代码，从而在获取作为结果的热点话题之后，实现话题跟踪：针对当前时间窗口t内发现的每个热点话题j，计算该热点话题j与各个现有热点话题i之间的相关度，并记录与该热点话题j相关度最大的热点话题为i_max、其相关度计算结果为s_max；如果s_max值大于预设的第三阈值，则保存该热点话题j，并建立热点话题j与对应的热点话题i_max在当前时间窗口t出现的关联关系；如果s_max值不大于预设的第三阈值，则直接保留热点话题j，以作为时间窗口t内的一个新话题。

通过实施本发明提供的技术方案可以获得以下技术效果：1)可以对多种社交媒体平台的不同类型的数据统一进行处理，进行全面的热点话题发现；2)实现对热点话题全面、动态地展示；3)对于发现的热点话题，从语义角度出发进一步分析、聚类，解决同一话题的不同表示方法，有效提高了话题的独立性；4)通过逐步对词图进行切分，在保证热点话题发现准确度的情况下，明显提升了处理效率。

附图说明

图1是本发明提供的一种发现网络媒体数据流中的热点话题的方法的示例性流程图；

图2是根据本发明的一个实施例对文本数据进行预处理的示意图；

图3是根据本发明的一个实施例构建关键词图处理的示意图；

图4是根据本发明的一个实施例对关键词图进行切分处理的示意图；

图5是根据本发明的一个实施例的词向量训练结果的示意图；

图6是根据本发明的一个实施例对候选话题进行聚类合并处理的示例性流程图；

图7是本发明提供的一种跟踪网络媒体数据流中的热点话题的方法的示例性流程图；

图8是根据本发明的一个实施例的相关联话题i和话题j的关键词图的示意图；

图9是根据本发明的一个实施例的对上述相关联话题i和话题j的关键词图进行合并处理的示意图；

图10是本发明提供的一种发现并跟踪网络媒体数据流中的热点话题的系统的示例性框图。

具体实施方式

以下结合附图通过实施例的形式来描述本发明的具体实施方式，以便于本领域技术人员理解本发明的目的、技术方案和优点。本领域技术人员可以理解，以实施例的形式描述的具体实施方式仅仅是示例性的，而本发明的构思并不仅限于所示出的这些特定的实施例。

图1示出了本发明提供的一种发现网络媒体数据流中的热点话题的方法100的示例性流程图。

首先，在步骤101中，根据预设的时间间隔，从网络媒体平台获取当前时间窗口t的多篇不同类型的文本数据，并对所获取的数据进行预处理。在本发明中，包含有文本数据的网络媒体数据流可以从各种形式的网络媒体平台(即，数据源)获得，包括但不限于，微博、Facebook等社交媒体平台，微信等即时通讯平台，以及论坛、新闻网站等较为传统的网络媒体平台。相应地，本发明并不对文本数据的来源、格式、语言以及篇幅做出限制，一篇(或一组)文本数据可以是一篇正规的新闻报告，也可以是一篇微博。可以根据需要来灵活地选择预设的时间间隔(例如每天、每小时或每十分钟等)，以确定合适的当前时间窗口t对数据进行预处理及话题发现。预处理操作包括分词、词性标注、去停用词和去噪等。

现在转到图2，图2示出了根据本发明的一个实施例对文本数据进行预处理的示意图。在图2中，方框(a)表示原始输入的一篇文本数据。在示出的实施例中，为了便于说明，将输入的一篇文本数据示出为一句话的短消息。首先，对文本数据进行分词处理，并为分词处理后的每个词添加其词性标记，分词处理的结果如方框(b)所示。例如，在该实施例中，ns表示地名、v表示动词、w表示标点符号等等。本发明并不对分词和添加词性标记的具体处理方式做出限制。然后，继续对分词处理的进行去停用词处理，即将常用词以及无意义词去掉，去停用词处理的结果如方框(c)所示。

回到图1，在步骤102中，针对经预处理的每篇文本数据，采用分类算法识别其所属类别，并根据所识别的类别对各篇文本数据进行过滤。该处理步骤可以用作去除数据流中的广告、私人生活状态等无用信息，还可以用作支持用户自定义其感兴趣的话题类别(例如，时政、财经、体育等)，以过滤属于不感兴趣话题类别的文章。本发明并不对文本数据分类和过滤的具体处理方式做出限制。

然后，在步骤103中，以各篇经预处理和过滤的文本数据作为输入，统计关键词共现关系。对于给定的一篇文本数据，可以根据各种合理的方式定义两个关键词之间是否存在“共现”关系。例如，可以根据以下方式中的至少一种来确定共现关系：两个词是否在同一个句子中出现；两个词之间的距离是否小于某一阈值；两个词在文法上是否存在依存关系。在一个实施例中，一个时间窗口t内的关键词共现关系统计结果可以通过累计该时间窗口内所有文本数据的统计结果来获取。

然后，在步骤104中，根据关键词共现关系的统计结果，构建或更新对应的关键词图。

现在转到图3，结合具体实例来说明构建关键词图处理的具体方式。在图3的实施例中，方框(a)示出了用于构建词图的各个关键词。在这个实施例中，根据两个关键词之间的距离来确定词共现关系，这里设定距离的阈值为3，即将相邻的三个关键词视为具有共现关系。例如，方框(a)中相邻的“美国”、“威斯康辛州”、“选举”三个关键词具有共现关系。具体构建过程如下：

首先，根据词共现关系构建的统计结果构建关键词图，如图(b)所示。在所构建的关键词图中，节点由各个关键词构成，边由各个关键词的共现关系构成。

然后，根据词共现的统计结果(即，共现次数)为每条边赋权值，如图(c)所示。在一个实施例中，可以通过累加两个关键词在不同时间窗口内的共现次数来计算对应边的权值。在另一个实施例中，在当前时间窗口t中计算边权重时，可以加入时间衰减因子，即随着时间的推进不断减低历史数据的重要性。在另一个实施例中，可以设置时间推进窗口阈值，删除大于阈值的历史数据，以减小对当前窗口权值计算的影响。

然后，根据每个节点(即，关键词)所连接边的权值为对应的节点赋权值，例如，如图(d)所示，将每个节点所有连接边的权值相加。在一个实施例中，可以根据节点所代表的关键词的词性调整其权值，例如，提高人名、地名、机构名等专有名词的权值。可以理解，边和节点的权值反映了其在在不同时间窗口的热门程度或重要性。

在系统初始化阶段(即，t为第一个时间窗口)，上述处理过程可以用于构建关键词图，之后该处理过程可以进一步用于根据历史数据更新当前时间窗口t的关键词图。

回到图1，在步骤105中，按照预定的规则对关键词图进行逐步切分，以获得作为候选话题集合的一系列子图。如上文所述，单纯采用图搜索方式进行热点话题发现的现有技术具有处理效率低的缺陷。本发明则通过逐步对关键词图进行切分的方式，将整个词图逐步切分为一系列子图集合，然后在必要时对切分得到的每一个子图采用图搜索的方式进一步判断是否进行再一次切分。此时，由于子图较小，图搜索算法效率将会提高。切分得到的最终子图集合即为候选话题集合。

现在转到图4，结合具体实例来说明对关键词图进行切分处理的具体方式。在图4的实施例中，图(a)示出了通过步骤101-104构造的一个完整的关键词图。出于简洁的目的，所示出的关键词图仅标识了每个节点(即，关键词)的权值，而未示出每条边(即，共现关系)的权值。

首先，根据关键词图中节点的权值信息，按照预定的规则选取一个节点集合。例如，预定的规则可以包括选取top-K个节点，top-K％个节点，权值高于阈值的节点，包含特定关键词的节点，与特定行业、特定公司、特定产品和/或特定人物相关的节点，所有节点等。在一个实施例中，所述预定的规则可以单独使用；在另一个实施例中，所述预定的规则可以任意交叉组合使用。

然后，针对选取的节点集合，从权值最高的节点开始，通过计算每个节点与其邻接点的紧密度，将整个词图逐步切分为一系列子图集合。

针对每个邻接点，根据该邻接点与邻居节点之间连接分布关系计算紧密度。以下结合图4中的图(b)至图(d)来说明节点紧密度的一种具体计算方法。

如图(b)所示，假设按照预定的规则选取节点后，当前需要计算邻接点紧密度的节点是“美国”，如图(b)中的双圆圈节点所示。对应地，该节点具有五个邻接点“选举”、“威斯康辛州”、“委员会”、“周五”、“总统”，如图(b)中的粗圆圈所示。在一个实施例中，针对每个上述邻接点，采用以下公式计算其集聚系数(clustering coefficient)：

其中，对于一个邻接点，其具有的邻居节点的数目是k，这k个邻居节点之间实际存在的边的数目为n，表示这k个邻居节点最多可能存在的边的个数。

可以理解的是，一个节点的集聚系数越大，表示该节点与其邻接点的紧密程度越高，该节点的重要度越大；反之，一个节点的集聚系数越小，表示该节点与其邻接点的紧密程度越低，该节点的重要度越小。

继续图4中的实例，作为“美国”节点的邻接点，“选举”节点共有四个邻居节点“威斯康辛州”、“委员会”、“美国”、“总统”(即，k＝4)，如图(c)中的粗圆圈所示，并且这四个邻居节点之间共有五条边(即，n＝5)，如图(c)中的虚线边所示，则“选举”节点的集聚系数为：

采用上述方式，计算“美国”节点的所有四个邻接点的集聚系数并对其进行排序，如表(d)所示。针对该计算结果，根据设定的阈值，选取集聚系数大于阈值的邻接点集合与“美国”节点构建的子图即为切分的一个候选话题。

可以理解，针对选取的节点集合中的各个节点执行上述处理，可以逐步地将完整的关键词图切分成为一系列子图，以作为候选话题的集合。

可选地，针对切分得到的每一个子图，可以进一步采用图搜索的方法判断是否需要对子图进行再次切分。

图搜索技术可以用于根据词图的结构对词图进行切分。可以采用各种适合的图搜索技术进行词图切分处理。在一个实施例中，可以采用CPM(Clique Percolation Method)算法进行词图切分。CPM算法根据词图中完全子图结构以及完全子图的重叠度进行词图切分。

回到图1，在步骤106中，针对候选话题集合中的各个候选话题，基于对应的子图进行聚类合并，以获取作为结果的热点话题。

在候选话题集合中，因不同网络媒体平台存在表达方式的不同，有可能存在语义相同的候选话题，因此需对其进行聚类合并处理，以提高话题的完整性和独立性。可以理解，在本发明中，对候选话题的聚类合并是基于通过词图切分获得的一系列子图进行的。候选话题的聚类合并处理包括候选话题向量获取候选话题聚类两个步骤。

在进行候选话题的聚类合并处理时，需要先将每个候选话题所对应的子图以向量的形式表示。本发明采用语义相似性模型，利用词向量表示工具(例如，word2vec、GloVe)来提取每个候选话题所对应的子图的语义特征向量。

在实现候选话题的向量表示时，首先，对一个大型数据集进行分词预处理，以预处理后的数据作为语义模型的输入进行词向量训练，以获取每个词的词向量。可以采用多种训练模式进行词向量训练，例如，word2vec词向量表示工具中采用CBOW(Continuous Bag-of-Words Model)和Skip-Gram两种训练模式。本发明对词向量训练的具体过程不再赘述。图5示出了根据本发明的一个实施例的词向量训练结果的示意图，其中的每一行表示一个词的词向量，相近的词其词向量是相近的，越相似的词在向量空间中的夹角越小。

然后，根据其子图包含的所有关键词的词向量得到候选话题的向量。在一个实施例中，可以将子图中所有关键词的词向量相加并取平均，最终得到的向量为候选话题向量。

在完成候选话题的向量表示后，利用候选话题的向量进行子图聚类合并处理。

现在转到图6，其示出了对候选话题进行聚类合并的处理600的示例性流程图。以下结合图6，以SinglePass聚类算法作为实例来说明聚类合并操作的具体处理流程。

在步骤601中，选取候选话题集合中的一个候选话题i。可以理解，当候选话题i是集合中的第一个候选话题时，其自成一个热点话题。

在步骤602中，计算候选话题i的向量与当前时间窗口t中已有的各热点话题j的向量之间的相似度。该相似度的计算基于话题的向量表示。可以通过各种合适的方法计算话题向量之间的相似度，例如，余弦相似度、欧氏距离、皮尔森相关系数等。

在步骤603中，选取针对该候选话题i计算得到的各个相似度中的最大值Sim。

在步骤604中，将该相似度最大值Sim与预定的阈值C比较。

如果相似度最大值Sim大于阈值C，则在步骤605中，将候选话题i聚合到与相似度最大值Sim对应的热点话题j中。

如果相似度最大值Sim不大于阈值C，则在步骤606中，使候选话题i自成一个热点话题。

在步骤607中，确定是否还有新的候选话题。如果是，则重复上述步骤601至步骤606，如果否，则结束整个处理流程。

以上结合图1-图6描述了本发明提供的一种发现网络媒体数据流中的热点话题的方法的实施例。通过上述方法，可以获得以关键词图表示的一组热点话题。

在一些实施例中，出于热点话题展示和分析的需要，还可以为每个热点话题添加除关键词图以外的其他属性，包括相关文章列表、趋势分析表、话题摘要、话题类别等。以下对上述各个热点话题的属性进行说明。

相关文章列表：对于每个话题，可以采用相似度计算方法计算每一篇文章与话题关键词图的相似度，对文章按照相似度从高到低进行排序，选取相似度大于阈值的文章作为当前话题的相关文章列表。

趋势分析表：对于每个话题，可以统计该话题从开始到结束期间各个时间间隔的状态，该状态可以用话题讨论度、话题文章量、转发量或话题影响力等数据来表示。可以根据统计数据，绘制话题的趋势分析表。在一个实施例中，在统计话题文章量时，趋势分析表可以是一个“时间—话题文章量”的二维图表。

话题摘要：为了直观地了解一个话题的内容，可以采用自动摘要技术来获取每个话题的详细描述。对于每个话题，对该话题的相关文章进行分析，采用当前任意的自动文本摘要技术抽取每个话题的摘要，例如，可以通过TextRank算法抽取相关文章集中的关键句子作为话题摘要。

话题类别：可选地，利用在步骤102获取的文章类别，可以将一个话题下所有相关文章的类别进行统计，从而获取一个话题的所属类别标签。

除了准确、高效地发现网络媒体平台中的热点话题以外，实现对已发现的热点话题进行有效跟踪也是本发明关注的一个问题。

图7示出了本发明提供的一种跟踪网络媒体数据流中的热点话题的方法700的示例性流程图。

首先，在步骤701中，针对当前时间窗口t内发现的每个热点话题j，计算该热点话题j与现有热点话题i之间的相关度。

可以通过多种方式计算热点话题j与现有热点话题i之间的相关度。

在第一个实施例中，可以通过话题i和话题j的关键词集合的交集中词的数量与并集中词的数量之比得到这两个话题之间的相关度。例如，图8示出了话题i和话题j的具体实例。在这个实例中，两个话题的交集为{Trump，Clinton，大选，美国}，并集为{Trump，Clinton，大选，美国，候选人，辩论，普京，否认，操作}，则两个话题的相关度为4/9＝0.44。

在第二个实施例中，可以采用话题聚类合并处理过程中候选话题的向量表示方法，根据关键词图获取话题i和话题j的向量，然后通过计算话题之间的相关度来获取相关度。

在第三个实施例中，可以通过关键词图之间的相关度(记为Sim(keywords))、相关文章列表之间的相关度(记为Sim(docs))、话题摘要之间的相关度(记为Sim(abs))的线性组合来计算话题i和话题j的相关度：

αSim(keywords)+βSim(docs)+γSim(abs)，其中α+β+γ＝1

可以理解，当α＝1时，该实施例即与上述第二实施例相同。

在该第三实施例中，Sim(docs)和Sim(abs)采用文本相似度计算的方式获取，包括以下步骤。

首先，对相关文章或摘要进行分词、去停用词等预处理。

然后，将预处理后的文本向量进行向量表示。可以采用各种合适的方法来表示文本向量。在一个实施例中，可以采用向量空间模型表示文本向量，具体而言，可以统计每个词的词频，并以词频作为文本向量每一维的特征。例如，一篇文章为doc1＝“周五进行总统选举”，则其文本向量表示为doc1＝{周五＝1，进行＝1，总统＝1，选举＝1}。在另一个实施例中，可采用上述聚类过程中运用语义模型的方式得到文本向量。

然后，基于文本向量计算文本相似度。其计算方式类似于Sim(keywords)，例如，计算余弦相似度、欧式距离等等。

进一步地，在步骤701中，根据相关度计算结果，将与热点话题j相关度最大的现有热点话题记录为i_max，并将对应的相关度计算结果记录为s_max。

在步骤702中，如果s_max值大于预设的阈值，则保存热点话题j，并建立热点话题j与对应的热点话题i_max在当前时间窗口t出现的关联关系；否则，则直接保留热点话题j，以作为时间窗口t内的一个新话题。

可以理解，如果s_max值大于预设的阈值，则说明热点话题j属于热点话题i_max的延续/演变或者是热点话题i_max的子话题或相关话题，那么可以通过建立并保存热点话题j与热点话题i_max在时间窗口t出现的这种关联关系，达到对热点话题i_max跟踪的效果。可选地，如果热点话题j与所有或前述的窗口阈值中的已有话题都不相似，则可以直接保留热点话题j作为在时间窗口t出现的新话题。

在步骤703中，当s_max值大于预设的阈值时，合并热点话题j与热点话题i_max的关键词图。在一个实施例中，还可以向用户展示合并后的关键词图。

图9是根据本发明的一个实施例的对相关联的话题i和话题j的关键词图进行合并处理的示意图。在该实施例中，在时间窗口t将当前的话题j与之前的时间窗口t-1的话题i合并，从而能够通过关键词图动态地展示话题的演变。在合并后的关键词图中虚线部份只出现在话题i中，点画线部份只出现在话题j，实线部分为话题i和话题j共有。可以理解，如上文所示，该实施例中的话题i可以是各个现有热点话题中与话题j相关度最大的热点话题i(即，话题i_max)。

图10是本发明提供的一种用于发现并跟踪网络媒体数据流中的热点话题的系统1000的示例性框图。

该系统1000包括话题发现子系统1001和话题跟踪子系统1002。进一步地，话题发现子系统1001可以包括预处理单元1003、分类和过滤单元1004、统计单元1005、构建/更新单元1006、切分单元1007、聚类单元1008，并且话题跟踪子系统可以包括计算单元1009、确定和保存单元1010、合并单元1011。上述系统单元1003-1011可以执行的操作和处理对应于上述处理方法100的步骤101-106以及处理方法的步骤701-703，因此不再赘述。

此外，本发明还提供给了一种基于网络媒体数据流发现热点话题的装置，其包括相互耦接的处理器和存储器，其中，在存储器中可以存储用于执行上文描述的各个方法步骤操作的计算机程序代码。

通过实现本发明中提供的各种发现和跟踪网络媒体数据流中的热点话题的技术方案，可以对多种社交媒体平台的不同类型的数据统一进行处理，从而进行全面的热点话题发现，并且实现对热点话题全面、动态地展示。同时，对于发现的热点话题，所提供的技术方案能够从语义角度出发进一步分析、聚类，解决同一话题的不同表示方法，有效提高了话题的独立性。另外，通过逐步对词图进行切分，所提供的技术方案在保证热点话题发现准确度的情况下，可以明显提升处理效率。

本领域技术人员还应当理解，结合本发明公开的各个实施例所描述的各种示例性的方法步骤和单元均可以实现成电子硬件、计算机软件或二者的组合。为了清楚地表示硬件和软件的可交换性，上文中各种示例性的步骤和单元均围绕其功能进行了总体描述。至于这种功能是实现成硬件还是实现成软件，则取决于特定的应用和对整个系统所施加的设计约束条件。本领域技术人员可以针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为偏离了本发明公开内容的范围。

本发明说明书中使用的“示例/示例性”表示用作例子、例证或说明。说明书中被描述为“示例性”的任何技术方案不应被解释为比其它技术方案更优选或更具优势。

本发明提供了对所公开的技术内容的以上描述，以使本领域技术人员能够实现或使用本发明。对于本领域技术人员而言，对这些技术内容的很多修改和变化都是显而易见的，并且本发明所定义的总体原理也可以在不脱离本发明的精神或范围的基础上适用于其它实施例。因此，本发明并不限于上文所示的具体实施方式，而是应与符合本发明公开的发明构思的最广范围相一致。

Claims

1.一种基于网络媒体数据流发现热点话题的方法，其特征在于，包括以下步骤：

根据预设的时间间隔，从网络媒体平台获取当前时间窗口t内的多篇不同类型的文本数据，并对所获取的数据进行预处理；

采用分类算法识别经预处理的每篇文本数据的类别，并根据所识别的类别对各篇文本数据进行过滤；

以各篇经预处理和过滤的文本数据作为输入，统计关键词共现关系；

根据关键词共现关系的统计结果，构建或更新对应的关键词图；

按照预定的规则对关键词图进行逐步切分，以获得作为候选话题集合的一系列子图；

针对候选话题集合中的各个候选话题，基于对应的子图进行聚类合并，以获取作为结果的热点话题。

2.根据权利要求1所述的方法，其特征在于，所述关键词图中的节点由各个关键词构成，所述关键词图中的边由各个关键词的共现关系构成。

3.根据权利要求2所述的方法，其特征在于，所述构建或更新对应的关键词图的步骤包括：

根据词共现的统计结果为每条边赋权值；

根据每个节点所连接边的权值为对应的节点赋权值。

4.根据权利要求3所述的方法，其特征在于，所述按照预定的规则对关键词图进行逐步切分的步骤包括：

根据关键词图中节点的权值信息，按照预定的规则选取节点集合；

针对选取的节点集合，从权值最高的节点开始，计算每个当前节点与其邻接点的紧密度；

根据每个当前节点与其邻接点的紧密度是否大于预定的第一阈值，将整个关键词图逐步切分为一系列子图集合。

5.根据权利要求4所述的方法，其特征在于，所述预定的规则包括：top-K个节点，top-K％个节点，权值高于阈值的节点，包含特定关键词的节点，与特定行业、特定公司、特定产品和/或特定人物相关的节点，和/或所有节点。

6.根据权利要求5所述的方法，其特征在于，所述预定的规则可以单独使用或任意交叉组合使用。

7.根据权利要求4所述的方法，其特征在于，针对每个邻接点，所述紧密度是根据该邻接点与邻居节点之间连接分布关系计算获取的。

8.根据权利要求4所述的方法，其特征在于，所述将整个关键词图逐步切分为一系列子图集合的步骤包括：

选取所述紧密度大于预定的第一阈值的邻接点集合与所述当前节点构建的子图，作为切分的一个候选话题。

9.根据权利要求4所述的方法，其特征在于，还包括：针对切分得到的每一个子图，进一步采用图搜索的方式判断是否需要对子图进行再次切分。

10.根据权利要求1所述的方法，其特征在于，所述针对各个候选话题进行聚类合并的步骤包括：

将每个候选话题所对应的子图以向量的形式表示；

利用候选话题的向量进行聚类合并处理。

11.根据权利要求10所述的方法，其特征在于，所述将每个候选话题以向量的形式表示的步骤包括：基于语义相似性模型，利用词向量表示工具来提取每个候选话题所对应的子图的语义特征向量。

12.根据权利要求1所述的方法，其特征在于，所述针对各个候选话题基于对应的子图进行聚类合并的步骤包括：

选取候选话题集合中的一个候选话题；

计算所选取的候选话题的向量与当前时间窗口t中已有的各热点话题的向量之间的相似度；

选取针对该候选话题计算得到的各个相似度中的最大值；

将所述相似度最大值与预定的第二阈值比较；

如果所述相似度最大值大于所述预定的第二阈值，则将所选取的候选话题聚合到与所述相似度最大值对应的热点话题中，否则，使所选取的话题自成一个热点话题。

13.根据权利要求1所述的方法，其特征在于，除对应的关键词图外，每个热点话题还具有以下中的至少一个：相关文章列表、趋势分析表、话题摘要、话题类别。

14.根据权利要求1-13中任一项所述的方法，其特征在于，在获取作为结果的热点话题之后，进一步执行以下步骤，以实现话题跟踪：

针对当前时间窗口t内发现的每个热点话题j，计算该热点话题j与各个现有热点话题i之间的相关度，并记录与该热点话题j相关度最大的热点话题为i_max、其相关度计算结果为s_max；

如果s_max值大于预设的第三阈值，则保存该热点话题j，并建立热点话题j与对应的热点话题i_max在当前时间窗口t出现的关联关系；

如果s_max值不大于预设的第三阈值，则直接保留热点话题j，以作为时间窗口t内的一个新话题。

15.根据权利要求14所述的方法，其特征在于，还包括：当s_max值大于预设的第三阈值时，合并所述热点话题j与对应的热点话题i_max的关键词图。

16.根据权利要求14所述的方法，其特征在于，所述计算热点话题j与各个现有热点话题i之间的相关度的步骤包括：

通过热点话题i和热点话题j的关键词集合的交集中词的数量与并集中词的数量之比得到这两个话题的相关度。

17.根据权利要求14所述的方法，其特征在于，所述计算热点话题j与各个现有热点话题i之间的相关度可以通过计算关键词图之间相关度、相关文章之间相关度和/或话题摘要之间相关度获取。

18.根据权利要求14所述的方法，其特征在于，所述关联关系包括：所述热点话题j是所述热点话题i_max的延伸、演变、子话题或相关话题。

19.一种基于网络媒体数据流发现热点话题的系统，其特征在于，包括：

预处理单元，其用于根据预设的时间间隔，从网络媒体平台获取当前时间窗口t内的多篇不同类型的文本数据，并对所获取的数据进行预处理；

分类和过滤单元，其用于采用分类算法识别经预处理的每篇文本数据的类别，并根据所识别的类别对各篇文本数据进行过滤；

统计单元，其用于以各篇经预处理和过滤的文本数据作为输入，统计关键词共现关系；

构建/更新单元，其用于根据关键词共现关系的统计结果，构建或更新对应的关键词图；

切分单元，其用于按照预定的规则对关键词图进行逐步切分，以获得作为候选话题集合的一系列子图；

聚类单元，其用于针对候选话题集合中的各个候选话题，基于对应的子图进行聚类合并，以获取作为结果的热点话题。

20.根据权利要求19所述的系统，其特征在于，所述关键词图中的节点由各个关键词构成，所述关键词图中的边由各个关键词的共现关系构成。

21.根据权利要求20所述的系统，其特征在于，所述构建/更新单元还用于：

根据词共现的统计结果为每条边赋权值；

根据每个节点所连接边的权值为对应的节点赋权值。

22.根据权利要求21所述的系统，其特征在于，所述切分单元还用于：

23.根据权利要求22所述的系统，其特征在于，所述预定的规则包括：top-K个节点，top-K％个节点，权值高于阈值的节点，包含特定关键词的节点，与特定行业、特定公司、特定产品和/或特定人物相关的节点，和/或所有节点。

24.根据权利要求23所述的系统，其特征在于，所述预定的规则可以单独使用或任意交叉组合使用。

25.根据权利要求22所述的系统，其特征在于，针对每个邻接点，所述紧密度是根据该邻接点与邻居节点之间连接分布关系计算获取的。

26.根据权利要求22所述的系统，其特征在于，所述切分单元还用于：选取所述紧密度大于预定的第一阈值的邻接点集合与所述当前节点构建的子图，作为切分的一个候选话题。

27.根据权利要求22所述的系统，其特征在于，所述切分单元还用于：针对切分得到的每一个子图，进一步采用图搜索的方式判断是否需要对子图进行再次切分。

28.根据权利要求19所述的系统，其特征在于，所述聚类单元还用于：

将每个候选话题所对应的子图以向量的形式表示；

利用候选话题的向量进行聚类合并处理。

29.根据权利要求28所述的系统，其特征在于，所述聚类单元还用于：基于语义相似性模型，利用词向量表示工具来提取每个候选话题所对应的子图的语义特征向量。

30.根据权利要求19所述的系统，其特征在于，所述聚类单元还用于：

选取候选话题集合中的一个候选话题；

选取针对该候选话题计算得到的各个相似度中的最大值；

将所述相似度最大值与预定的第二阈值比较；

31.根据权利要求19所述的系统，其特征在于，除对应的关键词图外，每个热点话题还具有以下中的至少一个：相关文章列表、趋势分析表、话题摘要、话题类别。

32.根据权利要求19-31中任一项所述的系统，其特征在于，还包括以下用于实现话题跟踪的单元：

计算单元，其用于针对当前时间窗口t内发现的每个热点话题j，计算该热点话题j与各个现有热点话题i之间的相关度，并记录与该热点话题j相关度最大的热点话题为i_max、其相关度计算结果为s_max；

确定和保存单元，其用于：在确定s_max值大于预设的第三阈值时，保存该热点话题j，并建立热点话题j与对应的热点话题i_max在当前时间窗口t出现的关联关系；并且在确定s_max值不大于预设的第三阈值时，则直接保留热点话题j，以作为时间窗口t内的一个新话题。

33.根据权利要求32所述的系统，其特征在于，还包括合并单元，其用于当s_max值大于预设的第三阈值时，合并所述热点话题j与对应的热点话题i_max的关键词图。

34.根据权利要求32所述的系统，其特征在于，所述计算单元还用于：

35.根据权利要求32所述的系统，其特征在于，所述计算单元还用于：

计算关键词图之间相关度、相关文章之间相关度和/或话题摘要之间相关度，以获取热点话题j与各个现有热点话题i之间的相关度。

36.根据权利要求32所述的系统，其特征在于，所述关联关系包括：所述热点话题j是所述热点话题i_max的延伸、演变、子话题或相关话题。

37.一种基于网络媒体数据流发现热点话题的装置，其特征在于，包括：

处理器；

存储器，其与所述处理器耦接，并且存储有用于执行以下操作的计算机程序代码：

38.根据权利要求37所述的装置，其特征在于，所述存储器还存储有用于执行以下操作的计算机程序代码，从而在获取作为结果的热点话题之后，实现话题跟踪：