CN106874419A

CN106874419A - 一种多粒度实时热点聚合方法

Info

Publication number: CN106874419A
Application number: CN201710054225.9A
Authority: CN
Inventors: 李建欣; 李晨; 兰天; 张日崇; 彭浩
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2017-01-22
Filing date: 2017-01-22
Publication date: 2017-06-20
Anticipated expiration: 2037-01-22
Also published as: CN106874419B

Abstract

本发明提供一种多粒度实时热点聚合方法，包括：对输入的流式数据进行数据清洗处理，并将处理后的流式数据表示为结构化数据；对第一预设时间片内的结构化数据进行分词，并计算各分词在所有结构化数据中的权重；根据各分词的权重计算当前时间片内各事件的权重；对事件进行聚合，并根据各事件的权重计算聚合后的每个事件簇的权重；根据各事件簇的权重生成排序后的事件列表。本发明提供的技术方案，提升了最终事件显示结果的粒度、事件的完整性和准确性，方便了用户快速准确地获取热点信息。

Description

一种多粒度实时热点聚合方法

技术领域

本发明涉及信息检索技术，尤其涉及一种多粒度实时热点聚合方法。

背景技术

互联网每时每刻都会产生的大量信息，其中有价值、信息量高的信息可视为热点信息，传统的新闻媒体通过人工对这些热点信息进行编辑与发布进而形成新闻，以便于人们及时了解实时信息，把握新鲜资讯。这种通过人工形成新闻的方式，能够保证新闻的准确性，但需要耗费大量时间，在一定意义上牺牲了新闻的实时性与客观性。

而伴随着现代人工智能及自然语言处理技术的发展与兴起，大量处理流式信息文本数据的非人工热点事件检测系统被开发，由机器代替人工，此类系统能够在微博、博客、网页等多源异构海量文本数据中快速发现文本结构异常，进而通过表示学习模型抽取事件表示，形成事件，因此拥有较高的时效性、客观性与准确性。其中一些已经被实现的系统中应用机器学习、深度学习等方法，获得了较为良好的效果。

但由于此类非人工热点事件检测技术仍处于初始应用阶段，很多真实世界中的情况无法预先考虑进来，诸如事件表示类似、同事件不同阶段等情况，会造成时间显示的冗余，影响用户快速准确地获取相关时间段内的热点信息；此外，事件表示不清、事件含义模糊等情况的出现也会影响用户获取热点信息的准确性。

发明内容

本发明提供一种多粒度实时热点聚合方法，用于方便用户快速准确地获取热点信息。

本发明提供一种多粒度实时热点聚合方法，包括：

对输入的流式数据进行数据清洗处理，并将处理后的流式数据表示为结构化数据；

对第一预设时间片内的结构化数据进行分词，并计算各分词在所有结构化数据中的权重；

根据各分词的权重计算当前时间片内各事件的权重，当前时间片位于第一预设时间片内，事件与结构化数据一一对应；

对事件进行聚合，并根据各事件的权重计算聚合后的每个事件簇的权重；

根据各事件簇的权重生成排序后的事件列表。

在本发明的一实施例中，结构化数据的属性包括标题和下列属性中的至少一项：时间、地点、人物、关键词、事件类型、情绪；

上述方法还包括：

根据各分词的权重计算当前时间片内结构化数据的各属性的权重，并根据结构化数据的各属性的权重基于各属性生成排序后的属性列表。

在本发明的一实施例中，对事件进行聚合具体包括：

根据各事件对应的结构化数据的标题间的文本编辑距离、各属性的语义相似度和各事件的时间轴分布对事件进行聚合。

在本发明的一实施例中，在根据各分词的权重计算当前时间片内各事件的权重之前，该方法还包括：

对第一预设时间片内的结构化数据进行词性标注；

对各分词进行词性过滤。

在本发明的一实施例中，在根据各分词的权重计算当前时间片内的事件的权重之前，该方法还包括：

计算各分词的语义相似度，对语义相似度大于第一预设阈值的分词进行合并操作，并根据各分词的权重和词性计算合并后的各分词的权重；

则根据各分词的权重计算当前时间片内各事件的权重，具体包括：

根据合并后的各分词的权重计算当前时间片内各事件的权重。

在本发明的一实施例中，在根据合并后的各分词的权重计算当前时间片内各事件的权重之前，该方法还包括：

删除权重小于第二预设阈值的分词。

在本发明的一实施例中，在对事件进行聚合之前，该方法还包括：

根据历史时间片内的事件对当前时间片内的事件的影响力补偿当前时间片内的事件的权重。

对当前时间片内的突发事件的权重进行补偿；突发事件为第二预设时间片内首次出现，且权重大于第三预设阈值的事件，第二预设时间片位于第一预设时间片内，当前时间片位于第二预设时间片内。

在本发明的一实施例中，根据各分词的权重和词性计算合并后的各分词的权重，具体包括：

根据公式(1)计算各分词在结构化数据中的权重；

其中，word_i表示第i个分词，word_j表示第j个分词，表示word_i的权重；表示word_i的词频，表示第i个分词的逆词频，表示word_j的词频，表示word_j的逆词频；表示word_i的来源属性对应的权重，表示word_i的词性对应的权重，表示word_j的来源属性对应的权重，表示word_j的词性对应的权重，number_similar表示与word_i的语义相似度大于第一预设阈值的分词的个数。

在本发明的一实施例中，根据公式(2)计算历史时间片内的事件对当前时间片内的事件的影响力；

其中，event_influence_residual表示影响力值，hotscore_event表示历史时间片内与当前分析事件相关的事件的权重，event_now表示当前分析事件的发生时间，event_end表示历史时间片内与当前分析事件相关的事件的发生时间，weight_type表示事件类型对应的权重。

本发明实施例提供的多粒度实时热点聚合方法，通过对处理后的事件进行聚合，将相同或相似的事件聚合在了一起，提升了最终事件显示结果的粒度，方便了用户快速准确地获取热点信息；通过对事件的数据补全操作，提高了事件的完整性和准确性，进而提高了用户获取热点信息的准确性。

附图说明

图1为本发明提供的多粒度实时热点聚合方法实施例一的流程示意图；

图2为本发明提供的多粒度实时热点聚合方法实施例二的流程示意图；

图3为本发明提供的多粒度实时热点聚合系统的结构示意图。

具体实施方式

下面结合附图，对本发明的实施例进行描述。

图1为本发明提供的多粒度实时热点聚合方法实施例一的流程示意图，本实施例的执行主体可以是多粒度实时热点聚合系统，如图1所示，本实施例提供的方法包括以下步骤：

S101、对输入的流式数据进行数据清洗处理，并将处理后的流式数据表示为结构化数据。

具体的，可以采用分布式爬虫技术采集网络(例如：新浪微博、新浪新闻、网易新闻等)中的流式数据，这些流式数据包括事件、新闻等热点信息。

将采集到流式数据输入系统后，可以首先根据设定的规则对这些数据进行数据清洗工作，以过滤广告数据，清洗垃圾数据；然后可以将其表示为格式统一、属性表明、时间对齐的结构化数据。

另外，由于流式数据输入的来源不同、格式不同，此步骤可能会涉及包括多源异构处理、数据补全等操作在内的多种操作，此处不再详细说明。

S102、对第一预设时间片内的结构化数据进行分词，并计算各分词在所有结构化数据中的权重。

具体的，本实施例中，选取对一个比较长的时间段(即第一预设时间片)内的结构化数据作为语料库，对这些结构化数据通过分词工具(如：NLPIR汉语分词系统)进行分词；然后计算每个分词在语料库(即所有结构化数据)中的权重，具体可以采用TF-IDF(termfrequency–inverse document frequency)法计算分词的权重。

S103、根据各分词的权重计算当前时间片内各事件的权重。

具体的，事件与结构化数据一一对应，本实施例中，采用谷歌的PageRank网页排名思想，根据各个分词的权重，计算各结构化数据对应的事件的权重。

本实施例中，为了提高事件权重计算结果的准确性，在计算当前时间片内各事件的权重时，采用根据第一时间片内的结构化数据计算出的分词的权重。其中，当前时间片位于第一预设时间片内，即第一时间片的长度大于当前时间片的长度；具体的，当前时间片和第一预设时间片的长度可以根据实际需要设置，本实施例不做特别限定。

S104、对事件进行聚合和数据补全操作，并根据各事件的权重计算聚合后的每个事件簇的权重。

一个完整的事件往往会由诸多不同阶段的小事件组合而成，这些相同事件不同阶段的出现会造成事件显示的冗余，影响用户快速准确地获取相关时间段内的热点事件；且事件表示的模糊也会影响用户对事件的整体认知，不利于用户对事件本质信息的获取与了解，可能会因此促使用户做出有偏差甚至错误的判断，失去了信息的准确性。本实施例中，将相同或相似的事件聚合在一起，加强重点事件的显示，以提升最终事件显示结果的粒度，为用户提供一目了然的信息，同时结合事件簇中的各事件的相关性对表示不清、含义模糊的事件进行数据补全工作，以方便用户快速准确地获取热点信息。

将事件聚合后，会形成一个个的事件簇，每个事件簇中包括至少一个事件，根据各个事件簇中所包含的事件的权重，就可以计算出各个事件簇的权重。

S105、根据各事件簇的权重生成排序后的事件列表。

根据上述步骤中计算出的各个事件簇的权重，就可以对各个事件簇进行排序，最终生成事件列表，使用户可以一目了然的了解对应时间片内的热点信息。

本实施例提供的多粒度实时热点聚合方法，通过对处理后的事件进行聚合，将相同或相似的事件聚合在了一起，提升了最终事件显示结果的粒度，方便了用户快速准确地获取热点信息；通过对事件的数据补全操作，提高了事件的完整性和准确性，进而提高了用户获取热点信息的准确性。

图2为本发明提供的多粒度实时热点聚合方法实施例二的流程示意图，本实施例是对上述图1所示实施例的进一步优化补充，如图2所示，本实施例提供的方法包括以下步骤：

S201、对输入的流式数据进行数据清洗处理，并将处理后的流式数据表示为结构化数据。

具体的，结构化数据包括多个属性，本实施例中，结构化数据的属性包括标题和下列属性中的至少一项：时间、地点、人物、关键词、事件类型、情绪、分类。

S202、对第一预设时间片内的结构化数据进行分词与词性标注，并计算各分词在所有结构化数据中的权重。

本实施例中，在对结构化数据进行分词的同时，进行词性标注，确定每个词是名词、动词、形容词或其他词性；在分词与词性标注后，可以根据分词的TD-IDF值和词性计算各分词的权重。在词性标注过程中，有些词的词性可以是多个，此时，可以根据其实际意义进行进一步的词性修正。

S203、对各分词进行词性过滤。

本实施例中，在对结构化数据进行分词后，可以对各分词进行词性过滤，以剔除低语义词汇(例如：可以、的等分词)，提升数据的可读性。

S204、计算各分词的语义相似度，对语义相似度大于第一预设阈值的分词进行合并操作，并根据各分词的权重和词性计算合并后的各分词的权重。

具体的，可以使用Word2vec来计算各分词的语义相似度，对语义相似度高(大于第一预设阈值)的分词进行合并操作，并统计合并后的各分词的权重。其中，第一预设阈值具体可以根据实际需要设置，此处不做特别限制。本实施例中，从语义角度统计分析流式数据，可以提升最终显示结果的粒度以及热点事件的发现效率。

每个分词或者属性权重的设置将直接影响事件在统计结果中的排名位置，按照TF-IDF法来直接给定分词的权重，虽然能够直观体现该词在时间片内的出现频度，但却缺乏更客观反映该词是否异常的能力(如西风、北风等词语在某一时间片内的词频会大致相等，但台风却小于前两者，当某一台风即将形成或登录时，其词频会接近西风、北风等词，但台风的热度要明显高于前两者)。本实施例中，将权重设置与TF-IDF、分词的词性以及语义分析关联起来，根据设定的公式来动态给予分词一个适当的权重。

根据公式(1)计算各分词在结构化数据中的权重；

上述公式(1)中，的计算可以参见现有的TF-IDF法。以为例，其中，表示word_i的出现次数，表示文件中所有分词的出现次数之和，n_{text_total}表示语料库中的文件总数，表示包含word_i的文件数目。

需要说明的是，步骤S204与步骤S203之间没有严格的时序关系，其与S203的执行顺序，本实施例不做特别限制。

S205、删除权重小于第二预设阈值的分词。

本实施例中，对于权重小于第二预设阈值的分词，可以删除掉，以提升系统处理速度以及事件的显示粒度。其中，第二预设阈值具体可以根据实际需要设置，此处不做特别限制。

S206、根据合并后的各分词的权重计算当前时间片内各事件的权重。

该步骤与上述图1所示实施例中的步骤S103类似，具体可参考S103的描述，在此不在赘述。

S207、根据历史时间片内的事件对当前时间片内的事件的影响力补偿当前时间片内的事件的权重。

事件自出现到结束有一段非常明显的推进过程，单峰事件的过程大致符合快速上升到达峰值后缓慢下降的过程，这符合长尾理论，也就表明事件不仅在其发生的时间片内产生影响，同样还对未来时间片内的事件有着随着时间增长而逐渐衰减的影响力。这种残留能够有效提升对应事件后续发展在其相应时间片内的起点，有助于用户进行事件浏览的连续性。据此，本实施例中，根据历史时间片内的事件对当前时间片内的事件的影响力来对当前时间片内的事件的权重进行补偿。

具体的，本实施例中，根据公式(2)计算历史时间片内的事件对当前时间片内的事件的影响力；

在进行补偿时，可以根据离当前时间片最近的若干个(例如：3个)历史时间片中的事件，对当前时间片内的事件的影响力来对当前时间片内的事件的权重进行补偿。当历史时间片中存在多个与当前分析事件相关的事件时，则将该多个事件对当前时间片内的事件的影响力迭加后补偿当前分析事件的权重。

S208、对当前时间片内的突发事件的权重进行补偿。

在某些极端条件下可能出现事件列表被大量长期热点事件占据，而掩盖某些新发生但相对热度不够的事件。为此，本实施例中，将突发性作为参数融合到事件的权重中，以实现确保用户能够及时获取新鲜突发事件。其中，突发事件为第二预设时间片内首次出现，且权重大于第三预设阈值的事件，第二预设时间片位于第一预设时间片内，当前时间片位于第二预设时间片内。

具体的，对于第二预设时间片内首次出现的，热度很高(权重大于第三预设阈值)的事件，认为其为突发事件，可以将其权重乘以一个大于1的补偿系数，以对突发事件的权重进行补偿。其中，第二预设时间片和第三预设阈值具体可以根据实际需要设置，此处不做特别限制。

需要说明的是，该步骤S208与步骤S207之间没有严格的时序关系，其可以在S207之后执行，也可以在S207之前执行，还可以与S207同时执行，具体执行顺序本实施例不做特别限制。

S209、根据各事件对应的结构化数据的标题间的文本编辑距离、各属性的语义相似度和各事件的时间轴分布对事件进行聚合，并根据各事件的权重计算聚合后的每个事件簇的权重。

本实施例中，以事件对应的结构化数据中的标题以及各属性形成的七元组为基础，计算各事件的标题间的文本编辑距离以及七元组间的语义相似度，并通过事件簇中各事件的时间轴分布计算事件的发生时间距离对七元组间的语义相似度的权值的影响，将三者加权后得到各事件间的相似度，将相似度大于一定阈值的事件聚合在一个事件簇中；最后再根据各事件簇中所包含的事件的权重，计算各个事件簇的权重。

S210、根据各事件簇的权重生成排序后的事件列表。

S211、根据各分词的权重计算当前时间片内结构化数据的各属性的权重，并根据结构化数据的各属性的权重基于各属性生成排序后的属性列表。

具体的，如上所述，结构化数据包括地点、人物等多个属性。为了方便用户更加快速准确地获取信息，本实施例中，在计算事件的权重的同时，计算结构化数据的各属性的权重，然后基于各属性生成多属性列表，例如：地点列表、人物列表等。

本实施例提供的多粒度实时热点聚合方法，从语义角度统计分析流式数据，提升了最终显示结果的粒度，同时也提升了用户发现热点事件的效率；在生成事件列表的同时，基于各属性生成多属性列表，也方便了用户更加快速准确地获取热点信息。

图3为本发明提供的多粒度实时热点聚合系统的结构示意图，如图3所示，本实施例提供的系统包括：预处理模块10、数据处理模块20和列表生成模块30，其中：

预处理模块10，用于对输入的流式数据进行数据清洗处理，并将处理后的流式数据表示为结构化数据；

数据处理模块20，用于对第一预设时间片内的结构化数据进行分词，并计算各分词在所有结构化数据中的权重；

数据处理模块20，还用于根据各分词的权重计算当前时间片内各事件的权重，然后对事件进行聚合，并根据各事件的权重计算聚合后的每个事件簇的权重；其中，当前时间片位于第一预设时间片内，事件与结构化数据一一对应；

列表生成模块30，用于根据各事件簇的权重生成排序后的事件列表。

可选的，结构化数据的属性包括标题和下列属性中的至少一项其他属性：时间、地点、人物、关键词、事件类型、情绪；

则列表生成模块30，还用于根据各分词的权重计算当前时间片内结构化数据的各属性的权重，并根据结构化数据的各属性的权重基于各属性生成排序后的属性列表。

作为本发明一种具体的实施方式，在对事件进行聚合方面，数据处理模块20具体用于：

根据各事件对应的结构化数据的标题间的文本编辑距离、其他属性的语义相似度和各事件的时间轴分布，对事件进行聚合。

作为本发明一种可选的实施方式，数据处理模块20还用于在根据各分词的权重计算当前时间片内各事件的权重之前，对第一预设时间片内的结构化数据进行词性标注；对各分词进行词性过滤。

进一步的，数据处理模块20还用于在根据各分词的权重计算当前时间片内的事件的权重之前，计算各分词的语义相似度，对语义相似度大于第一预设阈值的分词进行合并操作，并根据各分词的权重和词性计算合并后的各分词的权重；

则在根据各分词的权重计算当前时间片内各事件的权重方面，数据处理模块20具体用于：

进一步的，数据处理模块20还用于在根据合并后的各分词的权重计算当前时间片内各事件的权重之前，删除权重小于第二预设阈值的分词。

作为本发明一种可选的实施方式，数据处理模块20还用于在对事件进行聚合之前，根据历史时间片内的事件对当前时间片内的事件的影响力补偿当前时间片内的事件的权重。

作为本发明一种可选的实施方式，数据处理模块20还用于在对事件进行聚合之前，对当前时间片内的突发事件的权重进行补偿；突发事件为第二预设时间片内首次出现，且权重大于第三预设阈值的事件，第二预设时间片位于第一预设时间片内，当前时间片位于第二预设时间片内。

作为本发明一种具体的实施方式，在根据各分词的权重和词性计算合并后的各分词的权重方面，数据处理模块20具体用于：

根据公式(1)计算各分词在结构化数据中的权重；

作为本发明一种具体的实施方式，数据处理模块20具体用于根据公式(2)计算历史时间片内的事件对当前时间片内的事件的影响力；

本实施例提供的系统可以执行上述方法实施例，其实现原理与技术效果类似，此处不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种多粒度实时热点聚合方法，其特征在于，包括：

对第一预设时间片内的结构化数据进行分词，并计算各所述分词在所有结构化数据中的权重；

根据各所述分词的权重计算当前时间片内各事件的权重，所述当前时间片位于所述第一预设时间片内，所述事件与所述结构化数据一一对应；

对所述事件进行聚合，并根据各所述事件的权重计算聚合后的每个事件簇的权重；

根据各所述事件簇的权重生成排序后的事件列表。

2.根据权利要求1所述的方法，其特征在于，所述结构化数据的属性包括标题和下列属性中的至少一项：时间、地点、人物、关键词、事件类型、情绪；

所述方法还包括：

根据各所述分词的权重计算当前时间片内结构化数据的各属性的权重，并根据所述结构化数据的各属性的权重基于各属性生成排序后的属性列表。

3.根据权利要求2所述的方法，其特征在于，所述对所述事件进行聚合具体包括：

根据各所述事件对应的结构化数据的标题间的文本编辑距离、各属性的语义相似度和各事件的时间轴分布对所述事件进行聚合。

4.根据权利要求1所述的方法，其特征在于，在所述根据各所述分词的权重计算当前时间片内各事件的权重之前，所述方法还包括：

对第一预设时间片内的结构化数据进行词性标注；

对各所述分词进行词性过滤。

5.根据权利要求4所述的方法，其特征在于，在所述根据各所述分词的权重计算当前时间片内的事件的权重之前，所述方法还包括：

计算各所述分词的语义相似度，对语义相似度大于第一预设阈值的分词进行合并操作，并根据各所述分词的权重和词性计算合并后的各分词的权重；

则所述根据各所述分词的权重计算当前时间片内各事件的权重，具体包括：

根据所述合并后的各分词的权重计算当前时间片内各事件的权重。

6.根据权利要求5所述的方法，其特征在于，在所述根据所述合并后的各分词的权重计算当前时间片内各事件的权重之前，所述方法还包括：

删除权重小于第二预设阈值的分词。

7.根据权利要求1-6任一项所述的方法，其特征在于，在所述对所述事件进行聚合之前，所述方法还包括：

8.根据权利要求1-6任一项所述的方法，其特征在于，在所述对所述事件进行聚合之前，所述方法还包括：

对当前时间片内的突发事件的权重进行补偿；所述突发事件为第二预设时间片内首次出现，且权重大于第三预设阈值的事件，所述第二预设时间片位于所述第一预设时间片内，所述当前时间片位于所述第二预设时间片内。

9.根据权利要求5所述的方法，其特征在于，所述根据各所述分词的权重和词性计算合并后的各分词的权重，具体包括：

根据公式(1)计算各所述分词在所述结构化数据中的权重；

\begin{matrix} {score}_{{word}_{i}} = {tf}_{{word}_{i}} \cdot {idf}_{{word}_{i}} \cdot w_{s o u r c e_{type}_{i}} \cdot w_{w o r d_{type}_{i}} + \\ Σ_{j = 1}^{{number}_{s i m i l i a r}} {tf}_{{word}_{j}} \cdot {idf}_{{word}_{j}} \cdot w_{s o u r c e_{type}_{j}} \cdot w_{w o r d_{type}_{j}} \end{matrix} - - - (1)

10.根据权利要求7所述的方法，其特征在于，根据公式(2)计算历史时间片内的事件对当前时间片内的事件的影响力；

e v e n t_{influence}_{r e s i d u a l} = \frac{{hotscore}_{e v e n t}}{\log ({event}_{n o w} - {event}_{e n d})} \cdot {weight}_{t y p e} - - - (2)