CN108182191B

CN108182191B - 一种热点数据处理方法及其设备

Info

Publication number: CN108182191B
Application number: CN201611124269.6A
Authority: CN
Inventors: 孙钟前; 李宏杰; 唐柯; 尹光宗; 陈杨; 吕远方; 韩耀庆; 林孟光; 方圆; 霍然
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-12-08
Filing date: 2016-12-08
Publication date: 2022-01-18
Anticipated expiration: 2036-12-08
Also published as: CN108182191A

Abstract

本发明实施例公开一种热点数据处理方法及其设备，其中方法包括如下步骤：获取多个数据站点在第一预设时间段内存储的当前原始数据集合，基于所述当前原始数据集合确定热点数据的数据标签信息，所述数据标签信息包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息；在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据；获取在所述第一原始数据中筛选的热点数据，并对所述热点数据进行输出。采用本发明，可以实现对多个数据站点的数据进行聚合并自动生成热点数据，提升热点数据的多样性，提高热点数据的生成效率。

Description

一种热点数据处理方法及其设备

技术领域

本发明涉及互联网技术领域，尤其涉及一种热点数据处理方法及其设备。

背景技术

随着互联网技术不断的开发和完善，各种热点数据(例如：新闻、话题、事件等)可以通过互联网进行传播，用户通过手机和平板电脑等终端即可浏览热点数据，在现有的对热点数据进行整合的过程中，往往需要人工进行整合，包括标题确定、内容结合、观点概述等，整合时间过长，影响了热点数据的生成效率，同时由于人工所能获取的数据来源有限，使得热点数据的数据内容过于单一。

发明内容

本发明实施例提供一种热点数据处理方法及其设备，可以实现对多个数据站点的同一数据标签的数据进行聚合并自动生成热点数据，提升热点数据的多样性，提高热点数据的生成效率。

本发明实施例第一方面提供了一种热点数据处理方法，可包括：

获取多个数据站点在第一预设时间段内存储的当前原始数据集合，基于所述当前原始数据集合确定热点数据的数据标签信息，所述数据标签信息包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息；

在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据；

获取在所述第一原始数据中筛选的热点数据，并对所述热点数据进行输出。

本发明实施例第二方面提供了一种热点数据处理设备，可包括：

信息确定单元，用于获取多个数据站点在第一预设时间段内存储的当前原始数据集合，基于所述当前原始数据集合确定热点数据的数据标签信息，所述数据标签信息包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息；

第一数据获取单元，用于在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据；

数据输出单元，用于获取在所述第一原始数据中筛选的热点数据，并对所述热点数据进行输出。

在本发明实施例中，通过获取多个数据站点在第一预设时间段内存储的当前原始数据集合，基于该当前原始数据集合确定出热点数据的数据标签信息，并在当前原始数据集合中获取与数据标签信息关联的第一原始数据，再获取在第一原始数据中筛选的热点数据，最终对热点数据进行输出，实现了对多个数据站点的同一数据标签的数据进行聚合并自动生成热点数据的过程，提高了热点数据的生成效率，同时通过在多个数据站点自动获取预设时间段内的数据集合，增加了数据来源，进而提升了热点数据的多样性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种热点数据处理方法的流程示意图；

图2是本发明实施例提供的另一种热点数据处理方法的流程示意图；

图3是本发明实施例提供的一种热点数据处理的举例示意图；

图4是本发明实施例提供的一种热点数据处理设备的结构示意图；

图5是本发明实施例提供的另一种热点数据处理设备的结构示意图；

图6是本发明实施例提供的信息确定单元的结构示意图；

图7是本发明实施例提供的数据输出单元的结构示意图；

图8是本发明实施例提供的又一种热点数据处理设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的热点数据处理方法可以应用于承载新闻、话题、事件等热点数据的终端媒体应用对热点数据进行筛选的场景，例如：热点数据处理设备获取多个数据站点在第一预设时间段内存储的当前原始数据集合，基于所述当前原始数据集合确定热点数据的数据标签信息，所述数据标签信息包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息，所述热点数据处理设备在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据，所述热点数据处理设备获取在所述第一原始数据中筛选的热点数据，并对所述热点数据进行输出的场景等。实现了对多个数据站点的同一数据标签的数据进行聚合并自动生成热点数据的过程，提高了热点数据的生成效率，同时通过在多个数据站点自动获取预设时间段内的数据集合，增加了数据来源，进而提升了热点数据的多样性。

本发明实施例涉及的热点数据处理设备可以为用于支持终端媒体应用的后台服务设备；所述终端媒体应用为装载于用户终端中的用于加载并展示热点数据的终端应用；所述热点数据具体可以为在一定时间内被关注频率最高的数据，可以包括新闻、话题、事件等；所述用户终端可以包括平板电脑、个人计算机(PC)、智能手机、掌上电脑以及移动互联网设备(MID)等终端设备；所述数据站点为采集并发布各用户所输入的原始数据的后台服务设备。

下面将结合附图1和附图2，对本发明实施例提供的热点数据处理方法进行详细介绍。

请参见图1，为本发明实施例提供了一种热点数据处理方法的流程示意图。如图1所示，本发明实施例的所述方法可以包括以下步骤S101-步骤S103。

S101，获取多个数据站点在第一预设时间段内存储的当前原始数据集合，基于所述当前原始数据集合确定热点数据的数据标签信息；

具体的，热点数据处理设备可以基于多个数据站点在第一预设时间段内存储的当前原始数据集合，确定热点数据的数据标签信息，所述数据站点可以包括新闻数据站点、交互信息发布平台站点、多媒体数据站点等，所述热点数据处理设备可以分别获取多个数据站点中各数据站点在第一预设时间内存储的当前原始数据，并汇总为当前原始数据集合，优选的，针对所述新闻数据站点，可以通过部署分布式爬虫系统实时抓取新闻站点数据；针对交互信息发布平台站点，可以通过站点提供的公共应用程序编程接口(ApplicationProgramming Interface，API)获取交互站点数据；针对多媒体数据站点，可以通过站点合作的方式获取多媒体站点数据，所述第一预设时间具体可以由开发人员根据经验值进行设定，以保证可以实时获取最新的热点数据，例如：获取1小时内的当前原始数据集合等。所述数据标签信息为用于代表所述热点数据的关键信息，可以包括所述热点数据的分词处理结果、关键字段以及内容集合等。

优选的，所述热点数据处理设备还可以对所述当前原始数据集合中各当前原始数据进行结构化处理，例如：获取的某个交互站点数据包括编辑的文本数据、关联的新闻站点数据以及关联的多媒体站点数据等，所述热点数据处理设备可以记录各当前原始数据间的关联关系。

S102，在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据；

具体的，所述热点数据处理设备可以在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据，优选的，可以根据结构化处理后的各当前原始数据间的关联关系获取与所述数据标签信息相关联的第一原始数据。

S103，获取在所述第一原始数据中筛选的热点数据，并对所述热点数据进行输出；

具体的，所述热点数据处理设备可以获取开发人员在所述第一原始数据中筛选的热点数据，并对所述热点数据进行输出，优选的，所述热点数据处理设备可以采用预设格式对所述热点数据进行封装并进行输出显示。

在本发明实施例中，通过通过获取多个数据站点在第一预设时间段内存储的当前原始数据集合，基于该当前原始数据集合确定出热点数据的数据标签信息，并在当前原始数据集合中获取与数据标签信息关联的第一原始数据，再获取在第一原始数据中筛选的热点数据，最终对热点数据进行输出，实现了对多个数据站点的同一数据标签的数据进行聚合并自动生成热点数据的过程，提高了热点数据的生成效率，同时通过在多个数据站点自动获取预设时间段内的数据集合，增加了数据来源，进而提升了热点数据的多样性。

请参见图2，为本发明实施例提供了另一种热点数据处理方法的流程示意图。如图2所示，本发明实施例的所述方法可以包括以下步骤S201-步骤S208。

S201，获取多个数据站点在第一预设时间段内存储的当前原始数据集合，并记录所述当前原始数据集合中各当前原始数据间的关联关系；

具体的，热点数据处理设备可以获取多个数据站点在第一预设时间段内存储的当前原始数据集合，所述数据站点可以包括新闻数据站点、交互信息发布平台站点、多媒体数据站点等，所述热点数据处理设备可以分别获取多个数据站点中各数据站点在第一预设时间内存储的当前原始数据，并汇总为当前原始数据集合，优选的，针对所述新闻数据站点，可以通过部署分布式爬虫系统实时抓取新闻站点数据；针对交互信息发布平台站点，可以通过站点提供的公共API获取交互站点数据；针对多媒体数据站点，可以通过站点合作的方式获取多媒体站点数据，所述第一预设时间具体可以由开发人员根据经验值进行设定，以保证可以实时获取最新的热点数据，例如：获取1小时内的当前原始数据集合等。所述热点数据处理设备对所述当前原始数据集合中各当前原始数据进行结构化处理，例如：获取的某个交互站点数据包括编辑的文本数据、关联的新闻站点数据以及关联的多媒体站点数据等，所述热点数据处理设备可以记录各当前原始数据间的关联关系。

S202，对所述各当前原始数据进行预处理；

具体的，所述热点数据处理设备可以对所述各当前原始数据进行预处理，所述预处理可以包括分词处理和分类处理，所述热点数据处理设备可以基于预先训练的分词词典对所述各当前原始数据进行分词处理，以得到分词处理结果，所述分词处理结果可以包括各当前原始数据的数据标题以及数据内容的分词集合，还可以包括分词集合中的关键字段，所述热点数据处理设备可以采用预设的分类规则对所述各当前原始数据进行分类处理，所述分类规则可以包括语义数据模型(Semantic Data Model，SDM)、领域词典、深度学习、短文本改进等，以得到分类处理结果，例如：娱乐类、体育类等。可选的，所述热点数据处理设备还可以初步删除属于低俗、色情、广告等的类别的当前原始数据。

S203，分别提取预处理后的所述各当前原始数据的数据标题，并在所述各当前原始数据的数据标题中确定热点数据的数据标题；

具体的，所述热点数据处理设备可以分别提取预处理后的所述各当前原始数据的数据标题，并在所述各当前原始数据的数据标题中确定热点数据的数据标题，可选的，所述热点数据处理设备在提取所述各当前原始数据的数据标题后，还可以获取所述各当前原始数据的条件信息，例如：所述各当前原始数据在所述当前原始数据集合中的出现概率、所述各当前原始数据的转发次数、评论数量等，所述热点数据处理设备可以采用所述条件信息计算所述各当前原始数据的数据标题对应的热度信息，再根据所述数据标题对应的热度信息的排序确定出热点数据的数据标题。进一步的，所述热点数据处理设备可以分别提取预处理后的所述各当前原始数据的数据标题，可以理解的是，所述各当前原始数据的数据标题存在于所述各当前原始数据中的指定位置，例如：针对某个交互站点数据为#AAA#BBBBB，其中“AAA”为该交互站点数据的数据标题等，所述热点数据处理设备可以预先设定标题提取规则，针对不同数据站点获取的当前原始数据采用不同的标题提取规则对数据标题进行获取。所述热点数据处理设备可以采用预设过滤规则对所述各当前原始数据的数据标题进行过滤处理，以获取至少一个数据标题，所述预设过滤规则可以包括以下过滤方式中的至少一种：

过滤分类处理结果属于预设类别的第一数据标题，例如：再次过滤属于创意征集、生活记录、星座等类别的数据标题；

过滤分词处理结果属于预设词性搭配的第二数据标题，例如：过滤除了“名词+动词”或者“名词+名词”以外的其它词性搭配的数据标题；

过滤数据标题长度小于预设长度阈值的第三标题数据，例如：一般小于4个字符的数据标题为人物名称、球队名称等，无法识别其数据标题的意义指向，因此过滤小于4个字符长度的数据标题；

过滤属于预设标题的第四标题数据，例如：历史长期出现的数据话题，其不具备热点数据的性质。

所述热点数据处理设备可以分别计算所述至少一个数据标题中各数据标题对应的热度信息，优选的，可以根据所述各数据标题对应的当前原始数据在所述当前原始数据集合中的出现概率、所述各数据标题对应的当前原始数据的转发次数、评论数量等，计算所述各数据标题对应的热度信息，所述热点数据处理设备可以根据所述数据标题对应的热度信息的排序确定出热点数据的数据标题。

S204，根据所述热点数据的数据标题获取包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息；

具体的，所述热点数据处理设备可以根据所述热点数据的数据标题获取包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息，可以理解的是，所述分词处理结果为所述分词处理后的分词集合，所述关键字段为在所述分词集合中选取的至少一个代表字段，所述内容集合为所述数据标题对应的数据内容集合。

S205，在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据；

S206，在预先存储的历史原始数据集合中获取与所述数据标签信息匹配相似度大于预设相似度阈值的第二原始数据；

具体的，所述热点数据处理设备还可以在预先存储的历史原始数据集合中获取与所述数据标签信息匹配相似度大于预设相似度阈值的第二原始数据，所述历史原始数据集合为历史获取的所述多个数据站点在第二预设时间段内除所述第一预设时间段所存储的数据集合，即所述热点数据处理设备历史从所述多个数据站点获取的第二预设时间段的数据集合，所述历史原始数据集合不包括上述当前原始数据集合，通过加入历史原始数据集合，可以进一步结合类似数据对热点数据进行补充，保证了热点数据的完整性。优选的，所述热点数据处理设备可以采用所述数据标签信息在所述历史原始数据集合中进行分层匹配，例如：先采用所述数据标题对所述历史原始数据集合中各历史原始数据的数据标题进行匹配，获取标题相似度大于预设标题相似度阈值的第二原始数据；若不存在标题相似度大于预设标题相似度阈值的第二原始数据，则采用所述数据标题对应的关键字段对所述各历史原始数据的关键字段进行匹配，获取关键字段相似度大于预设关键字段相似度阈值的第二原始数据；若不存在关键字段相似度大于预设关键字段相似度阈值的第二原始数据，则采用所述数据标题对应的内容集合对所述各历史原始数据的内容集合进行匹配，获取内容集合相似度大于预设内容集合相似度阈值的第二原始数据。

S207，获取在所述第一原始数据和所述第二原始数据中筛选的热点数据；

S208，采用预设先验词库以及所述热点数据的关键字段对所述热点数据进行延展调整处理，并对延展调整处理后的所述热点数据进行输出；

具体的，所述热点数据处理设备可以获取开发人员在所述第一原始数据和所述第二原始数据中筛选的热点数据，所述热点数据处理设备可以采用预设先验词库以及所述热点数据的关键字段对所述热点数据进行延展调整处理，可以理解的是，考虑到所筛选得到的热点数据中仍然存在较多的数据内容，可以进一步依据预先训练的先验词库对所述热点数据中的关键字段进行匹配，若检测到所述热点数据中的多个关键字段中存在多个先验词，例如：均为电影名称、人物、球队名称、赛事名称等，则可以确认该热点数据的数据内容符合所述数据标题的含义，该热点数据的数据内容的排序优先级最高；若检测到所述热点数据中的多个关键字段中仅存在一个先验词，则需要进一步对该热点数据的数据子标题进行向量化，并计算该热点数据的数据子标题的标题向量余弦夹角与数据标题的标题向量余弦夹角的相似度，若大于预设夹角相似度阈值，则确定该热点数据的数据内容与所述数据标题相关，该热点数据的数据内容的排序优先级次高；若检测到所述热点数据中的多个关键字段中不存在先验词或仅存在一个不属于先验词的关键字段，则可以进一步获取该热点数据的社交类因子(例如：评论数据等)作为热点数据，该热点数据的数据内容的排序优先级别最低；若检测到所述热点数据仅存在一个关键字段且属于先验词，则可以将该热点数据作为该关键字段的后续延展内容。

所述热点数据处理设备可以依据排序优先级别从高至低，依次对筛选处理后的热点数据的数据内容进行排序处理，并采用预设格式对所述热点数据进行封装并进行输出显示。

需要说明的是，开发人员可以在多个仅存在一个关键字段且属于先验词的热点数据中筛选出需要进行后续延展的热点数据，并将进行后续延展的热点数据对应的关键字段置于上述输出显示的热点数据中，当检测到用户通过用户终端触发进行后续延展的热点数据对应的关键字段时，可以进一步对该关键字段的后续延展内容进行输出显示。

请一并参见图3，为本发明实施例提供了一种热点数据处理的举例示意图。如图3所示，为在用户终端输出显示的一种优选的展示图，31具体可以为所确定的热点数据的数据标题，33具体可以为开发人员基于最终筛选的数据内容所总结的数据子标题，可作为数据内容的导航，34则具体展示了各数据子标题下的数据内容，可以包括文字、图片、视频等，同时还可以包括该数据内容的出处，即该数据内容所属的数据站点的站点名称，例如：微博、新闻等，32具体可以为作为后续延展内容的关键字段，通过点击任一32中的内容，可以跳转显示该关键字段的后续延展内容，例如：点击“曹国伟”按钮，则可以触发跳转至“曹国伟”的个人主页等。

在本发明实施例中，通过获取多个数据站点在第一预设时间段内存储的当前原始数据集合，基于该当前原始数据集合确定出热点数据的数据标签信息，并在当前原始数据集合中获取与数据标签信息关联的第一原始数据，再获取在第一原始数据中筛选的热点数据，最终对热点数据进行输出，实现了对多个数据站点的同一数据标签的数据进行聚合并自动生成热点数据的过程，提高了热点数据的生成效率，同时通过在多个数据站点自动获取预设时间段内的数据集合，增加了数据来源，进而提升了热点数据的多样性；通过加入历史原始数据集合，可以进一步结合类似数据对热点数据进行补充，保证了热点数据的完整性；通过依据预先训练的先验词库对热点数据中的关键字段进行匹配，可以实现数据内容筛选以及自动排序的过程，优化了热点数据的展示效果；通过加入后续延展内容，可以提供更多的数据内容，进一步提升了热点数据的多样性。

下面将结合附图4-附图7，对本发明实施例提供的热点数据处理设备进行详细介绍。需要说明的是，附图4-附图7所示的热点数据处理设备，用于执行本发明图1和图2所示实施例的方法，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明图1和图2所示的实施例。

请参见图4，为本发明实施例提供了一种热点数据处理设备的结构示意图。如图4所示，本发明实施例的所述热点数据处理设备1可以包括：信息确定单元11、第一数据获取单元12和数据输出单元13。

信息确定单元11，用于获取多个数据站点在第一预设时间段内存储的当前原始数据集合，基于所述当前原始数据集合确定热点数据的数据标签信息；

具体实现中，所述信息确定单元11可以基于多个数据站点在第一预设时间段内存储的当前原始数据集合，确定热点数据的数据标签信息，所述数据站点可以包括新闻数据站点、交互信息发布平台站点、多媒体数据站点等，所述热信息确定单元11可以分别获取多个数据站点中各数据站点在第一预设时间内存储的当前原始数据，并汇总为当前原始数据集合，优选的，针对所述新闻数据站点，可以通过部署分布式爬虫系统实时抓取新闻站点数据；针对交互信息发布平台站点，可以通过站点提供的公共API获取交互站点数据；针对多媒体数据站点，可以通过站点合作的方式获取多媒体站点数据，所述第一预设时间具体可以由开发人员根据经验值进行设定，以保证可以实时获取最新的热点数据，例如：获取1小时内的当前原始数据集合等。所述数据标签信息为用于代表所述热点数据的关键信息，可以包括所述热点数据的分词处理结果、关键字段以及内容集合等。

优选的，所述信息确定单元11还可以对所述当前原始数据集合中各当前原始数据进行结构化处理，例如：获取的某个交互站点数据包括编辑的文本数据、关联的新闻站点数据以及关联的多媒体站点数据等，所述信息确定单元11可以记录各当前原始数据间的关联关系。

第一数据获取单元12，用于在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据；

具体实现中，所述第一数据获取单元12可以在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据，优选的，可以根据结构化处理后的各当前原始数据间的关联关系获取与所述数据标签信息相关联的第一原始数据。

数据输出单元13，用于获取在所述第一原始数据中筛选的热点数据，并对所述热点数据进行输出；

具体实现中，所述数据输出单元13可以获取开发人员在所述第一原始数据中筛选的热点数据，并对所述热点数据进行输出，优选的，所述数据输出单元13可以采用预设格式对所述热点数据进行封装并进行输出显示。

请参见图5，为本发明实施例提供了另一种热点数据处理设备的结构示意图。如图5所示，本发明实施例的所述热点数据处理设备1可以包括：信息确定单元11、第一数据获取单元12、数据输出单元13和第二数据获取单元14。

具体实现中，所述信息确定单元11可以基于多个数据站点在第一预设时间段内存储的当前原始数据集合，确定热点数据的数据标签信息，所述数据站点可以包括新闻数据站点、交互信息发布平台站点、多媒体数据站点等，所述信息确定单元11可以分别获取多个数据站点中各数据站点在第一预设时间内存储的当前原始数据，并汇总为当前原始数据集合，优选的，针对所述新闻数据站点，可以通过部署分布式爬虫系统实时抓取新闻站点数据；针对交互信息发布平台站点，可以通过站点提供的公共API获取交互站点数据；针对多媒体数据站点，可以通过站点合作的方式获取多媒体站点数据，所述第一预设时间具体可以由开发人员根据经验值进行设定，以保证可以实时获取最新的热点数据，例如：获取1小时内的当前原始数据集合等。所述数据标签信息为用于代表所述热点数据的关键信息，可以包括所述热点数据的分词处理结果、关键字段以及内容集合等。

具体的，请一并参见图6，为本发明实施例提供了信息确定单元的结构示意图。如图6所示，所述信息确定单元11可以包括：

关系记录子单元111，用于获取多个数据站点在第一预设时间段内存储的当前原始数据集合，并记录所述当前原始数据集合中各当前原始数据间的关联关系；

具体实现中，所述关系记录子单元111可以获取多个数据站点在第一预设时间段内存储的当前原始数据集合，所述数据站点可以包括新闻数据站点、交互信息发布平台站点、多媒体数据站点等，所述关系记录子单元111可以分别获取多个数据站点中各数据站点在第一预设时间内存储的当前原始数据，并汇总为当前原始数据集合，优选的，针对所述新闻数据站点，可以通过部署分布式爬虫系统实时抓取新闻站点数据；针对交互信息发布平台站点，可以通过站点提供的公共API获取交互站点数据；针对多媒体数据站点，可以通过站点合作的方式获取多媒体站点数据，所述第一预设时间具体可以由开发人员根据经验值进行设定，以保证可以实时获取最新的热点数据，例如：获取1小时内的当前原始数据集合等。所述关系记录子单元111对所述当前原始数据集合中各当前原始数据进行结构化处理，例如：获取的某个交互站点数据包括编辑的文本数据、关联的新闻站点数据以及关联的多媒体站点数据等，所述关系记录子单元111可以记录各当前原始数据间的关联关系。

数据处理子单元112，用于对所述各当前原始数据进行预处理；

具体实现中，所述数据处理子单元112可以对所述各当前原始数据进行预处理，所述预处理可以包括分词处理和分类处理，所述数据处理子单元112可以基于预先训练的分词词典对所述各当前原始数据进行分词处理，以得到分词处理结果，所述分词处理结果可以包括各当前原始数据的数据标题以及数据内容的分词集合，还可以包括分词集合中的关键字段，所述数据处理子单元112可以采用预设的分类规则对所述各当前原始数据进行分类处理，所述分类规则可以包括SDM、领域词典、深度学习、短文本改进等，以得到分类处理结果，例如：娱乐类、体育类等。可选的，所述数据处理子单元112还可以初步删除属于低俗、色情、广告等的类别的当前原始数据。

标题确定子单元113，用于分别提取预处理后的所述各当前原始数据的数据标题，并在所述各当前原始数据的数据标题中确定热点数据的数据标题；

具体实现中，所述标题确定子单元113可以分别提取预处理后的所述各当前原始数据的数据标题，并在所述各当前原始数据的数据标题中确定热点数据的数据标题，可选的，所述标题确定子单元113在提取所述各当前原始数据的数据标题后，还可以获取所述各当前原始数据的条件信息，例如：所述各当前原始数据在所述当前原始数据集合中的出现概率、所述各当前原始数据的转发次数、评论数量等，所述标题确定子单元113可以采用所述条件信息计算所述各当前原始数据的数据标题对应的热度信息，再根据所述数据标题对应的热度信息的排序确定出热点数据的数据标题。进一步的，所述标题确定子单元113可以分别提取预处理后的所述各当前原始数据的数据标题，可以理解的是，所述各当前原始数据的数据标题存在于所述各当前原始数据中的指定位置，例如：针对某个交互站点数据为#AAA#BBBBB，其中“AAA”为该交互站点数据的数据标题等，所述标题确定子单元113可以预先设定标题提取规则，针对不同数据站点获取的当前原始数据采用不同的标题提取规则对数据标题进行获取。所述标题确定子单元113可以采用预设过滤规则对所述各当前原始数据的数据标题进行过滤处理，以获取至少一个数据标题，所述预设过滤规则可以包括以下过滤方式中的至少一种：

所述标题确定子单元113可以分别计算所述至少一个数据标题中各数据标题对应的热度信息，优选的，可以根据所述各数据标题对应的当前原始数据在所述当前原始数据集合中的出现概率、所述各数据标题对应的当前原始数据的转发次数、评论数量等，计算所述各数据标题对应的热度信息，所述标题确定子单元113可以根据所述数据标题对应的热度信息的排序确定出热点数据的数据标题。

信息获取子单元114，用于根据所述热点数据的数据标题获取包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息；

具体实现中，所述信息获取子单元114可以根据所述热点数据的数据标题获取包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息，可以理解的是，所述分词处理结果为所述分词处理后的分词集合，所述关键字段为在所述分词集合中选取的至少一个代表字段，所述内容集合为所述数据标题对应的数据内容集合。

第二数据获取单元14，用于在预先存储的历史原始数据集合中获取与所述数据标签信息匹配相似度大于预设相似度阈值的第二原始数据；

具体实现中，所述第二数据获取单元14还可以在预先存储的历史原始数据集合中获取与所述数据标签信息匹配相似度大于预设相似度阈值的第二原始数据，所述历史原始数据集合为历史获取的所述多个数据站点在第二预设时间段内除所述第一预设时间段所存储的数据集合，即所述第二数据获取单元14历史从所述多个数据站点获取的第二预设时间段的数据集合，所述历史原始数据集合不包括上述当前原始数据集合，通过加入历史原始数据集合，可以进一步结合类似数据对热点数据进行补充，保证了热点数据的完整性。优选的，所述第二数据获取单元14可以采用所述数据标签信息在所述历史原始数据集合中进行分层匹配，例如：先采用所述数据标题对所述历史原始数据集合中各历史原始数据的数据标题进行匹配，获取标题相似度大于预设标题相似度阈值的第二原始数据；若不存在标题相似度大于预设标题相似度阈值的第二原始数据，则采用所述数据标题对应的关键字段对所述各历史原始数据的关键字段进行匹配，获取关键字段相似度大于预设关键字段相似度阈值的第二原始数据；若不存在关键字段相似度大于预设关键字段相似度阈值的第二原始数据，则采用所述数据标题对应的内容集合对所述各历史原始数据的内容集合进行匹配，获取内容集合相似度大于预设内容集合相似度阈值的第二原始数据。

具体的，请一并参见图7，为本发明实施例提供了数据输出单元的结构示意图。如图7所示，所述数据输出单元13可以包括：

数据筛选子单元131，用于获取在所述第一原始数据和所述第二原始数据中筛选的热点数据；

数据输出子单元132，用于采用预设先验词库以及所述热点数据的关键字段对所述热点数据进行延展调整处理，并对延展调整处理后的所述热点数据进行输出；

具体实现中，所述数据筛选子单元131可以获取开发人员在所述第一原始数据和所述第二原始数据中筛选的热点数据，所述数据输出子单元132可以采用预设先验词库以及所述热点数据的关键字段对所述热点数据进行延展调整处理，可以理解的是，考虑到所筛选得到的热点数据中仍然存在较多的数据内容，可以进一步依据预先训练的先验词库对所述热点数据中的关键字段进行匹配，若检测到所述热点数据中的多个关键字段中存在多个先验词，例如：均为电影名称、人物、球队名称、赛事名称等，则可以确认该热点数据的数据内容符合所述数据标题的含义，该热点数据的数据内容的排序优先级最高；若检测到所述热点数据中的多个关键字段中仅存在一个先验词，则需要进一步对该热点数据的数据子标题进行向量化，并计算该热点数据的数据子标题的标题向量余弦夹角与数据标题的标题向量余弦夹角的相似度，若大于预设夹角相似度阈值，则确定该热点数据的数据内容与所述数据标题相关，该热点数据的数据内容的排序优先级次高；若检测到所述热点数据中的多个关键字段中不存在先验词或仅存在一个不属于先验词的关键字段，则可以进一步获取该热点数据的社交类因子(例如：评论数据等)作为热点数据，该热点数据的数据内容的排序优先级别最低；若检测到所述热点数据仅存在一个关键字段且属于先验词，则可以将该热点数据作为该关键字段的后续延展内容。

所述数据输出子单元132可以依据排序优先级别从高至低，依次对筛选处理后的热点数据的数据内容进行排序处理，并采用预设格式对所述热点数据进行封装并进行输出显示。

请参见图8，为本发明实施例提供了又一种热点数据处理设备的结构示意图。如图8所示，所述热点数据处理设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图8所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理应用程序。

在图8所示的热点数据处理设备1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；网络接口1004主要用于与用户终端进行数据通信；而处理器1001可以用于调用存储器1005中存储的数据处理应用程序，并具体执行以下操作：

在一个实施例中，所述处理器1001在执行获取多个数据站点在第一预设时间段内存储的当前原始数据集合，基于所述当前原始数据集合确定热点数据的数据标签信息时，具体执行以下操作：

获取多个数据站点在第一预设时间段内存储的当前原始数据集合，并记录所述当前原始数据集合中各当前原始数据间的关联关系；

对所述各当前原始数据进行预处理，所述预处理包括分词处理和分类处理；

分别提取预处理后的所述各当前原始数据的数据标题，并在所述各当前原始数据的数据标题中确定热点数据的数据标题；

根据所述热点数据的数据标题获取包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息。

在一个实施例中，所述处理器1001在执行分别提取预处理后的所述各当前原始数据的数据标题，并在所述各当前原始数据的数据标题中确定热点数据的数据标题时，具体执行以下操作：

分别提取预处理后的所述各当前原始数据的数据标题；

采用预设过滤规则对所述各当前原始数据的数据标题进行过滤处理，以获取至少一个数据标题；

分别计算所述至少一个数据标题中各数据标题对应的热度信息；

根据所述各数据标题对应的热度信息确定热点数据的数据标题。

在一个实施例中，所述预设过滤规则包括：

过滤分类处理结果属于预设类别的第一数据标题；和，

过滤分词处理结果属于预设词性搭配的第二数据标题；和，

过滤数据标题长度小于预设长度阈值的第三标题数据；和，

过滤属于预设标题的第四标题数据；中的至少一种。

在一个实施例中，所述处理器1001在执行在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据时，具体执行以下操作：

基于所述各当前原始数据间的关联关系，在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据。

在一个实施例中，所述处理器1001在执行获取在所述第一原始数据中筛选的热点数据，并对所述热点数据进行输出之前，还执行以下操作：

在预先存储的历史原始数据集合中获取与所述数据标签信息匹配相似度大于预设相似度阈值的第二原始数据；

其中，所述历史原始数据集合为历史获取的所述多个数据站点在第二预设时间段内除所述第一预设时间段所存储的数据集合。

在一个实施例中，所述处理器1001在执行获取在所述第一原始数据中筛选的热点数据，并对所述热点数据进行输出时，具体执行以下操作：

获取在所述第一原始数据和所述第二原始数据中筛选的热点数据；

采用预设先验词库以及所述热点数据的关键字段对所述热点数据进行延展调整处理，并对延展调整处理后的所述热点数据进行输出；

所述延展调整处理包括数据内容筛选处理以及排序处理。

在本发明实施例中，通过获取多个数据站点在第一预设时间段内存储的当前原始数据集合，基于该当前原始数据集合确定出热点数据的数据标签信息，并在当前原始数据集合中获取与数据标签信息关联的第一原始数据，再获取在第一原始数据中筛选的热点数据，最终对热点数据进行输出，实现了对多个数据站点的同一数据标签的数据进行聚合并自动生成热点数据的过程，提高了热点数据的生成效率，同时通过在多个数据站点自动获取预设时间段内的数据集合，增加了数据来源，进而提升了热点数据的多样性；通过加入历史原始数据集合，可以进一步结合类似数据对热点数据进行补充，保证了热点数据的完整性；通过依据预先训练的先验词库对热点数据中的关键字段进行匹配，可以实现数据内容筛选以及自动排序的过程，优化了热点数据的展示效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种热点数据处理方法，其特征在于，包括：

获取多个数据站点在第一预设时间段内存储的当前原始数据集合，并记录所述当前原始数据集合中各个数据站点对应的各当前原始数据间的关联关系；

根据所述热点数据的数据标题获取所述热点数据的数据标签信息，所述数据标签信息包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息；

基于所述各当前原始数据间的关联关系，在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据；

获取在所述第一原始数据中筛选的热点数据，采用预设先验词库以及所述热点数据的关键字段对所述热点数据进行延展调整处理，并对延展调整处理后的所述热点数据进行输出，所述延展调整处理包括数据内容筛选处理以及排序处理；

其中，所述采用预设先验词库以及所述热点数据的关键字段对所述热点数据进行延展调整处理，包括：

依据预先训练的先验词库对所述热点数据中的关键字段进行匹配，若检测到所述热点数据中的多个关键字段中存在多个先验词，确定所述热点数据的数据内容的排序优先级最高；

若检测到所述热点数据中的多个关键字段中仅存在一个先验词，则对所述热点数据的数据子标题进行向量化，并计算所述热点数据的数据子标题的标题向量余弦夹角与数据标题的标题向量余弦夹角的相似度，若所述相似度大于预设相似度阈值，则确定所述热点数据的数据内容的排序优先级次高；

若检测到所述热点数据中的多个关键字段中不存在先验词或仅存在一个不属于先验词的关键字段，则获取所述热点数据的社交类因子作为热点数据，并确定所述热点数据的数据内容的排序优先级别最低；

若检测到所述热点数据仅存在一个关键字段且属于先验词，则将所述热点数据作为所述关键字段的后续延展内容。

2.根据权利要求1所述的方法，其特征在于，所述分别提取预处理后的所述各当前原始数据的数据标题，并在所述各当前原始数据的数据标题中确定热点数据的数据标题，包括：

分别提取预处理后的所述各当前原始数据的数据标题；

3.根据权利要求2所述的方法，其特征在于，所述预设过滤规则包括：

过滤分类处理结果属于预设类别的第一数据标题；和，

过滤分词处理结果属于预设词性搭配的第二数据标题；和，

过滤数据标题长度小于预设长度阈值的第三标题数据；和，

过滤属于预设标题的第四标题数据；中的至少一种。

4.根据权利要求1所述的方法，其特征在于，所述获取在所述第一原始数据中筛选的热点数据，并对所述热点数据进行输出之前，还包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

采用预设先验词库以及所述热点数据的关键字段对所述热点数据进行延展调整处理，并对延展调整处理后的所述热点数据进行输出。

6.一种热点数据处理设备，其特征在于，包括：

第一数据获取单元，用于基于所述各当前原始数据间的关联关系，在所述当前原始数据集合中获取与所述数据标签信息相关联的第一原始数据；

数据输出单元，用于获取在所述第一原始数据中筛选的热点数据，采用预设先验词库以及所述热点数据的关键字段对所述热点数据进行延展调整处理，并对延展调整处理后的所述热点数据进行输出，所述延展调整处理包括数据内容筛选处理以及排序处理；

若检测到所述热点数据仅存在一个关键字段且属于先验词，则将所述热点数据作为所述关键字段的后续延展内容；

所述信息确定单元包括：

关系记录子单元，用于获取多个数据站点在第一预设时间段内存储的当前原始数据集合，并记录所述当前原始数据集合中各个数据站点对应的各当前原始数据间的关联关系；

数据处理子单元，用于对所述各当前原始数据进行预处理，所述预处理包括分词处理和分类处理；

标题确定子单元，用于分别提取预处理后的所述各当前原始数据的数据标题，并在所述各当前原始数据的数据标题中确定热点数据的数据标题；

信息获取子单元，用于根据所述热点数据的数据标题获取包含所述热点数据的分词处理结果、分词处理结果中的关键字段和内容集合的数据标签信息。

7.根据权利要求6所述的设备，其特征在于，所述标题确定子单元具体用于：

分别提取预处理后的所述各当前原始数据的数据标题；

8.根据权利要求7所述的设备，其特征在于，所述预设过滤规则包括：

过滤分类处理结果属于预设类别的第一数据标题；和，

过滤分词处理结果属于预设词性搭配的第二数据标题；和，

过滤数据标题长度小于预设长度阈值的第三标题数据；和，

过滤属于预设标题的第四标题数据；中的至少一种。

9.根据权利要求6所述的设备，其特征在于，还包括：

第二数据获取单元，用于在预先存储的历史原始数据集合中获取与所述数据标签信息匹配相似度大于预设相似度阈值的第二原始数据；

10.根据权利要求9所述的设备，其特征在于，所述数据输出单元包括：

数据筛选子单元，用于获取在所述第一原始数据和所述第二原始数据中筛选的热点数据；

数据输出子单元，用于采用预设先验词库以及所述热点数据的关键字段对所述热点数据进行延展调整处理，并对延展调整处理后的所述热点数据进行输出。

11.一种计算机存储介质，其特征在于，所述计算机存储介质存储有信息处理应用程序，所述信息处理应用程序被用于由处理器调用并执行如权利要求1-5任一项所述的方法。