CN103324718A

CN103324718A - 基于海量搜索日志挖掘话题脉络的方法和系统

Info

Publication number: CN103324718A
Application number: CN2013102560840A
Authority: CN
Inventors: 沈剑平; 彭学政; 罗嵘; 吴波
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-06-25
Filing date: 2013-06-25
Publication date: 2013-09-25
Anticipated expiration: 2033-06-25
Also published as: CN103324718B

Abstract

提供一种基于海量搜索日志挖掘话题脉络的方法及装置，所述方法包括：统计网络搜索日志，产生第一搜索词统计数据；将第一搜索词统计数据统计为第二搜索词统计数据；为第一统计记录提取关键词；计算关键词的累计搜索次数，得到关键词搜索累计统计数据；计算单位时间段的关键词搜索热度值；确定单位时间段的话题综合搜索热度值；最后确定所述话题的关键时间节点。通过采用本发明所述方法及装置，不仅能够有效避免话题关联引起的话题漂移，而且能够挖掘出清晰完整的话题脉络。

Description

基于海量搜索日志挖掘话题脉络的方法和系统

技术领域

本申请涉及一种基于海量搜索日志挖掘话题脉络的方法和系统，尤其涉及一种从海量的网络搜索日志进行分析以挖掘出给定话题的发展脉络的技术。

背景技术

随着互联网和移动终端的推广及应用，在网上浏览新闻已经成为网民最为常见的一种休闲方式，据腾讯科技统计：有61.67%的手机用户上网以浏览新闻为主。这些用户在浏览新闻时，往往点击浏览一些热门话题，而这些热门话题通常由若干话题进展组成，例如，“钓鱼岛争端”中可以包括“日本购岛”，“香港保钓”等若干事件。任何话题都有一个产生、发展、高潮、结束这样一个过程，整个过程中重要时刻的话题串联起来便形成话题脉络，因此如何在从海量历史话题信息中挖掘话题脉络成为了解一个新闻事件发展的重要需求。

为了能够在海量信息中挖掘和了解话题脉络，现有技术通常采用基于人工编辑标注和事件跟踪两种方式实现。其中，人工编辑标注方式需要对每篇新闻文档进行人工标注，然后通过机器将编辑标注好的文档进行汇总展示，这种方式挖掘到的话题信息覆盖面窄，人力成本高，不适应海量新闻事件脉络挖掘的需求；而事件跟踪方式则是通过把本阶段发生的热门话题与前一阶段发生的热门话题进行话题关联，如果有历史话题可以关联到当前话题，则当前话题为历史话题的一个进展，但是话题关联往往会引起话题漂移，而且这种方式跟踪的是话题的最新进展而不是关注话题的关键进展，因此挖掘到的话题进展数据并不是清晰话题脉络，另外，由于需要把当前的所有话题与历史所有话题进行关联匹配，因此这种方式的后期开发成本较大，周期较长。

发明内容

本发明的目的在于提供一种基于海量搜索日志挖掘话题脉络的方法及装置，在不需要与历史所有话题进行关联匹配的情况下，不仅能够避免话题漂移，而且能够生成清晰的话题脉络。

一种基于海量搜索日志挖掘话题脉络的方法，所述方法包括，在服务器端执行以下步骤：A）将预定时间段的网络搜索日志，以预定的时间单位，按照与给定话题相关的搜索词整理成为包括多个第一统计记录的第一搜索词统计数据，每个第一统计记录包括搜索词以及其搜索记录列表，所述点击记录列表包括所述预定时间段内的每个单位时间段以及所述搜索词的搜索次数；B）按照单位时间段，将第一搜索词统计数据统计成为包括多个第二统计记录的第二搜索词统计数据，每个第二统计记录包括单位时间段以及所述单位时间段内各搜索词的总搜索次数；C）针对每个第一统计记录中的每个搜索词，根据在所述话题中的重要性提取至少一个关键词作为所述第一统计记录的关键词；D）遍历第一统计记录，计算每个关键词在各个单位时间段的累计搜索次数，以得到包括多个第三统计记录的关键词搜索累计统计数据，每个第三统计记录包括关键词、单位时间段以及所述关键词的累计搜索次数，其中，对于没有在预定个数的连续单位时间段被搜索的关键词，自第一个不连续的单位时间段起计算其将其累计搜索次数记为0；E）针对每个单位时间段，计算所述单位时间段内的第三统计记录中的累积搜索次数的和作为所述单位时间段的关键词搜索热度值；F）针对每个单位时间段，根据在步骤E）计算的所述单位时间段的关键词搜索热度值和步骤B）统计的各搜索词的总搜索次数，确定所述单位时间段的话题综合搜索热度值；G）将计算的话题综合搜索热度值超过预定的搜索热度阈值的单位时间段确定为所述话题的关键时间节点。

所述预定的时间单位可以是天，所述单位时间段是一天。

优选地，步骤F）包括，使用以下公式计算单位时间段的话题综合搜索热度值：

话题综合搜索热度值=α×各搜索词的总搜索次数+β×关键词搜索热度值，

其中，α和β分别是所述单位时间段内各搜索词的总搜索次数以及关键词搜索热度值的权值常量。

优选地，所述的方法还包括：G-1）根据各个单位时间段的关键词搜索热度值确定所述搜索热度阈值。

优选地，在步骤G-1），根据以下公式确定所述搜索热度阈值：

avg_time_hot = \frac{Σ_{i}^{n} time_hot}{n}

std_time_hot = \sqrt{\frac{\underset{i}{Σ} {(time_{hot}_{i} - avg_time_hot)}^{2}}{n}}

thresold=avg_time_hot+α*std_time_hot

其中，avg_time_hot是平均关键词搜索热度值，time_hot_i是单位时间段i关键词搜索热度值，std_time_hot是标准关键词搜索热度值，threshold是搜索热度阈值，n为单位时间段的个数。

优选地，所述的方法还包括：H）为各个关键时间节点产生描述信息。

优选地，步骤H）包括：针对每个关键时间节点，对所述关键事件节点的第一统计记录中的搜索词进行切词，根据与所述话题的相关性对切出的词加权，选取权值超过预定阈值的词作为所述关键时间节点的描述信息。

优选地，步骤H）包括：针对每个关键时间节点，对所述关键事件节点的第一统计记录中的搜索词进行切词，根据与所述话题的相关性对切出的词加权，选取权值超过预定阈值的词，使用选取的词从收录的新闻数据库或文库查询匹配的文章，并且从查询到的文章中选取至少一篇文章作为所述关键时间节点的事件文章。

优选地，所述的方法还包括：I）存储第一搜索词统计数据和第二搜索词统计数据。

优选地，所述的方法还包括：J）获取增量的搜索日志；L）对增量的搜索日志执行步骤A）和B）；M）将由增量的搜索日志获得的第一搜索词统计数据和第二搜索词统计数据分别与存储的第一搜索词统计数据和第二搜索词统计数据合并；N）根据合并的第一搜索词统计数据和第二搜索词统计数据执行步骤C）～G）。

根据本发明的另一方面，提供一种基于海量搜索日志挖掘话题脉络的装置，所述装置包括：搜索日志获取单元，用于获取预定时间段的网络搜索日志；第一搜索词统计数据产生单元，用于以预定的时间单位，按照与给定话题相关的搜索词整理成为包括多个第一统计记录的第一搜索词统计数据，每个第一统计记录包括搜索词以及其搜索记录列表，所述点击记录列表包括所述预定时间段内的每个单位时间段以及所述搜索词的搜索次数；第二搜索词统计数据产生单元，用于按照单位时间段，将第一搜索词统计数据统计成为包括多个第二统计记录的第二搜索词统计数据，每个第二统计记录包括单位时间段以及所述单位时间段内各搜索词的总搜索次数；关键词提取单元，用于针对每个第一统计记录中的每个搜索词，根据在所述话题中的重要性提取至少一个关键词作为所述第一统计记录的关键词；关键词搜索累计统计数据计算单元，用于遍历第一统计记录，计算每个关键词在各个单位时间段的累计搜索次数，以得到包括多个第三统计记录的关键词搜索累计统计数据，每个第三统计记录包括关键词、单位时间段以及所述关键词的累计搜索次数，其中，对于没有在预定个数的连续单位时间段被搜索的关键词，自第一个不连续的单位时间段起计算其将其累计搜索次数记为0；关键词热度值计算单元，用于针对每个单位时间段，计算所述单位时间段内的第三统计记录中的累积搜索次数的和作为所述单位时间段的关键词搜索热度值；搜索热度值计算单元，用于针对每个单位时间段，根据关关键词热度值计算单元计算的所述单位时间段的关键词搜索热度值和第二搜索词统计数据产生单元统计的各搜索词的总搜索次数，确定所述单位时间段的话题综合搜索热度值；关键时间节点确定单元，用于将计算的话题综合搜索热度值超过预定的搜索热度阈值的单位时间段确定为所述话题的关键时间节点。

所述预定的时间单位可以是天，所述单位时间段可以是一天。

优选地，所述关键时间节点确定单元使用以下公式计算单位时间段的话题综合搜索热度值：

优选地，所述的装置还包括：搜索热度阈值确定单元，用于根据各个单位时间段的关键词搜索热度值确定所述搜索热度阈值。

优选地，所述搜索热度阈值确定单元根据以下公式确定所述搜索热度阈值：

avg_time_hot = \frac{Σ_{i}^{n} time_hot}{n}

std_time_hot = \sqrt{\frac{\underset{i}{Σ} {(time_{hot}_{i} - avg_time_hot)}^{2}}{n}}

thresold=avg_time_hot+α*std_time_hot

优选地，所述的装置还包括：关键时间节点描述信息产生单元，用于为各个关键时间节点产生描述信息。

优选地，所述关键时间节点描述信息产生单元针对每个关键时间节点，对所述关键事件节点的第一统计记录中的搜索词进行切词，根据与所述话题的相关性对切出的词加权，选取权值超过预定阈值的词作为所述关键时间节点的描述信息。

优选地，所述关键时间节点描述信息产生单元针对每个关键时间节点，对所述关键事件节点的第一统计记录中的搜索词进行切词，根据与所述话题的相关性对切出的词加权，选取权值超过预定阈值的词，使用选取的词从收录的新闻数据库或文库查询匹配的文章，并且从查询到的文章中选取至少一篇文章作为所述关键时间节点的事件文章。

优选地，所述的装置还包括：搜索词统计数据存储单元，用于存储第一搜索词统计数据和第二搜索词统计数据。

优选地，所述的装置还包括：增量日志获取单元，用于获取增量的搜索日志；搜索词统计数据合并单元，用于将由增量的搜索日志获得的第一搜索词统计数据和第二搜索词统计数据分别与所述搜索词统计数据存储单元存储的第一搜索词统计数据和第二搜索词统计数据合并。其中，关键词提取单元根据合并的第一搜索词统计数据提取关键词，关键词搜索累计统计数据计算单元遍历合并的第一搜索词统计数据中的第一统计记录，以得到合并的关键词搜索累计统计数据，关键词热度值计算单元基于所述合并的关键词搜索累计统计数据计算合并的关键词搜索热度值，搜索热度值计算单元根据合并的关键词搜索热度值和合并的第二搜索词统计数据确定合并的话题综合搜索热度值，并且关键时间节点确定单元基于所述合并的话题综合搜索热度值确定所述话题的关键时间节点。

有益效果

本发明不仅能够挖掘到清晰完整的话题脉络，克服了由于话题关联引起的话题漂移，而且还能够满足时效性需求，不断识别话题的最新进展。另外，本发明还从减少内存消耗及提高计算效率的角度出发，通过采用存储挖掘的历史数据，归并新增计算数据的方法，系统只需要对新增数据进行挖掘计算，不但有效降低了计算量，而且避免大量重复冗余的计算，有效解决了系统冷启动时由于全量挖掘引起的耗时较多的问题。

附图说明

通过下面结合附图进行的描述，本发明的上述和其他目的和特点将会变得更加清楚，其中：

图1是示出根据本发明的示例性实施例的基于海量搜索日志挖掘话题脉络的方法的流程图；

图2是示出根据本发明的示例性实施例的用户关注某个话题的热度趋势示意图；

图3是示出根据本发明的示例性实施例的基于海量搜索日志挖掘话题脉络的装置的逻辑框图。

具体实施方式

以下，将参照附图来详细说明本发明的实施例。

本发明的构思是通过采用从海量数据中计算用户话题关注趋势变化和话题进展时间轴的方式，不仅挖掘到清晰完整的话题脉络，而且克服了因为采用话题关联引起的话题漂移。与此同时，本发明还通过采用存储挖掘的历史数据，计算和归并新增日志数据的方法，不但在避免大量重复冗余计算的同时，还减少了对内存消耗，有效地提高了系统计算效率。

图1示出了本发明一种基于海量搜索日志挖掘话题脉络的方法的优选实施例的流程图。图3示出的一种基于海量搜索日志挖掘话题脉络的装置可用于实现图1中所述的方法。

参照图1，在步骤S110，将预定时间段的网络搜索日志，以预定的时间单位，按照与给定话题相关的搜索词整理成为包括多个第一统计记录的第一搜索词统计数据，每个第一统计记录包括搜索词以及其搜索记录列表，所述点击记录列表包括所述预定时间段内的每个单位时间段以及所述搜索词的搜索次数。

需要说明的是，本发明不需要限定预定时间段和预定的时间单位的长短，所述预定时间段和预定的时间单位及单位时间段可以依据实际情况进行设定，例如，可以是小时、天、周、月等等，只要能够反映话题脉络发展，便于数据统计即可。

当所述预定的时间单位是天时。则步骤S110可进一步变换为：将预定时间段的网络搜索日志，以天为单位，按照与给定话题相关的搜索词整理成为包括多个第一统计记录的第一搜索词统计数据，每个第一统计记录包括搜索词以及其搜索记录列表，所述搜索记录列表包括所述预定时间段内的每天的日期以及所述搜索词的搜索次数。

具体实施时，所述装置应首先获取预定时间段内所有与话题相关的搜索日志，并将所述日志中的搜索词进行归一化处理，在获取到归一化后的搜索词后，统计所述搜索词在该预定时间段内每天的搜索次数，并形成如下kv数据记录：

key:query

value:<time,click_num>

其中，所述key值中记录的是与给定话题相关的搜索词query；所述value值中记录的是该搜索词在该预定时间段内某一天time的搜索次数click_num。

通过统计该搜索词query在预定时间段内的kv数据，所述装置得到预定时间段内所述搜索词的第一统计记录，其结果可记录为<query,day_list>,其中所述day_list记录的是该搜索词query在预定时间段内每天time_i的搜索次数click_num_i，并记录该搜索词在预定时间段内的搜索数据，所述预定时间段内的搜索数据记录如下：

day_list=[<time₁,click_num₁>,…<time_i,click_num_i>]

进一步地，可将所述每个搜索词对应的第一搜索词统计数据记录为：

query_info_i={query_i,[<time₁,kv₁>,…<time_i,kv_i>]}

所述装置通过汇总所有搜索词query在预定时间段内的在搜索记录列表，继而得到本发明所述第一搜索词统计数据：

query_list=[query_info₁,…,query_info_i]

在步骤S120，按照单位时间段，将第一搜索词统计数据统计成为包括多个第二统计记录的第二搜索词统计数据，每个第二统计记录包括单位时间段以及所述单位时间段内各搜索词的总搜索次数。

具体实施时，所述装置通过将所述第一搜索词统计数据query_list中的所有query_info按照时间段进行统计加和得到本发明所述第二搜索词统计数据：

TimeLine=[Time₁.sum(query_info_j.kv₁),…,Time_i.sum(query_info_j.kv_i)]

可以看出，所述装置在执行该步骤时可以获得与所述给定话题相关的搜索词query沿时间轴的分布统计，进而绘制出给定话题的用户关注趋势变化图，所述用户关注趋势变化图在跟踪用户对该话题关注趋势变化的同时，还反映了该话题的发展。

例如，图2示出的就是采用本发明所述步骤S120统计出的第二搜索词统计数据绘制的“中菲黄岩岛事件”用户关注趋势图，该示例图不仅反映出用户关于“中菲黄岩岛事件”沿时间轴在不同时间段内点击该话题相关搜索词的频次，而且还从一定程度上反映了与“中菲黄岩岛事件”相关的话题进展。

虽然所述第二搜索词统计数据虽然可以在一定程度上反映出用户对所述给定话题的关注趋势变化，但是由于用户对给定话题的关注具有滞后性、持续性，因而仅凭用户对话题的关注趋势变化还是无法挖掘出准确的话题脉络。

为了进一步挖掘出准确的话题脉络，本发明通过提取与给定话题相关的关键词，并对所述关键词进行统计和热度聚类，从而得到所述关键词沿时间轴的分布数据，来解决用户关注的滞后性和持续性问题。因而，在步骤S130，所述装置针对每个第一统计记录中的每个搜索词，根据在所述话题中的重要性提取至少一个关键词作为所述第一统计记录的关键词。

具体实施时，可假设给定话题时间轴为[time₁,time₂,…,time_i]，且对应时间段time_i为一天，当然也可以根据实际需要做不同时间跨度的设定，为了便于实施，所述装置可以在获取到步骤S110所述的第一搜索词统计数据后，可以将每个第一统计记录中的每个搜索词query进行分词，根据该搜索词query中的每个关键词相对于该搜索词query的重要程度进行分类筛选，将重要的关键词保留下来作为所述第一统计记录的关键词term，将不重要的关键词丢弃。例如，搜索词“朝鲜卫星发射地点”在切词后，“朝鲜卫星”和“发射”可作为关键词保留，而“地点”将会被丢弃。在对所述关键词作出取舍后，所述装置将该搜索词query对应的kv搜索次数作为保留下来的关键词term对应的kv搜索次数。

在步骤S140，所述装置遍历第一统计记录，计算每个关键词在各个单位时间段的累计搜索次数，以得到包括多个第三统计记录的关键词搜索累计统计数据，每个第三统计记录包括关键词、单位时间段以及所述关键词的累计搜索次数，其中，对于没有在预定个数的连续单位时间段被搜索的关键词，自第一个不连续的单位时间段起计算其将其累计搜索次数记为0。

根据步骤S130提取到的关键词，所述装置将任一时间段内time_i所有保留的关键词term组成该时间段内time_i的关键词集合，并遍历该关键词集合内的每一个关键词term_j，如果每个关键词term_j在time_i-1时间段内没出现，则将该关键词term_j作为首次出现的事件关键词保留下来，并记录为<term_j，kv>。

如果该关键词term_j在time_i-2和time_i-1连续时间段内都出现过，则说明该关键词term_j是之前用户的延续关注，则所述装置将该关键词term_j的搜索次数kv累计到time_i-1时间段内的关键词term_j上。

如果该该关键词term_j在time_i-1时间段内出现过，但在time_i-2、time_i+1中没有连续出现，则说明该term没有被用户持续关注，其不是能够描述time_i时间段内事件的关键词term，可能是噪音，所述装置将直接丢弃该关键词term_j。

在步骤S150，所述装置针对每个单位时间段，计算所述单位时间段内的第三统计记录中的累积搜索次数的和作为所述单位时间段的关键词搜索热度值。

当所述装置统计完与给定话题相关的时间轴上所有的关键词后，将得到每个time_i时间段内，所有的话题关键词及每个关键词term_j对应的搜索次数，对time_i时间段内所有的话题关键词term_j按照搜索次数进行排序，并将所有关键词term_j的搜索次数进行累加得到time_i时间段内的关键词热度因子term_hot，即所述关键词的累计搜索次数。

在步骤S160，所述装置针对每个单位时间段，根据在步骤S150计算的所述单位时间段的关键词搜索热度值和步骤S120统计的各搜索词的总搜索次数，确定所述单位时间段的话题综合搜索热度值。

所述装置在获取步骤S120中time_i时间段内的所述各搜索词的总搜索次数query_hot和步骤S150中所述关键词搜索热度值term_hot之后，可采用如下公式计算话题综合搜索热度值time_hot：

time_hot=α*query_hot+β*term_hot

在步骤S170，所述装置将计算的话题综合搜索热度值超过预定的搜索热度阈值的单位时间段确定为所述话题的关键时间节点。

需要说明的是，在执行步骤S170之前，所述装置可以通过统计话题时间轴内time_hot的平均值avg_time_hot，标准差std_time_hot获得所述预定的搜索热度阈值threshold，具体计算过程如下：

avg_time_hot = \frac{Σ_{i}^{n} time_hot}{n}

std_time_hot = \sqrt{\frac{\underset{i}{Σ} {(time_{hot}_{i} - avg_time_hot)}^{2}}{n}}

thresold=avg_time_hot+α*std_time_hot

其中，n为单位时间段的个数。

所述装置根据所述预定的搜索热度阈值threshold对话题时间轴内所有的话题综合搜索热度值time_hot进行取舍，当话题综合搜索热度值time_hot>预定的搜索热度阈值threshold的节点都会被保留下来。被保留下来的节点按时间顺序组合起来形成最终的话题进展时间轴，每个节点意味该时间内有事件的话题进展发生。

在获得话题进展时间轴的基础上，本发明还可以通过挖掘每个关键时间节点上的事件以形成更为完整的话题脉络。因此，根据本发明的另一个优选实施例，所述装置还将为各个关键时间节点产生描述信息。为此，本发明还提出了以下几种可选实施例为各个关键时间节点产生描述信息。

实施例1

所述装置针对每个关键时间节点，对所述关键事件节点的第一统计记录中的搜索词进行切词，根据与所述话题的相关性对切出的词加权，选取权值超过预定阈值的词作为所述关键时间节点的描述信息。

实施例2

所述装置针对每个关键时间节点，对所述关键事件节点的第一统计记录中的搜索词进行切词，根据与所述话题的相关性对切出的词加权，选取权值超过预定阈值的词，使用选取的词从收录的新闻数据库或文库查询匹配的文章，并且从查询到的文章中选取至少一篇文章作为所述关键时间节点的事件文章。

由于冷启动时全量挖掘会引起的巨大资源消耗，为解决这一问题，根据本发明的另一个优选实施例，所述装置还存储第一搜索词统计数据和第二搜索词统计数据。这样系统除了在第一次启动时全量挖掘历史日志数据耗时较多外，在以后的每一次启动时都可以有效避免所述历史日志数据重复挖掘和计算，减少对系统资源的消耗。

另外，由于用户每天都会产生新的搜索日志，为了使挖掘到的数据能够实时反映和跟踪用户对话题的关注趋势变化和话题在某个时间节点上是否有重大进展，还需要对用户新增的日志数据进行增量挖掘，因此，根据本发明的另外一个更为优选的实施例，所述装置将获取增量的搜索日志；并对所述增量搜索日志执行步骤A）和步骤B）；将由增量的搜索日志获得的第一搜索词统计数据和第二搜索词统计数据分别与存储的第一搜索词统计数据和第二搜索词统计数据合并；然后根据合并的第一搜索词统计数据和第二搜索词统计数据执行步骤C）～G）。

可以看出，由于本发明存储了第一次启动时挖掘到的数据，因此在以后的增量挖掘过程中本发明只需要对用户产生的最新的日志数据进行处理即可，通过采用上述方法不仅可以有效地实时跟踪用户对话题的最新关注趋势，发现话题在某个时间点上的最新进展，而且可以避免大量重复冗余的计算量。这样做可以使得系统的计算量、资源消耗量都降到了最小。

图3示出了本发明一种基于海量搜索日志挖掘话题脉络的装置的优选实施例结构框图。

参照图3，所述装置至少包括：搜索日志获取单元310、第一搜索词统计数据产生单元320、第二搜索词统计数据产生单元330、关键词提取单元340、关键词搜索累计统计数据计算单元350、关键词热度值计算单元360、搜索热度值计算单元370和关键时间节点确定单元380，其中：

搜索日志获取单元310用于获取预定时间段的网络搜索日志。

第一搜索词统计数据产生单元320用于以预定的时间单位，按照与给定话题相关的搜索词整理成为包括多个第一统计记录的第一搜索词统计数据，每个第一统计记录包括搜索词以及其搜索记录列表，所述点击记录列表包括所述预定时间段内的每个单位时间段以及所述搜索词的搜索次数。其中，当所述的预定的时间单位是天时，则所述单位时间段是一天。

第二搜索词统计数据产生单元330用于按照单位时间段，将第一搜索词统计数据统计成为包括多个第二统计记录的第二搜索词统计数据，每个第二统计记录包括单位时间段以及所述单位时间段内各搜索词的总搜索次数。

关键词提取单元340用于针对每个第一统计记录中的每个搜索词，根据在所述话题中的重要性提取至少一个关键词作为所述第一统计记录的关键词。

关键词搜索累计统计数据计算单元350用于遍历第一统计记录，计算每个关键词在各个单位时间段的累计搜索次数，以得到包括多个第三统计记录的关键词搜索累计统计数据，每个第三统计记录包括关键词、单位时间段以及所述关键词的累计搜索次数，其中，对于没有在预定个数的连续单位时间段被搜索的关键词，自第一个不连续的单位时间段起计算其将其累计搜索次数记为0。

关键词热度值计算单元360用于针对每个单位时间段，计算所述单位时间段内的第三统计记录中的累积搜索次数的和作为所述单位时间段的关键词搜索热度值。

搜索热度值计算单元370用于针对每个单位时间段，根据关键词热度值计算单元360计算的所述单位时间段的关键词搜索热度值和第二搜索词统计数据产生单元320统计的各搜索词的总搜索次数，确定所述单位时间段的话题综合搜索热度值。其中，当所述预定的单位时间是天时，所述关键时间节点确定单元使用以下公式计算单位时间段的话题综合搜索热度值：

关键时间节点确定单元380用于将计算的话题综合搜索热度值超过预定的搜索热度阈值的单位时间段确定为所述话题的关键时间节点。其中，所述预定的搜索热度阈值可以通过搜索热度阈值确定单元（未示出）获得，当所述预定的时间单位为天时，搜索热度阈值确定单元将根据各个单位时间段的关键词搜索热度值确定所述搜索热度阈值，并且所述搜索热度阈值确定单元可以根据以下公式确定所述搜索热度阈值：

avg_time_hot = \frac{Σ_{i}^{n} time_hot}{n}

std_time_hot = \sqrt{\frac{\underset{i}{Σ} {(time_{hot}_{i} - avg_time_hot)}^{2}}{n}}

thresold=avg_time_hot+α*std_time_hot

为了形成更为清晰完整的话题脉络，根据本发明的另一个优选实施例，所述装置还包括：关键时间节点描述信息产生单元（未示出），所述关键时间节点描述信息产生单元用于为各个关键时间节点产生描述信息。

另外，本发明还为各个关键时间节点产生描述信息的实现提供了以下两个可选实施例。

根据本发明的可选实施例，所述关键时间节点描述信息产生单元针对每个关键时间节点，对所述关键事件节点的第一统计记录中的搜索词进行切词，根据与所述话题的相关性对切出的词加权，选取权值超过预定阈值的词作为所述关键时间节点的描述信息。

根据本发明的另一个可选实施例，所述关键时间节点描述信息产生单元针对每个关键时间节点，对所述关键事件节点的第一统计记录中的搜索词进行切词，根据与所述话题的相关性对切出的词加权，选取权值超过预定阈值的词，使用选取的词从收录的新闻数据库或文库查询匹配的文章，并且从查询到的文章中选取至少一篇文章作为所述关键时间节点的事件文章。

为了解决冷启动问题，避免重复计算挖掘历史日志数据，根据本发明的另一个优选实施例，所述装置还包括：搜索词统计数据存储单元（未示出），所述搜索词统计数据存储单元用于存储第一搜索词统计数据和第二搜索词统计数据。

由于用户每天都会产生新增的日志数据，为了对新增数据进行增量挖掘，根据本发明的另一个更为优选的实施例，所述装置还包括：增量日志获取单元（未示出）和搜索词统计日志合并单元（未示出），其中，所述增量日志获取单元用于获取增量的搜索日志；所述搜索词统计数据合并单元，用于将由增量的搜索日志获得的第一搜索词统计数据和第二搜索词统计数据分别与所述搜索词统计数据存储单元存储的第一搜索词统计数据和第二搜索词统计数据合并；然后将合并后的第一搜索词统计数据和第二搜索词统计数据传递给所述关键词提取单元340、关键词搜索累计统计数据计算单元350、搜索热度值计算单元370和关键时间节点确定单元380进行数据处理，其中，关键词提取单元340根据合并的第一搜索词统计数据提取关键词，关键词搜索累计统计数据计算单元350遍历合并的第一搜索词统计数据中的第一统计记录，以得到合并的关键词搜索累计统计数据，关键词热度值计算单元360基于所述合并的关键词搜索累计统计数据计算合并的关键词搜索热度值，搜索热度值计算单元370根据合并的关键词搜索热度值和合并的第二搜索词统计数据确定合并的话题综合搜索热度值，并且关键时间节点确定单元380基于所述合并的话题综合搜索热度值确定所述话题的关键时间节点。从而，可得到能够实时反映和跟踪用户对话题的最新关注趋势变化以及给定话题在某个时间节点上是否有重大进展的相关挖掘数据。

由此可见，与现有技术相比本发明不仅能够挖掘到清晰完整的话题脉络，克服了由于话题关联引起的话题漂移，而且还能够满足时效性需求，不断识别话题的最新进展。另外，本发明还从减少内存消耗及提高计算效率的角度出发，通过采用存储挖掘的历史数据，归并新增计算数据的方法，由于系统只需要对新增数据进行挖掘计算，不但有效降低了计算量，而且避免大量重复冗余的计算，从而有效地解决了系统冷启动时由于全量挖掘引起的耗时较多的问题。

需要指出，根据实施的需要，可将本申请中描述的各个步骤拆分为更多步骤，也可将两个或多个步骤或者步骤的部分操作组合成新的步骤，以实现本发明的目的。

上述根据本发明的方法可在硬件、固件中实现，或者被实现为可存储在记录介质（诸如CD ROM、RAM、软盘、硬盘或磁光盘）中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件（诸如ASIC或FPGA）的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件（例如，RAM、ROM、闪存等），当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

尽管已参照优选实施例表示和描述了本发明，但本领域技术人员应该理解，在不脱离由权利要求限定的本发明的精神和范围的情况下，可以对这些实施例进行各种修改和变换。

Claims

1.一种基于海量搜索日志挖掘话题脉络的方法，所述方法包括，在服务器端执行以下步骤：

A）将预定时间段的网络搜索日志，以预定的时间单位，按照与给定话题相关的搜索词整理成为包括多个第一统计记录的第一搜索词统计数据，每个第一统计记录包括搜索词以及其搜索记录列表，所述点击记录列表包括所述预定时间段内的每个单位时间段以及所述搜索词的搜索次数；

B）按照单位时间段，将第一搜索词统计数据统计成为包括多个第二统计记录的第二搜索词统计数据，每个第二统计记录包括单位时间段以及所述单位时间段内各搜索词的总搜索次数；

C）针对每个第一统计记录中的每个搜索词，根据在所述话题中的重要性提取至少一个关键词作为所述第一统计记录的关键词；

D）遍历第一统计记录，计算每个关键词在各个单位时间段的累计搜索次数，以得到包括多个第三统计记录的关键词搜索累计统计数据，每个第三统计记录包括关键词、单位时间段以及所述关键词的累计搜索次数，其中，对于没有在预定个数的连续单位时间段被搜索的关键词，自第一个不连续的单位时间段起计算其将其累计搜索次数记为0；

E）针对每个单位时间段，计算所述单位时间段内的第三统计记录中的累积搜索次数的和作为所述单位时间段的关键词搜索热度值；

F）针对每个单位时间段，根据在步骤E）计算的所述单位时间段的关键词搜索热度值和步骤B）统计的各搜索词的总搜索次数，确定所述单位时间段的话题综合搜索热度值；

G）将计算的话题综合搜索热度值超过预定的搜索热度阈值的单位时间段确定为所述话题的关键时间节点。

2.如权利要求1所述的方法，其特征在于，所述预定的时间单位是天，所述单位时间段是一天。

3.如权利要求2所述的方法，其特征在于，步骤F）包括，使用以下公式计算单位时间段的话题综合搜索热度值：

4.如权利要求2所述的方法，还包括：

G-1）根据各个单位时间段的关键词搜索热度值确定所述搜索热度阈值。

5.如权利要求4所述的方法，其特征在于，在步骤G-1），根据以下公式确定所述搜索热度阈值：

avg_time_hot = \frac{Σ_{i}^{n} time_hot}{n}

std_time_hot = \sqrt{\frac{\underset{i}{Σ} {(time_{hot}_{i} - avg_time_hot)}^{2}}{n}}

thresold=avg_time_hot+α*std_time_hot

6.如权利要求1-5任一项所述的方法，还包括：

H）为各个关键时间节点产生描述信息。

7.如权利要求6所述的方法，其特征在于，步骤H）包括：

针对每个关键时间节点，对所述关键事件节点的第一统计记录中的搜索词进行切词，根据与所述话题的相关性对切出的词加权，选取权值超过预定阈值的词作为所述关键时间节点的描述信息。

8.如权利要求6所述的方法，其特征在于，步骤H）包括：

针对每个关键时间节点，对所述关键事件节点的第一统计记录中的搜索词进行切词，根据与所述话题的相关性对切出的词加权，选取权值超过预定阈值的词，使用选取的词从收录的新闻数据库或文库查询匹配的文章，并且从查询到的文章中选取至少一篇文章作为所述关键时间节点的事件文章。

9.如权利要求6所述的方法，还包括：

I）存储第一搜索词统计数据和第二搜索词统计数据。

10.如权利要求9所述的方法，还包括：

J）获取增量的搜索日志；

L）对增量的搜索日志执行步骤A）和B）；

M）将由增量的搜索日志获得的第一搜索词统计数据和第二搜索词统计数据分别与存储的第一搜索词统计数据和第二搜索词统计数据合并；

N）根据合并的第一搜索词统计数据和第二搜索词统计数据执行步骤C）～G）。

11.一种基于海量搜索日志挖掘话题脉络的装置，所述装置包括：

搜索日志获取单元，用于获取预定时间段的网络搜索日志；

第一搜索词统计数据产生单元，用于以预定的时间单位，按照与给定话题相关的搜索词整理成为包括多个第一统计记录的第一搜索词统计数据，每个第一统计记录包括搜索词以及其搜索记录列表，所述点击记录列表包括所述预定时间段内的每个单位时间段以及所述搜索词的搜索次数；

第二搜索词统计数据产生单元，用于按照单位时间段，将第一搜索词统计数据统计成为包括多个第二统计记录的第二搜索词统计数据，每个第二统计记录包括单位时间段以及所述单位时间段内各搜索词的总搜索次数；

关键词提取单元，用于针对每个第一统计记录中的每个搜索词，根据在所述话题中的重要性提取至少一个关键词作为所述第一统计记录的关键词；

关键词搜索累计统计数据计算单元，用于遍历第一统计记录，计算每个关键词在各个单位时间段的累计搜索次数，以得到包括多个第三统计记录的关键词搜索累计统计数据，每个第三统计记录包括关键词、单位时间段以及所述关键词的累计搜索次数，其中，对于没有在预定个数的连续单位时间段被搜索的关键词，自第一个不连续的单位时间段起计算其将其累计搜索次数记为0；

关键词热度值计算单元，用于针对每个单位时间段，计算所述单位时间段内的第三统计记录中的累积搜索次数的和作为所述单位时间段的关键词搜索热度值；

搜索热度值计算单元，用于针对每个单位时间段，根据关键词热度值计算单元计算的所述单位时间段的关键词搜索热度值和第二搜索词统计数据产生单元统计的各搜索词的总搜索次数，确定所述单位时间段的话题综合搜索热度值；

关键时间节点确定单元，用于将计算的话题综合搜索热度值超过预定的搜索热度阈值的单位时间段确定为所述话题的关键时间节点。

12.如权利要求11所述的装置，其特征在于，所述预定的时间单位是天，所述单位时间段是一天。

13.如权利要求12所述的方法，其特征在于，所述关键时间节点确定单元使用以下公式计算单位时间段的话题综合搜索热度值：

14.如权利要求12所述的装置，还包括：

搜索热度阈值确定单元，用于根据各个单位时间段的关键词搜索热度值确定所述搜索热度阈值。

15.如权利要求14所述的方法，其特征在于，所述搜索热度阈值确定单元根据以下公式确定所述搜索热度阈值：

avg_time_hot = \frac{Σ_{i}^{n} time_hot}{n}

std_time_hot = \sqrt{\frac{\underset{i}{Σ} {(time_{hot}_{i} - avg_time_hot)}^{2}}{n}}

thresold=avg_time_hot+α*std_time_hot

16.如权利要求11-15任一项所述的装置，还包括：

关键时间节点描述信息产生单元，用于为各个关键时间节点产生描述信息。

17.如权利要求16所述的装置，其特征在于，所述关键时间节点描述信息产生单元针对每个关键时间节点，对所述关键事件节点的第一统计记录中的搜索词进行切词，根据与所述话题的相关性对切出的词加权，选取权值超过预定阈值的词作为所述关键时间节点的描述信息。

18.如权利要求16所述的方法，其特征在于，所述关键时间节点描述信息产生单元针对每个关键时间节点，对所述关键事件节点的第一统计记录中的搜索词进行切词，根据与所述话题的相关性对切出的词加权，选取权值超过预定阈值的词，使用选取的词从收录的新闻数据库或文库查询匹配的文章，并且从查询到的文章中选取至少一篇文章作为所述关键时间节点的事件文章。

19.如权利要求16所述的装置，还包括：

搜索词统计数据存储单元，用于存储第一搜索词统计数据和第二搜索词统计数据。

20.如权利要求19所述的装置，还包括：

增量日志获取单元，用于获取增量的搜索日志；

搜索词统计数据合并单元，用于将由增量的搜索日志获得的第一搜索词统计数据和第二搜索词统计数据分别与所述搜索词统计数据存储单元存储的第一搜索词统计数据和第二搜索词统计数据合并，

其中，关键词提取单元根据合并的第一搜索词统计数据提取关键词，关键词搜索累计统计数据计算单元遍历合并的第一搜索词统计数据中的第一统计记录，以得到合并的关键词搜索累计统计数据，关键词热度值计算单元基于所述合并的关键词搜索累计统计数据计算合并的关键词搜索热度值，搜索热度值计算单元根据合并的关键词搜索热度值和合并的第二搜索词统计数据确定合并的话题综合搜索热度值，并且关键时间节点确定单元基于所述合并的话题综合搜索热度值确定所述话题的关键时间节点。