CN111930949A

CN111930949A - 搜索串处理方法、装置、计算机可读介质及电子设备

Info

Publication number: CN111930949A
Application number: CN202010950570.2A
Authority: CN
Inventors: 黄婷
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2020-11-13
Anticipated expiration: 2040-09-11
Also published as: CN111930949B

Abstract

本公开提供了一种搜索串处理方法、装置、计算机可读介质和电子设备，涉及信息搜索领域。方法包括：获取热点事件集，对所述热点事件集中各热点事件进行预处理以获取与各所述热点事件对应的事件特征；根据所述热点事件及所述热点事件之间的距离构建第一图结构，并根据贪心算法对所述第一图结构中的节点进行分类，以获取包含目标事件的事件簇；根据所述事件簇中各热点事件的分词构建第二图结构，并基于所述第二图结构获取事件簇特征；基于所述事件特征和所述事件簇特征对搜索串的时效性进行识别。本公开可以提高事件簇及事件簇特征的挖掘效率，提高搜索串的时效性识别效率和精准度。

Description

搜索串处理方法、装置、计算机可读介质及电子设备

技术领域

本公开涉及信息搜索技术领域，具体而言，涉及一种搜索串处理方法、搜索串处理装置、计算机可读介质及电子设备。

背景技术

随着信息时代的快速发展，信息量大幅增加，为了提高信息获取效率，用户可以在各类网站中输入搜索词以获取相应的资源，例如在新闻网站可以输入一个或多个搜索词以获取相应的新闻内容。用户通常对最近出现的热门事件、热门人物比较感兴趣，在获取该事件、该人物的相关信息的同时还希望所获取的信息是最新的，对时效性有一定要求。

目前对于时效性搜索串的识别是基于时效概率表实现的，该时效概率表是根据基于符合时新需求的搜索词归纳得到的时效类型和基于搜索日志中点击页面的发布时间统计得到的搜索词的时效性概率构建而成的，但由于时效概率表并未利用当下热点新闻这一先验知识，会导致延迟识别和部分无法识别的问题，另外时效概率表也会由于搜索日志中数据不准确而不完善，导致识别结果存在误差。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的实施例提供了一种搜索串处理方法、搜索串处理装置、计算机可读介质及电子设备，进而至少在一定程度上可以提高搜索串的时效性识别效率和精准度。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开实施例的一个方面，提供了一种搜索串处理方法，包括：获取热点事件集，对所述热点事件集中各热点事件进行预处理以获取与各所述热点事件对应的事件特征；根据所述热点事件及所述热点事件之间的距离构建第一图结构，并根据贪心算法对所述第一图结构中的节点进行分类，以获取包含目标事件的事件簇；根据所述事件簇中各热点事件的分词构建第二图结构，并基于所述第二图结构获取事件簇特征；基于所述事件特征和所述事件簇特征对搜索串的时效性进行识别。

根据本公开实施例的一个方面，提供了一种搜索串处理装置，包括：事件特征获取模块，用于获取热点事件集，对所述热点事件集中各热点事件进行预处理以获取与各所述热点事件对应的事件特征；事件簇获取模块，用于根据所述热点事件及所述热点事件之间的距离构建第一图结构，并根据贪心算法对所述第一图结构中的节点进行分类，以获取包含目标事件的事件簇；事件簇特征获取模块，用于根据所述事件簇中各热点事件的分词构建第二图结构，并基于所述第二图结构获取事件簇特征；时效性识别模块，用于基于所述事件特征和所述事件簇特征对搜索串的时效性进行识别。

在本公开的一些实施例中，基于前述方案，所述事件特征获取模块配置为：对各所述热点事件进行分词、命名实体识别及去除停用词处理，以获取所述事件特征。

在本公开的一些实施例中，基于前述方案，所述事件簇获取模块包括：图构建单元，用于从所述热点事件集中确定包含所述目标事件的候选事件集，根据所述候选事件集中的事件和各所述事件之间的距离构建所述第一图结构。

在本公开的一些实施例中，基于前述方案，所述图构建单元包括：预处理单元，用于确定与所述热点事件集中各热点事件对应的事件标识，并对各所述热点事件进行预处理以获取与各所述热点事件对应的分词信息和分词特征；关键词获取单元，用于根据所述分词特征对各所述热点事件对应的分词信息进行排序，根据排序后的分词信息确定各所述热点事件的关键词，并根据各所述热点事件的关键词构建与各所述热点事件对应的第一分词序列；候选事件获取单元，用于根据各所述热点事件的事件标识和所述第一分词序列构建第一倒排索引表，并根据所述目标事件对应的关键词和所述第一倒排索引表确定所述候选事件集。

在本公开的一些实施例中，所述分词特征包括词性、实体词类型和逆向文档频率；基于前述方案，所述关键词获取单元配置为：根据预设规则确定与所述词性对应的第一分值和与所述实体词类型对应的第二分值，将所述第一分值、所述第二分值和所述逆向文档频率相加，以获取第三分值；根据所述第三分值由大到小对所述分词信息进行排序，并从排序后的分词信息中依次获取第一预设数量的分词信息作为所述关键词。

在本公开的一些实施例中，所述目标事件为所述第一图结构中的初始节点；基于前述方案，所述事件簇获取模块包括：第一处理单元，用于初始化一个关联容器和队列，将所述初始节点置于所述队列的首位，并将所述初始节点添加至所述关联容器中；第二处理单元，用于遍历所述第一图结构中的其它节点，将与所述初始节点的距离小于或等于第一距离阈值的第一节点对应的事件标识依次添加至所述队列中，并根据所述第一节点对应的事件标识更新所述关联容器；第三处理单元，用于初始化一个指针，根据所述指针的大小、所述队列和所述关联容器确定包含所述目标事件的事件簇。

在本公开的一些实施例中，所述指针的大小与所述队列中事件标识的序号相对应；基于前述方案，所述第三处理单元配置为：根据所述指针的大小在所述队列中确定基准事件标识，并计算所述基准事件标识对应的事件与所述第一图结构中其它节点对应的事件之间的距离；当所述第一图结构中存在与所述基准事件标识所对应事件的距离小于或等于第二距离阈值的第二节点时，将所述第二节点对应的待选事件的事件标识和所述基准事件标识存储于字典容器中；获取所述字典容器中与所述待选事件的事件标识对应的基准事件标识的数量，当所述数量大于或等于第二预设数量时，将所述待选事件的事件标识添加至所述队列中，并根据所述待选事件的事件标识更新所述关联容器；在根据所述指针遍历所述队列中所有事件标识后，根据最终形成的所述队列中的事件标识所对应的事件形成所述事件簇。

在本公开的一些实施例中，基于前述方案，所述事件簇特征获取模块包括：目标分词获取单元，用于对所述事件簇中的各个热点事件进行预处理，并根据预设词性从预处理的结果中获取目标分词；图结构构建单元，用于以所述目标分词为节点，在对应同一事件的目标分词之间构建边，根据所述节点和所述边构建所述第二图结构；事件簇特征确定单元，用于基于所述第二图结构迭代计算所述目标分词的权重，将所述目标分词的权重由大到小排序以获取第二分词序列，并根据所述第二分词序列确定所述事件簇特征。

在本公开的一些实施例中，基于前述方案，所述事件簇特征确定单元配置为：将所述第二分词序列中权重大于或等于权重阈值的分词作为所述事件簇的关键词；将所述关键词对应的权重作为所述关键词在所述事件簇中的关键词时新度；根据所述关键词和所述关键词时新度形成所述事件簇特征。

在本公开的一些实施例中，基于前述方案，所述时效性识别模块包括：搜索词获取单元，用于对所述搜索串进行预处理，以获取与所述搜索串对应的搜索词；相似度计算单元，用于获取所述搜索词和所述事件特征之间的相似度，判断所述相似度是否满足第一条件；时新概率计算单元，用于在所述相似度满足所述第一条件时，根据所述搜索词和所述事件簇特征获取所述搜索词的时新概率，并根据所述时新概率判断所述搜索串是否为时效性搜索串。

在本公开的一些实施例中，基于前述方案，所述相似度计算单元配置为：根据所述事件特征对应的分词及事件标识构建第二倒排索引表；将所述搜索词与所述第二倒排索引表中的分词进行匹配，根据匹配结果获取候选事件标识；获取所述搜索词在所述候选事件标识对应的候选事件中的词频和逆向文档频率，根据所述词频和所述逆向文档频率确定所述搜索串与所述候选事件之间的相似度；当所述相似度大于或等于相似度阈值时，判定所述相似度不满足所述第一条件；当所述相似度小于所述相似度阈值时，判定所述相似度满足所述第一条件。

在本公开的一些实施例中，基于前述方案，所述时效概率计算单元配置为：根据所述事件簇特征对应的分词及事件标识构建第三倒排索引表；将所述搜索词与所述第三倒排索引表中的分词进行匹配，根据匹配结果获取候选事件簇标识；获取所述搜索词对应的逆向文档频率，根据所述逆向文档频率和所述候选事件簇标识对应的关键词时新度确定所述时新概率；当所述时新概率大于或等于时新概率阈值时，判定所述搜索串是时效性搜索串；当所述时新概率小于所述时新概率阈值时，判定所述搜索串不是时效性搜索串。

根据本公开实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的各种可选实现方式中提供的方法。

根据本公开实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述的各种可选实现方式中提供的方法。

在本公开的一些实施例所提供的技术方案中，通过对热点事件集中的事件进行预处理以获取各事件的事件特征，同时通过贪心算法对根据热点事件集构成的第一图结构中的节点进行分类以获取包含目标事件的事件簇；然后对事件簇中的事件进行处理以获取事件簇特征；最后基于事件特征和事件簇特征对用户输入的搜索串的时效性进行识别，以判断搜索串是否为时效性搜索串。本公开的技术方案一方面能够提高事件簇及事件簇特征的挖掘效率和精准度；另一方面能够基于挖掘的事件簇及事件簇特征对搜索串的时效性进行精准识别，进而为用户推送与搜索串相关的热点资源，提高用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。

图2示意性示出了根据相关技术判断搜索串的时效性的流程示意图。

图3示意性示出了根据本公开的一个实施例的搜索串处理方法的流程图。

图4示意性示出了根据本公开的一个实施例的第一距离阈值、事件簇个数和平均度的关系图。

图5示意性示出了根据本公开的一个实施例的确定候选事件集的流程示意图。

图6示意性示出了根据本公开的一个实施例的获取事件簇特征的流程示意图。

图7示意性示出了根据本公开的一个实施例的根据事件特征对搜索串的时效性进行识别的流程示意图。

图8示意性示出了根据本公开的一个实施例的搜索串处理装置的框图。

图9示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

如图1所示，系统架构100可以包括终端设备101、网络102以及服务器103。其中，上述终端设备101可以是手机、便携式计算机、平板电脑、台式机等具有显示屏幕的终端设备；网络102为用以在终端设备101和服务器103之间提供通信链路的介质，网络102可以包括各种连接类型，例如有线通信链路、无线通信链路等等，在本公开实施例中，终端设备101和服务器103之间的网络102可以是无线通信链路，具体地可以是移动网络。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端、网络和服务器。比如服务器103可以是单个服务器，也可以是由多个服务器组成的服务器集群或者云服务器等。

在本公开的一个实施例中，用户通过终端设备101中内置或外设的输入装置输入搜索串，然后通过网络102将用户的搜索串发送至服务器103，服务器103接收到搜索串后，可以将其与预先处理得到的热点事件集的事件特征和事件簇特征进行比对，具体地，首先可以计算搜索串中的搜索词与事件特征之间的相似度，当相似度大于或等于相似度阈值时判定该相似度不满足第一条件，该搜索串具有时效需求，当相似度小于相似度阈值时判定该相似度满足第一条件，该搜索串可能不具有时效需求。为了进一步确定搜索串是否具有时效需求，可以计算搜索词在事件簇特征下的时新概率，当时新概率大于或等于时新概率阈值时判定搜索串为时效性搜索串，具有时效需求，当时新概率小于时新概率阈值时判定搜索串不是时效性搜索串，不具有时效需求。进一步地，当判定搜索串为时效性搜索串后，可以将与该搜索串相关的热点资源推送给用户，供用户浏览。在本公开的实施例中，服务器103可以间隔预设时间对热点事件集的事件特征和事件簇特征进行提取，并应用于线上时效性搜索串的识别。在获取热点事件集的事件特征和事件簇特征时，首先可以从一个或多个实时热点平台中获取预设时间段内的多个热点事件，形成热点事件集；然后对热点事件集中的各个热点事件进行预处理以获取各热点事件的事件特征，同时根据设定的贪心算法对热点事件集中的热点事件进行分类，以获取与热点事件集中任一热点事件对应的事件簇；最后对事件簇中各事件进行关键词提取及权重计算，以获取事件簇特征。为了缩小识别范围，提高识别效率，还可以在获取热点事件集后，通过对热点事件集中的事件进行预处理并构建倒排索引表，基于目标事件的多个分词和倒排索引表获取包含目标事件的候选事件集，进而根据候选事件集确定事件簇及事件簇特征。

需要说明的是，本公开各实施例所提供的搜索串处理方法一般由服务器执行，也可以由终端设备执行，或者由服务器和终端设备协同执行。

相关技术中，在判断搜索串是否具有时效需求时，通常根据时效性概率表进行判断。图2示出了相关技术中判断搜索串的时效性的流程示意图，如图2所示，在步骤S201中，获取搜索日志；在步骤S202中，根据离线逻辑确定搜索词的时效性概率和时效类型；具体地从搜索日志中根据点击页面的发布时间统计搜索词的时效性概率，再从符合时新需求的搜索词中归纳出时效类型；在步骤S203中，根据时效性概率和时效类型构建时效性概率表；在步骤S204中，获取用户输入的搜索串；在步骤S205中，将搜索串与时效性概率表中的信息进行比对，判断搜索串是否为时效性搜索串；在步骤S206中，获取比对结果；该比对结果即为搜索串是否为时效性搜索串。

在该方案中，从一个热点爆发到有足够多的普通网民搜索以及点击相关信息，再到搜集用户历史点击行为，最后到可以归纳统计出相关时效概率表，整个流程耗时很长，可能这个热点已经过了它的流行周期，它的时效概率表才被挖掘出来，并且没有利用当下的热点新闻这一先验知识，会导致延迟识别突发时效性搜索串和部分无法识别问题。此外，用户在检索相关热点搜索串时，目标结果很可能未排在搜索结果的前面，因此点击率较低，导致搜索日志中这类目标搜索串无法满足时新判断的条件，从而无法挖掘到时效概率表，进而无法准确判断搜索串的时效性。

鉴于相关技术中存在的问题，本公开实施例首先提出了一种搜索串处理方法，该搜索串处理方法可以应用于信息搜索领域，以下对本公开实施例的技术方案的实现细节进行详细阐述：

图3示意性示出了根据本公开的一个实施例的搜索串处理方法的流程图，该搜索串处理方法可以由服务器来执行，该服务器可以是图1中所示的服务器103。参照图3所示，该搜索串处理方法至少包括步骤S310至步骤S340，详细介绍如下：

在步骤S310中，获取热点事件集，对所述热点事件集中各热点事件进行预处理以获取与各所述热点事件对应的事件特征。

在本公开的一个实施例中，热点是指比较受广大群众关注或者欢迎的新闻或者信息，或指某时期引人注目的人物、地方或问题，通常现实中发生突发事件、出现热点人物及热点话题之后，首先会在媒体、网络上出现一些报道，接着用户会通过不同形式的搜索串query进行搜索，根据事件的发展及用户的点击搜索，该事件的报道会持续一段时间，在这段时间内该事件可以认为是热点事件。在不同的媒体平台及网络平台上，对于同一事件通常会采用不同的事件表述，例如对于新闻要点为“XX隔离”的事件，在媒体平台上出现的事件表述有“XX回国隔离《YYY》已经停拍，XX回国隔离两周”、“《YYY》拍摄中断，XX和MM身体无恙仍需自主隔离”、“XX新片因疫情停拍，回国后将自主隔离14天”，等等。为了根据用户输入的搜索串为用户精准推荐信息资源，根据包含多个热点事件的热点事件集确定热点事件的事件特征以及属于一类的热点事件簇的事件簇特征，对用户输入的搜索串进行时效性判别是很有必要的。其中信息资源包括新闻报道、视频、语音消息等类型，也就是说，热点事件的具体内容可以以文本、语音、图像等形式体现。

在本公开的一个实施例中，通过对热点事件集中的热点事件进行预处理，可以获取与各热点事件对应的事件特征。预处理具体可以包括分词、命名实体识别和去除停用词，词是最小的能够独立获得的有意义的语言成分，通过分词可以将事件表述转换为词的表示，分词时可以基于规则、基于统计以及二者混合的方式进行分词，以基于规则的分词方式为例，可以通过词典匹配的方式对事件表述对应的句子进行划分，具体可以采用正向最大匹配法、逆向最大匹配法、双向最大匹配法进行分词；命名实体识别是对事件表述中的实体进行识别的过程，命名实体包括三大类和七小类，其中三大类包括实体类、时间类和数字类，七小类包括人名、机构名、地名、时间、日期、货币和百分比，通过命名实体识别可以对分词得到的词语进行实体信息标注；停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，这些字或词即被称为停用词，通常停用词是人工输入、非自动化生成的，根据常用的停用词可以形成一个停用词表，根据停用词表可以对分词后的结果进行去除停用词处理，只保留事件表述中有意义的词。值得说明的是，本公开实施例中进行命名实体识别时，所抽取的实体词类别还可以包含其它的实体词类别，如IP类型等等，具体类别设置可以根据实际需要设定。

在本公开的一个实施例中，由于热点事件的更新比较快，为了提高事件特征的更新速率，可以以分钟级的频率更新热点事件库，例如每隔5分钟、10分钟、20分钟等更新一次，在更新热点事件库时，可以从一些信息更新迅速的站点获取热点事件，例如可以从全网热榜、各媒体平台的热点中台中获取预设时间段内发生的热点事件构建热点事件集，由于热点事件集的更新速率快，相应地事件特征的更新速率也会比较快，其更新速率可以与热点事件集的更新速率相同，例如每隔5分钟、10分钟、20分钟更新到线上服务，当然还可以根据实际需要设定更新周期。

在步骤S320中，根据各所述热点事件及热点事件之间的距离构建第一图结构，并根据贪心算法对所述第一图结构中的节点进行分类，以获取包含目标事件的事件簇。

在本公开的一个实施例中，一个事件簇至少包含两个以上个事件表述，一个事件簇内的所有事件表述指向同一个新闻/热点，即每个事件表述所描述的要点是彼此相同的，因而事件簇存在传递性，若事件表述A和事件表述B属于一个事件簇，且事件表述B和事件表述C属于一个事件簇，则事件表述A和事件表述C属于一个事件簇。也就是说，即使是对应同一个事件要点的事件，也会有多个不同的事件表述，因此有必要对热点事件集中的热点事件进行聚类，将对应同一个事件要点的事件划分为一个事件簇，并获取事件簇特征，进而基于事件特征和事件簇特征对用户输入的搜索串的时效性进行识别。

在挖掘热点事件集中的事件簇时，可以根据热点事件集中各热点事件及任意两热点事件之间的距离构建第一图结构，进而基于第一图结构进行分类，以获取一个或多个包含目标事件的事件簇。在构建第一图结构时，以各热点事件为节点，根据两节点对应的事件之间的距离确定是否在两节点之间设置边，进而根据节点和边构建得到第一图结构。热点事件集中任一热点事件可以作为目标事件，在挖掘包含目标事件的事件簇时，可以将目标事件作为第一图结构中的初始节点，其它事件作为非初始节点，进而根据第一图结构得到包含目标事件的事件簇。事件之间的距离表征两事件之间的紧密程度，若两事件之间的距离小于或等于第一距离阈值，则说明两个事件对应同一事件要点，可以划分为一个事件簇，若两事件之间的距离大于第一距离阈值，则说明两个事件对应不同的事件要点，不能划分为一个事件簇。

在本公开的一个实施例中，第一距离阈值与事件簇的质量相关，在评价事件簇的质量时可以根据以下两个指标进行无监督地评估，一个指标为挖掘的事件簇个数，一个指标为整体平均度。事件簇个数很直观，个数越多表示每个事件簇的粒度越小，事件簇的精确率越高，事件簇间的信息冗余度可能也越高，相应地召回率越低；相反，事件簇个数越少，表示每个事件簇的粒度越大，事件簇的精确率越低，而召回率越高。整体平均度是所有事件簇的平均度的平均值，可以用平均度衡量一个事件簇的质量，平均度表示图结构中平均每个节点的度数，一个事件簇内部越紧密，平均度越高。平均度的计算公式如公式（1）所示：

(1)

其中，avg_degree为平均度，deg(v)为第一图结构中每个节点的度，|V|为节点的个数，|E|为第一图结构中边的个数。

值得注意的是，当第一距离阈值卡得过低时，会引入很多边，这样两个事件是否属于同一个事件簇的错误率会激增，因此可以根据衡量事件簇质量的两个指标，通过多次试验确定第一距离阈值，以同时兼顾整体平均度和事件簇的个数。在本公开的实施例中，第一距离阈值以及事件之间的距离均可以为余弦距离，当然也可以是其它类型的距离，图4示出了第一距离阈值、事件簇个数和平均度的关系图，如图4所示，当余弦距离取[0.3,0.4]时，事件簇个数达到最大值，并且平均度的增长趋势也比较缓慢，也就是说，第一距离阈值取[0.3,0.4]中的任意值的效果最优。

在确定第一距离阈值后，可以将事件之间的距离与第一距离阈值进行比较，当事件之间的距离小于或等于第一距离阈值时，在两事件形成的节点之间设置边，当事件之间的距离大于第一距离阈值时，在两事件形成的节点之间不设置边。进而根据事件形成的节点和节点之间的边形成第一图结构。

在本公开的一个实施例中，由于获取的热点事件覆盖各个领域，因此热点事件集中必然包含大量的热点事件，这对后续的事件簇挖掘和事件簇特征挖掘都带来不小的压力，为了减小数据处理量，提高事件簇和事件簇特征的挖掘效率，可以对热点事件集中的事件进行筛选以获取包含目标事件的候选事件集，进而基于候选事件集构建图结构，进行事件簇和事件簇特征的挖掘。

图5示出了确定候选事件集的流程示意图，如图5所示，在步骤S501中，确定与热点事件集中各热点事件对应的事件标识，并对各热点事件进行预处理以获取与各热点事件对应的分词信息和分词特征；在步骤S502中，根据分词特征对各热点事件对应的分词信息进行排序，根据排序后的分词信息确定各热点事件的关键词，并根据各热点事件的关键词构建与各热点事件对应的第一分词序列；在步骤S503中，根据各热点事件的事件标识和第一分词序列构建第一倒排索引表，并根据目标事件对应的关键词和第一倒排索引表确定候选事件集。

接下来对图5所示的各步骤进行详细说明。

其中，步骤S501中，确定与热点事件对应的事件标识具体可以是根据获取热点事件的时间顺序对热点事件赋予事件标识，该标识可以是简单的数字，也可以是根据热点事件的类型和获取时间组合而成的标识信息，只要能够体现热点事件的获取顺序且区别不同的热点事件即可。对热点事件进行预处理具体可以是对热点事件进行分词、命名实体识别和去除停用词处理，以获取与热点事件对应的分词信息和分词特征，该分词特征包括词性、实体词类型和idf值。在本公开的实施例中，在分词时主要获取动词、名词、动名词等词性的分词，命名实体识别主要识别IP类型、人名、机构名和地名等，在预处理结束后，可以根据得到的分词从idf特征库中获取对应的idf值，idf为逆向文档频率，某一特定词语的idf可以由总文档数目除以包含该词语的文档的数目，再将得到的商取对数得到。由于对同一文档集而言，各个词语的idf值不会发生变化，因此可以根据各个词语在文档集中的idf值形成idf特征库，当对热点事件进行预处理获取分词后，可以根据分词在idf特征库中查找获取对应的idf值。

步骤S502中，在获取热点事件对应的分词信息和分词特征后，可以根据预先设定的赋值规则对分词的词性、实体词类型进行赋值，以获取与词性对应的第一分值和与实体词类型对应的第二分值，例如可以对IP类型、人名、机构名赋值10分，对地名赋值7分，对动词、名词、动名词赋值3分，等等，然后将第一分值、第二分值和idf值相加，以获取与分词信息对应的第三分值；接着根据分词信息对应的第三分值由大到小对分词信息排序，并从排序后的分词信息中依次获取第一预设数量的分词信息作为关键词，即从排序后的分词信息中获取top k个分词信息作为热点事件的关键词，其中k可以根据实际需要设定，例如可以设置为5，等等，然后再根据各热点事件对应的关键词构建各热点事件对应的第一分词序列。

步骤S503中，基于各个热点事件对应的第一分词序列和事件标识建立从分词到事件标识的第一倒排索引表，进而可以根据目标事件对应的关键词和第一倒排索引表确定候选事件集。在本公开的实施例中，通过一系列的剪枝操作来获取候选事件集，以在召回所有候选事件的前提下缩小热点事件查找范围。

剪枝操作具体如下：首先获取目标事件的关键词，即目标事件对应的top k个分词；接着使用该些关键词在倒排索引表中进行匹配，以获取候选事件的事件标识。这样可以将热点事件查找范围从原始的热点事件集缩小到包含目标事件关键词的事件集合，通过实验发现，当原始热点事件集的大小为15864时，通过上述倒排查找，可以将候选事件集的大小平均缩小到2291.73。虽然该步获取的候选事件集的大小相对原始的热点事件集有了显著地缩小，但是为了进一步过滤无关的候选事件，还可以根据目标事件的关键词进行深度过滤，具体地可以设定候选事件至少包括目标事件的2个关键词，并且已经属于历史生成的事件簇的事件也会被过滤掉，在同一实验中，候选事件集的大小的平均值从2291.73缩小至18.84。可以看出，通过上述剪枝操作可以过滤掉热点事件集中大量的无关事件，保证候选事件集中基本为与目标事件相关的事件，另外由于候选事件集的大小远远小于热点事件集的大小，因此可以提高事件簇和事件簇特征的挖掘效率。

在本公开的一个实施例中，在第一图结构中，目标事件为初始节点，为了获取包含目标事件的事件簇，可以以初始节点为基准，通过社区发现算法从第一图结构中找到包含初始节点的紧密子图，但是实验发现直接应用社区发现算法，对少部分候选集很大的情况下，耗时非常高，因此为了快速获取包含目标事件的事件簇，并提高事件簇的质量，本公开实施例中根据设置好的贪心算法对第一图结构中的节点进行分类。

在本公开的一个实施例中，可以设定一些条件，满足设定条件的事件必然属于包含目标事件的事件簇。设定条件具体可以是：条件1、初始节点属于当前要挖掘的事件簇；条件2、与初始节点的余弦距离小于第一距离阈值的事件属于当前要挖掘的事件簇；条件3、若事件X不存在于基于条件1和2所获取的事件簇中，但事件簇中存在至少m个事件与事件X的余弦距离小于第一距离阈值，则事件X属于当前要挖掘的事件簇，其中m可以根据实际需要设置，例如可以设置为2。

在根据贪心算法对第一图结构中的节点进行分类时，首先初始化一个空的关联容器、一个队列和一个字典容器，其中关联容器具体可以是set容器，用于存放满足包含目标事件的事件簇条件的事件标识，队列用于存放组成包含目标事件的事件簇的事件标识队列，字典容器用于存放与满足条件1和2的事件簇中各事件的距离小于或等于第二距离阈值的事件所对应的事件标识；接着将初始节点对应的事件标识置于队列的首位，并将初始节点对应的事件标识添加至set容器；然后遍历第一图结构中的其它节点，将与初始节点的距离小于或等于第一距离阈值的第一节点对应的事件标识依次添加至队列中，并根据第一节点对应的事件标识更新关联容器；最后初始化一个指针，根据指针的大小、队列和关联容器确定包含目标事件的事件簇。通过将与初始节点的距离小于或等于第一距离阈值的第一节点对应的事件标识依次添加至队列中，可以将第一图结构中满足条件2的节点对应的事件划分到包含目标事件的事件簇中，也就是说，此时的set容器中包含的事件标识所对应的事件均是满足条件1和条件2的事件，均属于包含目标事件的事件簇。

根据指针的大小、队列和关联容器确定包含目标事件的事件簇，主要是为了获取第一图结构中满足条件3的节点所对应的事件。指针的大小和队列中事件标识的序号相对应，例如指针为5时，则指向队列中处于第5位的事件标识，值得注意的是，队列中的事件标识是从第0位开始存放。初始化的指针的大小为0，指向队列的第0个元素，即初始节点对应的事件标识，然后指针逐次加1，指向队列的下一个元素，当确定指针的大小后，可以根据指针的大小在队列中确定基准事件标识，并计算基准事件标识对应的事件与第一图结构中其它节点对应的事件之间的距离，例如指针的大小为4，那么可以将队列中第4位元素对应的事件标识作为基准事件标识，然后计算基准事件标识对应的事件与第一图结构中除第0位-第4位元素对应的节点之外的其它节点之间的距离。当第一图结构中存在与基准事件标识所对应事件的距离小于或等于第二距离阈值的第二节点时，将该第二节点对应的待选事件的事件标识和基准事件标识存储于字典容器中，该字典容器为键值对容器，其中key存放待选事件的事件标识，value是set容器，存放与待选事件的事件标识对应的基准事件标识的集合。

当根据待选事件的事件标识更新字典容器后，判断字典容器中该待选事件的事件标识所对应的基准事件标识的数量是否达到第二预设数量，该预设数量具体可以是上文中提到的m，当与该待选事件的事件标识所对应的基准事件标识的数量大于或等于第二预设数量时，说明在满足条件1和条件2的事件簇中存在至少m个事件与目标事件的距离小于或等于第二距离阈值，该待选事件属于当前要挖掘的包含目标事件的事件簇，因此可以将该待选事件追加到队列的后面，并根据该待选事件更新关联容器；当与该待选事件的事件标识所对应的基准事件标识的数量小于预设数量时，说明该待选事件不满足条件3，不属于当前要挖掘的包含目标事件的事件簇，过滤掉即可。

通过根据指针对队列中全部元素进行遍历，并执行以上操作，即可获取可形成包含目标事件的事件簇的所有事件，进而根据最终形成的队列中的事件即可形成包含目标事件的事件簇。

在本公开的一个实施例中，事件之间的距离均可以为余弦距离，且第一距离阈值和第二距离阈值的大小均可以相同。

通过上述的贪心算法对第一图结构中各个节点对应的事件进行分类，可以获取候选事件集中与目标事件的距离小于或等于第一距离阈值的所有事件，该些事件可以形成初始事件簇，进一步地，可以获取候选事件集中与初始事件簇中至少m个事件的距离小于或等于第二距离阈值的所有事件，进而根据初始事件簇和该些事件可以形成包含目标事件的事件簇。这样能够提高事件簇的挖掘效率以及精准度，在保证精确率的同时也保证了召回率。

在步骤S330中，根据所述事件簇中各事件的分词构建第二图结构，并基于所述第二图结构获取事件簇特征。

在本公开的一个实施例中，在挖掘得到包含目标事件的事件簇后，可以对事件簇的特征进行挖掘，以获取事件簇特征。在本公开实施例中，将事件簇的关键词和关键词时新度作为事件簇特征，在获取事件簇的关键词时，可以根据事件簇中的各个事件构建第二图结构，并根据第二图结构确定事件簇的关键词。

图6示出了获取事件簇特征的流程示意图，如图6所示，在步骤S601中，对事件簇中的各个热点事件进行预处理，并根据预设词性从预处理的结果中获取目标分词；在步骤S602中，以目标分词为节点，在对应同一事件的目标分词之间构建边，根据节点和边构建第二图结构；在步骤S603中，基于第二图结构迭代计算目标分词的权重，将目标分词的权重由大到小排序以获取第二分词序列，并根据第二分词序列确定事件簇特征。

步骤S601中，对事件簇中的热点事件所进行的预处理与上述实施例中的预处理相同，也是对热点事件进行分词、命名实体识别和去除停用词处理，通过预处理可以获取与事件簇中各个热点事件对应的分词信息，接着可以根据预设词性从事件的分词信息中获取目标分词，该预设词性具体可以是名词、动词、动名词等特定词性，该些词性的分词在事件中具有较大权重，可作为热点事件的关键词，根据预设词性对分词信息进行过滤可以避免不重要的分词所带来的计算量，提高事件簇特征的挖掘效率。

步骤S602中，在获取事件对应的目标分词后，可以根据目标分词构建第二图结构，该第二图结构为无向图，其中目标分词为节点，对应同一事件的分词之间设置边，这是因为对应同一事件的分词之间存在共现关系，因此在对应同一事件的分词之间存在边。

步骤S603中，在构建完成第二图结构后，可以基于第二图结构确定各个目标分词的权重，该权重表征了目标分词在事件中的重要度，权重越大，作为事件簇关键词的概率越大。在确定目标分词的权重时，可以根据公式（2）进行计算，具体如下：

（2）

其中，S(V_i)为V_i节点的权重，S(V_j)为V_j节点的权重，d为参数，in(V_i)为V_i节点的邻居节点，j为与V_i节点相邻的第j个邻居节点，out(V_j)为V_j邻居节点的边的个数。

根据公式（2）对第二图结构中的每个分词的权重进行迭代计算，直至收敛，即可获取每个分词的最终权重。在获取各个分词的权重后，可以根据分词的权重从大到小进行排序以获取第二分词序列，接着可以将第二分词序列中各分词的权重依次与预设的权重阈值进行比较，若分词的权重大于或等于权重阈值，则将该分词作为事件簇的关键词，若分词的权重小于权重阈值，则该分词不是事件簇的关键词，其中权重阈值可以根据实际需要设定，例如可以设置为0.7等。在确定事件簇的关键词后，可以将与该些关键词对应的权重作为各关键词在事件簇下的时新度，即关键词时新度，最后根据事件簇的关键词和关键词时新度即可获取事件簇特征。

在本公开的一个实施例中，在挖掘得到与热点事件集对应的事件特征及事件簇特征后，可以将事件簇和事件簇特征更新到线上服务，以对接收到的搜索串的时效性进行识别。

在步骤S340中，基于所述事件特征和所述事件簇特征对搜索串的时效性进行识别。

在本公开的一个实施例中，事件特征和事件簇特征均可用于对搜索串的时效性进行识别，当将事件特征和事件簇特征更新到线上服务时，可以先根据事件特征对搜索串的时效性进行识别，当根据事件特征无法确定搜索串的时效性时，再根据事件簇特征对搜索串的时效性进行识别。

在本公开的一个实施例中，在对搜索串进行时效性识别之前，也需要对搜索串进行预处理，以获取与搜索串对应的分词及分词特征，在对搜索串进行分词、命名实体识别和去除停用词处理得到与搜索串对应的搜索词后，将搜索词与idf特征库中的分词进行匹配，以获取搜索词对应的idf值。

在根据事件特征对搜索串的时效性进行识别时，具体是计算搜索串与事件特征的相似度，判断相似度是否满足第一条件，若不满足则搜索串具有时效性，若满足则搜索串可能没有时效性，还需进一步判断。图7示出了根据事件特征对搜索串的时效性进行识别的流程示意图，如图7所示，在步骤S701中，根据事件特征对应的分词及事件标识构建第二倒排索引表；在步骤S702中，将搜索词与第二倒排索引表中的分词进行匹配，根据匹配结果获取候选事件标识；在步骤S703中，获取搜索词在候选事件标识对应的候选事件中的词频和逆向文档频率，根据该词频和逆向文档频率确定搜索串与候选事件之间的相似度；在步骤S704中，当相似度大于或等于相似度阈值时，判定相似度不满足第一条件，则搜索串是时效性搜索串；当相似度小于相似度阈值时，判定相似度满足第一条件，则搜索串可能不是时效性搜索串。其中，在步骤S701的第二倒排索引表中，事件特征对应的分词为key，分词对应的事件标识为value；在步骤S703中搜索词在候选事件标识对应的候选事件中的词频为搜索词在每一个候选事件标识对应的候选事件中出现的次数，并且根据词频和逆向文档频率确定搜索串与候选事件之间的相似度可以通过公式（3）计算得到，具体如下：

（3）

其中，Q为搜索串对应的搜索词集合，E为候选事件对应的分词集合，tf_w为某个分词的词频，idf_w为某个分词的idf值。

在本公开的一个实施例中，相似度阈值可以根据实际需要设定，例如可以设置为0.6，当根据公式（3）得到搜索词与某事件的事件特征的相似度大于或等于0.6时，说明该搜索串与该事件相关，可以确定搜索串为时效性搜索串，也就是说用户想要获取与该热点事件相关的信息；当根据公式（3）得到搜索串与某事件的事件特征相似度小于0.6时，说明该搜索串与该事件的相关度较低，可能不是时效性搜索串，但是为了提高识别精准度，还需要根据事件簇特征对搜索串的时效性进行识别。

在本公开的一个实施例中，在根据事件簇特征进行时效性识别时，首先可以根据事件簇特征对应的分词及事件簇标识构建第三倒排索引表，将事件簇特征对应的分词作为key，将事件簇对应的分词所对应的事件簇标识作为value；接着可以将对搜索串进行预处理得到的搜索词与第三倒排索引表中的分词进行匹配，以获取匹配的候选事件簇标识；然后根据搜索词对应的idf值和候选事件簇标识对应的事件簇的事件簇特征计算搜索词属于每个事件簇特征的概率，也就是搜索词的时新概率；最后根据时新概率判断搜索串是否为时效性搜索串。

在计算搜索词的时新概率时，可以通过公式（4）计算得到，具体为：

（4）

其中，Q为搜索串对应的搜索词集合，E’为事件簇对应的关键词集合，idf_w为某个搜索词的idf值，weight_w为事件簇的关键词对应的关键词时新度。

在本公开的一个实施例中，在获取时新概率之后，可以将时新概率与时新阈值进行比较，判断搜索串是否为时效性搜索串。与相似度阈值类似，时新阈值也可以根据实际需要设定，例如可以设置为0.65，当根据公式（4）得到时新概率大于或等于0.65时，说明该搜索串与该事件簇特征对应的事件簇相关，可以确定搜索串为时效性搜索串，也就是说用户想要获取与该类热点事件相关的信息；当根据公式（4）得到时新概率小于0.65时，说明该搜索串与该事件簇对应的事件簇特征的相关度较低，可以确定搜索串不是时效性搜索串。

在确定搜索串是否为时效性搜索串后，可以根据识别结果为用户推送相应的信息，例如用户在前端输入的搜索串为“疫情的发展情况”，通过计算搜索串与热点事件对应的事件特征的相似度以及搜索串在热点事件对应的事件簇特征下的时新概率，确定搜索串是否为时效性搜索串，例如经判断确定该搜索串为时效性搜索串，那么可以获取关于疫情的热点事件，并将各个平台中关于疫情的报道推送给用户，如果经判断确定该搜索串不是时效性搜索串，那么可以获取与疫情相关的知识以及历史新闻报道推送给用户。

在本公开的一个实施例中，根据事件簇的挖掘方法可以对热点事件对应的热词进行聚合去重，这在热榜展示热点事件时是很重要的，通过聚合去重可以去除对应同一热点事件的热词，保留不重复的热点事件。举例而言，在视频的热榜展示应用场景中，热榜原始数据都是从全网各个热榜抓取得到的，例如从微博热搜、微博话题榜、各搜索平台的热搜等抓取源获取热榜原始数据，热榜数据汇集后，同一个热点事件会有多个相似词条出现，通过上述实施例的事件簇挖掘方法可以将多个热榜原始数据，即多个热词，划分为一个或多个事件簇，各事件簇对应一个热点事件，且属于同一个事件簇的热词可以认为是对同一个热点事件的多种描述，这样在展示热点事件时只需将每个事件簇中的任一热词进行展示即可，保证了热榜中展示的都是不重复的热点事件。

本公开中搜索串处理方法能够根据与热点事件集对应的事件特征和事件簇特征对用户输入的搜索串进行时效性识别，进而根据识别结果确定与搜索串对应的时效需求。在挖掘热点事件集中的事件簇及事件簇特征时，可以通过对热点事件集中的热点事件进行处理获取包含目标事件的候选事件集，接着根据候选事件集构建第一图结构并采用贪心算法对第一图结构中的节点进行分类，获取包含目标事件的事件簇，在挖掘事件簇特征时，可以根据事件簇中的事件构建第二图结构，进而通过关键词查找方法获取事件簇的关键词及关键词的权重，得到事件簇特征。本公开的技术方案一方面能够提高事件簇及事件簇特征的挖掘效率和精准度，在一次对比实验中，原始事件列表相同，大小为158614，本公开实施例中的事件簇挖掘方法在15min内处理完所有事件，挖掘出21715个事件簇，而使用社区检测算法greedy_modularity_communities处理到第66个事件时，发现了44个事件簇，但已经使用了83min；另一方面能够提高对搜索串的时效性识别的精准度，保证为用户进行精准地信息推荐，提高用户体验。

以下介绍本公开的装置实施例，可以用于执行本公开上述实施例中的搜索串处理方法。对于本公开装置实施例中未披露的细节，请参照本公开上述的搜索串处理方法的实施例。

参照图8所示，根据本公开的一个实施例的搜索串处理装置800，包括：事件特征获取模块801、事件簇获取模块802、事件簇特征获取模块803和时效性识别模块804。

其中，事件特征获取模块801，用于获取热点事件集，对所述热点事件集中各热点事件进行预处理以获取与各所述热点事件对应的事件特征；事件簇获取模块802，用于根据所述热点事件及所述热点事件之间的距离构建第一图结构，并根据贪心算法对所述第一图结构中的节点进行分类，以获取包含目标事件的事件簇；事件簇特征获取模块803，用于根据所述事件簇中各热点事件的分词构建第二图结构，并基于所述第二图结构获取事件簇特征；时效性识别模块804，用于基于所述事件特征和所述事件簇特征对搜索串的时效性进行识别。

在本公开的一个实施例中，所述事件特征获取模块801配置为：对各所述热点事件进行分词、命名实体识别及去除停用词处理，以获取所述事件特征。

在本公开的一个实施例中，所述事件簇获取模块802包括：图构建单元，用于从所述热点事件集中确定包含所述目标事件的候选事件集，根据所述候选事件集中的事件和各所述事件之间的距离构建所述第一图结构。

在本公开的一个实施例中，所述图构建单元包括：预处理单元，用于确定与所述热点事件集中各热点事件对应的事件标识，并对各所述热点事件进行预处理以获取与各所述热点事件对应的分词信息和分词特征；关键词获取单元，用于根据所述分词特征对各所述热点事件对应的分词信息进行排序，根据排序后的分词信息确定各所述热点事件的关键词，并根据各所述热点事件的关键词构建与各所述热点事件对应的第一分词序列；候选事件获取单元，用于根据各所述热点事件的事件标识和所述第一分词序列构建第一倒排索引表，并根据所述目标事件对应的关键词和所述第一倒排索引表确定所述候选事件集。

在本公开的一个实施例中，所述分词特征包括词性、实体词类型和逆向文档频率；所述关键词获取单元配置为：根据预设规则确定与所述词性对应的第一分值和与所述实体词类型对应的第二分值，将所述第一分值、所述第二分值和所述逆向文档频率相加，以获取第三分值；根据所述第三分值由大到小对所述分词信息进行排序，并从排序后的分词信息中依次获取第一预设数量的分词信息作为所述关键词。

在本公开的一个实施例中，所述目标事件为所述第一图结构中的初始节点；所述事件簇获取模块802包括：第一处理单元，用于初始化一个关联容器和队列，将所述初始节点置于所述队列的首位，并将所述初始节点添加至所述关联容器中；第二处理单元，用于遍历所述第一图结构中的其它节点，将与所述初始节点的距离小于或等于第一距离阈值的第一节点对应的事件标识依次添加至所述队列中，并根据所述第一节点对应的事件标识更新所述关联容器；第三处理单元，用于初始化一个指针，根据所述指针的大小、所述队列和所述关联容器确定包含所述目标事件的事件簇。

在本公开的一个实施例中，所述指针的大小与所述队列中事件标识的序号相对应；所述第三处理单元配置为：根据所述指针的大小在所述队列中确定基准事件标识，并计算所述基准事件标识对应的事件与所述第一图结构中其它节点对应的事件之间的距离；当所述第一图结构中存在与所述基准事件标识所对应事件的距离小于或等于第二距离阈值的第二节点时，将所述第二节点对应的待选事件的事件标识和所述基准事件标识存储于字典容器中；获取所述字典容器中与所述待选事件的事件标识对应的基准事件标识的数量，当所述数量大于或等于第二预设数量时，将所述待选事件的事件标识添加至所述队列中，并根据所述待选事件的事件标识更新所述关联容器；在根据所述指针遍历所述队列中所有事件标识后，根据最终形成的所述队列中的事件标识所对应的事件形成所述事件簇。

在本公开的一个实施例中，所述事件簇特征获取模块803包括：目标分词获取单元，用于对所述事件簇中的各个热点事件进行预处理，并根据预设词性从预处理的结果中获取目标分词；图结构构建单元，用于以所述目标分词为节点，在对应同一事件的目标分词之间构建边，根据所述节点和所述边构建所述第二图结构；事件簇特征确定单元，用于基于所述第二图结构迭代计算所述目标分词的权重，将所述目标分词的权重由大到小排序以获取第二分词序列，并根据所述第二分词序列确定所述事件簇特征。

在本公开的一个实施例中，所述事件簇特征确定单元配置为：将所述第二分词序列中权重大于或等于权重阈值的分词作为所述事件簇的关键词；将所述关键词对应的权重作为所述关键词在所述事件簇中的关键词时新度；根据所述关键词和所述关键词时新度形成所述事件簇特征。

在本公开的一个实施例中，所述时效性识别模块804包括：搜索词获取单元，用于对所述搜索串进行预处理，以获取与所述搜索串对应的搜索词；相似度计算单元，用于获取所述搜索词和所述事件特征之间的相似度，判断所述相似度是否满足第一条件；时新概率计算单元，用于在所述相似度满足所述第一条件时，根据所述搜索词和所述事件簇特征获取所述搜索词的时新概率，并根据所述时新概率判断所述搜索串是否为时效性搜索串。

在本公开的一个实施例中，所述相似度计算单元配置为：根据所述事件特征对应的分词及事件标识构建第二倒排索引表；将所述搜索词与所述第二倒排索引表中的分词进行匹配，根据匹配结果获取候选事件标识；获取所述搜索词在所述候选事件标识对应的候选事件中的词频和逆向文档频率，根据所述词频和所述逆向文档频率确定所述搜索串与所述候选事件之间的相似度；当所述相似度大于或等于相似度阈值时，判定所述相似度不满足所述第一条件；当所述相似度小于所述相似度阈值时，判定所述相似度满足所述第一条件。

在本公开的一个实施例中，所述时效概率计算单元配置为：根据所述事件簇特征对应的分词及事件标识构建第三倒排索引表；将所述搜索词与所述第三倒排索引表中的分词进行匹配，根据匹配结果获取候选事件簇标识；获取所述搜索词对应的逆向文档频率，根据所述逆向文档频率和所述候选事件簇标识对应的关键词时新度确定所述时新概率；当所述时新概率大于或等于时新概率阈值时，判定所述搜索串是时效性搜索串；当所述时新概率小于所述时新概率阈值时，判定所述搜索串不是时效性搜索串。

图9示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图9示出的电子设备的计算机系统900仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统900包括中央处理单元（Central Processing Unit，CPU）901，其可以根据存储在只读存储器（Read-Only Memory，ROM）902中的程序或者从存储部分908加载到随机访问存储器（Random Access Memory，RAM）903中的程序而执行各种适当的动作和处理，实现上述实施例中所述的搜索串处理方法。在RAM 903中，还存储有系统操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出（Input /Output，I/O）接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管（Cathode Ray Tube，CRT）、液晶显示器（Liquid Crystal Display，LCD）等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN（Local Area Network，局域网）卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元（CPU）901执行时，执行本公开的系统中限定的各种功能。

需要说明的是，本公开实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（Erasable Programmable Read Only Memory，EPROM）、闪存、光纤、便携式紧凑磁盘只读存储器（Compact Disc Read-Only Memory，CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本公开还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中，该电子设备可以是用于执行上述实施例中的搜索串处理方法的服务器或终端设备。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台计算设备（可以是个人计算机、服务器、触控终端、或者网络设备等）执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种搜索串处理方法，其特征在于，包括：

获取热点事件集，对所述热点事件集中各热点事件进行预处理以获取与各所述热点事件对应的事件特征；

根据所述热点事件及所述热点事件之间的距离构建第一图结构，并根据贪心算法对所述第一图结构中的节点进行分类，以获取包含目标事件的事件簇；

根据所述事件簇中各热点事件的分词构建第二图结构，并基于所述第二图结构获取事件簇特征；

基于所述事件特征和所述事件簇特征对搜索串的时效性进行识别。

2.根据权利要求1所述的方法，其特征在于，所述对所述热点事件集中各热点事件进行预处理以获取与各所述热点事件对应的事件特征，包括：

对各所述热点事件进行分词、命名实体识别及去除停用词处理，以获取所述事件特征。

3.根据权利要求1所述的方法，其特征在于，所述根据所述热点事件及所述热点事件之间的距离构建第一图结构，包括：

从所述热点事件集中确定包含所述目标事件的候选事件集，根据所述候选事件集中的事件和各所述事件之间的距离构建所述第一图结构。

4.根据权利要求3所述的方法，其特征在于，所述从所述热点事件集中确定包含所述目标事件的候选事件集，包括：

确定与所述热点事件集中各热点事件对应的事件标识，并对各所述热点事件进行预处理以获取与各所述热点事件对应的分词信息和分词特征；

根据所述分词特征对各所述热点事件对应的分词信息进行排序，根据排序后的分词信息确定各所述热点事件的关键词，并根据各所述热点事件的关键词构建与各所述热点事件对应的第一分词序列；

根据各所述热点事件的事件标识和所述第一分词序列构建第一倒排索引表，并根据所述目标事件对应的关键词和所述第一倒排索引表确定所述候选事件集。

5.根据权利要求4所述的方法，其特征在于，所述分词特征包括词性、实体词类型和逆向文档频率；

所述根据所述分词特征对各所述热点事件对应的分词信息进行排序，根据排序后的分词信息确定各所述热点事件的关键词，包括：

根据预设规则确定与所述词性对应的第一分值和与所述实体词类型对应的第二分值，将所述第一分值、所述第二分值和所述逆向文档频率相加，以获取第三分值；

根据所述第三分值由大到小对所述分词信息进行排序，并从排序后的分词信息中依次获取第一预设数量的分词信息作为所述关键词。

6.根据权利要求3所述的方法，其特征在于，所述目标事件为所述第一图结构中的初始节点；

所述根据贪心算法对所述第一图结构中的节点进行分类，以获取包含目标事件的事件簇，包括：

初始化一个关联容器和队列，将所述初始节点对应的事件标识置于所述队列的首位，并将所述初始节点对应的事件标识添加至所述关联容器中；

遍历所述第一图结构中的其它节点，将与所述初始节点的距离小于或等于第一距离阈值的第一节点对应的事件标识依次添加至所述队列中，并根据所述第一节点对应的事件标识更新所述关联容器；

初始化一个指针，根据所述指针的大小、所述队列和所述关联容器确定包含所述目标事件的事件簇。

7.根据权利要求6所述的方法，其特征在于，所述指针的大小与所述队列中事件标识的序号相对应；

所述根据所述指针的大小、所述队列和所述关联容器确定包含所述目标事件的事件簇，包括：

根据所述指针的大小在所述队列中确定基准事件标识，并计算所述基准事件标识对应的事件与所述第一图结构中其它节点对应的事件之间的距离；

当所述第一图结构中存在与所述基准事件标识所对应事件的距离小于或等于第二距离阈值的第二节点时，将所述第二节点对应的待选事件的事件标识和所述基准事件标识存储于字典容器中；

获取所述字典容器中与所述待选事件的事件标识对应的基准事件标识的数量，当所述数量大于或等于第二预设数量时，将所述待选事件的事件标识添加至所述队列中，并根据所述待选事件的事件标识更新所述关联容器；

在根据所述指针遍历所述队列中所有事件标识后，根据最终形成的所述队列中的事件标识所对应的事件形成所述事件簇。

8.根据权利要求1所述的方法，其特征在于，所述根据所述事件簇中各热点事件的分词构建第二图结构，并基于所述第二图结构获取事件簇特征，包括：

对所述事件簇中的各个热点事件进行预处理，并根据预设词性从预处理的结果中获取目标分词；

以所述目标分词为节点，在对应同一事件的目标分词之间构建边，根据所述节点和所述边构建所述第二图结构；

基于所述第二图结构迭代计算所述目标分词的权重，将所述目标分词的权重由大到小排序以获取第二分词序列，并根据所述第二分词序列确定所述事件簇特征。

9.根据权利要求8所述的方法，其特征在于，所述根据所述第二分词序列确定所述事件簇特征，包括：

将所述第二分词序列中权重大于或等于权重阈值的分词作为所述事件簇的关键词；

将所述关键词对应的权重作为所述关键词在所述事件簇中的关键词时新度；

根据所述关键词和所述关键词时新度形成所述事件簇特征。

10.根据权利要求1所述的方法，其特征在于，所述基于所述事件特征和所述事件簇特征对搜索串的时效性进行识别，包括：

对所述搜索串进行预处理，以获取与所述搜索串对应的搜索词；

获取所述搜索词和所述事件特征之间的相似度，判断所述相似度是否满足第一条件；

在所述相似度满足所述第一条件时，根据所述搜索词和所述事件簇特征获取所述搜索词的时新概率，并根据所述时新概率判断所述搜索串是否为时效性搜索串。

11.根据权利要求10所述的方法，其特征在于，所述判断所述相似度是否满足第一条件，包括：

根据所述事件特征对应的分词及事件标识构建第二倒排索引表；

将所述搜索词与所述第二倒排索引表中的分词进行匹配，根据匹配结果获取候选事件标识；

获取所述搜索词在所述候选事件标识对应的候选事件中的词频和逆向文档频率，根据所述词频和所述逆向文档频率确定所述搜索串与所述候选事件之间的相似度；

当所述相似度大于或等于相似度阈值时，判定所述相似度不满足所述第一条件；当所述相似度小于所述相似度阈值时，判定所述相似度满足所述第一条件。

12.根据权利要求10所述的方法，其特征在于，所述根据所述搜索词和所述事件簇特征获取所述搜索词的时新概率，并根据所述时新概率判断所述搜索串是否为时效性搜索串，包括：

根据所述事件簇特征对应的分词及事件标识构建第三倒排索引表；

将所述搜索词与所述第三倒排索引表中的分词进行匹配，根据匹配结果获取候选事件簇标识；

获取所述搜索词对应的逆向文档频率，根据所述逆向文档频率和所述候选事件簇标识对应的关键词时新度确定所述时新概率；

当所述时新概率大于或等于时新概率阈值时，判定所述搜索串是时效性搜索串；当所述时新概率小于所述时新概率阈值时，判定所述搜索串不是时效性搜索串。

13.一种搜索串处理装置，其特征在于，包括：

事件特征获取模块，用于获取热点事件集，对所述热点事件集中各热点事件进行预处理以获取与各所述热点事件对应的事件特征；

事件簇获取模块，用于根据所述热点事件及所述热点事件之间的距离构建第一图结构，并根据贪心算法对所述第一图结构中的节点进行分类，以获取包含目标事件的事件簇；

事件簇特征获取模块，用于根据所述事件簇中各热点事件的分词构建第二图结构，并基于所述第二图结构获取事件簇特征；

时效性识别模块，用于基于所述事件特征和所述事件簇特征对搜索串的时效性进行识别。

14.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至12中任意一项所述的搜索串处理方法。

15.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至12中任意一项所述的搜索串处理方法。