CN111881170B

CN111881170B - 时效性查询内容字段挖掘方法、装置、设备和存储介质

Info

Publication number: CN111881170B
Application number: CN202010672070.7A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-14
Filing date: 2020-07-14
Publication date: 2023-10-27
Anticipated expiration: 2040-07-14
Also published as: CN111881170A

Abstract

本申请涉及一种时效性查询内容字段挖掘方法、装置、设备和存储介质。所述方法包括：获取与时效性相关的待挖掘查询内容；从待挖掘查询内容中筛选出查询内容核心字段，分别确定各查询内容核心字段在待挖掘查询内容中的时间信息熵；根据各查询内容核心字段对应的时间信息熵从查询内容核心字段中确定候选时效性查询内容字段；对候选时效性查询内容字段进行时效性校验，将通过时效性校验的候选时效性查询内容字段确定为时效性查询内容字段。上述方法通过计算机进行一系列的筛选和校验，在确保挖掘的时效性查询内容的准确性的同时，提高时效性查询内容字段挖掘的效率。

Description

时效性查询内容字段挖掘方法、装置、设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种时效性查询内容字段挖掘方法、装置、计算机设备和存储介质。

背景技术

用户在搜索引擎中输入的不同query（询问）具有不同的显式或隐式时效性需求，此时需要引擎后台对当中包含的时效性进行识别计算，并在返回结果排序算法中，已考虑相关性，权威度相关维度因子之外，根据不同的query时效性需求强度调整相应的时效性排序因子权重，以返回更符合用户需求的排序结果。对于用户输入的某些query天然就隐含着强时效需求，例如“NBA”等，通常用户默认想要有关这些query的最新资讯，因此需要统计哪些query是具有时效性的。

现有的相关技术中，通常采用人工搜集时效性query的方式形成词典，而人工搜集的方式存在覆盖不全的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够获得更全具有时效性query的时效性查询内容字段挖掘方法、装置、设备和存储介质。

一种时效性查询内容字段挖掘方法，其特征在于，所述方法包括：

获取与时效性相关的待挖掘查询内容；

从所述待挖掘查询内容中筛选出查询内容核心字段，分别确定各所述查询内容核心字段在所述待挖掘查询内容中的时间信息熵；

根据各所述查询内容核心字段对应的时间信息熵从所述查询内容核心字段中确定候选时效性查询内容字段；

对所述候选时效性查询内容字段进行时效性校验，将通过所述时效性校验的候选时效性查询内容字段确定为时效性查询内容字段。

一种时效性查询内容字段挖掘装置，所述装置包括：

获取模块，用于获取与时效性相关的待挖掘查询内容；

信息熵确定模块，用于从所述待挖掘查询内容中筛选出查询内容核心字段，分别确定各所述查询内容核心字段在所述待挖掘查询内容中的时间信息熵；

候选字段确定模块，用于根据各所述查询内容核心字段对应的时间信息熵从所述查询内容核心字段中确定候选时效性查询内容字段；

校验模块，用于对所述候选时效性查询内容字段进行时效性校验，将通过所述时效性校验的候选时效性查询内容字段确定为时效性查询内容字段。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取与时效性相关的待挖掘查询内容；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取与时效性相关的待挖掘查询内容；

上述时效性查询内容字段挖掘方法、装置、设备和存储介质，从获取的与时效性相关的待挖掘查询内容中筛选出该待挖掘内容的查询内容核心字段，分别计算各查询内容核心字段在待挖掘查询内容中的时间信息熵；根据各时间信息熵从查询内容核心字段中筛选出更有可能具备时效性的候选时效性查询内容字段，然后对候选时效性查询内容字段进行时效性校验，通过时效性校验的候选时效性查询内容字段即确定为时效性查询内容字段。上述方法通过计算机进行一系列的筛选和校验，在确保挖掘的时效性查询内容的准确性的同时，提高挖掘时效性查询内容字段的效率。

附图说明

图1为一个实施例中时效性查询内容字段挖掘方法的流程示意图；

图2为一个实施例中从待挖掘查询内容中筛选出查询内容核心字段，分别确定各查询内容核心字段在待挖掘查询内容中的时间信息熵的流程示意图；

图3为一个实施例中根据各查询内容核心字段对应的时间信息熵从查询内容核心字段中确定候选时效性查询内容字段的流程示意图；

图4为另一个实施例中在目标查询内容中识别属于筛选后查询内容字段的最大公共字串，确定为候选时效性查询内容字段的流程示意图；

图5为一个实施例中对候选时效性查询内容字段进行时效性校验，将通过时效性校验的候选时效性查询内容字段确定为时效性查询内容字段的流程示意图；

图6为另一个实施例中对候选时效性查询内容字段进行时效性校验，将通过时效性校验的候选时效性查询内容字段确定为时效性查询内容字段的流程示意图；

图7为一个实施例中时效性查询内容字段挖掘装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种时效性查询内容字段挖掘方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括步骤S110至步骤S140。

步骤S110，获取与时效性相关的待挖掘查询内容。

时效性是指同一件事物在不同的时间具有很大的性质上的差异。查询内容与时效性相关最常见的可体现为带有“最新”、“最近”或者“**年”、“**月”、“**日”等表示时间的词语的查询内容。在本实施例中，将获取的与时效性相关的查询内容记为待挖掘查询内容，后续从待挖掘内容中挖掘出时效性查询内容字段。

在一个实施例中，获取与时效性相关的待挖掘查询内容，包括：从预设数据库中获取查询内容数据；从查询内容数据中筛选与预设时间词语关联的查询内容数据，得到与时效性相关的待挖掘查询内容。

其中，预设数据库可以是用于存储查询内容的数据库，例如可以是搜索引擎、浏览器对应的数据库，其中搜集并存储了大量用户在搜索引擎或浏览器中搜索查询某些内容时所输入的查询内容；可以理解地，其中可能包含有与时效性有关的搜索内容，也可能包含与时效性没有关联的搜索内容（如“西红柿炒鸡蛋的做法”）。在一个实施例中，从预设数据库中获取查询内容数据，可以获取预设时间段内的查询内容数据。

与预设时间词语关联的查询内容数据是指查询内容数据中包含预设时间词语的查询内容。在一个具体实施例中，预设时间词语包括**年，**月，**周，**日，**期，**届，**季等；在一个实施例中，可基于hadoop（一个分布式系统基础架构）等离线大数据引统计所有预设时间词语。

在另一个实施例中，也可以从多个不同的数据库中获取查询内容数据，并从中筛选出与预设时间词语关联的查询内容确定为待挖掘查询内容。

上述实施例中，通过从大量搜索内容数据中，以预设时间词语筛选出关联的搜索内容作为待挖掘内容，可减少挖掘内容的数据大小，提高挖掘效率。

步骤S120，从待挖掘查询内容中筛选出查询内容核心字段，分别确定各查询内容核心字段在待挖掘查询内容中的时间信息熵。

在本实施例中，查询内容核心字段是指查询内容中去除时间后的查询内容字段。在一个具体实施例中，以查询内容为“2020年高考”为例，去除时间词“2020年”，得到的“高考”即认为是该查询内容中的查询内容核心字段。在一个实施例中，从待挖掘查询内容中筛选出查询内容核心字段可以通过将各待挖掘查询内容与预设时间词语进行比对，将不属于预设时间词语的查询内容字段确定为查询内容核心字段。需要说明的是，查询内容字段若包括多个字，则通常为具有词语关系的字。

在筛选出查询内容核心字段后，对各查询内容核心字段计算时间信息熵。其中，熵是一种表示信息量的指标，熵越高就意味着信息含量越大，不确定性越高，越难以预测。信息论（Information Theory）是概率论与数理统计的一个分枝。用于信息处理、信息熵、通信系统、数据传输、率失真理论、密码学、信噪比、数据压缩和相关课题。在物理界中熵是描述事物无序性的参数，熵越大则越混乱。而一条信息的信息量大小和它的不确定性有直接的关系。当需要搞清楚一件非常不确定或者是一无所知的事，就需要了解大量的信息。相反，如果对某件事已经有了较多的了解，就不需要太多的信息就能把它搞清楚。所以，从这个角度认为，信息量的度量就等于不确定性的多少。比如“广东下雪了”，对于这句话是十分不确定的，因为广东几十年来下雪的次数寥寥无几；为了搞清楚这句话的真实性，需要结合天气预报，新闻等其它方式来确定真实性，而这就需要大量的信息，信息熵很高。再比如确定性很高的话则几乎不需要引入信息，信息熵很低。

本实施例中，以信息熵来衡量一个词语与时效性的关联，记为时间信息熵；时间信息熵越小则时间词聚集度越高，即说明搜索内容的时效性越小；反之熵越大则证明时间词越发散，即该搜索内容被搜索与时间没有太大的直接关系。

在一个实施例中，确定查询内容核心字段在待挖掘查询内容中的时间信息熵可以通过某一个查询内容核心字段在待挖掘查询内容中的出现次数、以及该查询内容核心字段与时间关联出现的出现次数等确定。

在一个实施例中，如图2所示，从待挖掘查询内容中筛选出查询内容核心字段，分别确定各查询内容核心字段在待挖掘查询内容中的时间信息熵，包括步骤S121至步骤S124。

步骤S121，从待挖掘查询内容中筛选出查询内容核心字段。

步骤S122，分别获取各查询内容核心字段在待挖掘查询内容中与各预设时间词关联时的目标出现次数，以及查询内容核心字段在待挖掘查询内容中的所有出现次数。

时间词是指年、月、日、周以及最新、最近等相关的词语，与时间词关联即是指该查询内容核心字段在各查询内容中和时间词一同出现，如“2020年高考”中的“高考”认为是与时间词“2020年”关联的，而“山东高考分数线”中的“高考”则认为与时间词没有关联。在本实施例中，将查询内容核心字段在所有待挖掘查询内容中与时间词关联出现的次数记为目标出现次数。所有出现次数即表示这一查询内容核心字段在所有待挖掘查询内容中的出现次数的总和。

步骤S123，根据各查询内容核心字段对应的各目标出现次数、所有出现次数，确定对应的查询内容核心字段与时间关联的出现概率。

在一个实施例中，将同一查询内容核心字段的目标出现次数与所有次数的比值确定为该查询内容核心字段的与时间关联的出现概率。

步骤S124，基于各查询内容核心字段与时间关联的出现概率确定各查询内容核心字段在待挖掘查询内容中的时间信息熵。

在一个实施例中，计算查询内容核心字段在待挖掘查询内容中的时间信息熵可采用信息熵计算方法确定。在一个具体实施例中，基于查询内容核心字段与时间关联的出现概率确定查询内容核心字段在待挖掘查询内容中的时间信息熵，包括：分别计算以2为底数查询内容核心字段与一个时间词关联的出现概率的对数，计算查询内容核心字段与一个时间词关联的出现概率与上述对数的乘积，对所有时间词对应的乘积求和，取和值的相反数即为该查询内容核心字段的与时间关联的出现概率。可以以下公式表示查询内容核心字段的与时间关联的出现概率的计算方法：

其中，x表示时间词，X表示所有时间词集合（可与查询内容核心字段对应设置），p(x)表示查询内容核心字段与同一时间词关联的出现次数在所有出现次数中的比例，H(X)表示该查询内容核心字段的时间信息熵。

上述实施例中，通过统计查询内容核心字段在所有待挖掘查询内容中与时间关联的出现概率，进而计算该查询内容核心字段在待挖掘查询内容中的时间信息熵，可以用来表征该查询内容核心字段（在待挖掘查询内容中）与时效性关联的程度。后续可根据时间信息熵筛选出与时效性比较相关的查询内容核心字段。

步骤S130，根据各查询内容核心字段对应的时间信息熵从查询内容核心字段中确定候选时效性查询内容字段。

时间信息熵越大表示对应的查询内容核心字段混乱程度越大，认为该查询内容核心字段与时效性越相关，而时间信息熵越小，则认为该查询内容核心字段与时效性越不相关。进一步地，可以通过预设阈值筛选出时间信息熵较大的查询内容核心字段；在一个实施例中，将大于预设时间信息熵阈值的时间信息熵所对应的查询内容核心字段确定为候选时效性查询内容字段。

在一个实施例中，根据时间信息熵确定候选时效性查询内容字段，还需要将代表地域等特定词语排除，即先将特定词语过滤掉，然后从过滤后的查询内容核心字段中基于时间信息熵确定候选时效性查询内容字段。

步骤S140，对候选时效性查询内容字段进行时效性校验，将通过时效性校验的候选时效性查询内容字段确定为时效性查询内容字段。

时效性校验是对筛选出的候选时效性查询内容字段进行一定的校验，进一步确定候选时效性查询内容字段与时效性的关联程度，将通过时效性校验的字段才确定为时效性查询内容字段。在一个实施例中，时效性校验可通过在搜索引擎、浏览器等的搜索情况以及点击情况进行校验，例如根据以该候选查询内容核心字段进行搜索时，用户对于返回的搜索结果的点击情况进行统计，如根据与时间有关的搜索结果点击率的大小确定是否通过时效性校验；例如在一个具体实施例中，与时间有关的搜索结果点击率大于预设值时认为通过时效性验证。又如可通过候选查询内容核心字段在搜索引擎、浏览器中的数据库中对应文档是否与时间有关进行时效性校验，如检测候选查询内容核心字段在相应数据库中的相关文档的与时间有关的文档数量确定是否通过时效性校验；例如在一个具体实施例中，与时间有关的文档数量大于预设值时认为通过时效性验证。可以理解地，在其它实施例中，还可以通过其它方式实现时效性校验。

上述时效性查询内容字段挖掘方法，从获取的与时效性相关的待挖掘查询内容中筛选出该待挖掘内容的查询内容核心字段，分别计算各查询内容核心字段在待挖掘查询内容中的时间信息熵；根据各时间信息熵从查询内容核心字段中筛选出更有可能具备时效性的候选时效性查询内容字段，然后对候选时效性查询内容字段进行时效性校验，通过时效性校验的候选时效性查询内容字段即确定为时效性查询内容字段。上述方法通过计算机进行一系列的筛选和校验，在确保挖掘的时效性查询内容的准确性的同时，提高挖掘的效率。

进一步地，在一个实施例中，如图3所示，根据各查询内容核心字段对应的时间信息熵从查询内容核心字段中确定候选时效性查询内容字段，包括步骤S131至步骤S133。

步骤S131，从各时间信息熵中确定大于预设信息熵阈值的有效时间信息熵，得到有效时间信息熵对应的查询内容核心字段所在的目标查询内容。

预设信息熵阈值可根据实际情况进行设置；本实施例中将大于预设信息熵阈值的时间信息熵记为有效时间信息熵，以预设信息熵筛选出有效时间信息熵后，获取各有效时间信息熵对应的候选查询内容核心字段，从而可以得到各所在的查询内容，记为目标查询内容。

步骤S132，去除目标查询内容中的预设特定关键词，获得筛选后查询内容字段。

预设特定关键词为预先设定的关键词，通常是查询内容中包含但非核心的词段，不属于时效性查询内容字段，在一个实施例中，预设特定关键词包括表示时间、地域等的词语，如“2020年”、“山东”等词。在一个具体实施例中，将目标查询内容分别与预设特定关键词进行比对，将预设特定关键词删除，保留下的字段得到筛选后目标查询内容片段，记为筛选后查询内容字段。由于预设特定关键词大多不属于时效性查询内容字段，在本实施例中将目标查询内容中的预设特定关键词进行一定的筛选，得到筛选后的目标查询内容字段；可避免减少数据量，提高后续挖掘时效性查询内容字段的效率。

步骤S133，在目标查询内容中识别属于筛选后查询内容字段的最大公共字串，确定为候选时效性查询内容字段。

其中，公共字串是指多个筛选后目标查询内容中共有的字符串，最大公共字串即是指字串共有且出现次数最多的字串，例如在筛选后查询内容字段中存在多个共有字段“高考”、“政策”等，而“高考”的公共出现次数大于任何其他公共字串包括“政策”的公共出现次数，则认为“高考”是这一部分筛选后目标查询内容字段中的最大公共字串，本实施例中将识别出的最大公共字串记为候选时效性查询内容字段。在一个实施例中，在目标查询内容中识别属于筛选后查询内容字段的最大公共字串包括：统计目标查询内容中各筛选后查询内容字段的出现次数，按照出现次数进行次数大小排序，取出现次数最多的筛选后查询内容字段，确定为目标查询内容中属于筛选后查询内容字段的最大公共字串；其中，按照出现次数进行次数大小排序可以是将出现次数由大到小排序，或者也可以是将出现次数由小到大进行排序。

在另一个实施例中，也可以从目标查询内容中筛选出属于筛选后查询内容字段的公共出现次数大于一定阈值的字段均确定为候选时效性查询内容字段。

进一步地，如图4所示，在一个实施例中，在目标查询内容中识别属于筛选后查询内容字段的最大公共字串，确定为候选时效性查询内容字段，包括步骤S410至步骤S430：步骤S410，将与同一筛选后查询内容字段关联的目标查询内容合并为候选查询内容集合。步骤S420，获取各筛选后查询内容字段在同一候选查询内容集合中的出现次数。步骤S430，读取同一候选查询内容集合中的出现次数最大的筛选后查询内容字段，确定为候选时效性查询内容字段。

同一筛选后查询内容字段关联的目标查询内容是指同一个筛选后查询内容字段在各目标查询内容中出现，将这些目标查询内容放到一起进行时效性查询内容字段的挖掘；本实施例中，将同一筛选后查询内容字段关联的查询内容字段的集合记为候选查询内容集合。

进一步地，读取同一候选查询内容集合中的出现次数最大的筛选后查询内容字段，确定为候选时效性查询内容字段，实际上即是在得到的各候选查询内容集合中分别识别其中的最大公共字串，得到各候选查询内容集合中的候选时效性查询内容字段。

在待挖掘查询内容中可能存在多个查询内容字段是具有时效性的，如“高考”“NBA篮球比赛”等等，如果将所有筛选后查询内容字段放在一起识别最大公共字串，很有可能会漏掉一些实际是具备时效性的查询内容字段。本实施例中通过将目标查询内容字段中属于同一筛选后查询内容字段所在的查询内容放到同一个集合中，可更加准确的挖掘出候选时效性查询内容字段，减少遗漏的情况。

在另一个实施例中，也可以选择重复多次的依次从目标查询内容中识别出属于筛选后查询内容字段的最大公共字串，确定为候选时效性查询内容字段；例如，首先识别出属于筛选后查询内容字段的最大公共字串为“高考”，将“高考”确定为时效性查询内容字段，并将“高考”从筛选后目标查询内容片段删除得到更新后筛选后查询内容字段，然后再从目标查询内容中识别出属于更新后筛选后查询内容字段的最大公共字串为“NBA篮球比赛”，将“NBA篮球比赛”同样确定为时效性查询内容字段，并将“NBA篮球比赛”从筛选后目标查询内容片段删除得到更新后筛选后查询内容字段，重新进行最大公共字串识别。进一步地，在一个实施例中，可以根据最大公共字串的出现次数设置停止识别的条件，例如当最大公共字串的出现次数低于一定阈值时，则停止进行最大公共最大的识别。

在一个实施例中，如图5所示，对候选时效性查询内容字段进行时效性校验，将通过时效性校验的候选时效性查询内容字段确定为时效性查询内容字段，包括步骤S510至步骤S540。

步骤S510，获取各候选时效性查询内容字段搜索获得的预设数目次搜索结果。

搜索结果即是用户以候选时效性查询内容字段作为搜索词在搜索引擎中进行搜索，得到搜索引擎返回的搜索结果；其中，搜索引擎可以是任意一个搜索引擎。一次搜索结果对应该候选时效性查询内容字段进行一次搜索获得的搜索结果，其中可能包括多条文档、新闻或者讯息，预设数目次搜索结果对应该候选时效性查询内容字段进行预设数目次搜索获得的搜索结果；在一个实施例中，预设数目次搜索结果可以是同一候选时效性查询内容字段不同时间点在不同搜索引擎中进行搜索获得的搜索结果，也可以是同一候选时效性查询内容字段在不同时间点在同一搜索引擎中搜索获得的搜索结果。在一个实施例中，搜索结果可通过调取搜索引擎的搜索日志获得。

步骤S520，分别确定同一候选时效性查询内容字段的各次搜索结果中属于与搜索时间关联的搜索结果的第一点击次数，以及获取预设数目次搜索结果中不属于与搜索时间关联的搜索结果的第二点击次数。

其中，搜索时间是指搜索时刻的时间点；在一个实施例中，属于与搜索时间关联的搜索结果是指发布时间与搜索时间关联的搜索结果，或者搜索结果中的标题或者内容与搜索时间关联的搜索结果；可以理解地，在本实施例中不属于搜索时间关联的搜索结果是指发布时间、标题和内容中均与搜索时间没有任何关联的搜索结果。进一步地，在一个实施例中，与搜索时间关联是指搜索时间的预设时间段内，例如在一个具体实施例中，“NBA篮球比赛”搜索时间为2020年2月，预设时间段设置为1年内，与搜索时间关联的搜索结果包括与2019年至2021年2月关联的搜索结果，等。其中，预设时间段可根据实际情况设置，进一步地还可以根据不同的候选时效性查询内容字段设置不同的预设时间段，例如“高考”的预设时间段设置6个月内，“NBA篮球比赛”的预设时间段设置为1年内，等等。

其中，用户在一次搜索结果中点击查看了其中的某一个搜索结果，则对该搜索结果记一次点击次数，统计点击次数是指用户在各次搜索结果中点击的各搜索结果的点击次数。本实施例中，将属于与搜索时间关联的搜索结果的点击次数记为第一点击次数，将不属于与搜索时间关联的搜索结果的点击次数记为第二点击次数。

步骤S530，根据预设数目、第一点击次数和第二点击次数确定候选时效性查询内容字段的时效性点击率。

其中，时效性点击率是用来衡量候选时效性查询内容字段与时效性相关的点击率。可以理解地，预设数目是指各次搜索结果对应的搜索次数。在一个实施例中，根据预设数目、第一点击次数和第二点击次数确定候选时效性查询内容字段的时效性点击率，包括：根据第二点击次数确定惩罚因子，计算预设数目与惩罚因子的乘积，将第一点击次数与上述乘积的比值确定为时效性点击率。在其中的一个实施例中，根据第二点击次数确定惩罚因子包括：计算第二点击次数的倒数，将以2为底数上述倒数的对数确定为惩罚因子。

在另一个实施例中，第一点击次数与预设数目的比值为属于与搜索时间关联的搜索结果在预设数目次搜索结果中的点击率，第二点击次数与预设数目的比值为不属于与搜索时间关联的搜索结果在预设数目次搜索结果中的点击率。结合同一候选时效性查询内容字段的两个点击率确定时效性点击率。

步骤S540，将时效性点击率大于预设时效性点击率对应的候选时效性查询内容字段确定为时效性查询内容字段。

时效性点击率越高认为该候选时效性查询内容字段与时效性越相关，因此在本实施例中，将大于预设时效性点击率的时效性点击率对应的候选时效性查询内容字段确定为时效性查询内容字段，认为通过时效性校验。

上述实施例中，通过统计多次搜索结果中与时间相关或者不相关的搜索结果的点击次数计算时效性点击率，以此来对候选时效性查询内容字段进行时效性校验，可进一步过滤掉与时效性关联不大的字段，可以挖掘得到更为精准的时效性查询内容字段。

在另一个实施例中，如图6所示，对候选时效性查询内容字段进行时效性校验，将通过时效性校验的候选时效性查询内容字段确定为时效性查询内容字段，包括步骤S610和步骤S620。

步骤S610，在预设网站中搜索与各候选时效性查询内容字段对应的搜索返回信息。

其中，预设网站可以根据实际情况进行预先设定；在一个实施例中，预设网站可根据候选时效性查询内容字段设定，例如“高考”对应的预设网站可设置为某个高考资讯网站，在一个实施例中可根据候选时效性查询内容字段在各网站的搜索率来设定对应的预设网站，搜索率较高的设置为预设网站。

步骤S620，筛选出与时间关联的搜索返回信息的数量大于预设数量阈值对应的候选时效性查询内容字段，确定为时效性查询内容字段。

搜索返回信息包括了所有搜索结果，通常搜索返回信息中包含了该预设网站中所有与候选时效性查询内容字段相关的信息，确定其中与时间关联的信息的数量；其中与时间关联可以是指发布时间存在一定的周期性，例如“高考”对应的搜索返回信息中发布时间每一年都包含；或者与时间关联是指标题或者内容中包含时间词语，如“高考”对应的搜索返回信息中标题或内容中包含“2020年”“2019年”等等时间词语。统计与时间关联的搜索返回信息的数量，通过预设数量阈值作为条件来进行时效性校验，将大于预设数量阈值的候选时效性查询内容字段，确定为时效性查询内容字段。

本实施例中通过在预设网站中搜索，从搜索返回信息中统计与时间关联的搜索返回信息对应的候选时效性查询内容字段，将其确定为时效性查询内容字段，也可以实现过滤掉与时效性关联不大的字段，可以挖掘得到更为精准的时效性查询内容字段的效果。

本申请还提供一种应用场景，该应用场景应用上述的时效性查询内容字段挖掘方法。具体地，该时效性查询内容字段挖掘方法在该应用场景的应用如下：

首先，基于海量搜索日志的候选周期时效性原始query挖掘（上述获取待挖掘查询内容）：

以微信搜一搜为例，收集微信搜一搜等全网搜索引擎近几年的海量搜索日志，使用基于hadoop等离线大数据引统计所有日期词，如x年，x月，x周，x日，x期，x届，x季相关的query，以“升学”为例，真实querylog中可能如下：

“2020北京高考”，

“2019高考”，

“2018年深圳高考政策”，

“春季上海高考录取政策”…

将低于一定阈值的低搜索次数query过滤掉，使得潜在待挖掘的querylog更有统计意义，分为如下两步：

1.基于query中时间词的熵值计算候选query的时间周期性需求

从待挖掘内容中筛选出查询内容核心字段，通过以下公式计算各查询内容核心字段的时间信息熵：

其中，X指时间词种类集合（如年，月，日等）；x表示原始query核心字段所带上下文时间词（如“2020年高考”中的原始query核心词（即取消时间词相关部分后剩下的片段）为“高考”，x为“年”）；p（x）表示当前query核心词上下文中包含“年”这类query在所有包含query核心词上下文query集合中的概率；例如p(x)概率计算方法如下：(“2020年高考”的搜索次数 +“2019年高考”的搜索次数+...)/所有包含“高考”这个词的query的搜索总次数；H(X)即为当前某个query核心词下（如“高考”）所有时间词集合（年，月，日等）的熵值。本实施例中，X包括“**年”、“**届”、“**月”、“**期”时间词等等，x表示其中任意一个时间词。

2.基于最大公共字串挖掘候选周期时效性query词

选取上述时间词信息熵值大于阈值K的候选原始query，统计去除时间、地域词之后query剩余字段，得到筛选后查询内容字段，在筛选后查询内容字段所在的query中出现的公共字串次数，选取公共字串出现次数最大的公共字串确定为候选时效性查询内容字段。还是以“高考”相关query为例：若common_sub_query(高考)的次数为4次，common_sub_query(政策)的次数只有2次；最大公共字串为“高考”。

其次，对候选时效性查询内容字段进行时效性校验；该方法的假设是当用户搜索那些未带时间词的候选周期时效性query时，在返回的doclist中大部分会优先点击“更新的doc”。如用户没有输入“2020深圳高考”，而是只输入“高考”，此时已然更多点击了2020年有关高考的新文档。故此处引入基于新文档的点击率计算方法。此处对“更新的doc”的定义是指文档中包含了当前时间点及更新的时间词，如“2020年”或者文档发布时间为最新相关时间词的文档。

一般来说文档发布时间可以代表该文档内容要表达的时间，但此处仍然引入显示在文档标题中匹配相应时间词的原因是为了应对那些提前发布的信息内容，如19年年底可能就会发布标题为“2020xxx高考招生”，显然点击了此类文档次数的也应被计入特有的点击率计算公式，而如果是点击了比当前时间词“旧的doc”则应该在点击率公式中加以惩罚（如点了19年甚至18年“xxx高考”相关doc，则可能说明该query不具有周期时效性）：

CTR(候选周期时效性query)= click_count(“更新的doc”)/该query搜索次数 *punish（“旧的doc”）

其中惩罚因子punish（“旧的doc”）公式为log₂(1/click_count(旧的doc))

通过以上公式可以计算各候选时效性查询内容字段的时效性点击率CTR，对CTR >阈值M的query词，确定为时效性查询内容字段；进一步地在一个实施例中，将查询内容字段加入时效性词典中。

在另一个实施例中，也可以统计这些候选时效性查询内容字段对应的预设网站中的历史文档库内容的标题+时间词分布来加以计算，如“高考”这次query点击率最高的站点往往是某个高考资讯网站，那可以统计其历史上是否有大量带不同年份时间词+“高考”的文档，若是则认为通过时效性校验。

上述时效性查询内容字段挖掘方法，通过一系列的筛选和校验过程，从大量搜索内容中筛选出与时效性相关的时效性查询内容字段，候选可利用该时效性查询内容字段在搜索过程中为用户推送搜索结果时选择优先显示的搜索结果，例如用户搜索“高考”时，其中不包含时间相关词语，若“高考”为时效性查询内容字段，则在返回搜索结果时，仍会优先显示最新的高考相关资讯。

应该理解的是，虽然图1-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种时效性查询内容字段挖掘装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块710、信息熵确定模块720、候选字段确定模块730和校验模块740，其中：

获取模块710，用于获取与时效性相关的待挖掘查询内容；

信息熵确定模块720，用于从待挖掘查询内容中筛选出查询内容核心字段，分别确定各查询内容核心字段在待挖掘查询内容中的时间信息熵；

候选字段确定模块730，用于根据各查询内容核心字段对应的时间信息熵从查询内容核心字段中确定候选时效性查询内容字段；

校验模块740，用于对候选时效性查询内容字段进行时效性校验，将通过时效性校验的候选时效性查询内容字段确定为时效性查询内容字段。

上述时效性查询内容字段挖掘装置，从获取的与时效性相关的待挖掘查询内容中筛选出该待挖掘内容的查询内容核心字段，分别计算各查询内容核心字段在待挖掘查询内容中的时间信息熵；根据各时间信息熵从查询内容核心字段中筛选出更有可能具备时效性的候选时效性查询内容字段，然后对候选时效性查询内容字段进行时效性校验，通过时效性校验的候选时效性查询内容字段即确定为时效性查询内容字段。上述装置通过计算机进行一系列的筛选和校验，在确保挖掘的时效性查询内容的准确性的同时，提高挖掘的效率。

在一个实施例中，上述获取模块710包括数据获取单元，用于从预设数据库中获取查询内容数据；以及筛选单元，用于从查询内容数据中筛选与预设时间词语关联的查询内容数据，得到与时效性相关的待挖掘查询内容。

在一个实施例中，上述信息熵确定模块720，包括：核心字段筛选单元，用于从待挖掘查询内容中筛选出查询内容核心字段；出现次数统计单元，用于分别获取各查询内容核心字段在待挖掘查询内容中与时间词关联时的目标出现次数，以及查询内容核心字段在待挖掘查询内容中的所有出现次数；出现概率确定单元，用于根据各查询内容核心字段对应的目标出现次数、所有出现次数，确定对应的查询内容核心字段与时间关联的出现概率；时间信息熵确定单元，用于基于各查询内容核心字段与时间关联的出现概率确定各查询内容核心字段在待挖掘查询内容中的时间信息熵。

在一个实施例中，上述候选字段确定模块730，包括：目标查询内容确定单元，用于从各时间信息熵中确定大于预设信息熵阈值的有效时间信息熵，得到有效时间信息熵对应的查询内容核心字段所在的目标查询内容；关键词删除单元，用于去除目标查询内容中的预设特定关键词，获得筛选后查询内容字段；最大公共字串确定单元，用于在目标查询内容中识别属于筛选后查询内容字段的最大公共字串，确定为候选时效性查询内容字段。

进一步地，在一个实施例中，上述最大公共字串确定单元，包括：集合确定子单元，用于将与同一筛选后查询内容字段关联的目标查询内容合并为候选查询内容集合；出现次数统计子单元，用于获取各筛选后查询内容字段在同一候选查询内容集合中的出现次数；候选时效性查询内容字段确定子单元，用于读取同一候选查询内容集合中的出现次数最大的筛选后查询内容字段，确定为候选时效性查询内容字段。

在一个实施例中，上述校验模块740，包括：搜索结果获取单元，用于获取各候选时效性查询内容字段搜索获得的预设数目次搜索结果；点击次数统计单元，用于分别确定同一候选时效性查询内容字段的各次搜索结果中属于与搜索时间关联的搜索结果的第一点击次数，以及获取预设数目次搜索结果中不属于与搜索时间关联的搜索结果的第二点击次数；时效性点击率确定单元，用于根据预设数目、第一点击次数和第二点击次数确定候选时效性查询内容字段的时效性点击率；时效性查询内容字段确定单元，用于将时效性点击率大于预设时效性点击率对应的候选时效性查询内容字段确定为时效性查询内容字段。

在另一个实施例中，上述校验模块740，包括：搜索单元，用于在预设网站中搜索与各候选时效性查询内容字段对应的搜索返回信息；时效性查询内容字段确定单元，用于筛选出与时间关联的搜索返回信息的数量大于预设数量阈值对应的候选时效性查询内容字段，确定为时效性查询内容字段。

关于时效性查询内容字段挖掘装置的具体限定可以参见上文中对于时效性查询内容字段挖掘方法的限定，在此不再赘述。上述时效性查询内容字段挖掘装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储时效性查询内容字段。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种时效性查询内容字段挖掘方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种时效性查询内容字段挖掘方法，其特征在于，所述方法包括：

获取与时效性相关的待挖掘查询内容；

从所述待挖掘查询内容中筛选出查询内容核心字段，分别确定各所述查询内容核心字段在所述待挖掘查询内容中的时间信息熵；所述查询内容核心字段是指查询内容中去除时间词语后的查询内容字段；所述时间信息熵用于通过信息熵衡量查询内容核心字段与时效性的关联；

对所述候选时效性查询内容字段进行时效性校验，将通过所述时效性校验的候选时效性查询内容字段确定为时效性查询内容字段；所述时效性校验用于对根据时间信息熵确定的候选时效性查询内容字段进行校验，以进一步确定所述候选时效性查询内容字段与时效性的关联程度。

2.根据权利要求1所述的时效性查询内容字段挖掘方法，其特征在于，所述获取与时效性相关的待挖掘查询内容，包括：

从预设数据库中获取查询内容数据；

从所述查询内容数据中筛选与预设时间词语关联的查询内容数据，得到所述与时效性相关的待挖掘查询内容。

3.根据权利要求1所述的时效性查询内容字段挖掘方法，其特征在于，所述从所述待挖掘查询内容中筛选出查询内容核心字段，分别确定各所述查询内容核心字段在所述待挖掘查询内容中的时间信息熵，包括：

从所述待挖掘查询内容中筛选出查询内容核心字段；

分别获取各所述查询内容核心字段在所述待挖掘查询内容中与各预设时间词关联时的目标出现次数，以及所述查询内容核心字段在所述待挖掘查询内容中的所有出现次数；

根据各所述查询内容核心字段对应的各所述目标出现次数、所有出现次数，确定对应的查询内容核心字段与时间关联的出现概率；

基于各所述查询内容核心字段与时间关联的出现概率确定各所述查询内容核心字段在所述待挖掘查询内容中的时间信息熵。

4.根据权利要求1所述的时效性查询内容字段挖掘方法，其特征在于，所述根据各所述查询内容核心字段对应的时间信息熵从所述查询内容核心字段中确定候选时效性查询内容字段，包括：

从各所述时间信息熵中确定大于预设信息熵阈值的有效时间信息熵，得到所述有效时间信息熵对应的查询内容核心字段所在的目标查询内容；

去除所述目标查询内容中的预设特定关键词，获得筛选后查询内容字段；

在所述目标查询内容中识别属于所述筛选后查询内容字段的最大公共字串，确定为所述候选时效性查询内容字段。

5.根据权利要求4所述的时效性查询内容字段挖掘方法，其特征在于，所述在所述目标查询内容中识别属于所述筛选后查询内容字段的最大公共字串，确定为所述候选时效性查询内容字段，包括：

将与同一筛选后查询内容字段关联的目标查询内容合并为候选查询内容集合；

获取各所述筛选后查询内容字段在同一候选查询内容集合中的出现次数；

读取所述同一候选查询内容集合中的出现次数最大的筛选后查询内容字段，确定为所述候选时效性查询内容字段。

6.根据权利要求1所述的时效性查询内容字段挖掘方法，其特征在于，所述对所述候选时效性查询内容字段进行时效性校验，将通过所述时效性校验的候选时效性查询内容字段确定为时效性查询内容字段，包括：

获取各所述候选时效性查询内容字段搜索获得的预设数目次搜索结果；

分别确定同一候选时效性查询内容字段的各次搜索结果中属于与搜索时间关联的搜索结果的第一点击次数，以及获取所述预设数目次搜索结果中不属于与搜索时间关联的搜索结果的第二点击次数；

根据所述预设数目、第一点击次数和第二点击次数确定所述候选时效性查询内容字段的时效性点击率；

将时效性点击率大于预设时效性点击率对应的候选时效性查询内容字段确定为所述时效性查询内容字段。

7.根据权利要求1所述的时效性查询内容字段挖掘方法，其特征在于，所述对所述候选时效性查询内容字段进行时效性校验，将通过所述时效性校验的候选时效性查询内容字段确定为时效性查询内容字段，包括：

在预设网站中搜索与各所述候选时效性查询内容字段对应的搜索返回信息；

筛选出与时间关联的搜索返回信息的数量大于预设数量阈值对应的候选时效性查询内容字段，确定为所述时效性查询内容字段。

8.一种时效性查询内容字段挖掘装置，其特征在于，所述装置包括：

获取模块，用于获取与时效性相关的待挖掘查询内容；

信息熵确定模块，用于从所述待挖掘查询内容中筛选出查询内容核心字段，分别确定各所述查询内容核心字段在所述待挖掘查询内容中的时间信息熵；所述查询内容核心字段是指查询内容中去除时间词语后的查询内容字段；所述时间信息熵用于通过信息熵衡量查询内容核心字段与时效性的关联；

校验模块，用于对所述候选时效性查询内容字段进行时效性校验，将通过所述时效性校验的候选时效性查询内容字段确定为时效性查询内容字段；所述时效性校验用于对根据时间信息熵确定的候选时效性查询内容字段进行校验，以进一步确定所述候选时效性查询内容字段与时效性的关联程度。

9.根据权利要求8所述的时效性查询内容字段挖掘装置，其特征在于，所述获取模块，包括：

数据获取单元，用于从预设数据库中获取查询内容数据；

筛选单元，用于从所述查询内容数据中筛选与预设时间词语关联的查询内容数据，得到所述与时效性相关的待挖掘查询内容。

10.根据权利要求8所述的时效性查询内容字段挖掘装置，其特征在于，所述信息熵确定模块，包括：

核心字段筛选单元，用于从所述待挖掘查询内容中筛选出查询内容核心字段；

出现次数统计单元，用于分别获取各所述查询内容核心字段在所述待挖掘查询内容中与各预设时间词关联时的目标出现次数，以及所述查询内容核心字段在所述待挖掘查询内容中的所有出现次数；

出现概率确定单元，用于根据各所述查询内容核心字段对应的各所述目标出现次数、所有出现次数，确定对应的查询内容核心字段与时间关联的出现概率；

时间信息熵确定单元，用于基于各所述查询内容核心字段与时间关联的出现概率确定各所述查询内容核心字段在所述待挖掘查询内容中的时间信息熵。

11.根据权利要求8所述的时效性查询内容字段挖掘装置，其特征在于，所述候选字段确定模块，包括：

目标查询内容确定单元，用于从各所述时间信息熵中确定大于预设信息熵阈值的有效时间信息熵，得到所述有效时间信息熵对应的查询内容核心字段所在的目标查询内容；

关键词删除单元，用于去除所述目标查询内容中的预设特定关键词，获得筛选后查询内容字段；

最大公共字串确定单元，用于在所述目标查询内容中识别属于所述筛选后查询内容字段的最大公共字串，确定为所述候选时效性查询内容字段。

12.根据权利要求11所述的时效性查询内容字段挖掘装置，其特征在于，所述最大公共字串确定单元，包括：

集合确定子单元，用于将与同一筛选后查询内容字段关联的目标查询内容合并为候选查询内容集合；

出现次数统计子单元，用于获取各所述筛选后查询内容字段在同一候选查询内容集合中的出现次数；

候选时效性查询内容字段确定子单元，用于读取所述同一候选查询内容集合中的出现次数最大的筛选后查询内容字段，确定为所述候选时效性查询内容字段。

13.根据权利要求8所述的时效性查询内容字段挖掘装置，其特征在于，所述校验模块，包括：

搜索结果获取单元，用于获取各所述候选时效性查询内容字段搜索获得的预设数目次搜索结果；

点击次数统计单元，用于分别确定同一候选时效性查询内容字段的各次搜索结果中属于与搜索时间关联的搜索结果的第一点击次数，以及获取所述预设数目次搜索结果中不属于与搜索时间关联的搜索结果的第二点击次数；

时效性点击率确定单元，用于根据所述预设数目、第一点击次数和第二点击次数确定所述候选时效性查询内容字段的时效性点击率；

时效性查询内容字段确定单元，用于将时效性点击率大于预设时效性点击率对应的候选时效性查询内容字段确定为所述时效性查询内容字段。

14.根据权利要求8所述的时效性查询内容字段挖掘装置，其特征在于，所述校验模块，包括：

搜索单元，用于在预设网站中搜索与各所述候选时效性查询内容字段对应的搜索返回信息；

时效性查询内容字段确定单元，用于筛选出与时间关联的搜索返回信息的数量大于预设数量阈值对应的候选时效性查询内容字段，确定为所述时效性查询内容字段。

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

16.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。