CN107577707A

CN107577707A - 一种目标数据集生成方法、装置及电子设备

Info

Publication number: CN107577707A
Application number: CN201710639606.3A
Authority: CN
Inventors: 赵晓萌; 梁召; 胡军
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2018-01-12
Anticipated expiration: 2037-07-31
Also published as: CN107577707B

Abstract

本发明实施例提供了一种目标数据集生成方法、装置及电子设备，所述方法包括：针对每一预设查询词，获取所述每一预设查询词对应的搜索日志；针对所述搜索日志中的每一条日志，根据所述每一条日志和与所述每一条日志对应的文件的信息，获取所述每一条日志的第一特征，根据所述与所述每一条日志对应的文件被播放的时长与预设阈值的对应关系、以及所述预设阈值与相关性值的对应关系，获取所述与所述每一条日志对应的文件的相关性值；根据所述第一特征和所述相关性值生成目标数据集。应用本发明实施例，可以提高数据集的生成效率。

Description

一种目标数据集生成方法、装置及电子设备

技术领域

本发明涉及检索技术领域，特别是涉及一种目标数据集生成方法、装置及电子设备。

背景技术

随着网络上的文件越来越多，在向用户展示对应于查询词的文件时，需要对相关文件进行排序后再行显示。对于不同的文件和查询词，确定出来的排序模型也是多种多样的。由于数据模型较多，无法确定出哪一种排序模型的效果比较好，因此需要对确定出来的排序模型进行验证。

目前，常用数据集对排序模型进行验证，在进行验证之前，首先需要生成数据集。一般来说，数据集的生成方法为，将用户输入的查询词分别与该查询词对应的文件生成查询词-文件对，然后，针对每一个查询词-文件对，根据查询词与文件之间的相关性的大小，人工确定该文件与查询词之间的相关性值。再将该相关性值、查询词以及文件的相关信息作为一个数据单元，进而由多个数据单元组成一个数据集。

但是，现有技术中数据集包含的数据单元的数量为数万个，每一个都需要由人工的方式生成，费时费力，因此应用现有技术存在生成数据集的效率比较低的技术问题。

发明内容

本发明实施例的目的在于提供一种目标数据集生成方法、装置及电子设备，以实现提高数据集的生成效率的目的。具体技术方案如下：

第一方面，本发明实施例提供了一种目标数据集生成方法，所述方法包括：

针对每一预设查询词，获取所述每一预设查询词对应的搜索日志；

针对所述搜索日志中的每一条日志，根据所述每一条日志和与所述每一条日志对应的文件的信息，获取所述每一条日志的第一特征，其中，所述第一特征至少包括：事件ID、查询词和文件ID中的一种；

针对每一个与所述每一条日志对应的文件，根据预设的该文件被播放的时长与预设阈值的对应关系、以及预设的预设阈值与相关性值的对应关系，获取与所述每一条日志对应的文件的相关性值，其中，所述相关性值为与所述每一条日志对应的文件与所述预设查询词的关联程度的量化参数；

根据所述第一特征和所述相关性值生成目标数据集。

可选的，在根据所述第一特征和所述相关性值生成目标数据集之前，所述方法还包括：

针对每一用户，根据所述每一用户的搜索日志，获取所述每一用户的第二特征，其中，所述第二特征至少包括：所述每一用户的预设查询词对应的历史检索次数、查询词点击熵、用户ID、视频历史点击率和用户的VIP会员信息中的一种；

所述根据所述第一特征和所述相关性值生成目标数据集，包括：

根据所述第一特征、所述相关性值以及第二特征生成目标数据集。

可选的，所述方法还包括：

根据所述搜索日志中的当前一条日志的时间特征、查询词以及用户ID中的一种，判断该条日志是否可用；

若该条日志可用，执行所述根据预设的该文件被播放的时长与预设阈值的对应关系、以及预设的预设阈值与相关性值的对应关系，获取与所述每一条日志对应的文件的相关性值的步骤。

若该条日志不可用，将所述当前一条日志的下一条日志设置为当前一条日志，并返回执行所述根据所述搜索日志中的当前一条日志的时间特征、查询词以及用户ID中的一种，判断该条日志是否可用的步骤。

可选的，在针对所述搜索日志中的每一条日志，根据所述每一条日志和与所述每一条日志对应的文件的信息，获取所述每一条日志的第一特征之前，所述方法还包括：

根据所述预设查询词对应文件的时间特征、用户ID以及所述预设查询词对应文件的信息中的一种，对所述搜索日志进行去重处理。

可选的，所述方法还包括：

利用预设的排序模型，对所述目标数据集中的每一条数据对应的文件进行打分；

根据每一查询词对应的文件的分值的大小，对每一查询词对应的文件进行排序，获得第一序列，并计算针对所述第一序列的第一排序表征参数，其中，所述第一排序表征参数至少包括：平均正确率均值和折扣累计增益值中的一种；

根据用户针对每一查询词对应的文件的播放时长的大小，对每一查询词对应的文件进行排序，获得第二序列，并利用与计算所述第一排序表征参数的方法相同的方法，计算针对所述第二序列的第二排序表征参数；

根据所述第一排序表征参数和所述第二排序表征参数，计算所述预设的排序模型的分数。

第二方面，本发明实施例提供了一种目标数据集生成装置，所述装置包括：第一获取模块、第二获取模块、第三获取模块和生成模块，其中，

所述第一获取模块，用于针对每一预设查询词，获取所述每一预设查询词对应的搜索日志；

所述第二获取模块，用于针对所述搜索日志中的每一条日志，根据所述每一条日志和与所述每一条日志对应的文件的信息，获取所述每一条日志的第一特征，其中，所述第一特征至少包括：事件ID、查询词和文件ID中的一种；

所述第三获取模块，用于针对每一个与所述每一条日志对应的文件，根据预设的该文件被播放的时长与预设阈值的对应关系、以及预设的预设阈值与相关性值的对应关系，获取与所述每一条日志对应的文件的相关性值，其中，所述相关性值为与所述每一条日志对应的文件与所述预设查询词的关联程度的量化参数；

所述生成模块，用于根据所述第一特征和所述相关性值生成目标数据集。

可选的，所述装置还包括，第四获取模块，用于针对每一用户，根据所述每一用户的搜索日志，获取所述每一用户的第二特征，其中，所述第二特征至少包括：所述每一用户的预设查询词对应的历史检索次数、查询词点击熵、用户ID、视频历史点击率和用户的VIP会员信息中的一种；

所述生成模块，还用于根据所述第一特征、所述相关性值以及第二特征生成目标数据集。

可选的，所述装置还包括：判断模块和设置模块，其中，

所述判断模块，用于根据所述搜索日志中的当前一条日志的时间特征、查询词以及用户ID中的一种，判断该条日志是否可用；并在判断结果为是的情况下，触发所述第三获取模块；在判断结果为否的情况下，触发所述设置模块；

所述设置模块，用于将所述当前一条日志的下一条日志设置为当前一条日志，并触发所述判断模块。

可选的，所述装置还包括：去重模块，用于根据所述预设查询词对应文件的时间特征、用户ID以及所述预设查询词对应文件的信息中的一种，对所述搜索日志进行去重处理。

可选的，所述装置还包括：打分模块、第一排序模块、第二排序模块和计算模块，其中，

所述打分模块，用于利用预设的排序模型，对所述目标数据集中的每一条数据对应的文件进行打分；

所述第一排序模块，用于根据每一查询词对应的文件的分值的大小，对每一查询词对应的文件进行排序，获得第一序列，并计算针对所述第一序列的第一排序表征参数，其中，所述第一排序表征参数至少包括：平均正确率均值和折扣累计增益值中的一种；

所述第二排序模块，用于根据用户针对每一查询词对应的文件的播放时长的大小，对每一查询词对应的文件进行排序，获得第二序列，并利用与计算所述第一排序表征参数的方法相同的方法，计算针对所述第二序列的第二排序表征参数；

所述计算模块，用于根据所述第一排序表征参数和所述第二排序表征参数，计算所述预设的排序模型的分数。

第三方面，本发明实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的方法步骤。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的一种目标数据集生成方法。

在本发明实施的又一方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的一种目标数据集生成方法。

本发明实施例提供的一种目标数据集生成方法、装置及电子设备，所述方法包括：针对每一预设查询词，获取所述每一预设查询词对应的搜索日志；针对所述搜索日志中的每一条日志，根据所述每一条日志和与所述每一条日志对应的文件的信息，获取所述每一条日志的第一特征，其中，所述第一特征至少包括：事件ID、查询词和文件ID中的一种；针对每一个与所述每一条日志对应的文件，根据预设的该文件被播放的时长与预设阈值的对应关系、以及预设的预设阈值与相关性值的对应关系，获取与所述每一条日志对应的文件的相关性值，其中，所述相关性值为与所述每一条日志对应的文件与所述预设查询词的关联程度的量化参数；根据所述第一特征和所述相关性值生成目标数据集。

应用本发明实施例，根据每一条日志对应的文件被播放的时长与预设阈值的对应关系，可以自动确定每一文件的相关性值，进而可以自动生成目标数据集，相对于现有技术中的基于人工确定相关性值生成目标数据集的方法，生成目标数据集的速度更快，从而提高了数据集的生成效率。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例应用的场景示意图；

图2为本发明实施例提供的第一种目标数据集生成方法的流程示意图；

图3为本发明实施例提供的第二种目标数据集生成方法的流程示意图；

图4为本发明实施例提供的第三种目标数据集生成方法的流程示意图；

图5为本发明实施例提供的第四种目标数据集生成方法的流程示意图；

图6为本发明实施例提供的第五种目标数据集生成方法的流程示意图；

图7为本发明实施例提供的第一种目标数据集生成装置的结构示意图；

图8为本发明实施例提供的第二种目标数据集生成装置的结构示意图；

图9为本发明实施例提供的第三种目标数据集生成装置的结构示意图；

图10为本发明实施例提供的第四种目标数据集生成装置的结构示意图；

图11为本发明实施例提供的第五种目标数据集生成装置的结构示意图；

图12为本发明实施例提供的一电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

现有技术中是通过人工标注的方式生成每个文件与预设查询词的相关性值。人工标注的方式速度比较慢，导致生成数据集的效率比较低。为了解决现有技术中存在的技术问题，本发明实施例提供了一种目标数据集的方法、装置及电子设备。一般来说，文件与预设查询词相关性值越高，用户播放该文件的播放时长就越长，因此，可以根据播放时长的长短，确定出各个文件对应的相关性值。在本发明实施例中，根据用户的搜索日志确定出用户针对与预设查询词对应的文件的播放时长，再根据该播放时长的长短，确定出各个文件与预设查询词的相关性值，进而根据各个文件对应的相关性值生成目标数据集。应用本发明实施例，根据每一条日志对应的文件被播放的时长与预设阈值的对应关系，可以自动确定每一文件的相关性值，进而可以自动生成目标数据集，相对于现有技术，可以提高数据集的生成效率。

图1为本发明实施例应用的场景示意图，如图1所示，日志存储服务器10存储有用户搜索日志，搜索日志中至少包括用户输入的查询词、检索到的文件的ID、文件的排序、文件是否被用户点击、用户浏览或者播放该文件时长的信息。数据集生成服务器20根据日志存储服务器10存储的用户搜索日志生成数据集。测试服务器30从数据集生成服务器20获得数据集，并根据该数据集对文件排序模型进行测试，进而评估各个排序模型的优劣。

图2为本发明实施例提供的第一种目标数据集生成方法的流程示意图，如图1所示，该方法包括：

S101：针对每一预设查询词，获取所述每一预设查询词对应的搜索日志。

示例性的，预设查询词为“乒乓球”。通常情况下，可以从日志存储设备中获取与预设查询词对应的搜索日志。由于日志存储设备中存储有用户的搜索日志，且每一条搜索日志至少包括用户输入的查询词、检索到的文件的ID、文件的排序、文件是否被用户点击、用户浏览或者播放该文件时长的信息，在此就不一一列举。在实际应用中，可以根据每一条搜索日志中包含的查询词是否与预设的查询词“乒乓球”相对应，如果相匹配，该条搜索日志为需要获取的搜索日志。再将包含查询词“乒乓球”的每一条需要获取的搜索日志的集合，作为该预设查询词对应的搜索日志。

需要说明的是，查询词也可以但不仅限于被称为检索词、搜索词或者关键词。

获取的预设查询词对应的搜索日志为：

540\t 0001\t乒乓球\t a2554\t 2\t is_click\t 5min；

050\t 0003\t乒乓球\t a2784\t 1\t no_click\t 0min；

320\t 0001\t乒乓球\t c5524\t 3\t is_click\t 0.5min。

其中，“\t”为日志中不同类型数据之间的分隔符。“540、050、320”为搜索事件ID，即搜索事件编号，是系统根据搜索事件的种类，为不同种类的搜索事件赋予的编号，具有唯一性，不同类型的搜索事件的搜索事件编号是不同的。搜索事件编号通常被称为“eventid”。

“0001”为用户的ID。用户ID通常被称为“uid”或者“user id”。

“乒乓球”为预设查询词。预设查询词通常被称为“query”、“key”或者“key word”。

“a2554、a2784、c5524”为被搜索到的文件的ID。被搜索到的文件的ID通常被称为“document id”、“video id”或者“image id”。

“2、1、3”为该条搜索日志对应的文件在搜索结果序列中的顺序编号，该编号通常被称为“position”。

“is_click”代表该条搜索日志对应的文件被用户“0001”点击；“no click”代表该条搜索日志对应的文件未被用户“0001”点击。

“5min、0min、1min”分别代表，对应的文件被用户浏览或者播放的时分别为5分钟、0分钟和1分钟，该时长通常被称为“watch time”。

S102：针对所述搜索日志中的每一条日志，根据所述每一条日志和与所述每一条日志对应的文件的信息，获取所述每一条日志的第一特征，其中，所述第一特征至少包括：事件ID、查询词和文件ID中的一种。

示例性的，针对S101步骤中获得的每一条搜索日志，提取出该条日志中包含的第一特征的信息、并从与该条日志对应的文件中获取所包含的第一特征的；将所获取的所有第一特征作为该条日志的第一特征。

在实际应用中，从S101步骤中获得的搜索日志中获取的第一特征可以为：事件ID、查询词和文件ID；从与该条搜索日志对应的文件获取第一特征可以为：该文件的数据量大小、数据格式等信息。

以搜索日志“540\t 0001\t乒乓球\t a2554\t 2\t is_click\t 5min”为例，根据该搜索日志中的查询词，获得该条日志对应的第一特征为“540、0001、乒乓球、a2554”。

再按照上述方法，获取其他搜索日志的第一特征分别为：“050、0003、乒乓球、a2784”和“050、0001、乒乓球、a2784”。

需要强调的是，，可以根据实际需求，根据每一条日志和与该日志对应的文件的信息中包含的，除查询词和文件ID之外的信息，获取该条日志的第一特征，本发明实施例在此并不对第一特征包含的内容作出限定。

S103：针对每一个与所述每一条日志对应的文件，根据预设的该文件被播放的时长与预设阈值的对应关系、以及预设的预设阈值与相关性值的对应关系，获取与所述每一条日志对应的文件的相关性值，其中，所述相关性值为与所述每一条日志对应的文件与所述预设查询词的关联程度的量化参数。

示例性的，可以根据每一条日志中包含的每一个文件被播放的时长，与表1中各个预设阈值的对应关系，进而根据预设阈值与相关性值的对应关系，获取每一条日志对应的文件的相关性值。

例如：以搜索日志“540\t 0001\t乒乓球\t a2554\t 2\t is_click\t 5min”为例。

参见表1，表1为预设阈值与相关性值的对应关系表，如表1所示，该搜索日志中，文件ID为a2554的文件被播放了5分钟，对应表1中“大于或等于1分钟”，与“大于或等于1分钟”对应的相关性值为2，则文件ID为a2554的文件的相关性值为2。

再按照上述方法，获取其他搜索日志对应的文件的相关性值分别为0和1。

在实际应用中，相关性值为每一条日志对应的文件与预设查询词的关联程度的量化参数。也可以将相关性值理解为，在该查询词下，用户对搜索结果中出现该文件的满意程度的量化参数。

表1

预设阈值	相关性值(rel)
		大于或等于1分钟	2
小于1分钟	1
		未点击或者无播放时长	0

可以理解的是，量化参数为，使用数值对每一条日志对应的文件与预设查询词的关联程度的表示。

S104：根据所述第一特征和所述相关性值生成目标数据集。

示例性的，可以将S102步骤中获取的第一特征“540、0001、乒乓球、a2554”和S103步骤中获取的该条日志对应的文件的相关性值，以“\t”为分隔符，按照预设的顺序排列，如可以按照“搜索事件编号、用户ID、预设查询词、被搜索到的文件的ID、相关性值”的顺序进行排序，生成的该条日志对应的数据单元为：540\t 0001\t乒乓球\t a2554\t 2。

再按照上述方法，生成其他搜索日志对应的数据单元分别为：050\t 0003\t乒乓球\t a2784\t 0和320\t 0001\t乒乓球\t c5524\t 1。

将各条搜索日志对应的数据单元集合在一起，生成目标数据集。

需要说明的是，上述的排列的顺序，可以是用户设置的，还可以是设备或者系统默认的顺序，本发明实施例在此并不对其作出限定。

由于S101步骤中获取的是真实用户的搜索日志，因此生成的目标数据集是真实反映用户的搜索行为的，因此应用该目标数据集可以为排序模型的评测提供可靠的评测结果。

应用本发明图2所示实施例，根据每一条日志对应的文件被播放的时长与预设阈值的对应关系，可以自动确定每一文件的相关性值，进而可以自动生成目标数据集，相对于现有技术中的基于人工确定相关性值生成目标数据集的方法，生成目标数据集的速度更快，从而提高了数据集的生成效率。

另一方面，自动生成目标数据集，相对于现有技术中基于人工处理生成目标数据集，成本更低。

图3为本发明实施例提供的第二种目标数据集生成方法的流程示意图，如图3所示，本发明图3所示实施例在图2所示实施例的基础上，S104步骤之前，增加了S105：针对每一用户，根据所述每一用户的搜索日志，获取所述每一用户的第二特征，其中，所述第二特征至少包括：所述每一用户的预设查询词对应的历史检索次数、查询词点击熵、用户ID、视频历史点击率和用户的VIP会员信息中的一种。

示例性的，S101步骤中获取的每一用户的预设查询词对应的各条搜索日志中，还包括与用户相关的信息，如：该用户是否为VIP用户、用户的性别信息等信息；还可以包括时间相关的信息，如该条搜索日志对应的时间是否为周末、是否为黄金时段的信息；还可以包含文件相关的信息，如该条搜索日志对应的文件的时长、文件平均被播放的时长、文件的点击率等；查询词相关的信息，如查询词历史检索次数、查询词点击熵等。另外，可以将与用户相关的信息理解为用户维度特征；类似的，还可以将文件相关的信息理解为文件维度特征，将查询词相关的信息理解为查询词维度特征。另外，当搜索日志中的信息不完整时，可以在对应的其他数据库中查询相关的信息，如对于视频文件，可以在Video Info(视频信息)数据库中查找对应的信息。

针对每一用户的每一条搜索日志，可以从搜索日志中直接获取用户维度特征，如该用户是否为VIP用户、用户的性别信息等信息。可以将以下直接获取的结果和统计结果作为第二特征，例如，可以对搜索日志中包含的信息进行统计，例如，统计搜索日志中用户播放某一文件的总时长与播放该文件的次数的商，获得用户播放该文件的平均时长；还可以统计搜索日志中用户历史检索某一查询词的总次数，作为用户的历史检索次数，或者将用户在预设时间段内检索某一查询词的总次数作为用户的检索次数；还可以统计统计用户在某一时间段内点击某一文件的次数，和系统向用户展示该文件的总次数，并根据用户点击该文件的次数与系统向用户展示该文件的总次数的商，获得用户对该文件的历史点击率。

以用户A的预设查询词“乒乓球”的历史检索次数为例，根据用户A对应的历史搜索日志，统计查询词“乒乓球”对应的用户历史检索次数。

以用户A的预设查询词“乒乓球”的平均播放时长为例，根据用户A对应的历史搜索日志，统计当前一条搜索日志对应的文件X的平均播放时长。可以该用户历史上播放该文件的次数，与该用户历史上点击该文件的次数的商，计算用户A播放文件X的平均播放时长。

例如，与日志“540\t 0001\t乒乓球\t a2554\t 2\t is_click\t5min”对应的第二特征如下：

用户维度特征为：用户是VIP用户；

查询词维度特征为：查询词历史检索次数为12，查询词点击熵为0.5；

文件维度特征为：文件时长为40min，文件平均播放时长为4min；

时间维度特征为：是周末。

相应的，S104可以为S104A：根据所述第一特征、所述相关性值以及第二特征生成目标数据集。

具体的，可以将第一特征值包含的各个结果、相关性值、以及第二特征值中包含的各个结果，以“\t”为分隔符，按照预设的顺序排列，可以得到一个数据单元，例如，如可以按照“搜索事件编号、用户ID、预设查询词、被搜索到的文件的ID、相关性值、是否被点击、用户播放时长”的顺序进行排序。再将所有用户的所有数据单元集合在一起，进而可以生成目标数据集。

例如，根据用户A的预设查询词“乒乓球”的搜索日志“540\t 0001\t乒乓球\ta2554\t 2\t is_click\t 5min”对应的第一特征、相关性值、第二特征生成的数据单元为：

540\t 0001\t乒乓球\t a2554\t 2\t VIP\t 12\t 0.5\t 40min\t 4min\t isweekend。

再根据用户ID“0001”对应的其他搜索日志生成对应的数据单元，进而根据用户ID“0001”对应的所有数据单元生成与该用户ID对应的目标数据集。

需要强调的是，数据单元的格式如，数据单元中各个参数的位置或者单位，可以由数据集生成服务器20和测试服务器约定，也可以由数据集的需求方根据实际需求确定。

应用本发明图3所示实施例，针对每一用户，生成与该用户对应的数据集，可以使用该数据集对个性化排序模型进行测试。

图4为本发明实施例提供的第三种目标数据集生成方法的流程示意图，如图4所示，本发明图4所示实施例在图2所示实施例的基础上，增加了步骤：

S106：根据所述搜索日志中的当前一条日志的时间特征、查询词以及用户ID中的一种，判断该条日志是否可用，如果是执行S103，如果否，执行S107。

示例性的，把同一用户ID、同一查询词的两次搜索间隔小于预设阈值的搜索日志过滤掉的规则，以根据该条搜索日志的时间特征判断该条日志是否可用；可以按照，把单位时间段内被检索的次数大于预设阈值的查询词对应的搜索日志过滤掉的规则，以根据该条搜索日志的查询词判断该条日志是否可用；可以按照，把同一用户ID的在单位时间段内检索次数大于预设阈值时，对应搜索日志过滤掉的规则，以根据该条搜索日志的用户ID判断该条日志是否可用，其中，所说的过滤掉可以理解为删除、去除。

例如：

过滤掉日/小时检索频率大于预设阈值M的用户ID；过滤掉查询词相同、用户ID相同，且相邻两次搜索检测小于预设阈值N的搜索日志。判断当前一条搜索日志是否满足上述条件，如果满足，将当前一条搜索日志去除。

需要说明的是，判断该条日志是否可用的条件并不仅限于上述条件，本发明实施例在此并对其作出限定。可以将搜索日志中的第一条日志作为当前一条日志，还可以随机选择搜索日志中的某一条日志作为当前一条日志。

S107：将所述当前一条日志的下一条日志设置为当前一条日志，并返回执行S106。

例如，可以将当前一条日志的下一条日志作为当前一条日志，并对该条日志进行反作弊处理，直至对获取的所有日志进行了反作弊处理。当前一条日志的下一条日志为，搜索日志中除当前一条日志之外的、未被进行反作弊处理的日他搜索日志。

在实际应用中，还可以在S101之前对所有预设查询词的搜索日志执行以上步骤，还可以在S101之前对预设时间段内、所有预设查询词的搜索日志执行以上步骤。

应用本发明图4所示实施例，可以将不可用的搜索日志去除，避免了不可用的搜索日志对评测结果的影响，使评测结果更加准确。

图5为本发明实施例提供的第四种目标数据集生成方法的流程示意图，如图5所示，本发明图5所示实施例在图2所示实施例的基础上，在S102之前，增加了S108：根据所述预设查询词对应文件的时间特征、用户ID以及所述预设查询词对应文件的信息中的一种，对所述搜索日志进行去重处理。

示例性的，可以将相同用户ID对某一预设查询词对应的同一文件的多次浏览或者播放，只保留时长最长的那一次播放对应的搜索日志，将除本条搜索日志之外的浏览或者播放日志去除。

示例性的，还可以针对每一搜索事件，将相同用户ID对同一文件的多次浏览或者播放，只保留时长最长的那一次播放对应的搜索日志，将除本条搜索日志之外的浏览或者播放日志去除。

还可以，按照上述规则，将每一搜索事件对应的文件序列中前预设数量个文件对应的搜索日志进行去重，再根据去重后的搜索日志生成目标数据集。

应用本发明图5所示实施例，可以将重复的搜索日志去除，避免了重复的搜索日志对评测结果的影响，使评测结果更加准确。

图6为本发明实施例提供的第五种目标数据集生成方法的流程示意图，如图6所示，本发明图6所示实施例在图2所示实施例的基础上，增加了S109、S1010、S1011和S1012，其中，

S109：利用预设的排序模型，对所述目标数据集中的每一条数据对应的文件进行打分。

示例性的，目前有三个排序模型X、Y和Z。排序模型的作用之一是根据查询词“乒乓球”对目标数据集中，与该查询词相关的数据单元对应的文件都赋予一个量化的值，也就是打分，例如模型X可以基于自身的算法计算出各个文件的与预设查询词之间的相关性值，将相关性高的文件赋予高分，将相关性低的文件赋予低分。

S1010：根据每一查询词对应的文件的分值的大小，对每一查询词对应的文件进行排序，获得第一序列，并计算针对所述第一序列的第一排序表征参数，其中，所述第一排序表征参数至少包括：平均正确率均值和折扣累计增益值中的一种。

以排序模型X为例，排序模型X在S109步骤中对各个文件进行了打分，然后按照分值从大到小的顺序，对各个文件进行排序，得到第一序列。

为了评价该第一序列的效果，可以计算该第一序列的平均正确率均值或者折扣累计增益值，得到第一排序表征参数。

例如，可以利用公式，计算第一序列的DCG值，其中，

DCG为对应排序结果的累计折扣信息增益值：k为参与排序结果的评价文件的个数；rel_i为第i个文件的分值；i为文件在排序结果中的顺序的位置，其中，i和k均为整数。

需要说明的是，第一排序表征参数包括但不仅限于平均正确率均值和折扣累计增益值。

再按照上述方法，计算排序模型Y和Z对应的各个序列的第一排序表征参数。得到的排序模型X对应计算结果可以为DCGX、得到的排序模型Y对应计算结果可以为DCGY、得到的排序模型Z对应计算结果可以为DCGZ。

S1011：根据用户针对每一查询词对应的文件的播放时长的大小，对每一查询词对应的文件进行排序，获得第二序列，并利用与计算所述第一排序表征参数的方法相同的方法，计算针对所述第二序列的第二排序表征参数。

通常情况下，用户输入一个查询词后，搜索引擎或者搜索软件会按顺序显示多个文件，用户会根据各个文件与该查询词的相关性点击后浏览或者播放。一般来说，用户认为当前文件与该查询词的相关性很高，用户的浏览或者播放时长会较长，反之，若该文件与该查询词的相关性不高，即使用户点击后进行了浏览或者播放，用户一般也会立即退出浏览或者播放。因此，用户对一个文件的浏览或者播放时长是衡量该文件是否与查询词真正相关的重要依旧。所以，按照用户针对每一查询对应的文件的播放时长对各个文件进行排序，各个文件在得到的序列中的顺序次序是可以反映该文件与查询词的相关性的。

示例性的，按照用户对查询词“乒乓球”对应的文件的播放时长的大小，对各个文件进行排序，得到第二序列。

再利用公式，计算第一序列的DCG值，其中，

DCG为对应排序结果的累计折扣信息增益值：k为参与排序结果的评价文件的个数；rel_i为第i个文件的分值；i为文件在排序结果中的顺序的位置。

计算结果可以为DCGT。

S1012根据所述第一排序表征参数和所述第二排序表征参数，计算所述预设的排序模型的分数。

示例性的，可以根据DCGX与DCGT的商，计算排序模型X的分数；根据DCGY与DCGT的商，计算排序模型Y的分数；根据DCGZ与DCGT的商，计算排序模型Z的分数。

通常情况下，分数越高的排序模型的模拟结果越接近用户对于查询词的真实的点击行为，该排序模型就越优秀。

应用本发明图6所示实施例，可以利用目标数据集对排序模型进行评价，筛选出能够较为真实的模拟用户的点击行为的排序模型。

与本发明图2所示实施例相对应，本发明实施例还提供了第一种目标数据集生成装置。

图7为本发明实施例提供的第一种目标数据集生成装置的结构示意图如图7所示，该装置包括：第一获取模块601、第二获取模块602、第三获取模块603和生成模块604，其中，

所述第一获取模块601，用于针对每一预设查询词，获取所述每一预设查询词对应的搜索日志；

所述第二获取模块602，用于针对所述搜索日志中的每一条日志，根据所述每一条日志和与所述每一条日志对应的文件的信息，获取所述每一条日志的第一特征，其中，所述第一特征至少包括：事件ID、查询词和文件ID中的一种；

所述第三获取模块603，用于针对每一个与所述每一条日志对应的文件，根据预设的该文件被播放的时长与预设阈值的对应关系、以及预设的预设阈值与相关性值的对应关系，获取与所述每一条日志对应的文件的相关性值，其中，所述相关性值为与所述每一条日志对应的文件与所述预设查询词的关联程度的量化参数；

所述生成模块604，用于根据所述第一特征和所述相关性值生成目标数据集。

应用本发明图7所示实施例，根据每一条日志对应的文件被播放的时长与预设阈值的对应关系，可以自动确定每一文件的相关性值，进而可以自动生成目标数据集，相对于现有技术中的基于人工确定相关性值生成目标数据集的方法，生成目标数据集的速度更快，从而提高了数据集的生成效率。

与本发明图3所示实施例相对应，本发明实施例还提供了第二种目标数据集生成装置。

图8为本发明实施例提供的第二种目标数据集生成装置的结构示意图，如图8所示，所述装置还包括，第四获取模块605，用于针对每一用户，根据所述每一用户的搜索日志，获取所述每一用户的第二特征，其中，所述第二特征至少包括：所述每一用户的预设查询词对应的历史检索次数、查询词点击熵、用户ID、视频历史点击率和用户的VIP会员信息中的一种；

所述生成模块604，还用于根据所述第一特征、所述相关性值以及第二特征生成目标数据集。

应用本发明图8所示实施例，针对每一用户，生成与该用户对应的数据集，可以使用该数据集对个性化排序模型进行测试。

与本发明图4所示实施例相对应，本发明实施例还提供了第三种目标数据集生成装置。

图9为本发明实施例提供的第三种目标数据集生成装置的结构示意图，如图9所示，所述装置还包括：判断模块606和设置模块607，其中，

所述判断模块606，用于根据所述搜索日志中的当前一条日志的时间特征、查询词以及用户ID中的一种，判断该条日志是否可用；并在判断结果为是的情况下，触发所述第三获取模块603；在判断结果为否的情况下，触发所述设置模块607；

所述设置模块607，用于将所述当前一条日志的下一条日志设置为当前一条日志，并触发所述判断模块。

应用本发明图9所示实施例，可以将不可用的搜索日志去除，避免了不可用的搜索日志对评测结果的影响，使评测结果更加准确。

与本发明图5所示实施例相对应，本发明实施例还提供了第四种目标数据集生成装置。

图10为本发明实施例提供的第四种目标数据集生成装置的结构示意图，如图10所示，该装置还包括：去重模块608，用于根据所述预设查询词对应文件的时间特征、用户ID以及所述预设查询词对应文件的信息中的一种，对所述搜索日志进行去重处理。

应用本发明图10所示实施例，可以将重复的搜索日志去除，避免了重复的搜索日志对评测结果的影响，使评测结果更加准确。

与本发明图6所示实施例相对应，本发明实施例还提供了第五种目标数据集生成装置。

图11为本发明实施例提供的第五种目标数据集生成装置的结构示意图，如图11所示，该装置还包括：打分模块609、第一排序模块6010、第二排序模块6011和计算模块6012，其中，

所述打分模块609，用于利用预设的排序模型，对所述目标数据集中的每一条数据对应的文件进行打分；

所述第一排序模块6010，用于根据每一查询词对应的文件的分值的大小，对每一查询词对应的文件进行排序，获得第一序列，并计算针对所述第一序列的第一排序表征参数，其中，所述第一排序表征参数至少包括：平均正确率均值和折扣累计增益值中的一种；

所述第二排序模块6011，用于根据用户针对每一查询词对应的文件的播放时长的大小，对每一查询词对应的文件进行排序，获得第二序列，并利用与计算所述第一排序表征参数的方法相同的方法，计算针对所述第二序列的第二排序表征参数；

所述计算模块6012，用于根据所述第一排序表征参数和所述第二排序表征参数，计算所述预设的排序模型的分数。

应用本发明图11所示实施例，可以利用目标数据集对排序模型进行评价，筛选出能够较为真实的模拟用户的点击行为的排序模型。

本发明实施例还提供了一种电子设备，图12为本发明实施例提供的一电子设备的结构示意图，如图12所示，包括处理器1201、通信接口1202、存储器1203和通信总线1204，其中，处理器1201，通信接口1202，存储器1203通过通信总线1204完成相互间的通信，

存储器1203，用于存放计算机程序；

处理器1201，用于执行存储器1203上所存放的程序时，实现如下步骤：

根据所述第一特征和所述相关性值生成目标数据集。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral PomponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

应用本发明图12所示实施例，根据每一条日志对应的文件被播放的时长与预设阈值的对应关系，可以自动确定每一文件的相关性值，进而可以自动生成目标数据集，相对于现有技术中的基于人工确定相关性值生成目标数据集的方法，生成目标数据集的速度更快，从而提高了数据集的生成效率。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的一种目标数据集生成方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的一种目标数据集生成方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读介质、计算机程序实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种目标数据集生成方法，其特征在于，所述方法包括：

根据所述第一特征和所述相关性值生成目标数据集。

2.根据权利要求1所述的方法，其特征在于，在根据所述第一特征和所述相关性值生成目标数据集之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若该条日志可用，执行所述根据预设的该文件被播放的时长与预设阈值的对应关系、以及预设的预设阈值与相关性值的对应关系，获取与所述每一条日志对应的文件的相关性值的步骤；

4.根据权利要求1所述的方法，其特征在于，在针对所述搜索日志中的每一条日志，根据所述每一条日志和与所述每一条日志对应的文件的信息，获取所述每一条日志的第一特征之前，所述方法还包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

6.一种目标数据集生成装置，其特征在于，所述装置包括：第一获取模块、第二获取模块、第三获取模块和生成模块，其中，

7.根据权利要求6所述的装置，其特征在于，所述装置还包括，第四获取模块，用于针对每一用户，根据所述每一用户的搜索日志，获取所述每一用户的第二特征，其中，所述第二特征至少包括：所述每一用户的预设查询词对应的历史检索次数、查询词点击熵、用户ID、视频历史点击率和用户的VIP会员信息中的一种；

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：判断模块和设置模块，其中，

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：去重模块，用于根据所述预设查询词对应文件的时间特征、用户ID以及所述预设查询词对应文件的信息中的一种，对所述搜索日志进行去重处理。

10.根据权利要求6至9任一项所述的装置，其特征在于，所述装置还包括：打分模块、第一排序模块、第二排序模块和计算模块，其中，

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。