CN110427358B

CN110427358B - 数据清洗方法及装置和信息推荐方法及装置

Info

Publication number: CN110427358B
Application number: CN201910132328.1A
Authority: CN
Inventors: 傅有; 李勇; 许阳; 包勇军
Original assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2019-02-22
Filing date: 2019-02-22
Publication date: 2021-04-30
Anticipated expiration: 2039-02-22
Also published as: CN110427358A

Abstract

本公开涉及数据清洗方法及装置和信息推荐方法及装置，涉及数据处理领域。数据清洗方法包括：将数据集按第一属性进行分组，得到至少一个数据子集；根据所述数据子集的第二属性，确定与每个数据子集对应的采样比例；根据一数据的第一属性，确定该数据所在数据子集对应的采样比例；比较所述采样比例和所述数据对应的预设阈值；根据比较结果，确定是否保留所述数据。根据本公开，考虑了数据中存在的由外部因素引入的噪声，减少了噪声数据对模型训练的影响。

Description

数据清洗方法及装置和信息推荐方法及装置

技术领域

本公开涉及数据处理领域，特别涉及数据清洗方法及装置和信息推荐方法及装置、计算机可存储介质。

背景技术

随着电子商务规模的不断扩大，根据不同用户的喜好挖掘生成用户画像，为每位用户提供“千人千面”的个性化推荐内容的能力成为电商网站的核心竞争力。

在个性化推荐的排序阶段，通常要构建模型，提高个性化推荐的准确性。在模型构建的过程中，需要大量的训练数据对模型进行训练。训练数据是否准确、合理成为决定模型效果好坏的关键。在使用训练数据训练模型之前，通常会采用相关的数据清洗技术对训练数据进行预处理。

相关的数据清洗技术关注于重复数据的去除、缺失值和无效值的补全、非法数据的处理等。

发明内容

发明人认为：相关的数据清洗技术关注于重复数据的去除、缺失值和无效值的补全、非法数据的处理，无法减少外部因素引入的噪声对模型训练的影响。

针对上述技术问题，本公开提出了一种解决方案，考虑了数据中存在的由外部因素引入的噪声，减少了噪声数据对模型训练的影响。

根据本公开的第一方面，提供了一种数据清洗方法，包括：将数据集按第一属性进行分组，得到至少一个数据子集；根据所述数据子集的第二属性，确定与每个数据子集对应的采样比例；根据一数据的第一属性，确定该数据所在数据子集对应的采样比例；比较所述采样比例和所述数据对应的预设阈值；根据比较结果，确定是否保留所述数据。

在一些实施例中，所述数据的第二属性为第一值，根据比较结果，确定是否保留所述数据包括：在所述采样比例小于或者等于所述数据对应的预设阈值的情况下，确定保留所述数据。

在一些实施例中，所述第一属性为用户ID；所述第二属性为点击标签。

在一些实施例中，根据所述数据子集的第二属性，确定与每个数据子集对应的采样比例包括：根据第二属性，计算每个数据子集对应的点击率；根据每个数据子集对应的点击率，确定该数据子集对应的采样比例。

在一些实施例中，根据第二属性，计算每个数据子集对应的点击率包括：计算每个数据子集中第二属性为第二值的数据的数量占每个数据子集中的数据总量的比例，作为每个数据子集对应的点击率。

在一些实施例中，根据每个数据子集对应的点击率，确定该数据子集对应的采样比例包括：根据每个数据子集对应的点击率，得到点击率的分布范围；将点击率的分布范围划分为至少一个点击率区间，每个点击率区间对应一个采样比例；根据每个数据子集对应的点击率所在的点击率区间，得到该数据子集对应的采样比例。

在一些实施例中，数据清洗方法还包括：建立采样比例表，所述采样比例表反映每个数据子集的第一属性与采样比例之间的对应关系。

在一些实施例中，根据一数据的第一属性，确定该数据所在数据子集对应的采样比例包括：根据一数据的第一属性，查询所述采样比例表，确定该数据所在数据子集的采样比例。

在一些实施例中，数据集中的每个数据对应一个预设阈值，所述预设阈值为0～1之间服从均匀分布的随机数。

根据本公开的第二方面，提供了一种数据清洗装置，包括：分组模块，被配置为将数据集按第一属性进行分组，得到至少一个数据子集；第一确定模块，被配置为根据所述数据子集的第二属性，确定与每个数据子集对应的采样比例；第二确定模块，被配置为根据一数据的第一属性确定该数据所在数据子集对应的采样比例；比较模块，被配置为比较所述采样比例和所述数据对应的预设阈值。第三确定模块，被配置为根据比较结果，确定是否保留所述数据。

根据本公开的第三方面，提供了一种信息推荐方法，包括：获取用户的标识；使用推荐模型为所述用户推荐信息；其中，使用训练数据训练所述推荐模型；通过上述任一实施例所述的数据清洗方法，得到所述训练数据。

根据本公开的第四方面，提供了一种信息推荐装置，包括：获取模块，被配置为获取用户的标识；推荐模块，被配置为使用推荐模型为所述用户推荐信息；其中，所述推荐模型通过使用训练数据训练得到，所述训练数据通过上述任一实施例所述的数据清洗方法得到。

根据本公开的第五方面，提供了一种信息推荐装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行上述任一实施例所述的数据清洗方法或者信息推荐方法。

根据本公开的第六方面，提供了一种计算机可存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现上述任一实施例所述的数据清洗方法或者信息推荐方法。

在上述实施例中，考虑了数据中存在的由外部因素引入的噪声，减少了噪声数据对模型训练的影响。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1示出根据本公开一些实施例的数据清洗方法的流程图；

图2示出根据本公开一些实施例的确定与每个数据子集对应的采样比例的方法的流程图；

图3示出根据本公开另一些实施例的数据清洗方法的流程图；

图4示出根据本公开一些实施例的数据清洗装置的框图；

图5a示出根据本公开的一些实施例的信息推荐方法的流程图；

图5b示出根据本公开的一些实施例的信息推荐方法的信令图；

图6示出根据本公开的一些实施例的信息推荐装置的框图；

图7示出根据本公开另一些实施例的信息推荐装置的框图；

图8示出用于实现本公开一些实施例的计算机系统的框图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1示出根据本公开一些实施例的数据清洗方法的流程图。

如图1所示，数据清洗方法包括步骤S110～步骤S150。

在步骤S110中，将数据集按第一属性进行分组，得到至少一个数据子集。在一些实施例中，数据集中的每个数据具有多种属性。

例如，在物品信息推送业务场景中，数据集中的每个数据具有用户ID、点击标签、用户属性特征、用户历史行为特征、物品信息属性特征等多种属性。

在一些实施例中，第一属性为用户ID，唯一标识一个用户。例如可以将数据集按用户ID进行分组，得到至少一个数据子集。也就是说，每个用户ID对应一个数据子集，每个数据子集中包含至少一个数据。

在步骤120中，根据数据子集的第二属性，确定与每个数据子集对应的采样比例。

在数据集中，例如可以通过第二属性来区分数据集中的负样本数据和正样本数据。在一些实施例中，第二属性为第一值的数据为负样本数据，第二属性为第二值的数据为正样本数据。第一值、第二值例如可以为1、0或者0、1。

在一些实施例中，第二属性为点击标签。点击标签可用于区分正样本数据和负样本数据。例如，点击标签为1的数据为正样本数据，点击标签为0的数据为负样本数据。

图2示出根据本公开一些实施例的确定与每个数据子集对应的采样比例的方法的流程图。

如图2所示，确定与每个数据子集对应的采样比例包括步骤S121～步骤S122。

在步骤S121中，根据第二属性，计算每个数据子集对应的点击率。在一些实施例中，计算每个数据子集中第二属性为第二值的数据的数量占每个数据子集中的数据总量的比例，作为每个数据子集对应的点击率。

例如，针对每个用户ID对应的数据子集，计算该数据子集中正样本数据的数量占该数据子集中的数据总量(即正样本数据和负样本数据数量之和)的比例，作为每个数据子集对应的用户的点击率。点击率例如可以是用户后验点击率。由此可以得到用户ID、数据子集和点击率三者之间的对应关系。

在步骤S122中，根据每个数据子集对应的点击率，确定该数据子集对应的采样比例。

在一些实施例中，可以通过如下方式确定每个数据子集对应的采样比例。

首先，根据每个数据子集对应的点击率，得到数据集的点击率的分布范围。在一些实施例中，每个数据子集对应一个用户ID，每个数据子集对应的点击率即为每个用户的点击率。

然后，将点击率的分布范围划分为至少一个点击率区间，每个点击率区间对应一个采样比例。

例如，点击率的分布范围在0～0.2之间，以0.01为步长对点击率的分布范围进行划分，得到20个点击率区间。通常，点击率高的用户的点击行为受外部因素的影响小，对应的数据子集的噪声少，数据子集对应的采样比例高。例如可以为20个点击率区间设置从5％到100％的采样比例，以步长5％依次递增，得到点击率区间与采样比例的对应关系，如表1所示。

表1点击率区间与采样比例的对应关系表

最后，根据每个数据子集对应的点击率所在的点击率区间，得到该数据子集对应的采样比例。

返回图1，在步骤S130中，根据一数据的第一属性，确定该数据所在数据子集对应的采样比例。

例如可以根据该数据的用户ID，确定该数据所在的数据子集，进而确定该数据子集对应的采样比例。

在步骤S140中，比较采样比例和该数据对应的预设阈值。

数据集中的每个数据对应一个预设阈值。预设阈值例如可以是0～1之间服从均匀分布的随机数。在一些实施例中，计算机可以直接调用编程语言中对应的函数，得到每个数据的预设阈值。应当理解，预设阈值的获取方式并不限于上述方式。

在步骤S150中，根据比较结果，确定是否保留该数据。

在一些实施例中，该数据的第二属性为第一值。例如，该数据的点击标签为0，即该数据为负样本数据。在采样比例小于或者等于该数据对应的预设阈值的情况下，确定保留该数据。在采样比例大于该数据对应的预设阈值的情况下，确定丢弃该数据。

图3示出根据本公开另一些实施例的数据清洗方法的流程图。

如图3所示，数据清洗方法包括步骤S110～步骤S150。图3与图1的不同之处在于，图3示出了建立采样比例表的步骤S123和根据采样比例表确定数据所在数据子集的采样比例的步骤S130'。下面将仅描述图3与图1的不同之处，相同之处将不再赘述。

在步骤S120确定与每个数据子集对应的采样比例后，在步骤S123中，建立采样比例表，该采样比例表反映每个数据子集的第一属性与采样比例之间的对应关系。

由于数据子集与用户ID一一对应，例如可以将数据子集对应的用户的点击率落在同一个点击率区间的用户ID分为一组，得到至少一个用户组。例如，用户ID为2、4、5的用户的点击率都落在了0～0.01的点击率区间内，则{2,4,5……}为一个用户组。根据如表1所示的点击率区间和采样比例的对应关系，得到每个用户组与采样比例的对应关系。例如，根据表1，点击率区间0～0.01对应的采样比例为10％。根据每个用户组与采样比例的对应关系，得到采样比例表，如表2所示。通过建立采样比例表反映每个数据子集的第一属性与采样比例之间的对应关系的方式，简化了确定该数据所在数据子集的采样比例的过程。

表2采样比例表

用户组(用户ID)	采样比例
		{1，3，6……}	5％
{2，4，5……}	10％
		…	…
{7，9，11……}	100％

在步骤S130'中，根据一数据的第一属性，查询采样比例表，确定该数据所在数据子集的采样比例。

例如，根据该数据的用户ID，查询采样比例表，确定该数据所在数据子集的采样比例。在一些实施例中，对数据集中的每个数据，根据数据的点击标签，确定该数据是正样本数据还是负样本数据。在数据是正样本数据的情况下，直接保留该数据。在数据是负样本数据的情况下，根据该数据的用户ID，查找采样比例表，找到用户ID所在的用户组，从而确定该数据所在数据子集的采样比例。

本公开根据采样比例对数据集进行清洗，考虑了数据中存在的由外部因素引入的噪声，减少了噪声数据对模型训练的影响。

在实际的个性化推荐业务场景下，部分用户的点击行为除了受对推荐的物品信息感兴趣程度影响外，还受到一些外部因素的影响。例如，部分用户习惯性地拒绝点击有某些特定标记的物品信息，即使该物品信息契合其当前兴趣点。在给用户推送物品信息信息的物品信息推送类业务场景中，存在部分用户习惯性地拒绝点击推送消息、没有时间点击、或者在系统设置中关闭了应用推送消息的权限导致没有真正看到物品信息信息等外部影响因素。受这类外部因素影响的部分数据不能真正反映用户对物品信息是否感兴趣，干扰了训练模型学习一般规律，属于数据中的噪声。

在物品信息推送业务等实际场景中采用本公开的数据清洗方法对源数据集进行数据清洗，可以得到训练数据集。训练数据集可以用于物品信息推送业务场景中的排序模型的训练。实验发现，采用本公开的数据清洗方法处理后的训练数据集训练排序模型，相对于使用源数据集训练排序模型，模型AUC(Area Under Curve，曲线下面积)有了明显的提升。实验结果证明了本公开提出的数据清洗方法有效减少了噪声数据对模型训练的影响。

图4示出根据本公开一些实施例的数据清洗装置的框图。

如图4所示，数据清洗装置4包括分组模块41，第一确定模块42、第二确定模块43、比较模块44和第三确定模块45。

分组模块41被配置为将数据集按第一属性进行分组，得到至少一个数据子集，例如执行如图1所示的步骤S110。

第一确定模块42被配置为根据数据子集的第二属性，确定与每个数据子集对应的采样比例，例如执行如图1所示的步骤S120。

在一些实施例中，第一确定模块42包括计算单元421和确定单元422。

计算单元421被配置为根据第二属性计算每个数据子集对应的点击率，例如执行如图2所示的步骤S121。在一些实施例中，计算每个数据子集中第二属性为第二值的数据的数量占每个数据子集中的数据总量的比例，作为每个数据子集对应的点击率。

确定单元422被配置为根据每个数据子集对应的点击率，确定该数据子集对应的采样比例，例如执行如图2所示的步骤S122。

在一些实施例中，可以通过如下方式确定每个数据子集对应的采样比例。首先，根据每个数据子集对应的点击率，得到点击率的分布范围。然后，将点击率的分布范围划分为至少一个点击率区间，每个点击率区间对应一个采样比例。最后，根据每个数据子集对应的点击率所在的点击率区间，得到该数据子集对应的采样比例。

确定单元422确定每个数据子集对应的采样比例后，可以用采样比例表反映数据子集与采样比例的对应关系。在一些实施例中，数据清洗装置4还包括建表模块42T。建表模块42T被配置为建立采样比例表，采样比例表反映每个数据子集的第一属性与采样比例之间的对应关系，例如执行如图3所示的步骤S123。

第二确定模块43，被配置为根据一数据的第一属性确定该数据所在数据子集对应的采样比例，例如执行如图1所示的步骤S130。

在一些实施例中，第二确定模块43包括查询单元431。查询单元431被配置为根据一数据的第一属性，查询得到该数据所在数据子集的采样比例。在另一些实施例中，还可以查询建表模块42T建立的采样比例表，确定该数据所在数据子集的采样比例，例如执行如图3所示的步骤S130'。

比较模块44，被配置为比较所述采样比例和所述数据对应的预设阈值，例如执行如图1所示的步骤S140。

第三确定模块45，被配置为根据比较结果，确定是否保留所述数据，例如执行如图1所示的步骤S150。

图5a示出根据本公开的一些实施例的信息推荐方法的流程图。

如图5所示，信息推荐方法包括步骤S510，获取用户标识；和步骤S520，使用推荐模型为用户推荐信息。信息推荐方法使用训练数据训练推荐模型。训练数据可通过本公开中任意一些实施例中的数据清洗方法得到。

图5b示出根据本公开的一些实施例的信息推荐方法的信令图。

如图5b所示，信息推荐方法包括步骤510-步骤550。

在步骤510中，服务器5S从客户端5C获取用户的行为数据。

在步骤520中，服务器5S使用数据清洗方法清洗用户的行为数据，得到训练数据。数据清洗方法例如可以是本公开中任意一些实施例中的数据清洗方法。

在步骤530中，服务器5S使用训练数据训练推荐模型。

在步骤540中，服务器5S从客户端5C获取用户标识。用户标识用于唯一标识用户身份。

在步骤550中，服务器5S根据用户标识，使用推荐模型为客户端5C的用户推荐信息。

图6示出根据本公开的一些实施例的信息推荐装置的框图。

如图6所示，信息推荐装置6包括获取模块61，被配置为获取用户标识；和推荐模块62，被配置为使用推荐模型为用户推荐信息。推荐模型通过使用训练数据训练得到。训练数据通过本公开中任意一些实施例中的数据清洗方法得到。

图7示出根据本公开另一些实施例的信息推荐装置的框图。

如图7所示，信息推荐装置7包括存储器71以及耦接至该存储器71的处理器72。存储器71用于存储执行数据清洗方法或者信息推荐方法对应实施例的指令。处理器72被配置为基于存储在存储器71中的指令，执行本公开中任意一些实施例中的数据清洗方法或者信息推荐方法。

图8用于实现本公开一些实施例的计算机系统的框图。

如图8所示，计算机系统80可以通用计算设备的形式表现。计算机系统80包括存储器810、处理器820和连接不同系统组件的总线800。

存储器810例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。系统存储器可以包括易失性存储介质，例如随机存取存储器(RAM)和/或高速缓存存储器。非易失性存储介质例如存储有执行信息发送方法和信息接收方法中的至少一种的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。

处理器820可以用通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地，诸如判断模块和确定模块的每个模块，可以通过中央处理器(CPU)运行存储器中执行相应步骤的指令来实现，也可以通过执行相应步骤的专用电路来实现。

总线800可以使用多种总线结构中的任意总线结构。例如，总线结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、外围组件互连(PCI)总线。

计算机系统80还可以包括输入输出接口830、网络接口840、存储接口850等。这些接口830、840、850以及存储器810和处理器820之间可以通过总线800连接。输入输出接口830可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口840为各种联网设备提供连接接口。存储接口840为软盘、U盘、SD卡等外部存储设备提供连接接口。

这里，参照根据本公开实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个框以及各框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可提供到通用计算机、专用计算机或其他可编程装置的处理器，以产生一个机器，使得通过处理器执行指令产生实现在流程图和/或框图中一个或多个框中指定的功能的装置。

这些计算机可读程序指令也可存储在计算机可读存储器中，这些指令使得计算机以特定方式工作，从而产生一个制造品，包括实现在流程图和/或框图中一个或多个框中指定的功能的指令。

本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

通过上述实施例中的数据清洗方法及装置和信息推荐方法及装置，能够对数据进行处理，考虑了数据中存在的由外部因素引入的噪声，减少了噪声数据对模型训练的影响。

至此，已经详细描述了根据本公开的数据清洗方法、装置和计算机可读存储介质。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

Claims

1.一种数据清洗方法，包括：

将数据集按第一属性进行分组，得到至少一个数据子集；

计算每个数据子集中正样本数据的数量占每个数据子集中的数据总量的比例，作为每个数据子集对应的点击率；

根据每个数据子集对应的点击率，确定该数据子集对应的采样比例，包括：

根据每个数据子集对应的点击率，得到点击率的分布范围，

将点击率的分布范围划分为至少一个点击率区间，每个点击率区间对应一个采样比例，点击率区间的点击率越高，该点击率区间所对应的采样比例越高，

根据每个数据子集对应的点击率所在的点击率区间，得到该数据子集对应的采样比例；

根据一负样本数据的第一属性，确定该负样本数据所在数据子集对应的采样比例；

比较所述采样比例和所述负样本数据对应的预设阈值，所述数据集中的每个负样本数据对应一个预设阈值，所述预设阈值为0～1之间服从均匀分布的随机数；

根据比较结果，确定是否保留所述负样本数据。

2.根据权利要求1所述的数据清洗方法，其中，根据比较结果，确定是否保留所述负样本数据包括：

在所述采样比例小于或者等于所述负样本数据对应的预设阈值的情况下，确定保留所述负样本数据。

3.根据权利要求2所述的数据清洗方法，其中，

所述第一属性为用户ID；

正样本数据和负样本数据通过第二属性来区分，所述第二属性为点击标签，第二属性为第一值的数据为负样本数据，第二属性为第二值的数据为正样本数据。

4.根据权利要求1所述的数据清洗方法，还包括：建立采样比例表，所述采样比例表反映每个数据子集的第一属性与采样比例之间的对应关系。

5.根据权利要求4所述的数据清洗方法，其中，根据一负样本数据的第一属性，确定该负样本数据所在数据子集对应的采样比例包括：

根据一负样本数据的第一属性，查询所述采样比例表，确定该负样本数据所在数据子集的采样比例。

6.一种信息推荐方法，包括：

获取用户的标识；

使用推荐模型为所述用户推荐信息；

其中，

使用训练数据训练所述推荐模型；

通过如权利要求1至5任一项所述的数据清洗方法，得到所述训练数据。

7.一种数据清洗装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行如权利要求1至5任一项所述的数据清洗方法。

8.一种信息推荐装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行如权利要求6所述的信息推荐方法。

9.一种计算机可存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现如权利要求1至5任一项所述的数据清洗方法或者如权利要求6所述的信息推荐方法。