CN110889462B

CN110889462B - 一种数据处理方法、装置、设备和存储介质

Info

Publication number: CN110889462B
Application number: CN201911249077.1A
Authority: CN
Inventors: 黄健; 高雅
Original assignee: Miaozhen Information Technology Co Ltd
Current assignee: Miaozhen Information Technology Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2023-05-02
Anticipated expiration: 2039-12-09
Also published as: CN110889462A

Abstract

本申请实施例提供一种数据处理方法、装置、设备和存储介质，所述方法包括：获取待处理数据的多个特征信息；根据所述特征信息，计算所述待处理数据中每个原始样本的影响因子；根据所述影响因子，删掉所述待处理数据中预设数量的目标数据后，生成样本数据。本申请实现了对偏差数据进行采样，得到符合实际数据分布的样本数据。

Description

一种数据处理方法、装置、设备和存储介质

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种数据处理方法、装置、设备和存储介质。

背景技术

在数据采集过程中，不同来源数据的数量和特征都不相同，当某一特征的采集数据量占比远高于其实际占比时，就会出现数据偏斜的问题，不能反映真实的情况。以调查问卷为例，比如来源A的调查问卷所能接触到的人群只能覆盖到青少年，并且来源A的调查问卷的数量占比很高，此时整批调查问卷就会出现数据偏斜的问题，它的趋势并不能反映真实的情况，而会更倾向于青少年人群的趋势。因此需要采取抽样的方式对所有采集到的数据进行处理，使数据符合真实的分布。

常用的抽样方法有分层抽样、随机抽样、整群抽样等。但当数据限制条件较多，即采集数据存在多个造成数据偏斜的特征时，上述抽样方法无法得到一个同时满足所有限制条件的样本。

发明内容

本申请实施例的目的在于提供一种数据处理方法、装置、设备和存储介质，用以实现对偏差数据进行采样，得到符合实际数据分布的样本数据。

本申请实施例第一方面提供了一种数据处理方法，包括：获取待处理数据的多个特征信息；根据所述特征信息，计算所述待处理数据中每个原始样本的影响因子；根据所述影响因子，删掉所述待处理数据中预设数量的目标数据后，生成样本数据。

于一实施例中，所述获取待处理数据的多个特征信息，包括：按照预设规则对所述待处理数据进行特征分析，得到多个所述特征信息；根据多个所述特征信息，对所述待处理数据中的每个原始样本逐一进行特征编码。

于一实施例中，所述根据所述特征信息，计算所述待处理数据中每个原始样本的影响因子，包括：计算每个所述特征信息对应的数据量在所述待处理数据中的第一占比；获取每个所述特征信息对应的数据量在预设场景中的第二占比；计算所述第一占比与所述第二占比之间的差值；根据所述差值计算所述待处理数据中每个原始样本的影响因子。

于一实施例中，采用以下公式计算所述影响因子：

其中，a表示所述原始样本的所述影响因子，d_i表示第i个所述特征信息对应的所述第一占比与所述第二占比之间的差值，x_i表示所述原始样本第i个所述特征信息对应的特征编码，n表示所述特征信息的数量，n为正整数。

于一实施例中，所述根据所述影响因子，删掉所述待处理数据中预设数量的目标数据后，生成样本数据，包括：将所述待处理数据按照所述影响因子从大到小排序；从大到小依次删掉所述待处理数据中预设数量的目标数据后，生成样本数据。

本申请实施例第二方面提供了一种数据处理方法，包括：获取待处理数据的总数据量和预设采样数据量；根据所述总数据量和所述预设采样数据量，分别生成多个迭代次数和多个预设数量，所述预设数量为每次迭代计算中，从所述待处理数据中删掉的目标数据的数量；根据每个所述迭代次数和每个所述预设数量，采用如本申请实施例第一方面及其任一实施例的方法，对所述待处理数据进行迭代计算，得到多个样本数据集；根据多个所述样本数据集，生成数据采样结果。

本申请实施例第三方面提供了一种数据处理装置，包括：第一获取模块，用于获取待处理数据的多个特征信息；计算模块，用于根据所述特征信息，计算所述待处理数据中每个原始样本的影响因子；第一生成模块，用于根据所述影响因子，删掉所述待处理数据中预设数量的目标数据后，生成样本数据。

于一实施例中，所述第一获取模块用于：按照预设规则对所述待处理数据进行特征分析，得到多个所述特征信息；根据多个所述特征信息，对所述待处理数据中的每个原始样本逐一进行特征编码。

于一实施例中，所述计算模块用于：计算每个所述特征信息对应的数据量在所述待处理数据中的第一占比；获取每个所述特征信息对应的数据量在预设场景中的第二占比；计算所述第一占比与所述第二占比之间的差值；根据所述差值计算所述待处理数据中每个原始样本的影响因子。

于一实施例中，采用以下公式计算所述影响因子：

于一实施例中，所述第一生成模块用于：将所述待处理数据按照所述影响因子从大到小排序；从大到小依次删掉所述待处理数据中预设数量的目标数据后，生成样本数据。本申请实施例第四方面提供了一种数据处理装置，包括：第二获取模块，用于获取待处理数据的总数据量和预设采样数据量；第二生成模块，用于根据所述总数据量和所述预设采样数据量，分别生成多个迭代次数和多个预设数量，所述预设数量为每次迭代计算中，从所述待处理数据中删掉的目标数据的数量；迭代模块，用于根据每个所述迭代次数和每个所述预设数量，采用如本申请实施例第一方面及其任一实施例所述的方法，对所述待处理数据进行迭代计算，得到多个样本数据集；第三生成模块，用于根据多个所述样本数据集，生成数据采样结果。

本申请实施例第五方面提供了一种电子设备，包括：存储器，用以存储计算机程序；处理器，用以执行本申请实施例第一方面及其任一实施例的方法。

本申请实施例第六方面提供了一种电子设备，包括：存储器，用以存储计算机程序；处理器，用以执行本申请实施例第二方面及其任一实施例的方法。

本申请实施例第七方面提供了一种非暂态电子设备可读存储介质，包括：程序，当其藉由电子设备运行时，使得所述电子设备执行本申请实施例第一方面及其任一实施例的方法。

本申请实施例第八方面提供了一种非暂态电子设备可读存储介质，包括：程序，当其藉由电子设备运行时，使得所述电子设备执行本申请实施例第二方面及其任一实施例的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例的电子设备的结构示意图；

图2为本申请一实施例的数据处理方法的流程示意图；

图3为本申请一实施例的数据处理方法的流程示意图；

图4为本申请一实施例的电子设备的结构示意图；

图5为本申请一实施例的数据处理方法的流程示意图；

图6为本申请一实施例的步骤590的子步骤的流程示意图；

图7为本申请一实施例的数据处理装置装置的结构示意图；

图8为本申请一实施例的数据处理装置装置的结构示意图。

附图标记：

100-电子设备，110-总线，120-处理器，130-存储器，400-电子设备，410-总线，420-处理器，430-存储器，600-数据处理装置，610-第一获取模块，620-计算模块，630-第一生成模块，700-数据处理装置，710-第二获取模块，720-第二生成模块，730-迭代模块，740-第三生成模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，并不表示排列序号，也不能理解为指示或暗示相对重要性。

请参看图1，其为本申请一实施例的电子设备100的结构示意图，包括至少一个处理器120和存储器130，图1中以一个处理器为例。处理器120和存储器130通过总线110连接，存储器130存储有可被至少一个处理器120执行的指令，指令被至少一个处理器120执行，以使至少一个处理器120执行如下述实施例中的数据处理方法。

如图2所示，其为本申请一实施例的数据处理方法的流程示意图，该方法可由图1所示的电子设备100来执行，以实现对偏差数据进行采样，得到符合实际数据分布的样本数据。该方法包括如下步骤：

步骤210：获取待处理数据的多个特征信息。

在上述步骤中，待处理数据中存在多个可能造成数据偏差，使待处理数据不符合实际数据分布的特征信息，通过对待处理数据进行特征分析，获取这些特征信息。待处理数据中包含了多个原始样本，每个原始样本可能符合多个特征信息中的一个或多个，也可能不符合全部的特征信息。

步骤220：根据特征信息，计算待处理数据中每个原始样本的影响因子。

在上述步骤中，待处理数据中包含了多个原始样本，根据特征信息，计算每个原始样本的影响因子，影响因子的大小表示与该影响因子对应的原始样本对数据偏差的影响大小。

步骤230：根据影响因子，删掉待处理数据中预设数量的目标数据后，生成样本数据。

在上述步骤中，根据影响因子的大小，从待处理数据中删掉预设数量的目标数据，生成样本数据，使样本数据尽可能接近实际数据分布。

如图3所示，其为本申请一实施例的数据处理方法的流程示意图，该方法可由图1所示的电子设备100来执行，以实现对偏差数据进行采样，得到符合实际数据分布的样本数据。该方法包括如下步骤：

步骤310：按照预设规则对待处理数据进行特征分析，得到多个特征信息。

于一实施例中，待处理数据为一批调查结果，获取待处理数据的多个特征信息，包括年龄特征：青少年、中年、老年，学历特征：小学或初中、高中或中专、大专、本科及以上。

步骤320：根据多个特征信息，对待处理数据中的每个原始样本逐一进行特征编码。

在上述步骤中，根据多个特征信息，对待处理数据中的每个原始样本逐一进行特征编码(x₁，x₂，x₃,...,x_n),其中n为正整数，表示特征信息的数量，x_i＝0或1(1≤i≤n)，其中，0表示不符合第i个特征信息，1表示符合第i个特征信息。

于一实施例中，按照青少年、中年、老年、小学或初中、高中或中专、大专、本科及以上的顺序，对每个原始样本逐一进行特征编码，0表示不是，1表示是，一个本科及以上的中年的原始样本，则该原始样本的特征编码为(0,1,0,0,0,0,1)。

步骤330：计算每个特征信息对应的数据量在待处理数据中的第一占比。

在上述步骤中，计算每个特征信息对应的数据量在待处理数据中的第一占比(y₁，y₂，y₃,...,y_n)。

步骤340：获取每个特征信息对应的数据量在预设场景中的第二占比。

在上述步骤中，获取每个特征信息对应的数据量在预设场景中的第二占比(z₁，z₂，z₃,...,z_n)。第二占比表示实际数据分布情况。

步骤350：计算第一占比与第二占比之间的差值。

在上述步骤中，计算第一占比与第二占比之间的差值(y₁-z₁，y₂-z₂，y₃-z₃,...,y_n-z_n)。

步骤360：根据差值计算待处理数据中每个原始样本的影响因子。

在上述步骤中，采用以下公式计算影响因子：

其中，a表示原始样本的影响因子，d_i表示第i个特征信息对应的第一占比与第二占比之间的差值，x_i表示原始样本第i个特征信息对应的特征编码，n表示特征信息的数量，n为正整数。

步骤370：将待处理数据按照影响因子从大到小排序。

步骤380：从大到小依次删掉待处理数据中预设数量的目标数据后，生成样本数据。

在上述步骤中，按照从大到小的顺序依次删除预设数量的目标数据，将待处理数据中删除目标数据后的剩余数据保存为样本数据。

如图4所示，其为本申请一实施例的电子设备400的结构示意图，包括至少一个处理器420和存储器430，图4中以一个处理器为例。处理器420和存储器430通过总线410连接，存储器430存储有可被至少一个处理器420执行的指令，指令被至少一个处理器420执行，以使至少一个处理器420执行如下述实施例中的数据处理方法。

如图5所示，其为本申请一实施例的数据处理方法的流程示意图，该方法可由图4所示的电子设备400来执行。该方法包括如下步骤：

步骤510：获取待处理数据的总数据量和预设采样数据量。

步骤520：根据总数据量和预设采样数据量，分别生成多个迭代次数和多个预设数量。

在上述步骤中，预设数量为每次迭代计算中，从待处理数据中删掉的目标数据的数量。多个迭代次数与多个预设数量一一对应，迭代次数与预设数量的乘积始终等于待处理数据的总数据量与预设采样数据量的差值。迭代次数与预设数量均为正整数。

步骤530：获取待处理数据的多个特征信息。详细参见上述实施例中对步骤210的描述。

步骤540：根据特征信息，计算待处理数据中每个原始样本的影响因子。详细参见上述实施例中对步骤220的描述。

步骤550：根据影响因子，删掉待处理数据中预设数量的目标数据后，生成样本数据。详细参见上述实施例中对步骤230的描述。

步骤560：判断是否达到迭代次数。

在上述步骤中，若未达到迭代次数，则将步骤550中得到的样本数据作为待处理数据，重复执行步骤530至步骤560，若达到迭代次数，则继续执行步骤570。

步骤570：将样本数据保存为样本数据集。

步骤580：根据每个迭代次数和每个预设数量，对待处理数据进行迭代计算，得到多个样本数据集。

在上述步骤中，根据每个迭代次数，和与每个迭代次数对应的预设数量，重复步骤530至步骤570，每执行一次步骤530至步骤570，得到一个样本数据集，直到根据步骤520中生成的多个迭代次数，完成多个如步骤530至步骤570的迭代任务，得到多个样本数据集。

步骤590：根据多个样本数据集，生成数据采样结果。

在上述步骤中，在多个样本数据集中选择最接近实际数据分布的一个样本数据集，保存为数据采样结果。

如图6所示，其为本申请一实施例中步骤590的子步骤流程示意图，步骤590：根据多个样本数据集，生成数据采样结果，包括：

步骤591：获取多个样本数据集的多个特征信息。

步骤592：计算每个特征信息对应的数据量在每个样本数据集中的第三占比。

在上述步骤中，计算每个特征信息对应的数据量在每个样本数据集中的第三占比(w₁，w₂，w₃,...,w_n)，其中n为正整数，表示特征信息的数量。

步骤593：获取每个特征信息对应的数据量在预设场景中的第二占比。

在上述步骤中，获取每个特征信息对应的数据量在预设场景中的第二占比(z₁，z₂，z₃,...,z_n)。

步骤594：计算第二占比与第三占比的欧几里得距离。

在上述步骤中，采用以下公式计算第二占比与第三占比的欧几里得距离：

其中，D表示欧几里得距离，w_i表示第i个特征信息对应的第三占比，z_i表示第i个特征信息对应的第二占比，n表示特征信息的数量，n为正整数。

步骤595：将欧几里得距离最小的样本数据集保存为数据采样结果。

在上述步骤中，根据步骤592至步骤594中得到的多个欧几里得距离，将最小欧几里得距离对应的样本数据集保存为数据采样结果。

在上述实施例中，通过获取待处理数据的总数据量和预设采样数据量，根据总数据量和预设采样数据量，分别生成多个迭代次数和多个预设数量，根据每个迭代次数和每个预设数量，采用获取待处理数据的多个特征信息，计算待处理数据中每个原始样本的影响因子，删掉待处理数据中预设数量的目标数据后，生成样本数据这一方法，对待处理数据进行迭代计算，得到多个样本数据集，根据多个样本数据集，生成数据采样结果。从存在偏斜的待处理数据中采样得到了符合实际数据分布的采样结果，提高了数据的科学性和可靠性，后续对采样结果进行各项统计分析得出的结论才具有参考价值。

于一实施例中，待处理数据为多个广告投放平台的广告监测数据，由于各广告投放平台的渠道、用户群体均有很大差异，因此广告监测数据可能存在偏差，直接以广告监测数据为依据决定的广告投放策略不符合实际，参考价值较低。采用上述实施例中的数据处理方法对广告监测数据进行采样后，得到符合实际数据分布的采样结果，再以采样结果为依据决定的广告投放策略，可以有效提高广告投放策略的参考价值。

如图7所示，其为本申请一实施例的数据处理装置600的结构示意图，该装置可应用于图1所示的电子设备100，包括：第一获取模块610、计算模块620、第一生成模块630。各个模块的原理关系如下：

第一获取模块610，用于获取待处理数据的多个特征信息。

计算模块620，用于根据特征信息，计算待处理数据中每个原始样本的影响因子。

第一生成模块630，用于根据影响因子，删掉待处理数据中预设数量的目标数据后，生成样本数据。

详细内容参见上述实施例中步骤210至步骤230的描述。

于一实施例中，第一获取模块610用于：按照预设规则对待处理数据进行特征分析，得到多个特征信息；根据多个特征信息，对待处理数据中的每个原始样本逐一进行特征编码。详细内容参见上述实施例中步骤310至步骤320的描述。

于一实施例中，计算模块620用于：计算每个特征信息对应的数据量在待处理数据中的第一占比；获取每个特征信息对应的数据量在预设场景中的第二占比；计算第一占比与第二占比之间的差值；根据差值计算待处理数据中每个原始样本的影响因子。详细内容参见上述实施例中步骤330至步骤360的描述。

于一实施例中，第一生成模块630用于：将待处理数据按照影响因子从大到小排序；从大到小依次删掉待处理数据中预设数量的目标数据后，生成样本数据。详细内容参见上述实施例中步骤370至步骤380的描述。

如图8所示，其为本申请一实施例的数据处理装置700的结构示意图，该装置可应用于图4所示的电子设备400，包括：第二获取模块710、第二生成模块720、迭代模块730、第三生成模块740。各个模块的原理关系如下：

第二获取模块710，用于获取待处理数据的总数据量和预设采样数据量。

第二生成模块720，用于根据总数据量和预设采样数据量，分别生成多个迭代次数和多个预设数量，预设数量为每次迭代计算中，从待处理数据中删掉的目标数据的数量。

迭代模块730，用于根据每个迭代次数和每个预设数量，采用如图2、图3中的方法，对待处理数据进行迭代计算，得到多个样本数据集。

第三生成模块740，用于根据多个样本数据集，生成数据采样结果。

上述数据处理装置700的详细描述，请参见上述实施例中相关方法步骤的描述。

于一实施例中，第三生成模块740用于获取多个样本数据集的多个特征信息，计算每个特征信息对应的数据量在每个样本数据集中的第三占比，获取每个特征信息对应的数据量在预设场景中的第二占比，计算第二占比与第三占比的欧几里得距离，将欧几里得距离最小的样本数据集保存为数据采样结果。详细内容参见上述实施例中步骤591至步骤595的描述。

本发明实施例还提供了一种电子设备可读存储介质，包括：程序，当其在电子设备上运行时，使得电子设备可执行上述实施例中方法的全部或部分流程。其中，存储介质可为磁盘、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random AccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等。存储介质还可以包括上述种类的存储器的组合。

以上仅为本申请的优选实施例而已，并不用于限制本申请。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

获取待处理数据的多个特征信息，所述待处理数据为调查问卷数据或广告监测数据，所述特征信息包括年龄特征、学历特征中的至少一种；

根据所述特征信息，计算所述待处理数据中每个原始样本的影响因子；所述影响因子用于表征：与所述影响因子对应的所述原始样本造成数据偏差、使所述待处理数据偏离实际数据分布的情况；

根据所述影响因子，删掉所述待处理数据中预设数量的目标数据后，生成样本数据；

所述获取待处理数据的多个特征信息，包括：

按照预设规则对所述待处理数据进行特征分析，得到多个所述特征信息；

根据多个所述特征信息，对所述待处理数据中的每个原始样本逐一进行特征编码；

所述根据所述特征信息，计算所述待处理数据中每个原始样本的影响因子，包括：

计算每个所述特征信息对应的数据量在所述待处理数据中的第一占比；

获取每个所述特征信息对应的数据量在预设场景中的第二占比；

计算所述第一占比与所述第二占比之间的差值；

根据所述差值计算所述待处理数据中每个原始样本的影响因子；

采用以下公式计算所述影响因子：

2.根据权利要求1所述的方法，其特征在于，所述根据所述影响因子，删掉所述待处理数据中预设数量的目标数据后，生成样本数据，包括：

将所述待处理数据按照所述影响因子从大到小排序；

从大到小依次删掉所述待处理数据中预设数量的目标数据后，生成样本数据。

3.一种数据处理装置，其特征在于，包括：

第一获取模块，用于获取待处理数据的多个特征信息，所述待处理数据为调查问卷数据或广告监测数据，所述特征信息包括年龄特征、学历特征中的至少一种；

计算模块，用于根据所述特征信息，计算所述待处理数据中每个原始样本的影响因子；所述影响因子用于表征：与所述影响因子对应的所述原始样本造成数据偏差、使所述待处理数据偏离实际数据分布的情况；

第一生成模块，用于根据所述影响因子，删掉所述待处理数据中预设数量的目标数据后，生成样本数据；

所述第一获取模块用于：

所述计算模块用于：

计算所述第一占比与所述第二占比之间的差值；

采用以下公式计算所述影响因子：

4.根据权利要求3所述的装置，其特征在于，所述第一生成模块用于：

将所述待处理数据按照所述影响因子从大到小排序；

5.一种电子设备，其特征在于，包括：

存储器，用以存储计算机程序；

处理器，用以执行如权利要求1至2中任一项所述的方法。

6.一种非暂态电子设备可读存储介质，其特征在于，包括：程序，当其藉由电子设备运行时，使得所述电子设备执行权利要求1至2中任一项所述的方法。