CN110619535A

CN110619535A - 一种数据处理方法及其装置

Info

Publication number: CN110619535A
Application number: CN201810630422.5A
Authority: CN
Inventors: 刘诗凯; 张旭; 王佳佳
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-06-19
Filing date: 2018-06-19
Publication date: 2019-12-27
Anticipated expiration: 2038-06-19
Also published as: CN110619535B; WO2019242627A1

Abstract

本申请实施例提供一种数据处理方法及其装置，其中方法可以包括如下步骤：对输入表格数据进行标准化编码，得到第一表格数据，第一表格数据的对象描述特征为数值型对象描述特征；基于第一表格数据，采用生成式对抗网络模型生成第二表格数据，第二表格数据与第一表格数据的相似度达到第一阈值；对第二表格数据进行逆标准化编码，得到输出表格数据，输出表格数据与输入表格数据具有相同的对象描述特征。采用本申请实施例，可以构建非常接近于输入数据的输出数据，即使在脱离数据局点的情况下，也能实现对数据的分析。

Description

一种数据处理方法及其装置

技术领域

本申请实施例涉及数据处理技术领域，具体涉及一种数据处理方法及其装置。

背景技术

随着大数据技术的快速发展，电信运营商也开始越来越多的关注如何将杂乱无章、海量的电信域数据转化为有价值的信息，实现诸如套餐推荐、客户挽留以及基站流量预测等应用。但是由于电信域数据具有如下的特殊性，会给电信域数据分析带来困难。

特殊性一，电信域数据无法带离电信局点，导致在离开电信局点的情况下，无法针对电信域数据构建模型，无法对电信域数据进行分析。特殊性二，特定类型样本数据缺失。特定类型样本数据的缺失会显著影响模型的构建，进而影响数据分析。例如，在离网用户预测应用中，离网用户数量是极少的，这样便导致正负样本数量高度不平衡，进而影响对离网用户的分析。

鉴于上述电信域数据的特殊性，在离开电信局点的情况下，如何对电信域数据进行数据分析是亟待解决的技术问题。

发明内容

本申请实施例所要解决的技术问题在于，提供一种数据处理方法及其装置，可以构建非常接近于输入数据的输出数据，即使在脱离数据局点的情况下，也能实现对数据的分析。

本申请实施例第一方面提供一种数据处理方法，包括：

对输入表格数据进行标准化编码，得到第一表格数据，第一表格数据的对象描述特征为数值型对象描述特征；

基于第一表格数据，采用生成式对抗网络模型生成第二表格数据，第二表格数据与第一表格数据的相似度达到第一阈值；

对第二表格数据进行逆标准化编码，得到输出表格数据，输出表格数据与输入表格数据具有相同的对象描述特征。

本申请实施例第一方面，通过对输入表格数据进行标准化编码，以使标准化编码得到的第一表格数据可以应用生成式对抗网络模型生成第二表格数据，对第二表格数据进行逆标准化编码，以得到与输入表格数据非常接近的输出表格数据，从而实现对输入表格数据的模拟，可直接对输出表格数据进行分析，从而间接实现对输入表格数据的分析，以便在脱离数据局点的情况下，能够快速实现对输入表格数据的分析。

在一种可能的实现方式中，上述输入表格数据为输入数据处理装置的原始表格数据，即为数据局点提供的数据，例如可以为电信局点提供的电信域数据。上述输入表格数据具有一个或多个对象描述特征，对象描述特征用于描述对象所对应的特征，在表格数据中的一个字段即为一个对象描述特征，表格数据中一列对应一个字段，一行对应一个对象，一个对象也可以称为一个样本。

在一种可能的实现方式中，上述对象描述特征具有语义即字段被赋予含义。表格数据不同于多媒体数据，特征除了具有语义的特点之外，还具有不同特征重要性不同，特征不存在时间或空间分布要求的特点。鉴于表格数据具有这些特点，使得表格数据无法直接应用于生成式对抗网络模型，因此本申请实施例需对输入表格数据进行标准化编码。

在一种可能的实现方式中，输入表格数据具有类别型对象描述特征和数值型对象描述特征中的至少一种，类别型对象描述特征对应的特征值为非数值，数值型对象描述特征对应的特征值为数值。换言之，输入表格数据所包括的任意一个对象描述特征可为类别型对象描述特征或数值型对象描述特征，对于不同类型的对象描述特征进行不同的标准化编码。

在一种可能的实现方式中，对于输入表格数据具有类别型对象描述特征的情况，对输入表格数据进行标准化编码的过程为：从输入表格数据中获取类别型对象描述特征对应的特征值，对类别型对象描述特征对应的特征值进行独热编码。

其中，对类别型对象描述特征对应的特征值进行独热编码，即将类别型对象描述特征对应的特征值由非数值编码为数值，以便可以应用于生成式对抗网络模型。

在一种可能的实现方式中，对于输入表格数据具有数值型对象描述特征的情况，对输入表格数据进行标准化编码的过程为：从输入表格数据中获取数值型对象描述特征对应的特征值；对数值型对象描述特征对应的特征值进行归一化编码。

其中，对数值型对象描述特征对应的特征值进行归一化编码，即将所述数值型对象描述特征对应的特征值编码映射至同一数值区间，以便更好地应用于生成式对抗网络模型。

可以理解的是，进行独热编码的目的是将类别型对象描述特征用特定的数值进行表示，进行归一化编码的目的是将数值型对象描述特征对应的数值范围映射到同一个数值区间，使得标准化编码得到的第一表格数据可以应用于生成式对抗网络模型，以便基于第一表格数据可以生成第二表格数据。

在一种可能的实现方式中，在得到输出表格数据的情况下，需对输出表格数据进行检验，检验输入表格数据与输出表格数据之间的相似度。若输入表格数据与输出表格数据的相似度达到第二阈值，则输出该输出表格数据和生成式对抗网络模型；若输入表格数据与输出表格数据的相似度未达到第二阈值，则对生成式对抗网络模型的初始化参数进行调整，以使调整后的输出表格数据与输入表格数据的相似度达到第二阈值。

其中，生成式对抗网络模型的初始化参数可以包括编码器和译码器类别、生成网络和判别网络每一层神经元的个数、生成网络和判别网络的深度、梯度下降的学习速率等。

在一种可能的实现方式中，可通过获取相似度检验条件，根据相似度检验条件，对输入表格数据与输出表格数据的相似度进行检验，以确定输出表格数据是否满足相似度检验条件，从而检验输入表格数据与输出表格数据之间的相似度。

在一种可能的实现方式中，上述相似度检验条件可以包括正负对象数据比例检验条件，根据相似度检验条件，对输入表格数据与输出表格数据的相似度进行检验，具体可包括：统计输入表格数据的正负对象数据比例，统计输出表格数据的正负对象数据比例；判断输入表格数据的正负对象数据比例与输出表格数据的正负对象数据比例之间的差值是否在第一范围内；若输入表格数据的正负对象数据比例与输出表格数据的正负对象数据比例之间的差值在第一范围内，则确定输入表格数据的正负对象数据比例与输出表格数据的正负对象数据比例一致，输出表格数据的正负对象数据比例满足正负对象数据比例检验条件。

可以理解的是，正负对象数据比例检验是一种统计指标检验，统计输入表格数据和输出表格数据的正负对象数据比例，进而确定输出表格数据的正负对象数据比例是否满足正负对象数据比例检验条件，实现简单、方便。

在一种可能的实现方式中，上述相似度检验条件可以包括特征分布检验条件，根据相似度检验条件，对输入表格数据与输出表格数据的相似度进行检验，具体可包括：计算输出表格数据中对象描述特征i相对于输入表格数据中对象描述特征i的相对熵，对象描述特征i为一个或多个对象描述特征中的任意一个对象描述特征；判断相对熵是否在第二范围内；若相对熵在第二范围内，则确定输出表格数据中对象描述特征i的特征分布服从输入表格数据中的对象描述特征i的特征分布，输出表格数据中对象描述特征i的特征分布满足特征分布检验条件。

可以理解的是，特征分布检验是一种信息度指标检验，通过计算某个对象描述特征的相对熵来确定输出表格数据中该对象描述特征的特征分布是否满足特征分布检验条件，实现简单、方便。

在一种可能的实现方式中，上述相似度检验条件包括特征-标签相关性检验条件，根据相似度检验条件，对输入表格数据与输出表格数据的相似度进行检验，具体可包括：计算输入表格数据中对象描述特征j与对象标签的第一互信息，计算输出表格数据中对象描述特征j与对象标签的第二互信息，对象描述特征j为一个或多个对象描述特征中的任意一个对象描述特征；判断第一互信息与第二互信息之间的差值是否在第三范围内；若第一互信息与第二互信息之间的差值在第三范围内，则确定输出表格数据中的对象描述特征j与对象标签之间的相关性满足特征-标签相关性检验条件。

可以理解的是，特征-标签相关性检验是一种信息度指标检验，通过计算某个对象描述特征与对象标签的互信息来确定输出表格数据中该特征与对象标签之间的相关性是否满足特征-标签相关性检验条件，实现简单、方便。

在一种可能的实现方式中，在输入表格数据与输出表格数据的相似度达到第二阈值的情况下，检验输出表格数据与第一输出表格数据的相似度，第一输出表格数据为采用输出的第一生成式对抗网络模型得到的输出表格数据，可以是之前基于输入表格数据，采用第一生成式对抗网络模型得到的输出表格数据，采用目前的输出表格数据来检验之前的第一输出表格数据，从而检验之前的第一生成式对抗网络模型。

若输出表格数据与第一输出表格数据的相似度未达到第二阈值，则对第一生成式对抗网络模型的初始化参数进行调整，以提高第一生成式对抗网络模式的准确性。

若输出表格数据与第一输出表格数据的相似度达到第二阈值，则可以确定第一输出表格数据可用，第一生成式对抗网络模型可用，即可以对第一输出表格数据进行分析，以达到对输入表格数据进行分析的目的。

本申请实施例第二方面提供一种数据处理装置，该数据处理装置具有实现第一方面提供方法的功能。功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的单元。

在一种可能的实现方式中，该数据处理装置包括：编码单元和生成单元，编码单元，用于对输入表格数据进行标准化编码，得到第一表格数据，第一表格数据的对象描述特征为数值型对象描述特征；生成单元，用于基于第一表格数据，采用生成式对抗网络模型生成第二表格数据，第二表格数据与第一表格数据的相似度达到第一阈值；编码单元，还用于对第二表格数据进行逆标准化编码，得到输出表格数据，输出表格数据与输入表格数据具有相同的对象描述特征。

在一种可能的实现方式中，该数据处理装置包括：处理器、收发器和存储器，其中，收发器用于接收和发送信息，存储器中存储计算机执行指令，处理器通过总线与存储器和收发器连接，处理器执行存储器中存储的计算机执行指令，以使该数据处理装置执行以下操作：对输入表格数据进行标准化编码，得到第一表格数据，第一表格数据的对象描述特征为数值型对象描述特征；基于第一表格数据，采用生成式对抗网络模型生成第二表格数据，第二表格数据与第一表格数据的相似度达到第一阈值；对第二表格数据进行逆标准化编码，得到输出表格数据，输出表格数据与输入表格数据具有相同的对象描述特征。

基于同一发明构思，由于该数据处理装置解决问题的原理以及有益效果可以参见第一方面的方法以及所带来的有益效果，因此该数据处理装置的实施可以参见方法的实施，重复之处不再赘述。

本申请实施例第三方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

本申请实施例第四方面提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1是应用本申请实施例的网络架构示意图；

图2是本申请实施例提供的一种数据处理方法的流程示意图；

图3是独热编码的示例图；

图4是归一化编码的示例图；

图5是逆独热编码的示例图；

图6是本申请实施例提供的另一种数据处理方法的流程示意图；

图7是本申请实施例提供的数据处理装置的逻辑结构示意图；

图8是本申请实施例提供的数据处理装置的实体结构简化示意图。

具体实施方式

下面将对本申请实施例涉及的技术用语或名词进行介绍。

(1)表格数据，以表格形式展现的数据，可以是以宽表形式展现的数据，也可以是以窄表形式展现的数据。其中，宽表从字面意义上讲就是字段比较多的数据库表。宽表，通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表。例如，下表1为电信域中的表格数据。

表1

用户名	手机号码	归属地	套餐类型	…
					张三	XXXXXXXXXXX	A地	套餐1	…
李四	XXXXXXXXXXX	B地	套餐2	…
					王五	XXXXXXXXXXX	C地	套餐3	…
…	…	…	…	…

表格数据为表格所展现的所有样本数据，一行即为一个样本，一列即为一个特征。例如，表1中用户名为张三所在一行数据即为一个样本，该样本包括张三的手机号码、该手机号的归属地、该手机号的套餐类型等；表1中归属地、套餐类型等列元素即为特征，A地、B地、套餐1、套餐2等可以称为特征对应的特征值。应用在本申请实施例中，可以将一个样本称为一个对象，将用户名或手机号码等称为对象标识，将归属地、套餐类型等称为对象描述特征。

由表1可知，表格数据可以具有一个或多个对象描述特征，每个对象描述特征具有语义，语义即被赋予含义，换言之，每个对象描述特征具有特定的含义，例如归属地这个对象描述特征用于指示手机号码所属的国家或城市。

表格数据是区别于图像、语音等多媒体数据的一种数据。多媒体数据的特点是不具有语义，图像特征具有相同的重要性，图像特征具有时间或空间的分布要求，并且图像特征都是数值。例如，图像数据中的像素点不具有语义，即不能通过像素点传达特定的信息，只能通过数值来表示这个像素点的值，各个像素点的重要性相同，不同像素点在空间上的分布位置不同。再例如，语音数据，任意两帧语音在时间上分布不同。而表格数据的对象描述特征具有语义，对象描述特征重要性不同，对象描述特征不存在时间或空间分布要求。例如，表1所示的归属地与套餐类型的重要性可以不相同，不存在时间或空间的分布要求，并且归属地、套餐类型等取值并不是用数值表示，而是用文字表示。

应用在本申请实施例中，输入表格数据为输入数据处理装置的原始表格数据，是未通过标准化编码、生成式对抗网络模型以及逆标准化编码处理的表格数据，为真实存在的表格数据，即为数据局点提供的数据。以电信域数据为例，输入表格数据是电信域局点中服务器采集或整理或存储的表格数据。输出表格数据为数据处理装置处理得到的表格数据，是通过标准化编码、生成式对抗网络模型以及逆标准化编码处理的表格数据，为构造的表格数据，并非真实存在的表格数据。可以理解的是，输出表格数据用于模拟输入表格数据，并非真实存在的表格数据。

本申请实施例中的对象描述特征可分为类别型对象描述特征和数值型对象描述特征，例如表1中归属地或套餐类型为类别型对象描述特征，即用文字来描述归属地或套餐类型等信息；用户每个月的话费或每年的话费为数值型对象描述特征，即用数值来描述每月话费或每年话费等信息。换言之，类别型对象描述特征对应的特征值为文字，即非数值，数值型对象描述特征对应的特征值为数值，即具体的数值。

表格数据具有类别型对象描述特征和数值型对象描述特征中的至少一种，即可以是所有的对象描述特征均为类别型对象描述特征，也可以是所以的对象描述特征均为数值型对象描述特征，还可以是一些对象描述特征是类别型对象描述特征，另一些对象描述特征是数值型对象描述特征。

(2)生成式对抗网络(generative adversarial networks，GAN)模型，主要用于在多媒体数据场景，主要包括两个部分，生成器(generator)和判别器(discriminator)。生成器主要用来学习真实的图像分布，生成图像，并使得其生成的图像更加真实，以骗过判别器。判别器则是对接收到的图像进行真假判别。整个流程中，生成器“费尽心机”地让其生成的图像更加接近真实图像，而判别器则努力地识别图像的真假。这就类似于一个二人博弈，随着训练过程的不断进行，生成器和判别器持续对抗，最终达到了一个动态平衡，即生成器生成的图像接近于真实图像分布，而判别器识别不出生成器所生成的图像的真假。

对应真实图像(real image)，判别器给其打的标签为1；对于生成图像(fakeimage)，判别器给其打的标签为0。对于生成器传递给判别器的生成图像，生成器希望判别器打的标签为1，但是判别器不会一开始就给生成图像打标签1，会基于真实图像进行判别，若判别器给生成图像打的标签为0，则生成器对生成图像进行调整，再传递至判别器，直到判别器给其传递的生成图像打的标签为1，那么，此时判别器已分不清生成图像的真假，可以理解的是，此时生成图像非常接近于真实图像，可用生成图像替代真实图像。

GAN模型的数学语言描述可为：假设生成模型是G(z)，其中z是一个随机噪声，而G将这个随机噪声转化为图像x。D是一个判别模型，对于输入图像x，D(x)输出一个0到1范围内的实数，用于判断该图像是一张真实的概率有多大。

本申请实施例将GAN模型应用在表格数据场景中，例如电信域数据场景中，可用于模拟输入表格数据，例如模拟生成电信域数据，以解决无法将电信域数据带离局点的弊端。

(3)标准化编码，可以使得不同对象描述特征对应的数据在同一个范围内对模式施加影响，例如对生成式对抗网络模型施加影响。应用在本申请实施例中，标准化编码可分为独热编码和归一化编码。

独热编码，可以对类别型对象描述特征对应的数据进行编码，可以使得编码后的类别型对象描述特征对应的不同取值之间的距离相等。可以理解的，独热编码可以使得用文字描述的信息转换为用数值进行描述。

归一化编码，可以对数值型对象描述特征对应的数据进行编码，可以规范输入输出，将不同对象描述特征对应的不同取值映射到同一个区间，有利于加快深度学习获得最优的解。可以理解的是，归一化编码使得编码后的数值在同一个区间内。

鉴于多媒体数据与表格数据的不同，以及电信域数据等表格数据的特殊性，本申请实施例提供一种数据处理方法及其装置，可以构建出非常接近于输入表格数据的输出表格数据，即使在脱离数据局点的情况下，也能实现对数据的分析。

下面结合本申请实施例中的附图对本申请实施例进行描述。

请参见图1，为应用本申请实施例的网络架构示意图。图1所示的网络架构示意图包括服务器101和数据处理装置102。

其中，服务器101为数据局点的服务器，负责对数据局点的数据进行采集、归纳、整理、存储，形成表格数据。服务器101所存储的表格数据可以具有隐私性，例如电信域数据，电信域数据的泄露不仅影响用户的日常生活，还会导致用户的经济损失，甚至可能触犯法律法规，鉴于这些表格数据具有隐私性，因此无法将这些表格数据带离数据局点，例如带离电信域局点。

无法将表格数据带离数据局点会给研发人员带来很大的影响，例如研发人员只能在数据局点对表格数据进行分析，那么研发人员往来数据局点与公司之间会存在时间消耗和资金消耗，无法方便、快速地对表格数据进行分析。

服务器101可与数据处理装置102进行通信，例如接收数据处理装置102发送的获取表格数据的请求，向数据处理装置102发送表格数据等。

其中，数据处理装置102为本申请实施例提供的装置，用于执行本申请实施例提供的数据处理方法。

数据处理装置102可以设置在数据局点，可以与服务器101进行通信，例如，数据处理装置102向服务器101发送获取表格数据的请求，接收服务器101向其发送的表格数据等。

需要说明的是，鉴于表格数据的隐私性，数据处理装置102的数据传输有权限，例如禁止将从服务器101获取的表格数据发送至其他网络或禁止数据接口拷贝从服务器101获取的表格数据。

数据处理装置102可设置至少一个生成式对抗网络模型，这些生成式对抗网络模型可通过软件实现。

服务器101与数据处理装置102可以是独立的设备，也可以将数据处理装置102集成在服务器101中，不限定具体实现形式。

请参见图2，为本申请实施例提供的一种数据处理方法的流程示意图，该方法可以包括但不限于:

步骤S201，对输入表格数据进行标准化编码，得到第一表格数据，第一表格数据的对象描述特征为数值型对象描述特征。

在一种可能的实现方式中，数据处理装置102在执行步骤S201之前，从服务器101获取输入表格数据。数据处理装置102可向服务器发送获取输入表格数据的请求，服务器101在接收到该请求的情况下，可对数据处理装置102进行身份验证，即对数据处理装置102的登录账号或装置标识进行身份验证，判断数据处理装置102的登录账号或用户是否有权限获取输入表格数据。服务器101可在数据处理装置102通过身份验证的情况下，向数据处理装置102发送输入表格数据。

数据处理装置102可在请求中携带所需获取的对象数据数量，例如，请求获取1000条对象数据，那么输入表格数据包括1000条对象数据，一条对象数据可以包括一个对象标识以及该对象标识对应的一个或多个对象描述特征，例如电信域数据中，一条对象数据可以包括一个手机号码以及该手机号码对应的归属地、套餐类型、每月话费、每年话费等对象描述特征。

数据处理装置102可在请求中指定获取哪些表格数据，例如，在请求中指定获取手机号码后四位为0000-5000的表格数据；再例如，在请求中指定获取在网年龄10年以上的表格数据。

可以理解的是，输入表格数据为服务器101采集、整理、存储的数据，输入表格数据可以是一个数据集合，包括多条数据，可以是服务器101所存储的全部数据或部分数据，输入表格数据的具体数据条数在本申请实施例中不做限定，视具体情况而定。

其中，输入表格数据中的每条数据具有一个或多个对象描述特征，每个对象描述特征都具有语义。输入表格数据还具有不同特征的重要性不同，每个特征不存在时空分布要求的特点。输入表格数据的特征可以是类别型特征，也可以是数值型特征，具体为哪种特征视具体情况而定。

在一种可能的实现方式中，数据处理装置102在获取到输入表格数据的情况下，可对输入表格数据进行遍历、筛选处理，对筛选后的输入表格数据进行标准化编码。

对于类别型对象描述特征，数据处理装置102查看每个对象对应的类别型对象描述特征是否存在具体的值，即是否存在文字描述，例如某个对象对应的归属地是否为某个具体的城市，若不存在具体的值，例如该对象对应的数据对应的归属地为空，则将该对象对应的数据从输入表格数据中删除。

对于数值型对象描述特征，数据处理装置102同样需查看每个对象对应的数值型对象描述特征是否存在具体的值，即是否存在具体的数值，若不存在具体的数值，则将该对象对应的数据从输入表格数据中删除。对于数值型对象描述特征，数据处理装置102还可以查看每个对象对应的数值型特征对应的具体数值是否为异常值，例如某个对象对应的在网年龄为150年，150年超过在网年龄的上限，可将其视为异常值，数据处理装置102可将该对象对应的数据从输入表格数据中删除。

数据处理装置102在获取到输入表格数据的情况下，对输入表格数据进行筛选处理，可避免缺失值以及异常值等对输出表格数据的影响。

在一种可能的实现方式中，数据处理装置102从输入表格数据中获取类别型对象描述特征对应的特征值，获取数值型对象描述特征对应的特征值，即将类别型对象描述特征对应的特征值与数值型对象描述特征对应的特征值进行区分。若输入表格数据只具有类别型对象描述特征或数值型对象描述特征，则无需进行区分。可以理解的是，在输入表格数据既具有类别型对象描述特征又具有数值型对象描述特征的情况下，将一个输入表格数据拆分为两个表格数据进行标准化编码，一个表格数据包括类别型对象描述特征对应的特征值，另一个表格数据包括数值型对象描述特征对应的特征值。

数据处理装置102针对不同类型的对象描述特征，采用不同方式的标准化编码。

对于类别型对象描述特征对应的特征值，数据处理装置102采用独热(one-hot)编码进行标准化编码。独热码，直观来说就是有多少个状态就有多少比特，而且只有一个比特为1，其他全为0的一种码制。

可参见图3所示的独热编码的示例图，该示例图以电信域数据为例，其中对象标识可以是用户名或手机号码等标识，品牌也可称为套餐类型，全球通、神州行、动感地带等即为品牌这个对象描述特征对应的数据，需要说明的是，图3所示的各个品牌仅用于举例，不构成对本申请实施例的限定。经过独热编码之后，每个对象只在某个字段上取值，且值为1，例如若某个对象对应的品牌为全球通，独热编码之后，在全球通这个字段上取值1，其它字段取值为0。

可以理解的是，类别型对象描述特征对应的特征值经过独热编码之后，在某个字段上取值为1，其余字段取值为0，即用1或0来描述类别型对象描述特征对应的特征值。

对于数值型对象描述特征对应的特征值，数据处理装置102采用归一化编码进行标准化编码。归一化编码的目的将不同对象描述特征的不同特征值映射到同一个数值区间，例如[0,1]或[0,99]等，若为[0,1]，则编码后的取值为0至1范围内的小数；若为[0,99]，则编码后的取值为0至99范围内的整数。

归一化编码可以包括但不限于最小-最大(min-max)标准化编码、标准分数(z-score或standard score)标准化编码、反正切函数(atan)标准化编码等。

可参见图4所示的归一化编码的示例图，该示例图以电信域数据为例，以z-score标准化编码为例，其中年龄可表示用户的实际年龄或用户在网年龄，取值范围为[0,100]；每用户平均收入(average revenue per user，ARPU)值可以表示一个时间段内运营商从每个用户所得到的利润，取值范围为[0,5]。需要说明的是，图4所示的年龄、ARPU值仅用于举例，不构成对本申请实施例的限定。

其中，z-score标准化编码可通过如下公式实现：

x_ij表示对象i在字段j上的取值，表示所有对象在字段j上的平均值，σ_j表示所有对象在字段j上的标准差。对象i即为输入表格数据中的任意一个对象，字段j即为该对象对应的任意一个数值型对象描述特征。

由图4可知，数值型对象描述特征对应的特征值经过归一化编码之后，映射到一个数值区间，该区间可以是[0,1]或[0,99]等。不管有多少个数值型对象描述特征，这些数值型对象描述特征对应的特征值都被映射到同一个数值区间，有利于加快深度学习获得最优的解。

输入表格数据在经过标准化编码之后，可以得到第一表格数据，第一表格数据的对象描述特征为数值型对象描述特征，即第一表格数据不具有类型型对象描述特征。可以理解的是，在输入表格数据只包括类别型对象描述特征的情况下，输入表格数据中各个类别型对象描述特征对应的特征值被编码为数值，或各个类别型对象描述特征被转换为数值型对象描述特征，使得第一表格数据中各个对象描述特征对应的特征值为0或1；在输入表格数据只具有数值型对象描述特征的情况下，第一表格数据中各个数值型对象描述特征对应的特征值的取值范围为一个特定的区间，该区间为[0,1]或[0,99]等；在输入表格数据具有类别型对象描述特征和数值型对象描述特征的情况下，第一表格数据中类别型对象描述特征对应的特征值的取值为0或1，数值型对象描述特征对应的特征值的取值范围为一个特定的区间，为了便于生成式对抗网络模型生成第二表格数据，可将数值型对象描述特征的取值范围设为[0,1]。

步骤S202，基于第一表格数据，采用生成式对抗网络模型生成第二表格数据，第二表格数据与第一表格数据的相似度达到第一阈值。

数据处理装置102在得到第一表格数据的基础上，采用生成式对抗网络模型生成第二表格数据。其中，第二表格数据与第一表格数据的相似度达到第一阈值，第一阈值的具体数值在本申请实施例中不作限定。第二表格数据与第一表格数据的相似度达到第一阈值，即第二表格数据的判决标签为真实标签，换言之，第二表格数据与第一表格数据非常接近，无法判断第二表格数据为构造的数据。生成式对抗网络模型最终生成第二表格数据，即为生成器与判别器相互对抗的结果。

生成式对抗网络模型所包括的生成器可由生成网络实现，判别器可由判别网络实现。

在一种可能的实现方式中，一组随机噪声，通常为高斯噪声，例如该随机噪声为(0.2,0.7,0.6，-0.5,0.1)，该组随机噪声经过生成网络后会变换成一个新的向量，该向量的维度与特征个数相同，例如，上述随机噪声经过生成网络后变换的新的向量为(0.32,0.63,0.89,0.65,0.21,0.69,0.85,0.01,0.36)。生成网络所生成的向量进入判别网络，判别网络根据真实样本，即输入表格数据判断生成网络所生成的向量是否为真。

生成网络中，输入层神经元个数为随机噪声维数加1，输出层神经元个数为对象描述特征个数。判断网络中，输入层神经元个数为对象描述特征个数加1，输出层神经元个数为1。生成网络和判别网络中，网络的种类以及网络层数可由用户根据实际情况设置，例如可根据输入表格数据的条数进行设置等。

在生成式对抗网络模型生成第二表格数据的过程中，可以使用Ada-Grad算法、Dropout以及正则化(regularization)等技术。其中，Ada-Grad是一种改进的随机梯度下降(stochasticgradient descent，SGD)算法，用于求解生成式对抗网络模型。Dropout是一种正则化技术，主要用于防止生成式对抗网络模型过拟合。

可以理解的是，第一表格数据为真实样本，第二表格数据为模拟样本，模拟样本非常接近于真实样本，以致于判别器无法判定模拟样本的真假，那么判别器对第二表格数据所打的判决标签为真实标签。

步骤S203，对第二表格数据进行逆标准化编码，得到输出表格数据，输出表格数据与输入表格数据具有相同的对象描述特征。

在得到第二表格数据之后，数据处理装置102对第二表格数据进行逆标准化编码，得到输出表格数据，输出表格数据与输入表格数据具有相同的对象描述特征。由于第二表格数据非常接近于第一表格数据，那么逆标准化编码得到的输出表格数据非常接近于输入表格数据。

对应地，逆标准化编码可包括逆独热编码和逆归一化编码。

对于逆独热编码，可参见图5，为逆独热编码的示例图，图5中左边所示的表可以为第二表格数据的部分或全部，右边所示的表可以为输出表格数据的部分或全部。由图5可知，数据处理装置102将第二表格数据中每个字段中概率最大的作为该对象最终的类别型对象描述的特征值，例如该对象对应的数据中全球通的概率为0.7，神州行的概率为0.1，动感地带的概率为0.2，数据处理装置102将全球通作为该对象最终的品牌。

对于逆归一化编码，与图4所示的过程相反。

可以理解的是，在不考虑特征值为空或异常的情况下，输出表格数据的对象个数与输入表格数据的对象个数相同；在考虑特征值为空或异常的情况下，输出表格数据的对象个数小于或等于输入表格数据的对象个数。

可以理解的是，虽然输出表格数据非常接近于输入表格数据，但是输出表格数据并不是真实存在的，可以将输出表格数据和生成式对抗网络模型带离数据局点，不会存在泄漏输入表格数据的风险，研发人员可通过对输出表格数据的分析间接实现对输入表格数据的分析，实现即使在脱离数据局点的情况下，也能对数据进行分析，从而可以减少分析耗时。

由于表格数据的特点及特殊性，无法直接应用生成式对抗网络模型，因此本申请实施例对输入表格数据进行标准化编码，以使标准化编码得到的第一表格数据可以应用生成式对抗网络模型生成第二表格数据，对第二表格数据进行逆标准化编码，以得到与输入表格数据非常接近的输出表格数据，从而实现对输入表格数据的模拟，可直接对输出表格数据进行分析，从而间接实现对输入表格数据的分析，以便在脱离数据局点的情况下，能够快速实现对输入表格数据的分析。

请参见图6，为本申请实施例提供的另一种数据处理方法的流程示意图，该方法可以包括但不限于如下步骤：

步骤S601，对输入表格数据进行标准化编码，得到第一表格数据，第一表格数据的对象描述特征为数值型对象描述特征。

步骤S602，基于第一表格数据，采用生成式对抗网络模型生成第二表格数据，第二表格数据与第一表格数据的相似度达到第一阈值。

步骤S603，对第二表格数据进行逆标准化编码，得到输出表格数据，输出表格数据与输入表格数据具有相同的对象描述特征。

步骤S601-步骤S603的具体实现过程可参见图2所示实施例中步骤S201-步骤S203的具体描述，在此不再赘述。

步骤S604，检验输入表格数据与输出表格数据的相似度。

数据处理装置102可通过获取相似度检验条件，根据相似度检验条件，来对输入表格数据与输出表格数据的相似度进行检验，以确定输出表格数据是否满足相似度检验条件。

步骤S605，若输入表格数据与输出表格数据的相似度达到第二阈值，则输出生成式对抗网络模型和输出表格数据。

步骤S606，若输入表格数据与输出表格数据的相似度未达到第二阈值，则对生成式对抗网络模型的初始化参数进行调整，以使调整后的输出表格数据与输入表格数据的相似度达到第二阈值。

目前，通常采用最佳分类器来检验模拟样本的正确性，但是不同分类器适用于不同的场景，为了在不同场景下选择最佳的分类器，需要耗费较长的时间进行选择。鉴于此，本申请实施例直接根据输入表格数据和输出表格数据的统计指标与信息度量指标来检验输出表格数据的正确性，而无需分类器的参与。

其中，统计指标可以是正负对象数据比例，信息度量指标可以是特征分布，也可以是特征相关性。

在一种可能的实现方式中，数据处理装置102可以根据统计指标和信息度量指标来设置相似度检验条件，该相似度检验条件可以预置在数据处理装置102。该相似度检验条件可以包括正负对象数据比例条件、特征分布检验条件和特征-标签相关性检验条件中的至少一种。

上述正负对象数据比例检验条件可以为输入表格数据的正负对象数据比例与输出表格数据的正负对象数据比例之间的差值在第一范围内。其中，第一范围的具体范围数值在本申请实施例中不做限定，可视具体情况而定。

数据处理装置102统计输入表格数据的正负对象数据比例，以及统计输出表格数据的正负对象数据比例。以电信域数据为例，若某个对象对应的数据可以指示该对象标识A为在线用户，则可以将该对象对应的数据作为正对象数据；若某个对象对应的数据可以指示该对象标识B为离线用户，则可以将该对象对应的数据作为负对象数据。

若输入表格数据的正负对象数据比例与输出表格数据的正负对象数据比例之间的差值在第一范围内，则数据处理装置102可以确定输出表格数据的正负对象数据比例与输出表格数据的正负对象数据比例一致，还可以确定输出表格数据的正负对象数据比例满足正负对象数据比例检验条件。例如，输入表格数据的正负对象数据比例为4:1，输出表格数据的正负对象数据比例为16:5，两者之间的差在第一范围内。

若输出表格数据的正负对象数据比例不满足正负对象数据比例检验条件，则数据处理装置102对生成式对抗网络模型的初始化参数进行调整，以使调整后的输出表格数据的正负对象数据比例满足正负对象数据比例验证条件，即通过调整后的生成式对抗网络模型生成调整后的第二表格数据，对调整后的第二表格数据进行逆标准化编码得到调整后的输出表格数据，调整后的输出表格数据的正负对象数据比例满足正负对象数据比例验证条件。

其中，生成式对抗网络模型的初始化参数可以包括编码器和译码器类别、生成网络和判别网络每一层神经元的个数、生成网络和判别网络的深度、梯度下降的学习速率等。除了对生成式对抗网络模块的初始化参数进行调整外，还可以为生成式对抗网络模型添加批标准化(batch normalization)以及残差网络等，以使调整后的输出表格数据的正负对象数据比例满足正负对象数据比例验证条件。其中，batch normalization是一种自适应的重参数化方法，可以加速训练收敛速度。

上述特征分布检验条件可以为输出表格数据中对象描述特征i的特征分布服从输入表格数据中的对象描述特征i的特征分布，对象描述特征i为输入表格数据所具有的一个或多个对象描述特征中的任意一个对象描述特征。

数据处理装置102计算输出表格数据中对象描述特征i相对于输入表格数据中对象描述特征i的相对熵，若该相对熵在第二范围内，则确定输出表格数据中对象描述特征i的特征分布服从输入表格数据中的对象描述特征i的特征分布，输出表格数据中对象描述特征i的特征分布满足特征分布检验条件。其中，第二范围的具体范围数值在本申请实施例中不做限定，可视具体情况而定。

数据处理装置102可按照如下公式计算相对熵

表示输入表格数据中对象描述特征i对应的对象数据比例相对于输出表格数据中对象描述特征i对应的对象数据比例的相对熵。

若输出表格数据中对象描述特征i的特征分布不满足特征分布检验条件，则对生成式对抗网络模型的初始化参数进行调整，以使调整后的输出表格数据中对象描述特征i的特征分布满足特征分布检验条件。

上述特征-标签相关性检验条件可以为输出表格数据中的对象描述特征j与对象标签之间具有强相关性，对象描述特征j为输入表格数据所具有的一个或多个对象描述特征中的任意一个对象描述特征，对象标签用于指示对象数据状态，以电信域数据为例，对象标签可以指示在线或离网这两种状态。

数据处理装置102计算输入表格数据中对象描述特征j与对象标签的第一互信息，计算输出表格数据中对象描述特征j与对象标签的第二互信息，若第一互信息与第二互信息之间的差值在第三范围内，则确定输出表格数据中的对象描述特征j与对象标签之间的相关性满足特征-标签相关性检验条件。

数据处理装置102可按照如下公式计算互信息：

若输出表格数据中的对象描述特征j与对象标签之间的相关性不满足特征-标签相关性检验条件，则对生成式对抗网络模型的初始化参数进行调整，以使调整后的输出表格数据中的对象描述特征j与对象标签之间的相关性满足特征-标签相关性检验条件。

在一种可能的实现方式中，数据处理装置102可配置多个生成式对抗网络模型，例如两个生成式对抗网络模型，通过生成式对抗网络模型1可得到输出表格数据1，通过生成式对抗网络模型2可得到输出表格数据2。数据处理装置102可对输出表格数据1和输出表格数据2进行验证，从中选择与输入表格数据最接近的输出表格数据。

针对正负对象数据比例检验，假设输入表格数据的正负对象数据比例为4:1，输出表格数据1的正负对象数据比例为16:5，输出表格数据1的正负对象数据比例为16:7，可见4:1与16:5之间的差值小于4:1与16:7，那么输出表格数据1的正负对象数据比例更接近输入表格数据的正负对象数据比例，可选择对输出表格数据1进行分析。

针对特征分布检验，假设输入表格数据中对象描述特征i存在5种不同的取值(0,1,2,3,4)，对应的对象数据比例分别为输出表格数据1中对象描述特征i对应的对象数据比例分别为输出表格数据2中对象描述特征i对应的对象数据比例分别为按照上述相对熵公式可得，相对于的相对熵为0.139，相对于的相对熵为0.246，由此可见，相对于的相对熵更小，输出表格数据1中对象描述特征i的特征分布更加服从输入表格数据中的对象描述特征i的特征分布，可选择对输出表格数据1进行分析。

针对特征-标签相关性检验，假设输入表格数据中对象描述特征j存在两种不同的取值，对象标签也存在两种不同的取值，以电信域数据为例，对象标签可以是在线或离网这两种取值，那么输入表格数据中对象描述特征j在(0,0)，(0,1)，(1,0)，(1,1)上分别出现的次数为(100,200,50,100)。输出表格数据1和输出表格数据2中的对象描述特征j在上述四种组合上分别出现的次数为(90,180,60,120)和(80,170,70,130)。输入表格数据以及两种输出表格数据分别对应的互信息为-2749.16，-2749.16和-2748.94。由此可见，(90,180,60,120)与标签之间的相关性与真实对象(100,200,50,100)与标签之间的相关度更加接近，即(|-2749.16-(-2749.16)|＜|-2749.16-(-2748.94)|)，可选择对输出表格数据1进行分析。

在输出表格数据满足相似度检验条件的情况下，可认为输入表格数据与输出表格数据的相似度达到第二阈值，第二阈值的具体数值在本申请实施例中不作限定。第二阈值与第一阈值可以为不同的数值，也可以为相同的数值。

在输出表格数据满足相似度检验条件的情况下，数据处理装置102可输出该输出表格数据和该生成式对抗网络模型，即可以将输出表格数据和生成式对抗网络模型带离数据局点。将输出表格数据带离数据局点，以便在脱离数据局点的情况下，可以对输出表格数据进行分析，间接实现对输入表格数据的分析。将生成式对抗网络模型带离数据局点，可以对该生成式对抗网络模型进行研究。

在一种可能的实现方式中，数据处理装置102在输入表格数据与输出表格数据的相似度达到第二阈值的情况下，可根据输出表格数据对第一生成式对抗网络模型进行检验，以确定第一输出表格数据是否满足检验条件，即检验第一输出表格数据与输出表格数据之间的相似度。其中，第一输出表格数据为采用第一生成式对抗网络模型得到的输出表格数据。具体检验方法可参考对输出表格数据的检验。若第一输出表格数据不满足相似度检验条件，则根据输出表格数据对第一生成式对抗网络模型的初始化参数进行调整。

可以理解的是，第一输出表格数据可以是数据处理装置102之前基于输入表格数据，采用第一生成式对抗网络模型得到的输出表格数据。数据处理装置102根据当前得到的输出表格数据对之前的生成式对抗网络模型的初始化参数进行调整。

上述详细阐述了本申请实施例提供的方法，下面将对本申请实施例提供装置进行介绍。

请参见图7，是本申请实施例提供的数据处理装置的逻辑结构示意图，该数据处理装置70可以包括编码单元701和生成单元702。

编码单元701，用于对输入表格数据进行标准化编码，得到第一表格数据，第一表格数据的对象描述特征为数值型描述特征；

生成单元702，用于基于第一表格数据，采用生成式对抗网络模型生成第二表格数据，第二表格数据与第一表格数据的相似度达到第一阈值；

编码单元701，还用于对第二表格数据进行逆标准化编码，输出表格数据与输入表格数据具有相同的对象描述特征。

需要说明的是，上述编码单元701用于执行图2所示实施例中的步骤S201和步骤S203，上述生成单元702用于执行图2所示实施例中的步骤S202，具体可参见图2所示实施例的具体描述，在此不再赘述。

其中，输入表格数据具有一个或多个对象描述特征。对象描述特征具有语义。

其中，输入表格数据具有类别型对象描述特征和数值型对象描述特征中的至少一种，类别型对象描述特征对应的特征值为非数值，数值型对象描述特征对应的特征值为数值。

在一种可能的实现方式中，输入表格数据具有类别型对象描述特征；编码单元701用于对输入表格数据进行标准编码时，具体用于从输入表格数据中获取类别型对象描述特征对应的特征值；对类别型对象描述特征对应的特征值进行独热编码。

编码单元701用于对类别型对象描述特征对应的特征值进行独热编码时，具体用于将类别型对象描述特征对应的特征值由非数值编码为数值。

在一种可能的实现方式中，输入表格数据具有数值型对象描述特征；编码单元701用于对输入表格数据进行标准编码时，具体用于从输入表格数据中获取数值型对象描述特征对应的特征值；对数值型对象描述特征对应的特征值进行归一化编码。

编码单元701用于对数值型对象描述特征对应的特征值进行归一化编码时，具体用于将数值型对象描述特征对应的特征值编码映射至同一数值区间。

在一种可能的实现方式中，该数据处理装置70还包括检验单元703、输出单元704和调整单元705。

检验单元703，用于检验输入表格数据与输出表格数据的相似度；

输出单元704，用于若输入表格数据与输出表格数据的相似度达到第二阈值，则输出生成式对抗网络模型和输出表格数据；

调整单元705，用于若输入表格数据与输出表格数据的相似度未达到第二阈值，则对生成式对抗网络模型的初始化参数进行调整，以使调整后的输出表格数据与输入表格数据的相似度达到第二阈值。

在一种可能的实现方式中，检验单元703用于检验输入表格数据与输出表格数据的相似度时，具体用于获取相似度检验条件；根据相似度检验条件，对输入表格数据与输出表格数据的相似度进行检验，以确定输出表格数据是否满足相似度检验条件。

在一种可能的实现方式中，相似度检验条件包括正负对象数据比例检验条件；检验单元703用于根据相似度检验条件，对输入表格数据与输出表格数据的相似度进行检验时，具体用于统计输入表格数据的正负对象数据比例，统计输出表格数据的正负对象数据比例；判断输入表格数据的正负对象数据比例与输出表格数据的正负对象数据比例之间的差值是否在第一范围内；若输入表格数据的正负对象数据比例与输出表格数据的正负对象数据比例之间的差值在第一范围内，则确定输入表格数据的正负对象数据比例与输出表格数据的正负对象数据比例一致，输出表格数据的正负对象数据比例满足正负对象数据比例检验条件。

在一种可能的实现方式中，相似度检验条件包括特征分布检验条件；检验单元703用于根据相似度检验条件，对输入表格数据与输出表格数据的相似度进行检验时，具体用于计算输出表格数据中对象描述特征i相对于输入表格数据中对象描述特征i的相对熵，对象描述特征i为一个或多个对象描述特征中的任意一个对象描述特征；判断相对熵是否在第二范围内；若相对熵在第二范围内，则确定输出表格数据中对象描述特征i的特征分布服从输入表格数据中的对象描述特征i的特征分布，输出表格数据中对象描述特征i的特征分布满足特征分布检验条件。

在一种可能的实现方式中，相似度检验条件包括特征-标签相关性检验条件；检验单元703用于根据相似度检验条件，对输入表格数据与输出表格数据的相似度进行检验时，具体用于计算输入表格数据中对象描述特征j与对象标签的第一互信息，计算输出表格数据中对象描述特征j与对象标签的第二互信息，对象描述特征j为一个或多个对象描述特征中的任意一个对象描述特征；判断第一互信息与第二互信息之间的差值是否在第三范围内；若第一互信息与第二互信息之间的差值在第三范围内，则确定输出表格数据中的对象描述特征j与对象标签之间的相关性满足特征-标签相关性检验条件。

在一种可能的实现方式中，检验单元703，还用于在输入表格数据与输出表格数据的相似度达到第二阈值的情况下，检验输出表格数据与第一输出表格数据的相似度，第一输出表格数据为采用输出的第一生成式对抗网络模型得到的输出表格数据；

调整单元705，还用于若输出表格数据与第一输出表格数据的相似度未达到第二阈值，则对第一生成式对抗网络模型的初始化参数进行调整。

该数据处理装置70可以实现前述方法实施例中数据处理装置的功能，该数据处理装置70中各个单元执行详细过程可以参见前述方法实施例数据处理装置的执行步骤，此处不在赘述。

请参见图8，为本申请实施例提供的数据处理装置的实体结构简化示意图，该数据处理装置80包括收发器801、处理器802和存储器803。收发器801、处理器802和存储器803可以通过总线804相互连接，也可以通过其它方式相连接。图7所示的编码单元701、生成单元702、检验单元703和调整单元704所实现的相关功能可以通过处理器802来实现。

收发器801用于发送数据和/或信令，以及接收数据和/或信令。应用在本申请实施例中，收发器801用于与服务器进行通信，从服务器获取输入表格数据等。

处理器802可以包括是一个或多个处理器，例如包括一个或多个中央处理器(central processing unit，CPU)，在处理器802是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。应用在本申请实施例中，处理器802用于执行图2所示实施例中的步骤S201-步骤S203，还用于执行图6所示实施例中的步骤S601-步骤S606。

存储器803包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmableread only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器803用于相关指令及数据。存储器803用于存储数据处理装置80的程序代码和数据。

可以理解的是，图8仅仅示出了数据处理装置的简化设计。在实际应用中，数据处理装置还可以分别包含必要的其他元件，包含但不限于任意数量的收发器、处理器、控制器、存储器、通信单元等，而所有可以实现本申请的装置都在本申请的保护范围之内。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。因此，本申请又一实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本申请又一实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本领域普通技术人员可以意识到，结合本申请中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

Claims

1.一种数据处理方法，其特征在于，包括：

对输入表格数据进行标准化编码，得到第一表格数据，所述第一表格数据的对象描述特征为数值型对象描述特征；

基于所述第一表格数据，采用生成式对抗网络模型生成第二表格数据，所述第二表格数据与所述第一表格数据的相似度达到第一阈值；

对所述第二表格数据进行逆标准化编码，得到输出表格数据，所述输出表格数据与所述输入表格数据具有相同的对象描述特征。

2.根据权利要求1所述的方法，其特征在于，所述输入表格数据具有一个或多个对象描述特征。

3.根据权利要求2所述的方法，其特征在于，所述对象描述特征具有语义。

4.根据权利要求1所述的方法，其特征在于，所述输入表格数据具有类别型对象描述特征和所述数值型对象描述特征中的至少一种，所述类别型对象描述特征对应的特征值为非数值，所述数值型对象描述特征对应的特征值为数值。

5.根据权利要求4所述的方法，其特征在于，所述输入表格数据具有所述类别型对象描述特征；

所述对输入表格数据进行标准化编码，包括：

从所述输入表格数据中获取所述类别型对象描述特征对应的特征值；

对所述类别型对象描述特征对应的特征值进行独热编码。

6.根据权利要求5所述的方法，其特征在于，所述对所述类别型对象描述特征对应的特征值进行独热编码，包括：

将所述类别型对象描述特征对应的特征值由非数值编码为数值。

7.根据权利要求4所述的方法，其特征在于，所述输入表格数据具有所述数值型对象描述特征；

所述对输入表格数据进行标准化编码，包括：

从所述输入表格数据中获取所述数值型对象描述特征对应的特征值；

对所述数值型对象描述特征对应的特征值进行归一化编码。

8.根据权利要求7所述的方法，其特征在于，所述对所述数值型对象描述特征对应的特征值进行归一化编码，包括：

将所述数值型对象描述特征对应的特征值编码映射至同一数值区间。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述方法还包括：

检验所述输入表格数据与所述输出表格数据的相似度；

若所述输入表格数据与所述输出表格数据的相似度达到第二阈值，则输出所述生成式对抗网络模型和所述输出表格数据；

若所述输入表格数据与所述输出表格数据的相似度未达到第二阈值，则对所述生成式对抗网络模型的初始化参数进行调整，以使调整后的所述输出表格数据与所述输入表格数据的相似度达到所述第二阈值。

10.根据权利要求9所述的方法，其特征在于，所述检验所述输入表格数据与所述输出表格数据的相似度，包括：

获取相似度检验条件；

根据所述相似度检验条件，对所述输入表格数据与所述输出表格数据的相似度进行检验，以确定所述输出表格数据是否满足所述相似度检验条件。

11.根据权利要求10所述的方法，其特征在于，所述相似度检验条件包括正负对象数据比例检验条件；

所述根据所述相似度检验条件，对所述输入表格数据与所述输出表格数据的相似度进行检验，包括：

统计所述输入表格数据的正负对象数据比例，统计所述输出表格数据的正负对象数据比例；

判断所述输入表格数据的正负对象数据比例与所述输出表格数据的正负对象数据比例之间的差值是否在第一范围内；

若所述输入表格数据的正负对象数据比例与所述输出表格数据的正负对象数据比例之间的差值在所述第一范围内，则确定所述输入表格数据的正负对象数据比例与所述输出表格数据的正负对象数据比例一致，所述输出表格数据的正负对象数据比例满足所述正负对象数据比例检验条件。

12.根据权利要求10所述的方法，其特征在于，所述相似度检验条件包括特征分布检验条件；

计算所述输出表格数据中对象描述特征i相对于所述输入表格数据中对象描述特征i的相对熵，所述对象描述特征i为所述一个或多个对象描述特征中的任意一个对象描述特征；

判断所述相对熵是否在第二范围内；

若所述相对熵在所述第二范围内，则确定所述输出表格数据中所述对象描述特征i的特征分布服从所述输入表格数据中的所述对象描述特征i的特征分布，所述输出表格数据中所述对象描述特征i的特征分布满足所述特征分布检验条件。

13.根据权利要求10所述的方法，其特征在于，所述相似度检验条件包括特征-标签相关性检验条件；

计算所述输入表格数据中对象描述特征j与对象标签的第一互信息，计算所述输出表格数据中对象描述特征j与所述对象标签的第二互信息，所述对象描述特征j为所述一个或多个对象描述特征中的任意一个对象描述特征；

判断所述第一互信息与所述第二互信息之间的差值是否在第三范围内；

若所述第一互信息与所述第二互信息之间的差值在所述第三范围内，则确定所述输出表格数据中的所述对象描述特征j与所述对象标签之间的相关性满足所述特征-标签相关性检验条件。

14.根据权利要求9所述的方法，其特征在于，所述方法还包括：

在所述输入表格数据与所述输出表格数据的相似度达到所述第二阈值的情况下，检验所述输出表格数据与所述第一输出表格数据的相似度，所述第一输出表格数据为采用输出的第一生成式对抗网络模型得到的输出表格数据；

若所述输出表格数据与所述第一输出表格数据的相似度未达到所述第二阈值，则对所述第一生成式对抗网络模型的初始化参数进行调整。

15.一种数据处理装置，其特征在于，包括：

编码单元，用于对输入表格数据进行标准编码，得到第一表格数据，所述第一表格数据的对象描述特征为数值型描述特征；

生成单元，基于所述第一表格数据，采用生成式对抗网络模型生成第二表格数据，所述第二表格数据与所述第一表格数据的相似度达到第一阈值；

所述编码单元，还用于对所述第二表格数据进行逆标准化编码，得到输出表格数据，所述输出表格数据与所述输入表格数据具有相同的对象描述特征。

16.根据权利要求15所述的数据处理装置，其特征在于，所述输入表格数据具有一个或多个对象描述特征。

17.根据权利要求16所述的数据处理装置，其特征在于，所述对象描述特征具有语义。

18.根据权利要求15所述的数据处理装置，其特征在于，所述输入表格数据具有类别型对象描述特征和所述数值型对象描述特征中的至少一种，所述类别型对象描述特征对应的特征值为非数值，所述数值型对象描述特征对应的特征值为数值。

19.根据权利要求18所述的数据处理装置，其特征在于，所述输入表格数据具有所述类别型对象描述特征；

所述编码单元用于对输入表格数据进行标准编码时，具体用于从所述输入表格数据中获取所述类别型对象描述特征对应的特征值；对所述类别型对象描述特征对应的特征值进行独热编码。

20.根据权利要求19所述的数据处理装置，其特征在于，所述编码单元用于对所述类别型对象描述特征对应的特征值进行独热编码时，具体用于将所述类别型对象描述特征对应的特征值由非数值编码为数值。

21.根据权利要求18所述的数据处理装置，其特征在于，所述输入表格数据具有所述数值型对象描述特征；

所述编码单元用于对输入表格数据进行标准编码时，具体用于从所述输入表格数据中获取所述数值型对象描述特征对应的特征值；对所述数值型对象描述特征对应的特征值进行归一化编码。

22.根据权利要求21所述的数据处理装置，其特征在于，所述编码单元用于对所述数值型对象描述特征对应的特征值进行归一化编码时，具体用于将所述数值型对象描述特征对应的特征值编码映射至同一数值区间。

23.根据权利要求15-22任一项所述的数据处理装置，其特征在于，所述数据处理装置还包括：

检验单元，用于检验所述输入表格数据与所述输出表格数据的相似度；

输出单元，用于若所述输入表格数据与所述输出表格数据的相似度达到第二阈值，则输出所述生成式对抗网络模型和所述输出表格数据；

调整单元，用于若所述输入表格数据与所述输出表格数据的相似度未达到第二阈值，则对所述生成式对抗网络模型的初始化参数进行调整，以使调整后的所述输出表格数据与所述输入表格数据的相似度达到所述第二阈值。

24.根据权利要求23所述的数据处理装置，其特征在于，所述检验单元用于检验所述输入表格数据与所述输出表格数据的相似度时，具体用于获取相似度检验条件；

25.根据权利要求24所述的数据处理装置，其特征在于，所述相似度检验条件包括正负对象数据比例检验条件；

所述检验单元用于根据所述相似度检验条件，对所述输入表格数据与所述输出表格数据的相似度进行检验时，具体用于统计所述输入表格数据的正负对象数据比例，统计所述输出表格数据的正负对象数据比例；判断所述输入表格数据的正负对象数据比例与所述输出表格数据的正负对象数据比例之间的差值是否在第一范围内；若所述输入表格数据的正负对象数据比例与所述输出表格数据的正负对象数据比例之间的差值在所述第一范围内，则确定所述输入表格数据的正负对象数据比例与所述输出表格数据的正负对象数据比例一致，所述输出表格数据的正负对象数据比例满足所述正负对象数据比例检验条件。

26.根据权利要求24所述的数据处理装置，其特征在于，所述相似度检验条件包括特征分布检验条件；

所述检验单元用于根据所述相似度检验条件，对所述输入表格数据与所述输出表格数据的相似度进行检验时，具体用于计算所述输出表格数据中对象描述特征i相对于所述输入表格数据中对象描述特征i的相对熵，所述对象描述特征i为所述一个或多个对象描述特征中的任意一个对象描述特征；判断所述相对熵是否在第二范围内；若所述相对熵在所述第二范围内，则确定所述输出表格数据中所述对象描述特征i的特征分布服从所述输入表格数据中的所述对象描述特征i的特征分布，所述输出表格数据中所述对象描述特征i的特征分布满足所述特征分布检验条件。

27.根据权利要求24所述的数据处理装置，其特征在于，所述相似度检验条件包括特征-标签相关性检验条件；

所述检验单元用于根据所述相似度检验条件，对所述输入表格数据与所述输出表格数据的相似度进行检验时，具体用于计算所述输入表格数据中对象描述特征j与对象标签的第一互信息，计算所述输出表格数据中对象描述特征j与所述对象标签的第二互信息，所述对象描述特征j为所述一个或多个对象描述特征中的任意一个对象描述特征；判断所述第一互信息与所述第二互信息之间的差值是否在第三范围内；若所述第一互信息与所述第二互信息之间的差值在所述第三范围内，则确定所述输出表格数据中的所述对象描述特征j与所述对象标签之间的相关性满足所述特征-标签相关性检验条件。

28.根据权利要求27所述的数据处理装置，其特征在于，

所述检验单元，还用于在所述输入表格数据与所述输出表格数据的相似度达到所述第二阈值的情况下，检验所述输出表格数据与所述第一输出表格数据的相似度，所述第一输出表格数据为采用输出的第一生成式对抗网络模型得到的输出表格数据；

所述调整单元，还用于若所述输出表格数据与所述第一输出表格数据的相似度未达到所述第二阈值，则对所述第一生成式对抗网络模型的初始化参数进行调整。

29.一种数据处理装置，其特征在于，所述数据处理装置包括处理器、收发器和存储器，其中，所述收发器用于接收和发送信息，所述存储器中存储计算机执行指令，所述处理器通过总线与所述存储器和所述收发器连接，所述处理器执行所述存储器中存储的计算机执行指令，以使所述数据处理装置执行如权利要求1-14任一项所述的方法。

30.一种计算机可读存储介质，包括指令，当其在计算机上执行时，使得所述计算机执行如权利要求1-14任一项所述的方法。