CN111125361A

CN111125361A - 数据增强方法及装置、存储介质及电子设备

Info

Publication number: CN111125361A
Application number: CN201911329472.0A
Authority: CN
Inventors: 冯卉; 崔星汉; 鲍强; 郭潇宇
Original assignee: Tianjin Happiness Life Technology Co ltd
Current assignee: Beijing Yiyiyun Technology Co ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-08
Anticipated expiration: 2039-12-20
Also published as: CN111125361B

Abstract

本公开涉及数据处理技术领域，具体涉及一种数据增强方法、数据增强装置、计算机可读存储介质及电子设备，所述方法包括：对待处理数据集中所有待处理数据包含的关系数据进行分类，以获取正常数据集和异常数据集；根据所述正常数据集构建所述属性信息和所述关系类别之间的映射规则；根据所述映射规则将所述异常数据集中的异常数据包括的属性信息映射为目标关系类别，根据所述目标关系类别更新所述待处理数据集中对应的关系数据得到增强数据集。本公开实施例的技术方案能够对待处理数据集中的关系数据进行补空和校正，实现了数据增强的目的，提高了待处理数据集中关系数据的质量。

Description

数据增强方法及装置、存储介质及电子设备

技术领域

本公开涉及数据处理技术领域，具体而言，涉及一种数据增强方法、数据增强装置、计算机可读存储介质及电子设备。

背景技术

数据增强是一种用于扩充数据样本规模，提高数据质量的方法，属于深度学习的一种。数据增强可以应用于图像数据或文本数据。针对图像数据，常见的增强方式包括对图像数据进行空间几何变换、像素颜色变换等；针对文本数据，常见的增强方式包括对文本数据进行随机跳过或者同义词替换等。

在文本数据中包括一种特殊数据——关系数据。关系数据包括用于表示两个对象之间的关系的数据，例如，在保险行业中，每一保险单上至少包括一个投保人和一个被保人，以及投保人和被保人之间的关系，因此保险单可以作为一种关系数据。然而，在通过传统的随机跳过或同义词替换对关系数据进行增强时，往往无法实现提高关系数据的质量的目的。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种数据增强方法、数据增强装置、计算机可读存储介质及电子设备，进而能够通过该数据增强方法对关系数据进行数据增强，以提高关系数据的质量。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供了一种数据增强方法，包括：

对待处理数据集中所有待处理数据包含的关系数据进行分类，以获取正常数据集和异常数据集；其中，所述关系数据包括两个目标对象的属性信息和两个所述目标对象之间的关系类别；

根据所述正常数据集构建所述属性信息和所述关系类别之间的映射规则；

根据所述映射规则将所述异常数据集中的异常数据包括的属性信息映射为目标关系类别，根据所述目标关系类别更新所述待处理数据集中对应的关系数据得到增强数据集。

可选的，基于前述方案，所述映射规则包括预设转换规则和映射关系；

所述根据所述正常数据集构建所述属性信息和所述关系类别之间的映射规则，包括：

根据预设转换规则将各所述正常数据对应的属性信息转换为对应的特征标记；

构建各所述特征标记与各所述关系类别之间的映射关系。

可选的，基于前述方案，所述构建各所述特征标记与各所述关系类别之间的映射关系，包括：

从各所述特征标记中确定第一特征标记；

在所述正常数据集中提取所述特征标记等于所述第一特征标记的目标正常数据，并计算目标正常数据中不同关系类别出现的关系概率；

将最大的所述关系概率对应的关系类别确定为第一关系类别，构建所述第一特征标记与所述第一关系类别的映射关系。

可选的，基于前述方案，所述属性信息包括性别信息和年龄信息，所述特征标记对应的包括性别特征标记和年龄特征标记，所述预设转换规则对应的包括性别规则和年龄规则；

所述根据预设转换规则将各所述正常数据对应的属性信息转换为对应的特征标记，包括：

根据所述性别规则将各所述正常数据对应的性别信息转换为性别特征标记；

根据所述年龄规则将各所述正常数据对应的年龄信息转换为年龄特征标记。

可选的，基于前述方案，所述根据所述性别规则将所述性别信息转换为性别特征标记，包括：

在所述正常数据中包括的两个目标对象的性别信息相同时，将所述性别特征标记配置为第一预设标记；

在所述正常数据中包括的两个目标对象的性别信息不同时，将所述性别特征标记配置为第二预设标记。

可选的，基于前述方案，所述根据所述年龄规则将各所述正常数据对应的年龄信息转换为年龄特征标记，包括：

计算所述正常数据中包括的两个目标对象的年龄信息的差值，并将所述差值确定为所述年龄特征标记。

可选的，基于前述方案，所述根据所述映射规则将所述异常数据包括的属性信息映射为目标关系类别，包括：

根据所述预设转换规则将所述异常数据包括的属性信息转换为对应的特征标记；

根据所述映射关系将所述特征标记映射为目标关系类别。

可选的，基于前述方案，所述对待处理数据集中所有待处理数据包含的关系数据进行分类，包括：

在所述关系数据包含的所述关系类别为空时，将所述关系类别对应的关系数据确定为异常数据；

在所述关系数据包含的所述属性信息和所述关系类别不匹配时，将对应的关系数据确定为异常数据；

在所述关系数据包含的所述属性信息和所述关系类别匹配时，将对应的关系数据确定为正常数据。

可选的，基于前述方案，在所述根据所述正常数据集构建所述属性信息和所述关系类别之间的映射规则之前，所述方法还包括：

根据预设归一规则对所述关系类别进行归一化，以获取至少一个归一化后的关系类别。

可选的，基于前述方案，所述待处理数据包括多种数据类型的待处理数据；

在对待处理数据集中所有待处理数据包含的关系数据进行分类，以获取正常数据集和异常数据集之前，所述方法还包括：

根据所述待处理数据的数据类型对所述待处理数据进行分类，以获取至少一个待处理数据集。

可选的，基于前述方案，在所述根据所述目标关系类别更新所述待处理数据集中对应的关系数据得到增强数据集之后，所述方法还包括：

基于所述增强数据集中各增强数据包括的关系数据进行关系扩展，以获取不同增强数据包含的所述目标对象之间的引申关系类别。

根据本公开的第二方面，提供了一种数据增强装置，包括：

数据分类模块，用于对待处理数据集中所有待处理数据包含的关系数据进行分类，以获取正常数据集和异常数据集；其中，所述关系数据包括两个目标对象的属性信息和两个所述目标对象之间的关系类别；

规则构建模块，用于根据所述正常数据集构建所述属性信息和所述关系类别之间的映射规则；

数据更新模块，用于根据所述映射规则将所述异常数据集中的异常数据包括的属性信息映射为目标关系类别，根据所述目标关系类别更新所述待处理数据集中对应的关系数据得到增强数据集。

根据本公开的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述任一项所述的数据增强方法。

根据本公开实施例的第四方面，提供了一种电子设备，包括：

处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述任一项所述的数据增强方法。

本公开实施例提供的技术方案可以包括以下有益效果：

本公开的一种实施例所提供的数据增强方法，在对待处理数据集中所有待处理数据包含的关系数据进行分类得到正常数据集和异常数据集之后，根据正常数据集构建的属性信息和关系类别之间的映射规则，进而根据构建的映射关系对异常数据集中的关系类别进行更新，对待处理数据集中的关系数据进行补空和校正，实现了数据增强的目的，提高了待处理数据集中关系数据的质量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出本公开示例性实施例中一种数据增强方法的流程图；

图2示意性示出本公开示例性实施例中对待处理数据包含的关系数据进行分类的方法的流程图；

图3示意性示出本公开示例性实施例中构建属性信息和所述关系类别之间的映射规则的方法的流程图；

图4示意性示出本公开示例性实施例中一种根据预设转换规则将各正常数据对应的属性信息转换为对应的特征标记的方法的流程图；

图5示意性示出本公开示例性实施例中另一种根据预设转换规则将各正常数据对应的属性信息转换为对应的特征标记的方法的流程图；

图6示意性示出本公开示例性实施例中构建各特征标记与各关系类别之间映射关系的方法的流程图；

图7示意性示出本公开示例性实施例中根据映射规则将异常数据包括的属性信息映射为目标关系类别的方法的流程图；

图8示意性示出本公开示例性实施例中根据两个关系数据确定引申关系类型的示意图；

图9示意性示出本公开示例性实施例中一种数据增强装置的组成示意图；

图10示意性示出了适于用来实现本公开示例性实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参照附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

在本示例性实施例中，首先提供了一种数据增强方法，可以应用于对关系数据的增强。其中，关系数据包括用于表示两个对象之间的关系的数据。例如，在保险行业中，每一保险单上至少包括一个投保人和一个被保人，以及投保人和被保人之间的关系，因此保险单可以作为一种关系数据。参照图1中所示，上述的数据增强方法可以包括以下步骤：

S110，对待处理数据集中所有待处理数据包含的关系数据进行分类，以获取正常数据集和异常数据集；其中，所述关系数据包括两个目标对象的属性信息和两个所述目标对象之间的关系类别；

S120，根据所述正常数据集构建所述属性信息和所述关系类别之间的映射规则；

S130，根据所述映射规则将所述异常数据集中的异常数据包括的属性信息映射为目标关系类别，根据所述目标关系类别更新所述待处理数据集中对应的关系数据得到增强数据集。

根据本示例性实施例中所提供的数据增强方法中，在对待处理数据集中所有待处理数据包含的关系数据进行分类得到正常数据集和异常数据集之后，根据正常数据集构建的属性信息和关系类别之间的映射规则，进而根据构建的映射关系对异常数据集中的关系类别进行更新，对待处理数据集中的关系数据进行补空和校正，实现了数据增强的目的，提高了待处理数据集中关系数据的质量。

下面，将结合附图及实施例对本示例性实施例中的数据增强方法的各个步骤进行更详细的说明。

步骤S110，对待处理数据集中所有待处理数据包含的关系数据进行分类，以获取正常数据集和异常数据集。

在本公开的一种示例实施例中，待处理数据集中可以包括多个待处理数据，每个待处理数据中可以包括一组关系数据，也可以包括两组甚至多组关系数据。每组关系数据包括两个目标对象的属性信息和两个目标对象之间的关系类别。例如，在保险领域中，保险单1上两组关系数据，分别为投保人A和被保人B的关系数据以及被保人B和受益人C的关系数据。

需要说明的是，目标对象可以根据待处理数据所述的领域进行设置，例如，目标对象可以是人，也可以是动物或者其他物体，本公开对此不做特殊限制。举例而言，在目标对象为人时，目标对象的属性信息可以包括目标对象的性别、年龄、身份证号等；对应的，两个目标对象之间的关系类别可以包括夫妻关系、父母子女关系等关系类别；再如，目标对象为视频时，目标对象的属性信息可以包括视频的名称、标签、长短等；对应的，两个目标对象之间的关系类别可以包括视频相关、视频不相关等。

在本公开的一种示例实施例中，待处理数据包含的关系数据中可能包括一些关系类别正确的正常数据和一些关系类别错误的异常数据，因此可以根据属性信息和关系类别对关系数据进行分类。参照图2所示，对待处理数据集中所有待处理数据包含的关系数据进行分类，可以包括如下步骤S210至S230：

步骤S210，在所述关系数据包含的所述关系类别为空时，将所述关系类别对应的关系数据确定为异常数据。

在本公开的一种示例实施例中，由于未填写或者录入时发生错误可能会出现关系数据中的关系类别为空的情况。此时，由于两个目标对象之间的关系类别不明确，关系数据为失效数据，因此可以将关系类别为空的关系数据确定为异常数据。

步骤S220，在所述关系数据包含的所述属性信息和所述关系类别不匹配时，将对应的关系数据确定为异常数据。

在本公开的一种示例实施例中，在关系数据中的关系类别不为空时，还可能出现关系类别与属性信息不匹配的情况。在这种情况下，也很可能是关系类别出现错误，因此可以将对应的关系数据确定为异常数据。例如，在上述实施例中，假设投保人A和被保人B的性别均为男，而两人的关系类别为父女关系。此时，由于父女关系和两者的性别属性明显不匹配，因此可以将对应的关系数据确定为异常数据。

步骤S230，在所述关系数据包含的所述属性信息和所述关系类别匹配时，将对应的关系数据确定为正常数据。

在本公开的一种示例实施例中，在关系数据中的关系类别不为空，且关系类别与属性信息匹配时，可以认为关系数据为正常数据。例如，在上述实施例中，假设投保人A和被保人B的性别均为男，而两人的关系类别为父子关系，则可以认为关系类别与性别属性匹配，确定对应的关系数据为正常数据。

需要说明的是，在目标对象不同时，每种目标对象包括的属性信息和关系类别均不相同，因此对应的匹配或者不匹配的判断方式可以根据具体的目标对象和关系类别进行具体的设定，本公开对关系数据与属性数据是否匹配的判断方法不做特殊限定。

进一步的，待处理数据可能包括多种数据类型的待处理数据，因此每种待处理数据中的关系数据之间可能也存在差别。此时，在对待处理数据集中所有待处理数据包含的关系数据进行分类，以获取正常数据集和异常数据集之前，所述方法还包括：根据所述待处理数据的数据类型对所述待处理数据进行分类，以获取至少一个待处理数据集。

在本公开的一种示例实施例中，每种待处理数据中的关系数据之间可能存在差别，因此，为了针对每种待处理数据分别建立映射规则，可以先根据待处理数据的数据类型对待处理数据进行分类，以获取至少一个待处理数据集。在每个待处理数据集中，待处理数据的数据类型相同。例如，在保险行业中，不同类型保险的保险单对应的关系数据可能存在差别。例如，在针对老年人的保险单中，关系数据对应的关系类别多为父子、母子关系；而针对员工的保险，关系数据对应的关系类别可能大多数为无血缘关系。因此可以先将保险单按照类型分为两类，再进行数据增强。

通过将待处理数据按照数据类型进行分类，能够根据不同数据类型的待处理数据进行分别出来，避免不同数据类型的待处理数据之间进行相互干扰的问题。

步骤S120，根据所述正常数据集构建所述属性信息和所述关系类别之间的映射规则。

在本公开的一种示例实施例中，可以根据正常数据的属性信息和关系类别构建属性信息与关系类别之间的映射规则。其中，映射规则可以将属性信息映射为关系类别。举例而言，在目标对象为人时，根据正常数据构建的映射规则可以包括：两个目标对象的性别属性均为女且两个目标对象的年龄差为13岁时，两个目标对象的关系为母女关系。

在本公开的一种示例实施例中，映射规则可以包括预设转换规则和映射关系，参照图3所示，根据所述正常数据集构建所述属性信息和所述关系类别之间的映射规则，可以包括如下步骤S310至S320：

步骤S310，根据预设转换规则将各所述正常数据对应的属性信息转换为对应的特征标记。

在本公开的一种示例实施例中，预设转换规则可以根据属性信息的不同进行不同的设定，本公开对此不做特殊限制。通过预设转换规则可以将属性信息转换为特征标记。特征标记用于对属性特征提取出的有效信息进行标记。例如，在目标对象的属性信息包括年龄信息，且领域内针对年龄信息的有效信息为年龄差时，预设转换规则可以是计算两个目标对象的年龄差。通过将属性信息转换为特征标记，能够在减少属性信息种类的同时，提取属性信息中的有效信息，以减少后续构建映射关系时的工作量，提高映射关系的构建效率。

在本公开的一种示例实施例中，在目标对象为人时，属性信息可以包括性别信息和年龄信息，特征标记和预设转换规则对应的可以分别包括性别特征标记、年龄特征标记和性别规则、年龄规则。此时，根据预设转换规则将各所述正常数据对应的属性信息转换为对应的特征标记，参照图4所示，可以包括如下步骤S410至S420：

步骤S410，根据所述性别规则将各所述正常数据对应的性别信息转换为性别特征标记。

在本公开的一种示例实施例中，两个目标对象的性别属性可以分为以下几种：男男，男女，女女。为了减少性别属性的数量，可以将其分为两种，一种是性别相同，一种是性别不同。此时，根据所述性别规则将所述性别信息转换为性别特征标记，参照图5所示，可以包括如下步骤S510至S520：

步骤S510，在所述正常数据中包括的两个目标对象的性别信息相同时，将所述性别特征标记配置为第一预设标记。

步骤S520，在所述正常数据中包括的两个目标对象的性别信息不同时，将所述性别特征标记配置为第二预设标记。

在本公开的一种示例实施例中，性别规则可以是在性别相同时将特征标记配置为第一预设标记，在性别不同时将特征标记配置为第二预设标记。其中，第一预设标记或第二预设标记用于标记目标对象的性别信息是否相同，可以包括数值标记或者标签标记等。例如，可以设置第一预设标记和第二预设标记分别为0和1。通过设置第一预设标记和第二预设标记额能够将性别信息分为两种类别，以减少性别信息的种类，进而便于构建性别信息与关系类别之间的映射关系。

步骤S420，根据所述年龄规则将各所述正常数据对应的年龄信息转换为年龄特征标记。

在本公开的一种示例实施例中，两个目标对象年龄信息的组合可以包括很多，因此可以将年龄差作为年龄特征标记，以减少年龄信息的类别。此时，年龄差对应的年龄规则可以是计算两个目标对象的年龄信息的差值。根据所述年龄规则将各所述正常数据对应的年龄信息转换为年龄特征标记可以包括：计算所述正常数据中包括的两个目标对象的年龄信息的差值，并将所述差值确定为所述年龄特征标记。

在本公开的一种示例实施例中，可以计算正常数据中的两个目标对象的年龄信息的差值，并将差值确定为该正常数据对应的年龄特征标记。例如，在正常数据中包括目标对象a和目标对象b，对应的年龄信息分别为30岁和5岁，则25岁可以作为该正常数据的年龄特征标记。

进一步的，由于年龄差是两个目标对象的相对值，为了表示两个目标对象年龄的大小，可以将差值限定为用正常数据中的第一个目标对象的年龄信息减去第二个目标对象的年龄信息得到的。在这种情况下，当差值为正时，说明第一个目标对象的年龄大于第二个目标对象；反之，当差值为负使，说明第一个目标对象的年龄小于第二个目标对象，进而能够根据年龄信息说明目标对象之间的关系类别的方向性。

其中，关系类别的方向性是指关系类别中两个目标对象所处的位置。例如，关系类别为父子，关系类别的方向性则是指谁是谁的父亲，谁是谁的儿子。通过差值的正负，可以标识两个目标对象年龄信息的大小，进而便于根据年龄信息的大小和关系类别构建目标对象关系的方向性。

需要说明的是，在不同领域中，上述性别特征标记和年龄特征标记可以根据关系类别的特性进行设置，本公开对此不做特殊限制。例如，可以将男男、男女、女女分别对应一种性别特征标记；再如，可以将年龄的比值作为年龄特征标记。

步骤S320，构建各所述特征标记与各所述关系类别之间的映射关系。

在本公开的一种示例实施例中，为了能够使映射关系更加清晰，可以在根据所述正常数据集构建所述属性信息和所述关系类别之间的映射规则之前，先对关系类别进行归一化。具体的，所述方法还包括：根据预设归一规则对所述关系类别进行归一化，以获取至少一个归一化后的关系类别。

在本公开的一种示例实施例中，由于不同领域对关系类别的要求不同，因此对应的归一化规则也不相同。因此，可以根据不同领域的要求设置不同的预设归一规则，用以对关系类别进行归一得到至少一个归一化后的关系类别。例如，在保险领域中，需要关注的关系类别包括以下4种：本人、夫妻、父母子女和其它，因此可以将各中关系类别归一化为以上4种关系类别，进行归一化时的对应关系可以如表1所示：

表1根据一种示例性预设归一规则进行归一化时的对应关系

在本公开的一种示例实施例中，参照图6所示，构建各所述特征标记与各所述关系类别之间的映射关系，可以包括如下步骤S610至S630：

步骤S610，从各所述特征标记中确定第一特征标记。

在本公开的一种示例实施例中，在进行属性信息转换时，可能会形成多种特征标记。由于需要构建特征标记与关系类别之间的映射关系，因此需要对每一特征标记确定其对应的关系类别。此时，可以先选择任意一个特征标记为第一特征标记，确定第一特征标记对应的关系类别，直至确定所有特征标记对的关系类别。例如，在属性信息包括年龄信息，年龄差为年龄特征标记时，可能形成的年龄特征标记可以是0岁、1岁、-1岁、2岁、-2岁等特征标记。此时，可以先选择0岁为第一特征标记，确定0岁对应的关系类别；再选择1岁作为第一特征标记，确定1岁对应的关系类别，直至确定所有特征标记对应的关系类别。

需要说明的是，在属性信息包括多种时，特征标记也是多种特征标记的组合。此时，确定的第一特征标记也为标记组合。例如，特征标记包括以下几组：0岁，1(性别信息不同)；0岁，0(性别信息相同)；1岁，1(性别信息不同)时，可以先确定0岁，1(性别信息不同)为第一特征标记。

步骤S620，在所述正常数据集中提取所述特征标记等于所述第一特征标记的目标正常数据，并计算目标正常数据中不同关系类别出现的关系概率。

在本公开的一种示例实施例中，在确定了第一特征标记后，需要在所有正常数据中提取特征标记等于第一特征标记的目标正常数据，并根据目标正常数据中的关系类别计算不同关系类别出现的关系概率。例如，再确定第一特征标记为0岁时，在所有正常数据中查找到特征标记为0岁的目标正常数据。假设目标正常数据共有10个，其中3个目标数据对应的关系类别为夫妻关系，7个目标数据对应的关系类别为本人关系。此时可以确定第一特征标记0岁对应的关系概率分别为：夫妻关系30％，本人关系70％。

需要说明的是，在属性信息包括多种时，特征标记也是多种特征标记的组合。此时可以采用列联表统计的方法进行概率计算，也可以采用随机森林的方法进行概率计算。通过上述概率计算方法能够减少计算量，加快概率计算的速度。

步骤S630，将最大的所述关系概率对应的关系类别确定为第一关系类别，构建所述第一特征标记与所述第一关系类别的映射关系。

在本公开的一种示例实施例中，在确定了第一特征标记对应的关系概率后，可以根据关系概率的大小确定最终第一特征标记对应的第一关系类别，进而形成第一特征标记与第一关系类别之间的映射关系。例如，在上述实施例中，第一特征标记0对应的关系概率分别为：夫妻关系30％，本人关系70％。此时，由于70％为较大概率，因此可以确定第一特征标记0对应的第一关系类别为本人关系，进而可以形成0岁与本人关系之间的映射关系。

步骤S130，根据所述映射规则将所述异常数据集中的异常数据包括的属性信息映射为目标关系类别，根据所述目标关系类别更新所述待处理数据集中对应的关系数据得到增强数据集。

在本公开的一种示例实施例中，在根据正常数据构建了属性信息与关系类别之间的映射规则后，可以根据建立的映射规则对异常数据中的关系类别进行校正和补充，实现对待处理数据中的关系类别为空或者关系类别异常的数据进行完善，得到了增强数据集。通过映射规则对待处理数据中的异常数据进行更新后，能够得到更多的关系数据，同时数据质量较高，实现了对待处理数据的增强。

在本公开的一种示例实施例中，在映射规则包括预设转换规则和映射关系，对应的，根据所述映射规则将所述异常数据集中的异常数据包括的属性信息映射为目标关系类别，参照图7所示，可以包括如下步骤S710至S720：

步骤S710，根据所述预设转换规则将所述异常数据包括的属性信息转换为对应的特征标记。

步骤S720，根据所述映射关系将所述特征标记映射为目标关系类别。

在本公开的一种示例实施例中，可以先根据预设转换规则将异常数据包括的属性信息转换为对应的特征标记，再根据映射关系将该特征标记映射为目标关系类别。需要说明的是，根据某一类型的正常数据建立的映射规则可以对应的应用于相同类型的异常数据，以保证根据映射关系得到的异常数据对应的目标关系类别更加准确。

进一步的，为了能够扩充关系数据的规模，在根据所述目标关系类别更新所述待处理数据集中对应的关系数据得到增强数据集之后，所述方法还包括：基于所述增强数据集中各增强数据包括的关系数据进行关系扩展，以获取不同增强数据包含的所述目标对象之间的引申关系类别。

在本公开的一种示例实施例中，为了能够在增强数据集的基础上进一步增大数据规模，还可以基于两个包含一个相同目标对象的关系数据对增强数据进行关系扩展，进而获取不同增强数据包含的目标对象之间的引申关系类别。具体的，在增强数据A和增强数据B中分别包括目标对象a、b和目标对象a、c以及他们之间的关系类别。此时，可以根据目标对象a、b之间的关系类别和目标对象a、c之间的关系类别扩展得到目标对象b、c之间的引申关系类别。

例如，如图8所示，目标对象a为目标对象b之间的关系类别为父子，目标对象a和目标对象c之间的关系类别为夫妻，此时可以确定目标对象b、c之间的引申关系类别的母子。通过根据现有的目标对象和对应的关系类别扩展出不同增强数据之间的目标对象之间的关系类别，能够有效扩展关系数据的规模，进一步对关系数据进行增强。

需要说明的是，引申关系类别的扩展可以根据设定的扩展规则进行，具体的扩展规则可以根据不同领域的关系类别进行设定，本公开对此不做特殊限制。例如，在目标对象为人，且关系类别为不同的血缘关系时，可以根据血缘关系对引申关系类别进行扩展。

此外，在属性信息包括年龄信息或性别信息时，在进行引申关系扩展时，还可以根据年龄信息或性别信息确定关系类别的方向。例如，在上述实施例中，目标对象a为30岁，目标对象b为5岁，且两者的关系类别为父子，则可以确定目标对象a为目标对象b的父亲，目标对象b为目标对象a的儿子；再如，在目标对象c、d之间的关系类别为夫妻，且目标对象c为女性，目标对象d为男性时，可以确定目标对象c为目标对象d的妻子，目标对象d为目标对象c的丈夫。通过根据年龄信息或性别信息确定关系类别的方向，能够直接表达已知的两个目标对象之间关系类别的方向性，进而有助于确定引申关系类别的方向性。

需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

此外，在本公开的示例性实施方式中，还提供了一种数据增强装置。参照图9所示，所述数据增强装置900包括：数据分类模块910，规则构建模块920和数据更新模块930。

其中，所述数据分类模块910可以用于对待处理数据集中所有待处理数据包含的关系数据进行分类，以获取正常数据集和异常数据集；其中，所述关系数据包括两个目标对象的属性信息和两个所述目标对象之间的关系类别；

所述规则构建模块920可以用于根据所述正常数据集构建所述属性信息和所述关系类别之间的映射规则；

所述数据更新模块930可以用于根据所述映射规则将所述异常数据集中的异常数据包括的属性信息映射为目标关系类别，根据所述目标关系类别更新所述待处理数据集中对应的关系数据得到增强数据集。

在本公开的一种示例性实施例中，基于前述方案，所述规则构建模块920可以用于根据预设转换规则将各所述正常数据对应的属性信息转换为对应的特征标记；构建各所述特征标记与各所述关系类别之间的映射关系。

在本公开的一种示例性实施例中，基于前述方案，所述规则构建模块920可以用于从各所述特征标记中确定第一特征标记；在所述正常数据集中提取所述特征标记等于所述第一特征标记的目标正常数据，并计算目标正常数据中不同关系类别出现的关系概率；将最大的所述关系概率对应的关系类别确定为第一关系类别，构建所述第一特征标记与所述第一关系类别的映射关系。

在本公开的一种示例性实施例中，基于前述方案，所述规则构建模块920可以用于根据所述性别规则将各所述正常数据对应的性别信息转换为性别特征标记；根据所述年龄规则将各所述正常数据对应的年龄信息转换为年龄特征标记。

在本公开的一种示例性实施例中，基于前述方案，所述规则构建模块920可以用于在所述正常数据中包括的两个目标对象的性别信息相同时，将所述性别特征标记配置为第一预设标记；在所述正常数据中包括的两个目标对象的性别信息不同时，将所述性别特征标记配置为第二预设标记。

在本公开的一种示例性实施例中，基于前述方案，所述规则构建模块920可以用于计算所述正常数据中包括的两个目标对象的年龄信息的差值，并将所述差值确定为所述年龄特征标记。

在本公开的一种示例性实施例中，基于前述方案，所述数据更新模块930可以用于根据所述预设转换规则将所述异常数据包括的属性信息转换为对应的特征标记；根据所述映射关系将所述特征标记映射为目标关系类别。

在本公开的一种示例性实施例中，基于前述方案，所述数据分类模块910可以用于在所述关系数据包含的所述关系类别为空时，将所述关系类别对应的关系数据确定为异常数据；在所述关系数据包含的所述属性信息和所述关系类别不匹配时，将对应的关系数据确定为异常数据；在所述关系数据包含的所述属性信息和所述关系类别匹配时，将对应的关系数据确定为正常数据。

在本公开的一种示例性实施例中，基于前述方案，所述数据分类模块910可以用于根据预设归一规则对所述关系类别进行归一化，以获取至少一个归一化后的关系类别。

在本公开的一种示例性实施例中，基于前述方案，所述数据分类模块910可以用于根据所述待处理数据的数据类型对所述待处理数据进行分类，以获取至少一个待处理数据集。

在本公开的一种示例性实施例中，基于前述方案，所述数据更新模块930可以用于基于所述增强数据集中各增强数据包括的关系数据进行关系扩展，以获取不同增强数据包含的所述目标对象之间的引申关系类别。

由于本公开的示例实施例的数据增强装置的各个功能模块与上述数据增强方法的示例实施例的步骤对应，因此对于本公开装置实施例中未披露的细节，请参照本公开上述的数据增强方法的实施例。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，在本公开的示例性实施例中，还提供了一种能够实现上述数据增强方法的电子设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施例、完全的软件实施例(包括固件、微代码等)，或硬件和软件方面结合的实施例，这里可以统称为“电路”、“模块”或“系统”。

下面参照图10来描述根据本公开的这种实施例的电子设备1000。图10显示的电子设备1000仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于：上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030、显示单元1040。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1010执行，使得所述处理单元1010执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。例如，所述处理单元1010可以执行如图1中所示的步骤S110：对待处理数据集中所有待处理数据包含的关系数据进行分类，以获取正常数据集和异常数据集；其中，所述关系数据包括两个目标对象的属性信息和两个所述目标对象之间的关系类别；S120：根据所述正常数据集构建所述属性信息和所述关系类别之间的映射规则；S130根据所述映射规则将所述异常数据集中的异常数据包括的属性信息映射为目标关系类别，根据所述目标关系类别更新所述待处理数据集中对应的关系数据得到增强数据集。

又如，所述的电子设备可以实现如图2至图7所示的各个步骤。

存储单元1020可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)1021和/或高速缓存存储单元1022，还可以进一步包括只读存储单元(ROM)1023。

存储单元1020还可以包括具有一组(至少一个)程序模块1025的程序/实用工具1024，这样的程序模块1025包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1030可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1000也可以与一个或多个外部设备1070(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1000交互的设备通信，和/或与使得该电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1050进行。并且，电子设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1060通过总线1030与电子设备1000的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1000使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。

此外，本公开的示例性实施例中还提供了一种用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种数据增强方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述映射规则包括预设转换规则和映射关系；

构建各所述特征标记与各所述关系类别之间的映射关系。

3.根据权利要求2所述的方法，其特征在于，所述构建各所述特征标记与各所述关系类别之间的映射关系，包括：

从各所述特征标记中确定第一特征标记；

4.根据权利要求2所述的方法，其特征在于，所述属性信息包括性别信息和年龄信息，所述特征标记对应的包括性别特征标记和年龄特征标记，所述预设转换规则对应的包括性别规则和年龄规则；

5.根据权利要求4所述的方法，其特征在于，所述根据所述性别规则将所述性别信息转换为性别特征标记，包括：

6.根据权利要求4所述的方法，其特征在于，所述根据所述年龄规则将各所述正常数据对应的年龄信息转换为年龄特征标记，包括：

7.根据权利要求2所述的方法，其特征在于，所述根据所述映射规则将所述异常数据包括的属性信息映射为目标关系类别，包括：

根据所述映射关系将所述特征标记映射为目标关系类别。

8.根据权利要求1所述的方法，其特征在于，所述对待处理数据集中所有待处理数据包含的关系数据进行分类，包括：

9.根据权利要求1所述的方法，其特征在于，在所述根据所述正常数据集构建所述属性信息和所述关系类别之间的映射规则之前，所述方法还包括：

10.根据权利要求1所述的方法，其特征在于，所述待处理数据包括多种数据类型的待处理数据；

11.根据权利要求1所述的方法，其特征在于，在所述根据所述目标关系类别更新所述待处理数据集中对应的关系数据得到增强数据集之后，所述方法还包括：

12.一种数据增强装置，其特征在于，包括：

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至11中任一项所述的数据增强方法。

14.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至11中任一项所述的数据增强方法。