CN111177132A

CN111177132A - 关系型数据的标签清洗方法、装置、设备及存储介质

Info

Publication number: CN111177132A
Application number: CN201911329468.4A
Authority: CN
Inventors: 黄移军
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-19

Abstract

本发明公开了一种关系型数据的标签清洗方法、装置、设备及存储介质，通过从关系型数据库中提取目标关系型数据，计算关系型特征标签集的数据饱和度，将关系型特征标签集中数据饱和度小于饱和度阈值的关系型特征标签剔除；计算关系型特征标签集中的异常占比值，提取出异常占比值小于异常占比阈值的关系型特征标签；计算关系型特征标签集的信息量值，提取出信息量值大于信息量阈值的关系型特征标签；采用预设的决策树模型确定关系型特征标签集的重要性度量值，提取出重要性度量值大于重要性度量阈值的关系型特征标签；最后根据预设策略对生成的关系型特征标签进行整合处理；从而提高了对目标关系型数据进行标签筛选的准确性。

Description

关系型数据的标签清洗方法、装置、设备及存储介质

技术领域

本发明涉及数据处理领域，尤其涉及一种关系型数据的标签清洗方法、装置、设备及存储介质。

背景技术

随着计算机技术的日益发展，各种类型的数据库随之不断发展。目前比较常见的数据库主要包括有关系型数据库和非关系型数据库。不同类型的数据库具有不同的优势，虽然非关系数据库因具有灵活的可扩展性，且允许创建许多不同类型的非结构化的或任意格式的字段等优势，越来越受到开发者的欢迎，但也由于技术的不成熟，存在事务处理能力弱、没有完整性约束，且对于复杂业务场景支持较差等缺陷。因此很多技术开发者在处理数据时依旧会选择传统的关系型数据库。传统的关系型数据库具有查询灵活、容易保持数据的一致性的优点，但是对关系型数据进行标签筛选时大部分都是采用大量的专家经验对数据标签进行分析，业务专家结合自己的经验筛选出符合要求的目标关系型数据。然而，采用专家经验进行标签筛选往往对人工依赖过多，且当关系型数据量较大时人工处理速度有限，对关系型数据进行标签筛选的准确性较低。

发明内容

本发明实施例提供一种关系型数据的标签清洗方法、装置、计算机设备及存储介质，以解决对关系型数据进行标签筛选的准确性较低问题。

一种关系型数据的标签清洗方法，包括：

从关系型数据库中提取目标关系型数据的特征标签，生成关系型特征标签集；

计算所述关系型特征标签集中每一关系型特征标签的数据饱和度，将所述关系型特征标签集中所述数据饱和度小于饱和度阈值的关系型特征标签剔除，得到第一特征标签集；

计算所述关系型特征标签集中每一关系型特征标签的异常占比值，提取出所述异常占比值小于异常占比阈值的关系型特征标签，组成第二特征标签集；

计算所述关系型特征标签集中每一关系型特征标签的信息量值，提取出所述信息量值大于信息量阈值的关系型特征标签，组成第三特征标签集；

采用预设的决策树模型确定所述关系型特征标签集中每一关系型特征标签的重要性度量值，提取出所述重要性度量值大于重要性度量阈值的关系型特征标签，组成第四特征标签集；

根据预设策略对所述第一特征标签集、所述第二特征标签集、所述第三特征标签集和所述第四特征标签集进行整合处理，得到目标关系型标签集。

一种关系型数据的标签清洗装置，包括：

第一提取模块，用于从关系型数据库中提取目标关系型数据的特征标签，生成关系型特征标签集；

第一数据饱和度计算模块，用于计算所述关系型特征标签集中每一关系型特征标签的数据饱和度，将所述关系型特征标签集中所述数据饱和度小于饱和度阈值的关系型特征标签剔除，得到第一特征标签集；

第一异常占比值计算模块，用于计算所述关系型特征标签集中每一关系型特征标签的异常占比值，提取出所述异常占比值小于异常占比阈值的关系型特征标签，组成第二特征标签集；

第一信息量值计算模块，用于计算所述关系型特征标签集中每一关系型特征标签的信息量值，提取出所述信息量值大于信息量阈值的关系型特征标签，组成第三特征标签集；

第一重要性度量值确定模块，用于采用预设的决策树模型确定所述关系型特征标签集中每一关系型特征标签的重要性度量值，提取出所述重要性度量值大于重要性度量阈值的关系型特征标签，组成第四特征标签集；

整合处理模块，用于根据预设策略对所述第一特征标签集、所述第二特征标签集、所述第三特征标签集和所述第四特征标签集进行整合处理，得到目标关系型标签集。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述关系型数据的标签清洗方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述关系型数据的标签清洗方法。

上述关系型数据的标签清洗方法、装置、计算机设备及存储介质，从关系型数据库中提取目标关系型数据的特征标签，生成关系型特征标签集；计算关系型特征标签集中每一关系型特征标签的数据饱和度，将关系型特征标签集中数据饱和度小于饱和度阈值的关系型特征标签剔除，得到第一特征标签集；计算关系型特征标签集中每一关系型特征标签的异常占比值，提取出异常占比值小于异常占比阈值的关系型特征标签，组成第二特征标签集；计算关系型特征标签集中每一关系型特征标签的信息量值，提取出信息量值大于信息量阈值的关系型特征标签，组成第三特征标签集；采用预设的决策树模型确定关系型特征标签集中每一关系型特征标签的重要性度量值，提取出重要性度量值大于重要性度量阈值的关系型特征标签，组成第四特征标签集；根据预设策略对第一特征标签集、第二特征标签集、第三特征标签集和第四特征标签集进行整合处理，得到目标关系型标签集；通过分别采用多种不同的标签筛选方法对目标关系型数据进行标签筛选，然后再对筛选出的特征标签集进行组合，从而保证了生成的目标关系型标签集的精准度，提高了对目标关系型数据进行标签筛选的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中关系型数据的标签清洗方法的一应用环境示意图；

图2是本发明一实施例中关系型数据的标签清洗方法的一示例图；

图3是本发明一实施例中关系型数据的标签清洗方法的另一示例图；

图4是本发明一实施例中关系型数据的标签清洗方法的另一示例图；

图5是本发明一实施例中关系型数据的标签清洗方法的另一示例图；

图6是本发明一实施例中关系型数据的标签清洗方法的另一示例图；

图7是本发明一实施例中关系型数据的标签清洗方法的另一示例图；

图8是本发明一实施例中关系型数据的标签清洗装置的一原理框图；

图9是本发明一实施例中关系型数据的标签清洗装置的另一原理框图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的关系型数据的标签清洗方法，该关系型数据的标签清洗方法可应用如图1所示的应用环境中。具体地，该关系型数据的标签清洗方法应用在关系型数据的标签清洗系统中，该关系型数据的标签清洗系统包括如图1所示的客户端和服务端，客户端与服务端通过网络进行通信，用于解决对关系型数据进行标签筛选的准确性较低问题。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种关系型数据的标签清洗方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S11：从关系型数据库中提取目标关系型数据的特征标签，生成关系型特征标签集。

其中，目标关系型数据指从关系型数据库中提取出来的待进行特征标签筛选的数据。可选地，目标关系型数据可以为用户注册信息、博文信息、网站或网页点击行为或用户交易数据及行为等。特征标签指目标关系型数据所包含的特征及对应的特征值。可以理解地，每一目标关系型数据都包含一个或多个特征标签。可选地，可采用特征提取算法提取目标关系型数据中的所有特征标签，或者通过从服务端的数据库获取预先编译好的特征标签提取脚本，然后采用对应的特征标签提取脚本提取目标关系型数据中的所有特征标签，组成关系型特征标签集。例如：若目标关系型数据为用户注册信息，则提取出的特征标签可以包括姓名：小红，性别：女，年龄：25，职业：教师，兴趣：画画，教育经历：本科等；若目标关系型数据为博文信息，则提取出的特征标签可以包括博文长度：1000，博文发布月份：7月，发布星期：周一，发布小时：1小时，是否分享图片：是，是否为收藏：是，是否为转发：否，包含外链的数量：6等。

S12：计算关系型特征标签集中每一关系型特征标签的数据饱和度，将关系型特征标签集中数据饱和度小于饱和度阈值的关系型特征标签剔除，得到第一特征标签集。

其中，数据饱和度指每一关系型特征标签所对应的关系型变量值中非缺失值所占的比重。可选地，可以将NULL或者‘’定义为缺失值，或者结合实际情况把无意义的值定义为缺失值。其中，饱和度阈值指预先设定的用于评估关系型特征标签是否需要剔除的阈值。可选地，饱和度阈值可以为80％、85％、或者90％等。用户可根据实际情况自定义选择。在本实施例中，通过对关系型特征标签的数量和有效性的综合考虑，饱和度阈值优选为85％。

具体地，可先采用公式

计算关系型特征标签集中每一关系型特征标签的数据饱和度；其中，X_count为样本特征标签X中缺失值的记录条数，X_sum为X的总记录条数。然后，再将得到的每一关系型特征标签的数据饱和度与预先设定的饱和度阈值进行一一比较，将关系型特征标签集中饱和度小于饱和度阈值的关系型特征标签剔除，将关系型特征标签集中饱和度等于或大于饱和度阈值的关系型特征标签保存，得到第一特征标签集。

示例性地，如下表1所示，关系型特征标签为“点击量”；其中，“点击量”的总记录条数为10；取值为NULL的记录条数为2，取值为‘’的记录条数为1，即缺失值总记录条数为3；则通过采用公式

计算后，得到该关系型特征标签的数据饱和度为 1-3/10＝70％。可以理解地，数据饱和度70％小于饱和度阈值80％，因此，需将该关系型特征标签“点击量”从关系型特征标签集中剔除。

表1

ID	点击量
		1000001	NULL
1000002	NULL
		1000003	10
1000004	6
		1000005	20
1000006	39
		1000007	28
1000008	9
		1000009
10000010	10

S13：计算关系型特征标签集中每一关系型特征标签的异常占比值，提取出异常占比值小于异常占比阈值的关系型特征标签，组成第二特征标签集。

其中，异常占比值指每一关系型特征标签所对应的关系型变量值中异常值所占的比重。在一具体实施例中，由于不同关系型特征标签所对应的关系型变量值的数据类型可能不同，因此，为了保证计算得到的异常占比值的准确性，在计算关系型特征标签集中每一关系型特征标签的异常占比值之前先对每一关系型特征标签所对应的关系型变量值的数据类型进行判断，然后根据不同关系型特征标签所对应的关系型变量值的数据类型不同，采用不同的异常值确定方式确定每一关系型特征标签中的异常值，再计算每一关系型特征标签中异常值在总的关系型变量值中的占比值。

示例性地，若判断得到关系型特征标签所对应的关系型变量值的数据类型为连续型，则可采用[均值-3*标准差，均值+3*标准差]确定每一关系型特征标签中的异常值，将不在该范围内的变量值确定为异常值。若判断得到关系型特征标签所对应的关系型变量值的数据类型为离散型，则可将不在预设范围内的变量值，确定为该关系型特征标签的异常值。用户可根据关系型特征标签所对应的关系型变量值的实际情况自定义设置预设范围。

进一步地，再将得到的每一关系型特征标签的异常占比值与预先设定的异常占比阈值进行一一比较，将关系型特征标签集中异常占比值等于或大于异常占比阈值的关系型特征标签剔除，提取出异常占比值小于异常占比阈值的样本特征标签，组成第二特征标签集。其中，异常占比阈值指预先设定的用于评估关系型特征标签是否为有效特征标签的阈值。在本实施例中，通过对关系型特征标签的数量和有效性的综合考虑，异常占比阈值优选为 85％。

S14：计算关系型特征标签集中每一关系型特征标签的信息量值，提取出信息量值大于信息量阈值的关系型特征标签，组成第三特征标签集。

其中，信息量值指用于评估关系型特征标签对目标变量预测能力好坏的指标值。信息量值又可以称为IV值(Information Value)。具体地，采用如下公式计算所述关系型特征标签集中每一关系型特征标签的信息量值IV:

其中，r为关系型特征标签所取值的类别个数，n_i0为关系型特征标签取第i个值，对应可选变量为0的个数，n_*0为所有可选变量取值为0的个数，n_i1为标签取第i个值，对应可选变量为1的个数，n_*1为所有可选变量取值为1的个数。

进一步地，再将得到的每一关系型特征标签的信息量值与预先设定的信息量阈值进行一一比较，将关系型特征标签集中信息量值等于或小于信息量阈值的关系型特征标签剔除，提取出信息量值大于信息量阈值的关系型特征标签，组成第三特征标签集。其中，信息量阈值指用于评估关系型特征标签是否为有效特征标签的阈值。优选地，在本实施例中，信息量阈值设定为0.02，即提取出信息量值大于0.02的样本特征标签，组成第三特征标签集。

S15：采用预设的决策树模型确定关系型特征标签集中每一关系型特征标签的重要性度量值，提取出重要性度量值大于重要性度量阈值的关系型特征标签，组成第四特征标签集。

其中，重要性度量值指用于衡量每一关系型特征标签的特征重要性的值。具体地，采用预设的决策树模型确定关系型特征标签集中每一关系型特征标签的重要性度量值，其中，预设的决策树模型可以为GBDT决策树模型或者RF决策树模型等。在一具体实施例中，可先采用GBDT或者RF算法构建一个初始决策树模型，然后将关系型特征标签集中的每一关系型特征标签输入到对应的初始决策树模型中，再基于决策树模型本身的变量重要性度量进行特征重要性输出，即可得到每一关系型特征标签的重要性度量值。

进一步地，再将得到的每一关系型特征标签的重要性度量值与预先设定的重要性度量阈值进行一一比较，将关系型特征标签集中重要性度量值等于或小于重要性度量阈值的关系型特征标签剔除，提取出重要性度量值大于重要性度量阈值的关系型特征标签，组成第四特征标签集。其中，重要性度量阈值指用于评估关系型特征标签是否为重要特征标签的阈值，用户可根据实际情况自定义设置重要性度量阈值的大小。

S16：根据预设策略对第一特征标签集、第二特征标签集、第三特征标签集和第四特征标签集进行整合处理，得到目标关系型标签集。

其中，预设策略指预先设定的用于对第一特征标签集、第二特征标签集、第三特征标签集和第四特征标签集进行整合处理的方法。可选地，预设策略可以为对出现在第一特征标签集、第二特征标签集、第三特征标签集和第四特征标签集中的特征标签进行交集处理，得到目标关系型标签集。或者，对出现在第一特征标签集、第二特征标签集、第三特征标签集和第四特征标签集中的特征标签进行并集处理，得到目标关系型标签集等。用户可根据目标关系型标签集的实际情况自定义选择任意一种方式。优选地，在本实施例中，将分别出现在第三特征标签集和第四特征标签集中、且出现在第一特征标签集、第二特征标签集中任意一项的特征标签进行整合处理，得到目标关系型标签集。

在本实施例中，从关系型数据库中提取目标关系型数据的特征标签，生成关系型特征标签集；计算关系型特征标签集中每一关系型特征标签的数据饱和度，将关系型特征标签集中数据饱和度小于饱和度阈值的关系型特征标签剔除，得到第一特征标签集；计算关系型特征标签集中每一关系型特征标签的异常占比值，提取出异常占比值小于异常占比阈值的关系型特征标签，组成第二特征标签集；计算关系型特征标签集中每一关系型特征标签的信息量值，提取出信息量值大于信息量阈值的关系型特征标签，组成第三特征标签集；采用预设的决策树模型确定关系型特征标签集中每一关系型特征标签的重要性度量值，提取出重要性度量值大于重要性度量阈值的关系型特征标签，组成第四特征标签集；根据预设策略对第一特征标签集、第二特征标签集、第三特征标签集和第四特征标签集进行整合处理，得到目标关系型标签集；通过分别采用多种不同的标签筛选方法对目标关系型数据进行标签筛选，然后再对筛选出的特征标签集进行组合，从而保证了生成的目标关系型标签集的精准度，提高了对目标关系型数据进行标签筛选的准确性。

在一实施例中，如图3所示，计算关系型特征标签集中每一关系型特征标签的异常占比值，提取出异常占比值小于异常占比阈值的关系型特征标签，组成第二特征标签集，具体包括如下步骤：

S131:获取关系型特征标签集中每一关系型特征标签。

S132:判断每一关系型特征标签的关系型变量值的数据类型。

其中，关系型变量值为关系型特征标签所对应的可选变量值。每一关系型特征标签包括一个或者多个关系型变量值。例如：若关系型特征标签为“购买次数”，则该关系型特征标签对应的关系型变量值可以为{0,1,2,3,4,6,10,100}；若关系型特征标签为“id”，则该关系型特征标签对应的关系型变量值可以为{a,b,c,d,e,f,g}等。在一具体实例中，每一关系型特征标签对应的关系型变量值都是已预先设定好的。

具体地，可采用pandas的dtypes函数判断每一关系型特征标签的关系型变量值的数据类型。在本实施例中，关系型特征标签的关系型变量值的数据类型主要包括连续型和离散型。

S133:若关系型特征标签的关系型变量值的数据类型为连续型，则采用预设的异常值计算公式，确定关系型特征标签中的异常值。

具体地，若根据步骤S132判断得到关系型特征标签的关系型变量值的数据类型为连续型，则采用预设的异常值计算公式[均值-3*标准差，均值+3*标准差]确定该关系型特征标签中的异常值，将不在该范围内的变量值确定为异常值。

其中，均值计算公式为：

标准差公式为：

X_i为关系型特征标签X中第i条记录所对应的变量值，n为关系型特征标签X的总记录条数。

示例性地，如下表2所示，关系型特征标签为“购买次数”的关系型变量值的数据类型为连续型；经计算得到均值

标准差S＝30156.35；均值+3*标准差＝99564.2339；均值-3*标准差＝-81373.8703，如下表2可知，id为1000011的购买次数100020>99564.2339(均值+3*标准差)，因此“购买次数100020”被确定为异常值。

表2

ID	购买次数
		1000001	0
1000002	1
		1000003	2
1000004	2
		1000005	4
1000006	1
		1000007	2
1000008	3
		1000009	6
10000010	10
		10000011	100020

S134:若关系型特征标签的关系型变量值的数据类型为离散型，则根据关系型特征标签获取对应的筛选标准，并根据筛选标准确定关系型特征标签中的异常值。

具体地，若根据步骤S132判断得到关系型特征标签的关系型变量值的数据类型为离散型，则先根据关系型特征标签获取到对应的筛选标准。在一具体实施例中，每一离散型的关系型特征标签都已预先与对应的筛选标准进行关联，并存储在服务端的数据库，在确定了关系型特征标签的关系型变量值的数据类型为离散型之后，可直接根据该关系型特征标签从服务端的数据库获取到对应的筛选标准。然后，再根据获取的筛选标准确定关系型特征标签的异常值。示例性地，若一关系型特征标签为“是否分享图片”，获取到该关系型特征标签对应的筛选标准为将关系型特征标签所对应的关系型变量值中不符合判断要求的字段确定为异常值，该关系型特征标签所对应的关系型变量值中为“否”的记录条数为3，为“是”的记录条数为10，为“100”的记录条数为2，为“A”的记录条数为2, 则将该关系型特征标签所对应的关系型变量值中为“100”和“A”的变量值确定为异常值。

S135:计算每一关系型特征标签中异常值在对应的关系型变量值中的异常占比值，提取出异常占比值小于异常占比阈值的关系型特征标签，组成第二特征标签集。

具体地，在确定了每一关系型特征标签中的异常值之后，再计算异常值在对应的关系型变量值中的异常占比值；然后，再将每一关系型特征标签的异常占比值与预先设定的异常占比阈值进行一一比较；最后，将关系型特征标签集中异常占比值等于或大于异常占比阈值的关系型特征标签剔除，将异常占比值小于异常占比阈值的关系型特征标签提取出来，组成第二特征标签集。

在本实施例中，获取关系型特征标签集中每一关系型特征标签；判断每一关系型特征标签的关系型变量值的数据类型；若关系型特征标签的关系型变量值的数据类型为连续型，则采用预设的异常值计算公式，确定关系型特征标签中的异常值；若关系型特征标签的关系型变量值的数据类型为离散型，则根据关系型特征标签获取对应的筛选标准，并根据筛选标准确定关系型特征标签中的异常值；计算每一关系型特征标签中异常值在对应的关系型变量值中的异常占比值，提取出异常占比值小于异常占比阈值的关系型特征标签，组成第二特征标签集；从而提高了生成的第二特征标签集准确性。

在一实施例中，如图4所示，计算关系型特征标签集中每一关系型特征标签的信息量值，提取出信息量值大于信息量阈值的关系型特征标签，组成第三特征标签集，具体包括如下步骤：

S141：采用如下公式计算关系型特征标签集中每一关系型特征标签的信息量值IV:

S142：将每一关系型特征标签的信息量值IV与预设的信息量阈值进行比较。

S143：提取出信息量值IV大于信息量阈值的关系型特征标签，组成第三特征标签集。

具体地，采用预设计算公式：

计算关系型特征标签集中每一关系型特征标签的信息量值IV，得到每一关系型特征标签的信息量值IV；然后，再将每一关系型特征标签的信息量值与预先设定的信息量阈值进行一一比较，将关系型特征标签集中信息量值等于或小于信息量阈值的关系型特征标签剔除，将信息量值大于信息量阈值的关系型特征标签提取出来，组成第三特征标签集。

在一具体实施例中，信息量值越高，所对应的关系型特征标签的预测能力越好。一般情况下，信息量值(IV)＞0.3,预测力强；信息量值(IV)在(0.1,0.3]范围内，预测力一般；信息量值(IV)在(0.02,0.1]范围内，预测力弱；信息量值(IV)≦0.02，无预测力。

示例性地，如下表3所示，关系型特征标签为“博文转发次数”；预先设定的信息量阈值为0.3，该关系型特征标签的信息量值计算过程为：

若博文转发次数的取值＜100：

则IV1＝((2500/10000)-(47500/90000))*ln((2500/10000)/(47500/ 90000))＝0.2076；

若博文转发次数的取值[100,200)：

则IV2＝((3000/10000)-(27000/90000))*ln((3000/10000)/(27000/ 90000))＝0；

若博文转发次数的取值[200,600)：

则IV3＝((3000/10000)-(12000/90000))*ln((3000/10000)/(12000、90000))＝0.1351；

若博文转发次数的取值≥600:

则IV4＝((1500/10000)-(3500/90000))*ln((1500/10000)/(3500/90000 ))＝0.199；

综上可得，该关系型特征标签“博文转发次数”的信息量值“为 IV＝IV1+IV2+IV3+IV4＝0.4927。

表3

根据上述步骤可知，该关系型特征标签“博文转发次数”的信息量值“为0.4927大于预设的信息量阈值0.3，则将该关系型特征标签“博文转发次数”提取出来，组成第三特征标签集。

在本实施例中，采用公式

计算关系型特征标签集中每一关系型特征标签的信息量值IV:将每一关系型特征标签的信息量值IV与预设的信息量阈值进行比较。提取出信息量值IV大于信息量阈值的关系型特征标签，组成第三特征标签集，从而提高了生成的第三特征标签集准确性。

在一实施例中，如图5所示，采用预设的决策树模型确定关系型特征标签集中每一关系型特征标签的重要性度量值，提取出重要性度量值大于重要性度量阈值的关系型特征标签，组成第四特征标签集，具体包括如下步骤：

S151：将关系型特征标签集中的每一关系型特征标签输入预设的梯度提升决策模型中进行训练，根据每一关系型特征标签在梯度提升决策模型的每颗树中的重要性平均值，确定每一关系型特征标签的重要性度量值。

具体地，将关系型特征标签集中的每一关系型特征标签输入到预设的梯度提升决策模型中进行训练，利用梯度提升决策模型的属性feature_importances_，即可得到每一关系型特征标签的重要性度量值。需要说明的是，关系型特征标签的重要性度量值主要通过关系型特征标签在每颗树中的重要性平均值来衡量。例如：关系型特征标签j对应的重要性度量值通过关系型特征标签j在每颗树中的重要性的平均值来衡量：

其中，M是树的数量。关系型特征标签j在每颗树中的重要性如下：

其中，L为树的叶子节点数量，L-1即为树的非叶子节点数量(构建的树都是具有左右child 的二叉树),v_t为节点t相关联的特征，i_t^2为节点t分裂后平方损失的减少值。

S152：将每一关系型特征标签的重要性度量值与预设的重要性度量阈值进行比较。

S153：提取出重要性度量值大于重要性度量阈值的关系型特征标签，组成第四特征标签集。

具体地，在确定了每一所述关系型特征标签的重要性度量值之后，将每一关系型特征标签的重要性度量值与预设的重要性度量阈值进行一一比较；提取出重要性度量值大于重要性度量阈值的关系型特征标签，组成第四特征标签集。

在本实施例中，将关系型特征标签集中的每一关系型特征标签输入预设的梯度提升决策模型中进行训练，根据每一关系型特征标签在梯度提升决策模型的每颗树中的重要性平均值，确定每一关系型特征标签的重要性度量值；将每一关系型特征标签的重要性度量值与预设的重要性度量阈值进行比较；提取出重要性度量值大于重要性度量阈值的关系型特征标签，组成第四特征标签集；从而提高了生成的第四特征标签集准确性。

在一实施例中，如图3所示，根据预设策略对第一特征标签集、第二特征标签集、第三特征标签集和第四特征标签集进行整合处理，得到目标关系型标签集，具体包括如下步骤：

S161：对第一特征标签集、第二特征标签集、第三特征标签集和第四特征标签集进行整合，得到初始特征标签集合。

具体地，将第一特征标签集、第二特征标签集、第三特征标签集和第四特征标签集中的每一特征标签直接进行整合，而不需要考虑相同类型的特征标签进行合并的过程，从而得到初始特征标签集合。示例性地，若第一特征标签集为{a,b,c,d,e}；第二特征标签集为{b,c,d,e,f}；第三特征标签集为{a,b,c,f}；第四特征标签集{a,b,c}，则进行整合后，得到的基本关系型标签集合为{a,b,c,d,e,b,c,d,e,f,a,b,c,f,a,b,c}。

S162：统计初始特征标签集合中每一类型的初始特征标签的标签数量。

具体地，在生成初始特征标签集合之后，对该初始特征标签集合中相同类型的初始特征标签进行整合，从而统计得到该初始特征标签集合中每一类型的初始特征标签的标签数量。

S163：提取出标签数量大于预设阈值的初始特征标签，组成目标关系型标签集。

其中，预设阈值指预先设定用于评估初始特征标签的标签数量是否满足要求的阈值。可选地，预设阈值可以为1、3或5等。具体地，可根据初始特征标签集合的实际数量而设定。具体地，将每一类型的初始特征标签的标签数量与预设阈值进行一一比较，提取出标签数量大于预设阈值的初始特征标签，组成目标关系型标签集。示例性地，若预设阈值为2，获取的初始特征标签集合为{a,b,c,d,e,b,c,d,e,f,a,b,c,f,a,b,c}，则经统计得到初始特征标签a的标签数量为3；初始特征标签b的标签数量为4；初始特征标签c的标签数量为4；初始特征标签d的标签数量为2；初始特征标签e的标签数量为2；初始特征标签f的标签数量为2；则将初始特征标签a、初始特征标签b和初始特征标签c组合形成目标关系型标签集。

在本实施例中，对第一特征标签集、第二特征标签集、第三特征标签集和第四特征标签集进行整合，得到初始特征标签集合；统计初始特征标签集合中每一类型的初始特征标签的标签数量；提取出标签数量大于预设阈值的初始特征标签，组成目标关系型标签集；从而提高了获取目标关系型标签集的灵活性和准确性。

在一实施例中，如图7所示，计算关系型特征标签集中每一关系型特征标签的数据饱和度，将关系型特征标签集中数据饱和度小于饱和度阈值的关系型特征标签剔除，得到第一特征标签集之后，该关系型数据的标签清洗方法，还包括如下步骤：

S21:计算第一特征标签集中每一第一特征标签的异常占比值，提取出异常占比值小于异常占比阈值的第一特征标签，组成候选特征标签集。

S22:计算候选特征标签集中每一候选特征标签的信息量值，提取出信息量值大于信息量阈值的候选特征标签，组成标准特征标签集。。

S23:采用预设的决策树模型确定标准特征标签集中每一标准特征标签的重要性度量值，提取出重要性度量值大于重要性度量阈值的标准特征标签，组成目标关系型标签集。。

具体地，本实施例步骤S21-S23中对目标关系型数据中的特征标签进行筛选的具体方法和过程，与上述步骤S13-S15对目标关系型数据中的特征标签进行筛选的具体方法和过程相似，此处不做冗余赘述。

需要说明的是，步骤S13-S15是分别对目标关系型数据中的特征标签进行筛选，得到第二特征标签集、第三特征标签集和第四特征标签集，然后再采用预设策略对第一特征标签集、第二特征标签集、第三特征标签集和第四特征标签集进行整合处理，得到目标关系型标签。而步骤S21-S23是对第一特征标签集中的第一特征标签再进行逐级递进筛选，得到目标关系型标签。因此，根据步骤S13-S15得到的目标关系型标签和根据步骤S21-S23 得到的目标关系型标签是不同的关系型标签数据。

在本实施例中，计算第一特征标签集中每一第一特征标签的异常占比值，提取出异常占比值小于异常占比阈值的第一特征标签，组成候选特征标签集；:计算候选特征标签集中每一候选特征标签的信息量值，提取出信息量值大于信息量阈值的候选特征标签，组成标准特征标签集；采用预设的决策树模型确定标准特征标签集中每一标准特征标签的重要性度量值，提取出重要性度量值大于重要性度量阈值的标准特征标签，组成目标关系型标签集；通过采用多种不同的标签筛选方法对第一特征标签集中的每一第一特征标签进行逐一递进筛选，从而进一步提高了获取的目标关系型标签集的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种关系型数据的标签清洗装置，该关系型数据的标签清洗装置与上述实施例中关系型数据的标签清洗方法一一对应。如图8所示，该关系型数据的标签清洗装置包括第一提取模块11、第一数据饱和度计算模块12、第一异常占比值计算模块13、第一信息量值计算模块14、第一重要性度量值确定模块15、和整合处理模块16。各功能模块详细说明如下：

第一提取模块11，用于从关系型数据库中提取目标关系型数据的特征标签，生成关系型特征标签集；

第一数据饱和度计算模块12，用于计算关系型特征标签集中每一关系型特征标签的数据饱和度，将关系型特征标签集中数据饱和度小于饱和度阈值的关系型特征标签剔除，得到第一特征标签集；

第一异常占比值计算模块13，用于计算关系型特征标签集中每一关系型特征标签的异常占比值，提取出异常占比值小于异常占比阈值的关系型特征标签，组成第二特征标签集；

第一信息量值计算模块14，用于计算关系型特征标签集中每一关系型特征标签的信息量值，提取出信息量值大于信息量阈值的关系型特征标签，组成第三特征标签集；

第一重要性度量值确定模块15，用于采用预设的决策树模型确定关系型特征标签集中每一关系型特征标签的重要性度量值，提取出重要性度量值大于重要性度量阈值的关系型特征标签，组成第四特征标签集；

整合处理模块16，用于根据预设策略对第一特征标签集、第二特征标签集、第三特征标签集和第四特征标签集进行整合处理，得到目标关系型标签集。

优选地，如图9所示，所述第一异常占比值计算模块13，包括：

第一获取单元131，用于获取关系型特征标签集中每一关系型特征标签；

判断单元132，用于判断每一关系型特征标签的关系型变量值的数据类型；

第一异常值确定单元133，用于在关系型特征标签的关系型变量值的数据类型为连续型时，采用预设的异常值计算公式，确定关系型特征标签中的异常值；

第二异常值确定单元134，用于在关系型特征标签的关系型变量值的数据类型为离散型时，根据关系型特征标签获取对应的筛选标准，并根据筛选标准确定关系型特征标签中的异常值；

异常占比值计算单元135，用于计算每一关系型特征标签中异常值在对应的关系型变量值中的异常占比值，提取出异常占比值小于异常占比阈值的关系型特征标签，组成第二特征标签集。

优选地，所述第一信息量值计算模块14，包括：

信息量值计算单元，用于采用如下公式计算关系型特征标签集中每一关系型特征标签的信息量值IV:

其中，r为关系型特征标签所取值的类别个数，n_i0为关系型特征标签取第i个值，对应可选变量为0的个数，n_*0为所有可选变量取值为0的个数，n_i1为标签取第i个值，对应可选变量为1的个数，n_*1为所有可选变量取值为1的个数；

第一比较单元，用于将每一关系型特征标签的信息量值IV与预设的信息量阈值进行比较；

第一提取单元，用于提取出信息量值IV大于信息量阈值的关系型特征标签，组成第三特征标签集。

优选地，所述第一重要性度量值确定模块15，包括：

训练单元，用于将关系型特征标签集中的每一关系型特征标签输入预设的梯度提升决策模型中进行训练，根据每一关系型特征标签在梯度提升决策模型的每颗树中的重要性平均值，确定每一关系型特征标签的重要性度量值；

第二比较单元，用于将每一关系型特征标签的重要性度量值与预设的重要性度量阈值进行比较；

第二提取单元，用于提取出重要性度量值大于重要性度量阈值的关系型特征标签，组成第四特征标签集。

所述整合处理模块16，包括：

整合单元，用于对第一特征标签集、第二特征标签集、第三特征标签集和第四特征标签集进行整合，得到初始特征标签集合；

统计单元，用于统计初始特征标签集合中每一类型的初始特征标签的标签数量；

第三提取单元，用于提取出标签数量大于预设阈值的初始特征标签，组成目标关系型标签集。

优选地，关系型数据的标签清洗装置，还包括：

第二异常占比值计算模块21，用于计算第一特征标签集中每一第一特征标签的异常占比值，提取出异常占比值小于异常占比阈值的第一特征标签，组成候选特征标签集；第二信息量值计算模块22，用于计算候选特征标签集中每一候选特征标签的信息量值，提取出信息量值大于信息量阈值的候选特征标签，组成标准特征标签集；

第二重要性度量值确定模块23，用于采用预设的决策树模型确定标准特征标签集中每一标准特征标签的重要性度量值，提取出重要性度量值大于重要性度量阈值的标准特征标签，组成目标关系型标签集。

关于关系型数据的标签清洗装置的具体限定可以参见上文中对于关系型数据的标签清洗方法的限定，在此不再赘述。上述关系型数据的标签清洗装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于上述实施例中的关系型数据的标签清洗方法中使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种关系型数据的标签清洗方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的关系型数据的标签清洗方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中的关系型数据的标签清洗方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率 SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种关系型数据的标签清洗方法，其特征在于，包括：

2.如权利要求1所述的关系型数据的标签清洗方法，其特征在于，所述计算所述关系型特征标签集中每一关系型特征标签的异常占比值，提取出所述异常占比值小于异常占比阈值的关系型特征标签，组成第二特征标签集，包括：

获取所述关系型特征标签集中每一关系型特征标签；

判断每一所述关系型特征标签的关系型变量值的数据类型；

若所述关系型特征标签的所述关系型变量值的数据类型为连续型，则采用预设的异常值计算公式，确定所述关系型特征标签中的异常值；

若所述关系型特征标签的所述关系型变量值的数据类型为离散型，则根据所述关系型特征标签获取对应的筛选标准，并根据所述筛选标准确定所述关系型特征标签中的异常值；

计算每一所述关系型特征标签中所述异常值在对应的所述关系型变量值中的异常占比值，提取出所述异常占比值小于异常占比阈值的关系型特征标签，组成第二特征标签集。

3.如权利要求1所述的关系型数据的标签清洗方法，其特征在于，所述计算所述关系型特征标签集中每一关系型特征标签的信息量值，提取出所述信息量值大于信息量阈值的关系型特征标签，组成第三特征标签集，包括：

采用如下公式计算所述关系型特征标签集中每一关系型特征标签的信息量值IV:

将每一所述关系型特征标签的所述信息量值IV与预设的信息量阈值进行比较；

提取出所述信息量值IV大于所述信息量阈值的关系型特征标签，组成第三特征标签集。

4.如权利要求1所述的关系型数据的标签清洗方法，其特征在于，所述采用预设的决策树模型确定所述关系型特征标签集中每一关系型特征标签的重要性度量值，提取出所述重要性度量值大于重要性度量阈值的关系型特征标签，组成第四特征标签集，包括：

将所述关系型特征标签集中的每一关系型特征标签输入预设的梯度提升决策模型中进行训练，根据每一所述关系型特征标签在所述梯度提升决策模型的每颗树中的重要性平均值，确定每一所述关系型特征标签的重要性度量值；

将每一所述关系型特征标签的所述重要性度量值与预设的重要性度量阈值进行比较；

提取出所述重要性度量值大于所述重要性度量阈值的关系型特征标签，组成第四特征标签集。

5.如权利要求1所述的关系型数据的标签清洗方法，其特征在于，所述根据预设策略对所述第一特征标签集、所述第二特征标签集、所述第三特征标签集和所述第四特征标签集进行整合处理，得到目标关系型标签集，包括：

对所述第一特征标签集、所述第二特征标签集、所述第三特征标签集和所述第四特征标签集进行整合，得到初始特征标签集合；

统计所述初始特征标签集合中每一类型的初始特征标签的标签数量；

提取出所述标签数量大于预设阈值的初始特征标签，组成目标关系型标签集。

6.如权利要求1所述的关系型数据的标签清洗方法，其特征在于，所述计算所述关系型特征标签集中每一关系型特征标签的数据饱和度，将所述关系型特征标签集中所述数据饱和度小于饱和度阈值的关系型特征标签剔除，得到第一特征标签集之后，还包括：

计算所述第一特征标签集中每一第一特征标签的异常占比值，提取出所述异常占比值小于异常占比阈值的第一特征标签，组成候选特征标签集；

计算所述候选特征标签集中每一候选特征标签的信息量值，提取出所述信息量值大于信息量阈值的候选特征标签，组成标准特征标签集；

采用预设的决策树模型确定所述标准特征标签集中每一标准特征标签的重要性度量值，提取出所述重要性度量值大于重要性度量阈值的标准特征标签，组成目标关系型标签集。

7.一种关系型数据的标签清洗装置，其特征在于，包括：

8.如权利要求7所述的关系型数据的标签清洗装置，其特征在于，所述第一异常占比值计算模块，包括：

第一获取单元，用于获取关系型特征标签集中每一关系型特征标签；

判断单元，用于判断每一关系型特征标签的关系型变量值的数据类型；

第一异常值确定单元，用于在关系型特征标签的关系型变量值的数据类型为连续型时，采用预设的异常值计算公式，确定关系型特征标签中的异常值；

第二异常值确定单元，用于在关系型特征标签的关系型变量值的数据类型为离散型时，根据关系型特征标签获取对应的筛选标准，并根据筛选标准确定关系型特征标签中的异常值；

异常占比值计算单元，用于计算每一关系型特征标签中异常值在对应的关系型变量值中的异常占比值，提取出异常占比值小于异常占比阈值的关系型特征标签，组成第二特征标签集。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述关系型数据的标签清洗方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述关系型数据的标签清洗方法。