CN112632143A

CN112632143A - 一种数据标签生成方法及装置

Info

Publication number: CN112632143A
Application number: CN202011621560.0A
Authority: CN
Inventors: 刘惠民; 孙琳; 孔伟国; 姚张钰; 任肖军
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-09

Abstract

本申请公开了一种数据标签生成方法及装置，该方法包括：获取数据库表结构中的多个表字段；当表字段的数据类型为主关键字时，将该字段与第一业务实体对应的数据作为标识；当表字段的数据类型为数值类型时，根据该表字段与第一业务实体对应的数值所在的数值区间得到第一标签；当表字段为文本类型时，根据该表字段与第一业务实体对应的文本内容得到第二标签；根据标识以及第一标签和/或第二标签生成第一业务实体的标签。可知，本申请通过识别数据库表结构中的表字段的类型，识别出主关键字和数值或文本的表字段，并根据数值和文本的特点，生成各个表字段对应的标签。如此，可以自动生成与业务实体属性和业务场景对应的标签，节省了时间和精力。

Description

一种数据标签生成方法及装置

技术领域

本申请涉及数据管理技术领域，尤其涉及一种数据标签生成方法及装置。

背景技术

数据标签是一种能够描述业务实体特征的数据形式。其通过对业务实体的属性进行刻画，反应业务实体的特征。其中，当一个业务实体拥有多个标签时，其可以反映业务实体的多方面的特征。

由于不同数据的属性代表的含义和分布情况不同，且不同业务场景需要的数据标签反映了业务实体不同的方面的特征，目前需要根据特定的业务实体的属性和业务场景的需求制定特定的分类规则，再根据该特定的分类规则生成特定的数据标签，耗费了大量的时间和精力，标签生成效率低。

发明内容

为了解决上述技术问题，本申请提供了一种数据标签生成方法及装置，该方法用于自动生成与业务实体属性和业务场景对应的标签。

为了实现上述目的，本申请实施例提供的技术方案如下：

本申请实施例提供一种数据标签生成方法，所述方法包括：

获取数据库表结构中的多个表字段；

逐个确定所述多个表字段的数据类型；

当表字段的数据类型为主关键字时，将该表字段作为所述第一类表字段，将所述第一类表字段与第一业务实体对应的数据作为所述第一业务实体的标识；

当表字段的数据类型不为主关键字且为数值类型时，将该表字段作为第二类表字段，根据所述第二类表字段与所述第一业务实体对应的数值所在的数值区间得到所述第一业务实体的第一标签；

当表字段的数据类型不为主关键字且为文本类型时，将该表字段作为第三类表字段，根据所述第三类表字段与所述第一业务实体对应的文本内容得到所述第一业务实体的第二标签；

根据所述标识以及所述第一标签和/或所述第二标签生成所述第一业务实体的标签。

可选地，所述数据库表结构中的所有业务实体的第一标签为同步生成的；

所述数据库表结构中的所有业务实体的第二标签为同步生成的。

可选地，所述方法还包括：

获得数据库表结构中所述第二类表字段的数值；所述第二类表字段的数为所有业务实体对应的第二类表字段的数值；

根据所述第二类表字段的数值获得所述第二类表字段的数值的总区间；

对所述总区间进行划分，得到所述数值区间集合；

所述根据所述第二类表字段与所述第一业务实体对应的数值所在的数值区间得到所述第一业务实体的第一标签，包括：

根据所述第二类表字段与所述第一业务实体对应的数值在所述数值区间集合中的数值区间，得到所述第一业务实体的第一标签。

可选地，所述对所述总区间进行划分，得到所述数值区间集合，包括：

通过对所述数值总区间进行等比划分，得到第一区间集合；

通过对所述数值总区间进行等差划分，得到第二区间集合；

根据所述第一区间集合中的各个第一区间包含的所述业务实体数量获得第一分布信息；

根据所述第二区间集合中的各个第二区间包含的所述业务实体数量获得第二分布信息；

当所述第一分布信息的均衡性优于所述第二分布信息的均衡性时，将所述第一区间集合作为所述数值区间集合；

当所述第二分布信息的均衡性优于所述第一分布信息的均衡性时，将所述第二区间集合作为所述数值区间集合。

可选地，还包括：

对于同一个第二类表字段，当数据库表结构中所有业务实体的第一标签的种类数超过第一阈值时，删除所述第一标签；

对于同一个第三类表字段，当数据库表结构中所有业务实体的第二标签的种类数超过第一阈值时，删除所述第二标签。

可选地，当所述多个表字段包含多个所述第二类表字段时，不同的所述第二类表字段的第一标签不同；

当所述多个表字段包含多个所述第三类表字段时，不同的所述第三类表字段的第二标签不同。

本申请实施例还提供了一种数据标签生成装置，所述装置包括：

获得模块，用于获取数据库表结构中的多个表字段；

类型确定模块，用于逐个确定所述多个表字段的数据类型；

标识确定模块，用于当表字段的数据类型为主关键字时，将该表字段作为所述第一类表字段，将所述第一类表字段与第一业务实体对应的数据作为所述第一业务实体的标识；

标签确定模块，用于当表字段的数据类型不为主关键字且为数值类型时，将该表字段作为第二类表字段，根据所述第二类表字段与所述第一业务实体对应的数值所在的数值区间得到所述第一业务实体的第一标签；

标签生成模块，用于根据所述标识以及所述第一标签和/或所述第二标签生成所述第一业务实体的标签。

可选地，所述装置还包括：

数值确定模块，用于获得数据库表结构中所述第二类表字段的数值；所述第二类表字段的数为所有业务实体对应的第二类表字段的数值；

总区间获得模块，用于根据所述第二类表字段的数值获得所述第二类表字段的数值的总区间；

数值区间获得模块，对所述总区间进行划分，得到所述数值区间集合；

可选地，所述数值区间获得模块，具体用于：

通过对所述数值总区间进行等比划分，得到第一区间集合；

通过对所述数值总区间进行等差划分，得到第二区间集合；

通过上述技术方案可知，本申请具有以下有益效果：

本申请实施例提供了一种数据标签生成方法，该方法包括：获取数据库表结构中的多个表字段；逐个确定多个表字段的数据类型；当表字段的数据类型为主关键字时，将该表字段作为第一类表字段，将第一类表字段与第一业务实体对应的数据作为第一业务实体的标识；当表字段的数据类型不为主关键字且为数值类型时，将该表字段作为第二类表字段，根据第二类表字段与第一业务实体对应的数值所在的数值区间得到第一业务实体的第一标签；当表字段的数据类型不为主关键字且为文本类型时，将该表字段作为第三类表字段，根据第三类表字段与第一业务实体对应的文本内容得到第一业务实体的第二标签；根据标识以及第一标签和/或第二标签生成第一业务实体的标签。

由此可知，本申请技术方案通过自动识别数据库表结构中的表字段，根据表字段的类型识别出主关键字和描述业务实体特征的数值或文本的表字段，并根据数值类型的表字段和文本类型的表字段的特点，生成各个表字段对应的标签。如此，本申请可以自动生成与业务实体属性和业务场景对应的标签，节省了大量的时间和精力。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的数据标签生成方法流程示意图；

图2为本申请实施例提供的数据标签生成装置结构示意图。

具体实施方式

为了帮助更好地理解本申请实施例提供的方案，在介绍本申请实施例提供的方法之前，先介绍本申请实施例方案的应用的场景。

数据标签是一种能够描述业务实体特征的数据形式。其通过对业务实体的属性进行刻画，反应业务实体的特征。其中，当一个业务实体拥有多个标签时，其可以反映业务实体的多方面的特征。比如业务实体是客户时，业务方可以根据客户的数据标签对客户进行全面了解，比如客户的年龄、性别、职业、收入情况、家庭情况等，为商品营销等提供信息支撑。在本申请实施例中，业务实体包括用户、商品、商户、产品等。

为了解决上述的技术问题，本申请技术方案通过自动识别数据库表结构中的表字段，根据表字段的类型识别出主关键字和描述业务实体特征的数值或文本的表字段，并根据数值类型的表字段和文本类型的表字段的特点，生成各个表字段对应的标签。如此，本申请可以自动生成与业务实体属性和业务场景对应的标签，节省了大量的时间和精力。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

参见图1，该图为本申请实施例提供的一种数据标签生成方法流程示意图。如图1所示，本申请实施例提供的数据标签生成方法包括如下步骤S101至步骤S101：

S101：获取数据库表结构中的多个表字段。

S102：逐个确定多个表字段的数据类型。

S103：当表字段的数据类型为主关键字时，将该表字段作为第一类表字段，将第一类表字段与第一业务实体对应的数据作为第一业务实体的标识。

S104：当表字段的数据类型不为主关键字且为数值类型时，将该表字段作为第二类表字段，根据第二类表字段与第一业务实体对应的数值所在的数值区间得到第一业务实体的第一标签；当表字段的数据类型不为主关键字且为文本类型时，将该表字段作为第三类表字段，根据第三类表字段与第一业务实体对应的文本内容得到第一业务实体的第二标签。

S105：根据标识以及第一标签和/或第二标签生成第一业务实体的标签。

需要说明的是，本申请实施例所提供的方法可以应用于数据集市。在本申请实施例中数据集市(即数据市场)，为满足特定部门或用户的需求，按照多维的方式进行存储，生成面向决策分析需求的数据集。在本申请实施例中数据集市会将业务实体的所有相关数据集中存储到数据库对应的表中，本申请实施例中的数据库表结构为，存储有本申请实施例中的业务实体相关数据的表的表结构。

在本申请实施例中，同一个表字段可能对应多个业务实体，作为一种可能的实施方式，为了方便同一个表字段的多个业务实体生成，数据库表结构中的所有业务实体的第一标签为同步生成的；数据库表结构中的所有业务实体的第二标签为同步生成的。在实际应用中，同一个表字段的多个业务实体的标签通常具有一定的相关性，因此，将所有业务实体的标签同步生成，可以节省计算机资源，提高标签的生成效率。

下面将对本申请实施例中的步骤S104进行详细介绍：

在本申请实施例中，为了获得合适的数值区间，可以获得数据库表结构中第二类表字段的数值；第二类表字段的数为所有业务实体对应的第二类表字段的数值；根据第二类表字段的数值获得第二类表字段的数值的总区间；对总区间进行划分，得到数值区间集合。此时，本申请实施例中，根据第二类表字段与第一业务实体对应的数值所在的数值区间得到第一业务实体的第一标签，包括：根据第二类表字段与第一业务实体对应的数值在数值区间集合中的数值区间，得到第一业务实体的第一标签。如此，本申请实施例可以根据数据库表中的数据的实际分布情况，生成与业务实体的数据相匹配的数值区间，从而使得本申请实施例生成的标签与业务实体的属性匹配程度更高。

进一步地，在本申请实施例中，作为一种可能的实施方式，对总区间进行划分，得到数值区间集合，包括：通过对数值总区间进行等比划分，得到第一区间集合；通过对数值总区间进行等差划分，得到第二区间集合；根据第一区间集合中的各个第一区间包含的业务实体数量获得第一分布信息；根据第二区间集合中的各个第二区间包含的业务实体数量获得第二分布信息；当第一分布信息的均衡性优于第二分布信息的均衡性时，将第一区间集合作为数值区间集合；当第二分布信息的均衡性优于第一分布信息的均衡性时，将第二区间集合作为数值区间集合。可以理解的是，本申请实施例所提供的方案可以生成多种区间划分方式，并通过这多种区间划分方式的结果，从多种区间划分方式中选择结果均衡性较好的划分方式，从而生成与业务实体的数据相匹配的数值区间，从而使得本申请实施例生成的标签与业务实体的属性匹配程度更高。

下面将通过一个具体的示例来介绍本申请实施例提供的区间划分方式：

首先找寻表中数值数据的最大值和最小值，确定数据范围。

对数据分别进行等比分布统计，比如所有人的账户余额数字范围是-1000到1000000，阈值为10，则通过如下公式计算阶段范围值：

10ⁿ＝V_max

其中，10是阶段初始值，n是正数数值的分段数量，V_max是最大值，每段的数据范围为10^x-10^x+1。

根据上述公式，即分段统计如下例子：

账户余额范围	范围内账户数量
		-1000-(-100)	10
-100-(-10)	21
		-10-0	30
0-10	16
		10-100	18
100-1000	15
		1000-10000	68
10000-100000	42
		100000-1000000	15

然后，根据阈值对数据进行等差分布统计，比如所有客户的年龄数字范围是0到110，阈值为10，则通过如下公式计算阶段初始范围值：

X×n＝V_max

X是阶段初始值，n是分段数量，V_max是最大值，每段的数据范围为X×t-X×(t+1)，根据公式可以知阶段初始值为11

年龄范围	范围内客户数量
		0-11	10
11-22	5
		22-33	7
33-44	9
		44-55	1
55-66	4
		66-77	8
77-88	1
		88-99	1
99-110	1

通过以上两步，对数据分布情况有了全面的了解，然后比较两种分布的数据均衡性，数据均衡性比较可以采用如下方法：

根据等比分布和等差分布的统计结果，分布计算每种分布阶段范围数量的方差，其中方差较小的分布为均衡性更好的分布

在本申请实施例中，为了使本申请实施例中的标签更符合人类阅读的基本特性，可以对直接得到的数值区间名字进行数据规整，从而生成标签。作为一个示例：最大值除以10和100后的只保留最高位不为0的值，入110除以10保留最高位不为0的值为10，除以100只保留最高位不为0的值是1。阶段初始值和上述两个值比较，和哪个结果最接近，哪个确定为新的阶段初始值。比如上方年龄的例子，阶段初始值11和10更接近，10为最新的阶段初始值，对数据进行重新统计和打标签如下：

年龄范围	标签
		0-10	年龄小于10岁
10-20	年龄小于20岁大于10岁
		20-30	年龄小于30岁大于20岁
30-40	年龄小于40岁大于30岁
		40-50	年龄小于50岁大于40岁
50-60	年龄小于60岁大于50岁
		60-70	年龄小于70岁大于60岁
70-80	年龄小于80岁大于70岁
		80-90	年龄小于90岁大于80岁
90-100	年龄小于100岁大于90岁
		100-110	年龄小于110岁大于100岁

为了使本申请实施例提供的标签实用性更高，对于同一个第二类表字段，当数据库表结构中所有业务实体的第一标签的种类数超过第一阈值时，删除第一标签；对于同一个第三类表字段，当数据库表结构中所有业务实体的第二标签的种类数超过第一阈值时，删除第二标签。可以理解的是，在本申请实施例制定的规则下生成的标签可能同一个标签下的业务实体数量过少，甚至同一标签下只有一个业务实体，此时，该标签并不能起到实际的分类作用，没有实用价值。因此本申请实施为了避免这种情况发生，对于同一个表字段，在表结构所有业务实体对应标签种类数大于第一阈值时，删除该标签。作为一个示例，若第一阈值为50，而性别表字段对应的标签数或省份表字段对应的标签数统计后个数小于50，而城市表字段对应的标签数大于50，将性别或省份代码内容作为标签标记客户数据，而删除城市表字段生成的标签。若第一阈值调整后大于城市数量，则也保留城市表字段生成的标签。

在本申请实施例中，当多个表字段包含多个第二类表字段时，不同的第二类表字段的第一标签不同；当多个表字段包含多个第三类表字段时，不同的第三类表字段的第二标签不同。需要说明的是，在本申请实施例中的第一类表字段中一般只含有一个表字段。但本申请实施例中的第二类表字段和第三类表字段可以含有多个表字段，且不同的表字段将生成多个不同的第一标签。

综上所述，本申请实施例提供的方法通过自动识别数据库表结构中的表字段，根据表字段的类型识别出主关键字和描述业务实体特征的数值或文本的表字段，并根据数值类型的表字段和文本类型的表字段的特点，生成各个表字段对应的标签。如此，本申请可以自动生成与业务实体属性和业务场景对应的标签，节省了大量的时间和精力。

根据上述实施例提供的数据标签生成方法，本申请实施例还提供了一种数据标签生成装置。参见图2，该图为本申请实施例提供的数据标签生成装置结构示意图。如图2所示，本申请实施例中的数据标签生成结构，包括：

获得模块100，用于获取数据库表结构中的多个表字段。

类型确定模块200，用于逐个确定多个表字段的数据类型。

标识确定模块300，用于当表字段的数据类型为主关键字时，将该表字段作为第一类表字段，将第一类表字段与第一业务实体对应的数据作为第一业务实体的标识。

标签确定模块400，用于当表字段的数据类型不为主关键字且为数值类型时，将该表字段作为第二类表字段，根据第二类表字段与第一业务实体对应的数值所在的数值区间得到第一业务实体的第一标签；当表字段的数据类型不为主关键字且为文本类型时，将该表字段作为第三类表字段，根据第三类表字段与第一业务实体对应的文本内容得到第一业务实体的第二标签。

标签生成模块500，用于根据标识以及第一标签和/或第二标签生成第一业务实体的标签。

作为一种可能的实施方式，本申请实施例中的装置还包括：数值确定模块，用于获得数据库表结构中第二类表字段的数值；第二类表字段的数为所有业务实体对应的第二类表字段的数值；总区间获得模块，用于根据第二类表字段的数值获得第二类表字段的数值的总区间；数值区间获得模块，对总区间进行划分，得到数值区间集合；根据第二类表字段与第一业务实体对应的数值所在的数值区间得到第一业务实体的第一标签，包括：根据第二类表字段与第一业务实体对应的数值在数值区间集合中的数值区间，得到第一业务实体的第一标签。

在本申请实施例中，作为一种可能的实施方式，数值区间获得模块，具体用于：通过对数值总区间进行等比划分，得到第一区间集合；通过对数值总区间进行等差划分，得到第二区间集合；根据第一区间集合中的各个第一区间包含的业务实体数量获得第一分布信息；根据第二区间集合中的各个第二区间包含的业务实体数量获得第二分布信息；当第一分布信息的均衡性优于第二分布信息的均衡性时，将第一区间集合作为数值区间集合；当第二分布信息的均衡性优于第一分布信息的均衡性时，将第二区间集合作为数值区间集合。

作为一种可能的实施方式，对于同一个第二类表字段，当数据库表结构中所有业务实体的第一标签的种类数超过第一阈值时，本申请中的标签生成模块还可以用于删除第一标签；对于同一个第三类表字段，当数据库表结构中所有业务实体的第二标签的种类数超过第一阈值时，本申请中的标签生成模块还可以用于删除第二标签。

需要说明的是，在本申请实施例中，作为一种可能的实施方式，当多个表字段包含多个第二类表字段时，不同的第二类表字段的第一标签不同；当多个表字段包含多个第三类表字段时，不同的第三类表字段的第二标签不同。作为一种可能的实施方式，在本本申请实施例中，数据库表结构中的所有业务实体的第一标签为同步生成的；数据库表结构中的所有业务实体的第二标签为同步生成的。

综上，本申请实施例提供的装置通过自动识别数据库表结构中的表字段，根据表字段的类型识别出主关键字和描述业务实体特征的数值或文本的表字段，并根据数值类型的表字段和文本类型的表字段的特点，生成各个表字段对应的标签。如此，本申请可以自动生成与业务实体属性和业务场景对应的标签，节省了大量的时间和精力。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法而言，由于其与实施例公开的系统相对应，所以描述的比较简单，相关之处参见系统部分说明即可。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据标签生成方法，其特征在于，所述方法包括：

获取数据库表结构中的多个表字段；

逐个确定所述多个表字段的数据类型；

2.根据权利要求1所述的方法，其特征在于，所述数据库表结构中的所有业务实体的第一标签为同步生成的；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述总区间进行划分，得到所述数值区间集合；

4.根据权利要求3所述的方法，其特征在于，所述对所述总区间进行划分，得到所述数值区间集合，包括：

通过对所述数值总区间进行等比划分，得到第一区间集合；

通过对所述数值总区间进行等差划分，得到第二区间集合；

5.根据权利要求1所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，当所述多个表字段包含多个所述第二类表字段时，不同的所述第二类表字段的第一标签不同；

7.一种数据标签生成装置，其特征在于，所述装置包括：

获得模块，用于获取数据库表结构中的多个表字段；

类型确定模块，用于逐个确定所述多个表字段的数据类型；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求8所述的装置，其特征在于，所述数值区间获得模块，具体用于：

通过对所述数值总区间进行等比划分，得到第一区间集合；

通过对所述数值总区间进行等差划分，得到第二区间集合；

10.根据权利要求7所述的装置，其特征在于，当所述多个表字段包含多个所述第二类表字段时，不同的所述第二类表字段的第一标签不同；