CN108268517A

CN108268517A - 数据库中标签的管理方法及系统

Info

Publication number: CN108268517A
Application number: CN201611263831.3A
Authority: CN
Inventors: 陆卫东
Original assignee: Shanghai Simcom Ltd
Current assignee: Shanghai Simcom Ltd
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2018-07-10
Anticipated expiration: 2036-12-30
Also published as: CN108268517B

Abstract

本发明公开了一种数据库中标签的管理方法及系统，其中所述管理方法包括：创建表，所述表的表名包括至少一信息；获取标签的至少一特征；从创建的表中，查找与所述标签相匹配的第一表，所述第一表的表名的包括的信息与所述特征相匹配；将所述标签存入所述第一表中。本发明能够对海量的标签分库分表管理，并且在分库分表的标签还便于后期的快速定位查询，极大地简化了管理复杂度，降低了分库分表后聚合查询的难度。

Description

数据库中标签的管理方法及系统

技术领域

本发明属于计算机领域，尤其涉及一种数据库中标签的管理方法及系统。

背景技术

随着互联网应用的广泛普及，海量数据的存储和访问成为了系统设计的瓶颈问题。越来越多的互联网公司会通过一些特定的标签对上网用户进行标识，从而分析出用户的上网行为，再根据用户的行为特征，进行有针对性的信息推送。对于一个大型的互联网应用，每天几十亿的PV(页面浏览量)无疑对数据库造成了相当高的负载，对于系统的稳定性和扩展性造成了极大的问题。很好的维护海量的标签数据，显得尤为重要。

现有技术通常通过数据切分来提高网站性能，横向扩展数据层已经成为架构研发人员首选的方式：

垂直分割，就是将一个达标分为多个小标，把主码和一些列放到一个表，然后把主码和另外的列放到一个表中，如果一个表中某些列常用，而另外一些列不常用，则可以采用垂直分割，另外垂直分割可以使得数据行变小，一个数据页就能存放更多的数据，在查询的时候，就会检查I/O和网络连接的次数。

按照时间分表，就是从时间的维度进行分表；按照热度拆分分表，典型的像论坛，搜索引擎这样有高点击率的彩条，也有低点击率的词条，对高点击率的词条生成一张表，低热度的词条放在一张大表，待低热度的词条达到一定的点击率之后，比如2万次，再把低热度的表单独拆分成一张表。

垂直分割的缺点就是要管理冗余列，查询所有数据需要join操作，较为复杂。按照时间的维度处理在较强时效性的数据时有一定的局限性。

发明内容

本发明要解决的技术问题是为了克服现有技术在维护标签数据时存在管理复杂且有局限性的缺陷，提供一种数据库中标签的管理方法及系统。

本发明是通过以下技术方案解决上述技术问题的：

一种数据库中标签的管理方法，其特点是，所述管理方法包括：

S₁、创建表，所述表的表名包括至少一信息；

S₂、获取标签的至少一特征；

S₃、从创建的表中，查找与所述标签相匹配的第一表，所述第一表的表名的包括的信息与所述特征相匹配；

S₄、将所述标签存入所述第一表中。

较佳地，所述至少一信息包括数字信息，每个数字信息对应一个长度区间，所述至少一特征包括所述标签的名称的长度，所述第一表的表名的包括的信息与所述特征相匹配包括：所述第一表的表名的数字信息对应的长度区间包含所述标签的名称的长度；

和/或，所述至少一信息包括字母信息，所述至少一特征包括所述标签的名称的首个字母，所述第一表的表名的包括的信息与所述特征相匹配包括：所述第一表的表名的字母与所述标签的名称的首个字母相同。

较佳地，S₃包括：

判断创建的表中是否存在与所述标签相匹配的第一表，所述第一表的表名的包括的信息与所述特征相匹配，若存在，则执行S₄，若不存在，则创建所述第一表，然后执行S₄。

较佳地，S₄还包括：

在所述第一表的索引字段中加入所述标签的索引号，所述索引号包括序列号、分隔符和所述第一表的表名包括的所述至少一信息；

所述管理方法还包括：通过所述索引号定位所述第一表，查询所述标签。

较佳地，所述管理方法还包括：

获取搜索的关键字，所述关键字的长度为M，M为正整数；

按照M+1的长度生成索引号；

搜索符合生成的索引号的标签；

返回具有所述标签的数据信息。

一种数据库中标签的管理系统，其特点是，所述管理系统包括：

创建单元，用于创建表，所述表的表名包括至少一信息；

获取单元，用于获取标签的至少一特征；

查找单元，用于从创建的表中，查找与所述标签相匹配的第一表，所述第一表的表名的包括的信息与所述特征相匹配；

存储单元，用于将所述标签存入所述第一表中。

较佳地，所述查找单元还用于判断创建的表中是否存在与所述标签相匹配的第一表，所述第一表的表名的包括的信息与所述特征相匹配，若存在，则调用所述存储单元，若不存在，则调用所述创建单元创建所述第一表，然后调用所述存储单元。

较佳地，所述管理系统还包括：

索引单元，用于在所述第一表的索引字段中加入所述标签的索引号，通过所述索引号定位所述第一表，查询所述标签；

所述索引号包括序列号、分隔符和所述第一表的表名包括的所述至少一信息。

较佳地，所述管理装置还包括：

搜索单元，用于获取搜索的关键字，所述关键字的长度为M，M为正整数；

所述搜索单元，还用于按照M+1的长度生成索引号，搜索符合生成的索引号的标签，返回具有所述标签的数据信息。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实例。

本发明的积极进步效果在于：本发明能够对海量的标签分库分表管理，并且在分库分表的标签还便于后期的快速定位查询，极大地简化了管理复杂度，降低了分库分表后聚合查询的难度。

附图说明

图1为本发明实施例的数据库中标签的管理方法的流程图。

图2为本发明实施例的数据库中标签的管理系统的示意框图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例

一种数据库中标签的管理方法，如图1所示，所述管理方法包括：

步骤101、创建表，所述表的表名包括至少一信息。所述至少一信息包括数字信息和字母信息。本实施例中的所述数字信息即为一个1位的数字，所述数字可以为0～9中的任意一个，每个数字信息对应一个长度区间，如数字信息“1”对应长度区间1-3，数字信息“2w”对应长度区间4-6，数字信息“3”对应长度区间7-10，数字信息“5”对应长度区间10以上；本实施例中的所述字母信息即为一个字母，所述字母可以为A～Z中的任意一个。本步骤中创建的表分布于同一或不同数据库中。

下面给出所述表的表名的一种具体形式：前缀名称+分隔符+后缀名称，其中，所述前缀名称是由技术人员根据表的内容、业务特征或其它习惯自定义的名称，如t_tag，所述后缀名称包括所述数字信息和所述字母信息，如1A、2C、3H等，完整的表名可以为t_tag_1A、t_tag_2C、t_tag_3H等。

步骤102、获取标签的至少一特征。所述至少一特征包括所述标签的名称的长度和所述标签的名称的首个字母。若标签的名称为中文，则所述标签的名称的首个字母为标签的名称中第一个汉字的拼音首字母，不区分大小写；若标签的名称为英文，则所述标签的名称的首个字母即为第一个字母，不区分大小写；若标签的名称为数字，则自行设定一个字母来作为所述标签的名称的首个字母。

例如，标签的名称为white，则标签的名称的长度为5，所述标签的名称的首个字母为w。

步骤103、判断创建的表中是否存在与所述标签相匹配的第一表，若存在，则执行步骤105，若不存在，则执行步骤104。其中，与所述标签相匹配的第一表是指，所述第一表的表名的包括的信息与所述特征相匹配，具体包括所述第一表的表名的数字信息对应的长度区间包含所述标签的名称的长度，以及所述第一表的表名的字母与所述标签的名称的首个字母相同。

还是以标签的名称为white为例，标签的名称的长度5属于上述的长度区间4-6，对应的数字信息为“2”，所述标签的名称的首个字母为w，那么与该标签相匹配的第一表应当为表名中包括“2w”的表，步骤103中的判断即为判断创建的表中是否存在表名中包括“2w”的表。

步骤104、创建所述第一表，然后执行步骤105。在上例中，创建的第一表即为表名中包括“2w”的表。

步骤105、将所述标签存入所述第一表中。

上述步骤完成了标签的分库分表存储。

为了方便标签的查询，本实施例的管理方法中，步骤105还包括：在所述第一表的索引字段中加入所述标签的索引号，通过所述索引号定位所述第一表，查询所述标签。

其中，所述索引号包括序列号、分隔符和所述第一表的表名包括的所述至少一信息。所述序列号由内部程序生成，每个索引号的序列号不重复。对于上例而言，所述标签的索引号可以为10_2w。

所述索引号有利于快速查找标签存入的表，定位标签表空间位置。如，需要查询索引号为1022_3C的标签信息数据，则可以通过索引号的后缀名称3C快速定位到需要获取标签存入的表的表名：t_tag_3C，查询表中数据。

数据库中维护的数据可能十分庞大，技术人员在查询数据时可能不能或不想输入准确的关键字，想要进行模糊查询。由于数据过于分散，如果通过名称模糊匹配查询数据可能会导致查询过于复杂。本实施例的管理方法可以利用前述步骤中的索引号来模糊查询标签及数据。具体包括：

获取搜索的关键字，所述关键字的长度为M，M为正整数；

按照M+1的长度生成索引号；

搜索符合生成的索引号的标签；

返回具有所述标签的数据信息。

本实施例的数据库中标签的管理系统，如图2所示，所述管理系统包括：创建单元201、获取单元202、查找单元203和存储单元204。

创建单元，用于创建表，所述表的表名包括至少一信息。所述至少一信息包括数字信息和字母信息。本实施例中的所述数字信息即为一个1位的数字，所述数字可以为0～9中的任意一个，每个数字信息对应一个长度区间；本实施例中的所述字母信息即为一个字母，所述字母可以为A～Z中的任意一个。

获取单元，用于获取标签的至少一特征。所述至少一特征包括所述标签的名称的长度和所述标签的名称的首个字母。若标签的名称为中文，则所述标签的名称的首个字母为标签的名称中第一个汉字的拼音首字母，不区分大小写；若标签的名称为英文，则所述标签的名称的首个字母即为第一个字母，不区分大小写；若标签的名称为数字，则自行设定一个字母来作为所述标签的名称的首个字母。

查找单元，用于判断创建的表中是否存在与所述标签相匹配的第一表，若存在，则调用所述存储单元，若不存在，则调用所述创建单元创建所述第一表，然后调用所述存储单元。其中，与所述标签相匹配的第一表是指，所述第一表的表名的包括的信息与所述特征相匹配，具体包括所述第一表的表名的数字信息对应的长度区间包含所述标签的名称的长度，以及所述第一表的表名的字母与所述标签的名称的首个字母相同。

所述存储单元，用于将所述标签存入所述第一表中。

为了方便标签的查询，所述管理系统还包括：

索引单元205，用于在所述第一表的索引字段中加入所述标签的索引号，通过所述索引号定位所述第一表，查询所述标签。所述索引号包括序列号、分隔符和所述第一表的表名包括的所述至少一信息。

搜索单元206，用于获取搜索的关键字，所述关键字的长度为M，M为正整数，还用于按照M+1的长度生成索引号，搜索符合生成的索引号的标签，返回具有所述标签的数据信息。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种数据库中标签的管理方法，其特征在于，所述管理方法包括：

S₁、创建表，所述表的表名包括至少一信息；

S₂、获取标签的至少一特征；

S₄、将所述标签存入所述第一表中。

2.如权利要求1所述的管理方法，其特征在于，所述至少一信息包括数字信息，每个数字信息对应一个长度区间，所述至少一特征包括所述标签的名称的长度，所述第一表的表名的包括的信息与所述特征相匹配包括：所述第一表的表名的数字信息对应的长度区间包含所述标签的名称的长度；

3.如权利要求1所述的管理方法，其特征在于，S₃包括：

4.如权利要求1所述的管理方法，其特征在于，S₄还包括：

5.如权利要求4所述的管理方法，其特征在于，所述管理方法还包括：

获取搜索的关键字，所述关键字的长度为M，M为正整数；

按照M+1的长度生成索引号；

搜索符合生成的索引号的标签；

返回具有所述标签的数据信息。

6.一种数据库中标签的管理系统，其特征在于，所述管理系统包括：

创建单元，用于创建表，所述表的表名包括至少一信息；

获取单元，用于获取标签的至少一特征；

存储单元，用于将所述标签存入所述第一表中。

7.如权利要求6所述的管理系统，其特征在于，所述至少一信息包括数字信息，每个数字信息对应一个长度区间，所述至少一特征包括所述标签的名称的长度，所述第一表的表名的包括的信息与所述特征相匹配包括：所述第一表的表名的数字信息对应的长度区间包含所述标签的名称的长度；

8.如权利要求6所述的管理系统，其特征在于，所述查找单元还用于判断创建的表中是否存在与所述标签相匹配的第一表，所述第一表的表名的包括的信息与所述特征相匹配，若存在，则调用所述存储单元，若不存在，则调用所述创建单元创建所述第一表，然后调用所述存储单元。

9.如权利要求6所述的管理系统，其特征在于，所述管理系统还包括：

10.如权利要求9所述的管理系统，其特征在于，所述管理装置还包括：