CN110263021A

CN110263021A - 一种基于个性化标签体系的主题库生成方法

Info

Publication number: CN110263021A
Application number: CN201910552537.1A
Authority: CN
Inventors: 崔天雨; 宋设; 单震
Original assignee: Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Current assignee: Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-09-20
Anticipated expiration: 2039-06-25
Also published as: CN110263021B

Abstract

本发明特别涉及一种基于个性化标签体系的主题库生成方法。该基于个性化标签体系的主题库生成方法，以大数据平台为支撑，将大数据进行归类，一方面利用标签从多个维度对数据进行标识，依据标签项提取数据，对数据抽象出实体并打标签，对零散但有逻辑的数据实现统一管理；同时通过建立标签的方式建立主题库，将数据汇聚在各主题下，用户根据需求通过主题库即可快速拿到相关的主题下的数据。该基于个性化标签体系的主题库生成方法，对于拥有庞大数据量的机构或企业能够显著提高数据提取效率，适宜推广应用到各行各业。

Description

一种基于个性化标签体系的主题库生成方法

技术领域

本发明涉及大数据管理技术领域，特别涉及一种基于个性化标签体系的主题库生成方法。

背景技术

互联网数据的爆炸增长，使得众多机构组织需要维护的数据量不断增大，传统的手工写sql筛选查找数据库数据的方式越来越乏力，落后的数据管理无法适应当前的大数据量，众多数据在数据库中得不到有效利用，抽取相关数据费时费力，目前存在的应用处理程序，大都需要自己整理好初始数据后才可以运行。若能在数据处理之前就对数据进行主题库归类，则能大大减少数据处理程序需要的数据准备时间。

同时，标签的应用也愈加广泛，现实中的数据常常过于复杂，就用户为例，我们在面对具体场景时关心的常常是用户的某一个维度特征，而不是所有数据，针对特定维度建立标签使得数据更加直观，关注点更加清晰。

华东师范大学李明丽等于2009年发表的《主题资源生成式建设研究》中，分析了国内外的教育资源库建设的现状,提出了资源的主题化和生成式的建设思路；研究设计出一个具有生成式功能的主题资源库。面向的用户为教师和学生两个用户群,针对不同用户群分别建设不同的资源素材。

然而，由于互联网时代大数据的爆炸增长使得对数据的索引和价值提取难度增大，对各类资源的主题库建设可以将资源有效的划分，从而有针对性的拿取数据，避免了不相关资源的干扰，提高资源的有效利用率。此文中虽然提供了建立主题库的思想，但是对主题库的生成方式受时代的影响无法对大数据量的场景做研究，面对如今如此庞大的数据，手工处理的方式受到了应用场景限制。应时代发展要求，我们需要找到批量，灵活的主题库生成方式。

由于数据的复杂与多元性，标签更能直白的体现个体的特征，结合大数据平台与众多算法库，生成标签也变得更加容易，针对所有可抽象出的实体均可以建立标签。进而，将标签和主题库相关联，可通过标签实现主题库的创建。

基于上述情况，本发明设计了一种基于个性化标签体系的主题库生成方法。

发明内容

本发明为了弥补现有技术的缺陷，提供了一种简单高效的基于个性化标签体系的主题库生成方法。

本发明是通过如下技术方案实现的：

一种基于个性化标签体系的主题库生成方法，其特征在于：以大数据平台为支撑，将大数据进行归类，一方面利用标签从多个维度对数据进行标识，依据标签项提取数据，对数据抽象出实体并打标签，对零散但有逻辑的数据实现统一管理；同时通过建立标签的方式建立主题库，将数据汇聚在各主题下，用户根据需求通过主题库即可快速拿到相关的主题下的数据。

该基于个性化标签体系的主题库生成方法，包括以下步骤：

(1)生成标签池

包括创建实体，创建标签项，创建个性化规则和生成标签池四个部分；

(2)生成主题库

包括实现标签池搜索功能，查找主题相关标签项，对各标签项进行数据查询和导出数据生成主题库四个部分。

所述步骤(1)中，生成标签池具体步骤如下：

(a)根据数据库中数据之间的逻辑关系创建实体，并以数据库相关表中一个或多个字段作为数据的唯一标识将数据划分为多个个体；

(b)在创建个性化规则前维护标签库，根据标签项父子级关系和标签项的不同维度在关系型数据库中维护一棵标签树，每次创建个性化规则前要对即将生成的主题创建相对应的一组标签项；

(c)创建个性化规则，通过个性化规则将实体中的个体数据通标签项联系起来，一个个性化规则应用于一个实体，个性化规则的类型依据需求开发并不断扩充，个性化规则在计算引擎中实现；

(d)由于数据量较大，执行个性化规则的引擎选用大数据计算引擎，将各个实体下的所有数据根据个性化规则进行一一匹配，生成个体和标签项的对应关系存在标签池中，标签池采用Elasticsearch或hbase。

所述步骤(a)中，实体信息创建后需要在数据库中维护起来，所述实体信息包括实体名称，描述和存在标识字段的相关表信息。

所述步骤(c)中，个性化规则包括枚举类规则，计算类规则，正则类规则和文本分析类规则，并且新标签可使用原有标签作为数据来创建规则。

所述步骤(c)中，如果与个性化规则有关联的数据在相同的关系型数据库，则直接执行关系型数据库中的左连接操作；如果与个性化规则有关联的数据不在相同的关系型数据库，则通过Datax将个性化规则和有关联的数据导入到同一个数据库中进行左连接，或者通过Spark SQL加载在内存中运算。

当与个性化规则有关联的数据数据量过大时，可以将数据分批进行操作。

所述步骤(2)中，生成主题库具体步骤如下：

(a)利用Elasticsearch建立索引用能够快速查询数据，输入标签名即可查询到与该标签项相关联的个体数据标识，根据查询到的标识即可得到原始库中相应个体的具体数据；同时将实体需要索引的个体数据表或列一并存入elasticsearch中，则可以实现对实体中的个体数据内容进行索引查询，进而实现Elasticsearch依据标签项查数据的功能；

(b)查找主题相关标签项，将主题下所有相关标签项选取出来得到标签项列表，并认为将具有相关标签的个体数据具有收录到该主题的资格；

(c)对得到的标签项列表中的标签项依次查询或联合查询，通过标签项查找到与之相关的数据；

(d)将查询到的个体数据内容导出到一个统一的数据库中，生成主题库。

所述步骤(b)中，一个标签项可以用于多个主题，个体数据打上标签后可以多次复用；并且在主题库中，不同实体数据的标签项存储在不同标签项列中，不同查询标识存储在不同数据标识表中。

本发明的有益效果是：该基于个性化标签体系的主题库生成方法，不仅能够通过标签在多个维度对数据进行标识，方便数据的识别和快速提取，同时应用标签系统建立主题库，使得主题库的生成更加灵活，通过标签复用减少主题库生成的计算成本，尤其是对于拥有庞大数据量的机构或企业能够显著提高数据提取效率，适宜推广应用到各行各业。

附图说明

附图1为本发明基于个性化标签体系的主题库生成方法示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行详细的说明。应当说明的是，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

该基于个性化标签体系的主题库生成方法，以大数据平台为支撑，将大数据进行归类，一方面利用标签从多个维度对数据进行标识，依据标签项提取数据，对数据抽象出实体并打标签，对零散但有逻辑的数据实现统一管理；同时通过建立标签的方式建立主题库，将数据汇聚在各主题下，用户根据需求通过主题库即可快速拿到相关的主题下的数据。

该基于个性化标签体系的主题库生成方法，包括以下步骤：

(1)生成标签池

(2)生成主题库

所述步骤(1)中，生成标签池具体步骤如下：

(a)根据数据库中数据之间的逻辑关系创建实体，提炼出人，企业，物品等类别的实体(如：居民，法人等)，并以数据库相关表中一个或多个字段作为数据的唯一标识将数据划分为多个个体；

例如，税务主题可能存在：纳税金额高，纳税金额低，偷税漏税，下岗失业等标签项。

(c)创建个性化规则，通过个性化规则将实体中的个体数据通标签项联系起来，一个个性化规则应用于一个实体(如：居民)，个性化规则的类型依据需求开发并不断扩充，个性化规则在计算引擎中实现；

(d)由于数据量较大，执行个性化规则的引擎选用spark等大数据计算引擎，将各个实体下的所有数据根据个性化规则进行一一匹配，生成个体和标签项的对应关系存在标签池中，标签池采用Elasticsearch或hbase。

所述步骤(a)中，实体信息创建后需要在数据库(例如mysql)中维护起来，所述实体信息包括实体名称，描述和存在标识字段的相关表信息。

计算类规则，如：某居民一年纳税金额超过居民平均纳税金额，则可将此居民与纳税金额高的标签项相关联。

文本分析类规则，如某居民存在纳税金额高，企业家，学历高，信用良好等数据或标签项，就给他定义标签库中存在的标签项：高端人才。

所述步骤(c)中，如果与个性化规则有关联的数据在相同的关系型数据库，则直接执行关系型数据库中的左连接操作；如果与个性化规则有关联的数据不在相同的关系型数据库，则通过Datax(异构数据源离线同步工具)将个性化规则和有关联的数据导入到同一个数据库中进行左连接，或者通过Spark SQL加载在内存中运算。

所述步骤(2)中，生成主题库具体步骤如下：

主题库存储时根据业务场景选择的关系型与非关系型数据库，存储内容包括原有数据的子集与标签结合导出的与主题最相关数据。

以上所述的实施例，只是本发明具体实施方式的一种，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种基于个性化标签体系的主题库生成方法，其特征在于：以大数据平台为支撑，将大数据进行归类，一方面利用标签从多个维度对数据进行标识，依据标签项提取数据，对数据抽象出实体并打标签，对零散但有逻辑的数据实现统一管理；同时通过建立标签的方式建立主题库，将数据汇聚在各主题下，用户根据需求通过主题库即可快速拿到相关的主题下的数据。

2.根据权利要求1所述的基于个性化标签体系的主题库生成方法，其特征在于，包括以下步骤：

(1)生成标签池

(2)生成主题库

3.根据权利要求2所述的基于个性化标签体系的主题库生成方法，其特征在于：所述步骤(1)中，生成标签池具体步骤如下：

4.根据权利要求3所述的基于个性化标签体系的主题库生成方法，其特征在于：所述步骤(a)中，实体信息创建后需要在数据库中维护起来，所述实体信息包括实体名称，描述和存在标识字段的相关表信息。

5.根据权利要求3所述的基于个性化标签体系的主题库生成方法，其特征在于：所述步骤(c)中，个性化规则包括枚举类规则，计算类规则，正则类规则和文本分析类规则，并且新标签可使用原有标签作为数据来创建规则。

6.根据权利要求3所述的基于个性化标签体系的主题库生成方法，其特征在于：所述步骤(c)中，如果与个性化规则有关联的数据在相同的关系型数据库，则直接执行关系型数据库中的左连接操作；如果与个性化规则有关联的数据不在相同的关系型数据库，则通过Datax将个性化规则和有关联的数据导入到同一个数据库中进行左连接，或者通过SparkSQL加载在内存中运算。

7.根据权利要求6所述的基于个性化标签体系的主题库生成方法，其特征在于：当与个性化规则有关联的数据数据量过大时，可以将数据分批进行操作。

8.根据权利要求2所述的基于个性化标签体系的主题库生成方法，其特征在于：所述步骤(2)中，生成主题库具体步骤如下：

9.根据权利要求8所述的基于个性化标签体系的主题库生成方法，其特征在于：所述步骤(b)中，一个标签项可以用于多个主题，个体数据打上标签后可以多次复用；并且在主题库中，不同实体数据的标签项存储在不同标签项列中，不同查询标识存储在不同数据标识表中。