CN110275874B

CN110275874B - 一种大数据资源治理的智能化资源编目方法

Info

Publication number: CN110275874B
Application number: CN201910138532.4A
Authority: CN
Inventors: 张天际
Original assignee: Guangzhou Kingyea Software Technology Co ltd
Current assignee: Guangzhou Kingyea Software Technology Co ltd
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2022-04-05
Anticipated expiration: 2039-02-25
Also published as: CN110275874A

Abstract

本发明公开了一种大数据资源治理的智能化资源编目方法，包括数据元知识库、数据表字段对标和数据资源智能分类三个部分，主要体现在算法的计算和整个编目的计算方法，具体操作骤如下：创建数据元知识库；数据表字段对标；系统根据知识库智能编目；更新迭代数据元知识库。本发明的优势是不管数据资源表的数量有多大，只需不断完善元数据知识的数据元分类实现资源的自动编目，而且本方案还提供了数据元自动完善和迭代功能，随着数据资源的编目次数的增加，后面的智能编目精准度就越高，解决了当前人工对资源编目效率低下、准确率难以保证的问题，提高了资源编目工作效率和准确性。

Description

一种大数据资源治理的智能化资源编目方法

技术领域

本发明涉及大数据分析技术领域，具体是一种大数据资源治理的智能化资源编目方法。

背景技术

目前大数据资源编目工作大多数是依赖人工分类，不仅工作效率低下而且严重依赖每一个编目人员的业务水平，当数量非常大时数据编目的准确性很难保证，就算有编目审核环节也是耗时耗力，并且也难以逐一核查，从而会导致大量的数据资源分类不准，最终会导致业务部门通过数据资源目录查不到对应的数据资源。经过对国内外大数据资源治理方面的管理系统和相关资料查阅，没有发现有一种能够很好解决这个问题的方法和技术。

发明内容

本发明的目的在于提供一种大数据资源治理的智能化资源编目方法，解决了当前人工对资源编目效率低下、准确率难以保证的问题，提高了数据资源编目工作的效率和准确性。

为实现上述目的，本发明提供如下技术方案：

一种大数据资源治理的智能化资源编目方法，包括数据元知识库、数据表字段对标和数据资源智能分类三个部分，主要体现在算法的计算和整个编目的计算方法，具体操作步骤如下：

步骤一：创建数据元知识库

知识库可以通过对数据元直接分类和通过数据表分类再推导数据元分类两种方式来创建；

步骤二：数据表字段对标

数据表对标的方法分为单字段对标和多字段批量对标两种方式；

步骤三：系统根据知识库智能编目

数据资源对标后根据数据智能编目算法计算出分类结果，具体算法如下：

(1)首先找出数据表对应的第一个字段，根据字段对标的数据元的统计出该表在“一级分类”中每个选项的权重分数；

(2)按照步骤一的方法，遍历计算出该表所有的字段对应数据元在“一级分类”中每个选项的权重；

(3)汇总该表所有字段在“一级分类”每个选项的权重分，分数最高的就为该资源的“一级分类”；

(4)以此类推，分别计算出其他分类维度的“二级分类”、“资源要素细目”、“资源要素属性”的分类和权重分数，推算出资源表的其他分类结果；

(5)最后由人工进行审核和检查，对不正确的分类进行修改，审核后系统根据数据资源的分类结果生成数据资源编码，完成数据资源的编目；

步骤四：更新迭代数据元知识库

经过大量的数据表编目后结果，沉淀的数据元也越来越多，系统可以根据已分类后的数据表与数据元的关系，继续对数据元分类的结果和权重分数进行计算，具体操作步骤如下：

(1)根据所有已编目审核通过的数据资源表分类和数据元，重新逐个计算数据元的分类结果和权重分数，方法与前面创建基础知识库一致；

(2)整合所有表中数据元的分类和权重分数，通过遍历算法汇总每个数据元的分类结果和分类权重分，得出最新的数据元分类结果；

(3)最后采用最新的数据分类结果和权重分数替代原来的，从而更新原来的数据元基础知识库。

作为本发明进一步的方案，所述数据资源智能分类的具体算法如下：

a.首先通过数据表的表结果找出该表的所有字段；

b.再根据数据表字段的对标关系找出字段对应的数据元；

c.再通过表与字段、字段与数据元的关系，推导出数据表关联的数据元；

d.然后利用遍历方式计算该表所有数据元在每个分类中的累积分值；

e.比较数据元在每项分类中的累积分值，取分值最高的分类。

作为本发明再进一步的方案，所述步骤一中对数据元直接分类的操作步骤如下：

a.首先，整理好所有的标准数据元，让熟悉业务的人员对数据元进行分类，每个数据元可以选择多个分类，按照最有可能的程度设置选项权重分数；

b.其次，人工对数据元进行分类后，需要对分类的结果进行检查，对数据分类是否存在多个结果，每个结果的权重值做检查，对数据存在问题的可进行修改和更正；

c.最后，把已经分类后的数据元、数据元的分类结果、每个分类项的权重分数保存起来，生成数据元分类字典作为数据元基础知识库。

作为本发明再进一步的方案，所述步骤一中对数据表分类反推数据元分类的操作步骤如下：

a.首先，对所有的标准数据表，让熟悉业务的人员对数据表的关键字段进行数据字段对标；

b.其次，再让熟悉业务的人员对所有已对标的数据表进行分类，得到数据表的分类关联表；

c.然后，逐个计算所有已分类的数据表中包含的数据元的分类结果和权重分数；

d.最后，整合所有表中数据元的分类和权重分数，对相同的数据元进行汇聚和整合，最终计算出每个数据元的分类结果、每项结果的权重分数作为基础知识库。

作为本发明再进一步的方案，所述步骤二中单字段对标的具体操作步骤如下：

a.打开某个数据资源表，选择某个字段，打开数据对标功能；

b.选择字段对应的限定词和数据元后保存即完成单字段对标；

c.依此类似，按照同样的方式完成其他剩余字段的限定词和数据元。

作为本发明再进一步的方案，所述步骤二中多字段批量对标的具体操作步骤如下：

a.从多个表中选择具有同一性质的多个字段；

b.选择这些字段对应的同一个数据元；

c.建立这多个字段与数据元的对应关系保存后即完成字段对标；

d.依此类似，结合单个字段对标功能完成所有字段对标。

与现有技术相比，本发明的有益效果是：

本发明提供了一种大数据资源治理的智能化资源编目方法，其优势是不管数据资源表的数量有多大，只需不断完善元数据知识的数据元分类实现资源的自动编目，而且本方案还提供了数据元自动完善和迭代功能，随着数据资源的编目次数的增加，后面的智能编目精准度就越高，解决了当前人工对资源编目效率低下、准确率难以保证的问题，提高了资源编目工作效率和准确性。

附图说明

图1是本发明中资源智能编目的总体图。

图2是本发明中资源智能编目实现步骤流程图。

图3是本发明中数据资源智能分类算法示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明用到的专业术语，解释如下：

数据元：由一组属性规定其定义、标识、表示和允许值的数据单元，在本发明中用于创建数据元基础知识库和数据表字段对标。

数据对标：指数据从原始库抽取到标准库过程中，为了采用统一的数据标准，需要把原始数据的表字段跟数据元进行一一映射，这个设置过程中的所有操作都叫做数据对标。

知识库：指数据元按照业务分类规则进行分类后保存为数据元字典。用于系统智能编目的编目依据。

数据资源：数据资源是指由多个数据项组成的数据集合，这些数据项可以在同一实体数据表中，也可以在不同的实体数据表中。

数据资源编目：把数据表按照既定的数据分类标准，对数据资源进行分类，根据分类的不同生成的资源编号也不一样。

数据资源目录：通过对数据资源依照规范的元数据描述，按照一定的分类方法进行排序和编码的一组信息，用于描述资源的特征，以便于对数据资源的检索、定位与获取。

如图1所示，本发明实施例中，一种大数据资源治理的智能化资源编目方法，包括数据元知识库、数据表字段对标和数据资源智能分类三个部分，其分别实现的原理具体如下：

(1)数据元知识库

数据元知识库是整个数据智能编目中最基础、也是最重要的部分，知识库的准确性直接影响了字段对标时智能对标的准确性，本发明中的知识库包括了标准数据元的基本信息，数据元分类信息、数据元与分类的关联信息，具体作用如下：

a.数据元信息表：记录了数据元的信息，记录了数据元ID、数据源名称等信息；

b.数据分类信息表：记录了所有的数据分类类别，以及每个分类的枚举值；

c.数据元与分类的关联表：用于记录数据元与分类的关联关系，记录了数据元的针对的每项分类中的分类结果和权重分。

(2)数据表字段对标

数据资源对标是对数据表字段的对标，通过对数据表字段和数据元建立对应的映射关系，得出了数据表与数据元的关联关系；在本发明中数据对标的内容包括了对数据资源表、数据字段表、数据字段与数据元关联表，具体作用如下：

a.数据资源信息表：记录了数据表的ID、名称、描述等基本信息；

b.数据表字段信息表：记录了每个数据资源表的字段信息，包括字段名称、类型、所属数据表、描述等信息；

c.数据字段与数据元关联表：记录了数据对标后的结果，包括了每个字段与数据元关联后的结果，记录了每个字段与数据元的对应关系。

(3)数据资源智能分类

数据资源智能分类实现了数据资源按照既定的分类维度和分类标准，通过智能算法和数据模型对未编目的资源进行分类，在本发明中智能分类体现在智能算法模型中，具体的算法如下：

a.首先通过数据表的表结果找出该表的所有字段；

b.再根据数据表字段的对标关系找出字段对应的数据元；

如图2所示，本发明是一种对数据资源智能化编目的方法，其发明主要体现在算法的计算和整个编目的计算方法，以下将结合本发明在公安行业内的实现方式进行说明，但不限于公安行业，具体操作骤如下：

步骤一：创建数据元知识库

创建知识库是为了得到数据元的分类关系，可以通过对数据元直接分类和通过数据表分类再推导数据元分类两种方式来创建，分别创建的操作步骤如下：

(1)对数据元直接分类：

a.首先，整理好所有的公安部颁发的标准数据元，让熟悉业务的人员对数据元进行分类，每个数据元可以选择多个分类，按照最有可能的程度设置选项权重分数，例如：最有可能的分类权重为1，其次为0.8、0.6等不同权重分，可能性越小权重分也越小；

(2)对数据表分类反推数据元分类：

a.首先，对所有公安部颁发的标准数据表，让熟悉业务的人员对数据表的关键字段进行数据字段对标；

步骤二：数据表字段对标

对需要资源编目的数据资源表进行字段对标，对标的目的是为了获得数据表关联的数据，数据表对标的方法分为单字段对标和多字段批量对标两种方式，具体操作步骤如下：

(1)单字段对标：

(2)多字段批量对标：

a.从多个表中选择具有同一性质的多个字段；

b.选择这些字段对应的同一个数据元；

d.依此类似，结合单个字段对标功能完成所有字段对标。

步骤三：系统根据知识库智能编目

如图3所示，数据资源对标后根据数据智能编目算法计算出分类结果，下面以公安数据为例说明数据资源表在“一级分类”的分类方法，具体算法如下：

(5)最后由人工进行审核和检查，对不正确的分类进行修改，审核后系统根据数据资源的分类结果生成数据资源编码，完成数据资源的编目。

步骤四：更新迭代数据元知识库

经过大量的数据表编目后结果，沉淀的数据元也越来越多，系统可以根据已分类后的数据表与数据元的关系，继续对数据元分类的结果和权重分数进行计算，因为分类数据表的增，数据元的分类准确性会更高，这样周而复始可以不断迭代和更新知识库，具体操作步骤如下：

本发明公开的一种对数据资源智能化编目的方法，基于一定数量的标准数据元，通过对数据元的业务分类来推导出关键数据元分类，构建丰富的数据元基础知识库；提供了数据元基础知识库的不断优化和完善方法，在资源编目过程中，数据量越大数据的基数就越大，对数据资源的分类编目也就越准确；提供了数据字段的对标后的自动化、智能化数据资源编目算法，只需对数据字段对标后，不需要人工分类也能自动编目分类。

本发明的优势是不管数据资源表的数量有多大，只需不断完善元数据知识的数据元分类实现资源的自动编目，而且本方案还提供了数据元自动完善和迭代功能，随着数据资源的编目次数的增加，后面的智能编目精准度就越高，解决了当前人工对资源编目效率低下、准确率难以保证的问题，提高了资源编目工作效率和准确性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种大数据资源治理的智能化资源编目方法，包括数据元知识库、数据表字段对标和数据资源智能分类三个部分，其特征在于，该智能化资源编目方法体现在算法的计算和整个编目的计算方法中，具体操作骤如下：

步骤一：创建数据元知识库

数据元知识库通过对数据元直接分类或通过数据表分类再推导数据元分类两种方式来创建；

步骤二：数据表字段对标指数据从原始库抽取到标准库过程中，为了采用统一的数据标准，需要把原始数据的表字段跟数据元进行一一映射，这个设置过程中的所有操作都叫做数据表字段对标；

数据表字段对标的方法分为单字段对标和多字段批量对标两种方式；

单字段对标的具体操作步骤如下：

(a)打开某个数据资源表，选择某个字段，打开数据对标功能；

(b)选择字段对应的限定词和数据元后保存即完成单字段对标；

(c)按照同样的方式完成其他剩余字段的限定词和数据元；

多字段批量对标的具体操作步骤如下：

a)从多个表中选择具有同一性质的多个字段；

b)选择这些字段对应的同一个数据元；

c)建立这多个字段与数据元的对应关系保存后即完成字段对标；

d)结合单个字段对标功能完成所有字段对标；

步骤三：系统根据数据元知识库智能编目

数据资源对标后根据数据智能编目算法计算出分类结果，具体算法的步骤如下：

(1)首先找出数据表对应的第一个字段，根据字段对标的数据元统计出该表在“一级分类”中每个选项的权重分数；

(2)按照步骤(1)的方法，遍历计算出该表所有的字段对应数据元在“一级分类”中每个选项的权重；

(3)汇总该表所有字段在“一级分类”每个选项的权重分数，分数最高的就为该资源的“一级分类”；

(4)以此类推，分别计算出其他分类维度的“二级分类”、“资源要素细目”、“资源要素属性”的分类和权重分数，推算出资源表的分类结果；

步骤四：更新迭代数据元知识库

经过大量的数据表编目后，沉淀的数据元也越来越多，系统根据已分类后的数据表与数据元的关系，继续对数据元分类的结果和权重分数进行计算，具体操作步骤如下：

1)根据所有已编目审核通过的数据资源表和数据元分类，重新逐个计算数据元的分类结果和权重分数，方法与前面创建数据元知识库一致；

2)整合所有表中数据元的分类和权重分数，通过遍历算法汇总每个数据元的分类结果和权重分数，得出最新的数据元分类结果；

3)最后采用最新的数据分类结果和权重分数替代原来的，从而更新原来的数据元知识库。

2.根据权利要求1所述的一种大数据资源治理的智能化资源编目方法，其特征在于，所述数据资源智能分类的具体算法如下：

a.首先通过数据表的表结果找出该表的所有字段；

b.再根据数据表字段的对标关系找出字段对应的数据元；

3.根据权利要求1所述的一种大数据资源治理的智能化资源编目方法，其特征在于，所述步骤一中对数据元直接分类的操作步骤如下：

a.首先，整理好所有的标准数据元，人工对数据元进行分类，每个数据元选择多个分类，按照最有可能的程度设置选项权重分数；

c.最后，把已经分类后的数据元、数据元的分类结果、每个分类项的权重分数保存起来，生成数据元分类字典作为数据元知识库。

4.根据权利要求1所述的一种大数据资源治理的智能化资源编目方法，其特征在于，所述步骤一中通过数据表分类再推导数据元分类的操作步骤如下：

a.首先，对所有的标准数据表，人工对数据表的关键字段进行数据字段对标；

b.其次，再人工对所有已对标的数据表进行分类，得到数据表的分类关联表；

d.最后，整合所有表中数据元的分类和权重分数，对相同的数据元进行汇聚和整合，最终计算出每个数据元的分类结果、每项结果的权重分数作为数据元知识库。