CN117762946A

CN117762946A - 一种基于标识的数据溯源方法、设备及存储介质

Info

Publication number: CN117762946A
Application number: CN202311840383.9A
Authority: CN
Inventors: 李显锋; 张雄彪; 熊纯; 张永强
Original assignee: Wuhan Dayun Data Technology Co ltd
Current assignee: Wuhan Dayun Data Technology Co ltd
Priority date: 2023-12-27
Filing date: 2023-12-27
Publication date: 2024-03-26

Abstract

本发明公开了一种基于标识的数据溯源方法、设备及存储介质。本发明首先将数据的元数据信息储存在资源标识信息表中，资源标识作为资源标识信息表的主键；随后创建标识作为数据的主键，所述标识由资源标识和关联数据拼接组成；之后来源数据标识中的关联数据和目的数据标识中的关联数据具有互相推导的特性；再创建来源数据资源标识和目的数据资源标识的关联关系；最后依据所述标识进行数据溯源。本发明有效提高了数据溯源的准确性，还明显降低了标注信息的存储需求，同时提高了溯源查询的效率。

Description

一种基于标识的数据溯源方法、设备及存储介质

技术领域

本发明属于数据库技术领域，更具体地，涉及一种基于标识的数据溯源方法、设备及存储介质。

背景技术

在大数据时代，公安部门不仅纵向上汇集了国家、省、市、县等多个层级的数据，还横向上整合了各政务部门和各行业机构的数据。这些数据经过汇集、清洗、转换和加工，形成了一个统一的数据集市，既能纵向支持基层民警的实战工作，又能横向支持各政务部门的业务服务。然而，在数据整合、加工和交换的过程中，由于系统故障、数据格式或文字编码等原因，业务数据可能发生内容上的改变。如果数据使用单位，尤其是政府部门，引用了这些不准确的数据，可能会引发投诉甚至诉讼，后果十分严重。因此，我们经常需要追溯数据的来源，以确定数据的确切含义，并排查数据出错的环节。这一追溯过程至关重要，它能帮助我们准确理解数据，并找出数据改变的原因和责任。

目前数据溯源主要采用以下方法：标注法、反向查询法、数据聚类法以及基于图数据库的溯源方法。现有的传统标注溯源方法虽然有效，但却面临着存储空间占用过高的问题。反向查询法在某些场景下无法进行逆向操作，同时逆向语句的复杂性也带来了一定的挑战。数据聚类方式虽然简单，但其准确度却相对较低。图数据库的方式会增加额外的采购、部署和技术学习成本。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于标识的数据溯源方法、设备及存储介质，其目的在于解决现有数据溯源存在的空间占用过高、适用性不强、准确度较低以及成本过高的技术问题。

为实现上述目的，第一方面，本发明提供了一种基于标识的数据溯源方法，所述方法包括：

将数据的元数据信息储存在资源标识信息表中，资源标识作为资源标识信息表的主键；

记录来源数据资源标识和目的数据资源标识的映射关系；

创建标识作为数据的主键，所述标识由资源标识和关联数据拼接组成；

来源数据标识中的关联数据和目的数据标识中的关联数据具有互相推导的特性；

依据所述标识进行数据溯源。

优选的，先随机生成来源数据标识中的关联数据，且所述关联数据是唯一的，再通过来源数据标识中的关联数据推导出目的数据标识中的关联数据。

优选的，若目的数据只具有一个来源数据，则来源数据标识中的关联数据等于目的数据标识中的关联数据。

优选的，若目的数据具有两个及以上的来源数据，则采用哈希函数由来源数据标识中的关联数据生成目的数据标识中的关联数据。

优选的，建立目的数据标识和对应来源数据标识的映射关系。

优选的，将目的数据标识和对应来源数据标识的映射关系存储到数据库中。

优选的，随机生成来源数据标识中的关联数据，具体为：采用GUID函数、哈希函数和自定义随机函数中至少一种函数生成唯一的关联数据。

优选的，所述哈希函数中包括MD5函数。

优选的，依据所述标识进行数据溯源，具体为：

读取待溯源数据的标识；

从所述标识中拆分出资源标识和关联数据；

基于来源数据资源标识和目的数据资源标识的映射关系，利用待溯源数据的资源标识找到来源数据的资源标识；

基于来源数据标识中的关联数据和目的数据标识中的关联数据具有互相推导的特性，利用待溯源数据的关联数据推导出来源数据的关联数据；

由来源数据的资源标识和关联数据拼接出来源数据的标识。

第二方面，本发明提供一种电子设备，包括：存储器，用于存储程序；处理器，用于执行存储器存储的程序，当存储器存储的程序被执行时，处理器用于执行第一方面中所描述的任一方法。

第三方面，本发明提供一种存储介质，存储介质存储有计算机程序，当计算机程序在处理器上运行时，使得处理器执行第一方面中所描述的任一方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

在传统的标注法中，为了进行数据溯源，通常需要在数据记录中添加各种标注数据，如数据来源表名、数据来源模式名、数据来源主键ID等等。这些标注数据往往需要占用5-6个字段进行存储，这不仅浪费了宝贵的数据存储空间，还使数据管理变得复杂。

然而，本发明在传统标注法的基础上采用了一种更加智慧的方法。它创建了资源标识作为主键的资源标识信息表作为字典表，将数据记录的来源表资源信息精简压缩至一个名为标识的字段中。同时，将标识作为数据的主键，这意味着只需要一个字段就能完成传统标注所需的5-6个字段的信息存储。这一创新性方法巧妙地解决了数据溯源中标注信息存储空间庞大、反向查询繁琐以及聚类查询准确度下降的难题。

这项创新不仅提高了数据溯源的准确性，还明显降低了标注信息的存储需求，同时提高了溯源查询的效率。总之，这一智能且高效的解决方案使得数据溯源变得简单、高效、快速。

附图说明

图1是本发明实施例中创建数据溯源标识信息的流程图；

图2是本发明实施例中资源标识信息表的示意图；

图3是本发明实施例中创建资源关联信息表的示意图；

图4是本发明实施例中源头数据是单表数据和多表数据的示意图；

图5是本发明实施例中来源表的字段示意图；

图6是本发明实施例中数据标识ID的格式示意图；

图7是本发明实施例中根据来源表数据标识ID生成目的表数据标识ID的示意图；

图8是本发明实施例中根据多个来源表数据标识ID生成目的表数据标识ID的示意图；

图9是本发明实施例中，HBase数据库中目的表数据标识ID与多个来源表数据标识ID之间的映射关系示意图；

图10是本发明实施例中基于标识的数据溯源方法流程图；

图11是本发明实施例中从数据标识ID中解析出资源标识ID的示意图；

图12是本发明实施例中通过资源关联信息表中找出要溯源数据的示意图；

图13是本发明实施例中通过资源标识信息表中找出溯源数据的表名；

图14是本发明实施例中当为单表来源数据时，由数据标识ID拼接成来源表数据标识ID的示意图；

图15是本发明实施例中当为多表来源数据时，从HBase中根据数据标识ID查询出来源表数据标识ID的示意图；

图16是本发明实施例中通过SQL进行来源数据查询示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本文中的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一来源表和第二来源表等是用于区别不同的来源表，而不是用于描述来源表的特定顺序。

在本发明实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本发明实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本发明实施例的描述中，除非另有说明，“多个”的含义是指两个或者两个以上，例如，多个数据标识ID是指两个或者两个以上的多个数据标识ID等；多个来源表是指两个或者两个以上的来源表等。

首先，对本发明实施例中涉及的技术术语进行介绍。

ETL：ETL是数据仓库和商业智能领域中常用的术语，它代表了数据提取(Extraction)、转换(Transformation)和加载(Loading)的过程。ETL主要用于从不同的数据源中提取数据，并经过一系列的转换和清洗操作，最后将数据加载到目标系统或数据仓库中，以支持数据分析和决策。

SQL：SQL(Structured Query Language)是一种用于管理关系型数据库的编程语言。它被广泛应用于数据库管理系统(DBMS)中，用于创建、修改和查询数据库中的数据和表结构。

HBase：HBase是一个基于Apache Hadoop的分布式、可扩展的列式数据库，它是Hadoop生态系统中的一部分。HBase被设计用于存储和处理大规模的结构化数据，并提供了高可靠性、高性能和高可扩展性。

数据溯源：数据溯源为一种记录数据的起源、数据在数据库间运动的过程以及数据衍生过程的信息。它涵盖了数据的源头、数据的移动和转换过程，以及对原始数据和演变过程的描述。数据溯源还可以作为元数据，记录工作流程、标注信息和实验过程等重要信息。

数据标识ID：数据标识ID是数据记录(数据行)中的主键ID，数据中心接入资源时约定添加该字段作为数据主键。

接下来，对本发明实施例中提供的技术方案进行介绍。

实施例分为两部分，首先介绍数据溯源标识的创建过程，随后介绍如何基于所述标识进行数据溯源。

如图1所示，数据溯源标识的创建包括以下步骤：

(1)根据资源表信息读取或创建资源标识信息表

所述资源标识信息表用于存储资源表的元数据信息，无论是待读取的来源表还是待写入的目的表，均需要将元数据信息记录在资源标识信息表中；资源标识信息表中每一条资源标识信息都记录了一个资源表的资源标识ID和其他元数据信息。

如图2所示为实施例中创建的资源标识信息表，其中，资源标识ID是资源标识信息表中的主键ID，每一个资源表对应一个唯一的资源标识ID；资源表的其他元数据信息则通过SQL语句以资源模式名、资源表名、数据源IP等信息作为查询条件获取。如果未获取到则通过SQL语句重新创建后获取。

(2)创建资源关联信息表

在资源标识信息表的基础上，根据数据同步流程中记录的来源表和目的表的资源标识ID创建出资源关联信息，所有资源关联信息组成资源关联信息表，具体如图3所示：

资源关联信息1创建了PEOPLE.BASIC_INFO(资源标识ID：1)到RY.JBXX(资源标识ID：10)资源的数据输出关联；

资源关联记录2创建了PEOPLE.BASIC_INFO(资源标识ID：1)到RY.ZPXX(资源标识ID：11)资源的数据输出关联；

资源关联记录3创建了PEOPLE.PHOTO(资源标识ID：2)到RY.ZPXX(资源标识ID：11)资源的数据输出关联。

本领域技术人员可知的，还可以根据数据同步流程中记录的来源表和目的表的资源标识ID创建出映射关系，保存所有映射关系；同样可记录来源表资源标识ID和目的表资源标识ID之间的关联关系。

(3)读取源头数据

配置好ETL流程后，开始执行读取源头数据。

(4)根据来源表或来源SQL查询判断源头数据是单表还是多表关联数据，若是单表则进入步骤(5)；若是多表则进入步骤(8)；

如图4中所示，左侧人员信息同步的源头是单表数据(PEOPLE.BASIC_INFO)；右侧的人员照片信息同步的源头是多表数据(PEOPLE.BASIC_INFO和PEOPLE.PHOTO)。

(5)判断来源表是否已经包含数据标识ID

以PEOPLE.BASIC_INFO表为例，其字段如图5所示，其中，数据标识ID(DM_SJBSID)是数据记录(数据行)中的主键ID，数据中心接入资源时约定添加该字段作为数据主键。

在创建表资源时约定好数据标识ID字段名称为DM_SJBSID，数据标识ID的组成格式如图6所示：

数据标识ID由两部分拼接而成，第一部分资源标识，第二部分数据唯一ID；资源标识长度为4位，数据唯一ID长度为32位，即标识ID总长度为36位。

资源标识长度为4位，基于资源标识ID转化得到，每位采用62进制存储，由以下62个字符组成：

0、1、2、3、4、5、6、7、8、9、a、b、c、d、e、f、g、h、i、j、k、l、m、n、o、p、q、r、s、t、u、v、w、x、y、z、A、B、C、D、E、F、G、H、I、J、K、L、M、N、O、P、Q、R、S、T、U、V、W、X、Y、Z；

故4位长的资源标识可最大表示大小为62*62*62*62的数字。

数据唯一ID，采用数据库函数GUID()函数、MD5函数或自定义随机函数生成，长度固定为32位。

数据标识ID即为数据溯源采用的关键标识，相较于传统标注法，本发明设计了资源标识信息表作为字典表，并将资源标识ID压缩存储在数据标识ID中，且将该ID作为主键存储，避免了传统标注法的大量冗余资源标识信息造成存储浪费的问题，且发挥了标注法简单有效的优势。

根据来源数据是否包含数据标识ID(DM_SJBSID)，对应目的资源的数据标识ID(DM_SJBSID)生成规则略有不同：包括，则进入步骤(7)；若不包括，则进入步骤(6)。

本领域技术人员可知的，此处“数据标识ID”、“资源标识”、“数据唯一ID”只是本实施例中一个名称，无具体含义；可将“数据标识ID”更换为“标识”；将“资源标识”更换为“资源标识”；将“数据唯一ID”更换为“关联数据”等其他名称；不影响三者的属性和相互之间的相互关系，同样可实现本发明的技术效果。

(6)直接生成来源表的数据标识ID

如果判断出来源表中不包含数据标识ID(DM_SJBSID)，则说明该数据是外部来源数据，尚未接入到数据中心。需要为每条数据生成新的DM_SJBSID，生成规则如下：

生成资源标识，将来源表的资源标识ID转换为62进制字符；

生成数据唯一ID，采用数据库函数GUID()、MD5函数或自定义随机函数生成，长度固定为32位；

将资源标识ID和数据唯一ID拼接后得到组成36位的数据标识ID；

以人员信息同步流程为例，如果来源表PEOPLE.BASIC_INFO表中不包含DM_SJBSID字段，则会生成该字段的值：

000a70953D872A60DBD5BA6E22DE7526944A；

并写入到目的表RY.JBXX中。

(7)根据来源表的数据标识ID生成目的表的数据标识ID

如果来源表包含有DM_SJBSID则采用转换规则将来源数据的DM_SJBSID转换为目的表所需的DM_SJBSID，具体转换规则如图7所示：

将来源表对应的资源标识ID替换为目的表的资源标识ID；

数据唯一ID保持不变，直接沿用来源表的数据唯一ID；

将资源标识ID和数据唯一ID拼接后得到目的表的数据标识ID；

例如人员信息同步流程中：来源表PEOPLE.BASIC_INFO中数据标识ID为：

000170953D872A60DBD5BA6E22DE7526944A；

则目的表RY.JBXX中的数据标识ID则生成为：

000a70953D872A60DBD5BA6E22DE7526944A；可以注意到资源标识0001被替换为了000a；流程结束。

(8)判断来源表中是否包括数据标识ID，若包含，则进入步骤(10)，否则进入步骤(9)。

(9)直接生成来源表的数据标识ID

生成资源标识，将来源表的资源标识ID转换为62进制字符；

将资源标识ID和数据唯一ID拼接后得到组成36位的数据标识ID。

(10)根据来源表的多个数据标识ID构建目的表的数据标识ID

如图8所示，是由来源表的数据标识1、2、3关联输出得到目的表的数据标识4，其中：

资源标识，将目的表的资源标识ID转换为62进制字符；

数据唯一ID，从来源表的数据标识1、2、3中提取出每个数据标识的数据唯一ID，采用MD5函数生成散列值，如MD5(数据唯一ID X|数据唯一ID Y|数据唯一ID Z)。

(11)将来源表的数据标识ID和目的表的数据标识ID之间的映射关系保存至HBase

将来源表的数据标识ID和目的表的数据标识ID写入HBase数据库，以目的表数据标识ID作为RowKey，多个来源数据标识ID作为列，具体存储格式如图9所示。

如图10所示，为基于标识的数据溯源方法的流程图，具体包括以下步骤：

S1、读取待溯源数据的数据标识ID

从需要溯源的数据中读取DM_SJBSID字段，得到对应的数据标识ID。

S2、从数据标识ID中解析出数据标识ID中的资源标识

从数据标识ID中取前4位，获得资源标识000a，采用62进制转10进制将资源标识转换为资源标识ID，为10，具体如图11所示。

S3、根据资源标识ID(10)从资源关联信息表中找出数据来源，如图12所示；

目的表的资源标识ID为10，对应的来源表资源标识ID为1；如图13所示，结合资源标识信息表可以看到：

资源标识ID为1的来源表是PEOPLE.BASIC_INFO；

资源标识ID为10的目的表是RY.JBXX。

S4、判断来源数据是否是单表

若是单表来源进入步骤S5，否则进入步骤S6；

图12中可以看到资源标识ID为10的数据是单表来源，资源标识ID为11的数据是多表来源。

S5、构造数据来源表的数据标识ID

当数据来源为单表时，由来源表的资源标识ID和目的表的数据标识ID拼接成来源表的数据标识ID，具体如图14所示：

将来源表的资源标识ID转换到62进制；

数据唯一ID沿用目的表的数据唯一ID；

资源标识ID和数据唯一ID进行拼接后得到来源表的数据标识ID。进入S7。

S6、从HBase中查找目的表对应的来源表

如图15所示，在HBase数据库中，根据目的表的数据标识ID查找得到对应来源表的数据标识ID，

S7、基于数据标识ID查询具体数据

根据得到的数据标识ID中的资源标识ID从资源标识信息表中获取资源模式名、资源表名称、数据原IP等元数据信息；再以数据标识ID作为主键查询对应的数据表，具体如图16所示。

基于上述实施例中的方法，本发明实施例提供了一种电子设备。该设备可以包括：用于存储程序的存储器和用于执行存储器存储的程序的处理器。其中，当存储器存储的程序被执行时，处理器用于执行上述实施例中所描述的方法。

基于上述实施例中的方法，本发明实施例提供了一种存储介质，存储介质存储有计算机程序，当计算机程序在处理器上运行时，使得处理器执行上述实施例中的方法。

可以理解的是，本发明的实施例中的处理器可以是中央处理单元(centralprocessing unit，CPU)，还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。通用处理器可以是微处理器，也可以是任何常规的处理器。

本发明的实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read-only memory，ROM)、可编程只读存储器(programmable rom，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在存储介质中，或者通过所述存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

可以理解的是，在本发明的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本发明的实施例的范围。

以上内容本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于标识的数据溯源方法，其特征在于，所述方法包括：

记录来源数据资源标识和目的数据资源标识的映射关系；

依据所述标识进行数据溯源。

2.根据权利要求1所述的方法，其特征在于，先随机生成来源数据标识中的关联数据，且所述关联数据是唯一的，再通过来源数据标识中的关联数据推导出目的数据标识中的关联数据。

3.根据权利要求2所述的方法，其特征在于，若目的数据只具有一个来源数据，则来源数据标识中的关联数据等于目的数据标识中的关联数据。

4.根据权利要求2所述的方法，其特征在于，若目的数据具有两个及以上的来源数据，则采用哈希函数由来源数据标识中的关联数据生成目的数据标识中的关联数据。

5.根据权利要求4所述的方法，其特征在于，建立目的数据标识和对应来源数据标识的映射关系。

6.根据权利要求5所述的方法，其特征在于，将目的数据标识和对应来源数据标识的映射关系存储到数据库中。

7.根据权利要求2所述的方法，其特征在于，随机生成来源数据标识中的关联数据，具体为：采用GUID函数、哈希函数和自定义随机函数中至少一种函数生成唯一的关联数据。

8.根据权利要求1所述的方法，其特征在于，依据所述标识进行数据溯源，具体为：

读取待溯源数据的标识；

从所述标识中拆分出资源标识和关联数据；

由来源数据的资源标识和关联数据拼接出来源数据的标识。

9.一种电子设备，其特征在于，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行权利要求1-8中任一所述的方法。

10.一种存储介质，所述存储介质存储有计算机程序，其特征在于，当所述计算机程序在处理器上运行时，使得所述处理器执行权利要求1-8中任一所述的方法。