CN116738009B

CN116738009B - 一种对数据进行归档回溯的方法

Info

Publication number: CN116738009B
Application number: CN202310995087.XA
Authority: CN
Inventors: 石龙; 刘刚; 何立娟; 阮乐成
Original assignee: Beijing Guqi Data Technology Co ltd
Current assignee: Beijing Guqi Data Technology Co ltd
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2023-11-21
Anticipated expiration: 2043-08-09
Also published as: CN116738009A

Abstract

本申请涉及一种对数据进行归档回溯的方法。方法包括：获取生产数据库的多个数据信息，以及每个数据信息的来源信息，并基于各数据信息的来源信息，对各数据信息进行分类，得到各类别的数据信息；建立数据知识图谱，并基于数据知识图谱，通过关联信息识别网络，提取各数据信息的索引信息；针对每个类别，基于上述内容，建立该类别的数据树状图，并基于各类别的数据树状图、以及自注意力网络，识别各类别的数据树状图之间的关联信息；基于所有类别的数据树状图、以及所有类别的数据树状图之间的关联信息，建立所有数据信息的数据回溯图，并基于数据回溯图，对各数据信息进行归档回溯处理。采用本方法能够提升数据归档回溯的效率。

Description

一种对数据进行归档回溯的方法

技术领域

本申请涉及大数据技术领域，特别是涉及一种对数据进行归档回溯的方法。

背景技术

随着产品数字化的高速发展，长时间的累积下，产品生产的关键业务系统中积累了大量的历史交易数据，这些历史数据使得这些系统变得越来越庞大，并且在维护上也越来越复杂。从而严重降低了系统的运行性能和稳定性。因此如何进行数据归档是当前的研究重点。

传统的数据归档方法是将所有数据从生产数据库上迁移到当前系统之外的在线归档数据库进行统一归档存储。但是该方式由于是存储于当前系统之外的数据库，而需要进行数据回溯时需要归档数据库和原生产数据库进行多次数据传输才能完成每个数据的数据回溯任务，从而导致数据归档回溯的效率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种对数据进行归档回溯的方法。

第一方面，本申请提供了一种对数据进行归档回溯的方法。所述方法包括：

获取生产数据库的多个数据信息，以及每个数据信息的来源信息，并基于各所述数据信息的来源信息，对各所述数据信息进行分类，得到各类别的数据信息；

基于各所述类别的数据信息、以及各所述数据信息的来源信息，建立数据知识图谱，并通过所述数据知识图谱，确定各所述数据信息的索引信息；

针对每个类别，根据所述类别的数据信息、所述数据知识图谱、以及所述类别的数据信息的索引信息，建立所述类别的数据树状图，并建立所有类别的数据树状图之间的关联关系，得到所有数据信息的数据回溯图；

基于所述数据回溯图，对各所述数据信息进行归档回溯处理。

可选的，所述基于各所述数据信息的来源信息，对各所述数据信息进行分类，得到各类别的数据信息，包括：

基于各所述数据信息的来源信息，查询每个来源信息对应的来源数据信息的数据类型，以及各所述数据信息的数据类型；

在所述数据信息的数据类型与所述数据信息的来源数据信息的数据类型相同的情况下，将所述数据信息的数据类型，作为所述数据信息的类别；

在所述数据信息的数据类型与所述数据信息的来源数据信息的数据类型不相同的情况下，计算所述数据信息与所述来源数据信息的关联度，并在所述关联度大于关联度阈值的情况下，将所述数据信息的来源数据信息的数据类型，作为所述数据信息的类别。

可选的，所述基于各所述类别的数据信息、以及各所述数据信息的来源信息，建立数据知识图谱，包括：

识别各所述类别的各数据信息的来源信息的来源方式；

基于各所述数据信息、以及各所述数据信息的来源数据信息，建立初始子数据知识图谱，并基于各所述数据信息的数据类型、各所述数据信息的来源数据信息的数据类型、以及各所述数据信息的来源方式，调整所述初始子数据知识图谱，得到子数据知识图谱；

基于各所述类别的子数据知识图谱中，除所述类别之外的各类别的数据类型对应的数据信息，建立各所述子数据知识图谱之间的关联关系，得到数据知识图谱。

可选的，所述基于各所述类别的子数据知识图谱中，除所述类别之外的各类别的数据类型对应的数据信息，建立各所述子数据知识图谱之间的关联关系，得到数据知识图谱，包括：

识别各所述类别的子数据知识图谱中，除所述类别之外的各类别的数据类型对应的数据信息的目标数目，并基于除所述类别之外的各类别的目标数据与所述类别的所有数据信息的数目之间的比例，确定所述类别的子数据知识图谱与其他各类别的子数据知识图谱之间的关联度；

基于所述关联度，以及每个类别的子数据知识图谱中的除所述类别之外的各类别的数据类型对应的数据信息，建立各所述子数据知识图谱的关联关系，得到数据知识图谱。

可选的，所述通过所述数据知识图谱，确定各所述数据信息的索引信息，包括：

针对所述数据知识图谱中的每个数据信息，提取所述数据信息的数据特征，并识别所述数据特征对应的关键词信息，并基于所述关键词信息、以及所述数据信息的类别，建立所述数据信息的索引信息。

可选的，所述根据所述类别的数据信息、所述数据知识图谱、以及所述类别的数据信息的索引信息，建立所述类别的数据树状图，包括：

针对每个类别，基于所述类别的各数据信息的来源信息的来源数据信息、以及所述类别的各数据信息，按照各数据信息的来源顺序进行排列，得到初始数据树状图；

将所述类别的各数据信息的索引信息填充至所述初始数据树状图，并基于所述类别的子数据知识图谱，对已填充的初始数据树状图进行数据调整处理，得到所述类别的数据树状图。

可选的，所述基于所述类别的子数据知识图谱，对已填充的初始数据树状图进行数据调整处理，得到所述类别的数据树状图，包括：

基于所述类别的子数据知识图谱，识别所述类别的各数据信息之间的关联关系，并识别所述初始数据树状图中相同排列顺序的各同序数据信息；

基于所述类别的各数据信息之间的关联关系，在所述初始数据树状图中，添加各所述同序数据信息的关联信息，得到所述类别的数据树状图。

可选的，所述建立所有类别的数据树状图之间的关联关系，得到所有数据信息的数据回溯图，包括：

分别识别每个类别的数据树状图中的各数据信息之间的关联信息，并基于所述数据知识图谱中各所述类别的子数据知识图谱之间的关联关系，建立各所述类别的数据树状图之间的关联关系，得到初始数据回溯图；

基于每个类别的数据树状图中的各数据信息之间的关联信息，以及各所述类别的数据树状图之间的关联关系，确定两个类别的数据树状图的各数据信息之间的目标关联信息，并将所有数据信息之间的目标关联信息添加至所述初始数据回溯图，得到所有数据信息的数据回溯图。

可选的，所述分别识别每个类别的数据树状图中的各数据信息之间的关联信息，包括：

针对每个类别，提取所述类别的各相邻排列顺序的各数据信息之间的来源关系，以及所述类别的各所述相邻排列顺序的各数据信息之间的来源占比信息，并将各所述相邻排列顺序的各数据信息之间的来源关系、以及各所述相邻排列顺序的各数据信息之间的来源占比信息，作为各所述相邻排列顺序的各数据信息之间的关联信息；

基于所述类别的各同序数据信息之间的关联信息、以及所述类别的各相邻排列顺序的各数据信息之间的关联信息，确定所述类别的数据树状图中的各数据信息之间的关联信息。

可选的，所述方法还包括：

获取待回溯数据信息的检索信息，并基于所述检索信息，识别所述检索信息对应的索引关键词；

建立所述索引关键词对应的目标索引信息，并将所述索引信息遍历所述数据回溯图，得到所述检索信息对应的数据信息、以及所述检索信息对应的所述数据信息的多个关联数据信息。

本申请实施例与现有技术相比存在的有益效果是：

上述对数据进行归档回溯的方法，通过获取生产数据库的多个数据信息，以及每个数据信息的来源信息，并基于各所述数据信息的来源信息，对各所述数据信息进行分类，得到各类别的数据信息；基于各所述类别的数据信息、以及各所述数据信息的来源信息，建立数据知识图谱，并通过所述数据知识图谱，确定各所述数据信息的索引信息；针对每个类别，根据所述类别的数据信息、所述数据知识图谱、以及所述类别的数据信息的索引信息，建立所述类别的数据树状图，并建立所有类别的数据树状图之间的关联关系，得到所有数据信息的数据回溯图；基于所述数据回溯图，对各所述数据信息进行归档回溯处理。通过对数据信息进行分类，从而建立数据知识图谱，并基于该数据知识图谱，确定每个数据信息的索引信息，然后，通过每个类别的各数据信息的索引信息、数据知识图谱、以及每个类别的数据信息建立每个类别的数据树状图，从而得到所有数据信息的数据回溯图，提升了获取的数据回溯图的精准度，最后，通过该数据回溯图对所有数据信息进行数据归档回溯，提升了数据归档回溯的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中对数据进行归档回溯的方法的流程示意图；

图2为一个实施例中对数据进行归档回溯的装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的对数据进行归档回溯的方法，可应用于终端，也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。其中，终端通过对数据信息进行分类，从而建立数据知识图谱，并基于该数据知识图谱，确定每个数据信息的索引信息，然后，通过每个类别的各数据信息的索引信息、数据知识图谱、以及每个类别的数据信息建立每个类别的数据树状图，从而得到所有数据信息的数据回溯图，提升了获取的数据回溯图的精准度，最后，通过该数据回溯图对所有数据信息进行数据归档回溯，提升了数据归档回溯的效率。

在一个实施例中，如图1所示，提供了一种对数据进行归档回溯的方法，以该方法应用于终端为例进行说明，包括以下步骤：

步骤S101，获取生产数据库的多个数据信息，以及每个数据信息的来源信息，并基于各数据信息的来源信息，对各数据信息进行分类，得到各类别的数据信息。

本实施例中，终端基于关键业务系统内置的生产数据库，获取需要进行数据归档回溯的数据信息，然后，终端基于数据库中预设的每个数据信息的产生流程日志，识别每个数据信息的来源信息。其中每个数据信息的来源信息可以是一个数据信息、也可以是多个数据信息。然后，终端根据每个数据信息的数据类型，对各数据信息进行分类，得到各类别的数据信息。其中数据信息的数据类型包括但不限于是流程数据、字符数据、表格数据、文档数据、图片数据、文字数据、程序数据、音频数据、视频数据等。具体的分类过程后续将详细说明。

步骤S102，基于各类别的数据信息、以及各数据信息的来源信息，建立数据知识图谱，并基于数据知识图谱，通过关联信息识别网络，提取各数据信息的索引信息。

本实施例中，终端基于各类别的数据信息、以及各类别的数据信息的来源信息，建立该类别的子数据知识图谱、并基于所有类别的子数据知识图谱，建立所有数据对应的数据知识图谱。然后，终端通过关联信息识别网络，识该知识图谱中每个数据信息的关联数据信息，并提取该数据知识图谱中的每个数据信息的特征数据、以及每个数据信息的关联数据系信息的特征数据。然后终端基于各特征数据，确定每个数据信息的索引信息。具体的建立过程和确定过程后续将详细说明。其中，关联信息识别网络包括信息识别层、以及相似度识别层，该信息识别层为基于深度强化学习的图注意力网络（Graph Attention Network，GAT），该图注意力网络通过识别两个数据信息的数据内容中存在关联关系的数据内容信息，从而识别数据信息的相关数据信息，具体的识别过程后续将详细说明。终端通过多个存在关联关系的样本数据信息训练初始图注意力网络的相关数据识别参数，从而得到图注意力网络。该相似度识别层可以但不限于为基于欧式距离算法的神经网络、基于欧几里得距离算法的神经网络或者基于马氏距离算法的神经网络。具体的相似度识别层的处理过程后续将详细说明。

步骤S103，针对每个类别，根据类别的数据信息、数据知识图谱、以及类别的数据信息的索引信息，建立类别的数据树状图，并基于各类别的数据树状图、以及自注意力网络，识别各类别的数据树状图之间的关联信息。

本实施例中，针对每个类别，终端根据该类别的数据信息、数据知识图谱、以及类别的数据信息的索引信息，建立以一个数据信息为根节点，其他数据信息为枝节点、叶节点的数据树状图。终端通过基于自注意力机制的神经网络（即自注意力网络）遍历每个类别的数据树状图，识别每个类别的数据树状图之间直接关联的关联信息、以及每个类别的数据树状图之间间接关联的关联信息。然后，终端将每个类别的数据树状图之间直接关联的关联信息、以及每个类别的数据树状图之间间接关联的关联信息，作为每个类别的数据树状图之间的关联信息。具体的建立过程后续将详细说明。其中，自注意力网络（Self-Attention）的计算公式如下：

上式中，为数据信息之间的自注意力关联函数；/>为基于虚拟编号i对应的数据信息的关联程度信息；/>为自注意力网络；i∈1~n为各数据信息的虚拟编号，n为所有数据信息的数目；Q为数据信息，QT为Q的转置；K为与数据信息存在关联关系的数据信息；Wa是数据信息的权重；/>是常态参数；Ua是与数据信息关联的数据信息的权重；V表示数据信息与该数据信息存在关联关系的数据信息之间的关联信息。

步骤S104，基于所有类别的数据树状图、以及所有类别的数据树状图之间的关联信息，建立所有数据信息的数据回溯图，并基于数据回溯图，对各数据信息进行归档回溯处理。

本实施例中，终端基于每个类别的数据树状图之间的关联信息，对所有类别的数据树状图进行关联处理，得到所有数据信息的数据回溯图。其中，数据信息的数据回溯图为基于多个根节点的树状图。然后，终端基于数据回溯图，按照从根节点开始到叶节点结尾的顺序，将每个数据信息存储于归档数据库，完成对各数据信息进行归档回溯的过程。

基于上述方案，通过对数据信息进行分类，从而建立数据知识图谱，并基于该数据知识图谱，确定每个数据信息的索引信息，然后，通过每个类别的各数据信息的索引信息、数据知识图谱、以及每个类别的数据信息建立每个类别的数据树状图，从而得到所有数据信息的数据回溯图，提升了获取的数据回溯图的精准度，最后，通过该数据回溯图对所有数据信息进行数据归档回溯，提升了数据归档回溯的效率。

可选的，基于各数据信息的来源信息，对各数据信息进行分类，得到各类别的数据信息，包括：基于各数据信息的来源信息，查询每个来源信息对应的来源数据信息的数据类型，以及各数据信息的数据类型；在数据信息的数据类型与数据信息的来源数据信息的数据类型相同的情况下，将数据信息的数据类型，作为数据信息的类别；在数据信息的数据类型与数据信息的来源数据信息的数据类型不相同的情况下，计算数据信息与来源数据信息的关联度，并在关联度大于关联度阈值的情况下，将数据信息的来源数据信息的数据类型，作为数据信息的类别。

本实施例中，终端基于各数据信息的来源信息，获取每个数据信息的来源信息对应的来源数据信息。然后，终端基于生产数据库，查询每个来源数据信息的数据类型，以及各数据信息的数据类型。终端判断各数据信息的数据类型与各数据信息的来源数据信息的数据类型是否相同。在数据信息的数据类型与数据信息的来源数据信息的数据类型相同的情况下，终端直接将数据信息的数据类型，作为数据信息的类别。在数据信息的数据类型与数据信息的来源数据信息的数据类型不相同的情况下，终端通过将该数据信息与各来源数据信息之间的数据传输量进行归一化处理，得到该数据信息与各来源数据信息的关联度。然后，终端判断是否存在大于关联度阈值的关联度，在存在关联度大于关联度阈值的情况下，终端将大于关联度的来源数据信息的数据类型，作为该数据信息的类别，在不存在大于关联度预知的关联度的情况下，终端将该数据信息的数据类型，作为该数据信息的类别。其中，在存在多个大于关联度预知的关联度的情况下，终端将最大关联度对应的来源数据信息的数据类型，作为该数据信息的类别。

基于上述方案，通过数据信息的数据类型、以及数据信息的来源数据信息的数据类型，确定数据信息的类别，提升了确定的数据信息的类别的精准度。

可选的，基于各类别的数据信息、以及各数据信息的来源信息，建立数据知识图谱，包括：识别各类别的各数据信息的来源信息的来源方式；基于各数据信息、以及各数据信息的来源数据信息，建立初始子数据知识图谱，并基于各数据信息的数据类型、各数据信息的来源数据信息的数据类型、以及各数据信息的来源方式，调整初始子数据知识图谱，得到子数据知识图谱；基于各类别的子数据知识图谱中，除类别之外的各类别的数据类型对应的数据信息，建立各子数据知识图谱之间的关联关系，得到数据知识图谱。

本实施例中，终端识别各类别的各数据信息的来源信息的来源方式。其中来源方式包括但不限于是直接引用、引用数据参数、参考数据内容、以及引用数据参与计算等。终端基于各数据信息、以及各数据信息的来源数据信息，建立初始子数据知识图谱。该初始子数据知识图谱为各数据信息之间的相互来源对应的知识图谱。然后，终端基于各数据信息的数据类型、各数据信息的来源数据信息的数据类型、以及各数据信息的来源方式，调整初始子数据知识图谱中，数据信息之间的引用情况、以及数据信息之间的关联程度，得到子数据知识图谱。终端基于各类别的子数据知识图谱中，除类别之外的各类别的数据类型对应的数据信息，建立各子数据知识图谱之间的关联关系，得到数据知识图谱。

基于上述方案，通过识别各数据信息的来源信息的来源方式、优化各类别的数据信息的子数据知识图谱，从而得到所有数据信息的数据知识图谱，提升了数据知识图谱的精准度。

可选的，基于各类别的子数据知识图谱中，除类别之外的各类别的数据类型对应的数据信息，建立各子数据知识图谱之间的关联关系，得到数据知识图谱，包括：识别各类别的子数据知识图谱中，除类别之外的各类别的数据类型对应的数据信息的目标数目，并基于除类别之外的各类别的目标数据与类别的所有数据信息的数目之间的比例，确定类别的子数据知识图谱与其他各类别的子数据知识图谱之间的关联度；基于关联度，以及每个类别的子数据知识图谱中的除类别之外的各类别的数据类型对应的数据信息，建立各子数据知识图谱的关联关系，得到数据知识图谱。

本实施例中，终端识别各类别的子数据知识图谱中，除类别之外的各类别的数据类型对应的数据信息的目标数目，并计算除类别之外的各类别的目标数据与类别的所有数据信息的数目之间的比例。然后，终端将除类别之外的各类别的目标数据与类别的所有数据信息的数目之间的比例，作为该类别的子数据知识图谱与其他各类别的子数据知识图谱之间的关联度。终端将上述关联度，作为每个类别的子数据知识图谱中的除该类别之外的各类别的数据类型对应的数据信息的权重，并对各每个类别的子数据知识图谱中的除该类别之外的各类别的数据类型对应的数据信息进行加权，得到各子数据知识图谱之间的关联值，然后，终端将已加权的每个类别的子数据知识图谱中的除该类别之外的各类别的数据类型对应的数据信息，作为各子数据知识图谱之间的关联数据信息，并基于子数据知识图谱之间的关联数据信息、以及各子数据知识图谱之间的关联值，对各子数据知识图谱进行关联处理，得到所有数据信息的数据知识图谱。

基于上述方案，通过识别每个类别的子数据知识图谱与其他各类别的子数据知识图谱之间的关联度，以及每个类别的子数据知识图谱中的除该类别之外的各类别的数据类型对应的数据信息，建立数据知识图谱，提升了建立的数据知识图谱的精准度。

可选的，基于数据知识图谱，通过关联信息识别网络，提取各数据信息的索引信息，包括：通过关联信息识别网络，识别数据知识图谱中的每个数据信息的关联数据信息，并针对每个数据信息，通过数据特征提取网络，提取数据信息的数据特征、以及数据信息的各关联数据信息的数据特征；通过特征文本识别算法，识别各数据特征对应的关键词信息，并按照数据信息与数据信息的关联数据信息之间的关联关系，确定各关键词信息之间的引用信息；基于各关键词信息、各关键词信息之间的引用信息，以及数据信息的类别，建立数据信息的索引信息。

本实施例中，终端通过关联信息识别网络，识别数据知识图谱中的每个数据信息的关联数据信息。然后，终端针对每个数据信息，通过数据特征提取网络，提取该数据信息的数据特征、以及数据信息的各关联数据信息的数据特征。其中数据特征用于表征数据信息的主要数据内容。数据特征提取网络为任意一能够实现上述方案的特征提取网络。终端通过特征文本识别算法，识别各数据特征对应的关键词信息，并按照数据信息与数据信息的关联数据信息之间的关联关系，确定各关键词信息之间的引用信息。该引用信息用于表征各关键词信息之间的关联关系。其中，特征文本识别算法用于将特征数据转化为该特征数据对应的关键词信息，该特征文本识别算法可以但不限于是模板匹配算法。终端通过数据库中的样本特征数据、以及样本特征数据对应的关键词信息，训练初始模板匹配算法的匹配参数，从而得到模板匹配算法。最后，终端基于各关键词信息、各关键词信息之间的引用信息，以及数据信息的类别，建立数据信息的索引信息。

基于上述方案，终端通过关联信息识别网络，识别数据知识图谱中的每个数据信息的关联数据信息，并通过识别各数据信息的数据特征对应的关键词信息，从而建立数据信息的索引信息，提升了建立的索引信息的全面性和精确度。

可选的，通过关联信息识别网络，识别数据知识图谱中的每个数据信息的关联数据信息，包括：针对每个数据信息，将数据信息遍历数据知识图谱，得到与数据信息的多个相关数据信息，通过关联信息识别网络的信息识别层，识别数据信息与各相关数据信息的相关内容信息；相关内容信息为两个数据信息之间存在关联关系的数据内容信息；通过关联信息识别网络的相似度识别层，计算每个相关内容信息之间的相似度，得到数据信息与各相关数据信息之间的相似度，并将大于相似度阈值的相似度对应的相关数据信息，作为数据信息的关联数据信息。

本实施例中，终端针对每个数据信息，将数据信息遍历数据知识图谱，得到与数据信息的多个相关数据信息，通过关联信息识别网络的信息识别层，识别数据信息与各相关数据信息的相关内容信息。其中，该相关内容信息为两个数据信息之间存在关联关系的数据内容信息。然后，终端通过关联信息识别网络的相似度识别层，计算每个相关内容信息之间的相似度，得到数据信息与各相关数据信息之间的相似度。终端预设相似度阈值，并将大于相似度阈值的相似度对应的相关数据信息，作为数据信息的关联数据信息。

基于上述方案，通过关联信息识别网络，在数据信息的多个相关数据信息中筛选关联数据信息，提升了识别的关联数据信息的精准度。

可选的，根据类别的数据信息、数据知识图谱、以及类别的数据信息的索引信息，建立类别的数据树状图，包括：针对每个类别，基于类别的各数据信息的来源信息的来源数据信息、以及类别的各数据信息，按照各数据信息的来源顺序进行排列，得到初始数据树状图；将类别的各数据信息的索引信息填充至初始数据树状图，并基于类别的子数据知识图谱，对已填充的初始数据树状图进行数据调整处理，得到类别的数据树状图。

本实施例中，针对每个类别，终端基于该类别的各数据信息的来源信息的来源数据信息、以及该类别的各数据信息，按照各数据信息的来源顺序进行排列，得到初始数据树状图。其中，初始数据树状图中的相同排列顺序包括不止一个数据信息。然后，终端将该类别的各数据信息的索引信息填充至初始数据树状图，得到已填充的初始数据树状图。终端基于该类别的子数据知识图谱，调整已填充的初始数据树状图中，相同排列顺序的各数据信息之间的关联关系，得到该类别的数据树状图。具体的调整过程，后续将详细说明。

基于上述方案，通过数据知识图谱对初始数据树状图进行调整，得到了各类别的数据树状图。提升了各类别的数据树状图的合理性、以及全面性。

可选的，基于类别的子数据知识图谱，对已填充的初始数据树状图进行数据调整处理，得到类别的数据树状图，包括：基于类别的子数据知识图谱，识别类别的各数据信息之间的关联关系，并识别初始数据树状图中相同排列顺序的各同序数据信息；基于类别的各数据信息之间的关联关系，在初始数据树状图中，添加各同序数据信息的关联信息，得到类别的数据树状图。

本实施例中，终端基于该类别的子数据知识图谱，识别该类别的各数据信息之间的关联关系。然后终端在初始数据树状图中，查询相同排列顺序的各同序数据信息。终端基于类别的各数据信息之间的关联关系，在初始数据树状图中的各同序数据信息中，添加各同序数据信息之间的关联信息，得到该类别的数据树状图。

基于上述方案，在各同序数据信息之间添加关联信息，提升了该数据树状图的全面性。

可选的，基于各类别的数据树状图、以及自注意力网络，识别各类别的数据树状图之间的关联信息，包括：分别识别每个类别的数据树状图中的各数据信息之间的关联信息，并基于各类别的数据树状图，通过自注意力网络，识别各类别的数据树状图之间存在直接关联关系的第一关联数据信息；提取各类别的数据树状图的第一关联数据信息之间的相同特征信息，作为各类别的数据树状图之间的第一关联信息，并基于每个类别的数据树状图中的各数据信息之间的关联信息、以及每个类别的数据树状图之间的第一关联数据信息，通过自注意力网络，识别各类别的数据树状图之间存在间接关联关系的第二关联数据信息；提取各类别的数据树状图的第二关联数据信息之间的同类特征信息，作为各类别的数据树状图之间的第二关联信息，并将各类别的数据树状图之间的第一关联信息、以及各类别的数据树状图之间的第二关联信息，作为各类别的数据树状图之间的关联信息，得到数据回溯图。

本实施例中，终端分别识别每个类别的数据树状图中的各数据信息之间的关联信息，具体的识别过程，后续将详细说明。然后，终端基于各类别的数据树状图，通过自注意力网络，识别各类别的数据树状图之间存在直接关联关系的第一关联数据信息。然后，终端提取各类别的数据树状图的第一关联数据信息之间的相同特征信息，作为各类别的数据树状图之间的第一关联信息。其中，相同特征信息为两个关联数据信息之间的相同数据内容对应的特征信息。终端基于每个类别的数据树状图中的各数据信息之间的关联信息、以及每个类别的数据树状图之间的第一关联数据信息，通过自注意力网络，识别各类别的数据树状图之间存在间接关联关系的第二关联数据信息。然后，终端提取各类别的数据树状图的第二关联数据信息之间的同类特征信息，作为各类别的数据树状图之间的第二关联信息。最后，终端将各类别的数据树状图之间的第一关联信息、以及各类别的数据树状图之间的第二关联信息，作为各类别的数据树状图之间的关联信息。具体的识别第二关联信息的过程后续将详细说明。

终端基于每个类别的数据树状图中的各数据信息之间的关联信息，以及各类别的数据树状图之间的关联关系，确定两个类别的数据树状图的各数据信息之间的目标关联信息。其中目标关联信息为两个类别的数据树状图之间存在关联关系的数据信息之间的关联信息，该关联信息包括以两个类别的数据树状图之间存在关联关系的数据信息为中心，两个类别的其他数据信息之间的关联信息，例如，A类别包括a、b、c、d四个数据信息，B类别包括e、f、g、h四个数据信息，两个类别的之间存在关联关系的数据信息为c和g，A类别中，a和c存在来源关系、b和c同序、c和b为d的来源关系；B类别中，e和g存在来源关系、f和g同序、f和g为h的来源关系，则c和g的目标关联信息为，a和e同序关联，b、c、f和g同序关联、d和h同序关联。终端将所有数据信息之间的目标关联信息添加至初始数据回溯图，得到所有数据信息的数据回溯图。

基于上述方案，通过目标关联信息，完善初始数据回溯图中的各数据信息之间的关联信息，提升了数据回溯图的精准度和全面性。

可选的，基于每个类别的数据树状图中的各数据信息之间的关联信息、以及每个类别的数据树状图之间的第一关联数据信息，通过自注意力网络，识别各类别的数据树状图之间存在间接关联关系的第二关联数据信息，包括：基于每个类别的数据树状图中的各数据信息之间的关联信息、以及每个类别的数据树状图之间的第一关联数据信息，查询各第一关联数据信息对应的数据树状图中与各第一关联数据信息相关联的初始第二关联数据信息；针对每两个类别的数据树状图之间的各第一关联数据信息，通过自注意力网络，分别查询各第一关联数据信息的各初始第二关联数据信息之间存在关联关系的初始第二关联数据信息，并将存在关联关系的初始第二关联数据信息，作为两个类别的数据树状图之间存在间接关联关系的第二关联数据信息。

本实施例中，终端先基于每个类别的数据树状图中的各数据信息之间的关联信息、以及每个类别的数据树状图之间的第一关联数据信息，查询各第一关联数据信息对应的数据树状图中与各第一关联数据信息相关联的初始第二关联数据信息。其中初始第二关联数据信息为相同类别的数据树状图中，与第一关联数据信息相关联的数据信息。然后，针对每两个类别的数据树状图之间的各第一关联数据信息，终端通过自注意力网络，分别查询各第一关联数据信息的各初始第二关联数据信息之间存在关联关系的初始第二关联数据信息，并将该存在关联关系的初始第二关联数据信息，作为两个类别的数据树状图之间存在间接关联关系的第二关联数据信息。其中，各第一关联数据信息的各初始第二关联数据信息之间存在关联关系的初始第二关联数据信息为不同类别的数据树状图包含的数据信息中，相互存在关联关系的初始第二关联信息。

基于上述方案，通过自注意力网络，识别间接关联的第二关联数据信息，提升了建立数据回溯图的精准度和全面性。

可选的，分别识别每个类别的数据树状图中的各数据信息之间的关联信息，包括：针对每个类别，提取类别的各相邻排列顺序的各数据信息之间的来源关系，以及类别的各相邻排列顺序的各数据信息之间的来源占比信息，并将各相邻排列顺序的各数据信息之间的来源关系、以及各相邻排列顺序的各数据信息之间的来源占比信息，作为各相邻排列顺序的各数据信息之间的关联信息；基于类别的各同序数据信息之间的关联信息、以及类别的各相邻排列顺序的各数据信息之间的关联信息，确定类别的数据树状图中的各数据信息之间的关联信息。

本实施例中，终端针对每个类别，提取类别的各相邻排列顺序的各数据信息之间的来源关系，以及类别的各相邻排列顺序的各数据信息之间的来源占比信息，并将各相邻排列顺序的各数据信息之间的来源关系、以及各相邻排列顺序的各数据信息之间的来源占比信息，作为各相邻排列顺序的各数据信息之间的关联信息。基于该类别的同序数据信息，直接提取该类别的同序数据信息之间的关联关系。然后，终端基于类别的各同序数据信息之间的关联信息、以及类别的各相邻排列顺序的各数据信息之间的关联信息，确定该类别的数据树状图中的各数据信息之间的关联信息。

基于上述方案，通过各相邻排列顺序的各数据信息之间的来源关系、以及各相邻排列顺序的各数据信息之间的来源占比信息，确定各相邻排列顺序的各数据信息之间的关联信息，提升了确定的各相邻排列顺序的关联关系的精准度。

可选的，方法还包括：获取待回溯数据信息的检索信息，并基于检索信息，识别检索信息对应的索引关键词；建立索引关键词对应的目标索引信息，并将索引信息遍历数据回溯图，得到检索信息对应的数据信息、以及检索信息对应的数据信息的多个关联数据信息。

本实施例中，在需要进行数据回溯的情况下，终端响应于用户的数据回溯操作，获取需要回溯的数据信息的检索信息。然后，终端提取该检索信息中的关键词，作为索引关键词。终端将所有索引关键词对应的关键词组，作为目标索引信息，并遍历数据回溯图，识别与该目标索引信息相关联的数据信息，以及该数据信息相关联的数据信息，得到检索信息对应的数据信息、以及检索信息对应的数据信息的多个关联数据信息。

基于上述方案，通过数据回溯图直接在多个数据信息中查询到检索信息对应的数据信息、以及检索信息对应的数据信息的多个关联数据信息，不仅提升了数据回溯的效率，同时提供多个关联数据信息便于用户检索与该数据信息相关联的数据信息，提升了为用户进行数据回溯的数据回溯效果。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的对数据进行归档回溯的方法的对数据进行归档回溯的装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个对数据进行归档回溯的装置实施例中的具体限定可以参见上文中对于对数据进行归档回溯的方法的限定，在此不再赘述。

在一个实施例中，如图2所示，提供了一种对数据进行归档回溯的装置，包括：获取模块210、确定模块220、建立模块230和归档模块240，其中：

获取模块210，用于获取生产数据库的多个数据信息，以及每个数据信息的来源信息，并基于各所述数据信息的来源信息，对各所述数据信息进行分类，得到各类别的数据信息；

确定模块220，用于基于各所述类别的数据信息、以及各所述数据信息的来源信息，建立数据知识图谱，并基于所述数据知识图谱，通过关联信息识别网络，提取各所述数据信息的索引信息；

建立模块230，用于针对每个类别，根据所述类别的数据信息、所述数据知识图谱、以及所述类别的数据信息的索引信息，建立所述类别的数据树状图，并基于各所述类别的数据树状图、以及自注意力网络，识别各所述类别的数据树状图之间的关联信息；

归档模块240，用于基于所有类别的数据树状图、以及所有类别的数据树状图之间的关联信息，建立所有数据信息的数据回溯图，并基于所述数据回溯图，对各所述数据信息进行归档回溯处理。

可选的，所述获取模块210，具体用于：

可选的，所述确定模块220，具体用于：

识别各所述类别的各数据信息的来源信息的来源方式；

可选的，所述确定模块，具体用于：

通过关联信息识别网络，识别所述数据知识图谱中的每个数据信息的关联数据信息，并针对每个数据信息，通过数据特征提取网络，提取所述数据信息的数据特征、以及所述数据信息的各关联数据信息的数据特征；

通过特征文本识别算法，识别各所述数据特征对应的关键词信息，并按照所述数据信息与所述数据信息的关联数据信息之间的关联关系，确定各所述关键词信息之间的引用信息；

基于各所述关键词信息、各所述关键词信息之间的引用信息，以及所述数据信息的类别，建立所述数据信息的索引信息。

可选的，所述确定模块，具体用于：

针对每个数据信息，将所述数据信息遍历所述数据知识图谱，得到与所述数据信息的多个相关数据信息，通过关联信息识别网络的信息识别层，识别所述数据信息与各所述相关数据信息的相关内容信息；所述相关内容信息为两个数据信息之间存在关联关系的数据内容信息；

通过所述关联信息识别网络的相似度识别层，计算每个相关内容信息之间的相似度，得到所述数据信息与各所述相关数据信息之间的相似度，并将大于相似度阈值的相似度对应的相关数据信息，作为所述数据信息的关联数据信息。

可选的，所述建立模块，具体用于：

可选的，所述建立模块：

分别识别每个类别的数据树状图中的各数据信息之间的关联信息，并基于各所述类别的数据树状图，通过自注意力网络，识别各所述类别的数据树状图之间存在直接关联关系的第一关联数据信息；

提取各所述类别的数据树状图的第一关联数据信息之间的相同特征信息，作为各所述类别的数据树状图之间的第一关联信息，并基于每个类别的数据树状图中的各数据信息之间的关联信息、以及每个类别的数据树状图之间的第一关联数据信息，通过自注意力网络，识别各所述类别的数据树状图之间存在间接关联关系的第二关联数据信息；

提取各所述类别的数据树状图的第二关联数据信息之间的同类特征信息，作为各所述类别的数据树状图之间的第二关联信息，并将各所述类别的数据树状图之间的第一关联信息、以及各所述类别的数据树状图之间的第二关联信息，作为各所述类别的数据树状图之间的关联信息。

可选的，所述建立模块，具体用于：

基于每个类别的数据树状图中的各数据信息之间的关联信息、以及每个类别的数据树状图之间的第一关联数据信息，查询各所述第一关联数据信息对应的数据树状图中与各所述第一关联数据信息相关联的初始第二关联数据信息；

针对每两个类别的数据树状图之间的各第一关联数据信息，通过所述自注意力网络，分别查询各所述第一关联数据信息的各初始第二关联数据信息之间存在关联关系的初始第二关联数据信息，并将存在关联关系的初始第二关联数据信息，作为所述两个类别的数据树状图之间存在间接关联关系的第二关联数据信息。

可选的，所述装置还包括：

检索信息获取模块，用于获取待回溯数据信息的检索信息，并基于所述检索信息，识别所述检索信息对应的索引关键词；

遍历模块，用于建立所述索引关键词对应的目标索引信息，并将所述索引信息遍历所述数据回溯图，得到所述检索信息对应的数据信息、以及所述检索信息对应的所述数据信息的多个关联数据信息。

上述对数据进行归档回溯的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种对数据进行归档回溯的方法，其特征在于，所述方法包括：

基于各所述类别的数据信息、以及各所述数据信息的来源信息，建立数据知识图谱，并基于所述数据知识图谱，通过关联信息识别网络，提取各所述数据信息的索引信息；

针对每个类别，根据所述类别的数据信息、所述数据知识图谱、以及所述类别的数据信息的索引信息，建立所述类别的数据树状图，并基于各所述类别的数据树状图、以及自注意力网络，识别各所述类别的数据树状图之间的关联信息；

基于所有类别的数据树状图、以及所有类别的数据树状图之间的关联信息，建立所有数据信息的数据回溯图，并基于所述数据回溯图，对各所述数据信息进行归档回溯处理；

所述基于所述数据知识图谱，通过关联信息识别网络，提取各所述数据信息的索引信息，包括：

基于各所述关键词信息、各所述关键词信息之间的引用信息，以及所述数据信息的类别，建立所述数据信息的索引信息；

所述通过关联信息识别网络，识别所述数据知识图谱中的每个数据信息的关联数据信息，包括：

通过所述关联信息识别网络的相似度识别层，计算每个相关内容信息之间的相似度，得到所述数据信息与各所述相关数据信息之间的相似度，并将大于相似度阈值的相似度对应的相关数据信息，作为所述数据信息的关联数据信息；

所述根据所述类别的数据信息、所述数据知识图谱、以及所述类别的数据信息的索引信息，建立所述类别的数据树状图，包括：

将所述类别的各数据信息的索引信息填充至所述初始数据树状图，并基于所述类别的子数据知识图谱，对已填充的初始数据树状图进行数据调整处理，得到所述类别的数据树状图；

所述基于所述类别的子数据知识图谱，对已填充的初始数据树状图进行数据调整处理，得到所述类别的数据树状图，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于各所述数据信息的来源信息，对各所述数据信息进行分类，得到各类别的数据信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于各所述类别的数据信息、以及各所述数据信息的来源信息，建立数据知识图谱，包括：

识别各所述类别的各数据信息的来源信息的来源方式；

4.根据权利要求1所述的方法，其特征在于，所述基于各所述类别的数据树状图、以及自注意力网络，识别各所述类别的数据树状图之间的关联信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于每个类别的数据树状图中的各数据信息之间的关联信息、以及每个类别的数据树状图之间的第一关联数据信息，通过自注意力网络，识别各所述类别的数据树状图之间存在间接关联关系的第二关联数据信息，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：