CN116383290B

CN116383290B - 一种数据泛化解析方法

Info

Publication number: CN116383290B
Application number: CN202310286455.3A
Authority: CN
Inventors: 袁建; 张守玉; 赵可; 宋成风
Original assignee: Beijing Bidding Branch Of China Huaneng Group Co ltd; Huaneng Information Technology Co Ltd
Current assignee: Beijing Bidding Branch Of China Huaneng Group Co ltd; Huaneng Information Technology Co Ltd
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-10-31
Anticipated expiration: 2043-03-22
Also published as: CN116383290A

Abstract

本发明公开了一种数据泛化解析方法，涉及数据解析技术领域，包括，获取异构数据，根据异构数据得到对应的直接转换分数和间接转换分数，根据直接转换分数和间接转换分数选择转换模式进行转换，得到结构化数据；将结构化数据进行重复数据的删除和重要数据的筛选，得到净化数据。本申请通过间接转换分数和直接转换分数确定转换模式进行异构数据的转换解析，并根据数据缩减率等参数确定目标粒度，进行重复数据的删除，和重要数据的筛选，提高了解析效果和数据处理效率。

Description

一种数据泛化解析方法

技术领域

本申请涉及数据解析技术领域，更具体地，涉及一种数据泛化解析方法。

背景技术

由于异构文本数据具有数据量大、形式多样且来源复杂等特点，在数据预处理工作中，存在查找有效信息困难的问题。为了对数据进行过滤并达到筛选有效信息的目的，需要对数据结构进行转换，保证数据的统一化，从而简化后续文本的处理工作。

现有技术中，往往采用一种数据解析方法来进行不同结构数据的解析，不能满足数据解析过程中复杂多变的应用场景，导致解析效果较差。

因此，如何提高解析效果，是目前有待解决的技术问题。

发明内容

本发明提供一种数据泛化解析方法，用以解决现有技术中不同结构数据解析效果差的技术问题。所述方法包括：

获取异构数据，根据异构数据得到对应的直接转换分数和间接转换分数，根据直接转换分数和间接转换分数选择转换模式进行转换，得到结构化数据；

将结构化数据进行重复数据的删除和重要数据的筛选，得到净化数据。

本申请一些实施例中，所述转换模式包括：

直接转换模式，包括：

通过预设正则表达式将异构数据进行过滤并建立对应结构化数据；

间接转换模式，包括：

通过预设转换规则将异构数据转换成XML数据；

通过预设解析方法将XML数据转换成结构化数据。

本申请一些实施例中，根据异构数据得到对应的直接转换分数，包括：

获取直接转换过程中的评价指标，根据评价指标和预设权重预测直接转换分数。

本申请一些实施例中，根据异构数据得到间接转换分数，包括：

获取每个预设解析方法解析的时间参数和空间参数；

时间参数包括代码的运行时间和对应代码的运行次数；

基于代码的运行时间和对应代码的运行次数得到耗费总时间；

获取XML数据大小，基于耗费总时间和XML数据大小得到效率；

基于效率和空间参数建立解析数组，根据解析数组得到各个预设解析方法的间接转换分数。

本申请一些实施例中，基于效率和空间参数建立解析数组，包括：

空间参数包括内存堆占用空间和CPU占用率；

基于效率、内存堆占用空间和CPU占用率的大小确定各自对应的权重，并计算效率、内存堆占用空间和CPU占用率各自对应的影响值；

基于效率、内存堆占用空间和CPU占用率各自对应的影响值确定解析数组的位置顺序，根据效率、内存堆占用空间、CPU占用率和各自对应的位置顺序构建解析数组。

本申请一些实施例中，根据解析数组得到各个预设解析方法的间接转换分数，包括：

根据解析数组对应位置处的本位因子修正效率、内存堆占用空间和CPU占用率，根据修正后的效率、内存堆占用空间和CPU占用率得到间接转换分数。

本申请一些实施例中，将结构化数据进行重复数据的删除，包括：

将结构化数据按照目标粒度分割成若干个Chunk，并建立Chunk列表；

根据每个Chunk内容得到唯一标识特征并确定特征值，将特征值添加到Chunk列表中；

将Chunk特征值与Chunk索引中已存的特征值进行对比以确定是否存在相同数据；

若存在相同数据，则不保存该Chunk，通过Chunk列表和索引找到对应的Chunk副本；

若不存在相同数据，则保持该Chunk，并将Chunk特征值和Chunk到逻辑块的映射信息保存到Chunk索引中。

本申请一些实施例中，确定目标粒度，包括：

获取重复数据删除处理之前的字节数和重复数据删除处理之后的字节数，基于重复数据删除处理之前的字节数和重复数据删除处理之后的字节数得到数据缩减率；

获取元数据开销信息，元数据开销信息包括元数据大小和平均Chunk值，基于元数据大小和平均Chunk值得到修正因子，并对数据缩减率进行修正；

获取Chunk的共享度，基于修正后的数据缩减率对Chunk的共享度进行修正，根据修正后的Chunk的共享度确定目标粒度。

本申请一些实施例中，所述方法还包括：

根据每个Chunk内容与预设重要字符表进行匹配，得到匹配度，根据匹配度得到每个Chunk内容所对应的重要值；

根据每个Chunk内容所对应的重要值与预设重要值的关系进行重要数据的筛选。

通过应用以上技术方案，获取异构数据，根据异构数据得到对应的直接转换分数和间接转换分数，根据直接转换分数和间接转换分数选择转换模式进行转换，得到结构化数据；将结构化数据进行重复数据的删除和重要数据的筛选，得到净化数据。本申请通过间接转换分数和直接转换分数确定转换模式进行异构数据的转换解析，并根据数据缩减率等参数确定目标粒度，进行重复数据的删除，和重要数据的筛选，提高了解析效果和数据处理效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例提出的一种数据泛化解析方法的流程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种数据泛化解析方法，如图1所示，该方法包括以下步骤：

步骤S101，获取异构数据，根据异构数据得到对应的直接转换分数和间接转换分数，根据直接转换分数和间接转换分数选择转换模式进行转换，得到结构化数据。

本实施例中，获取需要处理的不同结构的数据（异构数据），异构数据的解析主要分为直接解析和间接解析，根据两者对应的分数选择转换模式进行转换，分数越高说明所耗费的时间、空间资源综合越少。

本申请一些实施例中，所述转换模式包括：直接转换模式，包括：通过预设正则表达式将异构数据进行过滤并建立对应结构化数据；间接转换模式，包括：通过预设转换规则将异构数据转换成XML数据；通过预设解析方法将XML数据转换成结构化数据。

本实施例中，直接转换是通过预设正则表达式将异构数据进行过滤并建立对应结构化数据。间接转换是先通过预设转换规则将异构数据转换成XML数据，再通过预设解析方法将XML数据转换成结构化数据。间接转换中第一步通过预设转换规则将异构数据转换成XML数据的手段较为成熟，主要在于第二步通过预设解析方法将XML数据转换成结构化数据中，不同预设解析方法应用场景不同、耗费资源不同。预设解析方法包括DOM、SAX、JDOM和DOM4J。选择一种预设解析方法作为进行间接转换，根据各个预设解析方法对应的分数进行选择。

为了提高解析的效果，本申请一些实施例中，根据异构数据得到对应的直接转换分数，包括：获取直接转换过程中的评价指标，根据评价指标和预设权重预测直接转换分数。

本实施例中，评价指标包括转换时间、转换过程中空间占用量等，根据评价指标和预设权重预测直接转换分数。直接转换分数代表直接转换时所需耗费资源，分数越高耗费资源越少。

本申请一些实施例中，根据异构数据得到间接转换分数，包括：获取每个预设解析方法解析的时间参数和空间参数；时间参数包括代码的运行时间和对应代码的运行次数；基于代码的运行时间和对应代码的运行次数得到耗费总时间；获取XML数据大小，基于耗费总时间和XML数据大小得到效率；基于效率和空间参数建立解析数组，根据解析数组得到各个预设解析方法的间接转换分数。

本实施例中，代码的运行时间和对应代码的运行次数两者之积为耗费总时间，耗费总时间和XML数据大小的比值即为效率，解析数组为时间和空间参数综合数组。

本申请一些实施例中，基于效率和空间参数建立解析数组，包括：空间参数包括内存堆占用空间和CPU占用率；基于效率、内存堆占用空间和CPU占用率的大小确定各自对应的权重，并计算效率、内存堆占用空间和CPU占用率各自对应的影响值；基于效率、内存堆占用空间和CPU占用率各自对应的影响值确定解析数组的位置顺序，根据效率、内存堆占用空间、CPU占用率和各自对应的位置顺序构建解析数组。

本实施例中，设定效率、内存堆占用空间和CPU占用率的大小分别为Q1、Q2、Q3，根据效率的大小确定对应的权重，具体为：

预设效率数组A0（A1，A2，A3，A4），其中，A1，A2，A3，A4均为预设值，且A1＜A2＜A3＜A4；

预设效率权重数组F0（F1，F2，F3，F4），其中，F1，F2，F3，F4均为预设值，且F1＜F2＜F3＜F4；

根据效率与各个预设效率值之间的关系，确定效率权重；

若Q1＜A1，确定第一预设效率权重F1作为效率权重；

若A1≤Q1＜A2，确定第二预设效率权重F2作为效率权重；

若A2≤Q1＜A3，确定第三预设效率权重F3作为效率权重；

若A3≤Q1＜A4，确定第四预设效率权重F4作为效率权重。

其余两个空间参数同理，效率影响值为Q1*F0，其余两个同理。

例如，效率、内存堆占用空间和CPU占用率各自对应的影响值逐渐变小，则效率、内存堆占用空间和CPU占用率分别为第一位、第二位和第三位，构建后的解析数组为（Q1，Q2，Q3）。顺序为从左到右依次。

本申请一些实施例中，根据解析数组得到各个预设解析方法的间接转换分数，包括：根据解析数组对应位置处的本位因子修正效率、内存堆占用空间和CPU占用率，根据修正后的效率、内存堆占用空间和CPU占用率得到间接转换分数。

本实施例中，解析数组的本位因子为（λ1，λ2，λ3），修正后的解析数组为（λ1Q1，λ2Q2，λ3Q3），间接转换分数=λ1Q1+λ2Q2+λ3Q3。

步骤S102，将结构化数据进行重复数据的删除和重要数据的筛选，得到净化数据。

本实施例中，将转换解析后的数据进行重复数据删除和重要数据筛选，以提高数据存储能力。

本申请一些实施例中，将结构化数据进行重复数据的删除，包括：将结构化数据按照目标粒度分割成若干个Chunk，并建立Chunk列表；根据每个Chunk内容得到唯一标识特征并确定特征值，将特征值添加到Chunk列表中；将Chunk特征值与Chunk索引中已存的特征值进行对比以确定是否存在相同数据；若存在相同数据，则不保存该Chunk，通过Chunk列表和索引找到对应的Chunk副本；若不存在相同数据，则保持该Chunk，并将Chunk特征值和Chunk到逻辑块的映射信息保存到Chunk索引中。

本实施例中，而重复数据删除系统定义了一种抽象的数据对象——— Chunk，它是对文件进行内容分析的基本单位。内容分析层按照数据划分策略将文件划分成若干个Chunk；同时，计算出每个Chunk特征值。这样，文件可以通过其Chunk特征值列表来表示，而不是逻辑块地址信息。Chunk过滤层比对Chunk的特征值来确定Chunk是否为重复的Chunk存储层则负责存储唯一的Chunk；为支持快速查询建立Chunk索引来保存Chunk的特征值以及Chunk与逻辑块的映射关系等信息。

本申请一些实施例中，确定目标粒度，包括：获取重复数据删除处理之前的字节数和重复数据删除处理之后的字节数，基于重复数据删除处理之前的字节数和重复数据删除处理之后的字节数得到数据缩减率；获取元数据开销信息，元数据开销信息包括元数据大小和平均Chunk值，基于元数据大小和平均Chunk值得到修正因子，并对数据缩减率进行修正；获取Chunk的共享度，基于修正后的数据缩减率对Chunk的共享度进行修正，根据修正后的Chunk的共享度确定目标粒度。

本实施例中，重复数据删除系统中的元数据开销是不容忽视的，需要据此对其进行修正。

重复数据删除处理之前的字节数（BytesIn）和重复数据删除处理之后的字节数（BytesOut），得到数据缩减率（DER），公式如下：

基于修正后的数据缩减率对Chunk的共享度进行修正，具体为：

设定修正后的数据缩减率为B，预设数据缩减率数组B0（B1，B2，B3，B4），其中，B1，B2，B3，B4均为预设值，且B1＜B2＜B3＜B4；

设定共享度为L，预设修正系数数组G0（G1，G2，G3，G4），其中，G1，G2，G3，G4均为预设值，且0.7＜G1＜G2＜G3＜G4＜1.3；

根据数据缩减率与各个预设数据缩减率之间的关系，确定修正系数，进行修正；

若B＜B1，确定第一预设修正系数G1作为修正系数，修正后的共享度为L*G1；

若B1≤B＜B2，确定第二预设修正系数G2作为修正系数，修正后的共享度为L*G2；

若B2≤B＜B3，确定第三预设修正系数G3作为修正系数，修正后的共享度为L*G3；

若B3≤B＜B4，确定第四预设修正系数G4作为修正系数，修正后的共享度为L*G4。

如果一个共享的数据Chunk丢失，则所有共享该Chunk的文件将都会丢失数据。令Chunki丢失而损失的数据量为S。

设定某个Chunk的共享度为W_i（修正后的），设定Chunk尺寸为P，则S=W_i*P，根据预设损失量阈值确定目标粒度。

本申请一些实施例中，所述方法还包括：

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施场景所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据泛化解析方法，其特征在于，所述方法包括：

将结构化数据进行重复数据的删除和重要数据的筛选，得到净化数据；

其中，所述转换模式包括：

直接转换模式，包括：

间接转换模式，包括：

通过预设转换规则将异构数据转换成XML数据；

通过预设解析方法将XML数据转换成结构化数据；

根据异构数据得到间接转换分数，包括：

获取每个预设解析方法解析的时间参数和空间参数；

时间参数包括代码的运行时间和对应代码的运行次数；

获取XML数据大小，基于耗费总时间和XML数据大小得到效率；

2.如权利要求1所述的方法，其特征在于，根据异构数据得到对应的直接转换分数，包括：

3.如权利要求1所述的方法，其特征在于，基于效率和空间参数建立解析数组，包括：

空间参数包括内存堆占用空间和CPU占用率；

4.如权利要求1所述的方法，其特征在于，根据解析数组得到各个预设解析方法的间接转换分数，包括：

5.如权利要求1所述的方法，其特征在于，将结构化数据进行重复数据的删除，包括：

6.如权利要求5所述的方法，其特征在于，确定目标粒度，包括：

7.如权利要求5所述的方法，其特征在于，所述方法还包括：