CN116383290B - 一种数据泛化解析方法 - Google Patents

一种数据泛化解析方法 Download PDF

Info

Publication number
CN116383290B
CN116383290B CN202310286455.3A CN202310286455A CN116383290B CN 116383290 B CN116383290 B CN 116383290B CN 202310286455 A CN202310286455 A CN 202310286455A CN 116383290 B CN116383290 B CN 116383290B
Authority
CN
China
Prior art keywords
data
chunk
obtaining
conversion
efficiency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310286455.3A
Other languages
English (en)
Other versions
CN116383290A (zh
Inventor
袁建
张守玉
赵可
宋成风
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bidding Branch Of China Huaneng Group Co ltd
Huaneng Information Technology Co Ltd
Original Assignee
Beijing Bidding Branch Of China Huaneng Group Co ltd
Huaneng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bidding Branch Of China Huaneng Group Co ltd, Huaneng Information Technology Co Ltd filed Critical Beijing Bidding Branch Of China Huaneng Group Co ltd
Priority to CN202310286455.3A priority Critical patent/CN116383290B/zh
Publication of CN116383290A publication Critical patent/CN116383290A/zh
Application granted granted Critical
Publication of CN116383290B publication Critical patent/CN116383290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24549Run-time optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种数据泛化解析方法,涉及数据解析技术领域,包括,获取异构数据,根据异构数据得到对应的直接转换分数和间接转换分数,根据直接转换分数和间接转换分数选择转换模式进行转换,得到结构化数据;将结构化数据进行重复数据的删除和重要数据的筛选,得到净化数据。本申请通过间接转换分数和直接转换分数确定转换模式进行异构数据的转换解析,并根据数据缩减率等参数确定目标粒度,进行重复数据的删除,和重要数据的筛选,提高了解析效果和数据处理效率。

Description

一种数据泛化解析方法
技术领域
本申请涉及数据解析技术领域,更具体地,涉及一种数据泛化解析方法。
背景技术
由于异构文本数据具有数据量大、形式多样且来源复杂等特点,在数据预处理工作中,存在查找有效信息困难的问题。为了对数据进行过滤并达到筛选有效信息的目的,需要对数据结构进行转换,保证数据的统一化,从而简化后续文本的处理工作。
现有技术中,往往采用一种数据解析方法来进行不同结构数据的解析,不能满足数据解析过程中复杂多变的应用场景,导致解析效果较差。
因此,如何提高解析效果,是目前有待解决的技术问题。
发明内容
本发明提供一种数据泛化解析方法,用以解决现有技术中不同结构数据解析效果差的技术问题。所述方法包括:
获取异构数据,根据异构数据得到对应的直接转换分数和间接转换分数,根据直接转换分数和间接转换分数选择转换模式进行转换,得到结构化数据;
将结构化数据进行重复数据的删除和重要数据的筛选,得到净化数据。
本申请一些实施例中,所述转换模式包括:
直接转换模式,包括:
通过预设正则表达式将异构数据进行过滤并建立对应结构化数据;
间接转换模式,包括:
通过预设转换规则将异构数据转换成XML数据;
通过预设解析方法将XML数据转换成结构化数据。
本申请一些实施例中,根据异构数据得到对应的直接转换分数,包括:
获取直接转换过程中的评价指标,根据评价指标和预设权重预测直接转换分数。
本申请一些实施例中,根据异构数据得到间接转换分数,包括:
获取每个预设解析方法解析的时间参数和空间参数;
时间参数包括代码的运行时间和对应代码的运行次数;
基于代码的运行时间和对应代码的运行次数得到耗费总时间;
获取XML数据大小,基于耗费总时间和XML数据大小得到效率;
基于效率和空间参数建立解析数组,根据解析数组得到各个预设解析方法的间接转换分数。
本申请一些实施例中,基于效率和空间参数建立解析数组,包括:
空间参数包括内存堆占用空间和CPU占用率;
基于效率、内存堆占用空间和CPU占用率的大小确定各自对应的权重,并计算效率、内存堆占用空间和CPU占用率各自对应的影响值;
基于效率、内存堆占用空间和CPU占用率各自对应的影响值确定解析数组的位置顺序,根据效率、内存堆占用空间、CPU占用率和各自对应的位置顺序构建解析数组。
本申请一些实施例中,根据解析数组得到各个预设解析方法的间接转换分数,包括:
根据解析数组对应位置处的本位因子修正效率、内存堆占用空间和CPU占用率,根据修正后的效率、内存堆占用空间和CPU占用率得到间接转换分数。
本申请一些实施例中,将结构化数据进行重复数据的删除,包括:
将结构化数据按照目标粒度分割成若干个Chunk,并建立Chunk列表;
根据每个Chunk内容得到唯一标识特征并确定特征值,将特征值添加到Chunk列表中;
将Chunk特征值与Chunk索引中已存的特征值进行对比以确定是否存在相同数据;
若存在相同数据,则不保存该Chunk,通过Chunk列表和索引找到对应的Chunk副本;
若不存在相同数据,则保持该Chunk,并将Chunk特征值和Chunk到逻辑块的映射信息保存到Chunk索引中。
本申请一些实施例中,确定目标粒度,包括:
获取重复数据删除处理之前的字节数和重复数据删除处理之后的字节数,基于重复数据删除处理之前的字节数和重复数据删除处理之后的字节数得到数据缩减率;
获取元数据开销信息,元数据开销信息包括元数据大小和平均Chunk值,基于元数据大小和平均Chunk值得到修正因子,并对数据缩减率进行修正;
获取Chunk的共享度,基于修正后的数据缩减率对Chunk的共享度进行修正,根据修正后的Chunk的共享度确定目标粒度。
本申请一些实施例中,所述方法还包括:
根据每个Chunk内容与预设重要字符表进行匹配,得到匹配度,根据匹配度得到每个Chunk内容所对应的重要值;
根据每个Chunk内容所对应的重要值与预设重要值的关系进行重要数据的筛选。
通过应用以上技术方案,获取异构数据,根据异构数据得到对应的直接转换分数和间接转换分数,根据直接转换分数和间接转换分数选择转换模式进行转换,得到结构化数据;将结构化数据进行重复数据的删除和重要数据的筛选,得到净化数据。本申请通过间接转换分数和直接转换分数确定转换模式进行异构数据的转换解析,并根据数据缩减率等参数确定目标粒度,进行重复数据的删除,和重要数据的筛选,提高了解析效果和数据处理效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例提出的一种数据泛化解析方法的流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种数据泛化解析方法,如图1所示,该方法包括以下步骤:
步骤S101,获取异构数据,根据异构数据得到对应的直接转换分数和间接转换分数,根据直接转换分数和间接转换分数选择转换模式进行转换,得到结构化数据。
本实施例中,获取需要处理的不同结构的数据(异构数据),异构数据的解析主要分为直接解析和间接解析,根据两者对应的分数选择转换模式进行转换,分数越高说明所耗费的时间、空间资源综合越少。
本申请一些实施例中,所述转换模式包括:直接转换模式,包括:通过预设正则表达式将异构数据进行过滤并建立对应结构化数据;间接转换模式,包括:通过预设转换规则将异构数据转换成XML数据;通过预设解析方法将XML数据转换成结构化数据。
本实施例中,直接转换是通过预设正则表达式将异构数据进行过滤并建立对应结构化数据。间接转换是先通过预设转换规则将异构数据转换成XML数据,再通过预设解析方法将XML数据转换成结构化数据。间接转换中第一步通过预设转换规则将异构数据转换成XML数据的手段较为成熟,主要在于第二步通过预设解析方法将XML数据转换成结构化数据中,不同预设解析方法应用场景不同、耗费资源不同。预设解析方法包括DOM、SAX、JDOM和DOM4J。选择一种预设解析方法作为进行间接转换,根据各个预设解析方法对应的分数进行选择。
为了提高解析的效果,本申请一些实施例中,根据异构数据得到对应的直接转换分数,包括:获取直接转换过程中的评价指标,根据评价指标和预设权重预测直接转换分数。
本实施例中,评价指标包括转换时间、转换过程中空间占用量等,根据评价指标和预设权重预测直接转换分数。直接转换分数代表直接转换时所需耗费资源,分数越高耗费资源越少。
本申请一些实施例中,根据异构数据得到间接转换分数,包括:获取每个预设解析方法解析的时间参数和空间参数;时间参数包括代码的运行时间和对应代码的运行次数;基于代码的运行时间和对应代码的运行次数得到耗费总时间;获取XML数据大小,基于耗费总时间和XML数据大小得到效率;基于效率和空间参数建立解析数组,根据解析数组得到各个预设解析方法的间接转换分数。
本实施例中,代码的运行时间和对应代码的运行次数两者之积为耗费总时间,耗费总时间和XML数据大小的比值即为效率,解析数组为时间和空间参数综合数组。
本申请一些实施例中,基于效率和空间参数建立解析数组,包括:空间参数包括内存堆占用空间和CPU占用率;基于效率、内存堆占用空间和CPU占用率的大小确定各自对应的权重,并计算效率、内存堆占用空间和CPU占用率各自对应的影响值;基于效率、内存堆占用空间和CPU占用率各自对应的影响值确定解析数组的位置顺序,根据效率、内存堆占用空间、CPU占用率和各自对应的位置顺序构建解析数组。
本实施例中,设定效率、内存堆占用空间和CPU占用率的大小分别为Q1、Q2、Q3,根据效率的大小确定对应的权重,具体为:
预设效率数组A0(A1,A2,A3,A4),其中,A1,A2,A3,A4均为预设值,且A1<A2<A3<A4;
预设效率权重数组F0(F1,F2,F3,F4),其中,F1,F2,F3,F4均为预设值,且F1<F2<F3<F4;
根据效率与各个预设效率值之间的关系,确定效率权重;
若Q1<A1,确定第一预设效率权重F1作为效率权重;
若A1≤Q1<A2,确定第二预设效率权重F2作为效率权重;
若A2≤Q1<A3,确定第三预设效率权重F3作为效率权重;
若A3≤Q1<A4,确定第四预设效率权重F4作为效率权重。
其余两个空间参数同理,效率影响值为Q1*F0,其余两个同理。
基于效率、内存堆占用空间和CPU占用率各自对应的影响值确定解析数组的位置顺序,根据效率、内存堆占用空间、CPU占用率和各自对应的位置顺序构建解析数组。
例如,效率、内存堆占用空间和CPU占用率各自对应的影响值逐渐变小,则效率、内存堆占用空间和CPU占用率分别为第一位、第二位和第三位,构建后的解析数组为(Q1,Q2,Q3)。顺序为从左到右依次。
本申请一些实施例中,根据解析数组得到各个预设解析方法的间接转换分数,包括:根据解析数组对应位置处的本位因子修正效率、内存堆占用空间和CPU占用率,根据修正后的效率、内存堆占用空间和CPU占用率得到间接转换分数。
本实施例中,解析数组的本位因子为(λ1,λ2,λ3),修正后的解析数组为(λ1Q1,λ2Q2,λ3Q3),间接转换分数=λ1Q1+λ2Q2+λ3Q3。
步骤S102,将结构化数据进行重复数据的删除和重要数据的筛选,得到净化数据。
本实施例中,将转换解析后的数据进行重复数据删除和重要数据筛选,以提高数据存储能力。
本申请一些实施例中,将结构化数据进行重复数据的删除,包括:将结构化数据按照目标粒度分割成若干个Chunk,并建立Chunk列表;根据每个Chunk内容得到唯一标识特征并确定特征值,将特征值添加到Chunk列表中;将Chunk特征值与Chunk索引中已存的特征值进行对比以确定是否存在相同数据;若存在相同数据,则不保存该Chunk,通过Chunk列表和索引找到对应的Chunk副本;若不存在相同数据,则保持该Chunk,并将Chunk特征值和Chunk到逻辑块的映射信息保存到Chunk索引中。
本实施例中,而重复数据删除系统定义了一种抽象的数据对象——— Chunk,它是对文件进行内容分析的基本单位。内容分析层按照数据划分策略将文件划分成若干个Chunk;同时,计算出每个Chunk特征值。这样,文件可以通过其Chunk特征值列表来表示,而不是逻辑块地址信息。Chunk过滤层比对Chunk的特征值来确定Chunk是否为重复的Chunk存储层则负责存储唯一的Chunk;为支持快速查询建立Chunk索引来保存Chunk的特征值以及Chunk与逻辑块的映射关系等信息。
本申请一些实施例中,确定目标粒度,包括:获取重复数据删除处理之前的字节数和重复数据删除处理之后的字节数,基于重复数据删除处理之前的字节数和重复数据删除处理之后的字节数得到数据缩减率;获取元数据开销信息,元数据开销信息包括元数据大小和平均Chunk值,基于元数据大小和平均Chunk值得到修正因子,并对数据缩减率进行修正;获取Chunk的共享度,基于修正后的数据缩减率对Chunk的共享度进行修正,根据修正后的Chunk的共享度确定目标粒度。
本实施例中,重复数据删除系统中的元数据开销是不容忽视的,需要据此对其进行修正。
重复数据删除处理之前的字节数(BytesIn)和重复数据删除处理之后的字节数(BytesOut),得到数据缩减率(DER),公式如下:
基于修正后的数据缩减率对Chunk的共享度进行修正,具体为:
设定修正后的数据缩减率为B,预设数据缩减率数组B0(B1,B2,B3,B4),其中,B1,B2,B3,B4均为预设值,且B1<B2<B3<B4;
设定共享度为L,预设修正系数数组G0(G1,G2,G3,G4),其中,G1,G2,G3,G4均为预设值,且0.7<G1<G2<G3<G4<1.3;
根据数据缩减率与各个预设数据缩减率之间的关系,确定修正系数,进行修正;
若B<B1,确定第一预设修正系数G1作为修正系数,修正后的共享度为L*G1;
若B1≤B<B2,确定第二预设修正系数G2作为修正系数,修正后的共享度为L*G2;
若B2≤B<B3,确定第三预设修正系数G3作为修正系数,修正后的共享度为L*G3;
若B3≤B<B4,确定第四预设修正系数G4作为修正系数,修正后的共享度为L*G4。
如果一个共享的数据Chunk丢失,则所有共享该Chunk的文件将都会丢失数据。令Chunki丢失而损失的数据量为S。
设定某个Chunk的共享度为Wi(修正后的),设定Chunk尺寸为P,则S=Wi*P,根据预设损失量阈值确定目标粒度。
本申请一些实施例中,所述方法还包括:
根据每个Chunk内容与预设重要字符表进行匹配,得到匹配度,根据匹配度得到每个Chunk内容所对应的重要值;
根据每个Chunk内容所对应的重要值与预设重要值的关系进行重要数据的筛选。
通过应用以上技术方案,获取异构数据,根据异构数据得到对应的直接转换分数和间接转换分数,根据直接转换分数和间接转换分数选择转换模式进行转换,得到结构化数据;将结构化数据进行重复数据的删除和重要数据的筛选,得到净化数据。本申请通过间接转换分数和直接转换分数确定转换模式进行异构数据的转换解析,并根据数据缩减率等参数确定目标粒度,进行重复数据的删除,和重要数据的筛选,提高了解析效果和数据处理效率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施场景所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (7)

1.一种数据泛化解析方法,其特征在于,所述方法包括:
获取异构数据,根据异构数据得到对应的直接转换分数和间接转换分数,根据直接转换分数和间接转换分数选择转换模式进行转换,得到结构化数据;
将结构化数据进行重复数据的删除和重要数据的筛选,得到净化数据;
其中,所述转换模式包括:
直接转换模式,包括:
通过预设正则表达式将异构数据进行过滤并建立对应结构化数据;
间接转换模式,包括:
通过预设转换规则将异构数据转换成XML数据;
通过预设解析方法将XML数据转换成结构化数据;
根据异构数据得到间接转换分数,包括:
获取每个预设解析方法解析的时间参数和空间参数;
时间参数包括代码的运行时间和对应代码的运行次数;
基于代码的运行时间和对应代码的运行次数得到耗费总时间;
获取XML数据大小,基于耗费总时间和XML数据大小得到效率;
基于效率和空间参数建立解析数组,根据解析数组得到各个预设解析方法的间接转换分数。
2.如权利要求1所述的方法,其特征在于,根据异构数据得到对应的直接转换分数,包括:
获取直接转换过程中的评价指标,根据评价指标和预设权重预测直接转换分数。
3.如权利要求1所述的方法,其特征在于,基于效率和空间参数建立解析数组,包括:
空间参数包括内存堆占用空间和CPU占用率;
基于效率、内存堆占用空间和CPU占用率的大小确定各自对应的权重,并计算效率、内存堆占用空间和CPU占用率各自对应的影响值;
基于效率、内存堆占用空间和CPU占用率各自对应的影响值确定解析数组的位置顺序,根据效率、内存堆占用空间、CPU占用率和各自对应的位置顺序构建解析数组。
4.如权利要求1所述的方法,其特征在于,根据解析数组得到各个预设解析方法的间接转换分数,包括:
根据解析数组对应位置处的本位因子修正效率、内存堆占用空间和CPU占用率,根据修正后的效率、内存堆占用空间和CPU占用率得到间接转换分数。
5.如权利要求1所述的方法,其特征在于,将结构化数据进行重复数据的删除,包括:
将结构化数据按照目标粒度分割成若干个Chunk,并建立Chunk列表;
根据每个Chunk内容得到唯一标识特征并确定特征值,将特征值添加到Chunk列表中;
将Chunk特征值与Chunk索引中已存的特征值进行对比以确定是否存在相同数据;
若存在相同数据,则不保存该Chunk,通过Chunk列表和索引找到对应的Chunk副本;
若不存在相同数据,则保持该Chunk,并将Chunk特征值和Chunk到逻辑块的映射信息保存到Chunk索引中。
6.如权利要求5所述的方法,其特征在于,确定目标粒度,包括:
获取重复数据删除处理之前的字节数和重复数据删除处理之后的字节数,基于重复数据删除处理之前的字节数和重复数据删除处理之后的字节数得到数据缩减率;
获取元数据开销信息,元数据开销信息包括元数据大小和平均Chunk值,基于元数据大小和平均Chunk值得到修正因子,并对数据缩减率进行修正;
获取Chunk的共享度,基于修正后的数据缩减率对Chunk的共享度进行修正,根据修正后的Chunk的共享度确定目标粒度。
7.如权利要求5所述的方法,其特征在于,所述方法还包括:
根据每个Chunk内容与预设重要字符表进行匹配,得到匹配度,根据匹配度得到每个Chunk内容所对应的重要值;
根据每个Chunk内容所对应的重要值与预设重要值的关系进行重要数据的筛选。
CN202310286455.3A 2023-03-22 2023-03-22 一种数据泛化解析方法 Active CN116383290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310286455.3A CN116383290B (zh) 2023-03-22 2023-03-22 一种数据泛化解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310286455.3A CN116383290B (zh) 2023-03-22 2023-03-22 一种数据泛化解析方法

Publications (2)

Publication Number Publication Date
CN116383290A CN116383290A (zh) 2023-07-04
CN116383290B true CN116383290B (zh) 2023-10-31

Family

ID=86968636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310286455.3A Active CN116383290B (zh) 2023-03-22 2023-03-22 一种数据泛化解析方法

Country Status (1)

Country Link
CN (1) CN116383290B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101695277B1 (ko) * 2016-04-26 2017-01-11 (주)시큐레이어 비정형 데이터의 정규화를 수행하도록 지원하는 방법 및 이를 이용한 컴퓨팅 장치
WO2017008650A1 (zh) * 2015-07-13 2017-01-19 阿里巴巴集团控股有限公司 一种用于过滤数据的设备及方法
CN113779312A (zh) * 2021-09-14 2021-12-10 广州汇通国信科技有限公司 一种基于知识图谱的非结构化电网数据处理方法及装置
CN114817186A (zh) * 2022-04-27 2022-07-29 成都天奥集团有限公司 一种结构化数据的转换系统和方法
CN115203309A (zh) * 2022-09-15 2022-10-18 北京信立方科技发展股份有限公司 网页中标数据结构化方法及装置
CN115757596A (zh) * 2022-12-22 2023-03-07 福建亿榕信息技术有限公司 一种通用电力非结构化数据转结构化数据方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017008650A1 (zh) * 2015-07-13 2017-01-19 阿里巴巴集团控股有限公司 一种用于过滤数据的设备及方法
KR101695277B1 (ko) * 2016-04-26 2017-01-11 (주)시큐레이어 비정형 데이터의 정규화를 수행하도록 지원하는 방법 및 이를 이용한 컴퓨팅 장치
CN113779312A (zh) * 2021-09-14 2021-12-10 广州汇通国信科技有限公司 一种基于知识图谱的非结构化电网数据处理方法及装置
CN114817186A (zh) * 2022-04-27 2022-07-29 成都天奥集团有限公司 一种结构化数据的转换系统和方法
CN115203309A (zh) * 2022-09-15 2022-10-18 北京信立方科技发展股份有限公司 网页中标数据结构化方法及装置
CN115757596A (zh) * 2022-12-22 2023-03-07 福建亿榕信息技术有限公司 一种通用电力非结构化数据转结构化数据方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于XML的非结构化数据转换方法;杨晶;周双娥;;计算机科学(S2);424-427 *

Also Published As

Publication number Publication date
CN116383290A (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
US20190278783A1 (en) Compaction policy
CN102411616B (zh) 一种数据存储方法和系统及数据管理方法
US20140222839A1 (en) Sorting multiple records of data using ranges of key values
CN109325032B (zh) 一种索引数据存储及检索方法、装置及存储介质
CN112395293B (zh) 分库分表方法、分库分表装置、分库分表设备及存储介质
CN110399096B (zh) 分布式文件系统元数据缓存重删的方法、装置以及设备
CN116915259B (zh) 基于物联网的仓配数据优化储存方法及系统
CN112306974A (zh) 一种数据处理方法、装置、设备及存储介质
CN112085644A (zh) 多列数据排序方法、装置、可读存储介质和电子设备
CN111028897B (zh) 一种基于Hadoop的基因组索引构建的分布式并行计算方法
US7484068B2 (en) Storage space management methods and systems
CN116383290B (zh) 一种数据泛化解析方法
CN115438114B (zh) 存储格式转换方法、系统、装置、电子设备及存储介质
CN113268459A (zh) 基于fastq基因大数据的批量分布式压缩方法
EP3963853B1 (en) Optimizing storage and retrieval of compressed data
WO2018036290A1 (zh) 一种数据压缩方法及终端
CN112559465A (zh) 一种日志压缩方法、装置、电子设备及存储介质
CN115982634A (zh) 应用程序分类方法、装置、电子设备及计算机程序产品
CN111767287A (zh) 数据导入方法、装置、设备及计算机存储介质
CN114968547A (zh) 一种排序装置及方法
CN112015791A (zh) 数据处理方法、装置、电子设备及计算机存储介质
CN111258955A (zh) 一种文件读取方法和系统、存储介质、计算机设备
CN114706849B (zh) 一种数据检索方法、装置及电子设备
US20240088913A1 (en) Graph data compression method and apparatus
CN113568573B (zh) 数据存储方法、数据存储装置、存储介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant