CN110263224A - 一种基于elp模型的事件型链接数据压缩方法 - Google Patents
一种基于elp模型的事件型链接数据压缩方法 Download PDFInfo
- Publication number
- CN110263224A CN110263224A CN201910374084.8A CN201910374084A CN110263224A CN 110263224 A CN110263224 A CN 110263224A CN 201910374084 A CN201910374084 A CN 201910374084A CN 110263224 A CN110263224 A CN 110263224A
- Authority
- CN
- China
- Prior art keywords
- data
- elp
- links
- event
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/08—Payment architectures
- G06Q20/10—Payment architectures specially adapted for electronic funds transfer [EFT] systems; specially adapted for home banking systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- Technology Law (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明涉及一种基于ELP模型的事件型链接数据压缩方法,包括构建数据模型,数据识别,数据压缩及数据输出等四个步骤。本发明数据压缩处理组作业效率高,通用性好,可有效的满足各类不同类型数据压缩作业的需要,同时可有效的提高压缩后数据的灵活性和拓展性,并极大简化数据结构,降低数据对存储空间的占用量和对数据运算时的资源消耗两,并可极大地减少底层数据索引体积,提升图库查询性能。
Description
技术领域
本发明涉及一种基于ELP模型的事件型链接数据压缩方法,属计算机数据处理技术领域。
背景技术
随着互联网的高速发展和业务系统的长期积累,需要一种能够灵活建模和扩展的数据结构模型。图(Graph)是一种灵活的数据存储结构,它由顶点和顶点之间的边构成,能够直观地表达不同场景下实体以及实体之间地关系。其模型可通过实体链接模型进行描述。实体(Entity)对应图中的顶点,而链接(Link)对应图中的边,实体与链接都可以包含属性(Property)来描述实体与链接的内部结构。也有系统称这一模型为实体关系模型。进一步地,链接可以细分为描述实体间关系的链接与记录实体之间交互事件的链接。
目前,应用实体链接模型(ELP)的系统绝大部分都是以它为基础建模的描述语言,用于构建一个方便灵活扩展的基础图数据库。在大规模图数据存储中,实体的数据量通常远小于链接的据量,而链接数据中,事件型链接数据的数据量也会远超过关系型链接数据的数据量。事件型链接带来的图库中边数据会消耗大量的数据存储资源,但通常在数据统计分析过程中只有少数属性需要参与分析计算。
因此针对这一问题,迫切需要开发一种全新的数据压缩方法,以克服当前的不足,满足实际使用的需要。
发明内容
本发明目的就在于克服上述不足,提供一种基于ELP模型的事件型链接数据压缩方法。
为实现上述目的,本发明是通过以下技术方案来实现:
一种基于ELP模型的事件型链接数据压缩方法,包括以下步骤:
S1,构建数据模型,在数据处理服务器中建立以ARMA模型为基础的于ELP数据计算模型,并备用;
S2,数据识别,读取各与S1步骤中数据处理服务器连接的客户端处需进行压缩的链接类型的全部数据链接,并对各数据根据数据类型进行分类缓存,然后根据读取到的数据类型与S1步骤构建的ELP数据计算模型进行比对,对S1步骤构建的ELP数据计算模型的数据运算支持范围进行拓展,并满足S2步骤读取的全部数据的数据链接类型;
S3,数据压缩,遍历所有数据链接,将当前各客户端的每一条事件链接的数据通过S1步骤构建的ELP数据计算模型进行累加合并到对应客户端实体数据组合的压缩后链接中,完成数据压缩;
S4,数据输出,将进过S3步骤压缩后的数据直接通过数据处理服务器输出到S3步骤中各实体组合位置处即可。
进一步的,所述的实体数据包括客户端的身份ID、名字、源实体、目标实体、方向性、开始时间、结束时间、发生次数及其属性列表。
进一步的,所述的S3步骤中,实体数据包括客户端的身份ID、名字及其属性列表。
进一步的,所述的S3步骤中,累加事件链接数据时,对开始时间、结束时间与发生次数进行如下特殊处理:所有事件链接的最早开始时间作为合并后链接的开始时间;所有事件链接的最晚结束时间作为合并后链接的结束时间;累加的所有事件链接数量,作为合并后链接的发生次数。
进一步的,所述的S3步骤中,事件链接的属性列表中包含描述事件特征的属性值,可以对所有事件链接的该属性值进行累加处理,作为合并后链接的对应属性值。
本发明数据压缩处理组作业效率高,通用性好,可有效的满足各类不同类型数据压缩作业的需要,同时可有效的提高压缩后数据的灵活性和拓展性,并极大简化数据结构,降低数据对存储空间的占用量和对数据运算时的资源消耗两,并可极大地减少底层数据索引体积,提升图库查询性能。
附图说明
图1为本发明方法流程示意图;
图2为图数据压缩处理流程图;
图3为三个账户间转账链接数据交互示意图;
图4为建立转账链接及转账发生次数累积数据交互示意图;
图5为账户01和02之间的交易并将具体交易数据累加数据交互示意图;
具体实施方式
实施例1
如图1所示,一种基于ELP模型的事件型链接数据压缩方法,包括以下步骤:
S1,构建数据模型,在数据处理服务器中建立以ARMA模型为基础的于ELP数据计算模型,并备用;
S2,数据识别,读取各与S1步骤中数据处理服务器连接的客户端处需进行压缩的链接类型的全部数据链接,并对各数据根据数据类型进行分类缓存,然后根据读取到的数据类型与S1步骤构建的ELP数据计算模型进行比对,对S1步骤构建的ELP数据计算模型的数据运算支持范围进行拓展,并满足S2步骤读取的全部数据的数据链接类型;
S3,数据压缩,遍历所有数据链接,将当前各客户端的每一条事件链接的数据通过S1步骤构建的ELP数据计算模型进行累加合并到对应客户端实体数据组合的压缩后链接中,完成数据压缩;
S4,数据输出,将进过S3步骤压缩后的数据直接通过数据处理服务器输出到S3步骤中各实体组合位置处即可。
其中,所述的实体数据包括客户端的身份ID、名字、源实体、目标实体、方向性、开始时间、结束时间、发生次数及其属性列表。
同时,所述的S3步骤中,实体数据包括客户端的身份ID、名字及其属性列表,所述的S3步骤中,累加事件链接数据时,对开始时间、结束时间与发生次数进行如下特殊处理:所有事件链接的最早开始时间作为合并后链接的开始时间;所有事件链接的最晚结束时间作为合并后链接的结束时间;累加的所有事件链接数量,作为合并后链接的发生次数。
此外,所述的S3步骤中,事件链接的属性列表中包含描述事件特征的属性值,可以对所有事件链接的该属性值进行累加处理,作为合并后链接的对应属性值。
实施例2
如图2-5所示,以一份图数据记录了三个账户之间的一批转账交易事件为例,其中账户实体包含户主账户ID属性,转账链接包含转账发生时间和金额信息,这样一份图数据,包含3个实体和6条链接共9个数据对象的存储。倘若现在需要对该图数据进行压缩存储,则可根据本发明提供的方法,对转账事件进行压缩,具体实施方法如下:
1)建立账户03到账户01的转账链接E31,账户01到账户02的转账链接E12和账户02到账户01的转账链接E21三条合并后的转账链接
2)将所有账户03到01的转账事件数据合并到E31中,对其余转账链接数据作类似处理
3)账户数据和E31,E12和E21合并成为图数据输出。
图结构压缩逻辑首先压缩账户03与账户01之间的转账链接数据:
遍历图中转账链接,建立链接E31,计算E31的开始结束时间与发生次数,并对交易金额进行累计;
4)然后,压缩账户01和02之间的转账链接数据:
5)建立链接E12和E21,遍历账户01和02之间的交易并将具体交易数据累加到E12或E21上。
6)经过压缩算法处理,压缩后的合并链接依然记录了该链接对应的原始数据的时间范围与总交易金额等关键信息,但图边的数据量比原始数据将有大幅度减少。整体图数据转化为3个实体3条链接。但从每个账户的关联交易对手并没有变化,从ELP角度理解的图模型保持了稳定。
7)将处理后的实体链接数据输出为结果数据,得到的图中边的数量与原始图相比减少了50%。总的数据压缩比例取决于图数据中事件型链接的平均度数。以常见的转账交易和通话事件为例,压缩率可达90%以上。
本发明数据压缩处理组作业效率高,通用性好,可有效的满足各类不同类型数据压缩作业的需要,同时可有效的提高压缩后数据的灵活性和拓展性,并极大简化数据结构,降低数据对存储空间的占用量和对数据运算时的资源消耗两,并可极大地减少底层数据索引体积,提升图库查询性能。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (5)
1.一种基于ELP模型的事件型链接数据压缩方法,其特征在于:所述的基于图数据的高频数据压缩方法包括以下步骤:
S1,构建数据模型,在数据处理服务器中建立以ARMA模型为基础的于ELP数据计算模型,并备用;
S2,数据识别,读取各与S1步骤中数据处理服务器连接的客户端处需进行压缩的链接类型的全部数据链接,并对各数据根据数据类型进行分类缓存,然后根据读取到的数据类型与S1步骤构建的ELP数据计算模型进行比对,对S1步骤构建的ELP数据计算模型的数据运算支持范围进行拓展,并满足S2步骤读取的全部数据的数据链接类型;
S3,数据压缩,遍历所有数据链接,将当前各客户端的每一条事件链接的数据通过S1步骤构建的ELP数据计算模型进行累加合并到对应客户端实体数据组合的压缩后链接中,完成数据压缩;
S4,数据输出,将进过S3步骤压缩后的数据直接通过数据处理服务器输出到S3步骤中各实体组合位置处即可。
2.根据权利要求1所述的一种基于ELP模型的事件型链接数据压缩方法,其特征在于:所述的实体数据包括客户端的身份ID、名字、源实体、目标实体、方向性、开始时间、结束时间、发生次数及其属性列表。
3.根据权利要求1所述的一种基于ELP模型的事件型链接数据压缩方法,其特征在于:所述的S3步骤中,实体数据包括客户端的身份ID、名字及其属性列表。
4.根据权利要求1所述的一种基于ELP模型的事件型链接数据压缩方法,其特征在于:所述的S3步骤中,累加事件链接数据时,对开始时间、结束时间与发生次数进行如下特殊处理:所有事件链接的最早开始时间作为合并后链接的开始时间;所有事件链接的最晚结束时间作为合并后链接的结束时间;累加的所有事件链接数量,作为合并后链接的发生次数。
5.根据权利要求1所述的一种基于ELP模型的事件型链接数据压缩方法,其特征在于:所述的S3步骤中,事件链接的属性列表中包含描述事件特征的属性值,可以对所有事件链接的该属性值进行累加处理,作为合并后链接的对应属性值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910374084.8A CN110263224A (zh) | 2019-05-07 | 2019-05-07 | 一种基于elp模型的事件型链接数据压缩方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910374084.8A CN110263224A (zh) | 2019-05-07 | 2019-05-07 | 一种基于elp模型的事件型链接数据压缩方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110263224A true CN110263224A (zh) | 2019-09-20 |
Family
ID=67914246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910374084.8A Pending CN110263224A (zh) | 2019-05-07 | 2019-05-07 | 一种基于elp模型的事件型链接数据压缩方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110263224A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103778203A (zh) * | 2014-01-13 | 2014-05-07 | 中国人民解放军91655部队 | 一种网络管理数据无损压缩存储与检索的方法与系统 |
CN104662535A (zh) * | 2012-07-24 | 2015-05-27 | 起元科技有限公司 | 数据模型中的实体映射 |
CN105468605A (zh) * | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
CN109408601A (zh) * | 2018-09-19 | 2019-03-01 | 智器云南京信息科技有限公司 | 基于图数据的数据模型转换方法及图数据结构转换器 |
US10275778B1 (en) * | 2013-03-15 | 2019-04-30 | Palantir Technologies Inc. | Systems and user interfaces for dynamic and interactive investigation based on automatic malfeasance clustering of related data in various data structures |
-
2019
- 2019-05-07 CN CN201910374084.8A patent/CN110263224A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104662535A (zh) * | 2012-07-24 | 2015-05-27 | 起元科技有限公司 | 数据模型中的实体映射 |
US10275778B1 (en) * | 2013-03-15 | 2019-04-30 | Palantir Technologies Inc. | Systems and user interfaces for dynamic and interactive investigation based on automatic malfeasance clustering of related data in various data structures |
CN103778203A (zh) * | 2014-01-13 | 2014-05-07 | 中国人民解放军91655部队 | 一种网络管理数据无损压缩存储与检索的方法与系统 |
CN105468605A (zh) * | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
CN109408601A (zh) * | 2018-09-19 | 2019-03-01 | 智器云南京信息科技有限公司 | 基于图数据的数据模型转换方法及图数据结构转换器 |
Non-Patent Citations (1)
Title |
---|
顾进广 等: ""知识图谱中链接数据质量评价研究综述"", 《武汉大学学报(理学版)》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI650653B (zh) | 大數據處理方法及平台 | |
WO2022166070A1 (zh) | AIOT DaaS数字孪生云平台 | |
CN109213754A (zh) | 一种数据处理系统及数据处理方法 | |
CN102662988B (zh) | 一种用于rfid中间件的冗余数据过滤方法 | |
CN111339073A (zh) | 实时数据处理方法、装置、电子设备及可读存储介质 | |
CN106484709A (zh) | 一种日志数据的审计方法和审计装置 | |
CN111552728B (zh) | 区块链的数据处理方法、系统、终端和存储介质 | |
CN109460393B (zh) | 一种基于大数据的预检预修可视化系统 | |
CN109308290A (zh) | 一种基于cim的高效数据清洗转换方法 | |
WO2022143017A1 (zh) | 一种交通数据仓库的构建方法、装置、存储介质及终端 | |
CN115062087A (zh) | 一种用户画像构建方法、装置、设备和介质 | |
CN113254517A (zh) | 一种基于互联网大数据的服务提供方法 | |
CN110263224A (zh) | 一种基于elp模型的事件型链接数据压缩方法 | |
CN101968747B (zh) | 一种机群应用管理系统及其应用管理方法 | |
CN105677478A (zh) | 资源管理的方法和装置 | |
CN110008597A (zh) | 基于并行计算框架的建筑信息模型三角剖分方法及装置 | |
CN116049285A (zh) | 一种基于流数据的实时指标计算方法、系统、设备及介质 | |
CN105303464A (zh) | 智能电能表的数据管理系统 | |
CN115269519A (zh) | 一种日志检测方法、装置及电子设备 | |
CN105786945B (zh) | 一种基于数据通道的用电信息数据高效处理方法 | |
CN114116908A (zh) | 一种数据管理方法、装置及电子设备 | |
CN106651145A (zh) | 备件管理系统及方法 | |
CN111177188A (zh) | 一种基于聚合边与时序聚合边的快速海量时序数据处理方法 | |
CN106326470A (zh) | 流式大数据的处理方法和装置 | |
CN112488708A (zh) | 区块链账户关联性查询方法及虚假交易筛选方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190920 |
|
WD01 | Invention patent application deemed withdrawn after publication |