CN104123347A - 一种应用于boss系统的数据重删方法及系统 - Google Patents

一种应用于boss系统的数据重删方法及系统 Download PDF

Info

Publication number
CN104123347A
CN104123347A CN201410317516.9A CN201410317516A CN104123347A CN 104123347 A CN104123347 A CN 104123347A CN 201410317516 A CN201410317516 A CN 201410317516A CN 104123347 A CN104123347 A CN 104123347A
Authority
CN
China
Prior art keywords
data
heavily
deleting
data block
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410317516.9A
Other languages
English (en)
Other versions
CN104123347B (zh
Inventor
朱云章
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Si Tech Information Technology Co Ltd
Original Assignee
Beijing Si Tech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Si Tech Information Technology Co Ltd filed Critical Beijing Si Tech Information Technology Co Ltd
Priority to CN201410317516.9A priority Critical patent/CN104123347B/zh
Publication of CN104123347A publication Critical patent/CN104123347A/zh
Application granted granted Critical
Publication of CN104123347B publication Critical patent/CN104123347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • G06F16/1752De-duplication implemented within the file system, e.g. based on file segments based on file chunks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种应用于BOSS系统的数据重删方法及系统,所述方法包括:步骤1,将BOSS系统产生的业务文件载入预设的重删机制,并在该重删机制中基于文件重删方式或内存重删方式处理载入的业务文件,生成重删数据文件;步骤2,采用定长方式或滑块方式将重删数据文件划分为若干个数据块;步骤3,对每个划分好的数据块进行哈希运算,产生相应的哈希值;步骤4,选定或新增一个数据块,并将其对应的哈希值与其他所有数据块对应的哈希值进行比较,若出现相同的哈希值,则删除该数据块,否则存储该数据块。本发明将重删机制引入BOSS系统,大大降低了BOSS系统的存储空间使用率和需要月备的数据量。

Description

一种应用于BOSS系统的数据重删方法及系统
技术领域
本发明涉及BOSS系统领域,特别是涉及一种应用于BOSS系统的数据重删方法及系统。
背景技术
随着运营商业务的迅速发展,业务支撑压力越来越大,其中业务数据的存储在时间空间上均面临较大压力,主要体现在空间越来越紧张,月备时间越来越长,如果长此以往,将会产生添加存储也不能解决的问题。
造成存储空间紧张,月备时间冗长的主要原因如下:
1)模块间冗余数据巨大
如预处理入口、出口、错单、剔重,各环节间计费关键要素重复频率极高。
2)模块内冗余数据巨大
一个环节内的某些字段只能有几个取值范围,字段重复频率极高。
3)历史话单有一定的保存周期,占用较大存储空间
可知boss系统存储的主要问题有两点:一是历史话单不能轻易删除;二是历史话单重复率极高。
针对上述问题,本发明提出了一种应用于BOSS系统的数据重删方法及系统。
发明内容
本发明所要解决的技术问题是提供一种应用于BOSS系统的数据重删方法及系统,用于解决BOSS系统中冗余数据多、存储空间使用率低的技术问题。
本发明解决上述技术问题的技术方案如下:一种应用于BOSS系统的数据重删方法,包括:
步骤1,将BOSS系统产生的业务文件载入预设的重删机制,并在该重删机制中基于文件级重删方式或内存级重删方式处理载入的业务文件,生成重删数据文件;
步骤2,采用定长方式或滑块方式将重删数据文件划分为若干个数据块;
步骤3,对每个划分好的数据块进行哈希运算,产生相应的哈希值;
步骤4,选定或新增一个数据块,并将其对应的哈希值与其他所有数据块对应的哈希值进行比较,若出现相同的哈希值,则删除该数据块,否则存储该数据块。
对应地,本发明的技术方案还包括一种应用于BOSS系统的数据重删系统,包括:
预处理模块,其用于将BOSS系统产生的业务文件载入预设的重删机制,并在该重删机制中基于文件级重删方式或内存级重删方式处理载入的业务文件,生成重删数据文件;
分块模块,其用于采用定长方式或滑块方式将预处理后的重删数据文件划分为若干个数据块;
运算模块,其用于对每个划分好的数据块进行哈希运算,产生相应的哈希值;
重删判断模块,其用于选定或新增一个数据块,并将其对应的哈希值与其他所有数据块对应的哈希值进行比较,若出现相同的哈希值,则删除该数据块,否则存储该数据块。
本发明的有益效果是:本发明采用文件级重删方式和内存级重删方式将重删机制引入BOSS系统,大大降低了BOSS系统的存储空间使用率,同时需要月备的数据量也将大大降低,即缩短了月备时间,可以给运营商在存储硬件投入上减低很大一笔开支。
附图说明
图1为本发明所述应用于BOSS系统的数据重删方法的流程示意图;
图2为本发明所述应用于BOSS系统的数据重删系统的结构示意图;
图3为实施例中采用文件级重删方式对重删数据文件进行预处理的示意图;
图4为实施例中采用内存级重删方式对重删数据文件进行预处理的示意图;
图5为实施例中重删算法设计思路示意图;
图6为实施例中采用定长方式分块的示意图;
图7为实施例中采用滑块方式分块的示意图;
图8为实施例中重删机制的存储结构示意图;
图9为实施例中重删数据池的数据结构示意图;
图10为实施例中进行数据重删的效果示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,本实施例给出了一种应用于BOSS系统的数据重删方法,包括:
步骤1,将BOSS系统产生的业务文件载入预设的重删机制,并在该重删机制中基于文件级重删方式或内存级重删方式处理载入的业务文件,生成重删数据文件;
步骤2,采用定长方式或滑块方式将重删数据文件划分为若干个数据块;
步骤3,对每个划分好的数据块进行哈希运算,产生相应的哈希值;
步骤4,选定或新增一个数据块,并将其对应的哈希值与其他所有数据块对应的哈希值进行比较,若出现相同的哈希值,则删除该数据块,否则存储该数据块;
步骤5,存储数据块时,将数据块存储至重删机制管理的重删数据池中,当新增有数据块时,调用重删数据池中所有数据块的哈希值与新增的数据块的哈希值进行比较。
如图2所示,对应上述步骤,本实施例还给出了相应的应用于BOSS系统的数据重删系统,包括以下模块:
预处理模块,其用于将BOSS系统产生的业务文件载入预设的重删机制,并在该重删机制中基于文件级重删方式或内存级重删方式处理载入的业务文件,生成重删数据文件;
分块模块,其用于采用定长方式或滑块方式将预处理后的重删数据文件划分为若干个数据块;
运算模块,其用于对每个划分好的数据块进行哈希运算,产生相应的哈希值;
重删判断模块,其用于选定或新增一个数据块,并将其对应的哈希值与其他所有数据块对应的哈希值进行比较,若出现相同的哈希值,则删除该数据块,否则存储该数据块;
存储配置模块,其用于存储数据块时,将数据块存储至重删机制管理的重删数据池中,当新增有数据块时,调用重删数据池中所有数据块的哈希值与新增的数据块的哈希值进行比较。
基于上述的应用于BOSS系统的数据重删方法及系统的基本技术方案,其具体的实施过程如下所述。
一、业务文件的载入
本实施例的技术方案应用于BOSS系统,即是使用相应的重删机制将BOSS系统生成的原始业务文件(包括话单文件和错单文件等)按相应的规则分隔、编码、存储,实现数据重删。具体地,即是将BOSS系统产生的业务载入预设的重删机制中,将业务文件作为重删机制的入口文件进行重删,以便生成重删数据文件。
二、业务文件的重删预处理
本实施例采用基于文件级重删方式或内存级重删方式对业务文件进行预处理。
1)文件级重删方式
如图3所示,基于文件级重删方式处理载入的业务文件具体包括:在BOSS系统产生的业务文件落地后,再将落地的业务文件载入至预设的重删机制中,经重删机制处理生成重删数据文件。BOSS系统的各子系统产生的业务文件都会对应产生落地文件,如预处理和剔重子系统产生的落地话单和落地错单都作为重删机制的入口文件,由重删机制对这些文件进行重删,生成重删数据文件。
可知,文件级重删方式是在BOSS系统产生落地文件后对进行重删,再滤除落地文件,只保留重删后的元数据,对重删前文件的管理则由重删机制实现。文件重删方式属于离线重删方式,对BOSS系统的业务处理模块影响极小,但中间过程使用了存储空间。
2)内存级重删方式
如图4所示,基于内存级重删方式处理载入的业务文件具体包括:在BOSS系统的业务处理模块中嵌入重删接口,在BOSS系统产生的业务文件落地前,通过该重删接口调用重删机制处理业务文件,生成重删数据文件。
不同于文件级重删,采用内存级重删方式,即在话单等业务文件落地之前进行重删,话单文件和错单文件在落地时已经过重删,再以元数据文件方式存在。该方式实现了在线重删,最后落地文件将以元数据方式存放,在重删过程中未使用存储空间,但是该方式对性能要求较高,会对现有业务处理模块造成冲击。
三、重删数据文件的预处理
本实施例主要采用定长方式或滑块方式将预处理后的重删数据文件划分为若干个数据块。
1)定长方式
采用定长方式将预处理后的重删数据文件划分为若干个数据块具体包括:事先定义好每个数据块的大小,将入口文件按定义好的大小进行划分。
2)滑块方式
采用滑块方式将预处理后的重删数据文件划分为若干个数据块具体包括:根据指纹算法和滑动窗口把入口文件进行固定大小的分块,且每一个数据块的大小和滑动窗口大小一样,并且数据块的起点和终点分别就是滑动窗口的起点和终点。
四、重删算法设计
基于划分好的数据块,如图5所示,本实施例的重删算法设计思路为:利用哈希算法将数据块与现有已存储的数据块进行比较,得出存储键值key,如果该数据块是重复数据,则文件元数据只需记录键值key,如果是新数据块,元数据记录键值key的同时,还要将数据块落地到物理存储(重删数据池),供下次键值的计算。
如图6所示,对于采用定长方式划分的数据块,按上述重删算法设计思路,具体的重删过程为:使用MD5算法对每个划分好的数据块进行哈希计算得到一个指纹值key;把得到的key值与现有的key值进行对比,假如找到匹配的值,说明是重复数据,则删除此key值代表的数据块,并且存储指向该数据块的指针,否则说明是新数据块,直接存储。
如图7所示,对于采用滑块方式划分的数据块,按上述重删算法设计思路,具体的重删过程为:采用MD5哈希算法把得到的数据块进行哈希映射,得到哈希值,并与现有的哈希值逐一比较;如果找到相同的哈希值,就删除掉此数据块,否则就存储该数据块,并且添加其哈希值到哈希表中。滑块算法有一个特点就是:因为每一个块都是根据滑动窗口的位置划分的,所以会留下一些数据碎片。
五、数据块存储
如图8所示,所述重删机制设有大小可调配的多个重删数据池,且每个重删数据池中均设有一个独立的数据重删区,且每个重删数据池的数据重删区中存储的数据块均不相同。
如图9所示,示意了重删数据池的数据结构组织,其中重删池头数据中记录了:
1)重删池的ID;
2)重删数据区唯一数据块(每块由一个hashkey表示)个数;
3)每个唯一数据块长度;
4)重删池共重删文件数;
5)重删池是否压缩;
6)重删池各部分偏移位置;
该数据结构组织中最重要的就是唯一数据区和文件数据区,唯一数据区相当于数据库,文件数据区相当于还原函数。文件数据区结构为:
1)文件全路径;
2)文件属性;
3)文件被重删后的块数;
4)每个重删块的还原hashkey。
根据上述实施过程,如图10所示,原始数据最后得到的只是“ABCDE”,再加上一些控制元数据及可将数据组织管理,大大降低了存储空间。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种应用于BOSS系统的数据重删方法,其特征在于,包括:
步骤1,将BOSS系统产生的业务文件载入预设的重删机制,并在该重删机制中基于文件重删方式或内存重删方式处理载入的业务文件,生成重删数据文件;
步骤2,采用定长方式或滑块方式将重删数据文件划分为若干个数据块;
步骤3,对每个划分好的数据块进行哈希运算,产生相应的哈希值;
步骤4,选定或新增一个数据块,并将其对应的哈希值与其他所有数据块对应的哈希值进行比较,若出现相同的哈希值,则删除该数据块,否则存储该数据块。
2.根据权利要求1所述的数据重删方法,其特征在于,所述步骤1中基于文件级重删方式处理载入的业务文件具体包括:在BOSS系统产生的业务文件落地后,再将落地的业务文件载入至预设的重删机制中,经重删机制处理生成重删数据文件。
3.根据权利要求1所述的数据重删方法,其特征在于,所述步骤1中基于内存级重删方式处理载入的业务文件具体包括:在BOSS系统的业务处理模块中嵌入重删接口,在BOSS系统产生的业务文件落地前,通过该重删接口调用重删机制处理业务文件,生成重删数据文件。
4.根据权利要求1所述的数据重删方法,其特征在于,所述步骤2中采用定长方式将预处理后的重删数据文件划分为若干个数据块具体包括:事先定义好每个数据块的大小,将入口文件按定义好的大小进行划分。
5.根据权利要求1所述的数据重删方法,其特征在于,所述步骤2中采用滑块方式将预处理后的重删数据文件划分为若干个数据块具体包括:根据指纹算法和滑动窗口把入口文件进行固定大小的分块,且每一个数据块的大小和滑动窗口大小一样,并且数据块的起点和终点分别就是滑动窗口的起点和终点。
6.根据权利要求1至5中任一所述的数据重删方法,其特征在于,还包括步骤5:存储数据块时,将数据块存储至重删机制管理的重删数据池中,当新增有数据块时,调用重删数据池中所有数据块的哈希值与新增的数据块的哈希值进行比较。
7.根据权利要求6所述的数据重删方法,其特征在于,所述重删机制设有大小可调配的多个重删数据池,且每个重删数据池中均设有一个独立的数据重删区,且每个重删数据池的数据重删区中存储的数据块均不相同。
8.一种应用于BOSS系统的数据重删系统,其特征在于,包括:
预处理模块,其用于将BOSS系统产生的业务文件载入预设的重删机制,并在该重删机制中基于文件级重删方式或内存级重删方式处理载入的业务文件,生成重删数据文件;
分块模块,其用于采用定长方式或滑块方式将预处理后的重删数据文件划分为若干个数据块;
运算模块,其用于对每个划分好的数据块进行哈希运算,产生相应的哈希值;
重删判断模块,其用于选定或新增一个数据块,并将其对应的哈希值与其他所有数据块对应的哈希值进行比较,若出现相同的哈希值,则删除该数据块,否则存储该数据块。
9.根据权利要求8所述的数据重删系统,其特征在于,还包括存储配置模块,其用于存储数据块时,将数据块存储至重删机制管理的重删数据池中,当新增有数据块时,调用重删数据池中所有数据块的哈希值与新增的数据块的哈希值进行比较。
10.根据权利要求9所述的数据重删系统,其特征在于,所述重删机制设有大小可调配的多个重删数据池,且每个重删数据池中均设有一个独立的数据重删区,且每个重删数据池的数据重删区中存储的数据块均不相同。
CN201410317516.9A 2014-07-04 2014-07-04 一种应用于boss系统的数据重删方法及系统 Active CN104123347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410317516.9A CN104123347B (zh) 2014-07-04 2014-07-04 一种应用于boss系统的数据重删方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410317516.9A CN104123347B (zh) 2014-07-04 2014-07-04 一种应用于boss系统的数据重删方法及系统

Publications (2)

Publication Number Publication Date
CN104123347A true CN104123347A (zh) 2014-10-29
CN104123347B CN104123347B (zh) 2018-01-09

Family

ID=51768758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410317516.9A Active CN104123347B (zh) 2014-07-04 2014-07-04 一种应用于boss系统的数据重删方法及系统

Country Status (1)

Country Link
CN (1) CN104123347B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095332A (zh) * 2016-06-01 2016-11-09 杭州宏杉科技有限公司 一种数据重删方法及装置
CN106527973A (zh) * 2016-10-10 2017-03-22 杭州宏杉科技股份有限公司 一种数据重复删除的方法及装置
CN108111560A (zh) * 2016-11-24 2018-06-01 中国科学院声学研究所 一种线速存储网络分组的系统及方法
WO2018113209A1 (zh) * 2016-12-21 2018-06-28 深圳市易特科信息技术有限公司 医疗信息化医疗文件冗余清除系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101493835A (zh) * 2009-01-09 2009-07-29 南京联创科技股份有限公司 基于hash算法内存和文件系统混合排重方法
CN101706825A (zh) * 2009-12-10 2010-05-12 华中科技大学 一种基于文件内容类型的重复数据删除方法
CN102323928A (zh) * 2011-08-22 2012-01-18 苏州阔地网络科技有限公司 一种组件自动推荐方法及装置
CN102467571A (zh) * 2010-11-17 2012-05-23 英业达股份有限公司 重复数据删除的数据区块切分方法与新增方法
US20130086009A1 (en) * 2011-09-29 2013-04-04 International Business Machines Corporation Method and system for data deduplication

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101493835A (zh) * 2009-01-09 2009-07-29 南京联创科技股份有限公司 基于hash算法内存和文件系统混合排重方法
CN101706825A (zh) * 2009-12-10 2010-05-12 华中科技大学 一种基于文件内容类型的重复数据删除方法
CN102467571A (zh) * 2010-11-17 2012-05-23 英业达股份有限公司 重复数据删除的数据区块切分方法与新增方法
CN102323928A (zh) * 2011-08-22 2012-01-18 苏州阔地网络科技有限公司 一种组件自动推荐方法及装置
US20130086009A1 (en) * 2011-09-29 2013-04-04 International Business Machines Corporation Method and system for data deduplication

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王树鹏: "重复数据删除技术的发展及应用", 《中兴通讯技术》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095332A (zh) * 2016-06-01 2016-11-09 杭州宏杉科技有限公司 一种数据重删方法及装置
CN106527973A (zh) * 2016-10-10 2017-03-22 杭州宏杉科技股份有限公司 一种数据重复删除的方法及装置
CN108111560A (zh) * 2016-11-24 2018-06-01 中国科学院声学研究所 一种线速存储网络分组的系统及方法
WO2018113209A1 (zh) * 2016-12-21 2018-06-28 深圳市易特科信息技术有限公司 医疗信息化医疗文件冗余清除系统及方法

Also Published As

Publication number Publication date
CN104123347B (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
EP3316150B1 (en) Method and apparatus for file compaction in key-value storage system
CN103473239A (zh) 一种非关系型数据库数据更新方法和装置
WO2016149552A1 (en) Compaction policy
US20130227237A1 (en) Data management system and data management method
CN109542907A (zh) 数据库缓存构建方法、装置、计算机设备以及存储介质
CN106095807B (zh) 一种分布式文件系统纠删码缓存装置及其缓存方法
CN105631003A (zh) 支持海量数据分组统计的智能索引构建、查询及维护方法
CN102831222A (zh) 一种基于重复数据删除的差量压缩方法
CN103488684A (zh) 基于缓存数据多线程处理的电力可靠性指标快速计算方法
CN103488709A (zh) 一种索引建立方法及系统、检索方法及系统
CN103488687A (zh) 用于大数据的搜索系统和搜索方法
CN103279502B (zh) 一种具有与并行文件系统结合的重复数据删除文件系统的架构及方法
CN104123347A (zh) 一种应用于boss系统的数据重删方法及系统
CN111651519B (zh) 数据同步方法、数据同步装置、电子设备及存储介质
CN103379160A (zh) 一种超大文件的差异同步方法
CN106843763A (zh) 一种基于hdfs系统的文件合并方法及装置
CN103793493A (zh) 一种处理车载终端海量数据的方法和系统
CN105354246A (zh) 一种基于分布式内存计算的数据去重方法
CN108009290A (zh) 一种轨道交通指挥中心线网大数据的数据建模和存储方法
CN104182487A (zh) 一种支持多种存储方式的统一存储方法
CN103593460A (zh) 数据分级存储系统和数据分级存储方法
CN103500183A (zh) 一种基于多个相关字段组合索引存储结构及建立、查询与维护方法
CN104991741B (zh) 一种基于键值模型的情境适配电网大数据存储方法
CN102722450B (zh) 一种基于位置敏感哈希的删冗块设备存储方法
CN103530067B (zh) 一种数据操作的方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant