CN104965837B - 基于分块迭代的网络破损文件还原方法及系统 - Google Patents

基于分块迭代的网络破损文件还原方法及系统 Download PDF

Info

Publication number
CN104965837B
CN104965837B CN201410450799.4A CN201410450799A CN104965837B CN 104965837 B CN104965837 B CN 104965837B CN 201410450799 A CN201410450799 A CN 201410450799A CN 104965837 B CN104965837 B CN 104965837B
Authority
CN
China
Prior art keywords
file
block
hash values
layer
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410450799.4A
Other languages
English (en)
Other versions
CN104965837A (zh
Inventor
肖新光
黄磊
童志明
张栗伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Antiy Technology Group Co Ltd
Original Assignee
Harbin Antiy Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Antiy Technology Co Ltd filed Critical Harbin Antiy Technology Co Ltd
Priority to CN201410450799.4A priority Critical patent/CN104965837B/zh
Publication of CN104965837A publication Critical patent/CN104965837A/zh
Application granted granted Critical
Publication of CN104965837B publication Critical patent/CN104965837B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于分块迭代的网络破损文件还原方法及系统,所述方法为,多次获取网络中来源于同一网络的样本集合,根据确定的初始分块数量,确定平均分块大小,并对样本集中的各文件进行分块,并计算各文件分块对应字节码序列的HASH值,循环逐层对比文件样本集中各文件同一层文件分块的HASH值,并确定当前层的还原文件块,根据各层确定的还原文件块,计算还原文件的破损率,如果破损率未超出预设值,则根据还原文件块对应的字节码序列还原文件。相应的本发明还提供了文件还原系统。通过本发明的方法及系统,能够对在网络传输过程中因传输问题导致破损的文件进行还原,最大程度的保证文件的完整性。

Description

基于分块迭代的网络破损文件还原方法及系统
技术领域
本发明涉及计算机网络数据还原领域,特别涉及一种基于分块迭代的网络破损文件还原方法系统。
背景技术
由于网络传输的不稳定性,文件在传输过程中经常容易出现错误,如丢包、追包等,导致得到的文件非完整文件,即破损文件,而对于破损文件的进一步操作,如依赖于恶意代码特征库的网络病毒监控系统对破损文件的恶意代码检测、文件解析器对破损文件的解析等,都可能出现异常错误。如破损文件为恶意代码文件,且其恶意代码部分恰巧被破损时,导致恶意代码特征被破坏,从而依赖于恶意代码特征库的网络病毒监控系统可能检测不到具有恶意代码的破损文件。
破损文件的还原效果与还原方法密切相关,而目前对于网络破损文件的还原方法比较少,现有的还原方法主要着重于网络数据包级别的文件还原,如基于TCP数据包的网络探针还原等,但其无法到到对文件进行完整还原的目的,因此需要一种能够有效还原文件的方法。
发明内容
本发明提供了一种基于分块迭代的网络破损文件还原方法及系统,解决了网络传输过程中由于丢包等问题导致文件破损的问题,能够有效的将破损文件还原。
基于分块迭代的网络破损文件还原方法,包括:
a.获取待还原文件的文件样本集,所述文件样本集为来源于同一网络的待还原的样本文件集合;
b.确定对文件样本集中各文件的分块数,计算平均分块大小;所述文件样本集中各文件的分块数可以任意指定,但分块数越多对文件的分块粒度越细,还原效果越好,计算平均分块大小时,利用样本集中最大文件的大小与预设的分块数进行计算;
c.根据平均分块大小,对文件样本集中的各文件进行分块,并计算各文件分块对应字节码序列的HASH值;在进行分块时,由于各文件样本大小可能不同,因此一些样本文件的最后一块大小可能不等于平均分块大小;
d.建立文件样本集中各文件、文件分块及对应HASH的索引列表;
e.循环逐层对比文件样本集中各文件同一层文件分块的HASH值,选择HASH值相同数量最多的文件分块作为待还原文件当前层的还原文件块,各层还原文件块组成还原文件;
f.计算还原文件的破损率,如果破损率超过预设值,则放弃当前还原文件,返回步骤b,重新确定对文件样本集中各文件的分块数;否则,根据索引列表,找到还原文件各层还原文件块对应文件分块的字节码序列,得到还原后的文件。
所述的方法中,其中步骤e,选择HASH值相同数量最多的文件分块作为待还原文件当前层的还原文件块,若HASH值均不相同,则定位前一次被选作还原文件块的文件分块所属文件,获取所属文件的当前层的文件分块作为待还原文件当前层的还原文件块。
在一些情况下,所捕获的文件样本集中的文件,来源于同一网络的非同一时间的样本,因此如果在这段时间内原始文件进行过更新,仅通过上述方法,无法分别得到更新前后的还原文件,因此在所述的方法中,将步骤e替换为:
初始化文件样本集中各文件分类,将文件样本集中所有文件归为一类;
循环逐层遍历文件样本集中各文件同一层文件分块的HASH值,获得当前层的HASH值;
对比当前层HASH值,依据初始化分类或上层文件分类,计算同一分类下HASH值相同的文件分块的数量;
遍历每个分类下HASH值相同的文件分块数量,并判断是否大于1,如果是,则产生新的文件分类,否则丢弃后续文件分块;
判断是否已遍历到最后一层,如果是,则依据文件分类记录各文件分类下各层的还原文件块,组成还原文件,否则继续遍历下一层文件分块;
删除重复的还原文件。由于在迭代还原过程中产生了多个分类,最终的每个分类都能够还原为一个文件,因此需要对这些文件进行筛选,在还原过程中,删除重复的文件,重复文件的判断方法可以通过文件分块进行比较,也可以计算相应的HASH值进行确定。
在上述的方法中,由于丢弃了HASH值相同数量等于1的文件分块,其迭代计算效率较高,但在一些情况下可能存在还原不准确的情况,因此基于上述方法,将所述的方法中,所述遍历每个分类下HASH值相同的文件分块数量,并判断是否大于1,如果是,则产生新的文件分类,否则丢弃后续文件分块,替换为:
遍历每个分类下HASH值相同的文件分块数量,并判断是否大于1,如果是,则产生新的文件分类,否则将所述文件分块的后续文件块保存到下一层的每一个文件分类中,用于下一层还原。即,如果HASH只相同的文件分块数量等于1,则将其剩余的文件分块存储于下一层的每一个分类中,参与下一层的迭代。
所述的方法中,步骤f中,在判断破损率是否超出预设值之前,选择破损率最低的还原文件。
所述的方法中,所述破损率为不匹配的文件分块数与文件样本集中各文件分块数的比值,其中不匹配的文件分块为,各文件同一层文件分块的HASH值均不相等的块。
本发明还提供了一种基于分块迭代的网络破损文件还原系统,包括:
样本获取单元,获取待还原文件的文件样本集,所述文件样本集为来源于同一网络的待还原的样本文件集合;
分块计算单元,确定对文件样本集中各文件的分块数,计算平均分块大小;
HASH计算单元,根据平均分块大小,对文件样本集中的各文件进行分块,并计算各文件分块对应字节码序列的HASH值;
索引单元,建立文件样本集中各文件、文件分块及对应HASH的索引列表;
迭代计算单元,循环逐层对比文件样本集中各文件同一层文件分块的HASH值,选择HASH值相同数量最多的文件分块作为待还原文件当前层的还原文件块,各层还原文件块组成还原文件;
文件还原单元,计算还原文件的破损率,如果破损率超过预设值,则放弃当前还原文件,返回分块计算单元,重新确定对文件样本集中各文件的分块数;否则,根据索引列表,找到还原文件各层还原文件块对应文件分块的字节码序列,得到还原后的文件。
所述的系统中,迭代计算单元中,选择HASH值相同数量最多的文件分块作为待还原文件当前层的还原文件块,若HASH值均不相同,则定位前一次被选作还原文件块的文件分块所属文件,获取所属文件的当前层的文件分块作为待还原文件当前层的还原文件块。
所述的系统中,将迭代计算单元内容替换为:
初始化文件样本集中各文件分类,将文件样本集中所有文件归为一类;
循环逐层遍历文件样本集中各文件同一层文件分块的HASH值,获得当前层的HASH值;
对比当前层HASH值,依据初始化分类或上层文件分类,计算同一分类下HASH值相同的文件分块的数量;
遍历每个分类下HASH值相同的文件分块数量,并判断是否大于1,如果是,则产生新的文件分类,否则丢弃后续文件分块;
判断是否已遍历到最后一层,如果是,则依据文件分类记录各文件分类下各层的还原文件块,组成还原文件,否则继续遍历下一层文件分块;
删除重复的还原文件。
所述的系统中,所述遍历每个分类下HASH值相同的文件分块数量,并判断是否大于1,如果是,则产生新的文件分类,否则丢弃后续文件分块,替换为:
遍历每个分类下HASH值相同的文件分块数量,并判断是否大于1,如果是,则产生新的文件分类,否则将所述文件分块的后续文件块保存到下一层的每一个文件分类中,用于下一层还原。
所述的系统中,文件还原单元中,在判断破损率是否超出预设值之前,选择破损率最低的还原文件。
所述的系统中,所述破损率为不匹配的文件分块数与文件样本集中各文件分块数的比值,其中不匹配的文件分块为,各文件同一层文件分块的HASH值均不相等的块。
本发明方法及系统的优势在于,基于分块迭代的文件还原方法,能够对来源于同一网络的文件进行还原,不仅能够还原其原始文件,同样能够在样本捕获过程中出现的更新后的文件进行还原,特别是针对网络探针(网络数据包的捕获和还原工具)还原出的文件进行再次还原,可以快速将破损文件样本集还原出一个相对完整的文件,使对文件的进一步操作出现异常错误的概率大幅度降低。同时本方法提供了一个新的还原方法,对因网络阻塞导致数据包丢失等原因造成的文件破损情况,可利用样本集中的文件,通过分块迭代的方式还原出相对完整的文件。
本发明提供了一种基于分块迭代的网络破损文件还原方法及系统,所述方法为,多次获取网络中来源于同一网络的样本集合,根据确定的初始分块数量,确定平均分块大小,并对样本集中的各文件进行分块,并计算各文件分块对应字节码序列的HASH值,循环逐层对比文件样本集中各文件同一层文件分块的HASH值,并确定当前层的还原文件块,根据各层确定的还原文件块,计算还原文件的破损率,如果破损率未超出预设值,则根据还原文件块对应的字节码序列还原文件。相应的本发明还提供了文件还原系统。通过本发明的方法及系统,能够对在网络传输过程中因传输问题导致破损的文件进行还原,最大程度的保证文件的完整性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于分块迭代的网络破损文件还原方法流程图;
图2为本发明基于分块迭代的网络破损文件还原方法改进流程图;
图3为本发明分类迭代方式1示意图;
图4为本发明分类迭代方式2示意图;
图5为本发明基于分块迭代的网络破损文件还原方法结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明中技术方案作进一步详细的说明。
本发明提供了一种基于分块迭代的网络破损文件还原方法及系统,解决了网络传输过程中由于丢包等问题导致文件破损的问题,能够有效的将破损文件还原。
基于分块迭代的网络破损文件还原方法,如图1所示,包括:
S101:获取待还原文件的文件样本集,所述文件样本集为来源于同一网络的待还原的样本文件集合;
S102:确定对文件样本集中各文件的分块数,计算平均分块大小;所述文件样本集中各文件的分块数可以任意指定,但分块数越多对文件的分块粒度越细,还原效果越好,计算平均分块大小时,利用样本集中最大文件的大小与预设的分块数进行计算;
S103:根据平均分块大小,对文件样本集中的各文件进行分块,并计算各文件分块对应字节码序列的HASH值;在进行分块时,由于各文件样本大小可能不同,因此一些样本文件的最后一块大小可能不等于平均分块大小;
S104:建立文件样本集中各文件、文件分块及对应HASH的索引列表;
S105:循环逐层对比文件样本集中各文件同一层文件分块的HASH值,选择HASH值相同数量最多的文件分块作为待还原文件当前层的还原文件块,各层还原文件块组成还原文件;同一位置块如果匹配的数量越多则说明其为原始块的可能性越大;
S106:计算还原文件的破损率,如果破损率超过预设值,则放弃当前还原文件,返回S102,重新确定对文件样本集中各文件的分块数;否则,根据索引列表,找到还原文件各层还原文件块对应文件分块的字节码序列,得到还原后的文件。
所述的方法中,其中S105,选择HASH值相同数量最多的文件分块作为待还原文件当前层的还原文件块,若HASH值均不相同,则定位前一次被选作还原文件块的文件分块所属文件,获取所属文件的当前层的文件分块作为待还原文件当前层的还原文件块。
在一些情况下,所捕获的文件样本集中的文件,来源于同一网络的非同一时间的样本,因此如果在这段时间内原始文件进行过更新,导致我们下载的样本文件集合实际上是来源于同一URL的不同原始文件,仅通过上述方法,无法分别得到更新前后的还原文件,因此在所述的方法中,如图2所示,将S105替换为:
S201:初始化文件样本集中各文件分类,将文件样本集中所有文件归为一类;
S202:循环逐层遍历文件样本集中各文件同一层文件分块的HASH值,获得当前层的HASH值;
S203:对比当前层HASH值,依据初始化分类或上层文件分类,计算同一分类下HASH值相同的文件分块的数量;
S204:遍历每个分类下HASH值相同的文件分块数量,并判断是否大于1,如果是,则产生新的文件分类,否则丢弃后续文件分块;
S205:判断是否已遍历到最后一层,如果是,则执行S206,否则返回S202;
S206:依据文件分类记录各文件分类下各层的还原文件块,组成还原文件;
S207:删除重复的还原文件。由于在迭代还原过程中产生了多个分类,最终的每个分类都能够还原为一个文件,因此需要对这些文件进行筛选,在还原过程中,删除重复的文件,重复文件的判断方法可以通过文件分块进行比较,也可以计算相应的HASH值进行确定。
为更好理解迭代还原过程中的分块及分类方法,列举具体分类方式1如图3所示:
假设文件样本集中有A、B、C、D、E五个文件,将每个文件分为n块,计算平均分块大小,并对五个文件进行分块,其中文件A分块记录为A1、A2、……An,同理对B、C、D、E进行分块,并分别计算每个文件分块的HASH值;
比较第一层A1、B1、C1、D1、E1的HASH值大小,假设A1、B1、C1的HASH值相同,则将其划分为一个新的分类下,D1、E1的HASH值相同,则将其划分为另一分类下;
继续比较第二层A2、B2、C2的HASH值大小及D2、E2的HASH值大小,假设A2的HASH值独立,B2、C2的HASH值大小相同,则将A文件中A2起后续文件分块丢弃,B、C划分为一个新的分类,D2、E2的HASH值大小相同,则继续为一类进行下一层的判断,以此类推,直到第n层迭代判断完成。
在上述的方法中,由于丢弃了HASH值相同数量等于1的文件分块,其迭代计算效率较高,但在一些情况下可能存在还原不准确的情况,因此基于上述方法,将所述的方法中,所述遍历每个分类下HASH值相同的文件分块数量,并判断是否大于1,如果是,则产生新的文件分类,否则丢弃后续文件分块,替换为:
遍历每个分类下HASH值相同的文件分块数量,并判断是否大于1,如果是,则产生新的文件分类,否则将所述文件分块的后续文件块保存到下一层的每一个文件分类中,用于下一层还原。即,如果HASH值相同的文件分块数量等于1,则将其剩余的文件分块存储于下一层的每一个分类中,参与下一层的迭代。
为更好理解迭代还原过程中的分块及分类方法,列举具体分类方式2如图4所示:
假设文件样本集中有F、G、H、I、J五个文件,将每个文件分为m块,计算平均分块大小,并对五个文件进行分块,其中文件F分块记录为F1、F2、……Fm,同理对G、H、I、J进行分块,并分别计算每个文件分块的HASH值;
比较第一层F1、G1、H1、I1、J1的HASH值大小,假设F1、G1的HASH值相同,H1的HASH值独立,I1、J1的HASH值相同,则将F、G、H划分为一个新的分类下,H、I、J其划分为另一分类下;
继续逐层进行判断,直到第m层迭代判断完成。
该分类迭代算法一方面考虑了样本文件来自于经常改变的原始文件,另一方面在迭代分类还原文件过程中对于HASH值均不匹配的样本文件采取不立即丢弃,而是继续参与下层的分类迭代还原,因而在还原过程中参与还原的样本块的数量更多,即还原过程中可利用的信息量更多,因而还原的效果更好。
所述的方法中,步骤f中,在判断破损率是否超出预设值之前,选择破损率最低的还原文件。
所述的方法中,所述破损率为不匹配的文件分块数与文件样本集中各文件分块数的比值,其中不匹配的文件分块为,各文件同一层文件分块的HASH值均不相等的块。
本发明还提供了一种基于分块迭代的网络破损文件还原系统,如图5所示,包括:
样本获取单元501,获取待还原文件的文件样本集,所述文件样本集为来源于同一网络的待还原的样本文件集合;
分块计算单元502,确定对文件样本集中各文件的分块数,计算平均分块大小;
HASH计算单元503,根据平均分块大小,对文件样本集中的各文件进行分块,并计算各文件分块对应字节码序列的HASH值;
索引单元504,建立文件样本集中各文件、文件分块及对应HASH的索引列表;
迭代计算单元505,循环逐层对比文件样本集中各文件同一层文件分块的HASH值,选择HASH值相同数量最多的文件分块作为待还原文件当前层的还原文件块,各层还原文件块组成还原文件;
文件还原单元506,计算还原文件的破损率,如果破损率超过预设值,则放弃当前还原文件,返回分块计算单元,重新确定对文件样本集中各文件的分块数;否则,根据索引列表,找到还原文件各层还原文件块对应文件分块的字节码序列,得到还原后的文件。
所述的系统中,迭代计算单元中中,选择HASH值相同数量最多的文件分块作为待还原文件当前层的还原文件块,若HASH值均不相同,则定位前一次被选作还原文件块的文件分块所属文件,获取所属文件的当前层的文件分块作为待还原文件当前层的还原文件块。
所述的系统中,将迭代计算单元内容替换为:
初始化文件样本集中各文件分类,将文件样本集中所有文件归为一类;
循环逐层遍历文件样本集中各文件同一层文件分块的HASH值,获得当前层的HASH值;
对比当前层HASH值,依据初始化分类或上层文件分类,计算同一分类下HASH值相同的文件分块的数量;
遍历每个分类下HASH值相同的文件分块数量,并判断是否大于1,如果是,则产生新的文件分类,否则丢弃后续文件分块;
判断是否已遍历到最后一层,如果是,则依据文件分类记录各文件分类下各层的还原文件块,组成还原文件,否则继续遍历下一层文件分块;
删除重复的还原文件。
所述的系统中,所述遍历每个分类下HASH值相同的文件分块数量,并判断是否大于1,如果是,则产生新的文件分类,否则丢弃后续文件分块,替换为:
遍历每个分类下HASH值相同的文件分块数量,并判断是否大于1,如果是,则产生新的文件分类,否则将所述文件分块的后续文件块保存到下一层的每一个文件分类中,用于下一层还原。
所述的系统中,文件还原单元中,在判断破损率是否超出预设值之前,选择破损率最低的还原文件。
所述的系统中,所述破损率为不匹配的文件分块数与文件样本集中各文件分块数的比值,其中不匹配的文件分块为,各文件同一层文件分块的HASH值均不相等的块。
本发明方法及系统的优势在于,基于分块迭代的文件还原方法,能够对来源于同一网络的文件进行还原,不仅能够还原其原始文件,同样能够在样本捕获过程中出现的更新后的文件进行还原,特别是针对网络探针(网络数据包的捕获和还原工具)还原出的文件进行再次还原,可以快速将破损文件样本集还原出一个相对完整的文件,使对文件的进一步操作出现异常错误的概率大幅度降低。同时本方法提供了一个新的还原方法,对因网络阻塞导致数据包丢失等原因造成的文件破损情况,可利用样本集中的文件,通过分块迭代的方式还原出相对完整的文件。
本发明提供了一种基于分块迭代的网络破损文件还原方法及系统,所述方法为,多次获取网络中来源于同一网络的样本集合,根据确定的初始分块数量,确定平均分块大小,并对样本集中的各文件进行分块,并计算各文件分块对应字节码序列的HASH值,循环逐层对比文件样本集中各文件同一层文件分块的HASH值,并确定当前层的还原文件块,根据各层确定的还原文件块,计算还原文件的破损率,如果破损率未超出预设值,则根据还原文件块对应的字节码序列还原文件。相应的本发明还提供了文件还原系统。通过本发明的方法及系统,能够对在网络传输过程中因传输问题导致破损的文件进行还原,最大程度的保证文件的完整性。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
虽然通过实施例描绘了本发明,本领域普通技术人员知道,本发明有许多变形和变化而不脱离本发明的精神,希望所附的权利要求包括这些变形和变化而不脱离本发明的精神。

Claims (12)

1.基于分块迭代的网络破损文件还原方法,其特征在于,包括:
a.获取待还原文件的文件样本集,所述文件样本集为来源于同一网络的待还原的样本文件集合;
b.确定对文件样本集中各文件的分块数,计算平均分块大小;
c.根据平均分块大小,对文件样本集中的各文件进行分块,并计算各文件分块对应字节码序列的HASH值;
d.建立文件样本集中各文件、文件分块及对应HASH的索引列表;
e.循环逐层对比文件样本集中各文件同一层文件分块的HASH值,选择HASH值相同数量最多的文件分块作为待还原文件当前层的还原文件块,各层还原文件块组成还原文件;
f.计算还原文件的破损率,如果破损率超过预设值,则放弃当前还原文件,返回步骤b,重新确定对文件样本集中各文件的分块数;否则,根据索引列表,找到还原文件各层还原文件块对应文件分块的字节码序列,得到还原后的文件。
2.如权利要求1所述的方法,其特征在于,步骤e中,选择HASH值相同数量最多的文件分块作为待还原文件当前层的还原文件块,若HASH值均不相同,则定位前一次被选作还原文件块的文件分块所属文件,获取所属文件的当前层的文件分块作为待还原文件当前层的还原文件块。
3.如权利要求1所述的方法,其特征在于,将步骤e替换为:
初始化文件样本集中各文件分类,将文件样本集中所有文件归为一类;
循环逐层遍历文件样本集中各文件同一层文件分块的HASH值,获得当前层的HASH值;
对比当前层HASH值,依据初始化分类或上层文件分类,计算同一分类下HASH值相同的文件分块的数量;
遍历每个分类下HASH值相同的文件分块数量,并判断是否大于1,如果是,则产生新的文件分类,否则丢弃后续文件分块;
判断是否已遍历到最后一层,如果是,则依据文件分类记录各文件分类下各层的还原文件块,组成还原文件,否则继续遍历下一层文件分块;
删除重复的还原文件。
4.如权利要求3所述的方法,其特征在于,所述遍历每个分类下HASH值相同的文件分块数量,并判断是否大于1,如果是,则产生新的文件分类,否则丢弃后续文件分块,替换为:
遍历每个分类下HASH值相同的文件分块数量,并判断是否大于1,如果是,则产生新的文件分类,否则将所述文件分块的后续文件块保存到下一层的每一个文件分类中,用于下一层还原。
5.如权利要求3或4所述的方法,其特征在于,步骤f中,在判断破损率是否超出预设值之前,选择破损率最低的还原文件。
6.如权利要求1所述的方法,其特征在于,所述破损率为不匹配的文件分块数与文件样本集中各文件分块数的比值,其中不匹配的文件分块为,各文件同一层文件分块的HASH值均不相等的块。
7.基于分块迭代的网络破损文件还原系统,其特征在于,包括:
样本获取单元,获取待还原文件的文件样本集,所述文件样本集为来源于同一网络的待还原的样本文件集合;
分块计算单元,确定对文件样本集中各文件的分块数,计算平均分块大小;
HASH计算单元,根据平均分块大小,对文件样本集中的各文件进行分块,并计算各文件分块对应字节码序列的HASH值;
索引单元,建立文件样本集中各文件、文件分块及对应HASH的索引列表;
迭代计算单元,循环逐层对比文件样本集中各文件同一层文件分块的HASH值,选择HASH值相同数量最多的文件分块作为待还原文件当前层的还原文件块,各层还原文件块组成还原文件;
文件还原单元,计算还原文件的破损率,如果破损率超过预设值,则放弃当前还原文件,返回分块计算单元,重新确定对文件样本集中各文件的分块数;否则,根据索引列表,找到还原文件各层还原文件块对应文件分块的字节码序列,得到还原后的文件。
8.如权利要求7所述的系统,其特征在于,迭代计算单元中中,选择HASH值相同数量最多的文件分块作为待还原文件当前层的还原文件块,若HASH值均不相同,则定位前一次被选作还原文件块的文件分块所属文件,获取所属文件的当前层的文件分块作为待还原文件当前层的还原文件块。
9.如权利要求7所述的系统,其特征在于,将迭代计算单元内容替换为:
初始化文件样本集中各文件分类,将文件样本集中所有文件归为一类;
循环逐层遍历文件样本集中各文件同一层文件分块的HASH值,获得当前层的HASH值;
对比当前层HASH值,依据初始化分类或上层文件分类,计算同一分类下HASH值相同的文件分块的数量;
遍历每个分类下HASH值相同的文件分块数量,并判断是否大于1,如果是,则产生新的文件分类,否则丢弃后续文件分块;
判断是否已遍历到最后一层,如果是,则依据文件分类记录各文件分类下各层的还原文件块,组成还原文件,否则继续遍历下一层文件分块;
删除重复的还原文件。
10.如权利要求9所述的系统,其特征在于,所述遍历每个分类下HASH值相同的文件分块数量,并判断是否大于1,如果是,则产生新的文件分类,否则丢弃后续文件分块,替换为:
遍历每个分类下HASH值相同的文件分块数量,并判断是否大于1,如果是,则产生新的文件分类,否则将所述文件分块的后续文件块保存到下一层的每一个文件分类中,用于下一层还原。
11.如权利要求9或10所述的系统,其特征在于,文件还原单元中,在判断破损率是否超出预设值之前,选择破损率最低的还原文件。
12.如权利要求7所述的系统,其特征在于,所述破损率为不匹配的文件分块数与文件样本集中各文件分块数的比值,其中不匹配的文件分块为,各文件同一层文件分块的HASH值均不相等的块。
CN201410450799.4A 2014-09-05 2014-09-05 基于分块迭代的网络破损文件还原方法及系统 Active CN104965837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410450799.4A CN104965837B (zh) 2014-09-05 2014-09-05 基于分块迭代的网络破损文件还原方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410450799.4A CN104965837B (zh) 2014-09-05 2014-09-05 基于分块迭代的网络破损文件还原方法及系统

Publications (2)

Publication Number Publication Date
CN104965837A CN104965837A (zh) 2015-10-07
CN104965837B true CN104965837B (zh) 2018-07-03

Family

ID=54219873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410450799.4A Active CN104965837B (zh) 2014-09-05 2014-09-05 基于分块迭代的网络破损文件还原方法及系统

Country Status (1)

Country Link
CN (1) CN104965837B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112995184B (zh) * 2021-03-05 2022-07-12 中电积至(海南)信息技术有限公司 一种多源网络流量内容完整还原方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122859A (zh) * 2007-09-25 2008-02-13 北大方正集团有限公司 粒度可控的对象串行化存储文件的修复方法、设备及系统
CN101246535A (zh) * 2008-03-25 2008-08-20 深圳市迅雷网络技术有限公司 一种修复异常文件的方法、系统和装置
CN103049508A (zh) * 2012-12-13 2013-04-17 华为技术有限公司 一种数据处理方法及装置
CN103116615A (zh) * 2013-01-28 2013-05-22 袁华强 一种基于版本矢量的数据索引方法及服务器
CN103324552A (zh) * 2013-06-06 2013-09-25 西安交通大学 两阶段单实例去重数据备份方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1944944A1 (en) * 2007-01-12 2008-07-16 Thomson Licensing System and method for combining pull and push modes
CN103309768B (zh) * 2012-03-16 2015-03-11 腾讯科技(深圳)有限公司 系统文件修复方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122859A (zh) * 2007-09-25 2008-02-13 北大方正集团有限公司 粒度可控的对象串行化存储文件的修复方法、设备及系统
CN101246535A (zh) * 2008-03-25 2008-08-20 深圳市迅雷网络技术有限公司 一种修复异常文件的方法、系统和装置
CN103049508A (zh) * 2012-12-13 2013-04-17 华为技术有限公司 一种数据处理方法及装置
CN103116615A (zh) * 2013-01-28 2013-05-22 袁华强 一种基于版本矢量的数据索引方法及服务器
CN103324552A (zh) * 2013-06-06 2013-09-25 西安交通大学 两阶段单实例去重数据备份方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
云存储环境下分布式文件系统的副本策略研究;匡士杰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140115(第01(2014)期);第I137-49页 *
数字媒体内容标引及映射方法的研究与实现;夏勇;《中国优秀硕士学位论文全文数据库 信息科技辑》;20110315(第03(2011)期);第I136-1554页 *

Also Published As

Publication number Publication date
CN104965837A (zh) 2015-10-07

Similar Documents

Publication Publication Date Title
JP7470645B2 (ja) オブジェクト検出モデルを組み合わせるための方法、デバイス、およびシステム
CN103370692A (zh) 一种修复数据的方法及装置
CN107229420A (zh) 数据存储方法、读取方法、删除方法和数据操作系统
CN102722709A (zh) 一种垃圾图片识别方法和装置
CN107241296A (zh) 一种Webshell的检测方法及装置
CN108959359B (zh) 一种统一资源定位符语义去重方法、装置、设备和介质
CN105447113A (zh) 一种基于大数据的信息分析方法
CN110689084B (zh) 一种异常用户识别方法及装置
CN106997367A (zh) 程序文件的分类方法、分类装置和分类系统
CN109800220B (zh) 一种大数据清洗方法、系统及相关装置
CN101604364A (zh) 基于文件指令序列的计算机恶意程序分类系统和分类方法
CN103154884A (zh) 模式检测
CN102708183A (zh) 数据压缩的方法和装置
TWI678629B (zh) 多元流動網路之可靠度計算方法及其系統
CN105989287A (zh) 一种海量恶意样本同源性判定方法及系统
CN104965837B (zh) 基于分块迭代的网络破损文件还原方法及系统
Deypir et al. An Efficient Sliding Window Based Algorithm for Adaptive Frequent Itemset Mining over Data Streams.
EP3477462B1 (en) Tenant aware, variable length, deduplication of stored data
Feuillet et al. A scaling analysis of a transient stochastic network
CN107704341A (zh) 文件恢复方法、装置及电子设备
JP2009509259A5 (zh)
CN110019193B (zh) 相似帐号识别方法、装置、设备、系统及可读介质
CN107256130B (zh) 基于Cuckoo哈希计算的数据存储优化方法及系统
CN113495886A (zh) 用于模型训练的污染样本数据的检测方法及装置
CN106850632B (zh) 一种异常组合数据的检测方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 150010 Heilongjiang science and technology innovation city, Harbin new and high tech Industrial Development Zone, No. 7 building, innovation and entrepreneurship Plaza, 838

Patentee after: Harbin antiy Technology Group Limited by Share Ltd

Address before: 150090 room 506, Hongqi Street, Nangang District, Harbin Development Zone, Heilongjiang, China, 162

Patentee before: Harbin Antiy Technology Co., Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Block iterative based network corrupted file restoring method and system

Effective date of registration: 20190718

Granted publication date: 20180703

Pledgee: Bank of Longjiang, Limited by Share Ltd, Harbin Limin branch

Pledgor: Harbin antiy Technology Group Limited by Share Ltd

Registration number: 2019230000007

PE01 Entry into force of the registration of the contract for pledge of patent right
CP03 Change of name, title or address

Address after: 150010 building 7, innovation and entrepreneurship Plaza, science and technology innovation city, Harbin high tech Industrial Development Zone, Heilongjiang, China (No. 838, world Kun Road)

Patentee after: Antan Technology Group Co.,Ltd.

Address before: 150010 Heilongjiang science and technology innovation city, Harbin new and high tech Industrial Development Zone, No. 7 building, innovation and entrepreneurship Plaza, 838

Patentee before: Harbin Antian Science and Technology Group Co.,Ltd.

CP03 Change of name, title or address
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20211119

Granted publication date: 20180703

Pledgee: Bank of Longjiang Limited by Share Ltd. Harbin Limin branch

Pledgor: Harbin Antian Science and Technology Group Co.,Ltd.

Registration number: 2019230000007

PC01 Cancellation of the registration of the contract for pledge of patent right