CN114492427A - 一种数据恢复方法及终端 - Google Patents

一种数据恢复方法及终端 Download PDF

Info

Publication number
CN114492427A
CN114492427A CN202111664755.8A CN202111664755A CN114492427A CN 114492427 A CN114492427 A CN 114492427A CN 202111664755 A CN202111664755 A CN 202111664755A CN 114492427 A CN114492427 A CN 114492427A
Authority
CN
China
Prior art keywords
word segmentation
data
target
fragment
segmentation fragment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111664755.8A
Other languages
English (en)
Inventor
张晓剑
吴松洋
张辉极
马亦婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN202111664755.8A priority Critical patent/CN114492427A/zh
Publication of CN114492427A publication Critical patent/CN114492427A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据恢复方法及终端,获取分词数据,分词数据包括分词碎片标识和分词碎片标识对应的数据块;按照分词碎片标识的递增关系遍历分词碎片,当遍历到目标分词碎片时,获取目标分词碎片对应的目标数据块,并根据目标数据块还原分词碎片内容;根据分词碎片标识拼接分词碎片内容,得到还原数据;对比还原数据和未删除数据,得到已删除数据;本发明通过按照分片得到的分词碎片的分词碎片标识递增排列,遍历还原出分词碎片对应的分词碎片内容,最终拼接得到还原数据,因未删除的数据的分片数据也会被存储,故经过和未删除数据的排重后就能得到已删除数据,实现数据恢复,并且适用于所有进行分片存储的系统中如全文检索系统中。

Description

一种数据恢复方法及终端
技术领域
本发明涉及数据处理领域,尤其涉及一种数据恢复方法及终端。
背景技术
随着手机厂商、应用厂商对数据安全性的重视,不断提高对数据保护的方式方法,不仅是对现有数据加强保护,也逐渐地对删除数据加强其不可恢复性。比如,手机应用大部分使用SQLite存储数据,而常见对数据彻底抹除的方法为删除后对相应的字节置零,使传统数据恢复手段无法生效。
数据保护手段提高,恢复技术也从未停止探索。手机数据恢复领域经过多年研究发展,从传统的SQLite文件恢复技术,到之后的镜像文件碎片、数据库备份文件、会话文件、索引数据库等恢复技术,每项技术的产生都能在某一阶段内提高有效数据的恢复能力。
目前市面上已知的各项恢复技术随着手机厂商、应用厂商的加固,均很难恢复到可用数据。例如,镜像文件碎片因高版本Android系统被加密导致无法恢复出碎片文件,Android端索引数据库被加密并且删除置零也导致无法恢复到有效数据。
发明内容
本发明所要解决的技术问题是:提供一种数据恢复方法,实现对数据的恢复。
为了解决上述技术问题,本发明采用的一种技术方案为:
一种数据恢复方法,包括步骤:
获取分词数据,所述分词数据包括分词碎片标识和所述分词碎片标识对应的数据块;
按照所述分词碎片标识的递增关系遍历所述分词碎片,当遍历到目标分词碎片时,获取所述目标分词碎片对应的所述目标数据块,并根据所述目标数据块还原分词碎片内容;
根据所述分词碎片标识拼接所述分词碎片内容,得到还原数据;
对比所述还原数据和未删除数据,得到已删除数据。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种数据恢复终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取分词数据,所述分词数据包括分词碎片标识和所述分词碎片标识对应的数据块;
按照所述分词碎片标识的递增关系遍历所述分词碎片,当遍历到目标分词碎片时,获取所述目标分词碎片对应的所述目标数据块,并根据所述目标数据块还原分词碎片内容;
根据所述分词碎片标识拼接所述分词碎片内容,得到还原数据;
对比所述还原数据和未删除数据,得到已删除数据。
本发明的有益效果在于:因为了方便数据的检索,现在数据存储除了作为完整数据存储外,还会进行分片并建立索引方便进行数据查找,删除完整数据时,对应的分片数据通常不会删除,此时通过按照分片得到的分词碎片的分词碎片标识递增排列,遍历还原出分词碎片对应的分词碎片内容,最终拼接得到还原数据,因未删除的数据的分片数据也会被存储,故经过和未删除数据的排重后就能得到已删除数据,实现数据恢复,并且适用于所有进行分片存储的系统中如全文检索系统中。
附图说明
图1为本发明实施例的一种数据恢复方法的步骤流程图;
图2为本发明实施例的一种数据恢复终端的结构示意图;
图3为本发明实施例的一种分词碎片标识示意图;
图4为本发明实施例的一种数据块示意图;
图5为本发明实施例的一种滑动窗口示意图;
图6为本发明实施例的一种原始数据示意图;
图7为本发明实施例的一种还原数据示意图;
图8为本发明实施例的未标记的滑动窗口示意图;
图9为本发明实施例的一种数据恢复方法的过程示意图;
图10为本发明实施例的实现一种数据恢复方法的系统框图;
标号说明:
1、一种数据恢复终端;2、处理器;3、存储器。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
请参照图1,一种数据恢复方法,包括步骤:
获取分词数据,所述分词数据包括分词碎片标识和所述分词碎片标识对应的数据块;
按照所述分词碎片标识的递增关系遍历所述分词碎片,当遍历到目标分词碎片时,获取所述目标分词碎片对应的所述目标数据块,并根据所述目标数据块还原分词碎片内容;
根据所述分词碎片标识拼接所述分词碎片内容,得到还原数据;
对比所述还原数据和未删除数据,得到已删除数据。
从上述描述可知,本发明的有益效果在于:因为了方便数据的检索,现在数据存储除了作为完整数据存储外,还会进行分片并建立索引方便进行数据查找,删除完整数据时,对应的分片数据通常不会删除,此时通过按照分片得到的分词碎片的分词碎片标识递增排列,遍历还原出分词碎片对应的分词碎片内容,最终拼接得到还原数据,因未删除的数据的分片数据也会被存储,故经过和未删除数据的排重后就能得到已删除数据,实现数据恢复,并且适用于所有进行分片存储的系统中如全文检索系统中。
进一步地,所述按照所述分词碎片标识的递增关系遍历所述分词碎片,当遍历到目标分词碎片时,获取所述目标分词碎片对应的所述目标数据块,并根据所述目标数据块还原分词碎片内容具体为:
按照所述分词碎片标识的递增关系遍历所述分词碎片,当遍历到目标分词碎片时,判断所述目标分词碎片与前一分词碎片的分词碎片标识是否连续,若是,则保留所述前一分词碎片的缓冲数据后,获取所述目标分词碎片对应的所述目标数据块,并根据所述缓冲数据集所述目标数据块还原分词碎片内容;并拼接所述分词碎片内容和前一分词碎片对应的分词碎片内容;
否则,直接获取所述目标分词碎片对应的所述目标数据块,并根据所述目标数据块还原分词碎片内容。
由上述描述可知,因一段完整数据可能会被分为多个分词碎片且通常在分词过程中会有关联性,在进行解析时,若是分词碎片标识连续的分词碎片,则将解析其前一个分词碎片的缓存内容保存,提高解析结果的准确度,即保证还原数据的准确。
进一步地,所述获取所述目标分词碎片对应的所述目标数据块,并根据所述目标数据块还原分词碎片内容包括:
获取所述目标数据块中的索引定位字节,根据所述索引定位字节得到解析位置;
从所述解析位置开始,获取滑动窗口结构,并根据所述滑动窗口结构获取待确定位置,采用第一预设公式或第二预设公式计算所述待确定位置的值,并根据所述滑动窗口结构从所述解析位置开始解析,还原分词碎片内容。
由上述描述可知,得到解析位置后,因不同的分词算法有不同的滑动窗口结构,有的滑动窗口的值就是实际含义值,有的滑动窗口的值需要进行转换才能得到其实际含义,此时需要借助根据具体分词算法对应的公式和待确定位置获取滑动窗口中存储值的隐含含义,从而确认每个滑动窗口的内容,实现分词碎片内容的确定。
进一步地,获取预设分词算法;
根据所述预设分词算法获取所述第一预设公式及所述第二预设公式。
由上述描述可知,分词的算法有很多,根据不同的分词算法获取不同的预设公式,使得滑动窗口的解析结果能够与原意一致,避免出现错误。
进一步地,所述对比所述还原数据和未删除数据,得到已删除数据包括:
对比所述还原数据和未删除数据,标记不与所述未删除数据对应的所述还原数据为已删除数据。
由上述描述可知,因原始数据中可能存在一些不会被分片形成分词碎片的字符,故此时可获取相似度判断还原数据是否与未删除数据对应,而不是通过一致性判断,提高最终输出的已删除数据的准确性。
请参照图2,一种数据恢复终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取分词数据,所述分词数据包括分词碎片标识和所述分词碎片标识对应的数据块;
按照所述分词碎片标识的递增关系遍历所述分词碎片,当遍历到目标分词碎片时,获取所述目标分词碎片对应的所述目标数据块,并根据所述目标数据块还原分词碎片内容;
根据所述分词碎片标识拼接所述分词碎片内容,得到还原数据;
对比所述还原数据和未删除数据,得到已删除数据。
本发明的有益效果在于:因为了方便数据的检索,现在数据存储除了作为完整数据存储外,还会进行分片并建立索引方便进行数据查找,删除完整数据时,对应的分片数据通常不会删除,此时通过按照分片得到的分词碎片的分词碎片标识递增排列,遍历还原出分词碎片对应的分词碎片内容,最终拼接得到还原数据,因未删除的数据的分片数据也会被存储,故经过和未删除数据的排重后就能得到已删除数据,实现数据恢复,并且适用于所有进行分片存储的系统中如全文检索系统中。
进一步地,所述按照所述分词碎片标识的递增关系遍历所述分词碎片,当遍历到目标分词碎片时,获取所述目标分词碎片对应的所述目标数据块,并根据所述目标数据块还原分词碎片内容具体为:
按照所述分词碎片标识的递增关系遍历所述分词碎片,当遍历到目标分词碎片时,判断所述目标分词碎片与前一分词碎片的分词碎片标识是否连续,若是,则保留所述前一分词碎片的缓冲数据后,获取所述目标分词碎片对应的所述目标数据块,并根据所述缓冲数据集所述目标数据块还原分词碎片内容;并拼接所述分词碎片内容和前一分词碎片对应的分词碎片内容;
否则,直接获取所述目标分词碎片对应的所述目标数据块,并根据所述目标数据块还原分词碎片内容。
由上述描述可知,因一段完整数据可能会被分为多个分词碎片且通常在分词过程中会有关联性,在进行解析时,若是分词碎片标识连续的分词碎片,则将解析其前一个分词碎片的缓存内容保存,提高解析结果的准确度,即保证还原数据的准确。
进一步地,所述获取所述目标分词碎片对应的所述目标数据块,并根据所述目标数据块还原分词碎片内容包括:
获取所述目标数据块中的索引定位字节,根据所述索引定位字节得到解析位置;
从所述解析位置开始,获取滑动窗口结构,并根据所述滑动窗口结构获取待确定位置,采用第一预设公式或第二预设公式计算所述待确定位置的值,并根据所述滑动窗口结构从所述解析位置开始解析,还原分词碎片内容。
由上述描述可知,得到解析位置后,因不同的分词算法有不同的滑动窗口结构,有的滑动窗口的值就是实际含义值,有的滑动窗口的值需要进行转换才能得到其实际含义,此时需要借助根据具体分词算法对应的公式和待确定位置获取滑动窗口中存储值的隐含含义,从而确认每个滑动窗口的内容,实现分词碎片内容的确定。
进一步地,获取预设分词算法;
根据所述预设分词算法获取所述第一预设公式及所述第二预设公式。
由上述描述可知,分词的算法有很多,根据不同的分词算法获取不同的预设公式,使得滑动窗口的解析结果能够与原意一致,避免出现错误。
进一步地,所述对比所述还原数据和未删除数据,得到已删除数据包括:
对比所述还原数据和未删除数据,标记不与所述未删除数据对应的所述还原数据为已删除数据。
由上述描述可知,因原始数据中可能存在一些不会被分片形成分词碎片的字符,故此时可获取相似度判断还原数据是否与未删除数据对应,而不是通过一致性判断,提高最终输出的已删除数据的准确性。
本发明上述一种数据恢复方法及终端能够适用于存在数据分片的系统中,如FTS(Full Text Search,全文检索)系统,以下通过具体实施方式进行说明:
请参照图1,本发明的实施例一为:
一种数据恢复方法,具体包括:
S1、获取分词数据,所述分词数据包括分词碎片标识和所述分词碎片标识对应的数据块;
请参照图3,图中id即为分词碎片标识示意图;
S2、按照所述分词碎片标识的递增关系遍历所述分词碎片,当遍历到目标分词碎片时,获取所述目标分词碎片对应的所述目标数据块,并根据所述目标数据块还原分词碎片内容,具体为:
S21、按照所述分词碎片标识的递增关系遍历所述分词碎片,当遍历到目标分词碎片时,判断所述目标分词碎片与前一分词碎片的分词碎片标识是否连续,若是,则执行S22,否则,执行S23;
请参照图3,图3中RecNo12和13所对应的id即为连续的分词碎片标识;
S22、保留所述前一分词碎片的缓冲数据后,获取所述目标分词碎片对应的所述目标数据块,并根据所述缓冲数据集所述目标数据块还原分词碎片内容;并拼接所述分词碎片内容和前一分词碎片对应的分词碎片内容;
S23、直接获取所述目标分词碎片对应的所述目标数据块,并根据所述目标数据块还原分词碎片内容,包括:
S231、获取所述目标数据块中的索引定位字节,根据所述索引定位字节得到解析位置;
请参照图4,即为目标数据块示意图,如图4中为FTS系统下分片时得到的数据块,则根据其中第三字节和第四字节为索引定位字节,可以获取索引位置0275;从该位置可以获取索引的值从而确定解析位置;
S232、从所述解析位置开始,获取滑动窗口结构,并根据所述滑动窗口结构获取待确定位置,采用第一预设公式或第二预设公式计算所述待确定位置的值,并根据所述滑动窗口结构从所述解析位置开始解析,还原分词碎片内容;
其中,在S232之前包括:根据所述预设分词算法获取所述滑动窗口结构、所述第一预设公式及所述第二预设公式;
请参照图5,为滑动窗口示意图,a类型为每个碎片数据块首个滑动窗口的规则即滑动窗口结构,由分词内容长度、1字节填充、分词内容字节、索引内容ID、副本数(0=2÷2-1)及分词ID组成;b类型为后续滑动窗口的规则即滑动窗口的结构,由字节继承数(0=1-1)、分词内容长度、分词内容字节、索引内容ID、副本数(0=2÷2-1)及分词ID组成;通过这两种规则对每个滑动窗口数据进行解析;
其中,分词内容长度表示分词内容字节所占的字节数;索引内容ID表示该滑动窗口对应的索引内容标识;副本数表示该滑动窗口的备份数,分词ID表示该滑动窗口在目标分词碎片中的位置,若一个目标分词碎片的分词碎片内容与其他分词碎片关联,则分词ID从预设数量开始编号,如01表示目标分词碎片的内容不与其他分词碎片的内容关联,大于01则表示目标分词碎片的分词碎片内容与其他分词碎片关联;字节继承数表示从前一分词碎片中分词内容字节里继承的字节的个数;
在一种可选的实施方式中,第一预设公式为:
SN×1280+(SN-1–128)×1281+…+(S1–128)×128N-1
第二预设公式为:
(SN×1280+(SN-1–128)×1281+…+(S1–128)×128N-1)÷2–1
其中,N表示参与计算的字节个数,SN表示第N个字节的值。
则,在计算副本数时使用第二预设公式,在计算索引内容ID、分词ID及字节继承数时都使用第一预设公式;
则可知,若字节继承数为1,则表示从前一分词碎片继承1个字节,此时需要获取前一分词碎片对应的缓存数据;如图4中02 02 BA 86 17 02 06;表示从上个分词“不”(UTF编码0xE4B88D)继承了一个字节0xE4(图4中位于0x3E位置的字节),则得到分词碎片内容“了”(UTF编码0xE4BA86);
由如,请参照图8,左侧为右侧字符对应的滑动窗口内容,“没”的UTF8编码为0xE6B2A1,滑动窗口第1个字节0x02表示继承1个字节(1=2-1),第2个字节0x02表示后续两个字节0xB2、0xA1为分词的组成部分,第5个字节0x13表示该分词所在的消息ID为19,第6个字节0x02表示副本数为0(0=2÷2-1),第7个字节表示分词ID为2(一条数据内的多个分词,分词ID为2开始累加)。“加”、“密”也同理,得出分词ID分别为3、4,对该消息重组后即得到完整内容“没加密”;
S3、根据所述分词碎片标识拼接所述分词碎片内容,得到还原数据;
请参照图6,为原始数据示意,图7为还原数据示意,因一些符号不会产生分词,二者会存在一定差异;
S4、对比所述还原数据和未删除数据,得到已删除数据,包括:
对比所述还原数据和未删除数据,标记不与所述未删除数据对应的还原数据为已删除数据;其中,对比未删除数据与还原数据的相似度,若相似度超过阈值,则认为该还原数据和未删除数据是对应的,即为同一条数据。
请参照图2,本发明的实施例二为:
一种数据恢复终端1,包括处理器2、存储器3及存储在存储器3上并可在所述处理器2上运行的计算机程序,所述处理器2执行所述计算机程序时实现实施例一中的各个步骤。
综上所述,本发明提供了一种数据恢复方法及终端,利用现有数据为了方便检索会进行分片的特征,在原数据被删除的情况下通过获取对应的分片数据进行分析,根据分片数据得到还原数据,因不论是已删除数据还是未删除数据,都会存在对应的分片及分词碎片,故根据还原数据和未删除数据是否一致还可以判断还原是否准确,最终进行与未删除数据的排重即可获取已删除数据,能够确保所恢复的已删除数据的准确性,并且只要存在建立索引、进行分片的系统中都可实现数据恢复,实用性强。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种数据恢复方法,其特征在于,包括步骤:
获取分词数据,所述分词数据包括分词碎片标识和所述分词碎片标识对应的数据块;
按照所述分词碎片标识的递增关系遍历所述分词碎片,当遍历到目标分词碎片时,获取所述目标分词碎片对应的所述目标数据块,并根据所述目标数据块还原分词碎片内容;
根据所述分词碎片标识拼接所述分词碎片内容,得到还原数据;
对比所述还原数据和未删除数据,得到已删除数据。
2.根据权利要求1所述的一种数据恢复方法,其特征在于,所述按照所述分词碎片标识的递增关系遍历所述分词碎片,当遍历到目标分词碎片时,获取所述目标分词碎片对应的所述目标数据块,并根据所述目标数据块还原分词碎片内容具体为:
按照所述分词碎片标识的递增关系遍历所述分词碎片,当遍历到目标分词碎片时,判断所述目标分词碎片与前一分词碎片的分词碎片标识是否连续,若是,则保留所述前一分词碎片的缓冲数据后,获取所述目标分词碎片对应的所述目标数据块,并根据所述缓冲数据集所述目标数据块还原分词碎片内容;并拼接所述分词碎片内容和前一分词碎片对应的分词碎片内容;
否则,直接获取所述目标分词碎片对应的所述目标数据块,并根据所述目标数据块还原分词碎片内容。
3.根据权利要求1所述的一种数据恢复方法,其特征在于,所述获取所述目标分词碎片对应的所述目标数据块,并根据所述目标数据块还原分词碎片内容包括:
获取所述目标数据块中的索引定位字节,根据所述索引定位字节得到解析位置;
从所述解析位置开始,获取滑动窗口结构,并根据所述滑动窗口结构获取待确定位置,采用第一预设公式或第二预设公式计算所述待确定位置的值,并根据所述滑动窗口结构从所述解析位置开始解析,还原分词碎片内容。
4.根据权利要求3所述的一种数据恢复方法,其特征在于,还包括,获取预设分词算法;
根据所述预设分词算法获取所述第一预设公式及所述第二预设公式。
5.根据权利要求1所述的一种数据恢复方法,其特征在于,所述对比所述还原数据和未删除数据,得到已删除数据包括:
对比所述还原数据和未删除数据,标记不与所述未删除数据对应的所述还原数据为已删除数据。
6.一种数据恢复终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
获取分词数据,所述分词数据包括分词碎片标识和所述分词碎片标识对应的数据块;
按照所述分词碎片标识的递增关系遍历所述分词碎片,当遍历到目标分词碎片时,获取所述目标分词碎片对应的所述目标数据块,并根据所述目标数据块还原分词碎片内容;
根据所述分词碎片标识拼接所述分词碎片内容,得到还原数据;
对比所述还原数据和未删除数据,得到已删除数据。
7.根据权利要求6所述的一种数据恢复终端,其特征在于,所述按照所述分词碎片标识的递增关系遍历所述分词碎片,当遍历到目标分词碎片时,获取所述目标分词碎片对应的所述目标数据块,并根据所述目标数据块还原分词碎片内容具体为:
按照所述分词碎片标识的递增关系遍历所述分词碎片,当遍历到目标分词碎片时,判断所述目标分词碎片与前一分词碎片的分词碎片标识是否连续,若是,则保留所述前一分词碎片的缓冲数据后,获取所述目标分词碎片对应的所述目标数据块,并根据所述缓冲数据集所述目标数据块还原分词碎片内容;并拼接所述分词碎片内容和前一分词碎片对应的分词碎片内容;
否则,直接获取所述目标分词碎片对应的所述目标数据块,并根据所述目标数据块还原分词碎片内容。
8.根据权利要求6所述的一种数据恢复终端,其特征在于,所述获取所述目标分词碎片对应的所述目标数据块,并根据所述目标数据块还原分词碎片内容包括:
获取所述目标数据块中的索引定位字节,根据所述索引定位字节得到解析位置;
从所述解析位置开始,获取滑动窗口结构,并根据所述滑动窗口结构获取待确定位置,采用第一预设公式或第二预设公式计算所述待确定位置的值,并根据所述滑动窗口结构从所述解析位置开始解析,还原分词碎片内容。
9.根据权利要求8所述的一种数据恢复终端,其特征在于,还包括,获取预设分词算法;
根据所述预设分词算法获取所述第一预设公式及所述第二预设公式。
10.根据权利要求6所述的一种数据恢复终端,其特征在于,所述对比所述还原数据和未删除数据,得到已删除数据包括:
对比所述还原数据和未删除数据,标记不与所述未删除数据对应的所述还原数据为已删除数据。
CN202111664755.8A 2021-12-31 2021-12-31 一种数据恢复方法及终端 Pending CN114492427A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111664755.8A CN114492427A (zh) 2021-12-31 2021-12-31 一种数据恢复方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111664755.8A CN114492427A (zh) 2021-12-31 2021-12-31 一种数据恢复方法及终端

Publications (1)

Publication Number Publication Date
CN114492427A true CN114492427A (zh) 2022-05-13

Family

ID=81508839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111664755.8A Pending CN114492427A (zh) 2021-12-31 2021-12-31 一种数据恢复方法及终端

Country Status (1)

Country Link
CN (1) CN114492427A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109298836A (zh) * 2018-09-04 2019-02-01 航天信息股份有限公司 处理数据的方法、装置和存储介质
CN110297831A (zh) * 2019-07-01 2019-10-01 电子科技大学 一种基于门限秘密共享的区块链分片存储方法
WO2019227585A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 基于索引的简历数据处理方法、装置、设备及存储介质
CN112084157A (zh) * 2020-09-18 2020-12-15 腾讯科技(深圳)有限公司 文件恢复方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019227585A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 基于索引的简历数据处理方法、装置、设备及存储介质
CN109298836A (zh) * 2018-09-04 2019-02-01 航天信息股份有限公司 处理数据的方法、装置和存储介质
CN110297831A (zh) * 2019-07-01 2019-10-01 电子科技大学 一种基于门限秘密共享的区块链分片存储方法
CN112084157A (zh) * 2020-09-18 2020-12-15 腾讯科技(深圳)有限公司 文件恢复方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱江;冀鸣;杨志成;张嘉贤;曹雄;: "基于重复数据删除技术的存储系统分析", 信息系统工程, no. 04, 20 April 2017 (2017-04-20) *

Similar Documents

Publication Publication Date Title
US8751462B2 (en) Delta compression after identity deduplication
US8849772B1 (en) Data replication with delta compression
US7478113B1 (en) Boundaries
KR101456757B1 (ko) SQLite 데이터베이스에서 삭제된 데이터의 복원 방법 및 장치
CN101807208B (zh) 视频指纹快速检索方法
CN112380833B (zh) 一种逐句段对比的相似文本查找方法及装置
US9645828B2 (en) Method of searching character string, character string searching device, and recording medium
CN109635148B (zh) 人脸图片存储方法及装置
CN110569147B (zh) 一种基于索引的删除文件恢复方法、终端设备及存储介质
EP3798842A1 (en) Database deleted record recovery method and system
CN113656807A (zh) 一种漏洞管理方法、装置、设备及存储介质
CN106980680B (zh) 数据存储方法及存储设备
Ravi et al. A method for carving fragmented document and image files
KR20180043922A (ko) SQLite 데이터베이스의 비정상 페이지와 저널 파일에서의 삭제된 레코드 복구 방법, 그 방법을 수행하는 장치 및 컴퓨터 프로그램
JP2010182238A (ja) 引用検出装置、原典文書データベース生成装置、その方法、プログラム及び記録媒体
Pahade et al. A survey on multimedia file carving
CN116126997B (zh) 一种文献去重存储方法、系统、设备及存储介质
CN116226681B (zh) 一种文本相似性判定方法、装置、计算机设备和存储介质
CN114492427A (zh) 一种数据恢复方法及终端
US11822803B2 (en) Method, electronic device and computer program product for managing data blocks
CN107169065B (zh) 一种特定内容的去除方法和装置
CN115565222A (zh) 人脸识别方法、人脸识别系统、终端设备及存储介质
CN112380174B (zh) 含删除文件的xfs文件系统解析方法、终端设备及存储介质
CN114327252A (zh) 使用基于内容的块对齐实现基于块的存储系统中的数据简化
Abdulsalam et al. Evaluation of Two Thresholds Two Divisor Chunking Algorithm Using Rabin Finger print, Adler, and SHA1 Hashing Algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: Unit 102-402, No. 12 Guanri Road, Phase II, Software Park, Xiamen Torch High tech Zone, Xiamen, Fujian Province, 361000

Applicant after: Guotou Intelligent (Xiamen) Information Co.,Ltd.

Address before: AIU Cupressaceae No. 12 building, 361000 Fujian province Xiamen software park two sunrise Road

Applicant before: XIAMEN MEIYA PICO INFORMATION Co.,Ltd.

Country or region before: China