CN102073682A - 一种基于编码方式的文档数据恢复系统及其快速恢复方法 - Google Patents

一种基于编码方式的文档数据恢复系统及其快速恢复方法 Download PDF

Info

Publication number
CN102073682A
CN102073682A CN 201010599551 CN201010599551A CN102073682A CN 102073682 A CN102073682 A CN 102073682A CN 201010599551 CN201010599551 CN 201010599551 CN 201010599551 A CN201010599551 A CN 201010599551A CN 102073682 A CN102073682 A CN 102073682A
Authority
CN
China
Prior art keywords
data
unit
document
coding
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201010599551
Other languages
English (en)
Other versions
CN102073682B (zh
Inventor
黄志炜
张雪峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN 201010599551 priority Critical patent/CN102073682B/zh
Publication of CN102073682A publication Critical patent/CN102073682A/zh
Application granted granted Critical
Publication of CN102073682B publication Critical patent/CN102073682B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于编码方式的文档数据恢复系统及其快速恢复方法,该系统包括输入单元、编码规则存储单元、编码组合规则存储单元、数据检索单元、有效编码判断单元、有效编码提取单元、有效编码存储单元、编码重组单元和输出单元,该基于编码方式的文档数据恢复系统是以文档数据的有效编码为特征,通过提取存储介质中属于有效编码的代码来恢复各种文档,可以对已丢失文件签名、文件结束字符等特征的文档数据文件进行恢复,可恢复出未被其他文件覆盖的各种文字信息。本发明的文档恢复系统及其快速恢复方法,具有文档识别率高,搜索速度快的特点,并且能够发现已损坏文档的碎片,并将之从存储介质中提取出来,可以极大提高现有的文档恢复成功率。

Description

一种基于编码方式的文档数据恢复系统及其快速恢复方法
技术领域
本发明涉及一种对文档数据恢复的计算机处理,特别是涉及一种基于编码方式的文档数据恢复系统及其快速恢复方法。
背景技术
文档恢复指的是存储系统,或操作系统,或文件系统层次上的数据丢失,这种丢失是多方面的,如系统软硬件故障、死机、病毒破坏、黑客攻击、木马破坏、误操作、阵列数据丢失等等;对于一般文件系统来说,这方面的研究工作起步较早,国内外研究的都比较深。这方面的主要难点是:文件碎片的恢复处理、文档修复和密码恢复。
早期的文档恢复技术仅对文件分配表进行搜索,从中找出被标记为删除的文档进行恢复,无法恢复那些在文件分配表中已被覆盖的文档。现有的文档恢复技术已经发展到利用文档文件签名、文件结束字符等特征在存储介质中进行搜索来找出文档位置,再进行文档恢复。
现有文档恢复技术利用文件签名、文件结束字符等特征来进行文档恢复,这种技术无法恢复丢失了文件签名、文件结束字符等特征的文档文件碎片。
发明内容
本发明的目的在于克服现有技术之不足,提供一种基于编码方式的文档数据恢复系统及其快速恢复方法,是以文档数据的有效编码为特征,通过提取存储介质中属于有效编码的代码来恢复各种文档,可以对已丢失文件签名、文件结束字符等特征的文档数据文件进行恢复,可恢复出未被其他文件覆盖的各种文字信息。
本发明解决其技术问题所采用的技术方案是:一种基于编码方式的文档数据恢复系统,包括:
一输入单元,其用来读取存储介质的文档数据以及输入预先设置的文档编码规则和文档编码组合规则;
一编码规则存储单元,与输入单元的输出相连接,其用来存储由输入单元输给的且为预先设置的各种文档编码规则的数据;
一编码组合规则存储单元,与输入单元的输出相连接,其用来存储由输入单元输给的且为预先设置的各种文档编码组合规则的数据;
一数据检索单元,与输入单元的输出相连接,其用来从输入单元接收文档数据,每次接收一个文档数据块,且将接收到的文档数据块分成一个或多个子段,并从子段的预先指定位置中提取预先指定长度的文档数据发送给有效编码判断单元进行验证,根据验证结果确定下一步操作是进行下个子段检索或是进入有效编码提取单元;
一有效编码判断单元,分别与数据检索单元、编码规则存储单元和编码组合规则存储单元相连接,其用来接收由数据检索单元发送的所述预先指定长度的文档数据,并从编码规则存储单元和编码组合规则存储单元中调出规则数据,利用该规则数据对所述预先指定长度的文档数据进行比较分析,对文档数据是否有有效编码作出判断,并将验证结果反馈给数据检索单元;
一有效编码提取单元,分别与数据检索单元、编码规则存储单元和编码组合规则存储单元相连接,其用来接收由数据检索单元发送的文档数据块,并从编码规则存储单元和编码组合规则存储单元中调出规则数据,从被确定为含有有效编码的当前子段开始,对整个数据块进行遍历,提取出符合规则数据要求的编码并将该编码写入有效编码存储单元;
一有效编码存储单元,与有效编码提取单元相连接,其用来储存以编码方式、对应规则及编码在存储介质中的存放位置等多种组合来表示的有效编码数据;
一编码重组单元,分别与数据检索单元、编码规则存储单元、编码组合规则存储单元和有效编码存储单元相连接,根据数据检索单元的指令,从有效编码存储单元中调出存放位置相近的编码,并根据编码组合规则存储单元和有效编码存储单元所提供的有效编码编码规则及编码组合规则,将相应的编码通过组合,解码,得到的文档数据并输出给输出单元;以及
一输出单元,与编码重组单元相连接,其用于接收编码重组单元输出的文档数据,并按照文档在存储介质中的存放位置,显示出经过编码重组和转换后的文档明文。
一种基于编码方式的文档数据快速恢复方法,包括如下步骤:
a.用输入单元从存储介质中读取一个预先设置好大小的文档数据块到内存;
b.用数据检索单元将所述文档数据块分成多个文档数据子块;
c.数据检索单元在当前文档数据子块中,从一个预先指定好的位置处提取一个预先指定好长度的文档数据发送给有效编码判断单元;
d.有效编码判断单元对所述预先指定好长度的文档数据是否存在有效编码格式进行判断,并将判断结果返回给数据检索单元;判断后,若存在有效编码格式,则进入有效编码提取过程,提取完成后,转至步骤g,若不存在有效编码格式,继续下一步骤;
e.由数据检索单元移动到下一文档数据子块;
f.数据检索单元判断是否到文档数据块的末尾,如果是,继续下一步骤,否则返回步骤c;
g.输入单元判断存储介质的所有文档数据是否读取完,若已读取完则结束,若未读取完则返回步骤a。
所述的有效编码提取过程,是由当前子块的位置开始,回溯特定长度的文档数据,并根据有效编码规则和编码组合规则对数据块的接下去的数据进行搜索,查找出属于文档的字符,并输出到指定位置。
所述的特定长度的文档数据,是在当前子块的位置开始,每次回溯一个预先指定长度的文档数据,并根据有效编码规则和编码组合规则对该预先指定长度的文档数据集进行判断,如果为有效编码格式,则继续回溯一个预先指定长度的文档数据,直至没有有效编码格式为止。
本发明的一种基于编码方式的文档数据恢复系统及其快速恢复方法,是以文档有效编码为搜索特征,文档有效编码指的是文档中文字的编码范围。
本发明的一种基于编码方式的文档数据快速恢复方法,实际上是采用了索引搜索过程和内容搜索过程,来实现快速的目的。
索引搜索过程是对输入装置所输入的数据块进行进一步的分段,并对各个分段的特定位置进行编码规则匹配,任一特定位置匹配成功,从该位置开始进入内容搜索过程,所有特定位置匹配失败,进入下一个索引搜索过程。
内容搜索过程是从传入的位置开始,回溯特定数据长度,再根据有效编码规则和编码组合规则对接下去的数据进行检索,查找出属于文档的字符,并输出到指定位置。
本发明的有益效果是,由于本发明采用了一输入单元、一编码规则存储单元、一编码组合规则存储单元、一数据检索单元、一有效编码判断单元、一有效编码提取单元、一有效编码存储单元、一编码重组单元和一输出单元来构成基于编码方式的文档数据恢复系统,该基于编码方式的文档数据恢复系统是以文档数据的有效编码为特征,通过提取存储介质中属于有效编码的代码来恢复各种文档,可以对已丢失文件签名、文件结束字符等特征的文档数据文件进行恢复,可恢复出未被其他文件覆盖的各种文字信息。
与其他文档恢复方法相比,本发明的文档恢复系统文档识别率高,搜索速度快,并且能够发现已损坏文档的碎片,并将之从存储介质中提取出来,可以极大提高现有的文档恢复成功率。
与其他文件相比,文档文件最关键的内容在于其内部的文字内容,而现有的文档恢复系统基本无法恢复出文字碎片,利用本发明的文档恢复系统,可将存储介质中有意义的文字碎片提取出来,再进行整理,对文档恢复具有极重大的意义。
以下结合附图及实施例对本发明作进一步详细说明;但本发明的一种基于编码方式的文档数据恢复系统及其快速恢复方法不局限于实施例。
附图说明
图1是本发明的系统的框图;
图2是本发明的方法的流程图;
图3是一个被覆盖的文档碎片的示意图;
图4是一个文档数据块的示意图。
具体实施方式
实施例,参见图1所示,本发明的一种基于编码方式的文档数据恢复系统,包括:
一输入单元1,其用来读取存储介质的文档数据以及输入预先设置的文档编码规则和文档编码组合规则;输入单元1是存储介质的导入、及各种文档编码规则、编码组合规则的输入中所使用的输入装置,用来读取存储介质内容并输送给内容提取单元及将各种文档编码规则、编码组合规则存入对应的存储单元中;
一编码规则存储单元2,与输入单元1的输出相连接,其用来存储由输入单元1输给的且为预先设置的各种文档编码规则的数据;
一编码组合规则存储单元3,与输入单元1的输出相连接,其用来存储由输入单元1输给的且为预先设置的各种文档编码组合规则的数据;
一数据检索单元4,与输入单元1的输出相连接,其用来从输入单元1接收文档数据,每次接收一个文档数据块,且将接收到的文档数据块分成一个或多个子段,并从子段的预先指定位置中提取预先指定长度的文档数据发送给有效编码判断单元5进行验证,根据验证结果确定下一步操作是进行下个子段检索或是进入有效编码提取单元6;
一有效编码判断单元5,分别与数据检索单元4、编码规则存储单元2和编码组合规则存储单元3相连接,其用来接收由数据检索单元4发送的所述预先指定长度的文档数据,并从编码规则存储单元2和编码组合规则存储单元3中调出规则数据(可以是一个规则,也可以是多个规则),利用该规则数据对所述预先指定长度的文档数据进行比较分析,对文档数据是否有有效编码作出判断,并将验证结果反馈给数据检索单元4;
一有效编码提取单元6,分别与数据检索单元4、编码规则存储单元2和编码组合规则存储单元3相连接,其用来接收由数据检索单元4发送的文档数据块,并从编码规则存储单元2和编码组合规则存储单元3中调出规则数据,从被确定为含有有效编码的当前子段开始,对整个数据块进行遍历,提取出符合规则数据要求的编码并将该编码写入有效编码存储单元7;
一有效编码存储单元7,与有效编码提取单元6相连接,其用来储存以编码方式、对应规则及编码在存储介质中的存放位置等多种组合来表示的有效编码数据;
一编码重组单元8,分别与数据检索单元4、编码规则存储单元2、编码组合规则存储单元3和有效编码存储单元7相连接,根据数据检索单元4的指令,从有效编码存储单元7中调出存放位置相近的编码,并根据编码组合规则存储单元2和有效编码存储单元3所提供的有效编码编码规则及编码组合规则,将相应的编码通过组合,解码,得到文档数据并输出给输出单元9;以及
一输出单元9,与编码重组单元8相连接,其用于接收编码重组单元8输出的文档数据,并按照文档在存储介质中的存放位置,显示出经过编码重组和转换后的文档明文。
参见图2所示,本发明的一种基于编码方式的文档数据快速恢复方法,包括如下步骤:
a.用输入单元从存储介质中读取一个预先设置好大小的文档数据块到内存;即图2中的读取部分数据到内存;
b.用数据检索单元将所述文档数据块分成多个文档数据子块;
c.数据检索单元在当前文档数据子块中,从一个预先指定好的位置处提取一个预先指定好长度的文档数据发送给有效编码判断单元;即图2中的从数据当前位置开始分析是否存在有效编码格式;
d.有效编码判断单元对所述预先指定好长度的文档数据是否存在有效编码格式进行判断,并将判断结果返回给数据检索单元;判断后,若存在有效编码格式,则进入有效编码提取过程(即图2中的在当前位置进一步搜索有效编码,并恢复文档内容),提取完成后,转至步骤g,若不存在有效编码格式,继续下一步骤;
e.由数据检索单元移动到下一文档数据子块;即图2中的移动到下一个位置;
f.数据检索单元判断是否到文档数据块的末尾,如果是,继续下一步骤,否则返回步骤c;
g.输入单元判断存储介质的所有文档数据是否读取完,若已读取完则结束,若未读取完则返回步骤a。
所述的有效编码提取过程,是由当前子块的位置开始,回溯特定长度的文档数据,并根据有效编码规则和编码组合规则对数据块的接下去的数据进行搜索,查找出属于文档的字符,并输出到指定位置。
所述的特定长度的文档数据,是在当前子块的位置开始,每次回溯一个预先指定长度的文档数据,并根据有效编码规则和编码组合规则对该预先指定长度的文档数据集进行判断,如果为有效编码格式,则继续回溯一个预先指定长度的文档数据,直至没有有效编码格式为止。
本发明的一种基于编码方式的文档数据恢复系统及其快速恢复方法,是以文档有效编码为搜索特征,文档有效编码指的是文档中文字的编码范围。
参见图3所示,文档为Unicode编码,在该编码中,汉字的有效编码范围为\u4E00-\u9FA5+\uF900-\uFA2D。半角标点和英文字母的有效编码范围为\u0021-\u007E,全角标点有效编码范围为\u3001-\u3017+\uFF01-\uFF5E,通过判断指定位置是否属于以上这些范围的组合,来确定指定位置是否属于有效编码。由于文档恢复通常关注的是有意义的内容,因此还可以通过各种编码组合方式,如连续三个以上汉字或标点等来判断多个连续的有效编码是否存在组合可能,来形成有意义的句子。
下面是几种可能的组合方式:
连续的汉字编码组合:
00004450|6E 63 B5 6B 19 52 FB 4E  0F 61 84 76 7F 4F 28 75|据段则任意的使用连续汉字+单个标点:
00004480|84 76 D0 8F 97 7B 0C FF  76 5E 8F 96 0F 61 39 65|的运算,并随意改连续汉字+单个或多个字母:
00004D60|1F 77 63 6B 43 00 50 00 55 00 00 4E 37 68 D6 53|真正CPU一样取
本发明的一种基于编码方式的文档数据快速恢复方法,实际上是采用了索引搜索过程和内容搜索过程,来实现快速的目的。
索引搜索过程是对输入装置所输入的数据块进行进一步的分段,并对各个分段的特定位置进行编码规则匹配,任一特定位置匹配成功,从该位置开始进入内容搜索过程,所有特定位置匹配失败,进入下一个索引搜索过程。
内容搜索过程是从传入的位置开始,回溯特定数据长度,再根据有效编码规则和编码组合规则对接下去的数据进行检索,查找出属于文档的字符,并输出到指定位置。
以下结合图4来进一步说明本发明的一种基于编码方式的文档数据快速恢复方法。
首先,从待检索的存储介质中读入部分数据到内存中,如读取1个扇区512个字节,如图4所示:
开始索引检索过程,将数据块分成4段(即4个数据子块)进行检索,首先检索第一段:
从数据当前位置:0x00009200处开始分析,分析16个字节,分析结果:不存在有效编码,跳到下一个位置:0x00009280;
从数据当前位置:0x00009280处开始分析,分析16个字节,分析结果:不存在有效编码,跳到下一个位置:0x00009300;
从数据当前位置:0x00009300处开始分析,分析16个字节,分析结果:在0x00009300处存在连续的有效编码,进入内容检索过程;
从数据当前位置:0x00009300处往前回溯,每次回溯16个字节,直到未发现有效编码,最终得到检索开始位置:0x000092C0;
从0x000092C0处开始检索,直到数据块结尾:0x000093FF,得到多个有效编码;
读取下一个数据块:0x00009400,开始新的检索过程。
快速检索经常需要在文档恢复准确度与文档检索速度间进行平衡,要让文档恢复准确度高,就需要将每次读入的数据块减小,文档检索速度也就变慢,反之,则可以加快文档检索速度,例如,从文字意义上考虑,一般要让恢复出来的文档存在可读性,一般需要20个字以上,因此可以设定每次读入的数据块为512字节,检索时只需对数据块的首部、中间、尾部进行判断,如果符合有效编码,则进行详细搜索,反之,可认为该数据块不存在可读性文档碎片,可以读入下一个数据块进行搜索。
上述实施例仅用来进一步说明本发明的一种基于编码方式的文档数据恢复系统及其快速恢复方法,但本发明并不局限于实施例,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均落入本发明技术方案的保护范围内。

Claims (4)

1.一种基于编码方式的文档数据恢复系统,其特征在于:包括:
一输入单元,其用来读取存储介质的文档数据以及输入预先设置的文档编码规则和文档编码组合规则;
一编码规则存储单元,与输入单元的输出相连接,其用来存储由输入单元输给的且为预先设置的各种文档编码规则的数据;
一编码组合规则存储单元,与输入单元的输出相连接,其用来存储由输入单元输给的且为预先设置的各种文档编码组合规则的数据;
一数据检索单元,与输入单元的输出相连接,其用来从输入单元接收文档数据,每次接收一个文档数据块,且将接收到的文档数据块分成一个或多个子段,并从子段的预先指定位置中提取预先指定长度的文档数据发送给有效编码判断单元进行验证,根据验证结果确定下一步操作是进行下个子段检索或是进入有效编码提取单元;
一有效编码判断单元,分别与数据检索单元、编码规则存储单元和编码组合规则存储单元相连接,其用来接收由数据检索单元发送的所述预先指定长度的文档数据,并从编码规则存储单元和编码组合规则存储单元中调出规则数据,利用该规则数据对所述预先指定长度的文档数据进行比较分析,对文档数据是否有有效编码作出判断,并将验证结果反馈给数据检索单元;
一有效编码提取单元,分别与数据检索单元、编码规则存储单元和编码组合规则存储单元相连接,其用来接收由数据检索单元发送的文档数据块,并从编码规则存储单元和编码组合规则存储单元中调出规则数据,从被确定为含有有效编码的当前子段开始,对整个数据块进行遍历,提取出符合规则数据要求的编码并将该编码写入有效编码存储单元;
一有效编码存储单元,与有效编码提取单元相连接,其用来储存以编码方式、对应规则及编码在存储介质中的存放位置等多种组合来表示的有效编码数据;
一编码重组单元,分别与数据检索单元、编码规则存储单元、编码组合规则存储单元和有效编码存储单元相连接,根据数据检索单元的指令,从有效编码存储单元中调出存放位置相近的编码,并根据编码组合规则存储单元和有效编码存储单元所提供的有效编码编码规则及编码组合规则,将相应的编码通过组合,解码,得到的文档数据并输出给输出单元;以及
一输出单元,与编码重组单元相连接,其用于接收编码重组单元输出的文档数据,并按照文档在存储介质中的存放位置,显示出经过编码重组和转换后的文档明文。
2.一种基于编码方式的文档数据快速恢复方法,其特征在于:包括如下步骤:
a.用输入单元从存储介质中读取一个预先设置好大小的文档数据块到内存;
b.用数据检索单元将所述文档数据块分成多个文档数据子块;
c.数据检索单元在当前文档数据子块中,从一个预先指定好的位置处提取一个预先指定好长度的文档数据发送给有效编码判断单元;
d.有效编码判断单元对所述预先指定好长度的文档数据是否存在有效编码格式进行判断,并将判断结果返回给数据检索单元;判断后,若存在有效编码格式,则进入有效编码提取过程,提取完成后,转至步骤g,若不存在有效编码格式,继续下一步骤;
e.由数据检索单元移动到下一文档数据子块;
f.数据检索单元判断是否到文档数据块的末尾,如果是,继续下一步骤,否则返回步骤c;
g.输入单元判断存储介质的所有文档数据是否读取完,若已读取完则结束,若未读取完则返回步骤a。
3.根据权利要求2所述的基于编码方式的文档数据快速恢复方法,其特征在于:所述的有效编码提取过程,是由当前子块的位置开始,回溯特定长度的文档数据,并根据有效编码规则和编码组合规则对数据块的接下去的数据进行搜索,查找出属于文档的字符,并输出到指定位置。
4.根据权利要求3所述的基于编码方式的文档数据快速恢复方法,其特征在于:所述的特定长度的文档数据,是在当前子块的位置开始,每次回溯一个预先指定长度的文档数据,并根据有效编码规则和编码组合规则对该预先指定长度的文档数据集进行判断,如果为有效编码格式,则继续回溯一个预先指定长度的文档数据,直至没有有效编码格式为止。
CN 201010599551 2010-12-21 2010-12-21 一种基于编码方式的文档数据恢复系统及其快速恢复方法 Active CN102073682B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010599551 CN102073682B (zh) 2010-12-21 2010-12-21 一种基于编码方式的文档数据恢复系统及其快速恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010599551 CN102073682B (zh) 2010-12-21 2010-12-21 一种基于编码方式的文档数据恢复系统及其快速恢复方法

Publications (2)

Publication Number Publication Date
CN102073682A true CN102073682A (zh) 2011-05-25
CN102073682B CN102073682B (zh) 2012-11-21

Family

ID=44032221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010599551 Active CN102073682B (zh) 2010-12-21 2010-12-21 一种基于编码方式的文档数据恢复系统及其快速恢复方法

Country Status (1)

Country Link
CN (1) CN102073682B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254048A (zh) * 2011-08-24 2011-11-23 深圳市万兴软件有限公司 数据恢复方法和系统
CN102937926A (zh) * 2012-10-30 2013-02-20 厦门市美亚柏科信息股份有限公司 一种恢复移动终端已删除sqlite文件的方法及装置
CN105022800A (zh) * 2015-07-02 2015-11-04 四川效率源信息安全技术有限责任公司 基于SQLite设备的碎片数据提取方法
CN110363189A (zh) * 2018-04-09 2019-10-22 珠海金山办公软件有限公司 一种文档内容修复方法、装置、电子设备及可读存储介质
CN118312482A (zh) * 2024-06-07 2024-07-09 珠海云艺网络科技有限公司 一种从受损doc文档中提取文本内容的方法、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201768A (zh) * 2006-12-11 2008-06-18 北京北大方正电子有限公司 数据保存的方法和模块、数据恢复的方法和模块
CN101414299A (zh) * 2008-10-20 2009-04-22 腾讯科技(深圳)有限公司 复合文档的修复方法和装置
CN101876965A (zh) * 2009-04-30 2010-11-03 国际商业机器公司 用于对文本进行处理的方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201768A (zh) * 2006-12-11 2008-06-18 北京北大方正电子有限公司 数据保存的方法和模块、数据恢复的方法和模块
CN101414299A (zh) * 2008-10-20 2009-04-22 腾讯科技(深圳)有限公司 复合文档的修复方法和装置
CN101876965A (zh) * 2009-04-30 2010-11-03 国际商业机器公司 用于对文本进行处理的方法和系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254048A (zh) * 2011-08-24 2011-11-23 深圳市万兴软件有限公司 数据恢复方法和系统
CN102254048B (zh) * 2011-08-24 2012-10-03 深圳市万兴软件有限公司 数据恢复方法和系统
CN102937926A (zh) * 2012-10-30 2013-02-20 厦门市美亚柏科信息股份有限公司 一种恢复移动终端已删除sqlite文件的方法及装置
CN102937926B (zh) * 2012-10-30 2015-05-20 厦门市美亚柏科信息股份有限公司 一种恢复移动终端已删除sqlite文件的方法及装置
CN105022800A (zh) * 2015-07-02 2015-11-04 四川效率源信息安全技术有限责任公司 基于SQLite设备的碎片数据提取方法
CN110363189A (zh) * 2018-04-09 2019-10-22 珠海金山办公软件有限公司 一种文档内容修复方法、装置、电子设备及可读存储介质
CN110363189B (zh) * 2018-04-09 2021-09-24 珠海金山办公软件有限公司 一种文档内容修复方法、装置、电子设备及可读存储介质
CN118312482A (zh) * 2024-06-07 2024-07-09 珠海云艺网络科技有限公司 一种从受损doc文档中提取文本内容的方法、设备及介质
CN118312482B (zh) * 2024-06-07 2024-08-02 珠海云艺网络科技有限公司 一种从受损doc文档中提取文本内容的方法、设备及介质

Also Published As

Publication number Publication date
CN102073682B (zh) 2012-11-21

Similar Documents

Publication Publication Date Title
CN102510323B (zh) 一种串口数据的帧识别方法
TWI480746B (zh) 使用經結構化之資料儲存器達到較快速全文檢索
CN105069056B (zh) 基于字符串匹配的身份证住址信息解析方法及系统
CN107609356B (zh) 基于标签模型的文本无载体信息隐藏方法
CN102073682B (zh) 一种基于编码方式的文档数据恢复系统及其快速恢复方法
CN113158653B (zh) 预训练语言模型的训练方法、应用方法、装置及设备
CN104331446A (zh) 一种基于内存映射的海量数据预处理方法
CN104283567A (zh) 一种名称数据的压缩、解压缩方法及设备
CN102870116B (zh) 内容匹配方法和装置
CN103049568A (zh) 对海量文档库的文档分类的方法
CN102867049B (zh) 一种基于单词查找树实现的汉语拼音快速分词方法
CN106201774B (zh) 一种nand flash存储芯片数据存储结构分析方法
CN102831198A (zh) 一种基于文档签名技术的相似文档识别装置及方法
CN102402537A (zh) 中文网页文本除重系统及方法
CN107291858A (zh) 一种基于字符串后缀的数据索引方法
CN110196968B (zh) 一种基于特定字符串查找的简体中文编码方式自动识别系统及方法
CN101751475B (zh) 号段记录压缩方法及其装置
US20130173670A1 (en) Methods and devices for generating directories
CN101158955A (zh) 一种中文词库的构造方法
CN1345426A (zh) 用于提取索引关键字数据字段的系统和方法
CN103365934A (zh) 复杂命名实体抽取方法及装置
CN101021851A (zh) 文本检索装置、检索方法、记录文本检索程序的记录介质
EP3312740B1 (en) Data search program, data search device, and data search method
CN103116607B (zh) 一种新的基于汉语拼音的全文检索系统
CN104346616A (zh) 字符识别装置和字符识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant