CN117076397A - 文件的修复方法、装置、终端设备和可读存储介质 - Google Patents
文件的修复方法、装置、终端设备和可读存储介质 Download PDFInfo
- Publication number
- CN117076397A CN117076397A CN202310866415.6A CN202310866415A CN117076397A CN 117076397 A CN117076397 A CN 117076397A CN 202310866415 A CN202310866415 A CN 202310866415A CN 117076397 A CN117076397 A CN 117076397A
- Authority
- CN
- China
- Prior art keywords
- object block
- block set
- file
- complete
- missing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008439 repair process Effects 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000001502 supplementing effect Effects 0.000 claims abstract description 31
- 238000004590 computer program Methods 0.000 claims description 26
- 230000004048 modification Effects 0.000 claims description 5
- 238000012986 modification Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 239000013589 supplement Substances 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 11
- 230000000153 supplemental effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/164—File meta data generation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请适用于修复技术领域,提供了一种文件的修复方法、装置、终端设备和可读存储介质。本申请实施例通过对缺失逻辑对象块集合进行补充,得到完整逻辑对象块集合,从而将待修复文件的文件逻辑结构树补充完整,进而得到完整对象集合,并根据完整对象集合得到修复文件。由于修复文件中的文件逻辑结构树是完整的,因此修复文件可以正常打开,从而实现了对损坏的PDF文件的修复。
Description
技术领域
本申请属于修复技术领域,尤其涉及一种文件的修复方法、装置、终端设备和可读存储介质。
背景技术
PDF(Portable Document Format),即可携带文件格式,是一种通用的文档格式,其具有格式稳定,兼容性好,体积小,方便网络传输等优点,因此受到广泛使用。PDF文件通常包括文件头、文件体、交叉引用表及文件尾等结构,其中,文件体是多个对象块的集合。在相关技术中,当PDF文件发生损坏时,无法对PDF文件进行修复,以使其能正常打开。
发明内容
本申请实施例提供一种文件的修复方法、装置、终端设备和可读存储介质,可以解决相关技术无法对损坏的PDF文件进行修复的问题。
第一方面,本申请实施例提供了一种文件的修复方法,包括:
获取待修复文件,待修复文件为损坏的PDF文件;
提取待修复文件中的缺失对象块集合,缺失对象块集合为待修复文件中剩余的对象块组成的集合;
对缺失对象块集合进行解析,得到缺失逻辑对象块集合和对应的缺失数据对象块集合,其中,缺失逻辑对象块集合与对缺失数据对象块集合中对应的对象块之间存在引用关系;
对缺失逻辑对象块集合进行补充,得到完整逻辑对象块集合;
修改完整逻辑对象块集合中的完整逻辑对象块的引用关系,得到修改后的完整逻辑对象块集合,并基于修改后的完整逻辑对象块集合以及缺失数据对象块集合得到完整对象块集合;
基于完整对象块集合生成对应的交叉引用表和文件尾;
基于新创建的文件头、完整对象块集合、交叉引用表以及文件尾生成修复文件,修复文件为修复好的PDF文件。
第二方面,本申请实施例提供了一种文件的修复装置,包括:
第一获取模块,用于获取待修复文件,待修复文件为损坏的PDF文件;
提取模块,用于提取待修复文件中的缺失对象块集合,缺失对象块集合为待修复文件中剩余的对象块组成的集合;
解析模块,用于对缺失对象块集合进行解析,得到缺失逻辑对象块集合和对应的缺失数据对象块集合,其中,缺失逻辑对象块集合与对缺失数据对象块集合中对应的对象块之间存在引用关系;
补充模块,用于对缺失逻辑对象块集合进行补充,得到完整逻辑对象块集合;
修改模块,用于修改完整逻辑对象块集合中的完整逻辑对象块的引用关系,得到修改后的完整逻辑对象块集合,并基于修改后的完整逻辑对象块集合以及缺失数据对象块集合得到完整对象块集合;
第一生成模块,用于基于完整对象块集合生成对应的交叉引用表和文件尾;
第二生成模块,用于基于新创建的文件头、完整对象块集合、交叉引用表以及文件尾生成修复文件,修复文件为修复好的PDF文件。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文件的修复方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文件的修复方法的步骤。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述文件的修复方法。
本申请实施例与现有技术相比的有益效果是:本申请实施例通过获取待修复文件,提取待修复文件中的缺失对象块集合,并对缺失对象块集合进行解析,得到缺失逻辑对象块集合和对应的缺失数据对象块集合,再对缺失逻辑对象块集合进行补充,得到完整逻辑对象块集合,并修改完整逻辑对象块集合中的完整逻辑对象块的引用关系,得到修改后的完整逻辑对象块集合,然后基于修改后的完整逻辑对象块集合以及缺失数据对象块集合得到完整对象块集合,再基于完整对象块集合生成对应的交叉引用表和文件尾,最终基于新创建的文件头、完整对象块集合、交叉引用表以及文件尾生成修复文件。本申请实施例通过对缺失逻辑对象块集合进行补充,得到完整逻辑对象块集合,从而将待修复文件的文件逻辑结构树补充完整,进而得到完整对象集合,并根据完整对象集合得到修复文件。由于修复文件中的文件逻辑结构树是完整的,因此修复文件可以正常打开,从而实现了对损坏的PDF文件的修复。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文件的修复方法的实现流程示意图;
图2是本申请实施例提供的逻辑结构树的示意图;
图3是本申请实施例提供的page对象块的内容示意图;
图4是本申请实施例提供的对缺失逻辑对象块集合进行补充的实现流程示意图;
图5是本申请实施例提供的补充page对象块的父亲逻辑对象块的实现流程示意图;
图6是本申请实施例提供的补充pages对象块的孩子逻辑对象块的实现流程示意图;
图7是本申请实施例提供的补充缺失逻辑对象块集合中的父亲逻辑对象块的一种实现流程示意图;
图8是本申请实施例提供的补充缺失逻辑对象块集合中的父亲逻辑对象块的另一种实现流程示意图;
图9是本申请实施例提供的补充pages对象块的父亲逻辑对象块的实现流程示意图;
图10是本申请实施例提供的补充缺失逻辑对象块集合中的孩子逻辑对象块的实现流程示意图;
图11是本申请实施例提供的pages对象块的内容示意图;
图12是本申请实施例提供的修改完整逻辑对象块的引用关系的实现流程示意图;
图13是本申请实施例提供的生成交叉引用表和文件尾的实现流程示意图;
图14是本申请实施例提供的一种文件的修复装置的结构示意图;
图15是本申请实施例提供的终端设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”、“包含”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、终端、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。在本申请的权利要求书、说明书以及说明书附图中的术语,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来,而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实时的关系或者顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其他实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其他实施例相结合。
PDF(Portable Document Format),即可携带文件格式,是一种通用的文档格式,其具有格式稳定,兼容性好,体积小,方便网络传输等优点,因此受到广泛使用。PDF文件通常包括文件头、文件体、交叉引用表及文件尾等结构,其中,文件体是多个对象块的集合。在相关技术中,当PDF文件发生损坏时,无法对PDF文件进行修复,以使其能正常打开。
有鉴于此,本申请实施例通过对缺失逻辑对象块集合进行补充,得到完整逻辑对象块集合,从而将待修复文件的文件逻辑结构树补充完整,从而得到完整对象集合,并根据完整对象集合得到修复文件。由于修复文件中的文件逻辑结构树是完整的,因此修复文件可以正常打开,从而实现了对损坏的PDF文件的修复。
为了说明本申请的技术方案,下面通过具体实施例来进行说明。
图1示出了本申请实施例提供的一种文件的修复方法的实现流程示意图,该方法可以应用于终端设备上。终端设备可以是手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本等。
具体的,上述文件的修复方法可以包括以下步骤S101至步骤S107。
步骤S101,获取待修复文件。
其中,待修复文件为损坏的PDF文件,PDF文件通常包括文件头、文件体、交叉引用表及文件尾等结构。
具体的,文件头用于标识PDF文件的规范版本。
在本申请的实施例中,文件体是多个对象块的集合,包含了组成PDF文件中所含文档的对象。文件体中的对象块可以包括逻辑对象块和数据对象块,逻辑对象块记录了对象块之间的关联信息,即逻辑对象块中包含了与对应的数据对象块之间的引用关系,以及与其他逻辑对象块之间的引用关系。数据对象块则记录了PDF文件的关键数据,例如图片信息、文本信息、字体信息等。完整的PDF文件中的全部逻辑对象块构成了一颗完整的逻辑结构树,逻辑结构树可以由目录对象块(catalog对象块)、pages对象块以及page对象块组成。逻辑结构树中的逻辑对象块包含了与对应的数据对象块之间的引用关系。
图2所示为一个示例性的逻辑结构树,目录对象块为逻辑结构树的根节点。pages对象块可以为父节点或子节点,当pages对象块可以为父节点时,可以没有子节点,也可以拥有子节点,其子节点可以是pages对象块或page对象块。page对象块只能是子节点。
通过逻辑结构树可以查找到任意逻辑对象块对应的数据对象块,进而得到该数据对象块中记录的数据。当PDF文件中的部分逻辑数据块丢失时,该PDF文件的逻辑结构树不再完整,此时可能无法通过逻辑结构树查找到该PDF文件记录的所有数据,从而导致该PDF文件无法打开,成为损坏PDF文件。
交叉引用表用于记录所有对象块的起始位置在PDF文件中的偏移位置,偏移位置表示对应的对象块在待修复文件中的位置。
文件尾用于记录交叉引用表的偏移位置以及目录对象块的对应信息(例如编号)。
在本申请的实施方式中,终端设备可以直接获取用户输入的待修复文件,也可以直接调取存储于存储器中的待修复文件,本申请实施例对获取待修复文件的方式不做限定。
步骤S102,提取待修复文件中的缺失对象块集合。
其中,在待修复文件中,部分对象块已经丢失了,剩余的对象块即为缺失对象块,缺失对象块集合为待修复文件中剩余的对象块组成的集合。
在本申请的实施方式中,终端设备可以扫描待修复文件,当扫描到“nnn gggobj......endobj”型的数据串时,将该数据串提取出来,标记为缺失对象块,放入缺失对象块集合中。
图3所示为一个示例性的page对象块的内容,一个page对象块可以包含以下几个部分:前面的nnn ggg均为一个数字,例如图3中的nnn为2,代表了该对象块的编号,其用来唯一标记一个对象块。ggg为0,代表了生成号,根据PDF规范,PDF文件被修改时,生成号会累加,生成号和对象序号一起标记对应的对象块是原始对象块还是修改后的对象块。obj和endobj是对象块的定义范围,可以抽象的理解为这就是一个左括号和右括号。obj和endobj中间的部分是PDF文件规定的任意合法对象,例如可以包括booleam(布尔),用关键字true或false表示;numeric(数字),包括整形和实型;string(字符串),由一系列0-255之间的字节组成;name(名字),由一个前导/和后面一系列字符组成,最大长度为127;array(数组),用【】包含的一组对象,可以是任何pdf对象(包括array);dictionary(字典),用<<和>>包含的若干组条目,每组条目都由key和value组成,其中key必须是name对象,并且一个dictionary内的key是唯一的;value可以是任何pdf的合法对象(包括dictionary对象);nnn ggg R(引用),比如2 0R就是指代引用了对象块2 0obj,其为对象间的关联描述用的引用语法,R关键字可以引用一个已经定义的对象,还可以引用一个并不存在的对象,且效果类似于引用了一个空对象;NULL(空对象),用null表示,代表空,如果一个key的值为null,则该key可以被忽略;如果引用一个不存在的obj则等价于引用一个空对象;stream(流),由一个字典和紧跟其后面的一组关键字stream和endstream以及这组关键字中间包含一系列字节组成。
步骤S103,对缺失对象块集合进行解析,得到缺失逻辑对象块集合和对应的缺失数据对象块集合。
其中,缺失逻辑对象块集合与对缺失数据对象块集合中对应的对象块之间存在引用关系。
在本申请的实施方式中,终端设备可以对缺失对象块集合中的每一个缺失对象块进行解析,二次分类为缺失逻辑对象块集合和对应的缺失数据对象块集合。缺失逻辑对象块和对应的缺失数据对象块之间存在引用关系,通过缺失逻辑对象块可以找到对应的缺失数据对象块。
步骤S104,对缺失逻辑对象块集合进行补充,得到完整逻辑对象块集合。
其中,待修复文件补充了丢失的逻辑对象块后,待修复文件中所有的逻辑对象块即为完整逻辑对象块。完整逻辑对象块集合是待修复文件中所有的完整逻辑对象块的集合。
在本申请的实施方式中,缺失逻辑对象块中记录了与对应的缺失数据对象块之间的引用关系,也记录了与其他逻辑对象块之间的引用关系,这些其他逻辑对象块可以是待修复文件中剩余的逻辑对象块,也可以是待修复文件丢失的逻辑对象块。根据缺失逻辑对象块与丢失的逻辑对象块之间的引用关系,可以对这些丢失的逻辑对象块进行补充,得到所有丢失的逻辑对象块,从而得到完整逻辑对象块集合。
示例性的,图3中的/Parent 1 0R即为该缺失逻辑对象块与其他逻辑对象块的引用关系。该引用关系表示该缺失逻辑对象块有一个父亲逻辑对象块,该父亲逻辑对象块为对象块1 0obj,当该父亲逻辑对象块丢失时,终端设备可以补充该父亲逻辑对象块。以此类推,终端设备可以依据待修复文件中的缺失逻辑对象块以及缺失逻辑对象块与其他对象块之间的引用关系对缺失逻辑对象块集合进行补充,得到完整逻辑对象块集合。
步骤S105,修改完整逻辑对象块集合中的完整逻辑对象块的引用关系,得到修改后的完整逻辑对象块集合,并基于修改后的完整逻辑对象块集合以及缺失数据对象块集合得到完整对象块集合。
应理解,PDF文件中的每个对象块都有唯一的编号,以便于寻找对应的对象块。逻辑对象块的引用关系中记录的是被引用的对象块(包括逻辑对象块和/或数据对象块)的编号。
在本申请的实施方式中,当对待修复文件中丢失的逻辑对象块进行补充后,需要对补充后的待修复文件中的所有对象块重新进行编号。重新编号之后,则需要修改逻辑对象块的引用关系,以保证修改后的逻辑对象块的引用关系正确。对所有的完整逻辑对象块的引用关系修改后即可得到修改后的完整逻辑对象块集合。得到修改后的完整逻辑对象块集合后,终端设备可以将修改后的完整逻辑对象块集合以及缺失数据对象块集合加入到完整对象块集合中,此时完整对象块集合中包括了所有的对象块。
步骤S106,基于完整对象块集合生成对应的交叉引用表和文件尾。
在本申请的实施方式中,得到完整对象块集合(即文件体)后,终端设备可以获取完整对象块集合中的完整对象块的的偏移位置,得到交叉引用表,然后获取交叉引用表的偏移位置,得到文件尾。
步骤S107,基于新创建的文件头、完整对象块集合、交叉引用表以及文件尾生成修复文件。
其中,修复文件为修复好的PDF文件。
在本申请的实施方式中,终端设备可以创建一个新的PDF文件以及万能的文件头,再将文件头、文件体(完整对象块集合)、完整对象块集合、交叉引用表以及文件尾输入到新的PDF文件中,得到修复文件。修复文件中的逻辑对象块是完整的,可以构成完整的逻辑结构树,从而可以找到修复文件中的数据,使得修复文件可以正常打开,实现对待修复文件的修复。
本申请实施例与现有技术相比的有益效果是:本申请实施例通过获取待修复文件,提取待修复文件中的缺失对象块集合,并对缺失对象块集合进行解析,得到缺失逻辑对象块集合和对应的缺失数据对象块集合,再对缺失逻辑对象块集合进行补充,得到完整逻辑对象块集合,并修改完整逻辑对象块集合中的完整逻辑对象块的引用关系,得到修改后的完整逻辑对象块集合,然后基于修改后的完整逻辑对象块集合以及缺失数据对象块集合得到完整对象块集合,再基于完整对象块集合生成对应的交叉引用表和文件尾,最终基于新创建的文件头、完整对象块集合、交叉引用表以及文件尾生成修复文件。本申请实施例通过对缺失逻辑对象块集合进行补充,得到完整逻辑对象块集合,从而将待修复文件的文件逻辑结构树补充完整,进而得到完整对象集合,并根据完整对象集合得到修复文件。由于修复文件中的文件逻辑结构树是完整的,因此修复文件可以正常打开,从而实现了对损坏的PDF文件的修复。
如图4所示,在本申请的一些实施方式中,缺失逻辑对象块集合可以包括父亲逻辑对象块以及孩子逻辑对象块,上述对缺失逻辑对象块集合进行补充,得到完整逻辑对象块集合,具体可以包括步骤S401至步骤S403。
步骤S401,补充缺失逻辑对象块集合中的父亲逻辑对象块。
其中,父亲逻辑对象块为逻辑对象块的父节点对应的对象块。
在本申请的实施方式中,在待修复文件中,有一些逻辑对象块的父节点丢失了,此时需要将这些丢失的父节点对应的父亲逻辑对象块补充完整,以使缺失逻辑对象块集合中的每个逻辑对象块都有父节点。具体可以根据子节点对应的逻辑对象块的引用关系创建该逻辑对象块的父亲逻辑对象块。
示例性的,如图5所示,左图中page对象块a为没有父亲逻辑对象块的孩子逻辑对象块,通过补充page对象块a的父节点,可以得到右图中的pages对象块A,pages对象块A即为page对象块a的父亲逻辑对象块。
步骤S402,补充缺失逻辑对象块集合中的孩子逻辑对象块。
其中,孩子逻辑对象块为逻辑对象块的子节点对应的对象块。
在本申请的实施方式中,在待修复文件中,有一些逻辑对象块的子节点丢失了,此时需要将这些丢失的子节点对应的孩子逻辑对象块补充完整,以使缺失逻辑对象块集合中的每个逻辑对象块都有子节点。具体可以根据父节点对应的逻辑对象块的引用关系创建该逻辑对象块的孩子逻辑对象块。
示例性的,如图6所示,左图中pages对象块B为没有孩子逻辑对象块的父亲逻辑对象块,通过补充pages对象块B的子节点,可以得到右图上边所示的page对象块b,以及右图下边所示的pages对象块A,page对象块b以及pages对象块A均为pages对象块B的孩子逻辑对象块。
步骤S403,基于缺失逻辑对象块集合、父亲逻辑对象块以及孩子逻辑对象块得到完整逻辑对象块集合。
在本申请的实施方式中,当补充了缺失逻辑对象块集合中的父亲逻辑对象块以及孩子逻辑对象块后,此时待修复文件中的逻辑对象块就补充完整了。终端设备可以将缺失逻辑对象块集合以及补充的父亲逻辑对象块和孩子逻辑对象块加入到同一个集合中,组成完整逻辑对象块集合。
如图7所示,在本申请的一些实施方式中,缺失逻辑对象块集合可以包括page对象块,上述补充缺失逻辑对象块集合中的父亲逻辑对象块,具体可以包括步骤S701、步骤S702。
步骤S701,基于page对象块的父亲引用关系寻找page对象块的父亲逻辑对象块。
其中,父亲引用关系可以用于确定page对象块的父亲逻辑对象块,父亲引用关系中记录了page对象块的父亲逻辑对象块的相关信息,例如父亲逻辑对象块的编号。
在本申请的实施方式中,终端设备可以根据父亲逻辑对象块的相关信息,在缺失逻辑对象块集合中寻找page对象块的父亲逻辑对象块。
步骤S702,当缺失逻辑对象块集合中不存在page对象块的父亲逻辑对象块时,基于page对象块的父亲引用关系创建page对象块的父亲逻辑对象块。
在本申请的实施方式中,当缺失逻辑对象块集合中不存在page对象块的父亲逻辑对象块时,说明该page对象块的父亲逻辑对象块丢失了。此时可以根据page对象块中的父亲引用关系创建该page对象块的父亲逻辑对象块。
示例性的,若图3所示的page对象块的父亲逻辑对象块丢失了,则终端设备可以根据该page对象块的父亲引用关系(/Parent 1 0R),创建一个1 0obj的父亲逻辑对象块,并将该父亲逻辑对象块的Type字段设置为pages,同时加入孩子引用关系(/Kids 1 0R),并设置一个count属性键值对。
如图8所示,在本申请的一些具体实施方式中,缺失逻辑对象块集合还可以包括pages对象块,上述补充缺失逻辑对象块集合中的父亲逻辑对象块,还可以包括步骤S801及步骤S802。
步骤S801,基于pages对象块的父亲引用关系寻找pages对象块的父亲逻辑对象块。
步骤S802,当缺失逻辑对象块集合中不存在pages对象块的父亲逻辑对象块时,基于pages对象块的父亲引用关系创建pages对象块的父亲逻辑对象块。
其中,父亲引用关系可以用于确定pages对象块的父亲逻辑对象块,父亲引用关系中记录了pages对象块的父亲逻辑对象块的相关信息,例如父亲逻辑对象块的编号。
在本申请的实施方式中,一些pages对象块也有父亲逻辑对象块,其父亲逻辑对象块可以是另一个pages对象块。创建pages对象块的父亲逻辑对象块的具体步骤可以参考上述步骤S701及步骤S702,此处不再赘述。
示例性的,如图9所示,左图中pages对象块A为没有父亲逻辑对象块的孩子逻辑对象块,通过补充pages对象块A的父节点,可以得到右图中的pages对象块B,pages对象块B即为pages对象块A的父亲逻辑对象块。
如图10所示,在本申请的一些具体实施方式中,缺失逻辑对象块集合还可以包括pages对象块,上述补充缺失逻辑对象块集合中的孩子逻辑对象块,可以包括步骤S1001及步骤S1002。
步骤S1001,基于pages对象块的孩子引用关系寻找pages对象块的孩子逻辑对象块。
其中,孩子引用关系可以用于确定pages对象块的父亲逻辑对象块,孩子引用关系中记录了pages对象块的孩子逻辑对象块的相关信息,例如孩子逻辑对象块的编号。
在本申请的实施方式中,终端设备可以根据孩子逻辑对象块的相关信息,在缺失逻辑对象块集合中寻找pages对象块的孩子逻辑对象块。
步骤S1002,当缺失逻辑对象块集合中不存在pages对象块的孩子逻辑对象块时,基于pages对象块的孩子引用关系创建pages对象块的孩子逻辑对象块。
在本申请的实施方式中,当缺失逻辑对象块集合中不存在pages对象块的孩子逻辑对象块时,说明该pages对象块的孩子逻辑对象块丢失了。此时可以根据pages对象块中的孩子引用关系创建该pages对象块的孩子逻辑对象块。
示例性的,若图11所示的pages对象块的孩子逻辑对象块丢失了,则终端设备可以根据该pages对象块的孩子引用关系(/Kids 2 0R),创建一个2 0obj的孩子逻辑对象块,并在该孩子逻辑对象块中加入父亲引用关系(/Parent 1 0R),并设置一个count属性键值对。
如图12所示,在本申请的一些具体实施方式中,上述修改完整逻辑对象块集合中的完整逻辑对象块的引用关系,得到修改后的完整逻辑对象块集合,并基于修改后的完整逻辑对象块集合以及缺失数据对象块集合得到完整对象块集合,可以包括步骤S1201至步骤S1203。
步骤S1201,对完整逻辑对象块集合中的完整逻辑对象块以及缺失数据对象块集合中的缺失数据对象块重新进行编号,得到重新编号后的完整逻辑对象块以及缺失数据对象块。
在本申请的实施方式中,当对待修复文件中丢失的逻辑对象块进行补充后,需要对补充后的待修复文件中的所有对象块重新进行编号,包括从待修复文件中的提取出的逻辑对象块、数据对象块以及补充的逻辑对象块。
具体的,终端设备可以在内存中给每个对象块一个id,再给每个对象块一个新编号,从0开始,并将每个对象块的编号记录到一张重编号表内。重编号表中可以记录每个对象块曾经的编号以及现在的编号。
步骤S1202,根据重新编号前的完整逻辑对象块的引用关系,修改重新编号后的完整逻辑对象块的引用关系,得到修改后的完整逻辑对象块。
在本申请的实施方式中,在重新编号之后,由于对象块的编号发生了变化,因此原来的逻辑对象块中的引用关系就会与对应的对象块的新编号对应,此时就该逻辑对象块就无法正确引用对应的对象块。终端设备可以通过重编号表中的对象块曾经的编号以及现在的编号,将逻辑对象块中引用关系中对应对象块曾经的编号修改为对应对象块现在的编号,得到修改后的完整逻辑对象块。
示例性的,假设一个逻辑对象块修改前的引用关系中记录了其引用的数据对象块的编号为1,当对该被引用的数据对象块的编号修改为2后,需要将该逻辑对象块的引用关系中所引用的数据对象块的编号修改为2,以保证修改后的逻辑对象块的引用关系正确,使该逻辑对象块能正确引用对应的数据对象块。
步骤S1203,基于修改后的完整逻辑对象块以及重新编号后的缺失数据对象块得到完整对象块集合。
在本申请的实施方式中,将修改后的完整逻辑对象块以及重新编号后的缺失数据对象块放到一个集合中,即可得到完整对象块集合,完整对象块集合可视为文件体。
如图13所示,在本申请的一些具体实施方式中,上述基于完整对象块集合生成对应的交叉引用表和文件尾,可以包括步骤S1301及步骤S1302。
步骤S1301,记录完整对象块集合中所有对象块的偏移位置,得到交叉引用表。
在本申请的实施方式中,终端设备可以根据每个对象块修改后的新编号,逐个输出对象块,并将所有对象块的偏移位置记录到交叉引用表中。
步骤S1302,记录完整对象块集合中目录对象块的编号以及交叉引用表的偏移位置,得到文件尾。
在本申请的实施方式中,当输出目录对象块时,终端设备可以将目录对象块的编号记录到文件尾中,以便于终端设备根据目录对象块的编号在交叉引用表中寻找到目标对象块的偏移位置。同时还可以在输出所有对象块后,输出交叉引用表,并记录交叉引用表的偏移位置到文件尾的startxref字段中。
图14示出了本申请实施例提供的一种文件的修复装置的结构示意图,上述文件的修复装置14可以配置于终端设备上,具体的,上述文件的修复装置14,可以包括:
第一获取模块1401,用于获取待修复文件,待修复文件为损坏的PDF文件;
提取模块1402,用于提取待修复文件中的缺失对象块集合,缺失对象块集合为待修复文件中剩余的对象块组成的集合;
解析模块1403,用于对缺失对象块集合进行解析,得到缺失逻辑对象块集合和对应的缺失数据对象块集合,其中,缺失逻辑对象块集合与对缺失数据对象块集合中对应的对象块之间存在引用关系;
补充模块1404,用于对缺失逻辑对象块集合进行补充,得到完整逻辑对象块集合;
修改模块1405,用于修改完整逻辑对象块集合中的完整逻辑对象块的引用关系,得到修改后的完整逻辑对象块集合,并基于修改后的完整逻辑对象块集合以及缺失数据对象块集合得到完整对象块集合;
第一生成模块1406,用于基于完整对象块集合生成对应的交叉引用表和文件尾;
第二生成模块1407,用于基于新创建的文件头、完整对象块集合、交叉引用表以及文件尾生成修复文件,修复文件为修复好的PDF文件。
本申请实施例与现有技术相比的有益效果是:本申请实施例通过获取待修复文件,提取待修复文件中的缺失对象块集合,并对缺失对象块集合进行解析,得到缺失逻辑对象块集合和对应的缺失数据对象块集合,再对缺失逻辑对象块集合进行补充,得到完整逻辑对象块集合,并修改完整逻辑对象块集合中的完整逻辑对象块的引用关系,得到修改后的完整逻辑对象块集合,然后基于修改后的完整逻辑对象块集合以及缺失数据对象块集合得到完整对象块集合,再基于完整对象块集合生成对应的交叉引用表和文件尾,最终基于新创建的文件头、完整对象块集合、交叉引用表以及文件尾生成修复文件。本申请实施例通过对缺失逻辑对象块集合进行补充,得到完整逻辑对象块集合,从而将待修复文件的文件逻辑结构树补充完整,进而得到完整对象集合,并根据完整对象集合得到修复文件。由于修复文件中的文件逻辑结构树是完整的,因此修复文件可以正常打开,从而实现了对损坏的PDF文件的修复。
在本申请的一些实施方式中,缺失逻辑对象块集合包括父亲逻辑对象块以及孩子逻辑对象块,补充模块1404还用于:补充缺失逻辑对象块集合中的父亲逻辑对象块;补充缺失逻辑对象块集合中的孩子逻辑对象块;基于缺失逻辑对象块集合、父亲逻辑对象块以及孩子逻辑对象块得到完整逻辑对象块集合。
在本申请的一些实施方式中,缺失逻辑对象块集合包括page对象块,补充模块1404还用于:基于page对象块的父亲引用关系寻找page对象块的父亲逻辑对象块;当缺失逻辑对象块集合中不存在page对象块的父亲逻辑对象块时,基于page对象块的父亲引用关系创建page对象块的父亲逻辑对象块。
在本申请的一些实施方式中,缺失逻辑对象块集合包括pages对象块,补充模块1404还用于:基于pages对象块的父亲引用关系寻找pages对象块的父亲逻辑对象块;当缺失逻辑对象块集合中不存在pages对象块的父亲逻辑对象块时,基于pages对象块的父亲引用关系创建pages对象块的父亲逻辑对象块。
在本申请的一些实施方式中,缺失逻辑对象块集合包括pages对象块,补充模块1404还用于:基于pages对象块的孩子引用关系寻找pages对象块的孩子逻辑对象块;当缺失逻辑对象块集合中不存在pages对象块的孩子逻辑对象块时,基于pages对象块的孩子引用关系创建pages对象块的孩子逻辑对象块。
在本申请的一些实施方式中,修改模块1405还用于:对完整逻辑对象块集合中的完整逻辑对象块以及缺失数据对象块集合中的缺失数据对象块重新进行编号,得到重新编号后的完整逻辑对象块以及缺失数据对象块;根据重新编号前的完整逻辑对象块的引用关系,修改重新编号后的完整逻辑对象块的引用关系,得到修改后的完整逻辑对象块;基于修改后的完整逻辑对象块以及重新编号后的缺失数据对象块得到完整对象块集合。
在本申请的一些实施方式中,第一生成模块1406还用于:记录完整对象块集合中所有对象块的偏移位置,得到交叉引用表;记录完整对象块集合中目录对象块的编号以及交叉引用表的偏移位置,得到文件尾。
如图15所示,为本申请实施例提供的一种终端设备的示意图。该终端设备15可以包括:处理器1501、存储器1502以及存储在所述存储器1502中并可在所述处理器1501上运行的计算机程序1503,例如文件修复程序。所述处理器1501执行所述计算机程序1503时实现上述各个文件的修复方法实施例中的步骤,例如图1所示的步骤S101至步骤S107。或者,所述处理器1501执行所述计算机程序1503时实现上述各装置实施例中各模块/单元的功能,例如图14所示的第一获取模块1401、提取模块1402、解析模块1403、补充模块1404、修改模块1405、第一生成模块1406、第二生成模块1407。
所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器1502中,并由所述处理器1501执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
所述终端设备可包括,但不仅限于,处理器1501、存储器1502。本领域技术人员可以理解,图15仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器1501可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器1502可以是所述终端设备的内部存储单元,例如终端设备的硬盘或内存。所述存储器1502也可以是所述终端设备的外部存储设备,例如所述终端设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器1502还可以既包括所述终端设备的内部存储单元也包括外部存储设备。所述存储器1502用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器1502还可以用于暂时地存储已经输出或者将要输出的数据。
需要说明的是,为描述的方便和简洁,上述终端设备的结构还可以参考方法实施例中对结构的具体描述,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现上述文件的修复方法中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时可实现上述文件的修复方法中的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对各个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种文件的修复方法,其特征在于,包括:
获取待修复文件,所述待修复文件为损坏的PDF文件;
提取所述待修复文件中的缺失对象块集合,所述缺失对象块集合为所述待修复文件中剩余的对象块组成的集合;
对所述缺失对象块集合进行解析,得到缺失逻辑对象块集合和对应的缺失数据对象块集合,其中,所述缺失逻辑对象块集合与对所述缺失数据对象块集合中对应的对象块之间存在引用关系;
对所述缺失逻辑对象块集合进行补充,得到完整逻辑对象块集合;
修改所述完整逻辑对象块集合中的完整逻辑对象块的引用关系,得到修改后的完整逻辑对象块集合,并基于所述修改后的完整逻辑对象块集合以及所述缺失数据对象块集合得到完整对象块集合;
基于所述完整对象块集合生成对应的交叉引用表和文件尾;
基于新创建的文件头、所述完整对象块集合、所述交叉引用表以及所述文件尾生成修复文件,所述修复文件为修复好的PDF文件。
2.如权利要求1所述的文件的修复方法,其特征在于,所述缺失逻辑对象块集合包括父亲逻辑对象块以及孩子逻辑对象块,所述对所述缺失逻辑对象块集合进行补充,得到完整逻辑对象块集合,包括:
补充所述缺失逻辑对象块集合中的父亲逻辑对象块;
补充所述缺失逻辑对象块集合中的孩子逻辑对象块;
基于所述缺失逻辑对象块集合、所述父亲逻辑对象块以及所述孩子逻辑对象块得到完整逻辑对象块集合。
3.如权利要求2所述的文件的修复方法,其特征在于,所述缺失逻辑对象块集合包括page对象块,所述补充所述缺失逻辑对象块集合中的父亲逻辑对象块,包括:
基于所述page对象块的父亲引用关系寻找所述page对象块的父亲逻辑对象块;
当所述缺失逻辑对象块集合中不存在所述page对象块的父亲逻辑对象块时,基于所述page对象块的父亲引用关系创建所述page对象块的父亲逻辑对象块。
4.如权利要求2所述的文件的修复方法,其特征在于,所述缺失逻辑对象块集合包括pages对象块,所述补充所述缺失逻辑对象块集合中的父亲逻辑对象块,还包括:
基于所述pages对象块的父亲引用关系寻找所述pages对象块的父亲逻辑对象块;
当所述缺失逻辑对象块集合中不存在所述pages对象块的父亲逻辑对象块时,基于所述pages对象块的父亲引用关系创建所述pages对象块的父亲逻辑对象块。
5.如权利要求2所述的文件的修复方法,其特征在于,所述缺失逻辑对象块集合包括pages对象块,所述补充所述缺失逻辑对象块集合中的孩子逻辑对象块,包括:
基于所述pages对象块的孩子引用关系寻找所述pages对象块的孩子逻辑对象块;
当所述缺失逻辑对象块集合中不存在所述pages对象块的孩子逻辑对象块时,基于所述pages对象块的孩子引用关系创建所述pages对象块的孩子逻辑对象块。
6.如权利要求1所述的文件的修复方法,其特征在于,所述修改所述完整逻辑对象块集合中的完整逻辑对象块的引用关系,得到修改后的完整逻辑对象块集合,并基于所述修改后的完整逻辑对象块集合以及所述缺失数据对象块集合得到完整对象块集合,包括:
对所述完整逻辑对象块集合中的完整逻辑对象块以及所述缺失数据对象块集合中的缺失数据对象块重新进行编号,得到重新编号后的完整逻辑对象块以及缺失数据对象块;
根据重新编号前的完整逻辑对象块的引用关系,修改重新编号后的完整逻辑对象块的引用关系,得到修改后的完整逻辑对象块;
基于所述修改后的完整逻辑对象块以及所述重新编号后的缺失数据对象块得到完整对象块集合。
7.如权利要求1所述的文件的修复方法,其特征在于,所述基于所述完整对象块集合生成对应的交叉引用表和文件尾,包括:
记录所述完整对象块集合中所有对象块的偏移位置,得到所述交叉引用表;
记录所述完整对象块集合中目录对象块的编号以及所述交叉引用表的偏移位置,得到所述文件尾。
8.一种文件的修复装置,其特征在于,包括:
第一获取模块,用于获取待修复文件,所述待修复文件为损坏的PDF文件;
提取模块,用于提取所述待修复文件中的缺失对象块集合,所述缺失对象块集合为所述待修复文件中剩余的对象块组成的集合;
解析模块,用于对所述缺失对象块集合进行解析,得到缺失逻辑对象块集合和对应的缺失数据对象块集合,其中,所述缺失逻辑对象块集合与对所述缺失数据对象块集合中对应的对象块之间存在引用关系;
补充模块,用于对所述缺失逻辑对象块集合进行补充,得到完整逻辑对象块集合;
修改模块,用于修改所述完整逻辑对象块集合中的完整逻辑对象块的引用关系,得到修改后的完整逻辑对象块集合,并基于所述修改后的完整逻辑对象块集合以及所述缺失数据对象块集合得到完整对象块集合;
第一生成模块,用于基于所述完整对象块集合生成对应的交叉引用表和文件尾;
第二生成模块,用于基于新创建的文件头、所述完整对象块集合、所述交叉引用表以及所述文件尾生成修复文件,所述修复文件为修复好的PDF文件。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述文件的修复方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文件的修复方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310866415.6A CN117076397A (zh) | 2023-07-13 | 2023-07-13 | 文件的修复方法、装置、终端设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310866415.6A CN117076397A (zh) | 2023-07-13 | 2023-07-13 | 文件的修复方法、装置、终端设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117076397A true CN117076397A (zh) | 2023-11-17 |
Family
ID=88710445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310866415.6A Pending CN117076397A (zh) | 2023-07-13 | 2023-07-13 | 文件的修复方法、装置、终端设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117076397A (zh) |
-
2023
- 2023-07-13 CN CN202310866415.6A patent/CN117076397A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113032362B (zh) | 数据血缘分析方法、装置、电子设备和存储介质 | |
CN111831804B (zh) | 一种关键短语的提取方法、装置、终端设备及存储介质 | |
CN104503958A (zh) | 文档摘要的生成方法及装置 | |
CN109684290B (zh) | 日志存储方法、装置、设备及计算机可读存储介质 | |
CN104462396A (zh) | 字符串处理方法和装置 | |
CN114090671A (zh) | 数据导入方法、装置、电子设备及存储介质 | |
CN110795069A (zh) | 代码分析方法、智能终端及计算机可读存储介质 | |
CN112307318A (zh) | 一种内容发布方法、系统及装置 | |
CN112783825A (zh) | 数据归档方法、装置、计算机装置及存储介质 | |
CN112069305B (zh) | 数据筛选方法、装置及电子设备 | |
CN116126997B (zh) | 一种文献去重存储方法、系统、设备及存储介质 | |
CN111859863A (zh) | 一种文档的结构转换方法、装置、存储介质及电子设备 | |
CN104778232A (zh) | 一种基于长查询的搜索结果的优化方法和装置 | |
CN109614535B (zh) | 一种基于Scrapy框架的网络数据的采集方法及装置 | |
CN117076397A (zh) | 文件的修复方法、装置、终端设备和可读存储介质 | |
US10614102B2 (en) | Method and system for creating entity records using existing data sources | |
CN112597179B (zh) | 日志信息解析方法及装置 | |
CN113033177B (zh) | 一种电子病历数据的解析方法及装置 | |
CN114880523A (zh) | 字符串处理方法、装置、电子设备及存储介质 | |
CN110727726B (zh) | 一种文档型数据库中数据抽取到关系数据库的方法和系统 | |
CN113741864A (zh) | 基于自然语言处理的语义化服务接口自动设计方法与系统 | |
CN110874398A (zh) | 违禁词处理方法、装置、电子设备及存储介质 | |
CN111178072A (zh) | 一种法律条文的确定方法、装置及存储介质 | |
CN107463570B (zh) | 一种文献检索/分析方法和装置 | |
CN112380174B (zh) | 含删除文件的xfs文件系统解析方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |