CN115270723A - Pdf文档拆分方法、装置、设备及存储介质 - Google Patents

Pdf文档拆分方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115270723A
CN115270723A CN202210939980.6A CN202210939980A CN115270723A CN 115270723 A CN115270723 A CN 115270723A CN 202210939980 A CN202210939980 A CN 202210939980A CN 115270723 A CN115270723 A CN 115270723A
Authority
CN
China
Prior art keywords
document
line
segmentation
level
row
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210939980.6A
Other languages
English (en)
Inventor
陈忠玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202210939980.6A priority Critical patent/CN115270723A/zh
Publication of CN115270723A publication Critical patent/CN115270723A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/137Hierarchical processing, e.g. outlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请提供一种PDF文档拆分方法、装置、设备及存储介质,该方法包括获取待处理文档,并基于对所述待处理文档的解析结果,获得所述待处理文档中各行文档内容对应的行标签;基于所述各行文档内容对应的行标签以及预设分割层级对应的正则表达式,确定所述各行文档内容对应的各个分割层级;基于所述各行文档内容对应的各个分割层级,对所述待处理文档进行拆分,获得至少一个拆分数据。本申请涉及数据处理领域,通过行标签和正则表达式的匹配,以及正则表达式对应的分割层级,依次对待处理文档进行拆分,能够在拆分过程中保留拆分数据在待处理文档中的顺序和层级关系,从而提高文档拆分质量。

Description

PDF文档拆分方法、装置、设备及存储介质
技术领域
本申请涉及数据处理领域,尤其涉及一种PDF文档拆分方法、装置、设备及存储介质。
背景技术
在风险管理系统中,风险管理制度功能需要支持用户导入PDF文档或带html格式的文档,并按照输入的规则对文档逐级拆分成段落,保留章节与段落之前的关系,拆分后的数据主要用于逐条评估打分或分析。
目前的风险管理系统中,风险管理制度功能是通过存储过程实现的,经常出现文件拆分失败的问题,且不支持用户输入的多样化的分割字符串,使得部分文档拆分后顺序错乱,且部分格式会丢失,拆分效果较差,导致用户体验差且不易维护。因此,如何解决目前文档拆分功能的拆分效果差成为了亟待解决的技术问题。
发明内容
本申请提供了一种PDF文档拆分方法、装置、设备及存储介质,旨在解决目前文档拆分功能的拆分效果差的技术问题。
第一方面,本申请提供一种PDF文档拆分方法,所述PDF文档拆分方法包括以下步骤:
获取待处理文档,并基于对所述待处理文档的解析结果,获得所述待处理文档中各行文档内容对应的行标签;
基于所述各行文档内容对应的行标签以及预设分割层级对应的正则表达式,确定所述各行文档内容对应的各个分割层级;
基于所述各行文档内容对应的各个分割层级,对所述待处理文档进行拆分,获得至少一个拆分数据。
第二方面,本申请还提供一种PDF文档拆分装置,所述PDF文档拆分装置包括:
行标签获得模块,用于获取待处理文档,并基于对所述待处理文档的解析结果,获得所述待处理文档中各行文档内容对应的行标签;
分割层级确定模块,用于基于所述各行文档内容对应的行标签以及预设分割层级对应的正则表达式,确定所述各行文档内容对应的各个分割层级;
文档拆分模块,用于基于所述各行文档内容对应的各个分割层级,对所述待处理文档进行拆分,获得至少一个拆分数据。
第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的PDF文档拆分方法的步骤。
第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的PDF文档拆分方法的步骤。
本申请提供一种PDF文档拆分方法、装置、设备及存储介质,本申请获取待处理文档,并基于对所述待处理文档的解析结果,获得所述待处理文档中各行文档内容对应的行标签;基于所述各行文档内容对应的行标签以及预设分割层级对应的正则表达式,确定所述各行文档内容对应的各个分割层级;基于所述各行文档内容对应的各个分割层级,对所述待处理文档进行拆分,获得至少一个拆分数据。本申请通过对待处理文档的解析,对待处理文档进行预处理,获得待处理文档的行标签;通过对行标签和正则表达式的匹配,以及正则表达式与预设分割层级的对应关系,确定能够与正则表达式匹配的行标签所对应的分割层级,从而实现对待处理文档各行文本的层级标记;而各层级标记之间的文本数据则属于前一层级文本的子数据,从而使得在文本拆分时,能够保留各层级文本的子数据;根据层级标记依次对待处理文档进行拆分,能够在拆分过程中保留拆分数据在待处理文档中的顺序和层级关系,从而提高文档拆分质量。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请的实施例提供的PDF文档拆分方法第一实施例的流程示意图;
图2为本申请的实施例提供的PDF文档拆分方法第二实施例的流程示意图;
图3为本申请的实施例提供的PDF文档拆分方法第三实施例的流程示意图;
图4为本申请的实施例提供的PDF文档拆分方法第四实施例的流程示意图
图5是本申请的实施例提供的一种PDF文档拆分装置的示意性框图;
图6是本申请实施例提供的一种计算机设备的结构示意性框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
本申请的实施例提供了一种PDF文档拆分方法、PDF文档拆分装置、计算机设备及存储介质,用于以正则表达式匹配行标签的方式,实现对待处理文档进行分级拆分,提高文档拆分质量。
如图1所示,图1为本申请的实施例提供的PDF文档拆分方法第一实施例的流程示意图。
如图1所示,该PDF文档拆分方法包括步骤S101至步骤S103。
步骤S101、获取待处理文档,并基于对所述待处理文档的解析结果,获得所述待处理文档中各行文档内容对应的行标签;
本实施例中,用户可以将需要拆分的文档内容复制到导入界面中,导入格式可以是txt内容,以便用户可以对需要拆分的文档内容进行筛选。分割规则通常是指定某个分隔符,根据字符串内部的分隔符将字符串进行分割,例如逗号、空格等等都可以作为字符串的分隔符。
在一示例性的实施方式中,可以通过对待处理文档的内容进行分词等处理,提取其中的文本标签,并且区分文本内容中的标签格式和内容,比如HTML格式的文本标签;可以通过正则表达式的方式替换,使得文本标签格式统一化,从而获得各行文档内容的行标签。
步骤S102、基于所述各行文档内容对应的行标签以及预设分割层级对应的正则表达式,确定所述各行文档内容对应的各个分割层级;
本实施例中,正则表达式用于描述一组字符串特征的模式,用来匹配特定的字符串。正则表达式由特定字符(如字母“a”到“z”)和描述文本模式的特殊字符(如星号“*”)组成。例如,要在文本中查找“page”的所有变体,可以搜索“page*”。这样,即可在文本中查找“page”、“pages”、“pager”以及以“page”开头的所有其他单词。
在一示例性的实施方式中,基于正则表达式,对预处理的文本进行匹配,筛选其中与正则表达式匹配成功的行标签,并且成功匹配的正则表达式对应的分割层级,对完成匹配的行标签进行层级区分,比如正则表达式对应的“第*章”为第一层级,则匹配该正则表达式的行标签对应的也是第一层级,此时以该正则表达式进行拆分,则得到该行标签下的文本段落,而在该行标签下的文本段落中再匹配时,则是以第一层级下的子层级(如“第*节”,“第*条”等)进行文本匹配和拆分。
S103、基于所述各行文档内容对应的各个分割层级,对所述待处理文档进行拆分,获得至少一个拆分数据。
本实施例中,可以用正则表达式的match方法分组匹配标签,如果匹配成功,则用对应的正则表达式对文本进行拆分,以保留文件格式的完整。可以根据各行文档内容对应的各个分割层级,确定各拆分数据之间的层级关系,并根据层级关系,对拆分数据进行重新排序组合,从而便于查找和验证。
在一示例性的实施方式中,match的参数既可以是一个字符串,也可以是一个正则表达式。match方法可在字符串中查找一个或多个与指定正则表达式匹配的子字符串,返回值是数组或者是null;即:如果原字符串中匹配到了正则表达式指代的子串,则返回一个数组,否则返回null。比如,在校验身份证号码时,是根据不同位序的数字所代表的含义划分为多个区间分别进行正则校验,最后还要组装各区间的正则表达式。为了避免各区间的正则表达式互相干扰,可以利用圆括号将个区间的作用范围先行限定,如“(六位地区编码)(四位年份)(两位月份)(两位日期)(末尾四位编号)”,再把各区间的正则表达式分别填入该区间的圆括号中,便形成了最终的身份证号码正则串。
本申请提供一种PDF文档拆分方法、装置、设备及存储介质,本申请获取待处理文档,并基于对所述待处理文档的解析结果,获得所述待处理文档中各行文档内容对应的行标签;基于所述各行文档内容对应的行标签以及预设分割层级对应的正则表达式,确定所述各行文档内容对应的各个分割层级;基于所述各行文档内容对应的各个分割层级,对所述待处理文档进行拆分,获得至少一个拆分数据。本申请通过对待处理文档的解析,对待处理文档进行预处理,获得待处理文档的行标签;通过对行标签和正则表达式的匹配,以及正则表达式与预设分割层级的对应关系,确定能够与正则表达式匹配的行标签所对应的分割层级,从而实现对待处理文档各行文本的层级标记;而各层级标记之间的文本数据则属于前一层级文本的子数据,从而使得在文本拆分时,能够保留各层级文本的子数据;根据层级标记依次对待处理文档进行拆分,能够在拆分过程中保留拆分数据在待处理文档中的顺序和层级关系,从而提高文档拆分质量。
请参照图2,图2为本申请的实施例提供的PDF文档拆分方法第二实施例的流程示意图。
基于上述图1所示实施例,本实施例中,所述步骤S102具体包括:
步骤S2021,基于所述分割层级的层级关系,将所述分割层级中的第一层级作为当前层级,并基于所述当前层级对应的所述正则表达式,对所述行标签进行查询匹配,确定所述当前层级对应的第一行标签;
步骤S2022,在确定所述第一行标签之后,将所述当前层级的子层级作为下一当前层级,并基于所述下一当前层级对应的所述正则表达式,对所述行标签进行查询匹配,确定所述下一当前层级对应的所述行标签,直至完成所述行标签和所述正则表达式的匹配,确定所述各行文档内容对应的各个分割层级。
本实施例中,以正则表达式数组为基准,开始递归处理文档内容,若传入文档的行标签与该层级的正则表达式匹配上,则将该标签下的子数据传入下层级进行处理,如果匹配不上,则直接全部传入下一层级处理,保证数据的完成性。
在一示例性的实施方式中,以根据分割层级的层级关系,以对应的正则表达式为匹配标准,对预处理的文档全文匹配,依次对待处理文档进行分段切分。比如,以分割层级中的层级最高的第一层级进行第一次切分,标记待处理文档中与第一层级相匹配的行标签,并根据第一层级对应的正则表达式进行第一次分割,生成若干个第一层级对应的段落,比如“第*章”,从而先筛选出其中的章段落。然后在各章段落中进一步匹配第一层级的下一层级,如“第*节”,筛选出各章段落中匹配该下一层级正则表达式的行标签,并且以此进行第二次切分,从而筛选出个章段落中的节段落。根据分割层级的层级关系,依次进行递归处理,直至完成所有层级的正则表达式与行标签的匹配,将待处理文档拆分为目标数据。
在一示例性的实施方式中,章节标题可能不仅出现在行的开始处,而且还是该行中仅有的文本,它既出现在行首又出现在同一行的结尾,为确保指定的匹配只匹配章节而不匹配交叉引用,可以通过创建只匹配一行文本的开始和结尾的正则表达式实现。
请参照图3,图3为本申请的实施例提供的PDF文档拆分方法第三实施例的流程示意图。
基于上述图1所示实施例,本实施例中,所述步骤S102具体还包括:
步骤S3021,基于所述待处理文档的行顺序,依次对所述行标签和所述正则表达式进行匹配,确定所述各行文档内容对应的各个分割层级;
步骤S3022,若存在与所述行标签匹配成功的所述正则表达式,则将所述正则表达式对应的分割层级,作为所述行标签的目标层级;
步骤S3023,若所述行标签和所述正则表达式匹配不成功,则清除所述行标签。
本实施例中,可以根据预处理得到的文本的行顺序,依次对每一行的行标签进行查询匹配,每一个行标签均可以匹配不同分割层级对应的正则表达式。
在一示例性的实施方式中,如果某一行标签与某一正则表达式匹配成功,则可以将该行数据标记为该正则表达式对应的分割层级;如果某一行标签未能与任一正则表达式成功匹配,则可以将该行标签清除,该行内容作为上一行标签的子数据。在完成所有行标签与正则表达式的匹配之后,按照标记的分割层级对文本进行切分,其中,子分割层级下的数据作为父分割层级的子数据。
进一步地,基于上述图1所示实施例,所述步骤S102之前,还包括:
获取用户输入的当前分割字符串,并基于所述当前分割字符串,生成所述正则表达式;
基于所述分割字符串的层级结构,确定所述正则表达式对应的分割层级,作为所述预设分割层级。
正则表达式是由元字符及其不同组合组成,是一种特殊的文本模式。构造正则表达式可用来匹配目标字符串内容,对目标对象进行检索、替换等字符串处理操作。其常被用于检查文本中是否含有指定的特征词、找出文中匹配特征词的位置、从文本中提取信息,比如:字符串的子串等。
在一示例性的实施方式中,可以对已有的分割规则进行预设置,以最大限制的支持各类规则。为了便于维护和优化,可以将拆分逻辑放到代码中处理,以Java中的正则表达式为基础,对前端输入的分割字符串进行拆分处理,生成对应的正则表达式。分割字符串可以根据文档的结构或者用户需求自定义输入,比如String类型提供的split方法,只要字符串变量调用split方法,并把分隔符作为输入参数,比如(第*章,第*节,第*条)等,即可返回分割好的字符串数组。
进一步地,基于上述图1所示实施例,所述步骤S101具体包括:
基于所述解析结果,确定所述待处理文档的标签格式;
若所述标签格式不是预设格式,则基于预设替换规则,对所述标签格式进行替换,获得所述行标签。
本实施例中,待处理文档的标签格式可以是PDF文档,也可以是HTML格式文档。在处理文件内容时,为了支持HTML格式的PDF文档,可以优先对HTML标签进行处理替换,在通过文档回车符拆分文档,从而获得文档每一行的数据及行号。
在一示例性的实施方式中,对每一层级的标签匹配,可以优先处理其中的HTML标签,在JavaScript中,可以利用replace()函数配合正则表达式来替换HTML标签。replace()方法用于在字符串中用一些字符替换另一些字符,或替换一个与正则表达式匹配的子串。
其中,HTML格式文件就是超文本标记语言文件,是用于创建可从一个平台移植到另一平台的超文本文档的一种简单标记语言。它包括一系列标签,通过这些标签可以将网络上的文档格式统一,使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字,图形、动画、声音、表格、链接等。HTML中的文本标签可以包括标题标签(比如:<h1>一级标题</h1>)、段落标签(比如:<p>文字、图片、表单元素</p>)、水平线标签(比如:<hr/>水平线)、换行标签(比如:<br/>)、引用标签(比如:<q>文字</q>)以及文本格式化标签(比如:<sub>、<sup>)。
进一步地,所述基于所述解析结果,确定所述待处理文档的标签格式之前,还包括:
基于预处理模型,对所述待处理文档进行分词处理,获得分词文档;
基于所述分词文档,确定所述待处理文档中的初始标签。
本实施例中,由于计算机很难直接处理网络上存在的大量半结构化或结构化的文本数据,所以在文本分类之前需要对这些数据进行相应的预处理。
其中,文本的预处理包括文本分词、去除停用词(包括标点、数字和一些无意义的词)、词义消歧、统计等处理。中文与英文相比,在分类上关键的区别是在数据集的预处理阶段。对中文文本进行分类之前,首先要进行分词处理,而英文文本单词与单词之间则有空格进行分割,无需进行分词。
在一示例性的实施方式中,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,比如,将“安装交换机等器件”分词为“安装”、“交换机”、“等”、“器件”。数据清洗可以将文本中很多无用的部分进行删除,比如不需要用到的标点符号、停用词等。特征处理可以是通过模型实现对文本特征的提取,比如根据词频衡量重要性、通过将词语映射为向量进行预测等。
在一示例性的实施方式中,可以通过基于字符串匹配的分词方法,按照一定的策略将待分析的汉字串与机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照不同的长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。
在一示例性的实施方式中,实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其他的语言信息来进一步提高切分的准确率。比如特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进行机械分词,从而减少匹配的错误率。或者可以将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。
请参照图4,图4为本申请的实施例提供的PDF文档拆分方法第四实施例的流程示意图。
如图4所示,基于上述图1所示实施例,所述步骤S103之后,还包括:
步骤S104,基于所述拆分文档对应的所述分割层级和所述行标签,生成各拆分数据的层级结构和行号;
步骤S105,基于所述层级结构和行号,对所述各拆分数据进行排序,生成数据查询表,并基于所述数据查询表,对所述各拆分文档进行保存,获得目标数据库。
本实施例中,在完成待处理文档所有文档数据的拆分之后,可以返回拆分后文档的每层的层级关系以及行号,保留文档的顺序,并且可以根据拆分数据的层级结构和行号,生成查询数据表。在完成文档拆分之后,可以根据层级结构对拆分数据逐级保存或者其他处理,最后生成可与数据查询表相对应的数据库。
在一示例性的实施方式中,查询数据表可以是树状结构的数据目录,也可以是包含所有层级/标签条目的表格。
请参阅图5,图5是本申请的实施例提供的一种PDF文档拆分装置的示意性框图,该PDF文档拆分装置用于执行前述的PDF文档拆分方法。其中,该PDF文档拆分装置可以配置于终端中。
如图5所示,该PDF文档拆分装置100,包括:预设公式列表获取模块101、计算方式确定模块102、目标文件生成模块103。
行标签获得模块101,用于获取待处理文档,并基于对所述待处理文档的解析结果,获得所述待处理文档中各行文档内容对应的行标签;
分割层级确定模块102,用于基于所述各行文档内容对应的行标签以及预设分割层级对应的正则表达式,确定所述各行文档内容对应的各个分割层级;
文档拆分模块103,用于基于所述各行文档内容对应的各个分割层级,对所述待处理文档进行拆分,获得至少一个拆分数据。
进一步地,所述行分割层级确定模块102包括第一匹配单元,所述第一匹配单元具体包括:
第一匹配子单元,用于基于所述分割层级的层级关系,将所述分割层级中的第一层级作为当前层级,并基于所述当前层级对应的所述正则表达式,对所述行标签进行查询匹配,确定所述当前层级对应的第一行标签;
匹配结果获得子单元,用于在确定所述第一行标签之后,将所述当前层级的子层级作为下一当前层级,并基于所述下一当前层级对应的所述正则表达式,对所述行标签进行查询匹配,确定所述下一当前层级对应的所述行标签,直至完成所述行标签和所述正则表达式的匹配,确定所述各行文档内容对应的各个分割层级。
进一步地,所述行标签匹配模块102还包括第二匹配单元,所述第二匹配单元具体包括:
第二匹配子单元,用于基于所述待处理文档的行顺序,依次对所述行标签和所述正则表达式进行匹配,确定所述各行文档内容对应的各个分割层级;
目标层级确定单元,用于若存在与所述行标签匹配成功的所述正则表达式,则将所述正则表达式对应的分割层级,作为所述行标签的目标层级;
行标签清除单元,用于若所述行标签和所述正则表达式匹配不成功,则清除所述行标签。
进一步地,所述行标签获得模块101具体包括:
标签格式确定单元,用于基于所述解析结果,确定所述待处理文档的标签格式;
行标签获得单元,用于若所述标签格式不是预设格式,则基于预设替换规则,对所述标签格式进行替换,获得所述行标签。
进一步地,所述PDF文档拆分装置还包括数据预处理模块,所述数据预处理模块具体包括:
分词文档获得单元,用于基于预处理模型,对所述待处理文档进行分词处理,获得分词文档;
初始标签确定单元,用于基于所述分词文档,确定所述待处理文档中的初始标签。
进一步地,所述PDF文档拆分装置还包括正则表达式生成模块,所述正则表达式生成模块具体包括:
正则表达式生成单元,用于获取用户输入的当前分割字符串,并基于所述当前分割字符串,生成所述正则表达式;
分割层级确定单元,用于基于所述分割字符串的层级结构,确定所述正则表达式对应的分割层级,作为所述预设分割层级。
进一步地,所述PDF文档拆分装置还包括数据生成模块,所述数据生成模块具体包括:
数据结构生成单元,用于基于所述拆分文档对应的所述分割层级和所述行标签,生成各拆分数据的层级结构和行号;
数据保存单元,用于基于所述层级结构和行号,对所述各拆分数据进行排序,生成数据查询表,并基于所述数据查询表,对所述各拆分文档进行保存,获得目标数据库。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块的具体工作过程,可以参考前述PDF文档拆分方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是终端。
参阅图6,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种PDF文档拆分方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种PDF文档拆分方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取待处理文档,并基于对所述待处理文档的解析结果,获得所述待处理文档中各行文档内容对应的行标签;
基于所述各行文档内容对应的行标签以及预设分割层级对应的正则表达式,确定所述各行文档内容对应的各个分割层级;
基于所述各行文档内容对应的各个分割层级,对所述待处理文档进行拆分,获得至少一个拆分数据。
在一实施例中,所述基于所述各行文档内容对应的行标签以及预设分割层级对应的正则表达式,确定所述各行文档内容对应的各个分割层级,用于实现:
基于所述分割层级的层级关系,将所述分割层级中的第一层级作为当前层级,并基于所述当前层级对应的所述正则表达式,对所述行标签进行查询匹配,确定所述当前层级对应的第一行标签;
在确定所述第一行标签之后,将所述当前层级的子层级作为下一当前层级,并基于所述下一当前层级对应的所述正则表达式,对所述行标签进行查询匹配,确定所述下一当前层级对应的所述行标签,直至完成所述行标签和所述正则表达式的匹配,确定所述各行文档内容对应的各个分割层级。
在一实施例中,所述基于所述各行文档内容对应的行标签以及预设分割层级对应的正则表达式,确定所述各行文档内容对应的各个分割层级,还用于实现:
基于所述待处理文档的行顺序,依次对所述行标签和所述正则表达式进行匹配,确定所述各行文档内容对应的各个分割层级;
若存在与所述行标签匹配成功的所述正则表达式,则将所述正则表达式对应的分割层级,作为所述行标签的目标层级;
若所述行标签和所述正则表达式匹配不成功,则清除所述行标签。
在一实施例中,所述基于对所述待处理文档的解析结果,获得所述待处理文档中各行文档内容对应的行标签,用于实现:
基于所述解析结果,确定所述待处理文档的标签格式;
若所述标签格式不是预设格式,则基于预设替换规则,对所述标签格式进行替换,获得所述行标签。
在一实施例中,所述基于所述解析结果,确定所述待处理文档的标签格式之前,还用于实现:
基于预处理模型,对所述待处理文档进行分词处理,获得分词文档;
基于所述分词文档,确定所述待处理文档中的初始标签。
在一实施例中,所述基于所述各行文档内容对应的行标签以及预设分割层级对应的正则表达式,确定所述各行文档内容对应的各个分割层级之前,还用于实现:
获取用户输入的当前分割字符串,并基于所述当前分割字符串,生成所述正则表达式;
基于所述分割字符串的层级结构,确定所述正则表达式对应的分割层级,作为所述预设分割层级。
在一实施例中,所述基于所述各行文档内容对应的各个分割层级,对所述待处理文档进行拆分,获得至少一个拆分数据之后,还用于实现:
基于所述拆分文档对应的所述分割层级和所述行标签,生成各拆分数据的层级结构和行号;
基于所述层级结构和行号,对所述各拆分数据进行排序,生成数据查询表,并基于所述数据查询表,对所述各拆分文档进行保存,获得目标数据库。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种PDF文档拆分方法,其特征在于,所述方法包括以下步骤:
获取待处理文档,并基于对所述待处理文档的解析结果,获得所述待处理文档中各行文档内容对应的行标签;
基于所述各行文档内容对应的行标签以及预设分割层级对应的正则表达式,确定所述各行文档内容对应的各个分割层级;
基于所述各行文档内容对应的各个分割层级,对所述待处理文档进行拆分,获得至少一个拆分数据。
2.根据权利要求1所述的PDF文档拆分方法,其特征在于,所述基于所述各行文档内容对应的行标签以及预设分割层级对应的正则表达式,确定所述各行文档内容对应的各个分割层级,包括:
基于所述分割层级的层级关系,将所述分割层级中的第一层级作为当前层级,并基于所述当前层级对应的所述正则表达式,对所述行标签进行查询匹配,确定所述当前层级对应的第一行标签;
在确定所述第一行标签之后,将所述当前层级的子层级作为下一当前层级,并基于所述下一当前层级对应的所述正则表达式,对所述行标签进行查询匹配,确定所述下一当前层级对应的所述行标签,直至完成所述行标签和所述正则表达式的匹配,确定所述各行文档内容对应的各个分割层级。
3.根据权利要求1所述的PDF文档拆分方法,其特征在于,所述基于所述各行文档内容对应的行标签以及预设分割层级对应的正则表达式,确定所述各行文档内容对应的各个分割层级,还包括:
基于所述待处理文档的行顺序,依次对所述行标签和所述正则表达式进行匹配,确定所述各行文档内容对应的各个分割层级;
若存在与所述行标签匹配成功的所述正则表达式,则将所述正则表达式对应的分割层级,作为所述行标签的目标层级;
若所述行标签和所述正则表达式匹配不成功,则清除所述行标签。
4.根据权利要求1所述的PDF文档拆分方法,其特征在于,所述基于对所述待处理文档的解析结果,获得所述待处理文档中各行文档内容对应的行标签,包括:
基于所述解析结果,确定所述待处理文档的标签格式;
若所述标签格式不是预设格式,则基于预设替换规则,对所述标签格式进行替换,获得所述行标签。
5.根据权利要求4所述的PDF文档拆分方法,其特征在于,所述基于所述解析结果,确定所述待处理文档的标签格式之前,还包括:
基于预处理模型,对所述待处理文档进行分词处理,获得分词文档;
基于所述分词文档,确定所述待处理文档中的初始标签。
6.根据权利要求1所述的PDF文档拆分方法,其特征在于,所述基于所述各行文档内容对应的行标签以及预设分割层级对应的正则表达式,确定所述各行文档内容对应的各个分割层级之前,还包括:
获取用户输入的当前分割字符串,并基于所述当前分割字符串,生成所述正则表达式;
基于所述分割字符串的层级结构,确定所述正则表达式对应的分割层级,作为所述预设分割层级。
7.根据权利要求1-6中任一项所述的PDF文档拆分方法,其特征在于,所述基于所述各行文档内容对应的各个分割层级,对所述待处理文档进行拆分,获得至少一个拆分数据之后,还包括:
基于所述拆分文档对应的所述分割层级和所述行标签,生成各拆分数据的层级结构和行号;
基于所述层级结构和行号,对所述各拆分数据进行排序,生成数据查询表,并基于所述数据查询表,对所述各拆分文档进行保存,获得目标数据库。
8.一种PDF文档拆分装置,其特征在于,所述PDF文档拆分装置包括:
行标签获得模块,用于获取待处理文档,并基于对所述待处理文档的解析结果,获得所述待处理文档中各行文档内容对应的行标签;
分割层级确定模块,用于基于所述各行文档内容对应的行标签以及预设分割层级对应的正则表达式,确定所述各行文档内容对应的各个分割层级;
文档拆分模块,用于基于所述各行文档内容对应的各个分割层级,对所述待处理文档进行拆分,获得至少一个拆分数据。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的数据迁移方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的数据迁移方法的步骤。
CN202210939980.6A 2022-08-05 2022-08-05 Pdf文档拆分方法、装置、设备及存储介质 Pending CN115270723A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210939980.6A CN115270723A (zh) 2022-08-05 2022-08-05 Pdf文档拆分方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210939980.6A CN115270723A (zh) 2022-08-05 2022-08-05 Pdf文档拆分方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115270723A true CN115270723A (zh) 2022-11-01

Family

ID=83749180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210939980.6A Pending CN115270723A (zh) 2022-08-05 2022-08-05 Pdf文档拆分方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115270723A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982358A (zh) * 2022-12-30 2023-04-18 壹沓科技(上海)有限公司 文档拆分方法、装置、终端设备和计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982358A (zh) * 2022-12-30 2023-04-18 壹沓科技(上海)有限公司 文档拆分方法、装置、终端设备和计算机可读存储介质
CN115982358B (zh) * 2022-12-30 2024-03-26 壹沓科技(上海)有限公司 文档拆分方法、装置、终端设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
De Jonge et al. An introduction to data cleaning with R
US7502995B2 (en) Processing structured/hierarchical content
CN111680634B (zh) 公文文件处理方法、装置、计算机设备及存储介质
US7606816B2 (en) Record boundary identification and extraction through pattern mining
US20060101069A1 (en) Generating a fingerprint for a document
US8762829B2 (en) Robust wrappers for web extraction
CN109344355B (zh) 针对网页变化的自动回归检测与块匹配自适应方法和装置
EA003619B1 (ru) Система и способ поиска электронных документов, созданных с помощью оптического распознавания знаков
Döhmen et al. Multi-hypothesis CSV parsing
Cardoso et al. An efficient language-independent method to extract content from news webpages
CN112307303A (zh) 基于云计算的网络页面高效精准去重系统
CN109657114B (zh) 一种抽取网页半结构化数据的方法
Uzun et al. An effective and efficient Web content extractor for optimizing the crawling process
JP7493937B2 (ja) 文書における見出しのシーケンスの識別方法、プログラム及びシステム
CN115358200A (zh) 一种基于SysML元模型的模板化文档自动生成方法
CN113536182A (zh) 长文本网页的生成方法、装置、电子设备和存储介质
CN114970502B (zh) 一种应用于数字政府的文本纠错方法
CN113419721B (zh) 基于web的表达式编辑方法、装置、设备和存储介质
CN115270723A (zh) Pdf文档拆分方法、装置、设备及存储介质
CN109165373B (zh) 一种数据处理方法及装置
JP4724158B2 (ja) モバイル機器におけるフォーム自動記入方法および装置
Yu et al. Web content information extraction based on DOM tree and statistical information
CN116881595B (zh) 一种可自定义的网页数据爬取方法
CN110390037B (zh) 基于dom树的信息分类方法、装置、设备及存储介质
CN112667208A (zh) 翻译错误识别方法、装置、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination