CN111967240A - 文本解析方法、装置、终端设备及计算机可读存储介质 - Google Patents

文本解析方法、装置、终端设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111967240A
CN111967240A CN202010656885.6A CN202010656885A CN111967240A CN 111967240 A CN111967240 A CN 111967240A CN 202010656885 A CN202010656885 A CN 202010656885A CN 111967240 A CN111967240 A CN 111967240A
Authority
CN
China
Prior art keywords
content
text
area
target
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010656885.6A
Other languages
English (en)
Other versions
CN111967240B (zh
Inventor
王愈
陈强
张盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Valueonline Technology Co ltd
Original Assignee
Shenzhen Valueonline Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Valueonline Technology Co ltd filed Critical Shenzhen Valueonline Technology Co ltd
Priority to CN202010656885.6A priority Critical patent/CN111967240B/zh
Publication of CN111967240A publication Critical patent/CN111967240A/zh
Application granted granted Critical
Publication of CN111967240B publication Critical patent/CN111967240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于数据处理技术领域,提供了一种文本解析方法、文本解析装置、终端设备及计算机可读存储介质,包括:获取对待处理文件进行文本解析后得到的初始文本解析内容;获取对所述待处理文件中的表格进行表格解析后得到的实际表格文本内容;根据所述实际表格文本内容,确定所述初始文本解析内容中的表格区域,其中,所述表格区域为所述待处理文件中的表格在所述初始文本解析内容中对应的区域;将所述初始文本解析内容中所述表格区域对应的内容替换为所述实际表格文本内容,得到最终文本解析内容。利用上述方法对带有表格的PDF文件进行解析时,能够有效提高文本解析内容的准确度。

Description

文本解析方法、装置、终端设备及计算机可读存储介质
技术领域
本申请属于数据处理技术领域,尤其涉及一种文本解析方法、文本解析装置、终端设备及计算机可读存储介质。
背景技术
可携带文档格式(PDF,Portable document format)是一种常见的电子文件格式。该格式的电子文件不仅能够逼真地展示原稿中的字符、颜色和图像,还可以包含超文本链接、声音和动态影像等电子信息,具有集成度高、安全可靠性高等优点。
在读取PDF文件时,通常需要对PDF文件进行解析。当PDF文件中存在表格时,表格内的文本段落和非表格文本段落不一致,利用现有的PDF文件解析方法解析出的文本内容容易出现语序混乱等问题,解析出的文本信息准确度较低。
发明内容
本申请实施例提供了一种文本解析方法、文本解析装置、终端设备及计算机可读存储介质,可以解决对带有表格的PDF文件解析不准确的问题。
第一方面,本申请实施例提供了一种文本解析方法,包括:
获取对待处理文件进行文本解析后得到的初始文本解析内容;
获取对所述待处理文件中的表格进行表格解析后得到的实际表格文本内容;
根据所述实际表格文本内容,确定所述初始文本解析内容中的表格区域,其中,所述表格区域为所述待处理文件中的表格在所述初始文本解析内容中对应的区域;
将所述初始文本解析内容中所述表格区域对应的内容替换为所述实际表格文本内容,得到最终文本解析内容。
在第一方面的一种可能的实现方式中,所述根据所述实际表格文本内容,确定所述初始文本解析内容中的表格区域,包括:
对所述初始文本解析内容进行段落划分处理,得到至少一个段落;
将所述实际表格文本内容划分为至少一个内容块,其中,每个所述内容块中的字符均属于同一个表格;
根据所述至少一个段落和所述至少一个内容块确定所述表格区域。
在第一方面的一种可能的实现方式中,所述根据所述至少一个段落和所述至少一个内容块确定所述表格区域,包括:
按照文本顺序为所述初始文本解析内容划分得到的每个所述段落分配段落序号;
将所述至少一个段落中满足第一预设条件的段落记为目标段落,并将所述目标段落对应的段落序号记为目标序号,其中,所述第一预设条件为所述段落中的字符均属于同一个内容块;
将所述目标序号划分为至少一个序号组,其中,每个序号组中包括一个所述目标序号或连续的多个所述目标序号;
将每个所述序号组对应的所述目标段落组成一个文本区域,得到至少一个文本区域;
根据所述至少一个文本区域和所述至少一个内容块确定所述表格区域。
在第一方面的一种可能的实现方式中,所述根据所述至少一个文本区域和所述至少一个内容块确定所述表格区域,包括:
将所述至少一个文本区域中满足第二预设条件的所述文本区域记为目标区域,其中,所述第二预设条件为一个所述内容块中的字符均属于同一个文本区域;
对所述目标区域进行去重处理,将去重处理后的所述目标区域记为所述表格区域。
在第一方面的一种可能的实现方式中,所述对所述目标区域进行去重处理,包括:
若存在相同的所述目标区域,则保留所述相同的所述目标区域中任意一个目标区域;
若第一区域包含第二区域,则删除所述第二区域,其中,所述第一区域和所述第二区域均为所述目标区域。
在第一方面的一种可能的实现方式中,所述将所述初始文本解析内容中所述表格区域对应的内容替换为所述实际表格文本内容,包括:
按照文本倒序,将所述初始文本解析内容中所述表格区域对应的内容替换为所述实际表格文本内容。
在第一方面的一种可能的实现方式中,所述按照文本倒序,将所述初始文本解析内容中所述表格区域对应的内容替换为所述实际表格文本内容,包括:
对于每个所述表格区域,获取所述表格区域对应的所述内容块,得到目标块,并将所述表格区域内的字符替换为所述目标块中的字符。
第二方面,本申请实施例提供了一种文本解析装置,包括:
第一获取单元,用于获取对待处理文件进行文本解析后得到的初始文本解析内容;
第二获取单元,用于获取对所述待处理文件中的表格进行表格解析后得到的实际表格文本内容;
区域确定单元,用于根据所述实际表格文本内容,确定所述初始文本解析内容中的表格区域,其中,所述表格区域为所述待处理文件中的表格在所述初始文本解析内容中对应的区域;
内容替换单元,用于将所述初始文本解析内容中所述表格区域对应的内容替换为所述实际表格文本内容,得到最终文本解析内容。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的文件解析方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的文件解析方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的文件解析方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
本申请实施例与现有技术相比存在的有益效果是:
本申请实施例在获取对待处理文件进行文本解析后得到的初始文本解析内容(初始文本解析内容中包括的表格文本内容是错乱的),以及获取对所述待处理文件中的表格进行表格解析后得到的实际表格文本内容之后,根据所述实际表格文本内容,确定所述初始文本解析内容中的表格区域,即确定待处理文件中的表格在初始文本解析内容中对应的区域,然后将所述初始文本解析内容中所述表格区域对应的内容替换为所述实际表格文本内容,得到最终文本解析内容。由于初始文本解析内容中表格区域中的文本内容是错乱的,而对待处理文件中的表格进行表格解析得到的实际表格文本内容是正确的表格文本内容,因此,利用上述方法,将初始文本解析内容中错乱的表格文本内容替换为正确的表格文本内容,即可得到完整的、准确的文本解析内容。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的文件解析方法的流程示意图;
图2是本申请实施例提供的表格区域的确定方法的流程示意图;
图3是本申请实施例提供的文件解析装置的结构示意图;
图4是本申请实施例提供终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
如在本申请说明书和所附权利要求书中所使用的那样,术语“若”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。
参见图1,是本申请实施例提供的文本解析方法的流程示意图,作为示例而非限定,所述方法可以包括以下步骤:
S101,获取对待处理文件进行文本解析后得到的初始文本解析内容。
本申请实施例中的待处理文件以PDF文件为例进行说明。当然,本申请实施例中的方法也可以应用于对其他格式文件解析的过程,在此不做具体限定。
可以利用现有的PDF文本解析方法对待处理文件进行文本解析。例如:通过python中的pdfplumber工具包中的extract_text功能对待处理文件进行文本解析,得到初始文本解析内容。
需要说明的是,初始文本解析内容中包括了待处理文件中的表格内容和非表格内容。换言之,对待处理文件进行文本解析是指,对待处理文件中包含的所有文本内容进行解析。由于待处理文件中既包含了纯文本,又包含了表格,而纯文本和表格的段落划分不一致,因此,得到的初始文本解析内容中表格对应的解析文本是错乱的。
S102,获取对所述待处理文件中的表格进行表格解析后得到的实际表格文本内容。
可以利用现有的表格解析方法对待处理文件中的表格进行表格解析。例如:通过python中的pdfplumber工具包中的extract_tables功能对待处理文件中的表格进行表格解析,得到实际表格文本内容。
由于只是对待处理文件中的表格进行解析,文本结构单一,因此,解析出的实际表格文本内容为正确的表格文本内容。
S103,根据所述实际表格文本内容,确定所述初始文本解析内容中的表格区域。
其中,所述表格区域为所述待处理文件中的表格在所述初始文本解析内容中对应的区域。
可以在初始文本解析内容中查找与实际表格文本内容相匹配的段落,这些段落所对应的区域即为表格区域。具体的确定表格区域的方法可参加图2实施例中的描述,在此不再赘述。
S104,将所述初始文本解析内容中所述表格区域对应的内容替换为所述实际表格文本内容,得到最终文本解析内容。
在进行内容替换时,可以按照文本顺序依此替换每个表格区域中的内容。但是这种替换方式存在的一个问题是,在替换了位于前面的表格区域中的内容后,初始文本解析内容中的文本段落发生了变化,相应的,后边的表格区域在初始文本解析内容中的位置也发生了变化,这种情况下,将后边的表格区域中的内容替换后得到的最终文本解析内容仍是错乱的。
为了解决上述问题,可选的,步骤S104的一种实现方式为:
按照文本倒序,将所述初始文本解析内容中所述表格区域对应的内容替换为所述实际表格文本内容。
示例性的,假设初始文本解析内容中有两个表格区域,第一个表格区域位于初始文本解析内容中靠前的位置,第二个表格区域位于初始文本解析内容中靠后的位置。在进行内容替换时,先替换第二个表格区域中的内容,再替换第一个表格中的内容。
先替换后边的表格区域的内容不会改变初始文本解析内容的文本段落,也就不会影响前面的表格区域在初始文本解析内容中的位置,因此,这种替换方式得到的最终文本解析内容是准确的。
由于初始文本解析内容中表格区域中的文本内容是错乱的,而对待处理文件中的表格进行表格解析得到的实际表格文本内容是正确的表格文本内容,因此,利用上述方法,将初始文本解析内容中错乱的表格文本内容替换为正确的表格文本内容,即可得到完整的、准确的文本解析内容。
在上述实施例中,待处理文件可以为单页PDF文件,也可以为多页PDF文件。当待处理文件为多页PDF文件时,可以利用上述文件解析方法对多页PDF文件中的每一页分别进行处理。
参见图2,是本申请实施例提供的表格区域的确定方法的流程示意图。作为示例而非限定,步骤S103中,根据实际表格文本内容,确定初始文本解析内容中的表格区域的方法,可以包括以下步骤:
S201,对所述初始文本解析内容进行段落划分处理,得到至少一个段落。
可以根据待处理文本的格式进行段落划分。例如,假设待处理文本中每段的首行缩近,那么对应的初始文本解析内容中每段的首行也是缩进的。根据这个规律,就可以将初始文本解析内容划分为多个段落。
S202,将所述实际表格文本内容划分为至少一个内容块,其中,每个所述内容块中的字符均属于同一个表格。
当待处理文本中仅包含一个表格时,只划分出一个内容块。
当待处理文本中包含多个表格时,划分出多个内容块,每个内容块对应一个表格。
这里的内容块可以有多种形式,如列表、段落等。示例性的,假设内容块为列表形式,具体的,可以将实际表格文本内容中属于同一个表格的字符生成一个列表。
S203,根据所述至少一个段落和所述至少一个内容块确定所述表格区域。
可以将每个段落分别与每个内容块进行内容匹配。如果一个段落中的内容均属于内容块,说明这个段落中的内容属于表格文本,进一步说明该段落所占的区域为表格区域。具体的,步骤S203的一种实现方式可以包括以下步骤:
I,按照文本顺序为所述初始文本解析内容划分得到的每个所述段落分配段落序号。
段落序号可以为数字,也可以为字母,还可以是其他能够表示先后顺序的字符。示例性的,假设段落序号为数字,初始文本解析内容划分为10个段落,那么按照文本先后的顺序,将数字1-10依此分配给10个段落。
II,将所述至少一个段落中满足第一预设条件的段落记为目标段落,并将所述目标段落对应的段落序号记为目标序号,其中,所述第一预设条件为所述段落中的字符均属于同一个内容块。
一个段落中的字符均属于同一个内容块,是指这个段落中的每个字符在同一个内容块中都有其对应的相同字符。
在实际应用中,可能存在两个相同的表格。这种情况下,一个段落中的字符均属于两个内容块。例如:假设表格A和表格B相同,表格A对应内容块a,表格B对应内容块b。如果一个段落中的所有字符都属于内容块a,那么这个段落中的所有字符也都属于内容块b。
III,将所述目标序号划分为至少一个序号组,其中,每个序号组中包括一个所述目标序号或连续的多个所述目标序号。
按照序号的连续性将目标序号划分为至少一个序号组。继续步骤I中的示例,假设得到的目标序号为1、2、3、10、11、14,其中,1、2、3为连续的3个序号,10、11为连续第2个序号,因此,将这个6个目标序号划分为3组,第一个序号组包括1、2、3,第二个序号组包括10、11,第三个序号组包括14。
IV,将每个所述序号组对应的所述目标段落组成一个文本区域,得到至少一个文本区域。
对于每个序号组,将该序号组中包含的目标序号各自对应的目标段落组成一个文本区域。继续步骤III中的示例,对于第一个序号组,将1、2、3各自对应的目标段落组成一个文本区域,即将初始文本解析内容中第1段、第2段和第3段的文本内容组成一个文本区域。
在确定出文本区域后,可以直接将每个文本区域记为一个表格区域。但是实际应用中,待处理文件中一个表格的前后文内容可能是对这个表格的解释,那么这个表格的部分前后文内容可能与这个表格中的内容是相同的。因此,上述得到的文本区域中可能存在部分区域不是表格所在的区域。为了找到真正属于表格所在的区域,进一步的,如下所示。
V,根据所述至少一个文本区域和所述至少一个内容块确定所述表格区域。
可以根据文本区域中的内容和内容块中的内容进行确定,具体的,步骤V的一种实现方式可以包括以下步骤:
1)将所述至少一个文本区域中满足第二预设条件的所述文本区域记为目标区域,其中,所述第二预设条件为一个所述内容块中的字符均属于同一个文本区域。
继续步骤III中的示例,假设一个内容块中的字符均属于第一个序号组(即目标序号1、2、3)对应的文本区域,那么将第一个序号组对应的文本区域记为目标区域。
可选的,可以将文本区域中除目标区域外的文本区域删除。
步骤II中的第一预设条件相当于判断一个文本区域中的内容是否全部属于一个内容块,而本步骤中的第二预设条件相当于判断一个内容块中的内容是否全部属于一个文本区域。由于待处理文件中一个表格的部分前后文内容可能与这个表格中的内容是相同的,利用上述方法,能够找到同时满足第一预设条件和第二预设条件(即一个文本区域中的内容与一个内容块中的内容完全相同)的目标区域,而目标区域即为真正的表格所对应的区域。
当待处理文件中存在相同的表格,或两个表格部分相同时,根据上述方法得到的目标区域中将会存在重复的目标区域,这就需要进行去重处理。
2)对所述目标区域进行去重处理,将去重处理后的所述目标区域记为所述表格区域。
如上所述,去重处理可以包括以下两种情况:
情况一、存在相同的表格
若存在相同的所述目标区域,则保留所述相同的所述目标区域中任意一个目标区域。
示例性的,假设待处理文件中表格1和表格2内容相同,且表格1实际对应的目标区域为目标序号1、2、3各自对应的目标段落组成的文本区域C,表格2实际对应的目标区域为目标序号7、8、9各自对应的目标段落组成的文本区域D。由于表格1和表格2内容相同,因此,利用上述方法可以得到,表格1对应目标区域C和目标区域D,表格2同样对应目标区域C和目标区域D。那么待处理文件对应的4个目标区域为C、C、D、D,其中存在相同的目标区域。这种情况,删除4个目标区域中的一个目标区域C和一个目标区域D。去重处理后剩下2个目标区域,分别为C和D。
情况二、一个表格的目标区域包含另一个表格的目标区域
若第一区域包含第二区域,则删除所述第二区域,其中,所述第一区域和所述第二区域均为所述目标区域。
示例性的,假设待处理文件中有表格1和表格2,其中,表格1实际对应的目标区域为目标序号1、2、3各自对应的目标段落组成的文本区域C以及目标序号7、8、9各自对应的目标段落组成的文本区域D,表格2实际对应的目标区域为目标序号6、7、8、9各自对应的目标段落组成的文本区域E。E中包含了D,这种情况下,删除D,保留E。去重处理后剩下两个目标区域C和E,其中,C对应表格1,E对应表格2。
通过上述去重处理后得到的表格区域的个数与待处理文件中表格的个数保持一致,这样,在对表格区域中的内容进行替换时,避免了重复替换或错误替换,进一步提高了文件解析的准确度。
在步骤S201-S203的基础上,相应的,步骤S104的一种实现方式为:
对于每个所述表格区域,获取所述表格区域对应的所述内容块,得到目标块,并将所述表格区域内的字符替换为所述目标块中的字符。
根据步骤S203中的方法,可以找到互相匹配的内容块和表格区域。内容块中的内容为表格的正确文本内容,将表格区域中的内容替换为与其对应的内容块中的内容即可。
示例性的,假设表格1实际对应的表格区域为目标序号1、2、3各自对应的目标段落组成的文本区域C,而实际表格文本内容中表格1对应的内容块为c。根据步骤S203中的方法,确定表格区域C与内容块c相匹配,那么将初始解析文本内容中表格区域C中的字符替换为实际表格文本内容中内容块c中的字符。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的方法,图3是本申请实施例提供的文件解析装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图3,该装置包括:
第一获取单元31,用于获取对待处理文件进行文本解析后得到的初始文本解析内容。
第二获取单元32,用于获取对所述待处理文件中的表格进行表格解析后得到的实际表格文本内容。
区域确定单元33,用于根据所述实际表格文本内容,确定所述初始文本解析内容中的表格区域,其中,所述表格区域为所述待处理文件中的表格在所述初始文本解析内容中对应的区域。
内容替换单元34,用于将所述初始文本解析内容中所述表格区域对应的内容替换为所述实际表格文本内容,得到最终文本解析内容。
可选的,区域确定单元33包括:
段落划分模块,用于对所述初始文本解析内容进行段落划分处理,得到至少一个段落。
内容划分模块,用于将所述实际表格文本内容划分为至少一个内容块,其中,每个所述内容块中的字符均属于同一个表格。
区域确定模块,用于根据所述至少一个段落和所述至少一个内容块确定所述表格区域。
可选的,区域确定模块包括:
分配子模块,用于按照文本顺序为所述初始文本解析内容划分得到的每个所述段落分配段落序号。
标记子模块,用于将所述至少一个段落中满足第一预设条件的段落记为目标段落,并将所述目标段落对应的段落序号记为目标序号,其中,所述第一预设条件为所述段落中的字符均属于同一个内容块。
划分子模块,用于将所述目标序号划分为至少一个序号组,其中,每个序号组中包括一个所述目标序号或连续的多个所述目标序号。
分组子模块,用于将每个所述序号组对应的所述目标段落组成一个文本区域,得到至少一个文本区域。
确定子模块,用于根据所述至少一个文本区域和所述至少一个内容块确定所述表格区域。
可选的,确定子模块还用于:
将所述至少一个文本区域中满足第二预设条件的所述文本区域记为目标区域,其中,所述第二预设条件为一个所述内容块中的字符均属于同一个文本区域;对所述目标区域进行去重处理,将去重处理后的所述目标区域记为所述表格区域。
可选的,确定子模块还用于:
若存在相同的所述目标区域,则保留所述相同的所述目标区域中任意一个目标区域;若第一区域包含第二区域,则删除所述第二区域,其中,所述第一区域和所述第二区域均为所述目标区域。
可选的,内容替换单元34还用于:
按照文本倒序,将所述初始文本解析内容中所述表格区域对应的内容替换为所述实际表格文本内容。
可选的,内容替换单元34还用于:
对于每个所述表格区域,获取所述表格区域对应的所述内容块,得到目标块,并将所述表格区域内的字符替换为所述目标块中的字符。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
另外,图3所示的装置可以是内置于现有的终端设备内的软件单元、硬件单元、或软硬结合的单元,也可以作为独立的挂件集成到所述终端设备中,还可以作为独立的终端设备存在。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图4是本申请实施例提供的终端设备的结构示意图。如图4所示,该实施例的终端设备4包括:至少一个处理器40(图4中仅示出一个)处理器、存储器41以及存储在所述存储器41中并可在所述至少一个处理器40上运行的计算机程序42,所述处理器40执行所述计算机程序42时实现上述任意各个文本解析方法实施例中的步骤。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图4仅仅是终端设备4的举例,并不构成对终端设备4的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),该处理器40还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41在一些实施例中可以是所述终端设备4的内部存储单元,例如终端设备4的硬盘或内存。所述存储器41在另一些实施例中也可以是所述终端设备4的外部存储设备,例如所述终端设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文件解析方法,其特征在于,包括:
获取对待处理文件进行文本解析后得到的初始文本解析内容;
获取对所述待处理文件中的表格进行表格解析后得到的实际表格文本内容;
根据所述实际表格文本内容,确定所述初始文本解析内容中的表格区域,其中,所述表格区域为所述待处理文件中的表格在所述初始文本解析内容中对应的区域;
将所述初始文本解析内容中所述表格区域对应的内容替换为所述实际表格文本内容,得到最终文本解析内容。
2.如权利要求1所述的文件解析方法,其特征在于,所述根据所述实际表格文本内容,确定所述初始文本解析内容中的表格区域,包括:
对所述初始文本解析内容进行段落划分处理,得到至少一个段落;
将所述实际表格文本内容划分为至少一个内容块,其中,每个所述内容块中的字符均属于同一个表格;
根据所述至少一个段落和所述至少一个内容块确定所述表格区域。
3.如权利要求2所述的文件解析方法,其特征在于,所述根据所述至少一个段落和所述至少一个内容块确定所述表格区域,包括:
按照文本顺序为所述初始文本解析内容划分得到的每个所述段落分配段落序号;
将所述至少一个段落中满足第一预设条件的段落记为目标段落,并将所述目标段落对应的段落序号记为目标序号,其中,所述第一预设条件为所述段落中的字符均属于同一个内容块;
将所述目标序号划分为至少一个序号组,其中,每个序号组中包括一个所述目标序号或连续的多个所述目标序号;
将每个所述序号组对应的所述目标段落组成一个文本区域,得到至少一个文本区域;
根据所述至少一个文本区域和所述至少一个内容块确定所述表格区域。
4.如权利要求3所述的文件解析方法,其特征在于,所述根据所述至少一个文本区域和所述至少一个内容块确定所述表格区域,包括:
将所述至少一个文本区域中满足第二预设条件的所述文本区域记为目标区域,其中,所述第二预设条件为一个所述内容块中的字符均属于同一个文本区域;
对所述目标区域进行去重处理,将去重处理后的所述目标区域记为所述表格区域。
5.如权利要求4所述的文件解析方法,其特征在于,所述对所述目标区域进行去重处理,包括:
若存在相同的所述目标区域,则保留所述相同的所述目标区域中任意一个目标区域;
若第一区域包含第二区域,则删除所述第二区域,其中,所述第一区域和所述第二区域均为所述目标区域。
6.如权利要求2所述的文件解析方法,其特征在于,所述将所述初始文本解析内容中所述表格区域对应的内容替换为所述实际表格文本内容,包括:
按照文本倒序,将所述初始文本解析内容中所述表格区域对应的内容替换为所述实际表格文本内容。
7.如权利要求6所述的文件解析方法,其特征在于,所述按照文本倒序,将所述初始文本解析内容中所述表格区域对应的内容替换为所述实际表格文本内容,包括:
对于每个所述表格区域,获取所述表格区域对应的所述内容块,得到目标块,并将所述表格区域内的字符替换为所述目标块中的字符。
8.一种文件解析装置,其特征在于,包括:
第一获取单元,用于获取对待处理文件进行文本解析后得到的初始文本解析内容;
第二获取单元,用于获取对所述待处理文件中的表格进行表格解析后得到的实际表格文本内容;
区域确定单元,用于根据所述实际表格文本内容,确定所述初始文本解析内容中的表格区域,其中,所述表格区域为所述待处理文件中的表格在所述初始文本解析内容中对应的区域;
内容替换单元,用于将所述初始文本解析内容中所述表格区域对应的内容替换为所述实际表格文本内容,得到最终文本解析内容。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202010656885.6A 2020-07-09 2020-07-09 文本解析方法、装置、终端设备及计算机可读存储介质 Active CN111967240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010656885.6A CN111967240B (zh) 2020-07-09 2020-07-09 文本解析方法、装置、终端设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010656885.6A CN111967240B (zh) 2020-07-09 2020-07-09 文本解析方法、装置、终端设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111967240A true CN111967240A (zh) 2020-11-20
CN111967240B CN111967240B (zh) 2023-06-30

Family

ID=73361763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010656885.6A Active CN111967240B (zh) 2020-07-09 2020-07-09 文本解析方法、装置、终端设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111967240B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040261023A1 (en) * 2003-06-20 2004-12-23 Palo Alto Research Center, Incorporated Systems and methods for automatically converting web pages to structured shared web-writable pages
CN104063364A (zh) * 2013-03-19 2014-09-24 福建福昕软件开发股份有限公司北京分公司 一种pdf文档识别方法
CN108614898A (zh) * 2018-05-10 2018-10-02 爱因互动科技发展(北京)有限公司 文档解析方法与装置
CN109086255A (zh) * 2018-07-09 2018-12-25 北京大学 一种基于深度学习的参考文献自动标注方法及系统
US20190266394A1 (en) * 2018-02-26 2019-08-29 Abc Fintech Co., Ltd. Method and device for parsing table in document image
CN111368511A (zh) * 2020-02-28 2020-07-03 证通股份有限公司 Pdf文档解析方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040261023A1 (en) * 2003-06-20 2004-12-23 Palo Alto Research Center, Incorporated Systems and methods for automatically converting web pages to structured shared web-writable pages
CN104063364A (zh) * 2013-03-19 2014-09-24 福建福昕软件开发股份有限公司北京分公司 一种pdf文档识别方法
US20190266394A1 (en) * 2018-02-26 2019-08-29 Abc Fintech Co., Ltd. Method and device for parsing table in document image
CN108614898A (zh) * 2018-05-10 2018-10-02 爱因互动科技发展(北京)有限公司 文档解析方法与装置
CN109086255A (zh) * 2018-07-09 2018-12-25 北京大学 一种基于深度学习的参考文献自动标注方法及系统
CN111368511A (zh) * 2020-02-28 2020-07-03 证通股份有限公司 Pdf文档解析方法及装置

Also Published As

Publication number Publication date
CN111967240B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN109062874B (zh) 财政数据的获取方法、终端设备及介质
CN107977346B (zh) 一种pdf文档编辑方法及终端设备
CN107391762B (zh) 日志数据的处理方法及装置
CN111914520A (zh) 文档协同编辑方法、装置、计算机装置及存储介质
US8838657B1 (en) Document fingerprints using block encoding of text
CN110716739B (zh) 一种代码变更信息统计方法、系统和可读存储介质
CN107657051B (zh) 一种图片标签的生成方法、终端设备及存储介质
CN108334609B (zh) Oracle中实现JSON格式数据存取的方法、装置、设备及存储介质
CN113704243A (zh) 数据分析方法、装置、计算机装置及存储介质
CN110647562B (zh) 一种数据查询方法和装置、电子设备、存储介质
CN109871229B (zh) 代码文本的管理方法、装置、存储介质及终端设备
CN112783825A (zh) 数据归档方法、装置、计算机装置及存储介质
CN113609128B (zh) 生成数据库实体类的方法、装置、终端设备及存储介质
CN110837727A (zh) 一种文档模板生成方法、装置、终端设备及介质
CN110750960A (zh) 一种配置文件的解析方法、存储介质、电子设备及系统
CN111967240B (zh) 文本解析方法、装置、终端设备及计算机可读存储介质
CN107943760B (zh) Pdf文档编辑的字体优化方法、装置、终端设备和存储介质
CN113779932B (zh) 数字格式化方法、装置、终端设备及存储介质
CN115935917A (zh) 一种可视化图表的数据处理方法、装置、设备及存储介质
CN110457659B (zh) 条款文档生成方法及终端设备
CN110909112B (zh) 数据提取方法、装置、终端设备及介质
CN110737642B (zh) 数据库信息分析方法、装置、计算机装置及存储介质
CN113343663A (zh) 一种票据结构化方法及装置
CN110263303B (zh) 文本修改历史的追溯方法及装置
CN108595715B (zh) 一种文件标记和排重分析方法、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant