CN116311315A - 用于提取pdf文件中的文本内容的方法、设备和存储介质 - Google Patents

用于提取pdf文件中的文本内容的方法、设备和存储介质 Download PDF

Info

Publication number
CN116311315A
CN116311315A CN202310127582.9A CN202310127582A CN116311315A CN 116311315 A CN116311315 A CN 116311315A CN 202310127582 A CN202310127582 A CN 202310127582A CN 116311315 A CN116311315 A CN 116311315A
Authority
CN
China
Prior art keywords
content
file
information
configuration
pdf file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310127582.9A
Other languages
English (en)
Inventor
卢选君
赵宇鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yingtong Yuanjian Information Technology Co ltd
Original Assignee
Beijing Yingtong Yuanjian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yingtong Yuanjian Information Technology Co ltd filed Critical Beijing Yingtong Yuanjian Information Technology Co ltd
Priority to CN202310127582.9A priority Critical patent/CN116311315A/zh
Publication of CN116311315A publication Critical patent/CN116311315A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Abstract

本申请公开了一种用于提取PDF文件中的文本内容的方法、设备和存储介质。所述方法包括:获取待进行提取文本内容的PDF文件;对所述PDF文件中的内容进行解析,以获得所述PDF文件中包含的内容类型;根据所述内容类型,调用预先配置的配置文件并且获取所述配置文件的配置信息;以及基于所述配置信息提取所述PDF文件中的文本内容。利用本申请的方案,可以准确地提取所需的文本内容。

Description

用于提取PDF文件中的文本内容的方法、设备和存储介质
技术领域
本申请一般涉及数据处理技术领域。更具体地,本申请涉及一种用于提取PDF文件中的文本内容的方法、设备和计算机可读存储介质。
背景技术
PDF(“Portable Document Format”)文件格式,意为“可携带文档格式”。PDF文件可以将文字、字形、格式、颜色以及独立于设备和分辨率的图形图像等封装在一个文件中。此外,PDF文件还可以包含超文本链接、声音和动态影像等电子信息,并且支持特长文件,集成度和安全可靠性都较高。
由于PDF文件具有其他电子文档格式无法比较的优点,因此其被广泛用于各种场景中,例如医院的各种检测设备所产生的检测报告,其通常为PDF文件。然而,在需要使用检索报告中的内容时,往往需要对PDF文件进行提取。目前,已有针对PDF文件的提取方法,例如将PDF文件转化为word文档进行提取,或者采用可视化仪器对PDF格式文件的内容进行提取,这只对提取内容简单的PDF文件有利,对于内容复杂的PDF文件,可能会转档错误、提取错误。此外,现有的PDF文件提取方法通常是针对PDF文件中的所有内容进行提取,从而无法满足应用需求。
有鉴于此,亟需提供一种用于提取PDF文件中的文本内容的方案,以便准确地并且按需提取PDF中的文本内容。
发明内容
为了至少解决如上所提到的一个或多个技术问题,本申请在多个方面中提出了一种用于提取PDF文件中的文本内容的方案。
在第一方面中,本申请提供一种用于提取PDF文件中的文本内容的方法,包括:获取待进行提取文本内容的PDF文件;对所述PDF文件中的内容进行解析,以获得所述PDF文件中包含的内容类型;根据所述内容类型,调用预先配置的配置文件并且获取所述配置文件的配置信息;以及基于所述配置信息提取所述PDF文件中的文本内容。
在一个实施例中,其中所述PDF文件来自于眼部检查设备产生的报告文件。
在另一个实施例中,其中所述内容类型至少包括字符内容类型或者图像内容类型。
在又一个实施例中,其中所述配置文件的配置信息中至少包括字符处理类型信息和图像处理类型信息,并且根据所述内容类型,调用预先配置的配置文件并且获取所述配置文件的配置信息包括:根据所述字符内容类型,调用预先配置的配置文件并且获取所述配置文件的所述字符处理类型信息;或者根据所述图像内容类型,调用预先配置的配置文件并且获取所述配置文件的所述图像处理类型信息。
在又一个实施例中,其中基于所述配置信息提取所述PDF文件中的文本内容包括:基于所述字符处理类型信息,提取所述PDF文件中的字符内容,以提取所述PDF文件中的文本内容;或者基于所述图像处理类型信息,将所述PDF文件转换成图像文件并且基于所述图像文件和所述配置信息提取所述PDF文件中的文本内容。
在又一个实施例中,其中基于所述图像处理类型信息,将所述PDF文件转换成图像文件并且基于所述图像文件和所述配置信息提取所述PDF文件中的文本内容包括:基于所述图像处理类型信息,对所述图像文件执行预处理,以获得预处理后的图像文件;将所述预处理后的图像文件与所述配置信息执行位置匹配操作;以及根据匹配结果提取所述PDF文件中的文本内容。
在又一个实施例中,其中对所述图像文件执行预处理包括:对所述图像文件执行灰度化、二值化、去除噪声或者图形矫正中的一种或者多种,以对所述图像文件执行预处理。
在又一个实施例中,其中所述配置文件的配置信息还包括条件坐标信息和条件内容信息,并且将所述预处理后的图像文件与所述配置信息执行位置匹配操作包括:基于所述配置信息的条件坐标信息提取所述预处理后的图像文件中对应的条件区域;以及将所述条件区域中的内容与所述配置信息的条件内容信息进行匹配,以将所述预处理后的图像文件与所述配置信息执行位置匹配操作。
在又一个实施例中,其中所述配置文件的配置信息还包括内容坐标信息,并且根据匹配结果提取所述PDF文件中的文本内容包括:响应于所述条件区域中的内容与所述配置信息的条件内容信息相一致,基于所述配置信息的内容坐标信息提取所述预处理后的图像文件的内容区域;以及对所述内容区域中的内容进行提取,以提取所述PDF文件中的文本内容。
在又一个实施例中,其中所述内容类型还包括颜色内容类型,所述配置文件的配置信息还包括颜色处理类型信息,并且所述方法还包括:基于所述颜色内容类型,调用预先配置的配置文件并且获取所述配置文件的所述颜色处理类型信息;以及基于所述颜色处理类型信息,提取所述PDF文件中的颜色内容,以提取所述PDF文件中勾选的文本内容。
在又一个实施例中,所述方法还包括通过以下操作预先配置所述配置文件:获取待进行配置的PDF文件;将所述待进行配置的PDF文件转换成图片;从所述图片中提取与所述目标文本内容相关的坐标信息和内容信息;以及基于所述坐标信息和所述内容信息生成结构化数据,以预先配置所述配置文件。
在第二方面中,本申请还提供一种用于提取PDF文件中的文本内容的设备,包括:处理器;以及存储器,其存储有用于提取PDF文件中的文本内容的程序指令,当所述程序指令由所述处理器执行时,使得所述设备实现前述第一方面中的多个实施例。
在第三方面中,本申请还提供一种计算机可读存储介质,其上存储有用于提取PDF文件中的文本内容的计算机可读指令,该计算机可读指令被一个或多个处理器执行时,实现前述第一方面中的多个实施例。
通过如上所提供的用于提取PDF文件中的文本内容的方案,本申请实施例通过根据PDF文件中的内容类型,调用配置文件中的配置信息,以提取PDF文件中的文本内容。基于此,可以针对不同内容类型,调用相应的配置信息,以准确地提取所需的文本内容。进一步,在本申请实施例中,可以根据PDF文件的字符、图像或者颜色内容类型,调用相应的字符、图像或者颜色处理信息,从而提高提取所需文本内容的精度。更进一步地,本申请实施例通过调用预先配置的配置文件进行位置匹配,降低了提取PDF文件中文本内容的繁琐程度。
附图说明
通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:
图1是示出PDF文件的示例性示意图;
图2是示出根据本申请实施例的用于提取PDF文件中的文本内容的方法的示例性流程框图;
图3是示出根据本申请实施例的预先配置的配置文件的示例性示意图;
图4是示出根据本申请实施例的提取PDF文件中的文本内容的示例性示意图;以及
图5是示出根据本申请实施例的用于提取PDF文件中的文本内容的设备500的示例性结构框图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清楚和完整地描述。应当理解的是本说明书所描述的实施例仅是本申请为了便于对方案的清晰理解和符合法律的要求而提供的部分实施例,而并非可以实现本申请的所有实施例。基于本说明书公开的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1是示出PDF文件的示例性示意图。如图1中左图示出一种报告形式的PDF文件。特别地,该报告来自于例如眼科检查设备所产生的报告文件。由图中可知,该PDF文件中包含多种复杂的内容,例如图1中左图的左侧中的眼部图(左上)以及三个曲线图(左下、右上和右下)。进一步地,图1中左图的右侧还包括多种数值结果。在实际应用场景中,通常只需要图1中左图的右侧下方的数值结果,即图中1中右图的虚线框内所示出的内容。
如背景技术所示,目前已有针对PDF文件提取的方法,例如PDF文件转化为word文档或者采用可视化仪器对PDF格式文件的内容进行提取。然而,通过PDF文件转化为word文档的方式,其仅适用于内容较为单一的PDF文件(如仅包含字符),而对于较复杂的PDF文件(例如图1所示),在转化过程中容易出现乱码,从而导致提取错误的内容。另外,通过可视化仪器提取PDF文件的方式,其往往提取的是PDF文件中的所有内容,从而导致提取到很多不必要的内容,影响使用需求。
鉴于此,本申请提供了一种用于提取PDF文件中的文本内容的方案,通过根据PDF文件中的内容类型,执行相应的提取操作,不仅可以降低提取的繁琐程度,还能够准确地提取所需的文本内容。
图2是示出根据本申请实施例的用于提取PDF文件中的文本内容的方法200的示例性流程框图。如图2中所示,在步骤201处,获取待进行提取文本内容的PDF文件。在一个实施例中,该PDF文件可以例如是来自于眼部检查设备产生的报告文件(例如上述图1所示)。其中,前述眼部检查设备可以例如是检查角膜地形图或者角膜内皮细胞计数的设备,还可以例如是RETIport或者iTrace视功能分析仪以及IOLmaster和视野计等眼部检查设备。
基于上述获取的待进行提取文本内容的PDF文件,在步骤202处,对PDF文件中的内容进行解析,以获得PDF文件中包含的内容类型。在一个实施例中,PDF文件中包含的内容类型可以至少包括字符内容类型或者图像内容类型。此外,PDF文件中的内容类型还可以包括颜色内容类型。即,PDF文件中包含有字符、图像或者颜色中的一种或者多种。进一步地,在步骤203处,根据内容类型,调用预先配置的配置文件并且所述配置文件的配置信息。在一些实施例中,前述配置信息可以包括但不仅限于字符处理类型信息和图像处理类型信息,例如还可以包括颜色处理类型信息,以分别针对字符、图像或者颜色进行处理。
具体地,在步骤204处,基于配置信息提取PDF文件中的文本内容。在一个实施例中,根据字符内容类型,调用预先配置的配置文件并且获取配置文件的字符处理类型信息,或者根据图像内容类型,调用预先配置的配置文件并且获取配置文件的图像处理类型信息。进一步地,基于字符处理类型信息,提取PDF文件中的字符内容,以提取述PDF文件中的文本内容。或者,基于图像处理类型信息,将PDF文件转换成图像文件并且基于图像文件和配置信息提取PDF文件中的文本内容。换言之,本申请实施例通过识别PDF文件中的字符或者图像,当识别为字符时,直接提取PDF文件中的字符。当识别为图像时,通过将PDF文件转换成图像文件,并结合配置信息提取PDF文件中的文本内容。
在一个实施例中,首先可以基于图像处理类型信息,对图像文件执行预处理,以获得预处理后的图像文件,接着将预处理后的图像文件与配置信息执行位置匹配操作,进而根据匹配结果提取PDF文件中的文本内容。在一些实施例中,前述预处理操作可以包括但不仅限于是灰度化、二值化、去除噪声或者图形矫正中的一种或者多种。在一个实施场景中,除在上述配置配件中配置字符处理类型信息或图像处理类型信息以外,还可以在配置文件中配置前述预处理操作。此外,前述配置文件中还配置有坐标信息和内容信息。基于此,当PDF文件中的内容识别为图像时,将PDF文件转换为图像文件,通过对图像文件和配置信息中的坐标信息和内容信息执行位置匹配操作,从而提取PDF文件中的目标文本内容。
可以理解,对于眼科检查设备所产生的报告而言,其包含有多种类型的模板,不同类型的模板上的内容信息对应的坐标信息会有所不同。以上述图1中左图所示出的内容“OS”为例,其在该模板下位于右上角,而在另一种模板中可能位于左上角。由此,可以通过提取不同类型的模板报告上的内容信息以及其对应的坐标信息进行预先配置,以生成配置文件。
具体而言,在一个实施例中,可以通过以下操作预先配置前述配置文件:首先获取待进行配置的PDF文件,将待进行配置的PDF文件转换成图片,接着从图片中提取与目标文本内容相关的坐标信息和内容信息,进而基于坐标信息和内容信息生成结构化数据,以预先配置前述配置文件。在一个实施场景中,前述配置操作可以通过配置软件执行。更为具体地,通过将待进行配置的PDF文件加载至配置软件中并获取待进行配置的PDF文件的页数。接着,将待进行配置的PDF文件逐页转为图片。作为示例,假设待进行配置的PDF文件的页数为3,则可以将待进行配置的PDF文件转为3张图片,该3张图片格式可以为png格式。
进一步地,对每张图片逐一进行处理,通过捕获鼠标在图片上的坐标信息,获得待进行配置的PDF文件中的文本数据所在区域的x轴坐标和y轴坐标以及区域的宽度和高度。此外,还可以通过对应相应区域处的内容信息(例如字段)进行提取,并通过配置key值与其对应(例如图3中下方框内所示)。接着,在获得需要捕获的文本内容所在区域的相关坐标信息后,可以生成结构化数据。可选地或者附加地,前述结构化数据可以例如是JSON字符串。在实现场景中,当捕获完待进行配置的PDF文件中的所有坐标信息后,可以将生成的所有JSON字符串保存到例如TXT格式的文件中,以形成配置文件。稍后将结合图3详细描述前述配置操作。
在一个实施例中,上述配置文件的配置信息中的坐标信息可以包括条件坐标信息和内容坐标信息,配置信息中的内容信息可以包括条件内容信息。在将预处理后的图像文件与配置信息执行位置匹配操作中,可以基于配置信息的条件坐标信息提取预处理后的图像文件中对应的条件区域,接着将条件区域中的内容与配置信息的条件内容信息进行匹配,以将预处理后的图像文件与配置信息执行位置匹配操作。更为具体地,响应于条件区域中的内容与配置信息的条件内容信息相一致,基于配置信息的内容坐标信息提取预处理后的图像文件的内容区域,进而对内容区域中的内容进行提取,以提取PDF文件中的文本内容。
需要理解的是,上述条件坐标信息和条件内容信息可以用于判断PDF文件的类型。在一个示例性场景中,前述条件坐标信息和条件内容信息可以是一类PDF文件类型中具有标识性的区域(也即上述条件区域)的坐标以及内容,而内容坐标信息为PDF文件中所需提取的目标文本内容所在的位置。上述条件区域为图像文件中与条件坐标信息同位置处的区域,上述内容区域即为所需要提取文本内容的区域。
也就是说,同一类型的PDF文件在条件区域处的内容应当是一致的,并且同一类型的PDF文件的中所需提取文本内容的内容区域应当是一致的。即,确定PDF文件类型后,可以确定提取文本内容的区域。进一步地,通过提取该相应内容区域下的值,可以获得文本内容。在一个实施例中,前述条件坐标信息和条件内容信息可以配置两个,当两个条件区域中的内容均与配置信息中的条件坐标信息处的条件内容信息相一致时,确定了PDF文件的类型。接着,根据配置信息中的内容坐标信息提取预处理后的图像文件中的内容区域,并且获取其相应的值,即可提取出PDF文件中的文本内容。
如前所述,上述PDF文件的内容类型还可以包括颜色内容类型,上述配置信息中还可以配置颜色处理类型信息。通过基于颜色内容类型,调用预先配置的配置文件并且获取配置文件的颜色处理类型信息,以基于颜色处理类型信息,提取PDF文件中的颜色内容,以提取PDF文件中勾选的文本内容。在一个实施例中,该颜色处理类型信息可以用于识别选择项(或者单选框)的内容,根据颜色信息确定选中的对象。例如,在对患者眼部进行检查时,可能只针对患者的单眼部(左眼或者右眼)进行检查,该情形下产生的检查报告中会勾选(或者选中)左眼或者右眼。由此,可以根据颜色区域内的颜色内容(例如灰度值)来确定报告中勾选的是左眼或者勾选的是右眼,以提取针对左眼或者右眼的检查数据。
结合上述描述可知,本申请实施例通过对待提取的PDF文件进行解析,以获得其包含的内容。根据内容类型,调用配置文件中的相应配置信息,以执行相应操作,从而提取PDF文件中的文本内容。例如,当PDF文件中包含字符时,直接提取PDF文件中的字符;当PDF文件中包含图像时,将PDF文件转换成图像文件,进而通过与配置文件中的相关坐标信息和内容信息进行匹配,以精准地提取PDF文件中的文本内容。在一些实施例中,可以根据需求配置预处理操作,并且配置颜色类型处理信息,以识别勾选的文本内容,从而提高提取文本内容的精度,以便准确地提取所需提取的文本内容,并极大地降低了提取PDF文件中文本内容的繁琐程度。
图3是示出根据本申请实施例的预先配置的配置文件的示例性示意图。如图3中上方所示为待进行配置的一种类型的PDF文件,下方是配置时所生成的结构化数据(例如是是JSON字符串)。如前所述,在配置该配置文件时,首先可以将待进行配置的PDF文件转为图片。接着,通过捕获鼠标在图片上的坐标信息,获得需要提取的内容所在区域的x轴坐标和y轴坐标以及区域的宽度和高度。在一个实施场景中,前述坐标信息可以包括条件坐标信息和内容坐标信息,在配置时,通常以’type’:0表示条件坐标信息(例如图3中下方框内前两行所示),’type’:1表示内容坐标信息(例如图3中下方框内第三行至最后一行所示),例如图3中下方框内所示。其中,下方框内每一行中的x,y,w以及h分别对应于相应区域的x轴坐标,y轴坐标以及宽度和高度。
图中进一步示出,与条件坐标信息对应的还配置有条件内容信息,其通过’value’表示。作为示例,该待进行配置的PDF文件的条件内容信息可以例如是’value’:’WFVerificationDisplay’(例如图中矩形框A内所示)以及’value’:’OS’(例如图中矩形框B内所示)。在该场景下,当基于条件坐标信息在待提取文本内容的PDF文件上确定的条件区域内的内容均是WFVerificationDisplay和OS,可以确定待提取文本内容的PDF文件与图3中上方所示的PDF文件为同一类型。接着,可以基于内容坐标信息获取待提取文本内容的PDF文件上的内容区域,例如图3中下方框内第3行至最后一行的字符串中的x,y,w以及h所确定的区域,以提取相应区域对应的文本内容(即value)。例如可以提取Total所对应的值1.245μ、Defocus所对应的值-0.621μ等。
根据前文知,还可以在配置文件中配置字符处理类型信息、图像处理类型信息或者颜色处理类型信息,以分别针对字符、图像或者颜色进行处理。在一个实施例中,可以通过例如dealtype来进行配置(图中未示出),例如以’dealtype’:0表示图像处理类型信息,dealtype’:1表示字符处理类型信息,dealtype’:2表示颜色处理类型信息。基于配置的信息,生成例如JSON字符串形式的结构化数据,并且保存到例如TXT格式的文件中,以形成配置文件。基于形成的配置文件,在对PDF文件中的文本内容进行提取时,可以直接调用前述配置文件,从而获得所需提取的文本内容,例如图4所示。
图4是示出根据本申请实施例的提取PDF文件中的文本内容的示例性示意图。如图4中左图所示为待进行提取文本内容的PDF文件,其与上述图3所示的PDF文件为不同类型的文件。在预先配置时,可以参考上述图3所描述的配置操作对该类型的PDF文件进行配置。基于配置的配置文件,可以提取该类型的PDF文件中的文本内容,例如图3中右图所示。由图可知,利用本申请实施例的方案,可以根据需求准确地提取文本内容,例如提取患者左、右眼中的AL、CCT以及AD等数值。
图5是示出根据本申请实施例的用于提取PDF文件中的文本内容的设备500的示例性结构框图。可以理解的是,实现本申请方案的设备可以是单一的设备(例如计算设备)或包括各种外围设备的多功能设备。
如图5中所示,本申请的设备可以包括中央处理器或中央处理单元(“CPU”)511,其可以是通用CPU、专用CPU或者其他信息处理以及程序运行的执行单元。进一步,设备500还可以包括大容量存储器512和只读存储器(“ROM”)513,其中大容量存储器512可以配置用于存储各类数据,包括各种与PDF文件、算法数据、中间结果和运行设备500所需要的各种程序。ROM 513可以配置成存储对于设备500的加电自检、系统中各功能模块的初始化、系统的基本输入/输出的驱动程序及引导操作系统所需的数据和指令。
可选地,设备500还可以包括其他的硬件平台或组件,例如示出的张量处理单元(“TPU”)514、图形处理单元(“GPU”)515、现场可编程门阵列(“FPGA”)516和机器学习单元(“MLU”)517。可以理解的是,尽管在设备500中示出了多种硬件平台或组件,但这里仅仅是示例性的而非限制性的,本领域技术人员可以根据实际需要增加或移除相应的硬件。例如,设备500可以仅包括CPU、相关存储设备和接口设备来实现本申请的用于提取PDF文件中的文本内容的方法。
在一些实施例中,为了便于数据与外部网络的传递和交互,本申请的设备500还包括通信接口518,从而可以通过该通信接口518连接到局域网/无线局域网(“LAN/WLAN”)505,进而可以通过该LAN/WLAN连接到本地服务器506或连接到因特网(“Internet”)507。替代地或附加地,本申请的设备500还可以通过通信接口518基于无线通信技术直接连接到因特网或蜂窝网络,例如基于第3代(“3G”)、第4代(“4G”)或第5代(“5G”)的无线通信技术。在一些应用场景中,本申请的设备500还可以根据需要访问外部网络的服务器508和数据库509,以便获得各种已知的算法、数据和模块,并且可以远程地存储各种数据,例如用于呈现例如PDF文件、配置文件等的各类数据或指令。
设备500的外围设备可以包括显示装置502、输入装置503和数据传输接口504。在一个实施例中,显示装置502可以例如包括一个或多个扬声器和/或一个或多个视觉显示器,其配置用于对本申请的提取PDF文件中的文本内容进行语音提示和/或图像视频显示。输入装置503可以包括例如键盘、鼠标、麦克风、姿势捕捉相机等其他输入按钮或控件,其配置用于接收音频数据的输入和/或用户指令。数据传输接口504可以包括例如串行接口、并行接口或通用串行总线接口(“USB”)、小型计算机系统接口(“SCSI”)、串行ATA、火线(“FireWire”)、PCI Express和高清多媒体接口(“HDMI”)等,其配置用于与其他设备或系统的数据传输和交互。根据本申请的方案,该数据传输接口504可以接收来自于眼科检查设备产生的PDF格式的报告文件,并且向设备500传送包括PDF格式的报告文件或各种其他类型的数据或结果。
本申请的设备500的上述CPU 511、大容量存储器512、ROM 513、TPU514、GPU 515、FPGA 516、MLU 517和通信接口518可以通过总线519相互连接,并且通过该总线与外围设备实现数据交互。在一个实施例中,通过该总线519,CPU 511可以控制设备500中的其他硬件组件及其外围设备。
以上结合图5描述了可以用于执行本申请的用于提取PDF文件中的文本内容的设备。需要理解的是这里的设备结构或架构仅仅是示例性的,本申请的实现方式和实现实体并不受其限制,而是可以在不偏离本申请的精神下做出改变。
根据上述结合附图的描述,本领域技术人员也可以理解本申请的实施例还可以通过软件程序来实现。由此本申请还提供了一种计算机程序产品。该计算机程序产品可以用于实现本申请结合附图2-图4所描述的用于提取PDF文件中的文本内容的方法。
应当注意,尽管在附图中以特定顺序描述了本申请方法的操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
应当理解,当本申请的权利要求、当说明书及附图中使用到术语“第一”、“第二”、“第三”和“第四”等时,其仅用于区别不同对象,而不是用于描述特定顺序。本申请的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的,而并不意在限定本申请。如在本申请说明书和权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本申请说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
虽然本申请的实施方式如上,但所述内容只是为便于理解本申请而采用的实施例,并非用以限定本申请的范围和应用场景。任何本申请所述技术领域内的技术人员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (13)

1.一种用于提取PDF文件中的文本内容的方法,包括:
获取待进行提取文本内容的PDF文件;
对所述PDF文件中的内容进行解析,以获得所述PDF文件中包含的内容类型;
根据所述内容类型,调用预先配置的配置文件并且获取所述配置文件的配置信息;以及
基于所述配置信息提取所述PDF文件中的文本内容。
2.根据权利要求1所述的方法,其中所述PDF文件来自于眼部检查设备产生的报告文件。
3.根据权利要求1所述的方法,其中所述内容类型至少包括字符内容类型或者图像内容类型。
4.根据权利要求3所述的方法,其中所述配置文件的配置信息中至少包括字符处理类型信息和图像处理类型信息,并且根据所述内容类型,调用预先配置的配置文件并且获取所述配置文件的配置信息包括:
根据所述字符内容类型,调用预先配置的配置文件并且获取所述配置文件的所述字符处理类型信息;或者
根据所述图像内容类型,调用预先配置的配置文件并且获取所述配置文件的所述图像处理类型信息。
5.根据权利要求4所述的方法,其中基于所述配置信息提取所述PDF文件中的文本内容包括:
基于所述字符处理类型信息,提取所述PDF文件中的字符内容,以提取所述PDF文件中的文本内容;或者
基于所述图像处理类型信息,将所述PDF文件转换成图像文件并且基于所述图像文件和所述配置信息提取所述PDF文件中的文本内容。
6.根据权利要求5所述的方法,其中基于所述图像处理类型信息,将所述PDF文件转换成图像文件并且基于所述图像文件和所述配置信息提取所述PDF文件中的文本内容包括:
基于所述图像处理类型信息,对所述图像文件执行预处理,以获得预处理后的图像文件;
将所述预处理后的图像文件与所述配置信息执行位置匹配操作;以及
根据匹配结果提取所述PDF文件中的文本内容。
7.根据权利要求6所述的方法,其中对所述图像文件执行预处理包括:
对所述图像文件执行灰度化、二值化、去除噪声或者图形矫正中的一种或者多种,以对所述图像文件执行预处理。
8.根据权利要求6所述的方法,其中所述配置文件的配置信息还包括条件坐标信息和条件内容信息,并且将所述预处理后的图像文件与所述配置信息执行位置匹配操作包括:
基于所述配置信息的条件坐标信息提取所述预处理后的图像文件中对应的条件区域;以及
将所述条件区域中的内容与所述配置信息的条件内容信息进行匹配,以将所述预处理后的图像文件与所述配置信息执行位置匹配操作。
9.根据权利要求8所述的方法,其中所述配置文件的配置信息还包括内容坐标信息,并且根据匹配结果提取所述PDF文件中的文本内容包括:
响应于所述条件区域中的内容与所述配置信息的条件内容信息相一致,基于所述配置信息的内容坐标信息提取所述预处理后的图像文件的内容区域;以及
对所述内容区域中的内容进行提取,以提取所述PDF文件中的文本内容。
10.根据权利要求4所述的方法,其中所述内容类型还包括颜色内容类型,所述配置文件的配置信息还包括颜色处理类型信息,并且所述方法还包括:
基于所述颜色内容类型,调用预先配置的配置文件并且获取所述配置文件的所述颜色处理类型信息;以及
基于所述颜色处理类型信息,提取所述PDF文件中的颜色内容,以提取所述PDF文件中勾选的文本内容。
11.根据权利要求1所述的方法,还包括通过以下操作预先配置所述配置文件:获取待进行配置的PDF文件;
将所述待进行配置的PDF文件转换成图片;
从所述图片中提取与所述目标文本内容相关的坐标信息和内容信息;以及
基于所述坐标信息和所述内容信息生成结构化数据,以预先配置所述配置文件。
12.一种用于提取PDF文件中的文本内容的设备,包括:
处理器;以及
存储器,其存储有用于提取PDF文件中的文本内容的程序指令,当所述程序指令由所述处理器执行时,使得所述设备实现根据权利要求1-11任意一项所述的方法。
13.一种计算机可读存储介质,其上存储有用于提取PDF文件中的文本内容的计算机可读指令,该计算机可读指令被一个或多个处理器执行时,实现如权利要求1-11任意一项所述的方法。
CN202310127582.9A 2023-02-06 2023-02-06 用于提取pdf文件中的文本内容的方法、设备和存储介质 Pending CN116311315A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310127582.9A CN116311315A (zh) 2023-02-06 2023-02-06 用于提取pdf文件中的文本内容的方法、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310127582.9A CN116311315A (zh) 2023-02-06 2023-02-06 用于提取pdf文件中的文本内容的方法、设备和存储介质

Publications (1)

Publication Number Publication Date
CN116311315A true CN116311315A (zh) 2023-06-23

Family

ID=86816001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310127582.9A Pending CN116311315A (zh) 2023-02-06 2023-02-06 用于提取pdf文件中的文本内容的方法、设备和存储介质

Country Status (1)

Country Link
CN (1) CN116311315A (zh)

Similar Documents

Publication Publication Date Title
US11244208B2 (en) Two-dimensional document processing
US10846553B2 (en) Recognizing typewritten and handwritten characters using end-to-end deep learning
US20180039853A1 (en) Object Detection System and Object Detection Method
US8958644B2 (en) Creating tables with handwriting images, symbolic representations and media images from forms
CN108229485B (zh) 用于测试用户界面的方法和装置
US11321559B2 (en) Document structure identification using post-processing error correction
JP2009500755A (ja) 文書視覚構造の文法的な解析
US11848098B2 (en) Identifying anomalous brain data
EP3816855A2 (en) Method and apparatus for extracting information, device, storage medium and computer program product
US11727701B2 (en) Techniques to determine document recognition errors
US11386685B2 (en) Multiple channels of rasterized content for page decomposition using machine learning
CN113704111A (zh) 页面自动化测试方法、装置、设备及存储介质
US20220392243A1 (en) Method for training text classification model, electronic device and storage medium
CN116311315A (zh) 用于提取pdf文件中的文本内容的方法、设备和存储介质
CN115292188A (zh) 交互界面合规性检测方法、装置、设备、介质和程序产品
US11749021B2 (en) Retrieval device, control method, and non-transitory storage medium
JP2017215893A (ja) 特許情報処理装置、特許情報処理方法、プログラム
EP2573694A1 (en) Conversion method and system
JP2020038736A (ja) 情報識別プログラム、情報識別方法、及び画像読取装置
CN110909187A (zh) 图像存储方法、图像读取方法、图像存储器及存储介质
KR102543461B1 (ko) 딥 러닝을 이용하여 특정한 속성을 선별적으로 변화시키는 이미지 조정 방법
US20240037449A1 (en) Teaching device, teaching method, and computer program product
JP6634764B2 (ja) 情報識別プログラム、情報識別方法、及び画像読取装置
CN115620859A (zh) 一种报告结构化处理的方法、装置、设备及存储介质
CN117351504A (zh) 一种电子病历表格抽取的方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination