CN116933762A

CN116933762A - 一种数据抽取方法及装置

Info

Publication number: CN116933762A
Application number: CN202210331529.6A
Authority: CN
Inventors: 周煜桦
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2023-10-24

Abstract

本发明公开了一种数据抽取方法及装置，包括：对待处理的目标PDF文件进行字符解析，获得字符信息；基于所述字符信息，对所述目标PDF文件进行段落识别，获得段落信息；基于所述段落信息，对所述目标PDF文件中的段落进行元数据抽取，获得目标元数据信息。本发明基于字符信息还原了PDF文件的段落分布，然后实现了对元数据的抽取，能够有效处理不同格式的PDF文献，无需制定复杂的提取规则，提升了元数据抽取的效率和准确性。

Description

一种数据抽取方法及装置

技术领域

本发明涉及数据处理领域，特别涉及一种数据抽取方法及装置。

背景技术

PDF(Portable Document Format，便携式文档格式)是一种电子文件格式，用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。

目前对非图像格式的PDF文件的解析方式一般是先从PDF中识别出纯文本内容，进而再通过一定的规则对纯文本内容进行元数据的抽取。但是，通过纯规则对文本内容进行抽取对规则的要求会相对较高，并且规则的制定往往需要多次迭代，以及缺少相对的稳定性。降低了元数据抽取的效率和准确性。

发明内容

鉴于上述问题，本发明提供一种克服上述问题或者至少部分地解决上述问题的一种数据抽取方法及装置。

具体技术方案如下：

一种数据抽取方法，包括：

对待处理的目标PDF文件进行字符解析，获得字符信息；

基于所述字符信息，对所述目标PDF文件进行段落识别，获得段落信息；

基于所述段落信息，对所述目标PDF文件中的段落进行元数据抽取，获得目标元数据信息。

可选地，所述对待处理的目标PDF文件进行字符解析，获得字符信息，包括：

基于字符解析模型对待处理的目标PDF文件进行字符解析，获得字符信息，所述字符信息包括字符的坐标、字符大小或字符内容的一种或多种，其中，所述字符解析模型能够用于对PDF文件进行文本提取，并将提取到的文本返回为对应格式的字符串。

可选地，所述基于所述字符信息，对所述目标PDF文件进行段落识别，获得段落信息，包括：

基于所述字符的坐标以及字符大小，确定所述目标PDF文件对应的段落分布信息；

基于所述段落分布信息，确定每一段落内容；

对所述每一段落内容进行命令实体识别，得到段落类别信息作为段落信息。

可选地，所述段落类别信息包括标题段落、作者段落、作者所属机构段落、摘要关键词段落或者正文段落中的一种或多种。

可选地，所述基于所述字符的坐标以及字符大小，确定所述目标PDF文件对应的段落分布信息，包括：

基于所述字符的坐标以及字符的大小，对目标PDF文件中的字符进行分行，得到行信息；

基于所述行信息，确定行的顺序信息；

基于所述行的顺序信息对行进行分段处理，得到段落分布信息。

可选地，所述对所述每一段落内容进行命名实体识别，得到段落类别信息，包括：

基于段落类别条件对所述每一段落内容进行命名实体识别，得到段落类别信息，其中，所述段落类别识别条件包括下列一种或多种：

基于字符数量的识别条件；基于目标关键词的识别条件；基于关联字符串的识别条件。

可选地，所述基于所述段落信息，对所述目标PDF文件中的段落进行元数据抽取，获得目标元数据信息，包括：

基于所述段落信息，对所述目标PDF文件中的段落进行元数据抽取，获得初始元数据信息；

对所述初始原数据信息进行数据清洗和校正，获得目标元数据信息。

一种数据抽取装置，包括：

字符解析单元，用于对待处理的目标PDF文件进行字符解析，获得字符信息；

段落识别单元，用于基于所述字符信息，对所述目标PDF文件进行段落识别，获得段落信息；

数据抽取单元，用于基于所述段落信息，对所述目标PDF文件中的段落进行元数据抽取，获得目标元数据信息。

一种存储介质，所述存储介质包括存储的程序，其中，所述程序执行如上述中任意一项所述的数据抽取方法。

一种电子设备，包括：存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行上述任一项所述的数据抽取方法。

借由上述技术方案，本发明提供的一种数据抽取方法及装置，包括：对待处理的目标PDF文件进行字符解析，获得字符信息；基于所述字符信息，对所述目标PDF文件进行段落识别，获得段落信息；基于所述段落信息，对所述目标PDF文件中的段落进行元数据抽取，获得目标元数据信息。本发明基于字符信息还原了PDF文件的段落分布，然后实现了对元数据的抽取，能够有效处理不同格式的PDF文献，无需制定复杂的提取规则，提升了元数据抽取的效率和准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请实施例提供的一种数据抽取方法的流程示意图；

图2示出了本申请实施例提供的一种数据处理装置的结构示意图；

图3示出了本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请实施例提供了一种数据抽取方法，参见图1，该方法可以包括以下步骤：

S101、对待处理的目标PDF文件进行字符解析，获得字符信息。

其中，目标PDF文件是PDF(Portable Document Format，便携式文档格式)格式的文档，在本申请实施例中主要是针对非对象格式的PDF文件。字符指类字形单位或符号，包括字母、数字、运算符号、标点符号和其他符号，以及一些功能性符号。字符是电子计算机或无线点通信中字母、数字、符号的统称，其是数据结构中最小的数据存取单位。

在本申请实施例的一种实现方式中，基于字符解析模型对待处理的目标文件进行字符解析，获得字符信息。其中，字符解析模型能够用于对PDF文本进行文本提取，并将提取到的文本返回为对应格式的字符串。即在字符解析模型中存储有字符提取的条件及规则信息，可以自动实现对PDF文件的字符解析。具体的，字符解析模型可以通过python的pdfplumber库中的page.chars函数进行构建，pdfplumber库可迅速将pdf文档转换为易于处理的txt文档，并输出PDF文档的字符、页面、页码等信息，还可进行页面可视化操作。在通过字符解析模型进行解析时，可以将文本返回为Python字符串，便于通过python进行自动识别。

对字符进行解析时，解析内容包括字符的坐标(左上顶点以及右下角两对(x0,y0)(x1,y1))，字符的大小size，字符的内容text(具体字符，可以是中文字，英文字母以及其他符号)，将这些信息作为字符信息，便于后续的处理和应用。

S102、基于所述字符信息，对所述目标PDF文件进行段落识别，获得段落信息。

通过字符信息可以获得字符坐标及大小，然后还原PDF文本内容的段落分布，包括行与段的拼接，通过字符大小以及NER(Named Entity Recognition，命名实体识别)模型识别段落，获得段落信息。NER模型可以进行命名实体识别，命名实体是文本中具有特定意义或者指代性强的实体，通常包括人名、地名、组织机构名、日期时间、专有名词等。NER模型就是从非结构化的输入文本中抽取出上述实体，并且可以按照业务需求识别出更多类别的实体，比如产品名称、型号、价格等。因此只要是业务需要的特殊文本片段都可以称为实体，可见，相比于传统的版面分析表示段落内容，结合NER实体识别模型能够更精准地提取特殊命名实体，避免出现错误的段落划分。

S103、基于段落信息，对目标PDF文件中的段落进行元数据抽取，获得目标元数据信息。

元数据通常是指文档中的基本信息，如论文文献中的标题、作者、摘要、关键词等。可以将对应的元数据抽取条件，生成元数据抽取模型，当执行该元数据抽取模型时可以基于抽取条件，自动获得对应的元数据信息。具体的，元数据抽取是基于段落信息从相应段落中抽取出元数据，然后通过对应的预处理模型对元数据进行优化处理，即所述基于所述段落信息，对所述目标PDF文件中的段落进行元数据抽取，获得目标元数据信息，包括：基于所述段落信息，对所述目标PDF文件中的段落进行元数据抽取，获得初始元数据信息；对所述初始原数据信息进行数据清洗和校正，获得目标元数据信息。具体的，预处理方式可以采用正则以及NER模型的处理方式。对不同的实体名称进行校正，对重复的进行去重，不满足规则的数据进行清洗滤除。

例如，对论文PDF文件进行元数据抽取时，可以包括对标题的抽取，其中，标题段即为标题；作者的抽取，对作者段进行NER(中文为Bert NER英文使用Spacy)并综合逗号/分号进行切分；作者所属机构的抽取，对机构进行NER(中文为Bert NER英文使用Spacy)并综合分号/换行符/标识数字进行切分；对机构和作者的关系进行提取，当多个机构作者时往往存在标识数字；对摘要以及关键词进行提取，摘要以及关键词段需要通过正则进行清洗。其中，Bert NER是基于Bert预训练模型的命名实体识别模型。Bert是一个预训练的语言表征模型。Spacy是处理速率较快的工业级自然语言处理工具。其支持多种自然语言处理基本功能，主要功能包括分词、词性标注、词干化、命名实体识别、名词短语提取等。

本申请实施例提供的一种数据抽取方法，包括：对待处理的目标PDF文件进行字符解析，获得字符信息；基于所述字符信息，对所述目标PDF文件进行段落识别，获得段落信息；基于所述段落信息，对所述目标PDF文件中的段落进行元数据抽取，获得目标元数据信息。本发明基于字符信息还原了PDF文件的段落分布，然后实现了对元数据的抽取，能够有效处理不同格式的PDF文献，无需制定复杂的提取规则，提升了元数据抽取的效率和准确性。

在本申请实施例的一种实现方式中，所述基于所述字符信息，对所述目标PDF文件进行段落识别，获得段落信息，包括：

基于所述段落分布信息，确定每一段落内容；

其中，所述段落类别信息包括标题段落、作者段落、作者所属机构段落、摘要关键词段落或者正文段落中的一种或多种。

具体的，可以利用段落识别模型将字符拼接成行与段，段落识别模型是通过字符坐标及大小还原PDF文件中文本内容的段落分布，以及通过NER实体识别模型对段落进行识别分类的模型。

在一种实施方式中，所述基于所述字符的坐标以及字符大小，确定所述目标PDF文件对应的段落分布信息，包括：

基于所述行信息，确定行的顺序信息；

不同PDF文件具有不同的排版格式，可以先通过字符信息确定PDF文件中的行信息，然后基于行信息确定行的顺序，例如，可以通过行信息中前后字符的语义关联确定。确定了行的顺序后可以获得其排版格式，基于空行、空格等特殊字符来进行分段，得到段落分布信息，即确定该PDF文件中各个段落的分布情况。

对应的，所述对所述每一段落内容进行命名实体识别，得到段落类别信息，包括：

具体的，可以通过NER模型对命名实体进行识别，得到与之对应的段落类别。可以基于不同的段落类别特征确定与之对应的识别条件，如基于字符数量确定是否为标题段落，基于目标关键词确定是否为作者段落或者摘要段落等，基于关联字符串的识别条件可以确定是否为所属机构段落等，因为作者段和机构段经常混合，可视为一段。

以论文PDF文献为例，对本申请实施例的段落识别过程进行说明。

首先，对字符进行分行。

通常两个字符同行首先要求两个字符坐标对应的Y轴的上下限有交集，例如，字符A(Xa0，Ya0)，(Xba1,Ya1)和字符B(Xb0,Yb0)(Xb1,Yb1)；并且坐标从左到右，从下到下的分布使得X0<X1，Y0<Y1。若(Ya0<＝Yb0<＝Ya1)or(Yb0<＝Ya0<＝Yb1)时表明两个字符Y的上下限有交集。

并且，要求下一字符的x0更大但不超过一定上限，(如上限可以是50)，具体对应的条件可以是：0<(Xb0-Xa0)<＝50。基于上述判断是否同行的条件可以进行分行。

然后，纠正行的先后顺序(行的X，Y取组成字符的平均)：

(1)、按照Y轴的大小(Y0或者Y1)从小到达排序；

(2)、判断左右排版情况，左右分布的部分分别聚合后再调整为一般的从左到右的先后分布。其中，左右分布的句子(行)与下一句(行)的起始字符一般存在明显的距离，且和下一局(行)的字体大小没有明显差异。

最后，对行进行分段处理，包括：

首先计算一些分段所需的数据，例如，计算行Y的上确界Yu(组成字符Y0的最小值)和下确界Yd(组成字符Y1的最大值)；组成字符的平均size作为行的size S_l；计算上确界和前一行下确界的距离D_y；计算上确界和前一行下确界的size差距D_s。计算D_y的均值及标准差mean_dy和sigema_dy；计算S_l的均值及标准差mean_sl和sigema_sl；计算每行的ratio，ratio等于每行size的大小比上所有行size的均值。

然后基于下列判断条件，判断当前行和上一行是不是不同的段落：

(1)、行的距离/大小都大于一定阈值(mean_dy/mean_sl*ratio)；

(2)、距离和大小的乘积大于一定阈值(mean_dy*mean_sl*ratio)；

(3)、距离单独大于一定阈值((mean_dy+2*sigema_dy)*ratio)。

再对段落进行分类，具体的：

(1)、平均size最大的为标题段；

(2)、标题段之后且前列字符NER(中文为Bert NER英文使用Spacy)出(多个)人名的为作者段；

(3)、标题段之后且前列字符NER(中文为Bert NER英文使用Spacy)出(多个)机构名的为机构段；

(4)、作者段和机构段经常混合，可视为一段；

(5)、带有摘要/abstract的为摘要段；

(6)、带有关键词/keyword(s)的为关键词段。

在本申请实施例中，结合了字符的位置分布以及字符的大小，通过一定规则还原了PDF文献的段落分布，再结合NER识别进行了元数据的抽取，能够有效处理不同风格(例如左右排版以及不同期刊的编排)以及中英文文献。在进行元数据抽取之前先还原了PDF文献段落的分布，不同于传统的文本提取，能够在只改进元数据抽取模型的前提下，更精准的提取额外的元数据内容(例如，出版社发表时间等)。结合了NER实体识别模型，相比于传统的版面分析标示段落内容，能够更精准的提取相应的元数据内容(例如，多个作者名字的识别，作者名字及机构名称的切分等)。

在本申请实施例中还提供了一种数据抽取装置，参见图2，该装置可以包括：

字符解析单元201，用于对待处理的目标PDF文件进行字符解析，获得字符信息；

段落识别单元202，用于基于所述字符信息，对所述目标PDF文件进行段落识别，获得段落信息；

数据抽取单元203，用于基于所述段落信息，对所述目标PDF文件中的段落进行元数据抽取，获得目标元数据信息。

本申请实施例提供了一种数据抽取装置，包括：字符解析单元对待处理的目标PDF文件进行字符解析，获得字符信息；段落识别单元基于所述字符信息，对所述目标PDF文件进行段落识别，获得段落信息；数据抽取单元基于所述段落信息，对所述目标PDF文件中的段落进行元数据抽取，获得目标元数据信息。本发明基于字符信息还原了PDF文件的段落分布，然后实现了对元数据的抽取，能够有效处理不同格式的PDF文献，无需制定复杂的提取规则，提升了元数据抽取的效率和准确性。

进一步地，所述字符解析单元201具体用于：

在一种实施方式中，段落识别单元202包括：

第一确定子单元，用于基于所述字符的坐标以及字符大小，确定所述目标PDF文件对应的段落分布信息；

第二确定子单元，用于基于所述段落分布信息，确定每一段落内容；

识别子单元，用于对所述每一段落内容进行命令实体识别，得到段落类别信息作为段落信息。

进一步地，所述第一确定子单元具体用于：

基于所述行信息，确定行的顺序信息；

对应的，所述识别子单元具体用于：

可选地，数据抽取单元203具体用于：

所述数据抽取装置包括处理器和存储器，上述字符解析单元、段落识别单元以及数据抽取单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来提升元数据抽取的效率和准确性。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述的数据抽取方法

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述的数据处理方法。

本发明实施例提供了一种电子设备，参见图3，该电子设备30包括至少一个处理器301、以及与处理器301连接的至少一个存储器302、总线303；其中，处理器301、存储器302通过总线303完成相互间的通信；处理器301用于调用存储器中的程序指令，以执行上上述的数据抽取方法。本文中的电子设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在电子设备上执行时，适于执行初始化有如下方法步骤的程序：

一种数据抽取方法，包括：

对待处理的目标PDF文件进行字符解析，获得字符信息；

基于所述段落分布信息，确定每一段落内容；

基于所述行信息，确定行的顺序信息；

本申请是参照根据本申请实施例的方法、装置、电子设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器，使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中，电子设备包括一个或多个处理器(CPU)、存储器和总线。电子设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据抽取方法，其特征在于，包括：

对待处理的目标PDF文件进行字符解析，获得字符信息；

2.根据权利要求1所述的方法，其特征在于，所述对待处理的目标PDF文件进行字符解析，获得字符信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述字符信息，对所述目标PDF文件进行段落识别，获得段落信息，包括：

基于所述段落分布信息，确定每一段落内容；

4.根据权利要求3所述的方法，其特征在于，所述段落类别信息包括标题段落、作者段落、作者所属机构段落、摘要关键词段落或者正文段落中的一种或多种。

5.根据权利要求3所述的方法，其特征在于，所述基于所述字符的坐标以及字符大小，确定所述目标PDF文件对应的段落分布信息，包括：

基于所述行信息，确定行的顺序信息；

6.根据权利要求3所述的方法，其特征在于，所述对所述每一段落内容进行命名实体识别，得到段落类别信息，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于所述段落信息，对所述目标PDF文件中的段落进行元数据抽取，获得目标元数据信息，包括：

8.一种数据抽取装置，其特征在于，包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序执行如权利要求1至7中任意一项所述的数据抽取方法。

10.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以执行权利要求1至7任一项所述的数据抽取方法。