CN111222368B

CN111222368B - 一种识别文档段落的方法、装置及电子设备

Info

Publication number: CN111222368B
Application number: CN201811418118.0A
Authority: CN
Inventors: 邓斌
Original assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd; Guangzhou Kingsoft Mobile Technology Co Ltd
Current assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd; Guangzhou Kingsoft Mobile Technology Co Ltd
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2023-09-19
Anticipated expiration: 2038-11-26
Also published as: CN111222368A

Abstract

本发明实施例提供了一种识别文档段落的方法、装置及电子设备，通过获取待处理文档，生成待处理文档图像，将待处理文档图像输入基于卷积神经网络的段落识别模型，获得待处理文档图像的段落识别结果。由于段落识别模型是利用文档图像样本及文档图像样本中的段落位置进行训练获得的，因而相对现有技术能够更准确的建立表示文档图像特征与段落位置之间关系的模型，提高了文档段落识别的准确性，使识别结果与人工识别的结果更加接近，便于进行后续的文档编辑和排版。

Description

一种识别文档段落的方法、装置及电子设备

技术领域

本发明涉及计算机技术领域，特别是涉及一种识别文档段落的方法、装置及电子设备。

背景技术

目前，在对可移植文档格式PDF进行编辑的过程中，常常需要识别出文档中的段落，以便更加快捷地对段落中的文字进行排版。识别PDF文档中段落的通常做法是：通过PDF文软件获得文档的页面参数信息，如页眉页脚的位置、左右页边距、文本对象的字体、字号等，然后结合文字行的缩进及标点符号解析出文字位置，从而确定出段落所在区域。

但是，这种利用页面参数及格式分析出的段落所在区域可能出现位置偏差，容易将多个段落识别为一个段落或者将一个段落识别为多个段落，使得识别的结果准确性不够高，可能出现与人工识别结果不符的情况，

发明内容

本发明实施例的目的在于提供一种识别文档段落的方法、装置及电子设备，以提高段落识别的准确性，获得与人工识别段落更接近的结果。具体技术方案如下：

第一方面，本发明实施例提供了一种识别文档段落的方法，所述方法包括：

获取待处理文档；所述文档中包含至少一个段落；

生成待处理文档图像；

将所述待处理文档图像输入至段落识别模型；所述段落识别模型为：预先用包含段落所在矩形区域的真实坐标的训练样本进行训练，获得的表示文档图像特征与段落所在位置之间关系的卷积神经网络模型；

获得所述待处理文档图像的段落识别结果。

可选的，所述段落识别模型，采用如下方法训练获得：

获取多个训练样本；其中每个训练样本包括文档图像及该文档图像中段落所在矩形区域的真实坐标；

将预设数量个文档图像输入待训练段落识别模型；所述待训练识别模型为预设的初始卷积神经网络模型；

利用待训练段落识别模型计算各个文档图像中段落所在矩形区域的坐标；

使用计算出的各个输入的文档图像中段落所在矩形区域的坐标、各个输入的文档图像中段落所在矩形区域的真实坐标以及预设的损失函数，计算损失值；

根据损失值判断待训练段落识别模型是否收敛；如果收敛，则待训练段落识别模型为训练完成的段落识别模型；

如果未收敛，则调整待训练段落识别模型的网络参数，返回所述将预设数量个文档图像输入待训练段落识别模型的步骤。

可选的，在所述获得所述待处理文档图像的段落识别结果的步骤后，所述方法还包括：

判断所述段落识别结果中的首行缩进是否符合预设的首行缩进条件，如果是，则在所述待处理文档中标注出段落所在的矩形区域。

可选的，所述获取多个训练样本的步骤，包括：

获取用于训练的文档；

将所述用于训练的文档转换为文档图像；其中，所述用于训练的文档中的每一页文档对应转换得到一张用于训练的文档图像；

以所述用于训练的文档图像所在版面的四个顶点中的任意一个顶点为原点，建立坐标系；

标注所述用于训练的文档图像中段落所在矩形区域的四个顶点坐标。

可选的，所述方法还包括：

获得所述待处理文档图像的段落识别结果后，检测PDF文档编辑界面中的编辑按钮是否被按下；

当检测到PDF文档编辑界面中的编辑按钮被按下时，生成工具栏，用于对识别出的段落进行编辑；其中，所述对识别出的段落进行编辑，包括：对所述识别出的段落中的文字字体、字号、颜色等进行修改。

第二方面，本发明实施例提供了一种识别文档段落的装置，所述装置包括：

获取单元，用于获取待处理文档；所述文档中包含至少一个段落；

生成单元，用于生成待处理文档图像；

识别单元，用于将所述待处理文档图像输入至段落识别模型；所述段落识别模型为：预先用包含段落所在矩形区域的真实坐标的训练样本进行训练，获得的表示文档图像特征与段落所在位置之间关系的卷积神经网络模型；

结果获得单元，用于获得所述待处理文档图像的段落识别结果。

可选的，所述段落识别模型，采用如下训练单元训练得到；

所述训练单元，包括：

样本获取模块，用于获取多个训练样本；其中每个训练样本包括文档图像及该文档图像中段落所在矩形区域的真实坐标；

输入模块，用于将预设数量个文档图像输入待训练段落识别模型；所述待训练识别模型为预设的初始卷积神经网络模型；

计算模块，用于利用待训练段落识别模型计算各个文档图像中段落所在矩形区域的坐标；

损失值计算模块，用于使用计算出的各个输入的文档图像中段落所在矩形区域的坐标、各个输入的文档图像中段落所在矩形区域的真实坐标以及预设的损失函数，计算损失值；

收敛判断模块，用于根据损失值判断待训练段落识别模型是否收敛；如果收敛，则待训练段落识别模型为训练完成的段落识别模型；

参数调整模块，用于如果未收敛，则调整待训练段落识别模型的网络参数，返回所述将预设数量个文档图像输入待训练段落识别模型的步骤。

可选的，在所述结果获得单元获得所述待处理文档图像的段落识别结果后，所述装置还包括：

判断单元，用于判断所述段落识别结果中的首行缩进是否符合预设的首行缩进条件，如果是，则在所述待处理文档中标注出段落所在的矩形区域。

可选的，所述样本获取模块，包括：

文档获取子模块，用于获取用于训练的文档；

文档转换子模块，用于将所述用于训练的文档转换为文档图像；其中，所述用于训练的文档中的每一页文档对应转换得到一张用于训练的文档图像；

坐标系建立子模块，用于以所述用于训练的文档图像所在版面的四个顶点中的任意一个顶点为原点，建立坐标系；

标注子模块，用于标注所述用于训练的文档图像中段落所在矩形区域的四个顶点坐标。

可选的，所述装置还包括：

检测单元，用于获得所述待处理文档图像的段落识别结果后，检测PDF文档编辑界面中的编辑按钮是否被按下；

文档编辑单元，用于当检测到PDF文档编辑界面中的编辑按钮被按下时，生成工具栏，用于对识别出的段落进行编辑；其中，所述对识别出的段落进行编辑，包括：对所述识别出的段落中的文字字体、字号、颜色等进行修改。

第三方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一所述的方法步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一所述的识别文档段落方法的步骤。

本发明实施例提供的一种识别文档段落的方法、装置及电子设备，通过获取待处理文档，生成待处理文档图像，将该待处理文档图像输入基于卷积神经网络的段落识别模型，获得待处理文档图像的段落识别结果。由于段落识别模型是利用文档图像样本及文档图像样本中的段落位置进行训练获得的，因而相对现有技术能够更准确的建立表示文档图像特征与段落位置之间关系的模型，提高了文档段落识别的准确性，使识别结果与人工识别的结果更加接近，便于进行后续的文档编辑和排版。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种识别文档段落的方法的流程示意图；

图2为本发明实施例提供的一种识别文档段落的装置的结构示意图；

图3为本发明实施例提供的一种电子设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了获得与人工识别更为接近的段落识别结果，本发明实施例提供了一种识别文档段落的方法、装置及电子设备。通过获取待处理文档，生成待处理文档图像，将该待处理文档图像输入基于卷积神经网络的段落识别模型，获得待处理文档图像的段落识别结果。由于段落识别模型是利用文档图像样本及文档图像样本中的段落位置进行训练获得的，因而相对现有技术能够更准确的建立表示文档图像特征与段落位置之间关系的模型，提高了文档段落识别的准确性，使识别结果与人工识别的结果更加接近，便于进行后续的文档编辑和排版。

为了便于理解本发明实施例中的技术方法，以PDF文档为例进行说明。

作为本发明实施例的一种实施方式，如图1所示，本发明实施例提供的一种文档段落识别的方法，包括：

S101，获取待处理文档；所述文档中包含至少一个段落。

S102，生成待处理文档图像。

具体的，获取待处理文档后，将待处理文档转换为待处理图像，文档中的一个页面对应生成一张待处理文档图像。其中，生成的待处理文档图像的格式可以为JPEG、PNG、BMP等。例如，将PDF文档的每一页面转换为JPEG格式。

可选的，获得待处理文档图像后，可以对其进行图像预处理，包括伽马校正、直方图均衡化等图像增强的操作，以改善文档图像的质量，提高清晰度，便于后续识别。

S103，将待处理文档图像输入至段落识别模型；所述段落识别模型为：预先用包含段落所在矩形区域的真实坐标的训练样本进行训练，获得的表示文档图像特征与段落所在位置之间关系的卷积神经网络模型。

具体的，上述段落识别模型，可以采用如下方法训练得到：

步骤一，获取多个训练样本；其中每个训练样本包括文档图像及该文档图像中段落所在矩形区域的真实坐标。

具体的，首先获取用于训练的文档，并转换为文档图像，用于训练的文档中的每一页文档对应转换得到一张用于训练的文档图像；然后以上述用于训练的文档图像所在版面的四个顶点中的任意一个顶点为原点，建立坐标系，标注该用于训练的文档图像中段落所在矩形区域的四个顶点坐标。其中，建立坐标系时可以将向上、向右延伸的方向作为坐标轴的正方向，本发明实施例对此不作具体限定，坐标轴方向一致即可。

步骤二，将预设数量个文档图像输入待训练段落识别模型；所述待训练识别模型为预设的初始卷积神经网络模型。

步骤三，利用待训练段落识别模型计算各个文档图像中段落所在矩形区域的坐标。

步骤四，使用计算出的各个输入的文档图像中段落所在矩形区域的坐标、各个输入的文档图像中段落所在矩形区域的真实坐标以及预设的损失函数，计算损失值。

步骤五，根据损失值判断待训练段落识别模型是否收敛；如果收敛，则待训练段落识别模型为训练完成的段落识别模型。

步骤六，如果未收敛，则调整待训练段落识别模型的网络参数，返回所述将预设数量个文档图像输入待训练段落识别模型的步骤。

具体的，判断待训练段落识别模型是否收敛可以有两种方式，一种方法是：按照预设的损失函数计算出的损失值小于或者等于预设的误差值，则待训练段落识别模型收敛，训练完成；另一种方法是：训练的次数达到预设的迭代次数，则待训练段落识别模型收敛，训练完成。

S104，获得待处理文档图像的段落识别结果。

可选的，获得待处理文档图像的段落识别结果后，判断所述段落识别结果中的首行缩进是否符合预设的首行缩进条件，如果否，输出段落识别错误的提示信息；如果是，则段落识别结果正确，在待处理文档中标注出段落所在的矩形区域。

可选的，获得待处理文档图像的段落识别结果后，检测PDF文档编辑界面中的编辑按钮是否被按下；当检测到PDF文档编辑界面中的编辑按钮被按下时，生成工具栏，用于对识别出的矩形区域中的文本行进行后期编辑或排版。其中，对识别出的段落进行编辑，可以包括：对上述识别出的段落中的文字字体、字号、颜色等进行修改。

本发明实施例提供的一种识别文档段落的方法，通过获取待处理文档，生成待处理文档图像，将该待处理文档图像输入基于卷积神经网络的段落识别模型，获得待处理文档图像的段落识别结果。由于段落识别模型是利用文档图像样本及文档图像样本中的段落位置进行训练获得的，因而相对现有技术能够更准确的建立表示文档图像特征与段落位置之间关系的模型，提高了文档段落识别的准确性，使识别结果与人工识别的结果更加接近，便于进行后续的文档编辑和排版。

本发明实施例提供了一种识别文档段落的装置，如图2所示，该装置包括：

获取单元210，用于获取待处理文档；所述文档中包含至少一个段落。

生成单元220，用于生成待处理文档图像。

识别单元230，用于将所述待处理文档图像输入至段落识别模型；所述段落识别模型为：预先用包含段落所在矩形区域的真实坐标的训练样本进行训练，获得的表示文档图像特征与段落所在位置之间关系的卷积神经网络模型。

结果获得单元240，用于获得所述待处理文档图像的段落识别结果。

本发明实施例提供的一种识别文档段落的装置，通过获取待处理文档，生成待处理文档图像，将该待处理文档图像输入基于卷积神经网络的段落识别模型，获得待处理文档图像的段落识别结果。由于段落识别模型是利用文档图像样本及文档图像样本中的段落位置进行训练获得的，因而相对现有技术能够更准确的建立表示文档图像特征与段落位置之间关系的模型，提高了文档段落识别的准确性，使识别结果与人工识别的结果更加接近，便于进行后续的文档编辑和排版。

作为本发明实施例的一种实施方式，该装置还包括：

训练单元，具体包括：

样本获取模块，用于获取多个训练样本；其中每个训练样本包括文档图像及该文档图像中段落所在矩形区域的真实坐标。

输入模块，用于将预设数量个文档图像输入待训练段落识别模型；所述待训练识别模型为预设的初始卷积神经网络模型。

计算模块，用于利用待训练段落识别模型计算各个文档图像中段落所在矩形区域的坐标。

损失值计算模块，用于使用计算出的各个输入的文档图像中段落所在矩形区域的坐标、各个输入的文档图像中段落所在矩形区域的真实坐标以及预设的损失函数，计算损失值。

收敛判断模块，用于根据损失值判断待训练段落识别模型是否收敛；如果收敛，则待训练段落识别模型为训练完成的段落识别模型。

作为本发明实施例的一种实施方式，该装置还包括：

判断单元，用于输出所述待处理文档图像的段落识别结果后，判断所述段落识别结果中的首行缩进是否符合预设的首行缩进条件，如果是，则在所述待处理文档中标注出段落所在的矩形区域。

作为本发明的一种实施方式，上述样本获取模块，包括：

文档获取子模块，用于获取用于训练的文档。

文档转换子模块，用于将所述用于训练的文档转换为文档图像；其中，所述用于训练的文档中的每一页文档对应转换得到一张用于训练的文档图像。

坐标系建立子模块，用于以所述用于训练的文档图像所在版面的四个顶点中的任意一个顶点为原点，建立坐标系。

作为本发明的一种实施方式，该装置还包括：

检测单元，用于获得所述待处理文档图像的段落识别结果后，检测PDF文档编辑界面中的编辑按钮是否被按下。

本发明实施例还提供了一种电子设备，如图3所示，包括处理器301、通信接口302、存储器303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信，

存储器303，用于存放计算机程序；

处理器301，用于执行存储器303上所存放的程序时，实现如下步骤：

获取待处理文档；所述文档中包含至少一个段落；

生成待处理文档图像；

获得所述待处理文档图像的段落识别结果。

本发明实施例提供的一种电子设备，通过获取待处理文档，生成待处理文档图像，将该待处理文档图像输入基于卷积神经网络的段落识别模型，获得待处理文档图像的段落识别结果。由于段落识别模型是利用文档图像样本及文档图像样本中的段落位置进行训练获得的，因而相对现有技术能够更准确的建立表示文档图像特征与段落位置之间关系的模型，提高了文档段落识别的准确性，使识别结果与人工识别的结果更加接近，便于进行后续的文档编辑和排版。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，该计算机程序被处理器执行时实现第一以下步骤：

获取待处理文档；所述文档中包含至少一个段落；

生成待处理文档图像；

获得所述待处理文档图像的段落识别结果。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种识别文档段落的方法，其特征在于，所述方法包括：

获取待处理文档；所述文档中包含至少一个段落；

生成待处理文档图像；

获得所述待处理文档图像的段落识别结果；

所述段落识别模型，采用如下方法训练获得：

将预设数量个文档图像输入待训练段落识别模型；所述待训练段落识别模型为预设的初始卷积神经网络模型；

2.根据权利要求1所述的方法，其特征在于，在所述获得所述待处理文档图像的段落识别结果的步骤后，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述获取多个训练样本的步骤，包括：

获取用于训练的文档；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.一种识别文档段落的装置，其特征在于，所述装置包括：

生成单元，用于生成待处理文档图像；

结果获得单元，用于获得所述待处理文档图像的段落识别结果；

所述段落识别模型，采用如下训练单元训练得到；

所述训练单元，包括：

输入模块，用于将预设数量个文档图像输入待训练段落识别模型；所述待训练段落识别模型为预设的初始卷积神经网络模型；

6.根据权利要求5所述的装置，其特征在于，在所述结果获得单元获得所述待处理文档图像的段落识别结果后，所述装置还包括：

7.根据权利要求5所述的装置，其特征在于，所述样本获取模块，包括：

文档获取子模块，用于获取用于训练的文档；

8.根据权利要求5所述的装置，其特征在于，所述装置还包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：实现权利要求1-4任一所述的方法步骤。