CN109948518A

CN109948518A - 一种基于神经网络的pdf文档内容文本段落聚合的方法

Info

Publication number: CN109948518A
Application number: CN201910201653.9A
Authority: CN
Inventors: 聂昱
Original assignee: Wuhan Wangda Data Technology Co Ltd
Current assignee: Wuhan Hanwang Data Technology Co ltd
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2019-06-28
Anticipated expiration: 2039-03-18
Also published as: CN109948518B

Abstract

本发明公开了一种基于神经网络的PDF文档内容文本段落聚合的方法，通过定义一行文本的几十个特征、把特征转换为多维向量、生成样本数据集、设计算法模型，持续训练模型，最后输出训练好的算法模型。实现对输入的两行文本，使用此算法模型，准确判断是否这两行文本应该合并到同一个段落。本发明基于神经网络的人工智能技术，研发应用程序对PDF提取的行文字自动聚合成段落，还原文字原本的句子和段落结构信息，便于PDF内容数据的重复利用；人工智能程序自动聚合的效率是人工处理无法企及的，实现机器代替人工，节约人力成本、大幅提高效率。

Description

一种基于神经网络的PDF文档内容文本段落聚合的方法

技术领域

本发明属于人工智能技术领域，涉及一种PDF文档内容文本段落聚合的方法，具体涉及一种基于神经网络的PDF文档内容文本段落聚合的方法。

背景技术

PDF(Portable Document Format，可移植文档格式)，是一种用独立于应用程序、硬件、操作系统的方式呈现文档的文件格式。这种文件格式与操作系统平台无关，在Windows、Unix和Mac OS等操作系统中都能以同样的显示效果将PDF文档呈现出来。PDF文档支持多种工具和浏览器打开，易于阅读、传输和存储，是目前最常用的文档格式之一。

PDF文档虽然能保证同样的呈现效果，但是如果想要重新编辑已经发布的PDF文档却并不简单。在PDF文档发布时，因为需要缩减文件大小、保护文档内容不被篡改等因素，很多跟文档呈现无关的信息都被丢弃了。缺少这些信息后想要还原成可编辑的原始PDF文档，就必须根据显示效果进行反向推导。本文主要关注PDF文档中文字的反向推导(以下称文字段落聚合)，即根据文字的显示效果，推导出文字原本的句子和段落结构信息。

当PDF文档进行渲染(即PDF阅读器显示PDF文档的内容)时，文字以单个字为单位被读取出来，并附带了该文字在页面上的位置坐标，渲染程序把该文字显示在对应的位置上面。如此往复，就构成了整个PDF文档上面的文字的渲染。即我们看到的文字虽然以段落的效果显示，但是在渲染程序中他们是单个附带位置坐标的文字，并没有句子或段落这种结构。

想要把这些文字还原成句子和段落的结构化信息，就需要根据位置坐标进行推导，把单个的文字聚合成句子和段落。例如横坐标相同的文字，可以认为是在同一行上的同一句话中，而如果这一行末尾没有句号，就可以认为下一行是同一句话的延续。

按照人的书写习惯和编辑习惯，能找到很多规则去辨别两个字是不是属于同一句话、两行文字是不是属于同一段落。但是每个人的习惯都不一样，根据规则制作出的文本聚合程序，难以处理所有的具体问题。同时，规则与规则之间容易发生冲突，增加程序复杂性和出错的几率。

目前的大部分程序从PDF文档中提取文字(即还原成可编辑的文本)时，只进行了简单的行文字合并，即把同一行的文字聚合出来，但是对于相邻的行是否能组成一个段落，并没有进行处理。需要人工查看每一行文字的内容，甚至与PDF文档进行比较，才能还原出真正的段落结构。这需要大量的人力资源。

发明内容

针对现有技术的不足之处，本发明提供了一种基于神经网络的PDF文档内容文本段落聚合的方法。

本发明所采用的技术方案是：一种基于神经网络的PDF文档内容文本段落聚合的方法，其特征在于，包括以下步骤：

步骤1：针对若干PDF文档，抽取各PDF文档中行文本信息特征；

步骤2：行文本信息特征向量化，将文字特征转化为数字；

步骤3：生成带标注的样本数据集；

步骤4：搭建基于神经网络结构的算法模型；

步骤5：算法模型训练；

步骤6：导出算法模型；

步骤7：利用算法模型，根据当前行与上一行文本信息特征，确定两行文本是否聚合到段落。

本发明基于神经网络的人工智能技术，研发应用程序对PDF提取的行文字自动聚合成段落，还原文字原本的句子和段落结构信息，便于PDF内容数据的重复利用；人工智能程序自动聚合的效率是人工处理无法企及的，实现机器代替人工，节约人力成本、大幅提高效率。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例的神经网络结构图，X为输入层，L1为隐藏层一，L2为隐藏层二，Y为输出层。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于神经网络的PDF文档内容文本段落聚合的方法，包括以下步骤：

步骤1：针对若干PDF文档，抽取各PDF文档中行文本信息特征；

本实施例中，行文本信息特征包括行左边距、行右边距、字符个数、行最大字符高度、行最小字符高度、行最大字符宽度、行最小字符宽度、行最大字符间距、行最小字符间距、行最大字号、行最小字号、行宽度、是否项目编号开始、首字符类型、第二字符类型、末尾字符类型、”[”个数、”]”个数、”【”个数、”】”个数、”“”个数、”””个数、”(”个数、”)”个数、”(”个数、”)”个数、”<”个数、”>”个数、”《”个数、”》”个数，共计30个特征。

步骤2：行文本信息特征向量化，将文字特征转化为数字；

本实施例中，将行文本的信息特征转换为数值，共计42维向量；其中使用one-hot编码的行文本信息特征包括首字符类型、第二字符类型、末尾字符类型，这三个特征占用了15个向量维度；字符类型one-hot编码为：是否英文数字、是否英文字母、是否中文数字、是否括号、其他，占用5个向量维度。

步骤3：生成带标注的样本数据集；

本实施例中，具体实现包括以下子步骤：

步骤3.1：将任意相邻的两行的特征向量拼接起来，构成一个样本，得到一个84维的样本向量；这个样本向量称为样本的输入数据；

步骤3.2：对每一个样本进行数据标注，标注数据为0或者1；0表示样本所含的两行不应该合并，1表示样本所含的两行应该合并；

步骤3.3：将标注好的样本数据集进行随机划分，一部分划入训练集，一部分划入测试集。

步骤4：搭建基于神经网络结构的算法模型；

请见图2，本实施例的算法模型，包括四层网络架构(X为输入层，L1为隐藏层一，L2为隐藏层二，Y为输出层)，自底向上分别为：

(1)输入层，84维；

(2)隐藏层一,50维；

(3)隐藏层二,20维；

(4)输出层，1维。

其中，输入层即为84维的样本向量，输出层是一个0～1之间的浮点数，表示这个样本应该合并的概率，如果输出层的值大于等于0.5，则认为此样本所含两行应该合并；

每一层的数据经过一个全连接的线性变换和一个激活函数计算得到下一层；第一层到第二层、第二层到第三层的激活函数为Relu，第三层到第四层的激活函数为Sigmoid；

神经网络的损失函数为平方误差函数J；

其中，h(x)代表神经网络的输出，y代表标注数据，m代表训练集的样本数量。

步骤5：训练算法模型；

本实施例中，基于训练集的数据训练上一个步骤所搭建的神经网络，直到损失函数极小化收敛。

步骤6：导出算法模型；

步骤7：利用算法模型，根据当前行与上一行文本信息特征，确定两行文本是否聚合到段落；

本实施例中，输入两行文字，使用步骤6中导出的算法模型，根据当前行与上一行文本信息特征，计算此两行文字的聚合值，如果值大于等于0.5则聚合，如果值小于0.5则不聚合。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于神经网络的PDF文档内容文本段落聚合的方法，其特征在于，包括以下步骤：

步骤1：针对若干PDF文档，抽取各PDF文档中行文本信息特征；

步骤2：行文本信息特征向量化，将文字特征转化为数字；

步骤3：生成带标注的样本数据集；

步骤4：搭建基于神经网络结构的算法模型；

步骤5：训练算法模型；

步骤6：导出算法模型；

2.根据权利要求1所述的基于神经网络的PDF文档内容文本段落聚合的方法，其特征在于：步骤1中，所述行文本信息特征包括行左边距、行右边距、字符个数、行最大字符高度、行最小字符高度、行最大字符宽度、行最小字符宽度、行最大字符间距、行最小字符间距、行最大字号、行最小字号、行宽度、是否项目编号开始、首字符类型、第二字符类型、末尾字符类型、”[”个数、”]”个数、”【”个数、”】”个数、”“”个数、”””个数、”(”个数、”)”个数、”(”个数、”)”个数、”<”个数、”>”个数、”《”个数、”》”个数，共计30个特征。

3.根据权利要求2所述的基于神经网络的PDF文档内容文本段落聚合的方法，其特征在于：步骤2中，将行文本的信息特征转换为数值，共计42维向量；其中使用one-hot编码的行文本信息特征包括首字符类型、第二字符类型、末尾字符类型，这三个特征占用了15个向量维度；字符类型one-hot编码为：是否英文数字、是否英文字母、是否中文数字、是否括号、其他，占用5个向量维度。

4.根据权利要求1所述的基于神经网络的PDF文档内容文本段落聚合的方法，其特征在于：步骤3的具体实现包括以下子步骤：

5.根据权利要求1所述的基于神经网络的PDF文档内容文本段落聚合的方法，其特征在于：步骤4中所述算法模型，包括四层网络架构，自底向上分别为输入层，84维；隐藏层一，50维；隐藏层二，20维；输出层，1维；

其中输入层即为84维的样本向量，输出层是一个0～1之间的浮点数，表示这个样本应该合并的概率，如果输出层的值大于等于0.5，则认为此样本所含两行应该合并；

神经网络的损失函数为平方误差函数J；

6.根据权利要求1所述的基于神经网络的PDF文档内容文本段落聚合的方法，其特征在于：步骤5中，基于训练集的数据训练上一个步骤所搭建的神经网络，直到损失函数极小化收敛。

7.根据权利要求1-6任意一项所述的基于神经网络的PDF文档内容文本段落聚合的方法，其特征在于：步骤7中，输入两行文字，使用步骤6中导出的算法模型，根据当前行与上一行文本信息特征，计算此两行文字的聚合值，如果值大于等于0.5则聚合，如果值小于0.5则不聚合。