CN110807309A

CN110807309A - 一种pdf文档的内容类型识别方法、装置及电子设备

Info

Publication number: CN110807309A
Application number: CN201810861695.0A
Authority: CN
Inventors: 邓斌
Original assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd; Guangzhou Kingsoft Mobile Technology Co Ltd
Current assignee: Beijing Kingsoft Office Software Inc; Zhuhai Kingsoft Office Software Co Ltd; Guangzhou Kingsoft Mobile Technology Co Ltd
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2020-02-18
Anticipated expiration: 2038-08-01
Also published as: CN110807309B

Abstract

本发明实施例提供了一种PDF文档的内容类型识别方法、装置及电子设备，方案包括：获取PDF格式的待识别文档，提取待识别文档的特征数据，将特征数据作为输入数据，输入预先训练的神经网络模型，得到待识别文档的内容类型。采用本发明实施例提供的方案，可以实现对PDF文档的内容类型进行识别，进而根据PDF文档的内容类型，为用户带来更好的使用体验。

Description

一种PDF文档的内容类型识别方法、装置及电子设备

技术领域

本发明涉及文档识别技术领域，特别是涉及一种PDF文档的内容类型识别方法、装置及电子设备。

背景技术

PDF(Portable Document Format，便携式文档格式)文档是一种电子文件格式。这种文档格式与操作系统的平台无关，也就是说，PDF文档不管是在Windows，Unix或者Mac OS等操作系统中都是通用的。这一特点使得PDF文档成为在网络上进行电子文档发行和数字化信息传播的理想文档格式。越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件开始使用PDF格式，生成对应的PDF文档。

发明内容

本发明实施例的目的在于提供一种PDF文档的内容类型识别方法、系统及电子设备，以实现对PDF文档的内容类型进行识别。具体技术方案如下：

本发明实施例提供了一种PDF文档的内容类型识别方法，所述方法包括：

获取PDF格式的待识别文档；

提取所述待识别文档的特征数据，所述特征数据包括内容特征数据和结构特征数据；

将所述特征数据作为输入数据，输入预先训练的神经网络模型，得到所述待识别文档的内容类型，其中，所述神经网络模型为基于样本数据进行训练得到的，所述样本数据包括PDF格式的样本文档，以及所述样本文档的实际内容类型。

进一步的，提取所述待识别文档的特征数据，所述特征数据包括内容特征数据和结构特征数据，包括：

提取所述待识别文档所包含的各部分内容，作为内容特征数据；

确定所述各部分内容之间的关联关系，作为结构特征数据。

进一步的，提取所述待识别文档所包含的各部分内容，包括：

针对所述待识别文档，提取该文档中包含的文字信息和图片信息；

所述确定所述各部分内容之间的关联关系，包括：

针对所述待识别文档中包含有文字信息，基于文本分类方法，获取预处理后的文字信息，根据循环神经网络模型，确定文字之间的关联关系以及上下文之间的关联关系；

针对所述待识别文档中包含有图片信息，基于图像识别技术，获取滤波后的图片，根据卷积神经网络模型，通过多级卷积和池化，确定所述图片中各部分之间的关联关系；

针对所述待识别文档中包含有文字信息和图片信息，根据深度学习算法，确定所述文字信息与所述图片信息在内容以及布局上的关联关系。

进一步的，所述神经网络模型的训练过程，包括：

获取所述样本文档；

提取所述样本文档的样本特征数据，所述样本特征数据包括样本内容特征数据和样本结构特征数据；

将所述样本特征数据作为输入数据，输入采用当前网络参数的预设结构的神经网络，得到所述样本文档的内容类型识别结果，在首次训练时所述当前网络参数为预设的初始网络参数；

将所述样本文档的内容类型识别结果，与所述样本文档的实际内容类型进行比较，得到表示类型偏差的损失值；

当基于所述损失值确定所述预设结构的神经网络收敛时，完成训练，得到由所述预设结构的神经网络和所述当前网络参数组成的神经网络模型；

当基于所述损失值确定所述预设结构的神经网络不收敛时，按照预设调整方式，调整所述当前网络参数，得到新的网络参数，并采用所述新的网络参数，进行下一次训练。

进一步的，将所述样本文档的内容类型识别结果，与所述样本文档的实际内容类型进行比较，得到表示类型偏差的损失值，包括：

基于所述样本文档的文档类型识别结果，根据MSE损失函数，计算该结果与其实际内容类型之间的偏差，作为损失值；

其中，所述损失值表示为：

L表示所述损失值，n表示已经输入所述神经网络模型的样本文档数量，y′_i表示第i个样本文档对应的文档类型识别结果对应的数值，y_i表示第i个样本文档对应的实际文档类型表示的数值。

进一步的，当基于所述损失值确定所述预设结构的神经网络不收敛时，按照预设调整方式，调整所述当前网络参数，得到新的网络参数，包括：

当基于所述损失值确定所述预设结构的神经网络不收敛时，基于梯度下降法，计算所述网络参数的变化量，将所述变化量与当前网络参数的差，作为新的网络参数；

其中，针对所述神经网络中第i层的第j个神经元，其网络参数包括其权重w_ij和偏置量θ_ij，则其新的网络参数w′_ij和θ′_ij表示为：

α表示学习率，

表示损失函数对偏置量的梯度值，

表示损失函数对偏置量的梯度值。

本发明实施例提供了一种PDF文档的内容类型识别装置，所述装置包括：

待识别文档获取模块，用于获取PDF格式的待识别文档；

特征数据提取模块，用于提取所述待识别文档的特征数据，所述特征数据包括内容特征数据和结构特征数据；

内容类型确定模块，用于将所述特征数据作为输入数据，输入预先训练的神经网络模型，得到所述待识别文档的内容类型，其中，所述神经网络模型为基于样本数据进行训练得到的，所述样本数据包括PDF格式的样本文档，以及所述样本文档的实际内容类型。

进一步的，特征数据提取模块，包括：

内容特征数据提取子模块，用于提取所述待识别文档所包含的各部分内容，作为内容特征数据；

结构特征数据确定子模块，用于确定所述各部分内容之间的关联关系，作为结构特征数据。

进一步的，内容特征数据提取子模块，具体用于针对所述待识别文档，提取该文档中包含的文字信息和图片信息；

结构特征数据确定子模块，具体用于针对所述待识别文档中包含有文字信息，基于文本分类方法，获取预处理后的文字信息，根据循环神经网络模型，确定文字之间的关联关系以及上下文之间的关联关系；针对所述待识别文档中包含有图片信息，基于图像识别技术，获取滤波后的图片，根据卷积神经网络模型，通过多级卷积和池化，确定所述图片中各部分之间的关联关系；针对所述待识别文档中包含有文字信息和图片信息，根据深度学习算法，确定所述文字信息与所述图片信息在内容以及布局上的关联关系。

进一步的，上述装置，还包括：

样本文档获取模块，用于获取所述样本文档；

样本特征数据提取模块，用于提取所述样本文档的样本特征数据，所述样本特征数据包括样本内容特征数据和样本结构特征数据；

识别结果获取模块，用于将所述样本特征数据作为输入数据，输入采用当前网络参数的预设结构的神经网络，得到所述样本文档的内容类型识别结果，在首次训练时所述当前网络参数为预设的初始网络参数；

损失值计算模块，用于将所述样本文档的内容类型识别结果，与所述样本文档的实际内容类型进行比较，得到表示类型偏差的损失值；

模型生成模块，用于当基于所述损失值确定所述预设结构的神经网络收敛时，完成训练，得到由所述预设结构的神经网络和所述当前网络参数组成的神经网络模型；

网络参数调整模块，用于当基于所述损失值确定所述预设结构的神经网络不收敛时，按照预设调整方式，调整所述当前网络参数，得到新的网络参数，并采用所述新的网络参数，进行下一次训练。

进一步的，损失值计算模块具体用于基于所述样本文档的文档类型识别结果，根据MSE损失函数，计算该结果与其实际内容类型之间的偏差，作为损失值；

其中，所述损失值表示为：

进一步的，网络参数调整模块，具体用于当基于所述损失值确定所述预设结构的神经网络不收敛时，基于梯度下降法，计算所述网络参数的变化量，将所述变化量与当前网络参数的差，作为新的网络参数；

α表示学习率，

表示损失函数对偏置量的梯度值，表示损失函数对偏置量的梯度值。

本发明实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现任一PDF文档的内容类型识别方法步骤。

本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的PDF文档的内容类型识别方法。

本发明实施例提供的一种PDF文档的内容类型识别方法、系统及电子设备，可以获取PDF格式的待识别文档，提取待识别文档的特征数据，将特征数据作为输入数据，输入预先训练的神经网络模型，得到待识别文档的内容类型。采用本发明实施例可以实现对PDF文档的内容类型进行识别。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种PDF文档的内容类型识别方法的流程图；

图2为本发明实施例提供的一种PDF文档内容类型识别的神经网络训练方法流程图；

图3为本发明实施例提供的一种PDF文档的内容类型识别装置的结构示意图之一；

图4为本发明实施例提供的一种PDF文档内容类型识别装置的结构示意图之二；

图5为本发明实施例提供的一种电子设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，针对PDF格式的文档进行编辑或者阅读等操作的过程中，服务器仅仅是将其作为一个PDF文档进行处理的，并没有针对不同内容类型的PDF文档为用户提供特定的功能服务，例如：为杂志或者漫画这种类型的PDF文档提供专门的阅读模式，提升用户的使用体验。针对上述问题其主要原因在于现有技术中并没有对PDF文档的内容类型进行识别的技术。

在本发明实施例提供的方案中，通过获取PDF格式的待识别文档，提取待识别文档的特征数据，将特征数据作为输入数据，输入预先训练的神经网络模型，得到待识别文档的内容类型。通过上述方案实现对PDF文档的内容类型进行识别，进而根据PDF文档的内容类型，为用户带来更好的使用体验。

本发明实施例提供了一种PDF文档的内容类型识别方法，如图1所示，可以包括以下步骤：

步骤S101，获取PDF格式的待识别文档。

在本步骤中，可以获取用户选择的PDF格式的文档，作为待识别文档。

具体的，可以获取上述PDF格式的文档中的全部内容信息，作为待识别文档中的文档内容；也可以获取上述PDF格式的文档中的部分内容信息，作为待识别文档中的文档内容。

步骤S102，提取待识别文档的特征数据。

在本步骤中，提取待识别文档中的特征数据。其中，待识别文档的特征数据可以包括该文档的内容特征数据和结构特征数据。

具体的，针对待识别文档，可以提取该文档中包含的各部分内容作为内容特征数据；根据该文档内容特征数据，确定该文档各部分内容之间的关联关系，作为结构特征数据，其中，内容特征数据可以是文字信息，也可以是图片信息。当待识别文档为小说这种类型的文档时，其内容特征数据只包含文字信息；当待识别文档为漫画这种类型的文档时，其内容特征数据只包含图片信息；当待识别文档为杂志这类文档时，其内容特征数据包含文字信息和图片信息。因此，待识别文档的内容特征数据中包含的文字信息和图片信息，需要根据待识别文档的具体内容来确定。

针对待识别文档中包含有文字信息，可以基于文本分类方法，获取预处理后的文字信息，根据循环神经网络模型，确定文字之间的关联关系以及上下文之间的关联关系；

针对待识别文档中包含有图片信息，可以基于图像识别技术，获取滤波后的图片，根据卷积神经网络模型，通过多级卷积和池化，确定图片中各部分之间的关联关系；

针对待识别文档中包含有文字信息和图片信息，根据深度学习算法，确定文字信息与图片信息在内容以及布局上的关联关系。

进一步的，在提取特征数据过程中，可以存在以下几种情况：

第一种情况，针对上述待识别文档，提取特征数据时，其内容特征数据只包含文字信息。此时，提取待识别文档的特征数据，具体实施方式可以包括：

根据文本分类方法，提取待识别文档中的文字信息，并进行预处理。将待识别文档中的文字信息进行分词和去停用词，例如，可以采用字符串匹配分词法，全切分法或者字构词的分词法等方法实现分词，而去停用词则可以通过维护一个停用词表，在分词过程中过滤掉停用词表中的词语，其中，停用词表中可以包括一些语气词、连词、介词等对文档类型识别的没有意义的词语。在分词之后，根据分词的结果，采用WordEmbedding或者Word2vec算法将分词结果映射到高维空间，生成特征向量。

例如，“苹果是一种水果”利用全切分法进行分词，得到的结果可以是“苹，果，是，一，种，水，果”，也可以是“苹果，是，一种，水果”等多种组合形式。而去停用词则可以将其中的“一”字过滤掉。采用WordEmbedding方法表示“苹果是一种水果”和“小明很喜欢吃苹果”这两句话。预设“苹”用1表示，“果”用2表示，“是”用3表示，“一”用4表示，“种”用5表示，“水”用6表示，“小”用7表示，“明”用8表示，“很”用9表示，“喜”用10表示，“欢”用11表示，“吃”用12表示。分词后每一个字可以由特定的向量表示，例如，“苹果是一种水果”中“苹果”的“果”可以表示为向量“水果”的“果”可以表示为向量

“小明很喜欢吃苹果”中的“果”可以表示为向量

同理，因为分词的结果也可以是“苹果是一种水果”和“小明很喜欢吃苹果”，此时，“苹果是一种水果”可以表示为向量

“小明很喜欢吃苹果”可以表示为向量

将预处理后的文字信息，按照待识别文档中描述的顺序输入循环神经网络，根据输入数据之间的时序特征，循环神经网络可以确定每一个文字之间的关联关系以及上下文之间的关联关系。

仍旧以上述“苹果是一种水果”和“小明很喜欢吃苹果”这两句话为例进行说明。假设“苹果是一种水果”这一句在待识别文档中描述顺序在“小明很喜欢吃苹果”这句之前，则将“苹果是一种水果”和“小明很喜欢吃苹果”对应的特征向量依次输入循环神经网络，根据输入的先后顺序，循环神经网络可以确定输入的信息之间存在的关联关系可以是“苹果-水果”，“吃-苹果”，“小明-喜欢-苹果”，“吃-水果”，“小明-吃-水果”等。

在循环神经网络中，循环神经网络通过不断地提取待上传文档中的内容特征数据和结构特征数据，根据提取的特征数据，确定待识别文档中文字之间的关联关系，上下文之间的关联关系，进而确定待识别文档的内容。

第二种情况，针对上述待识别文档，提取特征数据时，其内容特征数据只包含图片信息。此时，提取待识别文档的特征数据，具体实施方式可以包括：

提取待识别文档中包含的所有图片，作为内容特征数据。

针对内容特征数据中的图片，根据图像识别技术，对图片进行预处理。其中，预处理的过程可以是按照预设的规则分割待识别文档中的图片，针对分割后的每一个子图片，根据该子图片每一个像素点处的红、绿、蓝的灰度值，生成三个堆叠的二维矩阵。当然，预处理的过程也可以是将待识别文档中的图片转为灰度图片，按照预设的规则分割该灰度图片，针对分割后的每一个子灰度图片，根据该子灰度图片中每一个像素点处的灰度值，生成一个二维矩阵。

将上述每一个二维矩阵作为输入数据，输入卷积神经网络，通过多级卷积和池化，确定图像分割后的各部分之间的关联关系。

例如，现有一张大小为640*640像素的灰度图像，该灰度图像中仅有一只老鼠的图像。此时，可以按照8*8的大小分割该图像，得到64个子图像，且每个子图像的大小为80*80像素。针对每一个子图像，可以根据每一个像素点处的灰度值，生成一个二维矩阵。按照每一个子图像在分割前的灰度图像中的相对位置，排列对应的二维矩阵，得到全排列的二维矩阵。假设卷积模板的大小为3*3，利用卷积模板在全排列的二维矩阵上滑动，通过计算全排列的二维矩阵和卷积模板重合区域的卷积结果，确定待识别文档中图片信息的关联关系。再利用平均池化或者最大池化，对卷积确定的关联关系进行进一步提取。通过多级卷积和池化过程，确定每一个子图像中的关联关系，如，老鼠头与耳朵的连接关系，眼睛鼻子之间相对位置关系等，进而识别待识别文档中的图片信息。

第三种情况，针对上述待识别文档，提取特征数据时，其内容特征数据不仅包含文字信息，还包含图片信息。此时，提取待识别文档的特征数据，具体实施方式可以包括：

提取待识别文档中的内容结构特征。

根据上述第一种情况中的方法，针对待识别文档中的文字信息，提取文字之间的关联关系，上下文之间的关联关系，针对待识别文档中的图片信息，提取图片中各部分之间的关联关系，除此以外，还需要根据深度学习算法，提取文字与图片之间的关联关系。

假设现有一待识别文档是学术论文，其中包括论文的描述文字以及对应的实验图片。此时，在提取特征数据时，其内容特征数据可以有该学术论文中的描述文字，如：目录内容，摘要内容，正文内容等，还有该学术论文中的实验图片；那么，该学术论文的结构特征数据则可以包括整篇论文中每一个字之间的关联关系，论文中每一个部分之间关联关系，实验图片中各部分之间的连接关系，以及论文中的内容文字与实验图片之间的关联关系等。如，论文中多次出现同一个专有名词之间的关联关系，论文摘要、关键字、以及正文之间的关联关系，图片中的信息与图片标记之间关联关系，图片与图片描述的文字之间的关联关系等。

需要说明的是，上述关于特征数据的提取，采用的是神经网路提取特征数据，除此以外，还可以采用现有技术中的其他方法实现。例如，采用Apriori算法对待识别文档提取频繁集，对于频繁集中的每个集合，分析其子集之间的关联关系，如，求各子集的交集、并集和补集等表示各子集之间的关联关系，并计算每一种关联关系之间的支持度以及置信度，进而确定强关联关系。

步骤S103，将特征数据作为输入数据，输入预先训练的神经网络模型，得到待识别文档的内容类型。

在本步骤中，将特征数据作为输入数据，输入到预先训练的神经网络模型中，神经网络模型根据训练时得到的判断规则，对输入数据进行分析，输出待识别文档的内容类型。

进一步的，针对该神经网络模型，假设训练得到的判断规则中有一个是：若文档值仅包含文字信息，且该文字信息中有大量的人物姓名，每一个人物姓名又关联着其他多个人物姓名，形成一个巨大的人物关系网络，则该文档是小说。现有一待识别文档，将根据待识别文档提取的特征数据，输入上述神经网络模型后，进过上述神经网络判断后符合上述判断规则，此时，该神经网络对该待识别文档内容类型判断结果为小说，并输出该判断结果。

在上述PDF文档内容类型识别方法的一个实施例中，上述步骤S103中神经网络模型的训练过程，如图2所示，可以包括以下步骤：

步骤S201，获取样本文档。

在本步骤中，获取大量已知内容类型的文档作为样本文档。

具体的，获取大量的小说、杂志、试卷、漫画等不同类型的文档作为样本文档。

步骤S202，提取样本文档的样本特征数据。

在步骤中，可以采用上述步骤S102中提取待识别文档的特征数据相同的方法，提取样本文档中的内容特征参数和结构特征参数，作为样本特征数据。

步骤S203，将样本特征数据作为输入数据，输入采用当前网络参数的预设结构的神经网络，得到样本文档的内容类型识别结果。

在本步骤中，将样本特征数据作为输入数据，输入预设结构的神经网络中，该神经网络根据当前的网络参数，输出样本文档的内容类型识别结果。其中，在首次训练时，上述当前网络参数为预先设置的初始网络参数。

具体的，在首次训练之前，可以采用卷积神经网络的网络结构作为上述预设结构的神经网络，并预设该神经网络中的初始网络参数，将样本特征参数作为输入数据输入神经网络中，输入数据在神经网络中，按照该神经网络模型的结构和初始网络参数进行计算，直至输出其对应的类型识别结果。其中，上述卷积神经网络模型的网络结构可以包括输入层，卷积池化层，全连接层，以及输出层，数据在神经网络中按照上述结构的顺序依次传递直至输出，初始网络参数为初始化后的权重值以及偏置量。

进一步的，针对上述神经网络模型，任意选取一个节点作为当前节点，则该当前节点的值x＇可以表示为：

其中，n表示当前节点所在层的上一层节点中将其数值传递给当前节点的节点数，x_i表示上一层的节点中将其数值传递给当前节点的节点中的第i个节点，w_i上述第i个节点对应的权重，θ_i表示上述第i个节点与当前节点传递过程中的偏置量。

步骤S204，将样本文档的内容类型识别结果，与样本文档的实际内容类型进行比较，得到表示类型偏差的损失值。

在本步骤中，根据样本文档的内容类型识别结果，将该结果与样本文档的实际内容类型进行比较，得到神经网络输出类型与实际类型之间偏差的损失值。

具体的，基于样本文档的文档类型识别结果，可以根据MSE损失函数，计算该文档类型识别结果与其实际内容类型之间的偏差，作为损失值；

其中，损失值L可以表示为：

n表示已经输入神经网络模型的样本文档数量，y′_i表示第i个样本文档对应的文档类型识别结果对应的数值，y_i表示第i个样本文档对应的实际文档类型表示的数值。

步骤S205，当基于损失值确定预设结构的神经网络收敛时，完成训练，得到由预设结构的神经网络和当前网络参数组成的神经网络模型。

具体的，可以基于损失值与预设阈值的大小，将损失值低于预设阈值定义为收敛。当基于损失值确定预设结构的神经网络收敛时，训练过程完成，得到由预设结构的神经网络和当前网络参数组成的神经网络模型。此时，该神经网络的结构，就是步骤S103中预先训练的神经网络模型对应的网络结构，该神经网络中的网路参数，就是步骤S103中预先训练的神经网络模型对应的网络参数。

步骤S206，当基于损失值确定预设结构的神经网络不收敛时，按照预设调整方式，确定新的网络参数，并采用新的网络参数，进行下一次训练。

具体的，可以基于损失值与预设阈值的大小，将损失值不低于预设阈值定义为不收敛。此时，可以基于梯度下降法，计算网络参数的变化量，将变化量与当前网络参数的差，作为新的网络参数，并根据新的网络参数，进行下一次训练；

进一步的，当基于损失值确定预设结构的神经网络不收敛时，针对神经网络中第i层的第j个神经元，其当前网络参数可以包括其权重w_ij和偏置量θ_ij，则其新的网络参数w′_ij和θ′_ij可以表示为：

α表示学习率，表示损失函数对偏置量的梯度值，

表示损失函数对偏置量的梯度值，其中，学习率α的大小主要控制神经网络收敛的速度，可以是自定义设置的。

需要说明的是，关于上述步骤S205和步骤S206的执行顺序，这两个步骤的执行需要根据神经网络是否收敛来确定，当神经网络收敛时，执行步骤S205，当神经网络不收敛时，执行步骤S206。在步骤S206中，当新的神经网络参数确定后，需要重复执行上述步骤S201至步骤S204的过程，每一次重复过程结束后，都要判断神经网络是否收敛，只有当神经网络收敛时，执行步骤S205，结束训练过程。除此以外，关于神经网络是否收敛的判断，也可以通过统计不同内容类型的样本文档训练的次数来判断，当训练次数达到预设阈值时，认为神经网络收敛，当训练次数未到达预设阈值时，认为神经网络未收敛。例如，针对每一种内容类型的样本文档，只有当训练次数达到都5000次时，才算收敛，可以结束训练。

综上所述，根据本发明实施例提供的一种PDF文档的内容类型识别方法，可以根据PDF文档中的内容，实现对PDF文档的内容类型进行识别，进而可以根据PDF文档的内容类型，为用户带来更好的使用体验。

在本发明实施例中，针对待识别文档的内容类型进行识别，简单来说就是对待识别文档的内容中的特征数据进行提取，以及根据提取的特征数据进行回归分析，判断待识别文档的内容类型。关于待识别文档的特征数据的提取可以采用上述步骤S102中提供的方法。而根据特征数据进行回归分析则可以根据现有的softmax回归算法、逻辑回归算法等，得到待识别文档的内容类型。因此，上述神经网络的具体结构可以多种网络结构实现，例如，前馈结构，循环结构，对连接结构以及全连接结构等。

具体的，根据上述步骤S102和步骤S103可知，在步骤S102中，已经确定了待识别文档中的内容特征数据以及结构特征数据，因此，在步骤S103中，上述神经网络的主要功能是，根据特征数据，进行回归计算，得到待识别文档的内容类型。

以全连接结构为例进行说明，假设现待识别文档中为一本漫画，根据步骤S102可以得到的内容特征数据可以包括，每一页漫画中文字以及图片，得到的机构特征数据有，每一页文字与文字之间的关联关系，图片与图片之间的关联关系，文字与图片之间的关联关系，以及当前页与其他页内容特征数据之间的关联关系。将上述特征数据输入步骤S103中的神经网络，全连接这些特征数据，进行加权计算，在根据回归算法，对加权计算结果进行回归，将回归的值与训练时文档内容类型的预设值进行比较，识别待识别文档的内容。

具体的，在全连接结构中，首先，对步骤S102得到的每一特征数据，按照不同权重，进行加权计算。例如，可以选择将每一页漫画中相同人物的表情的特征数据的权重设定为1，其他特征数据设定为0，计算所有特征数据的加权和，从而将所有的人物表情变化组合在一起，识别人物的表情变化；也可以将每一页背景的变化的特征数据的权重设定为1，其他特征数据的权重设定为0，计算所有特征数据的加权和，从而将所有的背景变化组合在一起，识别故事的时间变化；以此类推，通过全连接结构得到上述漫画中的所有故事情节，人物关系的等有关该漫画的相关信息。然后，将这些相关信息通过回归算法表示出来，例如，有图片信息用1表示，有文字信息有2表示，文字与图片的位置关系是嵌套用5表示，有人物关系用4表示等，将上述漫画的相关信息表示出来，接下来可以采用数学方式进行计算，如，求上述所有值的平均数或者加权平均数等方式，得到一个确定的值。最后，将该确定的值与训练时样本文档对应的内容类型的预设值作比较，在误差允许范围内，最相近的预设值对应的文档内容类型就是上述神经网络的输出值。例如，可以计算上述漫画的所有相关信息经过回归算法处理后的平均值，假设该平均值为7.5，上述神经网络在训练时漫画的预设值为7，允许的误差范围是正负1之间，则将7.5与7相比，在误差允许范围内，上述神经网络输出的内容类型是漫画。

在本发明实施例中，对于待识别文档的识别过程，其特征数据的提取与特征数据的识别文档的内容类型是相互独立的，并不是有由同一神经网络模型完成的，但是在实际识别过程中，是可以将待识别文档作为输入数据直接输入神经网络，由该神经网络模型按照上述步骤提取待识别文档的特征数据，然后根据特征数据识别文档的内容类型。以卷积神经网络为例，可以将待识别文档以二进制文件或者图片格式等形式输入神经网络，通过多级卷积池化处理，再利用全连接结构将卷积池化处理的结果进行回归处理，得到文档的内容类型。除此以外，上述文档的内容类型对应的预设值，可以是预先设定的一个固定值，也可以是采用非监督式学习方法，根据样本文档实际输出值设定的一个取值区间。

综上所述，在本发明实施例中，上述神经网络的训练方法可以采用监督式学习方法或者非监督式学习方法，而该神经网络的具体结构则可以采用多种现有神经网络的结构，如，卷积神经网络，循环神经网络，以及长短期记忆网络(LSTM神经网络)等多种网络结构。

基于同一发明构思，根据本发明提供的上述PDF文档的内容类型识别方法，本发明实施例还提供了一种PDF文档的内容类型识别装置，如图3所示，可以包括以下模块：

待识别文档获取模块301，用于获取PDF格式的待识别文档；

特征数据提取模块302，用于提取待识别文档的特征数据，特征数据包括内容特征数据和结构特征数据；

内容类型确定模块303，用于将特征数据作为输入数据，输入预先训练的神经网络模型，得到待识别文档的内容类型，其中，神经网络模型为基于样本数据进行训练得到的，样本数据包括PDF格式的样本文档，以及样本文档的实际内容类型。

进一步的，特征数据提取模块302，包括：

内容特征数据提取子模块，用于提取待识别文档所包含的各部分内容，作为内容特征数据；

结构特征数据确定子模块，用于确定各部分内容之间的关联关系，作为结构特征数据。

进一步的，内容特征数据提取子模块，具体用于针对待识别文档，提取该文档中包含的文字信息和图片信息；

结构特征数据确定子模块，具体用于针对待识别文档中包含有文字信息，基于文本分类方法，获取预处理后的文字信息，根据循环神经网络模型，确定文字之间的关联关系以及上下文之间的关联关系；针对待识别文档中包含有图片信息，基于图像识别技术，获取滤波后的图片，根据卷积神经网络模型，通过多级卷积和池化，确定图片中各部分之间的关联关系；针对待识别文档中包含有文字信息和图片信息，根据深度学习算法，确定文字信息与图片信息在内容以及布局上的关联关系。

进一步的，上述本发明实施例提供的一种PDF文档的内容类型识别装置，如图4所示，还可以包括以下模块：

样本文档获取模块401，用于获取样本文档；

样本特征数据提取模块402，用于提取样本文档的样本特征数据，样本特征数据包括样本内容特征数据和样本结构特征数据；

识别结果获取模块403，用于将样本特征数据作为输入数据，输入采用当前网络参数的预设结构的神经网络，得到样本文档的内容类型识别结果，在首次训练时当前网络参数为预设的初始网络参数；

损失值计算模块404，用于将样本文档的内容类型识别结果，与样本文档的实际内容类型进行比较，得到表示类型偏差的损失值；

模型生成模块405，用于当基于损失值确定预设结构的神经网络收敛时，完成训练，得到由预设结构的神经网络和当前网络参数组成的神经网络模型；

网络参数调整模块406，用于当基于损失值确定预设结构的神经网络不收敛时，按照预设调整方式，调整当前网络参数，得到新的网络参数，并采用新的网络参数，进行下一次训练。

进一步的，损失值计算模块404具体用于基于样本文档的文档类型识别结果，根据MSE损失函数，计算该结果与其实际内容类型之间的偏差，作为损失值；

其中，损失值表示为：

L表示损失值，n表示已经输入神经网络模型的样本文档数量，y′_i表示第i个样本文档对应的文档类型识别结果对应的数值，y_i表示第i个样本文档对应的实际文档类型表示的数值。

进一步的，网络参数调整模块406，具体用于当基于损失值确定预设结构的神经网络不收敛时，基于梯度下降法，计算网络参数的变化量，将变化量与当前网络参数的差，作为新的网络参数；

其中，针对神经网络中第i层的第j个神经元，其网络参数包括其权重w_ij和偏置量θ_ij，则其新的网络参数w′_ij和θ′_ij表示为：

α表示学习率，

表示损失函数对偏置量的梯度值，

表示损失函数对偏置量的梯度值。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存放计算机程序；

处理器501，用于执行存储器503上所存放的程序时，实现如下步骤：

获取PDF格式的待识别文档；

提取待识别文档的特征数据，特征数据包括内容特征数据和结构特征数据；

将特征数据作为输入数据，输入预先训练的神经网络模型，得到待识别文档的内容类型，其中，神经网络模型为基于样本数据进行训练得到的，样本数据包括PDF格式的样本文档，以及样本文档的实际内容类型。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一PDF文档的内容类型识别方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一PDF文档的内容类型识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置及电子设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。