CN112766246A

CN112766246A - 基于深度学习的文档标题识别方法、系统、终端及介质

Info

Publication number: CN112766246A
Application number: CN202110380385.9A
Authority: CN
Inventors: 段静文
Original assignee: Shanghai Minpu Technology Co ltd
Current assignee: Shanghai Minpu Technology Co ltd
Priority date: 2021-04-09
Filing date: 2021-04-09
Publication date: 2021-05-07

Abstract

本发明提供了一种基于深度学习的文档标题识别方法及系统，将图像文档输入预训练的深度神经网络模型，获取图像文档中文本行位置信息和置信度信息；根据文本行位置信息，构建图像文档的构造特征；对构造特征添加图像文档名称和文本行是否为标题的标记，形成训练样本训练机器学习模型，得到机器学习分类模型；获取待识别图像文档的构造特征，并将该特征输入至分类模型，输出图像文档标题所在的文本行位置信息和该行为标题的置信度信息。同时提供了一种终端及介质。本发明泛化能力强、通用性广；不依赖强规则，抗噪泛化能力强；过程简洁，不需要经过复杂的前置或者后置处理环节，只需要第一次训练好模型，后续直接调用已训练好的模型进行计算。

Description

基于深度学习的文档标题识别方法、系统、终端及介质

技术领域

本发明涉及一种文档版面解析方法，具体地，涉及一种基于深度学习的文档标题识别方法、系统、终端及介质。

背景技术

标题是政府行政审批文档中常用的信息载体，而涉及到行政审批的文档往往是以图片形式提交，要从这些图片文档中提取与行政审批相关的各种排版样式的标题信息，需要一种快速、准确的文档标题智能提取方法。

目前，图像文档标题识别常用的方法是，先识别出图像文档中所有文字信息，然后对每行文字信息统计其字体大小、颜色、字体笔画粗细等特征，再通过建立特定的强规则得出标题所在的行。这种基于强规则方法只对某些特定的图像文档起到作用，但对于任意排版、文本颜色字体复杂多样、水印噪声等干扰情况下，强规则显得通用性差、识别率低、抗噪弱。

申请号为201710754709.4的中国发明专利申请，提出了一种文字标题识别方法及装置。该方法包括：获取待识别图像，对待识别图像进行检测，获得初始标题区域；对初始标题区域进行边缘提取，获得边缘图像；将边缘图像中的连续边缘像素点连接成线段，根据所连接的线段，确定初始标题区域中的分割线；以分割线作为边界位置，将初始标题区域分割成各个子标题区域；对各个子标题区域进行文字识别，获得所述待识别图像的文字标题。该方法虽然能一定程度提高识别文字标题时的准确率，但是该方法标题区域的提取部分完全基于图像处理方法，涉及到多种阈值的确定，而这些阈值强依赖于场景，算法通用性差。

综上所述，现有的对图像文档标题识别的方法，通常存在如下技术问题：

1、提取图像文档文本行信息，基于行信息特征，例如字体高度、边缘信息、笔画粗细等，利用强规则获取标题所在的文本行，步骤繁琐，泛化能力差，不智能。

2、图像文档的水印、盖章、折痕等噪声对规则判断影响较大，算法抗噪能力差。

因此，亟待一种实现对图像文档标题自动提取的智能方法。

发明内容

本发明针对现有技术中存在的上述不足，提供了一种基于深度学习的文档标题识别方法、系统、终端及介质。

根据本发明的一个方面，提供了一种基于深度学习的文档标题识别方法，包括：

将图像文档输入预训练的深度神经网络模型，获取图像文档中文本行位置信息和置信度信息；

根据所述文本行位置信息，构建图像文档的构造特征

对所述图像文档的构造特征添加图像文档名称和文本行是否为标题的标记，形成训练样本训练机器学习模型，得到机器学习分类模型；

获取待识别图像文档的构造特征，并将该特征输入至所述分类模型，输出图像文档标题所在的文本行位置信息和该行为标题的置信度信息；

其中：

所述将图像文档输入预训练的深度神经网络模型，获取图像文档中文本行位置信息和置信度信息，包括：

对深度神经网络模型进行调参和训练，得到预训练的深度神经网络模型；

将宽和高分别为

的图像文档输入至所述预训练的深度神经网络模型，输出图像文档中任意一行或任意多行文本行所在的图像位置信息

；其中，

表示文本行所在位置的矩形边界框的左上角点，

，

表示该图像文档所有文本行从上往下排序时的第

行文本，图像文档总文本行数为

，第

行之上和之下分别存在的文本行数量为

和

，

表示该点所在图像像素矩阵的列位置，

表示该点所在图像像素矩阵的行位置，以下依次类推；

表示文本行所在位置的矩形边界框的右上角点，

；

表示文本行所在位置的矩形边界框的右下角点，

；

表示文本行所在位置的矩形边界框的左下角点，

；

所述根据所述文本行位置信息，构建图像文档的构造特征，包括：

根据文本行所在的图像位置信息，获取该文本行初级特征（hl，hr，horizontal_ ratio，vt，vb，vertical_ratio，top_line_ratio，down_line_ratio，font_size_ratio）：

其中：hl表示该文本行所在位置的矩形边界框到图像文档左边缘的距离；hr表示该文本行所在位置的矩形边界框到图像文档右边缘的距离；vt表示该文本行所在位置的矩形边界框到图像文档上边缘的距离；vb表示该文本行所在位置的矩形边界框到图像文档下边缘的距离；horizontal_ratio为hl和hr比率；vertical_ratio为vt和vb比率；top_line_ ratio表示该文本行上方所存在的文本行数与图像文档总文本行数之比； down_line_ ratio表示该文本行下方所存在的文本行数与图像文档总文本行数之比；font_size_ratio表示该文本行高度与图像文档所有文本行高度均值之比；

循环遍历每一行文本行位置信息，将所获得的文本行初级特征构建为图像文档的构造特征。

优选地，所述图像文档包括：政府行政审批中涉及到的各类图像文档。

优选地，所述对所述图像文档的构造特征添加图像文档名称和文本行是否为标题的标记，形成训练样本训练机器学习模型，得到机器学习分类模型，包括：

对所述图像文档特征进行归一化处理，得到特征样本：

feature=[hl,hr,horizontal_ratio,vt,vb,vertical_ratio,top_line_ratio,down_line_ratio,font_size_ratio]；

对所述特征样本进行扩展，加入图像文档名称image_name和文本行是否为标题的标记is_title，其中，is_title=1表示该行是标题，is_title=0表示该行不是标题，得到训练样本：

将训练样本按比例划分为训练集和测试集；

建立机器学习模型，分别采用训练集和测试集对所述机器学习模型进行训练和测试，得到机器学习分类模型。

优选地，所述深度神经网络模型包括：CTPN神经网络模型、DBNET神经网络模型、Pixellink神经网络模型、YOLO神经网络模型、SSD神经网络模型和Faster R-CNN神经网络模型。

优选地，所述机器学习模型包括：逻辑回归模型、随机森林模型、决策树模型、贝叶斯分类器模型、支持向量机模型、KNN模型、神经网络模型和集成学习模型。

优选地，获取待识别图像文档的构造特征，并将该特征输入至所述分类模型，输出图像文档标题所在的文本行位置信息和该行为标题的置信度信息，包括：

将所述待识别图像文档的构造特征输入至所述分类模型，所述分类模型根据输入特征计算出每行文本为标题的置信度，选取置信度最大且置信度大于所给阈值的文本行，并将该行的位置作为该图像文档中标题所在的位置。

优选地，所述阈值设定为：0.9。

根据本发明的另一个方面，提供了一种基于深度学习的文档标题识别系统，包括：

位置信息获取模块，该模块将图像文档输入预训练的深度神经网络模型，获取图像文档中文本行位置信息和置信度信息；

初级特征获取模块，该模块根据所述文本行位置信息，构建图像文档的构造特征；

标题识别模块，该模块对所述图像文档的构造特征添加图像文档名称和文本行是否为标题的标记，形成训练样本训练机器学习模型，得到机器学习分类模型；获取待识别图像文档的构造特征，并将该特征输入至所述分类模型，输出图像文档标题所在的文本行位置信息和该行为标题的置信度信息。

根据本发明的第三个方面，提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述任一项所述的方法。

根据本发明的第四个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行上述任一项所述的方法。

由于采用了上述技术方案，本发明与现有技术相比，具有如下至少一项的有益效果：

本发明提供的基于深度学习的文档标题识别方法、系统、终端及介质，基于深度学习的图像文档标题智能提取技术，与现有技术相比，具有完全不同的技术路线，不需要经过步骤繁琐的图像预处理过程，同时也不需要设定相关阈值。

本发明提供的基于深度学习的文档标题识别方法、系统、终端及介质，不需要建立强规则去推断图像文档标题所在文本行，因此具有很强的泛化能力和抗噪能力。

本发明提供的基于深度学习的文档标题识别方法、系统、终端及介质，采用深度学习的方法进行图像文本行信息提取，不需要进行图像预处理，也不需要根据场景设定图像处理阈值，本发明泛化能力强、通用性广。

本发明提供的基于深度学习的文档标题识别方法、系统、终端及介质，采用机器学习方法对提取文本行特征信息进行判断，从而给出文档标题，不依赖强规则，抗噪泛化能力强。

本发明提供的基于深度学习的文档标题识别方法、系统、终端及介质，过程简洁，不需要经过复杂的前置或者后置处理环节，只需要第一次训练好模型，后续直接调用已训练好的模型进行计算。

本发明提供的基于深度学习的文档标题识别方法、系统、终端及介质，尤其适用于政务文档标题的检测中。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例提供的基于深度学习的文档标题识别方法流程图；

图2为本发明一优选实施例中提供的基于深度学习的文档标题识别方法流程图；

图3为本发明一具体应用实例中经过脱敏处理的政府行政审批图像文档示例图；

图4为本发明一具体应用实例中采用CTPN神经网络模型识别出文本行的示例图；

图5为本发明一具体应用实例中能够用于训练机器学习模型的特征数据示例图；

图6为本发明一具体应用实例中逻辑回归loss曲线示意图；

图7为本发明一具体应用实例中标题识别结果示意图；

图8为本发明一实施例提供的基于深度学习的文档标题识别系统组成模块示意图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

图1为本发明一实施例提供的基于深度学习的文档标题识别方法流程图。

如图1所示，该实施例提供的基于深度学习的文档标题识别方法，可以包括如下步骤：

S100，将图像文档输入预训练的深度神经网络模型，获取图像文档的文本行所位置信息和置信度信息；

S200，根据文本行位置信息，构建图像文档的构造特征；

S300，对图像文档的构造特征添加图像文档名称和文本行是否为标题的标记，形成训练样本训练机器学习模型，得到机器学习分类模型；

S400，将待识别图像文档的构造特征输入至机器学习分类模型，输出图像文档标题所在的文本行位置信息和该行为标题的置信度信息。

在该实施例中，图像文档可以包括：政府行政审批中涉及到的各类图像文档。

在该实施例的S100中，将图像文档输入预训练的深度神经网络模型，获取图像文档的文本行所在的图像位置信息，可以包括如下步骤：

S101，对深度神经网络模型进行调参和训练，得到预训练的深度神经网络模型；

S102，将图像文档(图像宽和高分别为

)输入至所述预训练的深度神经网络模型，输出图像文档中任意一行或任意多行文本行所在的图像位置信息

；其中，

表示文本行所在位置的矩形边界框的左上角点,

，其中

表示该图像文档所有文本行从上往下排序时的第

行文本，图像文档总文本行数为

，第

行之上和之下分别存在的文本行数量为

和

，

表示该点所在图像像素矩阵的列位置，

表示该点所在图像像素矩阵的行位置，以下依次类推；

表示文本行所在位置的矩形边界框的右上角点,

；

表示文本行所在位置的矩形边界框的右下角点,

；

表示文本行所在位置的矩形边界框的左下角点,

。

在该实施例的一具体应用实例中，深度神经网络模型可以包括：CTPN神经网络模型、DBNET神经网络模型、Pixellink神经网络模型、YOLO神经网络模型、SSD神经网络模型、Faster R-CNN神经网络模型等能够检测出图像文档文本行信息的深度神经网络模型。

在该实施例的S200中，根据图像位置信息，获取图像文档特征，可以包括如下步骤：

S201，根据文本行所在的图像位置信息，获取该文本行初级特征（hl，hr， horizontal_ratio，vt，vb，vertical_ratio，top_line_ratio，down_line_ratio，font_ size_ratio），计算表达式为

其中，hl表示该文本行所在位置的矩形边界框到图像文档左边缘的距离；hr表示该文本行所在位置的矩形边界框到图像文档右边缘的距离；vt表示该文本行所在位置的矩形边界框到图像文档上边缘的距离；vb表示该文本行所在位置的矩形边界框到图像文档下边缘的距离；horizontal_ratio为hl和hr比率；vertical_ratio为vt和vb比率；top_line_ ratio表示该文本行上方所存在的文本行数与图像文档总文本行数之比； down_line_ ratio表示该文本行下方所存在的文本行数与图像文档总文本行数之比；font_size_ratio表示该文本行高度与图像文档所有文本行高度均值之比；

S202，循环遍历每一行文本行位置信息，将所获得的文本行初级特征构建为图像文档的构造特征。

在该实施例的S300中，对图像文档的构造特征添加图像文档名称和文本行是否为标题的标记，形成训练样本训练机器学习模型，得到机器学习分类模型，可以包括如下步骤：

S301，对图像文档的构造特征进行归一化处理，得到特征样本：

S302，对特征样本进行扩展，加入图像文档名称image_name和文本行是否为标题的标记is_title，其中，is_title=1表示该行是标题，is_title=0表示该行不是标题，得到训练样本：

S303，将训练样本按比例划分为训练集和测试集；

S304，建立机器学习模型，分别采用训练集和测试集对机器学习模型进行训练和测试，得到机器学习分类模型。

在该实施例的一具体应用实例中，机器学习模型可以包括：逻辑回归模型、随机森林（Random Forest）模型、决策树（Decision Tree）模型、贝叶斯分类器模型、支持向量机（SVM）模型、KNN模型、神经网络模型、集成学习（Ensemble learning）模型等能够用于分类的算法模型。

在该实施例的S400中，获取待识别图像文档的构造特征，将待识别图像文档的构造特征输入至机器学习分类模型，输出图像文档标题所在的文本行位置信息和该行为标题的置信度信息，可以包括如下步骤：

S401，获取待识别图像文档的构造特征；

S402，将构造特征输入分类模型，输出图像文档标题所在的文本行位置信息和该行为标题的置信度信息。

本实施例提供的基于深度学习的文档标题识别方法，为不同算法整合解决文档标题检测提供了一种新的思路，通过对图形文档的构造特征、模型选型以及模型组合方式，解决了现有技术中采用传统的基于opencv和规则结合的版面分析方法，缺点是抗噪能力差、泛化能力弱等问题，具有抗噪能力强（例如“神经网络模型”准确识别文本行，避免非文本行噪声干扰）、算法泛化能力强（相比于纯规则，统计算法天然具有更强的泛化和普适能力）等特点。此外，该方法还具有很强的拓展性，结合文字识别技术，加入语义特征，可以进一步提升标题检测准确率。

图2为本发明一优选实施例提供的基于深度学习的文档标题识别方法流程图。

如图2所示，该优选实施例提供的基于深度学习的文档标题识别方法，可以包括如下步骤：

（1）加载图像文档，将图像文档输入深度神经网络模型，获取图像文档的文本行位置信息和置信度信息。

（2）构造初级特征，从获取的文本行位置信息获取文本行初级特征，构建图像文档的构造特征。

（3）特征转化，将获取的构造特征转化为机器学习需要的特征，利用这些特征训练机器学习分类模型。

（4）对于新输入的构造特征，调用已经训练好的机器学习分类模型获取图像文档标题所在的文本行位置信息和该行为标题的置信度信息。

作为一优选实施例，图像文档主要是指政府行政审批中涉及到的各类图像文档。

作为一优选实施例，步骤（1）中加载文档图像，输入CTPN（Connectionist TextProposal Network，是一种专门为文本行检测涉及的深度神经网络模型），获取图像文档的文本行所在的图像位置信息，包括：

（1-1）加载原图，调用CTPN模块，这里的CTPN是指已经经过调参并训练好的深度神经网络模型，可以直接作为提取图像文档文本行的模块或者工具，CTPN返回结果包含检测到图像文档的文本行位置和置信度信息，即图像位置信息

。在一具体应用实例中，返回的某行结果为“256,588,336,588,336,605,256,605,0.99705”，其中 “256，588”、“336，588”，“336，605”，“256，605”分别代表CTPN检测出的文本行的矩形边界框的左上、右上、右下、左下角点，“0.99705”表示CTPN认为这个矩形边界框内是文本行的置信度。

作为一优选实施例，步骤（2）中构造初级特征，从获取的文本行位置信息获取文本行初级特征，构建图像文档的构造特征，包括：

（2-1）根据文本行所在的图像位置信息，获取该文本行的初级特征，包含hl、hr、horizontal_ratio、vt、vb、vertical_ratio、top_line_ratio、down_line_ratio、font_size_ratio。其中hl代表该文本矩形边界框到图像文档左边缘的距离；hr代表该文本矩形边界框到图像文档右边缘的距离；vt代表该文本矩形边界框到图像文档上边缘的距离；vb代表该文本矩形边界框到图像文档下边缘的距离；horizontal_ratio为hl和hr比率、vertical_ratio为vt和vb比率,top_line_ratio代表该文本行之上（不包括该文本行）总文本行数与该图像文档总文本行数之比，在一具体应用实例中，如该图像文档检测出100个文本行，其中当前行为第30行，则top_line_ratio为29%；down_line_ratio代表该文本行之下（不包括当前文本行）总文本行数与该图像文档总文本行数之比，在一具体应用实例中，如该图像文档检测出100个文本行，其中当前行为第30行，则down_line_ratio为69%；font_size_ratio代表该文本行高度与图像文档所有文本行高度均值的比例。

（2-2）循环遍历CTPN返回的每一行图像位置信息，同时计算（2-1）中文本行初级特征，这些特征构成了该图像文档的构造特征。

作为一优选实施例，步骤（3）中特征转化，将构建的构造特征转化为机器学习需要的特征，利用这些特征训练机器学习算法模型，包括：

（3-1）图像文档尺寸差异性大，不利于机器学习算法学习到共性规律，因此将（2-2）中的构造特征进行归一化处理，消除文档尺寸差异对机器学习算法带来的影响。

（3-2）将已获得的特征放在数组中，数组名为feature，feature=[hl,hr,horizontal_ratio,vt,vb,vertical_ratio,top_line_ratio,down_line_ratio,font_size_ratio],加入图像文档名称image_name和每行文本是否为标题的标记is_title，如果改行为标题is_title=1的标签，反之为is_title=0，feature扩展为[image_name,hl,hr,horizontal_ratio,vt,vb,vertical_ratio,top_line_ratio,down_line_ratio,font_size_ratio,is_title]。

（3-3）通过对1000份政府行政审批文档进行CTPN文本行计算，共得到50000行文本，可以通过人工或专家系统给每行打上是否为标题的标签，最终共得到50000个样本。将50000个样本以7：3划分训练集和测试集。

（3-4）基于TensorFlow建立逻辑回归模型，TensorFlow是一个基于数据流编程（dataflow programming）的符号数学系统，被广泛应用于各类机器学习（machinelearning）算法的编程实现，其前身是谷歌的神经网络算法库DistBelief。将样本集合导入逻辑回归模型进行训练确定模型参数，得到损失loss=0.0054，训练集准确率0.9527，测试集准确率0.9520，并将该训练好的分类模型保存在本地。

作为一优选实施例，步骤（4）中对于新输入的构造特征，调用已经训练好的算法模型获取图像文档标题所在的文本行位置信息和该行为标题的置信度信息，包括：

（4-1）对新的图像文档，构建其构造特征，再转化为机器学习算法输入特征。

（4-2）加载已训练好的逻辑回归模型，将特征输入逻辑回归模型，得到标题在图像文档中所在的位置。

该优选实施例提供的基于深度学习的文档标题识别方法，（1）使用已经训练好的深度神经网络模型对图像文档的文本行信息进行提取；（2）使用机器学习方法进行训练，得到可以判断某行文本是否为标题的机器学习模型。

在（1）中，该优选实施例以CTPN神经网络模型为具体实施例，可以替代的深度神经网络还有YOLO、DBNET、Pixellink、SSD、Faster R-CNN等能检测出图像文档文本行信息的深度神经网络模型。

在（2）中，该优选实施例以逻辑回归为具体实施例进行分类模型训练，可以替代的算法模型包括随机森林（Random Forest）、决策树（Decision Tree）、贝叶斯分类器、支持向量机（SVM）、KNN、神经网络、集成学习（Ensemble learning）等能用于分类的算法模型。

下面结合一具体应用实例，对本发明上述实施例提供的技术方案进一步详细描述如下。

该具体应用实例提供的基于深度学习的文档标题识别方法，其流程为：先加载图像文档，他将图像文档输入深度神经网络模型，获取图像文档的文本行所在的图像位置信息和置信度。从获取的文本行位置信息获取文本行初级特征。将获取的初级特征转化为机器学习需要的特征，利用这些特征训练机器学习分类模型。对于新输入的特征，调用已经训练好的算法模型获取图像文档标题所在行。

具体地：

（1）加载图像文档，将图像文档输入深度神经网络模型，获取图像文档的文本行所在的图像位置信息（包括文本行位置信息和置信度信息）。

（1-1）加载原图，如图3所示，调用CTPN模块，这里的CTPN是指已经经过调参并训练好的深度神经网络模型参数，可以直接作为提取图像文档文本行的模块或者工具，CTPN返回结果包含检测到图像文档的文本行位置和置信度信息，如图4。例如，返回的某行结果为“256,588,336,588,336,605,256,605,0.99705”，其中“256，588”、“336，588”，“336，605”，“256，605”分别代表CTPN检测出的文本行的矩形边界框的左上、右上、右下、左下角点，“0.99705”表示CTPN认为这个矩形边界框内是文本行的置信度。

（2）获取初级特征，利用获取的初级特征构造图像文档的构造特征。

（2-1）获取文本行的初级特征包含hl、hr、horizontal_ratio、vt、vb、vertical_ratio、top_line_ratio、down_line_ratio、font_size_ratio。其中hl代表该文本矩形边界框到图像文档左边缘的距离；hr代表该文本矩形边界框到图像文档右边缘的距离；vt代表该文本矩形边界框到图像文档上边缘的距离；vb代表该文本矩形边界框到图像文档下边缘的距离；horizontal_ratio为hl和hr比率、vertical_ratio为vt和vb比率,top_line_ratio代表该文本行之上（不包括该文本行）总文本行数与该图像文档总文本行数之比，例如该图像文档检测出100个文本行，其中当前行为第30行，则top_line_ratio为29%；down_line_ratio代表该文本行之下（不包括当前文本行）总文本行数与该图像文档总文本行数之比，例如该图像文档检测出100个文本行，其中当前行为第30行，则down_line_ratio为69%；font_size_ratio代表该文本行高度与图像文档所有文本行高度均值的比例。

（2-2）循环遍历CTPN返回的每一行文本信息，同时计算（2-1）中初级特征，这些特征构成了该图像文档的构造特征。

（3）特征转化，将构建的构造特征转化为机器学习需要的特征，利用这些特征训练机器学习分类模型。

（3-2）将已获得的特征放在数组中，数组名为feature，feature=[hl,hr,horizontal_ratio,vt,vb,vertical_ratio,top_line_ratio,down_line_ratio,font_size_ratio],加入图像文档名称image_name和每行文本是否为标题的标记is_title，如果改行为标题is_title=1的标签，反之为is_title=0，feature扩展为[image_name,hl,hr,horizontal_ratio,vt,vb,vertical_ratio,top_line_ratio,down_line_ratio,font_size_ratio,is_title]，如图5。

（3-3）通过对1000份政府行政审批文档进行CTPN文本行计算，共得到50000行文本，并通过人工给每行打上是否为标题的标签，最终共得到50000个样本。将50000个样本以7：3划分训练集和测试集。

（3-4）基于TensorFlow建立逻辑回归模型，TensorFlow是一个基于数据流编程（dataflow programming）的符号数学系统，被广泛应用于各类机器学习（machinelearning）算法的编程实现，其前身是谷歌的神经网络算法库DistBelief。将样本集合导入逻辑回归模型进行训练确定模型参数，如图6，得到损失cost=0.0054，训练集准确率0.9527，测试集准确率0.9520，并将该训练好的分类模型保存在本地。

（4）对于新输入的特征，调用已经训练好的算法模型获取图像文档标题所在行。

（4-2）加载已训练好的逻辑回归模型，将特征输入逻辑回归模型，得到标题在图像文档中所在的位置，如图7，其中Prob(is_title)表示该行文本为标题的置信度。

本发明另一实施例提供了一种基于深度学习的文档标题识别系统，如图8所示，可以包括：位置信息获取模块、初级特征获取模块和标题识别模块；其中：

位置信息获取模块，该模块将图像文档输入预训练的深度神经网络模型，获取图像文档的文本行所在的图像位置信息；

初级特征获取模块，该模块根据文本行所在的图像位置信息，获取图像文档特征；

标题识别模块，该模块对图像文档特征添加图像文档名称和文本行是否为标题的标记，形成训练样本训练机器学习模型，得到机器学习分类模型；将待识别图像文档的图像文档特征输入至机器学习分类模型，获取图像文档标题所在行。

本发明第三个实施例提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时可用于执行本发明上述实施例中任一项的方法。

可选地，存储器，用于存储程序；存储器，可以包括易失性存储器（英文：volatilememory），例如随机存取存储器（英文：random-access memory，缩写：RAM），如静态随机存取存储器（英文：static random-access memory，缩写：SRAM），双倍数据率同步动态随机存取存储器（英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM）等；存储器也可以包括非易失性存储器（英文：non-volatile memory），例如快闪存储器（英文：flash memory）。存储器用于存储计算机程序（如实现上述方法的应用程序、功能模块等）、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

本发明第四个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行本发明上述实施例中任一项的方法。

本发明上述实施例提供的基于深度学习的文档标题识别方法、系统、终端及介质，使用深度神经网络进行图像文档的文本行信息提取，并通过返回的文本行信息建立后置环节中机器学习需要的特征；利用构造的特征进行模型的训练，然后再识别新输入图像文档的标题。现有技术相比，具有完全不同的技术路线，不需要经过步骤繁琐的图像预处理过程；不需要建立强规则去推断图像文档标题所在文本行，因此具有很强的泛化能力和抗噪能力；过程简洁，不需要经过复杂的前置或者后置处理环节，只需要第一次训练好模型，后续直接调用已训练好的模型进行计算。

需要说明的是，本发明提供的方法中的步骤，可以利用系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照方法的技术方案实现系统的组成，即，方法中的实施例可理解为构建系统的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于深度学习的文档标题识别方法，其特征在于，包括：

根据所述文本行位置信息，构建图像文档的构造特征

其中：

将宽和高分别为

；其中，

表示文本行所在位置的矩形边界框的左上角点，

，

表示该图像文档所有文本行从上往下排序时的第

行文本，图像文档总文本行数为

，第

行之上和之下分别存在的文本行数量为

和

，

表示该点所在图像像素矩阵的列位置，

表示该点所在图像像素矩阵的行位置，以下依次类推；

表示文本行所在位置的矩形边界框的右上角点，

；

表示文本行所在位置的矩形边界框的右下角点，

；

表示文本行所在位置的矩形边界框的左下角点，

；

根据文本行所在的图像位置信息，获取该文本行初级特征（hl，hr，horizontal_ratio，vt，vb，vertical_ratio，top_line_ratio，down_line_ratio，font_size_ratio）：

其中：hl表示该文本行所在位置的矩形边界框到图像文档左边缘的距离；hr表示该文本行所在位置的矩形边界框到图像文档右边缘的距离；vt表示该文本行所在位置的矩形边界框到图像文档上边缘的距离；vb表示该文本行所在位置的矩形边界框到图像文档下边缘的距离；horizontal_ratio为hl和hr比率；vertical_ratio为vt和vb比率；top_line_ratio表示该文本行上方所存在的文本行数与图像文档总文本行数之比； down_line_ratio表示该文本行下方所存在的文本行数与图像文档总文本行数之比；font_size_ratio表示该文本行高度与图像文档所有文本行高度均值之比；

2.根据权利要求1所述的基于深度学习的文档标题识别方法，其特征在于，所述图像文档包括：政府行政审批中涉及到的各类图像文档。

3.根据权利要求1所述的基于深度学习的文档标题识别方法，其特征在于，所述对所述图像文档的构造特征添加图像文档名称和文本行是否为标题的标记，形成训练样本训练机器学习模型，得到机器学习分类模型，包括：

对所述图像文档的构造特征进行归一化处理，得到特征样本：

将训练样本按比例划分为训练集和测试集；

4.根据权利要求3所述的基于深度学习的文档标题识别方法，其特征在于，所述深度神经网络模型包括：CTPN神经网络模型、DBNET神经网络模型、Pixellink神经网络模型、YOLO神经网络模型、SSD神经网络模型和Faster R-CNN神经网络模型。

5.根据权利要求3所述的基于深度学习的文档标题识别方法，其特征在于，所述机器学习模型包括：逻辑回归模型、随机森林模型、决策树模型、贝叶斯分类器模型、支持向量机模型、KNN模型、神经网络模型和集成学习模型。

6.根据权利要求1所述的基于深度学习的文档标题识别方法，其特征在于，获取待识别图像文档的构造特征，并将该特征输入至所述分类模型，输出图像文档标题所在的文本行位置信息和该行为标题的置信度信息，包括：

7.根据权利要求6所述的基于深度学习的文档标题识别方法，其特征在于，所述阈值设定为：0.9。

8.一种基于深度学习的文档标题识别系统，其特征在于，包括：

9.一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时可用于执行权利要求1-7中任一项所述的方法。