CN112766246A - 基于深度学习的文档标题识别方法、系统、终端及介质 - Google Patents
基于深度学习的文档标题识别方法、系统、终端及介质 Download PDFInfo
- Publication number
- CN112766246A CN112766246A CN202110380385.9A CN202110380385A CN112766246A CN 112766246 A CN112766246 A CN 112766246A CN 202110380385 A CN202110380385 A CN 202110380385A CN 112766246 A CN112766246 A CN 112766246A
- Authority
- CN
- China
- Prior art keywords
- image document
- line
- title
- text
- ratio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/225—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供了一种基于深度学习的文档标题识别方法及系统,将图像文档输入预训练的深度神经网络模型,获取图像文档中文本行位置信息和置信度信息;根据文本行位置信息,构建图像文档的构造特征;对构造特征添加图像文档名称和文本行是否为标题的标记,形成训练样本训练机器学习模型,得到机器学习分类模型;获取待识别图像文档的构造特征,并将该特征输入至分类模型,输出图像文档标题所在的文本行位置信息和该行为标题的置信度信息。同时提供了一种终端及介质。本发明泛化能力强、通用性广;不依赖强规则,抗噪泛化能力强;过程简洁,不需要经过复杂的前置或者后置处理环节,只需要第一次训练好模型,后续直接调用已训练好的模型进行计算。
Description
技术领域
本发明涉及一种文档版面解析方法,具体地,涉及一种基于深度学习的文档标题识别方法、系统、终端及介质。
背景技术
标题是政府行政审批文档中常用的信息载体,而涉及到行政审批的文档往往是以图片形式提交,要从这些图片文档中提取与行政审批相关的各种排版样式的标题信息,需要一种快速、准确的文档标题智能提取方法。
目前,图像文档标题识别常用的方法是,先识别出图像文档中所有文字信息,然后对每行文字信息统计其字体大小、颜色、字体笔画粗细等特征,再通过建立特定的强规则得出标题所在的行。这种基于强规则方法只对某些特定的图像文档起到作用,但对于任意排版、文本颜色字体复杂多样、水印噪声等干扰情况下,强规则显得通用性差、识别率低、抗噪弱。
申请号为201710754709.4的中国发明专利申请,提出了一种文字标题识别方法及装置。该方法包括:获取待识别图像,对待识别图像进行检测,获得初始标题区域;对初始标题区域进行边缘提取,获得边缘图像;将边缘图像中的连续边缘像素点连接成线段,根据所连接的线段,确定初始标题区域中的分割线;以分割线作为边界位置,将初始标题区域分割成各个子标题区域;对各个子标题区域进行文字识别,获得所述待识别图像的文字标题。该方法虽然能一定程度提高识别文字标题时的准确率,但是该方法标题区域的提取部分完全基于图像处理方法,涉及到多种阈值的确定,而这些阈值强依赖于场景,算法通用性差。
综上所述,现有的对图像文档标题识别的方法,通常存在如下技术问题:
1、提取图像文档文本行信息,基于行信息特征,例如字体高度、边缘信息、笔画粗细等,利用强规则获取标题所在的文本行,步骤繁琐,泛化能力差,不智能。
2、图像文档的水印、盖章、折痕等噪声对规则判断影响较大,算法抗噪能力差。
因此,亟待一种实现对图像文档标题自动提取的智能方法。
发明内容
本发明针对现有技术中存在的上述不足,提供了一种基于深度学习的文档标题识别方法、系统、终端及介质。
根据本发明的一个方面,提供了一种基于深度学习的文档标题识别方法,包括:
将图像文档输入预训练的深度神经网络模型,获取图像文档中文本行位置信息和置信度信息;
根据所述文本行位置信息,构建图像文档的构造特征
对所述图像文档的构造特征添加图像文档名称和文本行是否为标题的标记,形成训练样本训练机器学习模型,得到机器学习分类模型;
获取待识别图像文档的构造特征,并将该特征输入至所述分类模型,输出图像文档标题所在的文本行位置信息和该行为标题的置信度信息;
其中:
所述将图像文档输入预训练的深度神经网络模型,获取图像文档中文本行位置信息和置信度信息,包括:
对深度神经网络模型进行调参和训练,得到预训练的深度神经网络模型;
将宽和高分别为的图像文档输入至所述预训练的深度神经网络模型,输出图
像文档中任意一行或任意多行文本行所在的图像位置信息;其中,表示文本行所在位置的矩形边界框的左上角点, ,表示该图像文档所有文
本行从上往下排序时的第行文本,图像文档总文本行数为,第行之上和之下分别存在
的文本行数量为和,表示该点所在图像像素矩阵的列位置,表示该点所在图像
像素矩阵的行位置,以下依次类推;表示文本行所在位置的矩形边界框的右上角点,;表示文本行所在位置的矩形边界框的右下角点,;表示
文本行所在位置的矩形边界框的左下角点,;
所述根据所述文本行位置信息,构建图像文档的构造特征,包括:
根据文本行所在的图像位置信息,获取该文本行初级特征(hl,hr,horizontal_ ratio,vt,vb,vertical_ratio,top_line_ratio,down_line_ratio,font_size_ratio):
其中:hl表示该文本行所在位置的矩形边界框到图像文档左边缘的距离;hr表示该文本行所在位置的矩形边界框到图像文档右边缘的距离;vt表示该文本行所在位置的矩形边界框到图像文档上边缘的距离;vb表示该文本行所在位置的矩形边界框到图像文档下边缘的距离;horizontal_ratio为hl和hr比率;vertical_ratio为vt和vb比率;top_line_ ratio表示该文本行上方所存在的文本行数与图像文档总文本行数之比; down_line_ ratio表示该文本行下方所存在的文本行数与图像文档总文本行数之比;font_size_ratio表示该文本行高度与图像文档所有文本行高度均值之比;
循环遍历每一行文本行位置信息,将所获得的文本行初级特征构建为图像文档的构造特征。
优选地,所述图像文档包括:政府行政审批中涉及到的各类图像文档。
优选地,所述对所述图像文档的构造特征添加图像文档名称和文本行是否为标题的标记,形成训练样本训练机器学习模型,得到机器学习分类模型,包括:
对所述图像文档特征进行归一化处理,得到特征样本:
feature=[hl,hr,horizontal_ratio,vt,vb,vertical_ratio,top_line_ratio,down_line_ratio,font_size_ratio];
对所述特征样本进行扩展,加入图像文档名称image_name和文本行是否为标题的标记is_title,其中,is_title=1表示该行是标题,is_title=0表示该行不是标题,得到训练样本:
将训练样本按比例划分为训练集和测试集;
建立机器学习模型,分别采用训练集和测试集对所述机器学习模型进行训练和测试,得到机器学习分类模型。
优选地,所述深度神经网络模型包括:CTPN神经网络模型、DBNET神经网络模型、Pixellink神经网络模型、YOLO神经网络模型、SSD神经网络模型和Faster R-CNN神经网络模型。
优选地,所述机器学习模型包括:逻辑回归模型、随机森林模型、决策树模型、贝叶斯分类器模型、支持向量机模型、KNN模型、神经网络模型和集成学习模型。
优选地,获取待识别图像文档的构造特征,并将该特征输入至所述分类模型,输出图像文档标题所在的文本行位置信息和该行为标题的置信度信息,包括:
将所述待识别图像文档的构造特征输入至所述分类模型,所述分类模型根据输入特征计算出每行文本为标题的置信度,选取置信度最大且置信度大于所给阈值的文本行,并将该行的位置作为该图像文档中标题所在的位置。
优选地,所述阈值设定为:0.9。
根据本发明的另一个方面,提供了一种基于深度学习的文档标题识别系统,包括:
位置信息获取模块,该模块将图像文档输入预训练的深度神经网络模型,获取图像文档中文本行位置信息和置信度信息;
初级特征获取模块,该模块根据所述文本行位置信息,构建图像文档的构造特征;
标题识别模块,该模块对所述图像文档的构造特征添加图像文档名称和文本行是否为标题的标记,形成训练样本训练机器学习模型,得到机器学习分类模型;获取待识别图像文档的构造特征,并将该特征输入至所述分类模型,输出图像文档标题所在的文本行位置信息和该行为标题的置信度信息。
根据本发明的第三个方面,提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述任一项所述的方法。
根据本发明的第四个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述任一项所述的方法。
由于采用了上述技术方案,本发明与现有技术相比,具有如下至少一项的有益效果:
本发明提供的基于深度学习的文档标题识别方法、系统、终端及介质,基于深度学习的图像文档标题智能提取技术,与现有技术相比,具有完全不同的技术路线,不需要经过步骤繁琐的图像预处理过程,同时也不需要设定相关阈值。
本发明提供的基于深度学习的文档标题识别方法、系统、终端及介质,不需要建立强规则去推断图像文档标题所在文本行,因此具有很强的泛化能力和抗噪能力。
本发明提供的基于深度学习的文档标题识别方法、系统、终端及介质,采用深度学习的方法进行图像文本行信息提取,不需要进行图像预处理,也不需要根据场景设定图像处理阈值,本发明泛化能力强、通用性广。
本发明提供的基于深度学习的文档标题识别方法、系统、终端及介质,采用机器学习方法对提取文本行特征信息进行判断,从而给出文档标题,不依赖强规则,抗噪泛化能力强。
本发明提供的基于深度学习的文档标题识别方法、系统、终端及介质,过程简洁,不需要经过复杂的前置或者后置处理环节,只需要第一次训练好模型,后续直接调用已训练好的模型进行计算。
本发明提供的基于深度学习的文档标题识别方法、系统、终端及介质,尤其适用于政务文档标题的检测中。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例提供的基于深度学习的文档标题识别方法流程图;
图2为本发明一优选实施例中提供的基于深度学习的文档标题识别方法流程图;
图3为本发明一具体应用实例中经过脱敏处理的政府行政审批图像文档示例图;
图4为本发明一具体应用实例中采用CTPN神经网络模型识别出文本行的示例图;
图5为本发明一具体应用实例中能够用于训练机器学习模型的特征数据示例图;
图6为本发明一具体应用实例中逻辑回归loss曲线示意图;
图7为本发明一具体应用实例中标题识别结果示意图;
图8为本发明一实施例提供的基于深度学习的文档标题识别系统组成模块示意图。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
图1为本发明一实施例提供的基于深度学习的文档标题识别方法流程图。
如图1所示,该实施例提供的基于深度学习的文档标题识别方法,可以包括如下步骤:
S100,将图像文档输入预训练的深度神经网络模型,获取图像文档的文本行所位置信息和置信度信息;
S200,根据文本行位置信息,构建图像文档的构造特征;
S300,对图像文档的构造特征添加图像文档名称和文本行是否为标题的标记,形成训练样本训练机器学习模型,得到机器学习分类模型;
S400,将待识别图像文档的构造特征输入至机器学习分类模型,输出图像文档标题所在的文本行位置信息和该行为标题的置信度信息。
在该实施例中,图像文档可以包括:政府行政审批中涉及到的各类图像文档。
在该实施例的S100中,将图像文档输入预训练的深度神经网络模型,获取图像文档的文本行所在的图像位置信息,可以包括如下步骤:
S101,对深度神经网络模型进行调参和训练,得到预训练的深度神经网络模型;
S102,将图像文档(图像宽和高分别为)输入至所述预训练的深度神经网络模
型,输出图像文档中任意一行或任意多行文本行所在的图像位置信息;
其中,表示文本行所在位置的矩形边界框的左上角点, ,其中表示该图像
文档所有文本行从上往下排序时的第行文本,图像文档总文本行数为,第行之上和之
下分别存在的文本行数量为和,表示该点所在图像像素矩阵的列位置,表示该
点所在图像像素矩阵的行位置,以下依次类推;表示文本行所在位置的矩形边界框的右
上角点, ;表示文本行所在位置的矩形边界框的右下角点, ;表示文本行所在位置的矩形边界框的左下角点, 。
在该实施例的一具体应用实例中,深度神经网络模型可以包括:CTPN神经网络模型、DBNET神经网络模型、Pixellink神经网络模型、YOLO神经网络模型、SSD神经网络模型、Faster R-CNN神经网络模型等能够检测出图像文档文本行信息的深度神经网络模型。
在该实施例的S200中,根据图像位置信息,获取图像文档特征,可以包括如下步骤:
S201,根据文本行所在的图像位置信息,获取该文本行初级特征(hl,hr, horizontal_ratio,vt,vb,vertical_ratio,top_line_ratio,down_line_ratio,font_ size_ratio),计算表达式为
其中,hl表示该文本行所在位置的矩形边界框到图像文档左边缘的距离;hr表示该文本行所在位置的矩形边界框到图像文档右边缘的距离;vt表示该文本行所在位置的矩形边界框到图像文档上边缘的距离;vb表示该文本行所在位置的矩形边界框到图像文档下边缘的距离;horizontal_ratio为hl和hr比率;vertical_ratio为vt和vb比率;top_line_ ratio表示该文本行上方所存在的文本行数与图像文档总文本行数之比; down_line_ ratio表示该文本行下方所存在的文本行数与图像文档总文本行数之比;font_size_ratio表示该文本行高度与图像文档所有文本行高度均值之比;
S202,循环遍历每一行文本行位置信息,将所获得的文本行初级特征构建为图像文档的构造特征。
在该实施例的S300中,对图像文档的构造特征添加图像文档名称和文本行是否为标题的标记,形成训练样本训练机器学习模型,得到机器学习分类模型,可以包括如下步骤:
S301,对图像文档的构造特征进行归一化处理,得到特征样本:
feature=[hl,hr,horizontal_ratio,vt,vb,vertical_ratio,top_line_ratio,down_line_ratio,font_size_ratio];
S302,对特征样本进行扩展,加入图像文档名称image_name和文本行是否为标题的标记is_title,其中,is_title=1表示该行是标题,is_title=0表示该行不是标题,得到训练样本:
S303,将训练样本按比例划分为训练集和测试集;
S304,建立机器学习模型,分别采用训练集和测试集对机器学习模型进行训练和测试,得到机器学习分类模型。
在该实施例的一具体应用实例中,机器学习模型可以包括:逻辑回归模型、随机森林(Random Forest)模型、决策树(Decision Tree)模型、贝叶斯分类器模型、支持向量机(SVM)模型、KNN模型、神经网络模型、集成学习(Ensemble learning)模型等能够用于分类的算法模型。
在该实施例的S400中,获取待识别图像文档的构造特征,将待识别图像文档的构造特征输入至机器学习分类模型,输出图像文档标题所在的文本行位置信息和该行为标题的置信度信息,可以包括如下步骤:
S401,获取待识别图像文档的构造特征;
S402,将构造特征输入分类模型,输出图像文档标题所在的文本行位置信息和该行为标题的置信度信息。
本实施例提供的基于深度学习的文档标题识别方法,为不同算法整合解决文档标题检测提供了一种新的思路,通过对图形文档的构造特征、模型选型以及模型组合方式,解决了现有技术中采用传统的基于opencv和规则结合的版面分析方法,缺点是抗噪能力差、泛化能力弱等问题,具有抗噪能力强(例如“神经网络模型”准确识别文本行,避免非文本行噪声干扰)、算法泛化能力强(相比于纯规则,统计算法天然具有更强的泛化和普适能力)等特点。此外,该方法还具有很强的拓展性,结合文字识别技术,加入语义特征,可以进一步提升标题检测准确率。
图2为本发明一优选实施例提供的基于深度学习的文档标题识别方法流程图。
如图2所示,该优选实施例提供的基于深度学习的文档标题识别方法,可以包括如下步骤:
(1)加载图像文档,将图像文档输入深度神经网络模型,获取图像文档的文本行位置信息和置信度信息。
(2)构造初级特征,从获取的文本行位置信息获取文本行初级特征,构建图像文档的构造特征。
(3)特征转化,将获取的构造特征转化为机器学习需要的特征,利用这些特征训练机器学习分类模型。
(4)对于新输入的构造特征,调用已经训练好的机器学习分类模型获取图像文档标题所在的文本行位置信息和该行为标题的置信度信息。
作为一优选实施例,图像文档主要是指政府行政审批中涉及到的各类图像文档。
作为一优选实施例,步骤(1)中加载文档图像,输入CTPN(Connectionist TextProposal Network,是一种专门为文本行检测涉及的深度神经网络模型),获取图像文档的文本行所在的图像位置信息,包括:
(1-1)加载原图,调用CTPN模块,这里的CTPN是指已经经过调参并训练好的深度神
经网络模型,可以直接作为提取图像文档文本行的模块或者工具,CTPN返回结果包含检测
到图像文档的文本行位置和置信度信息,即图像位置信息。在一具
体应用实例中,返回的某行结果为“256,588,336,588,336,605,256,605,0.99705”,其中
“256,588”、“336,588”,“336,605”,“256,605”分别代表CTPN检测出的文本行的矩形边界框
的左上、右上、右下、左下角点,“0.99705”表示CTPN认为这个矩形边界框内是文本行的置信
度。
作为一优选实施例,步骤(2)中构造初级特征,从获取的文本行位置信息获取文本行初级特征,构建图像文档的构造特征,包括:
(2-1)根据文本行所在的图像位置信息,获取该文本行的初级特征,包含hl、hr、horizontal_ratio、vt、vb、vertical_ratio、top_line_ratio、down_line_ratio、font_size_ratio。其中hl代表该文本矩形边界框到图像文档左边缘的距离;hr代表该文本矩形边界框到图像文档右边缘的距离;vt代表该文本矩形边界框到图像文档上边缘的距离;vb代表该文本矩形边界框到图像文档下边缘的距离;horizontal_ratio为hl和hr比率、vertical_ratio为vt和vb比率,top_line_ratio代表该文本行之上(不包括该文本行)总文本行数与该图像文档总文本行数之比,在一具体应用实例中,如该图像文档检测出100个文本行,其中当前行为第30行,则top_line_ratio为29%;down_line_ratio代表该文本行之下(不包括当前文本行)总文本行数与该图像文档总文本行数之比,在一具体应用实例中,如该图像文档检测出100个文本行,其中当前行为第30行,则down_line_ratio为69%;font_size_ratio代表该文本行高度与图像文档所有文本行高度均值的比例。
(2-2)循环遍历CTPN返回的每一行图像位置信息,同时计算(2-1)中文本行初级特征,这些特征构成了该图像文档的构造特征。
作为一优选实施例,步骤(3)中特征转化,将构建的构造特征转化为机器学习需要的特征,利用这些特征训练机器学习算法模型,包括:
(3-1)图像文档尺寸差异性大,不利于机器学习算法学习到共性规律,因此将(2-2)中的构造特征进行归一化处理,消除文档尺寸差异对机器学习算法带来的影响。
(3-2)将已获得的特征放在数组中,数组名为feature,feature=[hl,hr,horizontal_ratio,vt,vb,vertical_ratio,top_line_ratio,down_line_ratio,font_size_ratio],加入图像文档名称image_name和每行文本是否为标题的标记is_title,如果改行为标题is_title=1的标签,反之为is_title=0,feature扩展为[image_name,hl,hr,horizontal_ratio,vt,vb,vertical_ratio,top_line_ratio,down_line_ratio,font_size_ratio,is_title]。
(3-3)通过对1000份政府行政审批文档进行CTPN文本行计算,共得到50000行文本,可以通过人工或专家系统给每行打上是否为标题的标签,最终共得到50000个样本。将50000个样本以7:3划分训练集和测试集。
(3-4)基于TensorFlow建立逻辑回归模型,TensorFlow是一个基于数据流编程(dataflow programming)的符号数学系统,被广泛应用于各类机器学习(machinelearning)算法的编程实现,其前身是谷歌的神经网络算法库DistBelief。将样本集合导入逻辑回归模型进行训练确定模型参数,得到损失loss=0.0054,训练集准确率0.9527,测试集准确率0.9520,并将该训练好的分类模型保存在本地。
作为一优选实施例,步骤(4)中对于新输入的构造特征,调用已经训练好的算法模型获取图像文档标题所在的文本行位置信息和该行为标题的置信度信息,包括:
(4-1)对新的图像文档,构建其构造特征,再转化为机器学习算法输入特征。
(4-2)加载已训练好的逻辑回归模型,将特征输入逻辑回归模型,得到标题在图像文档中所在的位置。
该优选实施例提供的基于深度学习的文档标题识别方法,(1)使用已经训练好的深度神经网络模型对图像文档的文本行信息进行提取;(2)使用机器学习方法进行训练,得到可以判断某行文本是否为标题的机器学习模型。
在(1)中,该优选实施例以CTPN神经网络模型为具体实施例,可以替代的深度神经网络还有YOLO、DBNET、Pixellink、SSD、Faster R-CNN等能检测出图像文档文本行信息的深度神经网络模型。
在(2)中,该优选实施例以逻辑回归为具体实施例进行分类模型训练,可以替代的算法模型包括随机森林(Random Forest)、决策树(Decision Tree)、贝叶斯分类器、支持向量机(SVM)、KNN、神经网络、集成学习(Ensemble learning)等能用于分类的算法模型。
下面结合一具体应用实例,对本发明上述实施例提供的技术方案进一步详细描述如下。
该具体应用实例提供的基于深度学习的文档标题识别方法,其流程为:先加载图像文档,他将图像文档输入深度神经网络模型,获取图像文档的文本行所在的图像位置信息和置信度。从获取的文本行位置信息获取文本行初级特征。将获取的初级特征转化为机器学习需要的特征,利用这些特征训练机器学习分类模型。对于新输入的特征,调用已经训练好的算法模型获取图像文档标题所在行。
具体地:
(1)加载图像文档,将图像文档输入深度神经网络模型,获取图像文档的文本行所在的图像位置信息(包括文本行位置信息和置信度信息)。
(1-1)加载原图,如图3所示,调用CTPN模块,这里的CTPN是指已经经过调参并训练好的深度神经网络模型参数,可以直接作为提取图像文档文本行的模块或者工具,CTPN返回结果包含检测到图像文档的文本行位置和置信度信息,如图4。例如,返回的某行结果为“256,588,336,588,336,605,256,605,0.99705”,其中“256,588”、“336,588”,“336,605”,“256,605”分别代表CTPN检测出的文本行的矩形边界框的左上、右上、右下、左下角点,“0.99705”表示CTPN认为这个矩形边界框内是文本行的置信度。
(2)获取初级特征,利用获取的初级特征构造图像文档的构造特征。
(2-1)获取文本行的初级特征包含hl、hr、horizontal_ratio、vt、vb、vertical_ratio、top_line_ratio、down_line_ratio、font_size_ratio。其中hl代表该文本矩形边界框到图像文档左边缘的距离;hr代表该文本矩形边界框到图像文档右边缘的距离;vt代表该文本矩形边界框到图像文档上边缘的距离;vb代表该文本矩形边界框到图像文档下边缘的距离;horizontal_ratio为hl和hr比率、vertical_ratio为vt和vb比率,top_line_ratio代表该文本行之上(不包括该文本行)总文本行数与该图像文档总文本行数之比,例如该图像文档检测出100个文本行,其中当前行为第30行,则top_line_ratio为29%;down_line_ratio代表该文本行之下(不包括当前文本行)总文本行数与该图像文档总文本行数之比,例如该图像文档检测出100个文本行,其中当前行为第30行,则down_line_ratio为69%;font_size_ratio代表该文本行高度与图像文档所有文本行高度均值的比例。
(2-2)循环遍历CTPN返回的每一行文本信息,同时计算(2-1)中初级特征,这些特征构成了该图像文档的构造特征。
(3)特征转化,将构建的构造特征转化为机器学习需要的特征,利用这些特征训练机器学习分类模型。
(3-1)图像文档尺寸差异性大,不利于机器学习算法学习到共性规律,因此将(2-2)中的构造特征进行归一化处理,消除文档尺寸差异对机器学习算法带来的影响。
(3-2)将已获得的特征放在数组中,数组名为feature,feature=[hl,hr,horizontal_ratio,vt,vb,vertical_ratio,top_line_ratio,down_line_ratio,font_size_ratio],加入图像文档名称image_name和每行文本是否为标题的标记is_title,如果改行为标题is_title=1的标签,反之为is_title=0,feature扩展为[image_name,hl,hr,horizontal_ratio,vt,vb,vertical_ratio,top_line_ratio,down_line_ratio,font_size_ratio,is_title],如图5。
(3-3)通过对1000份政府行政审批文档进行CTPN文本行计算,共得到50000行文本,并通过人工给每行打上是否为标题的标签,最终共得到50000个样本。将50000个样本以7:3划分训练集和测试集。
(3-4)基于TensorFlow建立逻辑回归模型,TensorFlow是一个基于数据流编程(dataflow programming)的符号数学系统,被广泛应用于各类机器学习(machinelearning)算法的编程实现,其前身是谷歌的神经网络算法库DistBelief。将样本集合导入逻辑回归模型进行训练确定模型参数,如图6,得到损失cost=0.0054,训练集准确率0.9527,测试集准确率0.9520,并将该训练好的分类模型保存在本地。
(4)对于新输入的特征,调用已经训练好的算法模型获取图像文档标题所在行。
(4-1)对新的图像文档,构建其构造特征,再转化为机器学习算法输入特征。
(4-2)加载已训练好的逻辑回归模型,将特征输入逻辑回归模型,得到标题在图像文档中所在的位置,如图7,其中Prob(is_title)表示该行文本为标题的置信度。
本发明另一实施例提供了一种基于深度学习的文档标题识别系统,如图8所示,可以包括:位置信息获取模块、初级特征获取模块和标题识别模块;其中:
位置信息获取模块,该模块将图像文档输入预训练的深度神经网络模型,获取图像文档的文本行所在的图像位置信息;
初级特征获取模块,该模块根据文本行所在的图像位置信息,获取图像文档特征;
标题识别模块,该模块对图像文档特征添加图像文档名称和文本行是否为标题的标记,形成训练样本训练机器学习模型,得到机器学习分类模型;将待识别图像文档的图像文档特征输入至机器学习分类模型,获取图像文档标题所在行。
本发明第三个实施例提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时可用于执行本发明上述实施例中任一项的方法。
可选地,存储器,用于存储程序;存储器,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-access memory,缩写:RAM),如静态随机存取存储器(英文:static random-access memory,缩写:SRAM),双倍数据率同步动态随机存取存储器(英文:Double Data Rate Synchronous Dynamic Random Access Memory,缩写:DDR SDRAM)等;存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。
处理器,用于执行存储器存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。
处理器和存储器可以是独立结构,也可以是集成在一起的集成结构。当处理器和存储器是独立结构时,存储器、处理器可以通过总线耦合连接。
本发明第四个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行本发明上述实施例中任一项的方法。
本发明上述实施例提供的基于深度学习的文档标题识别方法、系统、终端及介质,使用深度神经网络进行图像文档的文本行信息提取,并通过返回的文本行信息建立后置环节中机器学习需要的特征;利用构造的特征进行模型的训练,然后再识别新输入图像文档的标题。现有技术相比,具有完全不同的技术路线,不需要经过步骤繁琐的图像预处理过程;不需要建立强规则去推断图像文档标题所在文本行,因此具有很强的泛化能力和抗噪能力;过程简洁,不需要经过复杂的前置或者后置处理环节,只需要第一次训练好模型,后续直接调用已训练好的模型进行计算。
需要说明的是,本发明提供的方法中的步骤,可以利用系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照方法的技术方案实现系统的组成,即,方法中的实施例可理解为构建系统的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (10)
1.一种基于深度学习的文档标题识别方法,其特征在于,包括:
将图像文档输入预训练的深度神经网络模型,获取图像文档中文本行位置信息和置信度信息;
根据所述文本行位置信息,构建图像文档的构造特征
对所述图像文档的构造特征添加图像文档名称和文本行是否为标题的标记,形成训练样本训练机器学习模型,得到机器学习分类模型;
获取待识别图像文档的构造特征,并将该特征输入至所述分类模型,输出图像文档标题所在的文本行位置信息和该行为标题的置信度信息;
其中:
所述将图像文档输入预训练的深度神经网络模型,获取图像文档中文本行位置信息和置信度信息,包括:
对深度神经网络模型进行调参和训练,得到预训练的深度神经网络模型;
将宽和高分别为的图像文档输入至所述预训练的深度神经网络模型,输出图像文
档中任意一行或任意多行文本行所在的图像位置信息 ;其中,
表示文本行所在位置的矩形边界框的左上角点, ,表示该图像文档所有文本
行从上往下排序时的第行文本,图像文档总文本行数为,第行之上和之下分别存在的
文本行数量为和,表示该点所在图像像素矩阵的列位置,表示该点所在图像像素
矩阵的行位置,以下依次类推;表示文本行所在位置的矩形边界框的右上角点,;表示文本行所在位置的矩形边界框的右下角点,;表示
文本行所在位置的矩形边界框的左下角点,;
所述根据所述文本行位置信息,构建图像文档的构造特征,包括:
根据文本行所在的图像位置信息,获取该文本行初级特征(hl,hr,horizontal_ratio,vt,vb,vertical_ratio,top_line_ratio,down_line_ratio,font_size_ratio):
其中:hl表示该文本行所在位置的矩形边界框到图像文档左边缘的距离;hr表示该文本行所在位置的矩形边界框到图像文档右边缘的距离;vt表示该文本行所在位置的矩形边界框到图像文档上边缘的距离;vb表示该文本行所在位置的矩形边界框到图像文档下边缘的距离;horizontal_ratio为hl和hr比率;vertical_ratio为vt和vb比率;top_line_ratio表示该文本行上方所存在的文本行数与图像文档总文本行数之比; down_line_ratio表示该文本行下方所存在的文本行数与图像文档总文本行数之比;font_size_ratio表示该文本行高度与图像文档所有文本行高度均值之比;
循环遍历每一行文本行位置信息,将所获得的文本行初级特征构建为图像文档的构造特征。
2.根据权利要求1所述的基于深度学习的文档标题识别方法,其特征在于,所述图像文档包括:政府行政审批中涉及到的各类图像文档。
3.根据权利要求1所述的基于深度学习的文档标题识别方法,其特征在于,所述对所述图像文档的构造特征添加图像文档名称和文本行是否为标题的标记,形成训练样本训练机器学习模型,得到机器学习分类模型,包括:
对所述图像文档的构造特征进行归一化处理,得到特征样本:
feature=[hl,hr,horizontal_ratio,vt,vb,vertical_ratio,top_line_ratio,down_line_ratio,font_size_ratio];
对所述特征样本进行扩展,加入图像文档名称image_name和文本行是否为标题的标记is_title,其中,is_title=1表示该行是标题,is_title=0表示该行不是标题,得到训练样本:
将训练样本按比例划分为训练集和测试集;
建立机器学习模型,分别采用训练集和测试集对所述机器学习模型进行训练和测试,得到机器学习分类模型。
4.根据权利要求3所述的基于深度学习的文档标题识别方法,其特征在于,所述深度神经网络模型包括:CTPN神经网络模型、DBNET神经网络模型、Pixellink神经网络模型、YOLO神经网络模型、SSD神经网络模型和Faster R-CNN神经网络模型。
5.根据权利要求3所述的基于深度学习的文档标题识别方法,其特征在于,所述机器学习模型包括:逻辑回归模型、随机森林模型、决策树模型、贝叶斯分类器模型、支持向量机模型、KNN模型、神经网络模型和集成学习模型。
6.根据权利要求1所述的基于深度学习的文档标题识别方法,其特征在于,获取待识别图像文档的构造特征,并将该特征输入至所述分类模型,输出图像文档标题所在的文本行位置信息和该行为标题的置信度信息,包括:
将所述待识别图像文档的构造特征输入至所述分类模型,所述分类模型根据输入特征计算出每行文本为标题的置信度,选取置信度最大且置信度大于所给阈值的文本行,并将该行的位置作为该图像文档中标题所在的位置。
7.根据权利要求6所述的基于深度学习的文档标题识别方法,其特征在于,所述阈值设定为:0.9。
8.一种基于深度学习的文档标题识别系统,其特征在于,包括:
位置信息获取模块,该模块将图像文档输入预训练的深度神经网络模型,获取图像文档中文本行位置信息和置信度信息;
初级特征获取模块,该模块根据所述文本行位置信息,构建图像文档的构造特征;
标题识别模块,该模块对所述图像文档的构造特征添加图像文档名称和文本行是否为标题的标记,形成训练样本训练机器学习模型,得到机器学习分类模型;获取待识别图像文档的构造特征,并将该特征输入至所述分类模型,输出图像文档标题所在的文本行位置信息和该行为标题的置信度信息。
9.一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时可用于执行权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110380385.9A CN112766246A (zh) | 2021-04-09 | 2021-04-09 | 基于深度学习的文档标题识别方法、系统、终端及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110380385.9A CN112766246A (zh) | 2021-04-09 | 2021-04-09 | 基于深度学习的文档标题识别方法、系统、终端及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112766246A true CN112766246A (zh) | 2021-05-07 |
Family
ID=75691386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110380385.9A Pending CN112766246A (zh) | 2021-04-09 | 2021-04-09 | 基于深度学习的文档标题识别方法、系统、终端及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112766246A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113365071A (zh) * | 2021-06-08 | 2021-09-07 | 北京数科网维技术有限责任公司 | 一种图像分层压缩方法及图像分层压缩装置 |
CN113590822A (zh) * | 2021-07-28 | 2021-11-02 | 北京百度网讯科技有限公司 | 文档标题的处理方法、装置、设备、存储介质及程序产品 |
CN116958998A (zh) * | 2023-09-20 | 2023-10-27 | 四川泓宝润业工程技术有限公司 | 一种基于深度学习的数字仪表读数的识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046355A (zh) * | 2019-04-25 | 2019-07-23 | 讯飞智元信息科技有限公司 | 一种标题段落检测方法及装置 |
CN110929746A (zh) * | 2019-05-24 | 2020-03-27 | 南京大学 | 一种基于深度神经网络的电子卷宗标题定位提取与分类方法 |
CN111931775A (zh) * | 2020-09-28 | 2020-11-13 | 成都索贝数码科技股份有限公司 | 自动获取新闻标题方法、系统、计算机设备及存储介质 |
CN112101355A (zh) * | 2020-09-25 | 2020-12-18 | 北京百度网讯科技有限公司 | 图像中文本检测方法、装置、电子设备以及计算机介质 |
CN112132008A (zh) * | 2020-09-21 | 2020-12-25 | 北京指掌易科技有限公司 | 文档文件检测方法、装置、电子设备及可读存储介质 |
CN112528976A (zh) * | 2021-02-09 | 2021-03-19 | 北京世纪好未来教育科技有限公司 | 文本检测模型的生成方法和文本检测方法 |
-
2021
- 2021-04-09 CN CN202110380385.9A patent/CN112766246A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046355A (zh) * | 2019-04-25 | 2019-07-23 | 讯飞智元信息科技有限公司 | 一种标题段落检测方法及装置 |
CN110929746A (zh) * | 2019-05-24 | 2020-03-27 | 南京大学 | 一种基于深度神经网络的电子卷宗标题定位提取与分类方法 |
CN112132008A (zh) * | 2020-09-21 | 2020-12-25 | 北京指掌易科技有限公司 | 文档文件检测方法、装置、电子设备及可读存储介质 |
CN112101355A (zh) * | 2020-09-25 | 2020-12-18 | 北京百度网讯科技有限公司 | 图像中文本检测方法、装置、电子设备以及计算机介质 |
CN111931775A (zh) * | 2020-09-28 | 2020-11-13 | 成都索贝数码科技股份有限公司 | 自动获取新闻标题方法、系统、计算机设备及存储介质 |
CN112528976A (zh) * | 2021-02-09 | 2021-03-19 | 北京世纪好未来教育科技有限公司 | 文本检测模型的生成方法和文本检测方法 |
Non-Patent Citations (1)
Title |
---|
郝聚涛等: "一种基于 CTPN 网络的文档图像标题检测算法", 《电子技术与软件工程》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113365071A (zh) * | 2021-06-08 | 2021-09-07 | 北京数科网维技术有限责任公司 | 一种图像分层压缩方法及图像分层压缩装置 |
CN113365071B (zh) * | 2021-06-08 | 2023-01-17 | 北京数科网维技术有限责任公司 | 一种图像分层压缩方法及图像分层压缩装置 |
CN113590822A (zh) * | 2021-07-28 | 2021-11-02 | 北京百度网讯科技有限公司 | 文档标题的处理方法、装置、设备、存储介质及程序产品 |
CN113590822B (zh) * | 2021-07-28 | 2023-08-08 | 北京百度网讯科技有限公司 | 文档标题的处理方法、装置、设备、存储介质及程序产品 |
CN116958998A (zh) * | 2023-09-20 | 2023-10-27 | 四川泓宝润业工程技术有限公司 | 一种基于深度学习的数字仪表读数的识别方法 |
CN116958998B (zh) * | 2023-09-20 | 2023-12-26 | 四川泓宝润业工程技术有限公司 | 一种基于深度学习的数字仪表读数的识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108229397B (zh) | 基于Faster R-CNN的图像中文本检测方法 | |
CN112766246A (zh) | 基于深度学习的文档标题识别方法、系统、终端及介质 | |
CN107133622B (zh) | 一种单词的分割方法和装置 | |
CN109685055B (zh) | 一种图像中文本区域的检测方法及装置 | |
CN107833213B (zh) | 一种基于伪真值自适应法的弱监督物体检测方法 | |
KR101896357B1 (ko) | 객체를 검출하는 방법, 디바이스 및 프로그램 | |
US10262214B1 (en) | Learning method, learning device for detecting lane by using CNN and testing method, testing device using the same | |
CN112418278A (zh) | 一种多类物体检测方法、终端设备及存储介质 | |
CN100561505C (zh) | 一种图像检测方法及装置 | |
CN113158808A (zh) | 中文古籍字符识别、组段与版面重建方法、介质和设备 | |
CN111583180B (zh) | 一种图像的篡改识别方法、装置、计算机设备及存储介质 | |
CN111353491A (zh) | 一种文字方向确定方法、装置、设备及存储介质 | |
TW200529093A (en) | Face image detection method, face image detection system, and face image detection program | |
CN111178290A (zh) | 一种签名验证方法和装置 | |
CN111144372A (zh) | 车辆检测方法、装置、计算机设备和存储介质 | |
He et al. | Aggregating local context for accurate scene text detection | |
CN112464925A (zh) | 基于机器学习的移动端开户资料银行信息自动提取方法 | |
CN110796145B (zh) | 基于智能决策的多证件分割关联方法及相关设备 | |
CN116740758A (zh) | 一种防止误判的鸟类图像识别方法及系统 | |
CN114463767A (zh) | 信用证识别方法、装置、计算机设备和存储介质 | |
CN114511857A (zh) | 一种ocr识别结果处理方法、装置、设备及存储介质 | |
CN113780116A (zh) | 发票分类方法、装置、计算机设备和存储介质 | |
CN111553361B (zh) | 一种病理切片标签识别方法 | |
KR102026280B1 (ko) | 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템 | |
Singh et al. | Line parameter based word-level Indic script identification system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210507 |
|
WD01 | Invention patent application deemed withdrawn after publication |