CN111652142A - 基于深度学习的题目分割方法、装置、设备和介质 - Google Patents

基于深度学习的题目分割方法、装置、设备和介质 Download PDF

Info

Publication number
CN111652142A
CN111652142A CN202010495987.4A CN202010495987A CN111652142A CN 111652142 A CN111652142 A CN 111652142A CN 202010495987 A CN202010495987 A CN 202010495987A CN 111652142 A CN111652142 A CN 111652142A
Authority
CN
China
Prior art keywords
segmentation
bounding box
network
candidate
regression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010495987.4A
Other languages
English (en)
Inventor
张亚龙
邓小兵
张春雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN202010495987.4A priority Critical patent/CN111652142A/zh
Publication of CN111652142A publication Critical patent/CN111652142A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例涉及题目检测技术领域,公开了一种基于深度学习的题目分割方法、装置、设备和介质。该方法包括:创建并训练基于深度学习的实例分割模型;获取输入图像,并对所述输入图像进行切分,形成目标图片;将所述目标图片输入所述实例分割模型,输出一个或多个包裹题目的多边形框坐标。实施本发明实施例,通过将深度学习中的实例分割算法引入到题目分割的应用中,可以适应多种非标准场景的题目分割任务,题目分割效果得到了极大的提高,显著提高了版面分析的效率和准确率。

Description

基于深度学习的题目分割方法、装置、设备和介质
技术领域
本发明涉及题目检测技术领域,具体涉及一种基于深度学习的题目分割方法、装置、电子设备和存储介质。
背景技术
目前针对文档(练习册、书本、试卷等等)题目的检测方案不多,主要有以下2种:
基于矩形框的目标检测类算法,在文档图片十分标准(尤其是扫描件)的情况下,一定程度上可以满足需求。但目前移动端(手机、平板)的产生的图片数据数量已经占据主流,通过手机或者平板拍照获取的文档图片普遍有不同程度的倾斜、扭曲、拱起、模糊等等,此时使用矩形框检测效果大打折扣,不光准确率容易受影响,而且分割出的题目容易带进干扰内容;
基于题号检测和OCR文本行检测相结合并融入规则的方法,使用题号确定题目上下范围,OCR检测得到的文本行确定左右边界,然后基于一定的规则确定目标题目范围。这样得到的题目轮廓比较粗略,当不存在题号或者题号漏检时,准确率非常低。
发明内容
针对所述缺陷,本发明实施例公开了一种基于深度学习的题目分割方法、装置、电子设备和存储介质,其可以自主适应各种文档的排版,良好地分割题目。
本发明实施例第一方面公开一种基于深度学习的题目分割方法,所述方法包括:
创建并训练基于深度学习的实例分割模型;
获取输入图像,并对所述输入图像进行切分,形成目标图片;
将所述目标图片输入所述实例分割模型,输出一个或多个包裹题目的多边形框坐标。
作为一种可选的实施方式,在本发明实施例第一方面中,创建并训练基于深度学习的实例分割模型,包括:
创建基于深度学习的实例分割初始模型,所述实例分割初始模型包括特征提取网络、区域候选网络、回归网络以及分割网络;
确定样本集并对所述样本集中每个样本图像绘制多边形包围框,每个多边形包围框包裹一个题目;
将每个样本图像分别输入所述实例分割初始模型中,通过反向传播算法对所述实例分割初始模型进行迭代训练,以调整实例分割初始模型的模型参数使得损失函数趋于收敛或小于第一预设阈值,最终得到训练后的实例分割模型。
作为一种可选的实施方式,在本发明实施例第一方面中,将所述目标图片输入所述实例分割模型,输出一个或多个包裹题目的多边形框坐标,包括:
利用所述特征提取网络提取所述目标图片的特征图;
将所述特征图输入区域候选网络,生成候选边界框;
利用所述回归网络对所述候选边界框进行分类和边框回归,得到初始预测边界框;
通过非极大值抑制算法对所述初始预测边界框进行过滤,得到最终预测边界框;
将所述最终预测边界框输入分割网络中,输出每个最终预测边界框对应的多边形框坐标。
作为一种可选的实施方式,在本发明实施例第一方面中,所述将所述特征图输入区域候选网络,生成候选边界框,包括:
利用设定大小的矩形框,采用所述矩形框不同的设定长宽比缩放滑动窗口,滑动窗口在所述特征图上滑动,对边界框进行预测,并将预测的矩形框映射到目标图片中,形成所述候选边界框;
利用所述回归网络对所述候选边界框进行分类和边框回归,得到初始预测边界框,包括:
利用回归网络中的分类分支预测所述候选边界框的分类得分,并滤除所述分类得分小于第二预设阈值的候选边界框;
利用回归网络的回归分支对保留的候选边界框进行平移变换或/和尺度缩放变换,得到初始预测边界框。
作为一种可选的实施方式,在本发明实施例第一方面中,所述对所述输入图像进行切分,形成目标图片,包括:
识别输入图像中长和高的像素点数,根据所述像素点数和预设规则对所述输入图像进行切分,得到一个或多个目标图片。
本发明实施例第二方面公开一种基于深度学习的题目分割装置,所述装置包括:
创建单元,用于创建并训练基于深度学习的实例分割模型;
切分单元,用于获取输入图像,并对所述输入图像进行切分,形成目标图片;
识别单元,用于将所述目标图片输入所述实例分割模型,输出一个或多个包裹题目的多边形框坐标。
作为一种可选的实施方式,在本发明实施例第二方面中,所述创建单元,包括:
构建子单元,用于创建基于深度学习的实例分割初始模型,所述实例分割初始模型包括特征提取网络、区域候选网络、回归网络以及分割网络;
样本子单元,用于确定样本集并对所述样本集中每个样本图像绘制多边形包围框,每个多边形包围框包裹一个题目;
训练子单元,用于将每个样本图像分别输入所述实例分割初始模型中,通过反向传播算法对所述实例分割初始模型进行迭代训练,以调整实例分割初始模型的模型参数使得损失函数趋于收敛或小于第一预设阈值,最终得到训练后的实例分割模型。
作为一种可选的实施方式,在本发明实施例第二方面中,所述识别单元,包括:
特征提取子单元,用于利用所述特征提取网络提取所述目标图片的特征图;
候选区域子单元,用于将所述特征图输入区域候选网络,生成候选边界框;
回归子单元,用于利用所述回归网络对所述候选边界框进行分类和边框回归,得到初始预测边界框;
过滤子单元,用于通过非极大值抑制算法对所述初始预测边界框进行过滤,得到最终预测边界框;
输出子单元,用于将所述最终预测边界框输入分割网络中,输出每个最终预测边界框对应的多边形框坐标。
作为一种可选的实施方式,在本发明实施例第二方面中,所述候选区域子单元,包括:
滑动孙单元,用于利用设定大小的矩形框,采用所述矩形框不同的设定长宽比缩放滑动窗口,滑动窗口在所述特征图上滑动,对边界框进行预测,并将预测的矩形框映射到目标图片中,形成所述候选边界框;
所述回归子单元,包括:
分类孙单元,用于利用回归网络中的分类分支预测所述候选边界框的分类得分,并滤除所述分类得分小于第二预设阈值的候选边界框;
边框回归孙单元,用于利用回归网络的回归分支对保留的候选边界框进行平移变换或/和尺度缩放变换,得到初始预测边界框。
作为一种可选的实施方式,在本发明实施例第二方面中,所述切分单元,包括:
像素识别子单元,用于识别输入图像中长和高的像素点数;
目标图片获取子单元,用于根据所述像素点数和预设规则对所述输入图像进行切分,得到一个或多个目标图片。
本发明实施例第三方面公开一种电子设备,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行本发明实施例第一方面公开的一种基于深度学习的题目分割方法的部分或全部步骤。
本发明实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的一种基于深度学习的题目分割方法的部分或全部步骤。
本发明实施例第五方面公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本发明实施例第一方面公开的一种基于深度学习的题目分割方法的部分或全部步骤。
本发明实施例第六方面公开一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本发明实施例第一方面公开的一种基于深度学习的题目分割方法的部分或全部步骤。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,创建并训练基于深度学习的实例分割模型;获取输入图像,并对所述输入图像进行切分,形成目标图片;将所述目标图片输入所述实例分割模型,输出一个或多个包裹题目的多边形框坐标。可见,实施本发明实施例,可以通过将深度学习中的实例分割算法引入到题目分割的应用中,可以适应多种非标准场景的题目分割任务,题目分割效果得到了极大的提高,显著提高了版面分析的效率和准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种基于深度学习的题目分割方法的流程示意图;
图2是本发明实施例公开的实例分割模型识别方法的流程示意图;
图3是本发明实施例公开的一种基于深度学习的题目分割装置的结构示意图;
图4是本发明实施例公开的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象,而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,示例性地,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开了一种基于深度学习的题目分割方法、装置、电子设备和存储介质,可以通过将深度学习中的实例分割算法引入到题目分割的应用中,可以适应多种非标准场景的题目分割任务,题目分割效果得到了极大的提高,显著提高了版面分析的效率和准确率,以下结合附图进行详细描述。
实施例一
请参阅图1,图1是本发明实施例公开的一种题目分割方法的流程示意图。如图1所示,该题目分割方法包括以下步骤:
110、创建并训练基于深度学习的实例分割模型。
实例分割模型可以采用基于深度学习的实例分割网络搭建,例如可以采用MaskR-CNN实例分割网络。Mask R-CNN实例分割网络采用灵活、通用的目标实例分割框架,能够同时检测目标并进行实例分割,在原Faster R-CNN的基础上添加了object mask网络,速度大约为5FPS。
首先创建基于深度学习的实例分割初始模型,并对实例分割初始模型的网络参数随机初始化。实例分割初始模型包括特征提取网络、区域候选网络、回归网络以及分割网络。
确定样本集并对所述样本集中每个样本图像绘制多边形包围框,每个多边形包围框包裹一个题目。多边形包围框可以是人工绘制,也可以是通过标注工具例如VGG ImageAnnotator(VIA)自动标注。样本图像中至少包括一道或多道题目,每一道题目绘制一个多边形包围框,绘制的多边形包围框能够完全包裹题目且多边形包围框的面积最小,后续反向传播调整模式参数时会更准确。
将每个样本图像分别输入所述实例分割初始模型中,通过反向传播算法对所述实例分割初始模型进行迭代训练,以调整实例分割初始模型的模型参数使得损失函数趋于收敛或小于第一预设阈值,最终得到训练后的实例分割模型。损失函数包括为三部分损失函数之和,分别为分类分支损失函数、回归分支损失函数和分割分支的损失函数。每个样本图像的迭代次数不易过多,如果过多,则对其他样本图像的适应性较差,也不易过少如果次数过少,则最终的损失函数可能达不到要求,每个样本图像的迭代次数可以设置为3次,或者根据使用训练样本图像的总数和迭代总次数进行设定每个样本图像的迭代次数,例如,如果迭代总次数设置为1000,训练样本图像总数为200个,则每个样本图像的迭代次数为5次。
将每个样本图像分别输入所述实例分割初始模型中,对实例分割初始模型的训练过程是:
利用所述特征提取网络提取所述样本图像的特征图;将所述特征图输入区域候选网络,生成候选边界框;利用所述回归网络对所述候选边界框进行分类和边框回归,得到初始预测边界框;通过非极大值抑制算法对所述初始预测边界框进行过滤,得到最终预测边界框;将所述最终预测边界框输入分割网络中,输出每个最终预测边界框对应的多边形框坐标。
120、获取输入图像,并对所述输入图像进行切分,形成目标图片。
输入图像为用户输入的图像,示例性地,输入图像可以是用户通过图像采集装置对文档进行拍照后传送至智能设备的图像,也是用户从互联网下载的图像。因为输入到实例分割模型的图像尺寸会被实例分割模型进行规整化尺度处理,这种情况下,得到调整的图片是一些细节可能会被切除。实例分割模型设定的图像尺寸为短边不超过600像素点,长边不超过1000像素点,并且优先考虑长边尺寸。
因此,在本发明较佳的实施例中,在输入到实例分割模型前,先对输入图像进行分割,以适应实例分割模型的输入,同时还能保留输入图像最大限度的细节,即优选切分时不会把一道题目被切分到不同的目标图片中。
示例性地,可以检测输入图像的像素点数,先检测输入图像的水平像素点数,可以根据OCR检测的输入图像的文字行方向确定与其平行或接近平行的输入图像的边缘,当水平像素点数小于等于600时,可以设置第一预设矩形框,该第一预设矩形框的短边为600像素点,长边为1000像素点数,将输入图像的上边缘与第一预设矩形框的短边边缘对齐后进行切分一个或多个目标图片(如果输入图像的竖向像素点数小于或等于1000,则切分一个目标图片,反之,则切分成多个目标图片);当水平像素点数大于600小于1000时,将输入图像的上边缘与第一预设矩形框的长边边缘对齐后进行切分一个或多个目标图片。如果水平像素点数大于1000时,通过OCR确定文字行中左边界横坐标最小的点,以及右边界中横坐标最大的点,将两个横坐标相减的像素点小于1000,左边界点和右边界点所在的竖向线段与第一预设矩形框的两个短边平行且位于两个短边之间,将输入图像的上边缘与第一预设矩形框的长边边缘对齐。如果水平像素点数大于1000且上述两个横坐标相减的像素点也大于1000,且判断输入图像的版面数,可以通过左边界点坐标的聚类确定,如果聚类结果为1类,则为一个版面,这种情况下,不易分割,可以在不改变分辨率的情况下改变输入图像的尺寸,如果为多个版面,则可以针对每个版面进行一次切分,然后判断每个版面的左右边界的横坐标相减的像素点数与600和1000的关系,按照上述方式针对每个版面再进行切分。
130、将所述目标图片输入所述实例分割模型,输出一个或多个包裹题目的多边形框坐标。
以Mask R-CNN实例分割网络为例:请参照图2所示,实例分割模型识别多边形框坐标的方法包括以下步骤:
131、利用所述特征提取网络提取所述目标图片的特征图。
特征提取网络可以采用深度残差网络(ResNet101)和特征金字塔网络(FPN)的结合,将目标图片输入该特征提取网络中,输出多张尺寸不同的特征图。
132、将所述特征图输入区域候选网络,生成候选边界框。
区域候选网络和步骤133的回归网络为Faster R-CNN的核心,可以采用RPN网络,其中,区域候选网络主要应用RPN网络的全卷积网络,采用多种不同大小矩形框Anchor(例如3种,分别为128×64,256×128,512×256),用3种长宽比1:1,1:2,2:1(共9个类型的Anchor)进行缩放滑动窗口,将9个类型的Anchor在各特征图上滑动,以滑动窗口的中心位置为核心,对题目候选区域进行预测,在各层特征图上生成长宽比不同的候选边界框;通过各特征图与原图之间的映射关系,将候选边界框映射回原图。
133、利用所述回归网络对所述候选边界框进行分类和边框回归,得到初始预测边界框。
回归网络采用RPN网络的两个全连接层,分别为分类分支层和回归分支层。利用分类分支层预测所述候选边界框的分类得分,并滤除所述分类得分小于第二预设阈值的候选边界框(训练时,滤除候选边框与标注边界框IOU小于第三预设阈值的候选边界框);利用回归分支层对保留的候选边界框进行平移变换或/和尺度缩放变换,得到初始预测边界框,使得初始预测边界框尽可能接近真实的边界框。
134、通过非极大值抑制算法对所述初始预测边界框进行过滤,得到最终预测边界框。
初始预测边界框中可能存在越界边界框或者一个题目存在多个边界框,采用非极大值抑制算法对这些预测边界框进行删除和合并,非极大值抑制算法是根据分类得分和两个预测边界框的IOU进行迭代,保留的预测边界框称为最终预测边界框,最终预测边界框理论上与题目的数量相等。
135、将所述最终预测边界框输入分割网络中,输出每个最终预测边界框对应的多边形框坐标。
分割网络可以采用全卷积网络,对每个最终预测边界框内的各个像素进行二值化掩码,即预测最终预测边界框内的各个像素属于该个类别的概率,如果概率大于第四预设阈值(例如0.5),则将这些像素点置于1,反之,将这些像素点置于0,然后通过连通域算法得到二值化掩码,统计并输出这些置于1的最外侧的像素点坐标(临近点搜索,如果搜到的临近点的为0,则为外侧像素点,记录其坐标),这些像素点坐标构成了最后的多边形框坐标。
140、基于多边形框坐标对目标图片中的各个题目进行分割,得到各个题目子图片;或者将该多边形框坐标呈现于目标图片中,并将多边形框坐标围成的区域内填充一定的颜色,以使用户看到的目标页面在视觉上更加友好,不同多边形框轮廓填充不同的颜色。
实施本发明实施例,通过将深度学习中的实例分割算法引入到题目分割的应用中,可以适应多种非标准场景的题目分割任务,不引入额外的内容,不依赖题号,题目分割效果得到了极大的提高,显著提高了版面分析的效率和准确率。
实施例二
请参阅图3,图3是本发明实施例公开的一种题目分割装置的结构示意图。如图3所示,该题目分割装置可以包括:
创建单元210,用于创建并训练基于深度学习的实例分割模型;
切分单元220,用于获取输入图像,并对所述输入图像进行切分,形成目标图片;
识别单元230,用于将所述目标图片输入所述实例分割模型,输出一个或多个包裹题目的多边形框坐标。
作为一种可选的实施方式,所述创建单元210,包括:
构建子单元211,用于创建基于深度学习的实例分割初始模型,所述实例分割初始模型包括特征提取网络、区域候选网络、回归网络以及分割网络;
样本子单元212,用于确定样本集并对所述样本集中每个样本图像绘制多边形包围框,每个多边形包围框包裹一个题目;
训练子单元213,用于将每个样本图像分别输入所述实例分割初始模型中,通过反向传播算法对所述实例分割初始模型进行迭代训练,以调整实例分割初始模型的模型参数使得损失函数趋于收敛或小于第一预设阈值,最终得到训练后的实例分割模型。
作为一种可选的实施方式,所述识别单元230,可以包括:
特征提取子单元231,用于利用所述特征提取网络提取所述目标图片的特征图;
候选区域子单元232,用于将所述特征图输入区域候选网络,生成候选边界框;
回归子单元233,用于利用所述回归网络对所述候选边界框进行分类和边框回归,得到初始预测边界框;
过滤子单元234,用于通过非极大值抑制算法对所述初始预测边界框进行过滤,得到最终预测边界框;
输出子单元235,用于将所述最终预测边界框输入分割网络中,输出每个最终预测边界框对应的多边形框坐标。
作为一种可选的实施方式,所述候选区域子单元232,可以包括:
滑动孙单元2321,用于利用设定大小的矩形框,采用所述矩形框不同的设定长宽比缩放滑动窗口,滑动窗口在所述特征图上滑动,对边界框进行预测,并将预测的矩形框映射到目标图片中,形成所述候选边界框;
所述回归子单元233,可以包括:
分类孙单元2331,用于利用回归网络中的分类分支预测所述候选边界框的分类得分,并滤除所述分类得分小于第二预设阈值的候选边界框;
边框回归孙单元2332,用于利用回归网络的回归分支对保留的候选边界框进行平移变换或/和尺度缩放变换,得到初始预测边界框。
作为一种可选的实施方式,所述切分单元220,可以包括:
像素识别子单元221,用于识别输入图像中长和高的像素点数;
目标图片获取子单元222,用于根据所述像素点数和预设规则对所述输入图像进行切分,得到一个或多个目标图片。
图3所示的题目分割装置,通过将深度学习中的实例分割算法引入到题目分割的应用中,可以适应多种非标准场景的题目分割任务,不引入额外的内容,不依赖题号,题目分割效果得到了极大的提高,显著提高了版面分析的效率和准确率。
实施例三
请参阅图4,图4是本发明实施例公开的一种电子设备的结构示意图。如图4所示,该电子设备可以包括:
存储有可执行程序代码的存储器310;
与存储器310耦合的处理器320;
其中,处理器320调用存储器310中存储的可执行程序代码,执行实施例一的基于深度学习的题目分割方法中的部分或全部步骤。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行实施例一的基于深度学习的题目分割方法中的部分或全部步骤。
本发明实施例还公开一种计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一的基于深度学习的题目分割方法中的部分或全部步骤。
本发明实施例还公开一种应用发布平台,其中,应用发布平台用于发布计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一的基于深度学习的题目分割方法中的部分或全部步骤。
在本发明的各种实施例中,应理解,所述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物单元,即可位于一个地方,或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。
在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
本领域普通技术人员可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的一种基于深度学习的题目分割方法、装置、电子设备和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种基于深度学习的题目分割方法,其特征在于,包括:
创建并训练基于深度学习的实例分割模型;
获取输入图像,并对所述输入图像进行切分,形成目标图片;
将所述目标图片输入所述实例分割模型,输出一个或多个包裹题目的多边形框坐标。
2.根据权利要求1所述的题目分割方法,其特征在于,创建并训练基于深度学习的实例分割模型,包括:
创建基于深度学习的实例分割初始模型,所述实例分割初始模型包括特征提取网络、区域候选网络、回归网络以及分割网络;
确定样本集并对所述样本集中每个样本图像绘制多边形包围框,每个多边形包围框包裹一个题目;
将每个样本图像分别输入所述实例分割初始模型中,通过反向传播算法对所述实例分割初始模型进行迭代训练,以调整实例分割初始模型的模型参数使得损失函数趋于收敛或小于第一预设阈值,最终得到训练后的实例分割模型。
3.根据权利要求2所述的题目分割方法,其特征在于,将所述目标图片输入所述实例分割模型,输出一个或多个包裹题目的多边形框坐标,包括:
利用所述特征提取网络提取所述目标图片的特征图;
将所述特征图输入区域候选网络,生成候选边界框;
利用所述回归网络对所述候选边界框进行分类和边框回归,得到初始预测边界框;
通过非极大值抑制算法对所述初始预测边界框进行过滤,得到最终预测边界框;
将所述最终预测边界框输入分割网络中,输出每个最终预测边界框对应的多边形框坐标。
4.根据权利要求3所述的题目分割方法,其特征在于,所述将所述特征图输入区域候选网络,生成候选边界框,包括:
利用设定大小的矩形框,采用所述矩形框不同的设定长宽比缩放滑动窗口,滑动窗口在所述特征图上滑动,对边界框进行预测,并将预测的矩形框映射到目标图片中,形成所述候选边界框;
利用所述回归网络对所述候选边界框进行分类和边框回归,得到初始预测边界框,包括:
利用回归网络中的分类分支预测所述候选边界框的分类得分,并滤除所述分类得分小于第二预设阈值的候选边界框;
利用回归网络的回归分支对保留的候选边界框进行平移变换或/和尺度缩放变换,得到初始预测边界框。
5.根据权利要求1-4任一项所述的题目分割方法,其特征在于,所述对所述输入图像进行切分,形成目标图片,包括:
识别输入图像中长和高的像素点数,根据所述像素点数和预设规则对所述输入图像进行切分,得到一个或多个目标图片。
6.一种基于深度学习的题目分割装置,其特征在于,包括:
创建单元,用于创建并训练基于深度学习的实例分割模型;
切分单元,用于获取输入图像,并对所述输入图像进行切分,形成目标图片;
识别单元,用于将所述目标图片输入所述实例分割模型,输出一个或多个包裹题目的多边形框坐标。
7.根据权利要求6所述的题目分割装置,其特征在于,所述创建单元,包括:
构建子单元,用于创建基于深度学习的实例分割初始模型,所述实例分割初始模型包括特征提取网络、区域候选网络、回归网络以及分割网络;
样本子单元,用于确定样本集并对所述样本集中每个样本图像绘制多边形包围框,每个多边形包围框包裹一个题目;
训练子单元,用于将每个样本图像分别输入所述实例分割初始模型中,通过反向传播算法对所述实例分割初始模型进行迭代训练,以调整实例分割初始模型的模型参数使得损失函数趋于收敛或小于第一预设阈值,最终得到训练后的实例分割模型。
8.根据权利要求7所述的题目分割装置,其特征在于,所述识别单元,包括:
特征提取子单元,用于利用所述特征提取网络提取所述目标图片的特征图;
候选区域子单元,用于将所述特征图输入区域候选网络,生成候选边界框;
回归子单元,用于利用所述回归网络对所述候选边界框进行分类和边框回归,得到初始预测边界框;
过滤子单元,用于通过非极大值抑制算法对所述初始预测边界框进行过滤,得到最终预测边界框;
输出子单元,用于将所述最终预测边界框输入分割网络中,输出每个最终预测边界框对应的多边形框坐标。
9.根据权利要求8所述的题目分割装置,其特征在于,所述候选区域子单元,包括:
滑动孙单元,用于利用设定大小的矩形框,采用所述矩形框不同的设定长宽比缩放滑动窗口,滑动窗口在所述特征图上滑动,对边界框进行预测,并将预测的矩形框映射到目标图片中,形成所述候选边界框;
所述回归子单元,包括:
分类孙单元,用于利用回归网络中的分类分支预测所述候选边界框的分类得分,并滤除所述分类得分小于第二预设阈值的候选边界框;
边框回归孙单元,用于利用回归网络的回归分支对保留的候选边界框进行平移变换或/和尺度缩放变换,得到初始预测边界框。
10.根据权利要求6-9任一项所述的题目分割装置,其特征在于,所述切分单元,包括:
像素识别子单元,用于识别输入图像中长和高的像素点数;
目标图片获取子单元,用于根据所述像素点数和预设规则对所述输入图像进行切分,得到一个或多个目标图片。
11.一种电子设备,其特征在于,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行权利要求1至5任一项所述的基于深度学习的题目分割方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1至5任一项所述的基于深度学习的题目分割方法。
CN202010495987.4A 2020-06-03 2020-06-03 基于深度学习的题目分割方法、装置、设备和介质 Pending CN111652142A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010495987.4A CN111652142A (zh) 2020-06-03 2020-06-03 基于深度学习的题目分割方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010495987.4A CN111652142A (zh) 2020-06-03 2020-06-03 基于深度学习的题目分割方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN111652142A true CN111652142A (zh) 2020-09-11

Family

ID=72342876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010495987.4A Pending CN111652142A (zh) 2020-06-03 2020-06-03 基于深度学习的题目分割方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN111652142A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652140A (zh) * 2020-06-03 2020-09-11 广东小天才科技有限公司 基于深度学习的题目精准分割方法、装置、设备和介质
CN112149683A (zh) * 2020-09-30 2020-12-29 华宇金信(北京)软件有限公司 夜视环境下活物检测方法及装置
CN112801008A (zh) * 2021-02-05 2021-05-14 电子科技大学中山学院 行人重识别方法、装置、电子设备及可读存储介质
CN113420669A (zh) * 2021-06-24 2021-09-21 武汉工程大学 基于多尺度训练和级联检测的文档版面分析方法和系统
CN113435458A (zh) * 2021-02-08 2021-09-24 中国石油化工股份有限公司 基于机器学习的岩石薄片图像分割方法、装置及介质
CN112801008B (zh) * 2021-02-05 2024-05-31 电子科技大学中山学院 行人重识别方法、装置、电子设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785337A (zh) * 2018-12-25 2019-05-21 哈尔滨工程大学 一种基于实例分割算法的栏内哺乳动物清点方法
US20200134365A1 (en) * 2018-02-09 2020-04-30 Beijing Sensetime Technology Development Co., Ltd. Instance segmentation methods and apparatuses, electronic devices, programs, and media

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200134365A1 (en) * 2018-02-09 2020-04-30 Beijing Sensetime Technology Development Co., Ltd. Instance segmentation methods and apparatuses, electronic devices, programs, and media
CN109785337A (zh) * 2018-12-25 2019-05-21 哈尔滨工程大学 一种基于实例分割算法的栏内哺乳动物清点方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652140A (zh) * 2020-06-03 2020-09-11 广东小天才科技有限公司 基于深度学习的题目精准分割方法、装置、设备和介质
CN112149683A (zh) * 2020-09-30 2020-12-29 华宇金信(北京)软件有限公司 夜视环境下活物检测方法及装置
CN112801008A (zh) * 2021-02-05 2021-05-14 电子科技大学中山学院 行人重识别方法、装置、电子设备及可读存储介质
CN112801008B (zh) * 2021-02-05 2024-05-31 电子科技大学中山学院 行人重识别方法、装置、电子设备及可读存储介质
CN113435458A (zh) * 2021-02-08 2021-09-24 中国石油化工股份有限公司 基于机器学习的岩石薄片图像分割方法、装置及介质
CN113420669A (zh) * 2021-06-24 2021-09-21 武汉工程大学 基于多尺度训练和级联检测的文档版面分析方法和系统
CN113420669B (zh) * 2021-06-24 2022-05-10 武汉工程大学 基于多尺度训练和级联检测的文档版面分析方法和系统

Similar Documents

Publication Publication Date Title
WO2020221298A1 (zh) 文本检测模型训练方法、文本区域、内容确定方法和装置
CN111652142A (zh) 基于深度学习的题目分割方法、装置、设备和介质
US9235759B2 (en) Detecting text using stroke width based text detection
CN111652140A (zh) 基于深度学习的题目精准分割方法、装置、设备和介质
CN110909724B (zh) 一种多目标图像的缩略图生成方法
WO2022089170A1 (zh) 字幕区域识别方法、装置、设备及存储介质
CN111753120A (zh) 一种搜题的方法、装置、电子设备和存储介质
CN113516666A (zh) 图像裁剪方法、装置、计算机设备及存储介质
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN106649629A (zh) 一种关联书本与电子资源的系统
CN111652144A (zh) 基于目标区域融合的题目分割方法、装置、设备和介质
CN113436222A (zh) 图像处理方法、图像处理装置、电子设备及存储介质
CN113591719A (zh) 一种自然场景任意形状文本检测方法、装置和训练方法
CN111563505A (zh) 一种基于像素分割合并的文字检测方法及装置
CN109508716B (zh) 一种图像文字的定位方法及装置
CN110196917B (zh) 个性化logo版式定制方法、系统和存储介质
CN112949649B (zh) 一种文本图像的识别方法、装置及计算设备
CN114330234A (zh) 版面结构分析方法、装置、电子设备和存储介质
CN113850178A (zh) 一种视频词云的生成方法及装置、存储介质及电子设备
CN112132750B (zh) 一种视频处理方法与装置
CN113570615A (zh) 一种基于深度学习的图像处理方法、电子设备及存储介质
CN109685079B (zh) 一种特征图像类别信息的生成方法和装置
CN108804652B (zh) 封面图片的生成方法、装置、存储介质和电子装置
CN116798041A (zh) 图像识别方法、装置和电子设备
CN111680635A (zh) 一种文本识别的方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200911