CN111652141A

CN111652141A - 基于题号和文本行的题目分割方法、装置、设备和介质

Info

Publication number: CN111652141A
Application number: CN202010495986.XA
Authority: CN
Inventors: 尹磊; 邓小兵; 张春雨
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2020-09-11
Anticipated expiration: 2040-06-03
Also published as: CN111652141B

Abstract

本发明实施例公开了一种基于题号和文本行的题目分割方法、装置、设备和介质。该方法包括：获取目标页面图片，并检测目标页面图片中的题号信息和文本行信息；确定文本行的边界坐标信息，聚类得到类别；将类别中边界坐标的最小值作为版面的边界值，对目标页面图片进行版面分割，得到版面；确定版面的引领行和非引领行，根据引领行和非引领行的位置关系确定每个非引领行关联的引领行，以引领行和非引领行构建题目；根据题目中引领行和非引领行的文本行信息，计算题目的边界信息，并对每道题目进行分割。实施本发明实施例，通过结合题号和文本行信息，充分的挖掘题目的结构关系，解决了相邻题目容易混淆的问题，提高了题目分割的准确率。

Description

基于题号和文本行的题目分割方法、装置、设备和介质

技术领域

本发明涉及智能设备技术领域，具体涉及一种基于题号和文本行的题目分割方法、装置、电子设备和存储介质。

背景技术

目前针对图像中的题目分割方法的方法，通常的做法是训练一个端到端的题目分割模型，将不同题目进行按照题目范围进行划分。但是有些情况下，题目分布较为复杂，且相邻题目往往没有明确的边界，模型有时无法区分两道相邻的题目，因此存在多道相邻题目无法分割的情况。另外由于待识别的图片是由用户上传获得，存在试卷模糊、倾斜、褶皱以及遮挡等情况影响，一定程度上降低了题目分割的准确率。

发明内容

针对所述缺陷，本发明实施例公开了一种基于题号和文本行的题目分割方法、装置、电子设备和存储介质，其可以提高了题目分割的准确率。

本发明实施例第一方面公开一种基于题号和文本行的题目分割方法，所述方法包括：

获取目标页面图片，并检测所述目标页面图片中的题号信息和文本行信息；

根据文本行信息和题号信息确定每一文本行的边界坐标信息，并利用所述边界坐标信息进行聚类，得到一个或多个类别；

将每个类别中边界坐标的最小值作为版面的边界值，对所述目标页面图片进行版面分割，得到一个或多个版面；

确定每个版面的引领行和非引领行，根据引领行和非引领行的位置关系确定每个非引领行关联的引领行，以引领行和关联于所述引领行的非引领行构建一道题目；

根据每道题目中引领行和非引领行的文本行信息，计算每道题目所在范围及其边界信息，并根据所述边界信息对每道题目进行分割。

作为一种可选的实施方式，在本发明实施例第一方面中，检测所述目标页面图片中的题号信息和文本行信息，包括：

创建并训练YOLO题号检测模型，将目标页面图片输入所述YOLO题号检测模型获取题号信息；

通过PSEnet文本检测算法检测所述目标页面图片的文本行信息。

作为一种可选的实施方式，在本发明实施例第一方面中，根据文本行信息和题号信息确定每一文本行的边界坐标信息，并利用所述边界坐标信息进行聚类，得到一个或多个类别，包括：

通过光学字符识别算法确定每个文本行和题号的坐标信息；

检测每个文本行是否包含题号，如果包含题号，以所述题号的左边界坐标信息作为该文本行的边界坐标信息，如果不包括题号，则以文本行的左边界坐标信息作为该文本行的边界坐标信息；

利用基于密度的DBSCAN聚类算法对所述文本行的边界坐标信息进行聚类，得到一个或多个类别。

作为一种可选的实施方式，在本发明实施例第一方面中，将每个类别中边界坐标的最小值作为版面的边界值，对所述目标页面图片进行版面分割，得到一个或多个版面，包括：

以文本行或平行于文本行为X轴建立坐标系；

确定每个类别中边界坐标的横坐标，选取每个类别中横坐标最小值的点作为边界点；

以Y轴或平行于Y轴的边界线作为分割线；所述分割线的数量与边界点的数量、类别的数量以及版面的数量相匹配，所述分割线穿过对应类别的边界点；

确定每条分割线的横坐标值，如果分割线的横坐标值大于对应类别的任意边界坐标的横坐标，调整所述分割线，直至所述分割线的横坐标值小于或等于其对应类别的所有边界坐标的横坐标；

对所述目标页面图片进行分割，得到一个或多个版面。

作为一种可选的实施方式，在本发明实施例第一方面中，确定每个版面的引领行和非引领行，根据引领行和非引领行的位置关系确定每个非引领行关联的引领行，以引领行和关联于所述引领行的非引领行构建一道题目，包括：

检测每个版面的第一个文本行是否包含题号，如果不包含，则为所述第一个文本行添加虚拟题号；

将每个版面中包括题号或虚拟题号的文本行作为引领行，将所述版面中引领行之外的其他文本行作为非引领行；

找到每个非引领行左上方最接近的引领行，作为所述非引领行关联的引领行，并将所述非引领行归属于其关联的引领行所在的题目中。

作为一种可选的实施方式，在本发明实施例第一方面中，找到每个非引领行左上方最接近的引领行，作为所述非引领行关联的引领行，并将所述非引领行归属于其关联的引领行所在的题目中，包括：

获取每个版面中引领行和非引领行的所述边界坐标信息中的纵坐标值；

按照所述纵坐标值由大到小对所述引领行和非引领行进行排序；

获取排序在后的非引领行的边界坐标与其前的引领行的边界坐标之间的距离，选取所述距离中最小值对应的引领行作为所述非引领行关联的引领行；

将所述非引领行归属于其关联的引领行所在的题目中。

作为一种可选的实施方式，在本发明实施例第一方面中，根据每道题目中引领行和非引领行的文本行信息，计算每道题目所在范围及其边界信息，并根据所述边界信息对每道题目进行分割，包括：

计算所述引领行与其关联的非引领行的边界坐标距离，选取所述距离最大值对应的非引领行作为目标非引领行；

以引领行作为每道题目的第一行，以目标非引领行作为引领行所在题目的尾行，确定所述题目的边界信息，将所述第一行、尾行以及二者之间的区域作为每道题目的范围；

根据所述边界信息对每道题目进行分割，输出每道题目对应的子图像。

本发明实施例第二方面公开一种基于题号和文本行的题目分割装置，所述装置包括：

获取单元，用于获取目标页面图片，并检测所述目标页面图片中的题号信息和文本行信息；

聚类单元，用于根据文本行信息和题号信息确定每一文本行的边界坐标信息，并利用所述边界坐标信息进行聚类，得到一个或多个类别；

第一分割单元，用于将每个类别中边界坐标的最小值作为版面的边界值，对所述目标页面图片进行版面分割，得到一个或多个版面；

构建单元，用于确定每个版面的引领行和非引领行，根据引领行和非引领行的位置关系确定每个非引领行关联的引领行，以引领行和关联于所述引领行的非引领行构建一道题目；

第二分割单元，用于根据每道题目中引领行和非引领行的文本行信息，计算每道题目所在范围及其边界信息，并根据所述边界信息对每道题目进行分割。

作为一种可选的实施方式，在本发明实施例第二方面中，所述获取单元，包括：

第一检测子单元，用于创建并训练YOLO题号检测模型，将目标页面图片输入所述YOLO题号检测模型获取题号信息；

第二检测子单元，用于通过PSEnet文本检测算法检测所述目标页面图片的文本行信息。

作为一种可选的实施方式，在本发明实施例第二方面中，所述聚类单元，包括：

识别子单元，用于通过光学字符识别算法确定每个文本行和题号的坐标信息；

第一判断子单元，用于检测每个文本行是否包含题号，如果包含题号，以所述题号的左边界坐标信息作为该文本行的边界坐标信息，如果不包括题号，则以文本行的左边界坐标信息作为该文本行的边界坐标信息；

类别确定子单元，用于利用基于密度的DBSCAN聚类算法对所述文本行的边界坐标信息进行聚类，得到一个或多个类别。

作为一种可选的实施方式，在本发明实施例第二方面中，所述第一分割单元，包括：

坐标系创建子单元，用于以文本行或平行于文本行为X轴建立坐标系；

边界点确定子单元，用于确定每个类别中边界坐标的横坐标，选取每个类别中横坐标最小值的点作为边界点；

分割线确定子单元，用于以Y轴或平行于Y轴的边界线作为分割线；所述分割线的数量与边界点的数量、类别的数量以及版面的数量相匹配，所述分割线穿过对应类别的边界点；

分割线调整子单元，用于确定每条分割线的横坐标值，如果分割线的横坐标值大于对应类别的任意边界坐标的横坐标，调整所述分割线，直至所述分割线的横坐标值小于或等于其对应类别的所有边界坐标的横坐标；

版面分割子单元，用于对所述目标页面图片进行分割，得到一个或多个版面。

作为一种可选的实施方式，在本发明实施例第二方面中，所述构建单元，包括：

第二判断子单元，用于检测每个版面的第一个文本行是否包含题号，如果不包含，则为所述第一个文本行添加虚拟题号；

引领行确定子单元，将每个版面中包括题号或虚拟题号的文本行作为引领行，将所述版面中引领行之外的其他文本行作为非引领行；

文本行归属子单元，用于找到每个非引领行左上方最接近的引领行，作为所述非引领行关联的引领行，并将所述非引领行归属于其关联的引领行所在的题目中。

作为一种可选的实施方式，在本发明实施例第二方面中，所述文本行归属子单元，包括：

纵坐标值确定孙单元，用于获取每个版面中引领行和非引领行的所述边界坐标信息中的纵坐标值；

排序孙单元，用于按照所述纵坐标值由大到小对所述引领行和非引领行进行排序；

距离计算孙单元，用于获取排序在后的非引领行的边界坐标与其前的引领行的边界坐标之间的距离，选取所述距离中最小值对应的引领行作为所述非引领行关联的引领行；

非引领行归属孙单元，用于将所述非引领行归属于其关联的引领行所在的题目中。

作为一种可选的实施方式，在本发明实施例第二方面中，所述第二分割单元，包括：

计算子单元，用于计算所述引领行与其关联的非引领行的边界坐标距离，选取所述距离最大值对应的非引领行作为目标非引领行；

范围确定子单元，用于以引领行作为每道题目的第一行，以目标非引领行作为引领行所在题目的尾行，确定所述题目的边界信息，将所述第一行、尾行以及二者之间的区域作为每道题目的范围；

题目输出子单元，用于根据所述边界信息对每道题目进行分割，输出每道题目对应的子图像。

本发明实施例第三方面公开一种电子设备，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行本发明实施例第一方面公开的一种基于题号和文本行的题目分割方法的部分或全部步骤。

本发明实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的一种基于题号和文本行的题目分割方法的部分或全部步骤。

本发明实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的一种基于题号和文本行的题目分割方法的部分或全部步骤。

本发明实施例第六方面公开一种应用发布平台，所述应用发布平台用于发布计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的一种基于题号和文本行的题目分割方法的部分或全部步骤。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，获取目标页面图片，并检测所述目标页面图片中的题号信息和文本行信息；根据文本行信息和题号信息确定每一文本行的边界坐标信息，并利用所述边界坐标信息进行聚类，得到一个或多个类别；将每个类别中边界坐标的最小值作为版面的边界值，对所述目标页面图片进行版面分割，得到一个或多个版面；确定每个版面的引领行和非引领行，根据引领行和非引领行的位置关系确定每个非引领行关联的引领行，以引领行和关联于所述引领行的非引领行构建一道题目；根据每道题目中引领行和非引领行的文本行信息，计算每道题目所在范围及其边界信息，并根据所述边界信息对每道题目进行分割。可见，实施本发明实施例，结合了题号和文本行信息，充分的挖掘了题目的结构关系，解决了相邻题目容易混淆的问题，提高了题目分割的准确率，经验证，取得了非常良好的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种基于题号和文本行的题目分割方法的流程示意图；

图2是本发明实施例公开的聚类方法的流程示意图；

图3是本发明实施例公开的版面分割方法的流程示意图；

图4是本发明实施例公开的确定引领行和非引领行的流程示意图；

图5是本发明实施例公开的非引领行和引领行的关联关系的确定方法的流程示意图；

图6是本发明实施例公开的题目分割方法的流程示意图；

图7是本发明实施例公开的一种基于题号和文本行的题目分割装置的结构示意图；

图8是本发明实施例公开的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象，而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，示例性地，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例公开了一种基于题号和文本行的题目分割方法、装置、电子设备和存储介质，其通过结合题号和文本行信息，充分的挖掘题目的结构关系，解决了相邻题目容易混淆的问题，提高了题目分割的准确率，以下结合附图进行详细描述。

实施例一

请参阅图1，图1是本发明实施例公开的一种题目分割方法的流程示意图。如图1所示，该题目分割方法包括以下步骤：

110、获取目标页面图片，并检测所述目标页面图片中的题号信息和文本行信息。

目标页面图片包括一个或多个版面，且每个版面均包括一道或多道题目。目标页面图片可以通过图像采集装置例如摄像头等对承载体例如作业本、练习册以及试卷等进行拍照得到，图像采集装置可以集成于智能设备中，例如将承载体放置于点读机或家教机的前方，通过智能设备的前置摄像头对承载体进行拍照，或者图像采集装置为分立器件，其具有与智能设备通讯的能力。目标页面图片也可以是从网上下载得到，这里不对其来源进行限定。

获取目标页面图片之后，可以对目标页面图片进行预处理，预处理包括但不限于图像增强操作、形状矫正操作等。

检测目标页面图片的题号信息的方法可以有多种，示例性地，通过创建并训练的YOLO题号检测模型对题号信息进行识别。YOLO(You Only Look Once:Unified,Real-TimeObject Detection)，是Joseph Redmon和Ali Farhadi等人于2015年提出的基于单个神经网络的目标检测算法，其包括卷积层，目标检测层和NMS筛选层。当然，还可以通过其他深度学习的目标检测方法对题号进行识别，例如R-CNN、SSD、retinanet、AttentionNet以及FCOS等。

检测目标页面图片的文本行信息的方法也可以有多种，示例性地，通过PSEnet文本检测算法检测所述目标页面图片的文本行信息。PSEnet是一种实例分割网络，能够对任意形状的文本进行定位；而且该模型提出了一种渐进的尺度扩展算法，该算法可以成功地识别相邻文本实例，能够准确地将文本实例紧密地分开，尤其适用于用户自己拍照得到的可能存在倾斜、褶皱以及卷曲等情况的目标页面图片或目标页面图片的题目分布比较复杂的情况。

当然，在一些场景中，也可以应用其他深度学习模型对文本行信息进行检测，例如基于包围盒回归(Bounding Box Regression)或基于语义分割的卷积神经网络等。

120、根据文本行信息和题号信息确定每一文本行的边界坐标信息，并利用所述边界坐标信息进行聚类，得到一个或多个类别。

目标页面图片特别是试卷图片可能包括多个版面，因此，在本发明实施例中，先确认存在几个版面，并先对版面进行分割，从而解决左右相邻题目之间的划分问题。

请参照图2所示，其可以包括以下步骤：

121、通过光学字符识别算法确定每个文本行和题号的坐标信息。

OCR是通过识别每个文字的位置后再对该位置的文字进行预测，因此，通过OCR可以确定每个文本行各个文字的坐标(如果文本行包含题号，也可以识别题号的坐标)。

122、检测每个文本行是否包含题号，如果包含题号，以所述题号的左边界坐标信息作为该文本行的边界坐标信息，如果不包括题号，则以文本行的左边界坐标信息作为该文本行的边界坐标信息。

文本行信息可以理解为某一个文本行的mask(掩码)，题号信息可以理解为题号的mask，如果某个题号信息与某一个文本行信息相连通，则可以认为该文本行包括题号。

步骤121得到了每个文本行的坐标信息和题号的坐标信息，可以通过文本行和题号的关系确定每一个文本行的边界坐标信息。因为，几乎所有的题目设置方式均是将题号放于题目首行的左侧，因此，如果文本行包括题号，则以题号的左边界坐标信息作为文本行的边界信息，如果文本行不包含题号，则以文本行的左边界坐标信息作为文本行的边界信息。

事实上，由于文本行识别过程中，题号信息也会被置于对应文本行信息中，因此，也可以直接以文本行的左边界坐标信息作为该文本行的边界信息。这里的左边界坐标的确定方式可以是将题号或文本行的坐标信息中横坐标值最小的点。

123、通过聚类算法对文本行的边界信息进行聚类，示例性地，可以通过基于密度的DBSCAN聚类算法对各个边界坐标点进行聚类，得到一个或多个类别，类别的个数与目标页面图片的排版方式相对应，如果得到一个类别，则该目标页面图片只存在一个版面，如果得到两个类别，则目标页面图片就有两个版面。

聚类的方式可以是依据边界坐标信息的横坐标值实现。当然，聚类算法也可以采用OPTICS算法、DENCLUE算法等。

130、将每个类别中边界坐标的最小值作为版面的边界值，对所述目标页面图片进行版面分割，得到一个或多个版面。

由步骤120可知，类别个数与版面个数相对应，如果只有一个类别，则不存在左右相邻的题目，这种情况下，无需对目标页面图片进行分割，或者说分割后得到的版面就是目标页面图片本身。

请参照图3所示，分割过程包括以下步骤：

131、以文本行或平行于文本行为X轴建立坐标系。

以任意文本行或平行于文本行为X轴建立坐标系，显然坐标系的Y轴与X轴垂直。

示例性地，先对目标页面图片的边缘进行检测，如果存在某一个文本行与目标页面图像的某一个边缘平行或接近平行(可以设置相应的预设夹角，小于预设夹角则可以认为接近平行)，可以以该文本行或该边缘为X轴建立坐标系。

132、确定每个类别中边界坐标的横坐标，选取每个类别中横坐标最小值的点作为边界点。

因为现有的题目布局中，题目基本是从左至右、从上至下排序，可以认为确定的边界点位于该类别中最外侧，因此，边界点为每个类别所有的边界坐标中的横坐标最小的点。该横坐标可以是OCR识别时得到的像素点坐标，也可以是构建坐标系中的坐标。

133、以Y轴或平行于Y轴的边界线作为分割线；所述分割线的数量与边界点的数量、类别的数量以及版面的数量相匹配，所述分割线穿过对应类别的边界点。

基于分割线对目标页面图片进行分割，存在几条分割线，则会将目标页面图片分割为几个版面。以Y轴或平行于Y轴的边界线作为分割线，分割线要穿过对应类别的边界点。

134、确定每条分割线的横坐标值，如果分割线的横坐标值大于对应类别的任意边界坐标的横坐标，则执行步骤135；反之，执行步骤136。

在文本行存在一定的卷曲，即与目标页面图片的上下边缘存在一定夹角时，尽管上述步骤131中将二者视为接近平行，但是这种情况下确定的分割线有可能会将部分文本行的内容分割到其他版面中，因此，在本发明较佳的实施例中，对分割线增加判断机制。

135、则调整所述分割线，直至所述分割线的横坐标值小于或等于其对应类别的所有边界坐标的横坐标。

当分割线的横坐标值小于或等于其对应类别的所有边界坐标的横坐标，说明分割线不会伸入到任意的文本行中。如果分割线的横坐标值大于其对应类别的一个或多个边界坐标的横坐标，则有可能会存在分割线穿过某一个或某些文本行。因此，在这种情况下，以边界点为中心，调整分割线的角度，直至分割线的横坐标值小于或等于其对应类别的所有边界坐标的横坐标。

136、通过分割线对目标页面图片进行分割，得到一个或多个版面。

可以理解的是：如果存在一个类别，则可以不对目标页面图片进行分割，或者基于上述的分割线将目标页面图片的左侧边缘进行切割。如果存在两个或两个以上的类别，则位于最左侧的分割线分割出的部分舍弃，相邻两个分割线之间的图片分别构成一个版面，最右侧的分割线分割出最后一个版面。

通过步骤131-136的操作，可以对目标页面图片的左右相邻题目得到准确的划分。

140、确定每个版面的引领行和非引领行，根据引领行和非引领行的位置关系确定每个非引领行关联的引领行，以引领行和关联于所述引领行的非引领行构建一道题目。

这里以某个版面为例，实现题目分割，其余版面的分割方法与之相同。

确定该版面的引领行和非引领行，将引领行和其关联的非引领行一起构成一道题目，如果某个引领行不具有关联的非引领行，则该引领行自身单独构成一道题目。

示例性地，确定引领行和非引领行以及二者的关联关系可以参照图4所示，其可以包括以下步骤：

141、检测该版面的第一个文本行是否包含题号，如果不包含，则为所述第一个文本行添加虚拟题号。

虚拟题号无需该版面中体现，可以是一个标记信息，记录该第一个文本行具有一个虚拟题号。第一个文本行可以依据边界信息确定，该版面中边界信息中纵坐标最大值对应的文本行为第一个文本行。

设置虚拟题号的目的在于对其他版面中未完全显示的最后一道题目进行分割出去，防止该部分内容输出到其他分割到的题目中。

142、将每个版面中包括题号或虚拟题号的文本行作为引领行，将所述版面中引领行之外的其他文本行作为非引领行。

基于题目的常规布局方式，具有题号的文本行为题目的第一行，因此，将包含题号或虚拟题号的文本行设置为引领行，将剩余文本行设置为非引领行，只要找到非引领行归属的引领行，即可以得到谋道题目的所有文本行信息。当然，设置了虚拟题号的文本行可以认为是第一个题目的第一行。

143、找到每个非引领行左上方最接近的引领行，作为所述非引领行关联的引领行，并将所述非引领行归属于其关联的引领行所在的题目中。

该非引领行上方最接近的引领行，即是其关联的引领行，将这个非引领行归属到其关联的引领行所在的题目中即可得到题目的所有文本行。

示例性地，非引领行和引领行的关联关系的确定方法请参照图5所示，可以包括以下步骤：

1431、获取每个版面中引领行和非引领行的所述边界坐标信息中的纵坐标值。

纵坐标值可以是上述坐标系中的纵坐标，也可以是OCR识别的像素点的纵坐标，二者相关联，只是中心点不同而已。

1432、按照步骤1431得到的纵坐标值由大到小对所述引领行和非引领行进行排序。

1433、获取排序在后的非引领行的边界坐标与其前的引领行的边界坐标之间的距离，选取所述距离中最小值对应的引领行作为所述非引领行关联的引领行。

计算排序在后的非引领行的边界坐标与该非引领行前的所有引领行的边界坐标之间的距离，距离最小的引领行即为该非引领行关联的引领行。对于非引领行前只有一个引领行的情况，即第一道题目，则该非引领行关联该第一个引领行。

1434、将所述非引领行归属于其关联的引领行所在的题目中。

150、根据每道题目中引领行和非引领行的文本行信息，计算每道题目所在范围及其边界信息，并根据所述边界信息对每道题目进行分割。

确定了每道题目的所有文本行信息，包括引领行的文本信息和所有非引领行的文本行信息(如果存在的话)。就可以得到每道题目所在的范围和边界信息，通过边界信息可以分割得到每道题目。

示例性地，请参照图6所示，其可以包括以下步骤：

151、计算所述引领行与其关联的所有非引领行的边界坐标距离，选取所述距离最大值对应的非引领行作为目标非引领行。

需要确定距离引领行最远的非引领行作为尾行，来确定题目所在的范围。仍然可以以边界坐标距离确定目标非引领行：计算所述引领行与其关联的所有非引领行的边界坐标距离，选取所述距离最大值对应的非引领行作为目标非引领行。

152、以引领行作为每道题目的第一行，以目标非引领行作为引领行所在题目的尾行，确定所述题目的边界信息，将所述第一行、尾行以及二者之间的区域作为每道题目的范围。

以引领行作为每道题目的第一行，以目标非引领行作为引领行所在题目的尾行，该第一行和尾行构成了对应题目的上下边界，其中上边界为题目第一行的所有文字的上边界坐标的连线，下边界为题目尾行所有文字的下边界坐标的连线。如果引领行不存在关联的非引领行，则该引领行本身构成一道题目，如果引领行只有一个关联的非引领行，则该引领行和该非引领行构成一道题目，如果引领行具有两个或以上关联的非引领行，则该引领行、目标非引领行以及二者之间的其他非引领行共同构成一道题目。

153、根据所述边界信息对每道题目进行分割，输出每道题目对应的子图像。

通过边界信息对每道题目进行分割，从而输出每道题目对应的子图像，即题目信息。

示例性地，边界信息除上述直接以第一行和尾行作为边界进行分割外，在目标页面图像的上下边缘与文本行平行或接近平行时，还可以确定题目第一行的上边界信息和尾行的下边界信息，然后以上边界信息中纵坐标最大值为上边界点，平行于X轴并穿过该上边界点做上分割线(也可以增加类似步骤134的判断步骤)，以下边界信息中纵坐标最小值为下边界点，平行于X轴并穿过该下边界点做下分割线(也可以增加类似步骤134的判断步骤)。

实施本发明实施例，其利用基于密度的聚类算法DBSCAN，对目标页面图片中的题号或文本行的位置坐标进行聚类，来对版面进行划分，以此来确定左右相邻的题目边界，解决左右相邻题目无法正确划分的问题。在得到了版面信息后，可以计算出每个版面所包含的题号及其所在的文本行，将其定义为题目引领行(简称为引领行)，并以此来确定上下相邻的题目边界，解决上下相邻题目无法正确划分的问题。之后在每个版面中，即可通过判断非引领行与引领行之间的相对位置关系，来判定非引领行归属的题目，以此来获取题目中所包含的文本行，并且通过结合OCR的文本行坐标，得出题目的边界信息进行分割。

实施例二

请参阅图7，图7是本发明实施例公开的一种题目分割装置的结构示意图。如图7所示，该题目分割装置可以包括：

获取单元210，用于获取目标页面图片，并检测所述目标页面图片中的题号信息和文本行信息；

聚类单元220，用于根据文本行信息和题号信息确定每一文本行的边界坐标信息，并利用所述边界坐标信息进行聚类，得到一个或多个类别；

第一分割单元230，用于将每个类别中边界坐标的最小值作为版面的边界值，对所述目标页面图片进行版面分割，得到一个或多个版面；

构建单元240，用于确定每个版面的引领行和非引领行，根据引领行和非引领行的位置关系确定每个非引领行关联的引领行，以引领行和关联于所述引领行的非引领行构建一道题目；

第二分割单元250，用于根据每道题目中引领行和非引领行的文本行信息，计算每道题目所在范围及其边界信息，并根据所述边界信息对每道题目进行分割。

作为一种可选的实施方式，所述获取单元210，可以包括：

第一检测子单元211，用于创建并训练YOLO题号检测模型，将目标页面图片输入所述YOLO题号检测模型获取题号信息；

第二检测子单元212，用于通过PSEnet文本检测算法检测所述目标页面图片的文本行信息。

作为一种可选的实施方式，所述聚类单元220，可以包括：

识别子单元221，用于通过光学字符识别算法确定每个文本行和题号的坐标信息；

第一判断子单元222，用于检测每个文本行是否包含题号，如果包含题号，以所述题号的左边界坐标信息作为该文本行的边界坐标信息，如果不包括题号，则以文本行的左边界坐标信息作为该文本行的边界坐标信息；

类别确定子单元223，用于利用基于密度的DBSCAN聚类算法对所述文本行的边界坐标信息进行聚类，得到一个或多个类别。

作为一种可选的实施方式，所述第一分割单元230，可以包括：

坐标系创建子单元231，用于以文本行或平行于文本行为X轴建立坐标系；

边界点确定子单元232，用于确定每个类别中边界坐标的横坐标，选取每个类别中横坐标最小值的点作为边界点；

分割线确定子单元233，用于以Y轴或平行于Y轴的边界线作为分割线；所述分割线的数量与边界点的数量、类别的数量以及版面的数量相匹配，所述分割线穿过对应类别的边界点；

分割线调整子单元234，用于确定每条分割线的横坐标值，如果分割线的横坐标值大于对应类别的任意边界坐标的横坐标，调整所述分割线，直至所述分割线的横坐标值小于或等于其对应类别的所有边界坐标的横坐标；

版面分割子单元235，用于对所述目标页面图片进行分割，得到一个或多个版面。

作为一种可选的实施方式，所述构建单元240，可以包括：

第二判断子单元241，用于检测每个版面的第一个文本行是否包含题号，如果不包含，则为所述第一个文本行添加虚拟题号；

引领行确定子单元242，将每个版面中包括题号或虚拟题号的文本行作为引领行，将所述版面中引领行之外的其他文本行作为非引领行；

文本行归属子单元243，用于找到每个非引领行左上方最接近的引领行，作为所述非引领行关联的引领行，并将所述非引领行归属于其关联的引领行所在的题目中。

作为一种可选的实施方式，所述文本行归属子单元243，包括：

纵坐标值确定孙单元2431，用于获取每个版面中引领行和非引领行的所述边界坐标信息中的纵坐标值；

排序孙单元4232，用于按照所述纵坐标值由大到小对所述引领行和非引领行进行排序；

距离计算孙单元2433，用于获取排序在后的非引领行的边界坐标与其前的引领行的边界坐标之间的距离，选取所述距离中最小值对应的引领行作为所述非引领行关联的引领行；

非引领行归属孙单元2434，用于将所述非引领行归属于其关联的引领行所在的题目中。

作为一种可选的实施方式，所述第二分割单元250，可以包括：

计算子单元251，用于计算所述引领行与其关联的非引领行的边界坐标距离，选取所述距离最大值对应的非引领行作为目标非引领行；

范围确定子单元252，用于以引领行作为每道题目的第一行，以目标非引领行作为引领行所在题目的尾行，确定所述题目的边界信息，将所述第一行、尾行以及二者之间的区域作为每道题目的范围；

题目输出子单元253，用于根据所述边界信息对每道题目进行分割，输出每道题目对应的子图像。

图7所示的题目分割装置，其利用基于密度的聚类算法DBSCAN，对目标页面图片中的题号或文本行的位置坐标进行聚类，来对版面进行划分，以此来确定左右相邻的题目边界，解决左右相邻题目无法正确划分的问题。在得到了版面信息后，可以计算出每个版面所包含的题号及其所在的文本行，将其定义为题目引领行(简称为引领行)，并以此来确定上下相邻的题目边界，解决上下相邻题目无法正确划分的问题。之后在每个版面中，即可通过判断非引领行与引领行之间的相对位置关系，来判定非引领行归属的题目，以此来获取题目中所包含的文本行，并且通过结合OCR的文本行坐标，得出题目的边界信息进行分割。

实施例三

请参阅图8，图8是本发明实施例公开的一种电子设备的结构示意图。如图8所示，该电子设备可以包括：

存储有可执行程序代码的存储器310；

与存储器310耦合的处理器320；

其中，处理器320调用存储器310中存储的可执行程序代码，执行实施例一的基于题号和文本行的题目分割方法中的部分或全部步骤。

本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行实施例一的基于题号和文本行的题目分割方法中的部分或全部步骤。

本发明实施例还公开一种计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一的基于题号和文本行的题目分割方法中的部分或全部步骤。

本发明实施例还公开一种应用发布平台，其中，应用发布平台用于发布计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一的基于题号和文本行的题目分割方法中的部分或全部步骤。

在本发明的各种实施例中，应理解，所述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。

在本发明所提供的实施例中，应理解，“与A对应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

本领域普通技术人员可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种基于题号和文本行的题目分割方法、装置、电子设备和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于题号和文本行的题目分割方法，其特征在于，包括：

2.根据权利要求1所述的题目分割方法，其特征在于，检测所述目标页面图片中的题号信息和文本行信息，包括：

3.根据权利要求2所述的题目分割方法，其特征在于，根据文本行信息和题号信息确定每一文本行的边界坐标信息，并利用所述边界坐标信息进行聚类，得到一个或多个类别，包括：

通过光学字符识别算法确定每个文本行和题号的坐标信息；

4.根据权利要求3所述的题目分割方法，其特征在于，将每个类别中边界坐标的最小值作为版面的边界值，对所述目标页面图片进行版面分割，得到一个或多个版面，包括：

以文本行或平行于文本行为X轴建立坐标系；

对所述目标页面图片进行分割，得到一个或多个版面。

5.根据权利要求3或4所述的题目分割方法，其特征在于，确定每个版面的引领行和非引领行，根据引领行和非引领行的位置关系确定每个非引领行关联的引领行，以引领行和关联于所述引领行的非引领行构建一道题目，包括：

6.根据权利要求5所述的题目分割方法，其特征在于，找到每个非引领行左上方最接近的引领行，作为所述非引领行关联的引领行，并将所述非引领行归属于其关联的引领行所在的题目中，包括：

将所述非引领行归属于其关联的引领行所在的题目中。

7.根据权利要求6所述的题目分割方法，其特征在于，根据每道题目中引领行和非引领行的文本行信息，计算每道题目所在范围及其边界信息，并根据所述边界信息对每道题目进行分割，包括：

8.一种基于题号和文本行的题目分割装置，其特征在于，包括：

9.根据权利要求8所述的题目分割装置，其特征在于，所述获取单元，包括：

10.根据权利要求9所述的题目分割装置，其特征在于，所述聚类单元，包括：

11.根据权利要求10所述的题目分割装置，其特征在于，所述第一分割单元，包括：

12.根据权利要求10或11所述的题目分割装置，其特征在于，所述构建单元，包括：

13.根据权利要求12所述的题目分割装置，其特征在于，所述文本行归属子单元，包括：

14.根据权利要求13所述的题目分割装置，其特征在于，所述第二分割单元，包括：

15.一种电子设备，其特征在于，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行权利要求1至7任一项所述的基于题号和文本行的题目分割方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行权利要求1至7任一项所述的基于题号和文本行的题目分割方法。