CN111652144A

CN111652144A - 基于目标区域融合的题目分割方法、装置、设备和介质

Info

Publication number: CN111652144A
Application number: CN202010496709.0A
Authority: CN
Inventors: 邓小兵; 许多; 张春雨
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2020-09-11
Anticipated expiration: 2040-06-03
Also published as: CN111652144B

Abstract

本发明实施例涉及题目检测技术领域，公开了一种基于目标区域融合的题目分割方法、装置、设备和介质。该方法包括：获取目标图片，并得到目标图片的题目区域掩码和文本行信息；根据目标题目区域掩码确定目标文本行掩码，并计算目标文本行掩码与目标题目区域的第一交集面积；根据第一交集面积和目标文本行的面积确定目标文本行在目标题目区域中的第一占比；在第一占比大于或等于第一预设阈值时，通过目标文本行掩码对目标题目区域进行扩充，得到扩充后的目标题目区域。实施本发明实施例，可以通过文字识别对题目分割进行补充，使其融合后的边界不会切割到文本行，同时将文字信息的结果融合到题目检测的区域中，使得题目检测的结果更加完整。

Description

基于目标区域融合的题目分割方法、装置、设备和介质

技术领域

本发明涉及题目检测技术领域，具体涉及一种基于目标区域融合的题目分割方法、装置、电子设备和存储介质。

背景技术

当前已经有基于深度学习的端到端题目分割算法，这种算法可以将试卷、练习册等文档的题目区域进行划分，但由于深度学习的黑盒特性，得到的结果不尽理想，有以下问题：

1、划分出的区域不够精准，经常会出现裁切到文字的情况，造成信息的缺失，影响后续使用。

2、对文本行的区分不敏感，不能得到具体的文本，无法将其中包含的信息充分挖掘。

发明内容

针对所述缺陷，本发明实施例公开了一种基于目标区域融合的题目分割方法、装置、电子设备和存储介质，其通过文本识别对题目分割进行补充，使其融合后的边界不会切割到文本行。

本发明实施例第一方面公开一种基于目标区域融合的题目分割方法，所述方法包括：

获取目标图片，并得到所述目标图片的题目区域掩码和文本行信息；

根据目标题目区域掩码确定目标文本行掩码，并计算目标文本行掩码与目标题目区域的第一交集面积；

根据所述第一交集面积和目标文本行的面积确定目标文本行在目标题目区域中的第一占比；在所述第一占比大于或等于第一预设阈值时，通过所述目标文本行掩码对所述目标题目区域进行扩充，得到扩充后的目标题目区域。

作为一种可选的实施方式，在本发明实施例第一方面中，所述得到所述目标图片的题目区域掩码和文本行信息，包括：

将所述目标图片并行输入yolact题目检测网络模型和OCR文字识别模型，分别得到题目区域掩码和文本信息；

利用所述文本信息基于投影法或连通域法或滑动窗口法或深度学习法构建文本行掩码，并对每个文本行掩码进行编号，得到每个文本行编号。

作为一种可选的实施方式，在本发明实施例第一方面中，根据目标题目区域掩码确定目标文本行掩码，并计算目标文本行掩码与目标题目区域的第一交集面积，包括：

遍历目标题目区域掩码的所有像素点，确定所述目标题目区域掩码内存在的文本行编号，将所述目标题目区域掩码内存在的文本行编号对应的文本行掩码记为目标文本行掩码；

计算目标文本行掩码和目标题目区域的第一交集面积。

作为一种可选的实施方式，在本发明实施例第一方面中，计算目标文本行掩码和目标题目区域的第一交集面积，包括：

确定所述目标文本行掩码和目标题目区域的第一交集区域；

统计所述第一交集区域的第一像素点数。

作为一种可选的实施方式，在本发明实施例第一方面中，根据所述第一交集面积和目标文本行的面积确定目标文本行在目标题目区域的第一占比，包括：

统计所述目标文本行掩码包含的第一像素点总数；

利用所述第一交集区域的第一像素点数除以所述第一像素点总数，得到所述第一占比。

作为一种可选的实施方式，在本发明实施例第一方面中，通过所述目标文本行掩码对所述目标题目区域进行扩充，得到扩充后的目标题目区域，包括：

将所述目标文本行掩码和目标题目区域进行合并，合并后的区域为扩充后的目标题目区域。

作为一种可选的实施方式，在本发明实施例第一方面中，所述方法还包括：

得到所述目标图片的图表掩码；

根据目标题目区域掩码确定目标图表掩码，并计算目标图表掩码与目标题目区域的第二交集面积；

根据所述第二交集面积和目标图表掩码的面积确定目标图表在目标题目区域的第二占比；在所述第二占比大于或等于第二预设阈值时，通过所述目标图表掩码对所述扩充后的目标题目区域进行再次扩充，得到最终扩充后的目标题目区域。

作为一种可选的实施方式，在本发明实施例第一方面中，所述得到所述目标图片的图表掩码，包括：

将所述目标图片输入yolov3图表检测网络模型中，得到所述目标图片的图表掩码；

所述根据目标题目区域掩码确定目标图表掩码，并计算目标图表掩码与目标题目区域的第二交集面积，包括：

遍历目标题目区域掩码的所有像素点，确定所述目标题目区域掩码内存在的图表掩码，将所述目标题目区域掩码内存在的图表掩码记为目标图表掩码；

确定目标图表掩码和目标题目区域的第二交集区域，并统计所述第二交集区域内的第二像素点数；

根据所述第二交集面积和目标图表掩码的面积确定目标图表在目标题目区域内的第二占比；在所述第二占比大于或等于第二预设阈值时，通过所述目标图表掩码对所述扩充后的目标题目区域进行再次扩充，得到最终扩充后的目标题目区域，包括：

统计所述目标图表掩码包含的第二像素点总数；

利用所述第二交集区域的第二像素点数除以所述第二像素点总数，得到所述第二占比；

在所述第二占比大于或等于第二预设阈值时，将所述目标图表掩码和所述扩充后的目标题目区域进行再次合并，再次合并后的区域为所述最终扩充后的目标题目区域。

本发明实施例第二方面公开一种基于目标区域融合的题目分割装置，所述装置包括：

获取单元，用于获取目标图片，并得到所述目标图片的题目区域掩码和文本行信息；

计算单元，用于根据目标题目区域掩码确定目标文本行掩码，并计算目标文本行掩码与目标题目区域的第一交集面积；

判断单元，用于根据所述第一交集面积和目标文本行的面积确定目标文本行在目标题目区域中的第一占比；在所述第一占比大于或等于第一预设阈值时，通过所述目标文本行掩码对所述目标题目区域进行扩充，得到扩充后的目标题目区域。

作为一种可选的实施方式，在本发明实施例第二方面中，所述获取单元，包括：

识别子单元，用于将所述目标图片并行输入yolact题目检测网络模型和OCR文字识别模型，分别得到题目区域掩码和文本信息；

文本行掩码构建子单元，用于利用所述文本信息基于投影法或连通域法或滑动窗口法或深度学习法构建文本行掩码，并对每个文本行掩码进行编号，得到每个文本行编号。

作为一种可选的实施方式，在本发明实施例第二方面中，所述计算单元，包括：

遍历子单元，用于遍历目标题目区域掩码的所有像素点，确定所述目标题目区域掩码内存在的文本行编号，将所述目标题目区域掩码内存在的文本行编号对应的文本行掩码记为目标文本行掩码；

确定子单元，用于确定所述目标文本行掩码和目标题目区域的第一交集区域；

第一统计子单元，用于统计所述第一交集区域的第一像素点数。

作为一种可选的实施方式，在本发明实施例第二方面中，所述判断单元，包括：

第二统计子单元，用于统计所述目标文本行掩码包含的第一像素点总数；

相除子单元，用于利用所述第一交集区域的第一像素点数除以所述第一像素点总数，得到所述第一占比。

作为一种可选的实施方式，在本发明实施例第二方面中，所述判断单元，还包括：

文本行合并子单元，用于将所述目标文本行掩码和目标题目区域进行合并，合并后的区域为扩充后的目标题目区域。

作为一种可选的实施方式，在本发明实施例第二方面中，所述装置还包括图表融合单元；所述图表融合单元，包括：

图表识别子单元，用于得到所述目标图片的图表掩码；

目标图表确定子单元，用于根据目标题目区域掩码确定目标图表掩码，并计算目标图表掩码与目标题目区域的第二交集面积；

图表扩充子单元，用于根据所述第二交集面积和目标图表掩码的面积确定目标图表在目标题目区域的第二占比；在所述第二占比大于或等于第二预设阈值时，通过所述目标图表掩码对所述扩充后的目标题目区域进行再次扩充，得到最终扩充后的目标题目区域。

作为一种可选的实施方式，在本发明实施例第二方面中，图表识别子单元，包括：

所述目标图表确定子单元，包括：

图表遍历孙单元，用于遍历目标题目区域掩码的所有像素点，确定所述目标题目区域掩码内存在的图表掩码，将所述目标题目区域掩码内存在的图表掩码记为目标图表掩码；

第二交集统计孙单元，用于确定目标图表掩码和目标题目区域的第二交集区域，并统计所述第二交集区域内的第二像素点数；

所述图表扩充子单元，包括：

图表像素统计孙单元，用于统计所述目标图表掩码包含的第二像素点总数；

第二占比计算孙单元，用于利用所述第二交集区域的第二像素点数除以所述第二像素点总数，得到所述第二占比；

图表合并孙单元，用于在所述第二占比大于或等于第二预设阈值时，将所述目标图表掩码和所述扩充后的目标题目区域进行再次合并，再次合并后的区域为所述最终扩充后的目标题目区域。

本发明实施例第三方面公开一种电子设备，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行本发明实施例第一方面公开的一种基于目标区域融合的题目分割方法的部分或全部步骤。

本发明实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的一种基于目标区域融合的题目分割方法的部分或全部步骤。

本发明实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的一种基于目标区域融合的题目分割方法的部分或全部步骤。

本发明实施例第六方面公开一种应用发布平台，所述应用发布平台用于发布计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的一种基于目标区域融合的题目分割方法的部分或全部步骤。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，获取目标图片，并得到所述目标图片的题目区域掩码和文本行信息；根据目标题目区域掩码确定目标文本行掩码，并计算目标文本行掩码与目标题目区域的第一交集面积；根据所述第一交集面积和目标文本行的面积确定目标文本行在目标题目区域中的第一占比；在所述第一占比大于或等于第一预设阈值时，通过所述目标文本行掩码对所述目标题目区域进行扩充，得到扩充后的目标题目区域。可见，实施本发明实施例，通过文字识别对题目分割进行补充，使其融合后的边界不会切割到文本行，同时将文字信息的结果融合到题目检测的区域中，使得题目检测的结果更加完整，包含了该题目的文本信息。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种基于目标区域融合的题目分割方法的流程示意图；

图2为本发明实施例公开的题目区域掩码的示意图；

图3为本发明实施例公开的文本行掩码的示意图；

图4为本发明实施例公开的文本行掩码和题目区域掩码的融合后的示意图；

图5是本发明实施例公开的另一种基于目标区域融合的题目分割方法的流程示意图；

图6是本发明实施例公开的图表掩码和题目区域掩码融合的流程示意图；

图7是本发明实施例公开的一种基于目标区域融合的题目分割装置的结构示意图；

图8是本发明实施例公开的另一种基于目标区域融合的题目分割装置的结构示意图

图9是本发明实施例公开的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象，而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，示例性地，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例公开了一种基于目标区域融合的题目分割方法、装置、电子设备和存储介质，可以通过文字识别对题目分割进行补充，使其融合后的边界不会切割到文本行，同时将文字信息的结果融合到题目检测的区域中，使得题目检测的结果更加完整，以下结合附图进行详细描述。

实施例一

请参阅图1，图1是本发明实施例公开的一种题目分割方法的流程示意图。如图1所示，该题目分割方法包括以下步骤：

110、获取目标图片，并得到所述目标图片的题目区域掩码和文本行信息。

目标图片为用户通过电子设备输入的图像，示例性地，目标图片可以是用户通过图像采集装置对文档进行拍照后传送至智能设备的图像，也可以是用户从互联网下载的图像。将对目标图像进行识别前，可以对目标图像进行预处理，预处理包括但不限于图像增强和图像校正。

目标图片的题目区域掩码可以通过任意的基于深度学习的端到端的实例分割算法，包括但不限于yolact实例分割网络、Mask R-CNN实例分割网络和FCIS实例分割网络等，在本发明实施例中，采用预先训练的yolact题目检测网络模型实现生成题目区域掩码，训练样本图像的标签为人工标注的题目区域mask(掩码)。

文本行信息检测可以通过多种方式实现，示例性地，可以通过OCR文字识别模型进行，通过OCR对目标图片的文字进行二值化处理得到文本信息，然后基于传统OCR的投影法或连通域法或滑动窗口法确定文本行mask，或者基于深度学习的方式确定文本行mask，例如使用CTPN、pixellink、psenet等网络模型。

图2和图3分别为通过yolact题目检测网络模型和OCR文字识别模型得到的题目区域mask和文本行mask，从图2和图3可以看出，题目区域mask更为连贯和光滑，但是在边界处和文本行mask有一定的区别，即如果直接使用题目区域mask对目标图片进行题目分割，可能会在边界处切割掉一定的文字信息。

为了便于后续的统计，在获取文本行mask后，对每个文本行mask赋予不同的编号，记为文本行编号，并将文本行编号与文本行建立映射关系，即每个文本行内的像素点均为同一个文本行编号。在图3中，由于文本行mask在水平方向存在一定的连通关系，因此，编号较为容易，而在有些识别方式下，可能存在不同文字之间或者单个文字内部没有连通的情况(记为独立的文本mask)，在这种情况下，可以以文本mask横坐标进行聚类，将同一聚类下的文本mask记为相同编号的文本行mask，或者每个文本mask作为一个单独的文本行mask与题目区域掩码进行比对。

120、根据目标题目区域掩码确定目标文本行掩码，并计算目标文本行掩码与目标题目区域的第一交集面积。

因为题目区域掩码也是基于题目内容进行的检测，因此，对于任意的题目区域掩码，都会存在一个或多个与其交集的文本行，当与其交集的文本行的面积大部分位于题目区域掩码中时，该文本行未与题目区域掩码交集的部分也就可能是题目区域掩码未识别的文字内容。在这个理论基础上，确定与每个题目区域掩码存在交集的文本行，以及交集面积的占比，则可以确定是否需要合并相应的文本行mask作为最终题目区域掩码的一部分。

具体地，以任意的题目区域掩码为例，记为目标题目区域掩码，该目标题目区域掩码可能是多行mask，遍历目标题目区域掩码的各个像素点，如果该目标题目区域掩码中某个或某些像素点属于某个或某些文本行编号，则这个或这些文本行编号对应的文本行mask为与目标题目区域掩码关联的文本行mask，将这些关联的文本行mask记为目标文本行mask。

确定了目标文本行mask，就可以确定目标文本行mask与目标题目区域掩码的第一交集区域和第一交集面积，在目标图片各个像素点大小相等的情况下，第一交集面积可以转换为像素点数进行统计，即统计目标题目区域掩码内有多少个属于目标文本行mask对应的文本行编号像素点，将这些像素点记为第一交集区域的第一像素点数。

130、根据所述第一交集面积和目标文本行的面积确定目标文本行在目标题目区域中的第一占比；在所述第一占比大于或等于第一预设阈值时，通过所述目标文本行掩码对所述目标题目区域进行扩充，得到扩充后的目标题目区域。

基于上述原理，为第一交集面积占据目标文本行的总面积的第一占比设定第一预设阈值，例如50％，当第一交集面积占据目标文本行的总面积的50％及以上时，通过所述目标文本行掩码对所述目标题目区域进行扩充，即将目标文本行掩码和目标题目区域进行融合或合并，得到扩充后的目标题目区域。当然，如果第一占比小于第一预设阈值，则不予融合。

在一些情况下，可能存在同一个文本行mask相对于两个或以上不同的目标题目区域掩码的第一占比都大于第一预设阈值，这种情况下，仅考虑将该文本行mask与第一占比最大值对应的目标题目区域掩码进行融合。

图4为将图3的文本行mask融合到图2中的题目区域掩码的示意图，从图2和图4的对比可以看出，融合前后的效果明显，尤其是边界处，以文本边缘为边界，勾勒的四个圆形区域得到了明显的扩展和融合，避免了切割文字的情况，达到预期的效果。

140、基于扩充后的目标题目区域掩码对题目进行分割。

对于扩充后的目标题目区域掩码，可以获取目标题目的外接框，该外接框以扩充后的目标题目区域掩码的各个像素点为基础，进行临近点搜索，假设扩充后的目标题目区域掩码的各个像素点二值化的值为0，则如果某个像素点的临近点中存在一个或多个为1的像素点，则该像素点记为外侧像素点，记录该外侧像素点的坐标，将所有外侧像素点构成外接框，将所有外侧像素点坐标构成外接框的坐标。

可以通过所述外接框对题目进行分割，或者将外接框呈现于目标图片中，返回给用户的电子设备中(题目检测的分割信息展示)。

实施本发明实施例，通过文字识别对题目分割进行补充，使其融合后的边界不会切割到文本行，同时将文字信息的结果融合到题目检测的区域中，使得题目检测的结果更加完整，包含了该题目的文本信息。

实施例二

请参阅图5，图5是本发明实施例公开的另一种题目分割方法的流程示意图。如图5所示，该题目分割方法包括以下步骤：

210、获取目标图片，并得到所述目标图片的题目区域掩码和文本行信息。

220、根据目标题目区域掩码确定目标文本行掩码，并计算目标文本行掩码与目标题目区域的第一交集面积。

230、根据所述第一交集面积和目标文本行的面积确定目标文本行在目标题目区域中的第一占比；在所述第一占比大于或等于第一预设阈值时，通过所述目标文本行掩码对所述目标题目区域进行扩充，得到扩充后的目标题目区域。

240、通过图表掩码对扩充后的目标题目区域进行再次扩充，得到最终扩充的目标题目区域。

250、基于最终扩充的目标题目区域对题目进行分割。

步骤210-230可以与实施例一步骤110-130类似，这里不再赘述。

在一些题目中，可能还会存在图形、表格或/和公式等内容，这些内容在这里合称为图表。基于深度学习的端到端题目分割算法也会存在对这些图表也有可能存在识别不精准，出现裁切到图表的情况，造成信息的缺失。

因此，在本发明实施例中，通过步骤240对图表进行检测并进行与文本行相类似的方式与题目区域掩码进行位置比对，实现图表对题目区域的扩充。

具体地，请参照图6所示，其包括以下步骤：

241、得到所述目标图片的图表掩码。

得到目标图片的图表掩码的方式可以通过深度学习的目标检测模型，例如yolov3网络模型实现，将目标图片输入预先训练的yolov3图表检测网络模型中，得到所述目标图片的图表掩码。为了提高速度，得到图表掩码的过程可以与步骤210中题目区域掩码和文本行信息并行操作。

242、根据目标题目区域掩码确定目标图表掩码，并计算目标图表掩码与目标题目区域的第二交集面积。

与步骤220类似，遍历目标题目区域掩码的所有像素点，确定所述目标题目区域掩码内存在的图表掩码(可以为每个图表掩码设置一个图表编号)，将所述目标题目区域掩码内存在的图表掩码记为目标图表掩码；确定目标图表掩码和目标题目区域的第二交集区域，并统计所述第二交集区域内的第二像素点数。

因为一般图表在文档中出现的概率并没有文字那么高，因此，还可以通过遍历目标图表掩码中的像素点，确定目标图表掩码的像素点中是否也存在于某个或某些题目区域掩码内(可以对每个题目区域掩码设置不同的编号)，最终得到目标图表掩码和目标题目区域掩码的对应关系。

243、根据所述第二交集面积和目标图表掩码的面积确定目标图表在目标题目区域的第二占比；在所述第二占比大于或等于第二预设阈值时，通过所述目标图表掩码对所述扩充后的目标题目区域进行再次扩充，得到最终扩充后的目标题目区域。

统计所述目标图表掩码包含的第二像素点总数；利用所述第二交集区域的第二像素点数除以所述第二像素点总数，得到所述第二占比；在所述第二占比大于或等于第二预设阈值例如80％时，将所述目标图表掩码和所述扩充后的目标题目区域进行再次合并，再次合并后的区域为所述最终扩充后的目标题目区域。

需要说明的是：这里只是给出了图表掩码与目标题目区域合并的一种实现方式，当某一个题目区域内既存在关联的目标文本行，又存在关联的目标图表时，则其融合的方法为以下的任一种：

根据确定第一占比和第二占比的顺序进行，当先确定了目标题目区域对应的待融合的目标文本行掩码时，先将目标文本行掩码和目标题目区域融合，之后再将二者融合后的目标题目区域与关联的目标图表掩码进行融合。如果先确定了目标题目区域对应的待融合的目标图表掩码时，先将目标图表掩码和目标题目区域融合，之后再将二者融合后的目标题目区域与关联的目标文本行掩码进行融合。

同时融合：在得到目标题目区域相应待融合的目标文本行掩码和目标图表掩码后，将三者进行融合。

步骤250中，与步骤140类似，只不过是根据最终融合有文本行掩码和图表掩码的目标题目区域创建外接框，通过外接框进行题目分割或题目检测的分割信息展示。

实施本发明实施例，通过文字识别和图表识别对题目分割进行补充，使其融合后的边界不会切割到文本行和图表，同时将文字信息和图表信息的结果融合到题目检测的区域中，使得题目检测的结果更加完整，包含了该题目的文本信息和图表信息。

实施例三

请参阅图7，图7是本发明实施例公开的一种题目分割装置的结构示意图。如图7所示，该题目分割装置可以包括：

获取单元310，用于获取目标图片，并得到所述目标图片的题目区域掩码和文本行信息；

计算单元320，用于根据目标题目区域掩码确定目标文本行掩码，并计算目标文本行掩码与目标题目区域的第一交集面积；

判断单元330，用于根据所述第一交集面积和目标文本行的面积确定目标文本行在目标题目区域中的第一占比；在所述第一占比大于或等于第一预设阈值时，通过所述目标文本行掩码对所述目标题目区域进行扩充，得到扩充后的目标题目区域。

作为一种可选的实施方式，所述获取单元310，可以包括：

识别子单元311，用于将所述目标图片并行输入yolact题目检测网络模型和OCR文字识别模型，分别得到题目区域掩码和文本信息；

文本行掩码构建子单元312，用于利用所述文本信息基于投影法或连通域法或滑动窗口法或深度学习法构建文本行掩码，并对每个文本行掩码进行编号，得到每个文本行编号。

作为一种可选的实施方式，所述计算单元320，可以包括：

遍历子单元321，用于遍历目标题目区域掩码的所有像素点，确定所述目标题目区域掩码内存在的文本行编号，将所述目标题目区域掩码内存在的文本行编号对应的文本行掩码记为目标文本行掩码；

确定子单元322，用于确定所述目标文本行掩码和目标题目区域的第一交集区域；

第一统计子单元323，用于统计所述第一交集区域的第一像素点数。

作为一种可选的实施方式，所述判断单元330，可以包括：

第二统计子单元331，用于统计所述目标文本行掩码包含的第一像素点总数；

相除子单元332，用于利用所述第一交集区域的第一像素点数除以所述第一像素点总数，得到所述第一占比。

作为一种可选的实施方式，所述判断单元330，还可以包括：

文本行合并子单元333，用于将所述目标文本行掩码和目标题目区域进行合并，合并后的区域为扩充后的目标题目区域。

图7所示的题目分割装置，可以通过文字识别对题目分割进行补充，使其融合后的边界不会切割到文本行，同时将文字信息的结果融合到题目检测的区域中，使得题目检测的结果更加完整，包含了该题目的文本信息。

实施例四

请参阅图8，图8是本发明实施例公开的另一种题目分割装置的结构示意图。如图8所示，该题目分割装置可以包括：

获取单元410，用于获取目标图片，并得到所述目标图片的题目区域掩码和文本行信息；

计算单元420，用于根据目标题目区域掩码确定目标文本行掩码，并计算目标文本行掩码与目标题目区域的第一交集面积；

判断单元430，用于根据所述第一交集面积和目标文本行的面积确定目标文本行在目标题目区域中的第一占比；在所述第一占比大于或等于第一预设阈值时，通过所述目标文本行掩码对所述目标题目区域进行扩充，得到扩充后的目标题目区域。

作为一种可选的实施方式，所述获取单元410，包括：

识别子单元411，用于将所述目标图片并行输入yolact题目检测网络模型和OCR文字识别模型，分别得到题目区域掩码和文本信息；

文本行掩码构建子单元412，用于利用所述文本信息基于投影法或连通域法或滑动窗口法或深度学习法构建文本行掩码，并对每个文本行掩码进行编号，得到每个文本行编号。

作为一种可选的实施方式，所述计算单元420，包括：

遍历子单元421，用于遍历目标题目区域掩码的所有像素点，确定所述目标题目区域掩码内存在的文本行编号，将所述目标题目区域掩码内存在的文本行编号对应的文本行掩码记为目标文本行掩码；

确定子单元422，用于确定所述目标文本行掩码和目标题目区域的第一交集区域；

第一统计子单元423，用于统计所述第一交集区域的第一像素点数。

作为一种可选的实施方式，所述判断单元430，可以包括：

第二统计子单元431，用于统计所述目标文本行掩码包含的第一像素点总数；

相除子单元432，用于利用所述第一交集区域的第一像素点数除以所述第一像素点总数，得到所述第一占比。

作为一种可选的实施方式，所述判断单元430，还包括：

文本行合并子单元433，用于将所述目标文本行掩码和目标题目区域进行合并，合并后的区域为扩充后的目标题目区域。

作为一种可选的实施方式，所述装置还包括图表融合单元440；所述图表融合单元440，包括：

图表识别子单元441，用于得到所述目标图片的图表掩码；

目标图表确定子单元442，用于根据目标题目区域掩码确定目标图表掩码，并计算目标图表掩码与目标题目区域的第二交集面积；

图表扩充子单元443，用于根据所述第二交集面积和目标图表掩码的面积确定目标图表在目标题目区域的第二占比；在所述第二占比大于或等于第二预设阈值时，通过所述目标图表掩码对所述扩充后的目标题目区域进行再次扩充，得到最终扩充后的目标题目区域。

作为一种可选的实施方式，图表识别子单元441，包括：将所述目标图片输入yolov3图表检测网络模型中，得到所述目标图片的图表掩码；

所述目标图表确定子单元442，包括：

图表遍历孙单元4421，用于遍历目标题目区域掩码的所有像素点，确定所述目标题目区域掩码内存在的图表掩码，将所述目标题目区域掩码内存在的图表掩码记为目标图表掩码；

第二交集统计孙单元4422，用于确定目标图表掩码和目标题目区域的第二交集区域，并统计所述第二交集区域内的第二像素点数；

所述图表扩充子单元443，包括：

图表像素统计孙单元4431，用于统计所述目标图表掩码包含的第二像素点总数；

第二占比计算孙单元4432，用于利用所述第二交集区域的第二像素点数除以所述第二像素点总数，得到所述第二占比；

图表合并孙单元4433，用于在所述第二占比大于或等于第二预设阈值时，将所述目标图表掩码和所述扩充后的目标题目区域进行再次合并，再次合并后的区域为所述最终扩充后的目标题目区域。

图8所示的题目分割装置，可以通过文字识别和图表识别对题目分割进行补充，使其融合后的边界不会切割到文本行和图表，同时将文字信息和图表信息的结果融合到题目检测的区域中，使得题目检测的结果更加完整，包含了该题目的文本信息和图表信息。

实施例五

请参阅图9，图9是本发明实施例公开的一种电子设备的结构示意图。如图9所示，该电子设备可以包括：

存储有可执行程序代码的存储器510；

与存储器510耦合的处理器520；

其中，处理器520调用存储器510中存储的可执行程序代码，执行实施例一或实施例二的基于目标区域融合的题目分割方法中的部分或全部步骤。

本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行实施例一或实施例二的基于目标区域融合的题目分割方法中的部分或全部步骤。

本发明实施例还公开一种计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一或实施例二的基于目标区域融合的题目分割方法中的部分或全部步骤。

本发明实施例还公开一种应用发布平台，其中，应用发布平台用于发布计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一或实施例二的基于目标区域融合的题目分割方法中的部分或全部步骤。

在本发明的各种实施例中，应理解，所述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。

在本发明所提供的实施例中，应理解，“与A对应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

本领域普通技术人员可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种基于目标区域融合的题目分割方法、装置、电子设备和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于目标区域融合的题目分割方法，其特征在于，包括：

2.根据权利要求1所述的题目分割方法，其特征在于，所述得到所述目标图片的题目区域掩码和文本行信息，包括：

3.根据权利要求2所述的题目分割方法，其特征在于，根据目标题目区域掩码确定目标文本行掩码，并计算目标文本行掩码与目标题目区域的第一交集面积，包括：

计算目标文本行掩码和目标题目区域的第一交集面积。

4.根据权利要求3所述的题目分割方法，其特征在于，计算目标文本行掩码和目标题目区域的第一交集面积，包括：

确定所述目标文本行掩码和目标题目区域的第一交集区域；

统计所述第一交集区域的第一像素点数。

5.根据权利要求4所述的题目分割方法，其特征在于，根据所述第一交集面积和目标文本行的面积确定目标文本行在目标题目区域的第一占比，包括：

统计所述目标文本行掩码包含的第一像素点总数；

6.根据权利要求1-5任一项所述的题目分割方法，其特征在于，通过所述目标文本行掩码对所述目标题目区域进行扩充，得到扩充后的目标题目区域，包括：

7.根据权利要求1-5任一项所述的题目分割方法，其特征在于，所述方法还包括：

得到所述目标图片的图表掩码；

8.根据权利要求7所述的题目分割方法，其特征在于，所述得到所述目标图片的图表掩码，包括：

统计所述目标图表掩码包含的第二像素点总数；

9.一种基于目标区域融合的题目分割装置，其特征在于，包括：

10.根据权利要求9所述的题目分割装置，其特征在于，所述获取单元，包括：

11.根据权利要求10所述的题目分割装置，其特征在于，所述计算单元，包括：

12.根据权利要求11所述的题目分割装置，其特征在于，所述判断单元，包括：

13.根据权利要求9-12任一项所述的题目分割装置，其特征在于，所述判断单元，还包括：

14.根据权利要求9-12任一项所述的题目分割装置，其特征在于，所述装置还包括图表融合单元；所述图表融合单元，包括：

图表识别子单元，用于得到所述目标图片的图表掩码；

15.根据权利要求14所述的题目分割装置，其特征在于，图表识别子单元，包括：

所述目标图表确定子单元，包括：

所述图表扩充子单元，包括：

16.一种电子设备，其特征在于，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行权利要求1至8任一项所述的基于目标区域融合的题目分割方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行权利要求1至8任一项所述的基于目标区域融合的题目分割方法。