CN111652204A

CN111652204A - 目标文本区域选择的方法、装置、电子设备和存储介质

Info

Publication number: CN111652204A
Application number: CN202010495989.3A
Authority: CN
Inventors: 许多; 邓小兵; 张春雨
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2020-09-11
Anticipated expiration: 2040-06-03
Also published as: CN111652204B

Abstract

本发明实施例涉及题目检测技术领域，公开了一种目标文本区域选择的方法、装置、电子设备和存储介质。该方法包括：获取目标图像；识别所述目标图像中的点击点坐标和题目区域掩码；根据所述点击点坐标、题目区域掩码以及预设规则确定目标题目区域。实施本发明实施例，其只需要根据点击点坐标和题目区域掩码就可以输出用户想要的意图题目区域，为后续的精准搜题和题目收录提供技术支持，并且可以支持各种排版和复杂情况，在各种情况下都具有良好的鲁棒性。

Description

目标文本区域选择的方法、装置、电子设备和存储介质

技术领域

本发明涉及题目检测技术领域，具体涉及一种目标文本区域选择的方法、装置、电子设备和存储介质。

背景技术

在点读场景或学习机场景中，经常会出现用户点击试卷、练习册以及书本等纸面，然后需要获取该点击点对应的意图题目区域，用于搜题或题目收录，其中搜题包括但不限于答案搜索、发音搜索以及近义词或反义词搜索等。对于这些场景下，输入为用户点击纸面的坐标和各个题目的区域，输出为用户想要的意图题目区域。当前这种场景的现有技术较少，但是实际意义却非常明显，正确返回意图题目可以给予用户最佳的用户体验，也为后续的搜题或题目收录提供了技术支持。

发明内容

针对所述缺陷，本发明实施例公开了一种目标文本区域选择的方法、装置、电子设备和存储介质，其通过点击点坐标和题目区域确定目标题目区域。

本发明实施例第一方面公开一种目标文本区域选择的方法，所述方法包括：

获取目标图像；

识别所述目标图像中的点击点坐标和题目区域掩码；

根据所述点击点坐标、题目区域掩码以及预设规则确定目标题目区域。

作为一种可选的实施方式，在本发明实施例第一方面中，所述识别所述目标图像中的点击点坐标，包括：

创建并训练基于颜色特征的深度学习网络识别模型；

将所述目标图像输入所述深度学习网络识别模型中，识别目标图像中的点击点，并确定所述点击点的坐标。

作为一种可选的实施方式，在本发明实施例第一方面中，识别所述目标图像中的题目区域掩码，包括：

将所述目标图像输入预先训练的题目检测网络模型，输出所述题目区域掩码以及每个题目区域掩码的置信度；

或者，

将所述目标图像并行输入预先训练的题目检测网络模型以及文字识别模型和图表检测网络模型，分别输出初始题目区域掩码、文字行掩码和图表掩码；

将所述初始题目区域掩码、文字行掩码和图表掩码进行融合，得到所述题目区域掩码，以所述初始题目区域掩码的置信度作为所述题目区域掩码的置信度。

作为一种可选的实施方式，在本发明实施例第一方面中，根据所述点击点坐标、题目区域掩码以及预设规则确定目标题目区域，包括：

检测所述点击点和题目区域掩码的位置关系；

如果所述点击点落入其中一个题目区域掩码内，则所述其中一个题目区域掩码为目标题目区域掩码；

如果所述点击点落入多个题目区域掩码内，则选取所述多个题目区域掩码中置信度最大的题目区域掩码作为目标题目区域掩码；

根据所述目标题目区域掩码确定目标题目区域。

检测所述点击点和题目区域掩码的位置关系

如果所述点击点不落入任意的题目区域掩码内，则；

以所述点击点为原点，建立平面直角坐标系，所述坐标系的X轴与目标图像的目标边缘平行，所述目标边缘与文本行的夹角最小；

以所述坐标系的第二象限作为第一分区，第一象限作为第二分区，第三象限和第四象限作为第三分区；

计算各个题目区域掩码到所述点击点的最近距离，并确定目标位置所在的分区，如果所述目标位置位于第一分区，则所述目标位置对应的题目区域掩码处于第一优先级；如果所述目标位置处于第二分区，则所述目标位置对应的题目区域掩码处于第二优先级；如果所述目标位置处于第三分区，则所述目标位置对应的题目区域掩码处于第三优先级；所述目标位置为题目区域掩码中距离所述点击点最近的坐标点，所述第一优先级、第二优先级以及第三优先级的优先级别依次降低；

确定坐标系Y轴正半轴穿过的题目区域掩码，并将所述Y轴正半轴穿过的题目区域掩码的优先级别调整为第一优先级；

将优先级别最高且所述最近距离最小值对应的题目区域掩码作为目标题目区域掩码；

根据所述目标题目区域掩码确定目标题目区域。

作为一种可选的实施方式，在本发明实施例第一方面中，根据所述目标题目区域掩码确定目标题目区域，包括：

根据所述目标题目区域掩码确定目标外接框；

根据所述目标外接框确定目标题目区域。

本发明实施例第二方面公开一种目标文本区域选择的装置，所述装置包括：

获取单元，用于获取目标图像；

识别单元，用于识别所述目标图像中的点击点坐标和题目区域掩码；

目标确定单元，用于根据所述点击点坐标、题目区域掩码以及预设规则确定目标题目区域。

作为一种可选的实施方式，在本发明实施例第二方面中，所述识别单元，包括：

第一子单元，用于创建并训练基于颜色特征的深度学习网络识别模型；

第二子单元，用于将所述目标图像输入所述深度学习网络识别模型中，识别目标图像中的点击点，并确定所述点击点的坐标。

作为一种可选的实施方式，在本发明实施例第二方面中，所述识别单元，还包括：

第三子单元，用于将所述目标图像输入预先训练的题目检测网络模型，输出所述题目区域掩码以及每个题目区域掩码的置信度；

或者，

第四子单元，用于将所述目标图像并行输入预先训练的题目检测网络模型以及文字识别模型和图表检测网络模型，分别输出初始题目区域掩码、文字行掩码和图表掩码；

第五子单元，用于将所述初始题目区域掩码、文字行掩码和图表掩码进行融合，得到所述题目区域掩码，以所述初始题目区域掩码的置信度作为所述题目区域掩码的置信度。

作为一种可选的实施方式，在本发明实施例第二方面中，目标确定单元，包括：

第六子单元，用于检测所述点击点和题目区域掩码的位置关系；

第七子单元，用于如果所述点击点落入其中一个题目区域掩码内，则所述其中一个题目区域掩码为目标题目区域掩码；

第八子单元，用于如果所述点击点落入多个题目区域掩码内，则选取所述多个题目区域掩码中置信度最大的题目区域掩码作为目标题目区域掩码；

第九子单元，用于根据所述目标题目区域掩码确定目标题目区域。

作为一种可选的实施方式，在本发明实施例第二方面中，所述目标确定单元还包括：

第十子单元，用于检测所述点击点和题目区域掩码的位置关系；

第十一子单元，用于如果所述点击点不落入任意的题目区域掩码内，则；

第十二子单元，用于以所述点击点为原点，建立平面直角坐标系，所述坐标系的X轴与目标图像的目标边缘平行，所述目标边缘与文本行的夹角最小；

第十三子单元，用于以所述坐标系的第二象限作为第一分区，第一象限作为第二分区，第三象限和第四象限作为第三分区；

第十四子单元，用于计算各个题目区域掩码到所述点击点的最近距离，并确定目标位置所在的分区，如果所述目标位置位于第一分区，则所述目标位置对应的题目区域掩码处于第一优先级；如果所述目标位置处于第二分区，则所述目标位置对应的题目区域掩码处于第二优先级；如果所述目标位置处于第三分区，则所述目标位置对应的题目区域掩码处于第三优先级；所述目标位置为题目区域掩码中距离所述点击点最近的坐标点，所述第一优先级、第二优先级以及第三优先级的优先级别依次降低；

第十五子单元，用于确定坐标系Y轴正半轴穿过的题目区域掩码，并将所述Y轴正半轴穿过的题目区域掩码的优先级别调整为第一优先级；

第十六子单元，用于将优先级别最高且所述最近距离最小值对应的题目区域掩码作为目标题目区域掩码；

第十七子单元，用于根据所述目标题目区域掩码确定目标题目区域。

作为一种可选的实施方式，在本发明实施例第二方面中，所述根据所述目标题目区域掩码确定目标题目区域，包括：

根据所述目标题目区域掩码确定目标外接框；

根据所述目标外接框确定目标题目区域。

本发明实施例第三方面公开一种电子设备，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行本发明实施例第一方面公开的一种目标文本区域选择的方法的部分或全部步骤。

本发明实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的一种目标文本区域选择的方法的部分或全部步骤。

本发明实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的一种目标文本区域选择的方法的部分或全部步骤。

本发明实施例第六方面公开一种应用发布平台，所述应用发布平台用于发布计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的一种目标文本区域选择的方法的部分或全部步骤。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，获取目标图像；识别所述目标图像中的点击点坐标和题目区域掩码；根据所述点击点坐标、题目区域掩码以及预设规则确定目标题目区域。可见，实施本发明实施例，其只需要根据点击点坐标和题目区域掩码就可以输出用户想要的意图题目区域，为后续的精准搜题和题目收录提供技术支持，并且可以支持各种排版和复杂情况，在各种情况下都具有良好的鲁棒性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种目标文本区域选择的方法的流程示意图；

图2是本发明实施例公开的题目区域掩码识别方法的流程示意图；

图3为本发明实施例公开的初始题目区域掩码的示意图；

图4为本发明实施例公开的文本行掩码的示意图；

图5为本发明实施例公开的文本行掩码和初始题目区域掩码的融合后的示意图；

图6为本发明实施例公开的另一种目标文本区域选择的方法的流程示意图；

图7为本发明实施例公开的点击点落入某一个题目区域掩码中的示意图；

图8为本发明实施例公开的点击点落入多个题目区域掩码中的示意图；

图9为本发明实施例公开的点击点未落入任意的题目区域掩码中的示意图；

图10为本发明实施例公开的构建平面直角坐标系的示意图；

图11为本发明实施例公开的分区划分的示意图；

图12为本发明实施例公开的目标位置和最近距离的示意图；

图13为本发明实施例公开的优先级别调整的示意图；

图14为本发明实施例公开的一种目标文本区域选择的装置的结构示意图；

图15为本发明实施例公开的另一种目标文本区域选择的装置的结构示意图；

图16为本发明实施例公开的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象，而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，示例性地，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例公开了一种目标文本区域选择的方法、装置、电子设备和存储介质，其只需要根据点击点坐标和题目区域掩码就可以输出用户想要的意图题目区域，为后续的精准搜题和题目收录提供技术支持，并且可以支持各种排版和复杂情况，在各种情况下都具有良好的鲁棒性，以下结合附图进行详细描述。

实施例一

请参阅图1，图1是本发明实施例公开的一种目标文本区域选择方法的流程示意图。如图1所示，该目标文本区域选择方法包括以下步骤：

110、获取目标图像。

目标图像为用户通过电子设备输入的图像，在该图像中包括有题目信息和点击点信息。示例性地，用户通过手指在练习册、试卷以及作业本等承载体上点击纸面，在相应的拍照指令下，图像采集装置对该纸面进行拍照，得到初始图像并传送至智能设备。智能设备或服务器可以基于该初始图像进行相应的预处理和粗框操作，得到目标图像。预处理可以是图像增强以及形状矫正等。粗框操作可以是基于点击点一定范围内的题目进行分割，分割出的图像保留点击点上下一定范围内的题目内容，当然，粗框选择的内容也可以是整个纸面。

图像采集装置可以集成于智能设备中，例如智能设备通过前置摄像头对纸面进行拍照，当然，图像采集装置也可以作为分立器件单独存在，并与智能设备存在通讯关系。本发明实施例目标文本区域选择可以在智能设备例如手机、家教机、学习机以及笔记本计算机中完成，也可以是智能设备将初始图像或目标图像发送给服务器，由服务器完成目标文本区域选择的操作。

用户点击操作可以是通过手指完成，也可以是触控笔、铅笔、尺子以及小棍等，这些操作体与纸面之间为点接触，理论上只要识别出操作体前端位置坐标即可，即认定操作体的前端位置与纸面形成点接触。

拍照指令可以是用户发出的语音指令，也可以是通过机械按键或触控按键发送的指令，当然，还可以是启动相应的app自动触发拍照指令等。

120、识别所述目标图像中的点击点坐标和题目区域掩码。

识别目标图像的点击点坐标的方法可以通过颜色特征的深度学习网络识别模型，例如CNN、DNN、RNN等，通过操作体与纸面颜色的差异识别操作体点接触位置，并确定该点坐标，记为点击点坐标。当然，如果操作体和纸面颜色差异较小时，也可以通过形状特征的深度学习网络识别模型，这种情况下，其使用的操作体是固定的。

作为一种实现方式，题目区域掩码可以通过预先训练的题目检测网络模型实现，题目检测网络模型可以采用任意的基于深度学习的端到端的实例分割算法，包括但不限于yolact实例分割网络、Mask R-CNN实例分割网络和FCIS实例分割网络等，在本发明实施例中，采用预先训练的yolact题目检测网络模型实现生成题目区域掩码，训练样本图像的标签为人工标注的题目区域mask(掩码)。题目检测网络模型检测模型输出题目区域mask的同时，还会输出每个题目区域mask对应的置信度。

作为另一种实现方式，基于深度学习的端到端题目分割算法，由于深度学习的黑盒特性，得到的结果不尽理想，有以下问题：1、划分出的题目区域不够精准，经常会出现裁切到文字和图表的情况，造成信息的缺失，影响后续使用。2、对文本行和图表的区分不敏感，不能得到具体的文本和图表，无法将其中包含的信息充分挖掘。

因此，请参照图2所示，得到题目区域mask的方法包括以下步骤：

121、将所述目标图像并行输入预先训练的题目检测网络模型以及文字识别模型和图表检测网络模型，分别输出初始题目区域掩码、文字行掩码和图表掩码。

题目检测网络模型可以采用任意的基于深度学习的端到端的实例分割算法，包括但不限于yolact实例分割网络、Mask R-CNN实例分割网络和FCIS实例分割网络等，在本发明实施例中，采用预先训练的yolact题目检测网络模型实现生成初始题目区域掩码，训练样本图像的标签为人工标注的题目区域mask。题目检测网络模型检测模型输出初始题目区域掩码的同时，还会输出每个初始题目区域掩码对应的置信度。

文本行信息检测可以通过多种方式实现，示例性地，可以通过OCR文字识别模型进行，通过OCR对目标图像的文字进行二值化处理得到文本信息，然后基于传统OCR的投影法或连通域法或滑动窗口法确定文本行mask，或者基于深度学习的方式确定文本行mask，例如使用CTPN、pixellink、psenet等网络模型。

图3和图4分别为通过yolact题目检测网络模型和OCR文字识别模型得到的初始题目区域mask和文本行mask，从图3和图4可以看出，初始题目区域mask更为连贯和光滑，但是在边界处和文本行mask有一定的区别，即如果直接使用初始题目区域mask，可能会在边界处切割掉一定的文字信息。

为了便于后续的统计，在获取文本行mask后，对每个文本行mask赋予不同的编号，记为文本行编号，并将文本行编号与文本行建立映射关系，即每个文本行内的像素点均为同一个文本行编号。在图4中，由于文本行mask在水平方向存在一定的连通关系，因此，编号较为容易，而在有些识别方式下，可能存在不同文字之间或者单个文字内部没有连通的情况(记为独立的文本mask)，在这种情况下，可以以文本mask横坐标进行聚类，将同一聚类下的文本mask记为相同编号的文本行mask，或者每个文本mask作为一个单独的文本行mask与初始题目区域掩码进行比对。

得到目标图像的图表掩码的方式可以通过深度学习的目标检测模型，例如yolov3网络模型实现，将目标图像输入预先训练的yolov3图表检测网络模型中，得到所述目标图像的图表掩码。图表可以是图形、表格或/和公式等内容。

122、然后将所述初始题目区域掩码、文字行掩码和图表掩码进行融合，得到所述题目区域掩码，以所述初始题目区域掩码的置信度作为后续需要的题目区域掩码的置信度。

其具体包括以下步骤：

1221、根据待融合题目区域掩码确定目标文本行掩码和目标图表掩码，并计算目标文本行掩码与待融合题目区域的第一交集面积以及目标图表掩码与待融合题目区域的第二交集面积。

因为初始题目区域掩码也是基于题目内容进行的检测，因此，对于任意的初始题目区域掩码，都会存在一个或多个与其交集的文本行，当与其交集的文本行的面积大部分位于初始题目区域掩码中时，该文本行未与初始题目区域掩码交集的部分也就可能是初始题目区域掩码未识别的文字内容。在这个理论基础上，确定与每个初始题目区域掩码存在交集的文本行，以及交集面积的占比，则可以确定是否需要合并相应的文本行mask作为最终初始题目区域掩码的一部分。

具体地，以任意的初始题目区域掩码为例，记为待融合题目区域掩码，该待融合题目区域掩码可能是多行mask，遍历待融合题目区域掩码的各个像素点，如果该待融合题目区域掩码中某个或某些像素点属于某个或某些文本行编号，则这个或这些文本行编号对应的文本行mask为与待融合题目区域掩码关联的文本行mask，将这些关联的文本行mask记为目标文本行mask。

确定了目标文本行mask，就可以确定目标文本行mask与待融合题目区域掩码的第一交集区域和第一交集面积，在目标图像各个像素点大小相等的情况下，第一交集面积可以转换为像素点数进行统计，即统计待融合题目区域掩码内有多少个属于目标文本行mask对应的文本行编号像素点，将这些像素点记为第一交集区域的第一像素点数。

遍历待融合题目区域掩码的所有像素点，确定所述待融合题目区域掩码内存在的图表掩码(可以为每个图表掩码设置一个图表编号)，将所述待融合题目区域掩码内存在的图表掩码记为目标图表掩码；确定目标图表掩码和待融合题目区域的第二交集区域，并统计所述第二交集区域内的第二像素点数。

因为一般图表在文档中出现的概率并没有文字那么高，因此，还可以通过遍历目标图表掩码中的像素点，确定目标图表掩码的像素点中是否也存在于某个或某些初始题目区域掩码内(可以对每个初始题目区域掩码设置不同的编号)，最终得到目标图表掩码和待融合题目区域掩码的对应关系。

1222、根据所述第一交集面积和目标文本行的面积确定目标文本行在待融合题目区域中的第一占比；根据所述第二交集面积和目标图表掩码的面积确定目标图表在待融合题目区域的第二占比；在所述第一占比大于或等于第一预设阈值时，通过所述目标文本行掩码对所述待融合题目区域进行扩充，得到扩充后的第一题目区域，在所述第二占比大于或等于第二预设阈值时，通过所述目标图表掩码对所述第一题目区域进行再次扩充，得到最终扩充后的题目区域。

基于上述原理，为第一交集面积占据目标文本行的总面积的第一占比设定第一预设阈值，例如50％，当第一交集面积占据目标文本行的总面积的50％及以上时，通过所述目标文本行掩码对所述待融合题目区域进行扩充，即将目标文本行掩码和待融合题目区域进行融合或合并，得到扩充后的第一题目区域。当然，如果第一占比小于第一预设阈值，则不予融合。

在一些情况下，可能存在同一个文本行mask相对于两个或以上不同的待融合题目区域掩码的第一占比都大于第一预设阈值，这种情况下，仅考虑将该文本行mask与第一占比最大值对应的待融合题目区域掩码进行融合。

图5为将图4的文本行mask融合到图3中的题目区域掩码的示意图，从图3和图5的对比可以看出，融合前后的效果明显，尤其是边界处，以文本边缘为边界，勾勒的四个圆形区域得到了明显的扩展和融合，避免了切割文字的情况，达到预期的效果。

统计所述目标图表掩码包含的第二像素点总数；利用所述第二交集区域的第二像素点数除以所述第二像素点总数，得到所述第二占比；在所述第二占比大于或等于第二预设阈值例如80％时，将所述目标图表掩码和所述第一题目区域进行再次合并，再次合并后的区域为所述最终扩充后的题目区域。

需要说明的是：这里只是给出了图表掩码与第一题目区域合并的一种实现方式，当某一个题目区域内既存在关联的目标文本行，又存在关联的目标图表时，则其融合的方法为以下的任一种：

根据确定第一占比和第二占比的顺序进行，当先确定了待融合题目区域对应的待融合的目标文本行掩码时，先将目标文本行掩码和待融合题目区域融合，之后再将二者融合后的第一题目区域与关联的目标图表掩码进行融合。如果先确定了待融合题目区域对应的待融合的目标图表掩码时，先将目标图表掩码和待融合题目区域融合，之后再将二者融合后的第一题目区域与关联的目标文本行掩码进行融合。

同时融合：在得到初始题目区域相应待融合的目标文本行掩码和目标图表掩码后，将三者进行融合。

融合后的题目区域掩码对应的置信度为初始题目区域掩码的置信度。

通过文字识别和图表识别对题目分割进行补充，使其融合后的边界不会切割到文本行和图表，同时将文字信息和图表信息的结果融合到题目检测的区域中，使得题目检测的结果更加完整，包含了该题目的文本信息和图表信息。

130、根据所述点击点坐标、题目区域掩码以及预设规则确定目标题目区域。

预设规则可以是预先设定，用户确定点击点坐标是基于该预设规则实现的。

示例性地，当预设规则为点击点所在的题目时，则可以通过指令让用户在确定意向题目区域(即目标题目区域)时，将操作体的前端放置于某个题目上，则在确定了点击点坐标后，只要确定点击点坐标所在的题目区域掩码，就是目标题目区域掩码。根据目标题目区域掩码就可以得到目标题目区域，进行可以分割得到目标题目区域的图片。

当预设规则为点击点上侧的题目时，则可以通过指令让用户在确定意向题目区域(即目标题目区域)时，将操作体的前端放置于某个题目的下侧，则在确定了点击点坐标后，只要确定点击点坐标最近的上侧的题目区域掩码，就是目标题目区域掩码。根据目标题目区域掩码就可以得到目标题目区域，进行可以分割得到目标题目区域的图片。

这里的指令可以是智能设备发出的语音指令，或者在智能设备上显示的文字指令等。

目标题目区域掩码是包括目标题目区域内容的二进制掩码，根据目标题目区域掩码，可以获取目标题目的外接框，该外接框以目标题目区域掩码的各个像素点为基础，进行临近点搜索，假设目标题目区域掩码的各个像素点二值化的值为0，则如果某个像素点的临近点中存在一个或多个为1的像素点，则该像素点记为外侧像素点，记录该外侧像素点的坐标，将所有外侧像素点构成外接框，将所有外侧像素点坐标构成外接框的坐标。

可以通过所述外接框对目标题目进行分割用于搜题或题目收录。

实施本发明实施例，只需要根据点击点坐标和题目区域掩码就可以输出用户想要的意图题目区域，为后续的精准搜题和题目收录提供技术支持，并且可以支持各种排版和复杂情况，在各种情况下都具有良好的鲁棒性。

实施例二

请参阅图6，图6是本发明实施例公开的一种目标文本区域选择方法的流程示意图。如图6所示，该目标文本区域选择方法包括以下步骤：

210、获取目标图像。

220、识别所述目标图像中的点击点坐标和题目区域掩码。

230、根据所述点击点坐标、题目区域掩码以及预设规则确定目标题目区域。

步骤210和220可以与实施例一步骤110和步骤120类似，这里不再赘述。

步骤230中，其包括以下步骤：

231、检测所述点击点和题目区域掩码的位置关系。

点击点和题目区域掩码的位置关系可以包括以下的任一种：1、点击点落入某一个题目区域掩码内；2、因为题目区域掩码基于深度学习得到，因此，题目区域掩码可能存在一定的交集，所以，点击点也可能落入多个题目区域掩码内；3、点击点不落入任意的题目区域掩码内。基于点击点坐标和题目区域掩码的坐标集合进行映射，找到点击点和题目区域掩码的位置关系。

232、如果所述点击点落入某一个题目区域掩码内，则将该一个题目区域掩码作为最终的目标题目区域掩码。

请参照图7所示，存在且仅存在一个题目区域掩码内的某个像素点为点击点，则这个题目区域掩码就是用户想要的意向题目区域掩码。

233、如果所述点击点落入多个题目区域掩码内，则选取所述多个题目区域掩码中置信度最大的题目区域掩码作为目标题目区域掩码。

请参照图8所示，如果存在点击点对应的像素点在多个题目区域掩码的交集范围内，则点击点落入这多个题目区域掩码内，这种情况下，选取置信度最大的题目区域掩码作为目标题目区域掩码，之所以采用置信度最大的题目区域掩码作为目标题目区域掩码，是相对于其他题目区域掩码而言，该目标题目区域掩码对题目分割的精准度更高。

234、如果所述点击点不落入任意的题目区域掩码内，则执行步骤235。

请参照图9所示，所有的题目区域掩码内的像素点均不是点击点，则执行步骤235。

235、以所述点击点为原点，建立平面直角坐标系，所述坐标系的X轴与目标图像的目标边缘平行，所述目标边缘与文本行的夹角最小。

请参照图10所示，平面直角坐标系的原点为点击点31，坐标系的X轴32与目标图像的目标边缘平行，所述目标边缘与文本行的夹角最小。文本行可以任意选择，可以以任意文本行的左边界坐标和右边界坐标的连线作为文本行所在的直线，将文本行所在的直线与边缘检测得到的目标图像的各个边缘进行检测，确定与文本行所在直线夹角最小的边缘作为X轴，垂直于X轴并穿过原点的直线作为Y轴33，Y轴到目标图像上边缘的部分作为Y轴的正半轴，X轴到目标图像右边缘的部分作为X轴的正半轴。

可以对所有的题目区域掩码进行编号，以便确定最后得到的目标题目区域掩码。图10中示出了编号①、②、③的三个题目区域掩码。

236、以所述坐标系的第二象限作为第一分区，第一象限作为第二分区，第三象限和第四象限作为第三分区。

如图11所示，根据坐标系确定各个分区，之所以设置分区，因为本发明实施例核心选取方法是向左向上选取。因此，将第二象限(Y轴正半轴和X轴负半轴围成区域，即左上部分)作为第一分区(命名为Area1)，将第一象限(Y轴正半轴和X轴正半轴围成区域，即右上部分)作为第二分区(命名为Area2)，将第三象限和第四象限(Y轴的负半轴部分，即下部分)作为第三分区(命名为Area3)。

237、计算各个题目区域掩码到所述点击点的最近距离，并确定目标位置所在的分区。

目标位置为题目区域掩码中距离所述点击点最近的坐标点，计算方法是遍历每个题目区域掩码的像素点，采用迭代舍弃的方法找到目标位置，并确定目标位置所在的分区。

如果所述目标位置位于第一分区，则所述目标位置对应的题目区域掩码处于第一优先级；如果所述目标位置处于第二分区，则所述目标位置对应的题目区域掩码处于第二优先级；如果所述目标位置处于第三分区，则所述目标位置对应的题目区域掩码处于第三优先级。请参照图12所示，编号①的题目区域掩码的目标位置34位于第一分区，编号②的题目区域掩码的目标位置35位于第二分区，编号③的题目区域掩码的目标位置36位于第三分区，则编号①、②、③的三个题目区域掩码的优先级分别为第一优先级、第二优先级和第三优先级，第一优先级、第二优先级和第三优先级的优先级别依次降低。

238、确定坐标系Y轴正半轴穿过的题目区域掩码，并将所述Y轴正半轴穿过的题目区域掩码的优先级别调整为第一优先级。

通过遍历Y正半轴上的像素点，确认这些像素点归属的题目区域掩码，并将这些题目区域掩码的优先级调整为第一优先级。请参照图13所示，Y轴的正半轴37穿过编号①、②的题目区域掩码，则将编号①、②的题目区域掩码优先级调整为第一优先级，由于编号①的题目区域掩码的优先级本身就是第一优先级，则不对其进行调整。

239、将优先级别最高且所述最近距离最小值对应的题目区域掩码作为目标题目区域掩码。

图13中，编号①、②的题目区域掩码优先级均为第一优先级，二者的优先级最高，则最后的目标题目区域掩码从二者之中选择，将最近距离最小值的题目区域掩码，即编号②的题目区域掩码作为目标题目区域掩码。

实施例三

请参阅图14，图14是本发明实施例公开的一种目标文本区域选择装置的结构示意图。如图14所示，该目标文本区域选择装置可以包括：

获取单元410，用于获取目标图像；

识别单元420，用于识别所述目标图像中的点击点坐标和题目区域掩码；

目标确定单元430，用于根据所述点击点坐标、题目区域掩码以及预设规则确定目标题目区域。

作为一种可选的实施方式，所述识别单元420，可以包括：

第一子单元421，用于创建并训练基于颜色特征的深度学习网络识别模型；

第二子单元422，用于将所述目标图像输入所述深度学习网络识别模型中，识别目标图像中的点击点，并确定所述点击点的坐标。

作为一种可选的实施方式，所述识别单元420，还可以包括：

第三子单元423，用于将所述目标图像输入预先训练的题目检测网络模型，输出所述题目区域掩码以及每个题目区域掩码的置信度。

作为一种可选的实施方式，所述目标确定单元430，可以包括：

第六子单元431，用于检测所述点击点和题目区域掩码的位置关系；

第七子单元432，用于如果所述点击点落入其中一个题目区域掩码内，则所述其中一个题目区域掩码为目标题目区域掩码；

第八子单元433，用于如果所述点击点落入多个题目区域掩码内，则选取所述多个题目区域掩码中置信度最大的题目区域掩码作为目标题目区域掩码；

第九子单元434，用于根据所述目标题目区域掩码确定目标题目区域。

作为一种可选的实施方式，所述目标确定单元430还可以包括：

第十子单元435，用于检测所述点击点和题目区域掩码的位置关系；

第十一子单元436，用于如果所述点击点不落入任意的题目区域掩码内，则；

第十二子单元437，用于以所述点击点为原点，建立平面直角坐标系，所述坐标系的X轴与目标图像的目标边缘平行，所述目标边缘与文本行的夹角最小；

第十三子单元438，用于以所述坐标系的第二象限作为第一分区，第一象限作为第二分区，第三象限和第四象限作为第三分区；

第十四子单元439，用于计算各个题目区域掩码到所述点击点的最近距离，并确定目标位置所在的分区，如果所述目标位置位于第一分区，则所述目标位置对应的题目区域掩码处于第一优先级；如果所述目标位置处于第二分区，则所述目标位置对应的题目区域掩码处于第二优先级；如果所述目标位置处于第三分区，则所述目标位置对应的题目区域掩码处于第三优先级；所述目标位置为题目区域掩码中距离所述点击点最近的坐标点，所述第一优先级、第二优先级以及第三优先级的优先级别依次降低；

第十五子单元4310，用于确定坐标系Y轴正半轴穿过的题目区域掩码，并将所述Y轴正半轴穿过的题目区域掩码的优先级别调整为第一优先级；

第十六子单元4311，用于将优先级别最高且所述最近距离最小值对应的题目区域掩码作为目标题目区域掩码；

第十七子单元4312，用于根据所述目标题目区域掩码确定目标题目区域。

作为一种可选的实施方式，所述第九子单元434或第十七子单元4312，可以包括：根据所述目标题目区域掩码确定目标外接框；根据所述目标外接框确定目标题目区域。

图14所示的目标文本区域选择装置，只需要根据点击点坐标和题目区域掩码就可以输出用户想要的意图题目区域，为后续的精准搜题和题目收录提供技术支持，并且可以支持各种排版和复杂情况，在各种情况下都具有良好的鲁棒性。

实施例四

请参阅图15，图15是本发明实施例公开的一种目标文本区域选择装置的结构示意图。如图15所示，该目标文本区域选择装置可以包括：

获取单元510，用于获取目标图像；

识别单元520，用于识别所述目标图像中的点击点坐标和题目区域掩码；

目标确定单元530，用于根据所述点击点坐标、题目区域掩码以及预设规则确定目标题目区域。

作为一种可选的实施方式，所述识别单元520，可以包括：

第一子单元521，用于创建并训练基于颜色特征的深度学习网络识别模型；

第二子单元522，用于将所述目标图像输入所述深度学习网络识别模型中，识别目标图像中的点击点，并确定所述点击点的坐标。

作为一种可选的实施方式，所述识别单元520，还可以包括：

第四子单元523，用于将所述目标图像并行输入预先训练的题目检测网络模型以及文字识别模型和图表检测网络模型，分别输出初始题目区域掩码、文字行掩码和图表掩码；

第五子单元524，用于将所述初始题目区域掩码、文字行掩码和图表掩码进行融合，得到所述题目区域掩码，以所述初始题目区域掩码的置信度作为所述题目区域掩码的置信度。

作为一种可选的实施方式，所述目标确定单元530，可以包括：

第六子单元531，用于检测所述点击点和题目区域掩码的位置关系；

第七子单元532，用于如果所述点击点落入其中一个题目区域掩码内，则所述其中一个题目区域掩码为目标题目区域掩码；

第八子单元533，用于如果所述点击点落入多个题目区域掩码内，则选取所述多个题目区域掩码中置信度最大的题目区域掩码作为目标题目区域掩码；

第九子单元534，用于根据所述目标题目区域掩码确定目标题目区域。

作为一种可选的实施方式，所述目标确定单元530还可以包括：

第十子单元535，用于检测所述点击点和题目区域掩码的位置关系；

第十一子单元536，用于如果所述点击点不落入任意的题目区域掩码内，则；

第十二子单元537，用于以所述点击点为原点，建立平面直角坐标系，所述坐标系的X轴与目标图像的目标边缘平行，所述目标边缘与文本行的夹角最小；

第十三子单元538，用于以所述坐标系的第二象限作为第一分区，第一象限作为第二分区，第三象限和第四象限作为第三分区；

第十四子单元539，用于计算各个题目区域掩码到所述点击点的最近距离，并确定目标位置所在的分区，如果所述目标位置位于第一分区，则所述目标位置对应的题目区域掩码处于第一优先级；如果所述目标位置处于第二分区，则所述目标位置对应的题目区域掩码处于第二优先级；如果所述目标位置处于第三分区，则所述目标位置对应的题目区域掩码处于第三优先级；所述目标位置为题目区域掩码中距离所述点击点最近的坐标点，所述第一优先级、第二优先级以及第三优先级的优先级别依次降低；

第十五子单元5310，用于确定坐标系Y轴正半轴穿过的题目区域掩码，并将所述Y轴正半轴穿过的题目区域掩码的优先级别调整为第一优先级；

第十六子单元5311，用于将优先级别最高且所述最近距离最小值对应的题目区域掩码作为目标题目区域掩码；

第十七子单元5312，用于根据所述目标题目区域掩码确定目标题目区域。

作为一种可选的实施方式，所述第九子单元534或第十七子单元5312，可以包括：

根据所述目标题目区域掩码确定目标外接框；

根据所述目标外接框确定目标题目区域。

图15所示的目标文本区域选择装置，只需要根据点击点坐标和题目区域掩码就可以输出用户想要的意图题目区域，为后续的精准搜题和题目收录提供技术支持，并且可以支持各种排版和复杂情况，在各种情况下都具有良好的鲁棒性。

实施例五

请参阅图16，图16是本发明实施例公开的一种电子设备的结构示意图。如图16所示，该电子设备可以包括：

存储有可执行程序代码的存储器610；

与存储器610耦合的处理器620；

其中，处理器620调用存储器610中存储的可执行程序代码，执行实施例一或实施例二的目标文本区域选择的方法中的部分或全部步骤。

本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行实施例一或实施例二的目标文本区域选择的方法中的部分或全部步骤。

本发明实施例还公开一种计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一或实施例二的目标文本区域选择的方法中的部分或全部步骤。

本发明实施例还公开一种应用发布平台，其中，应用发布平台用于发布计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一或实施例二的目标文本区域选择的方法中的部分或全部步骤。

在本发明的各种实施例中，应理解，所述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。

在本发明所提供的实施例中，应理解，“与A对应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

本领域普通技术人员可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种目标文本区域选择的方法、装置、电子设备和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种目标文本区域选择的方法，其特征在于，包括：

获取目标图像；

识别所述目标图像中的点击点坐标和题目区域掩码；

2.根据权利要求1所述的方法，其特征在于，所述识别所述目标图像中的点击点坐标，包括：

创建并训练基于颜色特征的深度学习网络识别模型；

3.根据权利要求1所述的方法，其特征在于，识别所述目标图像中的题目区域掩码，包括：

或者，

4.根据权利要求3所述的方法，其特征在于，根据所述点击点坐标、题目区域掩码以及预设规则确定目标题目区域，包括：

检测所述点击点和题目区域掩码的位置关系；

根据所述目标题目区域掩码确定目标题目区域。

5.根据权利要求1所述的方法，其特征在于，根据所述点击点坐标、题目区域掩码以及预设规则确定目标题目区域，包括：

检测所述点击点和题目区域掩码的位置关系；

如果所述点击点不落入任意的题目区域掩码内，则；

根据所述目标题目区域掩码确定目标题目区域。

6.根据权利要求4或5所述的方法，其特征在于，根据所述目标题目区域掩码确定目标题目区域，包括：

根据所述目标题目区域掩码确定目标外接框；

根据所述目标外接框确定目标题目区域。

7.一种目标文本区域选择的装置，其特征在于，包括：

获取单元，用于获取目标图像；

8.根据权利要求7所述的装置，其特征在于，所述识别单元，包括：

9.根据权利要求7所述的装置，其特征在于，所述识别单元，还包括：

或者，

10.根据权利要求9所述的装置，其特征在于，所述目标确定单元，包括：

11.根据权利要求7所述的装置，其特征在于，所述目标确定单元包括：

12.根据权利要求10或11所述的装置，其特征在于，所述根据所述目标题目区域掩码确定目标题目区域，包括：

根据所述目标题目区域掩码确定目标外接框；

根据所述目标外接框确定目标题目区域。

13.一种电子设备，其特征在于，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行权利要求1至6任一项所述的目标文本区域选择的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行权利要求1至6任一项所述的目标文本区域选择的方法。