CN115063805A

CN115063805A - 图像识别方法、答题批改方法及相关装置、设备和介质

Info

Publication number: CN115063805A
Application number: CN202210556929.7A
Authority: CN
Inventors: 王根
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-09-16

Abstract

本申请公开了一种图像识别方法、答题批改方法及相关装置、设备和介质，其中，图像识别方法包括：对答题图像进行检测，得到若干目标区域；其中，若干目标区域至少包括第一题干区域；对第一题干区域进行重组，得到各个试题的第二题干区域；其中，第二题干区域包含第二题干区域所属试题完整的题干文本；再基于第二题干区域进行识别，得到各题干文本。上述方案，能够提高获取题干文本的准确性。

Description

图像识别方法、答题批改方法及相关装置、设备和介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种图像识别方法、答题批改方法及相关装置、设备和介质。

背景技术

目前，在检测试题时，通常需要在现场进行。例如，在对学生的笔试试卷评估场景中，需要老师对学生的答题试卷进行批改，并且得出最终的结果；在公司对员工的笔试场景中，需要经过对员工的笔试试卷进行批改，才能得出最终结论，如此种种。

试题检测结果的评估一般是采用人工检阅的方式进行梳理，效率较低，且随着人工检阅时长的不断增加，难免会因疲劳等因素导致检阅失误。故此，如何进行机器检阅越来越受到关注。然而，机器检阅的重要前提之一就是准确识别出题干文本。有鉴于此，如何提高获取题干文本的准确性成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种图像识别方法、答题批改方法及相关装置、设备和介质，能够提高获取题干文本的准确性。

为了解决上述技术问题，本申请第一方面提供了一种图像识别方法，包括：对答题图像进行检测，得到若干目标区域；且若干目标区域包括各试题的第一题干区域和题号区域；基于题号区域的位置关系，对第一题干区域进行重组，得到各个试题的第二题干区域；且第二题干区域包含试题完整的题干文本；再基于第二题干区域进行识别，得到各题干文本。

为了解决上述技术问题，本申请第二方面提供了一种答题批改方法，包括：识别目标对象的答题图像中各试题的题干文本；且题干文本基于上述第一方面中的图像识别方法得到；获取属于相同试题的各个题干文本分别对应的批改区域；再基于批改区域中的批改标记，得到目标对象在各个试题上的作答情况。

为了解决上述技术问题，本申请第三方面提供了一种图像识别装置，包括检测模块、重组模块和识别模块，检测模块用于对答题图像进行检测，得到若干目标区域；且若干目标区域包括各试题的第一题干区域和题号区域；重组模块用于基于题号区域的位置关系，对第一题干区域进行重组，得到各个试题的第二题干区域；且第二题干区域包含试题完整的题干文本；识别模块用于基于第二题干区域进行识别，得到各题干文本。

为了解决上述技术问题，本申请第四方面提供了一种答题批改装置，包括识别模块、获取模块和确定模块；识别模块用于识别目标对象的答题图像中各试题的题干文本；且题干文本基于上述第一方面中的图像识别方法得到；获取模块用于获取属于相同试题的各个题干文本分别对应的批改区域；确定模块用于基于批改区域中的批改标记，得到目标对象在各个试题上的作答情况。

为了解决上述技术问题，本申请第五方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的图像识别方法或实现上述第二方面中的答题批改方法。

为了解决上述技术问题，本申请第六方面提供了一种计算机可读存储介质，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的图像识别方法或实现上述第二方面中的答题批改方法。

上述方案，通过对答题图像进行检测，得到若干目标区域；且若干目标区域至少包括第一题干区域；并对第一题干区域进行重组，得到各个试题的第二题干区域；其中，第二题干区域包含第二题干区域所属试题完整的题干文本；再基于第二题干区域进行识别，得到各题干文本，一方面由于对题干区域进行重组，有助于更加便利地对题干区域进行识别，另一方面由于重组后的第二题干区域包含试题完整的题干文本。故此，能够提高获取题干文本的准确性。

附图说明

图1是本申请图像识别方法一实施例的流程示意图；

图2是答题图像一实施例的示意图；

图3是图1中步骤S12一实施例的流程示意图；

图4是题干文本一实施例的示意图；

图5是本申请答题批改方法一实施例的流程示意图；

图6是本申请图像识别模型一实施例的网络结构示意图；

图7是本申请图像识别模型一实施例的编解码器架构示意图；

图8是本申请图像识别装置一实施例的框架示意图；

图9是本申请答题批改装置一实施例的框架示意图；

图10是本申请电子设备一实施例的框架示意图；

图11是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请图像识别方法一实施例的流程示意图。

具体而言，可以包括如下步骤：

步骤S11：对答题图像进行检测，得到若干目标区域。

在一个实施场景中，对答题图像进行检测之前，可以根据答题内容获取答题图像，示例性地，可以对答题内容进行拍照，获取答题图像，还可以对答题内容进行扫描，获取答题图像，获取答题图像的方式可以根据实际情况进行选择，在此不做具体限定。

在一个具体实施场景中，答题内容可以根据预设规则进行批改，预设规则可以根据事情情况进行选择，示例性地，答题对象为学生，预设规则可以包括不同的批改规则，具体如：“√”表示正确的；“O”、“×”表示全错；“？”表示有疑问，需进行纠正；“乄”表示部分错误，需进行纠正；“☆”表示较好的。学生在作答完作业(试卷、教辅书)等，可以由学生(老师、家长)按照约定的批改规则进行批改。但是在实际的批改过程中，可能会存在不确定因素，如在页面的打分区域，出现约定之外的批改符号等，因此，答题内容中可以根据预设规则进行标记，以此区分不同答题区域，示例性地，可以将出现的红笔分数标记为“dignum”；题干区域可以标记为“prtarea”；题号区域可以标记为“quenum”，其他出现的手写符号全部标记为“other”类别。对答题内容的预设批改规则可以根据实际情况进行设置，在此不做具体限定。

请参阅图2，图2是答题图像一实施例的示意图，如图2所述，图中的目标区域的表示方式为矩形，目标区域还可以表示为圆形，目标区域的表示方式可以根据实际情况进行设置，在此不做具体限定。

在一个实施场景中，在对答题图像进行检测，并得到若干目标区域之前，还可以填充答题图像中字间缝隙，由于正常的排版字体之间存在间隙，手写区域字体也会存在间隙，段落之间也会存在换行等，示例性地，对答题图像中的字间缝隙进行填充可以选择对答题图像进行形态学处理，通过填充答题图像中的字间缝隙，可以使答题图像中的文本行更便于识别。还可以对填充后的答题图像进行边缘检测，并且得到检测结果，边缘检测的目的是标识图像中亮度变化明显的点，图像属性中的显著变化通常反映了属性的重要事件和变化，对答题图像进行边缘检测可以使答题图像的规范程度达到要求，示例性地，检测算法可以采用Sobel边缘检测算法、高斯滤波等，具体的边缘检测算法在此不做具体限定。对于边缘检测结果包含检测结果不包含边缘信息和检测结果包含边缘信息两种，响应于检测结果不包含边缘信息，提示重新获取答题图像，边缘检测的结果若不包含边缘信息，则表明答题图像异常，可能是答题图像的内容太多模糊，也可能是获取答题图像时光线异常，导致答题图像呈空白现象，由此，对答题图像进行重新获取，尽可能地避免了在对答题图像进行检测时，发现异常而导致工作延误的情况，尽可能地提高了工作效率。上述方式，通过对答题图像进行预处理，一方面可以对答题图像的文本进行规范化处理，另一方面可以使答题图像的规范程度达到要求，有助于对答题图像进行重组和识别，进而提高了工作效率。

在一个实施场景中，通过对答题图像进行检测，得到若干目标区域，对答题图像进行检测可以利用语义分割模型，语义分割是计算机视觉中的基本任务，在语义分割中需要将视觉输入分为不同的语义可解释的类别。示例性地，在室外场景中，需要区分图像中属于汽车的所有像素，并把这些像素进行处理；在室内场景中，需要区分图像中属于家具的所有像素，并进行处理；在答题图像中，需要区分图像中不同目标区域，并将不同类型的目标区域进行区分。在实际应用中，可以根据实际的应用场景选择语义分割模型，在此不做具体限定。

本公开实施例中，若干目标区域包括各试题的第一题干区域和题号区域。在实际应用中，目标区域可能包括各试题的第一题干区域，第一题干区域表示答题图像中显示的题干区域，需要说明的是，第一题干区域可能存在跨区域显示，也可能存在文本行重叠显示等问题；目标区域可能包括各试题的最终得分，并且最终得分可以同于对各试题的分数核对等；目标区域还可能包括题号区域，题号区域还可能分为不同类别的题号。目标区域可以根据实际应用需求进行选择，在此不做具体限定。

步骤S12：对第一题干区域进行重组，得到各个试题的第二题干区域。

在一个实施场景中，获取题号区域内所含题号的题号类别，并且基于题号的题号类别，确定题号之间的位置关系，并获取各题号分别对应的第一题干区域，且位置关系包括题号之间是否存在嵌套关系；若题号之间存在嵌套关系且题号分别对应的第一题干区域未跨区域显示，即至少两个题号之间存在嵌套关系，且存在嵌套关系中后者题号对应的第一题干区域未跨区域显示，则将题号分别对应的第一题干区域直接确定为第二题干区域；若题号之间不存在嵌套关系且题号分别对应的第一题干区域跨区域显示，即至少两个题号之间不存在嵌套关系，若此时任后者题号对应的第一题干区域跨区域显示，则将题号分别对应的第一题干区域直接确定为第二题干区域。需要说明的是，当至少两个题号之间存在嵌套关系和后者题号对应的第一题干区域跨区域显示中有一者不满足条件，将题号分别对应的第一题干区域直接确定为第二题干区域。

在一个实施场景中，获取题号区域内所含题号的题号类别，再基于第一题干区域和题号类别重组得到各个试题的第二题干区域。对题号区域内所含题号进行识别，进而确定题号类别，对题号类别的获取可以利用识别模型编解码结构等，题号类别的获取方式可以根据是实际应用进行选择，在此不做具体限定。题号类别的识别结果具有多样性，示例性地，题号范围是“0～9”时，对应题号类别个数有10个，题号范围是“)”时，对应题号类别个数有1个，题号范围是“>”时，对应题号类别个数有1个，题号范围是“一～九”时，对应题号类别个数有10个，题号范围是“a～g”时，对应题号类别个数有7个，题号范围是“A～G”时，对应题号类别个数有7个，题号范围是“UNK”时，对应题号类别个数有1个，题号范围是“a～z”时，对应题号类别个数有26个，题号范围的具体形式可以根据实际情况进行选择，在此不做具体限定。基于第一题干区域和题号类别重组得到各个试题的第二题干区域，其中第二题干区域包含试题完整的题干文本，进而可以更加方便的识别第二题干区域中的各题干文本。上述方式，基于第一题干区域和题号类别重组得到各个试题的第二题干区域，可以获取更加完整地题干区域，对获取各题干文本提供了便利。

在一个具体实施场景中，如前所述，基于第一题干区域和题号类别，为了得到各个试题的第二题干区域，先获取各题号分别对应的第一题干区域，并基于题号的题号类别，确定题号之间的位置关系；且位置关系包括题号之间是否存在嵌套关系，且在题号之间存在嵌套关系的情况下，题号属于同一试题；可以先获取各题号分别对应的第一题干区域，再基于题号的题号类别，确定题号之间的位置关系；也可以先基于题号的题号类别，确定题号之间的位置关系，再获取各题号分别对应的第一题干区域，需要说明的是，具体地先后顺序不会影响获取试题的第二题干区域的结果，在实际应用中，可以根据情况进行选择，在此不做限定。基于题号之间是否存在嵌套关系，可以对各题号对应的题干区域进行区分，示例性地，在获取题号之后，需要确定题号之间的位置关系，先确定题号类别数量M，对应的页面存在最多的题号嵌套范围为M层，且题号的外层排版是一致的，可遍历排版类型，根据各题号处于不同的层数关系，可以确定题号之间的位置关系，进而确定题号之间是否存在嵌套关系；可以先根据题干文本进行分栏，一个页面会存在多个题号类别和多个分栏，基于题干文本左上角位置的题号为基线题号位置，每个栏内部查找最左侧编辑，找到该栏最左侧的题号位置，确定该题号的类别，示例性地，如大写数字、小写数字、字母等。在该栏左侧位置遍历查找同属于该类别的题号，进而确定题号类别，示例性地，若经过查找，确定第一类题号标记为题号类别1，则在题号类别1的右下方查找第二类别，最多查找到的类别为M。则组合题号最大的类别为1_M-1_M-2_M-3…M，再对相邻的栏进行外层题号的对比判断，进而确定题号分别对应的第一题干区域是否跨区域显示，响应于题号之间存在嵌套关系且题号分别对应的第一题干区域跨区域显示，将题号分别对应的第一题干区域进行拼接，得到题号所属试题的第二题干区域。上述方式，通过对跨区域显示的第一题干进行拼接，使得对拼接后的第二题干区域的识别结果更加准确，进而提高对目标对象学习情况的掌握程度。

请参阅图3，图3是图1中步骤S12一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S31：基于题号区域的位置关系，对第一题干区域进行重组，得到各个试题的第二题干区域。

步骤S32：对第二题干区域进行文本行检测，得到第二题干区域中若干文本行区域。

在一个实施场景中，通过对第二题干区域进行文本行检测，确定第二题干区域中的文本行区域，文本行区域可以根据各文本行进行划分，文本行区域还可以根据题号类别进行划分，文本行区域又可以根据固定文本行数量进行划分，文本行区域的划分形式可以根据实际情况进行选择，在此不做具体限定。

步骤S33：基于第二题干区域中各文本行区域的轮廓点，对第二题干区域中文本行区域进行重组，得到新的第二题干区域。

在一个实施场景中，基于各文本行区域的轮廓点，检测得到各文本行区域之间的重合度，检测各文本行区域之间的重合度可以根据各文本行区域轮廓点的边缘点进行检测，示例性地，可以根据轮廓点的边缘点形成边界线进行检测，当边界线有交点，表明文本行之间存在重合；检测各文本行区域之间的重合度还可以根据各文本行区域轮廓点形成的区域进行检测，示例性地，各文本行区域轮廓点形成内部为空的封闭区域，若封闭区域存在交集，表明文本行之间存在重合；检测各文本行区域之间的重合度还可以根据图像识别算法进行，具体检测方法可以根据实际情况进行选择，在此不做限定。对各文本行区域之间的重合度检测顺序可以逐行进行检测，也可以根据固定行数进行检测，具体检测顺序可以根据实际情况进行选择，在此不做具体限定。确定文本行区域之间的重合度结果之后，响应于文本行区域之间的重合度满足第二条件，对文本行区域进行排列，得到新的文本行区域，文本行区域进行排列的方式可以根据具体情况进行调整，例如，若重合度高达90％，则将文本行区域高度较低的一者，向指定方向移动，移动的具体数值可以根据适应场景的不同进行设置，在此不做具体限定。上述方式，通过轮廓点检测到重合区域，对文本行进行重新排列，新的文本行区域可以更加清晰地表示文本行区域的内容，进而使对图像识别的准确率进一步得到提高。

在一个具体实施场景中，第二条件可以为文本行区域之间存在重合；也可以为轮廓点形成的边界线存在交点，还可以为文本行区域之间的重合度满足预设阈值，具体阈值可以根据使用场景进行设置。第二条件可以根据实际情况进行设置，在此不做具体限定。

在一个实施场景中，如前所述，基于第二题干区域中各文本行区域的轮廓点，对第二题干区域中文本行区域进行重组，为了得到新的第二题干区域，首先基于第二题干区域中各文本行区域的轮廓点，获取表征各文本行区域之间相对倾斜关系的第一角度值，基于角度值不满足第一条件，确定当前第二题干区域为新的第二题干区域。

在一个实施场景中，如前所述，基于第二题干区域中各文本行区域的轮廓点，对第二题干区域中文本行区域进行重组，为了得到新的第二题干区域，基于第二题干区域中各文本行区域的轮廓点，获取表征各文本行区域之间相对倾斜关系的第一角度值，首先获取分别表征文本行区域两侧边缘位置的第一坐标和第二坐标；且第一坐标和第二坐标分别基于位于文本行区域两侧边缘的轮廓点的坐标值统计得到，获取两侧文本行区域，基于两侧文本行轮廓点可以确定两侧文本行的位置，可以分别基于位于文本行区域两侧边缘的轮廓点的坐标值进行计算得到，在这里，计算方式可以取得坐标平均值，计算方式还可以取中间值，具体计算方式可以根据实际情况进行选择，在此不做具体限定。示例性地，若轮廓1取得第一坐标和第二坐标分别为A(x11，y11)和B(x12，y12)，轮廓2取得第一坐标和第二坐标分别为C(x21，y21)和D(x22，y22)，其中，第一坐标和第二坐标是基于文本行区域两侧边缘的轮廓点的坐标值取平均值得到的。基于各文本行区域的第一坐标和第二坐标，得到任意两个边缘位置之间的连线与水平方向之间夹角的第二角度值，如上所述，若第一坐标和第二坐标均已获取，得到任意两个边缘位置之间的连线与水平方向之间夹角为第二角度值，第二角度值分别记为angle1112，angle1122，angle1121，angle1222，angle1221，angle2122，再基于第二角度值进行统计，得到第一角度值，对第二角度值得统计方法可以根据具体情况进行选择，示例性地，可以对第二角度值取平均值，得到第一角度值；还可以对第二角度值取中值，得到第一角度值。对第二角度值的统计方法可以根据实际情况进行选择，在此不做具体限定。上述方式，通过获取表征各文本行区域之间相对倾斜关系的第一角度值，可以确定各文本行区域的倾斜角度，进而提高对答题图像具体情况的了解程度。

进一步地，角度值若不满足第一条件，直接确定当前第二题干区域为新的第二题干区域；若角度值满足第一条件，对文本行区域进行拼接，得到新的第二题干区域，对文本行进行拼接的方式需要根据实际情况进行选择，示例性地，若文本行是同一行但是没有连续显示，需要将位置靠后的文本行拼接在前一个文本行的后方；若文本行不是同一行但是角度也满足第一条件，则将后一文本行拼接在前一个文本行的后方，并将后一个空白文本行进行删除，删除方式可以对后方的文本行进行整体移动，也可以根据实际情况进行选择。文本行的拼接方式可以根据实际情况进行选择，在此不做具体限定。上述方式，通过对文本行进行拼接，得到新的第二题干区域，有助于更清晰的了解答题图像的内容，并进一步提高对目标对象学习情况的掌握程度。

在一个具体实施场景中，第一条件可以是第二角度值大于预设角度值，预设角度值可以根据实际情况进行设置，示例性地，若第二角度值是通过取平均值获取，当预设角度值为25度时，会将大多数的倾斜的情况都解决，准确率可达99.5％，当预设角度值为20度时，准确率可达97.3％，当预设角度值为15度时，准确率可达95.2％；若第二角度值是通过取中值获取，预设角度值可以适当减小。第一条件可以根据实际情况进行设置，在此不做具体限定。

步骤S13：基于第二题干区域进行识别，得到各题干文本。

在一个实施场景中，对第二题干区域的识别可以通过语义分割模型实现，进而得到各题干文本，语义分割模型可以根据实际情况进行选择。所得各题干文本可以基于不同题号类型进行区分，各题干文本的区分方式可以根据实际情况进行设置，在此不做具体限定。请参阅图4，图4是题干文本一实施例的示意图，如图4所述，经过对答题图像进行识别，最终得到各题干文本40。

请参阅图5，图5是本申请答题批改方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S51：识别目标对象的答题图像中各试题的题干文本。

在一个实施场景中，在识别目标对象的答题图像中各试题的题干文本之前，可以对目标对象的答题图像进行预处理，预处理的目的是为了降低外部环境对答题图像的干预，并提高识别目标对象的答题图像中的准确率，预处理的方式可以根据实际情况进行选择，在此不做具体限定。示例性地，可以先对答题图像进行形态学处理，填充文字中间的缝隙，再对处理后的答题图像进行Sobel边缘检测，可以将算子设置为[-1,0,1,-2,0,2,-1,0,1]进而提取垂直方向的边缘，若无法提取出边缘信息，则抛出异常，即表明该目标对象的答题图像可能由于扫描过程中出现的倾斜或者是拍照过程中出现的背景干扰，光线问题等问题导致该答题图像内容不清晰等问题，需要重新获取。为了提升识别目标对象的答题图像中各试题的题干文本，可以预先训练一个图像识别模型，使各试题的题干文本可以由图像识别模型识别得到。在对答题图像进行预处理后需要获取各试题的题干文本，在此过程中可以利用网络模型对答题图像中的多个分割结构，例如：多个批改类型、题号、题干等进行获取，网络模型可以是全连接网络结构(Fully Connected，FC)，网络模型也可以是卷积神经网络(Convolutional Neural Network，CNN)，网络模型还可以是循环神经网络(Recurrent Neural Network，RNN)，网络模型的具体类型在此不做限定，可以根据实际情况进行选择。

进一步地，请参阅图6，图6是本申请图像识别模型一实施例的网络结构示意图，在对答题图像进行预处理后，可以将答题图像规整到3通道，然后按照长边进行缩放(经验值)，同时设置最大的处理尺寸，避免越界，每个通道上的每个像素点的数值减去均值再乘以方差，例如：均值，方差为经验值，在此过程中，答题图像也可以规整到单通道，通道数量可以根据实际情况进行选择，在此不做具体限定，此后新的像素值再重新融合为一组新的特征矩阵。特征矩阵可以直接输入图6中卷积神经网络中，进而输出对应的ID号。ID号与多个分割结构具有映射关系，示例性地，ID号为1可以对应批改类型，ID号为1可以对应题号，ID号为10对应题号“一～九”，ID号为11对应题号“0～9”，ID号与多个分割结构的映射关系可以根据实际情况进行设置，在此不做具体限定。需要说明的是，ID号与多个分割结构的映射关系是在网络结构对答题图像进行识别之前设置，进而可以使网络结构对答题图像进行识别后，可以直接输出对应ID号。

请参阅图7，图7是本申请图像识别模型一实施例的编解码器架构示意图，在得到多个批改类型、题号、题干等之后，还可以验证答题图像中的题号识别结果是否正确，在验证答题图像中的题号识别结果之前，对答题图像可以进行预处理，答题图像按照3通道进行处理，高度缩放到60，数值再归一化到0-1，再拉伸到高度方向为1，形成一组特征数据，在此过程中，通道数量、高度缩放可以根据实际情况进行选择，在此不做具体限定。将特征数据输入到编码器-解码器结构中(如图7)，得到对应ID号，ID号与多个题号具有映射关系，示例性地，ID号为1可以对应题号“一～九”，ID号为10对应题号“0～9”，ID号与多个题号的映射关系可以根据实际情况进行设置，在此不做具体限定。需要说明的是，ID号与多个题号的映射关系是在验证答题图像中的题号识别结果之前设置，进而可以对答题图像进行识别后，直接输出对应ID号。

在一个实施场景中，题干文本的获取过程可以参阅前述图像识别的相关描述，在此不再赘述。

在一个实施场景中，目标对象可以是员工、学生等，目标对象的人数可以是一个人，也可以是多个人，目标对象可以根据实际情况进行选择，在此不做具体限定。

在一个实施场景中，答题图像可以是公司员工的测试内容，答题图像还可以是学生的周末小测试内容，答题图像还可以是多个作答者共同完成的答题内容，答题图像可以根据实际情况进行选择，在此不再一一赘述。

步骤S52：获取属于相同试题的各个题干文本分别对应的批改区域。

在一个实施场景中，识别得到相同试题的答题图像，基于相同试题的答题图像获取各题干文本分别对应的批改区域。

步骤S53：基于批改区域中的批改标记，得到目标对象在各个试题上的作答情况。

在一个实施场景中，基于批改区域中的批改标记，为了得到目标对象在各个试题上的作答情况，先基于批改区域中的批改标记，统计试题中各类批改标记的数量，其中，批改标记是基于预设规则进行批改后的批改标记，再基于试题中各类批改标记的数量，得到目标对象在各个试题上的作答情况。作答情况可以是目标对象对各试题的掌握情况，作答情况也可以是目标对象对各类试题的掌握情况，其中，目标对象对各试题的掌握情况可以通过各类批改标记的数量体现，目标对象对各试题的掌握情况也可以通过各类批改标记计算评分，通过评分情况进行体现，示例性地，批改标记为“√”，记2分；批改标记为“O”、“×”，记0分；批改标记为“？”、“乄”，记1分，最终所有分数的统计分值X，将批改标记数量的2倍记为分值Y，可以根据X与Y的比值，确定最终的作答情况，示例性地，若比值为0.8，表明目标对象掌握了该试题上80％的知识点。还可以预设阈值，示例性地，设置阈值为95％，当比值不小于该阈值时，表明目标对象已大概掌握试题中知识点，否则需要对试题中知识点进行巩固学习，预设阈值可以根据实际情况进行设置，在此不做具体限定。目标对象对各试题的掌握情况可以根据实际情况进行选择，在此不做具体限定。上述方式，通过对试题中各类批改标记的数量进行统计，进而确定目标对象在各个试题上的作答情况，进一步提高了对目标对象的了解程度。

请参阅图8，图8是本申请图像识别装置一实施例的框架示意图。图像识别装置60包括检测模块61、重组模块62和识别模块63。其中，检测模块61用于对答题图像进行检测，得到若干目标区域；且若干目标区域至少包括第一题干区域；重组模块62用于对第一题干区域进行重组，得到各个试题的第二题干区域；且第二题干区域包含第二题干区域所属试题完整的题干文本；识别模块63用于基于第二题干区域进行识别，得到各题干文本。

上述方案，一方面由于对题干区域进行重组，有助于更加便利地对题干区域进行识别，另一方面由于重组后的第二题干区域包含试题完整的题干文本。故此，能够提高获取题干文本的准确性。

在一些公开实施例中，识别模块63包括获取子模块，获取子模块用于获取题号区域内所含题号的题号类别；识别模块63还包括重组子模块，重组子模块用于基于第一题干区域和题号类别重组得到各个试题的第二题干区域。

因此，基于第一题干区域和题号类别重组得到各个试题的第二题干区域，可以获取更加完整地题干区域，对获取各题干文本提供了便利。

在一些公开实施例中，重组子模块包括获取单元，获取单元用于获取各题号分别对应的第一题干区域，并基于题号的题号类别，确定题号之间的位置关系；且位置关系包括题号之间是否存在嵌套关系，且在题号之间存在嵌套关系的情况下，题号属于同一试题；重组子模块还包括重组单元，重组单元用于响应于题号之间存在嵌套关系且题号分别对应的第一题干区域跨区域显示，将题号分别对应的第一题干区域进行拼接，得到题号所属试题的第二题干区域。

因此，通过对跨区域显示的第一题干进行拼接，使得对拼接后的第二题干区域的识别结果更加准确，进而提高对目标对象学习情况的掌握程度。

在一些公开实施例中，图像识别装置60还包括确定模块，确定模块用于对第二题干区域进行文本行检测，得到第二题干区域中若干文本行区域；再基于第二题干区域中各文本行区域的轮廓点，对第二题干区域中文本行区域进行重组，得到新的第二题干区域。

因此，通过轮廓点进行检测，并对第二题干区域进行重组，有助于对答题图像识别的完整性。

在一些公开实施例中，确定模块包括获取子模块，获取子模块用于基于第二题干区域中各文本行区域的轮廓点，获取表征各文本行区域之间相对倾斜关系的第一角度值；确定模块还包括确定子模块，确定子模块用于基于角度值满足第一条件，对文本行区域进行拼接，得到新的第二题干区域。

因此，通过对文本行进行拼接，得到新的第二题干区域，有助于更清晰的了解答题图像的内容，并进一步提高对目标对象学习情况的掌握程度。

在一些公开实施例中，确定模块还包括检测子模块，检测子模块用于基于各文本行区域的轮廓点，检测得到各文本行区域之间的重合度；响应于文本行区域之间的重合度满足第二条件，对文本行区域进行排列，得到新的文本行区域。

因此，通过轮廓点检测到重合区域，对文本行进行重新排列，新的文本行区域可以更加清晰地表示文本行区域的内容，进而使对图像识别的准确率进一步得到提高。

在一些公开实施例中，获取子模块包括获取单元，获取单元用于获取分别表征文本行区域两侧边缘位置的第一坐标和第二坐标；且第一坐标和第二坐标分别基于位于文本行区域两侧边缘的轮廓点的坐标值统计得到；获取子模块包括计算单元，计算单元用于基于各文本行区域的第一坐标和第二坐标，得到任意两侧边缘位置之间的连线与水平方向之间夹角的第二角度值；获取子模块还包括统计单元，统计单元用于基于第二角度值进行统计，得到第一角度值。

因此，通过获取表征各文本行区域之间相对倾斜关系的第一角度值，可以确定各文本行区域的倾斜角度，进而提高对答题图像具体情况的了解程度。

在一些公开实施例中，图像识别装置60还包括填充模块，填充模块用于填充答题图像中字间缝隙；对填充后的答题图像进行边缘检测，得到检测结果；响应于检测结果不包含边缘信息，提示重新获取答题图像。

因此，通过对答题图像进行预处理，一方面可以对答题图像的文本进行规范化处理，另一方面可以使答题图像的规范程度达到要求，有助于对答题图像进行重组和识别，进而提高了工作效率。

请参阅图9，图9是本申请答题批改装置一实施例的框架示意图。答题批改装置70包括识别模块71、获取模块72和确定模块73。其中，识别模块71用于识别目标对象的答题图像中各试题的题干文本，且题干文本基于上述任一图像识别方法得到；获取模块72用于获取属于相同试题的各个题干文本分别对应的批改区域；确定模块73用于基于批改区域中的批改标记，得到目标对象在各个试题上的作答情况。

在一些公开实施例中确定模块73包括统计子模块，统计子模块用于基于批改区域中的批改标记，统计试题中各类批改标记的数量；确定模块73还包括确定子模块，确定子模块用于基于试题中各类批改标记的数量，得到目标对象在各个试题上的作答情况。

因此，通过对试题中各类批改标记的数量进行统计，进而确定目标对象在各个试题上的作答情况，进一步提高了对目标对象的了解程度。

请参阅图10，图10是本申请电子设备一实施例的框架示意图。电子设备80包括相互耦接的存储器81和处理器82，存储器81中存储有程序指令，处理器82用于执行程序指令以实现上述任一图像识别方法或答题批改方法实施例中的步骤。具体地，电子设备80可以包括但不限于：台式计算机、笔记本电脑、服务器、手机、平板电脑等等，在此不做限定。

具体而言，处理器82用于控制其自身以及存储器81以实现上述任一图像识别方法或答题批改方法实施例中的步骤。处理器82还可以称为CPU(Central Processing Unit，中央处理单元)。处理器82可能是一种集成电路芯片，具有信号的处理能力。处理器82还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器82可以由集成电路芯片共同实现。

请参阅图11，图11是本申请计算机可读存储介质一实施例的框架示意图。计算机可读存储介质90存储有能够被处理器运行的程序指令91，程序指令91用于实现上述任一图像识别方法或答题批改方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种图像识别方法，其特征在于，包括：

对答题图像进行检测，得到若干目标区域；其中，所述若干目标区域至少包括第一题干区域；

对所述第一题干区域进行重组，得到各个试题的第二题干区域；其中，所述第二题干区域包含所述第二题干区域所属试题完整的题干文本；

基于所述第二题干区域进行识别，得到各题干文本。

2.根据权利要求1所述的方法，其特征在于，所述若干目标区域还包括题干区域；所述对所述第一题干区域进行重组，得到各个试题的第二题干区域，包括：

获取题号区域内所含题号的题号类别；

基于所述第一题干区域和所述题号类别重组得到各个所述试题的第二题干区域。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一题干区域和所述题号类别重组得到各个所述试题的第二题干区域，包括：

获取各所述题号分别对应的第一题干区域，并基于所述题号的题号类别，确定所述题号之间的位置关系；其中，所述位置关系包括所述题号之间是否存在嵌套关系，且在所述题号之间存在所述嵌套关系的情况下，所述题号属于同一所述试题；

响应于所述题号之间存在嵌套关系且所述题号分别对应的第一题干区域跨区域显示，将所述题号分别对应的第一题干区域进行拼接，得到所述题号所属试题的第二题干区域。

4.根据权利要求1所述的方法，其特征在于，对所述第一题干区域进行重组，得到各个所述试题的第二题干区域之后，以及在所述基于所述第二题干区域进行识别，得到各题干文本之前，所述方法还包括：

对所述第二题干区域进行文本行检测，得到所述第二题干区域中若干文本行区域；

基于所述第二题干区域中各所述文本行区域的轮廓点，对所述第二题干区域中所述文本行区域进行重组，得到新的第二题干区域。

5.根据权利要求4所述的方法，其特征在于，所述基于所述第二题干区域中各所述文本行区域的轮廓点，对所述第二题干区域中所述文本行区域进行重组，得到新的第二题干区域，包括：

基于所述第二题干区域中各所述文本行区域的轮廓点，获取表征各所述文本行区域之间相对倾斜关系的第一角度值；

基于所述第一角度值满足第一条件，对所述文本行区域进行拼接，得到所述新的第二题干区域。

6.根据权利要求5所述的方法，其特征在于，在所述基于所述第二题干区域中各所述文本行区域的轮廓点，获取表征各所述文本行区域之间相对倾斜关系的第一角度值之前，所述方法还包括：

基于各所述文本行区域的轮廓点，检测得到各文本行区域之间的重合度；

响应于所述文本行区域之间的重合度满足第二条件，对所述文本行区域进行排列，得到新的文本行区域。

7.根据权利要求5所述的方法，其特征在于，所述获取表征各所述文本行区域之间相对倾斜关系的第一角度值，包括：

获取分别表征所述文本行区域两侧边缘位置的第一坐标和第二坐标；其中，所述第一坐标和所述第二坐标分别基于位于所述文本行区域两侧边缘的轮廓点的坐标值统计得到；

基于各所述文本行区域的第一坐标和第二坐标，得到任意两侧所述边缘位置之间的连线与水平方向之间夹角的第二角度值；

基于所述第二角度值进行统计，得到所述第一角度值。

8.根据权利要求1所述的方法，其特征在于，在所述对答题图像进行检测，得到若干目标区域之前，所述方法还包括：

填充所述答题图像中字间缝隙；

对填充后的所述答题图像进行边缘检测，得到检测结果；

响应于所述检测结果不包含边缘信息，提示重新获取所述答题图像。

9.一种答题批改方法，其特征在于，包括：

识别目标对象的答题图像中各试题的题干文本；其中，所述题干文本基于权利要求1至8任一项所述的图像识别方法得到；

获取属于相同所述试题的各个题干文本分别对应的批改区域；

基于所述批改区域中的批改标记，得到所述目标对象在各个所述试题上的作答情况。

10.根据权利要求9所述的方法，其特征在于，所述基于所述批改区域中的批改标记，得到所述目标对象在各个所述试题上的作答情况，包括：

基于所述批改区域中的批改标记，统计所述试题中各类所述批改标记的数量；

基于所述试题中各类所述批改标记的数量，得到所述目标对象在各个所述试题上的作答情况。

11.一种图像识别装置，其特征在于，包括：

检测模块，用于对答题图像进行检测，得到若干目标区域；其中，所述若干目标区域包括各试题的第一题干区域和题号区域；

重组模块，用于基于所述题号区域的位置关系，对所述第一题干区域进行重组，得到各个所述试题的第二题干区域；其中，所述第二题干区域包含所述试题完整的题干文本；

识别模块，用于基于所述第二题干区域进行识别，得到各题干文本。

12.一种答题批改装置，其特征在于，包括：

识别模块，用于识别目标对象的答题图像中各试题的题干文本；其中，所述题干文本基于权利要求1至8任一项所述的图像识别方法得到；

获取模块，用于获取属于相同所述试题的各个题干文本分别对应的批改区域；

确定模块，用于基于所述批改区域中的批改标记，得到所述目标对象在各个所述试题上的作答情况。

13.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至8任一项所述的图像识别方法，或实现权利要求9至10任一项所述的答题批改方法。

14.一种计算机可读存储介质，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至8任一项所述的图像识别方法，或实现权利要求9至10任一项所述的答题批改方法。