CN111079641A

CN111079641A - 作答内容识别方法、相关设备及可读存储介质

Info

Publication number: CN111079641A
Application number: CN201911282545.5A
Authority: CN
Inventors: 曾金舟
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-04-28
Anticipated expiration: 2039-12-13
Also published as: CN111079641B

Abstract

本申请公开了一种作答内容识别方法、相关设备及可读存储介质，对待识别的作答内容图片进行识别，得到识别后的文本信息，由于识别后的文本信息中各文本单元的位置与待识别的作答内容的阅读顺序相比可能存在偏差，而文本信息的语义特征能够对文本信息中各文本单元的位置进行表征，因此，本申请中，在得到识别后的文本信息后，进一步获取文本信息的语义特征，并基于语义特征对文本信息中文本单元的位置进行调整，将调整后的文本信息作为最终识别结果，从而消除上述偏差。

Description

作答内容识别方法、相关设备及可读存储介质

技术领域

本申请涉及图片识别技术领域，更具体的说，是涉及一种作答内容识别方法、相关设备及可读存储介质。

背景技术

随着互联网的普及和人工智能技术的发展，人工智能逐渐向教育领域渗透，应用在教学和测评等教育场景，推动教育行业实现由传统教育模式向智能教育的跨越式转变，智能教育产品也如雨后春笋，逐年的增多，并且效果逐年有起色。

在作答内容(比如，初高中学生在数学试卷或答题卡上手写的数学大题的解答过程，或者，在物理化学试卷或答题卡上手写的含有数学符号的解答过程等)的评阅场景下，传统的作答内容的评阅都是由老师来完成，评阅效率较低，且在处理大规模评阅工作时，老师容易受到疲劳、个人偏好等主观因素的干扰，从而影响评阅，尤其是评分的准确性和客观性。因此，需要研发一种智能教育产品实现对作答内容的辅助评阅，以提升评阅效率以及评分的准确性和客观性。

目前，可以通过拍照、扫描等手段先得到作答内容的图像信息，再对作答内容的图像信息进行识别得到作答内容的文本信息，最后基于识别得到的作答内容的文本信息实现对作答内容的辅助评阅。因此，对作答内容的准确识别，是实现对作答内容的辅助评阅的基础，但是，现有技术中，并没有一种能够对作答内容准确识别的方式。

发明内容

鉴于上述问题，本申请提供一种作答内容识别方法、相关设备及可读存储介质。具体方案如下：

一种作答内容识别方法，包括：

获取待识别的作答内容图片；

对所述作答内容图片进行识别，得到识别后的文本信息；

获取所述文本信息的语义特征；

基于所述语义特征对所述文本信息中文本单元的位置进行调整，调整后的文本信息作为最终识别结果。

可选地，所述对所述作答内容图片进行识别，得到识别后的文本信息，包括：

将所述作答内容图片，输入作答内容图片识别模型，得到识别后的文本信息，所述作答内容图片识别模型为利用标注有识别文本信息的作答内容训练图片预训练得到。

可选地，基于所述语义特征对所述文本信息中文本单元的位置进行调整，调整后的文本信息作为最终识别结果，包括：

基于所述语义特征，确定所述文本信息中各文本单元的正确排序位置；

按照确定的各文本单元的正确排序位置，对所述文本信息进行调整，调整后的文本信息作为最终识别结果。

可选地，所述基于所述语义特征，确定所述文本信息中各文本单元的正确排序位置，包括：

获取所述文本信息的位置特征；

将所述语义特征融合所述位置特征，输入识别结果纠错模型，得到所述文本信息中各文本单元的正确排序位置，所述识别结果纠错模型是以训练文本的语义特征及位置特征为训练样本，以训练文本中文本单元的正确排序位置标注信息为样本标签训练得到。

可选地，所述按照确定的各文本单元的正确排序位置，对所述文本信息进行调整，包括：

根据所述正确排序位置，确定所述文本信息中的待调整文本单元；

对所述待调整文本单元的先后顺序性进行调整，使调整后的文本信息的各文本单元的排序位置与所述正确排序位置相同。

可选地，所述获取待识别的作答内容图片，包括：

获取原始作答内容图片；

按照预先规定的图片标准，对所述原始作答内容图片进行预处理，预处理后的作答内容图片作为待识别的作答内容图片。

可选地，所述预处理包括二值化处理、直线滤除处理、倾斜校正处理、朝向检测处理、题干检测处理、滤红处理、字符规整处理、数据增强处理中的一种或多种。

可选地，对作答内容图片进行朝向检测处理，包括：

将所述作答内容图片的前景区域分为预设数量个大小相同的图片；

将所述预设数量个大小相同的图片输入朝向检测模型，得到所述作答内容图片的朝向分类结果，所述朝向检测模型是以作答内容训练图片前景区域的预设数量个大小相同的图片为训练样本，以作答内容训练图片的朝向分类信息为样本标签训练得到。

一种作答内容识别装置，包括：

作答内容图片获取单元，用于获取待识别的作答内容图片；

识别单元，用于对所述作答内容图片进行识别，得到识别后的文本信息；

语义特征获取单元，用于获取所述文本信息的语义特征；

调整单元，用于基于所述语义特征对所述文本信息中文本单元的位置进行调整，调整后的文本信息作为最终识别结果。

可选地，所述识别单元，包括：

识别子单元，用于将所述作答内容图片，输入作答内容图片识别模型，得到识别后的文本信息，所述作答内容图片识别模型为利用标注有识别文本信息的作答内容训练图片预训练得到。

可选地，所述调整单元，包括：

正确排序位置确定单元，用于基于所述语义特征，确定所述文本信息中各文本单元的正确排序位置；

调整子单元，用于按照确定的各文本单元的正确排序位置，对所述文本信息进行调整，调整后的文本信息作为最终识别结果。

可选地，所述正确排序位置确定单元，包括：

位置特征获取单元，用于获取所述文本信息的位置特征；

纠错单元，用于将所述语义特征融合所述位置特征，输入识别结果纠错模型，得到所述文本信息中各文本单元的正确排序位置，所述识别结果纠错模型是以训练文本的语义特征及位置特征为训练样本，以训练文本中文本单元的正确排序位置标注信息为样本标签训练得到。

可选地，所述调整子单元，包括：

待调整文本单元确定单元，用于根据所述正确排序位置，确定所述文本信息中的待调整文本单元；

文本单元顺序调整单元，用于对所述待调整文本单元的先后顺序性进行调整，使调整后的文本信息的各文本单元的排序位置与所述正确排序位置相同。

可选地，所述作答内容图片获取单元，包括：

原始作答内容图片获取单元，用于获取原始作答内容图片；

预处理单元，用于按照预先规定的图片标准，对所述原始作答内容图片进行预处理，预处理后的作答内容图片作为待识别的作答内容图片。

可选地，所述预处理单元包括二值化处理单元、直线滤除处理单元、倾斜校正处理单元、朝向检测处理单元、题干检测处理单元、滤红处理单元、字符规整处理单元、数据增强处理单元中的一种或多种。

可选地，所述朝向检测处理单元，包括：

图片划分单元，用于将所述作答内容图片的前景区域分为预设数量个大小相同的图片；

朝向检测单元，用于将所述预设数量个大小相同的图片输入朝向检测模型，得到所述作答内容图片的朝向分类结果，所述朝向检测模型是以作答内容训练图片前景区域的预设数量个大小相同的图片为训练样本，以作答内容训练图片的朝向分类信息为样本标签训练得到。

一种作答内容识别系统，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的作答内容识别方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的作答内容识别方法的各个步骤。

借由上述技术方案，本申请公开了一种作答内容识别方法、相关设备及可读存储介质，对待识别的作答内容图片进行识别，得到识别后的文本信息，由于识别后的文本信息中各文本单元的位置与待识别的作答内容的阅读顺序相比可能存在偏差，而文本信息的语义特征能够对文本信息中各文本单元的位置进行表征，因此，本申请中，在得到识别后的文本信息后，进一步获取文本信息的语义特征，并基于语义特征对文本信息中文本单元的位置进行调整，将调整后的文本信息作为最终识别结果，从而消除上述偏差。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例公开的一种作答内容识别方法的流程示意图；

图2为本申请实施例公开的一种待识别的作答内容图片的示意图；

图3为本申请实施例公开的一种识别后的文本信息的示意图

图4为本申请实施例公开的一种基于LeNet的卷积神经网络模型的结构示意图；

图5为本申请实施例公开的一种将作答内容图片的前景区域分为5个大小相同的图片的示意图；

图6为本申请实施例公开的一种作答内容训练图片示意图；

图7为本申请实施例公开的一种作答内容训练图片示意图

图8为本申请实施例公开的一种待识别的作答内容图片的示意图；

图9为本申请实施例公开的一种待识别的作答内容图片的示意图；

图10为本申请实施例公开的一种作答内容识别装置结构示意图；

图11为本申请实施例公开的一种作答内容识别系统的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了引用和清楚起见，对本申请中使用的名词说明如下：

作答内容：本申请中，作答内容是广义的作答内容集合，从学科角度来说，可以是初高中数学科目作答内容，也可以是初高中物理化学科目中的作答内容，对此本申请不进行任何限定。从内容角度来说，可以是初高中学生在课堂测验，期中期末考试等场景下，在数学试卷或答题卡上手写的数学大题的解答过程，还有在物理化学试卷或答题卡上手写的解答过程。在某些场景下，本申请中，作答内容除了包括学生在试卷或答题卡上手写的题目解答过程之外，还可包括部分印刷题干内容，如数学科目的部分填空题。

为了实现对作答内容准确识别，本案发明人进行研究，起初的一种思路为：采用现有的离线手写识别系统识别作答内容。

但是，现有的离线手写识别系统主要是针对小学速算题等简单的数学公式进行识别批改。具体实现时，先对小学速算题拍照生成图片，对图片进行一些基本的图像处理工作，提取所有可能的公式，然后对提取的公式进行字符的切分，利用深度学习对切分的字符进行分类识别，得到小学速算题的识别结果，最后基于该识别结果进行自动批改得到小学速算题的批改结果。由于小学速算题当中仅仅存在一笔或者几笔手写字体，因此，现有的离线手写识别系统可以对小学速算题进行准确识别，但是，作答内容中的公式完全是手写的，当手写字体稍微潦草时，采用现有的离线手写识别系统对作答内容进行识别，会出现识别错误，导致识别结果不准确，因此，现有的离线手写识别系统并不适用于识别作答内容。

另一种思路为：采用现有的在线手写识别系统识别作答内容。

但是，现有的在线手写识别系统主要是进行简单的公式识别，现有的在线手写识别系统主要是根据在线笔迹点以及输入的时间顺序进行笔迹的切分，然后根据切分进行单字符的识别分类，最终根据结构分析组成相关的字符树，然后在寻找最小代价生成树，最终获得识别结果。但是，现有的在线手写识别系统进行在线公式识别时，仍然存在切分问题，特别是输入的笔迹存在时间跳跃问题(也即回笔，就是一个公式其中中间的几笔是最后写上去，没有按照时间顺序输入)时，系统会存在切分错误(过切分或者欠切分)，这样识别错误会导致后续所有的结构分析和搜索最优路径等结果都会出现错误，最终导致识别结果不准确。因此，现有的在线手写识别系统也不适用于识别作答内容。

鉴于上述思路存在的问题，本案发明人进行了深入研究，最终提出了一种作答内容识别方法，该方法能够实现对作答内容的准确识别。接下来，通过下述实施例对本申请提供的数学作答内容识别方法进行介绍。

请参阅图1，图1为本申请实施例公开的一种作答内容识别方法的流程示意图，该方法可以包括如下步骤：

S101：获取待识别的作答内容图片。

在本申请中，作答内容可以为手写的题目解答过程，不同的答题者手写的题目解答过程不同，待识别的作答内容图片可以为任意一个答题者手写的题目解答过程对应的图片。待识别的作答内容图片的获取方式可以有多种，具体将通过后续实施例详细说明。

S102：对所述作答内容图片进行识别，得到识别后的文本信息。

在本申请中，通过对作答内容图片进行识别，能够得到其识别后的文本信息，需要说明的是，识别后的文本信息是与所述作答内容图片对应的文本信息，文本信息中包括段落信息。为便于理解，请参阅图2和图3，假设图2为待识别的作答内容图片，图3为识别后的文本信息，图3中“jump”即为文本信息中包括的段落信息。

S103：获取所述文本信息的语义特征。

本申请中，可以通过词嵌入向量(Word embedding)，将所述文本信息按照内部语义信息进行编码，生成文本信息的语义特征。

S104：基于所述语义特征对所述文本信息中文本单元的位置进行调整，调整后的文本信息作为最终识别结果。

在本申请中，文本信息中文本单元可以为文本信息中的文本段。作为一种可实施方式，文本段可以基于文本信息中的段落信息进行划分，如图3所示，“jump”之前的内容为文本信息中的一个文本单元，“jump”之后的内容也为文本信息中的一个文本单元。

本实施例公开了一种作答内容识别方法，对待识别的作答内容图片进行识别，得到识别后的文本信息，由于识别后的文本信息中各文本单元的位置与待识别的作答内容的阅读顺序相比可能存在偏差，而文本信息的语义特征能够对文本信息中各文本单元的位置进行表征，因此，本实施例中，在得到识别后的文本信息后，进一步获取文本信息的语义特征，并基于语义特征对文本信息中文本单元的位置进行调整，将调整后的文本信息作为最终识别结果，从而消除上述偏差。

在本申请中，作为一种可实施方式，待识别的作答内容图片可以是通过对手写的题目解答过程进行拍照、扫描、复印等方式得到的原始作答内容图片。考虑到原始作答内容图片可能不符合预先规定的图片标准，因此，本申请中给出另外一种获取待识别的作答内容图片的实现方式，该方式可以包含如下步骤：

S201：获取原始作答内容图片。

在本申请中，原始作答内容图片即通过对手写的题目解答过程进行拍照、扫描、复印等方式得到的图片。

S202：按照预先规定的图片标准，对所述原始作答内容图片进行预处理，预处理后的作答内容图片作为待识别的作答内容图片。

在本申请中，具体的预处理可以根据原始作答内容图片与预先规定的图片标准相比存在的问题进行，预处理后的作答内容图片满足预先规定的图片标准。

作为一种可实施方式，所述预处理可以包括二值化处理、直线滤除处理、倾斜校正处理、朝向检测处理、题干检测处理、滤红处理、字符规整处理、数据增强处理中的一种或多种。各种预处理方式将通过以下内容详细说明。

二值化处理就是将灰度图片上的像素点的灰度值设置为0或255，也就是使处理后的图片呈现出黑白效果。考虑到图片的背景可能很复杂，为了使处理后的图片呈现出较好的黑白效果，在本申请中，可以在图片上进行分块的二值阈值计算，得到待处理的图片中每个像素点对应的二值化阈值，进而进行二值化操作。比如，可以将图片上划分为50像素*50像素大小的块，再进行分块的二值阈值计算。

直线滤除处理是将存在一些满足预设条件(比如，长度大于图片宽度的四分之一等)的直线笔迹(比如老师的批改笔记、学生涂抹画的横线等)的图片中的上述直线笔迹滤除，具体的，可以将上述直线笔迹中没有和前景像素相交的点直接补白，将上述直线笔迹中和前景像素相交的点保留。

倾斜矫正处理是采用常用的手写文档矫正算法将倾斜图片进行旋转矫正，使矫正后的图片不再倾斜。具体的，可先对图片中的文本进行数学形态学处理、边缘检测，然后利用直线拟合技术得到直线，从中筛选出有代表性的直线，通过有代表性的直线与主轴方向的夹角检测出角度，最后对倾斜图片进行旋转校正。

朝向检测处理是检测图片的朝向是否符合预先规定的图片标准中规定的正确朝向，如果不符合，需要对图片的朝向进行调整。在本申请中，由于考虑到通过对手写的题目解答过程进行拍照、扫描、复印等方式得到的图片，可能由于人工放置答题卡或答题试卷的方向不一致、导致得到的某些作答内容图片朝向不符合预先规定的图片标准中规定的正确朝向，因此，需要进行朝向检测。具体的，可以基于神经网络模型实现对作答内容图片的朝向检测，将通过后续实施例详细说明，此处不再详述。

题干检测处理是检测图片中是否存在题干，如果存在，则将题干区域抹白。由于题干数据为印刷体，本申请中，可以在作答内容图片中确定出印刷体所在区域作为题干区域。

滤红处理是将图片三通道按照RGB2HSV函数对颜色空间进行转换，从正常的RGB空间转换得到HSV空间里的通道，然后根据阈值去判断是否为红色区域，如果是红色区域，则将该区域抹白，如果红色区域和其余前景有相交的笔迹时，将该部分抹黑。一种根据阈值判断是否为红丝区域的方式具体为：预设如下条件，如果如下条件满足其一，则判断该区域为红色区域。

条件一：(h>＝160且h<＝180||h>0且h<10)且(s>62)且(v>70)

条件二：(h>＝160且h<＝180||h>0且h<10)且(s>15)且(v>200)

条件三：(h>＝145且h<＝180||h>0且h<10)且(s>8)且(v>220且v<255)，其中，h，s，v是HSV空间上面对应的三个通道的数值大小。

字符规整处理是基于预先规定的图片标准中规定的标准字符高度对图片进行调整，具体的，可以先对图片进行二值化处理，得到二值化处理后的图片，然后，从二值化处理后的图片中确定出连通域，并从中确定出目标连通域，并统计目标连通域的个数，计算目标连通域的总高度，根据目标连通域的总高度以及目标连通域的个数计算平均字符高度，得到平均字符高度之后，根据平均字符高度和标准字符高度计算出图片的调整参数，基于调整参数对二值化处理后的图片进行调整。比如，目标连通域可以为字符高度大于10像素值的连通域，标准字符高度可以为40像素值，调整参数＝标准字符高度/平均字符高度。

数据增强处理是对图片特定区域内的像素进行随机涂白或者涂黑。具体的，可以先在图片中选取高为H，宽为W的矩形框R，再将矩形框中的小矩形框r内的像素涂白或者涂黑，比如，如果标准字符高度为40，可以将W取值为0至120之间，H取值为0至80之间，可以在矩形框R中随机选取一个起始点B，以B为左上角构成矩形框r，可以在矩形框r里按照黑白各占50％的比例随机涂白或者涂黑。

需要说明的是，上述各种预处理方式的处理对象可以为原始作答内容图片，也可以为经过其他预处理方式对原始作答内容图片进行处理之后生成的作答内容图片，对此，本申请不进行限定。

在本申请中，公开了一种对作答内容图片的朝向检测的实现方式，具体如下：

将所述作答内容图片的前景区域分为预设数量个大小相同的图片；将所述预设数量个大小相同的图片输入朝向检测模型，得到所述作答内容图片的朝向分类结果，所述朝向检测模型是以作答内容训练图片前景区域的预设数量个大小相同的图片为训练样本，以作答内容训练图片的朝向分类信息为样本标签训练得到。

需要说明的是，在本申请中，用于朝向检测模型可以为基于LeNet的卷积神经网络模型，由于基于LeNet的卷积神经网络模型的卷积层和全连接层输入图片的大小必须相同，因此，对于作答内容图片，都需要将作答内容图片的前景区域(即所有前景像素组成的最大boundingbox)分为预设数量个大小相同的图片，需要说明的是，预设数量为LeNet的卷积神经网络模型的卷积层和连接层的数量和。

图4为本申请实施例公开的一种基于LeNet的卷积神经网络模型的结构示意图，如图4所示，该基于LeNet的卷积神经网络模型包括三个卷积层(即图中所示的conv1、conv2、conv3)和两个全连接层(即图中所示的fc1和fc2)，其中，每个卷积层之后都有一个maxpooling(最大池化层)，max pooling的大小为2×2，两个全连接层可以采用droupout技术，两个全连接层的输出经过softmax函数，输出预测结果prediction。

作为一种可实施方式，基于LeNet的卷积神经网络模型中三个卷积层的卷积核大小和特征图大小可以分别为：

卷积层1(即图中所示的conv1)：卷积核3x3，通道数32，特征图大小128x128；

卷积层2(即图中所示的conv2)：卷积核3x3，通道数64，特征图大小64x64；

卷积层3(即图中所示的conv3)：卷积核3x3，通道数128，特征图大小32x32；

作为一种可实施方式，基于LeNet的卷积神经网络模型中两个全连接层的通道数可以分别为：

全连接层1(即图中所示的fc1)：通道数512；

全连接层2(即图中所示的fc2)：通道数3。

图4中基于LeNet的卷积神经网络有3个卷积层和2个全连接层，因此，可以将作答内容图片的前景区域划分为5个大小相同的图片，然后，将5个图片的数据分别输入到基于LeNet的卷积神经网络的3个卷积层和2个全连接层，以输出作答内容图片的朝向分类结果。

作为一种可实施方式，本申请给出了一种将作答内容图片的前景区域分为5个大小相同的图片的实现方式，具体可以为：以将作答内容图片的前景区域先按照高宽平均分为四个区域(图5所示的实线区域)，将四个区域全部调整(resize)到预设大小(如128像素*128像素)，得到四个大小相同的图片，再从前景区域的中间提取预设大小的区域(图5所示的虚线区域)作为第五个图片。需要说明的是，如果前景区域的中间不足预设大小，则取最大的区域然后调整(resize)到预设大小。

需要说明的是，对于作答内容图片，可以使用角度表示其朝向，由于答题卡或答题试卷的放置方式相对于预设方式来说，一种是与预设方式相同，还有一种是与预设方式相反，其他放置方式的可能性比较低，假设与预设方式相同的放置角度是0度，与预设方式相反的放置角度是180度，因此，本申请中，可以将作答内容图片的朝向分为三类，即正确朝向(放置角度为0度)，反向朝向(放置角度为180度)，其他朝向(放置角度为除0度和180度之外的其他角度)。在本申请中，可以采用0、1、2对作答内容训练图片的朝向分类信息进行标注，其中，0表示正确朝向，1表示反向朝向，2表示其他朝向。

进一步需要说明的是，在本申请中，得到作答内容图片的朝向分类结果之后，还可根据作答内容图片的朝向分类结果进行后处理，作为一种可实施方式，如果朝向分类结果为0并且该结果的得分超过0.95，认为该作答内容图片的朝向分类为正确朝向，无需调整，如果朝向分类结果为0并且该结果的得分小于0.95，则提示进行人工检查；朝向分类结果为1并且该结果的得分超过0.95，认为该作答内容图片的朝向分类为反向朝向，将该作答内容图片旋转180度，如果朝向分类结果为1并且该结果的得分小于0.95，则提示进行人工检查；如果朝向分类结果为3，直接提示进行人工检查。

在本申请中，还公开了一种对作答内容图片进行识别，得到识别后的文本信息的实现方式，该方式具体可以为：将所述作答内容图片，输入预先训练的作答内容图片识别模型，得到识别后的文本信息。所述作答内容图片识别模型为利用标注有识别文本信息的作答内容训练图片预训练得到。

需要说明的是，作答内容训练图片可以为对原始作答内容图片进行预处理后的作答内容图片，具体的预处理可参见上述对待识别的作答内容图片的预处理过程，此处不再赘述。但是需要说明的是，由于作答内容训练图片能够保证朝向正确性，所以无需对作答内容训练图片进行朝向检测。另外，为了提高识别模型的鲁棒性，作答内容训练图片中包括一些带有题干的作答内容训练图片，对于这些图片，无需进行题干检测处理。

作答内容训练图片标注的识别文本信息中包括行信息和段落信息。在本申请中，行信息可以为预设的行标识，段落信息可以为预设的段落标识。

需要说明的是，所述识别文本信息中除了包括行信息和段落信息之外，还包括文本中的字符信息，字符信息可以包括字符内容以及字符属性，字符内容可以为具体的数字、字母、汉字等，也可以为数学符号的标识，字符属性可以包括手写体和印刷体，

为便于理解，本申请中采用如下示例进行说明：

假设一个作答内容训练图片如图6所示，则其标注的识别文本信息具体如下：

“解：连接AC\enter

\because AB＝BC＝1\angle B＝90^{\circ}\enter

\therefore\triangle ABC为Rt\triangle ABC\jump

\because 1^{2}+(\sqrt{2})^{2}＝(\sqrt{3})^{2}\enter

\therefore\triangle ADC为Rt\triangle ADC\enter

\therefore\angle DAC＝90^{\circ}\jump”

其中，“enter”为行信息，“jump”为段落信息，其他内容为字符信息。需要说明的是，正常情况下，文本中每一句话结束都以“\enter”表示，当文本内容出现跳跃情形时，如图6所示的另起一列作答，需要在第一列的最后一句话结束以“\jump”表示。

需要说明的是，一般情况下，作答内容训练图片中只包含手写体，但是，为了提升样本覆盖度，还会有一些作答内容训练图片中同时包含手写体和印刷体，在作答内容训练图片中存在印刷体时，可以采用预设的印刷体标识标注识别文本信息，比如，图7所示的作答内容训练图片标注的识别文本信息可以为“\print{(2)}\underline{\angle APC＝\angle A+\angleC}\print{，并证明你的结论(过程写在图1下方)}”。

另外，本申请中，用于训练作答内容图片识别模型的预设模型可以为本领域中任一成熟的神经网络模型，作为一种可实施方式，本申请提出一种可以用于训练作答内容图片识别模型的预设模型结构，该预设模型结构可以包含卷积神经网络、编码神经网络、注意力神经网络和解码神经网络。

卷积神经网络可以为单通道卷积神经网络，但是，单通道卷积神经网络往往会产生梯度消失的问题，为解决梯度消失的问题，并增加网络深度，本申请中卷积神经网络可以为双通道卷积神经网络，比如，由DenseNet和ResNet组成的双通道卷积神经网络，需要说明的是，由DenseNet和ResNet组成的双通道卷积神经网络中，ResNet作为整个卷积神经网络的基础网络，DenseNet作为ResNet的并行网络，能够使训练作答内容图片的低维特征和高维特征有效并用，提高了低维特征和高维特征的使用率，使得提取的特征更为丰富。作为一种可实施方式，DenseNet的初始通道数为128位，ResNet的初始通道数为256位。

另外，需要说明的是，由于作答内容图片大多比较宽，解码时帧数很多，在解码到最后部分的时候难免会出现前面信息的丢失，为解决这种问题，在本申请中，编码神经网络可以采用双向LSTM(长短期记忆网络，LongShort-Term Memory)，使编码神经网络的输出维数达到1024。解码神经网络可以采用GRU(Gated Recurrent Unit，LSTM的变体，也称门控循环单元)。

假设本申请中作答内容图片识别模型是基于上述预设模型结构预训练得到的，则本申请中，将待识别的作答内容图片，输入作答内容图片识别模型，即可得到识别后的文本信息：利用所述作答内容图片识别模型的卷积神经网络，对所述作答内容图片进行特征抽取，得到所述作答内容图片的特征图；利用所述作答内容图片识别模型的编码神经网络、注意力神经网络以及解码神经网络，对所述作答内容图片的特征图进行识别，得到识别后的文本信息。

在本申请中，还公开了一种基于所述语义特征对所述文本信息中文本单元的位置进行调整，调整后的文本信息作为最终识别结果的实现方式，该方式具体可以包括：

S301：基于所述语义特征，确定所述文本信息中各文本单元的正确排序位置。

在本申请中，可以基于语义特征，确定文本信息中各文本单元的正确排序位置。各文本单元的排序位置具体可以为各文本单元的排序位置信息的先后顺序，各文本单元的正确排序位置具体可以为各文本单元的排序位置信息的正确先后顺序，按照正确先后顺序排序的各文本单元的阅读顺序与作答内容的正确阅读顺序是一致的。为便于理解，请参阅附图8，假设图8所示的图片为待识别的作答内容图片，则其识别后的文本信息中各文本单元的正确排序位置可以为：123。

S302：按照确定的各文本单元的正确排序位置，对所述文本信息进行调整，调整后的文本信息作为最终识别结果。

在本申请中，按照确定的各文本单元的正确排序位置，对所述文本信息进行调整可以通过以下方式实现：根据所述正确排序位置，确定所述文本信息中的待调整文本单元，对所述待调整文本单元的先后顺序性进行调整，使调整后的文本信息的各文本单元的排序位置与所述正确排序位置相同，调整完文本单元先后顺序的文本信息即为最终识别结果。其中，根据所述正确排序位置，确定所述文本信息中的待调整文本单元，可以通过以下方式实现：获取文本信息中各文本单元的当前排序位置，将所述正确排序位置与当前排序位置进行比对，确定不对应的排序位置信息，不对应的排序位置信息对应的文本单元即为待调整文本单元。

为便于理解，以图9所示，识别文本信息中各文本单元的当前的排序位置为：1234，识别文本信息中各文本单元的正确排序位置为1423，则不对应的排序位置信息为234，则调整234对应的文本单元的先后顺序，使调整后的文本单元的排序位置为1423。

在本申请中，作为一种可实施方式，基于所述语义特征，确定所述文本信息中各文本单元的正确排序位置的具体实现方式可以为：

S401：获取所述文本信息的位置特征。

在本申请中，可以先获取文本信息中各文本单元的排序位置信息，再通过嵌入式向量，将文本信息中各文本单元的排序位置信息进行编码，生成文本信息的位置特征。

需要说明的是，在本申请中，排序位置信息可以为序号，文本信息中各文本单元的排序位置信息是基于段落信息确定的，先出现的段落信息对应的文本单元的序号要比后出现的段落信息对应的文本单元的序号小。比如，一个文本信息中包含两个“jump”，第一个“jump”前的内容为一个文本单元，两个“jump”之间的内容为第二个文本单元，则第一个文本单元的排序位置信息为“1”，第二个文本单元的排序位置信息为“2”。

S402：将所述语义特征融合所述位置特征，输入识别结果纠错模型，得到文本信息中各文本单元的正确排序位置。

在本申请中，将语义特征融合位置特征指的是将文本信息中每个文本单元的语义特征和位置特征进行融合。识别结果纠错模型可以是以训练文本的语义特征及其位置特征为训练样本，以训练文本中文本单元的正确排序位置标注信息为样本标签训练得到。

需要说明的是，用于训练作答内容图片识别模型的预设模型可以为本领域中任一成熟的神经网络模型，作为一种可实施方式，可以与用于训练作答内容图片识别模型的预设模型结构相同，具体请参见前述相关内容，此处不再赘述。

在本申请中，作为另一种可实施方式，确定文本信息中各文本单元的正确排序位置并按照此对文本信息进行调整的具体实现方式可以为根据语义特征确定文本信息中各文本单元的继承性，再根据文本信息中各文本单元的继承性确定各文本单元的正确排序位置，然后根据各文本单元的正确排序位置确定文本信息中待调整的文本单元，再对待调整的文本单元的排序位置进行调整。

下面对本申请实施例公开的作答内容识别装置进行描述，下文描述的作答内容识别装置与上文描述的作答内容识别方法可相互对应参照。

参照图10，图10为本申请实施例公开的一种作答内容识别装置结构示意图。如图10所示，该作答内容识别装置可以包括：

作答内容图片获取单元11，用于获取待识别的作答内容图片；

识别单元12，用于对所述作答内容图片进行识别，得到识别后的文本信息；

语义特征获取单元13，用于获取所述文本信息的语义特征；

调整单元14，用于基于所述语义特征对所述文本信息中文本单元的位置进行调整，调整后的文本信息作为最终识别结果。

可选地，所述识别单元，包括：

可选地，所述调整单元，包括：

可选地，所述正确排序位置确定单元，包括：

位置特征获取单元，用于获取所述文本信息的位置特征；

可选地，所述调整子单元，包括：

可选地，所述作答内容图片获取单元，包括：

原始作答内容图片获取单元，用于获取原始作答内容图片；

可选地，所述朝向检测处理单元，包括：

图11为本申请实施例公开的一种作答内容识别系统的硬件结构框图，参照图11，作答内容识别系统的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取待识别的作答内容图片；

对所述作答内容图片进行识别，得到识别后的文本信息；

获取所述文本信息的语义特征；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

获取待识别的作答内容图片；

对所述作答内容图片进行识别，得到识别后的文本信息；

获取所述文本信息的语义特征；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种作答内容识别方法，其特征在于，包括：

获取待识别的作答内容图片；

对所述作答内容图片进行识别，得到识别后的文本信息；

获取所述文本信息的语义特征；

2.根据权利要求1所述的方法，其特征在于，所述对所述作答内容图片进行识别，得到识别后的文本信息，包括：

3.根据权利要求1所述的方法，其特征在于，基于所述语义特征对所述文本信息中文本单元的位置进行调整，调整后的文本信息作为最终识别结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述语义特征，确定所述文本信息中各文本单元的正确排序位置，包括：

获取所述文本信息的位置特征；

5.根据权利要求3所述的方法，其特征在于，所述按照确定的各文本单元的正确排序位置，对所述文本信息进行调整，包括：

6.根据权利要求1所述的方法，其特征在于，所述获取待识别的作答内容图片，包括：

获取原始作答内容图片；

7.根据权利要求6所述的方法，其特征在于，所述预处理包括二值化处理、直线滤除处理、倾斜校正处理、朝向检测处理、题干检测处理、滤红处理、字符规整处理、数据增强处理中的一种或多种。

8.根据权利要求7所述的方法，其特征在于，对作答内容图片进行朝向检测处理，包括：

9.一种作答内容识别装置，其特征在于，包括：

作答内容图片获取单元，用于获取待识别的作答内容图片；

语义特征获取单元，用于获取所述文本信息的语义特征；

10.一种作答内容识别系统，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1至8中任一项所述的作答内容识别方法的各个步骤。

11.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至8中任一项所述的作答内容识别方法的各个步骤。