CN112132143B

CN112132143B - 数据处理方法、电子设备及计算机可读介质

Info

Publication number: CN112132143B
Application number: CN202011317972.5A
Authority: CN
Inventors: 刘军; 秦勇
Original assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Current assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-02-23
Anticipated expiration: 2040-11-23
Also published as: CN112132143A

Abstract

本发明实施例公开了一种数据处理方法、电子设备及计算机可读介质，由于通过提取的多通道特征图，可以得到题干区域、答案区域以及两者的对应关系，因此可以根据两者的对应关系，更准确地确定与所述题干区域对应的答案区域，和/或确定与所述答案区域对应的题干区域，进而更准确得到题干以及其对应的答案的文本识别结果，从而使得后续的处理也更加准确，例如在根据文本识别结果进行判题时使得判题结果也更加准确。

Description

数据处理方法、电子设备及计算机可读介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种数据处理方法、电子设备及计算机可读介质。

背景技术

随着计算机和互联网技术的迅速发展，教学方式逐渐丰富，用户可以用手机或平板电脑等终端设备拍摄试卷或作业，将纸质版的试卷或作业转化为图像数据，然后上传至拍照判题的应用程序进行数据处理，得到每个题目以及答案的内容，然后根据题目以及答案内容进行判题，最后将判题结果进行输出，从而实现自动化阅卷或作业批改等。

相关技术中，拍照判题的应用程序在进行数据处理时，需要通过版面分析模型和文本行检测模型以及识别模型进行串行处理：首先获取文本区域坐标，其次获取横向文本行，然后根据获取结果对文本区域进行合并后输入识别模型得到文本识别结果，最后根据文本识别结果判题并输出判题结果。由于串行处理过程中每个环节的结果都会存在误差，导致误差累积更大，使得文本识别结果不够准确，进而使得拍照判题结果准确率较低，影响用户的使用体验。

发明内容

本发明提供了一种数据处理方案，以至少部分解决上述问题。

根据本发明实施例的第一方面，提供了一种数据处理方法，所述方法包括：对输入的待检测图像进行特征提取，得到多通道特征图；基于所述多通道特征图，确定所述待检测图像中的题干区域、答案区域以及所述题干区域与所述答案区域的对应关系；根据所述题干区域、所述答案区域以及所述对应关系，获取所述题干和所述答案的文本识别结果。

根据本发明实施例的第二方面，提供了一种电子设备，所述设备包括：一个或多个处理器；计算机可读介质，配置为存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的数据处理方法。

根据本发明实施例的第三方面，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的数据处理方法。

根据本发明实施例提供的方案：首先对输入的待检测图像进行特征提取，得到多通道特征图；其次基于所述多通道特征图，确定所述待检测图像中的题干区域、答案区域以及所述题干区域与所述答案区域的对应关系；然后根据所述题干区域、所述答案区域以及所述对应关系，获取所述题干和所述答案的文本识别结果。由于通过提取的多通道特征图，可以得到题干区域、答案区域以及两者的对应关系，因此可以根据两者的对应关系，更准确地确定与所述题干区域对应的答案区域，和/或确定与所述答案区域对应的题干区域，进而更准确得到题干以及其对应的答案的文本识别结果，从而使得后续的处理也更加准确，例如在根据文本识别结果进行判题时使得判题结果也更加准确。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为根据本发明实施例提供的一种数据处理方法的步骤流程图；

图2为根据本发明实施例提供的神经网络模型检测图像示意图；

图3为根据本发明实施例提供的数据处理方法的另一流程图；

图4为根据本发明实施例提供的数据处理方法的再一流程图；

图5为根据本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅配置为解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

实施例一

参照图1，示出了根据本发明实施例一的一种数据处理方法的步骤流程图。

本实施例的数据处理方法包括以下步骤：

步骤101、对输入的待检测图像进行特征提取，得到多通道特征图。

在本实施例中，待检测图像可以是用户拍摄的包含文本，例如试题或者作业的图像，文本可以是中文、英文、或者韩文等各个国家的语言的文本，文本中的字体可以是打印体、手写体等字体，本实施例不做限制。

具体地，可以通过用于检测题干以及答案的神经网络模型，对输入的待检测图像进行特征提取，得到多通道特征图，其中，所述神经网络模型为基于可微分二值化DB网络结构的神经网络模型。本发明实施例对原DB网络结构进行了改进，但为了便于说明，下文中仍以DB神经网络模型指代说明。

在本实施例中，以DB神经网络模型（Real-time Scene Text Detection withDifferentiable Binarization，可微分二值化神经网络模型）作为用于检测题干以及答案的神经网络模型为例，当然也可以使用EAST（Efficient and Accuracy Scene Text，场景文本检测）或者PAN（Pixel Aggregation Network，像素聚合网络）等文本检测模型作为用于检测题干以及答案的神经网络模型，本实施例不做限制。本实施例中，可以以Resnet18为基础网络架构，预先搭建一个DB神经网络模型，然后对搭建的DB神经网络模型的输出通道进行改进，DB神经网络模型原来为2通道输出，改进后使得DB神经网络模型的输出为8通道输出。

通过上述DB神经网络模型提取待检测图像的特征，由于在DB神经网络模型的训练阶段，对训练数据样本进行了答案、题干、以及答案与题干的对应关系的标注，因此通过训练后的DB神经网络模型，即可检测题干和答案以及每个题干和其答案之间的对应关系，DB神经网络模型对图像的检测效果如图2所示，其中浅色框表示题干框，深色框表示答案框，每个题干与其对应的答案之间的对应关系可以用向量表示（图中没有体现）。例如，图中“11+12>22+33”中，“>”为用户填写的答案，其所在区域即为答案区域，而其它部分则为题干区域。通过DB神经网络模型“11+12 22+33”将被检测为题干，而“>”将被检测为答案。相比于相关技术中首先获取文本区域坐标其次获取横向文本行，本方案只需要检测一次文本即可，克服了在文本检测过程中的误差累积问题。

在本实施例中，DB可以是以Resnet18为基础网络架构，对输入的待检测图像进行特征提取，然后可以将提取到的特征图全部上采样到原始图像的四分之一大小并串联起来，然后经过一次卷积操作，输出多通道特征图。

可选地，所述多通道特征图为所述DB神经网络模型输出的，可以是8通道特征图，包括：题干区域概率图、题干区域阈值图、答案区域概率图、答案区域阈值图、第一横向偏移特征图、第一纵向偏移特征图、第二横向偏移特征图以及第二纵向偏移特征图。

其中，所述第一横向偏移特征图，可以表示题干区域指向其对应答案区域中心的水平偏移量；所述第一纵向偏移特征图，可以表示题干区域指向其对应答案区域中心的垂直偏移量；所述第二横向偏移特征图，可以表示答案区域指向其对应题干区域中心的水平偏移量；所述第二纵向偏移特征图，表示答案区域指向其对应题干区域中心的垂直偏移量。所述题干区域概率图，可以表示题干区域内每个像素点属于题干区域的概率；所述题干区域阈值图，可以表示题干区域每个像素点与题干框的距离，可以对该距离进行了归一化操作，使得距离是0到1之间的数；类似的，所述答案区域概率图，可以表示答案区域内每个像素点属于答案区域的概率；所述答案区域阈值图可以表示答案区域每个像素点与答案框的距离。

可以理解，输出的多通道特征图的通道数可以通过修改DB的输出通道实现，上述8通道特征图中，可以设置第1通道输出题干区域概率图，第2通道输出题干区域阈值图，第3通道输出答案区域概率图，第4通道输出答案区域阈值图，第5通道输出第一横向偏移特征图，第6通道输出第一纵向偏移特征图，第7通道输出第二横向偏移特征图，第8通道输出第二纵向偏移特征图。

可选地，也可以通过修改所述DB神经网络模型的输出通道，使其输出6通道特征图，例如：输出题干区域概率图、题干区域阈值图、答案区域概率图、答案区域阈值图、第一横向偏移特征图、第一纵向偏移特征图。或者，输出题干区域概率图、题干区域阈值图、答案区域概率图、答案区域阈值图、第二横向偏移特征图以及第二纵向偏移特征图。6通道特征图同样可实现本发明实施例的方案。

但本实施例通过DB神经网络模型输出8通道特征图，可以利用第5、6通道特征图与第7、8通道的特征图相互矫正，保证了题干区域和答案区域之间的匹配准确率，进而使得到的文本识别结果更加准确。

步骤102、基于所述多通道特征图，确定所述待检测图像中的题干区域、答案区域以及所述题干区域与所述答案区域的对应关系。

其中，所述题干区域可以认为是如图2所示的题干框的坐标，同样答案区域可以认为是如图2所示的答案框的坐标，所述对应关系可以用于表示某个题干区域和某个答案区域是对应一组。在本实施例中，以8通道特征图为例，可以基于8通道特征图，分别计算所述待检测图像中的题干区域、答案区域以及两者的对应关系。

具体地，如图3所示，可以通过以下步骤进行计算：

步骤1021、根据题干区域概率图和题干区域阈值图，计算得到题干区域。

在本实施例中，题干区域概率图可以表示题干区域内每个像素点属于题干区域的概率；题干区域阈值图，可以表示题干区域每个像素点与题干框的距离。

具体地，可以根据题干区域概率图和题干区域阈值图，计算获得题干区域二值图；然后计算所述题干区域二值图上的连通域，得到题干区域。

在本实施例中，题干区域概率图实际上可以是内缩题干区域概率图，为了解决文本粘连问题，可以将题干框设置为比正常题干框比例偏小的题干框。可以基于现有的可微分的二值化函数，将内缩题干区域概率图转换为二值化的概率图，然后根据该二值化的概率图和题干区域阈值图计算出内缩题干区域二值图，该内缩题干区域二值图中的像素值为0和1。接着可以计算内缩题干区域二值图上的连通域，从而可以得到像素值为1的像素点的坐标，即可以得到内缩题干区域，根据得到的像素值为1的像素点的坐标，按照一定的规则和比例将内缩题干区域进行外扩，由此得到题干区域。需要说明的是，上述规则和比例可以根据人工经验进行设置，本实施例不做具体限定，上述二值化函数的参数是可以跟随网络进行学习的。

上述通过题干区域概率图和题干区域阈值图，计算获得题干区域二值图，然后通过计算题干区域二值图上的连通域，得到题干区域，使得得到的题干区域更加准确。

步骤1022、根据答案区域概率图和答案区域阈值图，计算得到答案区域。

与得到题干区域的方法类似，可以根据答案区域概率图和答案区域阈值图，计算获得答案区域二值图；然后计算所述答案区域二值图上的连通域，得到答案区域。

在本实施例中，答案区域概率图也可以是内缩答案区域概率图，可以通过现有的可微分的二值化函数，将内缩答案区域概率图转换为二值化的概率图，然后根据该二值化的概率图和答案区域阈值图计算出内缩答案区域二值图，该内缩答案区域二值图中的像素值为0和1。接着可以计算内缩答案区域二值图上的连通域，从而可以得到像素值为1的像素点的坐标，即可以得到内缩答案区域，根据得到的像素值为1的像素点的坐标，按照一定的规则和比例将内缩答案区域进行外扩，由此得到答案区域。该规则和比例也可以根据人工经验进行设置，本实施例不做具体限定。

步骤1023、根据第一横向偏移特征图以及第一纵向偏移特征图，和/或，第二横向偏移特征图以及第二纵向偏移特征图，计算得到所述题干区域与所述答案区域的对应关系。

本步骤中，可以根据第一横向偏移特征图以及第一纵向偏移特征图，计算得到所述题干区域与所述答案区域的对应关系；也可以根据第二横向偏移特征图以及第二纵向偏移特征图，计算得到所述题干区域与所述答案区域的对应关系，或者通过两者结合得到所述题干区域与所述答案区域的对应关系，本实施例不做限制。

在一可选的实施方式中，可以根据第一横向偏移特征图以及第一纵向偏移特征图，计算得到所述题干区域对应的答案区域。

由于所述第一横向偏移特征图，可以表示题干区域指向其对应答案区域中心的水平偏移量，所述第一纵向偏移特征图，可以表示题干区域指向其对应答案区域中心的垂直偏移量；因此，可以根据第5以及第6通道的该坐标偏移量，准确地计算得到每个题干框对应的答案框，即得到所述题干区域对应的答案区域。

在另一可选的实施方式中，可以根据第二横向偏移特征图以及第二纵向偏移特征图，计算得到所述答案区域对应的题干区域。

所述第二横向偏移特征图，可以表示答案区域指向其对应题干区域中心的水平偏移量；所述第二纵向偏移特征图，表示答案区域指向其对应题干区域中心的垂直偏移量；因此，可以根据第7以及第8通道的该坐标偏移量，准确地计算得到每个答案框对应的题干框，即得到所述答案区域对应的题干区域。

上述实施例中，可以利用得到的所述题干区域对应的答案区域以及所述答案区域对应的题干区域，两者进行相互矫正，从而得到更加准确的所述题干区域与所述答案区域的对应关系。

需要说明的是，在实际应用中，上述步骤1021-1023的执行可以不分先后顺序，也可以并行执行。

步骤103、根据所述题干区域、所述答案区域以及所述对应关系，获取所述题干和所述答案的文本识别结果。

在本实施例中，可以将得到的题干区域和答案区域，以及所述对应关系输入文本识别模型，从而得到待检测文本中题干和答案的文本识别结果。所述文本识别模型可以是任意适当的可进行文本识别的模型，本实施例不做具体限定。

在得到待检测文本中题干和答案的文本识别结果后，可以根据所述文本识别结果进行判题并输出判题结果。

在本实施例中，已知题目以及题目对应的答案，因此可以判断该题目对应的答案是否正确，如果正确，则输出的判题结果为正确，如果错误，则输出的判题结果为错误。由于基于准确的文本识别结果进行的判题，因此可以得到准确的判题结果。例如，前述“11+12>22+33”经过识别和判题，可以确定答案错误。

本发明实施例提供的数据处理方法，首先对输入的待检测图像进行特征提取，得到多通道特征图；其次基于所述多通道特征图，确定所述待检测图像中的题干区域、答案区域以及所述题干区域与所述答案区域的对应关系；然后根据所述题干区域、所述答案区域以及所述对应关系，获取所述题干和所述答案的文本识别结果。由于通过提取的多通道特征图，可以得到题干区域、答案区域以及两者的对应关系，因此可以根据两者的对应关系，更准确地确定与所述题干区域对应的答案区域，和/或确定与所述答案区域对应的题干区域，进而更准确得到题干以及其对应的答案的文本识别结果，从而使得后续的处理也更加准确，例如在根据文本识别结果进行判题时使得判题结果也更加准确。

本实施例的数据处理方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、移动终端（如手机、PAD等）和PC机等。

实施例二

在步骤101之前，可以预先对用于检测题干以及答案的神经网络模型进行训练，使得该模型输出如实施例一中的8通道特征图。如图4所示，训练过程包括如下步骤：

步骤201、获取训练图像样本，所述训练图像样本包括：包含题干和答案的文本图像，及，所述题干的标注信息、所述答案的标注信息、和所述题干和答案的对应关系的标注信息。

在本实施例中，仍然以用于检测题干以及答案的神经网络模型为DB神经网络模型为例，可以预先搭建一个DB神经网络模型，然后对搭建的DB神经网络模型的输出通道进行修改，DB神经网络模型原来为2通道输出，其分别表示内缩文本区域概率图和文本区域阈值图，修改DB神经网络模型的输出通道后，使其变为6通道或8通道输出。本实施例中仍以8通道为例。

可选地，可以设置DB神经网络模型输出通道，使其第1通道输出题干区域概率图，第2通道输出题干区域阈值图，第3通道输出答案区域概率图，第4通道输出答案区域阈值图，第5通道输出第一横向偏移特征图，第6通道输出第一纵向偏移特征图，第7通道输出第二横向偏移特征图，第8通道输出第二纵向偏移特征图。

所述训练图像样本可以是人工标注的，对于每张训练图像样本，都标注每道题的题干和每道题的答案，同时标注题干和答案之间的对应关系，即说明哪个题干框和答案框是对应的一组。

步骤202、使用所述训练图像样本对所述DB神经网络模型进行训练。

具体地，可以对所述训练图像样本进行特征提取，将特征提取获得的特征图上采样至所述训练图像样本的四分之一大小并进行串联；然后对串联后的特征图进行卷积操作，得到多通道特征图如前述8通道的特征图；接着使用平滑L1损失函数，对第一横向偏移特征图、第一纵向偏移特征图、第二横向偏移特征图以及第二纵向偏移特征图对应的通道输出进行损失计算，得到第一损失值，如计算第5、6、7、8通道特征图损失值，得到第一损失值，仍然使用DB神经网络的原有损失函数计算其他通道的损失值，得到第二损失值，如使用交叉熵损失函数和距离损失函数对其他通道输出进行损失计算，得到第二损失值；最后根据所述第一损失值和所述第二损失值对所述DB网络模型进行训练。

在本实施例中，在对DB神经网络模型进行训练时，因为是有监督训练，通过所述题干的标注信息如题干框、所述答案的标注信息如答案框、以及题干和答案的对应关系如划分为一组，此外，还可以求得题干框和答案框的中心点坐标，以及在框内的所有像素点坐标；然后计算出题干框内所有像素点到答案框中心点的坐标偏移，同理，也能计算出答案框内所有像素点到题干框中心点的坐标偏移。基于此，训练第5第6和第7第8通道的输出，对于这四个通道的输出，使用平滑L1损失函数计算损失值，第1第2和第3第4通道的输出可以使用DB的原有损失函数计算损失值，通过得到的损失值对DB网络模型进行训练。

例如，上述平滑L1损失函数表达式可以为：

其中，a为当前通道的水平偏移量或者垂直偏移量，例如，若训练的是第5通道，则为题干区域指向其对应答案区域中心的水平偏移量，若训练的是第6通道，则为题干区域指向其对应答案区域中心的垂直偏移量。若训练的是第7通道，则为答案区域指向其对应题干区域中心的水平偏移量；若训练的是第8通道，则为答案区域指向其对应题干区域中心的垂直偏移量。

示例性地，DB的原有损失函数的表达式可以为：

；

其中，α和β可以设定为1.0 、10。Ls表示题干区域概率图以及答案区域概率图的损失值、Lt表示题干区域阈值图以及答案区域阈值图的损失值，Lb表示题干区域二值图以及答案区域二值图的损失。

其中，Ls和Lb采用相同的损失函数：如二进制交叉熵损失函数，如下：

其中，Si表示一个采样的集合。xi和yi分别表示题干区域概率图或答案区域概率图的预测值和标签值。

而Lt采用距离损失函数：

其中，Rd表示题干区域阈值图或答案区域阈值图中文本框内的像素的序号。

和

分别表示题干区域阈值图或答案区域阈值图的预测值和标签值。

基于上述损失函数和获得的损失值对DB神经网络模型进行训练，直至达到训练终止条件，如，训练次数满足预设次数，或者，损失值满足预设阈值等。训练完成的DB神经网络模型即可对包含试题或作业题的文本图像进行题干以及答案检测。

上述通过搭建的用于检测题干以及答案的神经网络模型，使得该模型只需要检测一次题干、答案以及两者的对应关系，相比于相关技术中检测两次文本，误差得到的一定程度的减少，使得文本识别结果更加准确。

实施例三

图5为本发明实施例三中电子设备的硬件结构；如图5所示，该电子设备可以包括：处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303、以及通信总线304。

其中：

处理器301、通信接口302、以及存储器303通过通信总线304完成相互间的通信。

通信接口302，用于与其它电子设备或服务器进行通信。

处理器301，用于执行程序305，具体可以执行上述数据处理方法实施例中的相关步骤。

具体地，程序305可以包括程序代码，该程序代码包括计算机操作指令。

处理器301可能是中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器303，用于存放程序305。存储器303可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序305具体可以用于使得处理器301执行以下操作：对输入的待检测图像进行特征提取，得到多通道特征图；基于所述多通道特征图，确定所述待检测图像中的题干区域、答案区域以及所述题干区域与所述答案区域的对应关系；根据所述题干区域、所述答案区域以及所述对应关系，获取所述题干和所述答案的文本识别结果。

在一种可选的实施方式中，程序305还用于使得处理器301在对输入的待检测图像进行特征提取，得到多通道特征图时：通过用于检测题干以及答案的神经网络模型，对输入的待检测图像进行特征提取，得到多通道特征图，其中，所述神经网络模型为基于可微分二值化DB网络结构的神经网络模型。

在一种可选的实施方式中，所述多通道特征图为所述神经网络模型输出的特征图；所述特征图包括：包括：题干区域概率图、题干区域阈值图、答案区域概率图、答案区域阈值图、第一横向偏移特征图、第一纵向偏移特征图、第二横向偏移特征图以及第二纵向偏移特征图；或者，所述特征图包括：题干区域概率图、题干区域阈值图、答案区域概率图、答案区域阈值图、第一横向偏移特征图和第一纵向偏移特征图；或者，所述特征图包括：题干区域概率图、题干区域阈值图、答案区域概率图、答案区域阈值图、第二横向偏移特征图以及第二纵向偏移特征图；其中，所述第一横向偏移特征图用于表示题干区域指向其对应答案区域中心的水平偏移量；所述第一纵向偏移特征图用于表示题干区域指向其对应答案区域中心的垂直偏移量；所述第二横向偏移特征图用于表示答案区域指向其对应题干区域中心的水平偏移量；所述第二纵向偏移特征图用于表示答案区域指向其对应题干区域中心的垂直偏移量。

在一种可选的实施方式中，程序305还用于使得处理器301在基于所述多通道特征图，确定所述待检测图像中的题干区域、答案区域以及所述题干区域与所述答案区域的对应关系时：根据题干区域概率图和题干区域阈值图，计算得到题干区域；根据答案区域概率图和答案区域阈值图，计算得到答案区域；根据第一横向偏移特征图以及第一纵向偏移特征图，和/或，第二横向偏移特征图以及第二纵向偏移特征图，计算得到所述题干区域与所述答案区域的对应关系。

在一种可选的实施方式中，程序305还用于使得处理器301在所述根据题干区域概率图和题干区域阈值图，计算得到题干区域时：根据题干区域概率图和题干区域阈值图，计算获得题干区域二值图；计算所述题干区域二值图上的连通域，得到题干区域。

在一种可选的实施方式中，程序305还可以用于使得处理器301执行以下操作：获取训练图像样本，所述训练图像样本包括：包含题干和答案的文本图像，及，所述题干的标注信息、所述答案的标注信息、和所述题干和答案的对应关系的标注信息；使用所述训练图像样本对所述DB神经网络模型进行训练。

在一种可选的实施方式中，程序305还用于使得处理器301在所述使用所述训练图像样本对所述神经网络模型进行训练时：对所述训练图像样本进行特征提取，将特征提取获得的特征图上采样至所述训练图像样本的四分之一大小并进行串联；对串联后的特征图进行卷积操作，得到多通道特征图；使用平滑L1损失函数，对第一横向偏移特征图、第一纵向偏移特征图、第二横向偏移特征图以及第二纵向偏移特征图对应的通道输出进行损失计算，得到第一损失值，使用交叉熵损失函数和距离损失函数对其他通道输出进行损失计算，得到第二损失值；根据所述第一损失值和所述第二损失值对所述神经网络模型进行训练。

在一种可选的实施方式中，程序305还用于使得处理器301执行以下操作：根据所述文本识别结果进行判题并输出判题结果。

程序305中各步骤的具体实现可以参见上述数据处理方法实施例中的相应步骤中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本实施例的电子设备，对输入的待检测图像进行特征提取，得到多通道特征图；其次基于所述多通道特征图，确定所述待检测图像中的题干区域、答案区域以及所述题干区域与所述答案区域的对应关系；然后根据所述题干区域、所述答案区域以及所述对应关系，获取所述题干和所述答案的文本识别结果。由于通过提取的多通道特征图，可以得到题干区域、答案区域以及两者的对应关系，因此可以根据两者的对应关系，更准确地确定与所述题干区域对应的答案区域，和/或确定与所述答案区域对应的题干区域，进而更准确得到题干以及其对应的答案的文本识别结果，从而使得后续的处理也更加准确，例如在根据文本识别结果进行判题时使得判题结果也更加准确。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元（CPU）执行时，执行本发明实施例中的方法中限定的上述功能。需要说明的是，本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质（RAM）、只读存储介质（ROM）、可擦式可编程只读存储介质（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储介质（CD-ROM）、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本发明实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明实施例中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写配置为执行本发明实施例的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络：包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系，但这些先后关系只是示例性的，在具体实现的时候，这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。

作为另一方面，本发明实施例还提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例中所描述的数据处理方法。

作为另一方面，本发明实施例还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：对输入的待检测图像进行特征提取，得到多通道特征图；基于所述多通道特征图，确定所述待检测图像中的题干区域、答案区域以及所述题干区域与所述答案区域的对应关系；根据所述题干区域、所述答案区域以及所述对应关系，获取所述题干和所述答案的文本识别结果。

在本发明的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关，但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明实施例中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

对输入的待检测图像进行特征提取，得到多通道特征图；

基于所述多通道特征图，确定所述待检测图像中的题干区域、答案区域以及所述题干区域与所述答案区域的对应关系；包括：根据题干区域概率图和题干区域阈值图，计算得到所述题干区域；根据答案区域概率图和答案区域阈值图，计算得到所述答案区域；根据第一横向偏移特征图以及第一纵向偏移特征图，和/或，第二横向偏移特征图以及第二纵向偏移特征图，计算得到所述对应关系；其中，所述题干区域概率图用于表示题干区域内每个像素点属于题干区域的概率；所述题干区域阈值图用于表示题干区域每个像素点与题干框的距离；所述答案区域概率图用于表示答案区域内每个像素点属于答案区域的概率；所述答案区域阈值图用于表示答案区域每个像素点与答案框的距离；所述第一横向偏移特征图用于表示题干区域指向其对应答案区域中心的水平偏移量；所述第一纵向偏移特征图用于表示题干区域指向其对应答案区域中心的垂直偏移量；所述第二横向偏移特征图用于表示答案区域指向其对应题干区域中心的水平偏移量；所述第二纵向偏移特征图用于表示答案区域指向其对应题干区域中心的垂直偏移量；

根据所述题干区域、所述答案区域以及所述对应关系，获取所述题干和所述答案的文本识别结果。

2.根据权利要求1所述的方法，其特征在于，所述对输入的待检测图像进行特征提取，得到多通道特征图，包括：

通过用于检测题干以及答案的神经网络模型，对输入的待检测图像进行特征提取，得到多通道特征图，其中，所述神经网络模型为基于可微分二值化DB网络结构的神经网络模型。

3.根据权利要求2所述的方法，其特征在于，所述多通道特征图为所述神经网络模型输出的特征图；

所述特征图包括：所述题干区域概率图、所述题干区域阈值图、所述答案区域概率图、所述答案区域阈值图、所述第一横向偏移特征图、所述第一纵向偏移特征图、所述第二横向偏移特征图以及所述第二纵向偏移特征图；

或者，所述特征图包括：所述题干区域概率图、所述题干区域阈值图、所述答案区域概率图、所述答案区域阈值图、所述第一横向偏移特征图和所述第一纵向偏移特征图；

或者，所述特征图包括：所述题干区域概率图、所述题干区域阈值图、所述答案区域概率图、所述答案区域阈值图、所述第二横向偏移特征图以及所述第二纵向偏移特征图。

4.根据权利要求1所述的方法，其特征在于，所述根据题干区域概率图和题干区域阈值图，计算得到题干区域，包括：

根据题干区域概率图和题干区域阈值图，计算获得题干区域二值图；

计算所述题干区域二值图上的连通域，得到题干区域。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

获取训练图像样本，所述训练图像样本包括：包含题干和答案的文本图像，及，所述题干的标注信息、所述答案的标注信息、和所述题干和答案的对应关系的标注信息；

使用所述训练图像样本对所述神经网络模型进行训练。

6.根据权利要求5所述的方法，其特征在于，所述使用所述训练图像样本对所述神经网络模型进行训练，包括：

对所述训练图像样本进行特征提取，将特征提取获得的特征图上采样至所述训练图像样本的四分之一大小并进行串联；

对串联后的特征图进行卷积操作，得到多通道特征图；

使用平滑L1损失函数，对第一横向偏移特征图、第一纵向偏移特征图、第二横向偏移特征图以及第二纵向偏移特征图对应的通道输出进行损失计算，得到第一损失值，使用交叉熵损失函数和距离损失函数对其他通道输出进行损失计算，得到第二损失值；

根据所述第一损失值和所述第二损失值对所述神经网络模型进行训练。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述文本识别结果进行判题并输出判题结果。

8.一种电子设备，其特征在于，所述设备包括：

一个或多个处理器；

计算机可读介质，配置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的数据处理方法。

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的数据处理方法。