CN113591845A

CN113591845A - 一种多题型识别方法、装置和计算机设备

Info

Publication number: CN113591845A
Application number: CN202110839266.5A
Authority: CN
Inventors: 袁景伟; 黄宇飞; 胡亚龙; 田宝亮; 吴哲楠; 李霄鹏; 杨森; 黄秋慧; 蔡红; 王岩; 郭彦宗; 安�晟
Original assignee: Zuoyebang Education Technology Beijing Co Ltd
Current assignee: Beijing Baige Feichi Technology Co ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-11-02

Abstract

本发明属于教育领域，提供一种多题型识别方法、装置和计算机设备，该方法包括：识别所述图像中的题目区域，使各题目区域包含一种题型的题目；对所述题目区域进行结构特征提取，得到题目类型特征；使用训练好的基于神经网络的识别模型，对所述各题目区域分别进行题目题型的识别，得到各题目区域的题型。本发明通过识别待处理图像中的题目区域，能够更精确地确定出待处理图像中的各题目区域；对各题目区域进行结构特征提取，能够精确得到各题型所对应的题目类型特征，以为如题型识别和题型分类等后续处理提供更精确的数据；能够更精确地确定与各题目区域的题型，能够提高题型识别的精确度，能够提高题型分类的准确度，能够整体优化题型识别方法。

Description

一种多题型识别方法、装置和计算机设备

技术领域

本发明属于计算机视觉相关技术领域，特别适用于教育领域，更具体地涉及一种多题型识别方法、装置和计算机设备。

背景技术

随着拍搜与批改技术的不断演进与发展，现有的策略与方法已经无法满足特殊题型的要求，需要针对不同题型进行定制化处理，这就需要对图像的题型分类提出更高的要求。

现在技术中，主流的方法是通过识别出图片中的文字，使用NLP(naturallanguage processing，即自然语言处理)技术，完成对不同题型的分类。该技术方法主要通过文本内容对题型进行识别与分类，该技术方法对文本内容识别的正确率依赖比较高，而且容易受到文字干扰，比如当文本中出现“选择”、“判断”对应的字符时，题型被误判为选择题、判断题的概率非常大；同时该技术只能进行单个题型分类，无法进行多题型同时分类，尤其是当用户上传的图片没有拍完整个题型时，或者重要信息被遮挡时，也存在较大程度的误判，由此导致题型识别准确率低以及题型分类的准确率低。

因此，有必要提供一种多题型识别方法，以解决上述问题。

发明内容

(一)要解决的技术问题

本发明旨在解决现有方法中因受文本内容识别影响造成的题型识别准确率低、无法精确识别图像中的题目区域并无法对该题目区域进行多题型识别，以及题型识别和分类的准确率低等的技术问题。

(二)技术方案

为解决上述技术问题，本发明的一方面提出一种多题型识别方法，所述方法包括如下步骤：识别所述图像中的题目区域，使各题目区域包含一种题型的题目；对所述题目区域进行结构特征提取，得到题目类型特征；使用训练好的基于神经网络的识别模型，对所述各题目区域分别进行题型的识别，得到各题目区域的题型，所述识别模型基于题目区域的深层结构特征进行题型识别，该深层结构特征对浅层结构特征图进行二次结构特征提取获得的。

根据本发明的优选实施方式，所述使用训练好的基于神经网络的识别模型，对所述各题目区域分别进行题型的识别包括：通过第一神经网络模型对所述各题目区域进行一次结构特征提取，得到第一特征图，该第一特征图包含各题目的浅层结构特征；通过第二神经网络模型对所述第一特征图进行二次结构特征提取，得到第二特征图，该第二特征图包含各题目的深层结构特征。

根据本发明的优选实施方式，所述深层结构特征包括以下的至少一种：文字与文字空位的空间结构分布信息、文字与图形的空间结构分布信息、不同行文字的关系、题目题干的位置信息和内容、以及文字之间的空位与文字的分布信息。

根据本发明的优选实施方式，所述文字与文字空位的空间结构分布信息包括以下的至少一种：文字空位与文字行或文字之间的上下或左右结构分布信息；文字空位夹设于两列文字行之间的夹设结构分布信息；多行文字行的同列分布信息；两列文字行之间间隔设置的结构分布信息；选项文字行与题干文字行的上下结构分布信息；选项文字行之间的左右结构分布信息和上下结构分布信息；文字空位成行或成列的分布信息；题干文字行之间的上下结构分布信息；文字段与题干文字行的上下结构分布信息；题干文字行与选项文字行的上下结构分布信息；文字段与选项文字行的上下结构分布信息；选项文字行之间的上下结构分布信息；和/或所述文字与图形的空间结构分布信息包括：文字行与图表之间的上下结构分布信息和左右结构分布信息。

根据本发明的优选实施方式，所述浅层结构特征包括边缘信息、纹理信息、图形结构信息、文字分布信息和颜色信息。

根据本发明的优选实施方式，所述题目题型识别模型是在所述第一神经网络模型和所述第二神经网络的基础上增加全连接层和题目类型分类器得到的。

根据本发明的优选实施方式，对所述各题目区域分别进行题目题型的识别，得到各题目区域的题型包括：输出各题目区域属于所有预定题型的置信度；根据所述置信度得到各题目区域的题型。

本发明的第二方面提供了一种多题型识别装置，用于对图像中包含的可能属于多种题型的题目进行识别，所述装置包括：题目识别模块，用于识别所述图像中的题目区域，使各题目区域包含一种题型的题目；特征提取模块，用于对所述题目区域进行结构特征提取，得到题目类型特征；题型识别模型，使用训练好的基于神经网络的识别模型，对所述各题目区域分别进行题目题型的识别，得到各题目区域的题型，所述识别模型基于题目区域的深层结构特征进行题型识别，该深层结构特征对浅层结构特征图进行二次结构特征提取获得的。

本发明的第三方面提供了一种计算机设备，包括处理器和存储器，所述存储器用于存储计算机可执行程序，当所述计算机程序被所述处理器执行时，所述处理器执行如本发明的第一方面所述的多题型识别方法。

本发明的第四方面提供了一种计算机程序产品，存储有计算机可执行程序，其特征在于，所述计算机可执行程序被执行时，实现如本发明的第一方面所述的多题型识别方法。

(三)有益效果

与现有技术相比，本发明通过识别待处理图像中的题目区域，使各题目区域包含一种题型的题目，能够更精确地确定出待处理图像中的各题目区域；对各题目区域进行结构特征提取，能够精确得到各题型所对应的题目类型特征，以为如题型识别和题型分类等后续处理提供更精确的数据；使用训练好的基于神经网络的识别模型，对所述各题目区域分别进行题型的识别，能够更精确地确定与各题目区域的题型，能够提高题型识别的精确度，能够提高题型分类的准确度，能够整体优化题型识别方法。

进一步地，通过上述深度网络模型对待处理题目图像进行监测，能够得到待处理图像中的题目区域，并能够使各题目区域包含一种题型的题目，由此能够精确地确定出待处理图像中的一个或多个题目区域，能够更有效地实现对图像拆分题目区域；通过对所述题目区域进行两次结构特征提取，能够精确得到各题型所对应的题目类型特征，以为如题型识别和题型分类等后续处理提供更精确的数据；通过使用识别模型对所述各题目区域分别进行题型识别，能够精确得到各题目区域所属的题型，能够进一步提高题型识别的精确度，能够进一步提高题型分类的准确度，能够进一步整体优化题型识别方法；通过对待处理图像进行预处理，能够为题型识别处理提供更清晰、更准确的图像，并去除了背景区域以及避免图像噪声的干扰。

附图说明

图1是本发明的实施例1的多题型识别方法的一示例的流程图；

图2是应用本发明的实施例1的多题型识别方法进行题目区域监测的一示例的示意图；

图3是应用本发明的实施例1的多题型识别方法进行结构特征提取的一示例的流程图；

图4是应用本发明的实施例1的多题型识别方法进行结构特征提取的另一示例的流程图；

图5是应用本发明的实施例1的多题型识别方法进行结构特征提取的又一示例的流程图；

图6是应用本发明的实施例1的多题型识别方法进行结构特征提取的又一示例的流程图；

图7是应用本发明的实施例1的多题型识别方法进行结构特征提取的又一示例的流程图；

图8是应用本发明的实施例1的多题型识别方法进行结构特征提取的又一示例的流程图；

图9是应用本发明的实施例1的多题型识别方法进行结构特征提取的又一示例的流程图；

图10是本发明的实施例1的多题型识别方法的另一示例的流程图；

图11是本发明的实施例1的多题型识别方法的又一示例的流程图

图12是本发明的实施例2的多题型识别装置的一示例的示意图；

图13是本发明的实施例2的多题型识别装置的另一示例的示意图；

图14是本发明的实施例2的多题型识别装置的又一示例的示意图；

图15是本发明的实施例2的多题型识别装置的又一示例的示意图；

图16是本发明的一个实施例的计算机设备的结构示意图；

图17是本发明的一个实施例的计算机程序产品的示意图。

具体实施方式

在对于具体实施例的介绍过程中，对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是，并不排除本领域技术人员可以在特定情况下，以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。

附图中的流程图仅是一种示例性的流程演示，不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤，也不代表必须按照图中所显示的的顺序执行。例如，流程图中有的操作/步骤可以分解，有的操作/步骤可以合并或部分合并，等等，在不脱离本发明的发明主旨的情况下，流程图中显示的执行顺序可以根据实际情况改变。

附图中的框图一般表示的是功能实体，并不一定必然与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。

各附图中相同的附图标记表示相同或类似的元件、组件或部分，因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解，虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分，但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说，这些定语仅是用来将一者与另一者区分。例如，第一器件亦可称为第二器件，但不偏离本发明实质的技术方案。此外，术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。

为了解决现有方法中因受文本内容识别影响造成的题型识别准确率低、无法精确识别图像中的题目区域并无法对该题目区域进行多题型识别，以及题型识别和分类的准确率低等的技术问题或至少部分解决上述问题，并进一步优化了题型识别方法。

本发明提供了一种多题型识别方法。该方法充分利用了图像中各题型相对应的空间结构分布信息(每个题型所对应的不同结构特征)，采用神经网络将所述结构特征进行提取，并根据所述结构特征进行题型分类，克服了对文字内容的依赖，能够提高题型识别的精确度，还能够提高题型分类的准确度。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

图1是本发明的实施例1的多题型识别方法的一示例的流程图。

如图1所示，本发明提供了一种多题型识别方法，所述多题型识别方法用于对图像中包含的可能属于多种题型的题目图像进行识别。所述方法包括：

步骤S101，识别所述图像中的题目区域，使各题目区域包含一种题型的题目。

步骤S102，对所述题目区域进行结构特征提取，得到题目类型特征。

步骤S103，使用训练好的基于神经网络的识别模型，对所述各题目区域分别进行题目题型的识别，得到各题目区域的题型，所述识别模型基于题目区域的深层结构特征进行题型识别，该深层结构特征对浅层结构特征图进行二次结构特征提取获得的。

需要说明的是，本文叙述中的“优选地”、“可选地”、“具体地”、“更具体地”、“进一步地”、“更进一步地”、“在一示例中”、“在另一示例中”、“根据本发明的优选实施方式”等语句所引出的描述内容仅作为可选或优选示例进行说明，仅是便于读者更好地理解本发明，并不旨在构成对本发明的限制。

首先，在步骤S101中，识别待处理图像中的题目区域，使各题目区域包含一种题型的题目。

下面，以本发明方法在教育服务产品中搜题应用场景为示例进行具体说明。其中，教育服务产品包含搜题功能，该搜题功能通过本发明的多题型识别方法来实现。

例如，在用户打开教育服务产品APP后，当打开拍搜功能进行搜题时，用户上传题目图像(即待处理图像)，该用户的用户终端通过APP接收到例如用户拍摄的题目图像等，其中，所述用户终端包括但不限于手机、IPAD、笔记本电脑、台式电脑等具有通信功能的终端。

具体地，识别待处理图像中的题目区域，使各题目区域包含一种题型的题目。

作为一具体实施方式，使用题目监测模型对待处理图像进行监测，并获取各题目的位置信息(例如表征各题目区域(即题目框选四边形)的坐标信息，如图2中的矩形ABCD，矩形EFGH，矩形JKLP等等)，该位置信息为多个题目区域(例如矩形ABCD，矩形EFGH，矩形JKLP等等)的坐标信息，该坐标信息为[[x₁,y₁,w₁,h₁,p₁]，[x₂,y₂,w₂,h₂,p₂]，[x₃,y₃,w₃,h₃,p₃]，…[x_n,y_n,w_n,h_n,p_n]]，其中，x_n，y_n表示与n相对应的各题目区域的位置坐标(例如左上角点B)，其中，n表示题目区域的编号或者题目区域的数量；w(即width)表示各题目区域的宽度；h(即height)表示各题目区域的高度；p(即prob)表示所述位置坐标的位置置信度。在图2所示的示例中，坐标信息为[[x₁,y₁,w₁,h₁,p₁]，[x₂,y₂,w₂,h₂,p₂]，[x₃,y₃,w₃,h₃,p₃]]，即获取到三个题目区域的坐标信息。

需要说明的是，在上述示例中，位置坐标中x，y表示各题目区域中左上角点B的位置坐标，但是不限于此，上述仅作为示例进行说明，不能理解成对本发明的限制，在其他示例中，还可以是右上角点、左下角点、右下角点、中心点等等的位置坐标。

对于题目监测模型，可以是一种基于残差网络(Residual Neural Network，ResNet)、卷积神经网络(Convolutional Neural Networks，CNN)、注意力机制(即Attention)、长短期记忆网络(Long Short-Term Memory，LSTM)等技术的深度网络模型，其中，输入特征为待处理图像，输出特征为待处理图像的题目框选四边形的位置坐标，例如该位置坐标为题目框选四边形的一个顶点的坐标、宽度和高度。具体地，训练数据集可以包括历史的包含各种题型的图片、试卷、图书文本以及已标注或用户确认的题目框选四边形的位置信息。需要说明的是，上述仅作为示例进行说明，不能理解成对本发明的限制，在其他实施方式中，输入特征为待处理图像，输出特征为待处理图像的题目框选四边形的位置坐标，例如该位置坐标为题目框选四边形的四个顶点的坐标，或者为四个顶点的坐标和位置置信度。

可选地，在题目监测过程中，还包括使用极大值抑制的方法筛选出位置置信度最高的题图图像，以用作训练数据。

需要说明的是，在题目监测过程中，监测到的题目区域还可以是一个平行四边形或其他四边形，上述仅作为示例进行说明，不应理解成对本发明的限制。

在一实施方式中，在待处理图像包含多个题目区域的情况下，将待处理图像拆分成多个题目区域，生成各题目区域的题目图片，并进一步对所述题目图片进行题型识别。

在另一实施方式中，在待处理图像包含一个题目区域的情况下，将所监测的题目区域生成题目图片，并进一步对所述题目图片进行题型识别。

因此，通过上述深度网络模型对待处理题目图像进行监测，能够得到待处理图像中的题目区域，并能够使各题目区域包含一种题型的题目，由此能够精确地确定出待处理图像中的一个或多个题目区域，能够更有效地实现对图像拆分题目区域。

为了解决因受文本内容识别影响造成的题型识别准确率低以及题型分类的准确率低等的技术问题，本方案利用了图像中与各题型相对应的空间结构分布信息，采用神经网络对包含空间结构分布信息的结构特征进行提取，根据所述结构特征进行题型分类和识别，克服了对文字内容识别的依赖，有效提高了图像中的题型识别的精确度以及题型分类的精确度。下面将具体说明结构特征提取的内容。

在步骤S102中，对所述题目区域进行结构特征提取，得到题目类型特征。

具体地，获取历史待处理图像，并使用步骤S101的方法对所述历史待处理图像进行监测，获取各题目区域的位置坐标，并根据各题目区域的位置坐标，例如通过从历史待处理图像拆分各题目区域或者截取各题目区域的方式，得到各题目区域。

具体地，建立识别模型，所述建立识别模型包括结构特征提取，所述结构特征提取包括一次结构特征提取和二次结构特征提取。通过两次结构特征提取，得到题目类型特征，该题目类型特征包括浅层结构特征和深层结构特征。

对于一次结构特征的提取，通过第一神经网络模型(即浅层神经网络模型)对所述各题目区域进行一次结构特征提取，得到第一特征图，该第一特征图包含各题目的浅层结构特征，所述浅层结构特征包括以下的至少一种：边缘信息、纹理信息、图形结构信息、文字分布信息和颜色信息。其中，输入特征为包含一种题型的题目图片，输出特征为该题目图片的第一特征图。使用标注有浅层结构特征(或者标注有第一特征图(该第一特征图包含浅层结构特征))的题目图片对第一神经网络模型进行训练，以得到训练好的第一神经网络模型，即与一次结构特征提取相对应的第一训练过程。由此，能够得到浅层结构特征，并完成了第一训练过程。

对于二次结构特征的提取，通过第二神经网络模型(即深层神经网络模型)对所述第一特征图进行二次结构特征提取，得到第二特征图，该第二特征图包含各题目的深层结构特征，所述深层结构特征包括以下的至少一种：文字与图形的空间结构分布信息、不同行文字的关系、题目题干的位置信息和内容、以及文字之间的文字空位与文字的分布信息。其中，输入特征为包含浅层特征的第一特征图(即第一神经网络模型的输出特征)，输出特征为第二特征图。使用标注有深层结构特征(或者标注有第二特征图(该第二特征图包含深层结构特征))的特征图对第二神经网络模型进行训练，以得到训练好的第二神经网络模型，即与二次结构特征提取相对应的第二训练过程。由此，能够得到深层结构特征，并完成了第二训练过程。

进一步地，第一神经网络模型的网络层数少于第二神经网络模型的网络层数。

具体地，所述文字与文字空位的空间结构分布信息包括以下的至少一种：文字空位与文字行或文字之间的上下或左右结构分布信息；文字空位夹设于两列文字行之间的夹设结构分布信息；多行文字行的同列分布信息；两列文字行之间间隔设置的结构分布信息；选项文字行与题干文字行的上下结构分布信息；选项文字行之间的左右结构分布信息和上下结构分布信息；文字空位成行或成列的分布信息；题干文字行之间的上下结构分布信息；文字段与题干文字行的上下结构分布信息；题干文字行与选项文字行的上下结构分布信息；文字段与选项文字行的上下结构分布信息；选项文字行之间的上下结构分布信息。

更具体地，所述文字与图形的空间结构分布信息包括：文字行与图表之间的上下结构分布信息和左右结构分布信息。

下面将结合具体实施方式说明对浅层结构特征和深层结构特征的结构特征提取过程。

在一实施方式中，使用例如18层神经网络的第一神经网络模型，对如图3中由四边形BCDE表示的题目区域BCDE进行第一次结构特征提取，即对包含填空题的题目区域BCDE进行第一次结构特征提取，提取该题目区域BCDE的浅层结构特征，得到第一特征图，第一特征图包含以下浅层结构特征：文字边缘信息、文字空位的边缘信息、文字纹理信息和文字空位纹理信息。例如，文字为汉字、二十六个英文字母、拼音字母或者数字以及其组合。进一步地，使用例如50层神经网络的第二神经网络模型对第一特征图进行二次结构特征提取，得到第二特征图，该第二特征图包含各题目的深层结构特征，该深层结构特征包括文字与文字空位之间的空间结构分布信息，文字之间的文字空位与文字的分布信息，以及文字空位为括号、横线或可填充文字的矩形框、圆形框。其中，所述文字与文字空位之间的空间结构分布信息例如为文字空位的位置是文字行的第一个文字或最后一个文字的分布信息，文字空位在文字行中文字之间的分布信息，等等。

在另一实施方式中，例如使用16层神经网络的第一神经网络模型，对如图4中由四边形CDEF表示的题目区域CDEF进行第一次结构特征提取，即对包含选择题的题目区域CDEF进行第一次结构特征提取，提取该题目区域CDEF的浅层结构特征，得到第一特征图，第一特征图包含以下浅层结构特征：选项文字边缘信息、文字空位的边缘信息、选项文字纹理信息、文字空位纹理信息以及题干信息。其中，题干信息包括文字空位和选项信息。进一步地，例如使用55层神经网络的第二神经网络模型对第一特征图进行二次结构特征提取，得到第二特征图，该第二特征图包含各题目的深层结构特征，该深层结构特征包括选项文字行与文字空位之间的空间结构分布信息，选项文字行之间的分布信息，选项文字行与文字空位之间的空间结构分布信息，以及文字空位为括号、横线或可填充文字的四边形框、圆形框。其中，文字行包括题目文字行(如图4中的“二、选择填空”)、题干文字行(如图4中由四边形框abcd表示的区域)以及选项文字行(如图4中由四边形框a1b1c1d1表示的区域)。例如，所述选项文字行与文字空位之间的空间结构分布信息为选项文字行与题干文字行的上下结构分布信息，选项文字行之间的左右结构分布信息和上下结构分布信息等等。

在又一实施方式中，例如对如图5中由四边形DEFG表示的题目区域DEFG，即对包含判断题DEFG的题目区域进行一次结构特征提取，得到包含以下浅层结构特征的第一特征图：文字边缘信息、文字空位的边缘信息、文字纹理信息、文字空位纹理信息以及题目信息，以及文字空位为括号或可填充文字的矩形框、圆形框。其中，题目信息包含文字空位信息、对号信息和/或错号信息。进一步对第一特征图进行特征提取得到第二特征图，该第二特征图包含如下深层结构特征：文字与文字空位之间的空间结构分布信息，文字空位之间的分布信息，以及文字空位为括号。例如，所述文字与文字空位之间的空间结构分布信息为文字空位与题干文字的上下结构分布信息，以及文字空位在题干文字的后面的前后分布信息。所述文字空位之间的分布信息为文字空位成行或成列的分布信息等等。

在又一实施方式中，例如对如图5中由四边形EFGH表示的题目区域EFGH，即对包含应用题的题目区域EFGH进行一次结构特征提取，得到包含以下浅层结构特征的第一特征图：文字边缘信息、图表边缘信息、文字纹理信息、以及图表纹理信息。进一步对第一特征图进行特征提取得到第二特征图，该第二特征图包含如下深层结构特征：文字行与图表之间的空间结构分布信息，以及文字行之间的分布信息。所述文字行(包括题干文字行、题目文字行)与图表之间的空间结构分布信息包括：题干文字行与图表之间的左右结构分布信息和上下结构分布信息，题干文字行之间的上下结构分布信息，以及相邻的题干行之间间隔一定距离的上下结构分布信息。

在又一实施方式中，例如对如图6中由四边形FGHI表示的题目区域FGHI，即对包含拼音题的题目区域FGHI进行第一次结构特征提取，得到包含以下浅层结构特征的第一特征图：文字边缘信息、文字空位边缘信息、文字纹理信息、以及文字空位纹理信息。其中，文字为拼音字母和汉字。进一步对第一特征图进行特征提取得到第二特征图，该第二特征图包含如下深层结构特征：文字与文字空位之间的空间结构分布信息，文字空位之间的分布信息，以及文字空位为横线、可填充文字的四边形框或田字形状的四边形。所述文字与文字空位之间的空间结构分布信息包括文字与文字空位的上下结构分布信息和左右结构分布信息。所述文字空位之间的分布信息为文字空位成行或成列的分布信息。

在又一实施方式中，例如对如图7中由四边形GHBA表示的题目区域GHBA，即对包含连线题的题目区域GHBA进行第一次结构特征提取，得到包含以下浅层结构特征的第一特征图：文字边缘信息、文字纹理信息、线条像素信息以及文字空位的位置信息。其中，文字为拼音字母、数字和汉字及其组合。进一步对第一特征图进行特征提取得到第二特征图，该第二特征图包含如下深层结构特征：文字行与文字空位之间的空间结构分布信息，以及文字行之间的分布信息。所述文字行与文字空位之间的空间结构分布信息包括文字空位夹设于两列文字行之间的夹设结构分布信息，多行文字行的同列分布信息，两列文字行之间间隔设置的结构分布信息，等等。

在又一实施方式中，例如对如图7中由四边形KLDC表示的题目区域KLDC，即对包含看图填空题的题目区域KLDC进行结构特征提取，该看图填空题型与图3中的填空题型的区别在于，浅层结构特征还包括图表边缘信息和图表纹理信息，深层结构特征还包括文字行与图表之间的结构分布信息，例如为文字行与图表之间的上下结构分布信息和左右结构分布信息。

在又一实施方式中，例如对如图8中由四边形ABLK表示的题目区域ABLK，即对包含阅读理解题的题目区域ABLK进行结构特征提取，该阅读理解题型与图4中的选择题型的区别在于，浅层结构特征还包括文字段边缘信息、选项文字行边缘信息，文字段包括多行文字行。深层结构特征还包括文字段与选项文字行之间的结构分布信息，例如为文字段与题干文字行的上下结构分布信息，题干文字行与选项文字行的上下结构分布信息，等等。

在又一实施方式中，例如对如图9中的完形填空题型进行结构特征提取，该完型填空题型与图3中的填空题型的区别在于，浅层结构特征还包括文字段边缘信息、选项文字行边缘信息，文字段包括多行文字行、文字之间包括文字空位。深层结构特征还包括文字段与选项文字行之间的结构分布信息，例如为文字段与选项文字行的上下结构分布信息，选项文字行之间的上下结构分布信息，等等。

需要说明的是，在上述示例中，以填空题、选择题、判断题、应用题、拼音题、连线题、看图填空题、阅读理解题和完形填空九种题型，对题目类型特征(包括浅层结构特征和深层结构特征)进行了具体说明，但是不限于此，上述仅作为示例进行说明，不能理解成对本发明的限制，在其他示例中，还包括计算题、作文题等等。

因此，通过对所述题目区域进行两次结构特征提取，能够精确得到各题型所对应的题目类型特征，以为如题型识别和题型分类等后续处理提供更精确的数据。

为了提高题型识别的精确度，并提高题型分类的准确度，本发明对识别模型进行了改进。下面将具体说明该部分。

在步骤S103中，使用训练好的基于神经网络的识别模型，对所述各题目区域分别进行题目题型的识别，得到各题目区域的题型。

具体地，识别模型基于题目区域的深层结构特征进行题型识别，该深层结构特征对浅层结构特征图(即第一特征图)进行二次结构特征提取获得的。

在一实施方式中，所述识别模型是在第一神经网络模型和第二神经网络的基础上增加全连接层和题目类型分类器得到的，其中，第一神经网络模型是经过第一训练过程得到的第一神经网络模型，第二神经网络模型是第一神经网络的基础上经过第二训练规程得到的第二神经网络模型，并在第二神经网络的基础上增加全连接层和题目类型分类器，即得到所述识别模型。

进一步地，使用训练数据集训练所述识别模型，所述训练数据集包括已标注有题型的题目图像、试卷图片和图书图片等，并且所述题型包括九种题型(即预设题型)，具体为填空题、选择题、判断题、应用题、拼音题、连线题、看图填空题、阅读理解题和完形填空。

例如，使用所述识别模型进行题型识别时，先获取待处理图像，该待处理图像为题目图像，识别待处理图像中的题目区域，将各题目区域生成题目图片1(对应图2中的题目区域ABCD)、题目图片2(对应图2中的题目区域EFGH)和题目图片3(对应图2中的题目区域JKLP)，并将题目图片1输入所述识别模型，输出与题目图片1(对应图2中的题目区域ABCD)相对应的题型评估值，该题型评估值为与预定题型(例如为九种预定题型)相对应的九维向量，例如为[0.9，0.1，0.2，0.1，0.1，0.3，0.1，0.1，0.1]，其中，各维度的数值分别表示属于某一种题型的置信度，在该示例中，例如0.9表示属于填空题的置信度，后面0.1，0.2，0.1，0.1，0.3，0.1，0.1，0.1分别表示属于选择题、判断题、应用题、拼音题、连线题、看图填空题、阅读理解题和完形填空的置信度。因此，在该示例中，题目图片1属于填空题型，输出题目图片1的题型评估值，但是不限于，在其他示例中，还可以输出填空题型。上述仅作为示例进行说明，不能理解成对本发明的限制。

由此，通过使用识别模型对所述各题目区域分别进行题型识别，能够精确得到各题目区域所属的题型，能够进一步提高题型识别的精确度，能够进一步提高题型分类的准确度，能够进一步整体优化题型识别方法。

需要说明的是，在上述示例中为九种题型，但是不限于此，上述仅作为示例进行说明，不能理解成对本发明的限制。在其他示例中，还可以是十种题型、十一种题型或者更多种题型，根据例如学科题目更新或其他搜索扩展业务的需求，进行适应性增加、减少或者更新。

图10是本发明的实施例1的多题型识别方法的另一示例的流程图。

在图10所示的示例中，与图1所示的示例的区别在于，在识别待处理图像中的题目区域之前，对待处理图像进行预处理的步骤S201。

需要说明的是，由于图10中步骤S202、步骤S203和步骤S204与图1中的步骤S101、步骤S102和步骤S103大致相同，因此，省略了对步骤S202、步骤S203和步骤S204的说明。

具体地，在步骤S201中，对待处理图像进行如下至少一种预处理：倾斜矫正、模糊判断、噪声去重和去除无关背景区域等预处理。

可选地，还包括将待处理图像的方向变换调整成符合阅读习惯的正向。

例如，在进行放射变换、方向校正，并配合图像中字体扭曲矫正和/或二值化处理，消除图像噪声的干扰，以得到预处理后地待处理图像。

具体地，所述二值化处理是使用自适应二值化算法对待校正的页面区域进行二值化。其中，自适应二值化算法包括大津二值化算法(OSTU二值化算法)、局部阈值算法(Niblack二值化算法)等。

由此，通过对待处理图像进行预处理，能够为题型识别处理提供更清晰、更准确的图像，并去除了背景区域以及避免图像噪声的干扰。

需要说明的是，上述仅作为示例进行说明，不能理解成对本发明的限制。

上述多题型识别方法的过程仅用于对本发明的说明，其中，步骤的顺序和数量没有特别的限制。此外，上述方法中的步骤还可以拆分成两个(例如将步骤S102成分成S102和S301，具体参见图11)、三个，或者有些步骤也可以合并成一个步骤，可以根据实际示例进行调整。

需要说明的是，上述仅作为优选示例进行说明，不能理解成对本发明的限制。

实施例2

下面描述本发明的装置实施例，该装置可以用于执行本发明的方法实施例。对于本发明装置实施例中描述的细节，应视为对于上述方法实施例的补充；对于在本发明装置实施例中未披露的细节，可以参照上述方法实施例来实现。

参照图12至图15，将说明本发明的实施例2的多题型识别装置400。

根据本发明的第二方面，本发明还提供了一种多题型识别装置400，所述多题型识别装置400包括：题目识别模块401，用于识别所述图像中的题目区域，使各题目区域包含一种题型的题目；特征提取模块402，用于对所述题目区域进行结构特征提取，得到题目类型特征；题型识别模型403，使用训练好的基于神经网络的识别模型，对所述各题目区域分别进行题目题型的识别，得到各题目区域的题型，所述识别模型基于题目区域的深层结构特征进行题型识别，该深层结构特征对浅层结构特征图进行二次结构特征提取获得的。

作为一具体实施方式，如图13所示，题目识别模块401还包括预处理模块501，即将题目识别模块401拆分成预处理模块501和题目识别模块401。

具体地，所述预处理模块501用于对待处理图像进行如下至少一种预处理：倾斜矫正、模糊判断、噪声去重和去除无关背景区域等预处理。

在另一实施方式中，如图14所示，所述题目识别模块401还包括监测模块601，即将题目识别模块401拆分成监测模块601和题目识别模块401。

具体地，所述监测模块601用于使用题目监测模型对待处理图像进行监测，并获取各题目的位置信息(例如表征各题目区域(即题目框选四边形)的坐标信息)，该位置信息为多个题目区域(例如图2中矩形ABCD，矩形EFGH，矩形JKLP等等)的坐标信息，该坐标信息为[[x₁,y₁,w₁,h₁,p₁]，[x₂,y₂,w₂,h₂,p₂]，[x₃,y₃,w₃,h₃,p₃]，…[x_n,y_n,w_n,h_n,p_n]]，其中，x_n，y_n表示与n相对应的各题目区域的位置坐标(例如左上角点B)，其中，n表示题目区域的编号或者题目区域的数量；w(即width)表示各题目区域的宽度；h(即height)表示各题目区域的高度；p(即prob)表示所述位置坐标的位置置信度。

进一步地，根据所获取的各题目的位置信息，将题目图像拆分成多个题目区域，并将各题目区域生成题目图片，其中，各题目区域均包含一种题型。

在图12所示的示例中，题型识别模型403还包括建立识别模型，所述建立识别模型包括结构特征提取，所述结构特征提取包括一次结构特征提取和二次结构特征提取。通过两次结构特征提取，得到题目类型特征，该题目类型特征包括浅层结构特征和深层结构特征。

对于二次结构特征的提取，通过第二神经网络模型(即深层神经网络模型)对所述第一特征图进行二次结构特征提取，得到第二特征图，该第二特征图包含各题目的深层结构特征，所述深层结构特征包括以下的至少一种：文字与图形的空间结构分布信息、不同行文字的关系、题目题干的位置信息和内容、以及文字之间的空位与文字的分布信息。其中，输入特征为包含浅层特征的第一特征图(即第一神经网络模型的输出特征)，输出特征为第二特征图。使用标注有深层结构特征(或者标注有第二特征图(该第二特征图包含深层结构特征))的特征图对第二神经网络模型进行训练，以得到训练好的第二神经网络模型，即与二次结构特征提取相对应的第二训练过程。由此，能够得到深层结构特征，并完成了第二训练过程。

作为一具体实施方式，所述识别模型是在第一神经网络模型和第二神经网络的基础上增加全连接层和题目类型分类器得到的，其中，第一神经网络模型是经过第一训练过程得到的第一神经网络模型，第二神经网络模型是第一神经网络的基础上经过第二训练规程得到的第二神经网络模型，并在第二神经网络的基础上增加全连接层和题目类型分类器，即得到所述识别模型。

具体地，使用训练数据集训练所述识别模型，所述训练数据集包括已标注有题型的题目图像、试卷图片和图书图片等，并且所述题型包括九种题型(即预设题型)，具体为填空题、选择题、判断题、应用题、拼音题、连线题、看图填空题、阅读理解题和完形填空。

例如，使用所述识别模型进行题型识别时，先获取待处理图像，该待处理图像为题目图像，识别待处理图像中的题目区域，将各题目区域生成题目图片1，并将该题目图片1输入所述识别模型，输出与题目图片1相对应的题型评估值，或者输出题型。

需要说明的是，在实施例2中，省略了与实施例1相同的部分的说明。

本领域技术人员可以理解，上述装置实施例中的各模块可以按照描述分布于装置中，也可以进行相应变化，分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块(例如将特征提取模块402拆分成第一特征提取模块701和第二特征提取模块702，具体参见图15)。

实施例3

下面描述本发明的计算机设备实施例，该计算机设备可以视为对于上述本发明的方法和装置实施例的具体实体实施方式。对于本发明计算机设备实施例中描述的细节，应视为对于上述方法或装置实施例的补充；对于在本发明计算机设备实施例中未披露的细节，可以参照上述方法或装置实施例来实现。

图16是本发明的一个实施例的计算机设备的结构示意图，该计算机设备包括处理器和存储器，所述存储器用于存储计算机可执行程序，当所述计算机程序被所述处理器执行时，所述处理器执行图1的方法。

如图16所示，计算机设备以通用计算设备的形式表现。其中处理器可以是一个，也可以是多个并且协同工作。本发明也不排除进行分布式处理，即处理器可以分散在不同的实体设备中。本发明的计算机设备并不限于单一实体，也可以是多个实体设备的总和。

所述存储器存储有计算机可执行程序，通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行，以使得计算机设备能够执行本发明的方法，或者方法中的至少部分步骤。

所述存储器包括易失性存储器，例如随机存取存储单元(RAM)和/或高速缓存存储单元，还可以是非易失性存储器，如只读存储单元(ROM)。

可选的，该实施例中，计算机设备还包括有I/O接口，其用于计算机设备与外部的设备进行数据交换。I/O接口可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

应当理解，图16显示的计算机设备仅仅是本发明的一个示例，本发明的计算机设备中还可以包括上述示例中未示出的元件或组件。例如，有些计算机设备中还包括有显示屏等显示单元，有些计算机设备还包括人机交互元件，例如按扭、键盘等。只要该计算机设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤，均可认为是本发明所涵盖的计算机设备。

图17是本发明的一个实施例的计算机程序产品的示意图。如图17所示，计算机程序产品中存储有计算机可执行程序，所述计算机可执行程序被执行时，实现本发明上述方法。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

通过以上对实施方式的描述，本领域的技术人员易于理解，本发明可以由能够执行特定计算机程序的硬件来实现，例如本发明的系统，以及系统中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等。本发明也可以由执行本发明的方法的计算机软件来实现，例如由微处理器、电子控制单元，客户端、服务器端等执行的控制软件来实现。但需要说明的是，执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行，其也可以是由不特定具体硬件的以分布式的方式来实现。对于计算机软件，软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM，U盘，移动硬盘等)中，也可以分布式存储于网络上，只要其能使得计算机设备执行根据本发明的方法。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，本发明不与任何特定计算机、虚拟装置或者计算机设备固有相关，各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多题型识别方法，用于对图像中包含的可能属于多种题型的题目进行识别，其特征在于，所述方法包括如下步骤：

识别所述图像中的题目区域，使各题目区域包含一种题型的题目；

对所述题目区域进行结构特征提取，得到题目类型特征；

使用训练好的基于神经网络的识别模型，对所述各题目区域分别进行题型的识别，得到各题目区域的题型，所述识别模型基于题目区域的深层结构特征进行题型识别，该深层结构特征对浅层结构特征图进行二次结构特征提取获得的。

2.根据权利要求1所述的多题型识别方法，其特征在于，所述使用训练好的基于神经网络的识别模型，对所述各题目区域分别进行题型的识别包括：

通过第一神经网络模型对所述各题目区域进行一次结构特征提取，得到第一特征图，该第一特征图包含各题目的浅层结构特征；

通过第二神经网络模型对所述第一特征图进行二次结构特征提取，得到第二特征图，该第二特征图包含各题目的深层结构特征。

3.根据权利要求2所述的多题型识别方法，其特征在于，

所述深层结构特征包括以下的至少一种：文字与文字空位的空间结构分布信息、文字与图形的空间结构分布信息、不同行文字的关系、题目题干的位置信息和内容、以及文字之间的空位与文字的分布信息。

4.根据权利要求3所述的多题型识别方法，其特征在于，

所述文字与文字空位的空间结构分布信息包括以下的至少一种：文字空位与文字行或文字之间的上下或左右结构分布信息；文字空位夹设于两列文字行之间的夹设结构分布信息；多行文字行的同列分布信息；两列文字行之间间隔设置的结构分布信息；选项文字行与题干文字行的上下结构分布信息；选项文字行之间的左右结构分布信息和上下结构分布信息；文字空位成行或成列的分布信息；题干文字行之间的上下结构分布信息；文字段与题干文字行的上下结构分布信息；题干文字行与选项文字行的上下结构分布信息；文字段与选项文字行的上下结构分布信息；选项文字行之间的上下结构分布信息；和/或

所述文字与图形的空间结构分布信息包括：文字行与图表之间的上下结构分布信息和左右结构分布信息。

5.根据权利要求2所述的多题型识别方法，其特征在于，

所述浅层结构特征包括边缘信息、纹理信息、图形结构信息、文字分布信息和颜色信息。

6.根据权利要求2所述的多题型识别方法，其特征在于，所述题目题型识别模型是在所述第一神经网络模型和所述第二神经网络的基础上增加全连接层和题目类型分类器得到的。

7.根据权利要求6所述的多题型识别方法，其特征在于，对所述各题目区域分别进行题目题型的识别，得到各题目区域的题型包括：

输出各题目区域属于所有预定题型的置信度；

根据所述置信度得到各题目区域的题型。

8.一种多题型识别装置，用于对图像中包含的可能属于多种题型的题目进行识别，其特征在于，所述装置包括：

题目识别模块，用于识别所述图像中的题目区域，使各题目区域包含一种题型的题目；

特征提取模块，用于对所述题目区域进行结构特征提取，得到题目类型特征；

题型识别模型，使用训练好的基于神经网络的识别模型，对所述各题目区域分别进行题目题型的识别，得到各题目区域的题型，所述识别模型基于题目区域的深层结构特征进行题型识别，该深层结构特征对浅层结构特征图进行二次结构特征提取获得的。

9.一种计算机设备，包括处理器和存储器，所述存储器用于存储计算机可执行程序，其特征在于：

当所述计算机程序被所述处理器执行时，所述处理器执行如权利要求1-7中任一项所述的多题型识别方法。

10.一种计算机程序产品，存储有计算机可执行程序，其特征在于，所述计算机可执行程序被执行时，实现如权利要求1-7中任一项所述的多题型识别方法。