CN113837157B

CN113837157B - 题目类型识别方法、系统和存储介质

Info

Publication number: CN113837157B
Application number: CN202111416552.7A
Authority: CN
Inventors: 刘军; 秦勇
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-02-15
Anticipated expiration: 2041-11-26
Also published as: CN113837157A

Abstract

本公开提供一种题目类型识别方法、系统和存储介质，题目类型识别方法包括：使用第一分类卷积神经网络处理题目图像，以提取题目图像的第一中间特征映射和生成第一分类输出，其中，第一分类输出定义题目所属大类的预测；使用文本识别神经网络的卷积神经网络处理上述题目图像，以提取题目图像的第二中间特征映射；将第二中间特征映射与第一分类输出进行特征融合，以生成第一输出特征映射；将第一中间特征映射与第一输出特征映射进行特征融合，以生成融合特征映射；使用第二分类卷积神经网络处理上述融合特征映射，以生成上述题目图像的第二分类输出，其中，第二分类输出定义题目所属小类的预测。本公开可以较为准确地识别出题目类型。

Description

题目类型识别方法、系统和存储介质

技术领域

本公开涉及图像处理领域，尤其涉及一种题目类型识别方法、系统和存储介质。

背景技术

神经网络是机器学习模型。一些神经网络能够进行自然场景图像分类，在自然场景图像分类上取得良好效果。一些神经网络能够进行文本识别，识别图像上的文本（例如数字、字母及汉字等）。

发明内容

为了解决现有技术的问题，本公开实施例提供了一种题目类型识别方法、系统和存储介质。

根据本公开的一方面，提供了一种题目类型识别方法，包括：使用第一分类卷积神经网络处理题目图像，以提取题目图像的第一中间特征映射和生成第一分类输出，其中，第一分类输出定义题目所属大类的预测，题目属于至少两个大类中的一个大类，至少两个大类中的每个大类包括一个或多个小类；使用文本识别神经网络的卷积神经网络处理上述题目图像，以提取题目图像的第二中间特征映射；将第二中间特征映射与第一分类输出进行特征融合，以生成第一输出特征映射；将第一中间特征映射与第一输出特征映射进行特征融合，以生成融合特征映射；使用第二分类卷积神经网络处理上述融合特征映射，以生成上述题目图像的第二分类输出，其中，第二分类输出定义题目所属小类的预测。

根据本公开的另一方面，提供了一种题目类型识别神经网络的训练方法，题目类型识别神经网络包括：第一分类卷积神经网络、文本识别神经网络的卷积神经网络，以及第二分类卷积神经网络，该训练方法包括：使用第一数据集合训练第一分类卷积神经网络，以生成第一分类卷积神经网络的参数，其中，第一数据集合中各个数据包括第一样本题目图像，第一样本题目图像标注有相应题目的大类，其中，题目被分为至少两个大类，至少两个大类中的每个大类包括一个或多个小类；使用第二数据集合训练文本识别神经网络，以生成文本识别神经网络的卷积神经网络的参数，其中，第二数据集合中各个数据包括第二样本题目图像，第二样本题目图像标注有相应题目的文本；使用第三数据集合训练上述神经网络，以生成第二分类卷积神经网络的参数，第三数据集合中各个数据包括第三样本题目图像，第三样本题目图像标注有相应题目的小类。

其中，在训练上述题目类型识别神经网络时，使用训练得到的第一分类卷积神经网络处理相应的第三样本题目图像，以提取第三样本题目图像的生成第一中间特征映射和生成第一分类输出，其中，第一分类输出定义题目所属大类的预测；使用训练得到的文本识别神经网络的卷积神经网络处理第三样本题目图像，以提取第三样本题目图像的第二中间特征映射；将第二中间特征映射与第一分类输出进行特征融合，以生成第一输出特征映射；将第一中间特征映射与第一输出特征映射进行特征融合，以生成融合特征映射；将融合特征映射作为第二分类卷积神经网络的输入，以由第二分类卷积神经网络生成第三样本题目图像的第二分类输出，其中，第二分类输出定义题目所属小类的预测。

根据本公开的又一方面，提供了一种计算系统，包括：数据处理装置；以及存储程序的存储器，其中，程序包括指令，指令在由数据处理装置执行时使数据处理装置执行本公开提供的题目类型识别方法或题目类型识别神经网络的训练方法。

根据本公开的再一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的题目类型识别方法或题目类型识别神经网络的训练方法。

本公开实施例中，对题目图像进行大类识别相应的特征提取和确定大类的预测，并对题目图像进行文本识别相关的特征提取，将文本识别相应的特征映射与大类的预测进行特征融合，融合后的特征再与大类识别相应的特征进行融合，基于融合后的特征进行小类分类，可以较为准确地识别出题目类型。

附图说明

在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：

图1示出了根据本公开示例性实施例的题目类型识别系统的示意性框图；

图2示出了根据本公开示例性实施例的第一分类卷积神经网络103的示意性框图；

图3示出了根据本公开示例性实施例的文本识别神经网络104的示意性框图；

图4示出了根据本公开示例性实施例的融合模块105的示意性框图；

图5示出了根据本公开示例性实施例的融合模块105的另一示意性框图；

图6示出了根据本公开示例性实施例的第二分类卷积神经网络106的示意性框图；

图7示出了根据本公开示例性实施例的神经网络的训练方法的流程图；

图8示出了根据本公开示例性实施例的题目类型识别方法的流程图；

图9示出了根据本公开示例性实施例的题目类型识别方法的另一流程图；

图10示出了根据本公开示例性实施例的实施环境的示意性框图；

图11示出了根据本公开示例性实施例的题目答案搜索方法的一流程图；

图12示出了根据本公开示例性实施例的题目答案搜索方法的另一流程图；

图13示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

针对题目自动化处理，相关技术只能处理一些常规计算题型，如横式、竖式和脱式，无法处理常见的带有语义信息的题型，比如选择题、填空题、判断题、应用题等题目，而这些题型非常常见，对这些题目的处理能拓展题目自动化处理的应用范围。识别题目类型至少有助于题目自动化处理，包括但不限于题目批改、题目答案搜索等。

本公开实施例描述了一种题目类型识别系统，该系统处理题目图像，以生成题目图像相应题目所属类型的预测。该系统使用第一分类卷积神经网络处理题目图像，以提取题目图像的第一中间特征映射和定义了题目所属大类的预测的第一分类输出，第一中间特征映射与题目类型相关。使用文本识别神经网络的卷积神经网络处理该题目图像，以提取第二中间特征映射，第二中间特征映射与相应题目的文本信息相关。将第一分类输出与第二中间特征映射进行特征融合，以生成第一输出特征映射。将第一输出特征映射与第一中间特征映射进行特征融合，以生成融合特征映射。将融合特征映射作为第二分类卷积神经网络的输入，第二分类卷积神经网络处理该融合特征映射，以生成定义了题目所属小类的预测的输出。

图1示出了根据本公开示例性实施例的题目类型识别系统的示意性框图。题目类型识别系统100是被实现为一个或多个位置中一个或多个计算机上的计算机程序的系统的示例。

题目类型识别系统100被配置为处理题目图像101。题目图像101可来自于照片、屏幕截图、扫描文件等，例如，对试卷、书籍等拍摄得到的照片，对电子化的试卷、书籍等的屏幕截图。通常，照片或屏幕截图包括一个或多个题目，在照片或屏幕截图中包括多个题目的情况下，可定位照片或屏幕截图中包括的各个题目，可通过剪裁等方式从照片或屏幕截图中获得各个题目相应的题目图像101。照片或屏幕截图可包括题目和与题目无关的部分，可定位照片或屏幕截图包括的题目，可通过剪裁等方式从照片或屏幕截图中获得题目相应的题目图像101。在一些示例中，题目图像101包括题目，例如，选择题包括题干部分和多个候选项部分。在一些示例中，题目图像101包括题目和题目的解答，例如，选择题包括题干部分、多个候选项和答案部分。通常，题目为打印体，题目的解答为手写符号或字体，例如，连线题包括题干部分，题干部分通常为两列，其中一列的元素与另一列的元素具有特定关联关系，题目解答部分可包括两个元素之间的连接线。题目图像101可包括字符（例如汉字、单词、字母、标点符号等），还可包括图形符号（例如，三角形等几何图形，表示动物、植物、生活用品等的图形（例如简笔画））。

题目类型识别系统100处理题目图像101，以生成定义了题目图像101的题目所属类型的预测（例如概率）的第二分类输出1022。试卷或书籍包括多个类型（这里称为“小类”）的题目，示例性的，题目的类型可包括：计算题（可细分为横式、竖式和脱式等）、选择题、填空题、判断题、应用题、画图题、连线题等。在本公开实施例中，为了有效识别题目类型，可将前述题目类型划分为至少两个大类，至少两个大类中的每个大类包括一个或多个小类，小类的数量大于大类的数量。示例性的，前述示例性小类可被分为第一大类（可包括计算题、选择题、填空题、判断题、应用题）和第二大类（可包括画图题、连线题）。在本公开实施例中，可根据题目特征对题目进行大类的划分。题目特征可包括是否包含图形信息、图形信息的数量，以及题目结构信息等。

题目类型识别系统100可包括第一分类卷积神经网络103、文本识别神经网络104的卷积神经网络1041、特征融合模块105和第二分类卷积神经网络106。特征融合模块105被配置为将第一分类卷积神经网络103提取的特征映射和分类输出与文本识别神经网络104的卷积神经网络1041提取的特征映射进行特征融合，以生成融合特征映射，该融合特征映射基于大类识别与文本识别的融合。第二分类卷积神经网络106被配置为以该融合特征映射为输入，基于该融合特征映射生成第二分类输出1022，得到题目所属小类的预测（例如，概率）。

第一分类卷积神经网络103被配置为处理题目图像101，以生成题目图像101的第一分类输出1021，第一分类输出1021定义了题目所属大类的预测（例如概率），题目属于至少两个大类中的一个大类。第一分类卷积神经网络103可采用各种类型的卷积神经网络，这些卷积神经网络被配置为以图像为输入，处理该图像以生成定义了图像所属类别（至少两个类别）的预测的输出。通常，卷积神经网络通过串联的多个卷积层处理图像，串联的多个卷积层中每个卷积层的输出包括与其通道数量相应的特征映射，例如，128个32*32的特征映射，其中，128为通道数，32*32为各个特征映射的尺度，特征映射可被表示为三维矩阵，三维矩阵的一个维度与通道数对应，另外两个维度与特征映射的尺度对应。示例性的，卷积神经网络通过一个或串联的多个全连接层处理串联的多个卷积层中末端的卷积层的输出，可将串联的多个全连接层中末端的全连接层的输出作为分类输出。

由于第一分类卷积神经网络103被配置为处理题目图像101，以生成定义了题目所属大类的预测的第一分类输出1021，因此第一分类卷积神经网络103在生成第一分类输出1021中提取的特征映射与大类分类相关，可将第一分类卷积神经网络103提取的特征映射作为融合模块105的输入，即第一中间特征映射1071。融合模块105被配置为对第一中间特征映射1071进行特征融合。

图2示出了根据本公开示例性实施例的第一分类卷积神经网络103的示意性框图。参考图2所示，第一分类卷积神经网络103包括：至少一个残差块，图2示出了残差块1031a和1031b；至少一个卷积层，图2示出了卷积层1032a和1032b；多个全连接层，图2示出了全连接层1034a和1034b。残差块为Resnet中的结构，残差块的主要特点是跨层跳跃连接，一个残差块包括多个卷积层，其输入经过残差块之后的输出与输入进行一次逐通道逐点相加操作，相当于输入有两个分支，一个经过残差块，一个直接绕过残差块，最后两个分支合并，可避免当网络层数加深以后出现性能退化的问题，从而使得网络可以增加层数进行更加复杂的特征模式提取。示例性的，第一分类卷积神经网络103的至少一个残差块、至少一个卷积层中每个部分可输出特征映射，该特征映射是在大类识别中提取的，因此该特征映射与大类识别相关，可将残差块1031a、1031b和卷积层1032a、1032b中一个输出作为第一中间特征映射1071。

文本识别神经网络104被配置为处理题目图像101，以生成定义了题目文本的预测的输出。在题目类型识别系统100中，文本识别神经网络104的卷积神经网络1041被配置为提取题目图像的特征映射。由于文本识别神经网络104被配置为题目图像101以生成前述题目文本的输出，因此其卷积神经网络1041提取的特征映射与文本识别相关，可使用卷积神经网络1041提取的特征映射作为融合模块105的输入，即第二中间特征映射1072。卷积神经网络1041被配置为输出包括多个通道的特征映射，例如，128个32*32的特征映射，其中，128为通道数，32*32为各个特征映射的尺度，特征映射可被表示为三维矩阵，三维矩阵的一个维度与通道数对应，另外两个维度与特征映射的尺度对应。

在题目类型识别系统100中，训练文本识别神经网络104时，以文本识别神经网络104的整体结构进行训练，以生成文本识别神经网络104的卷积神经网络1041的参数。在处理题目图像101以生成前述第二分类输出1022时，可使用文本识别神经网络104的卷积神经网络1041提取第二中间特征映射1072。通常，文本识别神经网络104可采用处理图像以识别图像中文本的各种神经网络，例如卷积循环神经网络（Convolutional Recurrent NeuralNetwork，CRNN），CRNN包括卷积神经网络、循环神经网络和翻译层，卷积神经网络被配置为从带文字的图片中提取特征，循环神经网络被配置为用卷积神经网络提取的特征进行序列预测，翻译层被配置为将循环神经网络得到的序列翻译为文本序列。CRNN尽管包含不同类型的网络结构，但是仍然能够被端到端的训练，目前在各种数据集上，CRNN性能优越。示例性的，CRNN的目标函数可选择联结时序分类（Connectionist Temporal Classification，CTC）损失函数，循环神经网络可采用双层双向长短期记忆（Long short-term memory，LSTM）网络。

图3示出了根据本公开示例性实施例的文本识别神经网络104的示意性框图。参考图3所示，文本识别神经网络104包括：卷积神经网络1041、两层双向LSTM网络1042和翻译层1043。卷积神经网络1041被配置为以题目图像101为输入，处理题目图像101以提取前述第二中间特征映射1072（参考图2所示），例如，128个32*32的特征映射。两层双向LSTM网络1042被配置为以卷积神经网络1041的输出为输入，其中，该输入被表示为与两层双向LSTM网络1042的时间步相应的特征向量，例如，时间步可设置为8，128个32*32的特征映射被表示为16个特征向量。两层双向LSTM网络1042处理该输入进行序列预测。翻译层1043被配置为将两层双向LSTM网络1042得到的序列翻译为文本序列。

卷积神经网络1041可采用与第一分类卷积神经网络103类似的结构，参考图3所示，包括：至少一个残差块，图3示出了残差块10411a和10411b；至少一个卷积层，图3示出了卷积层10412a和10412b。可将卷积神经网络1041的卷积层10412b的输出作为融合模块105的输入，即前述的第二中间特征映射1072。示例性的，第二中间特征映射1072与第一中间特征映射1071的个数和尺度可相同，例如，两者各自包括128个32*32的特征映射，但不限于此，例如，两者可为不同尺度，可将两者缩放为相同尺度，然后进行特征融合。

融合模块105被配置为对第一分类卷积神经网络103提取的第一中间特征映射1071、第一分类输出1021以及文本识别神经网络104的卷积神经网络1041提取的第二中间特征映射1072进行特征融合，以生成融合特征映射108。

在一些示例中，参考图4所示，融合模块105被配置为将第二中间特征映射1072与第一分类输出1021进行特征融合，以生成第一输出特征映射1081；将第一中间特征映射1071与第一输出特征映射1081进行特征融合，以生成融合特征108。由于第二中间特征映射1072与文本识别相关，第一分类输出1021定义了题目所属大类的预测，两者融合得到的第一输出特征映射1081综合了大类分类的预测和文本识别相关的信息。由于第一中间特征映射1071与大类分类相关，第一输出特征映射1081与第一中间特征映射1071融合得到的融合特征映射108综合了大类分类的信息、大类分类的预测及文本识别相关的信息。

在一些示例中，参考图5所示，融合模块105被配置为将第二中间特征映射1072与第一分类输出1021进行特征融合，以生成第一输出特征映射1081；将第一中间特征映射1071与第一分类卷积神经网络103中第一分类输出1021之前的全连接层的全连接层输出1073（例如，如图2所示的全连接层1034a的输出）进行特征融合，以生成第二输出特征映射1082；将第一输出特征映射1081与第二输出特征映射1082进行特征融合，以生成融合特征108。由于第一分类卷积神经网络103中第一分类输出1021之前的全连接层的全连接层输出1073，综合了题目图像101的全局信息，因此将其与第一中间特征映射1071进行特征融合，得到的第二输出特征映射1082综合了题目图像101的全局信息，有助于提高识别精度。

融合模块105被配置为处理第一分类输出1021、第一分类卷积神经网络103中第一分类输出1021之前的全连接层的全连接层输出1073，以生成与第一中间特征映射1071、第二中间特征映射1072相同大小的二维向量，以进行相应的特征融合。例如，第一中间特征映射1071的每个特征映射为32*32，前述全连接层输出1073为32个元素的一维向量，可将全连接层的全连接层输出1073处理成32*32的二维向量；第二中间特征映射1072的每个特征映射为32*32，前述第一分类输出1021为2个元素的一维向量（例如，两个大类各自的概率），可将第一分类输出1021处理为32*32的二维向量。融合模块105可被配置为根据张量的广播机制进行前述处理，但不限于此。

在一些示例中，融合模块105被配置为将第一分类输出1021相应的二维向量与第二中间特征映射1072相乘，以得到第一输出特征映射1081。可选地，进行逐点逐通道相乘，逐通道为，将该二维向量与每个特征映射（即每个通道的二维向量）相乘，逐点为两二维向量对应位置的元素之间相乘。但本公开实施例并不限于此，例如在特征融合中引入随机性等也是可行的。

在一些示例中，融合模块105被配置为将前述全连接成层输出1073相应的二维向量与第一中间特征映射1071相乘，以得到第二输出特征映射1082。可选地，进行逐点逐通道相乘，逐通道为，将该二维向量与每个特征映射（即每个通道的二维向量）相乘，逐点为两二维向量对应位置的元素之间相乘。但本公开实施例并不限于此，例如在特征融合中引入随机性等也是可行的。

在一些示例中，融合模块105被配置为将第一输出特征映射1081与第二输出特征映射1082与进行特征融合，以生成融合特征映射108。可选地，将第一输出特征映射1081与第二输出特征映射1082串联或相加，得到融合特征映射108。其中，相加不改变特征映射的通道数（个数），串联改变特征映射的通道数（个数）。

第二分类卷积神经网络106被配置为以融合特征映射108为输入，处理融合特征映射108以生成第二分类输出1022，得到题目所属小类的预测（例如概率）。第二分类卷积神经网络106的第二分类输出1022可包括与小类的数量相应的元素，例如，小类的数量为10，第二分类输出1022的元素数量为10，可分别对应于相应小类的概率，但不限于此。第二分类卷积神经网络106可采用各种类型的神经网络，例如CNN、RNN等。

在一些示例中，参考图6所示，第二分类卷积神经网络106可包括：序列到序列神经网络1061和时序分类神经网络1062。其中，序列到序列神经网络1061被配置为处理融合特征映射108，以生成时序分类神经网络输入，其中，时序分类神经网络输入包括与时序分类神经网络1062的时间步对应数量的特征向量。时序分类神经网络1062被配置为处理时序分类神经网络输入，以生成题目图像101的第二分类输出1022。

在一些示例中，参考图6所示，序列到序列神经网络1061可包括：基于注意力的编码器网络10611、一个或多个全连接层（图6中示出为全连接层10612）和基于注意力的解码器网络10613。时序分类神经网络1062包括LSTM网络。其中，编码器网络10611被配置为处理融合特征映射108，以生成编码器网络输出，编码器网络10611的结构可参见Transformer神经网络。全连接层10612被配置为处理编码器网络输出，以生成编码器网络输入。解码器网络10613被配置为处理编码器网络输入，以生成LSTM网络输入，解码器网络10613的结构可参见Transformer神经网络。其中，LSTM网络输入为与LSTM网络的时间步对应数量的特征向量。LSTM网络被配置为处理LSTM网络输入，以生成题目图像101的第二分类输出1022。

编码器网络10611和解码器网络10613上是相互堆叠在一起的多个相同的编码器和解码器。编码器网络10611和解码器网络10613具有相同数量的单元。编码器和解码器的数量是一个超参数。在本文中，可使用6个编码器和6个解码器，但不限于此。在本文中，解码器网络10613的解码器中多头自注意力层可不添加mask掩膜。

示例性的，编码器网络10611处理题目图像101对应的融合特征映射108，以生成编码器网络输出。全连接层10612处理编码器网络输出，得到特征向量。解码器网络10613处理全连接层10612输出的特征向量，得到与LSTM网络的时间步对应数量的特征向量，例如，LSTM网络的时间步为20，解码器网络10613的输出可为20*100的矩阵。时序分类神经网络1062（LSTM网络）可为单向LSTM网络，其输入包括可20个时间步，每一次输入为一个100维的向量，输出为第二分类输出1022。

在一些示例中，训练得到第一分类卷积神经网络103和文本识别神经网络104，得到其参数。以第一分类卷积神经网络103和文本识别神经网络104的卷积神经网络1041、特征融合模块105和第二分类卷积神经网络106为整体，基于训练得到的第一分类卷积神经网络103和文本识别神经网络104训练第二分类卷积神经网络106，得到第二分类卷积神经网络106的参数。在一些示例中，特征融合模块105为非神经网络，在另一些示例中，特征融合模块105可为神经网络。

图7示出了根据本公开示例性实施例的神经网络的训练方法的流程图。参考图7所示，该训练方法包括步骤S701至步骤S703。为了便于描述，将第一分类卷积神经网络、文本识别神经网络的卷积神经网络以及第二分类卷积神经网络作为整体称为题目类型识别神经网络。

在步骤S701中，使用第一数据集合训练第一分类卷积神经网络，以生成第一分类卷积神经网络的参数。

其中，第一数据集合中各个数据包括第一样本题目图像，第一样本题目图像标注有相应题目的大类，其中，题目被分为至少两个大类，至少两个大类中的每个大类包括一个或多个小类，小类的数量大于大类的数量。

在步骤S702中，使用第二数据集合训练文本识别神经网络，以生成文本识别神经网络的卷积神经网络的参数。

其中，第二数据集合中各个数据包括第二样本题目图像，第二样本题目图像标注有相应题目的文本。

在步骤S703中，使用第三数据集合训练题目类型识别神经网络，以生成第二分类卷积神经网络的参数。

其中，第三数据集合中各个数据包括第三样本题目图像，第三样本题目图像标注有相应题目的小类。

应当理解，本公开示例性实施例并不限定步骤S701与步骤S702的顺序。在一些可能的实施方式中，步骤S702可在步骤S701之前执行。在一些可能的实施方式中，步骤S702与步骤S701可同步执行。

在步骤S703中，使用训练得到的第一分类卷积神经网络处理相应的第三样本题目图像，以提取第三样本题目图像的生成第一中间特征映射和生成第一分类输出，其中，第一分类输出定义题目所属大类的预测。使用训练得到的文本识别神经网络的卷积神经网络处理第三样本题目图像，以提取第三样本题目图像的第二中间特征映射。

进一步的，在步骤S703中，将第二中间特征映射与第一分类输出进行特征融合，以生成第一输出特征映射；将第一中间特征映射与第一输出特征映射进行特征融合，以生成融合特征映射。将融合特征映射作为第二分类卷积神经网络的输入，以由第二分类卷积神经网络生成第三样本题目图像的第二分类输出，其中，第二分类输出定义题目所属小类的预测。

在一些示例中，在步骤S703中，将第一中间特征映射与第一输出特征映射进行特征融合，以生成融合特征映射，包括：将第一中间特征映射与第一分类输出之前的全连接层输出进行特征融合，以生成第二输出特征映射；将第二输出特征映射与第一输出特征映射进行特征融合，以生成融合特征映射。

在一些示例中，将第二中间特征映射与第一分类输出进行特征融合，以生成第一输出特征映射，包括：根据张量的广播机制，将第一分类输出与第二中间特征映射相乘，得到第一输出特征映射。

在一些示例中，将第一中间特征映射与第一分类输出之前的全连接层输出进行特征融合，以生成第二输出特征映射，包括：根据张量的广播机制，将第一分类输出之前的全连接层输出与第一中间特征映射相乘，得到第二输出特征映射。

在一些示例中，将第一中间特征映射与第一输出特征映射进行特征融合，以生成融合特征映射，包括：将第一中间特征映射与第一输出特征映射串联或相加，得到融合特征映射。在一些示例中，将第一输出特征映射与第二输出特征映射进行特征融合，以生成融合特征映射，包括：将第一输出特征映射与第二输出特征映射串联或相加，得到融合特征映射。

示例性的，收集大量的题目类型的图像，同时使样本数量尽可能均衡，主要包括算数题、填空题、应用题、连线题、选择题、判断题以及作图题，接着对每一个题目图像进行人工标注，按照指定方式标注其类别，得到步骤S703中的第三数据集合。将第三数据集合中的选择题、判断题、填空题和应用题等具有较多文字（打印体文字）信息的题目图像中的文字信息转录（转写）成字符串，得到步骤S702中的第二数据集合。根据第三数据集合，将含有较多图形信息和结构特殊的题型，如连线题和作图题（即，题目分类两个大类，为连线题或作图题，不是连线题和作图题）复制一份，得到步骤S701中的第一数据集合。

本公开实施例还提供了一种题目类型识别方法，下面在本文前述题目类型识别系统100的基础上，对本公开实施例示例性的题目图像识别方法进行描述。

图8示出了根据本公开示例性实施例的题目类型识别方法的流程图，参考图8所示，题目类型识别方法包括步骤S801至步骤S805。

在步骤S801中，使用第一分类卷积神经网络处理题目图像，以提取题目图像的第一中间特征映射和生成第一分类输出。

其中，第一分类输出定义题目所属大类的预测（例如，概率），题目属于至少两个大类中的一个大类，至少两个大类中的每个大类包括一个或多个小类，小类的数量大于大类的数量。

在步骤S802中，使用文本识别神经网络的卷积神经网络处理题目图像，以提取题目图像的第二中间特征映射。

在步骤S803中，将第二中间特征映射与第一分类输出进行特征融合，以生成第一输出特征映射。

在步骤S804中，将第一中间特征映射与第一输出特征映射进行特征融合，以生成融合特征映射。

在步骤S805中，使用第二分类卷积神经网络处理融合特征映射，以生成题目图像的第二分类输出。

其中，第二分类输出定义题目所属小类的预测（例如，概率）。

图9示出了根据本公开示例性实施例的题目类型识别方法的另一流程图，参考图9所示，题目类型识别方法包括步骤S901至步骤S906。

在步骤S901中，使用第一分类卷积神经网络处理题目图像，以提取题目图像的第一中间特征映射和生成第一分类输出。

其中，第一分类输出定义题目所属大类的预测，题目属于两个大类中的一个大类，两个大类中的每个大类包括一个或多个小类。

在步骤S902中，使用文本识别神经网络的卷积神经网络处理题目图像，以提取题目图像的第二中间特征映射。

在步骤S903中，将第二中间特征映射与第一分类输出进行特征融合，以生成第一输出特征映射；

在步骤S904中，将第一中间特征映射与第一分类输出之前的全连接层输出进行特征融合，以生成第二输出特征映射。

第一中间特征映射为题目图像的局部特征映射，全连接层的输出为全局信息，步骤S904中将第一中间特征映射与第一分类输出之前的全连接层输出进行特征融合，对应的第二输出特征映射更为丰富，有助于提高预测精度。

在步骤S905中，将第二输出特征映射与第一输出特征映射进行特征融合，以生成融合特征映射。

在步骤S906中，使用第二分类卷积神经网络处理融合特征映射，以生成题目图像的第二分类输出。

在一些示例中，结合图2所示，第一分类卷积神经网络包括至少一个残差块、至少一个卷积层和多个全连接层。通过第一分类卷积神经网络的至少一个残差块、至少一个卷积层中每个部分可输出特征映射，该特征映射是在大类识别中提取的，因此该特征映射与大类识别相关，可将残差块或卷积层中一个输出作为步骤S801和步骤S901中的第一中间特征映射。例如，参考图2所示，第一个残差块的特征映射大小为题目图像的1/4，第二残差块的特征映射为题目图像的1/8，第一个卷积块的特征映射为题目图像的1/16，第二个卷积块的特征映射为题目图像的1/32。示例性的，残差块和卷积层的通道数可为128，在题目图像为256*256的情况下，步骤S801或步骤S901中以第二个卷积层的输出作为第一中间特征映射，第一中间特征映射可为128*16*16，也就是128个16*16的特征映射。步骤S801或步骤S901中，如果以第一个卷积层的输出作为第一中间特征映射，第一中间特征映射可为128*32*32，也就是128个32*32的特征映射。

在一些示例中，结合图3所示，文本识别神经网络可包括卷积神经网络、循环神经网络和翻译层。训练文本识别神经网络时，以文本识别神经网络的整体结构进行训练，以生成文本识别神经网络的卷积神经网络的参数。在处理题目图像以生成第二分类输出时，步骤S802或步骤S902中，可使用文本识别神经网络的卷积神经网络提取第二中间特征映射。在一些示例中，文本识别神经网络的卷积神经网络可包括至少一个残差块和至少一个卷积层，可选地，与第一分类卷积神经网络的特征提取部分结构相同。相应的，在步骤S802或步骤S902中，将文本识别神经网络的卷积神经网络中第二个卷积层的输出作为第二中间特征映射，示例性的，第二中间特征映射可为128*16*16，也就是128个16*16的特征映射。

在一些示例中，在步骤S903或者步骤S803中，将第二中间特征映射与第一分类输出进行特征融合，以生成第一输出特征映射，可包括：根据张量的广播机制，将第一分类输出与第二中间特征映射相乘，得到第一输出特征映射。可选地，进行逐点逐通道相乘。

在一些示例中，在步骤S804中，将第一中间特征映射与第一输出特征映射进行特征融合，以生成融合特征映射，可包括：将第一中间特征映射与第一输出特征映射串联或相加，得到融合特征映射。可选地，在步骤S804中，可以逐点逐通道方式将第一中间特征映射与第一输出特征映射相加，得到融合特征映射。

在一些示例中，在步骤S904中，将第一中间特征映射与第一分类输出之前的全连接层输出进行特征融合，以生成第二输出特征映射，可包括：根据张量的广播机制，将第一分类输出之前的全连接层输出与第一中间特征映射相乘，得到第二输出特征映射。可选地，进行逐点逐通道相乘。

在一些示例中，在步骤S905中，将第二输出特征映射与第一输出特征映射进行特征融合，以生成融合特征映射，可包括：将第一输出特征映射与第二输出特征映射串联或相加，得到融合特征映射。可选地，在步骤S905中，可以逐点逐通道方式将第一输出特征映射与第二输出特征映射相加，得到融合特征映射。

在一些示例中，结合图6所示，第二分类卷积神经网络可包括序列到序列神经网络和时序分类神经网络。在步骤S805或步骤S906中，使用第二分类卷积神经网络处理融合特征映射，以生成题目图像的第二分类输出，包括：使用序列到序列神经网络处理融合特征映射，以生成时序分类神经网络输入，其中，时序分类神经网络输入包括与所述时序分类神经网络的时间步对应数量的特征向量。进一步的，使用时序分类神经网络处理时序分类神经网络输入，以生成题目图像的第二分类输出。

在一些示例中，结合图6所示，序列到序列神经网络，包括：基于注意力的编码器网络、一个或多个全连接层和基于注意力的解码器网络；时序分类神经网络包括LSTM网络。其中，在步骤S805或步骤S906中，使用序列到序列神经网络处理融合特征映射，以生成时序分类神经网络输入，包括：使用上述编码器网络处理融合特征映射，以生成编码器网络输出；使用全连接层处理编码器网络输出，以生成编码器网络输入；使用编码器网络处理编码器网络输入，以生成LSTM网络输入，其中，LSTM网络输入为与LSTM网络的时间步对应数量的特征向量。进一步的，使用时序分类神经网络处理时序分类神经网络输入，以生成题目图像的第二分类输出，包括：使用LSTM网络处理LSTM网络输入，以生成题目图像的第二分类输出。

示例性的，题目图像的大小为256*256（例如像素的数量）。步骤S801或步骤S901得到的第一中间特征映射为128*32*32，也就是128个32*32的特征映射。步骤S802或步骤S902得到的第二中间特征映射为128*32*32，也就是128个32*32的特征映射。相应的，步骤S804或步骤S905得到的融合特征映射可为128*32*32，也就是128个32*32的特征映射。在步骤S805或步骤S906中，通过基于注意力的编码器网络处理融合特征映射（128个32*32的特征映射）；通过全连接层处理编码器网络的输出，得到多个由512（全连接层的神经元的数量）个元素组成的特征向量；通过解码器网络处理全连接层输出的多个特征向量，得到20*100的矩阵（20为LSTM网络的时间步）；通过LSTM网络处理该矩阵，输出题目所属小类的预测（例如，概率）。

本公开实施例提供的方法可以由终端、服务器和/或其他具备处理能力的设备完成。本公开实施例提供的方法可以由上述任一设备完成，也可以由多个设备共同完成，本公开对此不作限定。以如图10所示的实施环境示意图为例，该实施环境中可以由终端和服务器构成，终端可以和服务器进行通信。

终端上可以使用在线教育的应用程序，该应用程序可以是APP（Application，应用程序），也可以是基于网页的应用程序。该终端可以是移动电话、平板电脑、台式电脑、笔记本电脑、智能穿戴设备等，本实施例对此不作限定。

服务器可以为应用程序提供后台服务，可以包括存储服务器和处理服务器。其中，存储服务器可以用于存储数据库，数据库中可以存储题目类型识别方法所使用的数据，例如笔迹图像、用户笔迹字典等；处理服务器可以用于执行应用程序的相应处理，例如题目类型识别方法的相关处理。处理服务器可以与存储服务器进行数据交互。当然，存储与处理都可以由一个服务器完成，本公开实施例以由一个服务器实现为例。

下面在图10所示的实施环境下，对本公开实施例中题目类型识别方法在题目答案搜索中的应用进行说明。

图11示出了根据本公开示例性实施例的题目答案搜索方法的一流程图，参考图11所示，该方法包括步骤S1101至步骤S1106。

步骤S1101，终端获取图像。

步骤S1102，终端从获取的图像中提取题目图像。

示例性的，用户可通过手机或平板电脑等终端设备进行拍照，然后上传至应用程序，接着应用程序将图像送入题型判断模型。题型判断模型，包括版面分析模型和文本行检测模型。版面分析模型是一种文本检测模型，可检测到文本区域坐标。文本行检测模型可检测横向文本行，得到文本行的文本框。根据版面分析模型和文本行检测模型的检测结果进行版面分析，对框进行合并，同时根据每种题型的特点，分析得到每个题是由那些框组成的，然后根据框的坐标在原图上进行裁剪，得到题目图像。

示例性的，可提供选择框，接收用户对图像上题目区域的框选，基于用户框选的图像区域提取题目图像。

应当理解，可采用其他提取公知的方法从图像中提取题目图像，本公开示例性实施例对此不作限定。

步骤S1103，终端向服务器发送提取出的题目图像。

步骤S1104，服务器接收终端发送的题目图像。

步骤S1105，服务器使用题目类型识别神经网络处理题目图像，以生成题目所属类型的预测。

步骤S1106，服务器根据题目所属的类别，在题目的类别对应的答案库中搜索题目的答案。

在一些示例中，可通过人工建立题库，将所有可能出现的题目全部收集起来，并可人工或自动标注答案。

在一些示例中，可标注题目的类型，按照题目的类型分别存储题目的答案，形成各个题目类型对应的答案库。在步骤S1106中，在题目类型对应的答案库中搜索答案，有助于降低搜索空间，提高搜索速度。

在一些示例中，在步骤S1106后，服务器将搜索到的答案发送给终端。终端可接收并向用户呈现（例如显示）题目的答案。

图12示出了根据本公开示例性实施例的题目答案搜索方法的另一流程图，参考图12所示，该方法包括步骤S1201至步骤S1206。

步骤S1201，终端获取图像。

步骤S1202，终端向服务器发送图像。

步骤S1203，服务器接收终端发送的图像。

步骤S1204，服务器从图像中提取题目图像。

步骤S1205，服务器使用题目类型识别神经网络处理题目图像，以生成题目所属类型的预测。

步骤S1206，服务器根据题目所属的类别，在题目的类别对应的答案库中搜索题目的答案。

在一些示例中，可标注题目的类型，按照题目的类型分别存储题目的答案，形成各个题目类型对应的答案库。在步骤S1206中，在题目类型对应的答案库中搜索答案，有助于降低搜索空间，提高搜索速度。

在一些示例中，在步骤S1206后，服务器将搜索到的答案发送给终端。终端可接收并向用户呈现（例如显示）题目的答案。

在本公开示例性实施例中，根据搜索到的答案，还可进行题目批改。例如，获取从题目图像中识别到的题目的解答，将该解答与搜索到的进行对比，以判断解答是否正确。例如，对于选择题，判断识别到的选项是否为搜索到的选项，如果是，可确定解答正确，如果否，可确认解答错误。

应当理解，图11和12示出了由服务器进行题目类型识别的示例，但本公开实施例并不限于此，题目类型识别可由终端实施，相应的，答案搜索也可由终端实施，对此不做赘述。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图13，现将描述可以作为本公开的服务器或客户端的电子设备1300的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图13所示，电子设备1300包括计算单元1301，其可以根据存储在只读存储器（ROM）1302中的计算机程序或者从存储单元1308加载到随机访问存储器（RAM）1303中的计算机程序，来执行各种适当的动作和处理。在RAM 1303中，还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出（I/O）接口1305也连接至总线1304。

电子设备1300中的多个部件连接至I/O接口1305，包括：输入单元1306、输出单元1307、存储单元1308以及通信单元1309。输入单元1306可以是能向电子设备1300输入信息的任何类型的设备，输入单元1306可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1307可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1304可以包括但不限于磁盘、光盘。通信单元1309允许电子设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理。例如，在一些实施例中，题目类型识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到电子设备1300上。在一些实施例中，计算单元1301可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行题目类型识别方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.一种题目类型识别方法，其特征在于，包括：

使用第一分类卷积神经网络处理题目图像，以提取所述题目图像的第一中间特征映射和生成第一分类输出，其中，所述第一分类输出定义题目所属大类的预测，所述题目属于至少两个大类中的一个大类，所述至少两个大类中的每个大类包括一个或多个小类；

使用文本识别神经网络的卷积神经网络处理所述题目图像，以提取所述题目图像的第二中间特征映射；

将所述第二中间特征映射与所述第一分类输出进行特征融合，以生成第一输出特征映射；

将所述第一中间特征映射与所述第一输出特征映射进行特征融合，以生成融合特征映射；

使用第二分类卷积神经网络处理所述融合特征映射，以生成所述题目图像的第二分类输出，其中，所述第二分类输出定义所述题目所属小类的预测；

其中，将所述第二中间特征映射与所述第一分类输出进行特征融合，以生成第一输出特征映射，包括：根据张量的广播机制，将所述第一分类输出与所述第二中间特征映射相乘，得到第一输出特征映射。

2.根据权利要求1所述的题目类型识别方法，其特征在于，将所述第一中间特征映射与所述第一输出特征映射进行特征融合，以生成融合特征映射，包括：

将所述第一中间特征映射与所述第一分类输出之前的全连接层输出进行特征融合，以生成第二输出特征映射；

将所述第二输出特征映射与所述第一输出特征映射进行特征融合，以生成融合特征映射。

3.根据权利要求1所述的题目类型识别方法，其特征在于，所述第二分类卷积神经网络，包括：序列到序列神经网络和时序分类神经网络，

其中，使用第二分类卷积神经网络处理所述融合特征映射，以生成所述题目图像的第二分类输出，包括：

使用所述序列到序列神经网络处理所述融合特征映射，以生成时序分类神经网络输入，其中，所述时序分类神经网络输入包括与所述时序分类神经网络的时间步对应数量的特征向量；

使用所述时序分类神经网络处理所述时序分类神经网络输入，以生成所述题目图像的第二分类输出。

4.根据权利要求3所述的题目类型识别方法，其特征在于，所述序列到序列神经网络，包括：基于注意力的编码器网络、一个或多个全连接层和基于注意力的解码器网络；所述时序分类神经网络包括LSTM网络；

其中，使用所述序列到序列神经网络处理所述融合特征映射，以生成时序分类神经网络输入，包括：使用所述编码器网络处理所述融合特征映射，以生成编码器网络输出；使用所述全连接层处理所述编码器网络输出，以生成编码器网络输入；使用所述编码器网络处理所述编码器网络输入，以生成LSTM网络输入，其中，所述LSTM网络输入为与所述LSTM网络的时间步对应数量的特征向量；

其中，使用所述时序分类神经网络处理所述时序分类神经网络输入，以生成所述题目图像的第二分类输出，包括：使用所述LSTM网络处理所述LSTM网络输入，以生成所述题目图像的第二分类输出。

5.根据权利要求2所述的题目类型识别方法，其特征在于，将所述第一中间特征映射与所述第一分类输出之前的全连接层输出进行特征融合，以生成第二输出特征映射，包括：

根据张量的广播机制，将所述第一分类输出之前的全连接层输出与所述第一中间特征映射相乘，得到第二输出特征映射。

6.根据权利要求1所述的题目类型识别方法，其特征在于，将所述第一中间特征映射与所述第一输出特征映射进行特征融合，以生成融合特征映射，包括：

将所述第一中间特征映射与所述第一输出特征映射串联或相加，得到融合特征映射。

7.根据权利要求1至5中任一项所述的题目类型识别方法，其特征在于，所述第一分类卷积神经网络和所述文本识别神经网络的卷积神经网络各自包括至少一个残差块和至少一个卷积层。

8.根据权利要求1至5中任一项所述的题目类型识别方法，其特征在于，所述第一分类卷积神经网络包括至少一个残差块、至少一个卷积层和多个全连接层。

9.根据权利要求1至5中任一项所述的题目类型识别方法，其特征在于，所述文本识别神经网络包括：卷积神经网络、循环神经网络和翻译层。

10.一种题目类型识别神经网络的训练方法，其特征在于，所述题目类型识别神经网络包括：第一分类卷积神经网络、文本识别神经网络的卷积神经网络，以及第二分类卷积神经网络，所述训练方法包括：

使用第一数据集合训练所述第一分类卷积神经网络，以生成所述第一分类卷积神经网络的参数，其中，所述第一数据集合中各个数据包括第一样本题目图像，所述第一样本题目图像标注有相应题目的大类，其中，题目被分为至少两个大类，所述至少两个大类中的每个大类包括一个或多个小类；

使用第二数据集合训练所述文本识别神经网络，以生成所述文本识别神经网络的卷积神经网络的参数，其中，所述第二数据集合中各个数据包括第二样本题目图像，所述第二样本题目图像标注有相应题目的文本；

使用第三数据集合训练所述题目类型识别神经网络，以生成所述第二分类卷积神经网络的参数，所述第三数据集合中各个数据包括第三样本题目图像，所述第三样本题目图像标注有相应题目的小类；

其中，在训练所述题目类型识别神经网络时，使用训练得到的所述第一分类卷积神经网络处理相应的第三样本题目图像，以提取所述第三样本题目图像的生成第一中间特征映射和生成第一分类输出，其中，所述第一分类输出定义题目所属大类的预测；使用训练得到的所述文本识别神经网络的卷积神经网络处理所述第三样本题目图像，以提取所述第三样本题目图像的第二中间特征映射；将所述第二中间特征映射与所述第一分类输出进行特征融合，以生成第一输出特征映射；将所述第一中间特征映射与所述第一输出特征映射进行特征融合，以生成融合特征映射；将所述融合特征映射作为所述第二分类卷积神经网络的输入，以由所述第二分类卷积神经网络生成所述第三样本题目图像的第二分类输出，其中，所述第二分类输出定义题目所属小类的预测；

11.根据权利要求10所述的训练方法，其特征在于，将所述第一中间特征映射与所述第一输出特征映射进行特征融合，以生成融合特征映射，包括：

12.根据权利要求10所述的训练方法，其特征在于，所述第二分类卷积神经网络，包括：序列到序列神经网络和时序分类神经网络，

其中，由所述第二分类卷积神经网络输出所述第三样本题目图像的第二分类输出，包括：

由所述序列到序列神经网络处理所述融合特征映射，以生成时序分类神经网络输入，其中，所述时序分类神经网络输入包括与所述时序分类神经网络的时间步对应数量的特征向量；

由所述时序分类神经网络处理所述时序分类神经网络输入，以生成所述第三样本题目图像的第二分类输出。

13.根据权利要求12所述的训练方法，其特征在于，所述序列到序列神经网络，包括：基于注意力的编码器网络、全连接层和基于注意力的解码器网络；所述时序分类神经网络包括LSTM网络；

其中，由所述序列到序列神经网络处理所述融合特征映射，以生成时序分类神经网络输入，包括：由所述编码器网络处理所述融合特征映射，以生成编码器网络输出；由所述全连接层处理所述编码器网络输出，以生成编码器网络输入；由所述编码器网络处理所述编码器网络输入，以生成LSTM网络输入，其中，所述LSTM网络输入为与所述LSTM网络的时间步对应数量的特征向量；

其中，由所述时序分类神经网络处理所述时序分类神经网络输入，以生成所述第三样本题目图像的第二分类输出，包括：由所述LSTM网络处理所述LSTM网络输入，以生成所述第三样本题目图像的第二分类输出。

14.根据权利要求11所述的训练方法，其特征在于，将所述第一中间特征映射与所述第一分类输出之前的全连接层输出进行特征融合，以生成第二输出特征映射，包括：

15.根据权利要求11所述的训练方法，其特征在于，将所述第一中间特征映射与所述第一输出特征映射进行特征融合，以生成融合特征映射，包括：

16.一种计算系统，其特征在于，包括：

数据处理装置；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述数据处理装置执行时使所述数据处理装置执行根据权利要求1-15中任一项所述的方法。

17.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行根据权利要求1-15中任一项所述的方法。