CN109271401B

CN109271401B - 一种题目搜索、批改方法、装置、电子设备和存储介质

Info

Publication number: CN109271401B
Application number: CN201811125687.6A
Authority: CN
Inventors: 何涛; 罗欢; 陈明权
Original assignee: Hangzhou Dana Technology Inc
Current assignee: Hangzhou Dana Technology Inc
Priority date: 2018-09-26
Filing date: 2018-09-26
Publication date: 2021-11-12
Anticipated expiration: 2038-09-26
Also published as: CN109271401A

Abstract

本发明提供了一种题目搜索、批改方法、装置、电子设备和存储介质，包括：对待搜索试卷的影像进行检测，检测出待搜索试卷上各个待搜索题目的区域，识别出各个待搜索题目区域中题干的文字内容；将每一待搜索题目题干的文字内容输入题干向量化模型，得到每一待搜索题目的题干的特征向量，作为每一待搜索题目的特征向量；针对每一待搜索题目，在题库中进行搜索，查找与该待搜索题目的特征向量相匹配的特征向量，将题库中相匹配的特征向量对应的题目确定为与该待搜索题目最接近的题目；汇总查找到的所有待搜索题目的最接近题目所在的试卷，将满足预设条件的试卷确定为与待搜索试卷匹配的试卷。应用本发明提供的方案可以提高搜索速度和准确度。

Description

一种题目搜索、批改方法、装置、电子设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种题目搜索、批改方法、装置、电子设备和计算机可读存储介质。

背景技术

随着计算机技术和教育信息化的不断推进，计算机技术已经逐步应用于日常的教育教学各项活动中，例如在教学评测场景下得到了相应的应用。国内现有的基础教育、学生学习状况的主要考察形式仍是各种类型的考试或测试，在此状况下，教师背负着很大的批改试卷的工作压力。

目前，智能终端类产品有许多解决批改作业和试卷的搜题APP，将包含待批改试卷的影像输入搜题APP，以便搜题APP根据试卷的影像内容从题库中搜索到与试卷的影像中的各个题目相对应的题目。

现有的题目搜索方法在进行题目搜索时，是根据各个题目的题干的文字内容在题库中进行查找，然而，这种搜索方式效率低，而且很容易出错，有部分文字内容不同就无法查找到对应的题目。

发明内容

本发明的目的在于提供一种题目搜索方法、批改、装置、电子设备和计算机可读存储介质，以解决现有的题目搜索方式效率低，容易出错的问题。

为达到上述目的，本发明提供了一种题目搜索方法，所述方法包括：

步骤S11：对待搜索试卷的影像进行检测，检测出所述待搜索试卷上的各个待搜索题目的区域，并识别出各个待搜索题目的区域中题干的文字内容；

步骤S12：将每一待搜索题目的题干的文字内容输入预先训练的题干向量化模型中，得到每一待搜索题目的题干的特征向量，作为每一待搜索题目的特征向量，其中，所述题干向量化模型是基于神经网络的模型；

步骤S13：针对每一待搜索题目，在题库中进行搜索，查找与该待搜索题目的特征向量相匹配的特征向量，将题库中相匹配的特征向量对应的题目确定为与该待搜索题目最接近的题目；

步骤S14：汇总查找到的所有待搜索题目的最接近题目所在的试卷，将满足预设条件的试卷确定为与所述待搜索试卷匹配的目标试卷，通过所述目标试卷完成对所述待搜索试卷上的待搜索题目的搜索。

可选的，所述题干向量化模型通过以下步骤训练得到：

对第一题目样本训练集中每个题目样本进行标注处理，标注出每个题目样本中题干的文字内容；

利用神经网络模型对每个题目样本中题干的文字内容进行二维特征向量提取，从而训练得到所述题干向量化模型。

可选的，在所述待搜索试卷中的待搜索题目包含图片的情况下，所述方法还包括：

步骤S15：在步骤S11检测出所述待搜索试卷上的各个待搜索题目的区域之后，将包含图片的待搜索题目中的图片输入预先训练的图片向量化模型中，得到包含图片的待搜索题目的图片的特征向量，其中，所述图片向量化模型是基于神经网络的模型；

步骤S16：在步骤S12得到每一待搜索题目的题干的特征向量之后，对于不包含图片的待搜索题目，直接将该待搜索题目的题干的特征向量作为该待搜索题目的特征向量，对于包含图片的待搜索题目，将该待搜索题目的图片的特征向量与题干的特征向量进行拼接，作为该待搜索题目的特征向量。

可选的，所述图片向量化模型通过以下步骤训练得到：

对第二题目样本训练集中每个题目样本进行标注处理，标注出每个题目样本中的图片；

利用神经网络模型对每个题目样本中的图片进行二维特征向量提取，从而训练得到所述图片向量化模型。

可选的，预先对题库中的试卷上的各个题目的特征向量建立索引信息表；

步骤S13进一步包括：

针对每一待搜索题目，在所述索引信息表中查找与该待搜索题目的特征向量相匹配的特征向量；

将相匹配的特征向量在所述索引信息表中对应的题目确定为与该待搜索题目最接近的题目。

可选的，在建立所述索引信息表之前，将不同长度的特征向量按照长度进行分组；

所述针对每一待搜索题目，在所述索引信息表中查找与该待搜索题目的特征向量相匹配的特征向量，包括：

针对每一待搜索题目，在所述索引信息表中与该待搜索题目的特征向量长度相同或相近的分组内，查找与该待搜索题目的特征向量相匹配的特征向量。

可选的，所述将满足预设条件的试卷确定为与所述待搜索试卷匹配的试卷，包括：

将出现频率最大且大于第一预设阈值的试卷确定为与所述待搜索试卷匹配的试卷。

可选的，所述通过所述目标试卷完成对所述待搜索试卷上的待搜索题目的搜索，包括：

在所述待搜索试卷中某一待搜索题目的最接近题目属于所述目标试卷时，将该某一待搜索题目的最接近题目确定为该某一待搜索题目的搜索结果；

在所述待搜索试卷中某一待搜索题目的最接近题目不属于所述目标试卷时，将该某一待搜索题目的特征向量与所述目标试卷中的各个题目的特征向量进行最短编辑距离匹配，找到所述目标试卷中最短编辑距离最小的题目作为目标题目，若所述最小的最短编辑距离小于第二预设阈值，则将该某一待搜索题目的搜索结果修正为所述目标题目。

可选的，所述对待搜索试卷的影像进行检测，检测出所述待搜索试卷上的各个待搜索题目的区域，包括：

利用预先训练好的检测模型对所述待搜索试卷的影像进行检测，检测出所述待搜索试卷上的各个待搜索题目的区域，其中，所述检测模型是基于神经网络的模型。

可选的，所述识别出各个待搜索题目的区域中题干的文字内容，包括：

利用预先训练好的识别模型识别各个待搜索题目的区域中题干的文字内容，其中，所述识别模型是基于神经网络的模型。

为达到上述目的，本发明还提供了一种试卷智能批改方法，包括：

S91：采用如上任一项所述题目搜索方法，对待批改试卷进行搜索，在题库中搜索与所述待批改试卷相匹配的目标试卷；

S92：对于所述待批改试卷中的每一待批改题目，根据所述目标试卷上与该待批改题目相匹配的题目的答案，对该待批改题目进行批改。

为达到上述目的，本发明还提供了一种题目搜索装置，所述装置包括：

检测识别模块，用于对待搜索试卷的影像进行检测，检测出所述待搜索试卷上的各个待搜索题目的区域，并识别出各个待搜索题目的区域中题干的文字内容；

第一获得模块，用于将每一待搜索题目的题干的文字内容输入预先训练的题干向量化模型中，得到每一待搜索题目的题干的特征向量，作为每一待搜索题目的特征向量，其中，所述题干向量化模型是基于神经网络的模型；

查找模块，用于针对每一待搜索题目，在题库中进行搜索，查找与该待搜索题目的特征向量相匹配的特征向量，将题库中相匹配的特征向量对应的题目确定为与该待搜索题目最接近的题目；

确定模块，用于汇总查找到的所有待搜索题目的最接近题目所在的试卷，将满足预设条件的试卷确定为与所述待搜索试卷匹配的目标试卷，通过所述目标试卷完成对所述待搜索试卷上的待搜索题目的搜索。

可选的，所述装置还包括：

第一训练模块，用于训练得到所述题干向量化模型：对第一题目样本训练集中每个题目样本进行标注处理，标注出每个题目样本中题干的文字内容；利用神经网络模型对每个题目样本中题干的文字内容进行二维特征向量提取，从而训练得到所述题干向量化模型。

可选的，在所述待搜索试卷中的待搜索题目包含图片的情况下，所述装置还包括：

第二获得模块，用于在所述检测识别模块检测出所述待搜索试卷上的各个待搜索题目的区域之后，将包含图片的待搜索题目中的图片输入预先训练的图片向量化模型中，得到包含图片的待搜索题目的图片的特征向量，其中，所述图片向量化模型是基于神经网络的模型；

第三获得模块，用于对于不包含图片的待搜索题目，直接将该待搜索题目的题干的特征向量作为该待搜索题目的特征向量，对于包含图片的待搜索题目，将该待搜索题目的图片的特征向量与题干的特征向量进行拼接，作为该待搜索题目的特征向量。

可选的，所述装置还包括：

第二训练模块，用于训练得到所述图片向量化模型：对第二题目样本训练集中每个题目样本进行标注处理，标注出每个题目样本中的图片；利用神经网络模型对每个题目样本中的图片进行二维特征向量提取，从而训练得到所述图片向量化模型。

可选的，所述装置还包括：

预处理模块，用于预先对题库中试卷上的各个题目的特征向量建立索引信息表；

所述查找模块，具体用于针对每一待搜索题目，在所述索引信息表中查找与该待搜索题目的特征向量相匹配的特征向量；将相匹配的特征向量在所述索引信息表中对应的题目确定为与该待搜索题目最接近的题目。

可选的，所述预处理模块，还用于在建立所述索引信息表之前，将不同长度的特征向量按照长度进行分组；

所述查找模块，具体用于针对每一待搜索题目，在所述索引信息表中与该待搜索题目的特征向量长度相同或相近的分组内，查找与该待搜索题目的特征向量相匹配的特征向量。

可选的，所述确定模块，具体用于将出现频率最大且大于第一预设阈值的试卷确定为与所述待搜索试卷匹配的目标试卷。

可选的，所述确定模块，具体用于在所述待搜索试卷中某一待搜索题目的最接近题目属于所述目标试卷时，将该某一待搜索题目的最接近题目确定为该某一待搜索题目的搜索结果；在所述待搜索试卷中某一待搜索题目的最接近题目不属于所述目标试卷时，将该某一待搜索题目的特征向量与所述目标试卷中的各个题目的特征向量进行最短编辑距离匹配，找到所述目标试卷中最短编辑距离最小的题目作为目标题目，若所述最小的最短编辑距离小于第二预设阈值，则将该某一待搜索题目的搜索结果修正为所述目标题目。

可选的，所述检测识别模块，具体用于利用预先训练好的检测模型对所述待搜索试卷的影像进行检测，检测出所述待搜索试卷上的各个待搜索题目的区域，其中，所述检测模型是基于神经网络的模型。

可选的，所述检测识别模块，具体用于利用预先训练好的识别模型识别各个待搜索题目的区域中题干的文字内容，其中，所述识别模型是基于神经网络的模型。

为达到上述目的，本发明还提供了一种试卷智能批改装置，包括：如上任一项所述的题目搜索装置以及批改模块，其中，

所述题目搜索装置，用于对待批改试卷进行搜索，在题库中搜索与所述待批改试卷相匹配的目标试卷；

所述批改模块，用于对于所述待批改试卷中的每一待批改题目，根据所述目标试卷上与该待批改题目相匹配的题目的答案，对该待批改题目进行批改。

为达到上述目的，本发明还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现如上任一所述题目搜索方法的方法步骤。

为达到上述目的，本发明还提供了一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现如上所述试卷智能批改方法的方法步骤。

为达到上述目的，本发明还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述题目搜索方法的方法步骤。

为达到上述目的，本发明还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述试卷智能批改方法的方法步骤。

与现有技术相比，本发明预先基于众多题目样本将神经网络模型训练成用于提取题干的特征向量的题干向量化模型，在检测出待搜索试卷的影像上各个待搜索题目的区域并识别出各个待搜索题目的区域中题干的文字内容之后，将每一题目的文字内容输入预先训练的题干向量化模型中，得到每一待搜索题目的题干的特征向量作为每一待搜索题目的特征向量，基于待搜索题目的特征向量在题库中进行搜索，查找与待搜索题目最接近的题目，进而通过汇总所查找到的题目所在的试卷确定出与待搜索试卷匹配的目标试卷，通过目标试卷完成对待搜索试卷上待搜索题目的搜索。可见，相对于现有技术中直接利用题干的文字内容在题库中进行查找，本发明将题干的文字内容通过题干向量化模型提取出题干的特征向量，并以特征向量的形式在题库中进行查找，查找的效率更高，且不容易出错，即使有部分文字不同也可以查找到对应的题目，查找近似题目的兼容性更好，从而提高题目搜索的准确度。进而，本发明所提供的试卷智能批改方法，批改效率和准确度更高。

附图说明

图1是本发明一实施例提供的题目搜索方法的流程示意图；

图2是本发明的待搜索题目的一个示例；

图3是图2所示待搜索题目中的图片；

图4是本发明另一实施例提供的题目搜索方法的流程示意图；

图5是本发明一实施例提供的题目搜索装置的结构示意图；

图6是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

以下结合附图和具体实施例对本发明提出的一种题目搜索、批改方法、装置、电子设备及计算机可读存储介质作进一步详细说明。根据权利要求书和下面说明，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

为解决现有技术的问题，本发明实施例提供了一种题目搜索、批改方法、装置、电子设备及计算机可读存储介质。

需要说明的是，本发明实施例的题目搜索方法可应用于本发明实施例的题目搜索装置，该题目搜索装置可被配置于电子设备上。其中，该电子设备可以是个人计算机、移动终端等，该移动终端可以是手机、平板电脑等具有各种操作系统的硬件设备。

图1是本发明一实施例提供的一种题目搜索方法的流程示意图。请参考图1，一种题目搜索方法可以包括如下步骤：

步骤S11：对待搜索试卷的影像进行检测，检测出待搜索试卷上的各个待搜索题目的区域，并识别出各个待搜索题目的区域中题干的文字内容。

待搜索试卷的影像可以为包含待搜索试卷的图像。具体的，可以利用检测模型对待搜索试卷的影像进行检测，检测出待搜索试卷上的各个待搜索题目的区域，所述检测模型是基于神经网络的模型。其中，检测模型例如可以是基于深度卷积神经网络(Convolutional Neural Networks，CNN)对试卷样本训练集中的样本进行训练得到的。利用训练好的检测模型从待搜索试卷的影像中提取二维特征向量，在二维特征向量的每个网格生成不同形状的锚点，使用标注框(Groundtruth Boxes)将检测出的各个待搜索题目的区域进行标注，还可以将标注框与生成的锚点作回归(regression)处理，以使标注框更贴近题目的实际位置。识别完题目区域后会将每道待搜索题目进行切割为单个影像，或者不实际切割，而在处理时将每个待搜索题目区域区分开为单个区域影像进行处理，会根据题目位置信息进行排序。

检测出各个待搜索题目的区域后，利用识别模型识别出待搜索题目的区域中题干的文字内容，所述识别模型是基于神经网络的模型。首先标注出待搜索题目中的各个组成部分，组成部分可以包括题干、答题和/或图片，进而通过识别模型识别出题目中题干的文字内容。其中，识别模型可以是基于空洞卷积和注意力模型建立的，具体的，采用空洞卷积对题干、答题和/或图片对应的标注框进行特征提取，再通过注意力模型将提取到的特征解码成字符。

步骤S12：将每一待搜索题目的题干的文字内容输入预先训练的题干向量化模型中，得到每一待搜索题目的题干的特征向量，作为每一待搜索题目的特征向量。

举例而言，如图2所示的待搜索题目，题目中题干的文字内容为“4.小明走3分钟刚好到全程的一半，他家距离学校多少米？(6分)”，将该文字内容输入预先训练的题干向量化模型—sent2vec模型中，获得该题干的特征向量，特征向量可以表示为[x0,x1,x2….xn]。

其中，所述题干向量化模型可以是基于神经网络的模型，如CNN模型，所述题干向量化模型可以通过以下步骤训练得到：对第一题目样本训练集中每个题目样本进行标注处理，标注出每个题目样本中题干的文字内容；利用神经网络模型对每个题目样本中题干的文字内容进行二维特征向量提取，从而训练得到所述题干向量化模型。其中，具体的训练过程属于现有技术，在此不做赘述。

步骤S13：针对每一待搜索题目，在题库中进行搜索，查找与该待搜索题目的特征向量相匹配的特征向量，将题库中相匹配的特征向量对应的题目确定为与该待搜索题目最接近的题目。

其中，可以通过向量近似搜索的方式，在题库中查找与该待搜索题目的特征向量相匹配的特征向量，具体为在题库中查找与该待搜索题目的特征向量距离最近的特征向量。可以理解的是，不同向量之间的相似性度量(Similarity Measurement)通常采用的方法就是计算向量间的“距离(Distance)”，常用的距离计算方式有：欧式距离、曼哈顿距离、夹角余弦(Cosine)等。本实施例中采用的计算方式是夹角余弦。

优选的，为便于特征向量的查找，还可以预先对题库中试卷上的各个题目的特征向量建立索引信息表。索引信息表中可以存储题库中各个题目的特征向量、题目的具体内容以及题目所在试卷的ID等。

相应的，步骤S13进一步可以包括：针对每一待搜索题目，在所述索引信息表中查找与该待搜索题目的特征向量相匹配的特征向量；将相匹配的特征向量在所述索引信息表中对应的题目确定为与该待搜索题目最接近的题目。

可以理解的是，在索引信息表中查找到相匹配的特征向量后，在所述索引信息表中找到最接近的题目，此时可以获得最接近题目的具体内容(包括题目的题干、答案和/或图片)，以及该最接近题目所在试卷的ID信息。

优选的，在建立所述索引信息表之前，还可以将不同长度的特征向量按照长度进行分组，这样，在所述索引信息表中查找与该待搜索题目的特征向量相匹配的特征向量时，可以首先在所述索引信息表中定位到与该待搜索题目的特征向量的长度相同或相近的分组，进而在所述索引信息表中与该待搜索题目的特征向量长度相同的分组内，查找与该待搜索题目的特征向量相匹配的特征向量。其中，分组时可以将长度相同的特征向量分为一组，也可以将长度在某个范围内的特征向量分成一组，本发明对此不做限定。可见，将不同长度的特征向量按照长度分组，可以使得后期搜索题目时根据特征向量的长度在相应分组内进行查询，提高题目搜索速度。可以理解的是，特征向量的长度不同是因为题干的文字数量不同导致的。

步骤S14：汇总查找到的所有待搜索题目的最接近题目所在的试卷，将满足预设条件的试卷确定为与待搜索试卷匹配的目标试卷，通过目标试卷完成对待搜索试卷上的待搜索题目的搜索。

其中，将满足预设条件的试卷确定为与所述待搜索试卷匹配的目标试卷，具体可以为：将出现频率最大且大于第一预设阈值的试卷确定为与所述待搜索试卷匹配的目标试卷。实际在处理时，由于题库中每道题目都有相应的试卷ID信息和在当前试卷里的位置信息，因此可以根据最接近题目所在的试卷ID来判断最接近题目是属于哪张试卷的，进而可以确定出现频率最大且大于第一预设阈值的试卷ID，从而将该试卷ID确定为匹配的目标试卷。其中，某一试卷的出现频率可以用以下方式计算：最接近题目在该试卷的待搜索题目的数量与待搜索试卷中待搜索题目总数的比值，或者，该试卷与待搜索试卷相匹配的题目数量与待搜索试卷中待搜索题目总数的比值。可以理解的是，若出现频率最大的试卷的出现频率小于所述第一预设阈值，表示该出现频率最大的试卷与待搜索试卷中相匹配的题目数量太少，此时可以认为题库中不存在与待搜索试卷匹配的试卷。

具体的，通过目标试卷完成对待搜索试卷上的待搜索题目的搜索，包括：一方面，在待搜索试卷中某一待搜索题目的最接近题目属于目标试卷时，可以直接将该某一待搜索题目的最接近题目确定为该某一待搜索题目的搜索结果；另一方面，在待搜索试卷中某一待搜索题目的最接近题目不属于目标试卷时，可以将该某一待搜索题目的特征向量与目标试卷中的各个题目的特征向量进行最短编辑距离匹配，找到目标试卷中最短编辑距离最小的题目作为目标题目，若最小的最短编辑距离小于第二预设阈值，则将该某一待搜索题目的搜索结果修正为所述目标题目。例如，当确定出目标试卷后，若步骤S13所确定的待搜索试卷中题目A的最接近题目不属于目标试卷，则在目标试卷中的所有题目中与题目A进行最短编辑距离匹配，找到最短编辑距离最小的题目B，如果该最短编辑距离小于一个预设阈值，则将题目A的搜索结果修正为题目B，否则视为题目A没有合法搜索结果。其中，对特征向量进行最短编辑距离匹配的算法属于本领域常规的计算方法，在此不做赘述。

在一种实现方式中，例如待搜索试卷中只有一道或几道待搜索题目的情况，在题库中找不到相同的试卷，但是可以找到相应的题目，这种情况下，对于每个待搜索题目会在题库中查询最接近的题目，再判断待搜索题目与最接近题目的最短编辑距离是否小于第二预设阀值，如果小于则最接近题目即为待搜索题目的搜索结果。

本领域技术人员可以理解的是，待搜索试卷中经常会有包含图片的题目，如图2所示的题目，由于图片是题目的一个重要组成部分，因此，在进行题目搜索时结合题目中的题干和图片进行搜索，可以进一步提高题目搜索的准确度。

鉴于此，本发明另一实施例提供的题目搜索方法结合题干和图片进行搜索，以提高搜索速度和准确度。图4是本发明另一实施例提供的一种题目搜索方法的流程示意图，包括如下步骤：

步骤S21：对待搜索试卷的影像进行检测，检测出待搜索试卷上的各个待搜索题目的区域，并识别出各个待搜索题目的区域中题干的文字内容；

步骤S25：将包含图片的待搜索题目中的图片输入预先训练的图片向量化模型中，得到包含图片的待搜索题目的图片的特征向量；

步骤S22：将每一待搜索题目的题干的文字内容输入预先训练的题干向量化模型中，得到每一待搜索题目的题干的特征向量；

步骤S26，对于不包含图片的待搜索题目，直接将该待搜索题目的题干的特征向量作为该待搜索题目的特征向量，对于包含图片的待搜索题目，将该待搜索题目的图片的特征向量与题干的特征向量进行拼接，作为该待搜索题目的特征向量；

步骤S23：针对每一待搜索题目，在题库中进行搜索，查找与该待搜索题目的特征向量相匹配的特征向量，将题库中相匹配的特征向量对应的题目确定为与该待搜索题目最接近的题目；

步骤S24：汇总查找到的所有待搜索题目的最接近题目所在的试卷，将满足预设条件的试卷确定为与待搜索试卷匹配的目标试卷，通过目标试卷完成对待搜索试卷上的待搜索题目的搜索。

其中，步骤S25中的所述图片向量化模型可以是基于神经网络的模型，如CNN模型，所述图片向量化模型可以通过以下步骤训练得到：对第二题目样本训练集中每个题目样本进行标注处理，标注出每个题目样本中的图片；利用神经网络模型对每个题目样本中的图片进行二维特征向量提取，从而训练得到所述图片向量化模型。其中，第二题目样本训练集可以与第一题目样本训练集相同，也可以不同，本发明对此不做限定。另外，具体的训练过程属于现有技术，在此不做赘述。

步骤S25中将包含图片的待搜索题目中的图片输入预先训练的图片向量化模型中，得到包含图片的待搜索题目的图片的特征向量，举例而言，以图2所示的待搜索题目为例，题目中的图片如图3所示，将图3所示图片输入预先训练的图片向量化模型—image2vec模型中，获得该图片的特征向量，此特征向量可以表示为[y0,y1,y2,…,yn]。

步骤S26中对于包含图片的待搜索题目，将该待搜索题目的图片的特征向量与题干的特征向量进行拼接，得到该待搜索题目的特征向量，举例而言，仍以图2所示的题目为例，拼接后得到的该待搜索题目的特征向量为[x0,x1,…,xn,y0,y1,…yn]。

需要说明的是，当某一待搜索题目中包含两个及以上图片时，分别将各个图片输入图片向量化模型中，得到各个图片的特征向量，然后依次将各个图片的特征向量与题干的特征向量拼接在一起。由于不同题目的图片数量以及题干的文字数量不同，因此得到题目的特征向量的长度也是不同的。

另外，步骤S21-S24与图1中的步骤S11-S14相类似，在此不做赘述。并且，步骤S25与S22执行的先后顺序，本发明不做限定。

鉴于上述的题目搜索方法，本发明还提供了一种题目智能批改方法，包括如下两个步骤：

步骤S91，采用上述的题目搜索方法，对待批改试卷进行搜索，在题库中搜索与所述待批改试卷相匹配的目标试卷；

步骤S92，对于所述待批改试卷中的每一待批改题目，根据所述目标试卷上与该待批改题目相匹配的题目的答案，对该待批改题目进行批改。

本发明实施例中，在题库中搜索出与待批改试卷匹配的目标试卷之后，将待批改题目切割开分别进行批改。对于每一待批改题目A，如果目标试卷中与其对应的搜索结果为题目B，则获取题目B的标注题型，根据题目B的答案对待批改题目A进行批改。具体的，如果题型为计算题：转交给计算引擎执行，具有多个计算步骤的题目，会将不同行的答题过程切割并通过计算引擎根据上下行的内容判断是否计算正确，对于填写计算符号、大于小于号、以及单位换算的题目识别为计算题，通过计算引擎判断两侧内容进行批改；如果题型为选择填空判断题：直接判断待搜索题目的答案与题库中标注的答案是否一致；如果题型为其他类型：直接显示标准答案。

相应于上述题目搜索方法实施例，本发明提供了一种题目搜索装置，参见图5，该装置可以包括：

检测识别模块51，可以用于对待搜索试卷的影像进行检测，检测出所述待搜索试卷上的各个待搜索题目的区域，并识别出各个待搜索题目的区域中题干的文字内容；

第一获得模块52，可以用于将每一待搜索题目的题干的文字内容输入预先训练的题干向量化模型中，得到每一待搜索题目的题干的特征向量，作为每一待搜索题目的特征向量，其中，所述题干向量化模型是基于神经网络的模型；

查找模块53，可以用于针对每一待搜索题目，在题库中进行搜索，查找与该待搜索题目的特征向量相匹配的特征向量，将题库中相匹配的特征向量对应的题目确定为与该待搜索题目最接近的题目；

确定模块54，可以用于汇总查找到的所有待搜索题目的最接近题目所在的试卷，将满足预设条件的试卷确定为与所述待搜索试卷匹配的目标试卷，通过所述目标试卷完成对所述待搜索试卷上的待搜索题目的搜索。

可选的，所述装置还可以包括：

第一训练模块，可以用于训练得到所述题干向量化模型：对第一题目样本训练集中每个题目样本进行标注处理，标注出每个题目样本中题干的文字内容；利用神经网络模型对每个题目样本中题干的文字内容进行二维特征向量提取，从而训练得到所述题干向量化模型。

可选的，在所述待搜索试卷中的待搜索题目包含图片的情况下，所述装置还可以包括：

第二获得模块，可以用于在所述检测识别模块51检测出所述待搜索试卷上的各个待搜索题目的区域之后，将包含图片的待搜索题目中的图片输入预先训练的图片向量化模型中，得到包含图片的待搜索题目的图片的特征向量，其中，所述图片向量化模型是基于神经网络的模型；

第三获得模块，可以用于对于不包含图片的待搜索题目，直接将该待搜索题目的题干的特征向量作为该待搜索题目的特征向量，对于包含图片的待搜索题目，将该待搜索题目的图片的特征向量与题干的特征向量进行拼接，作为该待搜索题目的特征向量。

可选的，所述装置还可以包括：

第二训练模块，可以用于训练得到所述图片向量化模型：对第二题目样本训练集中每个题目样本进行标注处理，标注出每个题目样本中的图片；利用神经网络模型对每个题目样本中的图片进行二维特征向量提取，从而训练得到所述图片向量化模型。

可选的，所述装置还可以包括：

预处理模块，可以用于预先对题库中试卷上的各个题目的特征向量建立索引信息表；

所述查找模块53，具体可以用于针对每一待搜索题目，在所述索引信息表中查找与该待搜索题目的特征向量相匹配的特征向量；将相匹配的特征向量在所述索引信息表中对应的题目确定为与该待搜索题目最接近的题目。

可选的，所述预处理模块，还可以用于在建立所述索引信息表之前，将不同长度的特征向量按照长度进行分组；

所述查找模块53，具体可以用于针对每一待搜索题目，在所述索引信息表中与该待搜索题目的特征向量长度相同或相近的分组内，查找与该待搜索题目的特征向量相匹配的特征向量。

可选的，所述确定模块54，具体可以用于将出现频率最大且大于第一预设阈值的试卷确定为与所述待搜索试卷匹配的目标试卷。

可选的，所述确定模块54，具体可以用于在所述待搜索试卷中某一待搜索题目的最接近题目属于所述目标试卷时，将该某一待搜索题目的最接近题目确定为该某一待搜索题目的搜索结果；在所述待搜索试卷中某一待搜索题目的最接近题目不属于所述目标试卷时，将该某一待搜索题目的特征向量与所述目标试卷中的各个题目的特征向量进行最短编辑距离匹配，找到所述目标试卷中最短编辑距离最小的题目作为目标题目，若所述最小的最短编辑距离小于第二预设阈值，则将该某一待搜索题目的搜索结果修正为所述目标题目。

可选的，所述检测识别模块51，具体可以用于利用预先训练好的检测模型对所述待搜索试卷的影像进行检测，检测出所述待搜索试卷上的各个待搜索题目的区域，其中，所述检测模型是基于神经网络的模型。

可选的，所述检测识别模块51，具体可以用于利用预先训练好的识别模型识别各个待搜索题目的区域中题干的文字内容，其中，所述识别模型是基于神经网络的模型。

相应于上述试卷智能批改方法，本发明还提供了一种试卷智能批改装置，该装置可以包括：图5所示的题目搜索装置，以及批改模块；

其中，所述题目搜索装置，可以用于对待批改试卷进行搜索，在题库中搜索与所述待批改试卷相匹配的目标试卷；

所述批改模块，可以用于对于所述待批改试卷中的每一待批改题目，根据所述目标试卷上与该待批改题目相匹配的题目的答案，对该待批改题目进行批改。

本发明还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现如下步骤：

关于该方法各个步骤的具体实现以及相关解释内容可以参见上述图1所示的方法实施例，在此不做赘述。

另外，处理器601执行存储器603上所存放的程序而实现的题目搜索方法的其他实现方式，与前述方法实施例部分所提及的实现方式相同，这里也不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信，

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述题目智能批改方法的方法步骤。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，该计算机程序被处理器执行时实现上述的题目搜索方法的方法步骤。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，该计算机程序被处理器执行时实现上述的题目智能批改方法的方法步骤。

综上所述，与现有技术相比，本发明预先基于众多题目样本将神经网络模型训练成用于提取题干的特征向量的题干向量化模型，在检测出待搜索试卷的影像上各个待搜索题目的区域并识别出各个待搜索题目的区域中题干的文字内容之后，将每一题目的文字内容输入预先训练的题干向量化模型中，得到每一待搜索题目的题干的特征向量作为每一待搜索题目的特征向量，基于待搜索题目的特征向量在题库中进行搜索，查找与待搜索题目最接近的题目，进而通过汇总所查找到的题目所在的试卷确定出与待搜索试卷匹配的目标试卷，通过目标试卷完成对待搜索试卷上待搜索题目的搜索。可见，相对于现有技术中直接利用题干的文字内容在题库中进行查找，本发明将题干的文字内容通过题干向量化模型提取出题干的特征向量，并以特征向量的形式在题库中进行查找，查找的效率更高，且不容易出错，即使有部分文字不同也可以查找到对应的题目，查找近似题目的兼容性更好，从而提高题目搜索的准确度。进而，本发明所提供的试卷智能批改方法，批改效率和准确度更高。

需要说明的是，本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述描述仅是对本发明较佳实施例的描述，并非对本发明范围的任何限定，本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰，均属于权利要求书的保护范围。

Claims

1.一种题目搜索方法，其特征在于，所述方法包括：

步骤S14：汇总查找到的所有待搜索题目的最接近题目所在的试卷，将满足预设条件的试卷确定为与所述待搜索试卷匹配的目标试卷，通过所述目标试卷完成对所述待搜索试卷上的待搜索题目的搜索；

在步骤S11中，在检测出所述待搜索试卷上的各个待搜索题目的区域后，将每个所述待搜索题目的区域切割为单个影像，或者在识别各个所述待搜到题目的区域中题干的文字内容时，将每个所述待搜索题目的区域分开为单个区域影像进行处理，并根据题目位置信息进行排序。

2.如权利要求1所述的题目搜索方法，其特征在于，所述题干向量化模型通过以下步骤训练得到：

3.如权利要求1所述的题目搜索方法，其特征在于，在所述待搜索试卷中的待搜索题目包含图片的情况下，所述方法还包括：

4.如权利要求3所述的题目搜索方法，其特征在于，所述图片向量化模型通过以下步骤训练得到：

5.如权利要求1所述的题目搜索方法，其特征在于，预先对题库中试卷上的各个题目的特征向量建立索引信息表；

步骤S13进一步包括：

6.如权利要求5所述的题目搜索方法，其特征在于，在建立所述索引信息表之前，将不同长度的特征向量按照长度进行分组；

7.如权利要求1所述的题目搜索方法，其特征在于，所述将满足预设条件的试卷确定为与所述待搜索试卷匹配的目标试卷，包括：

将出现频率最大且大于第一预设阈值的试卷确定为与所述待搜索试卷匹配的目标试卷。

8.如权利要求7所述的题目搜索方法，其特征在于，所述通过所述目标试卷完成对所述待搜索试卷上的待搜索题目的搜索，包括：

9.如权利要求1所述的题目搜索方法，其特征在于，所述对待搜索试卷的影像进行检测，检测出所述待搜索试卷上的各个待搜索题目的区域，包括：

10.如权利要求1所述的题目搜索方法，其特征在于，所述识别出各个待搜索题目的区域中题干的文字内容，包括：

利用预先训练好的识别模型识别各个待搜索题目的区域中题干的文字内容，其中，所述识别模型是基于神经网络的模型，所述识别模型是基于空洞卷积和注意力模型建立的，具体的，采用空洞卷积对所述待搜索题目的区域中的题干所对应的标注框进行特征提取，再通过注意力模型将提取到的特征解码成字符。

11.一种题目智能批改方法，其特征在于，包括：

S91：采用如权利要求1-10任一项所述题目搜索方法，对待批改试卷进行搜索，在题库中搜索与所述待批改试卷相匹配的目标试卷；

S92：对于所述待批改试卷中的每一待批改题目，根据所述目标试卷上与该待批改题目相匹配的题目的答案，对该待批改题目进行批改；

所述步骤S92，包括：

在题库中搜索出与所述待批改试卷匹配的目标试卷之后，将所述待批改试卷中的每个待批改题目切割开分别进行批改；对于每一待批改题目A，如果目标试卷中与其对应的搜索结果为题目B，则获取题目B的标注题型，根据题目B的答案对待批改题目A进行批改，具体的，如果题型为计算题：转交给计算引擎执行，具有多个计算步骤的题目，会将不同行的答题过程切割并通过计算引擎根据上下行的内容判断是否计算正确，对于填写计算符号、大于小于号、以及单位换算的题目识别为计算题，通过计算引擎判断两侧内容进行批改；如果题型为选择填空判断题：直接判断待搜索题目的答案与题库中标注的答案是否一致；如果题型为其他类型：直接显示标准答案。

12.一种题目搜索装置，其特征在于，所述装置包括：

确定模块，用于汇总查找到的所有待搜索题目的最接近题目所在的试卷，将满足预设条件的试卷确定为与所述待搜索试卷匹配的目标试卷，通过所述目标试卷完成对所述待搜索试卷上的待搜索题目的搜索；

所述检测识别模块在检测出所述待搜索试卷上的各个待搜索题目的区域后，将每个所述待搜索题目的区域切割为单个影像，或者在识别各个所述待搜到题目的区域中题干的文字内容时，将每个所述待搜索题目的区域分开为单个区域影像进行处理，并根据题目位置信息进行排序。

13.如权利要求12所述的题目搜索装置，其特征在于，在所述待搜索试卷中的待搜索题目包含图片的情况下，所述装置还包括：

14.如权利要求12所述的题目搜索装置，其特征在于，所述装置还包括：

15.如权利要求14所述的题目搜索装置，其特征在于，所述预处理模块，还用于在建立所述索引信息表之前，将不同长度的特征向量按照长度进行分组；

16.如权利要求12所述的题目搜索装置，其特征在于，所述确定模块，具体用于将出现频率最大且大于第一预设阈值的试卷确定为与所述待搜索试卷匹配的试卷。

17.如权利要求16所述的题目搜索装置，其特征在于，所述确定模块，还用于在所述待搜索试卷中某一待搜索题目的最接近题目属于所述目标试卷时，将该某一待搜索题目的最接近题目确定为该某一待搜索题目的搜索结果；

18.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-10任一所述的方法步骤。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-10任一项所述的方法步骤。