CN109684980B - 自动阅卷方法及装置 - Google Patents

自动阅卷方法及装置 Download PDF

Info

Publication number
CN109684980B
CN109684980B CN201811555348.1A CN201811555348A CN109684980B CN 109684980 B CN109684980 B CN 109684980B CN 201811555348 A CN201811555348 A CN 201811555348A CN 109684980 B CN109684980 B CN 109684980B
Authority
CN
China
Prior art keywords
target
image
answer
sub
answer area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811555348.1A
Other languages
English (en)
Other versions
CN109684980A (zh
Inventor
胡益清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of CN109684980A publication Critical patent/CN109684980A/zh
Application granted granted Critical
Publication of CN109684980B publication Critical patent/CN109684980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Abstract

本申请公开了一种自动阅卷方法及装置,属于计算机设备技术领域。所述方法包括:获取目标试题图像,目标试题图像包括至少一个目标答题区域,目标答题区域内包括目标题目的答题内容的图像,目标题目是目标答题区域所对应的题目;在目标试题图像中定位目标答题区域,并获取目标题目的类型;根据目标题目的类型,对定位到的目标答题区域内的答题内容的图像进行识别;根据识别结果对答题内容进行正误判断,并输出判断结果。本申请提供的技术方案可以解决试题批改效率较低的问题。

Description

自动阅卷方法及装置
本申请要求于2018年9月19日的申请号为201811095814.2、发明名称为“答题区域的定位方法、装置及存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及计算机设备技术领域,特别涉及一种自动阅卷方法及装置。
背景技术
在教学活动中,阅卷是一种较为常见的工作。所谓阅卷指的是对试题中的答题内容进行批改的工作,实际应用中,比较常见的“试题”可以包括作业和试卷等。
相关技术中,计算机设备可以对试题进行扫描,以得到试题图像,而后,计算机设备可以将该试题图像传递给批改人员(例如教师),以由批改人员对试题图像中的答题内容进行批改。
然而,在由批改人员对答题内容进行批改的方式中,试题的批改效率较低。
发明内容
本申请实施例提供了一种自动阅卷方法及装置,可以解决试题批改效率较低的问题。所述技术方案如下:
一方面,提供了一种自动阅卷方法,所述方法包括:
获取目标试题图像,所述目标试题图像包括至少一个目标答题区域,所述目标答题区域内包括目标题目的答题内容的图像,所述目标题目是所述目标答题区域所对应的题目;
在所述目标试题图像中定位所述目标答题区域,并获取所述目标题目的类型;
根据所述目标题目的类型,对定位到的所述目标答题区域内的所述答题内容的图像进行识别;
根据识别结果对所述答题内容进行正误判断,并输出判断结果。
可选的,所述第一神经网络还包括截取模块,所述将所述第一特征图输入至所述位置信息输出子网络中,获取所述位置信息输出子网络输出的所述答题区域位置信息,包括:
将所述第一特征图输入至所述截取模块中,获取所述截取模块利用滑窗算法从所述第一特征图中截取的多个特征区域;
将所述多个特征区域输入至所述位置信息输出子网络中,通过所述位置信息输出子网络识别每个所述特征区域是否为所述目标答题区域经过特征提取后得到的区域;
通过所述位置信息输出子网络根据识别结果获取目标特征区域,所述目标特征区域是所述目标答题区域经过特征提取后得到的区域;
获取所述位置信息输出子网络输出的所述答题区域位置信息,所述答题区域位置信息是根据特征区域位置信息得到的,所述特征区域位置信息用于指示在所述第一特征图中所述目标特征区域的位置和尺寸。
可选的,所述方法还包括:
根据所述目标题目的类型对在所述目标试题图像中定位到的所述目标答题区域添加题目类型标签。
可选的,所述第一神经网络还包括试题类型识别子网络,所述获取所述第一神经网络输出的答题区域类型信息,包括:
将所述答题区域位置信息输入至所述试题类型识别子网络中,获取所述试题类型识别子网络根据所述答题区域位置信息所指示的所述目标答题区域的尺寸而输出的所述答题区域类型信息。
可选的,所述答题区域位置信息用于指示在所述目标试题图像中所述目标答题区域的尺寸和中心点的坐标;所述确定定位到的所述目标答题区域的分布是否符合目标版式,包括:
根据所述答题区域位置信息对定位到的所述目标答题区域的中心点在x轴和y轴上的坐标值分别进行聚类,得到m个x轴坐标类中心和n个y轴坐标类中心,m和n为正整数;
确定候选中心点集合中是否存在目标候选中心点,所述目标候选中心点与定位到的所述目标答题区域的中心点的距离大于目标距离阈值,所述候选中心点集合包括m*n个候选中心点,所述候选中心点的x轴坐标值属于所述m个x轴坐标类中心,所述候选中心点的y轴坐标值属于所述n个y轴坐标类中心;
当所述候选中心点集合中存在所述目标候选中心点时,确定定位到的所述目标答题区域的分布不符合所述目标版式;
当所述候选中心点集合中不存在所述目标候选中心点时,确定定位到的所述目标答题区域的分布符合所述目标版式。
可选的,所述候选答题区域的中心点为所述目标候选中心点,所述候选答题区域的尺寸为定位到的所述目标答题区域的尺寸的均值。
可选的,所述第一神经网络包括图像特征提取子网、截取模块和位置信息输出子网络,所述将所述目标试题图像输入至第一神经网络中之前,所述方法还包括:
获取多个训练试题图像和与所述多个训练试题图像一一对应的多个训练位置信息,每个所述训练位置信息用于指示在对应的所述训练试题图像中答题区域的位置和尺寸;
对于每个所述训练试题图像,将所述训练试题图像输入至所述第一图像特征提取子网络中,获取所述第一图像特征提取子网络对所述训练试题图像进行特征提取后输出的训练特征图;
对于每个所述训练试题图像,将所述第一图像特征提取子网络输出的所述训练特征图输入至所述截取模块中,获取所述截取模块利用滑窗算法从所述训练特征图中截取的多个训练特征区域;
对于每个所述训练试题图像,根据所述训练试题图像对应的所述训练位置信息确定每个所述训练特征区域与所述训练试题图像中答题区域经过特征提取后得到的区域的重合比例;
对于每个所述训练试题图像,将重合比例高于第一比例阈值的所述训练特征区域获取为正例,将重合比例低于第二比例阈值但高于第三比例阈值的所述训练特征区域获取为负例,所述正例和所述负例用于对所述位置信息输出子网络进行训练。
可选的,所述第二图像特征提取子网络包括n个卷积神经网络层,n为大于1的正整数;所述将所述答题内容的图像输入至所述第二图像特征提取子网络中,获取所述第二图像特征提取子网络对所述答题内容的图像进行特征提取后输出的第二特征图,包括:
将所述答题内容的图像输入至所述第二图像特征提取子网络的第一个卷积神经网络层中;
通过所述第二图像特征提取子网络的第i个卷积神经网络层对第i个输入子特征图进行卷积操作,输出第i个输出子特征图,其中,当i=1时,所述第i个输入子特征图为所述答题内容的图像,当1<i≤n时,所述第i个输入子特征图为第i-1个输出子特征图;
将所述第二图像特征提取子网络的第n个卷积神经网络层输出的第n个输出子特征图获取为所述第二特征图。
可选的,所述卷积神经网络层包括依次连接的批处理子层、卷积子层、池化子层和线性修正子层,所述通过所述第二图像特征提取子网络的第i个卷积神经网络层对第i个输入子特征图进行卷积操作和激励操作,输出第i个输出子特征图,包括:
将所述第i个输入子特征图输入至所述批处理子层,通过所述批处理子层对所述第i个输入子特征图的行方向上的数据取值和列方向上的数据取值进行归一化处理,得到第一目标输出子特征图;
将所述第一目标输出子特征图输入至所述卷积子层,通过所述卷积子层对所述第一目标输出子特征图进行卷积计算,得到第二目标输出子特征图;
将所述第二目标输出子特征图输入至所述池化子层,通过所述池化子层对所述第二目标输出子特征图进行池化处理,得到第三目标输出子特征图;
将所述第三目标输出子特征图输入至所述线性修正子层,通过所述线性修正子层对所述第三目标输出子特征图进行激励操作,得到并输出所述第i个输出子特征图。
可选的,在所述目标题目的类型为对应的答题内容的图像在第二方向上的长度大于在第一方向上的长度的类型时,目标卷积神经网络层中的池化子层所进行的池化处理在所述第二方向上的步长大于在所述第一方向上的步长;
所述目标卷积神经网络层为所述n个卷积神经网络层中的一个,所述第一方向和所述第二方向均为行方向和列方向中的一个方向,且,所述第一方向和所述第二方向不同。
可选的,所述编码器为双向长短时记忆循环神经网络,所述解码器为单向长短时循环神经网络。
可选的,所述第二神经网络还包括输出模块,所述根据对所述特征序列进行识别的结果获取对所述答题内容的图像进行识别的结果,包括:
将所述目标语义序列输入至所述输出模块,通过所述输出模块将所述目标语义序列转化为对应的数学字符序列;
将所述数学字符序列获取为对所述答题内容的图像进行识别的结果。
可选的,所述将所述答题内容的图像进行切割,得到多个答题内容子图像,包括:
将所述答题内容的图像进行灰度化处理,得到灰度图像;
对于所述灰度图像包括的每个像素行,计算所述像素行中所有像素的灰度值之和,得到所述像素行的灰度和值;
根据每个所述像素行的灰度和值确定至少一个目标像素行,在与所述目标像素行相邻的m个像素行中,所述目标像素行的灰度和值最大,m为正整数;
根据所述至少一个目标像素行确定至少一个切割线,根据确定的所述至少一个切割线对所述答题内容的图像进行切割,得到所述多个答题内容子图像。
可选的,所述根据每个所述像素行的灰度和值确定至少一个目标像素行,包括:
根据每个所述像素行的灰度和值生成灰度和值变化曲线;
将所述灰度和值变化曲线的极大值对应的像素行确定为所述目标像素行。
一方面,提供了一种自动阅卷方法,所述方法包括:
启动自动阅卷应用程序;
通过所述自动阅卷应用程序获取目标试题图像,所述目标试题图像包括至少一个目标答题区域,所述目标答题区域内包括目标题目的答题内容的图像,所述目标题目是所述目标答题区域所对应的题目;
显示所述自动阅卷应用程序的自动阅卷界面,所述自动阅卷界面包括自动阅卷选项;
当检测到对所述自动阅卷选项的触发操作后,输出所述答题内容的正误判断结果;
其中,所述答题内容的正误判断结果是在所述目标试题图像中定位所述目标答题区域,获取所述目标题目的类型,根据所述目标题目的类型,对定位到的所述目标答题区域内的所述答题内容的图像进行识别后,根据识别结果得到的。
一方面,提供了一种自动阅卷装置,所述装置包括:
第一获取模块,用于获取目标试题图像,所述目标试题图像包括至少一个目标答题区域,所述目标答题区域内包括目标题目的答题内容的图像,所述目标题目是所述目标答题区域所对应的题目;
第一定位模块,用于在所述目标试题图像中定位所述目标答题区域,并获取所述目标题目的类型;
识别模块,用于根据所述目标题目的类型,对定位到的所述目标答题区域内的所述答题内容的图像进行识别;
输出模块,用于根据识别结果对所述答题内容进行正误判断,并输出判断结果。
一方面,提供了一种自动阅卷装置,所述装置包括:
程序启动模块,用于启动自动阅卷应用程序;
获取模块,用于通过所述自动阅卷应用程序获取目标试题图像,所述目标试题图像包括至少一个目标答题区域,所述目标答题区域内包括目标题目的答题内容的图像,所述目标题目是所述目标答题区域所对应的题目;
显示模块,用于显示所述自动阅卷应用程序的自动阅卷界面,所述自动阅卷界面包括自动阅卷选项;
输出模块,用于在检测到对所述自动阅卷选项的触发操作后,输出所述答题内容的正误判断结果;
其中,所述答题内容的正误判断结果是在所述目标试题图像中定位所述目标答题区域,获取所述目标题目的类型,根据所述目标题目的类型,对定位到的所述目标答题区域内的所述答题内容的图像进行识别后,根据识别结果得到的。
一方面,提供了一种自动阅卷装置,所述装置包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现本申请实施例提供的自动阅卷方法。
一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现本申请实施例提供的自动阅卷方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过计算机设备获取目标试题图像,其中,该目标试题图像包括至少一个目标答题区域,而后,计算机设备在该目标试题图像中定位目标答题区域,并获取定位到的目标答题区域所对应的目标题目的类型,接着,计算机设备根据该目标题目的类型,对定位到的目标答题区域内的答题内容的图像进行识别,并根据识别结果对答题内容进行正误判断,而后,计算机设备输出判断结果,这样,阅卷的工作就能够由计算机设备自动完成,因此,可以大大提高试题的批改效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图。
图2是本申请实施例提供的一种自动阅卷方法的流程图。
图3是本申请实施例提供的一种自动阅卷方法的流程图。
图4是本申请实施例提供的一种长度分布示意图。
图5是本申请实施例提供的一种宽度分布示意图。
图6是本申请实施例提供的一种目标试题图像的示意图。
图7是本申请实施例提供的一种目标试题图像的示意图。
图8是本申请实施例提供的一种目标试题图像的示意图。
图9是本申请实施例提供的一种目标试题图像的示意图。
图10是本申请实施例提供的一种在目标答题区域截取图像的示意图。
图11是本申请实施例提供的一种灰度和值变化曲线的示意图。
图12是本申请实施例提供的一种自动阅卷方法的流程图。
图13是本申请实施例提供的一种自动阅卷应用程序的图标的示意图。
图14是本申请实施例提供的一种图像获取界面的示意图。
图15是本申请实施例提供的一种自动阅卷界面的示意图。
图16是本申请实施例提供的一种终端输出内容的示意图。
图17是本申请实施例提供的一种自动阅卷装置的框图。
图18是本申请实施例提供的一种自动阅卷装置的框图。
图19是本申请实施例提供的一种自动阅卷装置的框图。
图20是本申请实施例提供的一种自动阅卷装置的框图。
图21是本申请实施例提供的一种自动阅卷装置的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
阅卷是一种对试题中的答题内容进行批改的工作,其中,试题中通常可以包括题目和与题目对应的答题区域,试题中的某一答题区域用于供答题者在该答题区域中书写针对该答题区域所对应的题目的答题内容。
相关技术中需要由批改人员对试题中的答题内容进行批改,在需要批改的试题数量较多时,批改人员的工作量就会非常大,试题的批改效率就会较低。
本申请实施例提供了一种自动阅卷方法及装置,可以提高试题的批改效率。
在本申请实施例提供的自动阅卷方法中,计算机设备可以获取目标试题图像,其中,该目标试题图像包括至少一个目标答题区域,而后,计算机设备可以在该目标试题图像中定位目标答题区域,并获取定位到的目标答题区域所对应的目标题目的类型,接着,计算机设备可以根据该目标题目的类型,对定位到的目标答题区域内的答题内容的图像进行识别,并根据识别结果对该答题内容进行正误判断,而后,计算机设备可以输出判断结果,这样,阅卷的工作就能够由计算机设备自动完成,因此,可以大大提高试题的批改效率。
下面,将对本申请实施例提供的自动阅卷方法所涉及到的实施环境进行说明。
图1为本申请实施例提供的自动阅卷方法所涉及到的实施环境的示意图。如图1所示,该实施环境可以包括终端100和服务器200,其中,终端100和服务器200之间可以通过有线或无线的方式进行通信。
终端100可以对试题进行扫描,得到试题图像,终端100可以将扫描得到的试题图像发送至服务器200。服务器200可以对终端100发送的试题图像中的答题区域进行定位,并对答题区域内的答题内容进行识别和正误判断,最终,服务器200可以输出答题内容的正误判断结果。
其中,终端100可以为智能手机、平板电脑、台式电脑、可穿戴设备、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器或者电子书阅读器等计算机设备。服务器200可以为一台服务器,也可以为由多台服务器组成的服务器集群。
当然,在一些可能的实现方式中,本申请实施例提供的自动阅卷方法所涉及到的实施环境可以仅包括服务器200,或者仅包括终端100。
在实施环境仅包括终端100的情况下,在对试题进行扫描得到试题图像之后,终端100可以对试题图像中的答题区域进行定位,并对答题区域内的答题内容进行识别和正误判断,最终,终端100可以输出答题内容的正误判断结果。
在实施环境仅包括服务器200的情况下,服务器200中可以存储有试题图像,服务器200可以对自身存储的试题图像中的答题区域进行定位,并对答题区域内的答题内容进行识别和正误判断,最终,服务器200可以输出答题内容的正误判断结果。
请参考图2,其示出了本申请实施例提供的一种自动阅卷方法的流程图,该自动阅卷方法可以应用于图1中的服务器200或者终端100中。如图2所示,该自动阅卷方法可以包括以下步骤:
步骤201、获取目标试题图像。
其中,该目标试题图像可以是对目标试题进行扫描后得到的图像。
该目标试题图像可以包括至少一个目标答题区域,其中,该至少一个目标答题区域可以与该目标试题图像包括的至少一个目标题目一一对应,每个目标答题区域包括与该目标答题区域对应的目标题目的答题内容的图像。
例如,与目标题目“3+4+5+6=?”对应的目标答题区域a中包括目标题目“3+4+5+6=?”的答题内容的图像,其中,该答题内容可以为18。
步骤202、在目标试题图像中定位目标答题区域,并获取目标题目的类型。
所谓“在目标试题图像中定位目标答题区域”指的是:确定目标答题区域在目标试题图像中的位置和尺寸。
可选的,目标答题区域的形状可以为矩形,在目标答题区域的形状为矩形时,目标答题区域在目标试题图像中的尺寸可以包括该目标答题区域在目标试题图像中的长和宽,目标答题区域在目标试题图像中的位置可以包括在目标试题图像中该目标答题区域的中心点的坐标值,其中,所谓目标答题区域的中心点指的是该目标答题区域的两条对角线的交点,中心点的坐标值指的是该中心点在目标试题图像的图像坐标系中的坐标值。
所谓“目标题目的类型”指的是:定位到的目标答题区域所对应的目标题目的类型。在本申请实施例中,目标题目的类型可以包括多行算式类型、单行算式类型和竖式算式类型等。
步骤203、根据目标题目的类型,对定位到的目标答题区域内的答题内容的图像进行识别。
步骤204、根据识别结果对定位到的目标答题区域内的答题内容进行正误判断,并输出判断结果。
综上所述,本申请实施例提供的自动阅卷方法,通过计算机设备获取目标试题图像,其中,该目标试题图像包括至少一个目标答题区域,而后,计算机设备在该目标试题图像中定位目标答题区域,并获取定位到的目标答题区域所对应的目标题目的类型,接着,计算机设备根据该目标题目的类型,对定位到的目标答题区域内的答题内容的图像进行识别,并根据识别结果对答题内容进行正误判断,而后,计算机设备输出判断结果,这样,阅卷的工作就能够由计算机设备自动完成,因此,可以大大提高试题的批改效率。
请参考图3,其示出了本申请实施例提供的一种自动阅卷方法的流程图,该自动阅卷方法可以应用于图1中的服务器200或者终端100中。如图3所示,该自动阅卷方法可以包括以下步骤:
步骤301、获取目标试题图像。
在实施环境包括服务器和终端的情况下,可以由服务器执行本申请实施例提供的自动阅卷方法。在这种情况下,步骤301中,服务器可以接收终端发送的目标试题图像,其中,该目标试题图像可以是终端在对目标试题进行扫描后得到的图像。
在实施环境仅包括终端的情况下,可以由终端执行执行本申请实施例提供的自动阅卷方法。在这种情况下,步骤301中,终端可以对目标试题进行扫描,从而得到该目标试题图像。
在实施环境仅包括服务器的情况下,可以由服务器执行执行本申请实施例提供的自动阅卷方法。在这种情况下,步骤301中,服务器可以获取自身中存储的目标试题图像。
步骤302、将目标试题图像输入至第一神经网络中,获取第一神经网络输出的答题区域位置信息和答题区域类型信息。
其中,该答题区域位置信息用于指示在目标试题图像中目标答题区域的位置和尺寸,该答题区域类型信息用于指示目标答题区域所对应的目标题目的类型。
该第一神经网络可以包括相互耦合的第一图像特征提取子网络、截取模块、位置信息输出子网络和试题类型识别子网络。
1、第一图像特征提取子网络。
第一图像特征提取子网络可以为卷积神经网络(英文:Convolutional NeuralNetwork;简称:CNN),其用于对目标试题图像中的特征进行提取,并输出该目标试题图像的第一特征图(英文:feature map)。
其中,目标试题图像的第一特征图本质上是一个矩阵,该矩阵中的元素即为第一图像特征提取子网络所提取到的目标试题图像的特征。
2、截取模块。
截取模块可以利用滑窗算法从第一特征图中截取多个特征区域,其中,截取的特征区域也是矩阵,该矩阵的行数小于第一特征图的行数,该矩阵的列数小于第一特征图的列数。
可选的,截取模块所使用的滑窗算法的步长可以是矩阵中的一个元素。换句话说,对于第一特征图中的每一个元素,截取模块均可以在该元素处进行特征区域的截取,例如,对于第一特征图中的每个元素,截取模块均可以以该元素为中心截取特征区域。
可选的,截取模块可以在第一特征图中的每个元素处截取一个特征区域,也可以在第一特征图中的每个元素处截取多个特征区域。
其中,截取模块截取的每个特征区域的尺寸均可以位于尺寸集合中,该尺寸集合包括对p个答题区域进行特征提取后得到的p个区域的尺寸进行聚类后得到的多个类中心,p为正整数。
在本申请实施例中,可以预先获取p个已知的答题区域,而后,可以利用第一图像特征提取子网络对该p个已知的答题区域分别进行特征提取,得到p个区域,该p个区域均为矩阵。如图4所示是该p个区域的长度分布示意图,其中,该p个区域中每个区域的长度指的是矩阵的列数,如图5所示是该p个区域的宽度分布示意图,其中,该p个区域中每个区域的宽度指的是矩阵的行数。
接着,可以对该p个区域的尺寸进行聚类,例如,可以对该p个区域的长度和宽度分别进行聚类,使用的聚类算法可以为K均值聚类算法。对该p个区域的尺寸进行聚类后可以得到多个类中心,而后,可以将该多个类中心存储至尺寸集合中。
截取模块对第一特征图进行截取得到的特征区域的尺寸可以位于该尺寸集合中。
例如,在对该p个区域的长度和宽度分别进行聚类的情况下,可以得到4个长度类中心和6个宽度类中心,则截取模块对第一特征图进行截取得到的特征区域的长度可以为该4个长度类中心中的一个,宽度可以为该6个宽度类中心中的一个,换句话说,在一种可能的实现方式中,截取模块可以在第一特征图的每个元素处截取4*6=24个特征区域。
需要指出的是,截取模块在第一特征图的每个元素处截取的特征区域的个数越多,对目标试题图像中的目标答题区域进行定位的准确性就越高。例如,截取模块在第一特征图的每个元素处截取24个特征区域的方式,相较于在每个元素处截取9个特征区域的方式而言,对目标试题图像中的目标答题区域进行定位的准确性可以提高2.7%。
当然,截取模块在第一特征图的每个元素处截取的特征区域的个数越少,计算机设备(终端或服务器)的计算量就越小。
因此,考虑到定位准确性和计算机设备的计算量两个因素,通常可以令截取模块在第一特征图的每个元素处截取24个特征区域。
3、位置信息输出子网络。
位置信息输出子网络可以对截取模块截取的每个特征区域进行识别,以确定该特征区域是否为目标答题区域经过特征提取后得到的区域。位置信息输出子网络可以获取目标特征区域,该目标特征区域是目标答题区域经过特征提取后得到的区域。位置信息输出子网络可以输出答题区域位置信息,该答题区域位置信息是根据特征区域位置信息得到的,其中,该特征区域位置信息用于指示在第一特征图中目标特征区域的位置和尺寸。
4、试题类型识别子网络。
通常情况下,不同类型的题目对应的答题区域的尺寸往往并不相同,例如,对于类型为竖式算式的题目而言,其对应的答题区域的长宽比通常较大,对于类型为单行算式的题目而言,其对应的答题区域的长宽比通常较小。
因此,本申请实施例可以根据答题区域位置信息所指示的目标答题区域的尺寸对目标答题区域对应的目标题目的类型进行识别。
为了获取答题区域类型信息,可以将位置信息输出子网络输出的答题区域位置信息输入至试题类型识别子网络中,以获取该试题类型识别子网络根据答题区域位置信息所指示的目标答题区域的尺寸而输出的答题区域类型信息。
根据以上对第一神经网络的说明可知,在步骤302中,可以将目标试题图像输入至第一图像特征提取子网络中,以获取第一图像特征提取子网络对该目标试题图像进行特征提取后输出的第一特征图,而后,可以将该第一特征图输入至截取模块中,以获取截取模块利用滑窗算法从该第一特征图中截取的多个特征区域,接着,可以将该多个特征区域输入至位置信息输出子网络中,以获取位置信息输出子网络输出的答题区域位置信息,而后,可以将答题区域位置信息输入至试题类型识别子网络中,以获取试题类型识别子网络输出的答题区域类型信息。
步骤303、根据答题区域位置信息在目标试题图像中定位目标答题区域。
如上所述,答题区域位置信息可以指示在目标试题图像中目标答题区域的位置和尺寸,因此,步骤303中,可以根据答题区域位置信息的指示对目标试题图像中的目标答题区域进行定位。
同时,步骤303中,还可以根据答题区域类型信息对在目标试题图像中定位到的目标答题区域添加题目类型标签。
图6所示为对目标试题图像中的目标答题区域进行定位后得到的目标试题图像的示意图,如图6所示,在该定位后得到的目标试题图像中可以标识有多个矩形框,每个矩形框中均包含定位到的目标答题区域。在本申请实施例中,可以将矩形框的颜色作为题目类型标签,也即是,可以利用不同颜色的矩形框来对不同类型的目标题目进行标识。
步骤304、当根据答题区域位置信息在目标试题图像中定位到的目标答题区域的个数大于目标个数阈值时,确定定位到的目标答题区域的分布是否符合目标版式。
通常情况下,当试题中的答题区域的个数较多时,试题中的答题区域通常会按照一定的版式进行设置。例如,该版式可以为左右对称的版式或者上下对称的版式等,其中,在版式为左右对称的版式的情况下,试题中的答题区域的分布左右对称,在版式为上下对称的版式的情况下,试题中的答题区域的分布上下对称。
在本申请实施例中,当根据答题区域位置信息在目标试题图像中定位到的目标答题区域的个数大于目标个数阈值时,可以确定定位到的目标答题区域的分布是否符合目标版式,其中,该目标版式可以为左右对称的版式或者上下对称的版式等,该目标个数阈值可以由技术人员预先进行设置,本申请实施例对其不对具体限定。
在定位到的目标答题区域的分布符合目标版式时,说明在目标试题图像中定位到的目标答题区域很可能不存在遗漏,此时,可以执行步骤306的技术过程。
而在定位到的目标答题区域的分布不符合目标版式时,说明在目标试题图像中定位到的目标答题区域很可能有所遗漏,在这种情况下,可以执行步骤305的技术过程。
例如,如图7所示,在目标试题图像中定位到的目标答题区域可以包括目标答题区域a12、目标答题区域a21、目标答题区域a22、目标答题区域a31、目标答题区域a32、目标答题区域a41和目标答题区域a42。如图7所示,定位到的目标答题区域的分布并不是左右对称的,因此,其不符合左右对称的版式(目标版式),这就说明在目标试题图像中定位到的目标答题区域很可能有所遗漏。
下面,本申请实施例将对确定定位到的目标答题区域的分布是否符合目标版式的技术过程进行简要说明:
1、根据答题区域位置信息对定位到的目标答题区域的中心点在x轴和y轴上的坐标值分别进行聚类,得到m个x轴坐标类中心和n个y轴坐标类中心,m和n为正整数。
根据以上说明可知,答题区域位置信息可以指示目标答题区域的中心点的坐标值。因此,在步骤304中,可以根据答题区域位置信息获取定位到的每个目标答题区域的中心点的坐标值,其中,该坐标值可以包括在目标试题图像的图像坐标系中的x轴上的坐标值和y轴上的坐标值。
而后,可以对定位到的所有目标答题区域的中心点在x轴上的坐标值进行聚类,从而得到m个x轴坐标类中心,同时,可以对定位到的所有目标答题区域的中心点在y轴上的坐标值进行聚类,从而得到n个y轴坐标类中心。
例如,以图7所示的目标试题图像为例,在步骤304中,可以对目标答题区域a12的中心点在x轴上的坐标值、目标答题区域a21的中心点在x轴上的坐标值、目标答题区域a22的中心点在x轴上的坐标值、目标答题区域a31的中心点在x轴上的坐标值、目标答题区域a32的中心点在x轴上的坐标值、目标答题区域a41的中心点在x轴上的坐标值和目标答题区域a42的中心点在x轴上的坐标值进行聚类,得到2个x轴坐标类中心,分别为x1和x2。
其中,目标答题区域a21的中心点在x轴上的坐标值、目标答题区域a31的中心点在x轴上的坐标值和目标答题区域a41的中心点在x轴上的坐标值属于x轴坐标类中心x1所属的类,目标答题区域a12的中心点在x轴上的坐标值、目标答题区域a22的中心点在x轴上的坐标值、目标答题区域a32的中心点在x轴上的坐标值和目标答题区域a42的中心点在x轴上的坐标值属于x轴坐标类中心x2所属的类。
同时,在步骤304中,可以对目标答题区域a12的中心点在y轴上的坐标值、目标答题区域a21的中心点在y轴上的坐标值、目标答题区域a22的中心点在y轴上的坐标值、目标答题区域a31的中心点在y轴上的坐标值、目标答题区域a32的中心点在y轴上的坐标值、目标答题区域a41的中心点在y轴上的坐标值和目标答题区域a42的中心点在y轴上的坐标值进行聚类,得到4个y轴坐标类中心,分别为y1、y2、y3和y4。
其中,目标答题区域a21的中心点在y轴上的坐标值属于y轴坐标类中心y1所属的类,目标答题区域a21的中心点在y轴上的坐标值和目标答题区域a22的中心点在y轴上的坐标值属于y轴坐标类中心y2所属的类,目标答题区域a31的中心点在y轴上的坐标值和目标答题区域a32的中心点在y轴上的坐标值属于y轴坐标类中心y3所属的类,目标答题区域a41的中心点在y轴上的坐标值和目标答题区域a42的中心点在y轴上的坐标值属于y轴坐标类中心y4所属的类。
2、获取候选中心点集合。
该候选中心点集合包括m*n个候选中心点,每个候选中心点的x轴坐标值属于该m个x轴坐标类中心,每个候选中心点的y轴坐标值属于该n个y轴坐标类中心。
例如,以图7所示的目标试题图像为例,聚类得到2个x轴坐标类中心和4个y轴坐标类中心,其中,该2个x轴坐标类中心分别为x1和x2,该4个y轴坐标类中心分别为y1、y2、y3和y4。
则获取的候选中心点集合可以包括2*4=8个候选中心点,该8个候选中心点的坐标值分别为(x1,y1)、(x1,y2)、(x1,y3)、(x1,y4)、(x2,y1)、(x2,y2)、(x2,y3)和(x2,y4)。
3、确定候选中心点集合中是否存在目标候选中心点。
其中,目标候选中心点与定位到的目标答题区域的中心点的距离大于目标距离阈值,该目标距离阈值可以由技术人员预先进行设置,本申请实施例在此不做具体限定。
如上述举例,由于候选中心点(x1,y1)与定位到的任一目标答题区域的中心点的距离均大于目标距离阈值,因此,可以确定候选中心点集合中存在目标候选中心点。
4、当候选中心点集合中存在目标候选中心点时,可以确定定位到的目标答题区域的分布不符合所述目标版式。当候选中心点集合中不存在目标候选中心点时,可以确定定位到的目标答题区域的分布符合目标版式。
步骤305、当定位到的目标答题区域的分布不符合目标版式时,在目标试题图像中定位候选答题区域,并将定位到的候选答题区域获取为目标答题区域。
如上所述,在定位到的目标答题区域的分布不符合目标版式时,说明在目标试题图像中定位到的目标答题区域很可能有所遗漏。在这种情况下,为了保证目标答题区域定位的准确性,防止发生目标答题区域的定位遗漏,本申请实施例可以在目标试题图像中定位候选答题区域,其中,定位到的候选答题区域和定位到的目标答题区域共同的分布符合该目标版式,也即是,定位到的候选答题区域很可能是遗漏的某一目标答题区域。例如,在目标版式为左右对称的版式的情况下,定位到的候选答题区域和定位到的目标答题区域共同的分布是左右对称的。
可选的,该候选答题区域的中心点可以为上述目标候选中心点,该候选答题区域的尺寸为定位到的目标答题区域的尺寸的均值。
例如,以图7所示的目标试题图像为例,由于候选中心点(x1,y1)与定位到的任一目标答题区域的中心点的距离均大于目标距离阈值,因此,该候选中心点(x1,y1)即为目标候选中心点。则在步骤305中,可以在目标试题图像中定位候选答题区域,该候选答题区域的中心点为候选中心点(x1,y1),该候选答题区域的尺寸为目标答题区域a12、目标答题区域a21、目标答题区域a22、目标答题区域a31、目标答题区域a32、目标答题区域a41和目标答题区域a42的尺寸的均值。
如图8所示为定位了候选答题区域的目标试题图像的示意图,该候选答题区域为a11,如图9所示,候选答题区域a11与目标答题区域a12、目标答题区域a21、目标答题区域a22、目标答题区域a31、目标答题区域a32、目标答题区域a41和目标答题区域a42的共同的分布是左右对称的,因此,其符合左右对称的版式(目标版式)。
在定位了候选答题区域之后,可以将定位到的该候选答题区域获取为目标答题区域。
可选的,在利用位置信息输出子网络输出答题区域位置信息之前,可以利用正例和负例对该位置信息输出子网络进行训练。下面,本申请实施例将对获取训练用的正例和负例的技术过程进行简要说明:
1、获取多个训练试题图像和与该多个训练试题图像一一对应的多个训练位置信息。
其中,每个训练试题图像可以包括多个答题区域,每个训练位置信息用于指示在对应的训练试题图像中答题区域的位置和尺寸。
可选的,训练试题图像的尺寸与统计得到的试题图像的平均尺寸的比值大于1且小于目标比值阈值,其中,该目标比值阈值大于1。
在本申请实施例中,可以预先获取q个已知的试题图像,而后,可以计算该q个已知的试题图像的尺寸的均值,以统计试题图像的平均尺寸。
在本申请实施例中,训练试题图像的尺寸要稍大于统计得到的试题图像的平均尺寸,也即是,训练试题图像的尺寸与统计得到的试题图像的平均尺寸的比值大于1且小于目标比值阈值。这样,在对位置信息输出子网络进行训练时,第一图像特征提取子网络就可以提取到更加细粒度的训练试题图像的特征,从而可以提高训练得到的位置信息输出子网络对答题区域的识别精度。
可选的,在基于Faster-RCNN系统训练位置信息输出子网络时,可以根据统计得到的试题图像的平均尺寸将训练试题图像的尺寸参数TRAIN_SCALE设置为700,将TRAIN-MAX-SCALE设置为1200,相较于将TRAIN-MAX-SCALE设置为1000的方式而言,训练得到的位置信息输出子网络对答题区域的识别精度可以提高6.3%。
2、对于每个训练试题图像,将该训练试题图像输入至第一图像特征提取子网络中,以获取第一图像特征提取子网络对该训练试题图像进行特征提取后输出的训练特征图。
3、对于每个训练试题图像,将该第一图像特征提取子网络输出的训练特征图输入至截取模块中,以获取截取模块利用滑窗算法从训练特征图中截取的多个训练特征区域。
其中,截取模块利用滑窗算法从训练特征图中截取多个训练特征区域的技术过程与上文所述的截取模块利用滑窗算法从第一特征图中截取多个特征区域的技术过程同理,本申请在此不再赘述。
4、对于每个训练试题图像,根据训练试题图像对应的训练位置信息确定每个训练特征区域与训练试题图像中答题区域经过特征提取后得到的区域的重合比例。
对于每个训练试题图像,可以根据该训练试题图像对应的训练位置信息确定该训练试题图像中答题区域的位置和尺寸,继而就可以确定该训练试题图像的答题区域经过第一图像特征提取子网络进行特征提取后得到区域在该训练特征图中的位置和尺寸。而后,就可以确定截取模块截取的每个训练特征区域与训练试题图像的答题区域经过第一图像特征提取子网络进行特征提取后得到区域的重合比例。
5、对于每个训练试题图像,将重合比例高于第一比例阈值的训练特征区域获取为正例,将重合比例低于第二比例阈值但高于第三比例阈值的训练特征区域获取为负例。
其中,第一比例阈值、第二比例阈值和第三比例阈值均可以由技术人员预先进行设置,本申请实施例在此不进行具体限定。
可选的,该第三比例阈值可以小于目标值,该目标值也可以由技术人员预先进行设置,本申请实施例对此不作具体限定。
如图9所示,通常情况下,低年级的试题的答题内容经常可以包括图形或竖式等,这导致低年级的试题的答题区域的内容较为复杂多样,为了提高对低年级的试题中的答题区域的识别精度,通常可以降低负例的选取门限,从而扩大负例的范围,提高负例的丰富性,继而提高对低年级的试题中的答题区域的识别精度。
因此,在本申请实施例中,为了降低负例的选取门限,可以令第三比例阈值小于目标值。
可选的,在基于Faster-RCNN系统训练位置信息输出子网络时,可以将负例选取门限TRAIN_BG_THRESH_LO设置为0,从而保证第三比例阈值小于目标值。将负例选取门限TRAIN_BG_THRESH_LO设置为0相较于传统的将负例选取门限TRAIN_BG_THRESH_LO设置为0.1的方式而言,训练得到的位置信息输出子网络对答题区域的识别精度可以提高4.3%。
上述步骤302至305是对目标试题图像中的目标答题区域进行定位的技术过程。实际应用中,除上述步骤提供的定位方式以外,还可能存在着其他的对目标答题区域进行定位的方式。
例如,在一种可能的定位方式中,可以制作固定版式的目标试题,在固定版式的目标试题中,每一目标答题区域的尺寸和位置都是预先设置好的,计算机设备可以根据预先设置好的尺寸和位置对目标试题中的目标答题区域进行定位。比如说,许多考试中都可以制作固定版式的答题卡(也即是目标试题),在该答题卡中,每一目标答题区域的位置和尺寸都是预先设置好的,计算机设备可以按照预先设置的尺寸和位置对该答题卡中的目标答题区域进行定位。然而,由于在很多情况下并不具备制作固定版式的目标试题的条件,因此,利用这种定位方式对目标答题区域进行定位的通用性不高。
相较于利用固定版式的目标试题对目标答题区域进行定位的方式而言,上述步骤302至305提供的定位方式,计算机设备可以将目标试题图像输入至第一神经网络,由该第一神经网络对该目标试题图像中的目标答题区域进行识别,并输出答题区域位置信息,而后,计算机设备可以根据该答题区域位置信息对目标试题图像中的目标答题区域进行定位,这样,对于版式固定和版式不固定的目标试题而言,均可以利用第一神经网络对其中的目标答题区域进行识别,并根据识别结果对目标答题区域进行定位,因此可以提高对目标答题区域进行定位的通用性。
步骤306、在目标答题区域内截取图像,并将截取的图像获取为目标答题区域内的答题内容的图像。
在定位到目标答题区域(该定位到的目标答题区域可能包含定位到的候选答题区域)之后,可以在目标答题区域内截取图像,并将截取到的图像获取为目标答题区域内的答题内容的图像。在后续步骤中,可以对获取的该答题内容的图像进行识别,并根据识别结果对目标答题区域内的答题内容进行正误判断,而后,输出判断结果。
实际应用中,对答题内容的图像进行识别的结果有可能是错误的,基于错误的识别结果对答题内容做出的正误判断很有可能也是错误的。
为了减小上述状况发生的概率:
在本申请的一个实施例中,可以基于多个不同的截取尺寸,在目标答题区域内截取多个图像,并将截取的该多个图像获取为答题内容的多个不同的图像。
如图10所示,对于目标答题区域c,计算机设备(终端或服务器)可以基于4个不同的截取尺寸,在该目标答题区域内截取4个图像,该4个图像分别为图像1、图像2、图像3和图像4,计算机设备可以将该4个图像均获取为目标答题区域c内的答题内容的图像。
在获取了答题内容的多个不同的图像之后,可以分别对该答题内容的多个不同的图像进行识别,从而得到多个识别结果。
以图10所示为例,计算机设备可以分别对该图像1、图像2、图像3和图像4进行识别,从而得到4个识别结果,该4个识别结果可以分别为:67-32=35、67-32=35、67-32=35和61-32=35。
在得到多个识别结果之后,可以从该多个识别结果中获取目标识别结果,并将该目标识别结果获取为对答题内容的图像进行识别的最终识别结果,其中,目标识别结果为该多个识别结果中出现次数最多的识别结果。可选的,计算机设备(终端或服务器)可以采用多数投票算法从该多个识别结果中获取目标识别结果。
以图10所示为例,由于在4个识别结果中,67-32=35出现的次数最多,因此,计算机设备可以将67-32=35获取为目标识别结果,而后,计算机设备可以将67-32=35获取为对目标答题区域c内的答题内容进行识别的最终识别结果。
步骤307、从神经网络集合中获取第二神经网络。
其中,该神经网络集合可以包括至少一个用于对序列进行识别的神经网络,神经网络集合中的每个神经网络与一种题目的类型相对应,该第二神经网络与目标答题区域所对应的目标题目的类型相对应。
如上文所述,目标题目的类型可以包括单行算式类型、多行算式类型和竖式算式类型等,其中,多行算式类型的目标题目对应的答题内容可以由多个单行算式类型的目标题目对应的答题内容组成。
例如,“2.5(x-4)=1.6x-1”这一目标题目的类型为多行算式类型,其对应的答题内容为:
2.5x-10=1.6x-1
2.5x-9=1.6x
0.9x=9
x=1。
其由4个单行算式类型的目标题目对应的答题内容组成。
因此,在目标答题区域对应的目标题目的类型为多行算式类型时,可以将单行算式类型指定为该目标题目的类型,并从神经网络集合中获取与单行算式类型对应的第二神经网络。
这样,在后续步骤中,计算机设备可以将目标答题区域内的答题内容的图像进行切割,从而得到多个答题内容子图像,其中,每个答题内容子图像中可以包括一行算式,也即是,每个答题内容子图像中可以包含单行算式类型的目标题目对应的答题内容。接着,计算机设备可以将该多个答题内容子图像依次输入至与单行算式类型对应的第二神经网络中,获取该第二神经网络输出的对该多个答题内容子图像进行识别的结果,而后,计算机设备可以根据第二神经网络对该多个答题内容子图像进行识别的结果获取对目标答题区域内的答题内容的图像进行识别的结果。
采用这样的方式可以减少神经网络集合所需包含的神经网络的数量,从而减少对神经网络进行训练的开销。
下面,本申请实施例将对计算机设备将答题内容的图像进行切割的技术过程进行简要说明,该技术过程可以包括步骤A1至A5:
A1、将答题内容的图像进行灰度化处理,得到灰度图像。
A2、对于该灰度图像包括的每个像素行,计算该像素行中所有像素的灰度值之和,得到该像素行的灰度和值。
例如,灰度图像包括的某一像素行包括t个像素,该t个像素的灰度值分别为d1、d2、d3、……、dt,则该像素行的灰度和值为d1+d2+d3+……+dt。
A3、根据该灰度图像中每个像素行的灰度和值确定至少一个目标像素行。
其中,在与该目标像素行相邻的m个像素行中,该目标像素行的灰度和值最大,m为正整数。
本申请实施例提供了一种可选的确定目标像素行的方式,其中,该方式包括a、b和c三个步骤:
a、根据该灰度图像中每个像素行的灰度和值,在目标坐标系中生成多个和值点。
每个和值点在该目标坐标系的x轴上的坐标用于指示该和值点对应的像素行的索引值,每个和值点在该目标坐标系的y轴上的坐标用于指示该和值点对应的灰度和值。
b、在目标坐标系中生成经过该多个和值点的灰度和值变化曲线。
可选的,计算机设备可以对该灰度和值变化曲线进行平滑滤波操作。如图11为灰度图像h对应的灰度和值变化曲线的示意图。
c、将该灰度和值变化曲线的极大值对应的像素行确定为目标像素行。
也即是,将该灰度和值变化曲线的波峰对应的像素行确定为目标像素行。由于经过灰度值处理后,答题内容表现为灰色或黑色,其灰度值较小,而答题内容以外的部分表现为白色,其灰度值较大,因此,目标像素行上的像素位于答题内容中的概率较小。
A4、根据该至少一个目标像素行确定至少一个切割线。
计算机设备(终端或服务器)可以将每个目标像素行所在的直线均确定为切割线。
A5、根据确定的至少一个切割线对答题内容的图像进行切割,得到多个答题内容子图像。
步骤308、将目标答题区域内的答题内容的图像输入至第二神经网络中,获取第二神经网络输出的对该答题内容的图像进行识别的结果。
其中,第二神经网络可以包括相互耦合的第二图像特征提取子网络、序列转化模块、序列识别子网络和输出模块。
1、第二图像特征提取子网络。
第二图像特征提取子网络可以为CNN网络,其用于对答题内容的图像中的特征进行提取,并输出该答题内容的图像的第二特征图。其中,该第二特征图本质上是一个矩阵,该矩阵中的元素即为第二图像特征提取子网络所提取到的答题内容的图像的特征。
在本申请的一个实施例中,该第二图像特征提取子网络可以包括n个卷积神经网络层,n为大于1的正整数,可选的,第二图像特征提取子网络包括的卷积神经网络层的个数n可以等于5。
其中,第i个卷积神经网络层用于对第i个输入子特征图进行卷积操作,从而输出第i个输出子特征图。
当i=1时,该第i个输入子特征图为答题内容的图像,当1<i≤n时,该第i个输入子特征图为第i-1个输出子特征图,第n个输出子特征图即为第二特征图。
需要指出的是,第二图像特征提取子网络包括的每个卷积神经网络层均可以包括依次连接的批处理子层、卷积子层、池化子层和线性修正子层。
下面,本申请实施例将以第二图像特征提取子网络包括的第i个卷积神经网络层为例,对批处理子层、卷积子层、池化子层和线性修正子层进行说明:
a、第i个卷积神经网络层的批处理子层用于对该第i个输入子特征图的行方向上的数据取值和列方向上的数据取值进行归一化处理,得到第一目标输出子特征图。
例如,第i个输入子特征图在行方向上的数据取值范围可以为0到1000,在列方向上的数据取值范围可以为0到100,经过第i个卷积神经网络层的批处理子层的归一化处理之后得到的第一目标输出子特征图在行方向上的数据取值范围可以为0到1,在列方向上的数据取值范围也可以为0到1。经过归一化处理可以简化后续的卷积计算过程。
b、第i个卷积神经网络层的卷积子层用于对第一目标输出子特征图进行卷积计算,得到第二目标输出子特征图。
可选的,若第二图像特征提取子网络包括5个卷积神经网络层,则第1个卷积神经网络层的卷积子层可以包括64个卷积核,第2个卷积神经网络层的卷积子层可以包括128个卷积核,第3个卷积神经网络层的卷积子层可以包括256个卷积核,第4个卷积神经网络层的卷积子层可以包括256个卷积核,第5个卷积神经网络层的卷积子层可以包括512个卷积核,同时,每个卷积神经网络层的卷积子层的卷积核的大小均为3*3。
c、第i个卷积神经网络层的池化子层用于对第二目标输出子特征图进行池化处理,得到第三目标输出子特征图。
下面,本申请实施例将对池化处理的过程进行简要说明,该过程可以包括步骤B1和B2:
B1、利用滑窗算法从第二目标输出子特征图中截取多个特征区域。
其中,截取的特征区域也是矩阵,该矩阵的行数小于第二目标输出子特征图的行数,该矩阵的列数小于第二目标输出子特征图的列数。
B2、对于每个特征区域进行特征提取,得到每个特征区域对应的特征值。
通常情况下,池化处理的方式有最大池化(英文:max pooling)和平均池化(英文:average pooling)两种。
在最大池化方式中,对于每个特征区域,可以将该特征区域(矩阵)中值最大的元素提取为该特征区域对应的特征值。
在平均池化方式中,对于每个特征区域,可以将该特征区域(矩阵)中的元素的平均值提取为该特征区域对应的特征值。
其中,步骤B1中滑窗算法的步长也可以称为池化处理的步长,该池化处理的步长可以包括在行方向上的步长和在列方向上的步长。
在目标答题区域对应的目标题目的类型为对应的答题内容的图像在第二方向上的长度大于在第一方向上的长度的类型时,目标卷积神经网络层的池化子层所进行的池化处理在第二方向上的步长大于在第一方向上的步长。
其中,该目标卷积神经网络层为第二特征提取子网络包括的n个卷积神经网络层中的一个,该第一方向和该第二方向均为行方向和列方向中的一个方向,且,该第一方向和该第二方向不同。
例如,在目标答题区域对应的目标题目为单行算式类型时,由于其对应的答题内容在行方向(第二方向)上的长度大于在列方向(第一方向)上的长度,因此,第二特征提取子网络包括的5(n=5)个卷积神经网络层中最后一个卷积神经网络层的池化子层所进行的池化处理在行方向(第二方向)上的步长为2个元素,在列方向(第一方向)上的步长为1个元素。
又例如,在目标答题区域对应的目标题目为竖式算式类型时,由于其对应的答题内容在列方向(第二方向)上的长度大于在行方向(第一方向)上的长度,因此,第二特征提取子网络包括的5(n=5)个卷积神经网络层中最后一个卷积神经网络层的池化子层所进行的池化处理在行方向(第一方向)上的步长为1个元素,在列方向(第二方向)上的步长为2个元素。
目标卷积神经网络层的池化子层所进行的池化处理在第二方向上的步长大于在第一方向上的步长可以保证目标池化子层在答题内容更加长的方向上获取更细粒度的特征,从而提高识别精度。
在本申请的一个可选的实施例中,第二特征提取子网络包括的5(n=5)个卷积神经网络层中,第1个卷积神经网络层的池化子层所进行的池化处理在行方向上的步长为2个元素,在列方向上的步长也为2个元素,第2个卷积神经网络层的池化子层所进行的池化处理在行方向上的步长为2个元素,在列方向上的步长也为2个元素,第3个卷积神经网络层的池化子层所进行的池化处理在行方向上的步长为1个元素,在列方向上的步长为2个元素,第4个卷积神经网络层的池化子层所进行的池化处理在行方向上的步长为2个元素,在列方向上的步长为1个元素。
d、第i个卷积神经网络层的线性修正子层用于对第三目标输出子特征图进行激励操作,得到并输出该第i个输出子特征图。
这里所谓的激励操作指的是利用激励函数对第三目标输出子特征图进行非线性变换操作,通常情况下,该激励函数可以为线性修正(英文:Rectified Linear)函数。
2、序列转化模块。
该序列转化模块用于将第二图像特征提取子网络输出的第二特征图转化为特征序列。
可选的,当第二特征图为m*n的矩阵时,序列转化模块可以将该第二特征图转化为1*mn的矩阵,该1*mn的矩阵中的元素与m*n的矩阵中的元素相同,该1*mn的矩阵即为特征序列。
例如,第二特征图可以为3*3的矩阵,该矩阵为:
Figure BDA0001911717340000261
序列转化模块可以将该3*3的矩阵转化为1*9的矩阵,该矩阵即为特征序列,该矩阵为:
[1 2 3 0 1 1 2 5 4]。
3、序列识别子网络。
该序列识别子网络用于对序列转化模块输出的特征序列进行识别,并输出识别结果。
在本申请的一个实施例中,序列识别子网络可以包括编码器和解码器。可选的,该编码器可以为双向长短时记忆循环神经网络,该解码器可以为单向长短时循环神经网络,该双向长短时记忆循环神经网络可以包括1个隐藏层,该隐藏层可以包括128个节点,该单向长短时循环神经网络可以包括1个隐藏层,该隐藏层可以包括256个节点。
a、编码器。
该编码器用于对序列转化模块输出的特征序列进行非线性变换处理,得到中间语义序列。
编码器的作用可以用数学语言进行如下表示:
C=F(X)。
其中,C为中间语义序列,X为特征序列,F为非线性变换函数。
b、解码器。
该解码器可以采用注意力机制将编码器输出的中间语义序列转化为目标语义序列,其中,该目标语义序列即为对特征序列进行识别的结果。
解码器的作用可以用数学语言进行如下表示:
yi=G(C,a1×y1,a2×y2,……,ai-1×yi-1)。
其中,yn为目标语义序列中的第n个元素,an为目标语义序列中的第n个元素对应的注意力分配系数,在生成目标语义序列中的第i个元素时,注意力分配系数满足:a1+a2+……+ai-1=1。
由上述公式可知,目标语义序列中的某一元素可以根据中间语义序列和目标语义序列中位于该元素之前的元素得到,换句话说,解码器可以利用目标语义序列中已经识别得到的元素对还未识别的元素进行识别,相较于对单个元素一一进行孤立识别的方式而言,这种方式可以提高识别的准确性。
4、输出模块。
输出模块用于根据目标语义序列获取并输出对答题内容的图像进行识别的结果。可选的,输出模块可以将目标语义序列转化为对应的数学字符序列,并将该数学字符序列获取为对答题内容的图像进行识别的结果。
例如,对答题内容的图像进行识别的结果可以为以下数学字符序列:9512-3196=6316。
步骤309、根据对答题内容的图像进行识别的结果对该答题内容进行正误判断,并输出判断结果。
如上述举例,对答题内容的图像进行识别的结果可以为:9512-3196=6316。在步骤309中,可以对识别结果9512-3196=6316进行正误判断,并输出判断结果,该判断结果可以为:正确。
综上所述,本申请实施例提供的自动阅卷方法,通过计算机设备获取目标试题图像,其中,该目标试题图像包括至少一个目标答题区域,而后,计算机设备在该目标试题图像中定位目标答题区域,并获取定位到的目标答题区域所对应的目标题目的类型,接着,计算机设备根据该目标题目的类型,对定位到的目标答题区域内的答题内容的图像进行识别,并根据识别结果对答题内容进行正误判断,而后,计算机设备输出判断结果,这样,阅卷的工作就能够由计算机设备自动完成,因此,可以大大提高试题的批改效率。
请参考图12,其示出了本申请实施例提供的一种自动阅卷方法的流程图,该自动阅卷方法可以应用于图1中的终端100中。如图12所示,该自动阅卷方法可以包括以下步骤:
步骤401、终端启动自动阅卷应用程序。
终端中可以安装有该自动阅卷应用程序,可选的,如图13所示,终端可以在桌面中显示该自动阅卷应用程序的图标a,当检测到对该自动阅卷应用程序的图标a的触发操作后,终端可以启动自身中安装的自动阅卷应用程序。
步骤402、终端通过自动阅卷应用程序获取目标试题图像。
该目标试题图像可以包括至少一个目标答题区域,其中,该至少一个目标答题区域可以与该目标试题图像包括的至少一个目标题目一一对应,每个目标答题区域包括与该目标答题区域对应的目标题目的答题内容的图像。
在启动了自动阅卷应用程序之后,终端可以显示图像获取界面。可选的,如图14所示,该图像获取界面可以包括扫描选项s1,在检测到对该扫描选项s1的触发操作后,终端可以开启摄像头,并利用摄像头对目标试题进行拍摄,从而得到目标试题图像。
可选的,如图14所示,该图像获取界面还可以包括本地获取选项s2,在检测到对本地获取选项s2的触发操作后,终端可以展示本地文件列表,当检测到对本地文件列表中的某一图像文件的选择操作后,终端可以将该被选中的图像文件获取为目标试题图像。
步骤403、终端显示自动阅卷应用程序的自动阅卷界面。
终端在获取了目标试题图像后可以显示自动阅卷界面,其中,如图15所示,该自动阅卷界面可以包括自动阅卷选项s3。
步骤404、当检测到对自动阅卷选项的触发操作后,终端输出答题内容的正误判断结果。
需要指出的是,该答题内容的正误判断结果是在目标试题图像中定位目标答题区域,获取目标题目的类型,根据目标题目的类型,对定位到的目标答题区域内的答题内容的图像进行识别后,根据识别结果得到的。其技术过程与上述方法实施例中所述的同理,本申请实施例在此不再赘述。
可选的,当检测到对自动阅卷选项的触发操作后,终端还可以输出对答题内容进行识别的结果。
图16为在检测到对自动阅卷选项的触发操作后,终端输出的内容的示意图,如图16所示,终端输出的内容可以包括对答题内容进行识别的结果v和答题内容的正误判断结果z。
可选的,当检测到对自动阅卷选项的触发操作后,终端还可以在目标试题图像中显示至少一个标示框,其中,每个标示框中包含目标答题区域。
可选的,每个标示框的颜色可以用于指示目标题目的类型。
终端在目标试题图像中显示至少一个标示框的形式可以如图7所示,本申请实施例在此不再赘述。
可选的,在步骤404中,终端可以在检测到对自动阅卷选项的触发操作后,将该目标试题图像发送至服务器,由服务器执行“在目标试题图像中定位目标答题区域,获取目标题目的类型,根据目标题目的类型,对定位到的目标答题区域内的答题内容的图像进行识别后,根据识别结果得到答题内容的正误判断结果”的技术过程,终端可以接收服务器返回的该答题内容的正误判断结果。
可选的,终端中可以存储有上文所述的第一神经网络和神经网络集合,此时,在步骤404中,终端可以在检测到对自动阅卷选项的触发操作后,执行“在目标试题图像中定位目标答题区域,获取目标题目的类型,根据目标题目的类型,对定位到的目标答题区域内的答题内容的图像进行识别后,根据识别结果得到答题内容的正误判断结果”的技术过程,并输出该答题内容的正误判断结果。
综上所述,本申请实施例提供的自动阅卷方法,通过终端在启动自动阅卷应用程序后,通过该自动阅卷应用程序获取目标试题图像,并在检测到对自动阅卷选项的触发操作后,输出答题内容的正误判断结果,其中,该答题内容的正误判断结果是在目标试题图像中定位目标答题区域,获取目标题目的类型,根据目标题目的类型,对定位到的目标答题区域内的答题内容的图像进行识别后,根据识别结果得到的,这样,阅卷的工作就能够由计算机设备自动完成,因此,可以大大提高试题的批改效率。
请参考图17,其示出了本申请实施例提供的一种自动阅卷装置500的框图,该自动阅卷装置500可以配置于图1中的服务器200或者终端100中。如图17所示,该自动阅卷装置500可以包括:第一获取模块501、第一定位模块502、识别模块503和输出模块504。
其中,该第一获取模块501,用于获取目标试题图像,该目标试题图像包括至少一个目标答题区域,该目标答题区域内包括目标题目的答题内容的图像,该目标题目是该目标答题区域所对应的题目。
该第一定位模块502,用于在该目标试题图像中定位该目标答题区域,并获取该目标题目的类型。
该识别模块503,用于根据该目标题目的类型,对定位到的该目标答题区域内的该答题内容的图像进行识别。
该输出模块504,用于根据识别结果对该答题内容进行正误判断,并输出判断结果。
在本申请的一个实施例中,该第一定位模块502,具体用于:将该目标试题图像输入至第一神经网络中,获取该第一神经网络输出的答题区域位置信息,该答题区域位置信息用于指示在该目标试题图像中该目标答题区域的位置和尺寸;根据该答题区域位置信息在该目标试题图像中定位该目标答题区域。
在本申请的一个实施例中,该第一神经网络包括第一图像特征提取子网络和位置信息输出子网络,该第一定位模块502,包括:
第一获取子模块,用于将该目标试题图像输入至该第一图像特征提取子网络中,获取该第一图像特征提取子网络对该目标试题图像进行特征提取后输出的第一特征图。
第二获取子模块,用于将该第一特征图输入至该位置信息输出子网络中,获取该位置信息输出子网络输出的该答题区域位置信息。
在本申请的一个实施例中,该第一神经网络还包括截取模块,该第二获取子模块,具体用于将该第一特征图输入至该截取模块中,获取该截取模块利用滑窗算法从该第一特征图中截取的多个特征区域;将该多个特征区域输入至该位置信息输出子网络中,通过该位置信息输出子网络识别每个该特征区域是否为该目标答题区域经过特征提取后得到的区域;通过该位置信息输出子网络根据识别结果获取目标特征区域,该目标特征区域是该目标答题区域经过特征提取后得到的区域;获取该位置信息输出子网络输出的该答题区域位置信息,该答题区域位置信息是根据特征区域位置信息得到的,该特征区域位置信息用于指示在该第一特征图中该目标特征区域的位置和尺寸。
在本申请的一个实施例中,该特征区域的尺寸位于尺寸集合中,该尺寸集合包括对p个答题区域进行特征提取后得到的p个区域的尺寸进行聚类后得到的多个类中心,p为正整数。
在本申请的一个实施例中,该第一定位模块502,用于在将该目标试题图像输入至该第一神经网络中后,获取该第一神经网络输出的答题区域类型信息,该答题区域类型信息用于指示该目标题目的类型。
在本申请的一个实施例中,该第一神经网络还包括试题类型识别子网络,该第一定位模块502,用于:将该答题区域位置信息输入至该试题类型识别子网络中,获取该试题类型识别子网络根据该答题区域位置信息所指示的该目标答题区域的尺寸而输出的该答题区域类型信息。
在本申请的一个实施例中,该识别模块503,用于从神经网络集合中获取与该目标题目的类型对应的第二神经网络,该神经网络集合包括至少一个用于对序列进行识别的神经网络,每个该神经网络与一种题目的类型相对应;将该答题内容的图像输入至该第二神经网络中,获取该第二神经网络输出的对该答题内容的图像进行识别的结果。
在本申请的一个实施例中,该第二神经网络包括第二图像特征提取子网络和序列识别子网络,该识别模块503包括第三获取子模块、转化子模块、第四获取子模块和第五获取子模块。
其中,第三获取子模块,用于将该答题内容的图像输入至该第二图像特征提取子网络中,获取该第二图像特征提取子网络对该答题内容的图像进行特征提取后输出的第二特征图。
转换子模块,用于将该第二特征图转化为特征序列。
第四获取子模块,用于将该特征序列输入至该序列识别子网络中,获取该序列识别子网络输出的对该特征序列进行识别的结果。
第五获取子模块,用于根据对该特征序列进行识别的结果获取对该答题内容的图像进行识别的结果。
在本申请的一个实施例中,该第二图像特征提取子网络包括n个卷积神经网络层,n为大于1的正整数,该第三获取子模块,用于将该答题内容的图像输入至该第二图像特征提取子网络的第一个卷积神经网络层中;通过该第二图像特征提取子网络的第i个卷积神经网络层对第i个输入子特征图进行卷积操作,输出第i个输出子特征图,其中,当i=1时,该第i个输入子特征图为该答题内容的图像,当1<i≤n时,该第i个输入子特征图为第i-1个输出子特征图;将该第二图像特征提取子网络的第n个卷积神经网络层输出的第n个输出子特征图获取为该第二特征图。
在本申请的一个实施例中,该卷积神经网络层包括依次连接的批处理子层、卷积子层、池化子层和线性修正子层,该第三获取子模块,用于:将该第i个输入子特征图输入至该批处理子层,通过该批处理子层对该第i个输入子特征图的行方向上的数据取值和列方向上的数据取值进行归一化处理,得到第一目标输出子特征图;将该第一目标输出子特征图输入至该卷积子层,通过该卷积子层对该第一目标输出子特征图进行卷积计算,得到第二目标输出子特征图;将该第二目标输出子特征图输入至该池化子层,通过该池化子层对该第二目标输出子特征图进行池化处理,得到第三目标输出子特征图;将该第三目标输出子特征图输入至该线性修正子层,通过该线性修正子层对该第三目标输出子特征图进行激励操作,得到并输出该第i个输出子特征图。
在本申请的一个实施例中,在该目标题目的类型为对应的答题内容的图像在第二方向上的长度大于在第一方向上的长度的类型时,目标卷积神经网络层中的池化子层所进行的池化处理在该第二方向上的步长大于在该第一方向上的步长;该目标卷积神经网络层为该n个卷积神经网络层中的一个,该第一方向和该第二方向均为行方向和列方向中的一个方向,且,该第一方向和该第二方向不同。
在本申请的一个实施例中,该序列识别子网络包括编码器和解码器,该第四获取子模块,用于:将该特征序列输入至该编码器中,通过该编码器对该特征序列进行非线性变换处理,得到中间语义序列;将该中间语义序列输入至该解码器中,通过该解码器采用注意力机制将该中间语义序列转化为目标语义序列;将该目标语义序列获取为对该特征序列进行识别的结果。
在本申请的一个实施例中,该编码器为双向长短时记忆循环神经网络,该解码器为单向长短时循环神经网络。
在本身亲改的一个实施例中,第二神经网络还包括输出模块,该第五获取子模块,用于:将该目标语义序列输入至该输出模块,通过该输出模块将该目标语义序列转化为对应的数学字符序列;将该数学字符序列获取为对该答题内容的图像进行识别的结果。
在本申请的一个实施例中,该识别模块503,用于当获取到的该目标题目的类型为多行算式类型时,将单行算式类型指定为该目标题目的类型;从该神经网络集合中获取与该单行算式类型对应的该第二神经网络。
在本申请的一个实施例中,该识别模块503,用于当获取到的该目标题目的类型为多行算式类型时,将该答题内容的图像进行切割,得到多个答题内容子图像,每个该答题内容子图像中包括一行算式;将该多个答题内容子图像依次输入至该第二神经网络中,获取该第二神经网络输出的对该多个答题内容子图像进行识别的结果;根据对该多个答题内容子图像进行识别的结果获取对该答题内容的图像进行识别的结果。
在本申请的一个实施例中,该识别模块503,用于将该答题内容的图像进行灰度化处理,得到灰度图像;对于该灰度图像包括的每个像素行,计算该像素行中所有像素的灰度值之和,得到该像素行的灰度和值;根据每个该像素行的灰度和值确定至少一个目标像素行,在与该目标像素行相邻的m个像素行中,该目标像素行的灰度和值最大,m为正整数;根据该至少一个目标像素行确定至少一个切割线,根据确定的该至少一个切割线对该答题内容的图像进行切割,得到该多个答题内容子图像。
在本申请的一个实施例中,该识别模块503,用于根据每个该像素行的灰度和值生成灰度和值变化曲线;将该灰度和值变化曲线的极大值对应的像素行确定为该目标像素行。
在本申请的一个实施例中,该识别模块503,用于基于多个不同的截取尺寸,在定位到的该目标答题区域内截取多个图像,将截取的该多个图像获取为该答题内容的多个不同的图像;根据该目标题目的类型,分别对该答题内容的多个不同的图像进行识别,得到多个识别结果;从该多个识别结果中获取目标识别结果,该目标识别结果是该多个识别结果中出现次数最多的识别结果;将该目标识别结果获取为对该答题内容的图像进行识别的最终识别结果。
请参考图18,本申请实施例还提供了一种自动阅卷装置600,该自动阅卷装置600除了包括自动阅卷装置500包括的各模块外,还包括标签添加模块505、确定模块506、第二定位模块507、第二获取模块508、训练模块509。
其中,该标签添加模块505,用于根据该目标题目的类型对在该目标试题图像中定位到的该目标答题区域添加题目类型标签。
该确定模块506,用于在根据该答题区域位置信息在该目标试题图像中定位到的该目标答题区域的个数大于目标个数阈值时,确定定位到的该目标答题区域的分布是否符合目标版式。
该第二定位模块507,用于在定位到的该目标答题区域的分布不符合该目标版式时,在该目标试题图像中定位候选答题区域,其中,定位到的该候选答题区域和定位到的该目标答题区域共同的分布符合该目标版式。
该第二获取模块508,用于将定位到的该候选答题区域获取为该目标答题区域。
在本申请的一个实施例中,该答题区域位置信息用于指示在该目标试题图像中该目标答题区域的尺寸和中心点的坐标;该确定模块506,具体用于根据该答题区域位置信息对定位到的该目标答题区域的中心点在x轴和y轴上的坐标值分别进行聚类,得到m个x轴坐标类中心和n个y轴坐标类中心,m和n为正整数;确定候选中心点集合中是否存在目标候选中心点,该目标候选中心点与定位到的该目标答题区域的中心点的距离大于目标距离阈值,该候选中心点集合包括m*n个候选中心点,该候选中心点的x轴坐标值属于该m个x轴坐标类中心,该候选中心点的y轴坐标值属于该n个y轴坐标类中心;当该候选中心点集合中存在该目标候选中心点时,确定定位到的该目标答题区域的分布不符合该目标版式;当该候选中心点集合中不存在该目标候选中心点时,确定定位到的该目标答题区域的分布符合该目标版式。
在本申请的一个实施例中,该候选答题区域的中心点为该目标候选中心点,该候选答题区域的尺寸为定位到的该目标答题区域的尺寸的均值。
该训练模块509,用于获取多个训练试题图像和与该多个训练试题图像一一对应的多个训练位置信息,每个该训练位置信息用于指示在对应的该训练试题图像中答题区域的位置和尺寸;对于每个该训练试题图像,将该训练试题图像输入至该第一图像特征提取子网络中,获取该第一图像特征提取子网络对该训练试题图像进行特征提取后输出的训练特征图;对于每个该训练试题图像,将该第一图像特征提取子网络输出的该训练特征图输入至该截取模块中,获取该截取模块利用滑窗算法从该训练特征图中截取的多个训练特征区域;对于每个该训练试题图像,根据该训练试题图像对应的该训练位置信息确定每个该训练特征区域与该训练试题图像中答题区域经过特征提取后得到的区域的重合比例;对于每个该训练试题图像,将重合比例高于第一比例阈值的该训练特征区域获取为正例,将重合比例低于第二比例阈值但高于第三比例阈值的该训练特征区域获取为负例,该正例和该负例用于对该位置信息输出子网络进行训练。
在本申请的一个实施例中,该第三比例阈值小于目标值。
在本申请的一个实施例中,该训练试题图像的尺寸与统计得到的试题图像的平均尺寸的比值大于1且小于目标比值阈值,该目标比值阈值大于1。
综上所述,本申请实施例提供的自动阅卷装置,通过获取目标试题图像,其中,该目标试题图像包括至少一个目标答题区域,而后,在该目标试题图像中定位目标答题区域,并获取定位到的目标答题区域所对应的目标题目的类型,接着,根据该目标题目的类型,对定位到的目标答题区域内的答题内容的图像进行识别,并根据识别结果对答题内容进行正误判断,而后,输出判断结果,这样,阅卷的工作就能够由自动阅卷装置自动完成,因此,可以大大提高试题的批改效率。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
请参考图19,其示出了本申请实施例提供的一种自动阅卷装置700的框图,该自动阅卷装置700可以配置于图1中的终端100中。如图19所示,该自动阅卷装置700可以包括:程序启动模块701、获取模块702、显示模块703和输出模块704。
该程序启动模块701,用于启动自动阅卷应用程序。
该获取模块702,用于通过该自动阅卷应用程序获取目标试题图像,该目标试题图像包括至少一个目标答题区域,该目标答题区域内包括目标题目的答题内容的图像,该目标题目是该目标答题区域所对应的题目。
该显示模块703,用于显示该自动阅卷应用程序的自动阅卷界面,该自动阅卷界面包括自动阅卷选项。
该输出模块704,用于在检测到对该自动阅卷选项的触发操作后,输出该答题内容的正误判断结果。
其中,该答题内容的正误判断结果是在该目标试题图像中定位该目标答题区域,获取该目标题目的类型,根据该目标题目的类型,对定位到的该目标答题区域内的该答题内容的图像进行识别后,根据识别结果得到的。
在本申请的一个实施例中,该输出模块704,还用于:当检测到对该自动阅卷选项的触发操作后,在该目标试题图像中显示至少一个标示框,其中,该标示框中包含该目标答题区域,该标示框的颜色用于指示该目标题目的类型。
综上所述,本申请实施例提供的自动阅卷装置,通过在启动自动阅卷应用程序后,通过该自动阅卷应用程序获取目标试题图像,并在检测到对自动阅卷选项的触发操作后,输出答题内容的正误判断结果,其中,该答题内容的正误判断结果是在目标试题图像中定位目标答题区域,获取目标题目的类型,根据目标题目的类型,对定位到的目标答题区域内的答题内容的图像进行识别后,根据识别结果得到的,这样,阅卷的工作就能够由计算机设备自动完成,因此,可以大大提高试题的批改效率。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图20示出了本申请一个示例性实施例提供的自动阅卷装置的框图,该自动阅卷装置可以为终端800。该终端800可以是:智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端800包括有:处理器801和存储器802。
处理器801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器801可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器801还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的自动阅卷方法。
在一些实施例中,终端800还可选包括有:外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地,外围设备包括:射频电路804、触摸显示屏805、摄像头806、音频电路807、定位组件808和电源809中的至少一种。
外围设备接口803可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中,处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上;在一些其他实施例中,处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路804用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路804包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路804还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏805用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时,显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时,显示屏805还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏805可以为一个,设置终端800的前面板;在另一些实施例中,显示屏805可以为至少两个,分别设置在终端800的不同表面或呈折叠设计;在再一些实施例中,显示屏805可以是柔性显示屏,设置在终端800的弯曲表面上或折叠面上。甚至,显示屏805还可以设置成非矩形的不规则图形,也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件806用于采集图像或视频。可选地,摄像头组件806包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器801进行处理,或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路807还可以包括耳机插孔。
定位组件808用于定位终端800的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于:加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。
加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号,控制触摸显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器812可以检测终端800的机体方向及转动角度,陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器813可以设置在终端800的侧边框和/或触摸显示屏805的下层。当压力传感器813设置在终端800的侧边框时,可以检测用户对终端800的握持信号,由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在触摸显示屏805的下层时,由处理器801根据用户对触摸显示屏805的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器814用于采集用户的指纹,由处理器801根据指纹传感器814采集到的指纹识别用户的身份,或者,由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器801授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时,指纹传感器814可以与物理按键或厂商Logo集成在一起。
光学传感器815用于采集环境光强度。在一个实施例中,处理器801可以根据光学传感器815采集的环境光强度,控制触摸显示屏805的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏805的显示亮度;当环境光强度较低时,调低触摸显示屏805的显示亮度。在另一个实施例中,处理器801还可以根据光学传感器815采集的环境光强度,动态调整摄像头组件806的拍摄参数。
接近传感器816,也称距离传感器,通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中,当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时,由处理器801控制触摸显示屏805从亮屏状态切换为息屏状态;当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时,由处理器801控制触摸显示屏805从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图20中示出的结构并不构成对终端800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图21是根据一示例性实施例示出的一种自动阅卷装置的框图,该自动阅卷装置可以为服务器。所述服务器900包括中央处理单元(CPU)901、包括随机存取存储器(RAM)902和只读存储器(ROM)903的系统存储器904,以及连接系统存储器904和中央处理单元901的系统总线905。所述服务器900还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)906,和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。
所述基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中所述显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。所述基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。所述大容量存储设备907及其相关联的计算机可读介质为服务器900提供非易失性存储。也就是说,所述大容量存储设备907可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。
根据本申请的各种实施例,所述服务器900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器900可以通过连接在所述系统总线905上的网络接口单元911连接到网络912,或者说,也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理器901通过执行该一个或一个以上程序来实现本申请实施例提供的自动阅卷方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由服务器的处理器执行以完成本申请实施例提供的自动阅卷方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本申请实施例还提供了一种计算机可读存储介质,该存储介质为非易失性存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由处理器加载并执行以实现如本申请上述实施例提供的自动阅卷方法。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品中存储有指令,当其在计算机上运行时,使得计算机能够执行本申请实施例提供的自动阅卷方法。
本申请实施例还提供了一种芯片,该芯片包括可编程逻辑电路和/或程序指令,当该芯片运行时能够执行本申请实施例提供的自动阅卷方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (35)

1.一种自动阅卷方法,其特征在于,所述方法包括:
获取目标试题图像,所述目标试题图像包括至少一个目标答题区域,所述目标答题区域内包括目标题目的答题内容的图像,所述目标题目是所述目标答题区域所对应的题目;
将所述目标试题图像输入至第一神经网络中,获取所述第一神经网络输出的答题区域位置信息,所述答题区域位置信息用于指示在所述目标试题图像中所述目标答题区域的位置和尺寸;根据所述答题区域位置信息在所述目标试题图像中定位所述目标答题区域,并获取所述目标题目的类型;
当定位到的所述目标答题区域的个数大于目标个数阈值时,确定定位到的所述目标答题区域的分布是否符合目标版式;当定位到的所述目标答题区域的分布不符合所述目标版式时,在所述目标试题图像中定位候选答题区域,其中,定位到的所述候选答题区域和定位到的所述目标答题区域共同的分布符合所述目标版式;将定位到的所述候选答题区域获取为所述目标答题区域;
基于多个不同的截取尺寸,在定位到的所述目标答题区域内截取多个图像,将截取的所述多个图像获取为所述答题内容的多个不同的图像;根据所述目标题目的类型,分别对所述答题内容的多个不同的图像进行识别,得到多个识别结果;从所述多个识别结果中获取目标识别结果,所述目标识别结果是所述多个识别结果中出现次数最多的识别结果;将所述目标识别结果获取为对所述答题内容的图像进行识别的最终识别结果;
根据识别结果对所述答题内容进行正误判断,并输出判断结果。
2.根据权利要求1所述的方法,其特征在于,所述第一神经网络包括第一图像特征提取子网络和位置信息输出子网络,所述将所述目标试题图像输入至第一神经网络中,获取所述第一神经网络输出的答题区域位置信息,包括:
将所述目标试题图像输入至所述第一图像特征提取子网络中,获取所述第一图像特征提取子网络对所述目标试题图像进行特征提取后输出的第一特征图;
将所述第一特征图输入至所述位置信息输出子网络中,获取所述位置信息输出子网络输出的所述答题区域位置信息。
3.根据权利要求2所述的方法,其特征在于,所述第一神经网络还包括截取模块,所述将所述第一特征图输入至所述位置信息输出子网络中,获取所述位置信息输出子网络输出的所述答题区域位置信息,包括:
将所述第一特征图输入至所述截取模块中,获取所述截取模块利用滑窗算法从所述第一特征图中截取的多个特征区域;
将所述多个特征区域输入至所述位置信息输出子网络中,通过所述位置信息输出子网络识别每个所述特征区域是否为所述目标答题区域经过特征提取后得到的区域;
通过所述位置信息输出子网络根据识别结果获取目标特征区域,所述目标特征区域是所述目标答题区域经过特征提取后得到的区域;
获取所述位置信息输出子网络输出的所述答题区域位置信息,所述答题区域位置信息是根据特征区域位置信息得到的,所述特征区域位置信息用于指示在所述第一特征图中所述目标特征区域的位置和尺寸。
4.根据权利要求1所述的方法,其特征在于,所述获取所述目标题目的类型,包括:
在将所述目标试题图像输入至所述第一神经网络中后,获取所述第一神经网络输出的答题区域类型信息,所述答题区域类型信息用于指示所述目标题目的类型。
5.根据权利要求4所述的方法,其特征在于,所述第一神经网络还包括试题类型识别子网络,所述获取所述第一神经网络输出的答题区域类型信息,包括:
将所述答题区域位置信息输入至所述试题类型识别子网络中,获取所述试题类型识别子网络根据所述答题区域位置信息所指示的所述目标答题区域的尺寸而输出的所述答题区域类型信息。
6.根据权利要求1所述的方法,其特征在于,所述答题区域位置信息用于指示在所述目标试题图像中所述目标答题区域的尺寸和中心点的坐标;所述确定定位到的所述目标答题区域的分布是否符合目标版式,包括:
根据所述答题区域位置信息对定位到的所述目标答题区域的中心点在x轴和y轴上的坐标值分别进行聚类,得到m个x轴坐标类中心和n个y轴坐标类中心,m和n为正整数;
确定候选中心点集合中是否存在目标候选中心点,所述目标候选中心点与定位到的所述目标答题区域的中心点的距离大于目标距离阈值,所述候选中心点集合包括m*n个候选中心点,所述候选中心点的x轴坐标值属于所述m个x轴坐标类中心,所述候选中心点的y轴坐标值属于所述n个y轴坐标类中心;
当所述候选中心点集合中存在所述目标候选中心点时,确定定位到的所述目标答题区域的分布不符合所述目标版式;
当所述候选中心点集合中不存在所述目标候选中心点时,确定定位到的所述目标答题区域的分布符合所述目标版式。
7.根据权利要求6所述的方法,其特征在于,所述候选答题区域的中心点为所述目标候选中心点,所述候选答题区域的尺寸为定位到的所述目标答题区域的尺寸的均值。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从神经网络集合中获取与所述目标题目的类型对应的第二神经网络,所述神经网络集合包括至少一个用于对序列进行识别的神经网络,每个所述神经网络与一种题目的类型相对应;
将所述答题内容的图像输入至所述第二神经网络中,获取所述第二神经网络输出的对所述答题内容的图像进行识别的结果。
9.根据权利要求8所述的方法,其特征在于,所述第二神经网络包括第二图像特征提取子网络和序列识别子网络,所述将所述答题内容的图像输入至所述第二神经网络中,获取所述第二神经网络输出的对所述答题内容的图像进行识别的结果,包括:
将所述答题内容的图像输入至所述第二图像特征提取子网络中,获取所述第二图像特征提取子网络对所述答题内容的图像进行特征提取后输出的第二特征图;
将所述第二特征图转化为特征序列;
将所述特征序列输入至所述序列识别子网络中,获取所述序列识别子网络输出的对所述特征序列进行识别的结果;
根据对所述特征序列进行识别的结果获取对所述答题内容的图像进行识别的结果。
10.根据权利要求9所述的方法,其特征在于,所述第二图像特征提取子网络包括n个卷积神经网络层,n为大于1的正整数;所述将所述答题内容的图像输入至所述第二图像特征提取子网络中,获取所述第二图像特征提取子网络对所述答题内容的图像进行特征提取后输出的第二特征图,包括:
将所述答题内容的图像输入至所述第二图像特征提取子网络的第一个卷积神经网络层中;
通过所述第二图像特征提取子网络的第i个卷积神经网络层对第i个输入子特征图进行卷积操作,输出第i个输出子特征图,其中,当i=1时,所述第i个输入子特征图为所述答题内容的图像,当1<i≤n时,所述第i个输入子特征图为第i-1个输出子特征图;
将所述第二图像特征提取子网络的第n个卷积神经网络层输出的第n个输出子特征图获取为所述第二特征图。
11.根据权利要求10所述的方法,其特征在于,所述卷积神经网络层包括依次连接的批处理子层、卷积子层、池化子层和线性修正子层,所述通过所述第二图像特征提取子网络的第i个卷积神经网络层对第i个输入子特征图进行卷积操作,输出第i个输出子特征图,包括:
将所述第i个输入子特征图输入至所述批处理子层,通过所述批处理子层对所述第i个输入子特征图的行方向上的数据取值和列方向上的数据取值进行归一化处理,得到第一目标输出子特征图;
将所述第一目标输出子特征图输入至所述卷积子层,通过所述卷积子层对所述第一目标输出子特征图进行卷积计算,得到第二目标输出子特征图;
将所述第二目标输出子特征图输入至所述池化子层,通过所述池化子层对所述第二目标输出子特征图进行池化处理,得到第三目标输出子特征图;
将所述第三目标输出子特征图输入至所述线性修正子层,通过所述线性修正子层对所述第三目标输出子特征图进行激励操作,得到并输出所述第i个输出子特征图。
12.根据权利要求10所述的方法,其特征在于,在所述目标题目的类型为对应的答题内容的图像在第二方向上的长度大于在第一方向上的长度的类型时,目标卷积神经网络层中的池化子层所进行的池化处理在所述第二方向上的步长大于在所述第一方向上的步长;
所述目标卷积神经网络层为所述n个卷积神经网络层中的一个,所述第一方向和所述第二方向均为行方向和列方向中的一个方向,且,所述第一方向和所述第二方向不同。
13.根据权利要求9所述的方法,其特征在于,所述序列识别子网络包括编码器和解码器,所述将所述特征序列输入至所述序列识别子网络中,获取所述序列识别子网络输出的对所述特征序列进行识别的结果,包括:
将所述特征序列输入至所述编码器中,通过所述编码器对所述特征序列进行非线性变换处理,得到中间语义序列;
将所述中间语义序列输入至所述解码器中,通过所述解码器采用注意力机制将所述中间语义序列转化为目标语义序列;
将所述目标语义序列获取为对所述特征序列进行识别的结果。
14.根据权利要求13所述的方法,其特征在于,所述编码器为双向长短时记忆循环神经网络,所述解码器为单向长短时循环神经网络。
15.根据权利要求13所述的方法,其特征在于,所述第二神经网络还包括输出模块,所述根据对所述特征序列进行识别的结果获取对所述答题内容的图像进行识别的结果,包括:
将所述目标语义序列输入至所述输出模块,通过所述输出模块将所述目标语义序列转化为对应的数学字符序列;
将所述数学字符序列获取为对所述答题内容的图像进行识别的结果。
16.根据权利要求8所述的方法,其特征在于,所述从神经网络集合中获取与所述目标题目的类型对应的第二神经网络,包括:
当获取到的所述目标题目的类型为多行算式类型时,将单行算式类型指定为所述目标题目的类型;
从所述神经网络集合中获取与所述单行算式类型对应的所述第二神经网络。
17.根据权利要求8所述的方法,其特征在于,所述将所述答题内容的图像输入至所述第二神经网络中,获取所述第二神经网络输出的对所述答题内容的图像进行识别的结果,包括:
当获取到的所述目标题目的类型为多行算式类型时,将所述答题内容的图像进行切割,得到多个答题内容子图像,每个所述答题内容子图像中包括一行算式;
将所述多个答题内容子图像依次输入至所述第二神经网络中,获取所述第二神经网络输出的对所述多个答题内容子图像进行识别的结果;
根据对所述多个答题内容子图像进行识别的结果获取对所述答题内容的图像进行识别的结果。
18.根据权利要求17所述的方法,其特征在于,所述将所述答题内容的图像进行切割,得到多个答题内容子图像,包括:
将所述答题内容的图像进行灰度化处理,得到灰度图像;
对于所述灰度图像包括的每个像素行,计算所述像素行中所有像素的灰度值之和,得到所述像素行的灰度和值;
根据每个所述像素行的灰度和值确定至少一个目标像素行,在与所述目标像素行相邻的m个像素行中,所述目标像素行的灰度和值最大,m为正整数;
根据所述至少一个目标像素行确定至少一个切割线,根据确定的所述至少一个切割线对所述答题内容的图像进行切割,得到所述多个答题内容子图像。
19.根据权利要求18所述的方法,其特征在于,所述根据每个所述像素行的灰度和值确定至少一个目标像素行,包括:
根据每个所述像素行的灰度和值生成灰度和值变化曲线;
将所述灰度和值变化曲线的极大值对应的像素行确定为所述目标像素行。
20.根据权利要求1至19任一所述的方法,其特征在于,所述方法还包括:
根据所述目标题目的类型对在所述目标试题图像中定位到的所述目标答题区域添加题目类型标签。
21.根据权利要求1至19任一所述的方法,其特征在于,所述第一神经网络包括第一图像特征提取子网络、截取模块和位置信息输出子网络,所述将所述目标试题图像输入至第一神经网络中之前,所述方法还包括:
获取多个训练试题图像和与所述多个训练试题图像一一对应的多个训练位置信息,每个所述训练位置信息用于指示在对应的所述训练试题图像中答题区域的位置和尺寸;
对于每个所述训练试题图像,将所述训练试题图像输入至所述第一图像特征提取子网络中,获取所述第一图像特征提取子网络对所述训练试题图像进行特征提取后输出的训练特征图;
对于每个所述训练试题图像,将所述第一图像特征提取子网络输出的所述训练特征图输入至所述截取模块中,获取所述截取模块利用滑窗算法从所述训练特征图中截取的多个训练特征区域;
对于每个所述训练试题图像,根据所述训练试题图像对应的所述训练位置信息确定每个所述训练特征区域与所述训练试题图像中答题区域经过特征提取后得到的区域的重合比例;
对于每个所述训练试题图像,将重合比例高于第一比例阈值的所述训练特征区域获取为正例,将重合比例低于第二比例阈值但高于第三比例阈值的所述训练特征区域获取为负例,所述正例和所述负例用于对所述位置信息输出子网络进行训练。
22.一种自动阅卷方法,其特征在于,所述方法包括:
启动自动阅卷应用程序;
通过所述自动阅卷应用程序获取目标试题图像,所述目标试题图像包括至少一个目标答题区域,所述目标答题区域内包括目标题目的答题内容的图像,所述目标题目是所述目标答题区域所对应的题目;
显示所述自动阅卷应用程序的自动阅卷界面,所述自动阅卷界面包括自动阅卷选项;
当检测到对所述自动阅卷选项的触发操作后,输出所述答题内容的正误判断结果;
其中,所述答题内容的正误判断结果是在所述目标试题图像中定位所述目标答题区域,获取所述目标题目的类型,根据所述目标题目的类型,对定位到的所述目标答题区域内的所述答题内容的图像进行识别后,根据识别结果得到的;所述目标答题区域的定位过程,包括:将所述目标试题图像输入至第一神经网络中,获取所述第一神经网络输出的答题区域位置信息,所述答题区域位置信息用于指示在所述目标试题图像中所述目标答题区域的位置和尺寸;根据所述答题区域位置信息在所述目标试题图像中定位所述目标答题区域;当定位到的所述目标答题区域的个数大于目标个数阈值时,确定定位到的所述目标答题区域的分布是否符合目标版式;当定位到的所述目标答题区域的分布不符合所述目标版式时,在所述目标试题图像中定位候选答题区域,其中,定位到的所述候选答题区域和定位到的所述目标答题区域共同的分布符合所述目标版式;将定位到的所述候选答题区域获取为所述目标答题区域;
所述识别结果的获取过程,包括:基于多个不同的截取尺寸,在定位到的所述目标答题区域内截取多个图像,将截取的所述多个图像获取为所述答题内容的多个不同的图像;根据所述目标题目的类型,分别对所述答题内容的多个不同的图像进行识别,得到多个识别结果;从所述多个识别结果中获取目标识别结果,所述目标识别结果是所述多个识别结果中出现次数最多的识别结果;将所述目标识别结果获取为对所述答题内容的图像进行识别的最终识别结果。
23.根据权利要求22所述的方法,其特征在于,所述方法还包括:
当检测到对所述自动阅卷选项的触发操作后,在所述目标试题图像中显示至少一个标示框,其中,所述标示框中包含所述目标答题区域,所述标示框的颜色用于指示所述目标题目的类型。
24.根据权利要求22所述的方法,其特征在于,所述通过所述自动阅卷应用程序获取目标试题图像,包括:
显示图像获取界面,所述图像获取界面包括扫描选项和本地获取选项;
当检测到对所述扫描选项的触发操作后,拍摄得到目标试题图像;
当检测到对所述本地获取选项的触发操作后,展示本地文件列表;将所述本地文件列表中被选中的图像文件获取为目标试题图像。
25.根据权利要求22至24任一所述的方法,其特征在于,当检测到对所述自动阅卷选项的触发操作后,所述方法还包括:
输出对所述答题内容的识别结果。
26.一种自动阅卷装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标试题图像,所述目标试题图像包括至少一个目标答题区域,所述目标答题区域内包括目标题目的答题内容的图像,所述目标题目是所述目标答题区域所对应的题目;
第一定位模块,用于将所述目标试题图像输入至第一神经网络中,获取所述第一神经网络输出的答题区域位置信息,所述答题区域位置信息用于指示在所述目标试题图像中所述目标答题区域的位置和尺寸;根据所述答题区域位置信息在所述目标试题图像中定位所述目标答题区域,并获取所述目标题目的类型;
确定模块,用于当根据所述答题区域位置信息在所述目标试题图像中定位到的所述目标答题区域的个数大于目标个数阈值时,确定定位到的所述目标答题区域的分布是否符合目标版式;
第二定位模块,用于当定位到的所述目标答题区域的分布不符合所述目标版式时,在所述目标试题图像中定位候选答题区域,其中,定位到的所述候选答题区域和定位到的所述目标答题区域共同的分布符合所述目标版式;
第二获取模块,用于将定位到的所述候选答题区域获取为所述目标答题区域;
识别模块,用于基于多个不同的截取尺寸,在定位到的所述目标答题区域内截取多个图像,将截取的所述多个图像获取为所述答题内容的多个不同的图像;根据所述目标题目的类型,分别对所述答题内容的多个不同的图像进行识别,得到多个识别结果;从所述多个识别结果中获取目标识别结果,所述目标识别结果是所述多个识别结果中出现次数最多的识别结果;将所述目标识别结果获取为对所述答题内容的图像进行识别的最终识别结果;
输出模块,用于根据识别结果对所述答题内容进行正误判断,并输出判断结果。
27.根据权利要求26所述的装置,其特征在于,所述第一神经网络包括第一图像特征提取子网络和位置信息输出子网络,所述第一定位模块,包括:
第一获取子模块,用于将所述目标试题图像输入至所述第一图像特征提取子网络中,获取所述第一图像特征提取子网络对所述目标试题图像进行特征提取后输出的第一特征图;
第二获取子模块,用于将所述第一特征图输入至所述位置信息输出子网络中,获取所述位置信息输出子网络输出的所述答题区域位置信息。
28.根据权利要求26所述的装置,其特征在于,所述第一定位模块,用于在将所述目标试题图像输入至所述第一神经网络中后,获取所述第一神经网络输出的答题区域类型信息,所述答题区域类型信息用于指示所述目标题目的类型。
29.根据权利要求28所述的装置,其特征在于,所述第一神经网络还包括试题类型识别子网络,所述第一定位模块,用于:将所述答题区域位置信息输入至所述试题类型识别子网络中,获取所述试题类型识别子网络根据所述答题区域位置信息所指示的所述目标答题区域的尺寸而输出的所述答题区域类型信息。
30.一种自动阅卷装置,其特征在于,所述装置包括:
程序启动模块,用于启动自动阅卷应用程序;
获取模块,用于通过所述自动阅卷应用程序获取目标试题图像,所述目标试题图像包括至少一个目标答题区域,所述目标答题区域内包括目标题目的答题内容的图像,所述目标题目是所述目标答题区域所对应的题目;
显示模块,用于显示所述自动阅卷应用程序的自动阅卷界面,所述自动阅卷界面包括自动阅卷选项;
输出模块,用于在检测到对所述自动阅卷选项的触发操作后,输出所述答题内容的正误判断结果;
其中,所述答题内容的正误判断结果是在所述目标试题图像中定位所述目标答题区域,获取所述目标题目的类型,根据所述目标题目的类型,对定位到的所述目标答题区域内的所述答题内容的图像进行识别后,根据识别结果得到的;所述目标答题区域的定位过程,包括:将所述目标试题图像输入至第一神经网络中,获取所述第一神经网络输出的答题区域位置信息,所述答题区域位置信息用于指示在所述目标试题图像中所述目标答题区域的位置和尺寸;根据所述答题区域位置信息在所述目标试题图像中定位所述目标答题区域;当定位到的所述目标答题区域的个数大于目标个数阈值时,确定定位到的所述目标答题区域的分布是否符合目标版式;当定位到的所述目标答题区域的分布不符合所述目标版式时,在所述目标试题图像中定位候选答题区域,其中,定位到的所述候选答题区域和定位到的所述目标答题区域共同的分布符合所述目标版式;将定位到的所述候选答题区域获取为所述目标答题区域;
所述识别结果的获取过程,包括:基于多个不同的截取尺寸,在定位到的所述目标答题区域内截取多个图像,将截取的所述多个图像获取为所述答题内容的多个不同的图像;根据所述目标题目的类型,分别对所述答题内容的多个不同的图像进行识别,得到多个识别结果;从所述多个识别结果中获取目标识别结果,所述目标识别结果是所述多个识别结果中出现次数最多的识别结果;将所述目标识别结果获取为对所述答题内容的图像进行识别的最终识别结果。
31.根据权利要求30所述的装置,其特征在于,所述输出模块,还用于:当检测到对所述自动阅卷选项的触发操作后,在所述目标试题图像中显示至少一个标示框,其中,所述标示框中包含所述目标答题区域,所述标示框的颜色用于指示所述目标题目的类型。
32.根据权利要求30所述的装置,其特征在于,所述获取模块,用于显示图像获取界面,所述图像获取界面包括扫描选项和本地获取选项;当检测到对所述扫描选项的触发操作后,拍摄得到目标试题图像;当检测到对所述本地获取选项的触发操作后,展示本地文件列表;将所述本地文件列表中被选中的图像文件获取为目标试题图像。
33.根据权利要求30至32任一所述的装置,其特征在于,所述装置还包括:
用于当检测到对所述自动阅卷选项的触发操作后,输出对所述答题内容的识别结果的模块。
34.一种自动阅卷装置,其特征在于,所述装置包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1至21任一所述的自动阅卷方法;或者所述指令由所述处理器加载并执行以实现如权利要求22至25任一所述的自动阅卷方法。
35.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至21任一所述的自动阅卷方法;或者所述指令由所述处理器加载并执行以实现如权利要求22至25任一所述的自动阅卷方法。
CN201811555348.1A 2018-09-19 2018-12-19 自动阅卷方法及装置 Active CN109684980B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2018110958142 2018-09-19
CN201811095814 2018-09-19

Publications (2)

Publication Number Publication Date
CN109684980A CN109684980A (zh) 2019-04-26
CN109684980B true CN109684980B (zh) 2022-12-13

Family

ID=66186292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811555348.1A Active CN109684980B (zh) 2018-09-19 2018-12-19 自动阅卷方法及装置

Country Status (1)

Country Link
CN (1) CN109684980B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232417B (zh) * 2019-06-17 2022-10-25 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备及计算机可读存储介质
CN112699337B (zh) * 2019-10-22 2022-07-29 北京易真学思教育科技有限公司 方程批改方法、电子设备及计算机存储介质
CN111008594B (zh) * 2019-12-04 2024-04-19 科大讯飞股份有限公司 改错题评阅方法、相关设备及可读存储介质
CN111626280B (zh) * 2020-04-13 2021-09-07 北京邮电大学 一种无定位点答题卡识别方法和装置
CN111814616A (zh) * 2020-06-28 2020-10-23 枫烨(深圳)科技有限公司 一种无需答题卡的试卷自动阅卷处理系统及其实现方法
CN111738249B (zh) * 2020-08-26 2020-12-08 北京易真学思教育科技有限公司 图像检测方法、装置、电子设备及存储介质
CN111931773B (zh) * 2020-09-24 2022-01-28 北京易真学思教育科技有限公司 图像识别方法、装置、设备及存储介质
CN112200230B (zh) * 2020-09-29 2023-10-13 深圳市优必选科技股份有限公司 一种训练板的识别方法、装置及机器人
CN112581332B (zh) * 2020-12-30 2021-12-28 成都信息工程大学 作业管理及评分信息处理方法、系统、互评抽阅仲裁方法

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250041A (ja) * 1998-02-27 1999-09-17 Toshiba Corp 文書処理装置および文書処理方法
CN101282461A (zh) * 2007-04-02 2008-10-08 财团法人工业技术研究院 图像处理方法
CN101329731A (zh) * 2008-06-06 2008-12-24 南开大学 图像中数学公式的自动识别方法
CN101901338A (zh) * 2010-07-09 2010-12-01 北京商纳科技有限公司 一种试卷分数统计方法及系统
CN102314655A (zh) * 2010-07-09 2012-01-11 百度在线网络技术(北京)有限公司 一种生成广告的方法和设备
CN103164388A (zh) * 2011-12-09 2013-06-19 北大方正集团有限公司 一种版式文件中结构化信息获取的方法及装置
CN103246873A (zh) * 2013-04-28 2013-08-14 北京贞观雨科技有限公司 一种采集答题卡的答题信息的方法及装置
CN104516891A (zh) * 2013-09-27 2015-04-15 北大方正集团有限公司 一种版面分析方法及系统
CN106169078A (zh) * 2016-07-14 2016-11-30 微额速达(上海)金融信息服务有限公司 图像识别方法
CN106326193A (zh) * 2015-06-18 2017-01-11 北京大学 一种版式文档中脚注识别方法及脚注与脚注引用关联方法
CN106485265A (zh) * 2016-09-22 2017-03-08 深圳大学 一种图像识别方法和装置
CN107146245A (zh) * 2017-05-05 2017-09-08 北京京东尚科信息技术有限公司 图像匹配方法和装置
CN107403130A (zh) * 2017-04-19 2017-11-28 北京粉笔未来科技有限公司 一种字符识别方法及字符识别装置
CN107977652A (zh) * 2017-12-21 2018-05-01 维沃移动通信有限公司 一种屏幕显示内容的提取方法及移动终端
CN107992482A (zh) * 2017-12-26 2018-05-04 科大讯飞股份有限公司 数学主观题解答步骤的规约方法及系统
CN108052504A (zh) * 2017-12-26 2018-05-18 科大讯飞股份有限公司 数学主观题解答结果的结构分析方法及系统
CN108121702A (zh) * 2017-12-26 2018-06-05 科大讯飞股份有限公司 数学主观题评阅方法及系统
CN108388895A (zh) * 2018-03-04 2018-08-10 南京理工大学 一种基于机器学习的试卷答题卡自动处理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7876959B2 (en) * 2006-09-06 2011-01-25 Sharp Laboratories Of America, Inc. Methods and systems for identifying text in digital images
US9349152B2 (en) * 2012-10-02 2016-05-24 Simetricka Systems Ltd. Image identifiers and methods and systems of presenting image identifiers
JPWO2016021342A1 (ja) * 2014-08-06 2017-06-22 ソニーセミコンダクタソリューションズ株式会社 画像認識装置、その学習方法、および電子機器

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250041A (ja) * 1998-02-27 1999-09-17 Toshiba Corp 文書処理装置および文書処理方法
CN101282461A (zh) * 2007-04-02 2008-10-08 财团法人工业技术研究院 图像处理方法
CN101329731A (zh) * 2008-06-06 2008-12-24 南开大学 图像中数学公式的自动识别方法
CN101901338A (zh) * 2010-07-09 2010-12-01 北京商纳科技有限公司 一种试卷分数统计方法及系统
CN102314655A (zh) * 2010-07-09 2012-01-11 百度在线网络技术(北京)有限公司 一种生成广告的方法和设备
CN103164388A (zh) * 2011-12-09 2013-06-19 北大方正集团有限公司 一种版式文件中结构化信息获取的方法及装置
CN103246873A (zh) * 2013-04-28 2013-08-14 北京贞观雨科技有限公司 一种采集答题卡的答题信息的方法及装置
CN104516891A (zh) * 2013-09-27 2015-04-15 北大方正集团有限公司 一种版面分析方法及系统
CN106326193A (zh) * 2015-06-18 2017-01-11 北京大学 一种版式文档中脚注识别方法及脚注与脚注引用关联方法
CN106169078A (zh) * 2016-07-14 2016-11-30 微额速达(上海)金融信息服务有限公司 图像识别方法
CN106485265A (zh) * 2016-09-22 2017-03-08 深圳大学 一种图像识别方法和装置
CN107403130A (zh) * 2017-04-19 2017-11-28 北京粉笔未来科技有限公司 一种字符识别方法及字符识别装置
CN107146245A (zh) * 2017-05-05 2017-09-08 北京京东尚科信息技术有限公司 图像匹配方法和装置
CN107977652A (zh) * 2017-12-21 2018-05-01 维沃移动通信有限公司 一种屏幕显示内容的提取方法及移动终端
CN107992482A (zh) * 2017-12-26 2018-05-04 科大讯飞股份有限公司 数学主观题解答步骤的规约方法及系统
CN108052504A (zh) * 2017-12-26 2018-05-18 科大讯飞股份有限公司 数学主观题解答结果的结构分析方法及系统
CN108121702A (zh) * 2017-12-26 2018-06-05 科大讯飞股份有限公司 数学主观题评阅方法及系统
CN108388895A (zh) * 2018-03-04 2018-08-10 南京理工大学 一种基于机器学习的试卷答题卡自动处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于多尺度分块卷积神经网络的图像目标识别算法;张文达等;《计算机应用》;20160410(第04期);第157-162页 *
试卷分析及对课堂教学和试卷命题的思考;粟军等;《检验医学教育》;20070915(第03期);第33-34页 *

Also Published As

Publication number Publication date
CN109684980A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
CN109684980B (zh) 自动阅卷方法及装置
CN109829456B (zh) 图像识别方法、装置及终端
CN110210571B (zh) 图像识别方法、装置、计算机设备及计算机可读存储介质
CN110807361B (zh) 人体识别方法、装置、计算机设备及存储介质
CN112749613B (zh) 视频数据处理方法、装置、计算机设备及存储介质
CN111353458B (zh) 文本框标注方法、装置和存储介质
CN107749046B (zh) 一种图像处理方法及移动终端
CN109495616B (zh) 一种拍照方法及终端设备
CN111461097A (zh) 识别图像信息的方法、装置、电子设备及介质
CN110795019B (zh) 软键盘的按键识别方法、装置及存储介质
CN110490186B (zh) 车牌识别方法、装置及存储介质
CN110991457B (zh) 二维码处理方法、装置、电子设备及存储介质
CN110647881B (zh) 确定图像对应的卡片类型的方法、装置、设备及存储介质
CN110442521B (zh) 控件单元检测方法及装置
CN110738185B (zh) 表单对象的识别方法、装置及存储介质
KR20220103782A (ko) 객체 디스플레이 방법 및 전자 기기
CN110675473B (zh) 生成gif动态图的方法、装置、电子设备及介质
CN112818979B (zh) 文本识别方法、装置、设备及存储介质
CN110728167A (zh) 文本检测方法、装置及计算机可读存储介质
CN110378318B (zh) 文字识别方法、装置、计算机设备及存储介质
CN110377914B (zh) 字符识别方法、装置及存储介质
CN110232417B (zh) 图像识别方法、装置、计算机设备及计算机可读存储介质
CN110163192B (zh) 字符识别方法、装置及可读介质
CN111212228B (zh) 图像处理方法和电子设备
CN111145083B (zh) 一种图像处理方法、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant