CN112183253A - 数据处理方法、装置、电子设备及计算机可读存储介质 - Google Patents

数据处理方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112183253A
CN112183253A CN202010969800.XA CN202010969800A CN112183253A CN 112183253 A CN112183253 A CN 112183253A CN 202010969800 A CN202010969800 A CN 202010969800A CN 112183253 A CN112183253 A CN 112183253A
Authority
CN
China
Prior art keywords
text
question
information
layout picture
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010969800.XA
Other languages
English (en)
Inventor
黄恺
周佳
闫嵩
包英泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dami Technology Co Ltd
Original Assignee
Beijing Dami Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dami Technology Co Ltd filed Critical Beijing Dami Technology Co Ltd
Priority to CN202010969800.XA priority Critical patent/CN112183253A/zh
Publication of CN112183253A publication Critical patent/CN112183253A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Educational Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Educational Administration (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明实施例公开了一种数据处理方法、装置、电子设备和计算机可读存储介质,所述方法通过对版面图片进行处理,根据各答题子图片和对应的题目区域坐标确定各题目的题干文本和答案文本,根据题干文本对应的文本信息确定题目标识,并进而确定正确答案,通过比对答案文本对应的答案信息和正确答案信息实现自动化批改。由此,实现作业自动化批改,提高作业批改的自动化程度和效率。

Description

数据处理方法、装置、电子设备及计算机可读存储介质
技术领域
本发明涉及数据处理技术领域,具体涉及一种数据处理方法、装置、电子设备及计算机可读存储介质。
背景技术
批改作业是教学过程中的一个重要环节,作业批改的效率直接关系到教学过程的推进。
在现有的教学过程中,学生完成作业之后通常需要由老师人工进行作业的批改,人工批改效率较低,同时很难高效完整地整理出学生的作答数据。
发明内容
有鉴于此,本发明实施例提供一种数据处理方法、装置、电子设备及计算机可读存储介质,以提高作业批改的自动化程度和效率。
第一方面,本发明实施例提供一种数据处理方法,所述方法包括:
获取版面图片,所述版面图片显示有多个答题子区域,所述答题子区域中包括印刷体的第一文本和第二文本,相邻的答题子区域之间设置有分隔标识;
根据所述版面图片确定多个答题子图片和对应的题目区域坐标,所述多个答题子图片分别对应于不同的答题子区域;
确定所述版面图片内的第一文本信息和第二文本信息,所述第一文本信息包括第一文本坐标和第一文本序列,所述第二文本信息包括第二文本坐标和第二文本序列;
根据所述各所述题目区域坐标、第一文本信息及第二文本信息确定所述各题目的第一文本和第二文本;
根据所述各题目的第一文本确定对应的第三文本信息;以及
根据所述第三文本信息确定各题目的第四文本信息。
进一步地,所述分隔标识为多个所述答题子区域外围显示的闭合的虚线题框;
根据所述版面图片确定多个答题子图片和对应的题目区域坐标包括:
调整所述版面图片尺寸至预定尺寸,得到第一版面图片;
对所述第一版面图片进行图像二值化,得到第二版面图片;
对所述第二版面图片进行图像闭操作,得到第三版面图片;
对所述第三版面图片进行连通域分析和筛选,得到题目区域题框;以及
调整所述题目区域题框尺寸至原始尺寸,确定各所述答题子图片和对应的题目区域坐标;
其中,所述题目区域坐标用于表征各所述答题子区域在版面图片上的位置信息。
进一步地,所述确定所述版面图片内的第一文本信息和第二文本信息包括:
将所述版面图片输入至文本分割网络,获取多个特征向量;以及
对所述多个特征向量进行文本检测和文本识别,获取第一文本序列和第二文本序列以及第一文本坐标和第二文本坐标;
其中,所述第一文本序列为所述版面图片内的印刷体文本内容,所述第一文本坐标为所述第一文本序列在所述版面图片上的位置信息;所述第二文本序列为所述版面图片内的手写体内容,所述第二文本坐标为所述第二文本序列在所述版面图片上的位置信息。
进一步地,所述文本分割网络的主干网络结构为残差网络模型,所述文本识别网络采用卷积神经网络模型。
进一步地,所述根据所述各所述题目区域坐标、第一文本信息及第二文本信息确定所述各题目的第一文本和第二文本具体为:
根据各所述题目的题目区域坐标、第一文本坐标和第二文本坐标对所述第一文本信息和第二文本信息进行分析筛选;以及
将满足预设条件的第一文本序列和第二文本序列作为所述各题目的第一文本和第二文本。
进一步地,所述根据所述各题目的第一文本确定对应的第三文本信息具体为:
根据所述各题目的第一文本对题库内容进行搜索,确定匹配度最高的题目标识;以及
获取所述题目标识对应的标准答案信息,并将所述标准答案信息作为第三文本信息;
其中,所述第三文本信息为所述各题目的正确答案信息。
进一步地,所述根据所述各题目的第一文本对题库内容进行搜索,确定匹配度最高的题目标识具体为:
采用模糊匹配的方式对题库中的题目进行搜索,并将边界距离相似度最高的题目标识作为匹配度最高的题目标识。
进一步地,所述根据所述第三文本信息确定各题目的第四文本信息具体为:
将所述各题目的第二文本与所述第三文本信息进行比对,确定所述各题目的批改信息。
第二方面,本发明实施例提供一种数据处理装置,所述装置包括:
获取单元,用于获取版面图片,所述版面图片显示有多个答题子区域,所述答题子区域中包括第一文本和第二文本,相邻的答题子区域之间设置有分隔标识;
第一确定单元,用于根据所述版面图片确定多个答题子图片和对应的题目区域坐标,所述多个答题子图片分别对应于不同的答题子区域;
第二确定单元,用于确定所述版面图片内的第一文本信息和第二文本信息,所述第一文本信息包括第一文本坐标和第一文本序列,所述第二文本信息包括第二文本坐标和第二文本序列;
第三确定单元,用于根据所述各所述题目区域坐标、第一文本信息及第二文本信息确定所述各题目的第一文本和第二文本;
匹配单元,用于根据所述各题目的第一文本确定对应的第三文本信息;以及
批改单元,用于根据所述第三文本信息确定各题目的第四文本信息。
第三方面,本发明实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如上所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如上所述的方法。
本发明实施例的数据处理方法通过获取版面图片,根据所述版面图片确定多个答题子图片和对应的题目区域坐标,确定所述版面图片内的第一文本信息和第二文本信息,根据所述各所述题目区域坐标、第一文本信息及第二文本信息确定所述各题目的题干文本和答案文本,根据所述各题目的题干文本确定对应的正确答案信息,根据所述正确答案信息确定各题目的批改信息。由此,实现作业版面图片中题干文本和答案文本的确定和自动化批改,提高作业批改的自动化程度和效率。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例的数据处理方法的流程图;
图2是本发明实施例的确定答题子图片和题目区域坐标的流程图;
图3是本发明实施例的确定第一文本信息和第二文本信息的流程图;
图4是本发明实施例的获取多个特征向量的流程图;
图5是本发明实施例的确定题干文本和答案文本的流程图;
图6是本发明实施例的确定正确答案信息的流程图;
图7是本发明实施例的数据处理方法的数据流向图;
图8是本发明实施例的数据处理装置的示意图;
图9是本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
批改作业是教学过程中的一个重要环节,作业批改的效率直接关系到教学过程的推进。
在现有的教学过程中,学生完成作业之后通常需要由老师人工进行作业的批改,人工批改效率较低,同时很难高效完整地整理出学生的作答数据,使得学生无法及时获取作业批改结果。因此,批改作业的自动化程度和效率均有待提高。
本发明实施例的技术方案提供一种数据处理方法,能够提高作业批改的自动化程度和效率。
在本实施例中,以客观题中的填空题的批改为例进行说明。但是本领域人员容易理解,针对不同场景中具有固定题干文本和对应答案文本的题目的批改,本发明实施例的方法同样适用。
图1是本发明实施例的数据处理方法的流程图。如图1所示,本发明实施例的数据处理方法包括如下步骤:
在步骤S100,获取版面图片。
在本实施例中,学生将作业书写在专用的答题纸上,答题纸上显示有多个答题子区域,每道题的答题子区域内的内容均包括印刷体的题干和手写填入的答案。
在一种可选的实现方式中,通过专用的扫描机设备或移动式终端设备上的扫描软件对答题纸上的文本进行扫描和读取数据,进而获取版面图片。
本实施例中,版面图片为多个待批改作业对应的图片。每个版面图片上显示有多个答题子区域,各答题子区域中包括印刷体的题干文本和手写的答案文本。
优选地,本实施例中,相邻的答题子区域之间设置有分隔标识。由于客观题作业批改的过程中,每道题目的题干文本和答案文本都是确定的,通过分隔标识将不同的答题子区域进行区分,使每道题目对应的答题子区域相对集中地布置,便于扫描和读取数据和后续作业的批改。
具体地,为了方便分隔标识的设置,本实施例中相邻的答题子区域之间的分隔标识设置为闭合的虚线题框,虚线题框显示在各答题子区域的外围位置。由此,通过虚线题框将不同的答题子区域进行分离,方便对每道题目的批改。
为方便作业批改过程的进行和作业批改结果的统计,优选地,本实施例的答题子区域内的左上角位置处还显示有题目序号,分别对应不同的题目内容。
在步骤S110,根据版面图片确定多个答题子图片和对应的题目区域坐标。
本实施例中,多个答题子图片分别对应于不同的答题子区域,题目区域坐标用于表征各所述答题子区域在版面图片上的位置信息。通过确定多个不同的答题子图片和对应的答题区域坐标,能够使各答题子区域分离开来,进而方便对每道题目的批改,有利于提高作业批改的效率。
图2是本发明实施例的确定答题子图片和题目区域坐标的流程图。如图2所示,在一种可选的实现方式中,本发明实施例的根据版面图片确定多个答题子图片和对应的题目区域坐标包括如下步骤:
在步骤S200,调整版面图片尺寸至预定尺寸,得到第一版面图片。
本实施例中,将版面图片的长边尺寸调整至设定长度,并根据答题纸的宽高比例调整版面图片长边的相邻边的尺寸。由此,通过调整版面图片尺寸至预定尺寸,便于将多个待批改作业对应的图片调整至统一尺寸,有利于提高作业批改的效率。
优选地,本实施例的长边尺寸调整为1024。
在步骤S210,对第一版面图片进行图像二值化,得到第二版面图片。
图像二值化是指将图像上的像素点的灰度值设置为0或255,使第一版面图片呈现为黑白图片的过程。
在本实施例中,通过图像二值化对第一版面图片进行处理,得到黑白形式的第二版面图片。
在步骤S220,对第二版面图片进行图像闭操作,得到第三版面图片。
本实施例中,图像闭操作是将各答题子区域外围闭合的虚线题框转换为实线图框,使各答题子区域的分隔更明显。
在步骤S230,对第三版面图片进行连通域分析和筛选,得到题目区域题框。
连通域是指图片中具有相同像素值且位置相邻的前景像素点组成的图像区域。
本实施例中,通过分析连通域,得到第三版面图片中的各个连通域并进行标记。再根据预设的筛选条件对标记后的多个连通域进行筛选,过滤无效的连通域,并将满足筛选条件的连通域作为第三版面图片上的题目区域题框。
在步骤S240,调整题目区域题框尺寸至原始尺寸,确定各答题子图片和对应的题目区域坐标。
在本实施例中,得到题目区域题框后,需要将题目区域题框尺寸进行复原,调整至原始尺寸,进而确定各答题子区域对应的答题子图片以及各答题子图片对应的题目区域坐标。其中,所述第一题目区域坐标用于表征各题目在所述版面图片上的位置信息。
在步骤S120,确定版面图片内的第一文本信息和第二文本信息。
本实施例中,第一文本信息包括第一文本坐标和第一文本序列,第二文本信息包括第二文本坐标和第二文本序列,其中,第一文本序列为版面图片内的印刷体文本内容。第一文本坐标为第一文本序列在版面图片上的位置信息。第二文本序列为版面图片内的手写体内容。第二文本坐标为第二文本序列在版面图片上的位置信息。
图3是本发明实施例的确定第一文本信息和第二文本信息的流程图。如图3所示,在一种可选的实现方式中,本实施例的确定版面图片内的第一文本信息和第二文本信息的流程包括如下步骤:
在步骤S300,将版面图片输入至文本分割网络,获取多个特征向量。
在一种可选的实现方式中,本实施例中的文本分割网络的主干网络结构为resnet18+FPN。
resnet18网络是一种残差网络(Residual Network),resnet是残差网络的缩写。resnet18网络包括输入层(image)、1个独立卷积层(conv1)、1个最大池化层(maxpool)、4种卷积残差模块(分别是conv2_x、conv3_x、conv4_x和conv5_x)、1个平均池化层(avgpool)和一个软最大输出层。其中,独立卷积层(conv1)使用64个大小为7*7、步长为2的卷积核。最大池化层(maxpool)选择池化窗口为3*3,步长为2的卷积核。卷积残差模块中的conv2_x配置有3个,conv3_x配置有4个,conv4_x配置有6个、conv5_x配置有2个,每个卷积残差模块有2-3个卷积层以及跨越不同卷积层的级联组成。由于resnet18中配置有多个级联,可以有效提取版面图片中的多尺度特征,并生成多个金字塔特征图。同时,由于resnet18相比于其它级联残差网络的残差网络,结构更加轻量化,有利于提高数据处理速度,进而有利于提高作业批改的自动化程度和效率。
FPN是一种利用常规CNN模型内部从底至上各个层对同一尺寸图片不同维度的特征进行表达的网络结构,能够有效地在单一图片下生成对图片的多维度特征表达。在本实施例中,FPN网络对resnet18网络输出的多个金字塔特征图进行特征融合,并通过1*1的卷积层计算得到增强后的特征向量。
图4是本发明实施例的获取多个特征向量的流程图。如图4所示,以版面图片的输入参数为w*h*3为例对分割网络的工作原理进行说明。
首先,将输入参数为w*h*3的版面图片输入至resnet18网络,经resnet18网络对版面图片内的特征进行提取。具体地,提取步长(stride)分别为4,8,16,32的卷积层Conv2、Conv3、Conv4、Conv5的输出作为高低层特征,得到多个特征图,多个特征图从高到低构成金字塔特征图。再以多个特征图作为FPN网络的输入,经多个级联的FPN模块对所述多个特征图进行特征融合,得到特征融合图,并将得到的特征融合图输入至1*1卷积层,得到参数为w*h*12的特征向量。
在本实施例中,w*h*12的特征向量包括w*h*2的文本区域特征向量(text_region)、w*h*2的卷积核特征向量(kernel)和w*h*8的相似度特征向量(similarity_vectors)。其中,文本区域特征向量包括1维的印刷体文本区域特征向量和1维的手写体文本区域特征向量。卷积核特征向量包括1维的印刷体卷积核特征向量和1维的手写体卷积核特征向量。相似度特征向量包括4维的印刷体相似度向量和4维的手写体相似度向量。
在步骤S310,对多个特征向量进行文本检测和文本识别,获取第一文本序列和第二文本序列以及第一文本坐标和第二文本坐标。
本实施例中,第一文本坐标为印刷体文本序列在版面图片中的像素级别的坐标;第二文本坐标为手写体文本序列在版面图片中的像素级别的坐标。
需要说明的是,本实施例中第一文本序列包括多个第一文本子序列,多个第一文本子序列分别对应版面图片上分离布置的印刷体文本。第一文本坐标包括多个第一文本子序列对应的第一文本子坐标,各第一文本子坐标分别为各第一文本子序列在版面图片上的像素坐标。具体地,由于第一文本子序列在版面上通常显示为矩形区域,所述像素坐标可以通过矩形区域左上角和右下角在版面图片上对应的位置坐标来表示。
第二文本序列包括多个第二文本子序列,所述多个文本子序列对应版面图片上分离布置的手写体文本。第二文本坐标包括多个第二文本子序列对应的第二文本坐标,各第二文本子坐标分别为各第二文本子序列在版面图片上的像素坐标。具体地,由于第二文本子序列在版面上通常显示为矩形区域,所述像素坐标可以通过矩形区域左上角和右下角在版面图片上对应的位置坐标来表示。
优选地,本实施例中采用聚类的思想通过相似度向量对多个特征向量进行文本检测。具体地,确定一个聚类中心,并将相似度特征向量输出的值作为待聚类点的值,使周围点到聚类中心的距离最小。由此,获取印刷体文本和手写体文本以及印刷体文本和手写体文本在版面图片上对应的位置信息。
优选地,本实施例的文本识别网络采用CRNN+CTC网络。通过CRNN+CTC网络对版面图片上的文本内容进行识别,并获取印刷体的第一文本序列和手写体的第二文本序列。
需要说明的是,为了提高计算的准确度,在步骤S120中的总的损失函数(Loss)按以下方式定义,具体为:
L=Ltex+a×Lker+b×(Lagg+Ldis)
其中,Ltex和Lker分别是文本区域特征向量(text_region)和卷积核特征向量(kernel)对应的分割损失函数,本实施例中的分割损失函数采用dice soft loss。
Lagg为衡量文本区域特征向量及与其对应的相同文本的卷积核特征向量的损失函数,用于保证同一文本的卷积核与其它像素点之间的距离小于设定的参数δagg
Ldis为不同文本的卷积核特征向量的损失函数,用于保证任意两个卷积核特征向量之间的距离大于设定的参数δagg
a和b分别设置为0.5和0.25,用于表征平衡各损失函数的值。
在本实施例中,各损失函数的具体表达式如下:
Figure BDA0002683689470000101
其中,gtex[i][j]为第i类文本在像素j处的gtex的值,ptex[i][j]为第i类文本在像素j处的预测值。
Figure BDA0002683689470000102
其中,gtex[i][j]为第i类文本在像素j处的gtex的值,pker[i][j]为第i类文本在像素j处的预测值pker
Figure BDA0002683689470000103
其中,N是图像中文本的数量,Ti表示第i个文本,Ki是文本对应的卷积核,D(p,Ki)为文本Ti内的像素p和Ki之间的距离。
D(p,Ki)=max(||F(p)-G(Ki)||-δagg,0)2
其中,F(p)是p处的相似度向量,G(Ki)是Ki的相似度向量,
Figure BDA0002683689470000111
δagg为常量,本实施例中δagg为0.5。
D(p,Ki)=max(||F(p)-G(Ki)||-δagg,0)2
Figure BDA0002683689470000112
其中,D(Ki,Kj)=max(δdis-||G(Ki)-G(Kj)||,0)2,δdis为常量,本实施例中δdis为3。
在步骤S130,根据各题目区域坐标、第一文本信息及第二文本信息确定各题目的题干文本和答案文本。
图5是本发明实施例的确定题干文本和答案文本的流程图。如图5所示,本实施例的根据各题目区域坐标、第一文本信息及第二文本信息确定各题目的题干文本和答案文本具体包括如下步骤:
在步骤S500,根据各题目的题目区域坐标、第一文本坐标和第二文本坐标对第一文本信息和第二文本信息进行分析筛选。
在步骤S510,将满足预设条件的第一文本序列和第二文本序列作为各题目的题干文本和答案文本。
在一种可选的实现方式中,由于第一文本序列和第二文本序列分别代表版面图片上的全部印刷体文本和手写文本,而各题目的题干文本和答案分别为各答题子区域内的印刷体文本和手写文本。因此,根据各题目的题目区域坐标对第一文本信息和第二文本信息进行分析,筛选出像素坐标处于各答题子区域内的第一文本子坐标和第二文本子坐标及其对应的第一文本子序列和第二文本子序列,将筛选出的第一文本子序列和第二文本子序列分别按照像素坐标从左至右和从上至下的方向进行排列,分别组成新的第一文本序列和第二文本序列,并将所述新的第一文本序列和第二文本序列分别作为对应各题目的题干文本和答案文本。由此,通过文本坐标匹配筛选的方式确定各题目的题干文本和答案文本,提高题干文本和答案文本确定的准确性,在提高作业批改自动化程度的同时,保证作业批改的准确率。
需要说明的是,当一道题目包括多个子题目和对应的多个答案文本时,根据各答题文本在版面图片上的像素坐标按照从左至右和从上至下的方向对答案文本建立标识,具有标识的答案文本分别对应题目中不同的子题目。优选地,答案文本的标识可以采用顺序排列的数字编号。
在另一种可选的实现方式中,本实施例在确定各答题子图片之后,采用上述相同的方式,依次将各答题子图片输入至resnet18+FPN网络,对各答题子图片内的文本进行特征提取和特征融合,再通过文本检测和文本识别网络获取各答题子区域对应的题干文本和答案文本。由此,根据实际场景采用不同的方式获取各题目的题干文本和答案文本,使用方式更灵活,有利于加快获取各题目的题干文本和答案文本的效率,进一步提高作业批改的效率。
在步骤S140,根据各题目的题干文本确定对应的正确答案信息。
图6是本发明实施例的确定正确答案信息的流程图,如图6所示,本实施例的根据各题目的题干文本确定对应的正确答案信息具体包括如下步骤:
在步骤S600,根据各题目的题干文本对题库内容进行搜索,确定匹配度最高的题目标识。
本实施例的题库中存储有题干内容和对应的答案内容,题干内容和答案内容分开布置。
优选地,本实施例在执行步骤S600时,将各题目的全部题干文本作为一个整体,并根据各题目的题干文本采用模糊匹配的方式对题库中的对应作业的全部题干内容进行搜索,以边界距离相似度作为判断指标,将边界距离相似度最高的题目标识作为匹配度最高的题目标识。在本实施例中,采用题目序号作为题目标识。
在步骤S610,获取所述题目标识对应的标准答案信息,并将所述标准答案信息作为正确答案信息。
本实施例中,通过自动搜索的方式确定各题目在题库中对应的题目内容和标准答案信息,有利于提高作业批改的自动化程度和效率。
在步骤S150,根据正确答案信息确定各题目的批改信息。
优选地,本实施例中将各题目的答案文本与正确答案信息进行比对,确定各题目的批改信息。
需要说明的是,本实施例中默认全部题目均有作答,当一道题目中包括多个子题目时,将具有编号的答案文本按编号排布的顺序依次与题库中的正确答案信息进行比对,确定版面图片上的答案文本是否正确,进而确定各题目的批改信息。
图7是本发明实施例的数据处理方法的数据流向图。如图7所示,A为待批改作业对应的版面图片,版面图片A上显示有题目01和题目02对应的答题子区域A1和A2,答题子区域A1和A2上分别显示有闭合的虚线框以及位于虚线框内对应的题目序号、题干内容和答案内容。
在自动批改作业的过程中,包括以下步骤:
在步骤S700,对版面图片A进行预处理。
在步骤S710,根据预处理后的版面图片确定答题子区域A1和A2对应的答题子图片B1和B2以及各答题子图片对应的第一题目区域坐标和第二区域坐标。
在步骤S720,对版面图片中的特征进行提取、特征融合、文本检测以及文本识别,获取版面图片内的第一文本信息和第二文本信息。
本实施例中的第一文本信息为版面图片内的全部印刷体文本C1和印刷体文本对应的第一文本坐标,第二文本信息为版面图片内的全部手写体文本C2和手写体文本对应的第二文本坐标。
具体地,本实施例中获取到的版面图片内的印刷体文本C1具体为“01|填空题(1)4.35读作()八点零四写作()02|计算题1.2+2.3=()。”获取到的版面图片内的手写体文本C2具体为手写体的“四点三五8.043.5”
在步骤S730,根据第一题目区域坐标和第二题目区域坐标对第一文本信息和第二文本信息进行分析,筛选出像素坐标分别处于第一题目区域坐标和第二题目区域坐标内的第一文本坐标和第二文本坐标及其对应的印刷体文本D1和D2以及答案文本E1和E2,并分别作为对应题目01和题目02的题干文本和答案文本。
具体地,题目01对应的题干文本D1为“01|填空题(1)4.35读作()八点零四写作()”。答案文本E1为手写体的“四点三五8.04”
题目02对应的题干文本D2为“02|计算题1.2+2.3=()”。答案文本E2为手写体的“3.5”。
在步骤S740,根据题目01的题干文本和题目02的题干文本分别对题库内容进行搜索,确定题库中匹配度最高的题目序号1和2,获取题目序号1和2对应的标准答案信息,并将题库中题目1和2对应的标准答案信息作为版面图片中题目01和题目02的正确答案信息。
在步骤S750,将题目01和题目02的答案文本分别与题目01和题目02的正确答案信息进行比对,确定题目01和题目02的批改信息,并结束作业批改。
本发明实施例的技术方案通过获取版面图片,根据所述版面图片确定多个答题子图片和对应的题目区域坐标,确定所述版面图片内的第一文本信息和第二文本信息,根据所述各所述题目区域坐标、第一文本信息及第二文本信息确定所述各题目的题干文本和答案文本,根据所述各题目的题干文本确定对应的正确答案信息,根据所述正确答案信息确定各题目的批改信息。由此,实现作业版面图片中题干文本和答案文本的确定和自动化批改,提高作业批改的自动化程度和效率。
图8是本发明实施例的数据处理装置的示意图。如图8所示,本发明实施例的数据处理装置8包括获取单元80、第一确定单元81、第二确定单元82、第三确定单元83、匹配单元84以及批改单元85。
获取单元80,用于获取版面图片。
在本实施例中,版面图片显示有多个答题子区域,答题子区域中包括印刷体的题干文本和手写的答案文本,相邻的答题子区域之间设置有分隔标识。
在一种可选的实现方式中,相邻的答题子区域之间的分隔标识设置为闭合的虚线题框,虚线题框显示在各答题子区域的外围位置。
第一确定单元81,用于根据版面图片确定多个答题子图片和对应的题目区域坐标。
在本实施例中,多个答题子图片分别对应于不同的答题子区域,题目区域坐标用于表征各答题子区域在版面图片上的位置信息。
优选地,第一确定单元81包括第一版面子单元810、第二版面子单元811、第三版面子单元812、分析子单元813以及第四版面子单元814。
第一版面子单元810用于调整版面图片尺寸至预定尺寸,得到第一版面图片。
第二版面子单元811用于对第一版面图片进行图像二值化,得到第二版面图片。
第三版面子单元812用于对第二版面图片进行图像闭操作,得到第三版面图片。
分析子单元813用于对第三版面图片进行连通域分析和筛选,得到题目区域题框。
第四版面子单元814用于调整题目区域题框尺寸至原始尺寸,确定各答题子图片和对应的题目区域坐标。
第二确定单元82,用于确定版面图片内的第一文本信息和第二文本信息。
在本实施例中,第一文本信息包括第一文本坐标和第一文本序列,第二文本信息包括第二文本坐标和第二文本序列,其中,第一文本序列为版面图片内的印刷体文本内容。第一文本坐标为第一文本序列在版面图片上的位置信息。第二文本序列为版面图片内的手写体内容。第二文本坐标为第二文本序列在版面图片上的位置信息。
在一种可选的实现方式中,第二确定单元82包括分割子单元820和检测识别子单元821。
分割子单元820用于将版面图片输入至文本分割网络,获取多个特征向量。
在一种可选的实现方式中,本实施例中的文本分割网络的主干网络结构为resnet18+FPN。
检测识别子单元821用于对多个特征向量进行文本检测和文本识别,获取第一文本序列和第二文本序列以及第一文本坐标和第二文本坐标。
本实施例中,第一文本坐标为印刷体文本序列在版面图片中的像素级别的坐标;第二文本坐标为手写体文本序列在版面图片中的像素级别的坐标。
优选地,本实施例的文本识别网络采用CRNN+CTC网络。通过CRNN+CTC网络对版面图片上的文本内容进行识别,并获取印刷体的第一文本序列和手写体的第二文本序列。
第三确定单元83,用于根据各题目区域坐标、第一文本信息及第二文本信息确定各题目的题干文本和答案文本。
优选地,本实施例的第三确定单元83包括筛选子单元830和确定子单元831。
筛选子单元830用于根据各题目的题目区域坐标、第一文本坐标和第二文本坐标对第一文本信息和第二文本信息进行分析筛选。
确定子单元831用于将满足预设条件的第一文本序列和第二文本序列作为各题目的题干文本和答案文本。
匹配单元84用于根据各题目的题干文本确定对应的正确答案信息。
在一种可选的实现方式中,本实施例的匹配单元84包括搜索子单元840和得到子单元841。
搜索子单元840用于根据各题目的题干文本对题库内容进行搜索,确定匹配度最高的题目标识。
优选地,本实施例中采用模糊匹配的方式对题库中的题目进行搜索,并将边界距离相似度最高的题目序号作为匹配度最高的题目标识。
得到子单元841用于获取所述题目标识对应的标准答案信息,并将所述标准答案信息作为正确答案信息。
批改单元85用于根据正确答案信息确定各题目的批改信息。
优选地,本实施例中将各题目的答案文本与正确答案信息进行比对,确定各题目的批改信息。
图9是本发明实施例的电子设备的示意图。如图9所示,图9所示的电子设备为通用地址查询装置,其包括通用的计算机硬件结构,其至少包括处理器91和存储器92。处理器91和存储器92通过总线93连接。存储器92适于存储处理器91可执行的指令或程序。处理器91可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器91通过执行存储器92所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线93将上述多个组件连接在一起,同时将上述组件连接到显示控制器94和显示装置以及输入/输出(I/O)装置95。输入/输出(I/O)装置95可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置95通过输入/输出(I/O)控制器99与系统相连。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。
这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
本发明的另一实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种数据处理方法,其特征在于,所述方法包括:
获取版面图片,所述版面图片显示有多个答题子区域,所述答题子区域中包括第一文本和第二文本,相邻的答题子区域之间设置有分隔标识;
根据所述版面图片确定多个答题子图片和对应的题目区域坐标,所述多个答题子图片分别对应于不同的答题子区域;
确定所述版面图片内的第一文本信息和第二文本信息,所述第一文本信息包括第一文本坐标和第一文本序列,所述第二文本信息包括第二文本坐标和第二文本序列;
根据所述各所述题目区域坐标、第一文本信息及第二文本信息确定所述各题目的第一文本和第二文本;
根据所述各题目的第一文本确定对应的第三文本信息;以及
根据所述第三文本信息确定各题目的第四文本信息。
2.根据权利要求1所述的数据处理方法,其特征在于,所述分隔标识为多个所述答题子区域外围显示的闭合的虚线题框;
根据所述版面图片确定多个答题子图片和对应的题目区域坐标包括:
调整所述版面图片尺寸至预定尺寸,得到第一版面图片;
对所述第一版面图片进行图像二值化,得到第二版面图片;
对所述第二版面图片进行图像闭操作,得到第三版面图片;
对所述第三版面图片进行连通域分析和筛选,得到题目区域题框;以及
调整所述题目区域题框尺寸至原始尺寸,确定各所述答题子图片和对应的题目区域坐标;
其中,所述题目区域坐标用于表征各所述答题子区域在版面图片上的位置信息。
3.根据权利要求1所述的数据处理方法,其特征在于,所述确定所述版面图片内的第一文本信息和第二文本信息包括:
将所述版面图片输入至文本分割网络,获取多个特征向量;以及
对所述多个特征向量进行文本检测和文本识别,获取第一文本序列和第二文本序列以及第一文本坐标和第二文本坐标;
其中,所述第一文本序列为所述版面图片内的印刷体文本内容,所述第一文本坐标为所述第一文本序列在所述版面图片上的位置信息;所述第二文本序列为所述版面图片内的手写体内容,所述第二文本坐标为所述第二文本序列在所述版面图片上的位置信息。
4.根据权利要求3所述的数据处理方法,其特征在于,所述文本分割网络的主干网络结构为残差网络模型,所述文本识别网络采用卷积神经网络模型。
5.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述各所述题目区域坐标、第一文本信息及第二文本信息确定所述各题目的第一文本和第二文本具体为:
根据各所述题目的题目区域坐标、第一文本坐标和第二文本坐标对所述第一文本信息和第二文本信息进行分析筛选;以及
将满足预设条件的第一文本序列和第二文本序列作为所述各题目的第一文本和第二文本。
6.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述各题目的第一文本确定对应的第三文本信息具体为:
根据所述各题目的第一文本对题库内容进行搜索,确定匹配度最高的题目标识;以及
获取所述题目标识对应的标准答案信息,并将所述标准答案信息作为第三文本信息;
其中,所述第三文本信息为所述各题目的正确答案信息。
7.根据权利要求6所述的数据处理方法,其特征在于,所述根据所述各题目的第一文本对题库内容进行搜索,确定匹配度最高的题目标识具体为:
采用模糊匹配的方式对题库中的题目进行搜索,并将边界距离相似度最高的题目标识作为匹配度最高的题目标识。
8.根据权利要求6所述的数据处理方法,其特征在于,所述根据所述第三文本信息确定各题目的第四文本信息具体为:
将所述各题目的第二文本与所述第三文本信息进行比对,确定所述各题目的第四文本信息;
其中,所述第四文本信息为所述各题目的批改信息。
9.一种数据处理装置,其特征在于,所述装置包括:
获取单元,用于获取版面图片,所述版面图片显示有多个答题子区域,所述答题子区域中包括第一文本和第二文本,相邻的答题子区域之间设置有分隔标识;
第一确定单元,用于根据所述版面图片确定多个答题子图片和对应的题目区域坐标,所述多个答题子图片分别对应于不同的答题子区域;
第二确定单元,用于确定所述版面图片内的第一文本信息和第二文本信息,所述第一文本信息包括第一文本坐标和第一文本序列,所述第二文本信息包括第二文本坐标和第二文本序列;
第三确定单元,用于根据所述各所述题目区域坐标、第一文本信息及第二文本信息确定所述各题目的第一文本和第二文本;
匹配单元,用于根据所述各题目的第一文本确定对应的第三文本信息;以及
批改单元,用于根据所述第三文本信息确定各题目的第四文本信息。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-8中任一项所述的方法。
11.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-8中任一项所述的方法。
CN202010969800.XA 2020-09-15 2020-09-15 数据处理方法、装置、电子设备及计算机可读存储介质 Pending CN112183253A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010969800.XA CN112183253A (zh) 2020-09-15 2020-09-15 数据处理方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010969800.XA CN112183253A (zh) 2020-09-15 2020-09-15 数据处理方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112183253A true CN112183253A (zh) 2021-01-05

Family

ID=73921280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010969800.XA Pending CN112183253A (zh) 2020-09-15 2020-09-15 数据处理方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112183253A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239717A (zh) * 2021-02-26 2021-08-10 北京百度网讯科技有限公司 用于处理题目的方法、装置、设备、介质和程序产品

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239717A (zh) * 2021-02-26 2021-08-10 北京百度网讯科技有限公司 用于处理题目的方法、装置、设备、介质和程序产品

Similar Documents

Publication Publication Date Title
CN108171297B (zh) 一种答题卡识别方法
CN109117836B (zh) 一种基于焦点损失函数的自然场景下文字检测定位方法和装置
US10223585B2 (en) Page segmentation of vector graphics documents
US7319799B2 (en) Method of recognizing and indexing documents
US7627176B2 (en) Apparatus, method, and computer program for analyzing document layout
CN109409398B (zh) 图像处理装置、图像处理方法以及存储介质
KR102399508B1 (ko) 레이아웃 분석 방법, 판독 보조 장치, 회로, 및 매체
JP2002183731A (ja) 画像内の人間の目、顔及び他の対象物を検出する画像処理方法及びその装置
CN105144239A (zh) 图像处理装置、程序及图像处理方法
CN110737785B (zh) 一种图片标注的方法及装置
CN111985465A (zh) 文本识别方法、装置、设备及存储介质
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
CN112541922A (zh) 基于数字图像的试卷布局分割方法、电子设备及存储介质
JP2001266068A (ja) 表認識方法と表認識装置と文字認識装置及び表認識プログラムを記録した記憶媒体
CN110889437A (zh) 一种图像处理方法、装置、电子设备及存储介质
CN114821620A (zh) 基于行文本框纵向合并的文本内容提取识别方法
CN115761773A (zh) 基于深度学习的图像内表格识别方法及系统
CN113392819B (zh) 一种批量化学术图像自动分割标注装置和方法
CN112183253A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN114330234A (zh) 版面结构分析方法、装置、电子设备和存储介质
CN112434640B (zh) 确定文档图像的旋转角度方法、装置及存储介质
CN114463770A (zh) 一种用于普遍试卷题目的智能切题方法
Martin et al. A learning approach for adaptive image segmentation
CN111881732B (zh) 一种基于svm的人脸质量评价方法
US20220012482A1 (en) Layout analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination