CN109634961B - 一种试卷样本生成方法、装置、电子设备和存储介质 - Google Patents

一种试卷样本生成方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN109634961B
CN109634961B CN201811481423.4A CN201811481423A CN109634961B CN 109634961 B CN109634961 B CN 109634961B CN 201811481423 A CN201811481423 A CN 201811481423A CN 109634961 B CN109634961 B CN 109634961B
Authority
CN
China
Prior art keywords
test paper
question
sample library
target
answers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811481423.4A
Other languages
English (en)
Other versions
CN109634961A (zh
Inventor
何涛
毛礼辉
罗欢
陈明权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dana Technology Inc
Original Assignee
Hangzhou Dana Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dana Technology Inc filed Critical Hangzhou Dana Technology Inc
Priority to CN201811481423.4A priority Critical patent/CN109634961B/zh
Publication of CN109634961A publication Critical patent/CN109634961A/zh
Application granted granted Critical
Publication of CN109634961B publication Critical patent/CN109634961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种试卷样本生成方法、装置、电子设备和存储介质,包括:基于第一试卷的影像和预先训练的题目区域识别模型,识别所述第一试卷上的各个题目的区域,标注出各个题目的区域中的各个组成部分,所述组成部分包括题干、答案和/或图片,通过预先训练的字符识别模型识别各个题目的题干和答案对应的字符;将识别出的各个题目存储至题目样本库,将识别出的答案对应的字符存储至手写字体样本库;从所述题目样本库中选择至少一个目标题目组成第二试卷,并根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,从而生成新的试卷样本。本发明可以解决现有技术中获取试卷样本不便的问题。

Description

一种试卷样本生成方法、装置、电子设备和存储介质
技术领域
本发明涉及机器学习技术领域,尤其涉及一种试卷样本生成方法、装置、电子设备和计算机可读存储介质。
背景技术
目前,在训练针对试卷识别、批改的神经网络模型时,需要用到大量且真实的试卷样本。但是在获取大量真实的试卷样本的过程中存在诸多不便,例如,可以从学生、学校或者培训机构获取作答完毕的真实试卷样本,但获取难度较大,或者利用人员手工填写空白试卷的方式获取作答完毕的真实试卷样本,又会占用大量的时间和精力,成本较高。
发明内容
本发明的目的在于提供一种试卷样本生成方法、装置、电子设备和计算机可读存储介质,以解决现有技术中获取训练样本不便的问题。
为解决上述技术问题,本发明提供了一种试卷样本生成方法,包括:
S101,基于第一试卷的影像和预先训练的题目区域识别模型,识别所述第一试卷上的各个题目的区域,标注出各个题目的区域中的各个组成部分,所述组成部分包括题干、答案和/或图片,通过预先训练的字符识别模型识别各个题目的题干和答案对应的字符;
S102,将识别出的各个题目存储至题目样本库,将识别出的答案对应的字符存储至手写字体样本库;
S103,从所述题目样本库中选择至少一个目标题目组成第二试卷,并根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,从而生成新的试卷样本。
可选的,所述方法还包括:
提取所述第一试卷的背景特征,获得背景特征图片,并将所述背景特征图片存储至试卷背景样本库;
所述步骤S103从所述题目样本库中选择题目组成第二试卷,包括:
从所述试卷背景样本库中选择目标背景特征图片,将所述目标背景特征图片作为所述第二试卷的背景,并从所述题目样本库中选择至少一个目标题目组成所述第二试卷。
可选的,步骤S102将识别出的答案对应的字符存储至手写字体样本库,包括:
将识别出的答案中的文字、符号和/或数字分别拆分存储或组合存储至手写字体样本库。
可选的,所述将识别出的答案中的文字、符号和/或数字分别拆分存储或组合存储至手写字体样本库,包括:
以分组的形式,将识别出的答案中的文字、符号和/或数字分别拆分存储或组合存储至手写字体样本库中对应的分组。
可选的,步骤S103根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,包括:
根据所述目标题目的标准答案,从所述手写字体样本库的不同分组中选择字符组合成答案并填充到所述第二试卷中相应题目的答题位置。
可选的,步骤S103根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,包括:
根据预先设定的整张试卷中错误答案的比例,将所述目标题目分为填充正确答案的第一类题目和填充错误答案的第二类题目;
根据所述第一类题目的标准答案,从所述手写体样本库中选择与标准答案相同的字符填充到所述第一类题目的答题位置;
根据所述第二类题目的标准答案,从所述手写体样本库中选择与标准答案不同的字符填充到所述第二类题目的答题位置。
可选的,在步骤S103生成新的试卷样本之后,还包括:
对所述试卷样本按照以下一种或多种方式进行处理:倾斜、折叠、扭曲和模糊。
可选的,步骤S103从所述题目样本库中选择至少一个目标题目组成第二试卷,包括:
从所述题目样本库中选择至少一个目标题目,并对所述目标题目的字体按照以下一种或多种方式进行处理:字体模糊、墨色、缺墨、溢墨、墨迹不匀、拉伸、以及挤缩;
将处理后的所述目标题目组成所述第二试卷。
可选的,所述将所述目标背景特征图片作为所述第二试卷的背景,包括:
对所述目标背景特征图片按照以下一种或多种方式进行处理:图形、文字、颜色、底纹、水印、明暗、光线、污渍、腐蚀、磨损、破损、以及打孔;
将处理后的所述目标背景特征图片作为所述第二试卷的背景。
本发明还提供一种试卷样本生成装置,包括:
识别模块,用于基于第一试卷的影像和预先训练的题目区域识别模型,识别所述第一试卷上的各个题目的区域,标注出各个题目的区域中的各个组成部分,所述组成部分包括题干、答案和/或图片,通过预先训练的字符识别模型识别各个题目的题干和答案对应的字符;
存储模块,用于将识别出的各个题目存储至题目样本库,将识别出的答案对应的字符存储至手写字体样本库;
生成模块,用于从所述题目样本库中选择至少一个目标题目组成第二试卷,并根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,从而生成新的试卷样本。
可选的,所述装置还包括:
第一处理模块,用于提取所述第一试卷的背景特征,获得背景特征图片,并将所述背景特征图片存储至试卷背景样本库;
所述生成模块从所述题目样本库中选择题目组成第二试卷,包括:
从所述试卷背景样本库中选择目标背景特征图片,将所述目标背景特征图片作为所述第二试卷的背景,并从所述题目样本库中选择至少一个目标题目组成所述第二试卷。
可选的,所述存储模块将识别出的答案对应的字符存储至手写字体样本库,包括:
将识别出的答案中的文字、符号和/或数字分别拆分存储或组合存储至手写字体样本库。
可选的,所述存储模块将识别出的答案中的文字、符号和/或数字分别拆分存储或组合存储至手写字体样本库,包括:
以分组的形式,将识别出的答案中的文字、符号和/或数字分别拆分存储或组合存储至手写字体样本库中对应的分组。
可选的,所述生成模块根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,包括:
根据所述目标题目的标准答案,从所述手写字体样本库的不同分组中选择字符组合成答案并填充到所述第二试卷中相应题目的答题位置。
可选的,所述生成模块根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,包括:
根据预先设定的整张试卷中错误答案的比例,将所述目标题目分为填充正确答案的第一类题目和填充错误答案的第二类题目;
根据所述第一类题目的标准答案,从所述手写体样本库中选择与标准答案相同的字符填充到所述第一类题目的答题位置;
根据所述第二类题目的标准答案,从所述手写体样本库中选择与标准答案不同的字符填充到所述第二类题目的答题位置。
可选的,所述装置还包括:
第二处理模块,用于在所述生成模块生成新的试卷样本之后,对所述试卷样本按照以下一种或多种方式进行处理:倾斜、折叠、扭曲和模糊。
可选的,所述生成模块从所述题目样本库中选择至少一个目标题目组成第二试卷,包括:
从所述题目样本库中选择至少一个目标题目,并对所述目标题目的字体按照以下一种或多种方式进行处理:字体模糊、墨色、缺墨、溢墨、墨迹不匀、拉伸、以及挤缩;
将处理后的所述目标题目组成所述第二试卷。
可选的,所述生成模块将所述目标背景特征图片作为所述第二试卷的背景,包括:
对所述目标背景特征图片按照以下一种或多种方式进行处理:图形、文字、颜色、底纹、水印、明暗、光线、污渍、腐蚀、磨损、破损、以及打孔;
将处理后的所述目标背景特征图片作为所述第二试卷的背景。
本发明还提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一项所述的试卷样本生成方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的试卷样本生成方法的步骤。
与现有技术相比,本发明提供的方案,基于第一试卷的影像和预先训练的题目区域识别模型,识别所述第一试卷上的各个题目的区域,标注出各个题目的区域中的各个组成部分,所述组成部分包括题干、答案和/或图片,通过预先训练的字符识别模型识别各个题目的题干和答案对应的字符;将识别出的各个题目存储至题目样本库,将识别出的答案对应的字符存储至手写字体样本库;从所述题目样本库中选择至少一个目标题目组成第二试卷,并根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,从而生成新的试卷样本。应用本发明的方案,可以快速生成大量的随机试卷样本,降低试卷样本的获取成本,并且所生成的试卷样本质量好,可以提高所训练的模型的识别率。
附图说明
图1是本发明一实施例提供的一种试卷样本生成方法的流程示意图;
图2是本发明一具体实施例中提取手写答案的示意图;
图3是本发明一具体实施例中一个样本试卷的示意图;
图4是本发明一实施例提供的一种试卷样本生成装置的结构示意图;
图5是本发明一实施例提供的电子设备的结构框图。
具体实施方式
以下结合附图和具体实施例对本发明提出的一种试卷样本生成方法、装置、电子设备和计算机可读存储介质作进一步详细说明。根据权利要求书和下面说明,本发明的优点和特征将更清楚。
为解决现有技术的问题,本发明实施例提供了一种试卷样本生成方法、装置、电子设备及计算机可读存储介质。
需要说明的是,本发明实施例的试卷样本生成方法可应用于本发明实施例的试卷样本生成装置,该试卷样本生成装置可被配置于电子设备上。其中,该电子设备可以是个人计算机、移动终端等,该移动终端可以是手机、平板电脑等具有各种操作系统的硬件设备。
图1是本发明一实施例提供的一种试卷样本生成方法的流程示意图,请参考图1,一种试卷样本生成方法可以包括如下步骤:
S101,基于第一试卷的影像和预先训练的题目区域识别模型,识别所述第一试卷上的各个题目的区域,标注出各个题目的区域中的各个组成部分,所述组成部分包括题干、答案和/或图片,通过预先训练的字符识别模型识别各个题目的题干和答案对应的字符。
其中,第一试卷可以为人工手写作答的试卷。预先训练的题目区域识别模型例如可以是基于深度卷积神经网络(Convolutional Neural Networks,CNN)对试卷样本训练集中的样本进行训练得到的。利用训练好的题目区域识别模型从第一试卷的影像中提取二维特征向量,在二维特征向量的每个网格生成不同形状的锚点,使用标注框(GroundtruthBoxes)将识别出的各个题目的区域进行标注,还可以将标注框与生成的锚点作回归(regression)处理,以使标注框更贴近题目的实际位置。识别完题目区域后可以将每道题目进行切割为单个区域,或者不实际切割,而在处理时将每个题目区域区分开,作为单个区域进行处理,并根据题目位置信息进行排序。
识别出各个题目的区域后,标注出题目中的各个组成部分,组成部分可以包括题干、答案和/或图片,进而通过字符识别模型识别出题目中题干和答案对应的字符。其中,字符识别模型可以是基于空洞卷积和注意力模型建立的,具体的,采用空洞卷积对题干、答题和/或图片对应的标注框进行特征提取,再通过注意力模型将提取到的特征解码成字符。进一步的,字符识别模型可以包括针对题干的字符识别模型和针对答案的字符识别模型,其中所述题干由打印字体组成,所述答案由手写字体组成,所述针对题干的字符识别模型和所述针对答案的字符识别模型分别经过各自独立的训练而成。
S102,将识别出的各个题目存储至题目样本库,将识别出的答案对应的字符存储至手写字体样本库。
其中,答案对应的字符可以为文字(包括汉字如大于、苹果,英文字符如A、apple)、符号(如>、×、(、)等)、数字(如1、2)等形式的字符。将识别出的答案对应的字符存储至手写字体样本库,可以是将识别出的答案中的文字、符号和/或数字分别拆分存储或组合存储至手写字体样本库。例如,识别出的答案对应的字符为“大于0”,可以将“大于0”组合存储,也可以拆分为“大”“于”“0”“大于”等进行存储。
进一步的,为便于查找手写字体,还可以以分组的形式,将识别出的答案中的文字、符号和/或数字分别拆分存储或组合存储至手写字体样本库中对应的分组。具体而言,可以按照字符的类型进行分组,将所有的文字作为一个分组、将所有的符号作为一个分组、将所有的数字作为一个分组;或者按照字符的内容进行分组,将内容相同的字符作为一个分组,例如数字23中拆分为数字2、数字3以及数字23分别作为不同分组;或者先按照字符的类型划分得到多个大组,再在各个大组内按照字符的内容细分得到多个小组。这样,可以将相同的文字、符号和/或数字分为小组进行手写字体样本存储,每个小组中具有不同手写字体的字符内容。
举例而言,图2为一具体实施例中提取手写答案部分的示意图,图2中每一答案对应的字符均被框选,其中,可以将每一答案整体框选并提取后存储至手写字体样本库,也可以将答案中的各个字符单独框选并提取后存储至手写字体样本库。
在实际应用中,还可以标注出各个题目的类型属性,类型属性包括:选择题、填空题、判断题、计算题等,可以根据类型属性将同一类型的题目存储至题目样本库中的同一分组中。
S103,从所述题目样本库中选择至少一个目标题目组成第二试卷,并根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,从而生成新的试卷样本。
具体的,可以从题目样本库中随机选择一个或多个目标题目,包括题干部分和图片部分(如果题目包含图片)组成一份新的试卷作为第二试卷,当然也可以选择同一张试卷题目组成新的试卷,例如选择上述的第一试卷中的所有题目组成第二试卷。
然后,根据每道目标题目的标准答案,可以从手写字体样本库中随机选择字符填充到所述第二试卷中相应题目的答题位置。举例而言,某一目标题目的标准答案为“23”,则可以从手写字体样本库中随机选择字符为“23”的手写字体填充到第二试卷中该目标题目的答题位置,或者随机选择字符“2”和“3”的手写字体然后组合成字符“23”的手写字体,再填充到第二试卷中该目标题目的答题位置。
对于上述所提及的“以分组的形式,将文字、符号和/或数字分别拆分存储或组合存储至手写字体样本库中对应的分组”的存储方式,在步骤S103中,可以根据所述目标题目的标准答案,从所述手写字体样本库的不同分组中选择字符组合成答案并填充到所述第二试卷中相应题目的答题位置。举例而言,某一目标题目的标准答案为“23”,则可以从数字为“23”的分组内随机选择手写字体,或者分别从数字为“2”“3”的分组内随机选择“2”“3”的手写字体然后组合成字符“23”的手写字体。
进一步的,对于步骤S103中根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,具体可以包括:根据预先设定的整张试卷中错误答案的比例,将所述目标题目分为填充正确答案的第一类题目和填充错误答案的第二类题目;根据所述第一类题目的标准答案,从所述手写体样本库中选择与标准答案相同的字符填充到所述第一类题目的答题位置;根据所述第二类题目的标准答案,从所述手写体样本库中选择与标准答案不同的字符填充到所述第二类题目的答题位置。
需要注意的是,在填入错误答案时,可以随机从手写字体样本库中选择与标准答案不同的字符,但是所选择的字符需要与标准答案的格式一致,例如,标准答案为数字,则从手写字体样本库中随机选择与标准答案不同的数字进行填充。可以理解的是,设定整张试卷中错误答案的比例,随机选取一部分题目填入错误答案,可以提高所生成的试卷样本的真实性,在后续利用所生成的试卷样本进行模型训练时,填入的错误答案还可以用来检验所训练的模型的准确率,确定其是否能够识别出错误答案。
由此可见,填充了答案的第二试卷可以作为新的试卷样本,由于手写字体样本库中的字符均为手写体,因此填充了答案的第二试卷类似于人工手写作答的真实试卷,并且填充的手写体答案可以通过随机选择不同字符进行组合,因此还可以保证新生成的试卷样本具有多样性。
在本发明的另一实施方式中,还可以提取所述第一试卷的背景特征,获得背景特征图片,并将所述背景特征图片存储至试卷背景样本库;步骤S103从所述题目样本库中选择题目组成第二试卷,可以包括:从所述试卷背景样本库中选择目标背景特征图片,将所述目标背景特征图片作为所述第二试卷的背景,并从所述题目样本库中选择至少一个目标题目组成所述第二试卷。可以理解的是,人工真实作答的试卷具有其特有的背景特征,将人工作答的试卷的背景特征图片作为新生成的试卷样本的背景,可以进一步提高新生成的试卷样本的真实性。
除此之外,还可以对新生成的试卷样本进行其它形式的效果处理,以增加试卷样本的真实性。具体而言,在步骤S103生成新的试卷样本之后,还可以对所述试卷样本按照以下一种或多种方式进行处理:倾斜、折叠、扭曲和模糊。
以及,从所述题目样本库中选择至少一个目标题目,并对所述目标题目的字体按照以下一种或多种方式进行处理:字体模糊、墨色、缺墨、溢墨、墨迹不匀、拉伸、以及挤缩;将处理后的所述目标题目组成所述第二试卷。
以及,对所述目标背景特征图片按照以下一种或多种方式进行处理:图形、文字、颜色、底纹、水印、明暗、光线、污渍、腐蚀、磨损、破损、以及打孔;将处理后的所述目标背景特征图片作为所述第二试卷的背景。
以上效果处理可以进行叠加,从而可以实现多层效果。
图3为应用本发明的方案生成的一个样本试卷,如图3所示的试卷样本图片,其试卷的背景为经过了以上效果处理,答案中的数字和字符为随机从样本库中选取的,并且随机产生了2处错误,如第3题的答案“千米”,第8题的答案“3”。可见,本发明的方案生成的样本试卷与人工手写作答的试卷基本没有区别。
综上所述,与现有技术相比,本发明提供的方案,基于第一试卷的影像和预先训练的题目区域识别模型,识别所述第一试卷上的各个题目的区域,标注出各个题目的区域中的各个组成部分,所述组成部分包括题干、答案和/或图片,通过预先训练的字符识别模型识别各个题目的题干和答案对应的字符;将识别出的各个题目存储至题目样本库,将识别出的答案对应的字符存储至手写字体样本库;从所述题目样本库中选择至少一个目标题目组成第二试卷,并根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,从而生成新的试卷样本。应用本发明的方案,可以快速生成大量的随机试卷样本,降低试卷样本的获取成本,并且所生成的试卷样本质量好,可以提高所训练的模型的识别率。
与上述的试卷样本生成方法相对应,本发明还提供了一种试卷样本生成装置,如图4所示,所述装置包括:
识别模块201,用于基于第一试卷的影像和预先训练的题目区域识别模型,识别所述第一试卷上的各个题目的区域,标注出各个题目的区域中的各个组成部分,所述组成部分包括题干、答案和/或图片,通过预先训练的字符识别模型识别各个题目的题干和答案对应的字符;
存储模块202,用于将识别出的各个题目存储至题目样本库,将识别出的答案对应的字符存储至手写字体样本库;
生成模块203,用于从所述题目样本库中选择至少一个目标题目组成第二试卷,并根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,从而生成新的试卷样本。
可选的,所述装置还包括:
第一处理模块,用于提取所述第一试卷的背景特征,获得背景特征图片,并将所述背景特征图片存储至试卷背景样本库;
所述生成模块203从所述题目样本库中选择题目组成第二试卷,包括:
从所述试卷背景样本库中选择目标背景特征图片,将所述目标背景特征图片作为所述第二试卷的背景,并从所述题目样本库中选择至少一个目标题目组成所述第二试卷。
可选的,所述存储模块202将识别出的答案对应的字符存储至手写字体样本库,包括:
将识别出的答案中的文字、符号和/或数字分别拆分存储或组合存储至手写字体样本库。
可选的,所述存储模块202将识别出的答案中的文字、符号和/或数字分别拆分存储或组合存储至手写字体样本库,包括:
以分组的形式,将识别出的答案中的文字、符号和/或数字分别拆分存储或组合存储至手写字体样本库中对应的分组。
可选的,所述生成模块203根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,包括:
根据所述目标题目的标准答案,从所述手写字体样本库的不同分组中选择字符组合成答案并填充到所述第二试卷中相应题目的答题位置。
可选的,所述生成模块203根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,包括:
根据预先设定的整张试卷中错误答案的比例,将所述目标题目分为填充正确答案的第一类题目和填充错误答案的第二类题目;
根据所述第一类题目的标准答案,从所述手写体样本库中选择与标准答案相同的字符填充到所述第一类题目的答题位置;
根据所述第二类题目的标准答案,从所述手写体样本库中选择与标准答案不同的字符填充到所述第二类题目的答题位置。
可选的,所述装置还包括:
第二处理模块,用于在所述生成模块203生成新的试卷样本之后,对所述试卷样本按照以下一种或多种方式进行处理:倾斜、折叠、扭曲和模糊。
可选的,所述生成模块203从所述题目样本库中选择至少一个目标题目组成第二试卷,包括:
从所述题目样本库中选择至少一个目标题目,并对所述目标题目的字体按照以下一种或多种方式进行处理:字体模糊、墨色、缺墨、溢墨、墨迹不匀、拉伸、以及挤缩;
将处理后的所述目标题目组成所述第二试卷。
可选的,所述生成模块203将所述目标背景特征图片作为所述第二试卷的背景,包括:
对所述目标背景特征图片按照以下一种或多种方式进行处理:图形、文字、颜色、底纹、水印、明暗、光线、污渍、腐蚀、磨损、破损、以及打孔;
将处理后的所述目标背景特征图片作为所述第二试卷的背景。
对于本实施例公开的试卷样本生成装置而言,由于其基本相似于上述试卷样本生成方法实施例,所以描述的比较简单,相关之处参见上述试卷样本生成方法实施例的部分说明即可。
本发明还提供了一种电子设备,如图5所示,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301、通信接口302、存储器303通过通信总线304完成相互间的通信,
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序时,实现如下步骤:
S101,基于第一试卷的影像和预先训练的题目区域识别模型,识别所述第一试卷上的各个题目的区域,标注出各个题目的区域中的各个组成部分,所述组成部分包括题干、答案和/或图片,通过预先训练的字符识别模型识别各个题目的题干和答案对应的字符;
S102,将识别出的各个题目存储至题目样本库,将识别出的答案对应的字符存储至手写字体样本库;
S103,从所述题目样本库中选择至少一个目标题目组成第二试卷,并根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,从而生成新的试卷样本。
关于该方法各个步骤的具体实现以及相关解释内容可以参见上述图1所示的方法实施例,在此不做赘述。
另外,处理器301执行存储器303上所存放的程序而实现的试卷样本生成方法的其他实现方式,与前述方法实施例部分所提及的实现方式相同,这里也不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,该计算机程序被处理器执行时实现上述的试卷样本生成方法的方法步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
上述描述仅是对本发明较佳实施例的描述,并非对本发明范围的任何限定,本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。

Claims (16)

1.一种试卷样本生成方法,其特征在于,包括:
S101,基于第一试卷的影像和预先训练的题目区域识别模型,识别所述第一试卷上的各个题目的区域,标注出各个题目的区域中的各个组成部分,所述组成部分包括题干、答案和/或图片,通过预先训练的字符识别模型识别各个题目的题干和答案对应的字符;
S102,将识别出的各个题目存储至题目样本库,将识别出的答案对应的字符存储至手写字体样本库;
S103,从所述题目样本库中选择至少一个目标题目组成第二试卷,并根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,从而生成新的试卷样本;
步骤S102将识别出的答案对应的字符存储至手写字体样本库,包括:
将识别出的答案中的文字、符号和/或数字分别拆分存储或组合存储至手写字体样本库;
步骤S103根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,包括:
根据预先设定的整张试卷中错误答案的比例,将所述目标题目分为填充正确答案的第一类题目和填充错误答案的第二类题目;
根据所述第一类题目的标准答案,从所述手写字 体样本库中选择与标准答案相同的字符填充到所述第一类题目的答题位置;
根据所述第二类题目的标准答案,从所述手写体样本库中选择与标准答案不同的字符填充到所述第二类题目的答题位置。
2.如权利要求1所述的试卷样本生成方法,其特征在于,所述方法还包括:
提取所述第一试卷的背景特征,获得背景特征图片,并将所述背景特征图片存储至试卷背景样本库;
所述步骤S103从所述题目样本库中选择题目组成第二试卷,包括:
从所述试卷背景样本库中选择目标背景特征图片,将所述目标背景特征图片作为所述第二试卷的背景,并从所述题目样本库中选择至少一个目标题目组成所述第二试卷。
3.如权利要求1所述的试卷样本生成方法,其特征在于,所述将识别出的答案中的文字、符号和/或数字分别拆分存储或组合存储至手写字体样本库,包括:
以分组的形式,将识别出的答案中的文字、符号和/或数字分别拆分存储或组合存储至手写字体样本库中对应的分组。
4.如权利要求3所述的试卷样本生成方法,其特征在于,步骤S103根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,包括:
根据所述目标题目的标准答案,从所述手写字体样本库的不同分组中选择字符组合成答案并填充到所述第二试卷中相应题目的答题位置。
5.如权利要求1所述的试卷样本生成方法,其特征在于,在步骤S103生成新的试卷样本之后,还包括:
对所述试卷样本按照以下一种或多种方式进行处理:倾斜、折叠、扭曲和模糊。
6.如权利要求1所述的试卷样本生成方法,其特征在于,步骤S103从所述题目样本库中选择至少一个目标题目组成第二试卷,包括:
从所述题目样本库中选择至少一个目标题目,并对所述目标题目的字体按照以下一种或多种方式进行处理:字体模糊、墨色、缺墨、溢墨、墨迹不匀、拉伸、以及挤缩;
将处理后的所述目标题目组成所述第二试卷。
7.如权利要求2所述的试卷样本生成方法,其特征在于,所述将所述目标背景特征图片作为所述第二试卷的背景,包括:
对所述目标背景特征图片按照以下一种或多种方式进行处理:图形、文字、颜色、底纹、水印、明暗、光线、污渍、腐蚀、磨损、破损、以及打孔;
将处理后的所述目标背景特征图片作为所述第二试卷的背景。
8.一种试卷样本生成装置,其特征在于,包括:
识别模块,用于基于第一试卷的影像和预先训练的题目区域识别模型,识别所述第一试卷上的各个题目的区域,标注出各个题目的区域中的各个组成部分,所述组成部分包括题干、答案和/或图片,通过预先训练的字符识别模型识别各个题目的题干和答案对应的字符;
存储模块,用于将识别出的各个题目存储至题目样本库,将识别出的答案对应的字符存储至手写字体样本库;
生成模块,用于从所述题目样本库中选择至少一个目标题目组成第二试卷,并根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,从而生成新的试卷样本;
所述存储模块将识别出的答案对应的字符存储至手写字体样本库,包括:
将识别出的答案中的文字、符号和/或数字分别拆分存储或组合存储至手写字体样本库;
所述生成模块根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,包括:
根据预先设定的整张试卷中错误答案的比例,将所述目标题目分为填充正确答案的第一类题目和填充错误答案的第二类题目;
根据所述第一类题目的标准答案,从所述手写字 体样本库中选择与标准答案相同的字符填充到所述第一类题目的答题位置;
根据所述第二类题目的标准答案,从所述手写体样本库中选择与标准答案不同的字符填充到所述第二类题目的答题位置。
9.如权利要求8所述的试卷样本生成装置,其特征在于,所述装置还包括:
第一处理模块,用于提取所述第一试卷的背景特征,获得背景特征图片,并将所述背景特征图片存储至试卷背景样本库;
所述生成模块从所述题目样本库中选择题目组成第二试卷,包括:
从所述试卷背景样本库中选择目标背景特征图片,将所述目标背景特征图片作为所述第二试卷的背景,并从所述题目样本库中选择至少一个目标题目组成所述第二试卷。
10.如权利要求8所述的试卷样本生成装置,其特征在于,所述存储模块将识别出的答案中的文字、符号和/或数字分别拆分存储或组合存储至手写字体样本库,包括:
以分组的形式,将识别出的答案中的文字、符号和/或数字分别拆分存储或组合存储至手写字体样本库中对应的分组。
11.如权利要求10所述的试卷样本生成装置,其特征在于,所述生成模块根据所述目标题目的标准答案,从所述手写字体样本库中选择字符填充到所述第二试卷中相应题目的答题位置,包括:
根据所述目标题目的标准答案,从所述手写字体样本库的不同分组中选择字符组合成答案并填充到所述第二试卷中相应题目的答题位置。
12.如权利要求8所述的试卷样本生成装置,其特征在于,所述装置还包括:
第二处理模块,用于在所述生成模块生成新的试卷样本之后,对所述试卷样本按照以下一种或多种方式进行处理:倾斜、折叠、扭曲和模糊。
13.如权利要求8所述的试卷样本生成装置,其特征在于,所述生成模块从所述题目样本库中选择至少一个目标题目组成第二试卷,包括:
从所述题目样本库中选择至少一个目标题目,并对所述目标题目的字体按照以下一种或多种方式进行处理:字体模糊、墨色、缺墨、溢墨、墨迹不匀、拉伸、以及挤缩;
将处理后的所述目标题目组成所述第二试卷。
14.如权利要求9所述的试卷样本生成装置,其特征在于,所述生成模块将所述目标背景特征图片作为所述第二试卷的背景,包括:
对所述目标背景特征图片按照以下一种或多种方式进行处理:图形、文字、颜色、底纹、水印、明暗、光线、污渍、腐蚀、磨损、破损、以及打孔;
将处理后的所述目标背景特征图片作为所述第二试卷的背景。
15.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一项 所述的方法步骤。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法步骤。
CN201811481423.4A 2018-12-05 2018-12-05 一种试卷样本生成方法、装置、电子设备和存储介质 Active CN109634961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811481423.4A CN109634961B (zh) 2018-12-05 2018-12-05 一种试卷样本生成方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811481423.4A CN109634961B (zh) 2018-12-05 2018-12-05 一种试卷样本生成方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN109634961A CN109634961A (zh) 2019-04-16
CN109634961B true CN109634961B (zh) 2021-06-04

Family

ID=66071260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811481423.4A Active CN109634961B (zh) 2018-12-05 2018-12-05 一种试卷样本生成方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN109634961B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427412A (zh) * 2019-06-27 2019-11-08 深圳中兴网信科技有限公司 题目读取方法、装置、题目录入装置和计算机存储介质
CN110378310B (zh) * 2019-07-25 2023-10-10 南京红松信息技术有限公司 一种基于答案库的手写样本集的自动生成方法
CN110647885B (zh) * 2019-09-17 2022-10-28 广州光大教育软件科技股份有限公司 基于图片识别的试卷拆分方法、装置、设备以及介质
CN110956170A (zh) * 2019-09-30 2020-04-03 京东数字科技控股有限公司 生成护照机读码样本的方法、装置、设备及存储介质
CN110706317A (zh) * 2019-10-11 2020-01-17 北京一起教育信息咨询有限责任公司 印刷手写混合的数学公式数据生成方法及装置
CN110866501B (zh) * 2019-11-19 2022-04-29 中国建设银行股份有限公司 一种训练数据生成方法、数据识别方法和计算机存储介质
CN113052315B (zh) * 2019-12-26 2022-05-17 北京易真学思教育科技有限公司 组卷模型训练及其组卷方法、装置及计算机存储介质
CN111063223B (zh) * 2020-01-07 2022-02-08 杭州大拿科技股份有限公司 英语单词拼写练习方法及装置
CN111553211A (zh) * 2020-04-16 2020-08-18 深圳中兴网信科技有限公司 试卷答案识别方法、系统、装置和计算机可读存储介质
CN112069349A (zh) * 2020-09-15 2020-12-11 杭州大拿科技股份有限公司 自动填写答案的方法、电子设备和可读存储介质
CN117037187A (zh) * 2023-10-10 2023-11-10 广东省科技基础条件平台中心 一种试卷图像提取方法、装置及终端设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392255A (zh) * 2017-07-31 2017-11-24 深圳先进技术研究院 少数类图片样本的生成方法、装置、计算设备及存储介质
CN107766946A (zh) * 2017-09-28 2018-03-06 第四范式(北京)技术有限公司 生成机器学习样本的组合特征的方法及系统
CN107809766A (zh) * 2017-10-20 2018-03-16 北京神州泰岳软件股份有限公司 一种用于网络优化的机器学习样本的生成方法及装置
CN108090516A (zh) * 2017-12-27 2018-05-29 第四范式(北京)技术有限公司 自动生成机器学习样本的特征的方法及系统
CN108460414A (zh) * 2018-02-27 2018-08-28 北京三快在线科技有限公司 训练样本图像的生成方法、装置及电子设备
CN108932508A (zh) * 2018-08-13 2018-12-04 杭州大拿科技股份有限公司 一种题目智能识别、批改的方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392255A (zh) * 2017-07-31 2017-11-24 深圳先进技术研究院 少数类图片样本的生成方法、装置、计算设备及存储介质
CN107766946A (zh) * 2017-09-28 2018-03-06 第四范式(北京)技术有限公司 生成机器学习样本的组合特征的方法及系统
CN107809766A (zh) * 2017-10-20 2018-03-16 北京神州泰岳软件股份有限公司 一种用于网络优化的机器学习样本的生成方法及装置
CN108090516A (zh) * 2017-12-27 2018-05-29 第四范式(北京)技术有限公司 自动生成机器学习样本的特征的方法及系统
CN108460414A (zh) * 2018-02-27 2018-08-28 北京三快在线科技有限公司 训练样本图像的生成方法、装置及电子设备
CN108932508A (zh) * 2018-08-13 2018-12-04 杭州大拿科技股份有限公司 一种题目智能识别、批改的方法和系统

Also Published As

Publication number Publication date
CN109634961A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109634961B (zh) 一种试卷样本生成方法、装置、电子设备和存储介质
US11410407B2 (en) Method and device for generating collection of incorrectly-answered questions
CN109815932B (zh) 一种试卷批改方法、装置、电子设备及存储介质
CN109993112B (zh) 一种图片中表格的识别方法及装置
CN109726643B (zh) 图像中表格信息的识别方法、装置、电子设备及存储介质
CN109670504B (zh) 一种手写答案识别批改方法及装置
CN107798321A (zh) 一种试卷分析方法和计算设备
CN110956138B (zh) 一种基于家教设备的辅助学习方法及家教设备
CN112990180B (zh) 判题方法、装置、设备及存储介质
CN111104883B (zh) 作业答案提取方法、装置、设备及计算机可读存储介质
CN112580503A (zh) 一种作业批改方法、装置、设备及存储介质
CN112801084A (zh) 图像处理方法及装置、电子设备和存储介质
CN112287926A (zh) 一种图形题目的批改方法、装置以及设备
CN111063223A (zh) 英语单词拼写练习方法及装置
CN111008594A (zh) 改错题评阅方法、相关设备及可读存储介质
CN112991410A (zh) 一种文本图像配准方法、电子设备及其存储介质
US11749128B2 (en) Answer correction method and device
CN111666799A (zh) 一种口算题的校验方法及终端
CN111062377B (zh) 一种题号检测方法、系统、存储介质及电子设备
CN113591845A (zh) 一种多题型识别方法、装置和计算机设备
CN113033325A (zh) 图像处理方法及装置、智能发票识别设备和存储介质
CN112001152A (zh) 对象识别处理方法、处理装置、电子设备和存储介质
CN110751140A (zh) 字符批量识别方法、装置和计算机设备
CN111666474A (zh) 一种整页搜题的方法及终端
CN112464720B (zh) 文档图像处理、模型训练方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant