CN114821222A - 试卷图像生成方法、装置、存储介质及电子设备 - Google Patents

试卷图像生成方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN114821222A
CN114821222A CN202210315728.8A CN202210315728A CN114821222A CN 114821222 A CN114821222 A CN 114821222A CN 202210315728 A CN202210315728 A CN 202210315728A CN 114821222 A CN114821222 A CN 114821222A
Authority
CN
China
Prior art keywords
test paper
generator
image
paper image
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210315728.8A
Other languages
English (en)
Inventor
杜竹君
马志国
张飞飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dingshixing Education Consulting Co ltd
Original Assignee
Beijing Dingshixing Education Consulting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dingshixing Education Consulting Co ltd filed Critical Beijing Dingshixing Education Consulting Co ltd
Priority to CN202210315728.8A priority Critical patent/CN114821222A/zh
Publication of CN114821222A publication Critical patent/CN114821222A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及一种试卷图像生成方法、装置、存储介质及电子设备,属于信息技术领域,所述方法包括:基于预先获取得到的素材库,生成试卷版面,并基于所述试卷版面添加试题,以得到包括具备多种标注信息的第一试卷图像,所述素材库中的每一素材至少包括一种标注信息;将所述第一试卷图像输入预先训练得到的多个试卷图像生成模型中的任意一个试卷图像生成模型,得到进行风格迁移后的具备多种标注信息的目标试卷图像,以使得所述目标试题图像呈现出用户真实拍摄的图像效果,其中,每一所述试卷图像生成模型的风格迁移类型不同。扩充了训练数据的数量和多样性,降低了标注成本,提高了效率。

Description

试卷图像生成方法、装置、存储介质及电子设备
技术领域
本公开涉及信息技术领域,具体地,涉及一种试卷图像生成方法、装置、存储介质及电子设备。
背景技术
基于深度学习方法进行拍照场景下通用试卷图片的文字识别及版面分析离不开数据的支持,要想获得满意的结果,数据量至少需要达到数万级,而拍照场景的通用试卷图片从收集到标注都是一个耗时耗力的过程。相关技术中,即使获取到了足够数量的试卷图像,针对试卷图像的标注常常需要人工来处理,然而要得到数万级的具备标注信息的图像数据是不可能的。
发明内容
为了解决相关技术中存在的问题,本公开提供一种试卷图像生成方法、装置、存储介质及电子设备。
为了实现上述目的,本公开第一方面提供一种试卷图像生成方法,所述方法包括:
基于预先获取得到的素材库,生成试卷版面,并基于所述试卷版面添加试题,以得到包括具备多种标注信息的第一试卷图像,所述素材库中的每一素材至少包括一种标注信息;
将所述第一试卷图像输入预先训练得到的多个试卷图像生成模型中的任意一个试卷图像生成模型,得到进行风格迁移后的具备多种标注信息的目标试卷图像,以使得所述目标试题图像呈现出用户真实拍摄的图像效果,其中,每一所述试卷图像生成模型的风格迁移类型不同。
可选地,所述方法包括:
获取带有标注的公开数据集作为训练集,对初始语义分割模型进行预训练,得到训练完成的第一语义分割模型;
获取无标注信息的试卷图像集,并基于所述公开数据集的标注类别,对所述试卷图像集中目标数量的试卷进行标注,得到标注后的第一图像集以及无标注信息的第二图像集,以使得所述标注后的第一图像集的标注类别与所述公开数据集的标注类别一致,所述第一图像集中试卷图像的数量小于第二图像集;
将所述第一图像集输入所述第一语义分割模型,进行迁移学习,得到第二语义分割模型;
将所述第二图像集输入所述第二语义分割模型,对所述第二图像集进行语义分割,得到所述素材库,所述素材库中每一素材均包括与该素材对应的标注信息。
可选地,所述基于所述素材库,生成试卷版面,并在所述试卷版面中添加试题,以得到第一试卷图像包括:
确定待生成的试卷图像的尺寸信息,所述尺寸信息包括宽度、高度以及分栏数;
基于所述尺寸信息以及所述素材库中的素材,生成试卷版面,所述试卷版面包括布局信息与试卷标题信息,所述布局信息用于表征试卷图像的各个区域的划分情况以及各个区域的边界信息;并,
分别对所述待生成的试卷图像的各个区域随机选取目标题型;
对所述各个区域中的每一个区域,从素材库中选取与所述目标题型对应的题目语料,并根据所述布局信息表征的该区域的边界信息,将所述题目语料添加至该区域,直至各个区域均写满,以得到所述第一试卷图像。
可选地,所述试卷图像生成模型的训练包括:
获取通过扫描得到的扫描图像集,以及与扫描图像集中的各个试卷图像对应的以目标风格迁移类型对应的方式拍摄得到的拍摄图像集;
将所述扫描图像集输入第一生成器,得到第一生成图像集;
将所述第一生成图像集以及所述拍摄图像集输入第一判别器,得到第一判别结果;
根据所述第一判别结果,对所述第一生成器的参数进行调整,以得到更新后的第一生成器;
重复上述将所述扫描图像集输入第一生成器,至所述对所述第一生成器的参数进行调整的步骤,直至第一判别结果表征第一生成器生成的第一生成图像集的置信度大于预设阈值,将最后一次更新得到的第一生成器作为对应所述目标风格迁移类型的试卷图像生成模型。
可选地,所述试卷图像生成模型中的任意一个试卷图像生成模型均包括N+1个依次串联的生成器,N为大于等于零的自然数,
所述将所述第一试卷图像输入预先训练得到的多个试卷图像生成模型中的任意一个试卷图像生成模型,得到进行风格迁移后的具备多种标注信息的目标试卷图像包括:
针对所述N+1个依次串联的生成器中的第1个生成器,将经过N次下采样的所述第一试卷图像输入所述第1个生成器,得到第1个生成器对应的生成图像;
针对所述N+1个依次串联的生成器中的第M个生成器,将第M-1个生成器输出的生成图像进行上采样后得到的图像,以及经过N-M+1次下采样的所述第一试卷图像输入所述第M个生成器,得到第M个生成器对应的生成图像,其中M大于等于2,小于等于N+1;
将第N个生成器输出的生成图像作为所述目标试卷图像。
可选地,所述试卷图像生成模型的训练包括:
获取目标风格迁移类型的样本试卷图像;
将所述样本试卷图像输入初始试卷图像生成模型,所述初始试卷图像生成模型N+1个依次串联的未经训练的生成器,其中每一个未经训练的生成器连接有一判别器;
针对所述N+1个依次串联的未经训练的生成器中的第1个生成器,将随机噪声输入所述第1个生成器,得到第1个生成器对应的生成图像;将所述第1个生成器对应的生成图像以及经过N次下采样的样本试卷图像输入所述第1个生成器对应的判别器,得到所述第1个生成器对应的判别器输出的判别结果,根据该判别结果调整该第1个生成器的参数,以得到训练完成的第1个生成器;
针对所述N+1个依次串联的未经训练的生成器中的第M个生成器,将经过M-1次上采样的所述随机噪声以及训练完成的第M-1个生成器输出的生成图像输入所述第M个生成器,得到所述第M个生成器对应的生成图像;将所述第M个生成器对应的生成图像以及经过N-M+1次下采样的样本试卷图像输入所述第M个生成器对应的判别器,得到所述第M个生成器对应的判别器输出的判别结果,根据该判别结果调整该第M个生成器的参数,以得到训练完成的第M个生成器,其中M大于等于2,小于等于N+1;
根据训练完成的第1个生成器至第N+1个生成器,得到训练完成的对应所述目标风格迁移类型的试卷图像生成模型。
可选地,所述生成器以及所述判别器均由五个卷积块构成,每一个卷积块包括卷积层、批归一化层以及激活层,并且,所述生成器是由全卷积网络构成。
本公开第二方面提供一种试卷图像生成装置,所述装置包括:
第一生成模块,用于基于预先获取得到的素材库,生成试卷版面,并基于所述试卷版面添加试题,以得到包括具备多种标注信息的第一试卷图像,所述素材库中的每一素材至少包括一种标注信息;
第二生成模块,用于将所述第一试卷图像输入预先训练得到的多个试卷图像生成模型中的任意一个试卷图像生成模型,得到进行风格迁移后的具备多种标注信息的目标试卷图像,以使得所述目标试题图像呈现出用户真实拍摄的图像效果,其中,每一所述试卷图像生成模型的风格迁移类型不同。
本公开第三方面提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面中任一项所述方法的步骤。
本公开第四方面提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面中任一项所述方法的步骤。
通过上述技术方案,通过预先获取的具备标注信息的素材库生成电子试卷,在将该电子试卷输入预先训练得到的对应各种风格迁移类型的试卷图像生成模型,进而得到呈现出用户真实拍摄的图像效果的试卷图像,以使得能够生成大量的用户真实拍摄的图像效果的试卷图像,扩充了训练数据的数量和多样性,降低了标注成本,提高了效率。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种试卷图像生成方法的流程图;
图2是根据一示例性实施例示出的一种素材库获取方法的流程图;
图3是根据一示例性实施例示出的一种试卷图像生成模型的示意图;
图4是根据一示例性实施例示出的一种试卷图像生成装置的框图;
图5是根据一示例性实施例示出的一种电子设备的框图;
图6是根据一示例性实施例示出的一种电子设备的另一框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
需要说明的是,本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
为了使得本领域技术人员更加理解本公开提出的技术方案的改进之处,本公开相对相关技术进行介绍,在相关技术中,针对试卷数据量缺失的解决方案主要有以下四种方式:
1.使用带有标注的公开数据集进行预训练。
2.搜集数据进行标注后进行模型训练。
3.合成文本行数据用于文本检测与识别。
4.生成电子试卷。
针对第一种解决方案,由于使用的是公开数据集,这些数据集相互之间标注内容会有区别,所以只能挑选其中一种进行使用,另外公开数据集的应用场景和本提案中通用试卷图片文字检测识别与版面分析的需求无法统一,并不能作为数据的一种补充。
针对第二种解决方案,要搜集各种样式的拍照场景通用试卷图片是耗时耗力的,另外对图片进行全方位的标注,成本非常高。
针对第三种解决方案,经过合成数据的方法生成文本行,可用于文本的检测与识别,但是缺乏拍照试卷图片场景,其效果有限;另外对于试卷版面信息,其是缺失的,并且生成的图像也不会尽量仿照真实试卷的样式,对于试卷的文本识别、版面分析来说是远远不够的。
针对第四种解决方案,重点在于如何自动化地生成试卷来提供给学生使用,而不是用于深度学习模型训练。第一、其生成的试卷的版式比较单一,学科题型等涵盖不全,并且缺乏试卷内容的相应标签。第二、生成的电子试卷图片与现实中拍照的试卷图片有较大差异,不符合使用场景。
为了解决相关技术中存在的问题,本公开提供一种试卷图像生成方法、装置、存储介质及电子设备。
图1是根据一示例性实施例示出的一种试卷图像生成方法的流程图,该方法的执行主体可以是笔记本电脑、手机、服务器等具备信息处理能力的电子设备,本公开对此不作具体限定,如图1所示,所述方法包括:
S101、基于预先获取得到的素材库,生成试卷版面,并基于所述试卷版面添加试题,以得到包括具备多种标注信息的第一试卷图像,所述素材库中的每一素材至少包括一种标注信息。
可以理解的是,素材库中的每一个素材,均包括了与之对应的至少一种标注信息,例如,素材库中有一题目,该题目可以包括与之对应的题目区域、题型、题干、答案、题号、页码、题目包含关系、图片、表格、公式、选项等等标注信息,或者,素材库中还包括一试卷大标题,该大标题包括与之对应的边界信息、文字信息等标注。
其中,该试卷版面例如可以包括分栏信息、大标题信息、密封线信息以及属性信息,该分栏信息可以包括试卷的各个区域的边界信息,大标题信息包括大标题文字、大标题对应的边界信息,密封线信息包括试卷中密封线所在的边界信息,属性信息可以包括用于学生书写姓名、班级等属性的提示内容以及书写线的边界信息。
可以理解的是,上述第一试卷图像可以是多个,例如10万个或者更多。
S102、将所述第一试卷图像输入预先训练得到的多个试卷图像生成模型中的任意一个试卷图像生成模型,得到进行风格迁移后的具备多种标注信息的目标试卷图像,以使得所述目标试题图像呈现出用户真实拍摄的图像效果,其中,每一所述试卷图像生成模型的风格迁移类型不同。
其中,呈现出用户真实拍摄的图像效果例如可以包括光线变化、纸张褶皱、颜色、水印、模糊等,上述风格迁移类型可以与各个真实拍摄的图像效果存在对应关系。
并且,基于上述目标试卷图像的多种标注信息,能够使得该目标试卷图像应用于试卷图片手写体、印刷体检测与识别,试卷图片图形表格检测与识别,试卷图片公式检测与识别,题号检测与识别,页码检测与识别,分栏检测,试卷图片题目块检测、关系识别、命名实体识别,试卷图片智能批改等等领域。
基于上述方法得到目标试题图像后,该目标试题图像可以用于针对试卷文字识别及版面分析的深度学习模型的训练。
在本公开实施例中,通过预先获取的具备标注信息的素材库生成电子试卷,在将该电子试卷输入预先训练得到的对应各种风格迁移类型的试卷图像生成模型,进而得到呈现出用户真实拍摄的图像效果的试卷图像,以使得能够生成大量的用户真实拍摄的图像效果的试卷图像,扩充了训练数据的数量和多样性,降低了标注成本,提高了效率。
在一种可能的实施方式中,在步骤S101之前,获取该素材库可以是通过图2所示的方式获取的,参考图2,所述方法还包括:
S201、获取带有标注的公开数据集作为训练集,对初始语义分割模型进行预训练,得到训练完成的第一语义分割模型。
其中,该初始语义分割模型可以是mask r-cnn模型,带有标注的公开数据集可以是带有标注的PubLayNet公开数据集,该数据集为文档图像版面分析数据集。经过上述公开数据集的训练得到的第一语义分割模型能够实现文档图片的语义分割。
S202、获取无标注信息的试卷图像集,并基于所述公开数据集的标注类别,对所述试卷图像集中目标数量的试卷进行标注,得到标注后的第一图像集以及无标注信息的第二图像集,以使得所述标注后的第一图像集的标注类别与所述公开数据集的标注类别一致。
所述第一图像集中试卷图像的数量小于第二图像集。
应理解的是,该无标注信息的试卷图像集可以是通过对试卷拍摄的得到的拍摄图像集。
其中,上述目标数量的具体数值可以是直接标定的,也可以是根据预设比例确定的,例如,若无标注信息的试卷图像集中包括100个试卷图像,则可以按照5%的比例,对无标注信息的试卷图像进行标注,即,选取5个试卷图像进行标注。
S203、将所述第一图像集输入所述第一语义分割模型,进行迁移学习,得到第二语义分割模型。
本领域技术人员应知悉,在步骤S201以及步骤S203中记载的迁移学习以及针对初始语义分割模型的预训练过程,可能会存在多次迭代,并基于多次迭代,在损失值表征经过当前迭代后的语义分割模型满足预设条件后,再停止迭代,进而得到上述预训练后的第一语义分割模型以及第二语义分割模型。
经过步骤S202的以及步骤S203,能够使得迁移学习后的第二语义分割模型能够对拍摄的试卷图像进行语义分割,以提取试卷图像中的文本、图像、表格等区域。
可选地,在步骤S203对该第二语义分割模型的训练中,还可以将第二图像集中的一部分图像输入模型,对输出结果进行分析,选择置信度高的图像加入到下一轮模型训练中,经过多次迭代训练,得到最终的模型。
S204、将所述第二图像集输入所述第二语义分割模型,对所述第二图像集进行语义分割,得到所述素材库。
所述素材库中每一素材均包括与该素材对应的标注信息。
其中,标注信息可以包括上述试卷版面信息,还可以包括题目块信息,题目块信息可以进一步包括题目区域、题型、题干、答案、题号、页码、题目包含关系、图片、表格、公式、选项等等信息。
采用上述方案,基于公开数据集对语义分割模型进行预训练,并仅对少量的试卷图像进行标注进行半监督学习,进而能够得到能够对拍摄图像进行语义分割的模型,再将无标注信息的试卷图像集输入该模型,以提取该图像集中的各个素材以及对应的标注信息,构成素材库。
在一些可选地实施中,所述基于所述素材库,生成试卷版面,并在所述试卷版面中添加试题,以得到第一试卷图像包括:
确定待生成的试卷图像的尺寸信息,所述尺寸信息包括宽度、高度以及分栏数;
基于所述尺寸信息以及所述素材库中的素材,生成试卷版面,所述试卷版面包括布局信息与试卷标题信息,所述布局信息用于表征试卷图像的各个区域的划分情况以及各个区域的边界信息;并,
分别对所述待生成的试卷图像的各个区域随机选取目标题型;
对所述各个区域中的每一个区域,从素材库中选取与所述目标题型对应的题目语料,并根据所述布局信息表征的该区域的边界信息,将所述题目语料添加至该区域,直至各个区域均写满,以得到所述第一试卷图像。
具体地,针对准备合成的第一试卷图像,确定其长,宽,分栏数,然后进行合成布局与合成题目两个模块,合成布局可以是通过图像宽、高及分栏数,分别对图像上下左右栏目分界线的内容进行合成得到的,合成的素材由前文方法提供;合成题目可以是通过确定栏目区域上下左右边界,从区域内从上到下写入题目,每次写入先随机选取一种题型,然后按照题型特点,将语料中的文字、图表写入图像相应的区域,标注文件中写入对应的标注内容,直到该区域写完为止,最终得到生成的第一试卷图像。
采用本方案,先确定待生成的第一试卷图像的尺寸信息,并基于尺寸信息确定具备布局信息的试卷版面,再基于布局信息,在各个区域中按照题型填充素材库中的题目,进而得到更趋近于真实试卷的第一试卷图像。
在一种可能的实施方式中,所述试卷图像生成模型的训练包括:
获取通过扫描得到的扫描图像集,以及与扫描图像集中的各个试卷图像对应的以目标风格迁移类型对应的方式拍摄得到的拍摄图像集;
将所述扫描图像集输入第一生成器,得到第一生成图像集;
将所述第一生成图像集以及所述拍摄图像集输入第一判别器,得到第一判别结果;
根据所述第一判别结果,对所述第一生成器的参数进行调整,以得到更新后的第一生成器;
重复上述将所述扫描图像集输入第一生成器,至所述对所述第一生成器的参数进行调整的步骤,直至第一判别结果表征第一生成器生成的第一生成图像集的置信度大于预设阈值,将最后一次更新得到的第一生成器作为对应所述目标风格迁移类型的试卷图像生成模型。
其中,上述扫描图像集也可以是试卷的电子文档图像集,该图像集的特征为清晰、易识别并且难以呈现出用户真实拍摄的图像效果即可。
可选地,上述第一生成器以及第一判别器可以均由五个卷积块构成,每一个卷积块包括卷积层、批归一化层以及激活层,并且,该第一生成器可以是由全卷积网络构成。
采用本方案,基于生成对抗网络,获取试卷的扫描图像,以及对应该试卷的特定风格迁移类型的拍摄图像,将扫描图像输入生成器,并基于风格迁移后的拍摄图像对生成器生成的图像进行判别,进而调整该生成器的参数,以使得该生成器能够更加准确的基于难以呈现出用户真实拍摄的图像,生成风格迁移后的图像,以使得基于第一试卷图像生成的目标试卷图像能够更准确的呈现出用户真实拍摄的图像效果。
在另一些可能的实施方式中,所述试卷图像生成模型中的任意一个试卷图像生成模型均包括N+1个依次串联的生成器,N为大于等于零的自然数,
所述将所述第一试卷图像输入预先训练得到的多个试卷图像生成模型中的任意一个试卷图像生成模型,得到进行风格迁移后的具备多种标注信息的目标试卷图像包括:
针对所述N+1个依次串联的生成器中的第1个生成器,将经过N次下采样的所述第一试卷图像输入所述第1个生成器,得到第1个生成器对应的生成图像;
针对所述N+1个依次串联的生成器中的第M个生成器,将第M-1个生成器输出的生成图像进行上采样后得到的图像,以及经过N-M+1次下采样的所述第一试卷图像输入所述第M个生成器,得到第M个生成器对应的生成图像,其中M大于等于2,小于等于N+1;
将第N个生成器输出的生成图像作为所述目标试卷图像。
其中,下采样以及上采样的倍数是相同的,具体的数值可以根据实际的模型训练效果确定,本公开对此不作限定。
采用上述方案,合成图像降采样之后作为模型输入,生成相应的图片风格的结果,其中图像中的内容及位置不会发生变化,纹理与高频信息会与该风格迁移类型的图像相吻合。
可选地,所述试卷图像生成模型的训练包括:
获取目标风格迁移类型的样本试卷图像;
将所述样本试卷图像输入初始试卷图像生成模型,所述初始试卷图像生成模型N+1个依次串联的未经训练的生成器,其中每一个未经训练的生成器连接有一判别器;
针对所述N+1个依次串联的未经训练的生成器中的第1个生成器,将随机噪声输入所述第1个生成器,得到第1个生成器对应的生成图像;将所述第1个生成器对应的生成图像以及经过N次下采样的样本试卷图像输入所述第1个生成器对应的判别器,得到所述第1个生成器对应的判别器输出的判别结果,根据该判别结果调整该第1个生成器的参数,以得到训练完成的第1个生成器;
针对所述N+1个依次串联的未经训练的生成器中的第M个生成器,将经过M-1次上采样的所述随机噪声以及训练完成的第M-1个生成器输出的生成图像输入所述第M个生成器,得到所述第M个生成器对应的生成图像;将所述第M个生成器对应的生成图像以及经过N-M+1次下采样的样本试卷图像输入所述第M个生成器对应的判别器,得到所述第M个生成器对应的判别器输出的判别结果,根据该判别结果调整该第M个生成器的参数,以得到训练完成的第M个生成器,其中M大于等于2,小于等于N+1;
根据训练完成的第1个生成器至第N+1个生成器,得到训练完成的对应所述目标风格迁移类型的试卷图像生成模型。
同理,上述N+1个依次串联的生成器对应的判别器可以均由五个卷积块构成,每一个卷积块包括卷积层、批归一化层以及激活层,并且,该第一生成器可以是由全卷积网络构成。
为了使得本领域技术人员更加理解上述试卷图像生成模型的训练方法,本公开还提供如图3所示的一种试卷图像生成模型的示意图,如图3所示,所述试卷图像生成模型包括N+1个串联的生成器,即G(0)至G(N),以及与该N+1个串联的生成器对应的N+1个判别器,即D(0)-D(N)。
以最下层的未经训练的生成器G(0)以及判别器D(0)为例,将随机噪声Z(0)作为G(0)的输入,得到输出结果X’(0),将X’(0)以及经过N次下采样的真实的对应目标风格迁移类型的图像X(N)输入判别器D(0),得到判别结果,并调整G(0)的参数,重复迭代多次,直至G(0)以及D(0)的参数固定,确定生成器G(0)训练完成。
进一步,将Z(0)输入训练完成的生成器G(0),得到最终的输出结果X’(0),将Z(0)进行上采样后得到Z(1),并将X’(1)以及Z(1)输入上一层未经训练的生成器G(1)以及判别器D(1),并且,基于经过N-1次下采样的真实的对应目标风格迁移类型的图像X(N-1),重复上述对生成器G(0)以及判别器D(0)的训练过程得到,训练完成的生成器G(1)以及判别器D(1),以此类推,得到训练完成的生成器G(N)以及判别器D(N)。
其中,应理解的是,Z(A)中的A表征经过上采样的次数,X(B)中的B表征真实的对应目标风格迁移类型的图像的下采样次数。
将判别器移除,即可得到最终训练完成的试卷图像生成模型,以使得该试卷图像生成模型能够基于下采样之后的图像作为模型输入,生成相应的风格迁移类型的图像,并保证图像中的内容及位置不会发生变化,纹理与高频信息会与该模型对应的风格迁移类型相吻合。
图4是根据一示例性实施例示出的一种试卷图像生成装置40的框图,如图4所示,所述装置40包括:
第一生成模块41,用于基于预先获取得到的素材库,生成试卷版面,并基于所述试卷版面添加试题,以得到包括具备多种标注信息的第一试卷图像,所述素材库中的每一素材至少包括一种标注信息;
第二生成模块42,用于将所述第一试卷图像输入预先训练得到的多个试卷图像生成模型中的任意一个试卷图像生成模型,得到进行风格迁移后的具备多种标注信息的目标试卷图像,以使得所述目标试题图像呈现出用户真实拍摄的图像效果,其中,每一所述试卷图像生成模型的风格迁移类型不同。
可选地,所述装置40还包括:
第一获取模块,用于获取带有标注的公开数据集作为训练集,对初始语义分割模型进行预训练,得到训练完成的第一语义分割模型;
第二获取模块课,用于获取无标注信息的试卷图像集,并基于所述公开数据集的标注类别,对所述试卷图像集中目标数量的试卷进行标注,得到标注后的第一图像集以及无标注信息的第二图像集,以使得所述标注后的第一图像集的标注类别与所述公开数据集的标注类别一致,所述第一图像集中试卷图像的数量小于第二图像集;
迁移学习模块,用于将所述第一图像集输入所述第一语义分割模型,进行迁移学习,得到第二语义分割模型;
语义分割模块,用于将所述第二图像集输入所述第二语义分割模型,对所述第二图像集进行语义分割,得到所述素材库,所述素材库中每一素材均包括与该素材对应的标注信息。
可选地,所述第一生成模块41具体用于包括:
确定待生成的试卷图像的尺寸信息,所述尺寸信息包括宽度、高度以及分栏数;
基于所述尺寸信息以及所述素材库中的素材,生成试卷版面,所述试卷版面包括布局信息与试卷标题信息,所述布局信息用于表征试卷图像的各个区域的划分情况以及各个区域的边界信息;并,
分别对所述待生成的试卷图像的各个区域随机选取目标题型;
对所述各个区域中的每一个区域,从素材库中选取与所述目标题型对应的题目语料,并根据所述布局信息表征的该区域的边界信息,将所述题目语料添加至该区域,直至各个区域均写满,以得到所述第一试卷图像。
可选地,所述装置40还包括:
第三获取模块,用于获取通过扫描得到的扫描图像集,以及与扫描图像集中的各个试卷图像对应的以目标风格迁移类型对应的方式拍摄得到的拍摄图像集;
第三生成模块,用于将所述扫描图像集输入第一生成器,得到第一生成图像集;
第一判别模块,用于将所述第一生成图像集以及所述拍摄图像集输入第一判别器,得到第一判别结果;
更新模块,用于根据所述第一判别结果,对所述第一生成器的参数进行调整,以得到更新后的第一生成器;
重复上述将所述扫描图像集输入第一生成器,至所述对所述第一生成器的参数进行调整的步骤,直至第一判别结果表征第一生成器生成的第一生成图像集的置信度大于预设阈值,将最后一次更新得到的第一生成器作为对应所述目标风格迁移类型的试卷图像生成模型。
可选地,所述试卷图像生成模型中的任意一个试卷图像生成模型均包括N+1个依次串联的生成器,N为大于等于零的自然数,
所述第二生成模块42具体用于:
针对所述N+1个依次串联的生成器中的第1个生成器,将经过N次下采样的所述第一试卷图像输入所述第1个生成器,得到第1个生成器对应的生成图像;
针对所述N+1个依次串联的生成器中的第M个生成器,将第M-1个生成器输出的生成图像进行上采样后得到的图像,以及经过N-M+1次下采样的所述第一试卷图像输入所述第M个生成器,得到第M个生成器对应的生成图像,其中M大于等于2,小于等于N+1;
将第N个生成器输出的生成图像作为所述目标试卷图像。
可选地,所述装置40还包括:
第四获取模块,用于获取目标风格迁移类型的样本试卷图像;
输入模块,用于将所述样本试卷图像输入初始试卷图像生成模型,所述初始试卷图像生成模型N+1个依次串联的未经训练的生成器,其中每一个未经训练的生成器连接有一判别器;
第一训练模块,用于针对所述N+1个依次串联的未经训练的生成器中的第1个生成器,将随机噪声输入所述第1个生成器,得到第1个生成器对应的生成图像;将所述第1个生成器对应的生成图像以及经过N次下采样的样本试卷图像输入所述第1个生成器对应的判别器,得到所述第1个生成器对应的判别器输出的判别结果,根据该判别结果调整该第1个生成器的参数,以得到训练完成的第1个生成器;
第二训练模块,针对所述N+1个依次串联的未经训练的生成器中的第M个生成器,将经过M-1次上采样的所述随机噪声以及训练完成的第M-1个生成器输出的生成图像输入所述第M个生成器,得到所述第M个生成器对应的生成图像;将所述第M个生成器对应的生成图像以及经过N-M+1次下采样的样本试卷图像输入所述第M个生成器对应的判别器,得到所述第M个生成器对应的判别器输出的判别结果,根据该判别结果调整该第M个生成器的参数,以得到训练完成的第M个生成器,其中M大于等于2,小于等于N+1;
确定模块,用于根据训练完成的第1个生成器至第N+1个生成器,得到训练完成的对应所述目标风格迁移类型的试卷图像生成模型。
可选地,所述生成器以及所述判别器均由五个卷积块构成,每一个卷积块包括卷积层、批归一化层以及激活层,并且,所述生成器是由全卷积网络构成。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种电子设备500的框图。如图5所示,该电子设备500可以包括:处理器501,存储器502。该电子设备500还可以包括多媒体组件503,输入/输出(I/O)接口504,以及通信组件505中的一者或多者。
其中,处理器501用于控制该电子设备500的整体操作,以完成上述的试卷图像生成方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作,这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如目标试卷图像、素材库、联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件505可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的试卷图像生成方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的试卷图像生成方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器502,上述程序指令可由电子设备500的处理器501执行以完成上述的试卷图像生成方法。
图6是根据一示例性实施例示出的一种电子设备600的框图。例如,电子设备600可以被提供为一服务器。参照图6,电子设备600包括处理器622,其数量可以为一个或多个,以及存储器632,用于存储可由处理器622执行的计算机程序。存储器632中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器622可以被配置为执行该计算机程序,以执行上述的试卷图像生成方法。
另外,电子设备600还可以包括电源组件626和通信组件650,该电源组件626可以被配置为执行电子设备600的电源管理,该通信组件650可以被配置为实现电子设备600的通信,例如,有线或无线通信。此外,该电子设备600还可以包括输入/输出(I/O)接口658。电子设备600可以操作基于存储在存储器632的操作系统,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的试卷图像生成方法的步骤。例如,该非临时性计算机可读存储介质可以为上述包括程序指令的存储器632,上述程序指令可由电子设备600的处理器622执行以完成上述的试卷图像生成方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的试卷图像生成方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种试卷图像生成方法,其特征在于,所述方法包括:
基于预先获取得到的素材库,生成试卷版面,并基于所述试卷版面添加试题,以得到包括具备多种标注信息的第一试卷图像,所述素材库中的每一素材至少包括一种标注信息;
将所述第一试卷图像输入预先训练得到的多个试卷图像生成模型中的任意一个试卷图像生成模型,得到进行风格迁移后的具备多种标注信息的目标试卷图像,以使得所述目标试题图像呈现出用户真实拍摄的图像效果,其中,每一所述试卷图像生成模型的风格迁移类型不同。
2.根据权利要求1所述的方法,其特征在于,所述方法包括:
获取带有标注的公开数据集作为训练集,对初始语义分割模型进行预训练,得到训练完成的第一语义分割模型;
获取无标注信息的试卷图像集,并基于所述公开数据集的标注类别,对所述试卷图像集中目标数量的试卷进行标注,得到标注后的第一图像集以及无标注信息的第二图像集,以使得所述标注后的第一图像集的标注类别与所述公开数据集的标注类别一致,所述第一图像集中试卷图像的数量小于第二图像集;
将所述第一图像集输入所述第一语义分割模型,进行迁移学习,得到第二语义分割模型;
将所述第二图像集输入所述第二语义分割模型,对所述第二图像集进行语义分割,得到所述素材库,所述素材库中每一素材均包括与该素材对应的标注信息。
3.根据权利要求1所述的方法,其特征在于,所述基于所述素材库,生成试卷版面,并在所述试卷版面中添加试题,以得到第一试卷图像包括:
确定待生成的试卷图像的尺寸信息,所述尺寸信息包括宽度、高度以及分栏数;
基于所述尺寸信息以及所述素材库中的素材,生成试卷版面,所述试卷版面包括布局信息与试卷标题信息,所述布局信息用于表征试卷图像的各个区域的划分情况以及各个区域的边界信息;并,
分别对所述待生成的试卷图像的各个区域随机选取目标题型;
对所述各个区域中的每一个区域,从素材库中选取与所述目标题型对应的题目语料,并根据所述布局信息表征的该区域的边界信息,将所述题目语料添加至该区域,直至各个区域均写满,以得到所述第一试卷图像。
4.根据权利要求1所述的方法,其特征在于,所述试卷图像生成模型的训练包括:
获取通过扫描得到的扫描图像集,以及与扫描图像集中的各个试卷图像对应的以目标风格迁移类型对应的方式拍摄得到的拍摄图像集;
将所述扫描图像集输入第一生成器,得到第一生成图像集;
将所述第一生成图像集以及所述拍摄图像集输入第一判别器,得到第一判别结果;
根据所述第一判别结果,对所述第一生成器的参数进行调整,以得到更新后的第一生成器;
重复上述将所述扫描图像集输入第一生成器,至所述对所述第一生成器的参数进行调整的步骤,直至第一判别结果表征第一生成器生成的第一生成图像集的置信度大于预设阈值,将最后一次更新得到的第一生成器作为对应所述目标风格迁移类型的试卷图像生成模型。
5.根据权利要求1所述的方法,其特征在于,所述试卷图像生成模型中的任意一个试卷图像生成模型均包括N+1个依次串联的生成器,N为大于等于零的自然数,
所述将所述第一试卷图像输入预先训练得到的多个试卷图像生成模型中的任意一个试卷图像生成模型,得到进行风格迁移后的具备多种标注信息的目标试卷图像包括:
针对所述N+1个依次串联的生成器中的第1个生成器,将经过N次下采样的所述第一试卷图像输入所述第1个生成器,得到第1个生成器对应的生成图像;
针对所述N+1个依次串联的生成器中的第M个生成器,将第M-1个生成器输出的生成图像进行上采样后得到的图像,以及经过N-M+1次下采样的所述第一试卷图像输入所述第M个生成器,得到第M个生成器对应的生成图像,其中M大于等于2,小于等于N+1;
将第N个生成器输出的生成图像作为所述目标试卷图像。
6.根据权利要求4所述的方法,其特征在于,所述试卷图像生成模型的训练包括:
获取目标风格迁移类型的样本试卷图像;
将所述样本试卷图像输入初始试卷图像生成模型,所述初始试卷图像生成模型N+1个依次串联的未经训练的生成器,其中每一个未经训练的生成器连接有一判别器;
针对所述N+1个依次串联的未经训练的生成器中的第1个生成器,将随机噪声输入所述第1个生成器,得到第1个生成器对应的生成图像;将所述第1个生成器对应的生成图像以及经过N次下采样的样本试卷图像输入所述第1个生成器对应的判别器,得到所述第1个生成器对应的判别器输出的判别结果,根据该判别结果调整该第1个生成器的参数,以得到训练完成的第1个生成器;
针对所述N+1个依次串联的未经训练的生成器中的第M个生成器,将经过M-1次上采样的所述随机噪声以及训练完成的第M-1个生成器输出的生成图像输入所述第M个生成器,得到所述第M个生成器对应的生成图像;将所述第M个生成器对应的生成图像以及经过N-M+1次下采样的样本试卷图像输入所述第M个生成器对应的判别器,得到所述第M个生成器对应的判别器输出的判别结果,根据该判别结果调整该第M个生成器的参数,以得到训练完成的第M个生成器,其中M大于等于2,小于等于N+1;
根据训练完成的第1个生成器至第N+1个生成器,得到训练完成的对应所述目标风格迁移类型的试卷图像生成模型。
7.根据权利要求4-6任一项所述的方法,其特征在于,所述生成器以及所述判别器均由五个卷积块构成,每一个卷积块包括卷积层、批归一化层以及激活层,并且,所述生成器是由全卷积网络构成。
8.一种试卷图像生成装置,其特征在于,所述装置包括:
第一生成模块,用于基于预先获取得到的素材库,生成试卷版面,并基于所述试卷版面添加试题,以得到包括具备多种标注信息的第一试卷图像,所述素材库中的每一素材至少包括一种标注信息;
第二生成模块,用于将所述第一试卷图像输入预先训练得到的多个试卷图像生成模型中的任意一个试卷图像生成模型,得到进行风格迁移后的具备多种标注信息的目标试卷图像,以使得所述目标试题图像呈现出用户真实拍摄的图像效果,其中,每一所述试卷图像生成模型的风格迁移类型不同。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
CN202210315728.8A 2022-03-28 2022-03-28 试卷图像生成方法、装置、存储介质及电子设备 Pending CN114821222A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210315728.8A CN114821222A (zh) 2022-03-28 2022-03-28 试卷图像生成方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210315728.8A CN114821222A (zh) 2022-03-28 2022-03-28 试卷图像生成方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN114821222A true CN114821222A (zh) 2022-07-29

Family

ID=82531699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210315728.8A Pending CN114821222A (zh) 2022-03-28 2022-03-28 试卷图像生成方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN114821222A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117495950A (zh) * 2023-12-29 2024-02-02 山东五思信息科技有限公司 一种基于密度聚类的试卷密封线定位方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117495950A (zh) * 2023-12-29 2024-02-02 山东五思信息科技有限公司 一种基于密度聚类的试卷密封线定位方法及系统
CN117495950B (zh) * 2023-12-29 2024-03-26 山东五思信息科技有限公司 一种基于密度聚类的试卷密封线定位方法及系统

Similar Documents

Publication Publication Date Title
CN111476284B (zh) 图像识别模型训练及图像识别方法、装置、电子设备
Liao et al. Guidance and evaluation: Semantic-aware image inpainting for mixed scenes
CN111160335B (zh) 基于人工智能的图像水印处理方法、装置及电子设备
CN109618222B (zh) 一种拼接视频生成方法、装置、终端设备及存储介质
CN110414519B (zh) 一种图片文字的识别方法及其识别装置、存储介质
CN111767228B (zh) 基于人工智能的界面测试方法、装置、设备和介质
CN112819686B (zh) 基于人工智能的图像风格处理方法、装置及电子设备
CN108108342B (zh) 结构化文本的生成方法、检索方法及装置
CN112507806B (zh) 智慧课堂信息交互方法、装置及电子设备
CN114596566B (zh) 文本识别方法及相关装置
CN109299663A (zh) 手写字体识别方法、系统以及终端设备
CN103946865B (zh) 用于有助于检测图像内的文本的方法和装置
CN112464798A (zh) 文本识别方法及装置、电子设备、存储介质
CN114092938A (zh) 图像的识别处理方法、装置、电子设备及存储介质
CN114821222A (zh) 试卷图像生成方法、装置、存储介质及电子设备
CN116610304B (zh) 页面代码生成方法、装置、设备和存储介质
CN116361502B (zh) 一种图像检索方法、装置、计算机设备及存储介质
CN115661846A (zh) 数据处理方法、装置、电子设备和存储介质
CN111881900A (zh) 语料生成、翻译模型训练、翻译方法、装置、设备及介质
CN111741329A (zh) 一种视频处理方法、装置、设备及存储介质
CN105913024A (zh) 基于lap算子的抵抗重放攻击的安卓手机终端检测方法
CN113837157B (zh) 题目类型识别方法、系统和存储介质
CN114529927A (zh) 文字识别方法、装置及存储介质
CN114565702A (zh) 文本图像生成方法、装置及电子设备
CN113936187A (zh) 文本图像合成方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination