CN112907705A

CN112907705A - 涂改图像生成方法、装置、设备及存储介质

Info

Publication number: CN112907705A
Application number: CN202110502801.8A
Authority: CN
Inventors: 张子浩
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-05-10
Filing date: 2021-05-10
Publication date: 2021-06-04
Anticipated expiration: 2041-05-10
Also published as: CN112907705B

Abstract

本申请提出一种涂改图像生成方法、装置、设备及存储介质，具体实现方案为：确定目标文本图像中题干区域和作答区域，其中，所述题干区域呈现有多个试题，所述作答区域呈现有针对所述试题的手写体作答结果；从所述作答区域中选取出至少一个第一子区域，并对所述第一子区域所表征的手写体作答结果进行涂改处理，得到涂改区域；从所述作答区域中选取出至少一个第二子区域，并对所述第二子区域中手写体作答结果进行前景图像提取，得到呈现所述第二子区域所表征手写体作答结果的前景字符图像；将所述前景字符图像与包含有所述涂改区域的目标文本图像进行合成处理，以得到目标涂改图像。

Description

涂改图像生成方法、装置、设备及存储介质

技术领域

本申请涉及图像处理技术，尤其涉及一种涂改图像生成方法、装置、设备及存储介质。

背景技术

随着计算技术和人工智能技术不断发展，人工智能技术已经逐步应用在教育教学场景中。在现有教育教学场景中，学生的数学作业或试卷大多仍然采用人工方式进行评阅，导致家长和老师在进行批阅时带来了巨大的负担。针对这种现象和问题，在一些大型教育场景中，已经推广出了各类自动判题、自动阅卷的方法和系统。

实际场景中，学生在作答时，写错的答案会涂改，并在涂改附近写上新的答案，但是这种学生涂改的数据较少，收集这类数据需要大量经济成本，同时也需要大量时间成本。

发明内容

本申请实施例提供一种涂改图像生成方法、装置、设备及存储介质，以解决相关技术存在的问题，技术方案如下：

第一方面，本申请实施例提供了一种涂改图像生成方法，包括：

确定目标文本图像中题干区域和作答区域，其中，所述题干区域呈现有多个试题，所述作答区域呈现有针对所述试题的手写体作答结果；

从所述作答区域中选取出至少一个第一子区域，并对所述第一子区域所表征的手写体作答结果进行涂改处理，得到涂改区域；

从所述作答区域中选取出至少一个第二子区域，并对所述第二子区域中手写体作答结果进行前景图像提取，得到呈现所述第二子区域所表征手写体作答结果的前景字符图像；

将所述前景字符图像与包含有所述涂改区域的目标文本图像进行合成处理，以得到目标涂改图像。

在一种实施方式中，还包括：

基于所述前景字符图像所呈现的手写体作答结果对所述前景字符图像进行标注，得到标注信息；

至少将所述目标涂改图像以及所述标注信息作为用于对预设模型进行训练的训练数据。

在一种实施方式中，所述将所述前景字符图像与包含有所述涂改区域的目标文本图像进行合成处理，以得到目标涂改图像，包括：

在所述涂改区域的周边区域中选取出待粘贴区域；

将所述前景字符图像粘贴至所述待粘贴区域，得到目标涂改图像，其中，粘贴至所述待粘贴区域的前景字符图像能够作为所述涂改区域所对应试题的手写体修改结果。

在一种实施方式中，还包括：

获取目标文本图像；

对所述目标文本图像进行特征提取，得到第一特征图像和第二特征图像，其中，所述第一特征图像至少表征所述目标文本图像中各像素点属于所述作答区域和所述题干区域的概率值；所述第二特征图像表征所述目标文本图像中各像素点属于预测文本框的概率值；

基于所述第一特征图像确定出属于所述题干区域的像素点，以及属于所述作答区域的像素点；

基于属于所述题干区域的像素点的坐标信息、属于所述作答区域的像素点的坐标信息，以及所述第二特征图像所表征的各像素点属于预测文本框的概率值，得到题干框和手写体作答框，以得到所述目标文本图像中题干区域和作答区域。

在一种实施方式中，还包括：

确定随机数；

基于随机数与预设阈值之间的关系，从预设涂改方式中选取出目标涂改方式；

其中，所述对所述第一子区域所表征的手写体作答结果进行涂改处理，得到涂改区域，包括：

基于所述目标涂改方式对所述第一子区域所表征的手写体作答结果进行涂改处理，得到涂改区域。

在一种实施方式中，所述基于所述目标涂改方式对所述第一子区域所表征的手写体作答结果进行涂改处理，得到涂改区域，包括：

从所述第一子区域的第一区域中选取出多个第一像素点，作为第一集合；以及从所述第一子区域的第二区域中选取出多个第二像素点，作为第二集合；

从所述第一集合中选取出多个目标第一像素点，以及从所述第二集合中选取出多个目标第二像素点，将所述目标第一像素点与所述目标第二像素点进行连线，得到包含有多条线段的涂改区域；或者，

从所述第一集合中选取出一个目标第一像素点，以及从所述第二集合中选取出一个目标第二像素点，将所述目标第一像素点与目标第二像素点进行连线，得到包含目标线段的涂改区域；其中，所述目标线段的宽度与所述第一子区域的长度或宽度相关。

在一种实施方式中，所述对所述第二子区域中手写体作答结果进行前景图像提取，得到呈现所述第二子区域所表征手写体作答结果的前景字符图像，包括：

基于所述第二子区域中所有像素点的像素值，将所述第二子区域的所有像素点区分为至少两部分，使得所述至少两部分的第一部分中所有像素点的像素平均值大于第二部分中所有像素点的像素平均值；

基于得到的所述至少两部分中像素点的像素值，从所述第二子区域中确定出前景区域，以得到前景字符图像。

第二方面，本申请实施例提供了一种涂改图像生成装置，包括：

确定单元，用于确定目标文本图像中题干区域和作答区域，其中，所述题干区域呈现有多个试题，所述作答区域呈现有针对所述试题的手写体作答结果；

涂改单元，用于从所述作答区域中选取出至少一个第一子区域，并对所述第一子区域所表征的手写体作答结果进行涂改处理，得到涂改区域；

前景处理单元，用于从所述作答区域中选取出至少一个第二子区域，并对所述第二子区域中手写体作答结果进行前景图像提取，得到呈现所述第二子区域所表征手写体作答结果的前景字符图像；

图像合成单元，用于将所述前景字符图像与包含有所述涂改区域的目标文本图像进行合成处理，以得到目标涂改图像。

在一种实施方式中，还包括：

模型训练单元，用于基于所述前景字符图像所呈现的手写体作答结果对所述前景字符图像进行标注，得到标注信息；至少将所述目标涂改图像以及所述标注信息作为用于对预设模型进行训练的训练数据。

在一种实施方式中，所述图像合成单元，还用于在所述涂改区域的周边区域中选取出待粘贴区域；将所述前景字符图像粘贴至所述待粘贴区域，得到目标涂改图像，其中，粘贴至所述待粘贴区域的前景字符图像能够作为所述涂改区域所对应试题的手写体修改结果。

在一种实施方式中，还包括：

识别单元，用于获取目标文本图像；对所述目标文本图像进行特征提取，得到第一特征图像和第二特征图像，其中，所述第一特征图像至少表征所述目标文本图像中各像素点属于所述作答区域和所述题干区域的概率值；所述第二特征图像表征所述目标文本图像中各像素点属于预测文本框的概率值；基于所述第一特征图像确定出属于所述题干区域的像素点，以及属于所述作答区域的像素点；基于属于所述题干区域的像素点的坐标信息、属于所述作答区域的像素点的坐标信息，以及所述第二特征图像所表征的各像素点属于预测文本框的概率值，得到题干框和手写体作答框，以得到所述目标文本图像中题干区域和作答区域。

在一种实施方式中，还包括：涂改方式确定单元；其中，

所述涂改方式确定单元，用于确定随机数；基于随机数与预设阈值之间的关系，从预设涂改方式中选取出目标涂改方式；

所述涂改单元，还用于基于所述目标涂改方式对所述第一子区域所表征的手写体作答结果进行涂改处理，得到涂改区域。

在一种实施方式中，所述涂改单元，还用于：

在一种实施方式中，所述前景处理单元，还用于基于所述第二子区域中所有像素点的像素值，将所述第二子区域的所有像素点区分为至少两部分，使得所述至少两部分的第一部分中所有像素点的像素平均值大于第二部分中所有像素点的像素平均值；基于得到的所述至少两部分中像素点的像素值，从所述第二子区域中确定出前景区域，以得到前景字符图像。

第三方面，本申请实施例提供了一种涂改图像生成装置，该装置包括：存储器和处理器。其中，该存储器和该处理器通过内部连接通路互相通信，该存储器用于存储指令，该处理器用于执行该存储器存储的指令，并且当该处理器执行该存储器存储的指令时，使得该处理器执行上述各方面任一种实施方式中的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储计算机程序，当计算机程序在计算机上运行时，上述各方面任一种实施方式中的方法被执行。

上述技术方案中的优点或有益效果至少包括：能够自动化生成仿真学生涂改作答的涂改图像，该过程高效且成本低。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1是根据本公开实施例涂改图像生成方法的实现流程示意图；

图2是根据本公开实施例涂改图像生成方法在一具体示例中的流程示意图；

图3是根据本公开实施例涂改图像生成方法在一具体示例中模型处理的示意图；

图4是根据本公开实施例涂改图像生成方法在一具体示例中像素点与预测文本框之间关系的示意图；

图5是根据本公开实施例涂改图像生成方法在一具体示例中包括题干框以及手写体作答框的识别结果示意图；

图6和图7是根据本公开实施例涂改图像生成方法在一具体示例中涂改结果示意图；

图8是根据本公开实施例涂改图像生成方法在一具体示例中前景字符图像的示意图；

图9是根据本公开实施例涂改图像生成方法在一具体示例中聚类流程示意图；

图10是根据本公开实施例涂改图像生成方法在一具体示例中目标涂改图像示意图；

图11是根据本公开实施例涂改图像生成装置的结构示意图；

图12是用来实现本公开实施例的涂改图像生成方法的电子设备的框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本申请的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1是根据本公开实施例涂改图像生成方法的实现流程示意图。如图1所示，该方法可以包括：

步骤S101：确定目标文本图像中题干区域和作答区域，其中，所述题干区域呈现有多个试题，所述作答区域呈现有针对所述试题的手写体作答结果。实际应用中，所述作答区域中包含有针对每个试题的手写体作答结果。举例来说，以口算试题为例，此时，题干区域中包含有多个口算题，而作答区域中呈现有针对每个口算题的手写体作答结果。进一步地，可以理解为题干区域中包含有多个子区域，每个子区域中对应一道试题；同理，作答区域中包含有多个子区域，每个子区域中对应有一个试题的手写体作答结果。这里，所述手写体作答结果呈现有至少一个手写体字符。

步骤S102：从所述作答区域中选取出至少一个第一子区域，并对所述第一子区域所表征的手写体作答结果进行涂改处理，得到涂改区域。举例来说，该第一子区域呈现有针对一个试题的手写体作答结果，进而对该第一子区域中所呈现的手写体作答结果进行涂改处理。

步骤S103：从所述作答区域中选取出至少一个第二子区域，并对所述第二子区域中手写体作答结果进行前景图像提取，得到呈现所述第二子区域所表征手写体作答结果的前景字符图像。举例来说，该第二子区域呈现有针对一个试题的手写体作答结果，进而对该第二子区域中所呈现的手写体作答结果进行前景图像提取。

步骤S104：将所述前景字符图像与包含有所述涂改区域的目标文本图像进行合成处理，以得到目标涂改图像。

这样，能够自动化生成仿真学生涂改作答的涂改图像，该过程高效且成本低。而且，由于采用了前景字符图像进行贴图处理，所以得到的目标涂改图像的图像效果较佳。

在本申请方案的一具体示例中，还可以将自动化生成的目标涂改图像作为后续模型训练的训练数据，具体地，基于所述前景字符图像所呈现的手写体作答结果对所述前景字符图像进行标注，得到标注信息；至少将所述目标涂改图像以及所述标注信息作为用于对预设模型进行训练的训练数据。如此，为模型训练提供了数据支持，同时，降低了收集数据和标注数据的成本，节约了成本，同时，也为提升模型训练的训练效率奠定了基础。

这里，该训练完成的预设模型即可对包含有涂改区域的目标涂改图像进行识别，并识别得到替代该涂改区域的前景字符图像中所呈现的字符，以作为相应试题的作答结果，进而完成试题判断。

在本申请方案的一具体示例中，以上所述的将所述前景字符图像与包含有所述涂改区域的目标文本图像进行合成处理，以得到目标涂改图像，具体包括：在所述涂改区域的周边区域中选取出待粘贴区域；将所述前景字符图像粘贴至所述待粘贴区域，得到目标涂改图像，其中，粘贴至所述待粘贴区域的前景字符图像能够作为所述涂改区域所对应试题的手写体修改结果。如此，进一步提升贴图效果。

实际应用中，所述待粘贴区域为所述涂改区域的周边中的空白区域，如此，使得得到的所述目标涂改图像更贴近真实涂改图像，为后续提升模型训练的训练效率以及提升训练结果的准确率奠定了基础。

在本申请方案的一具体示例中，还可以采用如下方式识别得到题干区域和作答区域，具体地，获取目标文本图像；对所述目标文本图像进行特征提取，得到第一特征图像和第二特征图像，其中，所述第一特征图像至少表征所述目标文本图像中各像素点属于所述作答区域和所述题干区域的概率值；所述第二特征图像表征所述目标文本图像中各像素点属于预测文本框的概率值；基于所述第一特征图像确定出属于所述题干区域的像素点，以及属于所述作答区域的像素点；基于属于所述题干区域的像素点的坐标信息、属于所述作答区域的像素点的坐标信息，以及所述第二特征图像所表征的各像素点属于预测文本框的概率值，得到题干框和手写体作答框，如此，得到所述目标文本图像中题干区域和作答区域。

实际应用中，可以基于打印体和手写体检测模型对目标文本图像进行检测。该目标文本图像中所述题干区域所呈现的字符为打印体，所述作答区域所呈现的字符为手写体，基于此，该检测模型即可检测该目标文本图像中打印体文本的区域位置（也即题干区域）和手写体的区域位置（也即作答区域）。进一步地，

如图3所示，文本图像为512×512大小，将该文本图像经过resnet-50模型（也即检测模型）进行特征提取，得到cls map（也即第一特征图像）和box map（也即第二特征图像）。其中，cls map尺寸为128×128×3，能够表征文本图像中的像素点的预测值，比如，包括三个值，分别为像素点属于背景区域的概率值、像素点属于题干区域的概率值和像素点属于手写答案区域（也即作答区域）的概率值，如此得到预测文本框，比如，得到与题干区域各试题相匹配的预测题干框，以及与手写答案区域各手写答案对应的预测手写体作答框。进一步地，Box map尺寸为128×128×5，能够表征文本图像中各像素点相对于预测文本框的位置，如图4所示，包括五个值，分别为文本图像中像素点至预测文本框的上、右、下、左距离和倾斜角度。

这里，实际应用中，网络前向输出时，会先获取cls map中像素点的三个概率值中最大概率值，作为该像素点的目标概率值，进而确定出该像素点所处的位置，比如，属于题干区域，属于手写答案区域，或者属于背景区域。基于此，得到文本图像中所有像素点的分类结果，该分类结果即可表征文本图像中各像素点所属的区域，得到预测文本框。进一步地，获取属于题干区域的像素点，以及属于手写答案区域的像素点，并将属于题干区域的所有像素点的坐标信息，以及属于手写答案区域的所有像素点的坐标信息均映射到box map中，并基于box map的预测值，如图5所示，得到属于题干区域的各像素点所对应的文本框（也即题干框），以及属于手写答案区域的各像素点所对应的文本框（也即手写体作答框）。

在本申请方案的一具体示例中，还可以采用如下方式来确定涂改方式，具体地，确定随机数；基于随机数与预设阈值之间的关系，从预设涂改方式中选取出目标涂改方式；进一步，以上所述的对所述第一子区域所表征的手写体作答结果进行涂改处理，得到涂改区域，具体包括：基于所述目标涂改方式对所述第一子区域所表征的手写体作答结果进行涂改处理，得到涂改区域。如此，实现自动化地涂改，该过程高效且成本低。

在本申请方案的一具体示例中，以上所述的基于所述目标涂改方式对所述第一子区域所表征的手写体作答结果进行涂改处理，得到涂改区域，具体包括：

方式一：从所述第一子区域的第一区域中选取出多个第一像素点，作为第一集合；以及从所述第一子区域的第二区域中选取出多个第二像素点，作为第二集合；从所述第一集合中选取出多个目标第一像素点，以及从所述第二集合中选取出多个目标第二像素点，将所述目标第一像素点与所述目标第二像素点进行连线，得到包含有多条线段的涂改区域。

方式二：从所述第一子区域的第一区域中选取出多个第一像素点，作为第一集合；以及从所述第一子区域的第二区域中选取出多个第二像素点，作为第二集合；从所述第一集合中选取出一个目标第一像素点，以及从所述第二集合中选取出一个目标第二像素点，将所述目标第一像素点与目标第二像素点进行连线，得到包含目标线段的涂改区域；其中，所述目标线段的宽度与所述第一子区域的长度或宽度相关。

需要说明的是，实际应用中，以上两种方式可以择一而执行，当然，若在同一文本图像中需要进行两处或两处以上的涂改，此时，可以采用以上所述的两种方式对不同的区域进行涂改处理，本申请方案对此不作限制。这样，完成自动化地涂改过程，且该过程高效且成本低，为后续生成目标涂改图像奠定了基础。

在本申请方案的一具体示例中，可以采用如下方式得到前景字符图像，具体地，以上所述的对所述第二子区域中手写体作答结果进行前景图像提取，得到呈现所述第二子区域所表征手写体作答结果的前景字符图像，具体包括：基于所述第二子区域中所有像素点的像素值，将所述第二子区域的所有像素点区分为至少两部分，使得所述至少两部分的第一部分中所有像素点的像素平均值大于第二部分中所有像素点的像素平均值；基于得到的所述至少两部分中像素点的像素值，从所述第二子区域中确定出前景区域（也即字符所在区域），如此，得到前景字符图像。该过程高效且成本低，为后续生成仿真学生涂改作答的目标涂改图像奠定了基础。

这样，本申请方案能够自动化生成仿真学生涂改作答的涂改图像，该过程高效且成本低。而且，由于采用了前景字符图像进行贴图处理，所以得到的目标涂改图像的图像效果较佳。

以下结合具体示例，对本申请方案做进一步详细说明，具体地，本示例提出了一种仿真学生涂改作答的涂改图像生成方案，能够通过现有数据生成大量所需求的涂改图像，并能够同时给出针对涂改区域的标注结果，节约了大量的数据收集成本和标注成本。

具体地，首先，对文本图像的题干位置和手写答案位置进行检测，如图2所示，得到文本图像中题干位置（也即题干区域）和手写答案位置（也即作答区域）。从手写答案位置中选取一个或多个（即两个或两个以上）目标手写区域，并对该目标手写区域提取前景处理，如图3所示，得到表征手写体字符的前景图像。然后，随机确定题干位置中的一个或多个目标题干，并获取目标题干附近（或者可称为与该目标题干相关的）的手写答案，作为目标涂改答案，得到如图4所示的结果。并将该目标涂改答案进行涂改处理，如图4所示，得到涂改区域；最后，将提取的表征手写体字符的前景图像粘贴至涂改区域的周边区域，以作为涂改后的答案，得到目标涂改图像。

具体地，图像涂改流程和贴图流程见图2所示，首先提取文本图像中的题干和手写答案框，其次分别随机确定两个答案框a、b，其中，对答案框a进行涂改处理，并确定出该答案框a附近的空白位置。对答案框b进行手写体字符前景提取处理，这里，提取手写体字符的前景图像，比如数字等，以便于将提取得到的手写体字符粘贴到答案框a对应的涂改区域周围的空白位置处，这里，由于本示例能够直接从文本图像中提取手写体图像来进行贴图处理，所以，使得生成的涂改图像更为自然，进而为后续模型训练提供了数据支持，同时，也为提升模型的准确率奠定了基础。

具体步骤包括：

步骤1：对文本图像中的打印体文本（也即题干区域所呈现的打印体文本）和作答区域所呈现的手写体文本进行检测，比如，基于打印体和手写体检测模型对文本图像进行检测。该检测模型用于检测文本图像中打印体文本的区域位置和手写体的区域位置。

具体地，如图3所示，文本图像为512×512大小，将该文本图像经过resnet-50模型（也即检测模型）进行特征提取，得到cls map（也即第一特征图像）和box map（也即第二特征图像）。其中，cls map尺寸为128×128×3，能够表征文本图像中的像素点的预测值，比如，包括三个值，分别为像素点属于背景区域的概率值、像素点属于题干区域的概率值和像素点属于手写答案区域（也即作答区域）的概率值，如此得到预测文本框，比如，得到与题干区域各试题相匹配的预测题干框，以及与手写答案区域各手写答案对应的预测手写体作答框。进一步地，Box map尺寸为128×128×5，能够表征文本图像中各像素点相对于预测文本框的位置，如图4所示，包括五个值，分别为文本图像中像素点至预测文本框的上、右、下、左距离和倾斜角度。

步骤2：从所有手写答案框所包围的子区域中随机确定出第一子区域（也即手写体作答框a），并进行涂改处理。这里，该子区域指所述文本图像中所述手写答案框所包围的图像，包括背景区域以及手写体字符。

本示例中，可以直接在第一子区域所呈现的手写体字符上进行随机画线，以模拟学生涂改。具体地，确定出第一子区域中最左边点的第一集合，包括多个第一像素点，以及最右边点的第二集合，包括多个第二像素点。基于如下方式进行画线处理，以模拟学生的涂改；具体地，确定随机数i，在随机数小于预设阈值（比如0.5）的情况下，选取第一种涂改方式，否则，选择第二种涂改方式，如此，完成涂改，得到涂改图像。这里，两种画线方式包括：

第一种：随机从第一集合和第二集合中各取一像素点进行连线，并重复预设次数，比如10~20次，如图6所示，得到10~20条线段。

第二种：随机从第一集合和第二集合中各取一像素点，画一条粗度为预设值，如图7所示，比如为该目标手写答案框的高度的1/4至1/3的长度的线段。

步骤3：从所有手写答案框所包围的子区域中随机确定出第二子区域（也即手写体作答框b），并进行前景提取，比如，进行聚类算法，提取前景字符图像，得到如图8所示结果。这里，该第二子区域和第二子区域均指所述文本图像中所述手写答案框所包围的图像，包括背景区域以及手写体字符。

本示例中，如图9所示，采用聚类算法将第二子区域进行聚类；具体地，将第二子区域所表征的图像中像素点分成两组，分别为集合A和集合B；这里，由于手写体字符均为黑体，其像素值较背景的像素值偏小，基于此，可以选像素值的平均值较小的集合作为前景集合，像素值的平均值较大为背景集合，如此，来得到前景字符图像，即基于前景集合中的像素点得到前景字符图像。

具体地，第一步：将第二子区域进行预处理，具体地，首先将第二子区域的图像转为灰度图像，以转为单通道，然后进行归一化处理，将像素点的像素值取值范围由原来的0~255，转为0~1范围内，并记录第二子区域中的总像素点个数N。第二步，从第二子区域中随机抽取两个像素值为聚类中心点（因为分为前景区域和背景区域两类，所以定两个聚类中心点），即为像素值a、像素值b，并设立像素点a（对应像素值a）对应中心集合A，像素点b（对应像素值b）对应中心集合B。第三步，从第二子区域中依次取第i个像素值，作为目标像素值，并分别计算该目标像素值与像素值a之间的差值，以及该目标像素值与像素值b之间的差值，得到最小差值，该目标像素值与最小差值所对应的像素点属于同一类，将该目标像素值放入最小差值所对应的中心集合中，举例来说，比如目标像素点与像素点a之间的差值，小于目标像素点与像素点b之间的差值，此时，该目标像素点与像素点a属于同类，归入中心集合A中，以此循环，直至i=N。第四步，分别计算中心集合A的像素均值，以及中心集合B的像素均值，得到a’（中心集合A的像素均值）和b’（中心集合B的像素均值），若像素值a和像素值a’，以及像素值b和像素值b’相同，那么结束，返回中心集合A和中心集合B；若不相同，将像素值a’赋值给像素值a，将像素值b’赋值给像素值b，继续执行第三步，直至得基于中心集合A和中心集合B确定出前景区域为止。

步骤4：选取出待粘贴区域。在被画线区域，也即涂改区域的上、下、右方位进行寻找，适合贴图的条件是，在该位置上无其他手写作答，防止贴上的数据和原有的手写数据重叠，如此，将得到的前景字符图像粘贴至所述待粘贴区域，得到如图10所述的目标涂改图像，该目标涂改图像中包含有涂改区域，以及对涂改区域进行修改的前景字符图像，实现仿真学生修改效果。

本示例中的粘贴的图像，也即前景字符图像，其背景区域为黑色，背景区域中像素点的RGB值为（0，0，0），前景区域的像素点的RGB大于0。进一步，实际应用中，还可以在贴图处理前，增加色彩通道，即RGBA，将前景字符图像的背景区域的像素点设置为（0，0，0，0），将前景字符图像的前景区域的像素点设置为（r，g，b,1），这样，在贴图时能够实现背景透明化，进而将前景完美贴在原图（也即带有涂改区域的文本图像）上。

这样，通过模拟学生涂改数据方式，制作更多的模拟数据，节约数据标注和数据收集的成本。

本申请方案还提供了一种涂改图像生成装置，如图11所示，包括：

确定单元1101，用于确定目标文本图像中题干区域和作答区域，其中，所述题干区域呈现有多个试题，所述作答区域呈现有针对所述试题的手写体作答结果；

涂改单元1102，用于从所述作答区域中选取出至少一个第一子区域，并对所述第一子区域所表征的手写体作答结果进行涂改处理，得到涂改区域；

前景处理单元1103，用于从所述作答区域中选取出至少一个第二子区域，并对所述第二子区域中手写体作答结果进行前景图像提取，得到呈现所述第二子区域所表征手写体作答结果的前景字符图像；

图像合成单元1104，用于将所述前景字符图像与包含有所述涂改区域的目标文本图像进行合成处理，以得到目标涂改图像。

在本申请方案的一具体示例中，还包括：

在本申请方案的一具体示例中，其中，所述图像合成单元，还用于在所述涂改区域的周边区域中选取出待粘贴区域；将所述前景字符图像粘贴至所述待粘贴区域，得到目标涂改图像，其中，粘贴至所述待粘贴区域的前景字符图像能够作为所述涂改区域所对应试题的手写体修改结果。

在本申请方案的一具体示例中，还包括：

在本申请方案的一具体示例中，还包括：涂改方式确定单元；其中，

在本申请方案的一具体示例中，所述涂改单元，还用于：

在本申请方案的一具体示例中，所述前景处理单元，还用于基于所述第二子区域中所有像素点的像素值，将所述第二子区域的所有像素点区分为至少两部分，使得所述至少两部分的第一部分中所有像素点的像素平均值大于第二部分中所有像素点的像素平均值；基于得到的所述至少两部分中像素点的像素值，从所述第二子区域中确定出前景区域，以得到前景字符图像。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

图12是用来实现本公开实施例的涂改图像生成方法的电子设备的框图。如图12所示，该电子设备包括：存储器1210和处理器1220，存储器1210内存储有可在处理器1220上运行的计算机程序。处理器1220执行该计算机程序时实现上述实施例中的涂改图像生成方法。存储器1210和处理器1220的数量可以为一个或多个。

该电子设备还包括：

通信接口1230，用于与外界设备进行通信，进行数据交互传输。

如果存储器1210、处理器1220和通信接口1230独立实现，则存储器1210、处理器1220和通信接口1230可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构（Industry Standard Architecture，ISA）总线、外部设备互连（PeripheralComponent Interconnect ，PCI）总线或扩展工业标准体系结构（Extended IndustryStandard Architecture ，EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1210、处理器1220及通信接口1230集成在一块芯片上，则存储器1210、处理器1220及通信接口1230可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本申请实施例中提供的方法。

本申请实施例还提供了一种芯片，该芯片包括，包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有芯片的通信设备执行本申请实施例提供的方法。

本申请实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行申请实施例提供的方法。

应理解的是，上述处理器可以是中央处理器(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(fieldprogrammablegate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(advanced RISC machines，ARM)架构的处理器。

进一步地，可选的，上述存储器可以包括只读存储器和随机存取存储器，还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器(read-onlymemory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用。例如，静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic random access memory ，DRAM) 、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种涂改图像生成方法，其特征在于，

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1或2所述的方法，其特征在于，其中，所述将所述前景字符图像与包含有所述涂改区域的目标文本图像进行合成处理，以得到目标涂改图像，包括：

在所述涂改区域的周边区域中选取出待粘贴区域；

4.根据权利要求1或2所述的方法，其特征在于，还包括：

获取目标文本图像；

5.根据权利要求1或2所述的方法，其特征在于，还包括：

确定随机数；

6.根据权利要求5所述的方法，其特征在于，其中，所述基于所述目标涂改方式对所述第一子区域所表征的手写体作答结果进行涂改处理，得到涂改区域，包括：

7.根据权利要求1或2所述的方法，其特征在于，其中，所述对所述第二子区域中手写体作答结果进行前景图像提取，得到呈现所述第二子区域所表征手写体作答结果的前景字符图像，包括：

8.一种涂改图像生成装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，还包括：

10.根据权利要求8或9所述的装置，其特征在于，其中，所述图像合成单元，还用于在所述涂改区域的周边区域中选取出待粘贴区域；将所述前景字符图像粘贴至所述待粘贴区域，得到目标涂改图像，其中，粘贴至所述待粘贴区域的前景字符图像能够作为所述涂改区域所对应试题的手写体修改结果。

11.根据权利要求8或9所述的装置，其特征在于，还包括：

12.根据权利要求8或9所述的装置，其特征在于，还包括：涂改方式确定单元；其中，

13.根据权利要求12所述的装置，其特征在于，其中，所述涂改单元，还用于：

14.根据权利要求8或9所述的装置，其特征在于，其中，所述前景处理单元，还用于基于所述第二子区域中所有像素点的像素值，将所述第二子区域的所有像素点区分为至少两部分，使得所述至少两部分的第一部分中所有像素点的像素平均值大于第二部分中所有像素点的像素平均值；基于得到的所述至少两部分中像素点的像素值，从所述第二子区域中确定出前景区域，以得到前景字符图像。

15.一种电子设备，其特征在于，包括：包括处理器和存储器，所述存储器中存储指令，所述指令由处理器加载并执行，以实现如权利要求1至7任一项所述的方法。

16.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。