CN111626284A

CN111626284A - 一种手写字体去除的方法、装置、电子设备和存储介质

Info

Publication number: CN111626284A
Application number: CN202010452254.2A
Authority: CN
Inventors: 于遨波
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-04
Anticipated expiration: 2040-05-26
Also published as: CN111626284B

Abstract

本发明实施例涉及图像处理技术领域，公开了一种手写字体去除的方法、装置、电子设备和存储介质。该方法包括：获取初始图像；将初始图像输入预先训练的类别识别模型，得到手写字体的位置和类别；将初始图像输入预先训练的掩码识别模型，得到待测物体的掩码；利用矩阵非极大值抑制算法删除掩码中重叠交叉区域，得到待测物体的最终掩码；利用手写字体的位置和待测物体的最终掩码，确定手写字体的掩码区域；动态搜索手写字体的掩码区域附近图像色彩，得到初始图像的背景颜色；利用背景颜色覆盖手写字体的掩码区域内的像素位置。实施本发明实施例，将二阶段的实例分割算法适应性修改为两个分支并行的实例分割算法，提高了预测精度及预测效率。

Description

一种手写字体去除的方法、装置、电子设备和存储介质

技术领域

本发明涉及图像处理技术领域，具体涉及一种手写字体去除的方法、装置、电子设备和存储介质。

背景技术

实例分割(instance segmentation)是将图像按照逐个像素进行区分，判断每个像素所属物体的类别，并用不同的颜色对不同类别物体的像素进行表示(即可以检测出待查询物体的所有像素)。

传统的实例分割算法为自上而下的二阶方法，即先通过目标检测的方法检测出目标物体所属的大致区域，在此区域生成一个包含目标物体的矩形的边框，而后再在检测的边框内区分像素，分割出目标物体的mask(掩码)，其缺点是：

1、最终的分割结果高度依赖于第一阶段边框检测的精确性，若检测错误或者边框缺失，则会直接导致最终的分割结果较差，即最终的分割精度不高。

2、流程较长，耗时较高，只能达到5FPS，无法满足快速实时处理图像的需求。

3、涂抹颜色为纯白色或其他纯色，无法自适应使用当前图片的背景色进行涂抹，导致处理后的图片效果较为突兀。

发明内容

针对所述缺陷，本发明实施例公开了一种手写字体去除的方法、装置、电子设备和存储介质，其将二阶段的实例分割算法适应性修改为两个分支并行的实例分割算法，提高了预测精度及预测效率。

本发明实施例第一方面公开一种手写字体去除的方法，所述方法包括：

获取初始图像；

将所述初始图像输入预先训练的类别识别模型，得到手写字体的位置和类别；

将所述初始图像输入预先训练的掩码识别模型，得到待测物体的掩码；

利用矩阵非极大值抑制算法删除所述掩码中重叠交叉区域，得到待测物体的最终掩码；

利用手写字体的位置和待测物体的最终掩码，确定手写字体的掩码区域；

动态搜索所述手写字体的掩码区域附近图像色彩，得到初始图像的背景颜色；

利用所述背景颜色覆盖所述手写字体的掩码区域内的像素位置。

作为一种可选的实施方式，在本发明实施例第一方面中，将所述初始图像输入预先训练的类别识别模型，得到手写字体的位置和类别，包括：

将所述初始图像分为S×S个网格，S≥1；

将所述初始图像输入预先训练的全卷积网络类别识别模型，得到每个网格的各个类别的概率值，当目标网格的各个类别的概率值的最大值大于预设阈值时，所述目标网格为手写字体的位置，所述概率值的最大值对应的类别为目标网格对应的目标类别。

作为一种可选的实施方式，在本发明实施例第一方面中，将所述初始图像输入预先训练的掩码识别模型，得到待测物体的掩码，包括：

将初始图像输入预先训练的FPN掩码识别模型，得到张量为H×W×E的特征图；H和W分别为初始图像的高和宽；E为特征图的数量；

将张量为H×W×E的特征图通过S²个卷积核大小为1×1的卷积操作，得到张量为H×W×S²的特征图；

通过S²个通道对所述H×W×S²的特征图进行掩码预测，得到各个网格的掩码编码，其中，第k个通道负责对应第(i，j)个网格位置的掩码编码，k＝(i-1)×S+j，1≤k≤S²，1≤i≤S，1≤i≤S；S≥1。

将初始图像输入预先训练的FPN掩码识别模型，在FPN掩码识别模型的拼接单元得到张量为F的基础特征图；

对所述张量为F的特征图通过动态的学习卷积核G的卷积操作，输出张量为M的最终特征图，M＝F×G；

对所述最终特征图进行掩码预测，得到对应的各个网格的掩码编码。

将初始图像输入预先训练的FPN掩码识别模型，在FPN掩码识别模型第t个特征提取层得到张量为F_t的基础特征图，其中，1≤t≤m，m为FPN掩码识别模型的特征提取层的总数；

对所述张量为Ft的基础特征图通过动态的学习卷积核G_t的卷积操作，输出张量为M_t的最终特征图，M_t＝F_t×G_t；

对所述M_t的最终特征图进行掩码预测，得到第t个基础特征图对应的各个网格的掩码编码；

将所有基础特征图对应的掩码编码通过1×1的卷积操作以及ReLU函数得到所述手写字体最终的掩码特征。

作为一种可选的实施方式，在本发明实施例第一方面中，利用手写字体的位置和待测物体的最终掩码，确定手写字体的掩码区域，包括：

获取手写字体所在的目标网格；

在所述待测物体的最终掩码中确定目标网格位置对应的最终掩码，作为手写字体的掩码区域。

本发明实施例第二方面公开一种手写字体去除的装置，所述装置包括：

获取单元，用于获取初始图像；

第一识别单元，用于将所述初始图像输入预先训练的类别识别模型，得到手写字体的位置和类别；

第二识别单元，用于将所述初始图像输入预先训练的掩码识别模型，得到待测物体的掩码；

删除单元，用于利用矩阵非极大值抑制算法删除所述掩码中重叠交叉区域，得到待测物体的最终掩码；

确定单元，用于利用手写字体的位置和待测物体的最终掩码，确定手写字体的掩码区域；

搜索单元，用于动态搜索所述手写字体的掩码区域附近图像色彩，得到初始图像的背景颜色；

覆盖单元，用于利用所述背景颜色覆盖所述手写字体的掩码区域内的像素位置。

作为一种可选的实施方式，在本发明实施例第二方面中，所述第一识别单元，包括：

分割子单元，用于将所述初始图像分为S×S个网格，S≥1；

类别判断子单元，用于将所述初始图像输入预先训练的全卷积网络类别识别模型，得到每个网格的各个类别的概率值，当目标网格的各个类别的概率值的最大值大于预设阈值时，所述目标网格为手写字体的位置，所述概率值的最大值对应的类别为目标网格对应的目标类别。

作为一种可选的实施方式，在本发明实施例第二方面中，所述第二识别单元，包括：

输入子单元，用于将初始图像输入预先训练的FPN掩码识别模型，在FPN掩码识别模型的拼接单元得到张量为F的基础特征图；

卷积子单元，用于对所述张量为F的特征图通过动态的学习卷积核G的卷积操作，输出张量为M的最终特征图，M＝F×G；

预测子单元，用于对所述最终特征图进行掩码预测，得到对应的各个网格的掩码编码。

作为一种可选的实施方式，在本发明实施例第二方面中，所述确定单元，包括：

网格确定子单元，用于获取手写字体所在的目标网格；

位置对应子单元，用于在所述待测物体的最终掩码中确定目标网格位置对应的最终掩码，作为手写字体的掩码区域。

本发明实施例第三方面公开一种电子设备，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行本发明实施例第一方面公开的一种手写字体去除的方法的部分或全部步骤。

本发明实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的一种手写字体去除的方法的部分或全部步骤。

本发明实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的一种手写字体去除的方法的部分或全部步骤。

本发明实施例第六方面公开一种应用发布平台，所述应用发布平台用于发布计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例第一方面公开的一种手写字体去除的方法的部分或全部步骤。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，获取初始图像；将所述初始图像输入预先训练的类别识别模型，得到手写字体的位置和类别；将所述初始图像输入预先训练的掩码识别模型，得到待测物体的掩码；利用矩阵非极大值抑制算法删除所述掩码中重叠交叉区域，得到待测物体的最终掩码；利用手写字体的位置和待测物体的最终掩码，确定手写字体的掩码区域；动态搜索所述手写字体的掩码区域附近图像色彩，得到初始图像的背景颜色；利用所述背景颜色覆盖所述手写字体的掩码区域内的像素位置。可见，实施本发明实施例，将二阶段的实例分割算法适应性修改为两个分支(类别分支和掩码分支)并行的实例分割算法，提高了预测精度及预测效率，而且创造性的引入矩阵非极大值抑制算法，高效的去除冗余预测结果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种手写字体去除的方法的流程示意图；

图2是本发明实施例公开的另一种手写字体去除的方法的流程示意图；

图3为本发明实施例公开的一种FPN掩码识别模型的内部原理图；

图4是本发明实施例公开的又一种手写字体去除的方法的流程示意图；

图5为本发明实施例公开的另一种FPN掩码识别模型的内部原理图；

图6是本发明实施例公开的一种手写字体去除的装置的结构示意图；

图7是本发明实施例公开的另一种手写字体去除的装置的结构示意图；

图8是本发明实施例公开的又一种手写字体去除的装置的结构示意图；

图9是本发明实施例公开的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象，而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，示例性地，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例公开了一种手写字体去除的方法、装置、电子设备和存储介质，其将二阶段的实例分割算法适应性修改为两个分支(类别分支和掩码分支)并行的实例分割算法，提高了预测精度及预测效率，而且创造性的引入矩阵非极大值抑制算法，高效的去除冗余预测结果，以下结合附图进行详细描述。

实施例一

请参阅图1，图1是本发明实施例公开的一种手写字体去除方法的流程示意图。如图1所示，该手写字体去除方法包括以下步骤：

110、获取初始图像。

初始图像中包括手写字体和印刷字体，本发明实施例的目的在于将初始图像上传到服务器，由服务器通过实例分割模型将手写字体去除，得到只保留印刷字体的目标图像，目标图像可用于题目收录或搜题等。

初始图像的获得方式有多种，可以是用户自己通过手指等操作体在练习册等承载体上形成相应的轨迹，依靠摄像头拍照得到的图片经过相应的预设规则后获取的图像。示例性地，通过家教机的前置摄像头获取指尖所指位置试题的精框图像，即为初始图像。初始图像也可以是用户直接从网上下载的图像等，这里不做限定。

图像中不同物体(这里是指印刷字体和手写字体)之间存在两个显著的差别，要么不同物体之间的质心位置不同，要么不同物体之间大小不同，基于这两个显著差别，我们可以将实例分割分解为两个并行的像素级别的子任务。首先将初始图像分为S×S个网格，针对本发明的手写体涂抹场景，需要网格较为细密。然后一方面通过类别分支判断手写字体的位置和类别，另一方面通过掩码分支判断各个网格中物体的实例掩码，最后将手写字体位置映射到实例掩码中，得到手写字体的实例掩码(掩码区域)，具体过程参照步骤120-160。

120、通过类别分支将所述初始图像输入预先训练的类别识别模型，得到手写字体的位置和类别。

类别识别模型可以采用全卷积网络实现，也可以采用其他的深度学习模型。实现方式有两种：

第一种是将初始图像分成S×S个网格，通过输入预先训练的全卷积网络识别模型识别初始图像中手写字体的质心所在的网格，然后再通过全卷积类别识别模型识别质心所在网格的类别，得到手写字体的位置和类别。

初始图像中不同物体(这里是指印刷字体和手写字体)之间存在两个显著的差别，要么不同物体之间的质心位置不同，要么不同物体之间大小不同，基于这两个显著差别，采用样本对全卷积网络识别模型进行训练，样本中包括有手写字体和印刷字体，标签为手写字体的质心位置，然后将初始图像输入训练后的全卷积网络识别模型，得到手写字体的质心位置，结合初始图像的网格，可以得到手写字体质心所在的网格，网格可以由全卷积网络识别模型划分。

得到手写字体的质心所在的网格后，只需要对这些网格的类型进行判断即可，其他位置的网格无需再进行识别。

训练全卷积网络类别识别模型。这里的类别是题目的类型，可以是填空题、选择题、判断题、简答题、计算题以及其他，根据需要进行设置，例如可以设置5个类别，分别为填空题、判断题、简答题、选择题以及其他。采用样本对训练全卷积网络类别识别模型进行训练，样本可以是手写字体，当然，手写字体样本中也可以存在印刷字体，标签为样本对应的类别。

之所以设置类型，是为了得到更准确的手写字体位置，相当于增加一个条件，如果能够识别上述的手写字体质心所在网格的类别，则该手写字体质心网格为手写字体对应的位置，否则，如果不能识别上述的手写字体质心所在网格的类别，手写字体质心网格就不是手写字体对应的位置。所以最后得到的手写字体质心对应的网格是和类别一一对应的。

类别识别是通过概率实现，当手写字体质心所在网格的各个类别的概率最大值大于预设阈值，这个手写字体质心网格就对应这个概率最大值对应的类型。可以理解的是，每个网格的各个类别的概率值之和应该等于1。示例性的，假设预设阈值为80％，当全卷积网络类别识别模型输出的网格(i，j)的填空题、判断题、简答题、选择题以及其他的概率分别为5％、5％、3％、85％、2％，则网格(i，j)为手写字体的位置，网格(i，j)的类别为选择题。

第二种是将初始图像分成S×S个网格，然后将所述初始图像输入预先训练的全卷积网络类别识别模型，得到每个网格的各个类别的概率值，当目标网格的各个类别的概率值的最大值大于预设阈值时，所述目标网格为手写字体的位置，所述概率值的最大值对应的类别为目标网格对应的目标类别。

初始图像通过预先训练的全卷积网络类别识别模型，先进行特征提取，得到初始图像的特征图，然后将对初始图像的S×S个网格进行卷积操作，得到S×S×C大小的张量，C为手写字体类别的个数，示例性地，C＝5，分别为填空题、判断题、简答题、选择题以及其他。S×S×C大小的张量，相当于C个通道的S×S大小的特征图，其中，每一个通道负责预测一个手写字体的类别，例如，第一个通道负责S×S大小的特征图中各个网格填空题的预测，最终得到每个网格的填空题类别的概率，当某个或某些网格的填空题类别概率大于预设阈值，则这个或这些网格存在手写字体，且手写字体的类别为填空题。如果某个网格的各个类别的概率均不大于预设阈值，则这个网格认为不存在手写字体。可以理解的是，任一个网格的C个通道得到的概率值之和为1。

预先训练全卷积网络类别识别模型的样本为手写字体样本，当然，手写字体样本中也可以存在印刷字体，样本标签为类别。

无论是上述哪种方式，最终输出均会保留手写字体的类别信息和手写字体的位置信息，即手写字体所在的网格。

130、通过掩码分支将所述初始图像输入预先训练的掩码识别模型，得到待测物体的掩码。

步骤130和步骤120为并行处理，不存在先后顺序。步骤130可以得到每个网格待测物体的掩码，当然，如果某个网格内不存在手写字体，则该网格不具有掩码。

待测物体包括手写字体和印刷字体，在网格划分足够多的情况下，可以认为手写字体和印刷字体不会出现同一网格中，掩码分支采用的掩码识别模型可以采用FPN(feature pyramid networks特征金字塔网络)模型，当然，也可以采用其他深度学习模型。预先训练FPN模型的样本包括手写字体和印刷字体，标签为掩码。

将初始图像输入预先训练的FPN掩码识别模型，得到张量为H×W×E的特征图，其中，这里的特征图为通过多个层级的特征提取再进行优化后拼接而成的；H和W分别为初始图像的高和宽。

将张量为H×W×E的特征图通过S²个卷积核大小为1×1的卷积操作，得到张量为H×W×S²的特征图，1×1的卷积的目的为了减少预测时的特征图数量。

通过S²个通道对所述H×W×S²的特征图进行掩码预测，得到各个网格的掩码编码，其中，第k个通道负责对应第(i，j)个网格位置的掩码编码，k＝(i-1)×S+j，1≤k≤S²，1≤i，j≤S；S≥1，这一层可以看做S²个分类器，每个分类器负责判断图像区域的像素点是否属于位置类别(手写字体或印刷字体)，从而对属于这位置类别的像素点构建掩码，因此得到各个网格的掩码，记为初始掩码。

140、利用矩阵非极大值抑制算法删除所述掩码中重叠交叉区域，得到待测物体的最终掩码。

由于每个网格内的初始掩码可能存在重叠交叉区域，可以采用矩阵非极大值抑制算法删除掩码中的重叠交叉区域。通过矩阵非极大值抑制算法代替了传统非极大值抑制算法中的递归操作，在不损失精度的情况下，大幅提升了计算速度。通过矩阵非极大值抑制算法去除重叠交叉的重复掩码，从而得到每个网格待测物体的最终掩码，由此可以看出，类别识别模型得到的位置和类别以及掩码识别模型得到待测物体的掩码均是针对每个网格进行的，且两个模型的网格大小相等，位置相对应。

当然，在一些情况下，也可以直接通过掩码识别模型只对手写字体的掩码进行识别，再通过矩阵非极大值抑制算法得到手写字体的最终掩码。

150、利用手写字体的位置和待测物体的最终掩码，确定手写字体的掩码区域。

基于上述步骤，在确定手写字体的位置以及每个网格对应的最终掩码的情况下，将手写字体的位置对应到最终掩码中，即得到手写字体的掩码区域。即由手写字体的位置获取手写字体所在的目标网格；然后将目标网格映射到所述待测物体的最终掩码中，确定目标网格位置对应的最终掩码，作为手写字体的掩码区域。

上述模型训练的总损失函数为类别识别模型和掩码识别模型训练的损失函数相加，即L＝L_cate+λL_mask，L为总损失函数，L_cate为类别识别模型的损失函数，L_mask为掩码识别模型训练的损失函数，λ为损失系数。

160、动态搜索所述手写字体的掩码区域附近图像色彩，得到初始图像的背景颜色。

得到待检测手写体的掩码区域后，在初始图像中动态搜索检测手写体的掩码区域附近图像色彩，得到初始图像的背景颜色。

170、利用所述背景颜色覆盖所述手写字体的掩码区域内的像素位置。

将背景颜色直接涂抹手写字体的掩码区域内的像素，可以达到去除手写字体的目的。通过动态搜索背景颜色的方式，实现了采用自适应的背景颜色涂抹初始图像上手写体内容的效果，提升用户体验。

实施本发明实施例，可以达到：1、通过并行的包含位置信息的类别分支以及掩码分支结合的方式，替换现有的二阶段的实例分割算法，直接预测得到最终的掩码，避免了依赖边框检测而导致的精度不高的问题，实现高精度的实例分割，精准定位手写体位置，将手写体覆盖，同时不影响其他题干等印刷体信息，提高了预测精度，而且实现高速度的实时处理，速度达到30FPS以上，提升预测效率；2、巧妙地采用类别分支，在预测每个区域类别的同时保留了待检测物体的位置信息，一举两得；3、通过图像动态搜索，自动寻找书本背景颜色，从而进行无痕涂抹。

实施例二

请参阅图2，图2是本发明实施例公开的另一种手写字体去除方法的流程示意图。如图2所示，该手写字体去除方法包括以下步骤：

210、获取初始图像。

220、通过类别分支将所述初始图像输入预先训练的类别识别模型，得到手写字体的位置和类别。

230、通过掩码分支将所述初始图像输入预先训练的掩码识别模型，基于动态学习的卷积核，得到待测物体的掩码。

240、利用矩阵非极大值抑制算法删除所述掩码中重叠交叉区域，得到待测物体的最终掩码。

250、利用手写字体的位置和待测物体的最终掩码，确定待测物体的掩码。

260、动态搜索所述手写字体的掩码区域附近图像色彩，得到初始图像的背景颜色。

270、利用所述背景颜色覆盖所述手写字体的掩码区域内的像素位置。

步骤210-220以及步骤240-270可以与实施例一中步骤110-120以及步骤140-170类似，这里不再赘述。

在步骤230中，采用动态的学习卷积核替换实施例一步骤130中的固定卷积操作，从而大幅减少参数量。

具体地，将初始图像输入预先训练的FPN掩码识别模型，得到张量为H×W×E的特征图，记为F，如图3所示，其中，这里的特征图为通过多个层级的特征提取再进行优化后拼接而成的(拼接单元输出特征图)；H和W分别为初始图像的高和宽；E为特征图的数量。

对所述张量为H×W×E的特征图通过动态的学习卷积核G的卷积操作，输出张量为M的最终特征图，M＝F×G。假设M为H×W×S²，则卷积核G＝1×1×E×S²，开始时，对卷积核G随机初始化，在训练时不断通过样本对G进行训练，得到相应的动态学习的卷积核。

之所以不采用S²个卷积核大小为1×1的固定卷积操作，是因为并非S²个位置都有物体，因此不需要每个位置都进行判断，这就造成了计算的冗余。输出张量M是冗余的，而输入特征F是固定的，因此动态的学习卷积核G可以大幅减少计算过程，从而提升了计算速度；

最后通过S²个通道对所述H×W×S²的特征图进行掩码预测，得到各个网格的掩码编码，其中，第k个通道负责对应第(i，j)个网格位置的掩码编码，k＝(i-1)×S+j，1≤k≤S²，1≤i，j≤S；S≥1，这一层可以看做S²个分类器，每个分类器负责判断图像区域的像素点是否属于位置类别(手写字体或印刷字体)，从而对属于这位置类别的像素点构建掩码，因此得到各个网格的掩码，记为初始掩码。

实施本发明实施例，可以达到：1、通过并行的包含位置信息的类别分支以及掩码分支结合的方式，替换现有的二阶段的实例分割算法，直接预测得到最终的掩码，避免了依赖边框检测而导致的精度不高的问题，实现高精度的实例分割，精准定位手写体位置，将手写体覆盖，同时不影响其他题干等印刷体信息，提高了预测精度，而且实现高速度的实时处理，速度达到30FPS以上，提升预测效率；2、巧妙地采用类别分支，在预测每个区域类别的同时保留了待检测物体的位置信息，一举两得；3、通过动态卷积替代固定卷积，大幅减少参数量；4、通过图像动态搜索，自动寻找书本背景颜色，从而进行无痕涂抹。

实施例三

请参阅图4，图4是本发明实施例公开的又一种手写字体去除方法的流程示意图。如图4所示，该手写字体去除方法包括以下步骤：

310、获取初始图像。

320、通过类别分支将所述初始图像输入预先训练的类别识别模型，得到手写字体的位置和类别。

330、通过掩码分支将所述初始图像输入预先训练的掩码识别模型，基于动态学习的卷积核，得到待测物体的掩码。

340、利用矩阵非极大值抑制算法删除所述掩码中重叠交叉区域，得到待测物体的最终掩码。

350、利用手写字体的位置和待测物体的最终掩码，确定待测物体的掩码。

360、动态搜索所述手写字体的掩码区域附近图像色彩，得到初始图像的背景颜色。

370、利用所述背景颜色覆盖所述手写字体的掩码区域内的像素位置。

步骤310-320以及步骤340-370可以与实施例一中步骤110-120以及步骤140-170类似，这里不再赘述。

在步骤330中，采用动态的学习卷积核替换实施例一步骤130中的固定卷积操作，从而大幅减少参数量。

具体地，将初始图像输入预先训练的FPN掩码识别模型，获取FPN掩码识别模型每一特征提取层级输出的张量为H×W×E_t的基础特征图(可以是经过优化后的基础特征图)，记为F_t；其中，H和W分别为初始图像的高和宽；E_t为FPN掩码识别模型第t个特征提取层得到的基础特征图的数量；1≤t≤m，m为FPN掩码识别模型的特征提取层的总数，如图5所示，m＝4。

对所述张量为F_t的基础特征图通过动态的学习卷积核G_t的卷积操作，输出张量为M_t的最终特征图，M_t＝F_t×G_t。开始时，对卷积核G_t随机初始化，在训练时不断通过样本对G_t进行训练，得到相应的动态学习的卷积核。

之所以不采用固定卷积进行卷积操作，是因为并非所有的位置都有物体，因此不需要每个位置都进行判断，这就造成了计算的冗余。输出张量M_t是冗余的，而输入特征F_t是固定的，因此动态的学习卷积核G_t可以大幅减少计算过程，从而提升了计算速度；

然后对所述M_t的最终特征图进行掩码预测，得到第t个基础特征图对应的各个网格的掩码编码；最后将所有基础特征图对应的掩码编码通过1×1的卷积操作以及ReLU(Rectified Linear Unit，线性整流函数，是一种人工神经网络中常用的激活函数)得到所述手写字体最终的掩码特征，记为初始掩码。

实施本发明实施例，可以达到：1、通过并行的包含位置信息的类别分支以及掩码分支结合的方式，替换现有的二阶段的实例分割算法，直接预测得到最终的掩码，避免了依赖边框检测而导致的精度不高的问题，实现高精度的实例分割，精准定位手写体位置，将手写体覆盖，同时不影响其他题干等印刷体信息，提高了预测精度，而且实现高速度的实时处理，速度达到30FPS以上，提升预测效率；2、巧妙地采用类别分支，在预测每个区域类别的同时保留了待检测物体的位置信息，一举两得；3、通过动态卷积替代固定卷积，大幅减少参数量；4、通过图像动态搜索，自动寻找书本背景颜色，从而进行无痕涂抹。上传至服务器端后调用本发明中的实例分割模型对该图像进行处理。

实施例四

请参阅图6，图6是本发明实施例公开的一种手写字体去除装置的结构示意图。如图6所示，该手写字体去除装置可以包括：

获取单元410，用于获取初始图像；

第一识别单元420，用于将所述初始图像输入预先训练的类别识别模型，得到手写字体的位置和类别；

第二识别单元430，用于将所述初始图像输入预先训练的掩码识别模型，得到待测物体的掩码；

删除单元440，用于利用矩阵非极大值抑制算法删除所述掩码中重叠交叉区域，得到待测物体的最终掩码；

确定单元450，用于利用手写字体的位置和待测物体的最终掩码，确定手写字体的掩码区域；

搜索单元460，用于动态搜索所述手写字体的掩码区域附近图像色彩，得到初始图像的背景颜色；

覆盖单元470，用于利用所述背景颜色覆盖所述手写字体的掩码区域内的像素位置。

作为一种可选的实施方式，所述第一识别单元420，可以包括：

分割子单元421，用于将所述初始图像分为S×S个网格，S≥1；

类别判断子单元422，用于将所述初始图像输入预先训练的全卷积网络类别识别模型，得到每个网格的各个类别的概率值，当目标网格的各个类别的概率值的最大值大于预设阈值时，所述目标网格为手写字体的位置，所述概率值的最大值对应的类别为目标网格对应的目标类别。

作为一种可选的实施方式，所述第二识别单元430，可以包括：

输入子单元431，用于将初始图像输入预先训练的FPN掩码识别模型，得到张量为H×W×E的特征图；H和W分别为初始图像的高和宽；E为特征图的数量；

卷积子单元432，用于将张量为H×W×E的特征图通过S²个卷积核大小为1×1的卷积操作，得到张量为H×W×S²的特征图；

预测子单元433，用于通过S²个通道对所述H×W×S²的特征图进行掩码预测，得到各个网格的掩码编码，其中，第k个通道负责对应第(i，j)个网格位置的掩码编码，k＝(i-1)×S+j，1≤k≤S²，1≤i≤S，1≤i≤S；S≥1。

作为一种可选的实施方式，所述确定单元450，可以包括：

网格确定子单元451，用于获取手写字体所在的目标网格；

位置对应子单元452，用于在所述待测物体的最终掩码中确定目标网格位置对应的最终掩码，作为手写字体的掩码区域。

图6所示的手写字体去除装置，可以达到：1、通过并行的包含位置信息的类别分支以及掩码分支结合的方式，替换现有的二阶段的实例分割算法，直接预测得到最终的掩码，避免了依赖边框检测而导致的精度不高的问题，实现高精度的实例分割，精准定位手写体位置，将手写体覆盖，同时不影响其他题干等印刷体信息，提高了预测精度，而且实现高速度的实时处理，速度达到30FPS以上，提升预测效率；2、巧妙地采用类别分支，在预测每个区域类别的同时保留了待检测物体的位置信息，一举两得；3、通过图像动态搜索，自动寻找书本背景颜色，从而进行无痕涂抹。

实施例五

请参阅图7，图7是本发明实施例公开的一种手写字体去除装置的结构示意图。如图7所示，该手写字体去除装置可以包括：

获取单元510，用于获取初始图像；

第一识别单元520，用于将所述初始图像输入预先训练的类别识别模型，得到手写字体的位置和类别；

第二识别单元530，用于将所述初始图像输入预先训练的掩码识别模型，得到待测物体的掩码；

删除单元540，用于利用矩阵非极大值抑制算法删除所述掩码中重叠交叉区域，得到待测物体的最终掩码；

确定单元550，用于利用手写字体的位置和待测物体的最终掩码，确定手写字体的掩码区域；

搜索单元560，用于动态搜索所述手写字体的掩码区域附近图像色彩，得到初始图像的背景颜色；

覆盖单元570，用于利用所述背景颜色覆盖所述手写字体的掩码区域内的像素位置。

作为一种可选的实施方式，所述第一识别单元520，可以包括：

分割子单元521，用于将所述初始图像分为S×S个网格，S≥1；

类别判断子单元522，用于将所述初始图像输入预先训练的全卷积网络类别识别模型，得到每个网格的各个类别的概率值，当目标网格的各个类别的概率值的最大值大于预设阈值时，所述目标网格为手写字体的位置，所述概率值的最大值对应的类别为目标网格对应的目标类别。

作为一种可选的实施方式，所述第二识别单元530，可以包括：

输入子单元531，用于将初始图像输入预先训练的FPN掩码识别模型，在FPN掩码识别模型的拼接单元得到张量为F的基础特征图；

卷积子单元532，用于对所述张量为F的特征图通过动态的学习卷积核G的卷积操作，输出张量为M的最终特征图，M＝F×G；

预测子单元533，用于对所述最终特征图进行掩码预测，得到对应的各个网格的掩码编码。

作为一种可选的实施方式，所述确定单元550，可以包括：

网格确定子单元551，用于获取手写字体所在的目标网格；

位置对应子单元552，用于在所述待测物体的最终掩码中确定目标网格位置对应的最终掩码，作为手写字体的掩码区域。

图7所示的手写字体去除装置，可以达到：1、通过并行的包含位置信息的类别分支以及掩码分支结合的方式，替换现有的二阶段的实例分割算法，直接预测得到最终的掩码，避免了依赖边框检测而导致的精度不高的问题，实现高精度的实例分割，精准定位手写体位置，将手写体覆盖，同时不影响其他题干等印刷体信息，提高了预测精度，而且实现高速度的实时处理，速度达到30FPS以上，提升预测效率；2、巧妙地采用类别分支，在预测每个区域类别的同时保留了待检测物体的位置信息，一举两得；3、通过动态卷积替代固定卷积，大幅减少参数量；4、通过图像动态搜索，自动寻找书本背景颜色，从而进行无痕涂抹。上传至服务器端后调用本发明中的实例分割模型对该图像进行处理。

实施例六

请参阅图8，图8是本发明实施例公开的一种手写字体去除装置的结构示意图。如图8所示，该手写字体去除装置可以包括：

获取单元610，用于获取初始图像；

第一识别单元620，用于将所述初始图像输入预先训练的类别识别模型，得到手写字体的位置和类别；

第二识别单元630，用于将所述初始图像输入预先训练的掩码识别模型，得到待测物体的掩码；

删除单元640，用于利用矩阵非极大值抑制算法删除所述掩码中重叠交叉区域，得到待测物体的最终掩码；

确定单元650，用于利用手写字体的位置和待测物体的最终掩码，确定手写字体的掩码区域；

搜索单元660，用于动态搜索所述手写字体的掩码区域附近图像色彩，得到初始图像的背景颜色；

覆盖单元670，用于利用所述背景颜色覆盖所述手写字体的掩码区域内的像素位置。

作为一种可选的实施方式，所述第一识别单元620，可以包括：

分割子单元621，用于将所述初始图像分为S×S个网格，S≥1；

类别判断子单元622，用于将所述初始图像输入预先训练的全卷积网络类别识别模型，得到每个网格的各个类别的概率值，当目标网格的各个类别的概率值的最大值大于预设阈值时，所述目标网格为手写字体的位置，所述概率值的最大值对应的类别为目标网格对应的目标类别。

作为一种可选的实施方式，所述第二识别单元630，可以包括：

输入子单元631，用于将初始图像输入预先训练的FPN掩码识别模型，在FPN掩码识别模型第t个特征提取层得到张量为F_t的基础特征图，其中，1≤t≤m，m为FPN掩码识别模型的特征提取层的总数；

卷积子单元632，用于对所述张量为F_t的基础特征图通过动态的学习卷积核G_t的卷积操作，输出张量为M_t的最终特征图，M_t＝F_t×G_t；

预测子单元633，用于对所述M_t的最终特征图进行掩码预测，得到第t个基础特征图对应的各个网格的掩码编码；

激活函数子单元634，用于将所有基础特征图对应的掩码编码通过1×1的卷积操作以及ReLU函数得到所述手写字体最终的掩码特征。

作为一种可选的实施方式，所述确定单元650，可以包括：

网格确定子单元651，用于获取手写字体所在的目标网格；

位置对应子单元652，用于在所述待测物体的最终掩码中确定目标网格位置对应的最终掩码，作为手写字体的掩码区域。

图8所示的手写字体去除装置，可以达到：1、通过并行的包含位置信息的类别分支以及掩码分支结合的方式，替换现有的二阶段的实例分割算法，直接预测得到最终的掩码，避免了依赖边框检测而导致的精度不高的问题，实现高精度的实例分割，精准定位手写体位置，将手写体覆盖，同时不影响其他题干等印刷体信息，提高了预测精度，而且实现高速度的实时处理，速度达到30FPS以上，提升预测效率；2、巧妙地采用类别分支，在预测每个区域类别的同时保留了待检测物体的位置信息，一举两得；3、通过动态卷积替代固定卷积，大幅减少参数量；4、通过图像动态搜索，自动寻找书本背景颜色，从而进行无痕涂抹。上传至服务器端后调用本发明中的实例分割模型对该图像进行处理。

实施例七

请参阅图9，图9是本发明实施例公开的一种电子设备的结构示意图。如图9所示，该电子设备可以包括：

存储有可执行程序代码的存储器710；

与存储器710耦合的处理器720；

其中，处理器720调用存储器710中存储的可执行程序代码，执行实施例一至实施例三任意一种手写字体去除的方法中的部分或全部步骤。

本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行实施例一至实施例三任意一种手写字体去除的方法中的部分或全部步骤。

本发明实施例还公开一种计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一至实施例三任意一种手写字体去除的方法中的部分或全部步骤。

本发明实施例还公开一种应用发布平台，其中，应用发布平台用于发布计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行实施例一至实施例三任意一种手写字体去除的方法中的部分或全部步骤。

在本发明的各种实施例中，应理解，所述各过程的序号的大小并不意味着执行顺序的必然先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物单元，即可位于一个地方，或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可获取的存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分，可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。

在本发明所提供的实施例中，应理解，“与A对应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。

本领域普通技术人员可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种手写字体去除的方法、装置、电子设备和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种手写字体去除的方法，其特征在于，包括：

获取初始图像；

2.根据权利要求1所述的方法，其特征在于，将所述初始图像输入预先训练的类别识别模型，得到手写字体的位置和类别，包括：

将所述初始图像分为S×S个网格，S≥1；

3.根据权利要求1所述的方法，其特征在于，将所述初始图像输入预先训练的掩码识别模型，得到待测物体的掩码，包括：

4.根据权利要求1所述的方法，其特征在于，将所述初始图像输入预先训练的掩码识别模型，得到待测物体的掩码，包括：

5.根据权利要求1所述的方法，其特征在于，将所述初始图像输入预先训练的掩码识别模型，得到待测物体的掩码，包括：

对所述张量为F_t的基础特征图通过动态的学习卷积核G_t的卷积操作，输出张量为M_t的最终特征图，M_t＝F_t×G_t；

6.根据权利要求1-5任一项所述的方法，其特征在于，利用手写字体的位置和待测物体的最终掩码，确定手写字体的掩码区域，包括：

获取手写字体所在的目标网格；

7.一种手写字体去除的装置，其特征在于，包括：

获取单元，用于获取初始图像；

8.根据权利要求7所述的装置，其特征在于，所述第一识别单元，包括：

分割子单元，用于将所述初始图像分为S×S个网格，S≥1；

9.根据权利要求7所述的装置，其特征在于，所述第二识别单元，包括：

10.根据权利要求7-9任一项所述的装置，其特征在于，所述确定单元，包括：

网格确定子单元，用于获取手写字体所在的目标网格；

11.一种电子设备，其特征在于，包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，用于执行权利要求1至6任一项所述的一种手写字体去除的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，其中，所述计算机程序使得计算机执行权利要求1至6任一项所述的一种手写字体去除的方法。