CN116740229A

CN116740229A - 文本擦除方法及装置、电子设备及可读存储介质

Info

Publication number: CN116740229A
Application number: CN202310605358.6A
Authority: CN
Inventors: 尹天舒
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-09-12

Abstract

本发明实施例提供了一种文本擦除方法及装置、电子设备及可读存储介质，涉及图像处理技术领域。方法包括：获取第一图像中的第一文本区域；获取第一文本区域对应的至少一个候选文本区域；获取第一文本区域和各个候选文本区域，分别对应的区域框选文本置信度；将第一文本区域和各个候选文本区域中，区域框选文本置信度最高的文本区域，确定为目标文本区域；对第一图像中的目标文本区域，进行擦除。本发明中，获取第一文本区域和各个候选文本区域，分别对应的区域框选文本置信度，该置信度可以体现文本区域框选文本的准确度，选择了框选文本准确度最高的文本区域，进而提升了文本和非文本分割的准确性，能够提升擦除效果。

Description

文本擦除方法及装置、电子设备及可读存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及文本擦除方法及装置、电子设备及可读存储介质。

背景技术

将图像中已有的文本等进行擦除，可以实现该图像的复用等，因此，图像中文本擦除，具有广泛的应用空间。

目前，主要是先对图像中的文本和非文本进行分割，获得该图像中的文本区域，对该图像中的文本区域进行填充，实现文本擦除。

然而，现有技术中，对于图像中的文本和非文本分割不够准确，导致文本擦除效果也不够准确。

发明内容

本发明实施例的目的在于提供一种文本擦除方法及装置、电子设备及可读存储介质，以实现准确的擦除图像中的文本的技术目的。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种文本擦除方法，所述方法包括：

获取第一图像中的第一文本区域；

获取所述第一文本区域对应的至少一个候选文本区域；各个所述候选文本区域，均包含所述第一文本区域中的至少部分像素；

获取所述第一文本区域和各个所述候选文本区域，分别对应的区域框选文本置信度；所述区域框选文本置信度，用于表征所述文本区域，框住文本像素的准确程度；

将所述第一文本区域和各个所述候选文本区域中，区域框选文本置信度最高的文本区域，确定为目标文本区域；

对所述第一图像中的所述目标文本区域，进行擦除。

在本发明实施的第二方面，还提供了一种文本擦除装置，所述装置包括：

第一文本区域获取模块，用于获取第一图像中的第一文本区域；

候选文本区域获取模块，用于获取所述第一文本区域对应的至少一个候选文本区域；各个所述候选文本区域，均包含所述第一文本区域中的至少部分像素；

置信度获取模块，用于获取所述第一文本区域和各个所述候选文本区域，分别对应的区域框选文本置信度；所述区域框选文本置信度，用于表征所述文本区域，框住文本像素的准确程度；

目标文本区域确定模块，用于将所述第一文本区域和各个所述候选文本区域中，区域框选文本置信度最高的文本区域，确定为目标文本区域；

擦除模块，用于对所述第一图像中的所述目标文本区域，进行擦除。

在本发明实施的第三方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的文本擦除方法。

在本发明实施的第四方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的文本擦除方法。

本发明实施例提供的文本擦除方法，通过获取第一图像中的第一文本区域对应的至少一个候选文本区域，然后获取第一文本区域和各个候选文本区域，分别对应的区域框选文本置信度，该区域框选置信度可以体现该文本区域框住文本像素的准确度，然后从第一文本区域和各个候选文本区域中，选择区域框选文本置信度最高的文本区域，作为目标文本区域，也就是说选择了框选文本像素准确度最高的文本区域，进而提升了文本和非文本分割的准确性，然后对该第一图像中的目标文本区域进行擦除，能够提升擦除效果，可以解决由于文本分割不够准确导致的擦除效果欠佳的问题，能够提升文本擦除效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中的一种文本擦除方法的步骤流程图；

图2为本发明实施例中的一种文本擦除方法的流程示意图；

图3为本发明实施例中的一种文本擦除装置的结构示意图；

图4为本发明实施例中的一种电子设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

图1为本发明实施例中的一种文本擦除方法的步骤流程图，如图1所示，该方法包括：

步骤101、获取第一图像中的第一文本区域。

此处的第一图像可以是图片或视频等，在本发明实施例中，对此不作具体限定。

例如，第一图像可以是视频中的某一帧图像或某几帧图像等，该第一图像中含有额外增加的文本等，视频中的图像通常较为复杂。

再例如，此处的第一图像可以是海报等，海报是常见的一种招贴形式，多用于电影、电视剧、戏剧、比赛、文艺演出、促销等活动。海报中通常包括活动的性质、主办单位、时间、地点等文本内容，多用于影视剧和新品宣传中，利用图片、文字、色彩、空间等要素进行完整的结合。海报中往往图文镶嵌，且海报中元素较多，背景较为复杂。

第一图像中的第一文本区域可以包括该第一图像中的所有文本的文本区域，或者，可以包括该第一图像中的部分文本的文本区域，本发明实施例对此不作具体限定。例如，第一图像为海报，海报的第一文本区域可以为包括其上的所有文本的区域。

可以采用语义分割等方式，对第一图像中的像素进行文本和非文本的二分类，得到第一图像中的第一文本区域。对于第一图像中的第一文本区域的获取方式也不作具体限定。

例如，该步骤可以为：将第一图像进行去噪，对去噪后的第一图像进行二值化，得到包括文字的前景区域，接着针对该前景区域，进行文字区域和非文字区域分割，得到第一图像中的第一文本区域。

步骤102、获取所述第一文本区域对应的至少一个候选文本区域；各个所述候选文本区域，均包含所述第一文本区域中的至少部分像素。

该步骤就是将第一图像中第一文本区域，在第一图像中进行扩大或缩小，得到该第一文本区域对应的至少一个候选文本区域。该候选文本区域的数量不作具体限定，各个候选文本区域的尺寸，与第一文本区域的尺寸的大小关系也不作具体限定。

各个候选文本区域均包含该第一文本区域中的至少部分像素，也就是说各个候选文本区域和第一文本区域均具有交叠的部分，至于交叠的部分的大小不作具体限定。

步骤103、获取所述第一文本区域和各个所述候选文本区域，分别对应的区域框选文本置信度；所述区域框选文本置信度，用于表征所述文本区域，框住文本像素的准确程度。

区域框选文本置信度表征的是该第一文本区域或候选文本区域，正好框住文本像素的准确程度。

可选的，第一文本区域或候选文本区域中除了文本像素之外的其他像素的数量越多，该区域框选文本置信度越低。和/或，第一文本区域或候选文本区域，漏框的文本像素的数量越多，该区域框选文本置信度也越低，就是说第一文本区域或候选文本区域的区域框选文本置信度，和该文本区域中除了文本像素之外的其他像素的数量成反比，和/或，该第一文本区域或候选文本区域的区域框选文本置信度和该文本区域漏框的文本像素的数量成反比。

作为一种示例，第一文本区域和各个候选文本区域，分别对应的区域框选文本置信度，可以用1-(该文本区域漏框的文本像素的数量+该文本区域中除了文本像素之外的其他像素的数量)/该文本区域中像素的总数量来表征。对于第一文本区域和各个所述候选文本区域，分别对应的区域框选文本置信度的具体获取方式不作限定。

步骤104、将所述第一文本区域和各个所述候选文本区域中，区域框选文本置信度最高的文本区域，确定为目标文本区域。

第一文本区域和各个候选文本区域中，区域框选文本置信度最高的文本区域，可以表征是对于文本像素的框选最准确的文本区域，该文本区域中除了文本像素之外的其他像素的数量最少，和/或，该文本区域漏框的文本像素的数量也最少。

从第一文本区域和各个候选文本区域中，选择区域框选文本置信度最高的文本区域，作为目标文本区域，也就是得到了第一文本区域和各个候选文本区域中，对于第一图像的文本像素框选最准确的文本区域。

步骤105、对所述第一图像中的所述目标文本区域，进行擦除。

该步骤就是对第一图像中对于文本像素框选最准确的目标文本区域，进行擦除，由于该目标文本区域对于文本像素的框选准确度更高，因此，擦除效果更佳。

相对于相关技术中，直接对步骤101中的第一文本区域进行擦除而言，本发明实施例提供的文本擦除方法，通过获取第一图像中的第一文本区域对应的至少一个候选文本区域，然后获取第一文本区域和各个候选文本区域，分别对应的区域框选文本置信度，该置信度可以体现文本区域框选文本像素的准确度，然后从第一文本区域和各个候选文本区域中，选择区域框选文本置信度最高的文本区域，作为目标文本区域，也就是说选择了框选文本像素准确度最高的文本区域，进而提升了文本和非文本分割的准确性，然后对该第一图像中的目标文本区域进行擦除，能够提升擦除效果，可以解决由于文本分割不够准确导致的擦除效果欠佳的问题，能够提升文本擦除效果。

可选的，前述步骤101可以包括：

步骤201、采用OCR，获取所述第一图像中的第一文本区域。具体的采用OCR(Optical Character Recognition)，获取第一图像中的第一文本区域，具体过程大致如下：先对第一图像进行预处理，该预处理主要包括：二值化，噪声去除，倾斜校直等。接着对于预处理后的第一图像进行版面分析，主要是对第一图像进行分行、分段落等操作，然后进行字符切割、字符识别、版面恢复、后处理、校正等。通过上述OCR文本识别，可以较为方便的获取到第一图像中的第一文本区域。

可选的，前述步骤102可以包括：

步骤202、对所述第一图像中的第一文本区域进行至少一次扩充，得到所述第一文本区域对应的至少一个候选文本区域；所述候选文本区域的像素，包括所述第一文本区域中的全部像素，且所述候选文本区域的尺寸，大于所述第一文本区域的尺寸。

具体的，发明人发现，相关技术中，对图像中的文本和非文本进行分割，由于对于文本边缘的界定较为困难，通常存在文本边缘的像素较大概率没有涵盖在第一文本区域中。

针对上述问题，发明人创造性的，对第一图像中的第一文本区域进行至少一次扩充，得到第一文本区域对应的至少一个候选文本区域。每一次扩充对应一个候选文本区域。每个候选文本区域都包括该第一文本区域中的全部像素，且每个候选文本区域的尺寸，均大于该第一文本区域的尺寸，则，每个候选文本区域包含了更多、更全面的文本的边缘部分或边缘的像素，本发明更为简单快捷的涵盖了第一文本区域的边缘的像素。

各个候选文本区域的尺寸，具体比第一文本区域大多少不作具体限定。例如，某个候选文本区域的尺寸，可以比第一文本区域在相互垂直的两个方向上，各大5个像素。

可选的，前述步骤202可以包括：

步骤2021、将所述第一文本区域，在所述第一图像中相互垂直的第一方向和第二方向上，分别向外扩充预设距离，以得到所述第一文本区域对应的至少一个候选文本区域。

就是说，针对该第一文本区域，在相互垂直的第一方向和第二方向，在第一图像中，分别向外扩充预设距离，进而得到第一文本区域对应的至少一个候选文本区域。通常情况下，文本区域特别是视频中台词对应的文本区域多为矩形区域等，进而在相互垂直的第一方向和第二方向对第一文本区域扩充，与文本区域的实际形状匹配度更高，形成的候选文本区域对于边缘像素的覆盖的可能性更大，而且该扩充方式简单易行。

需要说明的是，此处的第一方向和第二方向相互垂直即可，对于具体的方向不作限定。例如，第一方向和第二方向分别可以为第一文本区域的高度所在的方向和第一文本区域的宽度所在的方向。

可选的，前述步骤2021可以包括：

将该第一文本区域，在该第一图像中前述第一方向的两侧上，分别均向外扩充3个第一预设距离，在该第一图像中前述第二方向的两侧上，分别均向外扩充3个第二预设距离，得到该第一文本区域对应的9个候选文本区域；该第一方向为该第一文本区域的高度所在的方向，该第二方向为该第一文本区域的宽度所在的方向，上述扩充方式，得到的9个候选文本区域，与实际情况匹配度更高，形成的候选文本区域对于边缘像素的覆盖的可能性进一步增大，而且该扩充方式简单易行。同时，该方式得到的9个候选文本区域的数量相对较少，文本擦除效率较高。就是说，该扩充方式，同时兼顾了擦除准确性和擦除效率。

可选的，此处的3个第一预设距离包括：0.015倍的该第一文本区域在其第一方向上的第一尺寸、0.025倍的该第一尺寸、0.035倍的该第一尺寸；该3个第二预设距离包括：0.005倍的该第一文本区域在前述第二方向上的第二尺寸、0.01倍的该第二尺寸、0.015倍的该第二尺寸。此处的3个第一预设距离、3个第二预设距离与实际情况匹配度更高，形成的候选文本区域对于边缘像素的覆盖的可能性进一步增大，而且该扩充方式简单易行。同时，该方式得到的9个候选文本区域的中像素的数量相对较少，文本擦除效率较高。就是说，该扩充方式得到的9个候选文本区域，同时兼顾了擦除准确性和擦除效率。

此处的第一文本区域的宽度所在的方向，可以与第一文本区域中文本所在的行的方向平行，此处的第一文本区域的高度所在的方向，与第一文本区域的宽度所在的方向垂直。该第一文本区域在其第一方向上的第一尺寸，即为该第一文本区域的高度，第一文本区域在前述第二方向上的第二尺寸，即为该第一文本区域的宽度。

就是说，将该第一文本区域，在该第一图像中前述的第一文本区域的高度方向的两侧上，分别均向外扩充0.015倍的该第一文本区域的高度、0.025倍的该第一文本区域的高度、0.035倍的该第一文本区域的高度，在该第一图像中的第一文本区域的宽的两侧上，分别均向外扩充0.005倍的该第一文本区域的宽度、0.01倍的该第一文本区域的宽度、0.015倍的该第一文本区域的宽度，进而在高度方向的两侧上均向外扩充3个尺寸，在宽度方向的两侧上也均向外扩充3个尺寸，两者组合就是3×3＝9个候选文本区域。

例如，第一文本区域的高度为h，第一文本区域的宽度为w，第一文本区域的中心，在第一图像中的坐标为(x，y)，x所在的方向为宽度w所在的方向，y所在的方向为高度h所在的方向，第一文本区域可以由(x，y，w，h)来定义其大小和在第一图像中的位置。则，将第一文本区域，在第一图像中第一文本区域的高度方向的两侧上，如上侧和下侧分别均向外扩充0.015倍的该第一文本区域的高度，则，扩充后得到的候选文本区域的高度即为：h+0.015h×2＝1.03h。将第一文本区域，在第一图像中第一文本区域的高度方向的两侧上，如上侧和下侧分别均向外扩充0.025倍的该第一文本区域的高度，则，扩充后得到的候选文本区域的高度即为：h+0.025h×2＝1.05h。将第一文本区域，在第一图像中第一文本区域的高度方向的两侧上，如上侧和下侧分别均向外扩充0.035倍的该第一文本区域的高度，则，扩充后得到的候选文本区域的高度即为：h+0.035h×2＝1.07h。将第一文本区域，在第一图像中第一文本区域的宽度方向的两侧上，如左侧和右侧分别均向外扩充0.005倍的该第一文本区域的宽度，则，扩充后得到的候选文本区域的宽度即为：w+0.005w×2＝1.01w。将第一文本区域，在第一图像中第一文本区域的宽度方向的两侧上，如左侧和右侧分别均向外扩充0.01倍的该第一文本区域的宽度，则，扩充后得到的候选文本区域的宽度即为：w+0.01w×2＝1.02w。将第一文本区域，在第一图像中第一文本区域的宽度方向的两侧上，如左侧和右侧分别均向外扩充0.015倍的该第一文本区域的宽度，则，扩充后得到的候选文本区域的宽度即为：w+0.015w×2＝1.03w。将高度方向上的三种扩充方式和宽度方向上的三种方式进行组合，则，得到的9个候选文本区域的尺寸为：(1.01w，1.03h)、(1.01w，1.05h)、(1.01w，1.07h)、(1.02w，1.03h)、(1.02w，1.05h)、(1.02w，1.07h)、(1.03w，1.03h)、(1.03w，1.05h)、(1.03w，1.07h)，这9种尺寸中，前一个为该候选文本区域的宽度，后一个为该候选文本区域的高度。

第一文本区域的尺寸为(w，h)，则就是获取前述9个候选文本区域的区域框选文本置信度，并获取第一文本区域的区域框选文本置信度，然后将前述一共10个文本区域中，区域框选文本置信度最高的文本区域，确定为目标文本区域，然后将第一图像中，该目标文本区域擦除掉，形成的候选文本区域对于边缘像素的覆盖的可能性进一步增大，进而确定的目标文本区域，对于边缘像素的覆盖的可能性也进一步增大，因此，对文本区域的擦除更为彻底和准确。

可选的，前述步骤103可以包括：步骤203和步骤204。

步骤203、获取所述第一文本区域的OCR，对应的第一OCR置信度，并将所述第一OCR置信度，确定为所述第一文本区域对应的区域框选文本置信度。

步骤204、分别获取各个所述候选文本区域的OCR，对应的各个第二OCR置信度，并将各个所述第二OCR置信度，分别确定为各个所述候选文本区域对应的区域框选文本置信度。

第一文本区域的OCR，对应的第一OCR置信度，具体是指采用OCR识别第一文本区域的字符或文本，所得的结果的准确程度或可靠程度。第一文本区域正好框住文本像素的准确程度，与该文本区域内的文本识别的准确程度或可靠程度息息相关，或者说，第一文本区域正好框住文本像素的准确程度，与该文本区域内的文本识别的准确程度或可靠程度正相关，可以用第一文本区域的OCR，对应的第一OCR置信度，替代第一文本区域正好框住文本像素的准确程度。第一文本区域的OCR，对应的第一OCR置信度的获取，相对区域框选文本置信度的获取简单，可以大大降低获取第一文本区域对应的区域框选文本置信度的复杂度。

可选的，作为另一种示例，前述步骤203可以是，将第一文本区域对应的子图像输入到预先训练好的OCR卷积神经网络中，得到多组输出结果。每一组的输出结果均包括：逻辑回归矩阵和字符识别结果。获取每组输出结果中的相同的字符识别结果。将与该相同的字符识别，在同一组输出结果的逻辑回归矩阵，进行归一化处理，得到相同的字符识别结果中各个字符对应的各个概率值，将各个概率值中最小的概率值确定为该第一文本区域的OCR，对应的第一OCR置信度。该第一文本区域的OCR，对应的第一OCR置信度，能够准确反映第一文本区域正好框住文本像素的准确程度。

对于第一文本区域的OCR，对应的第一OCR置信度的具体获取方式不作具体限定。

各个候选文本区域的OCR，对应的各个第二OCR置信度，具体是指采用OCR识别各个候选文本区域的字符或文本，所得的结果的准确程度或可靠程度。候选文本区域正好框住文本像素的准确程度，与该文本区域内的文本识别的准确程度或可靠程度息息相关，或者说，候选文本区域正好框住文本像素的准确程度，与该候选文本区域内的文本识别的准确程度或可靠程度正相关，可以用候选文本区域的OCR，对应的第一OCR置信度，替代该候选文本区域正好框住文本像素的准确程度。该候选文本区域的OCR，对应的第二OCR置信度的获取，相对区域框选文本置信度的获取简单，可以大大降低获取各个候选文本区域对应的区域框选文本置信度的复杂度。候选文本区域的OCR，对应的第二OCR置信度的获取，与前述第一文本区域的OCR，对应的第一OCR置信度的获取类似。例如，针对一个候选文本区域，可以是，将该候选文本区域对应的子图像输入到预先训练好的OCR卷积神经网络中，得到多组输出结果。每一组的输出结果均包括：逻辑回归矩阵和字符识别结果。获取每组输出结果中相同的字符识别结果。将与该相同的字符识别，在同一组输出结果的逻辑回归矩阵，进行归一化有效逻辑回归矩阵，得到相同的字符识别结果中各个字符对应的各个概率值，将各个概率值中最小的概率值确定为该候选文本区域的OCR，对应的第二OCR置信度。该候选文本区域的OCR，对应的第二OCR置信度，能够准确反映该候选文本区域正好框住文本像素的准确程度。

对于候选文本区域的OCR，对应的第二OCR置信度的具体获取方式不作具体限定。

需要说明的是，对于第一文本区域的OCR，对应的第一OCR置信度的获取方式、和对于候选文本区域的OCR，对应的第二OCR置信度的获取方式，两个获取方式相同。

可选的，前述步骤105之前，该方法还可以包括：

步骤205、生成所述第一图像对应的文本掩码图像；所述文本掩码图像的尺寸，与所述第一图像的尺寸相等；所述文本掩码图像包括与所述目标文本区域对应的第二文本区域；所述第二文本区域的尺寸与所述目标文本区域的尺寸相等，且所述第二文本区域在所述文本掩码图像中的位置，与所述目标文本区域在所述第一图像中的位置对应相同。

就是生成一个和第一图像尺寸相等的文本掩码图像，且在文本掩码图像中，具有与目标文本区域对应的第二文本区域，该第二文本区域在文本掩码图像中的位置，和第二文本区域的尺寸，与目标文本区域在第一图像中的位置和目标文本区域的尺寸对应相同，该第二文本区域的像素，包括目标文本区域对应的全部像素，第二文本区域的尺寸，等于目标文本区域的尺寸，该方式可以便捷得到第一图像对应的文本掩码图像。该文本掩码图像的作用，主要在于区分第一图像中的目标文本区域和其他区域。

可选的，前述步骤205可以包括：生成尺寸与该第一图像的尺寸相等的第二图像，该第二图像包括：与该第一文本区域对应的第三文本区域；该第三文本区域的尺寸与该目标文本区域的尺寸相等，且该第三文本区域在该第二图像中的位置，与该目标文本区域在该第一图像中的位置对应相同，可以将第二图像中第三文本区域的像素值，均设置为第一预设像素值，将第二图像中除了第三文本区域之外的其余区域的像素值，均设置为第二预设像素值，以得到该文本掩码图像，该文本掩码图像的获取方式简单易行。此处的第一预设像素值和第二预设像素值不同即可，对于具体的数值不作限定。

例如，可以将文本掩码图像中第二文本区域的像素值均为255，文本掩码图像中除了第二文本区域之外的其余区域的像素值，均为0。

可选的，前述步骤105可以包括：步骤206，将前述文本掩码图像和前述第一图像，输入预设的文本擦除模型，以对该第一图像中的目标文本区域进行擦除。文本擦除模型是提起训练好的，有较高的准确度，因此基于文本擦除模型可以获得相对较好的文本擦除效果，且该文本擦除模型训练好之后，能够适用于所有图像中的文本擦除，适用范围广，可以是适当降低文本擦除成本。该预设的文本擦除模型可以包括：全卷积网络等。

可选的，前述步骤206可以包括：步骤2061、步骤2062、步骤2063、步骤2064和步骤2065。

步骤2061、将所述文本掩码图像和所述第一图像，输入所述预设的文本擦除模型，所述预设的文本擦除模型，将所述文本掩码图像中的所述第二文本区域，覆盖在所述第一图像中的所述目标文本区域上，得到覆盖图像。

覆盖图像包括了第一图像中除了目标文本区域之外的部分，第一图像中目标文本区域由文本掩码图像中的第二文本区域填充。

步骤2062、所述预设的文本擦除模型对所述覆盖图像进行下采样，得到下采样特征图。

具体的，该预设的文本擦除模型可以包括：下采样层，先通过下采样层对覆盖图像进行下采样，主要是对覆盖图像中除了与目标文本区域对应的其他区域，进行下采样，以得到下采样特征图。

步骤2063、所述预设的文本擦除模型，对所述下采样特征图进行至少一次快速傅里叶卷积，得到卷积特征图。

预设的文本擦除模型可以包括：快速傅里叶卷积FFC残差块，经过至少一个快速傅里叶卷积FFC残差块，对下采样特征图进行至少一次快速傅里叶卷积，得到卷积特征图。使用快速傅里叶卷积，具有图像宽度收域，高感受野感受损失，下采样特征图中包括覆盖图像中，除了目标文本区域之外的其他区域的全局关键特征，和局部关键特征，全局关键特征保留覆盖图像中除了目标文本区域之外的其他区域的全局视觉信息，局部关键特征体现覆盖图像中除了目标文本区域之外的其他区域更细粒度的视觉信息。在每一次快速傅里叶卷积时，将与空间域中的卷积一起处理局部特征，并在频域中使用傅里叶卷积来分析全局特征，从而保障后续可以修复出高分辨率、高质量的上采样特征图。

步骤2064、所述预设的文本擦除模型，对所述卷积特征图进行上采样，得到上采样特征图。

预设的文本擦除模型可以包括：上采样层。通过上采样层对卷积特征图进行上采样，以得到上采样特征图，该上采样特征图主要是第一图像中，与目标文本区域对应的区域的修复子图。

步骤2065、所述预设的文本擦除模型，用所述上采样特征图中与所述目标文本区域对应的区域，替换所述第一图像中的目标文本区域，以对所述第一图像中的所述目标文本区域进行擦除。

用该上采样特征图替换该第一图像中的目标文本区域，进而得到目标文本区域擦除后的第一图像。

例如，该预设的文本擦除模型可以为：LaMa(Large Mask Inpainting，大型掩码图像修复)模型等。

图2为本发明实施例中的一种文本擦除方法的流程示意图，如图2所示，就是采用OCR，获取所述第一图像中的第一文本区域，对该第一图像中的第一文本区域进行至少一次扩充，得到该第一文本区域对应的至少一个候选文本区域，获取第一文本区域的OCR，对应的第一OCR置信度，并将第一OCR置信度，确定为第一文本区域对应的区域框选文本置信度，分别获取各个候选文本区域的OCR，对应的各个第二OCR置信度，并将各个第二OCR置信度，分别确定为各个候选文本区域对应的区域框选文本置信度，然后将第一文本区域和各个候选文本区域中，区域框选文本置信度最高的文本区域，确定为目标文本区域，接着生成文本掩码图像，将该第一图像和该文本掩码图像输入LaMa模型，得到将第一图像中第一文本区域擦除后的擦除图像。

可选的，前述第一图像为第一视频中的至少一帧图像。该第一文本区域包括第一视频的台词。前述方法还可以包括：基于文本擦除后的各个第一图像，重新合成第二视频。在重新合成的过程中，没有进行擦除的图像继续保留，用文本擦除后的第一图像，替换文本擦除前的第一图像。此处的第一文本区域可以包含第一图像中的全部文本，重新合成的第二视频中，没有台词，减少了台词的遮挡，可以提升视频的观影舒适度和观赏性，而且还可以利于视频的复播等。台词对应的文本区域通常为长条形，采用前述的方式进行扩充，能够提升将边缘像素框选进去的概率，可以进一步提升擦除准确性。

需要说明的是，重新合成第二视频可以采用视频合成工具，例如，FFmpeg(FastForward Moving Picture Expert Group)等。对于重新合成第二视频的方式等不作具体限定。

图3为本发明实施例中的一种文本擦除装置的结构示意图。本发明实施例还提供一种文本擦除装置，参照图3所示，该装置可以包括：

第一文本区域获取模块301，用于获取第一图像中的第一文本区域；

候选文本区域获取模块302，用于获取所述第一文本区域对应的至少一个候选文本区域；各个所述候选文本区域，均包含所述第一文本区域中的至少部分像素；

置信度获取模块303，用于获取所述第一文本区域和各个所述候选文本区域，分别对应的区域框选文本置信度；所述区域框选文本置信度，用于表征所述文本区域，框住文本像素的准确程度；

目标文本区域确定模块304，用于将所述第一文本区域和各个所述候选文本区域中，区域框选文本置信度最高的文本区域，确定为目标文本区域；

擦除模块305，用于对所述第一图像中的所述目标文本区域，进行擦除。

可选的，所述候选文本区域获取模块302，包括：

候选文本区域获取子模块，用于对所述第一图像中的第一文本区域进行至少一次扩充，得到所述第一文本区域对应的至少一个候选文本区域；所述候选文本区域的像素，包括所述第一文本区域中的全部像素，且所述候选文本区域的尺寸，大于所述第一文本区域的尺寸。

可选的，所述第一文本区域获取模块301，包括：

第一文本区域获取子模块，用于采用OCR，获取所述第一图像中的第一文本区域；

所述置信度获取模块303，包括：

第一文本区域的置信度获取子模块，用于获取所述第一文本区域的OCR，对应的第一OCR置信度，并将所述第一OCR置信度，确定为所述第一文本区域对应的区域框选文本置信度；

候选文本区域的置信度获取子模块，用于分别获取各个所述候选文本区域的OCR，对应的各个第二OCR置信度，并将各个所述第二OCR置信度，分别确定为各个所述候选文本区域对应的区域框选文本置信度。

可选的，所述第一文本区域的置信度获取子模块，包括：

输出结果获取单元，用于将所述第一文本区域对应的子图像，输入预设的OCR卷积神经网络中，得到多组输出结果；每组所述输出结果包括：逻辑回归矩阵和字符识别结果；

相同的字符识别结果获取单元，用于获取所述多组输出结果所包含的多个字符识别结果中，相同的字符识别结果；

归一化单元，用于将与所述相同的字符识别结果，在同一组输出结果的逻辑回归矩阵，进行归一化处理，得到所述相同的字符识别结果中各个字符对应的各个概率值；

第一OCR置信度确定单元，用于将各个所述概率值中最小的概率值，确定为所述第一文本区域的OCR，对应的第一OCR置信度。

可选的，所述候选文本区域获取子模块，包括：

候选文本区域获取单元，用于将所述第一文本区域，在所述第一图像中相互垂直的第一方向和第二方向上，分别向外扩充预设距离，以得到所述第一文本区域对应的至少一个候选文本区域。

可选的，所述候选文本区域获取单元，包括：

候选文本区域获取子单元，用于将所述第一文本区域，在所述第一图像中所述第一方向的两侧上，分别均向外扩充3个第一预设距离，在所述第一图像中所述第二方向的两侧上，分别均向外扩充3个第二预设距离，得到所述第一文本区域对应的9个候选文本区域；所述第一方向为所述第一文本区域的高度所在的方向；所述第二方向为所述第一文本区域的宽度所在的方向。

可选的，所述3个第一预设距离包括：0.015倍的所述第一文本区域在所述第一方向上的第一尺寸、0.025倍的所述第一尺寸、0.035倍的所述第一尺寸；所述3个第二预设距离包括：0.005倍的所述第一文本区域在所述第二方向上的第二尺寸、0.01倍的所述第二尺寸、0.015倍的所述第二尺寸。

可选的，所述区域框选文本置信度，与所述文本区域中除了文本像素之外的其他像素的数量成反比；和/或，所述区域框选文本置信度，与所述文本区域漏框的文本像素的数量成反比。

可选的，所述第一图像为第一视频中的至少一帧图像；所述第一文本区域包括所述第一视频的台词；所述装置还包括：

合成模块，用于基于文本擦除后的各个第一图像，重新合成第二视频。

可选的，所述装置还包括：

文本掩码图像生成模块，用于生成所述第一图像对应的文本掩码图像；所述文本掩码图像的尺寸，与所述第一图像的尺寸相等；所述文本掩码图像包括与所述目标文本区域对应的第二文本区域；所述第二文本区域的尺寸与所述目标文本区域的尺寸相等，且所述第二文本区域在所述文本掩码图像中的位置，与所述目标文本区域在所述第一图像中的位置对应相同；

所述擦除模块305，包括：

擦除子模块，用于将所述文本掩码图像和所述第一图像，输入预设的文本擦除模型，以对所述第一图像中的所述目标文本区域进行擦除。

所述擦除子模块，包括：

覆盖图像获取单元，用于将所述文本掩码图像和所述第一图像，输入所述预设的文本擦除模型，所述预设的文本擦除模型，将所述文本掩码图像中的所述第二文本区域，覆盖在所述第一图像中的所述目标文本区域上，得到覆盖图像；

下采样单元，用于所述预设的文本擦除模型对所述覆盖图像进行下采样，得到下采样特征图；

卷积单元，用于所述预设的文本擦除模型，对所述下采样特征图进行至少一次快速傅里叶卷积，得到卷积特征图；

上采样单元，用于所述预设的文本擦除模型，对所述卷积特征图进行上采样，得到上采样特征图；

擦除单元，用于所述预设的文本擦除模型，用所述上采样特征图中与所述目标文本区域对应的区域，替换所述第一图像中的目标文本区域，以对所述第一图像中的所述目标文本区域进行擦除。

可选的，所述文本掩码图像生成模块，包括：

第二图像生成子模块，用于生成尺寸与所述第一图像的尺寸相等的第二图像；所述第二图像包括：与所述第一文本区域对应的第三文本区域；所述第三文本区域的尺寸与所述目标文本区域的尺寸相等，且所述第三文本区域在所述第二图像中的位置，与所述目标文本区域在所述第一图像中的位置对应相同；

文本掩码图像生成子模块，用于将所述第二图像中，所述第三文本区域内的所有像素的像素值，均设置为第一预设像素值，将所述第二图像中，除了所述第三文本区域之外的其余区域的所有像素的像素值，均设置为第二预设像素值，得到所述文本掩码图像；所述第一预设像素值与所述第二预设像素值不同。

需要说明的是，对于文本擦除装置可以参照前述的文本擦除方法中的相关记载，且能达到相同或相似的有益效果，为了避免重复，此处不再赘述。

本发明实施例还提供了一种电子设备，图4为本发明实施例中的一种电子设备的示意图。如图4所示，包括处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信，

存储器403，用于存放计算机程序；

处理器401，用于执行存储器403上所存放的程序时，实现如下步骤：

获取第一图像中的第一文本区域；

对所述第一图像中的所述目标文本区域，进行擦除。

可选的，所述获取所述第一文本区域对应的至少一个候选文本区域，包括：

对所述第一图像中的第一文本区域进行至少一次扩充，得到所述第一文本区域对应的至少一个候选文本区域；所述候选文本区域的像素，包括所述第一文本区域中的全部像素，且所述候选文本区域的尺寸，大于所述第一文本区域的尺寸。

可选的，所述获取第一图像中的第一文本区域，包括：

采用OCR，获取所述第一图像中的第一文本区域；

所述获取所述第一文本区域和各个所述候选文本区域，分别对应的区域框选文本置信度，包括：

获取所述第一文本区域的OCR，对应的第一OCR置信度，并将所述第一OCR置信度，确定为所述第一文本区域对应的区域框选文本置信度；

分别获取各个所述候选文本区域的OCR，对应的各个第二OCR置信度，并将各个所述第二OCR置信度，分别确定为各个所述候选文本区域对应的区域框选文本置信度。

可选的，所述获取所述第一文本区域的OCR，对应的第一OCR置信度，包括：

将所述第一文本区域对应的子图像，输入预设的OCR卷积神经网络中，得到多组输出结果；每组所述输出结果包括：逻辑回归矩阵和字符识别结果；

获取所述多组输出结果所包含的多个字符识别结果中，相同的字符识别结果；

将与所述相同的字符识别结果，在同一组输出结果的逻辑回归矩阵，进行归一化处理，得到所述相同的字符识别结果中各个字符对应的各个概率值；

将各个所述概率值中最小的概率值，确定为所述第一文本区域的OCR，对应的第一OCR置信度。

可选的，所述对所述第一图像中的第一文本区域进行至少一次扩充，得到所述第一文本区域对应的至少一个候选文本区域，包括：

将所述第一文本区域，在所述第一图像中相互垂直的第一方向和第二方向上，分别向外扩充预设距离，以得到所述第一文本区域对应的至少一个候选文本区域。

可选的，所述将所述第一文本区域，在所述第一图像中相互垂直的第一方向和第二方向上，分别向外扩充预设距离，以得到所述第一文本区域对应的至少一个候选文本区域，包括：

将所述第一文本区域，在所述第一图像中所述第一方向的两侧上，分别均向外扩充3个第一预设距离，在所述第一图像中所述第二方向的两侧上，分别均向外扩充3个第二预设距离，得到所述第一文本区域对应的9个候选文本区域；所述第一方向为所述第一文本区域的高度所在的方向；所述第二方向为所述第一文本区域的宽度所在的方向。

可选的，所述第一图像为第一视频中的至少一帧图像；所述第一文本区域包括所述第一视频的台词；所述方法还包括：

基于文本擦除后的各个第一图像，重新合成第二视频。

可选的，所述对所述第一图像中的所述目标文本区域，进行擦除之前，所述方法还包括：

生成所述第一图像对应的文本掩码图像；所述文本掩码图像的尺寸，与所述第一图像的尺寸相等；所述文本掩码图像包括与所述目标文本区域对应的第二文本区域；所述第二文本区域的尺寸与所述目标文本区域的尺寸相等，且所述第二文本区域在所述文本掩码图像中的位置，与所述目标文本区域在所述第一图像中的位置对应相同；

所述对所述第一图像中的所述目标文本区域，进行擦除，包括：

将所述文本掩码图像和所述第一图像，输入预设的文本擦除模型，以对所述第一图像中的所述目标文本区域进行擦除。

可选的，所述将所述文本掩码图像和所述第一图像，输入预设的文本擦除模型，以对所述第一图像中的所述目标文本区域进行擦除，包括：

将所述文本掩码图像和所述第一图像，输入所述预设的文本擦除模型，所述预设的文本擦除模型，将所述文本掩码图像中的所述第二文本区域，覆盖在所述第一图像中的所述目标文本区域上，得到覆盖图像；

所述预设的文本擦除模型对所述覆盖图像进行下采样，得到下采样特征图；

所述预设的文本擦除模型，对所述下采样特征图进行至少一次快速傅里叶卷积，得到卷积特征图；

所述预设的文本擦除模型，对所述卷积特征图进行上采样，得到上采样特征图；

所述预设的文本擦除模型，用所述上采样特征图中与所述目标文本区域对应的区域，替换所述第一图像中的目标文本区域，以对所述第一图像中的所述目标文本区域进行擦除。

可选的，所述生成所述第一图像对应的文本掩码图像，包括：

生成尺寸与所述第一图像的尺寸相等的第二图像；所述第二图像包括：与所述第一文本区域对应的第三文本区域；所述第三文本区域的尺寸与所述目标文本区域的尺寸相等，且所述第三文本区域在所述第二图像中的位置，与所述目标文本区域在所述第一图像中的位置对应相同；

将所述第二图像中，所述第三文本区域内的所有像素的像素值，均设置为第一预设像素值，将所述第二图像中，除了所述第三文本区域之外的其余区域的所有像素的像素值，均设置为第二预设像素值，得到所述文本掩码图像；所述第一预设像素值与所述第二预设像素值不同。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文本擦除方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的文本擦除方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种文本擦除方法，其特征在于，所述方法包括：

获取第一图像中的第一文本区域；

对所述第一图像中的所述目标文本区域，进行擦除。

2.根据权利要求1所述的方法，其特征在于，所述获取所述第一文本区域对应的至少一个候选文本区域，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取第一图像中的第一文本区域，包括：

采用OCR，获取所述第一图像中的第一文本区域；

4.根据权利要求3所述的方法，其特征在于，所述获取所述第一文本区域的OCR，对应的第一OCR置信度，包括：

5.根据权利要求2所述的方法，其特征在于，所述对所述第一图像中的第一文本区域进行至少一次扩充，得到所述第一文本区域对应的至少一个候选文本区域，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述第一文本区域，在所述第一图像中相互垂直的第一方向和第二方向上，分别向外扩充预设距离，以得到所述第一文本区域对应的至少一个候选文本区域，包括：

7.根据权利要求6所述的方法，其特征在于，所述3个第一预设距离包括：0.015倍的所述第一文本区域在所述第一方向上的第一尺寸、0.025倍的所述第一尺寸、0.035倍的所述第一尺寸；所述3个第二预设距离包括：0.005倍的所述第一文本区域在所述第二方向上的第二尺寸、0.01倍的所述第二尺寸、0.015倍的所述第二尺寸。

8.根据权利要求1所述的方法，其特征在于，所述区域框选文本置信度，与所述文本区域中除了文本像素之外的其他像素的数量成反比；和/或，所述区域框选文本置信度，与所述文本区域漏框的文本像素的数量成反比。

9.根据权利要求1至8中任一所述的方法，其特征在于，所述第一图像为第一视频中的至少一帧图像；所述第一文本区域包括所述第一视频的台词；所述方法还包括：

基于文本擦除后的各个第一图像，重新合成第二视频。

10.根据权利要求1至8中任一所述的方法，其特征在于，所述对所述第一图像中的所述目标文本区域，进行擦除之前，所述方法还包括：

11.根据权利要求10所述的方法，其特征在于，所述将所述文本掩码图像和所述第一图像，输入预设的文本擦除模型，以对所述第一图像中的所述目标文本区域进行擦除，包括：

12.根据权利要求10所述的方法，其特征在于，所述生成所述第一图像对应的文本掩码图像，包括：

13.一种文本擦除装置，其特征在于，所述装置包括：

14.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-12中任一所述的方法步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-12中任一所述的方法。