CN112183294A

CN112183294A - 文本消除方法、装置、电子设备及存储介质

Info

Publication number: CN112183294A
Application number: CN202011009645.3A
Authority: CN
Inventors: 华路延
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2021-01-05

Abstract

本发明提供的文本消除方法、装置、电子设备及存储介质，该文本消除方法包括：获取待处理图像；该待处理图像中具有特征区域且该特征区域用于指示对特征区域进行消除处理；该特征区域与待处理图像中的待处理文本的区域匹配；将待处理图像输入预设的区域消除模型中，以使该预设的区域消除模型对特征区域进行消除处理后，输出目标图像；该目标图像中不包含上述待处理文本，本发明能够通过区域消除模型对待处理图像中的特征区域进行消除处理，能提高文本消除处理的准确度和处理效率。

Description

文本消除方法、装置、电子设备及存储介质

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种文本消除方法、装置、电子设备及存储介质。

背景技术

随着电子设备的快速发展，电子设备的功能逐渐完善，人们常使用电子设备获取信息、存储信息和观看视频等。电子设备在播放视频时，在显示视频图像的同时，还可以显示字幕信息，其中包括与视频内容相关的字幕信息以及视频水印信息，以便用户掌握视频相关信息。

在观看或者使用一些视频时，有相当一部分观众出于不同的原因并不希望在视频中看到字幕或者是视频水印，因此，针对这部分群体就有去除视频中的各种文本信息的需要。传统的字幕遮挡方案速度慢，效果差，去除水印的方法大部分也需要人工提前获取水印信息及轮廓。

发明内容

有鉴于此，本发明提供一种文本消除方法、装置、电子设备及存储介质，用以提高文本消除的准确度和消除效率。为了实现上述有益效果，本发明技术方案如下：

第一方面，本发明提供一种文本消除方法，所述方法包括：获取待处理图像；所述待处理图像中具有特征区域；所述特征区域用于指示对所述特征区域进行消除处理；所述特征区域与待处理图像中的待处理文本的区域匹配；将所述待处理图像输入预设的区域消除模型中，以使所述预设的区域消除模型对所述特征区域进行消除处理后，输出目标图像；所述目标图像中不包含所述待处理文本。

可选地，所述获取待处理图像，包括：获取目标帧的视频图像的目标文本坐标；所述目标帧的视频图像中具有所述待处理文本；在所述目标帧的视频图像中与所述目标文本坐标匹配的区域添加标记信息，生成所述待处理图像；所述标记信息用于指示该区域为所述特征区域。

可选地，所述获取目标帧的视频图像的目标文本坐标，包括：获取所述目标帧的视频图像提取的文本坐标以及与所述目标帧的视频图像的视频帧相邻的至少一个历史帧视频图像的历史文本坐标；所述历史文本坐标与待处理文本的区域匹配；当所述目标帧的视频图像中提取的文本坐标与所述历史文本坐标的误差在阈值范围内，将所述历史文本坐标作为所述目标文本坐标；当所述目标帧的视频图像中提取的文本坐标与所述历史文本坐标的误差不在阈值范围内，将所述目标帧的视频图像中提取的文本坐标作为目标文本坐标。

可选地，在所述获取所述目标帧的视频图像的目标文本坐标之前，所述方法还包括：通过文本识别网络获取待处理视频的文本坐标集；所述文本坐标集中包含所述目标帧的视频图像提取的文本坐标和所述历史帧视频图像的文本坐标。

可选地，在所述获取待处理图像之前，所述方法还包括：接收用户操作指令；所述用户操作指令用于指示获取所述待处理图像。

可选地，在获取待处理图像之前，所述方法还包括：获取所述预设的区域消除模型；所述区域消除模型是由预设数量的样本图像训练获得；所述样本图像中具有特征区域；所述特征区域用于指示所述区域消除模型对所述特征区域进行消除处理；所述特征区域具有以下特征信息：颜色格式、尺寸大小和排版角度；

可选地，所述方法还包括：将所述待处理图像输入预设的区域消除模型中，以使所述区域消除模型根据目标像素值对所述特征区域内的像素值进行替换，获得所述目标图像；所述目标像素值为所述特征区域外的区域中与所述特征区域内的像素点邻近的像素点对应的像素值。

可选地，所述方法还包括：将所述待处理图像输入预设的区域消除模型中，以使所述区域消除模型对所述特征区域进行切割处理，获得所述目标图像。

第二方面，本发明提供一种文本消除装置，包括：获取模块，用于获取待处理图像；所述待处理图像中具有特征区域；所述特征区域用于指示对所述特征区域进行消除处理；所述特征区域与待处理图像中的待处理文本的区域匹配；消除模块，用于将所述待处理图像输入预设的区域消除模型中，以使所述预设的区域消除模型对所述特征区域进行消除处理后，输出目标图像；所述目标图像中不包含所述待处理文本。

第三方面，本发明提供一种电子设备，所述电子设备包括机器可读存储介质及处理器，所述机器可读存储介质存储有机器可执行指令，所述处理器在执行所述机器可执行指令时，该电子设备实现第一方面所述的文本消除方法。

第四方面，本发明提供一种存储介质，所述存储介质中存储有机器可执行指令，所述机器可执行指令被执行时实现第一方面所述的文本消除方法。

本发明提供的文本消除方法、装置、电子设备及存储介质，该文本消除方法包括：获取待处理图像；所述待处理图像中具有特征区域；所述特征区域用于指示对所述特征区域进行消除处理；所述特征区域与待处理图像中的待处理文本的区域匹配；将所述待处理图像输入预设的区域消除模型中，以使所述预设的区域消除模型对所述特征区域进行消除处理后，输出目标图像；所述目标图像中不包含所述待处理文本。本发明通过区域消除模型对待处理图像进行文本消除，由于该区域消除模型在训练的过程中能够识别特征区域并基于特征区域的指示对特征区域内的内容进行消除处理，所以利用区域消除模型能够实现文本消除的功能，整个过程不需要通过人工方式确定为文本位置或轮廓，不仅能提高消除处理的准确度，还能提高处理效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种区域消除模型训练方法；

图2为一种Unet网络的结构示意图；

图3为本发明实施例提供的一种文本消除效果图；

图4为本发明实施例的步骤S101的一种实现方式的示意性流程图；

图5为本发明实施例提供的一种获得训练样本图像的示意图；

图6为本发明实施例提供的一种文本消除方法的示意性流程图；

图7为本发明实施例提供的S603的一种实施方式的示意性流程图；

图8为本发明实施例提供的步骤S603-1的一种实现方式的示意性流程图；

图9为本发明实施例提供的另一种文本消除方法的示意性流程图；

图10为本发明实施例提供的另一种文本处理方法的示意性流程图；

图11为本发明实施例提供的一种电子设备的功能显示界面示意图；

图12为本发明实施例提供的另一种电子设备的功能显示界面示意图；

图13为本发明实施例提供的一种文本消除装置的功能模块图；

图14为本发明实施例提电子设备结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。

目前，现在大多网络视频都会带有视频制作者或者是广告者的水印以防“盗版”，同时，为了方便用户了解视频内容，还会为视频添加字幕信息，但在在观看或者使用一些视频时，有相当一部分观众出于不同的原因并不希望在视频中看到字幕或者是视频水印，因此，针对这部分有去除视频中的字幕信息或者水印信息的群体，相关技术会对视频进行字幕或者水印消除，但目前的字幕或者水印消除方案速度慢，准确度和效率低，原因是现有方案往往通过人工的方法标记字幕区域或者水印轮廓，确定了字幕或者水印所在位置后开始进行消除处理，很显然，这种通过人工方式标记字幕或者水印的位置往往存在误差，导致确定的消除区域准确度低，同时人工处理的方式速度慢，进而导致消除速度慢，效率低。

因此，为了解决上述技术问题，发明人进过一系列的研究，提出一种利用区域消除模型来去除视频中的字幕或者水印，即将待处理的视频图像(包含待消除文本或者水印)输入到区域消除模型后，模型就可以输出消除了文本信息的图像。

为了实现上述消除效果，在研究过程中，发明人提出了一种文本消除方法，该方法是通过预先训练好的区域消除模型来实现文本消除的目的，该区域消除模型能够准确识别出待处理图像中待消除区域，并对该区域以及该区域内的内容进行消除处理，利用预先训练的区域消除模型即可对待处理的视频的每一帧图像进行字幕或者水印消除处理。整个过程不需要人工确定字幕或者水印的位置，而是通过区域消除模型完成消除处理，不仅能提高消除处理的准确度，还能提高处理效率。

由上述可知，本发明实施例的文本消除方法是基于预先训练好的区域消除模型来实现文本消除的效果，因此，下面结合图1至图5来描述本发明实施例中的预先获得上述区域消除模型的实现方式。

首先参见图1，图1为本发明实施例提供的一种区域消除模型训练方法，该区域消除模型训练方法可以由区域消除模型训练装置执行，相应的，该区域消除模型训练装置可以设置于电子设备中。该区域消除模型训练方法可以包括以下过程：

S101、获取预设数量的训练样本图像。

在本发明实施例中，每张训练样本图像中包含特征区域；该特征区域可以但不限于为任意颜色格式和任意尺寸大小的矩形区域。该特征区域用于指示对该特征区域进行消除处理，利用本发明实施例中训练样本图像进行模型训练，可以预见的是，最后获得的模型对于具有特征区域的图像即可执行消除处理，其中包括对特征区域内的内容(可以为字幕或者水印等文本内容)进行消除处理。

S102、将训练样本图像输入识别网络中进行训练。

在实际的实施过程中，该识别网络可以是全卷积网络FCN(Fully ConvolutionalNetwork，FCN)、U型网络Unet(Unity net，Unet)等具有特征分割功能的网络模型，本发明实施例采用的是Unet网络，在构建Unet网络的过程中，发明人经研究发现，通过构建7*7的Unet网络并结合本发明实施例的训练方法对该7层识别网络进行训练，最终能够得到区域消除模型消除效果理想，网络的拓扑性更强，该Unet网络的结构示意图可以参见图2，图2为一种Unet网络的结构示意图。

如图2所示，其中每个灰框对应一个多通道特征图(map)，其中通道数在框顶标，白色框表示复制的特征图；箭头表示不同的操作。U-net网络由一个收缩路径(左边)和一个扩张路径(右边)组成。其中，收缩路径遵循典型的卷积网络结构，其由两个重复的3*3卷积核(无填充卷积，unpadded convolution)组成，且均使用修正线性单元(rectified linearunit，ReLU)激活函数和一个用于下采样(downsample)的步长为2的2*2最大池化操作，以及在每一个下采样的步骤中，特征通道数量都加倍。在扩张路径中，每一步都包含对特征图进行上采样(upsample)；然后用2*2的卷积核进行卷积运算(上卷积，up-convolution)，用于减少一半的特征通道数量；接着级联收缩路径中相应的裁剪后的特征图；再用两个3*3的卷积核进行卷积运算，且均使用ReLU激活函数。由于在每次卷积操作中，边界像素存在缺失问题，因此有必要对特征图进行裁剪。在最后一层，利用1*1的卷积核进行卷积运算，将每个64维的特征向量映射网络的输出层。总而言之，该网络有23个卷积层。

S103、当识别网络的损失函数的损失值在阈值范围内，则将识别网络作为区域消除模型。

在本发明实施例中，将采用大量的训练步长对识别网络进行训练，每一轮训练结束之后，识别网络输出与每一张训练样本图像对应的处理后的图像，根据输出的图像与训练样本图像之间的误差来计算构建的损失函数(例如L1损失函数)的损失值，当损失值在阈值范围内，例如该阈值范围可以是0.001-s<0.001<0.001+s，其中s可以为一个预设的误差值，此时表明识别网络训练成熟，将此时的识别网络作为区域消除模型。可以预见的是，将包含文本信息的待处理图像输入该区域消除模型处理后，输出的图像中将不再包含该文本信息，此时模型已经完成文本消除处理工作，速度快，效率高。

为了展示本发明实施例中的区域消除模型的文本消除功能，请参见图3，图3为本发明实施例提供的一种文本消除效果图。

如图3所示，图3(a)为一张带有字幕的视频图像，而区域消除模型是对特征区域内的内容进行消除处理，因此，在将该视频图像输入区域消除模型之前，本发明实施例为该视频图像添加特征区域，可想而知，该特征区域与该字幕所在的区域匹配，如图3(b)所示，然后将图3(b)的图像输入到区域消除模型中，区域消除模型就会对该特征区域内的字幕进行消除处理，模型输出的结果如图3(c)所示，可以看出图3(c)中的不存在该字幕，可见该区域消除模型不仅能够完成字幕的消除，还能提高字幕消除的准确度以及效率。

需要说明的是，本发明实施例提供的一种区域消除模型训练方法，该区域消除模型训练方法的执行主体可以是本发明实施例提供的区域消除模型训练装置，或者集成了该区域消除模型训练装置的电子设备，其中区域消除模型训练装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。

本发明实施例提通过上述区域消除模型训练方法获得区域消除模型，该区域消除模型可以对输入进模型的视频图像进行消除处理，整个过程不需要人工确定字幕或者水印的位置，而是通过区域消除模型完成消除处理，不仅能提高消除处理的准确度，还能提高处理效率。

可选地，在模型训练之前，为了能够获得本发明实施例中的训练图像，为了利用该训练样本图像获得的区域识别模型能够具有文本消除功能，本发明实施例还提供了一种获取训练样本图像的实施方式，下面在图1的基础上，给出一种可能的实现方式，参见图4，图4为本发明实施例的步骤S101的一种实现方式的示意性流程图，步骤S101还可以包括以下子步骤：

S101-1、获取预设数量的无文本图像。

在本发明实施例中，上述的无文本图像可以为对各种视频文件的无字幕的视频图像中进行批量裁剪得到的图像，例如动漫，电视剧等。

S101-2、对无文本图像添加特征区域，以获得训练样本图像。

可以理解的是，由于本发明实施例最终获得的区域消除模型需要具备对区域消除的功能，因此，在训练的过程中，识别网络需要对图像中存在的各种形式的特征区域进行识别，本发明实施例中的训练样本图像中可以具有各种特征区域，例如，特征区域可以但不限于是矩形，该特征区域可以具有任意颜色格式和尺寸大小。

在一种可能的实现方式下，为了扩充训练样本图像集，为无文本图像添加特征区域的方式可以为：将特征区域以任意排版角度添加至无文本图像的任意位置，生成训练样本图像，这样就可以获得具有各种特征区域的训练样本图像。

为了方便理解上述获得训练样本图像的过程，请参见图5，图5为本发明实施例提供的一种获得训练样本图像的示意图。

如图5所示，图5(a)可以是从动漫，电视剧等视频文件中批量裁剪出该类视频没有字幕的图像，为了扩充数据集，可以对图5(a)中的图像进行任意尺寸大小的裁剪，获得大量的如图5(b)所示的图像，然后随机生成任意大小和任意颜色的矩形，并以任意排版角度添加到图5(b)的图像中，从而可以获得图5(c)所示的大量的训练样本图像。

可以理解的是，基于上述训练过程可知，训练样本图像中具有特征区域，该特征区域可以指示对区域内的内容进行消除处理，那么该区域内的内容可能是字幕，或者是水印(例如各种文字logo、图形logo、图像logo、广告语的logo等)，因此，上述的区域消除模型可以应用在视频字幕消除或者水印消除。

下面将基于上述获得的区域消除模型，给出本发明实施例提供的一种文本消除的方法的实现方式，请参见图6，图6为本发明实施例提供的一种文本消除方法的示意性流程图，包括：

S603、获取待处理图像。

在本发明实施例中，上述的待处理图像中具有特征区域，该特征区域用于指示对特征区域进行消除处理。该特征区域可以但不限于为任意颜色格式和任意尺寸大小的矩形区域，对特征区域内的进行消除处理可以理解为：对特征区域内包含的水印或者字幕进行消除处理。

可以理解的是，为了能够提高消除处理的准确度，该特征区域与待处理图像中的待处理文本的区域匹配，该待处理文本可以是字幕或者是水印。

S604、将待处理图像输入预设的区域消除模型中，以使该预设的区域消除模型对特征区域进行消除处理后，输出目标图像。

在本发明实施例中，该预设的是通过上述训练方法预先训练好的模型，输出的目标图像中不包含待处理文本。

为了方便展示该文本消除方法的有益效果，请继续参见图3,图3(b)可以理解为待处理图像，其中的特征区域与图3(a)中的字幕所在的区域匹配，将图3(b)的图像输入到预先训练好的区域消除模型中，处理后的待处理图像如图3(c)所示，可以看出图3(c)中的不存在该字幕，可见该区域消除模型不仅能够完成字幕的消除，还能提高字幕消除的准确度以及效率。

本发明实施例提供的一种文本消除方法，通过将获取的待处理图像输入到预设的区域消除模型中，该预设的区域消除模型根据待处理图像中的特征区域的指示，对特征区域内进行消除处理，然后输出目标图像，此时目标图像中已经不存在文本信息。本发明实施例通过预先训练好的区域消除模型能够准确识别出图像中待消除的信息，进而对图像进行文本消除处理，不在需要传统的人工方式来标记待消除区域，因此整个过程不仅能提高消除处理的准确度，还能提高处理效率。

可选地，在一种实施方式中，上述预设的区域消除模型对待处理图像内的特征区域进行消除处理的方式可以是：该区域消除模型可以根据目标像素值对特征区域内的像素值进行替换，获得目标图像；该目标图像中不包含待处理文本，可以理解的是，该目标像素值为特征区域外的区域中与所述特征区域内的像素点邻近的像素点对应的像素值，例如，将特征区域外的区域中与特征区域边界上的像素点距离最小的像素点对应的像素值作为目标像素值，以该目标像素值替换特征区域内所有像素点的像素值，以此实现消除待处理文本的效果，使得获得的目标图像中不包含待处理文本。

可选地，在另一种实施方式中，上述预设的区域消除模型对待处理图像内的特征区域进行消除处理的方式还可以是：将待处理图像输入预设的区域消除模型中，以使区域消除模型对特征区域进行切割处理，获得目标图像，该目标图像中不包含待处理文本，可以理解的是，在进行切割处理后，还可以对切割后的图像区域进行背景像素填充，使得切割区域的文本消除效果更加自然。

可选地，在一个实施例中，从图3所示的待处理图像中可以看出，本发明实施例为了消除视频图像中文本，并不是将获得的原视频图像输入到区域消除模型中，而是先为原视频图像添加特征区域，模型会根据特征区域的指示进行消除处理，因此，在获得待处理图像之前，首先需要准确识别待处理图像中的文本坐标，然后根据文本坐标为图像添加特征区域，因此，下面在图1的基础上，给出一种可能的实现方式，参见图7，图7为本发明实施例提供的S603的一种实施方式的示意性流程图，其中包括：

S603-1、获取目标帧的视频图像的目标文本坐标。

可以理解的是，该目标帧的视频图像可以但不限于是待处理视频的任意一帧视频图像，该目标帧的视频图像中具有待处理文本。

S603-2、在目标帧的视频图像中与目标文本坐标匹配的区域添加标记信息，生成待处理图像；该标记信息用于指示该区域为特征区域。

在实际的实施过程中，获得在目标文本坐标之后，可以在与该目标文本坐标匹配的区域添加标记信息，该标记信息可以但不限于为颜色信息，例如，对该区域的像素颜色设置为红色，那么该红色颜色数据可以看作是标记信息，区域消除模型基于该标记信息识别出待处理文本所在区域，也就是特征区域，进而对该区域进行消除处理。

可选地，在一个实施例中，为了获得理想的文本消除效果，准确对文本所在区域进行文本消除，降低在文本消除过程中出现的闪烁不稳定现象的风险，本发明实施例还给出了一种获取待处理文本的目标文本的实现方式，能够提高目标文本的准确度，减小消除误差，下面在图7的基础上，给出一可能的实现方式，参见图8，图8为本发明实施例提供的步骤S603-1的一种实现方式的示意性流程图，其中S603-1可以包括以下几个子步骤：

S603-1-1、获取目标帧的视频图像中提取的文本坐标以及与目标帧相邻的至少一个历史帧视频图像的历史文本坐标。

在本发明实施例中，上述的历史帧可以是与目标帧相邻的前一帧，该历史帧的视频图像中还未进行上述的文本消除处理，上述的“历史文本坐标”与历史帧的视频图像中的文本所在的区域匹配，可以理解为，历史文本坐标可以用来表征历史帧图像中的文本在图像中的真实位置。

S603-1-2、当目标帧的视频图像中提取的文本坐标与历史文本坐标的误差在阈值范围内，将历史文本坐标作为目标文本坐标。

S603-1-3、当目标帧的视频图像中提取的文本坐标与历史文本坐标的误差不在阈值范围内，将目标帧的视频图像中提取的文本坐标作为目标文本坐标。

在本发明实施例中，当目标帧的视频图像中的文本坐标和历史文本坐标的误差在阈值范围内，表征目标帧的视频图像和历史帧视频图像中文本是同一句话，此时，考虑到目标帧的视频图像中提取到的文本坐标可能与文本在图像中的真实位置存在波动，但历史文本坐标又表征该文本的真实位置，因此，可以将历史文本坐标作为目标帧的视频图像的目标文本坐标，反之，当目标帧的视频图像中提取的文本坐标和历史文本坐标的误差不在阈值范围内，表征目标帧的视频图像和历史帧视频图像中文本不是同一句话，此时，可以直接将目标帧的视频图像中提取的文本坐标作为目标文本坐标。

可以理解的是，上述的目标文本坐标可以表征目标帧的视频图像中的文本的真实所在区域，通过对目标文本坐标表征的区域内的文本进行消除，能够提高准确度，降低在文本消除过程中出现闪烁不稳定现象的风险。

可选地，在一个实施例中，为了能够快速获得获取所述目标帧的视频图像的目标文本坐标，下面在图7的基础上，给出一种可能的实现方式，参见图9，图9为本发明实施例提供的另一种文本消除方法的示意性流程图，该方法还包括：

S602、通过文本识别网络获取待处理视频的文本坐标集。

在本发明实施例中，上述的文本坐标集中包含获取目标帧的视频图像提取的文本坐标和历史帧视频图像的历史文本坐标。上述的文本识别网络可以为接文本提案网络CTPN(connectionist text proposal network，简称CTPN)。在获取目标文本坐标之前，可以快速从文本坐标集中获得目标帧的视频图像提取的文本坐标和历史帧视频图像的历史文本坐标，节约处理时间。

可选地，在一个实施例中，上述各个步骤的执行主体可以是电子设备，为了满足用户消除文本的需求，本发明实施例中的电子设备的交互界面面上可以包含用来接收用户操作的功能区，用户对功能区的操作可以触发电子设备执行上述各个步骤以完成文本消除处理，下面在图1的基础上，给出一种可能的实现方式，参见图10，图10为本发明实施例提供的另一种文本处理方法的示意性流程图，该方法还包括：

S601、接收用户操作指令，该用户操作指令用于指示获取待处理图像。

为了方便该人机交互过程，请参见图11，参见图11，图11为本发明实施例提供的一种电子设备的功能显示界面示意图，在图11所示的功能显示界面中可以但不仅限于存在两个主要的功能区：文件上传区和功能选择区，其中文件上传区用于指示用户输入待处理的视频文件，功能选择区用于指示用户进行功能选择，例如，“功能一”对应本发明实施例提供的文本消除功能，“功能二”对应其他形式的文本处理功能，当用户点击或触摸“功能一”对应的区域之后，电子设备接收到用户的操作指令即触发电子设备执行本发明实施例提供文本消除方法，开始针对文件上传区的视频文件，通过上述文本消除方法对每一帧视频图像执行文本消除处理。

可选地，图1所示的文本消除区域的训练过程还可以在获得待处理图像之前通过预设的训练样本训练，因此，在一种可能的实现方式中，在步骤S601之前，所述文本消除方法还可以包括：

S600、获取预设的区域消除模型。

可以理解的是，上述的区域消除模型是由预设数量的样本图像训练获得；该样本图像中具有特征区域；该特征区域用于指示区域消除模型对特征区域进行消除处理；特征区域具有以下特征信息：颜色格式、尺寸大小和排版角度。

可以理解的是，为了能够使得上述预设的文本消除模型能够具有识别特征区域并对特征区域进行消除处理的功能，上述的预设训练样本图像的任意位置可以具有特征区域；该特征区域可以具有以下特征信息：颜色格式、尺寸大小和排版角度。

在一种实施方式中，本发明实施例中的电子设备的还提供了另一种功能界面，参见图12，图12为本发明实施例提供的另一种功能显示界面示意图，该功能界面用于显示各个待处理视频的处理进度，方便用户直接掌握处理信息。

为了实现上述文本消除方法的实施例中的各个步骤，以达到对应的技术效果，下面给出一种文本消除装置的实现方式，参见图13，图13为本发明实施例提供的一种文本消除装置的功能模块图，其中，该文本消除装置13包括：获取模块131和消除模块132。

获取模块131，用于获取待处理图像；待处理图像中具有特征区域；特征区域用于指示对特征区域进行消除处理；特征区域与待处理图像中的待处理文本的区域匹配。

消除模块132，用于将待处理图像输入区域消除模型中，以使区域消除模型对特征区域进行消除处理后，输出处理后的待处理图像；处理后的待处理图像中不包含待处理文本；区域消除模型为识别网络训练到损失函数的损失值在阈值范围内时得到的模型。

可以理解的是，获取模块131和消除模块132可以用来执行图6、图7图8中的各个步骤以实现相应的技术效果。

可选地，文本消除装置13还包括提取模块，该提取模块用于提取待处理视频的文本坐标集。

可以理解的是，获取模块131、消除模块132和提取模块还以可以用来协同执行图9中的各个步骤以实现相应的技术效果。

可选地，该文本消除装置13还包括接收模块，该接收模块用于接收用户操作指令，该用户操作指令用于指示获取待处理图像。

可以理解的是，获取模块131、消除模块132和提取模块还以可以用来协同执行图10中的各个步骤以实现相应的技术效果。

在一种实施例中，为了能够获得预先训练好的区域消除模型，本发明实施例还可以提供一种区域消除模型训练装置的实现方式，该区域消除模型训练装置包括：获取模块、训练模块和确定模块。

获取模块，用于获取预设数量的训练样本图像；每张训练样本图像中包含特征区域；该特征区域用于指示对特征区域进行消除处理。

训练模块，用于将训练样本图像输入识别网络进行训练。

确定模块，用于当识别网络的损失函数的损失值在阈值范围内，将识别网络作为区域消除模型。

可以理解的是，获取模块、训练模块和确定模块可以用来执行图1、图4中的各个步骤以实现相应的技术效果。

本发明实施例还提供一种电子设备，如图14，图14为本发明实施例提电子设备结构框图。该电子设备14包括通信接口141、处理器142和存储器143。该处理器142、存储器143和通信接口141相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器143可用于存储软件程序及模块，如本发明实施例所提供的文本消除方法或者区域消除模型训练方法对应的程序指令/模块，处理器142通过执行存储在存储器143内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口141可用于与其他节点设备进行信令或数据的通信。在本发明中该电子设备14可以具有多个通信接口141。

其中，存储器143可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器142可以是一种集成电路芯片，具有信号处理能力。该处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

可以理解的是，上述的文本消除装置13的各个模块以及区域消除模型训练装置均可以软件或固件(Firmware)的形式存储于电子设备14的存储器143中，并由处理器142执行，同时，执行上述模块所需的数据、程序的代码等可以存储在存储器143中。

本发明实施例提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前述实施方式中任一项的文本消除方法或者区域消除模型训练方法。该计算机可读存储介质可以是，但不限于，U盘、移动硬盘、ROM、RAM、PROM、EPROM、EEPROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，各种熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种文本消除方法，其特征在于，所述方法包括：

获取待处理图像；所述待处理图像中具有特征区域；所述特征区域用于指示对所述特征区域进行消除处理；所述特征区域与待处理图像中的待处理文本的区域匹配；

将所述待处理图像输入预设的区域消除模型中，以使所述预设的区域消除模型对所述特征区域进行消除处理后，输出目标图像；所述目标图像中不包含所述待处理文本。

2.根据权利要求1所述的文本消除方法，其特征在于，所述获取待处理图像，包括：

获取目标帧的视频图像的目标文本坐标；所述目标帧的视频图像中具有所述待处理文本；

在所述目标帧的视频图像中与所述目标文本坐标匹配的区域添加标记信息，生成所述待处理图像；所述标记信息用于指示该区域为所述特征区域。

3.根据权利要求2所述的文本消除方法，其特征在于，所述获取目标帧的视频图像的目标文本坐标，包括：

获取所述目标帧的视频图像中提取的文本坐标以及与所述目标帧相邻的至少一个历史帧视频图像的历史文本坐标；所述历史文本坐标与待处理文本的区域匹配；

当所述目标帧的视频图像中提取的文本坐标与所述历史文本坐标的误差在阈值范围内，将所述历史文本坐标作为所述目标文本坐标；

当所述目标帧的视频图像中提取的文本坐标与所述历史文本坐标的误差不在阈值范围内，将所述目标帧的视频图像中提取的文本坐标作为目标文本坐标。

4.根据权利要求3所述的文本消除方法，其特征在于，在所述获取所述目标帧的视频图像的目标文本坐标之前，所述方法还包括：

通过文本识别网络获取待处理视频的文本坐标集；所述文本坐标集中包含所述目标帧的视频图像中提取的文本坐标和所述历史帧视频图像的文本坐标。

5.根据权利要求1所述的文本消除方法，其特征在于，在所述获取待处理图像之前，所述方法还包括：

接收用户操作指令；所述用户操作指令用于指示获取所述待处理图像。

6.根据权利要求1所述的文本消除方法，其特征在于，在获取待处理图像之前，所述方法还包括：

获取所述预设的区域消除模型；所述区域消除模型是由预设数量的样本图像训练获得；所述样本图像中具有特征区域；所述特征区域用于指示所述区域消除模型对所述特征区域进行消除处理；所述特征区域具有以下特征信息：颜色格式、尺寸大小和排版角度。

7.根据权利要求1所述的文本消除方法，其特征在于，所述将所述待处理图像输入预设的区域消除模型中，以使所述预设的区域消除模型对所述特征区域进行消除处理后，输出目标图像,包括：

将所述待处理图像输入预设的区域消除模型中，以使所述区域消除模型根据目标像素值对所述特征区域内的像素值进行替换后，输出所述目标图像；其中，所述目标像素值为所述特征区域外的区域中与所述特征区域内的像素点邻近的像素点对应的像素值。

8.根据权利要求1所述的文本消除方法，其特征在于，所述将所述待处理图像输入预设的区域消除模型中，以使所述预设的区域消除模型对所述特征区域进行消除处理后，输出目标图像,包括：

将所述待处理图像输入预设的区域消除模型中，以使所述区域消除模型对所述特征区域进行切割处理后，输出所述目标图像。

9.一种文本消除装置，其特征在于，包括：

获取模块，用于获取待处理图像；所述待处理图像中具有特征区域；所述特征区域用于指示对所述特征区域进行消除处理；所述特征区域与待处理图像中的待处理文本的区域匹配；

消除模块，用于将所述待处理图像输入预设的区域消除模型中，以使所述预设的区域消除模型对所述特征区域进行消除处理后，输出目标图像；所述目标图像中不包含所述待处理文本。

10.一种电子设备，其特征在于，所述电子设备包括机器可读存储介质及处理器，所述机器可读存储介质存储有机器可执行指令，所述处理器在执行所述机器可执行指令时，该电子设备实现权利要求1-8中任意一项所述的文本消除方法。

11.一种存储介质，其特征在于，所述存储介质中存储有机器可执行指令，所述机器可执行指令被执行时实现权利要求1-8中任意一项所述的文本消除方法。