CN115019138A

CN115019138A - 视频字幕擦除、模型训练、交互方法、设备及存储介质

Info

Publication number: CN115019138A
Application number: CN202210555986.3A
Authority: CN
Inventors: 王攀; 薛昊岚; 任沛然
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-09-06
Anticipated expiration: 2042-05-20
Also published as: CN115019138B

Abstract

本申请实施例提供一种视频字幕擦除、模型训练、交互方法、设备及存储介质。其中，方法包括：利用训练过的字幕擦除模型对视频中字幕进行擦除，得到字幕擦除后视频；字幕擦除模型用于：根据视频的多个帧特征图，确定用于感知字幕位置的掩码信息；根据多个帧特征图，通过注意力机制确定第一像素区域分别与多个像素区域的第一关系权重；多个帧特征图包括多个像素区域的特征；多个像素区域包括第一像素区域；根据掩码信息对第一关系权重进行修正得到修正后关系权重；根据多个帧特征图以及修正后关系权重，确定第一像素区域的第一融合后特征；根据多个像素区域的第一融合后特征，确定字幕擦除后视频。本申请实施例提供的技术方案能够提高擦除效果。

Description

视频字幕擦除、模型训练、交互方法、设备及存储介质

技术领域

本申请涉及视觉技术领域，尤其涉及一种视频字幕擦除、模型训练、交互方法、设备及存储介质。

背景技术

近年来，随着互联网基础设施普及，视频作为主要信息传播方式之一触达人们生活方方面面，其中影视作品爆发式产出。

在影视作品生产剪辑中，经常涉及影视作品中局部像素的编辑和修改，如擦除视频中字幕，以恢复被字幕遮挡的背景像素。

现有技术中自动擦除方案存在擦除效果较差的问题。

发明内容

鉴于上述问题，提出了本申请以提供一种解决上述问题或至少部分地解决上述问题的视频字幕擦除、模型训练、交互方法、设备及存储介质。

于是，在本申请的一个实施例中，提供了一种视频字幕擦除方法，其中，包括：

确定视频；

利用训练过的字幕擦除模型对所述视频中的字幕进行擦除，得到字幕擦除后视频，其中，所述字幕擦除模型为机器学习模型；

其中，所述字幕擦除模型用于：

根据所述视频的多个帧特征图，确定用于感知字幕位置的掩码信息；

根据所述多个帧特征图，通过注意力机制确定第一像素区域分别与多个像素区域的第一关系权重；所述多个帧特征图包括所述多个像素区域的特征；所述多个像素区域中包括所述第一像素区域；

根据所述掩码信息，对所述第一关系权重进行修正，得到修正后关系权重；

根据所述多个帧特征图以及所述修正后关系权重，确定所述第一像素区域的第一融合后特征；

根据所述多个像素区域的第一融合后特征，确定字幕擦除后视频。

在本申请的又一实施例中，提供了一种模型训练方法，其中，还包括：

确定样本视频及其对应的期望视频；

利用字幕擦除模型对所述样本视频中的字幕进行擦除，得到字幕擦除后样本视频，其中，所述字幕擦除模型为机器学习模型；

根据所述字幕擦除后样本视频以及所述期望视频，对所述字幕擦除模型进行优化；

其中，所述字幕擦除模型用于：

根据所述样本视频的多个帧特征图，确定用于感知字幕位置的掩码信息；

根据所述多个像素区域的第一融合后特征，确定字幕擦除后样本视频。

在本申请的又一实施例中，提供了一种界面交互方法，其中，包括：

响应于用户在操作界面的视频输入操作，显示所述用户输入的初始视频；

响应于用户针对所述初始视频触发的字幕擦除操作，显示字幕擦除后的初始视频；

其中，所述字幕擦除后的初始视频是根据字幕擦除后视频确定的；所述字幕擦除后视频是利用训练过的字幕擦除模型对视频中的字幕进行擦除得到的；所述视频是根据所述初始视频确定的；所述字幕擦除模型为机器学习模型；

其中，所述字幕擦除模型用于：

在本申请的又一实施例中，提供了一种电子设备。该电子设备，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以实现上述所述的擦除或训练方法。

在本申请的又一实施例中，提供了一种存储有计算机程序的计算机可读存储介质，所述计算机程序被计算机执行时能够实现上述任一项所述的擦除或训练方法。

在本申请的又一实施例中，提供了一种电子设备。该电子设备，包括：存储器、处理器以及显示器，其中，

所述存储器，用于存储程序；

所述处理器，分别与所述存储器、所述显示器耦合，用于执行所述存储器中存储的所述程序，以实现上述的界面交互方法。

在本申请的又一实施例中，提供了一种存储有计算机程序的计算机可读存储介质，所述计算机程序被计算机执行时能够实现上述任一项所述的界面交互方法。

在本申请的又一实施例中，提供了一种头戴显示设备，其中，包括：存储器、处理器以及显示器，其中，

所述存储器，用于存储程序；

所述处理器，分别与所述存储器、所述显示器耦合，用于执行所述存储器中存储的所述程序，以实现：

确定视频；

控制所述显示器播放所述字幕擦除后视频；

其中，所述字幕擦除模型用于：

在本申请的又一实施例中，提供了一种存储有计算机程序的计算机可读存储介质，其中，所述计算机程序被计算机执行时能够实现：

确定视频；

播放所述字幕擦除后视频；

其中，所述字幕擦除模型用于：

本申请实施例提供的技术方案中，多个像素区域分散在多个帧特征图中，确定第一像素区域分别与多个像素区域的第一关系权重，也即是：确定第一像素区域与其所在帧特征图中其他像素区域的第一关系权重以及第一像素区域与其他帧特征图中像素区域的第一关系权重，可见，本申请实施例提供的技术方案利用了时空联合注意力机制进行字幕擦除，有助于提高字幕擦除效果。并且，根据用于感知字幕位置的掩码信息对第一关系权重进行修正，有助于进一步提高字幕擦除效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的视频字幕擦除方法的流程示意图；

图2为本申请一实施例提供的字幕擦除模型的擦除流程示意图；

图3为本申请一实施例提供的模型训练方法的流程示意图；

图4为本申请又一实施例提供的字幕擦除模型的擦除流程示意图；

图5为本申请一实施例提供的界面交互方法的流程示意图；

图6为本申请又一实施例提供的视频字幕擦除方法的流程示意图；

图7为本申请一实施例提供的SRM内部的处理流程示意图；

图8为本申请一实施例提供的电子设备的结构框图。

具体实施方式

目前，已有的字幕擦除方案由于很难学习帧间和空域全局的信息容易导致像素漏擦除问题，使得字幕擦除效果较差。并且，现有的字幕擦除方案需要显式的用于监督的文字掩码图像，导致训练集构建难度大、训练设计繁琐等问题。

为了解决或部分解决上述技术问题，本申请实施例提供了一种新的视频字幕擦除方法。本申请实施例提供的技术方案中，利用了时空联合注意力机制进行字幕擦除，有助于提高字幕擦除效果；并且，根据用于感知字幕位置的掩码信息来引导字幕擦除，有助于进一步提高字幕擦除效果，降低像素漏擦除问题。

为了使本技术领域的人员更好地理解本申请方案，下面将根据本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

此外，在本申请的说明书、权利要求书及上述附图中描述的一些流程中，包含了按照特定顺序出现的多个操作，这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等，仅仅是用于区分各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图1示出了本申请一实施例提供的视频字幕擦除方法的流程示意图。该方法的执行主体可以为客户端，也可以为服务端。其中，所述客户端可以是集成在终端上的一个具有嵌入式程序的硬件，也可以是安装在终端中的一个应用软件，还可以是嵌入在终端操作系统中的工具软件等，本申请实施例对此不作限定。该终端可以为包括手机、平板电脑、车载终端设备等任意终端设备。其中，服务端可以是常用服务器、云端或虚拟服务器等，本申请实施例对此不作具体限定。如图1所示，该方法包括：

101、确定视频。

102、利用训练过的字幕擦除模型对所述视频中的字幕进行擦除，得到字幕擦除后视频。

其中，所述字幕擦除模型为机器学习模型。在一实例中，该字幕擦除模型是基于深度学习的模型。

如图2所示，所述字幕擦除模型用于执行如下步骤：

201、根据所述视频的多个帧特征图，确定用于感知字幕位置的掩码信息。

202、根据所述多个帧特征图，通过注意力机制确定第一像素区域分别与多个像素区域的第一关系权重。

其中，所述多个帧特征图包括所述多个像素区域的特征；所述多个像素区域中包括所述第一像素区域。

203、根据所述掩码信息，对所述第一关系权重进行修正，得到修正后关系权重。

204、根据所述多个帧特征图以及所述修正后关系权重，确定所述第一像素区域的第一融合后特征。

205、根据所述多个像素区域的第一融合后特征，确定字幕擦除后视频。

上述101中，上述视频可以是一完整视频，还可以是一完整视频中的视频片段，该视频片段的长度可有预设帧数来确定，本申请实施例对此不作具体限定。其中，预设帧数可根据实际需要来设计，例如：可默认为6帧。

实际应用中，考虑到一个完整视频的长度比较长，并且时间间隔比较大的两视频帧之间的相关性较弱，甚至无相关性，因此，可将完整视频切割成多个视频片段，分别针对每个视频片段执行上述擦除处理，这样，可有效降低计算量，降低计算成本。

上述102中，可将所述视频输入至训练过的字幕擦除模型中，以获得字幕擦除后视频。上述字幕擦除模型的训练方式将在后文中详细介绍。

上述201中，可对视频中多个视频帧中各视频帧进行特征提取，得到各视频帧对应的帧特征图。其中，特征提取可包括：编码处理。上述多个帧特征图与多个视频帧一一对应，也即一个视频帧对应一个帧特征图。

上述多个像素区域包括：多个帧特征图中每一个帧特征图的多个像素区域。每一个帧特征图由该帧特征图的多个像素区域拼接而成。

举例来说，帧特征图表示为H*W*C结构，其中，H*W为帧特征图的尺寸(长和宽)，C为帧特征图的通道数，也即该帧特征图包括W*H个像素点，每个像素点对应的特征为C维，该帧特征图中包括多个像素区域的特征，这多个像素区域的尺寸可以相同，也可不同，本申请实施例对此不作具体限定。为了方便处理，多个像素区域的尺寸可以相同，且长宽一致，例如：上述多个像素区域的尺寸可以为n*n，其中，n的取值可以为1、2、3，等等。当像素区域的尺寸为n*n时，像素区域的特征则为n*n*C，可将其转换成特征向量，该特征向量的维度为(n*n*C)。

上述201中，上述掩码信息用于指示上述多个像素区域中各像素区域是否对应于字幕位置。在一实例中，上述掩码信息可包括上述多个像素区域中各像素区域对应的掩码值，掩码值用于指示相应像素区域是否对应于字幕位置。

在一实例中，上述掩码可以是硬掩码，例如：掩码值可以是0或1；掩码值为0，表示相应像素区域对应于字幕位置；掩码值为1，表示相应像素区域对应于背景位置。

在另一实例中，上述掩码可以是软掩码，例如：掩码值的大小位于0和1之间，掩码值越大，表示相应像素区域对应于字幕位置的可能性就越小；掩码值越小，表示相应像素区域对应于字幕位置的可能性就越大。

上述202中，多个像素区域中包括第一像素区域，第一像素区域可用于指代多个像素区域中的任一像素区域。第一像素区域与多个像素区域中的任一像素区域的第一关系权重可根据第一像素区域与该任一像素区域的相似度来确定，相似度越大，相应的第一关系权重就越大。第一关系权重越大，说明第一像素区域与相应像素区域之间的相关性越大，因此，在确定第一像素区域的第一融合后特征时，应该给予该相应像素区域更多的关注力。

由于不仅仅确定了第一像素区域与其所在的帧特征图中其他像素区域之间的第一关系权重，还确定第一像素区域与其他帧特征图中像素区域之间的第一关系权重，因此，上述注意力机制也可称为时空联合注意力机制。

上述203中，根据所述掩码信息，对第一像素区域分别与所述多个像素区域的第一关系权重进行修正，得到修正后关系权重。在一实例中，所述多个像素区域中包括第二像素区域，其中，第二像素区域指代的是多个像素区域中的任一个，所述掩码信息中包括：所述第二像素区域对应的掩码值，可将第一像素区域与第二像素区域的第一关系权重与第二像素区域对应的掩码值的乘积作为第一像素区域与第二像素区域的修正后关系权重。

在一种可实现的方案中，所述掩码信息中包括：所述多个像素区域的掩码值；当所述掩码值为第一数值(例如1)时，表示相应的像素区域对应于背景位置(视频帧中非字幕位置均被认为是背景位置)；当所述掩码值为第二数值(例如0)时，表示相应的像素区域对应于字幕位置；所述第一数值大于所述第二数值。上述203中“根据所述掩码信息，对所述第一关系权重进行修正，得到修正后关系权重”，包括：

2031、将所述第一像素区域与第二像素区域的第一关系权重与所述第二像素区域的掩码值的乘积，作为所述第一像素区域与所述第二像素区域的修改后关系权重。

其中，所述多个像素区域中包括所述第二像素区域。第二像素区域指代的可以是上述多个像素区域中的任意一个，也即上述第二像素区域可以是上述第一像素区域，或除第一像素区域以外的其他像素区域。

根据掩码信息，对第一关系权重进行修正，相当于抑制有关字幕区域的权重，激活有关背景区域的权重，这对于后续的擦除填充起到了引导作用。

上述204中，在一实例中，可根据多个帧特征图，确定多个像素区域的第二目标特征；根据修正后关系权重，对多个像素区域的第二目标特征进行加权求和，得到第一像素区域的第一融合后特征。

具体地，可将多个帧特征图中多个像素区域中各像素区域的特征直接作为各像素区域的第二目标特征。或者，可对多个帧特征图中各帧特征图进行降维处理，以得到多个像素区域的第二目标特征，其中，降维处理只会减少各帧特征图的通道数，不会减小各帧特征图的尺寸。在一实例中，降维处理具体可包括：卷积处理。

修正后关系权重中包括：第一像素区域分别与多个像素区域的修正后关系权重。

下面将举例介绍加权求和的过程：多个帧特征图包括帧特征图A和帧特征图B，帧特征图A包括：像素区域a1的特征A1、像素区域a2的特征A2，帧特征图B包括像素区域b1的特征B1和像素区域b2的特征B1(注：这里仅为了方便介绍，将每个帧特征图的像素区域的数量示例性设为2)，其中，a1与a1、a2、b1、b2的修正后关系权重依次为：λ1、λ2、λ3、λ4，第一像素区域a1的第一融合后特征为R1，其计算公式如下：

R1＝λ1*A1+λ2*A2+λ3*B1+λ4*B2 (1)

上述多个像素区域中除第一像素区域以外的其他像素区域的第一融合后特征可同样采用上述方法得到或者采用其他方式得到，具体可根据实际需求来设置，本申请实施例对此不做具体限定。

上述205中，在一种可实现的方案中，可根据多个像素区域各自的第一融合后特征，通过拼接可得到多个第一融合后帧特征图。根据多个第一融合后帧特征图得到字幕擦除后视频。在一实例中，可针对多个第一融合后帧特征图中各融合后帧特征图进行编码处理，以得到字幕擦除后视频。其中，编码处理可包括：反卷积处理。

本申请实施例提供的技术方案中，多个像素区域分散在多个帧特征图中，确定第一像素区域分别与多个像素区域的第一关系权重，也即是：确定第一像素区域与其所在帧特征图中其他像素区域的第一关系权重以及第一像素区域与其他帧特征图中像素区域的第一关系权重。可见，本申请实施例提供的技术方案利用了时空联合注意力机制进行字幕擦除，有助于提高字幕擦除效果。并且，根据用于感知字幕位置的掩码信息对第一关系权重进行修正，有助于进一步提高字幕擦除效果。

本申请实施例中，字幕擦除模型在对字幕进行擦除的同时，完成了对字幕区域的像素填充，能够使得填充后的字幕区域与背景区域相适应，擦除效果更加稳定、更加平滑。

此外，本申请中，字幕擦除模型中，擦除过程体现在掩码信息对第一关系权重中对应于字幕位置的权重的抑制，其中，第一关系权重表征多个像素区域各自对第一像素区域的贡献权重(也可理解为相似度)，这样，在模型训练过程中能够通过修改后关系权重的梯度反向传播指导掩码信息的学习，也就是说，模型训练时无需采用显式的用于监督的字幕掩码来训练，降低了训练成本和难度。

在一实例中，为了提高掩码信息的准确率，可根据所述多个帧特征图，采用时空注意力机制，确定用于感知字幕位置的掩码信息。在一实例中，可对所述多个帧特征图进行3D时空卷积处理，得到卷积处理后特征；根据卷积处理后特征，确定用于感知字幕位置的掩码信息。

在上述实施例中，通过3D时空卷积处理来确定用于感知字幕位置的掩码信息，只是在融合了视频中局部空间信息和局部时间信息。为了能够在确定掩码信息的过程中考虑视频中全局空间信息和全局时间信息，上述201“根据所述视频的多个帧特征图，确定用于感知字幕位置的掩码信息”，可采用如下步骤来实现：

2011、根据所述多个帧特征图，确定所述多个像素区域的第一目标特征。

2012、根据所述多个帧特征图，确定所述第一像素区域分别与所述多个像素区域的第二关系权重。

2013、根据所述第二关系权重，对所述多个像素区域的第一目标特征进行加权求和，得到所述第一像素区域的第二融合后特征。

2014、根据所述多个像素区域的第二融合后特征，确定用于感知字幕位置的掩码信息。

上述2011中，在一实例中，可将多个帧特征图中多个像素区域中各像素区域的特征直接作为各像素区域的第一目标特征。

在另一实例中，可对多个帧特征图进行降维处理，以得到多个像素区域的第一目标特征。其中，降维处理只会减少各帧特征图的通道数，不会减小各帧特征图的尺寸。在一实例中，降维处理具体可包括：卷积处理。

上述2012中，第一像素区域与多个像素区域中的任一像素区域的第二关系权重可根据第一像素区域与该任一像素区域的相似度来确定，相似度越大，相应的第二关系权重就越大。第二关系权重越大，说明第二像素区域与相应像素区域之间的相关性越大，因此，在确定第一像素区域的第二融合后特征时，应该给予该相应像素区域更多的关注力。

由于不仅仅确定了第一像素区域与其所在的帧特征图中其他像素区域之间的第二关系权重，还确定第一像素区域与其他帧特征图中像素区域之间的第二关系权重，因此，上述注意力机制也可称为时空联合注意力机制。

上述2013中，根据所述第二关系权重，对所述多个像素区域的第一目标特征进行加权求和，得到所述第一像素区域的第二融合后特征。其中，加权求和的具体操作过程可参考上述实施例中相应内容，在此不再详述。

上述2014中，根据多个像素区域中各像素区域的第二融合后特征，确定各像素区域对应的特征代表值；该特征代表值可包括相应像素区域的第二融合后特征的平均值和/或最大值。每个像素区域的第二融合后特征中包括：多个特征元素，上述平均值指的这多个特征元素的平均值，上述最大值指的是这多个特征元素中的最大值。

根据多个像素区域的特征代表值，确定多个像素区域各自的掩码值。

为了方便处理，如图7所示，在一实例中，可根据多个像素区域在多个帧特征图中的位置，将多个像素区域对应的平均值进行拼接，得到多个帧特征图各自对应的平均值特征图71；该平均特征图71的通道数为1；还可根据多个像素区域在多个帧特征图中的位置，将多个像素区域对应的最大值进行拼接，得到多个帧特征图各自对应的最大值特征图72；该最大值特征图72的通道数也为1；根据多个帧特征图中各帧特征图对应的平均值特征图71和最大值特征图72，确定各帧特征图对应的掩码图74。掩码图中包括：相应帧特征图中各像素区域的掩码值。

在一实例中，如图7所示，针对每一个帧特征图，可将其平均值特征图71和最大值特征图72在通道维度上进行拼接，得到拼接特征图；对拼接特征图进行降维处理，得到降维后特征图；对降维后特征图进行归一化操作，得到归一化后特征图73；根据归一化后特征图73确定相应的掩码图74。具体地，可将归一化后特征图73直接作为相应的掩码图74；或者，根据预设参数θ，对归一化后特征图73进行二值化处理，得到相应的掩码图74。其中，预设参数θ可以是0.5，当然也可以是其他数值，本申请对此不做具体限定。二值化处理过程包括：将归一化后特征图中大于预设参数的像素值修改为1，将小于或等于预设参数的像素值修改为0。

在一种可实现的方案中，上述字幕擦除模型可以是基于transformer的模型，也即上述字幕擦除模型中可包括transformer网络，由transformer网络来执行上述步骤201-204。在一具体实例中，transformer网络的数量可以是多个，多个transformer网络可相互串联，前一transformer网络的输出作为后一transformer网络的输入。

此外，在字幕擦除场景中，视频帧中字幕周围的像素区域的参考意义较大，距离字幕较远的像素区域的参考意义较小，甚至没有。因此，为了减少计算量，上述方法，还可包括：

103、获取初始视频。

104、确定所述初始视频对应的字幕框。

105、根据所述字幕框，对所述初始视频中多个视频帧进行剪裁处理，得到所述视频。

上述103中，上述初始视频可以是一个完整视频或一个完整视频的视频片段。

上述104中，上述字幕框能够框住初始视频中每个视频帧中的字幕。

上述字幕框可以是通过人工交互操作来确定，还可以是通过字幕检测模型来确定。

具体地，可采用如下方式中的一种来确定上述字幕框：

方式一、将所述初始视频输入至字幕检测模型中，以获得所述字幕框。

方式二、根据用户针对所述初始视频的字幕框绘制操作，确定所述字幕框。

上述方式一中，字幕检测模型具体可以是基于神经网络的目标检测模型，其内部实现具体可参考现有技术中相应内容，在此不再详述。

上述方式二中，可向用户提供一个字幕框绘制界面，在字幕框绘制界面展示所述初始视频，根据用户针对所述初始视频的字幕框绘制操作，确定用户在所述字幕框绘制界面针对初始视频绘制的字幕框。

相应的，上述方法，还可包括：

106、根据所述字幕擦除后视频以及所述字幕框，对所述初始视频进行处理，得到字幕擦除后的初始视频。

字幕擦除后视频包括多个字幕擦除后视频帧，初始视频中包括多个初始视频帧。可根据字幕框的位置，将多个字幕擦除后视频帧分别贴回多个初始视频帧中，进而得到字幕擦除后初始视频。

图3示出了本申请又一实施例提供的模型训练方法的流程示意图。该方法的执行主体可以为客户端，也可以为服务端。其中，所述客户端可以是集成在终端上的一个具有嵌入式程序的硬件，也可以是安装在终端中的一个应用软件，还可以是嵌入在终端操作系统中的工具软件等，本申请实施例对此不作限定。该终端可以为包括手机、平板电脑、车载终端设备等任意终端设备。其中，服务端可以是常用服务器、云端或虚拟服务器等，本申请实施例对此不作具体限定。如图3所示，该方法包括：

301、确定样本视频及其对应的期望视频。

302、利用字幕擦除模型对所述样本视频中的字幕进行擦除，得到字幕擦除后样本视频。

其中，所述字幕擦除模型为机器学习模型。

303、根据所述字幕擦除后样本视频以及所述期望视频，对所述字幕擦除模型进行优化。

如图4所示，所述字幕擦除模型用于执行如下步骤：

401、根据所述样本视频的多个帧特征图，确定用于感知字幕位置的掩码信息。

402、根据所述多个帧特征图，通过注意力机制确定第一像素区域分别与多个像素区域的第一关系权重。

403、根据所述掩码信息，对所述第一关系权重进行修正，得到修正后关系权重。

404、根据所述多个帧特征图以及所述修正后关系权重，确定所述第一像素区域的第一融合后特征。

405、根据所述多个像素区域的第一融合后特征，确定字幕擦除后样本视频。

上述301中，样本视频中存在字幕，期望视频中不存在字幕。

上述303中，根据所述字幕擦除后样本视频以及所述期望视频之间的差异，对所述字幕擦除模型进行优化。

具体地，根据差异，通过梯度反向传播的方式对字幕擦除模型中的网络参数进行优化。其中，优化过程中包括：通过修正后关系权重的梯度反向传播，对模型中用于确定上述掩码信息的网络参数进行优化。

上述步骤401到405的具体实现可参见上述各实施例中相应内容，在此不再赘述。

在本申请实施例中，显式的监督信息只需要期望视频即可，无需显式的掩码信息，可有效降低训练成本和难度。

图5示出了本申请又一实施例提供的界面交互方法的流程示意图。该方法的执行主体可以为客户端，也可以为服务端。其中，所述客户端可以是集成在终端上的一个具有嵌入式程序的硬件，也可以是安装在终端中的一个应用软件，还可以是嵌入在终端操作系统中的工具软件等，本申请实施例对此不作限定。该终端可以为包括手机、平板电脑、车载终端设备等任意终端设备。如图5所示，该界面交互方法，包括：

501、响应于用户在操作界面的视频输入操作，显示所述用户输入的初始视频。

502、响应于用户针对所述初始视频触发的字幕擦除操作，显示字幕擦除后的初始视频。

其中，所述字幕擦除后的初始视频是根据字幕擦除后视频确定的；所述字幕擦除后视频是利用训练过的字幕擦除模型对视频中的字幕进行擦除得到的；所述视频是根据所述初始视频确定的；所述字幕擦除模型为机器学习模型。

如图2所示，所述字幕擦除模型用于执行如下步骤：

上述501中，客户端可向用户提供一操作界面。

上述502中，在一实例中，可在上述操作界面显示一字幕擦除控件；响应于用户针对该字幕擦除控件的触发操作，例如：点击操作，显示字幕擦除后的初始视频。

在一实例中，客户端可以在用户针对所述初始视频触发的字幕擦除操作后，将上述初始视频发送至服务端，以由服务端执行上述相应操作，得到字幕擦除后初始视频。

在另一实例中，客户端可以在用户针对所述初始视频触发的字幕擦除操作后，在本地执行上述相应操作，得到字幕擦除后初始视频。

这里需要说明的是：本申请实施例提供的所述方法中各步骤未尽详述的内容可参见上述实施例中的相应内容，此处不再赘述。此外，本申请实施例提供的所述方法中除了上述各步骤以外，还可包括上述各实施例中其他部分或全部步骤，具体可参见上述各实施例相应内容，在此不再赘述。

本申请实施例提供的技术方案可应用到各种应用场景中，例如：去字幕场景、中英文字幕替换场景，等等。在去字幕场景中，采用本申请实施例提供的技术方案去除视频中的字幕。在中英文字幕替换场景中，可采用本申请实施例提供的技术方案先去除视频中的原英文字幕，然后再添加中文字幕。

下面将结合图6对本申请实施例提供的技术方案进行介绍：

步骤S1、用户在手机上输入待处理的初始视频。

步骤S2、根据字幕框，对初始视频进行剪裁，得到视频。

步骤S3、字幕擦除模型6中的编码网络61对视频中多个视频帧进行特征提取，得到多个帧特征图。

步骤S4、字幕擦除模型6中的transformer网络62执行下述两个分支的步骤：

第一分支：

对所述多个帧特征图中各帧特征图进行不同的卷积处理(也即降维处理)，得到各帧特征图各自对应的查询特征图Q1、键特征图K1以及值特征图V1；将多个帧特征图各自对应的Q1进行切分，得到多个像素区域(pacth)的查询特征q1；将多个帧特征图各自对应的键特征图K1进行切分，得到多个像素区域的键特征k1；将多个帧特征图各自对应的值特征图V1进行切分，得到多个像素区域的值特征v1；针对多个像素区域中的第一像素区域，对第一像素区域的查询特征q1分别与多个像素区域的键特征k1的相似度进行归一化操作(softmax)，得到第一像素区域分别与多个像素区域的第二关系权重，图6中的S1包括第一像素区域分别与多个像素区域的第二关系权重。根据第一像素区域分别与多个像素区域的第二关系权重，对多个像素区域的值特征v1进行加权求和，得到第一像素区域的第二融合后特征；根据多个像素区域的第二融合后特征，利用空域响应子网络621得到用于感知字幕位置的掩码信息M’。

其中，空域响应子网络621包括：空域响应模块(SRM，spatial response module)。

第二分支：

对所述多个帧特征图中各帧特征图进行不同的卷积处理(也即降维处理)，得到各帧特征图各自对应的查询特征图Q2、键特征图K2以及值特征图V2；将多个帧特征图各自对应的Q2进行切分，得到多个像素区域(pacth)的查询特征q2；将多个帧特征图各自对应的键特征图K1进行切分，得到多个像素区域的键特征k2；将多个帧特征图各自对应的值特征图V1进行切分，得到多个像素区域的值特征v2；针对多个像素区域中的第一像素区域，对第一像素区域的查询特征q2分别与多个像素区域的键特征k2的相似度进行归一化操作(softmax)，得到第一像素区域分别与多个像素区域的第一关系权重，图6中的S2包括第一像素区域分别与多个像素区域的第一关系权重。根据上述掩码信息M’对第一像素区域分别与多个像素区域的第一关系权重进行修正，得到修正后关系权重。图6中S3中包括：第一像素区域分别与多个像素区域的修正后关系权重。根据第一像素区域分别与多个像素区域的修正后关系权重，对多个像素区域的值特征v2进行加权求和，得到第一像素区域的第一融合后特征。

步骤S5、字幕擦除模型6中的解码网络63对多个像素区域的第一融合后特征进行解码操作，最终得到字幕擦除后视频。

步骤S6、根据字幕擦除后视频以及所述字幕框，对所述初始视频进行处理，得到字幕擦除后初始视频。

上述字幕擦除模型包括两个分支，上述第一分支可以理解为是掩码感知分支，第二分支可以理解为是字幕擦除分支。掩码感知分支通过时空注意力机制提供时空特征，并且通过空域响应模块(SRM，spatial response module)激活背景区域和抑制文字区域，引导擦除分支对抑制区域进行时空搜索特征完成填充。

综上所述，本申请实施例提供的技术方案，通过利用时空注意力机制同时从时域多帧和全局空域学习特征完成擦除，擦除效果更加稳定和平滑，并且采用无显式监督文字掩码(mask)，自动感知文字出现的区域并完成擦除填充，带来训练上的简洁方便。

图8示出了本申请一实施例提供的电子设备的结构示意图。如图8所示，所述电子设备包括存储器1101以及处理器1102。存储器1101可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。存储器1101可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

所述存储器1101，用于存储程序；

所述处理器1102，与所述存储器1101耦合，用于执行所述存储器1101中存储的所述程序，以实现上述各方法实施例提供的方法。

进一步，如图8所示，电子设备还包括：通信组件1103、显示器1104、电源组件1105、音频组件1106等其它组件。图8中仅示意性给出部分组件，并不意味着电子设备只包括图8所示组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序被计算机执行时能够实现上述各方法实施例提供的方法的步骤或功能。

图8示出了本申请一实施例提供的头戴显示设备的结构示意图。如图8所示，所述头戴显示设备包括存储器1101、处理器1102以及显示器1104。存储器1101可被配置为存储其它各种数据以支持在头戴显示设备上的操作。这些数据的示例包括用于在头戴显示设备上操作的任何应用程序或方法的指令。存储器1101可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

所述存储器1101，用于存储程序；

所述处理器1102，与所述存储器1101耦合，用于执行所述存储器1101中存储的所述程序，以实现

确定视频；

控制所述显示器播放所述字幕擦除后视频；

其中，所述字幕擦除模型用于：

本申请实施例提供的头戴显示设备除了可以实现上述步骤以外，还可实现上述各实施例中其他步骤，具体可参见上述各实施例相应内容，在此不再赘述。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序被计算机执行时能够实现：

确定视频；

播放所述字幕擦除后视频；

其中，所述字幕擦除模型用于：

本申请实施例中，所述计算机程序被计算机执行时除了能够实现上述各步骤以外，还可实现上述各实施例中其他步骤，具体可参见上述各实施例相应内容，在此不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频字幕擦除方法，其中，包括：

确定视频；

其中，所述字幕擦除模型用于：

2.根据权利要求1所述的方法，其中，根据所述视频的多个帧特征图，确定用于感知字幕位置的掩码信息，包括：

根据所述多个帧特征图，确定所述多个像素区域的第一目标特征；

根据所述多个帧特征图，通过注意力机制确定所述第一像素区域分别与所述多个像素区域的第二关系权重；

根据所述第二关系权重，对所述多个像素区域的第一目标特征进行加权求和，得到所述第一像素区域的第二融合后特征；

根据所述多个像素区域的第二融合后特征，确定用于感知字幕位置的掩码信息。

3.根据权利要求2所述的方法，其中，根据所述多个帧特征图，确定所述多个像素区域的第一目标特征，包括：

对所述多个帧特征图进行降维处理，得到所述多个像素区域的第一目标特征。

4.根据权利要求1至3中任一项所述的方法，其中，所述掩码信息包括：所述多个像素区域的掩码值；当所述掩码值为第一数值时，表示相应的像素区域对应于背景位置；当所述掩码值为第二数值时，表示相应的像素区域对应于字幕位置；所述第一数值大于所述第二数值；

根据所述掩码信息，对所述第一关系权重进行修正，得到修正后关系权重，包括：

将所述第一像素区域与第二像素区域的第一关系权重与所述第二像素区域的掩码值的乘积，作为所述第一像素区域与所述第二像素区域的修改后关系权重；

其中，所述多个像素区域中包括所述第二像素区域。

5.根据权利要求1至3中任一项所述的方法，其中，根据所述多个帧特征图以及所述修正后关系权重，确定所述第一像素区域的第一融合后特征，包括：

根据所述多个帧特征图，确定所述多个像素区域的第二目标特征；

根据所述修正后关系权重，对所述多个像素区域的第二目标特征进行加权求和，得到所述第一像素区域的第一融合后特征。

6.根据权利要求1至3中任一项所述的方法，其中，还包括：

获取初始视频；

确定所述初始视频对应的字幕框；

根据所述字幕框，对所述初始视频中多个视频帧进行剪裁处理，得到所述视频。

7.根据权利要求6所述的方法，其中，确定所述初始视频对应的字幕框，包括：

将所述初始视频输入至字幕检测模型中，以获得所述字幕框；或者

根据用户针对所述初始视频的字幕框绘制操作，确定所述字幕框。

8.根据权利要求6所述的方法，其中，还包括：

根据所述字幕擦除后视频以及所述字幕框，对所述初始视频进行处理，得到字幕擦除后初始视频。

9.一种模型训练方法，其中，还包括：

确定样本视频及其对应的期望视频；

其中，所述字幕擦除模型用于：

10.一种界面交互方法，其中，包括：

其中，所述字幕擦除模型用于：

11.一种电子设备，其中，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以实现权利要求1至9中任一项所述的方法。

12.一种存储有计算机程序的计算机可读存储介质，其中，所述计算机程序被计算机执行时能够实现权利要求1至9中任一项所述的方法。

13.一种头戴显示设备，其中，包括：存储器、处理器以及显示器，其中，

所述存储器，用于存储程序；

确定视频；

控制所述显示器播放所述字幕擦除后视频；

其中，所述字幕擦除模型用于：

14.一种存储有计算机程序的计算机可读存储介质，其中，所述计算机程序被计算机执行时能够实现：

确定视频；

播放所述字幕擦除后视频；

其中，所述字幕擦除模型用于：