CN115883933A

CN115883933A - 视频的字幕去除方法、装置、计算机设备及存储介质

Info

Publication number: CN115883933A
Application number: CN202211588688.0A
Authority: CN
Inventors: 高立刚
Original assignee: Shenzhen Wondershare Software Co Ltd
Current assignee: Shenzhen Wondershare Software Co Ltd
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-03-31

Abstract

本发明提供了视频的字幕去除方法、装置、计算机设备及存储介质，方法包括：对待处理视频进行字幕识别及遮挡处理，得到多张已遮挡字幕的待处理视频帧；对于各所述待处理视频帧，基于所述待处理视频帧的多张邻近视频帧对所述待处理视频帧进行字幕区域信息修复，得到所述待处理视频帧的第一修复结果；将至少包括所述第一修复结果的输入特征输入预设内容修复模型，得到无字幕的目标视频帧；对各所述待处理视频帧分别对应的所述目标视频帧进行合成处理，得到目标视频。本申请提高了字幕去除后的视频质量，便于用户在获得许可的条件下对原始带字幕视频的二次创作。

Description

视频的字幕去除方法、装置、计算机设备及存储介质

技术领域

本发明涉及视频处理技术领域，尤其涉及一种视频的字幕去除方法、装置、计算机设备及存储介质。

背景技术

随着个性化视频创作分享平台的兴起，各类型的短中长视频在不同视频平台获得极大播放量和传播度。在这之中，在获得影视作品/原始视频的著作权人同意下的关于影视作品/原始视频的二次创作的视频是主要的视频类别之一。在对影视作品/原始视频进行二次创作的过程中，对原始字幕实现无痕去除十分重要。

现有的字幕去除方法在定位出字幕的区域位置后，通常是对字幕区域进行模糊平滑处理，这在一定程度上掩盖了一部分原始画面，大大降低了视频质量。因此现有的字幕去除方法的字幕去除效果较差，不利于用户对原始视频的二次创作。

发明内容

本发明实施例提供了视频的字幕去除方法、装置、计算机设备及存储介质，旨在解决现有的字幕去除方法字幕去除后视频质量较低，字幕去除效果较差的技术问题。

第一方面，本发明实施例提供了一种视频的字幕去除方法，其包括：

对待处理视频进行字幕识别及遮挡处理，得到多张已遮挡字幕的待处理视频帧；

对于各所述待处理视频帧，基于所述待处理视频帧的多张邻近视频帧对所述待处理视频帧进行字幕区域信息修复，得到所述待处理视频帧的第一修复结果；

将至少包括所述第一修复结果的输入特征输入预设内容修复模型，得到无字幕的目标视频帧；

对各所述待处理视频帧分别对应的所述目标视频帧进行合成处理，得到目标视频。

第二方面，本发明实施例提供了一种视频的字幕去除装置，其包括：

识别遮挡单元，用于对待处理视频进行字幕识别及遮挡处理，得到多张已遮挡字幕的待处理视频帧；

第一修复单元，用于对于各所述待处理视频帧，基于所述待处理视频帧的多张邻近视频帧对所述待处理视频帧进行字幕区域信息修复，得到所述待处理视频帧的第一修复结果；

第二修复单元，用于将至少包括所述第一修复结果的输入特征输入预设内容修复模型，得到无字幕的目标视频帧；

视频合成单元，用于对各所述待处理视频帧分别对应的所述目标视频帧进行合成处理，得到目标视频。

第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的视频的字幕去除方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的视频的字幕去除方法。

本发明实施例中，首先对待处理视频进行字幕识别及遮挡处理，得到多张已遮挡字幕的待处理视频帧，在此之后，需要对待处理视频的字幕遮挡区域进行修复，考虑到待处理视频帧中被字幕遮挡的原画内容可能在邻近视频帧中出现过，因此先基于邻近视频帧对所述待处理视频帧进行字幕区域信息修复，得到第一修复结果，进一步的，再利用预设内容修复模型对第一修复结果继续进行内容修复，进而得到修复后的无字幕的目标视频帧，最后对各所述待处理视频帧分别对应的所述目标视频帧进行合成处理，得到目标视频。本申请在对每张待处理视频帧进行字幕区域信息修复过程中，首先基于待处理视频帧的邻近视频帧对字幕遮挡区域进行修复，能够使得相邻的待处理视频帧的修复结果更加一致，有利于避免相邻的待处理视频帧的修复结果差异较大而导致视频播放过程中容易出现的抖动问题，提高目标视频的修复质量，在此之后，利用内容修复模型对基于邻近视频帧进行字幕区域修复后得到的第一修复结果继续进行修复，确保了对所有的字幕遮挡区域进行修复处理，进一步提高了字幕去除后的视频质量，有利于实现无痕字幕去除效果，便于用户对原始带字幕视频的二次创作。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的视频的字幕去除方法的第一流程示意图；

图2为本发明实施例提供的视频的字幕去除方法的第二流程示意图；

图3为本发明实施例提供的一张待处理视频帧字幕区域信息修复过程的框架示意图；

图4为本发明实施例提供的视频的字幕去除装置的示意性框图；

图5为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

随着个性化视频创作分享平台的兴起，各类型的短中长视频在不同视频平台获得极大播放量和传播度，在这之中，在获得影视作品/原始视频的著作权人同意下的关于影视作品/原始视频的二次创作的视频是主要的视频类别之一。在对影视作品/原始视频进行二次创作的过程中，对原始字幕实现无痕去除十分重要。

现有的字幕去除方法在定位出字幕的区域位置后，通常是对字幕区域进行模糊平滑处理，这在一定程度上掩盖了一部分原始画面，大大降低了视频质量。可见现有的字幕去除方法字幕的去除效果较差，不利于用户对原始视频的二次创作。

基于此，本发明提供了一种视频的字幕去除方法、装置、计算机设备和存储介质，能够提高字幕去除后的视频质量和字幕去除效果。

请参阅图1，图1为本发明实施例提供的视频的字幕去除方法的流程示意图，该方法具体包括下述步骤S101至步骤S104。

步骤S101、对待处理视频进行字幕识别及遮挡处理，得到多张已遮挡字幕的待处理视频帧。

本实施例中，待处理视频的视频格式可以为现有的各种视频格式，本申请对此不作限制。

在字幕去除过程中，由于字幕的存在会遮挡原视频帧的内容，因此，在进行字幕去除时，还需要对字幕区域的信息进行修复。本申请在完成对字幕识别定位之后，对字幕区域进行遮挡处理，以便于后续对待处理视频帧中被遮挡的字幕区域信息进行修复处理。

具体的，上述已遮挡字幕的待处理视频帧中字幕位置已被遮挡，而视频帧中除字幕位置外的其余位置的内容可以保持不变。具体实现中，对待处理视频的字幕遮挡处理，可以是将字幕位置的像素值置为预设像素值，例如，0像素值，也可以直接将该字幕位置的像素信息直接剔除，本申请对此不作限制。

例如，在一些具体实施方式中，上述对待处理视频进行字幕识别及遮挡处理过程中，可以先将待处理视频拆分为多个原始视频帧，对于每个原始视频帧，利用OCR(OpticalCharacter Recognition，光学字符识别)识别技术对原始视频帧中的字幕进行识别，得到原始视频帧中字幕位置的识别结果。进一步的，根据原始视频帧中字幕位置的识别结果，生成表征字幕位置的视频帧掩膜(mask)，在该视频帧掩膜中，字幕位置的值可以为0，其余位置的值可以为1，然后通过将该视频帧掩膜与原始视频帧进行点乘实现对原始视频帧的字幕遮挡，得到多张已遮挡字幕的待处理视频帧。

步骤S102、对于各待处理视频帧，基于待处理视频帧的多张邻近视频帧对待处理视频帧进行字幕区域信息修复，得到待处理视频帧的第一修复结果。

其中，上述第一修复结果中包括对待处理视频帧进行修复后的视频帧信息，具体可以是修复后的待处理视频帧的特征信息。

本实施例中，考虑到视频帧中被字幕遮挡的内容有可能在相邻视频帧中出现，因而基于待处理视频帧的多张邻近视频帧对待处理视频帧进行字幕区域信息修复。

需要说明的是，上述对于各待处理视频帧的处理，只是为了说明对待处理视频帧的具体处理过程，并不意味着本申请提供的方法的实现方式中每次只能处理一张输入待处理视频帧，在一些实施方式中，所有待处理视频帧可以均处于预备处理状态中，通过选取器选取每一张待处理视频帧进行处理。

其中，上述邻近视频帧可以在待处理视频中选择确定，即为待处理视频中的未经过字幕识别及遮挡处理的邻近视频帧，也可以在待处理视频帧中选择确定，即为已经过字幕识别及遮挡处理的各待处理视频帧中的邻近视频帧。邻近视频帧的张数可以为预设帧值，例如，该预设帧值可以为4张，该4张邻近视频帧具体可以为在待处理视频中当前的待处理视频帧在时间顺序上的前两帧和后两帧。

例如，以在各待处理视频帧中选择确定邻近视频帧为例，在对待处理视频对应的第七帧待处理视频帧进行修复处理时，可以将待处理视频对应的第五帧待处理视频帧、第六帧待处理视频帧、第八帧待处理视频帧和第九帧待处理视频帧作为邻近视频帧；在对待处理视频对应的第九帧待处理视频帧进行修复处理时，可以将待处理视频对应的第七帧待处理视频帧、第八帧待处理视频帧、第十帧待处理视频帧和第十一帧待处理视频帧作为邻近视频帧。

由于光流可以表征同一对象的像素点移动到下一帧的移动量信息，在一实施例中，上述基于待处理视频帧的多张邻近视频帧对待处理视频帧进行字幕区域信息修复，得到待处理视频帧的第一修复结果的过程中，可以具体包括下述步骤S21和步骤S22。

步骤S21、对待处理视频帧和多张邻近视频帧组成的邻近视频帧组进行光流估计，得到邻近视频帧组中相邻视频帧之间的光流信息。

本实施例中，在进行光流估计的过程中，可以采用光流估计网络实现，例如，可以采用SpyNet(Spatial Pyramid Network，空间金字塔网络)光流估计网络。

具体的，可以将邻近视频帧组输入SpyNet光流估计网络，得到SpyNet光流估计网络输出的邻近视频帧组中相邻视频帧之间的光流信息。

其中，上述邻近视频帧组中相邻视频帧之间的光流信息，指的是邻近视频帧组中各相邻视频帧之间的光流信息，以第七帧待处理视频帧为例，若采用4帧相邻视频帧(分别是第五帧、第六帧、第八帧和第九帧)，则对邻近视频帧组进行光流估计后，可以得到邻近视频帧组中第五帧视频帧与第六帧视频帧之间的光流信息，第六帧视频帧与第七帧待处理视频帧之间的光流信息、第七帧视频帧与第八帧视频帧之间的光流信息，第八帧视频帧与第九帧视频帧之间的光流信息。

步骤S22、基于相邻视频帧之间的光流信息和多张邻近视频帧对待处理视频帧进行字幕区域信息修复，得到待处理视频帧的第一修复结果。

本实施例中，在获得可以表征各相邻视频帧之间的像素点移动信息的光流信息之后，结合各相邻视频帧的信息内容，进而可以初步确定待处理视频帧中字幕区域中的信息内容。其中，各相邻视频帧的信息内容可以是各相邻视频帧的像素信息，还可以是各相邻视频帧的特征信息。

例如，在一实施例中，可以基于各相邻视频帧的特征形式进行待处理视频的修复，具体的，可以将邻近视频帧组输入预设编码网络，得到邻近视频帧组特征，进而将相邻视频帧之间的光流信息和邻近视频帧组特征输入预设特征传播模型，得到待处理视频帧的第一修复结果。

其中，上述预设编码网络用于进行特征提取，在一具体的实施方式中，该预设编码网络可以为Resnet(Deep residual network，深度残差神经网络)网络，例如，Resnet 50网络。

其中，上述预设特征传播模型包括多个卷积层，该预设特征传播模型基于卷积层的卷积操作实现基于相邻视频帧之间的光流信息对邻近视频帧组特征进行特征的融合和传播，进而实现对待处理视频帧的初步修复，得到第一修复结果。

本实施例中，该预设特征传播模型具体可以为在特征融合和传播方面表现较好的神经网络模型。例如，在一具体实施方式中，预设特征传播模型可以为Resnet 18网络模型。Resnet(Deep residual network，深度残差神经网络)的网络结构上通过设置跳跃连接，使得深度网络可以在保持较高的特征融合和传播效果的同时能够有效解决深度网络随着网络的加深而出现的梯度爆炸问题。

步骤S103、将至少包括第一修复结果的输入特征输入预设内容修复模型，得到无字幕的目标视频帧。

本实施例中，在基于邻近视频帧对待处理视频帧进行字幕区域信息进行修复之后，可以基于预设内容修复模型继续进行修复，提高视频的修复效果。

其中，预设内容修复模型可以为包括多个卷积层的神经网络模型，在一些实施方式中，上述预设内容修复模型还可以为包括多个视觉变换器(Visual Transformer，ViT)块的网络模型，例如，在一具体的实施方式中，预设内容修复模型中可以具体包括8个视觉变换器块。

在具体实施过程中，上述预设内容修复模型进行内容修复后，可以输出待处理视频帧的目标特征信息，在这之后进一步对目标特征信息进行解码，以得到无字幕的目标视频帧，即，上述步骤S103可以具体包括步骤S31和步骤S32。

步骤S31、将至少包括第一修复结果的输入特征输入预设内容修复模型，得到待处理视频帧的目标特征信息。

其中，预设内容修复模型的输入特征至少包括第一修复结果，在一些实施方式中，该输入特征还可以进一步包括邻近视频帧组特征，使得预设内容修复模型在进行内容修复过程中可以参考到邻近视频帧组中的多张视频帧的特征信息进行待处理视频帧字幕区域的修复，与单纯的图像修复方法相比，可以进一步降低单纯图像修复中容易导致的抖动问题，即修复后的相邻视频帧之间的内容相差较大而容易导致的视频播放过程中出现的抖动问题。

可选的，在一些实施方式中,还可以预先从待处理视频获取预设张视频帧作为全局参考视频帧组，并将全局参考视频帧组输入预设编码网络，得到全局参考视频帧特征，在这之后，将第一修复结果、邻近视频帧组特征和全局参考视频帧特征输入预设内容修复模型，得到待处理视频帧的目标特征信息。

其中，上述全局参考视频帧组用于表征待处理视频的主体内容，上述全局参考视频帧组的张数可以根据待处理视频的内容变化幅度大小、视频时长等因素确定。对于内容变化幅度较大，时长较长的视频，可以提高全局参考视频帧组的张数，以保证全局参考视频帧组对待处理视频的主体内容的表征能力。其中，内容变换幅度大小可以基于视频帧中的场景变换次数、主体个数等确定，本申请对此不作限制。

具体的，上述全局参考视频帧组可以在待处理视频的所有视频帧中均匀抽取获得，例如，若待处理视频拆分成按时间先后顺序的100张视频帧，获取10张视频帧作为全局参考视频帧组，则可以在该100张视频帧中依次每间隔9张视频帧后抽取1张视频帧作为全局参考视频帧，最终得到包括10张全局参考视频帧的全局参考视频帧组。

需要说明的是，在一些实施方式中，在对待处理视频的各待处理视频帧进行字幕去除过程中，上述全局参考视频帧组可以固定不变，上述全局参考视频帧组的获取可以在进行基于邻近视频帧进行修复之前执行，在此之后，可以将全局参考视频帧组和邻近视频帧组一并输入预设编码网络，得到编码网络输出的全局参考视频帧特征和邻近视频帧组特征。

本实施例中，通过将邻近视频帧组特征、全局参考视频帧特征和第一修复结果一并输入预设内容修复模型，有利于预设内容修复模型在进行修复过程中，能够既参考到当前待处理视频帧的邻近视频帧的信息内容，提高视频帧修复内容在时间上的一致性，又不偏离整个待处理视频的视频帧信息特点，提高内容修复过程的科学性，有利于提高视频的字幕去除效果，提高去除字幕后的视频质量。

步骤S32、将目标特征信息输入预设解码网络，得到无字幕的目标视频帧。

本实施例中，上述预设解码网络可以包括多个卷积块。具体的，在一实施方式中，该卷积块可以是深度扩张卷积块，深度扩张卷积块引入了卷积层扩张率参数，其定义了卷积层的卷积核值之间的间距，使得卷积过程中可以扩大感受野的同时而不需要增加参数，实现了不需要增加参数运算成本就能观察大的感受野，提高对特征的处理效果。例如，扩张速率为2的3x3卷积核将具有与5x5卷积核相同的视野，而只使用了9个参数。

步骤S104、对各待处理视频帧分别对应的目标视频帧进行合成处理，得到目标视频。

本实施例中，每张待处理视频帧在进行基于邻近视频帧修复、基于预设内容修复模型修复后，可以得到修复完成的无字幕的目标视频帧，进而对各待处理视频帧对应的目标视频帧按时间顺序进行合成处理后，即可得到无字幕的目标视频。

本发明实施例中，首先对待处理视频进行字幕识别及遮挡处理，得到多张已遮挡字幕的待处理视频帧，在此之后，需要对待处理视频的字幕遮挡区域进行修复，考虑到待处理视频帧中被字幕遮挡的原画内容可能在邻近视频帧中出现过，因此先基于邻近视频帧对待处理视频帧进行字幕区域信息修复，得到第一修复结果，进一步的，再利用预设内容修复模型对第一修复结果继续进行内容修复，进而得到修复后的无字幕的目标视频帧，最后对各待处理视频帧分别对应的目标视频帧进行合成处理，得到目标视频。本申请在对每张待处理视频帧进行字幕区域信息修复过程中，首先基于待处理视频帧的邻近视频帧对字幕遮挡区域进行修复，能够使得相邻的待处理视频帧的修复结果更加一致，有利于避免相邻的待处理视频帧的修复结果差异较大而导致视频播放过程中容易出现的抖动问题，提高目标视频的修复质量，在此之后，利用内容修复模型对基于邻近视频帧进行字幕区域修复后得到的第一修复结果继续进行修复，确保了对所有的字幕遮挡区域进行修复处理，进一步提高了字幕去除后的视频质量，有利于实现无痕字幕去除效果，便于用户对原始带字幕视频的二次创作。

还需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，在本申请的一些实施方式中，某些步骤可以采用其它顺序进行。

例如，图2中示出了本申请提供的一视频的字幕去除方法具体处理过程的流程示意图，具体包括下述步骤S501至步骤S508，为便于一并参考，该视频的字幕去除方法中对应于一张待处理视频帧的具体处理过程在图3中示出。

步骤S501、对待处理视频进行字幕识别及遮挡处理，得到多张已遮挡字幕的待处理视频帧。

步骤S502、基于待处理视频获取预设张视频帧作为全局参考视频帧组。

步骤S503、对于各待处理视频帧，对由待处理视频帧和多张邻近视频帧组成的邻近视频帧组进行光流估计，得到邻近视频帧组中相邻视频帧之间的光流信息。

本实施例中，光流估计采用Spynet光流估计网络进行。

步骤S504、将邻近视频帧组和全局参考视频帧组输入预设编码网络，得到邻近视频帧组对应的邻近视频帧组特征和全局参考视频帧组对应的全局参考视频帧特征。

本实施例中，预设编码网络可以采用Resnet 50编码网络。

步骤S505、将相邻视频帧之间的光流信息和邻近视频帧组特征输入预设特征传播模型，得到待处理视频帧的第一修复结果。

本实施例中，预设特征传播模型采用Resnet 18网络。

步骤S506、将第一修复结果、邻近视频帧组特征和全局参考视频帧特征输入预设内容修复模型，得到待处理视频帧的目标特征信息。

本实施例中，预设内容修复模型中包括8个视觉变换器块。

步骤S507、将目标特征信息输入预设解码网络，得到无字幕的目标视频帧。

本实施例中，如图3所示，预设解码网络中具体包括多个深度扩张卷积块。

步骤S508、对各待处理视频帧分别对应的目标视频帧进行合成处理，得到目标视频。

本发明实施例还提供一种视频的字幕去除装置，该视频的字幕去除装置用于执行前述视频的字幕去除方法的任一实施例。具体地，请参阅图4示出了本发明实施例提供的一种视频的字幕去除装置50的结构示意图，包括识别遮挡单元51、第一修复单元52、第二修复单元53和视频合成单元54。

识别遮挡单元51，用于对待处理视频进行字幕识别及遮挡处理，得到多张已遮挡字幕的待处理视频帧；

第一修复单元52，用于对于各待处理视频帧，基于待处理视频帧的多张邻近视频帧对待处理视频帧进行字幕区域信息修复，得到待处理视频帧的第一修复结果；

第二修复单元53，用于将至少包括第一修复结果的输入特征输入预设内容修复模型，得到无字幕的目标视频帧；

视频合成单元54，用于对各待处理视频帧分别对应的目标视频帧进行合成处理，得到目标视频。

本发明的一些实施方式中，上述第一修复单元52还可以具体用于，对由待处理视频帧和多张邻近视频帧组成的邻近视频帧组进行光流估计，得到邻近视频帧组中相邻视频帧之间的光流信息；基于相邻视频帧之间的光流信息和多张邻近视频帧对待处理视频帧进行字幕区域信息修复，得到待处理视频帧的第一修复结果。

本发明的一些实施方式中，上述第一修复单元52还可以具体用于，将邻近视频帧组输入预设编码网络，得到邻近视频帧组特征；将相邻视频帧之间的光流信息和邻近视频帧组特征输入预设特征传播模型，得到待处理视频帧的第一修复结果，其中，预设特征传播模型包括多个卷积层。

本发明的一些实施方式中，上述第二修复单元53还可以具体用于，将至少包括第一修复结果的输入特征输入预设内容修复模型，得到待处理视频帧的目标特征信息；将目标特征信息输入预设解码网络，得到无字幕的目标视频帧。

本发明的一些实施方式中，上述第二修复单元53还可以具体用于，将第一修复结果和邻近视频帧组特征输入预设内容修复模型，得到待处理视频帧的目标特征信息。

本发明的一些实施方式中，上述视频的字幕去除装置50还可以包括获取单元55，用于基于待处理视频获取预设张视频帧作为全局参考视频帧组；将全局参考视频帧组输入预设编码网络，得到全局参考视频帧特征；上述第二修复单元53还可以具体用于，将第一修复结果、邻近视频帧组特征和全局参考视频帧特征输入预设内容修复模型，得到待处理视频帧的目标特征信息。

要说明的是，所属领域的技术人员可以清楚地了解到，上述视频的字幕去除装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述视频的字幕去除装置可以实现为计算机程序的形式，该计算机程序可以在如图5所示的计算机设备上运行。

请参阅图5，图5是本发明实施例提供的计算机设备的示意性框图。该计算机设备600可以是智能手机、平板电脑、个人电脑(PC)、学习机、智能穿戴设备等终端设备。参阅图5，该计算机设备600包括通过装置总线601连接的处理器602、存储器和网络接口605，其中，存储器可以包括存储介质603和内存储器604。

该存储介质603可存储操作系统6031和计算机程序6032。该计算机程序6032被执行时，可使得处理器602执行视频的字幕去除方法。

该处理器602用于提供计算和控制能力，支撑整个计算机设备600的运行。

该内存储器604为存储介质603中的计算机程序6032的运行提供环境，该计算机程序6032被处理器602执行时，可使得处理器602执行视频的字幕去除方法。

该网络接口605用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备600的限定，具体的计算机设备600可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，处理器602用于运行存储在存储器中的计算机程序6032，以实现本发明实施例公开的视频的字幕去除方法。

本领域技术人员可以理解，图5中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图5所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器602可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器602还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的视频的字幕去除方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，后台服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频的字幕去除方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述待处理视频帧的多张邻近视频帧对所述待处理视频帧进行字幕区域信息修复，得到所述待处理视频帧的第一修复结果，包括：

对由所述待处理视频帧和所述多张邻近视频帧组成的邻近视频帧组进行光流估计，得到所述邻近视频帧组中相邻视频帧之间的光流信息；

基于所述相邻视频帧之间的光流信息和所述多张邻近视频帧对所述待处理视频帧进行字幕区域信息修复，得到所述待处理视频帧的所述第一修复结果。

3.根据权利要求2所述的方法，其特征在于，所述基于所述相邻视频帧之间的光流信息和所述多张邻近视频帧对所述待处理视频帧进行字幕区域信息修复，得到所述待处理视频帧的所述第一修复结果，包括：

将所述邻近视频帧组输入预设编码网络，得到邻近视频帧组特征；

将所述相邻视频帧之间的光流信息和所述邻近视频帧组特征输入预设特征传播模型，得到所述待处理视频帧的所述第一修复结果，其中，所述预设特征传播模型包括多个卷积层。

4.根据权利要求3所述的方法，其特征在于，所述将至少包括所述第一修复结果的输入特征输入预设内容修复模型，得到无字幕的目标视频帧，包括，

将至少包括所述第一修复结果的输入特征输入预设内容修复模型，得到所述待处理视频帧的目标特征信息；

将所述目标特征信息输入预设解码网络，得到所述无字幕的目标视频帧。

5.根据权利要求4所述的方法，其特征在于，所述将至少包括所述第一修复结果的输入特征输入预设内容修复模型，得到所述待处理视频帧的目标特征信息，包括：

将所述第一修复结果和所述邻近视频帧组特征输入所述预设内容修复模型，得到所述待处理视频帧的所述目标特征信息。

6.根据权利要求4所述的方法，其特征在于，所述将至少包括所述第一修复结果的输入特征输入预设内容修复模型，得到所述待处理视频帧的目标特征信息之前，所述方法还包括：

基于所述待处理视频获取预设张视频帧作为全局参考视频帧组；

将所述全局参考视频帧组输入所述预设编码网络，得到全局参考视频帧特征；

所述将至少包括所述第一修复结果的输入特征输入预设内容修复模型，得到所述待处理视频帧的目标特征信息，包括：

将所述第一修复结果、所述邻近视频帧组特征和所述全局参考视频帧特征输入所述预设内容修复模型，得到所述待处理视频帧的所述目标特征信息。

7.根据权利要求1-6任意一项所述的方法，其特征在于，所述预设内容修复模型包括多个视觉变换器块。

8.一种视频的字幕去除装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的视频的字幕去除方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。