CN115497082A

CN115497082A - 判断视频中字幕的方法、设备和存储介质

Info

Publication number: CN115497082A
Application number: CN202211065673.6A
Authority: CN
Inventors: 张悦; 黄均昕; 董治; 姜涛
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2022-12-20

Abstract

本申请公开了一种判断视频中字幕的方法、设备和存储介质，属于视频技术领域。所述方法包括：获取目标视频的多帧图像；对所述多帧图像进行文本检测，确定所述多帧图像中的文本区域和每个文本区域中的文本；根据所述多帧图像中的文本区域，确定满足高出现频次条件的目标文本区域；如果确定所述目标文本区域在所述多帧图像中包含的文本满足字幕文本条件，且在所述目标文本区域中包含文本的图像在所述多帧图像中的数量占比大于第一阈值，则确定所述目标视频中存在字幕。采用本申请可以提高字幕判断的准确性。

Description

判断视频中字幕的方法、设备和存储介质

技术领域

本申请涉及视频技术领域，特别涉及一种判断视频中字幕的方法、设备和存储介质。

背景技术

为了满足人们使用手机观看竖版视频的需求，厂商通常会将已有的横版视频进行上下补齐，得到竖版视频。而在进行横版视频的上下补齐之前，需要判断视频中是否存在字幕，因为，视频中是否存在字幕会影响横版视频上下补齐的处理逻辑。

目前，判断视频中是否存在字幕的方法为：采用深度学习的方法识别视频的文字，如果在视频下方的指定区域内存在文字，则确定视频中存在字幕。

然而，在实际的视频中字幕可能不在视频的下方显示，而是在视频的左侧或者右侧显示，此外，还可能有一些文字水印在视频下方显示，在这些情况下，采用上述方法无法准备判断出视频中是否存在字幕。

发明内容

本申请实施例提供了一种判断视频中字幕的方法、设备和存储介质，能够解决相关技术中字幕判断不准确的问题。所述技术方案如下：

第一方面，提供了一种判断视频中字幕的方法，所述方法包括：

获取目标视频的多帧图像；

对所述多帧图像进行文本检测，确定所述多帧图像中的文本区域和每个文本区域中的文本；

根据所述多帧图像中的文本区域，确定满足高出现频次条件的目标文本区域；

如果确定所述目标文本区域在所述多帧图像中包含的文本满足字幕文本条件，且在所述目标文本区域中包含文本的图像在所述多帧图像中的数量占比大于第一阈值，则确定所述目标视频中存在字幕。

在一种可能的实现方式中，所述获取目标视频的多帧图像，包括：

提取目标视频的原始音频；

确定所述原始音频中包括语音的目标音频片段；

确定所述目标音频片段在所述目标视频中对应的目标视频片段；

在所述目标视频片段中获取多帧图像。

在一种可能的实现方式中，所述确定所述原始音频中包括语音的目标音频片段之前，所述方法还包括：

获取所述原始音频中的歌声音频和伴奏音频；

所述确定所述原始音频中包括语音的目标音频片段，包括：

确定所述歌声音频中包括语音的目标音频片段。

在一种可能的实现方式中，所述确定所述原始音频中包括语音的目标音频片段，包括：

对所述原始音频进行语音活动检测VAD，得到所述原始音频中包括语音的目标音频片段。

在一种可能的实现方式中，所述根据所述多帧图像中的文本区域，确定满足高出现频次条件的目标文本区域，包括：

对于所述目标视频的像素坐标系下的每个像素坐标，统计覆盖所述像素坐标的文本区域在所述多帧图像中的出现频次，作为所述像素坐标的权重值；

将相邻且权重值不为0的像素坐标所组成的区域，作为候选文本区域；

对于每个候选文本区域，将所述候选文本区域所覆盖的像素坐标的权重值相加，作为所述候选文本区域的像素数；

将像素数最大的候选文本区域，确实为满足高出现频次的目标文本区域。

在一种可能的实现方式中，所述确定所述目标文本区域在所述多帧图像中包含的文本满足字幕文本条件，包括：

将所述目标文本区域在所述多帧图像中包含的文本进行去重，得到去重文本；

分别计算所述目标文本区域在所述多帧图像中包含的文本和所述去重文本之间的文本编辑距离；

如果所述目标文本区域在所述多帧图像中包含的文本和所述去重文本之间的文本编辑距离均小于第二阈值，则确定所述目标文本区域在所述多帧图像中包含的文本满足字幕文本条件。

在一种可能的实现方式中，所述如果所述目标文本区域在所述多帧图像中包含的文本和所述去重文本之间的文本编辑距离均小于第二阈值，则确定所述目标文本区域在所述多帧图像中包含的文本满足字幕文本条件，包括：

如果所述目标文本区域在所述多帧图像中包含的文本和所述去重文本之间的文本编辑距离均小于第二阈值，且所述目标文本区域在所述多帧图像中包含的文本的长度均值大于第三阈值，则确定所述目标文本区域在所述多帧图像中包含的文本满足字幕文本条件。

在一种可能的实现方式中，所述根据所述多帧图像中的文本区域，确定满足高出现频次条件的目标文本区域之前，所述方法还包括：

将包含的文本为预设固定文本的文本区域，在所述多帧图像中的文本区域中剔除。

第二方面，提供了一种判断视频中字幕的装置，所述装置包括：

获取模块，用于获取目标视频的多帧图像；

确定模块，用于对所述多帧图像进行文本检测，确定所述多帧图像中的文本区域和每个文本区域中的文本；根据所述多帧图像中的文本区域，确定满足高出现频次条件的目标文本区域；

判断模块，用于如果确定所述目标文本区域在所述多帧图像中包含的文本满足字幕文本条件，且在所述目标文本区域中包含文本的图像在所述多帧图像中的数量占比大于第一阈值，则确定所述目标视频中存在字幕。

在一种可能的实现方式中，所述获取模块，用于：

提取目标视频的原始音频；

确定所述原始音频中包括语音的目标音频片段；

在所述目标视频片段中获取多帧图像。

在一种可能的实现方式中，所述确定模块，还用于：

获取所述原始音频中的歌声音频和伴奏音频；

确定所述歌声音频中包括语音的目标音频片段。

在一种可能的实现方式中，所述确定模块，用于：

在一种可能的实现方式中，所述判断模块，用于：

在一种可能的实现方式中，所述确定模块，还用于：

第三方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上述第一方面所述的判断视频中字幕的方法所执行的操作。

第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如上述第一方面所述的判断视频中字幕的方法所执行的操作。

第五方面，提供了一种计算机程序产品，所述计算机程序产品中包括有至少一条指令，所述指令由处理器加载并执行以实现如上述第一方面所述的判断视频中字幕的方法所执行的操作。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例提供的判断视频中字幕的方法，首先获取目标视频的多帧图像，然后，检测多帧图像中的文本区域和每个文本区域中的文本。进而，根据多帧图像中的文本区域，确定出满足高出现频次条件的目标文本区域。因为出现频次高很可能是字幕，所以，这里先根据出现频次，选择出目标文本区域。然而，考虑到出现频次高也可能是水印、logo等固定文本，因此，在本申请中，还会对目标文本区域中的文本做进一步的判断，只有目标文本区域在多帧图像中包含的文本满足字幕文本条件，且在目标文本区域中包含文本的图像在多帧图像中的数量占比大于第一阈值的情况下，才会判定目标视频中存在字幕(也即目标文本区域内显示的文本为字幕)。在本申请中，根据文本区域出现频次以及文本内容综合判断视频是否存在字幕，可以有效排除固定文本以及字幕显示位置的影响，相比于相关技术中判断方法更加准确。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种判断视频中字幕的方法流程图；

图2是本申请实施例提供的一种音频信号的示意图；

图3是本申请实施例提供的一种文本区域检测的示意图；

图4是本申请实施例提供的一种文本识别的示意图；

图5是本申请实施例提供的一种判断视频中字幕的方法流程图；

图6是本申请实施例提供的一种文本区域的示意图；

图7是本申请实施例提供的一种判断视频中字幕的装置结构示意图；

图8是本申请实施例提供的一种终端的结构示意图；

图9是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种判断视频中字幕的方法，该方法可以由计算机设备实现，也可以由移动终端实现。其中，计算机设备可以为台式电脑、笔记本电脑、服务器、服务器集群等，移动终端可以为手机、平板电脑等。该方法可以用于判断视频中是否存在字幕，视频可以为电视剧、电影、音乐视频(Music Video，MV)等。在一种可能的实现中，该方法可以应用于使用横版视频制作竖版视频的场景下，在使用横版视频制作竖版视频之前，可以先采用本申请实施例提供的方法判断横版视频中是否存在字幕，进而，根据横版视频中是否存在字幕采用不同的处理逻辑生成竖版视频。

在视频中字幕可能显示在下方，也可能显示在左侧，还可能显示在右侧，此外，在视频中文本情况也比较复杂，除了字幕以外，还可能有水印、应用程序的商标(logotype，logo)等固定文本以及视频背景文本出现。目前，相关技术中判断视频中字幕的方法通常是先识别视频中的文本，如果确定在视频下方指定位置内识别到文本，则认为视频存在字幕。采用相关技术判断视频中是否存在字幕时，如果视频中实际不存在字幕，但是在视频下方的背景中存在文本，那么，也会被误判为视频中存在字幕，此外，如果视频中实际存在字幕，但是字幕显示在视频左侧或者右侧，那么，相关技术也会误判为视频中不存在字幕。显然，在上述复杂的场景下，相关技术存在较大误判的可能性。相比之下，本申请实施例提供的判断视频中字幕的方法有更高的准确性。

下面结合附图对本申请实施例提供的判断视频中字幕的方法进行说明。参见图1，该方法的处理流程可以包括如下步骤：

步骤101、获取目标视频的多帧图像。

其中，目标视频可以为MV、电视剧、电影等。

在实施中，可以获取目标视频每一帧图像进行步骤102及后续步骤的处理。在此情况下，多帧图像包括目标视频每一帧图像。

在一种可能的实现方式中，为了提供处理效率，可以在目标视频的各帧图像中间隔获取图像，具体的，间隔图像数量可以为预设值，如1、2等。以间隔图像数量是1为例，可以获取目标视频的第一帧图像、第三帧图像、第五帧图像，以此类推。

在又一种可能的实现方式中，视频中往往是在有语音(人说话声)的时候显示字幕，那么，可以仅在包括语音的视频片段中获取多帧图像。具体的，处理可以如下：提取目标视频的原始音频，确定原始音频中包括语音的目标音频片段。确定目标音频片段在目标视频中对应的目标视频片段，在目标视频片段中获取多帧图像。

确定原始音频中包括语音的目标音频片段的处理可以为：对原始音频进行语音活动检测(Voice Activity Detection，VAD)处理，得到原始音频中包括语音的目标音频片段。

在目标视频片段中获取多帧图像的处理可以为：在每个目标视频片段中采样预设帧数的图像。例如，确定出目标视频片段20段，预设帧数可以为3，则在20段目标视频片段中的每个视频片段采样3帧图像，总共可以的得到60帧图像。

在目标视频是MV的情况下，在提取目标视频的原始音频之后，可以先对原始音频进行歌声和伴奏分离，得到歌声音频和伴奏音频。然后，对歌声音频进行VAD处理，得到歌声音频中包括语音的目标音频片段。其中，对对原始音频进行歌声和伴奏分离的处理可以为：将原始音频输入端到端歌声分离模型，得到歌声音频和伴奏音频。其中，端到端歌声分离模型可以为残差注意力网络(可称为UNet)。

下面对VAD进行简单介绍：

假设输入的音频信号(上述原始音频或者歌声音频)为x，参见图2最上边一张图，该图示出了一段音频信号。歌声音频中有人说话的部分，能量会更高，因此，可以通过音频信号的能量判断是否存在语音。音频信号的能量记作：σ²(x)。根据音频信号计算能量的公式如下：

其中，x_t表示一个音频帧对应的音频信号，一个音频帧为30毫秒，T为音频帧的总帧数，t表示音频帧在歌声音频中的位置，相邻音频帧之间可以有50％的重合度。参见图2中间一张图，该图示出了音频信号对应的能量。

如果某帧音频信号的能量大于能量阈值，则该帧音频信号对应的VAD输出为1，如果某帧音频信号的能量不大于能量阈值，则该帧音频信号对应的VAD输出为0。参见图2最下边一张图，该图示出了能量阈值为-17dB的情况下，音频信号的VAD输出二分类脉冲图。

步骤102、对多帧图像进行文本检测，确定多帧图像中的文本区域和每个文本区域中的文本。

在实施中，对于获取的多帧图像中的每帧图像，检测出该图像中的文本区域，并识别出文本区域内的文本。文本检测的方法可以有多种，下面列举其中一种进行说明。

在本申请实施例中，文本检测可以分为文本区域检测和文本识别两部分。下面对这两部分分别进行说明：

文本区域检测：

文本区域检测可以采用文本区域检测网络实现，文本区域检测网络是一个深度学习网络，将图像输入文本区域检测网络，文本区域网络即可输出该图像中的文本区域。参见图3，文本区域检测网络可以包括：由紧凑型初始化块(Compact Inception blocks)组成的特征提取网络、由若干个自适应大小的循环神经网络(Recurrent Neural Network，RNN)组成的特征加强网络、由排序(Scores)网络、切割(Boxes)网络及调整(Refinement)网络组成的文本区域提取网络。如图3所示，在输出包含有文本“XX音乐”的图像后，输出文本区域(包含“XX音乐”的矩形框)。

文本识别：

文本识别可以采用文本识别网络实现，文本识别网络是一个深度学习网络，将文本区域对应的图像输出到文本识别网络，文本识别网络即可输出文本区域内包含的文本。参见图4，文本识别网络可以包括：由多个卷积层构成的卷积神经网络、由循环神经网络&注意力网络(RNN&Attention)构成的特征解码网络和连接时序分类和后处理(ConnectionistTemporal Classification&Post Process，CTC&Post Process)网络。如图4所示，在输入包含“XX音乐”的文本区域对应的图像后，输出文本区域内的文本“XX音乐”。

步骤103、根据多帧图像中的文本区域，确定满足高出现频次条件的目标文本区域。如果确定目标文本区域在多帧图像中包含的文本满足字幕文本条件，且在目标文本区域中包含文本的图像在多帧图像中的数量占比大于第一阈值，则确定目标视频中存在字幕。

在实施中，参见图5，该步骤103可以包括如下几个子步骤：

1031、对于目标视频的像素坐标系下的每个像素坐标，统计覆盖像素坐标的文本区域在多帧图像中的出现频次，作为像素坐标的权重值。将相邻且权重值不为0的像素坐标所组成的区域，作为候选文本区域。对于每个候选文本区域，将候选文本区域所覆盖的像素坐标的权重值相加，作为候选文本区域的像素数。

在实施中，假设目标视频每帧图像的像素数为1280×720，则目标视频在像素坐标系下目标视频的像素坐标可以表示为(x，y)，其中，x取值为0到1279，y取值为0到719，每个像素坐标在每帧图像上均对应一个像素点。

对于每个像素坐标来说，如果在上述多帧图像中有N帧图像上检测出的文本区域覆盖了该像素坐标，则说明覆盖像素坐标的文本区域在多帧图像中的出现频次为N，进而，可以将该像素坐标的权重值设置为N。这样，便可以得到每个像素坐标的权重值。参见图6，通过不同的填充背景示出了各像素坐标对应的权重值，不同权重值对应的填充背景不同。

对于任一像素坐标来说，判断某个文本检测区域是否覆盖该像素坐标的方法可以如下：

假设某像素坐标为(x₁，y₁)，某文本区域的最大横坐标为x_max、最小横坐标为x_min、最大纵坐标为y_max和最小纵坐标y_min。如果x_min≤x₁≤x_max且y_min≤y₁≤y_max，则确定该文本区域覆盖该像素坐标。

然后，将相邻且权重值不为0的像素坐标所组成的区域，作为候选文本区域。参见图6，包括有4个候选文本区域。下面对相邻像素坐标进行说明：

假设某像素坐标为(x₁，y₁)，则该像素坐标相邻的像素坐标为：(x₁-1，y₁)、(x₁-1，y₁)、(x₁，y₁+1)和(x₁，y₁-1)。

1032、按照像素数由大到小的顺序，依次获取候选文本区域。每获取一个候选文本区域，将当前获取的候选文本区域，确实为满足高出现频次的目标文本区域。

在实施中，以图6为例，4个候选文本区域中，候选文本区域1的像素数为59148、候选文本区域2的像素数为138553、候选文本区域3的像素数为19500、候选文本区域4的像素数为6700。按照像素数由大到小对4个候选文本区域排序为：候选文本区域2、候选文本区域1、候选文本区域3、候选文本区域4。首先，获取候选文本区域2，将候选文本区域2作为满足高出现频次的目标文本区域，并执行以下步骤，如果候选文本区域2不满足以下步骤中的条件，则获取候选文本区域1，继续执行以下步骤，以此类推。

1033、将当前确定的目标文本区域在多帧图像中包含的文本进行去重，得到去重文本，分别计算目标文本区域在多帧图像中包含的文本和去重文本之间的文本编辑距离。

其中，文本编辑距离为两个文本之间，由一个文本转换为另一个文本，所需的最少编辑操作次数，编辑操作包括将一个字符替换为另一个字符、插入一个字符、删除一个字符。两个文本之间的文本编辑距离越大，表明两个文本越不同，如果两个文本之间的文本编辑距离为0，则表明两个文本相同。

下面通过举例对该步骤进行说明：

假设目标文本区域在图像1、图像2和图像3中包含文本，在图像1中包含的文本为“XX音乐”，在图像2中包含的文本为“XX音乐666”，在图像3中包含的文本为“ABXX音乐”。对目标文本区域在图像1、图像2和图像3中包含的文本进行去重，得到的去重文本为“ABXX音乐666”。然后，计算“ABXX音乐666”和“XX音乐”之间的文本编辑距离，计算“ABXX音乐666”和“XX音乐666”之间的文本编辑距离，计算“ABXX音乐666”和“ABXX音乐”之间的文本编辑距离。

1034、确定目标文本区域在多帧图像中包含的文本和去重文本之间的文本编辑距离是否满足第一字幕文本条件。

在实施中，第一字幕文本条件可以为文本编辑距离不小于第二阈值，第二阈值可以为技术人员根据实际情况进行设置的。相应的，步骤1034的具体处理为：确定步骤1033中计算得到的各文本编辑距离是否均不小于第二阈值。

1035、如果目标文本区域在多帧图像中包含的文本和去重文本之间的文本编辑距离不满足第一字幕文本条件，则继续获取下一个候选文本区域，并转至执行步骤1033。

在实施中，如果步骤1033中计算得到的各文本编辑距离中存在小于第二阈值的文本编辑距离，则继续获取下一个候选文本区域，并转至执行步骤1033。

1036、如果目标文本区域在多帧图像中包含的文本和去重文本之间的文本编辑距离满足第一字幕文本条件，则停止获取候选文本区域，并继续进行如下判断：确定目标文本区域在多帧图像中包含的文本是否满足第二字幕文本条件，且在目标文本区域中包含文本的图像在多帧图像中的数量占比是否大于第一阈值。

在实施中，如果步骤1033中计算得到的各文本编辑距离均小于第二阈值，则停止获取候选文本区域，并进行如下判断：

计算目标文本区域在上述多帧图像中包含的文本的长度均值，并统计在目标文本区域内包含文本的图像在上述多帧图像中的数量占比。

确定长度均值是否大于(或者不小于)第三阈值，即确定目标文本区域在多帧图像中包含的文本是否满足第二字幕文本条件。并确定数量占比是否大于(或者不小于)第一阈值。下面通过举例对该步骤进行说明：

假设步骤101中获取了M帧图像，目标文本区域在其中的m₁帧图像中包含文本，则将这m₁帧图像中目标文本区域内包含的文本的长度相加，得到长度之和L，然后，将L除以m₁，得到长度均值

将m₁除以M，得到数量占比α。判断m₁是否大于第三阈值，α是否大于第二阈值。

1037、如果确定目标文本区域在多帧图像中包含的文本满足第二字幕文本条件，且在目标文本区域中包含文本的图像在多帧图像中的数量占比大于第一阈值，则确定目标视频中存在字幕。

在实施中，结合步骤1036中的举例，对该步骤1037进行说明：

如果m₁大于第三阈值，且α大于第二阈值，则确定目标视频中存在字幕，也即是目标文本区域内的文本为字幕。

1038、如果确定目标文本区域在多帧图像中包含的文本不满足第二字幕文本条件，和/或在目标文本区域中包含文本的图像在多帧图像中的数量占比大于第一阈值，则确定目标视频中不存在字幕。

在实施中，结合步骤1036中的举例，对该步骤1038进行说明：

如果m₁不大于(小于或等于)第三阈值，和/或，α不大于第二阈值，则确定目标视频中不存在字幕。

即目标文本区域在多帧图像中包含的文本需要满足字幕文本条件，且目标文本区域中包含文本的图像在多帧图像中的数量占比是否大于第一阈值，才会确定目标视频中存在字幕。此处，字幕文本条件包括上述第一字幕文本条件和第二字幕文本条件。

在一种可能的实现方式中，在步骤1031之前，可以先对一些已知的固定文本进行排除，如应用程序logo等。具体的，处理可以如下：将包含的文本为预设固定文本的文本区域，在多帧图像检测出的文本区域中剔除。相应的，在后续步骤1031的处理中，便可以是在剔除之后的文本区域基础上执行的。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

基于相同的技术构思，本申请实施例还提供了一种判断视频中字幕的装置，该装置可以为计算机设备，参见图7，该装置包括获取模块710、确定模块720和判断模块730，其中：

获取模块710，用于获取目标视频的多帧图像；

确定模块720，用于对所述多帧图像进行文本检测，确定所述多帧图像中的文本区域和每个文本区域中的文本；根据所述多帧图像中的文本区域，确定满足高出现频次条件的目标文本区域；

判断模块730，用于如果确定所述目标文本区域在所述多帧图像中包含的文本满足字幕文本条件，且在所述目标文本区域中包含文本的图像在所述多帧图像中的数量占比大于第一阈值，则确定所述目标视频中存在字幕。

在一种可能的实现方式中，所述获取模块710，用于：

提取目标视频的原始音频；

确定所述原始音频中包括语音的目标音频片段；

在所述目标视频片段中获取多帧图像。

在一种可能的实现方式中，所述确定模块720，还用于：

获取所述原始音频中的歌声音频和伴奏音频；

确定所述歌声音频中包括语音的目标音频片段。

在一种可能的实现方式中，所述确定模块720，用于：

在一种可能的实现方式中，所述判断模块730，用于：

在一种可能的实现方式中，所述确定模块720，还用于：

需要说明的是：上述实施例提供的判断视频中字幕的装置在判断视频中字幕时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的判断视频中字幕的装置与判断视频中字幕的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8示出了本申请一个示例性实施例提供的电子设备800的结构框图。该电子设备800可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，电子设备800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的判断视频中字幕的方法。

在一些实施例中，电子设备800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置在电子设备800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在电子设备800的不同表面或呈折叠设计；在另一些实施例中，显示屏805可以是柔性显示屏，设置在电子设备800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位电子设备800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源809用于为电子设备800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以电子设备800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测电子设备800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对电子设备800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在电子设备800的侧边框和/或显示屏805的下层。当压力传感器813设置在电子设备800的侧边框时，可以检测用户对电子设备800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在显示屏805的下层时，由处理器801根据用户对显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置在电子设备800的正面、背面或侧面。当电子设备800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制显示屏805的显示亮度。具体地，当环境光强度较高时，调高显示屏805的显示亮度；当环境光强度较低时，调低显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在电子设备800的前面板。接近传感器816用于采集用户与电子设备800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与电子设备800的正面之间的距离逐渐变小时，由处理器801控制显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与电子设备800的正面之间的距离逐渐变大时，由处理器801控制显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对电子设备800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图9是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)901和一个或一个以上的存储器902，其中，所述存储器902中存储有至少一条指令，所述至少一条指令由所述处理器901加载并执行以实现上述各个方法实施例提供的方法。当然，该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中判断视频中字幕的方法。该计算机可读存储介质可以是非暂态的。例如，所述计算机可读存储介质可以是ROM(Read-OnlyMemory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(CompactDisc Read-Only Memory，光盘只读存储器)、磁带、软盘和光数据存储设备等。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号(包括但不限于用户终端与其他设备之间传输的信号等)，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的目标视频都是在充分授权的情况下获取的。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种判断视频中字幕的方法，其特征在于，所述方法包括：

获取目标视频的多帧图像；

2.根据权利要求1所述的方法，其特征在于，所述获取目标视频的多帧图像，包括：

提取目标视频的原始音频；

确定所述原始音频中包括语音的目标音频片段；

在所述目标视频片段中获取多帧图像。

3.根据权利要求2所述的方法，其特征在于，所述确定所述原始音频中包括语音的目标音频片段之前，所述方法还包括：

获取所述原始音频中的歌声音频和伴奏音频；

所述确定所述原始音频中包括语音的目标音频片段，包括：

确定所述歌声音频中包括语音的目标音频片段。

4.根据权利要求2所述的方法，其特征在于，所述确定所述原始音频中包括语音的目标音频片段，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述多帧图像中的文本区域，确定满足高出现频次条件的目标文本区域，包括：

6.根据权利要求1所述的方法，其特征在于，所述确定所述目标文本区域在所述多帧图像中包含的文本满足字幕文本条件，包括：

7.根据权利要求6所述的方法，其特征在于，所述如果所述目标文本区域在所述多帧图像中包含的文本和所述去重文本之间的文本编辑距离均小于第二阈值，则确定所述目标文本区域在所述多帧图像中包含的文本满足字幕文本条件，包括：

8.根据权利要求1-7中任一项所述的方法，其特征在于，所述根据所述多帧图像中的文本区域，确定满足高出现频次条件的目标文本区域之前，所述方法还包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至权利要求8任一项所述的判断视频中字幕的方法所执行的操作。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求8任一项所述的判断视频中字幕的方法所执行的操作。