CN114071184A

CN114071184A - 一种字幕定位方法、电子设备及介质

Info

Publication number: CN114071184A
Application number: CN202111333945.1A
Authority: CN
Inventors: 张悦; 黄均昕; 曾裕斌; 董治; 姜涛
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2022-02-18

Abstract

本申请公开了一种字幕定位方法、电子设备及介质，将视频文件中歌曲音频信号的音频指纹与预设的音频指纹库进行匹配，以确定出音频指纹匹配的目标歌曲以及歌曲音频信号在目标歌曲的时间位置；其中，音频指纹库中记录了歌曲和歌曲指纹信息的对应关系。根据目标歌曲的歌词分布时间和歌曲音频信号在目标歌曲中的时间位置，确定出视频文件中每句歌词对应的视频片段。从每个视频片段中筛选出预设数量的帧图片作为待分析帧图片，只需对待分析帧图片进行字幕定位，依赖于待分析帧图片中的字幕信息可以快速确定出每个视频片段中其余帧图片的字幕信息，在保证字幕定位准确性的同时，极大的降低了字幕定位所花费的时间。

Description

一种字幕定位方法、电子设备及介质

技术领域

本申请涉及视频处理技术领域，特别涉及一种字幕定位方法、电子设备及计算机可读存储介质。

背景技术

随着移动互联网的普及，用户在手机上浏览信息的时间要远大于其他媒介。而手机更适合竖版视频浏览，但是现有的音乐短片(Music Video，MV)大多数为横版，这就需要我们裁剪出竖版视频。裁剪过程要避免将视频中的歌词字幕截断的问题，因此需要对原有歌词字幕进行消除，而歌词字幕的定位是字幕消除的前提条件。

目前视频中的歌词字幕定位方案大多将视频转化为图片序列，再逐帧进行歌词字幕的检测。歌词字幕的检测技术主要包括基于传统边缘检测的方法和基于深度学习的方法。

传统边缘检测的方法高度依赖经验参数的设计，在大规模数据上检测准确率不高。基于深度学习的方法，如果采用逐帧检测的方式，将耗费较长的时间，比如，一个4分钟，每秒的帧数为25的视频包括6000帧图片，即使采用最快的深度学习模型也需要10分钟。为了减少运算时间，在将视频拆分成带时序的图片之后，可以对这些图片聚类后再抽样进行字幕检测。但是如果被抽取的图片中没有字幕，就会导致该片段字幕漏检，并且对于字幕颜色与背景颜色接近的情况也会导致漏检。此外深度学习模型会产生较多的误检测，如将背景文字、广告文字、衣服上的文字等误检为歌词字幕。

可见，如何在保证字幕定位准确性的同时，降低字幕定位所花费的时间，是本领域技术人员需要解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种字幕定位方法、装置、电子设备及计算机可读存储介质，能够在保证字幕定位准确性的同时，降低字幕定位所花费的时间。其具体方案如下：

第一方面，本申请公开了一种字幕定位方法，包括：

将视频文件中歌曲音频信号的音频指纹与预设的音频指纹库进行匹配，以确定出所述音频指纹匹配的目标歌曲以及所述歌曲音频信号在所述目标歌曲的时间位置；其中，所述音频指纹库中记录了歌曲和歌曲指纹信息的对应关系；

根据所述目标歌曲的歌词分布时间和所述歌曲音频信号在所述目标歌曲中的时间位置，确定所述视频文件中每句歌词对应的视频片段；

从每个所述视频片段中筛选出预设数量的帧图片作为待分析帧图片；

确定所述待分析帧图片中的字幕信息，并基于所述待分析帧图片中的字幕信息确定出每个所述视频片段中其余帧图片的字幕信息。

可选地，所述将视频文件中歌曲音频信号的音频指纹与预设的音频指纹库进行匹配，以确定出所述音频指纹匹配的目标歌曲以及所述歌曲音频信号在所述目标歌曲的时间位置包括：

从视频文件中提取歌曲音频信号，并将所述歌曲音频信号转换为语音频谱图；

基于所述语音频谱图中各个峰值点，确定出所述歌曲音频信号的音频指纹；

将所述音频指纹与所述音频指纹库中各歌曲指纹信息进行匹配，以确定出所述音频指纹匹配的目标歌曲以及所述歌曲音频信号在所述目标歌曲的时间位置。

可选地，所述根据所述目标歌曲的歌词分布时间和所述歌曲音频信号在所述目标歌曲中的时间位置，确定所述视频文件中每句歌词对应的视频片段包括：

依据所述歌曲音频信号在所述目标歌曲的时间位置，从所述目标歌曲中截取出与所述歌曲音频信号匹配的歌曲片段；

根据所述歌曲片段的歌词分布时间，确定出所述歌曲片段中每句歌词对应的时间范围；

基于所述歌曲片段中每句歌词对应的时间范围以及所述视频文件的帧率，确定出所述视频文件中每句歌词对应的视频片段。

可选地，所述字幕信息包括位置信息和文字类别；所述确定所述待分析帧图片中的字幕信息包括：

利用文字检测网络模型，识别所述待分析帧图片中文字内容所对应的位置信息；

根据所述待分析帧图片中文字内容所对应的位置信息，确定出各所述文字内容对应的文字类别。

可选地，所述根据所述待分析帧图片中文字内容所对应的位置信息，确定出各所述文字内容对应的文字类别包括：

若所述待分析帧图片中同一区域位置上目标文字的出现频率小于预设频率阈值，则将目标文字的文字内容判定为背景类文字；和/或

若所述待分析帧图片中同一区域位置上目标文字的出现频率不小于预设频率阈值，并且所述目标文字的文字端点位置偏移率小于预设变化率阈值，则将目标文字的文字内容判定为标志类文字；和/或

若所述待分析帧图片中同一区域位置上目标文字的出现频率不小于预设频率阈值，并且所述目标文字的文字端点位置偏移率不小于所述预设变化率阈值，则将目标文字的文字内容判定为歌词类文字。

可选地，所述预设频率阈值包括第一预设频率阈值、第二预设频率阈值和第三预设频率阈值；其中，所述第一预设频率阈值大于所述第二预设频率阈值；所述第二预设频率阈值大于所述第三预设频率阈值；

所述根据所述待分析帧图片中文字内容所对应的位置信息，确定出各所述文字内容对应的文字类别包括：

若所述待分析帧图片的第一区域位置上的文字出现频率大于第一预设频率阈值，并且所述第一区域位置上的文字端点位置偏移率小于预设变化率阈值，则将所述第一区域位置上的文字内容判定为标志类文字；和/或

若所述待分析帧图片的第二区域位置上的文字出现频率大于第二预设频率阈值，并且所述第二区域位置上的文字端点位置偏移率不小于所述预设变化率阈值，则将所述第二区域位置上的文字内容判定为歌词类文字；和/或

若所述待分析帧图片的第三区域位置上的文字出现频率小于第三预设频率阈值，则将所述第三区域位置上的文字内容判定为背景类文字。

依据所述待分析帧图片中文字内容所对应的位置信息，将所述待分析帧图片转换为二值图；在所述二值图中采用两个不同的数字分别表征文字区域上的像素点以及非文字区域上的像素点；

将所述二值图中相同位置的像素点对应的数字相加，得到各像素点对应的叠加值；

依据所述各像素点对应的叠加值所属的类别值范围，确定出各所述文字内容对应的文字类别；其中，每种文字类别有其对应的类别值范围；所述文字类别包括标志类文字、歌词类文字和背景类文字。

可选地，所述基于所述待分析帧图片中的字幕信息确定出每个所述视频片段中其余帧图片的字幕信息包括：

将所述标志类文字对应的位置信息复制在每个所述视频片段中其余帧图片上；

将所述歌词类文字中每句歌词对应的位置信息复制在具有相同歌词的所述视频片段中其余帧图片上。

第二方面，本申请公开了一种字幕定位装置，包括匹配单元、视频片段确定单元、筛选单元和字幕确定单元；

所述匹配单元，用于将视频文件中歌曲音频信号的音频指纹与预设的音频指纹库进行匹配，以确定出所述音频指纹匹配的目标歌曲以及所述歌曲音频信号在所述目标歌曲的时间位置；其中，所述音频指纹库中记录了歌曲和歌曲指纹信息的对应关系；

所述视频片段确定单元，用于根据所述目标歌曲的歌词分布时间和所述歌曲音频信号在所述目标歌曲中的时间位置，确定所述视频文件中每句歌词对应的视频片段；

所述筛选单元，用于从每个所述视频片段中筛选出预设数量的帧图片作为待分析帧图片；

所述字幕确定单元，用于确定所述待分析帧图片中的字幕信息，并基于所述待分析帧图片中的字幕信息确定出每个所述视频片段中其余帧图片的字幕信息。

可选地，所述匹配单元包括提取子单元、转换子单元和确定子单元；

所述提取子单元，用于从视频文件中提取歌曲音频信号；

所述转换子单元，用于将所述歌曲音频信号转换为语音频谱图；

所述确定子单元，用于基于所述语音频谱图中各个峰值点，确定出所述歌曲音频信号的音频指纹；将所述音频指纹与所述音频指纹库中各歌曲指纹信息进行匹配，以确定出所述音频指纹匹配的目标歌曲以及所述歌曲音频信号在所述目标歌曲的时间位置。

可选地，所述视频片段确定单元包括截取子单元和确定子单元；

所述截取子单元，用于依据所述歌曲音频信号在所述目标歌曲的时间位置，从所述目标歌曲中截取出与所述歌曲音频信号匹配的歌曲片段；

所述确定子单元，用于根据所述歌曲片段的歌词分布时间，确定出所述歌曲片段中每句歌词对应的时间范围；基于所述歌曲片段中每句歌词对应的时间范围以及所述视频文件的帧率，确定出所述视频文件中每句歌词对应的视频片段。

可选地，所述字幕信息包括位置信息和文字类别；所述字幕确定单元包括识别子单元和类别确定子单元；

所述识别子单元，用于利用文字检测网络模型，识别所述待分析帧图片中文字内容所对应的位置信息；

所述类别确定子单元，用于根据所述待分析帧图片中文字内容所对应的位置信息，确定出各所述文字内容对应的文字类别。

可选地，所述类别确定子单元用于若所述待分析帧图片中同一区域位置上目标文字的出现频率小于预设频率阈值，则将目标文字的文字内容判定为背景类文字；和/或若所述待分析帧图片中同一区域位置上目标文字的出现频率不小于预设频率阈值，并且所述目标文字的文字端点位置偏移率小于预设变化率阈值，则将目标文字的文字内容判定为标志类文字；和/或若所述待分析帧图片中同一区域位置上目标文字的出现频率不小于预设频率阈值，并且所述目标文字的文字端点位置偏移率不小于所述预设变化率阈值，则将目标文字的文字内容判定为歌词类文字。

所述类别确定子单元，用于若所述待分析帧图片的第一区域位置上的文字出现频率大于第一预设频率阈值，并且所述第一区域位置上的文字端点位置偏移率小于预设变化率阈值，则将所述第一区域位置上的文字内容判定为标志类文字；和/或若所述待分析帧图片的第二区域位置上的文字出现频率大于第二预设频率阈值，并且所述第二区域位置上的文字端点位置偏移率不小于所述预设变化率阈值，则将所述第二区域位置上的文字内容判定为歌词类文字；和/或若所述待分析帧图片的第三区域位置上的文字出现频率小于第三预设频率阈值，则将所述第三区域位置上的文字内容判定为背景类文字。

可选地，所述类别确定子单元，用于依据所述待分析帧图片中文字内容所对应的位置信息，将所述待分析帧图片转换为二值图；在所述二值图中采用两个不同的数字分别表征文字区域上的像素点以及非文字区域上的像素点；将所述二值图中相同位置的像素点对应的数字相加，得到各像素点对应的叠加值；依据所述各像素点对应的叠加值所属的类别值范围，确定出各所述文字内容对应的文字类别；其中，每种文字类别有其对应的类别值范围；所述文字类别包括标志类文字、歌词类文字和背景类文字。

可选地，所述字幕确定单元用于将所述标志类文字对应的位置信息复制在每个所述视频片段中其余帧图片上；将所述歌词类文字中每句歌词对应的位置信息复制在具有相同歌词的所述视频片段中其余帧图片上。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的字幕定位方法。

第四方面，本申请公开了一种计算机可读存储介质，用于保存计算机程序，所述计算机程序被处理器执行时实现前述公开的字幕定位方法。

本申请中，将视频文件中歌曲音频信号的音频指纹与预设的音频指纹库进行匹配，以确定出音频指纹匹配的目标歌曲以及歌曲音频信号在目标歌曲的时间位置；其中，音频指纹库中记录了歌曲和歌曲指纹信息的对应关系。音频指纹可以是基于歌曲音频信号的特性生成的用于唯一标识歌曲音频信号的信息。歌曲指纹信息与音频指纹的生成方式相同，通过将音频指纹与预设的音频指纹库进行匹配，可以确定出歌曲音频信号所属的目标歌曲，并且歌曲音频信号在该目标歌曲的时间位置。基于歌曲中每句歌词的持续时间以及视频文件中单位时间内播放的帧图片的数量，可知同一句歌词往往会同时出现在多张帧图片中，如果对视频文件中每帧图片都进行分析，对于包含相同歌词的帧图片而言属于重复分析。为了降低字幕定位所花费的时间，可以根据目标歌曲的歌词分布时间和歌曲音频信号在目标歌曲中的时间位置，确定出视频文件中每句歌词对应的视频片段。从每个视频片段中筛选出预设数量的帧图片作为待分析帧图片。在筛选出待分析帧图片之后，只需对待分析帧图片进行字幕定位，确定出待分析帧图片中的字幕信息即可。依赖于待分析帧图片中的字幕信息可以快速确定出每个视频片段中其余帧图片的字幕信息。在该技术方案中，通过音频指纹的匹配，可以确定出歌曲音频信号所属的目标歌曲以及歌曲音频信号在目标歌曲中的时间位置。根据目标歌曲的歌词分布时间以及歌曲音频信号在目标歌曲的时间位置，可以从每句歌词对应的视频片段中筛选出预设数量的帧图片作为待分析帧图片，依赖于待分析帧图片的字幕定位结果，便可以快速确定出视频文件中所有帧图片的字幕位置，在保证字幕定位准确性的同时，极大的降低了字幕定位所花费的时间。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种字幕定位方法所适用的系统硬件组成框架图；

图2为本申请提供的一种字幕定位方法流程图；

图3为本申请提供的一种选取待分析帧图片的方法的流程图；

图4为本申请提供的一种对视频文件中每帧图片进行字幕标记的方法的流程图；

图5为本申请实施例提供的一种确定文字类别的方法的流程图；

图6a为本申请提供的一张帧图片的示意图；

图6b为本申请提供的对图6a的帧图片进行字幕定位的示意图；

图6c为本申请提供的与图6a的帧图片具有相同的歌词的另一张帧图片；

图7为本申请提供的一种字幕定位装置结构示意图；

图8为本申请提供的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

歌词字幕的定位是字幕消除的前提条件。在实现字幕定位时基于传统边缘检测的方法，在大规模数据上检测准确率不高。基于深度学习的方法，如果采用逐帧检测的方式，将耗费较长的时间。如果对视频文件中所有帧图片聚类后再抽样进行字幕检测，容易出现漏检或误检，导致字幕定位的准确性下降。

故此，本申请实施例提供了一种字幕定位方法、装置、电子设备及计算机可读存储介质，本申请实施例提供的字幕定位方案主要针对于字幕内容以及字幕的时间分布具有规律性的字幕，主要以歌曲为例。

如图1所示为本申请实施例提供的一种字幕定位方法所适用的系统硬件组成框架图，传统方式下拍摄的视频文件往往以横屏的模式播放，当用户终端具有竖屏播放视频文件的需求时，可以向服务器发送视频文件的竖屏播放指令。用户终端可以为手机等便携式电子设备。

在实际应用中，将横屏播放的视频文件转换为竖屏播放的视频文件时，为了保证视频文件字幕的完整性，需要对视频文件中字幕所在位置进行定位。当确定出视频文件中所有帧图片的字幕信息后，可以依赖于帧图片的字幕信息，对视频文件执行竖屏裁剪，从而使得裁剪后的视频文件适用于竖屏播放。在实际应用中，可以采用一台服务器执行字幕定位和视频文件竖屏裁剪两个流程。也可以采用两台服务器，一台服务器用于执行视频文件的字幕定位，另一台服务器用于执行视频文件竖屏裁剪。图1中是以两台服务器执行字幕定位和视频文件竖屏裁剪为例，服务器1可以用于执行视频文件的字幕定位，服务器2可以用于执行视频文件竖屏裁剪。服务器1和服务器2可以为多个用户终端提供字幕定位以及视频文件竖屏裁剪的服务。图1中是以服务器和一个用户终端交互为例。

服务器1对视频文件进行字幕定位时，视频文件可以由用户终端向服务器1传输得到，除此之外，视频文件也可以由服务器1从第三方存储端获取，在此对于视频文件的来源不做限定。

服务器1为了实现对视频文件中各帧图片的字幕定位，可以依赖于视频文件中歌曲音频信号匹配的目标歌曲以及歌曲音频信号在目标歌曲的时间位置，确定出视频文件中每句歌词对应的视频片段。为了快速的确定出歌曲音频信号匹配的目标歌曲，可以在服务器1上设置音频指纹库，在该音频指纹库中可以记录大量的歌曲和歌曲指纹信息的对应关系。将视频文件中歌曲音频信号的音频指纹与预设的音频指纹库进行匹配，便可以确定出音频指纹匹配的目标歌曲以及音频信号在目标歌曲的时间位置。

歌曲中每句歌词有其对应的播放时长，因此每句歌词往往包含在多张帧图片中，可以根据目标歌曲的歌词分布时间和歌曲音频信号在目标歌曲中的时间位置，确定视频文件中每句歌词对应的视频片段。在实际应用中，只需从每个视频片段中筛选出预设数量的帧图片作为待分析帧图片，对待分析帧图片进行字幕定位，确定出待分析帧图片中的字幕信息。基于待分析帧图片中的字幕信息可以快速确定出每个视频片段中其余帧图片的字幕信息，极大的减少了需要执行字幕定位分析的帧图片数量。在保证字幕定位准确性的同时，极大的降低了字幕定位所花费的时间。

图2为本申请实施例提供的一种字幕定位方法流程图。参见图2所示，该字幕定位方法可以包括以下步骤

S201：将视频文件中歌曲音频信号的音频指纹与预设的音频指纹库进行匹配，以确定出音频指纹匹配的目标歌曲以及歌曲音频信号在目标歌曲的时间位置。

其中，音频指纹库中记录了歌曲和歌曲指纹信息的对应关系。

音频指纹可以是基于歌曲音频信号的特性生成的用于唯一标识歌曲音频信号的信息。歌曲指纹信息与音频指纹的生成方式相同，通过将音频指纹与预设的音频指纹库进行匹配，可以确定出歌曲音频信号所属的目标歌曲，并且音频信号在该目标歌曲的时间位置。

在本申请实施例中，可以从视频文件中提取歌曲音频信号，并将歌曲音频信号转换为语音频谱图；基于语音频谱图中各个峰值点，确定出歌曲音频信号的音频指纹；将音频指纹与音频指纹库中各歌曲指纹信息进行匹配，以确定出音频指纹匹配的目标歌曲以及歌曲音频信号在目标歌曲的时间位置。

在一种具体实施方式中，基于峰值点确定出音频指纹的方式可以包括从各个峰值点中选择邻近峰值点集，将邻近峰值点集编码为音频指纹。

每个邻近峰值点集编码可以得到一个子指纹，可以将各邻近峰值点集对应的子指纹合并作为音频指纹。

其中，从各个峰值点中选择邻近峰值点集可以是以语音频谱图中的任一个峰值点为圆心，预设距离阈值为半径确定覆盖范围，将覆盖范围内时间点大于圆心的时间点的所有峰值点组合为邻近峰值点集。邻近峰值点集中只包括处于一定范围内，且时间点大于圆心的时间点的峰值点，也就是处于圆心后面的峰值点，如此可以避免出现重复的子指纹。当然，也可以按照其他策略选择邻近峰值点集，在此不做限定。

在实际应用中，可以利用哈希算法将邻近峰值点集编码为音频指纹，以减少指纹相撞的可能性。

语音频谱图中的峰值点代表了一首歌在每个时刻最具代表性的频率值，每个峰值点对应一个由频率和时间组成的标记(f，t)，该标记可理解为坐标。每个峰值点与其n个邻近峰值点对应的标记可组成邻近峰值点集，随后采用哈希编码的形式可将其编码成音频指纹。

举例说明，若将作为圆心的峰值点表示为(f0，t0)，其n个邻近峰值点集表示为(f1，t1)，(f2，t2)，…，(fn，tn)，则将(f0，t0)与其每一个邻近峰值点组合起来，得到各对组合信息，如(f0，f1，t1-t0)，(f0，f2，t2-t0)，…，(f0，fn，tn-t0)，随后采用哈希编码的形式可将每一对组合信息编码成为子指纹。所有子指纹合并作为歌曲音频信号的音频指纹。

S202：根据目标歌曲的歌词分布时间和歌曲音频信号在目标歌曲中的时间位置，确定视频文件中每句歌词对应的视频片段。

歌词分布时间指的是歌曲中每句歌词中每个字对应的时间范围。在实际应用中，QRC歌词(QQ音乐播放器的歌词文件)可以精准控制到每一个字，QRC歌词的每句歌词格式为：[开始时间ms，持续时间ms]歌词(开始时间ms，持续时间ms)。

方括号内开始时间表示一句歌词在整首歌曲中的开始时间，方括号内持续时间表示一句歌词播放时占用的时间，小括号内开始时间表示每个字的开始时间，持续时间表示这个字播放时占用的时间。

例如，歌词为“我习惯深埋雾里”，其对应的歌词格式为：[6156，1996]我(6156，147)习(6303，154)惯(6457，224)深(6681，187)埋(6868，324)雾(7192，395)里(7587，565)。方括号内的6156表示这句歌词在整首歌曲中的开始时间为第6156ms，1996表示这句歌词播放时占用的时间为1996ms。以其中任意一个字为例，如“深”，其对应的6681表示“深”这个字在整首歌曲中的开始时间为第6681ms，187表示“深”这个字在歌词“我习惯深埋雾里”播放时占用的时间为187ms。

在本申请实施例中，可以依赖于QRC歌词确定出目标歌曲的歌词分布时间。

根据歌曲音频信号在目标歌曲的时间位置，可以确定出目标歌曲中与歌曲音频信号相匹配的歌词内容。

例如，目标歌曲的持续时间为4分钟，歌曲音频信号在目标歌曲中的时间位置为第2分钟，歌曲音频信号的持续时间为1分钟，则目标歌曲中第2分钟到第3分钟对应的歌词内容即为歌曲音频信号相匹配的歌词内容。

基于歌曲中每句歌词的持续时间以及视频文件中单位时间内播放的帧图片的数量，可知同一句歌词往往会同时出现在多张帧图片中，在本申请实施例中，可以将具有同一句歌词的连续多张帧图片称作一个视频片段。根据目标歌曲的歌词分布时间以及歌曲音频信号在目标歌曲的时间位置，可以确定出视频文件中每句歌词对应的视频片段。

S203：从每个视频片段中筛选出预设数量的帧图片作为待分析帧图片。

如果对视频文件中每帧图片都进行分析，对于包含相同歌词的帧图片而言属于重复分析。为了降低字幕定位所花费的时间，在本申请实施例中，可以从每个视频片段中筛选出预设数量的帧图片作为待分析帧图片。

预设数量的取值可以根据实际需求设置，例如预设数量可以设置为2。

举例说明，假设一个视频片段中包含有48张帧图片，这48张帧图片包含有相同的一句歌词，为了降低对帧图片进行字幕定位所花费的时间，可以从48张帧图片中选取出的2张帧图片进行字幕定位分析即可。在实际应用中，可以从这48张帧图片中任意选取2张帧图片作为待分析帧图片，也可以按照时间顺序，选取第一张帧图片和最后一张帧图片。在确定出这2张帧图片的字幕信息后，直接将歌词以及标志类文字对应的字幕信息复制在剩余的46张帧图片即可。

S204：确定待分析帧图片中的字幕信息，并基于待分析帧图片中的字幕信息确定出每个视频片段中其余帧图片的字幕信息。

在本申请实施例中，可以采用现有的字幕定位技术对待分析帧图片的字幕进行定位。在确定出待分析帧图片中的字幕信息之后，基于待分析帧图片中的字幕信息确定出每个视频片段中其余帧图片的字幕信息。

字幕信息可以包括文字类别和位置信息。其中，位置信息可以采用坐标的形式表示。

文字类别指的是字幕的文字内容所属的类别，可以包括歌词类文字、标志类文字和背景类文字。

背景类文字几乎不会对视频文件的竖屏裁剪造成影响，因此可以直接忽略视频文件中每帧图片的背景类文字。

歌词类文字和标志类文字会对视频文件的竖屏裁剪造成影响，因此在确定其余帧图片的字幕信息时主要对帧图片中出现的歌词类文字和标志类文字进行标记。

标志类文字往往是内容固定且在视频文件的各帧图片中位置较为固定的文字，例如，播放当前视频文件的软件logo、或者是播放当前视频文件的节目logo等。在确定出待分析帧图片中标志类文字对应的位置信息之后，该位置信息可以适用于每个视频片段中其余帧图片。

对于歌词类文字而言，一个视频片段中各帧图片包含有相同的歌词，不同视频片段中歌词内容有所不同，但是各视频片段中歌词出现的位置较为固定，比如歌词出现在帧图片的底部位置。在确定出待分析帧图片中歌词类文字对应的位置信息之后，待分析帧图片中每句歌词对应的位置信息可以适用于具有相同歌词的视频片段的其余帧图片。

图3为本申请实施例提供的一种选取待分析帧图片的方法的流程图。参见图3所示，该选取待分析帧图片的方法可以包括以下步骤

S301：依据歌曲音频信号在目标歌曲的时间位置，从目标歌曲中截取出与歌曲音频信号匹配的歌曲片段。

在实际应用中，视频文件中包含的歌曲可能并非是一整首完整的歌曲，而是截取的歌曲片段。在执行待分析帧图片的筛选时需要确定出与歌曲音频信号所匹配的歌词内容，因此，在本申请实施例中，可以根据音频信号在目标歌曲的时间位置，确定出音频信号对应的是歌曲中的哪部分片段，从而在目标歌曲中截取出与歌曲音频信号匹配的歌曲片段。

S302：根据歌曲片段的歌词分布时间，确定出歌曲片段中每句歌词对应的时间范围。

在本申请实施例中，可以依赖于QRC歌词确定出歌曲片段的歌词分布时间，歌词分布时间中包含了歌曲中每句歌词中每个字对应的时间范围，如每个字的开始时间和持续时间。

S303：基于歌曲片段中每句歌词对应的时间范围以及视频文件的帧率，确定出视频文件中每句歌词对应的视频片段。

视频文件的帧率可以是视频文件在单位时间内播放的帧图片的数量，一般情况下，视频文件的帧率可以25fps。

举例说明，假设一句歌词的持续时间为1920ms，视频文件为每秒钟播放25帧图片，则可以确定出该句歌词会在连续的1920/1000*25＝48帧图片中出现，这连续的48帧图片即为一个视频片段。以此类推，可以确定出视频文件中每句歌词对应的视频片段。

在本申请实施例中，通过确定歌曲音频信号对应的歌曲片段，并依据歌曲片段中每句歌词对应的时间范围以及视频文件的帧率，确定出视频文件中每句歌词对应的视频片段。在执行待分析帧图片的筛选时会从每个视频片段中筛选出至少一个待分析帧图片，从而保证筛选出的所有待分析帧图片可以包含歌曲片段对应的所有歌词，在减少字幕定位分析的帧图片数量的同时，使得筛选出的待分析帧图片具有较高的代表性，从而保证对视频文件执行字幕定位分析的准确性。

图4为本申请实施例提供的一种对视频文件中每帧图片进行字幕标记的方法的流程图。参见图4所示，对视频文件中每帧图片进行字幕标记的方法可以包括以下步骤

S401：利用文字检测网络模型，识别待分析帧图片中文字内容所对应的位置信息。

文字检测网络模型可以采用现有较为成熟的VGG16网络架构，实现对待分析帧图片的字幕定位。

文字检测网络模型输入为彩色图片，网络输出为与输入图片相同尺寸的两个概率图，其中一个概率图代表每个像素点属于文字的概率，另一个概率图代表每个像素点属于两个文字之间的概率。结合两个输出概率图，即可得到一个与输入图片相同尺寸的黑白图，黑色区域代表有文字内容，白色区域代表没有文字内容。

S402：根据待分析帧图片中文字内容所对应的位置信息，确定出各文字内容对应的文字类别。

文字类别可以包括歌词类文字、背景类文字和标志类文字。

对于背景类文字，其在所有待分析帧图片中出现的概率较低。对于歌词类文字和标志类文字，其在所有待分析帧图片中出现的概率较高。而标志类文字的文字内容相对固定，因此标志类文字在待分析帧图片中所对应的区域位置相对固定。而歌词类文字，由于不同歌词长短不一，因此在不同待分析帧图片中歌词类文字所对应的区域位置会发生变化。故此在本申请实施例中，根据待分析帧图片中文字内容所对应的位置信息，可以确定出相同区域位置下文字内容在所有待分析帧图片中出现的概率。并且依据文字内容对应的位置信息的变化，可以确定出文字内容在不同待分析帧图片中所在区域位置的变化情况，从而确定出各文字内容对应的文字类别。

图5为本申请实施例提供的一种确定文字类别的方法的流程图，该方法包括：

S501：判断待分析帧图片中同一区域位置上目标文字的出现频率是否小于预设频率阈值。

预设频率阈值的取值可以根据实际需求设定。设置预设频率阈值的目的是为了区分标志类文字、背景类文字和歌词类文字出现的概率。

在实际应用中，预设频率阈值可以设置为一个数值。

考虑到背景类文字几乎不会在所有待分析帧图片中均出现，因此若待分析帧图片中同一区域位置上目标文字的出现频率小于预设频率阈值，则说明目标文字的文字内容应该是背景类文字，此时可以执行S502。

若待分析帧图片中同一区域位置上目标文字的出现频率不小于预设频率阈值，则说明目标文字的文字内容应该是标志类文字或歌词类文字，此时可以对目标文字进行进一步的判断，即执行S503。

S502：将目标文字的文字内容判定为背景类文字。

待分析帧图片中同一区域位置上目标文字的出现频率小于预设频率阈值，则可以将目标文字的文字内容判定为背景类文字。

举例说明，假设预设频率阈值30％，待分析帧图片有10张，这10张待分析帧图片中只有1张待分析图片的一个区域位置出现了文字，其它待分析帧图片的相同区域位置均未出现文字，此时待分析帧图片的同一区域位置上的文字出现频率为1/10＝10％，10％小于预设频率阈值30％，此时可以将该文字内容判定为背景类文字。

S503：判断目标文字的文字端点位置偏移率是否小于预设变化率阈值。

文字端点位置偏移率可以用于表征文字内容在各帧图片中所处位置的变化情况。

考虑到实际应用中，当文字内容发生变化时，该文字内容在帧图片中所占据的连通区域的顶点坐标会发生变化，因此在本申请实施例中，可以基于文字内容所占据的连通区域的顶点坐标的变化情况确定出文字端点位置偏移率。

图6a、图6b和图6c为本申请实施例提供的一种字幕定位方法所适用的应用场景示意图，图6a是一张帧图片的示意图，图6a左上角记载的“QQ音乐”为该帧图片的logo，属于标志类文字。图6a帧图片的底部中央位置记载的“我习惯深埋雾里”为该帧图片上的歌词。图6a帧图片的中央位置记载的“春眠不觉晓处处闻啼鸟夜来风雨声花落知多少”为该帧图片上的背景文字。

图6b是对图6a的帧图片进行字幕定位的示意图，按照传统的方式对图6a的帧图片进行字幕定位，可以确定出每个文字所在区域的位置信息。在图6b中以坐标的形式呈现。标志类文字“QQ音乐”所在的第一区域位置的四个顶点坐标分别为(x₁，y₁)、(x₂，y₂)、(x₃，y₃)和(x₄，y₄)；其中，x₁和x₃的取值相同，x₂和x₄的取值相同；y₁和y₂的取值相同，y₃和y₄的取值相同。歌词类文字“我习惯深埋雾里”所在的第二区域位置的四个顶点坐标分别为(x₅，y₅)、(x₆，y₆)、(x₇，y₇)和(x₈，y₈)；其中，x₅和x₇的取值相同，x₆和x₈的取值相同；y₅和y₆的取值相同，y₇和y₈的取值相同。背景类文字“春眠不觉晓处处闻啼鸟夜来风雨声花落知多少”所在的第三区域位置的四个顶点坐标分别为(x₉，y₉)、(x₁₀，y₁₀)、(x₁₁，y₁₁)和(x₁₂，y₁₂)，由于背景类文字所在的第三区域位置并非是正方向分布，因此四个顶点坐标的取值各不相同。

以图6b所示的完成字幕定位的帧图片为例，在识别待分析帧图片中目标文字的文字类别时，可以对多张待分析帧图片中相同区域位置下的目标文字的顶点坐标位置的变化情况进行评估。以标志类文字“QQ音乐”为例，标志类文字在每张待分析帧图片中出现的位置相近，均位于待分析帧图片左上角的位置。并且在多张待分析帧图片中标志类文字所占据的连通区域的顶点坐标几乎不会发生变化。因此可以通过比较多张待分析帧图片中相同区域位置下目标文字的顶点坐标的变化情况，识别当前的目标文字是否为标志类文字。

考虑到实际应用中，无论是标志类文字还是歌词类文字，文字内容的高度基本上不会发生变化，只有文字所占空间的长度会发生变化。因此可以基于文字内容所占据的连通区域的长度的变化，确定出目标文字的文字端点位置偏移率。

在具体实现中，可以将第一张待分析帧图片的第一区域位置上文字内容所占据的连通区域的顶点坐标作为参考坐标，基于该参考坐标可以计算连通区域的长度，将该长度作为参考长度。然后分别计算剩余待分析帧图片的文字内容所占据的连通区域的长度与该参考长度的差值，将每个差值的绝对值与参考长度的比值作为初始变化率。将初始变化率的平均值作为目标文字的文字端点位置偏移率。

结合图6b所示的帧图片，以标志类文字“QQ音乐”为例，其占据的连通区域的长度为x₂-x₁或者x₄-x₃。以歌词类文字“我习惯深埋雾里”，其占据的连通区域的长度为x₆-x₅或者x₈-x₇。依次类推，可以计算出每张待分析帧图片中文字内容所占据的连通区域的长度。

设置预设变化率阈值是为了对文字端点位置偏移率进行评估，从而区分标志类文字和歌词类文字。预设变化率阈值的取值可以根据实际需求设定。考虑到标志类文字所占据的连通区域较为固定，因此预设变化率阈值的取值可以设置的低些，例如，可以设置为10％。

若目标文字的文字端点位置偏移率小于预设变化率阈值，则说明目标文字所占据的连通区域的顶点坐标变化较小，目标文字属于标志类文字的概率更高，因此若目标文字的文字端点位置偏移率小于预设变化率阈值可以执行S504。

若目标文字的文字端点位置偏移率不小于预设变化率阈值，则说明目标文字所占据的连通区域的顶点坐标变化较大，目标文字属于歌词类文字的概率更高，因此若目标文字的文字端点位置偏移率不小于预设变化率阈值可以执行S505。

S504：将目标文字的文字内容判定为标志类文字。

在目标文字的文字端点位置偏移率小于预设变化率阈值的情况下，可以将目标文字的文字内容判定为标志类文字。

S505：将目标文字的文字内容判定为歌词类文字。

在目标文字的文字端点位置偏移率不小于预设变化率阈值的情况下，可以将目标文字的文字内容判定为歌词类文字。

在本申请实施例中，预设频率阈值除了设置为一个数值的形式外。也可以基于标志类文字、歌词类文字和背景类文字各自在所有待分析帧图片中可能出现的概率，分别设置不同文字类别各自对应的预设频率阈值。为了区分不同文字类别所对应的预设频率阈值，可以将标志类文字对应的预设频率阈值称作第一预设频率阈值；歌词类文字对应的预设频率阈值称作第二预设频率阈值；背景类文字对应的预设频率阈值称作第三预设频率阈值。

以设置三个预设频率阈值为例，在具体实现中，对于标志类文字的识别，可以判断待分析帧图片的第一区域位置上的文字出现频率是否大于第一预设频率阈值，并且第一区域位置上的文字端点位置偏移率是否小于预设变化率阈值。

第一区域位置用于表示文字出现频率大于第一预设频率阈值，并且文字端点位置偏移率小于预设变化率阈值的文字所在的区域。

第一预设频率阈值的取值可以根据实际需求设定。设置第一预设频率阈值的目的是为了识别标志类文字，考虑到标志类文字一般会在视频文件的每帧图片的固定位置出现，因此第一预设频率阈值的取值可以设置的高些，例如，可以设置为95％。

若待分析帧图片的第一区域位置上的文字出现频率大于第一预设频率阈值，并且第一区域位置上的文字端点位置偏移率小于预设变化率阈值，则将第一区域位置上的文字内容判定为标志类文字。

举例说明，假设待分析帧图片有10张，在这10张待分析帧图片的左上角相同的位置上均存在有相同的文字内容，此时文字出现频率为100％，大于第一预设频率阈值95％；并且文字端点位置偏移率为0％，小于预设变化率阈值10％，此时可以将该文字内容判定为标志类文字。

对于歌词类文字的识别，可以判断待分析帧图片的第二区域位置上的文字出现频率是否大于第二预设频率阈值，并且第二区域位置上的文字端点位置偏移率是否不小于预设变化率阈值。

第二预设频率阈值的取值可以根据实际需求设定。设置第二预设频率阈值的目的是为了识别歌词类文字，考虑到歌词类文字一般会在视频文件的每帧图片中较为相近的位置出现，因此第二预设频率阈值的取值可以设置的高些。考虑到歌词类文字在帧图片中出现的位置并没有标志类文字在帧图片中出现的位置固定，因此，第二预设频率阈值的取值可以设置的略微低于第一预设频率阈值，例如，第二预设频率阈值的取值可以设置为85％。

若待分析帧图片的第二区域位置上的文字出现频率大于第二预设频率阈值，并且第二区域位置上的文字端点位置偏移率不小于预设变化率阈值，则将第二区域位置上的文字内容判定为歌词类文字。

举例说明，假设待分析帧图片有10张，在这10张待分析帧图片的底部中央位置上均存在文字内容，待分析帧图片的底部中央位置为第二区域位置，此时第二区域位置上的文字出现频率为10/10＝100％，100％大于第二预设频率阈值85％。1个文字为1个长度，假设这10张待分析帧图片中第二区域位置各文字对应的连通区域的长度依次为10、8、5、6、12、15、7、2、9、4，按照上述介绍的文字端点位置偏移率的计算方式，此时文字端点位置偏移率为[(10-8)/10+(10-5)/10+(10-6)/10+(12-10)/10+(15-10)/10+(10-7)/10+(10-2)/10+(10-9)/10+(10-4)/10]/9＝0.4＝40％，40％大于预设变化率阈值10％，此时可以将该文字内容判定为歌词类文字。

对于背景类文字的识别，可以判断待分析帧图片的第三区域位置上的文字出现频率是否小于第三预设频率阈值。

第三区域位置用于表示文字出现频率小于第三预设频率阈值的文字所在的区域。

第三预设频率阈值的取值可以根据实际需求设定。设置第三预设频率阈值的目的是为了识别背景类文字。考虑到背景类文字一般会在视频文件的某些帧图片中出现，因此第三预设频率阈值的取值可以设置的低些，例如，可以设置为30％。

若待分析帧图片的第三区域位置上的文字出现频率小于第三预设频率阈值，则将第三区域位置上的文字内容判定为背景类文字。

在本申请实施例中，除了基于待分析帧图片中文字出现的概率和区域位置，确定出各文字内容对应的文字类别的方式外，还可以基于文字对待分析帧图片的像素点赋值，通过叠加像素点对应的数字确定出各文字内容对应的文字类别。

在具体实现中，可以依据待分析帧图片中文字内容所对应的位置信息，将待分析帧图片转换为二值图；在二值图中采用两个不同的数字分别表征文字区域上的像素点以及非文字区域上的像素点。

为了便于区分和计算，可以采用数字“1”表征文字区域上的像素点，采用数字“0”表征非文字区域上的像素点。为了便于介绍，均以数字“1”表征文字区域上的像素点，数字“0”表征非文字区域上的像素点为例展开介绍。

将二值图中相同位置的像素点对应的数字相加，得到各像素点对应的叠加值；依据各像素点对应的叠加值所属的类别值范围，确定出各文字内容对应的文字类别；其中，每种文字类别有其对应的类别值范围。

文字类别可以包括标志类文字、歌词类文字和背景类文字。

一般情况下，标志类文字在待分析帧图片的每帧图片中相同位置都会出现，因此对于标志类文字而言，将相同位置的像素点对应的数字相加得到的叠加值的取值较高。

歌词类文字在待分析帧图片的每帧图片的相同或相近位置出现，因此对于歌词类文字而言，将相同位置的像素点对应的数字相加得到的叠加值的取值较高，但是会低于标志类文字对应的叠加值。

背景类文字只可能在待分析帧图片的某些帧图片中可能出现，因此对于背景类文字而言，将相同位置的像素点对应的数字相加得到的叠加值的取值较低。

在实际应用中，类别值范围可以基于待分析帧图片的数量、表征文字区域上的像素点的数字以及设定的比例得到。

例如，待分析帧图片的数量为10，表征文字区域上的像素点的数字为“1”标志类文字对应的比例为0.8至1(不包括0.8，包括1)，歌词类文字对应的比例为0.4至0.8(不包括0.4，包括0.8)，背景类文字对应的比例对应的比例为0至0.4(包括0，包括0.4)。则标志类文字对应的类别值范围为10*0.8＝8，10*1＝10，即8至10(不包括8，包括10)；歌词类文字对应的类别值范围为10*0.4＝4，10*0.8＝8，即4至8(不包括4，包括8)；背景类文字对应的类别值范围为10*0＝0，10*0.4＝4，即0至4(不包括0，包括4)。

考虑到实际应用中，标志类文字、歌词类文字和背景类文字一般都会包含有多个文字，这些连续的文字内容可以构成一个联通区域。因此在确定各像素点对应的叠加值所属的类别值范围时，可以将文字所在的联通区域内各像素点的叠加值进行相加求平均，将得到的平均值与设定的类别值范围进行比较，从而确定出各文字内容对应的文字类别。

举例说明，假设待分析帧图片有10张，在每个待分析帧图片的左上角均存在连续8个像素点对应的数字均为“1”，则可以将这8个像素点作为一个联通区域，在该联通区域内10张待分析帧图片中每个像素点的叠加值为10，对联通区域内各像素点的叠加值进行相加求平均即(10+10+10+10+10+10+10+10)/8＝10，其属于8至10的类别值范围，因此可以判定这8个像素点对应的文字内容为标志类文字。

在本申请实施例中，可以基于不同文字类别在视频文件进行竖版裁剪时的影响以及不同文字类别在视频文件中的呈现形式，对不同文字类别设置不同的标记方式。

在具体实现中，可以将标志类文字对应的位置信息复制在每个视频片段中其余帧图片上；将歌词类文字中每句歌词对应的位置信息复制在具有相同歌词的视频片段中其余帧图片上。考虑到背景类文字几乎不会对竖版裁剪造成影响，因此对于背景类文字对应的位置信息，可以直接忽略。

结合上述介绍的图6a、图6b和图6c。图6c为与图6a的帧图片具有相同的歌词的另一张帧图片，图6b确定出的帧图片的文字类别以及位置信息，图6b中位置信息以坐标的形式呈现，可以将图6b中标志类文字和歌词类文字对应的位置信息直接复制到图6c帧图片上，从而完成对6c帧图片的字幕定位。

在本申请实施例中，根据待分析帧图片中文字内容所对应的位置信息，可以确定出各文字内容对应的文字类别。在实现对待分析帧图片中文字内容的标记之后，按照待待分析帧图片中每种文字类别对应的位置信息，可以实现对视频文件中所有帧图片的字幕位置标记，有效的提升了视频文件字幕标记的效率。

图7为本申请实施例提供的一种字幕定位装置的结构示意图。参见图7所示，该字幕定位装置可以包括匹配单元71、视频片段确定单元72、筛选单元73和字幕确定单元74；

匹配单元71，用于将视频文件中歌曲音频信号的音频指纹与预设的音频指纹库进行匹配，以确定出音频指纹匹配的目标歌曲以及歌曲音频信号在目标歌曲的时间位置；其中，音频指纹库中记录了歌曲和歌曲指纹信息的对应关系；

视频片段确定单元72，用于根据目标歌曲的歌词分布时间和歌曲音频信号在目标歌曲中的时间位置，确定视频文件中每句歌词对应的视频片段；

筛选单元73，用于从每个视频片段中筛选出预设数量的帧图片作为待分析帧图片；

字幕确定单元74，用于确定待分析帧图片中的字幕信息，并基于待分析帧图片中的字幕信息确定出每个视频片段中其余帧图片的字幕信息。

可选地，匹配单元包括提取子单元、转换子单元和确定子单元；

提取子单元，用于从视频文件中提取歌曲音频信号；

转换子单元，用于将歌曲音频信号转换为语音频谱图；

确定子单元，用于基于语音频谱图中各个峰值点，确定出歌曲音频信号的音频指纹；将音频指纹与音频指纹库中各歌曲指纹信息进行匹配，以确定出音频指纹匹配的目标歌曲以及歌曲音频信号在目标歌曲的时间位置。

可选地，视频片段确定单元包括截取子单元和确定子单元；

截取子单元，用于依据歌曲音频信号在目标歌曲的时间位置，从目标歌曲中截取出与歌曲音频信号匹配的歌曲片段；

确定子单元，用于根据歌曲片段的歌词分布时间，确定出歌曲片段中每句歌词对应的时间范围；基于歌曲片段中每句歌词对应的时间范围以及视频文件的帧率，确定出视频文件中每句歌词对应的视频片段。

可选地，字幕信息包括位置信息和文字类别；字幕确定单元包括识别子单元和类别确定子单元；

识别子单元，用于利用文字检测网络模型，识别待分析帧图片中文字内容所对应的位置信息；

类别确定子单元，用于根据待分析帧图片中文字内容所对应的位置信息，确定出各文字内容对应的文字类别。

可选地，类别确定子单元用于若待分析帧图片中同一区域位置上目标文字的出现频率小于预设频率阈值，则将目标文字的文字内容判定为背景类文字；和/或若待分析帧图片中同一区域位置上目标文字的出现频率不小于预设频率阈值，并且目标文字的文字端点位置偏移率小于预设变化率阈值，则将目标文字的文字内容判定为标志类文字；和/或若待分析帧图片中同一区域位置上目标文字的出现频率不小于预设频率阈值，并且目标文字的文字端点位置偏移率不小于预设变化率阈值，则将目标文字的文字内容判定为歌词类文字。

可选地，预设频率阈值包括第一预设频率阈值、第二预设频率阈值和第三预设频率阈值；其中，第一预设频率阈值大于第二预设频率阈值；第二预设频率阈值大于第三预设频率阈值；

类别确定子单元，用于若待分析帧图片的第一区域位置上的文字出现频率大于第一预设频率阈值，并且第一区域位置上的文字端点位置偏移率小于预设变化率阈值，则将第一区域位置上的文字内容判定为标志类文字；和/或若待分析帧图片的第二区域位置上的文字出现频率大于第二预设频率阈值，并且第二区域位置上的文字端点位置偏移率不小于预设变化率阈值，则将第二区域位置上的文字内容判定为歌词类文字；和/或若待分析帧图片的第三区域位置上的文字出现频率小于第三预设频率阈值，则将第三区域位置上的文字内容判定为背景类文字。

可选地，类别确定子单元，用于依据待分析帧图片中文字内容所对应的位置信息，将待分析帧图片转换为二值图；在二值图中采用两个不同的数字分别表征文字区域上的像素点以及非文字区域上的像素点；将二值图中相同位置的像素点对应的数字相加，得到各像素点对应的叠加值；依据各像素点对应的叠加值所属的类别值范围，确定出各文字内容对应的文字类别；其中，每种文字类别有其对应的类别值范围；文字类别包括标志类文字、歌词类文字和背景类文字。

可选地，字幕确定单元用于将标志类文字对应的位置信息复制在每个视频片段中其余帧图片上；将歌词类文字中每句歌词对应的位置信息复制在具有相同歌词的视频片段中其余帧图片上。

进一步的，本申请实施例还提供了一种电子设备。图8是根据一示例性实施例示出的电子设备20结构图，图中的内容不能被认为是对本申请的使用范围的任何限制。

图8为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的字幕定位方法中的相关步骤。另外，本实施例中的电子设备20具体可以为服务器。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222及视频数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量视频数据223的运算与处理，其可以是WindowsServer、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的字幕定位方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的各种视频数据。

进一步的，本申请实施例还公开了一种存储介质，存储介质中存储有计算机程序，计算机程序被处理器加载并执行时，实现前述任一实施例公开的字幕定位方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种字幕定位方法、装置、电子设备及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种字幕定位方法，其特征在于，包括：

2.根据权利要求1所述的字幕定位方法，其特征在于，所述将视频文件中歌曲音频信号的音频指纹与预设的音频指纹库进行匹配，以确定出所述音频指纹匹配的目标歌曲以及所述歌曲音频信号在所述目标歌曲的时间位置包括：

3.根据权利要求1所述的字幕定位方法，其特征在于，所述根据所述目标歌曲的歌词分布时间和所述歌曲音频信号在所述目标歌曲中的时间位置，确定所述视频文件中每句歌词对应的视频片段包括：

4.根据权利要求1所述的字幕定位方法，其特征在于，所述字幕信息包括位置信息和文字类别；所述确定所述待分析帧图片中的字幕信息包括：

5.根据权利要求4所述的字幕定位方法，其特征在于，所述根据所述待分析帧图片中文字内容所对应的位置信息，确定出各所述文字内容对应的文字类别包括：

6.根据权利要求5所述的字幕定位方法，其特征在于，所述预设频率阈值包括第一预设频率阈值、第二预设频率阈值和第三预设频率阈值；其中，所述第一预设频率阈值大于所述第二预设频率阈值；所述第二预设频率阈值大于所述第三预设频率阈值；

7.根据权利要求4所述的字幕定位方法，其特征在于，所述根据所述待分析帧图片中文字内容所对应的位置信息，确定出各所述文字内容对应的文字类别包括：

8.根据权利要求5至7任意一项所述的字幕定位方法，其特征在于，所述基于所述待分析帧图片中的字幕信息确定出每个所述视频片段中其余帧图片的字幕信息包括：

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的字幕定位方法。

10.一种计算机可读存储介质，其特征在于，用于保存计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的字幕定位方法。