CN116017048A

CN116017048A - 片尾的开始位置识别方法、装置、电子设备及存储介质

Info

Publication number: CN116017048A
Application number: CN202211693115.4A
Authority: CN
Inventors: 尹天舒
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-04-25
Anticipated expiration: 2042-12-28
Also published as: CN116017048B

Abstract

本申请实施例提供了一种片尾的开始位置识别方法、装置、电子设备及存储介质，涉及视频处理技术领域，方法包括：获取待识别的视频文件；视频文件包括多个待识别视频帧和对应的各待识别音频帧；从各待识别音频帧中确定包含指定片尾类型的音频数据的音频帧片段中时间戳最早的第一音频帧；从各待识别视频帧中确定包含片尾字幕且时间戳最早的第一视频帧；从指定时间戳区间内的待识别视频帧中确定发生转场且时间戳最早的第二视频帧；指定时间戳区间的起始时间戳与第一音频帧对应，终止时间戳与第一视频帧对应；基于第二视频帧在视频文件中的位置，确定片尾的开始位置。基于此，能够有效地确定出片尾的开始位置，提高片尾的开始位置的识别效率和准确性。

Description

片尾的开始位置识别方法、装置、电子设备及存储介质

技术领域

本申请涉及视频处理技术领域，特别是涉及一种片尾的开始位置识别方法、装置、电子设备及存储介质。

背景技术

目前，在视频播放平台中，往往需要在不影响用户观看正片的情况下，在视频的正片和片尾之间插入其他资源，例如，广告。因此，对于视频播放平台，准确地识别视频的片尾的开始位置十分重要。

相关技术中，通常需要人工浏览视频，以识别视频的片尾的开始位置，然而，视频播放平台的视频数量较大，且视频片尾的样式也较多，采用人工识别的方式成本较高，效率较低，且人工识别片尾的开始位置的准确性也难以保证。

发明内容

本申请实施例的目的在于提供一种片尾的开始位置识别方法、装置、电子设备及存储介质，以提高片尾的开始位置的识别效率和识别准确性。具体技术方案如下：

在本申请实施的第一方面，首先提供了一种片尾的开始位置识别方法，所述方法包括：

获取待识别的视频文件；其中，所述视频文件包括多个待识别视频帧和对应的各待识别音频帧；

从各待识别音频帧中，确定包含指定片尾类型的音频数据的音频帧片段中时间戳最早的音频帧，作为第一音频帧；

从各待识别视频帧中确定包含片尾字幕，且时间戳最早的视频帧，作为第一视频帧；

从指定时间戳区间内的待识别视频帧中，确定发生转场且时间戳最早的视频帧，作为第二视频帧；其中，所述指定时间戳区间的起始时间戳与所述第一音频帧对应，且终止时间戳与所述第一视频帧对应；

基于所述第二视频帧在所述视频文件中的位置，确定片尾的开始位置。

可选的，所述方法还包括：

若所述指定时间戳区间内的待识别视频帧中不存在所述第二视频帧，基于第三视频帧在所述视频文件中的位置，确定片尾的开始位置；其中，所述第三视频帧为：所述指定时间戳区间内的待识别视频帧中时间戳最早的黑屏视频帧。

可选的，在所述基于第三视频帧在所述视频文件中的位置，确定片尾的开始位置之前，所述方法还包括：

获取第二音频帧的时间戳；其中，所述第二音频帧为所述指定时间戳区间内静音的音频帧片段中时间戳最早的音频帧；

所述基于第三视频帧在所述视频文件中的位置，确定片尾的开始位置，包括：

若所述第二音频帧与所述第三视频帧之间的时序距离小于第一预设阈值，则将所述第二音频帧在所述视频文件中的位置，确定为片尾的开始位置；

若所述第二音频帧与所述第三视频帧之间的时序距离不小于第一预设阈值，则将所述第三视频帧在所述视频文件中的位置，确定为片尾的开始位置。

可选的，所述方法还包括：

若所述指定时间戳区间内的待识别视频帧中不存在所述第二视频帧，且不存在所述第三视频帧，则将第二音频帧在所述视频文件中的位置，确定为片尾的开始位置；其中，所述第二音频帧为所述指定时间戳区间内静音的音频帧片段中时间戳最早的待识别音频帧。

可选的，在所述基于所述第二视频帧在所述视频文件中的位置，确定片尾的开始位置之前，所述方法还包括：

获取第二音频帧的时间戳；其中，所述第二音频帧为所述指定时间戳区间内静音的音频帧片段中时间戳最早的待识别音频帧；

所述基于所述第二视频帧在所述视频文件中的位置，确定片尾的开始位置，包括：

若所述第二音频帧与所述第二视频帧之间的时序距离小于第一预设阈值，则将所述第二音频帧在所述视频文件中的位置，确定为片尾的开始位置；

若所述第二音频帧与所述第二视频帧之间的时序距离不小于第一预设阈值，则将所述第二视频帧在所述视频文件中的位置，确定为片尾的开始位置。

可选的，所述静音的音频帧片段中每一音频帧的音量小于预设音量值，且该音频帧片段的持续时长大于预设时长。

可选的，所述从各待识别音频帧中，确定包含指定片尾类型的音频数据的音频帧片段中时间戳最早的音频帧，作为第一音频帧，包括：

从各待识别音频帧中确定包含指定片尾类型的音频数据的音频帧，作为第三音频帧；

针对每一第三音频帧，若与该第三音频帧相邻的其他第三音频帧与该第三音频帧之间的时序距离小于第二预设阈值，则确定该第三音频帧、所述其他第三音频帧，以及之间的音频帧属于同一个包含指定片尾类型的音频数据的音频帧片段；

从包含指定片尾类型的音频数据的各音频帧片段中，确定时间戳最早的音频帧，作为第一音频帧。

可选的，所述从各待识别视频帧中确定包含片尾字幕，且时间戳最早的视频帧，作为第一视频帧，包括：

按照预设抽帧频率，对各待识别视频帧进行抽帧，得到第四视频帧；

若各第四视频帧中存在包含片尾关键字的视频帧，则将包含片尾关键字，且时间戳最早的视频帧，作为第一视频帧；

若各第四视频帧中不存在包含片尾关键字的视频帧，则从各第四视频帧中，确定包含滚动文本的视频帧片段中时间戳最早的视频帧，作为第一视频帧。

可选的，所述从各第四视频帧中，确定包含滚动文本的视频帧片段中时间戳最早的视频帧，作为第一视频帧，包括：

从各第四视频帧中确定包含滚动文本的视频帧，作为第五视频帧；

确定相邻的指定数目个第五视频帧属于一个包含滚动文本的视频帧片段；

从包含滚动文本的各视频帧片段中，确定时间戳最早的视频帧，作为第一视频帧。

可选的，所述获取待识别的视频文件，包括：

从原始的视频文件中获取时间戳最晚的指定时长部分，作为待识别的视频文件。

在本申请实施的第二方面，还提供了一种片尾的开始位置识别装置，所述装置包括：

视频文件获取模块，用于获取待识别的视频文件；其中，所述视频文件包括多个待识别视频帧和对应的各待识别音频帧；

第一音频帧确定模块，用于从各待识别音频帧中，确定包含指定片尾类型的音频数据的音频帧片段中时间戳最早的音频帧，作为第一音频帧；

第一视频帧确定模块，用于从各待识别视频帧中确定包含片尾字幕，且时间戳最早的视频帧，作为第一视频帧；

第二视频帧确定模块，用于从指定时间戳区间内的待识别视频帧中，确定发生转场且时间戳最早的视频帧，作为第二视频帧；其中，所述指定时间戳区间的起始时间戳与所述第一音频帧对应，且终止时间戳与所述第一视频帧对应；

第一确定模块，用于基于所述第二视频帧在所述视频文件中的位置，确定片尾的开始位置。

可选的，所述装置还包括：

第二确定模块，用于若所述指定时间戳区间内的待识别视频帧中不存在所述第二视频帧，基于第三视频帧在所述视频文件中的位置，确定片尾的开始位置；其中，所述第三视频帧为：所述指定时间戳区间内的待识别视频帧中时间戳最早的黑屏视频帧。

可选的，所述装置还包括：

第一获取模块，用于在所述基于第三视频帧在所述视频文件中的位置，确定片尾的开始位置之前，获取第二音频帧的时间戳；其中，所述第二音频帧为所述指定时间戳区间内静音的音频帧片段中时间戳最早的音频帧；

所述第二确定模块，具体用于若所述第二音频帧与所述第三视频帧之间的时序距离小于第一预设阈值，则将所述第二音频帧在所述视频文件中的位置，确定为片尾的开始位置；

可选的，所述装置还包括：

第三确定模块，用于若所述指定时间戳区间内的待识别视频帧中不存在所述第二视频帧，且不存在所述第三视频帧，则将第二音频帧在所述视频文件中的位置，确定为片尾的开始位置；其中，所述第二音频帧为所述指定时间戳区间内静音的音频帧片段中时间戳最早的待识别音频帧。

可选的，所述装置还包括：

第二获取模块，用于在所述基于所述第二视频帧在所述视频文件中的位置，确定片尾的开始位置之前，获取第二音频帧的时间戳；其中，所述第二音频帧为所述指定时间戳区间内静音的音频帧片段中时间戳最早的待识别音频帧；

所述第一确定模块，具体用于若所述第二音频帧与所述第二视频帧之间的时序距离小于第一预设阈值，则将所述第二音频帧在所述视频文件中的位置，确定为片尾的开始位置；

可选的，所述第一音频帧确定模块，具体用于从各待识别音频帧中确定包含指定片尾类型的音频数据的音频帧，作为第三音频帧；

可选的，所述第一视频帧确定模块，包括：

第四视频帧确定子模块，用于按照预设抽帧频率，对各待识别视频帧进行抽帧，得到第四视频帧；

第一确定子模块，用于若各第四视频帧中存在包含片尾关键字的视频帧，则将包含片尾关键字，且时间戳最早的视频帧，作为第一视频帧；

第二确定子模块，用于若各第四视频帧中不存在包含片尾关键字的视频帧，则从各第四视频帧中，确定包含滚动文本的视频帧片段中时间戳最早的视频帧，作为第一视频帧。

可选的，所述第二确定子模块，具体用于从各第四视频帧中确定包含滚动文本的视频帧，作为第五视频帧；

可选的，所述视频文件获取模块，具体用于从原始的视频文件中获取时间戳最晚的指定时长部分，作为待识别的视频文件。

在本申请实施的第三方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的片尾的开始位置识别方法步骤。

在本申请实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的片尾的开始位置识别方法。

在本申请实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的片尾的开始位置识别方法。

本申请实施例提供的一种片尾的开始位置识别方法、装置、电子设备及存储介质，通过获取待识别的视频文件；其中，视频文件包括多个待识别视频帧和对应的各待识别音频帧；从各待识别音频帧中，确定包含指定片尾类型的音频数据的音频帧片段中时间戳最早的音频帧，作为第一音频帧；从各待识别视频帧中确定包含片尾字幕，且时间戳最早的视频帧，作为第一视频帧；从指定时间戳区间内的待识别视频帧中，确定发生转场且时间戳最早的视频帧，作为第二视频帧；其中，指定时间戳区间的起始时间戳与第一音频帧对应，且终止时间戳与第一视频帧对应；基于第二视频帧在视频文件中的位置，确定片尾的开始位置。

基于上述处理，由于片尾开始时会发生转场，因此，由电子设备基于发生转场的视频帧，能够有效地确定出片尾的开始位置，且相对于人工确定的方式，能够提高片尾的开始位置的识别效率和识别准确性。另外，由于第一音频帧为包含指定片尾类型的音频数据的音频帧片段中时间戳最早的音频帧，即，第一音频帧不晚于片尾的开始位置。第一视频帧为包含片尾字幕，且时间戳最早的视频帧，即，第一视频帧不早于片尾的开始位置。因此，片尾的开始位置也就位于以第一音频帧对应的时间戳为起始时间戳，以第一视频帧对应时间戳为终止时间戳的指定时间戳区间。进而，确定指定时间戳区间内发生转场且时间戳最早的第二视频帧位置为片尾的开始位置，也就能够有效地缩小视频帧的查找范围，进一步提高片尾的开始位置的识别效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的片尾的开始位置识别方法的第一种流程图；

图2为本申请实施例提供的片尾的开始位置识别方法的第二种流程图；

图3为本申请实施例提供的片尾的开始位置识别方法的第三种流程图；

图4为本申请实施例提供的片尾的开始位置识别方法的第四种流程图；

图5为本申请实施例提供的片尾的开始位置识别装置的结构示意图；

图6为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

为了提高识别片尾的开始位置的效率和准确性，本申请实施例提供了一种片尾的开始位置识别方法。参见图1，图1为本申请实施例提供的片尾的开始位置识别方法的第一种流程图。该方法可以包括以下步骤：

步骤S101：获取待识别的视频文件。

其中，视频文件包括多个待识别视频帧和对应的各待识别音频帧。

步骤S102：从各待识别音频帧中，确定包含指定片尾类型的音频数据的音频帧片段中时间戳最早的音频帧，作为第一音频帧。

步骤S103：从各待识别视频帧中确定包含片尾字幕，且时间戳最早的视频帧，作为第一视频帧。

步骤S104：从指定时间戳区间内的待识别视频帧中，确定发生转场且时间戳最早的视频帧，作为第二视频帧。

其中，指定时间戳区间的起始时间戳与第一音频帧对应，且终止时间戳与第一视频帧对应。

步骤S105：基于第二视频帧在视频文件中的位置，确定片尾的开始位置。

针对步骤S101，待识别的视频文件，即，当前需要确定片尾的开始位置的视频文件，例如，可以为电视剧的视频文件，或者，也可以为电影的视频文件。待识别的视频文件中的视频帧即待识别视频帧，待识别的视频文件中的音频帧即待识别音频帧。待识别视频帧与待识别音频帧对应，也就是说，待识别视频帧和待识别音频帧对应相同的时间段。

在一个实施例中，获取待识别的视频文件(S101)，包括：

步骤1：从原始的视频文件中获取时间戳最晚的指定时长部分，作为待识别的视频文件。

在本申请实施例中，待识别的视频文件可以是从原始的视频文件中获取的，时间戳最晚的指定时长部分的视频文件。指定时长可以是固定值，例如，10分钟或者8分钟；或者，指定时长也可以是基于原始的视频文件的时长设置的，例如，指定时长可以是原始的视频文件的时长的20％或者15％。

基于上述处理，可以减小待识别的视频文件的大小，且片尾的开始位置在视频文件中的时间戳较晚，即，片尾的开始位置在原始的视频文件中时间戳较晚的部分。从原始的视频文件中获取时间戳最晚的指定时长部分，也就能够使片尾的开始位置在该部分的视频文件内。进而，基于此种方式获得的待识别的视频文件中也就包含片尾的开始位置。基于待识别的视频文件确定片尾的开始位置，也就能够缩小识别片尾的开始位置的视频文件范围，提高片尾的开始位置的识别效率。

针对步骤S102，可以通过音频识别算法，确定出包含指定片尾类型的音频数据的音频帧片段中时间戳最早的音频帧。在视频的片尾会播放指定片尾类型的音频数据，即，片尾部分的音频帧中包含指定片尾类型的音频数据。例如，指定片尾类型的音频数据可以表示男声唱歌的音频数据、女声唱歌的音频数据，或者，BGM(Background music，背景音乐)。

在一个实施例中，从各待识别音频帧中，确定包含指定片尾类型的音频数据的音频帧片段中时间戳最早的音频帧，作为第一音频帧(S102)，包括：

步骤1：从各待识别音频帧中确定包含指定片尾类型的音频数据的音频帧，作为第三音频帧。

步骤2：针对每一第三音频帧，若与该第三音频帧相邻的其他第三音频帧与该第三音频帧之间的时序距离小于第二预设阈值，则确定该第三音频帧、其他第三音频帧，以及之间的音频帧属于同一个包含指定片尾类型的音频数据的音频帧片段；

步骤3：从包含指定片尾类型的音频数据的各音频帧片段中，确定时间戳最早的音频帧，作为第一音频帧。

在本申请实施例中，针对每一待识别音频帧，通过语音识别，确定该音频帧是否包含指定片尾类型的音频数据。若包含，则可以将该音频帧确定为第三音频帧。

可以理解的是，由于在语音文件中歌词之间存在时间间隔，BGM的不同节拍之间也存在时间间隔，因此，确定出的相邻的两个第三音频帧之间也可能存在其他不包含指定片尾类型的音频数据的音频帧。

因此，针对每一第三音频帧，可以确定与该第三音频帧相邻的其他第三音频帧，也就是说与该第三音频帧最近的其他第三音频帧。进而，若确定出的其他第三音频帧与该第三音频帧之间的时序距离小于第二预设阈值，表明该第三音频帧与该其他第三音频帧包含的音频数据可能属于同一段音频。例如，该第三音频帧与该其他第三音频帧包含的音频数据均表示同一男声唱歌的音频数据，或者，均表示同一女声唱歌的音频数据，或者，均表示BGM。第二预设阈值可以为3秒或者4秒。进而，可以将该第三音频帧、其他第三音频帧，以及之间的音频帧，作为属于同一个包含指定片尾类型的音频数据的音频帧片段。

可以理解的是，确定出的包含指定片尾类型的音频数据的音频帧片段可以为一个，或者，也可以为多个。若为一个，则将确定出的一个音频帧片段中的时间戳最早的音频帧确定为第一音频帧；若为多个，则从该多个音频帧片段中确定出时间戳最早的一个音频帧片段，进而，将该音频帧片段中时间戳最早的音频帧确定为第一音频帧。

另外，由于正片部分也可能存在指定片尾类型的音频数据，且基于上述第二预设阈值，也可能将片尾部分的音频帧与正片部分的音频帧划分为同一个包含指定片尾类型的音频数据的音频帧片段。上述情况也就会导致时间戳最早的音频帧片段包含正片部分中的音频帧，即，片尾的开始位置不早于该时间戳最早的音频帧片段中的首个音频帧(即第一音频帧)。进而，可以将该音频帧的时间戳作为指定时间戳区间的起始时间戳，在指定时间戳区间内确定片尾的开始位置，也就能够缩小确定片尾的开始位置的范围。

另外，由于第一音频帧为包含指定片尾类型的音频数据的音频帧片段中时间戳最早的音频帧，相应的，可以按照时间戳从早到晚的顺序，依次对每一待识别音频帧进行语音识别，并按照上述步骤2的方式，确定出时间戳最早的包含指定片尾类型的音频数据的音频帧片段。进而，可以停止对其他音频帧进行语音识别，直接将该音频帧片段中的首个音频帧确定为第一音频帧。基于此，可以只对一部分待识别音频帧进行语音识别，能够减少计算量，提高确定第一音频帧的效率，进而，可以提高片尾的开始位置的识别效率。

针对步骤S103，可以通过文本检测与识别，从各待识别视频帧中确定包含片尾字幕，且时间戳最早的视频帧。

在进入片尾部分后，可以播放片尾字幕，也就是说，包含片尾字幕的视频帧不早于片尾的开始位置。进而，可以将时间戳最早的包含片尾字幕的视频帧对应的时间戳，作为指定时间戳区间的终止时间戳，也就能够进一步缩小识别片尾的开始位置的范围。

在一个实施例中，从各待识别视频帧中确定包含片尾字幕，且时间戳最早的视频帧，作为第一视频帧(S103)，包括：

步骤1：按照预设抽帧频率，对各待识别视频帧进行抽帧，得到第四视频帧。

步骤2：若各第四视频帧中存在包含片尾关键字的视频帧，则将包含片尾关键字，且时间戳最早的视频帧，作为第一视频帧。

步骤3：若各第四视频帧中不存在包含片尾关键字的视频帧，则从各第四视频帧中，确定包含滚动文本的视频帧片段中时间戳最早的视频帧，作为第一视频帧。

在本申请实施例中，对各待识别视频帧进行抽帧可以减少后续需要处理的视频帧，降低处理量，进而，也就能够提高确定第一视频帧的效率。例如，可以通过FFmpeg(一种多媒体视频处理软件工具)对待识别的视频文件进行抽帧处理。预设抽帧频率可以是每1秒抽一帧，或者也可以是每1.5秒抽一帧。

片尾关键字可以是基于对大量的片尾分析得到的，例如，可以包括：“演员表”、“领衔主演”、“特别出演”等关键字。

针对每一第四视频帧，可以通过文本识别，确定该视频帧是否包含片尾关键字。进而，可以将包含片尾关键字且时间戳最早的视频帧确定为第一视频帧。即，先对每一第四视频帧进行文本识别，然后，基于所有第四视频帧的识别结果，确定第一视频帧。

另外，由于第一视频帧为包含片尾字幕且时间戳最早的视频帧，相应的，可以按照时间戳从早到晚的顺序，依次对每一第四视频帧进行文本识别，并将确定出的第一个包含片尾关键字的视频帧，确定为第一视频帧。此时，则无需对其他第四视频帧进行文本识别。基于此，可以只对一部分第四视频帧进行文本识别，能够减少计算量，提高确定第一视频帧的效率，进而，可以提高片尾的开始位置的识别效率。

由于受到文本识别的精度影响，以及预先设置的片尾关键字的限制，因此，可能存在未识别出包含片尾关键字的视频帧的情况。因此，为了有效地确定出第一视频帧，可以通过识别滚动文本，确定出包含滚动文本的视频帧片段中时间戳最早的视频帧，作为第一视频帧。

在一个实施例中，从各第四视频帧中，确定包含滚动文本的视频帧片段中时间戳最早的视频帧，作为第一视频帧，包括：

步骤1：从各第四视频帧中确定包含滚动文本的视频帧，作为第五视频帧。

步骤2：确定相邻的指定数目个第五视频帧属于一个包含滚动文本的视频帧片段。

步骤3：从包含滚动文本的各视频帧片段中，确定时间戳最早的视频帧，作为第一视频帧。

在本申请实施例中，针对每一第四视频帧，通过文本框检测，确定该第四视频帧是否包含文本框，并基于文本框检测结果，确定每相邻的两个第四视频帧是否存在第一指定数目个目标文本框。其中，目标文本框在该相邻的两个第四视频帧之间的位置移动超过第二指定数目个像素点；位置移动的方向为竖直方式或水平方向。例如，第一指定数目不小于3，如可以为3或者也可以为4。第二指定数目可以为20，或者也可以为25。

可见，若该相邻的两个第四视频帧满足上述条件，表明该两个第四视频帧中包含滚动文本，且包含的滚动文本为片尾字幕。此时，可以将该两个第四视频帧确定为包含滚动文本的第五视频帧，或者，也可以将该两个第四视频帧中的前一个视频帧，确定为包含滚动文本的第五视频帧。

在确定出所有第五视频帧后，可以将相邻的第三指定数目个第五视频帧划分为同一个包含滚动文本的视频帧片段。第三指定数目可以为5个或者6个。

另外，由于第一视频帧为包含片尾字幕的各视频帧片段中时间戳最早的视频帧，相应的，可以按照时间戳从早到晚的顺序，依次对每一第四视频帧进行文本框检测，确定出时间戳最早的包含滚动文本的视频帧片段。进而，可以停止对其他第四视频帧进行文本框检测，直接将该视频帧片段中的首个视频帧确定为第一视频帧。基于此，可以只对一部分第四视频帧进行文本框检测，能够减少计算量，提高确定第一视频帧的效率，进而，可以提高片尾的开始位置的识别效率。

针对步骤S104，视频的正片和片尾之间通常使用转场进行过渡，因此，该转场处的视频帧也就是片尾的开始位置。另外，片尾中也存在转场，因此，确定出的发生转场的视频帧可能有多个。

转场方式可以包括渐变转场和切变转场。

渐变转场指开始转场的视频帧的亮度逐渐降低，降至最低后切换成另一个视频帧，然后，亮度逐渐提高。例如，当检测出连续的多个视频帧之间像素值的变化保持一致时，可以将该连续的多个视频帧中时间戳最早的视频帧，确定为发生渐变转场的视频帧。

切变转场指从开始转场的视频帧直接切换至另一个视频帧。因此，可以检测相邻两个视频帧之间的像素值的变化是否超过阈值，以确定发生切变转场的视频帧。该阈值可以根据经验设置，不做具体限定。

由于第一音频帧为包含指定片尾类型的音频数据的音频帧片段中时间戳最早的音频帧，即，第一音频帧不晚于片尾的开始位置。第一视频帧为包含片尾字幕，且时间戳最早的视频帧，即，第一视频帧不早于片尾的开始位置。因此，片尾的开始位置也就位于以第一音频帧对应的时间戳为起始时间戳，以第一视频帧对应时间戳为终止时间戳的指定时间戳区间。

针对步骤S105，一种方式中，第二视频帧在视频文件中的位置可以用第二视频帧在视频文件中的时间戳表示，进而，也就可以确定片尾的开始位置的时间戳。

在一个实施例中，参见图2，图2为本申请实施例提供的片尾的开始位置识别方法的第二种流程图。在基于第二视频帧在视频文件中的位置，确定片尾的开始位置(S105)之前，片尾的开始位置识别方法还包括：

步骤S106：获取第二音频帧的时间戳。

其中，第二音频帧为指定时间戳区间内静音的音频帧片段中时间戳最早的待识别音频帧。

基于第二视频帧在视频文件中的位置，确定片尾的开始位置(S105)，包括：

步骤1051：若第二音频帧与第二视频帧之间的时序距离小于第一预设阈值，则将第二音频帧在视频文件中的位置，确定片尾的开始位置。

步骤1052：若第二音频帧与第二视频帧之间的时序距离不小于第一预设阈值，则将第二视频帧在视频文件中的位置，确定片尾的开始位置。

例如，第一预设阈值可以为20秒或者15秒。

在本申请实施例中，视频文件的正片和片尾之间通常需要设置静音片段，以从正片部分的音频切换到片尾部分的音频。例如，在电视剧中，正片结束后进入静音片段，随后播放片尾曲。由于片尾开始时存在静音片段，且片尾的开始位置位于以第一音频帧对应的时间戳为起始时间戳，以第一视频帧对应时间戳为终止时间戳的指定时间戳区间。因此，基于指定时间戳区间内静音的音频帧片段中时间戳最早的音频帧，能够有效地确定出片尾的开始位置。

若第二音频帧与第二视频帧之间的时序距离小于第一预设阈值，则表明第二音频帧有较大的可能是片尾处静音片段的开始位置，也就是说，第二音频帧更接近片尾的开始位置。因此，将第二音频帧在视频文件中的位置，确定为片尾的开始位置。

若第二音频帧与第二视频帧之间的时序距离不小于第一预设阈值，则表明第二视频帧更接近片尾的开始位置。因此，将第二视频帧在视频文件中的位置，确定为片尾的开始位置。

在一个实施例中，针对每一待识别音频帧，通过音量检测，确定该音频帧的音量是否小于预设音量值。若小于，则可以将该音频帧确定为静音音频帧。

可以理解的是，正片部分也可能存在短时间的音量较小的音频帧片段，因此，为了避免该部分的影响，可以将持续时长大于预设时长的音量较小的音频帧片段，确定为静音的音频帧片段。例如，预设音量值可以为20分贝或者15分贝，预设时长可以为50毫秒或者60毫秒。

另外，由于第二音频帧为指定时间戳区间内静音的音频帧片段中时间戳最早的待识别音频帧，相应的，可以按照时间戳从早到晚的顺序，依次对指定时间戳区间内的每一待识别音频帧进行音量检测，并确定第一个静音的音频帧片段。进而，可以停止对其他的音频帧进行音量检测，直接将该静音的音频帧片段中的首个音频帧确定为第二音频帧。基于此，可以只对一部分待识别音频帧进行音量检测，能够减少计算量，提高确定第二音频帧的效率，进而，可以提高片尾的开始位置的识别效率。

在一个实施例中，参见图3，图3为本申请实施例提供的片尾的开始位置识别方法的第三种流程图。片尾的开始位置识别方法还包括：

步骤S107：若指定时间戳区间内的待识别视频帧中不存在第二视频帧，基于第三视频帧在视频文件中的位置，确定片尾的开始位置。

其中，第三视频帧为：指定时间戳区间内的待识别视频帧中时间戳最早的黑屏视频帧。

在本申请实施例中，视频的正片和片尾之间可能使用黑屏画面进行过渡，因此，可以基于黑屏视频帧确定片尾的开始位置。

由于受到转场检测精度的影响，可能未检测到第二视频帧，此时，可以基于第三视频帧在视频文件中的位置，确定片尾的开始位置。也就能够进一步保证确定出片尾的开始位置，从而提高片尾的开始位置的识别有效性。

例如，针对指定时间戳区间内的每一待识别视频帧，可以进行像素值检测，确定该视频帧中像素值低于预设像素值阈值的像素点，计算此类像素点的占比。若占比达到预设比例，则确定该待识别视频帧为黑屏视频帧。例如，预设像素值阈值可以为10或15，预设比例可以为70％或80％。

另外，由于第三视频帧为指定时间戳区间内的待识别视频帧中时间戳最早的黑屏视频帧，相应的，可以按照时间戳从早到晚的顺序，依次对指定时间戳区间内的每一待识别视频帧进行像素值检测，并确定出第一个黑屏视频帧。进而，可以停止对其他待识别视频帧进行像素值检测，直接将该第一个黑屏视频帧确定为第三视频帧。基于此，可以只对指定时间戳区间内的一部分待识别视频帧进行像素值检测，能够减少计算量，提高确定第三视频帧的效率，进而，可以提高片尾的开始位置的识别效率。

在一个实施例中，在基于第三视频帧在视频文件中的位置，确定片尾的开始位置之前，片尾的开始位置识别方法还包括：

步骤S106：获取第二音频帧的时间戳。

其中，第二音频帧为指定时间戳区间内静音的音频帧片段中时间戳最早的音频帧。

基于第三视频帧在视频文件中的位置，确定片尾的开始位置，包括：

步骤1：若第二音频帧与第三视频帧之间的时序距离小于第一预设阈值，则将第二音频帧在视频文件中的位置，确定为片尾的开始位置。

步骤2：若第二音频帧与第三视频帧之间的时序距离不小于第一预设阈值，则将第三视频帧在视频文件中的位置，确定为片尾的开始位置。

在本申请实施例中，若第二音频帧与第三视频帧之间的时序距离小于第一预设阈值，则表明第二音频帧有较大的可能是片尾处静音片段的开始位置，也就是说，第二音频帧更接近片尾的开始位置。因此，将第二音频帧在视频文件中的位置，确定为片尾的开始位置。

若第二音频帧与第三视频帧之间的时序距离不小于第一预设阈值，则表明第三视频帧更接近片尾的开始位置。因此，将第三视频帧在视频文件中的位置，确定为片尾的开始位置。

也就可以使确定出的片尾的开始位置更准确，提高识别片尾的开始位置的有效性。

在一个实施例中，片尾的开始位置识别方法还包括：

步骤1：若指定时间戳区间内的待识别视频帧中不存在第二视频帧，且不存在第三视频帧，则将第二音频帧在视频文件中的位置，确定为片尾的开始位置。

在本申请实施例中，当指定时间戳区间内的待识别视频帧中，未确定出发生转场的视频帧，且未确定出黑屏视频帧时，可以将第二音频帧在视频文件中的位置，确定为片尾的开始位置。也就能够进一步保证识别片尾的开始位置的有效性。

在一个实施例中，从原始的视频文件中获取时间戳最晚的指定时长部分，作为待识别的视频文件。

对待识别的视频文件中的各待识别音频帧进行音频识别，确定包含指定片尾类型的音频数据的音频帧片段中时间戳最早的音频帧(即第一音频帧)的时间戳，作为指定时间戳区间的下边界(即起始时间戳)。对待识别的视频文件进行抽帧处理，进而，对抽帧得到的各视频帧进行文本识别，确定包含片尾关键字且时间戳最早的视频帧(即第一视频帧)的时间戳，作为指定时间戳区间的上边界(即终止时间戳)。若未确定出包含片尾关键字的视频帧，则对抽帧得到的各视频帧进行文本框检测，确定出包含滚动文本的视频帧片段中时间戳最早的视频帧(即第一视频帧)，作为指定时间戳区间的上边界(即终止时间戳)。

对指定时间戳区间内的各待识别视频帧进行像素值变化检测，确定指定时间戳区间内发生转场且时间戳最早的视频帧(即第二视频帧)，该视频帧在视频文件中的位置也可以称为转场点位。

对指定时间戳区间内的各待识别视频帧进行像素值检测，确定指定时间戳区间内的待识别视频帧中时间戳最早的黑屏视频帧(即第三视频帧)，该视频帧在视频文件中的位置也可以称为黑屏点位。

对指定时间戳区间内的各待识别音频帧进行音量检测，确定指定时间戳区间内静音的音频帧片段中时间戳最早的静音音频帧(即第二音频帧)，将该音频帧在视频文件中的位置也可以称为静音点位。

若存在转场点位，可以将转场点位直接确定为片尾的开始位置。

或者，若存在转场点位，且存在静音点位，则判断静音点位与转场点位的时序距离是否小于第一预设阈值。若静音点位与转场点位的时序距离小于第一预设阈值，则将静音点位确定为片尾的开始位置；若静音点位与转场点位的时序距离不小于第一预设阈值，则将转场点位确定为片尾的开始位置。

若不存在转场点位，且存在黑屏点位，可以将黑屏点位直接确定为片尾的开始位置。

或者，若不存在转场点位，存在黑屏点位，且存在静音点位，则判断静音点位与黑屏点位的时序距离是否小于第一预设阈值。若静音点位与黑屏点位的时序距离小于第一预设阈值，则将静音点位确定为片尾的开始位置；若静音点位与黑屏点位的时序距离不小于第一预设阈值，则将黑屏点位确定为片尾的开始位置。

若不存在转场点位，也不存在黑屏点位，且存在静音点位，则将静音点位确定为片尾的开始位置。

在本申请实施例中，可以基于片尾的多种形式，从音频和视频角度分别对待识别的视频文件进行识别，按照上述实施例中的优先级顺序确定出至少一个片尾的开始位置，也就能够提高片尾的开始位置识别的有效性。

在一个实施例中，参见图4，图4为本申请实施例提供的片尾的开始位置识别方法的第四种流程图。可以对待识别的视频文件进行抽帧处理，例如，可以按照上述实施例中的预设抽帧频率进行抽帧。进而，可以对待识别的视频文件中的各待识别视频帧分别进行转场点检测(即上述实施例中确定第二视频帧的过程)和黑屏检测(即上述实施例中确定第三视频帧的过程)；对待识别的视频文件中的各待识别音频帧分别进行音频点检测(即上述实施例中确定第一音频帧的过程)和静音点检测(即上述实施例中确定第二音频帧的过程)；对按照预设抽帧频率进行抽帧得到的各视频帧进行文本检测识别(即上述实施例中确定第一视频帧的过程)。文本检测识别包括关键字匹配，以及滚动文本检测，可以确定出包含片尾字幕的视频帧。

进而，可以基于后处理逻辑，即，上述实施例中介绍的片尾的开始位置确定的逻辑，得到片尾的开始位置。

在本申请实施例中，可以结合电视剧中发生转场的视频帧、黑屏视频帧、包含指定片尾类型的音频数据的音频帧、包含片尾字幕的视频帧以及静音的音频帧，按照一定的优先级顺序，确定片尾的开始位置，完成片尾的开始位置的识别，也就可以使确定出的片尾的开始位置更接近实际的片尾的开始位置，提高片尾的开始位置的识别的准确性。且通过多个角度的检测，能够提高片尾的开始位置的识别的有效性。

本申请实施例还提供了一种片尾的开始位置识别装置，参见图5，图5为本申请实施例提供的片尾的开始位置识别装置的结构示意图，该装置包括：

视频文件获取模块501，用于获取待识别的视频文件。

第一音频帧确定模块502，用于从各待识别音频帧中，确定包含指定片尾类型的音频数据的音频帧片段中时间戳最早的音频帧，作为第一音频帧。

第一视频帧确定模块503，用于从各待识别视频帧中确定包含片尾字幕，且时间戳最早的视频帧，作为第一视频帧。

第二视频帧确定模块504，用于从指定时间戳区间内的待识别视频帧中，确定发生转场且时间戳最早的视频帧，作为第二视频帧。

第一确定模块505，用于基于第二视频帧在视频文件中的位置，确定片尾的开始位置。

在一个实施例中，片尾的开始位置识别装置还包括：

第二确定模块，用于若指定时间戳区间内的待识别视频帧中不存在第二视频帧，基于第三视频帧在视频文件中的位置，确定片尾的开始位置。

在一个实施例中，片尾的开始位置识别装置还包括：

第一获取模块，用于在基于第三视频帧在视频文件中的位置，确定片尾的开始位置之前，获取第二音频帧的时间戳。

第二确定模块，具体用于若第二音频帧与第三视频帧之间的时序距离小于第一预设阈值，则将第二音频帧在视频文件中的位置，确定为片尾的开始位置；若第二音频帧与第三视频帧之间的时序距离不小于第一预设阈值，则将第三视频帧在视频文件中的位置，确定为片尾的开始位置。

在一个实施例中，片尾的开始位置识别装置还包括：

第三确定模块，用于若指定时间戳区间内的待识别视频帧中不存在第二视频帧，且不存在第三视频帧，则将第二音频帧在视频文件中的位置，确定为片尾的开始位置。

在一个实施例中，片尾的开始位置识别装置还包括：

第二获取模块，用于在基于第二视频帧在视频文件中的位置，确定片尾的开始位置之前，获取第二音频帧的时间戳。

第一确定模块505，具体用于若第二音频帧与第二视频帧之间的时序距离小于第一预设阈值，则将第二音频帧在视频文件中的位置，确定为片尾的开始位置；若第二音频帧与第二视频帧之间的时序距离不小于第一预设阈值，则将第二视频帧在视频文件中的位置，确定为片尾的开始位置。

在一个实施例中，静音的音频帧片段中每一音频帧的音量小于预设音量值，且该音频帧片段的持续时长大于预设时长。

在一个实施例中，第一音频帧确定模块502，具体用于从各待识别音频帧中确定包含指定片尾类型的音频数据的音频帧，作为第三音频帧；

针对每一第三音频帧，若与该第三音频帧相邻的其他第三音频帧与该第三音频帧之间的时序距离小于第二预设阈值，则确定该第三音频帧、其他第三音频帧，以及之间的音频帧属于同一个包含指定片尾类型的音频数据的音频帧片段；

在一个实施例中，第一视频帧确定模块503，包括：

第四视频帧确定子模块，用于按照预设抽帧频率，对各待识别视频帧进行抽帧，得到第四视频帧。

第一确定子模块，用于若各第四视频帧中存在包含片尾关键字的视频帧，则将包含片尾关键字，且时间戳最早的视频帧，作为第一视频帧。

在一个实施例中，第二确定子模块，具体用于从各第四视频帧中确定包含滚动文本的视频帧，作为第五视频帧；

在一个实施例中，视频文件获取模块501，具体用于从原始的视频文件中获取时间戳最晚的指定时长部分，作为待识别的视频文件。

本申请实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现如下步骤：

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的片尾的开始位置识别方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的片尾的开始位置识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备和存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种片尾的开始位置识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，在所述基于第三视频帧在所述视频文件中的位置，确定片尾的开始位置之前，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，在所述基于所述第二视频帧在所述视频文件中的位置，确定片尾的开始位置之前，所述方法还包括：

6.根据权利要求3-5任一项所述的方法，其特征在于，所述静音的音频帧片段中每一音频帧的音量小于预设音量值，且该音频帧片段的持续时长大于预设时长。

7.根据权利要求1所述的方法，其特征在于，所述从各待识别音频帧中，确定包含指定片尾类型的音频数据的音频帧片段中时间戳最早的音频帧，作为第一音频帧，包括：

8.根据权利要求1所述的方法，其特征在于，所述从各待识别视频帧中确定包含片尾字幕，且时间戳最早的视频帧，作为第一视频帧，包括：

9.根据权利要求8所述的方法，其特征在于，所述从各第四视频帧中，确定包含滚动文本的视频帧片段中时间戳最早的视频帧，作为第一视频帧，包括：

10.根据权利要求1所述的方法，其特征在于，所述获取待识别的视频文件，包括：

11.一种片尾的开始位置识别装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-10任一所述的方法步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-10任一所述的方法步骤。