CN115103225B

CN115103225B - 视频片段提取方法、装置、电子设备和存储介质

Info

Publication number: CN115103225B
Application number: CN202210685319.7A
Authority: CN
Inventors: 赵瑞书
Original assignee: Beijing IQIYI Science and Technology Co Ltd
Current assignee: Beijing IQIYI Science and Technology Co Ltd
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2023-12-26
Anticipated expiration: 2042-06-15
Also published as: CN115103225A

Abstract

本申请提供一种视频片段提取方法、装置、电子设备和存储介质，其中，所述方法包括：对目标视频文件包括的多个第一视频帧分别进行文字提取，获得各第一视频帧对应的文字信息；根据预设的关键字集合确定所述多个第一视频帧中的目标视频帧；以所述目标视频帧对应的时间节点为起始时间节点，从所述目标视频文件中提取目标视频片段。通过依次执行视频帧文字提取和关键字匹配的动作，确定目标视频帧，并以目标视频帧对应的时间节点作为起始时间节点的方式，对相关技术中人工定位的方式进行替换，以提高在目标视频文件中对目标视频片段的开始时间的定位效率，进而提高目标视频文件中目标视频片段的提取效率。

Description

视频片段提取方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机科学技术领域，具体涉及一种视频片段提取方法、装置、电子设备和存储介质。

背景技术

对于音乐类的综艺节目来说，歌曲所在的位置是穿插于整个节目之间的，没有时间上的规律性，在节目播出后，需要拆解该综艺节目对应的视频文件，以从视频文件中提取出特定的视频片段，其中，特定的视频片段可理解为视频文件中对应完整歌曲演唱部分的视频片段。

目前，相关技术多采用人工定位的方式提取音乐类视频文件中的视频片段，受工作经验、工作状态等人为因素的影响，根据相关技术提取音乐类视频文件中特定视频片段的效率较低。

发明内容

本申请实施例的目的在于提供一种视频片段提取方法、装置、电子设备和存储介质，用于解决相关技术提取音乐类视频文件中特定视频片段的效率较低的问题。

第一方面，本申请实施例提供一种视频片段提取方法，包括：

对目标视频文件包括的多个第一视频帧分别进行文字提取，获得各第一视频帧对应的文字信息；

根据预设的关键字集合确定所述多个第一视频帧中的目标视频帧，所述目标视频帧对应的文字信息与所述关键字集合的匹配度大于或等于匹配阈值；

以所述目标视频帧对应的时间节点为起始时间节点，从所述目标视频文件中提取目标视频片段。

在一些实施方式中，所述目标视频文件用于表征音乐类的综艺节目的视频文件，所述目标视频片段用于表征所述目标视频文件中对应完整歌曲演唱部分的视频片段，所述关键字集合用于表征所述歌曲的来源信息，所述来源信息包括所述歌曲的演唱信息、作词信息、作曲信息和制作人信息中的至少一项。

在一些实施方式中，在对目标视频文件包括的多个第一视频帧分别进行文字提取，获得各第一视频帧对应的文字信息之前，所述方法还包括：

对所述目标视频文件进行抽帧处理，获得多个第二视频帧；

对所述多个第二视频帧分别进行文字检测，确定每一第二视频帧中的文字对应的文本框；

将对应的文本框数量小于或等于第一阈值的第二视频帧滤除，获得所述多个第一视频帧。

在一些实施方式中，所述对目标视频文件包括的多个第一视频帧分别进行文字提取，获得各第一视频帧对应的文字信息，包括：

针对每一所述第一视频帧，获取所述第一视频帧中各文本框的宽度信息；

针对每一所述第一视频帧，根据所述第一视频帧中各文本框的宽度信息对所述第一视频帧包括的多个文本框进行聚类，获得所述第一视频帧对应的簇元素极值，所述簇元素极值用于表征所述第一视频帧中元素数目最多的类簇的元素数目；

在所述多个第一视频帧中将对应的簇元素极值小于预设的第二阈值的第一视频帧滤除；

对过滤后的多个第一视频帧分别进行文字提取，获得各第一视频帧对应的文字信息。

在一些实施方式中，所述根据所述第一视频帧中各文本框的宽度信息对所述第一视频帧包括的多个文本框进行聚类，获得所述第一视频帧对应的簇元素极值，包括：

根据所述第一视频帧中各文本框的宽度信息对所述第一视频帧包括的多个文本框进行聚类，获得所述第一视频帧对应的至少一个类簇，其中，在所述类簇包括至少两个文本框的情况下，所述至少两个文本框中的任意两个文本框的宽度信息的重叠度大于或等于重叠阈值；

将所述至少一个类簇中对应元素数目最多的类簇确定为目标类簇；

将所述目标类簇对应的元素数目确定为所述第一视频帧对应的簇元素极值。

在一些实施方式中，所述针对每一所述第一视频帧，获取所述第一视频帧中各文本框的宽度信息之前，所述方法还包括：

针对每一所述第一视频帧，获取所述第一视频帧中各文本框的高度区间；

根据所述第一视频帧中各文本框的高度区间获得多个备选区间，所述备选区间的高度均值位于所述高度区间内；

在所述多个备选区间中将包括文本框数量最多的备选区间确定为目标区间；

在所述第一视频帧包括的多个文本框中滤除所述目标区间不包括的文本框。

在一些实施方式中，所述以所述目标视频帧对应的时间节点为起始时间节点从所述目标视频文件中提取目标视频片段，包括：

获取所述目标视频文件包括的多个台词时间节点；

根据起始时间节点在所述多个台词时间节点中确定终止时间节点，所述起始时间节点为所述目标视频帧对应的时间节点，所述终止时间节点为位于起始时间节点之后，且与所述起始时间节点的时间间隔最短的台词时间节点；

根据所述起始时间节点和所述终止时间节点从所述目标视频文件中提取所述目标视频片段。

第二方面，本申请实施例还提供一种视频片段提取装置，包括：

文字提取模块，用于对目标视频文件包括的多个第一视频帧分别进行文字提取，获得各第一视频帧对应的文字信息；

匹配模块，根据预设的关键字集合确定所述多个第一视频帧中的目标视频帧，所述目标视频帧对应的文字信息与所述关键字集合的匹配度大于或等于匹配阈值；

视频提取模块，用于以所述目标视频帧对应的时间节点为起始时间节点，从所述目标视频文件中提取目标视频片段。

第三方面，本申请实施例提供一种电子设备，包括：

处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如上第一方面所述的视频片段提取方法中的步骤。

第四方面，本申请实施例提供一种可读存储介质，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如上第一方面所述的视频片段提取方法中的步骤。

上述申请中的至少一个实施例具有如下优点或有益效果：

本申请实施例提供的视频片段提取方法，通过依次执行视频帧文字提取和关键字匹配的动作，确定目标视频帧，并以目标视频帧对应的时间节点作为起始时间节点的方式，对相关技术中人工定位的方式进行替换，以提高在目标视频文件中对目标视频片段的开始时间的定位效率，进而提高目标视频文件中目标视频片段的提取效率。

附图说明

图1是本申请实施例提供的一种视频片段提取方法的流程图；

图2是本申请实施例提供的经过文字检测后的第二视频帧的示意图；

图3是本申请实施例提供的目标视频帧的示意图；

图4是本申请实施例提供的一种第一视频帧的示意图；

图5是本申请实施例提供的另一种第一视频帧的示意图；

图6是本申请实施例提供的又一种第一视频帧的示意图；

图7是本申请实施例提供的目标视频片段提取过程的流程图；

图8是本申请实施例提供的一种视频片段提取装置的结构示意图；

图9是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1是本申请实施例提供的一种视频片段提取方法的流程图，如图1所示，上述视频片段提取方法包括：

101、对目标视频文件包括的多个第一视频帧分别进行文字提取，获得各第一视频帧对应的文字信息。

102、根据预设的关键字集合确定所述多个第一视频帧中的目标视频帧。

其中，所述目标视频帧对应的文字信息与所述关键字集合的匹配度高于匹配阈值。

103、以所述目标视频帧对应的时间节点为起始时间节点，从所述目标视频文件中提取目标视频片段。

其中，所述目标视频文件用于表征音乐类的综艺节目的视频文件。

示例性的，上述目标视频文件可以为歌手选拔题材的音乐类综艺节目对应的视频文件，也可以为歌手竞赛题材的音乐类综艺节目对应的视频文件。

所述目标视频片段用于表征所述目标视频文件中对应完整歌曲演唱部分的视频片段，也即目标视频文件中表演者完整演唱一首歌曲的视频片段。

在歌曲前奏阶段，会以字幕形式对所演唱歌曲的来源信息(例如演唱，作词，作曲，制作人等)进行展示；在歌曲演唱阶段，会以字幕形式对歌曲的歌词进行动态展示。所述关键字集合用于表征所述歌曲的来源信息，所述来源信息包括所述歌曲的演唱信息、作词信息、作曲信息和制作人信息中的至少一项。

示例性的，所述关键字集合包括的多个关键字可以存储于一可编辑的配置文件中，用户可适应性对所述配置文件中的多个关键字进行编辑(如执行新增、修改、删除等操作)，在确定目标视频帧(可理解为携带有歌曲的来源信息的第一视频帧)之前，通过导入所述配置文件以对应获得用户预先配置的多个关键字(也即关键字集合)。此外，上述关键字集合包括的多个关键字也可以存储于预设的数据库内，用户可适应性对所述数据库内的多个关键字进行编辑，且在确定目标视频帧之前，通过查询指令即可对应获取用户预先配置于数据库内的多个关键字(也即关键字集合)。

如上所述，通过依次执行视频帧文字提取和关键字匹配的动作，确定目标视频帧，并以目标视频帧对应的时间节点作为起始时间节点的方式，对相关技术中人工定位的方式进行替换，以提高在目标视频文件中对目标视频片段的开始时间的定位效率，进而提高目标视频文件中目标视频片段的提取效率。

示例性的，可以基于光学字符识别(Optical Character Recognition，OCR)算法执行视频帧文字提取动作。

示例性的，上述关键字匹配的执行过程(也即在多个第一视频帧中确定目标视频帧的过程)可以为：

针对每一所述第一视频帧对应的文字信息，以关键字集合作为检索条件在所述文字信息中进行检索，若所述文字信息与所述关键字集合的匹配度大于或等于匹配阈值，则将所述文字信息对应的第一视频帧确定为目标视频帧；若所述文字信息与所述关键字集合的匹配度小于所述匹配阈值，则判定所述文字信息对应的第一视频帧不是目标视频帧。

其中，所述文字信息包括至少一个字组，所述文字信息与所述关键字集合的匹配度可理解为，所述文字信息与所述关键字集合的交集包括的元素数目，所述匹配阈值可以为2，也可以为3或3以上的整数，本申请实施例对所述匹配阈值的具体数值并不加以限定。

举例来说，若设定某个第一视频帧对应的文字信息为：[好声音、演唱、作词、作曲]，设定关键字集合为[演唱、作词、作曲、制作人]，则所述文字信息与所述关键字集合的交集为[演唱、作词、作曲]，所述文字信息与所述关键字集合的匹配度为3(也即两者的交集包括的元素数目为3个)，在匹配阈值为2的情况下，该文字信息对应的第一视频帧即可被确定为目标视频帧。

需要说明的是，在目标视频文件中的目标视频片段仅存在一个的情况下，若通过全量视频帧获取或抽帧等方式获取多个第一视频帧，则在多个第一视频帧中所确定的目标视频帧存在至少两个(即携带有歌曲来源信息的第一视频帧存在至少两个)，且至少两个目标视频帧的时间间隔小于时间阈值，此时通过对每一目标视频帧对应的时间节点进行追踪，可将至少两个目标视频帧归并为一个目标视频帧(即在至少两个目标视频帧中选定对应时间节点最早的目标视频帧)，后续便可以将归并得到的目标视频帧对应的时间节点作为起始时间节点，以从目标视频文件中提取目标视频片段。

其中，全量视频帧获取可理解为以视频帧为最小单元对目标视频文件进行拆解，并将拆解得到的每个视频帧均设置为第一视频帧，举例来说，若目标视频文件的时长为10分钟，目标视频文件中每一秒包括6张视频帧，则基于全量视频帧获取方式将获得3600个第一视频帧。

抽帧可理解为基于预设的抽帧密度对目标视频文件进行抽帧处理，并将抽帧获得的每个视频帧均设置为第一视频帧，举例来说，若目标视频文件的时长仍为10分钟，目标视频文件中每一秒仍包括6张视频帧，在抽帧密度为一秒两帧的情况下，基于高频次抽帧方式将获得1200个第一视频帧，实际中，所述抽帧密度还可以为一秒一帧、一秒三帧等，本申请实施例对此并不加以限定。

在目标视频文件中的目标视频片段存在两个或两个以上的情况下，所确定的目标视频帧存在至少两个，此时可先基于前述时间阈值对至少两个目标视频帧进行聚类(两个目标视频帧之间的时间间隔小于或等于时间阈值，则将两个目标视频帧归为同一集合，否则，则将两个目标视频帧归为不同集合)，再针对聚类后的每一集合，对集合中每一目标视频帧对应的时间节点进行归并，以使集合中多个目标视频帧归并为一个目标视频帧，具体归并过程参见前述示例，此处不再赘述。

示例性的，所述时间阈值可以为1秒、2秒、3秒等，本申请实施例对此并不加以限定。

如上所述，在确定目标视频帧以后，可以基于目标视频帧对应的时间节点对所述目标视频文件进行标记，随后以所标记的时间节点作为起始时间节点，通过人工识别的方式确定目标视频片段的结束时间节点，并基于所述起始时间节点和所述结束时间节点在目标视频文件中提取所述目标视频片段。相较于纯人工识别的方式来说，本申请所提供视频片段提取方法，通过在目标视频文件中预先定位目标视频片段的起始时间节点的方式，能省去人工查阅目标视频文件以定位所述起始时间节点的步骤，这不仅能提高目标视频文件中目标视频片段的提取效率，还能避免人为因素导致的目标视频文件中目标视频片段未被提取的情况发生。

获取所述目标视频文件包括的多个台词时间节点；

目标视频文件中的每一视频帧均包括字幕，其中，所述字幕包括歌词字幕和台词字幕两类，所述歌词字幕可理解为某一歌曲的部分歌词，所述台词字幕可理解为非歌词字幕的视频帧字幕，如上，显示有歌词字幕的视频帧所对应的时间节点为歌词时间节点，显示有台词字幕的视频帧所对应的时间节点为台词时间节点。

先通过预设的台词生产模型获取目标视频文件包括的多个台词时间节点，再从多个台词时间节点中将位于起始时间节点之后，且与起始时间节点之间的时间间隔最短的台词时间节点确定为终止时间节点，随后将起始时间节点和终止时间节点分别作为起始时间和结束时间，从目标视频文件中提取目标视频片段，这能进一步提高目标视频文件中目标视频片段的提取效率。

举例来说，若多个台词时间节点分别为58秒、59秒、332秒、333秒，起始时间节点为60秒，位于起始时间节点(60秒)之后的台词时间节点只有两个(332秒和333秒)，且332秒对应的台词时间节点与起始时间节点之间的时间间隔最短，因此，将332秒对应的台词时间节点确定为终止时间节点。

其中，前述台词生产模型用于识别目标视频文件中每一视频帧的字幕类别，其训练过程可以为：

获取创建的初始生产模型；

通过预设的训练样本对所述初始生产模型进行训练，所述训练样本包括歌词字幕视频帧和台词字幕视频帧；

将训练好的初始生产模型确定为所述台词生产模型。

在一些实施方式中，在对目标视频文件包括的多个第一视频帧分别进行文字提取，获得各第一视频帧对应的文字信息之前(即在执行步骤101之前)，所述方法还包括：

对所述目标视频文件进行抽帧处理，获得多个第二视频帧；

如上所述，先对目标视频文件进行抽帧处理，以减少待进行文字检测的第二视频帧数量，再通过文字检测的方式对每一第二视频帧中是否存在文本行，以及所存在的文本行的行数进行统计，以过滤不存在文本行的第二视频帧以及文本行的行数小于或等于第一阈值的第二视频帧，将过滤后的第二视频帧确定为所述第一视频帧，由于包括有歌曲来源信息的目标视频帧中存在多个文本行，因此通过上述过滤方式，能在保留包括有歌曲来源信息的视频帧的前提下，有效降低待处理的第一视频帧的数量，这能提高目标视频帧的获取效率，也即提高目标视频文件中目标视频片段的提取效率。

其中，对所述多个第二视频帧分别进行文字检测的过程可理解为，针对每一第二视频帧，基于预设的文字检测模型对所述第二视频帧进行文字检测，并利用文本框对所述第二视频帧内所检测的文本行进行标记，示例性的，经过文字检测后的第二视频帧可以如图2所示，图2中虚线框即为所述文本框。

示例性的，所述文字检测模型可以为基于连接文本提议网络的自然图像文本检测算法(Detecting Text in Natural Image with Connectionist Text ProposalNetwork，CTPN)的文字检测模块；所述第一阈值可以为2、3或大于3的整数。

需要说明的是，基于CTPN算法对多个第二视频帧分别进行文字检测后，将获得每一第二视频帧对应的全部文本框，此时以第二视频帧为键，以第二视频帧对应的全部文本框为值，可生成多个键值对(也称字典)，将对应的文本框数量小于或等于第一阈值的第二视频帧滤除可理解为，在多个键值对中将不满足条件(指第二视频帧对应的文本框数量小于或等于第一阈值)的键值对滤除。

在一些实施方式中，所述对目标视频文件包括的多个第一视频帧分别进行文字提取，获得各第一视频帧对应的文字信息(即步骤101)，包括：

如图3所示，目标视频帧中对应歌曲来源信息(演唱、作词、作曲)的多个文本行在宽度方向(图3中双向箭头所示出的方向)上的相关性较为显著，且对应歌曲来源信息的文本行的行数大于或等于第二阈值，因此，针对每一所述第一视频帧，根据所述第一视频帧中各文本框的宽度信息对所述第一视频帧包括的多个文本框进行聚类，以获得所述第一视频帧对应的簇元素极值，随后在多个第一视频帧中将对应的簇元素极值小于第二阈值的第一视频帧滤除，以进一步减少待进行关键字匹配的文字信息数量，提高目标视频帧的获取效率，提高目标视频文件中目标视频片段的提取效率。

其中，文本框的宽度信息可理解为文本框在第一视频帧中的宽度区间。

进一步的，所述根据所述第一视频帧中各文本框的宽度信息对所述第一视频帧包括的多个文本框进行聚类，获得所述第一视频帧对应的簇元素极值，包括：

示例性的，获取第一视频帧对应的簇元素极值的过程可以为：

如图4所示，歌名所对应文本框的宽度信息为[200，300]，歌曲演唱信息所对应文本框的宽度信息为[100，130]，歌曲作词信息所对应文本框的宽度信息为[100，130]，歌曲作曲信息所对应文本框的宽度信息为[100，130]，通过计算上述四个宽度信息之间的重叠度(Intersection over Union，IoU)可知，歌曲演唱信息、歌曲作词信息和歌曲作曲信息中任意两个所对应宽度信息的重叠度均为1，歌名所对应的宽度信息与另外三者(指歌曲演唱信息、歌曲作词信息和歌曲作曲信息)所对应的宽度信息的重叠度为0，在重叠阈值为0.5的情况下，图4所示的四个文本框经过聚类处理将形成两个类簇，其中一个类簇包括歌名所对应文本框(元素数目为1)，另一个类簇包括歌曲演唱信息所对应文本框、歌曲作词信息所对应文本框以及歌曲作曲信息所对应文本框(元素数目为3)，故可求得图4所示出第一视频帧对应的簇元素极值为3。

需要说明的是，上述重叠阈值可以根据用户需求适应性调整，本申请实施例对重叠阈值和第二阈值的具体数值均不加以限定。

如上所述，针对每一所述第一视频帧，在基于第一视频帧中各文本框的宽度信息获取对应簇元素极值之前，通过各文本框的高度区间对第一视频帧中包括的多个文本框进行过滤，以在保留包括有歌曲来源信息的文本框的前提下，降低第一视频帧中的文本框数量，进而提升后续计算得到的簇元素极值的准确性，提高所获得的目标视频帧的准确性，也即提高所提取目标视频片段的准确性。

示例性的，第一视频帧中目标区间的确定过程可以为：

如图5所示(图5中双向箭头所示出的方向即为文本框的高度方向)，第一视频帧中包括的多个文本框分别为一号文本框(高度区间为[100，130])、二号文本框(高度区间为[140，170])、三号文本框(高度区间为[180，210])和四号文本框(高度区间为[400，490])，此时可获得184个备选区间，在设定备选区间的高度为111的情况下，184个备选区间中的任意一个备选区间为[x-55，x+55]，其中，x属于[100，130]区间(或[140，170]区间或[180，210]或[400，490])，当x为155时，备选区间包括的文本框数量最多(包括一号文本框、二号文本框、三号文本框)，故将x为155所对应的备选区间确定为目标区间，该目标区间具体为[100，210]，由于目标区间未包括四号文本框，因此四号文本框将被滤除。

需要说明的是，如图6所示，在文字检测过程中，基于第一视频帧中的某一文字行可能会识别出多个文本框(即不同文本框之间存在重叠)，为避免冗余的文本框干扰后续的过滤流程，可以在获取文本框的高度区间之前，针对每一第一视频帧，利用非极大值抑制算法对所述第一视频帧中多个文本框进行处理，以避免所述第一视频帧中不同文本框出现重叠的情况下。

进一步的，在获取文本框的高度区间之前，还可以针对每一第一视频帧，计算所述第一视频帧中多个文本框之间的重叠度，并将重叠度大于0.5的不同文本框进行合并，以避免第一视频帧中的某一文字行对应两个或两个以上的文本框的情况。

为方便理解，示例说明如下：

如图7所示，对目标视频文件进行抽帧处理，获得多个待检测视频帧；基于CTPN算法对多个待检测视频帧分别进行文本检测，得到每一待检测视频帧包括的所有文本行；以待检测视频帧为键，待检测视频帧包括的所有文本作为值，生成第一字典。

对所述第一字典进行过滤，获得第二字典，所述第二字典中的每一键值对对应的文本行的数目大于或等于3。

针对第二字典中每一键值对，统计所述键值对包含的3个或3个以上文本行的高度区间，并基于所统计的高度区间获得多个备选区间，将多个备选区间中包括文本行的数目最多的备选区间确定为目标区间，在所述键值对中将目标区间包括的文本行保留(所述键值对中目标区间不包括的文本行将被删除)。

针对第二字典中每一键值对，基于文本行的宽度信息对所述键值对保留的多个文本行进行聚类，以获得所述键值对的簇元素极值，若所述键值对的簇元素极值大于2，则在第二字典中保留该键值对；若所述键值对的簇元素极值小于或等于2，则将该键值对从所述第二字典中删除。

遍历过滤后的第二字典，并基于OCR算法提取过滤后的第二字典中每一键值对的文字内容，并将所提取文字内容与预先配置的关键字进行匹配，若文字内容与关键字匹配成功的次数超过2次，则将该文字内容对应键值对的待检测视频帧确定为目标视频帧，并将该目标视频帧在目标视频文件中的时间节点确定为待提取的目标视频片段在目标视频文件中的开始时间，最后基于开始时间在目标视频文件中提取所述目标视频片段。

如图8所示，本申请实施例还提供一种视频片段提取装置200，包括：

文字提取模块201，用于对目标视频文件包括的多个第一视频帧分别进行文字提取，获得各第一视频帧对应的文字信息；

匹配模块202，用于根据预设的关键字集合确定所述多个第一视频帧中的目标视频帧，所述目标视频帧对应的文字信息与所述关键字集合的匹配度高于匹配阈值；

视频提取模块203，用于以所述目标视频帧对应的时间节点为起始时间节点，从所述目标视频文件中提取目标视频片段。

在一些实施方式中，所述视频片段提取装置200还包括过滤模块，所述过滤模块包括：

对所述目标视频文件进行抽帧处理，获得多个第二视频帧；

在一些实施方式中，所述文字提取模块201包括：

第一获取单元，用于针对每一所述第一视频帧，获取所述第一视频帧中各文本框的宽度信息；

聚类单元，用于针对每一所述第一视频帧，根据所述第一视频帧中各文本框的宽度信息对所述第一视频帧包括的多个文本框进行聚类，获得所述第一视频帧对应的簇元素极值，所述簇元素极值用于表征所述第一视频帧中元素数目最多的类簇的元素数目；

过滤单元，用于在所述多个第一视频帧中将对应的簇元素极值小于预设的第二阈值的第二视频帧滤除；

文字提取单元，用于对过滤后的多个第一视频帧分别进行文字提取，获得各第一视频帧对应的文字信息。

在一些实施方式中，所述聚类单元包括：

聚类子单元，用于根据所述第一视频帧中各文本框的宽度信息对所述第一视频帧包括的多个文本框进行聚类，获得所述第一视频帧对应的至少一个类簇，其中，在所述类簇包括至少两个文本框的情况下，所述至少两个文本框中的任意两个文本框的宽度信息的重叠度大于或等于重叠阈值；

类簇确定子单元，用于将所述至少一个类簇中对应元素数目最多的类簇确定为目标类簇；

极值确定子单元，用于将所述目标类簇对应的元素数目确定为所述第一视频帧对应的簇元素极值。

在一些实施方式中，所述文字提取模块201还包括文本筛选单元，所述文本筛选单元用于：

针对第一所述每一视频帧，获取所述每一视频帧中各文本框的高度区间；

在一些实施方式中，所述视频提取模块203包括：

获取所述目标视频文件包括的多个台词时间节点；

请参见图9，图9是本申请实施例提供的一种电子设备的结构示意图，如图9所示，电子设备包括：总线301、收发机302、天线303、总线接口304、处理器305和存储器306。处理器305能够实现上述视频片段提取方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

在图9中，总线架构(用总线301来代表)，总线301可以包括任意数量的互联的总线和桥，总线301将包括由处理器305代表的一个或多个处理器和存储器306代表的存储器的各种电路链接在一起。总线301还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口304在总线301和收发机302之间提供接口。收发机302可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器305处理的数据通过天线303在无线介质上进行传输，进一步，天线303还接收数据并将数据传送给处理器305。

处理器305负责管理总线301和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器306可以被用于存储处理器305在执行操作时所使用的数据。

可选的，处理器305可以是CPU、ASIC、FPGA或CPLD。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，的计算机可读存储介质，如只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者第二终端设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种视频片段提取方法，其特征在于，包括：

以所述目标视频帧对应的时间节点为起始时间节点，从所述目标视频文件中提取目标视频片段；

在对目标视频文件包括的多个第一视频帧分别进行文字提取，获得各第一视频帧对应的文字信息之前，所述方法还包括：对所述目标视频文件进行抽帧处理，获得多个第二视频帧；对所述多个第二视频帧分别进行文字检测，确定每一第二视频帧中的文字对应的文本框；将对应的文本框数量小于或等于第一阈值的第二视频帧滤除，获得所述多个第一视频帧；

所述对目标视频文件包括的多个第一视频帧分别进行文字提取，获得各第一视频帧对应的文字信息，包括：针对每一所述第一视频帧，获取所述第一视频帧中各文本框的宽度信息；针对每一所述第一视频帧，根据所述第一视频帧中各文本框的宽度信息对所述第一视频帧包括的多个文本框进行聚类，获得所述第一视频帧对应的簇元素极值，所述簇元素极值用于表征所述第一视频帧中元素数目最多的类簇的元素数目；在所述多个第一视频帧中将对应的簇元素极值小于预设的第二阈值的第一视频帧滤除；对过滤后的多个第一视频帧分别进行文字提取，获得各第一视频帧对应的文字信息。

2.根据权利要求1所述的方法，其特征在于，所述目标视频文件用于表征音乐类的综艺节目的视频文件，所述目标视频片段用于表征所述目标视频文件中对应完整歌曲演唱部分的视频片段，所述关键字集合用于表征所述歌曲的来源信息，所述来源信息包括所述歌曲的演唱信息、作词信息、作曲信息和制作人信息中的至少一项。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一视频帧中各文本框的宽度信息对所述第一视频帧包括的多个文本框进行聚类，获得所述第一视频帧对应的簇元素极值，包括：

4.根据权利要求1所述的方法，其特征在于，所述针对每一所述第一视频帧，获取所述第一视频帧中各文本框的宽度信息之前，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述以所述目标视频帧对应的时间节点为起始时间节点从所述目标视频文件中提取目标视频片段，包括：

获取所述目标视频文件包括的多个台词时间节点；

6.一种视频片段提取装置，其特征在于，包括：

视频提取模块，用于以所述目标视频帧对应的时间节点为起始时间节点，从所述目标视频文件中提取目标视频片段；

所述视频片段提取装置还包括过滤模块，所述过滤模块包括：对所述目标视频文件进行抽帧处理，获得多个第二视频帧；对所述多个第二视频帧分别进行文字检测，确定每一第二视频帧中的文字对应的文本框；将对应的文本框数量小于或等于第一阈值的第二视频帧滤除，获得所述多个第一视频帧；

所述文字提取模块包括：

7.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至5中任一项所述方法的步骤。

8.一种可读存储介质，其特征在于，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如权利要求1至5中任一项所述的方法的步骤。