CN117058578A

CN117058578A - 视频目标片段识别方法及系统

Info

Publication number: CN117058578A
Application number: CN202310966994.1A
Authority: CN
Inventors: 朱群; 陈凯; 高甲; 阮泽凯; 王庆龙
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-11-14

Abstract

本发明涉及人工智能技术领域，尤其涉及一种视频精彩片段识别方法及系统。视频精彩片段识别方法包括：获取各目标人物在待处理视频中出现的目标时间区间；遍历全部目标时间区间，将具有重合时间段，或者，时间间隔小于或等于预设的目标时间差容忍阈值的任两个目标时间区间，进行时间区间合并，得到多个重合时间区间，重合时间区间关联有至少一个目标人物；基于重合时间区间，进行视频目标片段识别。本方法能够有效提高视频目标片段识别的识别效率，降低人力成本和时间成本，且能够提高视频目标片段识别的精确度。

Description

视频目标片段识别方法及系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种视频目标片段识别方法及系统。

背景技术

随着智能电视、智能投影仪和智能手机等智能终端的普及，影视类内容的推广渠道、推广方式和受众越来越多，影视类内容的制作技术水平也逐步提升。电视剧、电影、综艺等节目的精彩片段(片花)视频可以在较短时间内将内容的精彩部分呈现给用户，相较于海报等方式，能够有效提升与用户的共情效果，达到快速引流的目的。然而，目前的视频精彩片段识别，大多依赖人工处理的方式，处理效率较低、人力成本和时间成本较高。

发明内容

本发明提供一种视频目标片段识别方法及系统，用以解决现有技术中视频目标片段识别的识别效率较低、人力成本和时间成本较高的问题。

本发明提供一种视频目标片段识别方法，包括：

获取各目标人物在待处理视频中出现的目标时间区间；

遍历全部所述目标时间区间，将具有重合时间段，或者，时间间隔小于或等于预设的目标时间差容忍阈值的任两个所述目标时间区间，进行时间区间合并，得到多个重合时间区间，所述重合时间区间关联有至少一个所述目标人物；

基于所述重合时间区间，进行视频目标片段识别。

可选地，获取各目标人物在待处理视频中出现的目标时间区间的步骤包括：

对所述待处理视频进行图像抽帧，得到多张抽帧图像；

基于所述抽帧图像，进行人脸识别，得到人脸识别结果；

基于所述人脸识别结果和所述抽帧图像对应的时间点，得到所述目标人物在所述待处理视频中出现的至少一个第一时间区间，从而得到与所述目标人物一一对应的第一时间区间集，所述第一时间区间集包括至少一个所述第一时间区间；

对所述待处理视频的音频流进行音频切片，得到多个音频文件；

基于所述音频文件，进行声纹识别，得到声纹识别结果；

基于所述声纹识别结果、以及所述音频文件在所述待处理视频中的起始时间点和结束时间点，得到所述目标人物在所述待处理视频中出现的至少一个第二时间区间，从而得到与所述目标人物一一对应的第二时间区间集，所述第二时间区间集包括至少一个所述第二时间区间；

对每个所述目标人物对应的所述第一时间区间集和所述第二时间区间集，进行重合时间整合，得到所述目标时间区间。

可选地，基于所述抽帧图像，进行人脸识别，得到人脸识别结果的步骤包括：

按照每张所述抽帧图像在所述待处理视频中出现的时间顺序，依次对每张所述抽帧图像进行特征提取与人脸特征识别，得到所述抽帧图像中至少一人的图像人脸特征信息；

将任一所述图像人脸特征信息与预设的每个所述目标人物的标准人脸特征信息进行特征匹配，得到所述人脸识别结果。

可选地，基于所述人脸识别结果和所述抽帧图像对应的时间点，得到所述目标人物在所述待处理视频中出现的至少一个第一时间区间，从而得到与所述目标人物一一对应的第一时间区间集的步骤包括：

在所述人脸识别结果为匹配成功的情况下，确定对应所述目标人物的一个所述第一时间区间，所述第一时间区间的开始时间和结束时间均为当前所述抽帧图像对应的时间点；

获取匹配成功的所述图像人脸特征信息对应的所述目标人物在剩余所述抽帧图像中再次出现的再现时间点；

在所述再现时间点与所述结束时间之间的差距小于或等于预设的图像时间差容忍阈值的情况下，将所述结束时间的数值更新为所述再现时间点，直至所述再现时间点与所述结束时间之间的差距大于所述图像时间差容忍阈值，得到更新完成的所述第一时间区间；

在所述再现时间点与所述结束时间之间的差距大于所述图像时间差容忍阈值的情况下，确定对应所述目标人物的下一个所述第一时间区间，下一个所述第一时间区间的开始时间和结束时间均为所述再现时间点；

在全部所述第一时间区间更新完成或无需更新的情况下，得到所述第一时间区间集。

可选地，基于所述音频文件，进行声纹识别，得到声纹识别结果的步骤包括：

按照每个所述音频文件在所述待处理视频中出现的时间顺序，依次对每个所述音频文件进行音频特征提取，得到所述音频文件中至少一人的音频特征数据；

将任一所述音频特征数据与预设的每个所述目标人物的标准音频特征进行特征匹配，以得到所述声纹识别结果。

可选地，基于所述声纹识别结果、以及所述音频文件在所述待处理视频中的起始时间点和结束时间点，得到所述目标人物在所述待处理视频中出现的至少一个第二时间区间，从而得到与所述目标人物一一对应的第二时间区间集的步骤包括：

在所述声纹识别结果为匹配成功的情况下，确定对应所述目标人物的一所述第二时间区间，所述第二时间区间的开始时间为当前所述音频文件在所述待处理视频中的起始时间点，所述第二时间区间的结束时间为当前所述音频文件在所述待处理视频中的结束时间点；

获取匹配成功的所述音频特征数据对应的所述目标人物在剩余所述音频文件中再次匹配成功的再现时间点；

在所述结束时间与所述再现时间点对应的音频文件的起始时间点之间的差距，小于或等于预设的音频时间差容忍阈值的情况下，将所述结束时间的数值更新为所述再现时间点对应的音频文件的结束时间点，直至所述结束时间与所述再现时间点对应的音频文件的起始时间点之间的差距大于所述图像时间差容忍阈值，得到更新完成的所述第二时间区间；

在所述结束时间与所述再现时间点对应的音频文件的起始时间点之间的差距，大于所述音频时间差容忍阈值的情况下，确定对应所述目标人物的下一个所述第二时间区间，下一个所述第二时间区间的开始时间为所述再现时间点对应的所述音频文件的起始时间点，下一个所述第二时间区间的结束时间为所述再现时间点对应的所述音频文件的结束时间点；

在全部所述第二时间区间更新完成或无需更新的情况下，得到所述第二时间区间集。

可选地，对每个所述目标人物对应的所述第一时间区间集和所述第二时间区间集，进行重合时间整合，得到所述目标时间区间的步骤包括：

对任一所述目标人物对应的所述第一时间区间和所述第二时间区间，按照每个时间区间的开始时间，进行时间区间升序排序，得到时间区间序列；

将所述时间区间序列的头部的时间区间，确定为目标时间区间；

在所述目标时间区间与所述时间区间序列中的下一时间区间存在时间重合，或者所述目标时间区间的结束时间与下一时间区间的开始时间之间的差距，小于或等于预设的整合时间差容忍阈值的情况下，将所述目标时间区间的结束时间更新为下一时间区间的结束时间，直至所述目标时间区间的结束时间与下一时间区间的开始时间之间的差距，大于所述整合时间差容忍阈值；

在所述目标时间区间的结束时间与下一时间区间的开始时间之间的差距，大于所述整合时间差容忍阈值的情况下，将下一时间区间确定为另一个目标时间区间，以得到每个所述目标人物对应的所述目标时间区间，每个所述目标人物均对应至少一个所述目标时间区间。

可选地，基于所述重合时间区间，进行视频目标片段识别的步骤包括：

基于所述重合时间区间和预设的匹配策略，对所述重合时间区间进行筛选，得到至少一个待识别时间区间，所述匹配策略中限定有所述重合时间区间中至少需要关联的所述目标人物或所述目标人物的数量；

获取每个所述待识别时间区间在所述待处理视频中对应的音频流片段；

对每个所述音频流片段进行语音识别，得到台词文本信息；

将所述台词文本信息输入预先训练好的情感识别模型，进行情感识别，得到至少一个情感标签，所述情感标签与所述待识别时间区间相对应；

将具有所述情感标签的所述待识别时间区间，确定为目标片段时间区间，或者，基于预设的目标情感标签，对所述待识别时间区间的情感标签进行筛选，得到目标情感标签对应的所述待识别时间区间，将目标情感标签对应的所述待识别时间区间确定为所述目标片段时间区间；

基于所述目标片段时间区间，从所述待处理视频中匹配相应的视频目标片段。

本发明还提供一种视频目标片段识别系统，包括：

单人时间区间获取模块，用于获取各目标人物在待处理视频中出现的目标时间区间；

重合区间整合模块，用于遍历全部所述目标时间区间，将具有重合时间段，或者，时间间隔小于或等于预设的目标时间差容忍阈值的任两个所述目标时间区间，进行时间区间合并，得到多个重合时间区间，所述重合时间区间关联有至少一个所述目标人物；

目标片段识别模块，用于基于所述重合时间区间，进行视频目标片段识别。

本发明还提供一种视频目标片段制作平台，包括：

视频目标片段剪辑模块、以及如上述所述的视频目标片段识别系统；

所述视频目标片段剪辑模块用于基于所述视频目标片段识别系统识别出的视频目标片段，对所述待处理视频进行剪辑，得到至少一个所述视频目标片段。

本发明的有益效果：本发明提供的视频目标片段识别方法及系统，通过获取各目标人物在待处理视频中出现的目标时间区间；遍历全部目标时间区间，将具有重合时间段，或者，时间间隔小于或等于预设的目标时间差容忍阈值的任两个目标时间区间，进行时间区间合并，得到多个重合时间区间，重合时间区间关联有至少一个目标人物；基于重合时间区间，进行视频目标片段识别。本方法、系统、电子设备及存储介质，能够基于单个目标人物出现的目标时间区间，得到多目标人物重合出现的重合时间区间，基于重合时间区间，进行视频目标片段识别，有效提高视频目标片段识别的识别效率，降低人力成本和时间成本。可以理解的，待处理视频，如影视类视频在存在多位目标人物(如主演)的情况下，其视频目标片段(如视频精彩片段)大多是多个目标人物同时出现的场景。本发明正是基于这一点，从多目标人物重合出现的重合时间区间入手，进行视频目标片段识别，能够提高视频目标片段识别的识别效率与准确度。并且，本发明对于多目标人物重合出现的重合时间区间的确定，不仅仅取决于时间上的重合，如多个目标人物同时出现在待处理视频的任一时刻，还考虑到了在一定的时间范围内，多个目标人物先后出现也属于重合出现的情况，因此，本发明通过设置目标时间差容忍阈值，将时间间隔小于或等于预设的目标时间差容忍阈值的任两个目标时间区间，进行时间区间合并，得到多个第一目标场景，能够在一定程度上提高视频目标片段识别的精确度，合理性较高。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的视频目标片段识别方法的流程示意图；

图2是本发明提供的视频目标片段识别方法中单个目标人物人脸识别的流程示意图；

图3是本发明提供的视频目标片段识别方法中单个目标人物声纹识别的流程示意图；

图4是本发明提供的视频目标片段识别方法中得到第一目标场景的流程示意图；

图5是本发明提供的视频目标片段识别系统的结构示意图；

图6是本发明提供的视频目标片段制作平台的结构示意图；

图7是本发明提供的视频目标片段制作平台中人物特征的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面以实施例的方式，结合图1-图7描述本发明提供的视频目标片段识别方法及系统。

请参考图1，本实施例提供的视频目标片段识别方法，包括：

S10：获取各目标人物在待处理视频中出现的目标时间区间。即获取每个目标人物各自在待处理视频中出现的目标时间区间。

具体地，所述目标人物为预先设置的人物，目标人物的数量为至少一个，如目标人物A和目标人物B等。每个目标人物对应的所述目标时间区间为至少一个。单个目标人物对应一个目标时间区间集，该目标时间区间集由与该目标人物对应的至少一个目标时间区间组成。如目标人物A在待处理视频中出现的目标时间区间为[10s(秒)，15s]、[25s，30s]、以及[40s，50s]，上述三个目标时间区间组成目标人物A的目标时间区间集。目标人物B在待处理视频中出现的目标时间区间为[5s，10s]、[19s，22s]、以及[70s，80s]，上述三个目标时间区间组成目标人物B的目标时间区间集。通过获取各目标人物在待处理视频中出现的目标时间区间，能够便于后续基于所述目标时间区间，得到重合时间区间。另外，所述目标人物和所述待处理视频可以由用户在web(网络)运营端输入或选择确定。

S20：遍历全部所述目标时间区间，将具有重合时间段，或者，时间间隔小于或等于预设的目标时间差容忍阈值的任两个所述目标时间区间，进行时间区间合并，得到多个重合时间区间，所述重合时间区间关联有至少一个所述目标人物。即遍历全部目标人物所对应的目标时间区间，将具有重合时间段或时间间隔较小的任两个目标时间区间，合并为一个重合时间区间。可以理解的，遍历过程中，若不存在与当前的目标时间区间重合或时间间隔较小的另一目标时间区间，则无需进行目标时间区间合并，直接将无需合并的目标时间区间确定为重合时间区间即可。时间区间合并的方式为取并集的方式。所述目标时间差容忍阈值可以根据实际情况进行设置，如3s、5s、10s等。

步骤S20通过遍历全部目标时间区间，对存在时间重合或时间间隔较小的目标时间区间进行合并，能够得到关联有至少一个目标人物的重合时间区间，可以理解的，部分重合时间区间关联有多个或全部目标人物。如目标人物A的目标时间区间为[10s，15s]、[25s，30s]、以及[40s，50s]，目标人物B的目标时间区间为[5s，10s]、[19s，22s]、以及[70s，80s]，遍历目标人物A、B的全部目标时间区间，假设目标时间差容忍阈值为3s，则得到4个重合时间区间，分别为重合时间区间1、重合时间区间2、重合时间区间3和重合时间区间4，重合时间区间1([5s，10s]和[10s，15s]存在重合时间段，求取并集)为[5s，15s]，重合时间区间2([19s，22s]和[25s，30s]两个目标时间区间之间的间隔为3s，满足时间间隔小于或等于目标时间差容忍阈值)为[19s，30s]，重合时间区间3(此处指遍历后未合并的目标时间区间)为[40s，50s]，重合时间区间4(此处指遍历后未合并的目标时间区间)为[70s，80s]。其中，重合时间区间1关联有目标人物A和目标人物B，重合时间区间2关联有目标人物A和目标人物B，重合时间区间3关联有目标人物A，重合时间区间4关联有目标人物B。

S30：基于所述重合时间区间，进行视频目标片段识别。即在部分或全部重合时间区间关联有多个目标人物的情况下，基于重合时间区间，进行视频目标片段识别。能够较好地提高视频目标片段识别的效率，且提高视频目标片段识别的准确度，有助于提升用户的满意度。由于影视类等视频目标片段(如视频精彩片段)大多是多个目标人物同时出现的场景，相较于基于单个目标人物所对应的场景进行视频目标片段识别，本实施例中通过基于可能关联有多个目标人物的重合时间区间进行视频目标片段识别，能够较好地提高视频目标片段识别的精确度。

在一些实施例中，获取各目标人物在待处理视频中出现的目标时间区间的步骤包括：

S101：对所述待处理视频进行图像抽帧，得到多张抽帧图像。

具体地，按照预设的抽帧频率，对待处理视频进行图像抽帧，得到多张抽帧图像，将抽帧图像按照其在待处理视频中出现的时间点进行命名，并将命名后的抽帧图像存储到临时目录中。

S102：基于所述抽帧图像，进行人脸识别，得到人脸识别结果。

具体地，基于抽帧图像在待处理视频中出现的时间点，即抽帧图像的命名，对多张抽帧图像进行升序(由小到大)排序，并依次遍历全部抽帧图像，进行人脸识别，得到所述人脸识别结果。

S103：基于所述人脸识别结果和所述抽帧图像对应的时间点，得到所述目标人物在所述待处理视频中出现的至少一个第一时间区间，从而得到与所述目标人物一一对应的第一时间区间集，所述第一时间区间集包括至少一个所述第一时间区间。

S104：对所述待处理视频的音频流进行音频切片，得到多个音频文件。

具体地，获取待处理视频的音频流，按照预设的切片间隔，对待处理视频的音频流进行音频切片，得到多个音频文件，将音频文件按照其各自在待处理视频中的开始时间点命名，并将命名后的音频文件存储至临时目录中。

S105：基于所述音频文件，进行声纹识别，得到声纹识别结果。

具体地，基于每段音频文件的开始时间点，对音频文件进行排序，将排序后的每段音频文件依次遍历全部目标人物，进行声纹识别，得到所述声纹识别结果。

S106：基于所述声纹识别结果、以及所述音频文件在所述待处理视频中的起始时间点和结束时间点，得到所述目标人物在所述待处理视频中出现的至少一个第二时间区间，从而得到与所述目标人物一一对应的第二时间区间集，所述第二时间区间集包括至少一个所述第二时间区间。

S107：对每个所述目标人物对应的所述第一时间区间集和所述第二时间区间集，进行重合时间整合，得到所述目标时间区间。本实施例中通过将人脸识别与语音识别有机结合，能够更精准地得到单个目标人物在待处理视频中出现的目标时间区间，使得目标时间区间的识别与确定更加全面。相比于单独考虑人脸或语音，精确度更高。可以理解的，假设目标人物未出现在待处理视频的抽帧图像，即视频画面中，但其声音出现在了视频中，同样也算是该目标人物出现在了待处理视频中，因此，本实施例较好地考虑到了这一点，以提高对单个目标人物出现的目标时间区间的确定的精确度。例如：对于影视类视频，人物呈现会出现各种各样的情况，人脸识别对侧脸识别的准确性会大打折扣，且无法识别出背影的情况。而声纹识别则可以较好地弥补人脸识别在侧脸和背影场景的不足。同时，仅依赖声纹识别，则无法识别出人物出现但未说话的场景。两者各有优劣且可进行互补。本实施例同时基于人脸和声纹匹配进行人物识别，任一匹配命中即判定匹配成功，可更全面地识别各目标人物在待处理视频中出现的目标时间区间。

需要说明的是，获取第一时间区间集的步骤(S102-S103)和获取第二时间区间集(S105-S106)的步骤可同时进行，也可分别进行，其在时序上没有先后顺序。

在一些实施例中，基于所述抽帧图像，进行人脸识别，得到人脸识别结果的步骤包括：

S1021：按照每张所述抽帧图像在所述待处理视频中出现的时间顺序，依次对每张所述抽帧图像进行特征提取与人脸特征识别，得到所述抽帧图像中至少一人的图像人脸特征信息。即对排序后的每张抽帧图像进行特征提取，判断提取的特征中是否存在人脸特征，在提取的特征中存在人脸特征的情况下，得到抽帧图像中包含的至少一人的图像人脸特征信息。在提取的特征中不存在人脸特征的情况下，则获取下一张抽帧图片，重新进行特征提取与人脸特征识别，在没有下一章抽帧图片的情况下，删除全部抽帧图像及临时目录，完成抽帧图片循环处理。

S1022：将任一所述图像人脸特征信息与预设的每个所述目标人物的标准人脸特征信息进行特征匹配，得到所述人脸识别结果。即将抽帧图像中包含的一人的图像人脸特征信息与每个目标人物的标准人脸特征信息进行特征匹配，以确定该图像人脸特征信息是否为预设的目标人物中的任一人，精确度较高。

在一些实施例中，基于所述人脸识别结果和所述抽帧图像对应的时间点，得到所述目标人物在所述待处理视频中出现的至少一个第一时间区间，从而得到与所述目标人物一一对应的第一时间区间集的步骤包括：

S1031：在所述人脸识别结果为匹配成功的情况下，确定对应所述目标人物的一个所述第一时间区间，所述第一时间区间的开始时间和结束时间均为当前所述抽帧图像对应的时间点。

S1032：获取匹配成功的所述图像人脸特征信息对应的所述目标人物在剩余所述抽帧图像中再次出现的再现时间点。进而基于再现时间点，判断所述再现时间点与所述结束时间之间的差距是否小于或等于预设的图像时间差容忍阈值。即是否满足再现时间点-结束时间≤图像时间差容忍阈值。

S1033：在所述再现时间点与所述结束时间之间的差距小于或等于预设的图像时间差容忍阈值的情况下，将所述结束时间的数值更新为所述再现时间点，直至所述再现时间点与所述结束时间之间的差距大于所述图像时间差容忍阈值，得到更新完成的所述第一时间区间。同一目标人物相邻两次出现的间隔时间较短也属于出现在同一场景，有助于提高后续确定目标人物出现的目标时间区间，减少运算量。

S1034：在所述再现时间点与所述结束时间之间的差距大于所述图像时间差容忍阈值的情况下，确定对应所述目标人物(即再现的该目标人物)的下一个所述第一时间区间，下一个所述第一时间区间的开始时间和结束时间均为所述再现时间点。

S1035：在全部所述第一时间区间更新完成或无需更新的情况下，得到所述第一时间区间集。即在全部图像人脸特征信息匹配完成或遍历完成的情况下，得到全部目标人物各自对应的第一时间区间集。

需要提及的是，在人脸特征匹配失败的情况下，获取下一个目标人物，即将抽帧图像中包含的下一人的图像人脸特征信息与每个目标人物的标准人脸特征信息进行匹配，在匹配成功的情况下，循环上述S1031-S1034步骤，以得到全部目标人物各自对应的第一时间区间集，即通过人脸识别得到的单个目标人物的第一时间区间集。

为了便于理解上述单个目标人物人脸识别的流程，下面对单个目标人物人脸识别的流程的先后顺序进行说明，请参考图2。

S211：按照预设的抽帧频率，对待处理视频进行图像抽帧，得到多张抽帧图像。将抽帧图像按照其在待处理视频中出现的时间点进行命名，并将命名后的抽帧图像存储到临时目录中。

S212：对多张抽帧图像进行升序排序，并依次遍历全部抽帧图像，完成抽帧图片循环处理。抽帧图片循环处理的步骤参考S1021的描述，此处不再赘述。

S213：目标人物人脸识别循环处理。即在抽帧图像存在人脸特征的情况下，从预设的人脸特征数据库中获取每个目标人物的标准人脸特征信息，基于抽帧图像中的图像人脸特征信息和每个目标人物的标准人脸特征信息，得到全部目标人物各自对应的第一时间区间集，具体步骤请参考S1022、S1031-S1035的步骤，此处不再赘述。单个目标人物人脸识别的过程中采用抽帧图片循环处理和目标人物人脸识别循环处理这双层循环处理，便于获取全部目标人物各自对应的第一时间区间集，有助于提高第一时间区间集的获取效率。

在一些实施例中，基于所述音频文件，进行声纹识别，得到声纹识别结果的步骤包括：

S1051：按照每个所述音频文件在所述待处理视频中出现的时间顺序，依次对每个所述音频文件进行音频特征提取，得到所述音频文件中至少一人的音频特征数据。

具体地，按照每个所述音频文件在所述待处理视频中出现的时间顺序，对所述音频文件进行升序排序，对排序后的音频文件依次进行音频特征提取，得到音频文件中至少一人的音频特征数据。

S1052：将任一所述音频特征数据与预设的每个所述目标人物的标准音频特征进行特征匹配，以得到所述声纹识别结果。即将音频文件中任一个人或第一个人的音频特征数据，与预设的每个所述目标人物的标准音频特征进行特征匹配，以得到声纹识别结果。

在一些实施例中，基于所述声纹识别结果、以及所述音频文件在所述待处理视频中的起始时间点和结束时间点，得到所述目标人物在所述待处理视频中出现的至少一个第二时间区间，从而得到与所述目标人物一一对应的第二时间区间集的步骤包括：

S1061：在所述声纹识别结果为匹配成功的情况下，确定对应所述目标人物的一所述第二时间区间，所述第二时间区间的开始时间为当前所述音频文件在所述待处理视频中的起始时间点，所述第二时间区间的结束时间为当前所述音频文件在所述待处理视频中的结束时间。

S1062：获取匹配成功的所述音频特征数据对应的所述目标人物在剩余所述音频文件中再次匹配成功的再现时间点。进而判断所述结束时间与所述再现时间点对应的音频文件的起始时间点之间的差距，是否小于或等于预设的音频时间差容忍阈值。即是否满足结束时间-再现时间点对应的音频文件的起始时间点≤音频时间差容忍阈值。

S1063：在所述结束时间与所述再现时间点对应的音频文件的起始时间点之间的差距，小于或等于预设的音频时间差容忍阈值的情况下，将所述结束时间的数值更新为所述再现时间点对应的音频文件的结束时间点，直至所述结束时间与所述再现时间点对应的音频文件的起始时间点之间的差距大于所述图像时间差容忍阈值，得到更新完成的所述第二时间区间。

S1064：在所述结束时间与所述再现时间点对应的音频文件的起始时间点之间的差距，大于所述音频时间差容忍阈值的情况下，确定对应所述目标人物的下一个所述第二时间区间，下一个所述第二时间区间的开始时间为所述再现时间点对应的所述音频文件的起始时间点，下一个所述第二时间区间的结束时间为所述再现时间点对应的所述音频文件的结束时间点。

S1065：在全部所述第二时间区间更新完成或无需更新的情况下，得到所述第二时间区间集。即在全部音频特征数据匹配完成或循环处理完成的情况下，得到全部目标人物各自对应的第二时间区间集。

需要提及的是，在音频特征数据与预设的每个所述目标人物的标准音频特征匹配失败的情况下，则将当前音频文件中包含的下一人的音频特征数据与每个目标人物的标准音频特征进行匹配，在匹配成功的情况下，循环上述S1061-S1064步骤，以得到全部目标人物各自对应的第二时间区间集，即通过声纹识别得到的单个目标人物的第二时间区间集。

为了便于理解上述单个目标人物声纹识别的流程，下面对单个目标人物声纹识别的流程的先后顺序进行说明，请参考图3。

S311：获取待处理视频的音频流，按照预设的切片间隔，对待处理视频的音频流进行音频切片，得到多个音频文件，将音频文件按照其各自在待处理视频中的开始时间点命名，并将命名后的音频文件存储至临时目录中。

S312：音频文件循环处理。即按照每个所述音频文件在所述待处理视频中出现的时间顺序，依次对每个所述音频文件进行音频特征提取，得到所述音频文件中至少一人的音频特征数据。在对当前音频文件进行音频特征提取完成后，则对下一音频文件进行音频特征提取，循环进行，直至不存在下一音频文件。在不存在下一音频文件的情况下，删除全部音频文件以及对应的临时目录。

S313：目标人物声纹识别循环处理。即基于音频文件中的音频特征数据，从预设的声纹特征数据库中获取每个目标人物的标准音频特征，将音频文件中的音频特征数据遍历每个目标人物的标准音频特征，以得到全部目标人物各自对应的第二时间区间集。具体步骤请参考S1052、S1061-S1064的步骤，此处不再赘述。单个目标人物声纹识别的过程中采用音频文件循环处理和目标人物声纹识别循环处理这双层循环处理，便于获取全部目标人物各自对应的第二时间区间集，效率较高。

在一些实施例中，对每个所述目标人物对应的所述第一时间区间集和所述第二时间区间集，进行重合时间整合，得到所述目标时间区间的步骤包括：

S1071：对任一所述目标人物对应的所述第一时间区间和所述第二时间区间，按照每个时间区间的开始时间，进行时间区间进行升序排序，得到时间区间序列。

S1072：将所述时间区间序列的头部的时间区间，确定为目标时间区间。即将所述时间区间序列的头部的时间区间，确定为第一个目标时间区间，该目标时间区间的开始时间为该头部的时间区间的开始时间点，该目标时间区间的结束时间为该头部的时间区间的结束时间点。

S1073：在所述目标时间区间与所述时间区间序列中的下一时间区间存在时间重合，或者所述目标时间区间的结束时间与下一时间区间的开始时间之间的差距，小于或等于预设的整合时间差容忍阈值的情况下，将所述目标时间区间的结束时间更新为下一时间区间的结束时间，依次递进，直至所述目标时间区间的结束时间与下一时间区间的开始时间之间的差距，大于所述整合时间差容忍阈值。

S1074：在所述目标时间区间的结束时间与下一时间区间的开始时间之间的差距，大于所述整合时间差容忍阈值的情况下，将下一时间区间确定为另一个目标时间区间，以得到每个所述目标人物对应的所述目标时间区间，每个所述目标人物均对应至少一个所述目标时间区间。

重复上述S1071-S1074步骤，直到得到全部目标人物各自对应的目标时间区间集，所述目标时间区间集包括至少一个目标时间区间。

需要说明的是，得到多个重合时间区间的步骤具体包括：

遍历全部所述目标时间区间，将具有重合时间段，或者，时间间隔小于或等于预设的目标时间差容忍阈值的任两个所述目标时间区间，进行时间区间合并，得到重合时间区间。其中，如图4所示，全部所述目标时间区间包括全部目标人物各自对应的目标时间区间，每个目标人物的目标时间区间均为至少一个，单目标人物如目标人物1对应的目标时间区间有目标时间区间1、目标时间区间2等，目标人物2对应的目标时间区间有目标时间区间1、目标时间区间2等，每个目标时间区间均具有一开始时间和一结束时间。通过遍历全部所述目标时间区间，采用上述步骤对全部目标时间区间进行重合时间整合，得到多个关联有至少一个目标人物的重合时间区间，即部分或全部的重合时间区间对应的视频场景中有多个目标人物重合出现或同时出现，如重合时间区间1、重合时间区间2等，每个重合时间区间均具有一开始时间和一结束时间。能够有助于提高后续视频目标片段识别的精确度。其具体计算方法如下：首先，整合所有目标人物的目标时间区间其中，S₁，S₂，…，S_n均表示目标人物的目标时间区间，n表示目标时间区间的数量。其次，记录每个目标时间区间关联的目标人物信息，设定处理的重合时间区间下标i，初始化i＝1，i满足条件<x则继续进入下一目标时间区间的循环处理，场景循环处理逻辑为：获取第一个目标时间区间S_i的开始时间b(S_i)和结束时间f(S_i)，创建重合时间区间Y_m(m从1开始，步进1递增)，并初始化设置Y_m的开始时间b(Y_m)＝b(S_i)，结束时间f(Y_m)＝f(S_i)，目标时间区间S_i关联目标人物_iP，初始化被整合目标时间区间下标k＝i+1,如果满足f(Y_m)+c≥b(S_k)，设置f(Y_m)＝f(S_k)，将目标时间区间S_i+1将关联的目标人物添加到当前的重合时间区间Y_m的关联人物列表中(两个场景时间存在重合或相隔时间很短，判定为同一场景，进行场景整合)，k＝k+1继续往后循环判断，直到目标时间区间S_k不满足f(Y_m)+c≥b(S_k)，结束重合时间区间Y_m的处理。然后，设置i＝k，m＝m+1进入下一重合时间区间处理，直到全部处理完毕，得到所有重合时间区间的集合{Y₁，Y₂，...，Y_m}。

在一些实施例中，基于所述重合时间区间，进行视频目标片段识别的步骤包括：

S301：基于所述重合时间区间和预设的匹配策略，对所述重合时间区间进行筛选，得到至少一个待识别时间区间，所述匹配策略中限定有所述重合时间区间中至少需要关联的所述目标人物或所述目标人物的数量。即匹配策略用于判断重合时间区间中是否关联有需要的目标人物(如目标人物A、目标人物B)，或者重合时间区间关联的目标人物的数量(如输入的目标人物为目标人物A、目标人物B和目标人物C，匹配策略为将关联有目标人物A、目标人物B和目标人物C中任两个目标人物的重合时间区间，确定为待识别时间区间)是否符合要求。通过基于重合时间区间和预设的匹配策略，对所述重合时间区间进行筛选，能够得到符合要求的至少一个待识别时间区间。

S302：获取每个所述待识别时间区间在所述待处理视频中对应的音频流片段。

S303：对每个所述音频流片段进行语音识别，得到台词文本信息。具体地，可以采用现有的ASR(Automatic Speech Recognition，自动语音识别)技术，对每个待识别时间区间对应的音频流片段进行语音识别，得到相应的台词文本信息。

S304：将所述台词文本信息输入预先训练好的情感识别模型，进行情感识别，得到至少一个情感标签，所述情感标签与所述待识别时间区间相对应。所述情感识别模型可以为长短期记忆网络模型等，只要能够识别出台词文本信息的深层情感即可，本实施例对此不做限定。所述情感标签如离别、重逢、斗争、告白等。

S305：将具有所述情感标签的所述待识别时间区间，确定为目标片段时间区间，或者，基于预设的目标情感标签，对所述待识别时间区间的情感标签进行筛选，得到目标情感标签对应的所述待识别时间区间，将目标情感标签对应的所述待识别时间区间确定为所述目标片段时间区间。

S306：基于所述目标片段时间区间，从所述待处理视频中匹配相应的视频目标片段。

本实施例通过基于情感标签，确定视频目标片段，能够从情感的角度，提升视频目标片段的识别精确度。本实施例将多目标人物(主演)共同出现、且具有强烈情感的场景确定为视频目标片段，准确度较高，识别效果较佳。

下面对本发明提供的视频目标片段识别系统进行描述，下文描述的视频目标片段识别系统与上文描述的视频目标片段识别方法可相互对应参照。

请参考图5，本实施例提供的视频目标片段识别系统，包括：

单人时间区间获取模块510，用于获取各目标人物在待处理视频中出现的目标时间区间；

重合区间整合模块520，用于遍历全部所述目标时间区间，将具有重合时间段，或者，时间间隔小于或等于预设的目标时间差容忍阈值的任两个所述目标时间区间，进行时间区间合并，得到多个重合时间区间，所述重合时间区间关联有至少一个所述目标人物；

目标片段识别模块530，用于基于所述重合时间区间，进行视频目标片段识别。所述单人时间区间获取模块510、重合区间整合模块520和目标片段识别模块530连接。本实施例中的视频目标片段识别系统，能够有效提高视频目标片段识别的识别效率，降低人力成本和时间成本，并且，能够在一定程度上提高视频目标片段识别的精确度。

在一些实施例中，所述单人时间区间获取模块510包括：

图像抽帧单元，用于对所述待处理视频进行图像抽帧，得到多张抽帧图像；

人脸识别单元，用于基于所述抽帧图像，进行人脸识别，得到人脸识别结果；基于所述人脸识别结果和所述抽帧图像对应的时间点，得到所述目标人物在所述待处理视频中出现的至少一个第一时间区间，从而得到与所述目标人物一一对应的第一时间区间集，所述第一时间区间集包括至少一个所述第一时间区间；

音频切片单元，用于对所述待处理视频的音频流进行音频切片，得到多个音频文件；

声纹识别单元，用于基于所述音频文件，进行声纹识别，得到声纹识别结果；基于所述声纹识别结果、以及所述音频文件在所述待处理视频中的起始时间点和结束时间点，得到所述目标人物在所述待处理视频中出现的至少一个第二时间区间，从而得到与所述目标人物一一对应的第二时间区间集，所述第二时间区间集包括至少一个所述第二时间区间；

目标时间区间获取单元，用于对每个所述目标人物对应的所述第一时间区间集和所述第二时间区间集，进行重合时间整合，得到所述目标时间区间。

在一些实施例中，所述人脸识别单元具体用于按照每张所述抽帧图像在所述待处理视频中出现的时间顺序，依次对每张所述抽帧图像进行特征提取与人脸特征识别，得到所述抽帧图像中至少一人的图像人脸特征信息；

进一步地，所述人脸识别单元还具体用于在所述人脸识别结果为匹配成功的情况下，确定对应所述目标人物的一个所述第一时间区间，所述第一时间区间的开始时间和结束时间均为当前所述抽帧图像对应的时间点；

在一些实施例中，所述声纹识别单元具体用于按照每个所述音频文件在所述待处理视频中出现的时间顺序，依次对每个所述音频文件进行音频特征提取，得到所述音频文件中至少一人的音频特征数据；

进一步地，所述声纹识别单元还具体用于在所述声纹识别结果为匹配成功的情况下，确定对应所述目标人物的一所述第二时间区间，所述第二时间区间的开始时间为当前所述音频文件在所述待处理视频中的起始时间点，所述第二时间区间的结束时间为当前所述音频文件在所述待处理视频中的结束时间点；

在一些实施例中，所述目标时间区间获取单元具体用于对任一所述目标人物对应的所述第一时间区间和所述第二时间区间，按照每个时间区间的开始时间，进行时间区间进行升序排序，得到时间区间序列；

在一些实施例中，所述目标片段识别模块530包括：

待识别时间区间获取单元，用于基于所述重合时间区间和预设的匹配策略，对所述重合时间区间进行筛选，得到至少一个待识别时间区间，所述匹配策略中限定有所述重合时间区间中至少需要关联的所述目标人物或所述目标人物的数量；

识别单元，用于基于所述待识别时间区间，进行视频目标片段识别。

在一些实施例中，所述识别单元具体用于获取每个所述待识别时间区间在所述待处理视频中对应的音频流片段；

对每个所述音频流片段进行语音识别，得到台词文本信息；

请参考图6，本实施例还提供一种视频目标片段制作平台，包括：

视频目标片段剪辑模块610、以及如上述所述的视频目标片段识别系统；

所述视频目标片段剪辑模块用于基于所述视频目标片段识别系统识别出的视频目标片段，对所述待处理视频进行剪辑，得到至少一个所述视频目标片段。具体地，可以采用ffmpeg(一种剪辑工具)等视频处理工具从待处理视频的源视频中剪辑出所有的视频目标片段并存储到指定存储介质中，并将存储路径设置到归属内容的视频目标片段信息中。

在一些实施例中，所述视频目标片段制作平台还包括：内容资源库维护模块620，用于维护内容资源信息，并且为视频目标片段识别系统提供待处理视频的检索功能、以及视频目标片段的关联内容设置功能，关联内容包括情感标签等。内容资源信息包括：媒资信息、视频等介质信息以及介质存储。

在一些实施例中，所述视频目标片段制作平台还包括：人物特征库维护模块630，用于维护和更新预设的人物特征库，所述人物特征库包括：

人脸特征数据库，用于存储多个人物的标准人脸特征信息；

声纹特征数据库，用于存储多个人物的标准音频特征。

具体地，人物特征库维护模块630为web运营端提供人物特征信息增删改查、图像文件校验、语音文件校验等功能，用于更新维护人物特征的信息，提供人物信息搜索功能、图像文件集、语音文件集，用于人脸识别模型训练和声纹识别模型训练。其中，图片文件校验指校验文件后缀是否为图像格式、图像内容是否包含人物头像、以及清晰度是否符合要求。语音文件校验指校验文件后缀是否为音频格式、以及音频内容噪音是否在限定范围等。

图7是人物特征的结构示意图，请参考图7，人物特征(人物)通常包括：基础信息、头像集和语音集。基础信息包括姓名和性别等。头像集包括：正脸、左侧脸及右侧脸等图像。语音集包括：开心、生气、悲伤等音频。利用现有的人脸识别开源工具，对头像集中的图像进行特征提取，将得到的标准人脸特征信息登记于人脸特征数据库中。利用现有的声纹识别开源工具，对语音集中的音频进行声纹识别，将得到的标准音频特征登记于声纹特征数据库。通过设置上述人物特征结构，能够较好地为视频目标片段识别提供数据来源与支撑。

另外，关于内容资源信息、人物特征信息、以及视频目标片段剪辑需求的录入，可以通过web运营端录入。

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频目标片段识别方法，其特征在于，包括：

获取各目标人物在待处理视频中出现的目标时间区间；

基于所述重合时间区间，进行视频目标片段识别。

2.根据权利要求1所述的视频目标片段识别方法，其特征在于，获取各目标人物在待处理视频中出现的目标时间区间的步骤包括：

对所述待处理视频进行图像抽帧，得到多张抽帧图像；

基于所述抽帧图像，进行人脸识别，得到人脸识别结果；

基于所述音频文件，进行声纹识别，得到声纹识别结果；

3.根据权利要求2所述的视频目标片段识别方法，其特征在于，基于所述抽帧图像，进行人脸识别，得到人脸识别结果的步骤包括：

4.根据权利要求3所述的视频目标片段识别方法，其特征在于，基于所述人脸识别结果和所述抽帧图像对应的时间点，得到所述目标人物在所述待处理视频中出现的至少一个第一时间区间，从而得到与所述目标人物一一对应的第一时间区间集的步骤包括：

5.根据权利要求2所述的视频目标片段识别方法，其特征在于，基于所述音频文件，进行声纹识别，得到声纹识别结果的步骤包括：

6.根据权利要求5所述的视频目标片段识别方法，其特征在于，基于所述声纹识别结果、以及所述音频文件在所述待处理视频中的起始时间点和结束时间点，得到所述目标人物在所述待处理视频中出现的至少一个第二时间区间，从而得到与所述目标人物一一对应的第二时间区间集的步骤包括：

7.根据权利要求2所述的视频目标片段识别方法，其特征在于，对每个所述目标人物对应的所述第一时间区间集和所述第二时间区间集，进行重合时间整合，得到所述目标时间区间的步骤包括：

8.根据权利要求1～7中任一项所述的视频目标片段识别方法，其特征在于，基于所述重合时间区间，进行视频目标片段识别的步骤包括：

对每个所述音频流片段进行语音识别，得到台词文本信息；

9.一种视频目标片段识别系统，其特征在于，包括：

10.一种视频目标片段制作平台，其特征在于，包括：

视频目标片段剪辑模块、以及如权利要求9所述的视频目标片段识别系统；