CN116896654A

CN116896654A - 一种视频处理方法和相关装置

Info

Publication number: CN116896654A
Application number: CN202311165664.9A
Authority: CN
Inventors: 冯鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-09-11
Filing date: 2023-09-11
Publication date: 2023-10-17
Anticipated expiration: 2043-09-11
Also published as: CN116896654B

Abstract

本申请公开一种视频处理方法和相关装置，获取待处理视频和待处理视频在视频播放平台的对象交互数据。对待处理视频进行分段处理，得到多个视频片段，进而基于多个视频片段中每个视频片段对应的对象交互数据，从多个视频片段中确定候选视频片段。然后对候选视频片段包括的每个视频帧图像进行视频内容识别，得到第一识别结果。每个视频帧图像的第一识别结果用于指示视频帧图像是否包括目标内容，故基于第一识别结果从候选视频片段中确定出现目标内容的备选时间点，进而根据备选时间点确定目标时间点。由此自动化确定用户比较感兴趣且比较有看点的目标时间点，从而提升确定效率，并且能够避免人为主观感受的差异，提高目标时间点确定的准确性。

Description

一种视频处理方法和相关装置

技术领域

本申请涉及计算机领域，特别是涉及一种视频处理方法和相关装置。

背景技术

随着计算机技术的发展，观看视频成为了人们日常生活中常见的娱乐方式，这里的视频例如可以是影视剧的视频、综艺节目的视频等。而视频可能会比较长，并且用户并不一定对视频中任何内容都感兴趣，用户可能希望选择性观看。

为了适应用户的观看需求，可以对视频进行剪辑得到时长较短的、精彩的视频内容片段，以便用户观看自己感兴趣的视频内容；或者，用户可以通过拖拽播放进度条，来调整视频的播放进度，选择自己感兴趣的视频内容进行观看。然而，无论是视频剪辑还是用户拖拽进度条，都需要从视频中确定用户可能感兴趣的目标时间点，从而根据这些目标时间点完成视频剪辑，或者拖动进度条。

目前，主要是通过人工挑选标注的方法确定目标时间点。但是这种方法效率较低，并且受人为主观感受影响，导致目标时间点的确定不够准确。

发明内容

为了解决上述技术问题，本申请提供了一种视频处理方法和相关装置，可以基于对象交互数据和视频内容自动化确定用户比较感兴趣且比较有看点的目标时间点，从而提升目标时间点的确定效率，并且能够避免人为主观感受的差异导致最终定位得到的目标时间点的差异和不可复用性，提高目标时间点确定的准确性。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供一种视频处理方法，所述方法包括：

获取待处理视频和所述待处理视频在视频播放平台的对象交互数据；

对所述待处理视频进行分段处理，得到多个视频片段；

基于所述多个视频片段中每个视频片段对应的对象交互数据，从所述多个视频片段中确定候选视频片段；

对所述候选视频片段包括的每个视频帧图像进行视频内容识别，得到第一识别结果，每个视频帧图像的第一识别结果用于指示所述视频帧图像是否包括目标内容；

基于所述第一识别结果，从所述候选视频片段中确定出现所述目标内容的备选时间点；

根据所述备选时间点确定目标时间点。

一方面，本申请实施例提供一种视频处理装置，所述装置包括获取单元、分段单元、确定单元和识别单元：

所述获取单元，用于获取待处理视频和所述待处理视频在视频播放平台的对象交互数据；

所述分段单元，用于对所述待处理视频进行分段处理，得到多个视频片段；

所述确定单元，用于基于所述多个视频片段中每个视频片段对应的对象交互数据，从所述多个视频片段中确定候选视频片段；

所述识别单元，用于对所述候选视频片段包括的每个视频帧图像进行视频内容识别，得到第一识别结果，每个视频帧图像的第一识别结果用于指示所述视频帧图像是否包括目标内容；

所述确定单元，还用于基于所述第一识别结果，从所述候选视频片段中确定出现所述目标内容的备选时间点；

所述确定单元，还用于根据所述备选时间点确定目标时间点。

一方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储计算机程序，并将所述计算机程序传输给所述处理器；

所述处理器用于根据所述计算机程序中的指令执行前述任一方面所述的方法。

一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序当被处理器执行时使所述处理器执行前述任一方面所述的方法。

一方面，本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现前述任一方面所述的方法。

由上述技术方案可以看出，在需要从待处理视频中确定目标时间点时，可以获取待处理视频和待处理视频在视频播放平台的对象交互数据。对象交互数据是对象基于待处理视频在视频播放平台上进行交互产生的数据，对象交互数据可以与待处理视频的视频片段相对应，从而在一定程度上反映用户对视频片段的关注度、感兴趣程度。故可以对待处理视频进行分段处理，得到多个视频片段，进而基于多个视频片段中每个视频片段对应的对象交互数据，从多个视频片段中确定候选视频片段，实现基于对象交互数据对视频片段进行粗筛。然后，结合视频内容进一步从粗筛后的视频片段中细筛目标时间点，具体的，可以对候选视频片段包括的每个视频帧图像进行视频内容识别，得到第一识别结果。每个视频帧图像的第一识别结果用于指示视频帧图像是否包括目标内容，目标内容通常为视频片段中比较有看点的视频内容，可以吸引用户观看，故可以基于第一识别结果从候选视频片段中确定出现目标内容的备选时间点，进而根据备选时间点确定目标时间点，此时目标时间点对应的视频内容是用户比较感兴趣且比较有看点的时间点，能够吸引用户观看。可见，本申请可以基于对象交互数据和视频内容自动化确定用户比较感兴趣且比较有看点的目标时间点，从而提升目标时间点的确定效率，并且能够避免人为主观感受的差异导致最终定位得到的目标时间点的差异和不可复用性，提高目标时间点确定的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术成员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频处理方法的应用场景架构图；

图2为本申请实施例提供的一种视频处理方法的流程图；

图3为本申请实施例提供的一种相关度曲线示例图；

图4为本申请实施例提供的一种Swim Transformer的网络结构示例图；

图5为本申请实施例提供的一种Patch Partition模块的处理流程的示例图；

图6为本申请实施例提供的一种Swin Transformer Block的网络结构示例图；

图7为本申请实施例提供的一种改进的Swim Transformer的网络结构示例图；

图8为本申请实施例提供的一种结合弹幕数据对所有分镜进行粗筛的示例图；

图9为本申请实施例提供的一种人脸识别的架构流程示例图；

图10为本申请实施例提供的一种MTCNN的网络结构示例图；

图11a为本申请实施例提供的一种Resnet50的网络结构示例图；

图11b为本申请实施例提供的一种Resnet50中不同阶段的结构示例图；

图11c为本申请实施例提供的一种BTNK1和BTNK2的结构示例图；

图12为本申请实施例提供的一种人声识别的具体流程图；

图13为本申请实施例提供的一种弹幕数据曲线的示例图；

图14为本申请实施例提供的一种空镜判断的架构流程示例图；

图15为本申请实施例提供的一种视频处理方法的整体架构流程图；

图16为本申请实施例提供的一种视频处理装置的结构图；

图17为本申请实施例提供的一种终端的结构图；

图18为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

对于影视剧、综艺节目等视频来说，由于这些视频可能会比较长，用户并不一定对视频中任何内容都感兴趣，并且现有社会中快节奏的生活，用户也不一定有时间对视频进行完整观看，这就产生了短视频或者针对视频的快进功能。

对于用户来说，用户通常对视频的热门片段或者经典片段非常感兴趣，更加希望观看这些片段。为了满足这部分用户的需求，可以从视频中剪辑这些片段生成短视频供用户观看。或者告知用户这些片段在视频中所在位置，从而便于用户在观看视频时，可以通过拖拽播放进度条调整视频播放进度，便于用户调整到想要观看的位置。

为此，需要确定用户可能感兴趣的目标时间点，从而根据这些目标时间点完成视频剪辑，或者拖动进度条。然而通过人工挑选标注的方法确定目标时间点，效率较低，并且受人为主观感受影响，导致目标时间点的确定不够准确。

为了解决上述技术问题，本申请实施例提供一种视频处理方法，该方法可以基于对象交互数据和视频内容自动化确定用户比较感兴趣且比较有看点的目标时间点，从而提升目标时间点的确定效率，并且能够避免人为主观感受的差异，导致最终定位得到的目标时间点的差异和不可复用性，提高目标时间点确定的准确性。

需要说明的是，本申请实施例提供的视频处理方法可应用于各种需要确定视频中目标时间点的场景，目标时间点通常是用户比较感兴趣且比较有看点的时间点，例如长视频平台的视频观看场景、短视频创作平台的视频剪辑场景，本申请实施例对此不做限定。

本申请实施例提供的视频处理方法可以由计算机设备执行，该计算机设备可以是终端和服务器中至少一种。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、车载终端、智能电视等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

为了便于理解，下面将对视频处理方法的应用场景架构进行介绍。如图1所示，图1示出了一种视频处理方法的应用场景架构图。该应用场景架构图中可以包括服务器100，以服务器100执行本申请实施例提供的视频处理方法为例进行介绍。

服务器100执行本申请实施例提供的视频处理方法的具体过程可以是：服务器100获取待处理视频和待处理视频在视频播放平台的对象交互数据。待处理视频是需要进行处理，以确定出用户比较感兴趣且比较有看点的时间点的视频，例如可以是影视剧的视频、综艺节目的视频等。在此之前，待处理视频可以在视频播放平台上播放，观看待处理视频的用户可能会基于待处理视频进行交互，从而产生对象交互数据。对象交互数据可以是对象（例如用户）基于待处理视频在视频播放平台上进行交互产生的数据，例如可以是弹幕数据、评论数据等。

对象交互数据可以与待处理视频的视频片段相对应，从而在一定程度上反映用户对视频片段的关注度、感兴趣程度。故服务器100可以对待处理视频进行分段处理，得到多个视频片段，进而基于多个视频片段中每个视频片段对应的对象交互数据，从多个视频片段中确定候选视频片段，实现基于对象交互数据对视频片段进行粗筛。由此可以直接过滤掉用户不感兴趣的视频片段，避免对用户不感兴趣的视频片段继续进行后续处理，提高目标时间点的确定效率，减少资源开销。在图1中，多个视频片段可以包括视频片段1、视频片段2、……、视频片段m。

然后，服务器100可以结合视频内容进一步从粗筛后的视频片段中细筛目标时间点。具体的，服务器100可以对候选视频片段包括的每个视频帧图像进行视频内容识别，得到第一识别结果。每个视频帧图像的第一识别结果用于指示视频帧图像是否包括目标内容，目标内容通常为视频片段中比较有看点的视频内容，可以吸引用户观看，故服务器100可以基于第一识别结果从候选视频片段中确定出现目标内容的备选时间点，进而根据备选时间点确定目标时间点，此时目标时间点对应的视频内容是用户比较感兴趣且比较有看点的时间点，能够吸引用户观看。

其中，视频内容可以是视频画面中的内容，例如可以是人脸、也可以是对视频画面进行光学字符识（Optical Character Recognition，OCR）得到的OCR文本信息。

需要说明的是，在本申请的具体实施方式中，整个过程中有可能会涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户单独同意或者单独许可，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

需要说明的是，本申请实施例提供的方法可以涉及人工智能技术，基于人工智能技术自动化确定用户比较感兴趣且比较有看点的目标时间点。人工智能（ArtificialIntelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

可以理解的是，本申请实施例所提供的视频处理方法可以涉及计算机视觉技术。计算机视觉（Computer Vision，CV）技术是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革，摆动变换（Swin Transformer）模型，视觉变换（Vision Transformer，ViT）模型，视觉混合专家（Mixture of Experts ，V-MOE）网络，掩膜自动编码器（Masked Autoencoders，MAE）等视觉领域的预训练模型经过微调（fine tune）可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、三维（Three-Dimensional，3D）技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

由于待处理视频中还可以包括音频，音频也是待处理视频的一部分内容，故还可以结合音频进一步确定目标时间点，故本申请实施例所提供的视频处理方法还可以涉及语音技术。语音技术（Speech Technology）的关键技术有自动语音识别技术（AutomaticSpeech Recognition，ASR）和语音合成技术（Text To Speech，TTS）以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。大模型技术为语音技术发展带来变革，通用语音预训练模型（WavLM），统一语言模型（UniSpeech）等沿用Transformer架构的预训练模型具有强大的泛化性、通用性，可以优秀完成各方向的语音处理任务。

另外，在进行视频处理时，可能需要使用神经网络，例如第一特征编码网络、第二特征编码网络、人脸识别所对应的神经网络、人声识别所对应的神经网络等等，这可能需要使用到机器学习训练神经网络。机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

接下来，将以计算机设备是服务器为例，结合附图对本申请实施例提供的视频处理方法进行介绍。参见图2，图2示出了一种视频处理方法的流程图，所述方法包括：

S201、获取待处理视频和所述待处理视频在视频播放平台的对象交互数据。

在需要从待处理视频中确定目标时间点时，可以获取待处理视频和待处理视频在视频播放平台的对象交互数据。待处理视频是需要进行处理，以确定出用户比较感兴趣且比较有看点的时间点的视频，例如可以是影视剧的视频、综艺节目的视频等。在此之前，待处理视频可以在视频播放平台上播放，观看待处理视频的用户可能会基于待处理视频进行交互，从而产生对象交互数据。对象交互数据可以是对象（例如用户）基于待处理视频在视频播放平台上进行交互产生的数据，例如可以是弹幕数据、评论数据等。

需要说明的是，无论在长视频平台的视频观看场景，还是在短视频创作平台的视频剪辑场景，服务器可以是预先对待处理视频进行处理得到目标时间点，以便在用户观看待处理视频或者用户对待处理视频进行剪辑的过程中使用。

另外，服务器也可以响应于用户的操作，实时对待处理视频进行处理得到目标时间点。例如，在短视频创作平台的视频剪辑场景中，终端上可以安装短视频创作平台对应的短视频应用，该短视频应用具有短视频创作功能，此时服务器可以为短视频应用提供服务。这样，当用户需要短视频应用提供目标时间点，以便进行剪辑时，可以触发服务器获取待处理视频和待处理视频在视频播放平台的对象交互数据，以便对待处理视频进行处理得到目标时间点。

又如，在长视频平台的视频观看场景中，终端上可以安装长视频平台对应的视频播放应用，该视频播放应用具有播放长视频的功能，此时服务器可以为视频播放应用提供服务，该长视频平台可以是S201中的视频播放平台。这样，当用户在视频播放应用上选择待处理视频进行播放时，可以触发服务器获取待处理视频和待处理视频在视频播放平台的对象交互数据，以便对待处理视频进行处理得到目标时间点。

S202、对所述待处理视频进行分段处理，得到多个视频片段。

对象交互数据可以与待处理视频的视频片段相对应，从而在一定程度上反映用户对视频片段的关注度、感兴趣程度。故服务器可以对待处理视频进行分段处理，得到多个视频片段，以便后续可以基于对象交互数据对视频片段进行粗筛。

其中，视频片段是待处理视频中具有一定时长的片段。在本申请实施例中可以采用不同的方法对待处理视频进行分段处理。为了方便后续进行初筛，从而过滤掉用户不感兴趣的视频片段，通常情况下，位于同一个视频片段的视频内容通常比较相似。而分镜是整个待处理视频的微元单位，分镜切换指的是两个分镜之间的切换，也就是待处理视频（例如影视剧的视频）中对于场面或者镜头的切换，每个分镜中的所有视频内容都是强关联性的，大多数分镜中的视频帧图像所表示的视频内容都是高度相似，不同分镜之间的视频内容存在的差异比较大，所有的分镜共同组成整个待处理视频。

基于此，在一种可能的实现方式中，多个视频片段为多个分镜，对待处理视频进行分段处理，得到多个视频片段的方式可以是获取待处理视频的视频帧序列，视频帧序列中包括多个按照时间顺序进行排列的视频帧图像。针对视频帧序列中任意相邻的两个视频帧图像，计算相邻的两个视频帧图像之间的相关度，从而得到任意相邻的两个视频帧图像之间的相关度。然后，根据相关度判断相邻的两个图像是否属于同一分镜，从而得到两个分镜之间的分镜分界线。若相邻的两个视频帧图像之间的相关度低于相关度阈值，则说明这两个相邻的两个视频帧图像之间的相关度特别低，两个视频帧图像更大可能属于不同的分镜，故将该相邻的两个视频帧图像对应的分帧时间点确定为相邻的两个分镜之间的分镜分界线，从而基于分镜分界线将待处理视频划分为多个分镜。

其中，本申请实施例提供的相关度为空间相似度，又称空间距离，空间相似度是通过测量两个向量表示的夹角的余弦值来度量它们之间的相似性。空间0度角的余弦值是1，而其他任何角度的余弦值都不大于1；并且其最小值是-1。从而两个向量表示之间的角度的余弦值确定两个向量表示在空间上的相似性，也就是两个向量表示的空间夹角和方向重合度。两个向量表示有相同的指向、相似度高时，余弦相似度的值为1；两个向量表示的空间夹角为90°、相似度低时，余弦相似度的值为0；两个向量表示指向完全相反的方向、完全不相似时，余弦相似度的值为-1。这结果是与向量表示的长度无关的，仅仅与向量表示的指向方向相关。余弦相似度通常用于正空间，因此给出的值为0到1之间。分帧时间点表示的是区分相邻的两个视频帧图像的时间点。

可以理解的是，针对整个视频帧序列计算任意相邻的两个视频帧图像之间的相关度，能够计算出一条相关度曲线，参见图3所示。在图3中，横坐标表示相邻的两个视频帧图像所对应的时间点，纵坐标表示相邻的两个视频帧图像之间的相关度。从图3中，能够看到其中有三个分帧时间点对应的相关度特别低，这个分帧时间点就是两个分镜之间的分镜分界线，所以其相关性很低，也就能够判断出这两个分镜之间分帧分界线的距离。经过计算后，能够将整个待处理视频的所有分镜分界线定位出来。

基于上述相关度的概念，在计算相邻的两个视频帧图像之间的相关度时，可以先通过神经网络对视频帧图像进行特征编码得到每个视频帧图像的向量表示，向量表示可以反映视频帧图像中视频内容的特征，进而基于向量表示可以判断两个视频帧图像之间的相关度。这里的神经网络主要是用于对视频帧图像进行特征编码，故这里的神经网络可以称为特征编码网络。其中，神经网络可以是卷积神经网络（Convolutional Neural Network，CNN），可以表示为Conv，CNN是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网络由一个或多个卷积层和顶端的全连通层（对应经典的神经网络）组成，同时也包括关联权重和池化层（poolinglayer）。

在一种可能的实现方式中，由于需要计算任意相邻的两个视频帧图像之间的相关度，那么在每次计算时，需要对相邻的两个视频帧图像进行特征编码。因此，为了提高计算效率，可以使用两个网络结构相同的特征编码网络叠加，一个特征编码网络中输入的是前一帧视频帧图像，另一个特征编码网络中输入的是后一帧视频帧图像，从而得到各自的向量表示。其中，输入前一帧视频帧图像的特征编码网络可以称为第一特征编码网络，输入后一帧视频帧图像的特征编码网络可以称为第二特征编码网络。

以相邻的两个视频帧图像分别是第i个视频帧图像和第i+1个视频帧图像，i为正整数且i小于视频帧序列中视频帧图像的数量，计算相邻的两个视频帧图像之间的相关度的方式可以是基于第一特征编码网络对第i个视频帧图像进行特征编码，得到第i个视频帧图像的第一向量表示，以及基于第二特征编码网络对第i+1个视频帧图像进行特征编码，得到第i+1个视频帧图像的第二向量表示。其中，第一特征编码网络的网络结构与第二特征编码网络的网络结构相同。进而基于第一向量表示和第二向量表示计算第i个视频帧图像和第i+1个视频帧图像之间的相关度。

上述方式通过使用叠加的特征编码网络同时对相邻的两个视频帧图像进行特征编码得到各自对应的向量表示，以便计算两个视频帧图像之间的相关度，从而提高相关度的计算效率。

在一种可能的实现方式中，特征编码网络中可能包括多层特征编码子网络，例如第一特征编码网络和第二特征编码网络分别包括n个特征编码子网络，视频帧图像可以依次经过多层特征编码子网络的处理，每层特征编码子网络都可以输出视频帧图像的向量表示。在这种情况下，为了同时保留视频帧图像的底层信息和高层信息，可以利用每一层特征编码子网络输出的向量表示进行相关度的计算。

具体的，基于第一特征编码网络对第i个视频帧图像进行特征编码，得到第i个视频帧图像的第一向量表示的方式可以是基于第一特征编码网络对第i个视频帧图像进行特征编码，获取第一特征编码网络包括的n个特征编码子网络分别输出的第一向量表示。基于第二特征编码网络对第i+1个视频帧图像进行特征编码，得到第i+1个视频帧图像的第二向量表示的方式可以是基于第二特征编码网络对第i+1个视频帧图像进行特征编码，获取第二特征编码网络包括的n个特征编码子网络分别输出的第二向量表示。在基于第一向量表示和第二向量表示计算第i个视频帧图像和第i+1个视频帧图像之间的相关度时，可以根据第一特征编码网络中第j个特征编码子网络输出的第一向量表示和第二特征编码网络中第j个特征编码子网络输出的第二向量表示，计算第i个视频帧图像和第i+1个视频帧图像之间的第j个相关度，j=1、2、……、n，从而基于每层特征编码子网络输出的向量表示计算相关度，进而得到n个相关度。对计算得到的n个相关度进行加权求和，得到第i个视频帧图像和第i+1个视频帧图像之间的相关度。

假设，上述n=3，则最终的相关度包括是三个部分，分别是基于每层特征编码子网络输出的向量表示计算得到的相关度，例如分别用P1、P2、P3表示，则最终的相关度P=a*P1+b*P2+c*P3，其中，a、b、c为权重系数，可以根据实际需求进行设置，例如a=0.2，b=0.3，c=0.5。在训练第一特征编码网络和第二特征编码网络时，也可以基于每层特征编码子网络对应的相关度，计算损失函数，从而根据该损失函数训练第一特征编码网络和第二特征编码网络。例如上述，最终的相关度P=0.2*P1+0.3*P2+0.5*P3，则损失函数loss=0.2*P1+0.3*P2+0.5*P3。

上述方式利用每一层特征编码子网络输出的向量表示进行相关度的计算，从而同时保留视频帧图像的底层信息和高层信息，提高相关度计算的准确性。

需要说明的是，本申请实施例对特征编码网络的网络结构不作限定，在一种可能的实现方式中，特征编码网络可以是Swin Transformer。Swim Transformer是特为视觉领域设计的一种分层Transformer结构，其网络结构示例图可以参见图4所示。SwinTransformer首先将视频帧图像作为最原始的输入，输入的视频帧图像的大小为三维矩阵：H×W×3。H为高度（Height），W为宽度（Width），3为通道（channel），这里指的是红绿蓝（Red-Green-Blue，RGB）通道。图4中只以一个视频帧图像为例，也就是batch_size = 1。

将视频帧图像输入到图像块分割（Patch Partition）模块中进行分块，PatchPartition模块的处理流程图可以参见图5所示，每4×4相邻的像素为一个块（patch），参见图5中501所示。然后按块的位置提取特征图，参见图5中502所示。然后按照特征图的通道进行联接，得到图5中503所示的特征图。在channel方向展平（flatten），将一个patch中的像素合成一个向量，参见图5中504所示。对504所示的向量进行归一化得到505所示的向量，再对505所示的向量进行线性变换，按通道降维，得到图5中506所示的向量。假设输入的视频帧图像是RGB三通道图片，那么每个patch就有4×4=16个像素，然后每个像素有R、G、B三个值，所以展平后是16×3=48，所以通过Patch Partition模块后视频帧图像的形状（shape）由 [H, W, 3]变成了 [H/4, W/4, 48]。再通过线性嵌入（Linear Embeding）层对每个像素的channel数据做线性变换，由48变成C，即视频帧图像的shape再由 [H/4, W/4, 48]变成了 [H/4, W/4, C]。实际上Patch Partition模块和Linear Embeding层可以直接通过一个卷积层实现。

然后就是通过四个阶段（Stage）构建不同大小的特征图，每个Stage中包括多个重复堆叠的摆动变换块（Swin Transformer Block），除了Stage1中先通过一个LinearEmbeding层外，剩下三个stage都是先通过一个图像块合并（Patch Merging）层进行下采样，经过Stage2后，输出的视频帧图像的shape由[H/4, W/4, C]变成[H/8, W/8, 2C]，经过Stage3后，输出的视频帧图像的shape由[H/8, W/8, 2C]变成[H/16, W/16, 4C]，经过Stage4后，输出的视频帧图像的shape由[H/16, W/16, 4C]变成[H/32, W/32, 8C]。后面接一个形状重建（reshape）模块就能够得到相应的向量表示（embedding），也就是当前输入视频帧图像的embedding编码。

在本申请实施例中，使用的Swin Transformer Block都是重复堆叠的SwinTransformer Block，Swin Transformer Block的结构可以包括两种，这两种结构的不同之处仅在于一个使用了窗口多头自注意力（Windows Multi-head Self-Attention，W-MSA）结构，一个使用了移位窗口多头自注意力（Shifted Windows Multi-Head Self-Attention，SW-MSA）结构。而且这两个结构是成对使用的，先使用一个W-MSA结构再使用一个SW-MSA结构。对于每一个结构，后面还会接上一个标准化（Layer Norm，LN）层、全局池化层以及全连接层得到最终输出。其中，全局池化层以及全连接层可以构成多层感知机（MultilayerPerceptron，MLP），W-MSA和SW-MSA之前也可以分别连接一个LN层，如图6中所示。

Patch Merging层可以进行下采样，该层的作用是做降采样，用于缩小分辨率，调整通道数，进而形成层次化的设计，同时也能节省一定运算量。在CNN中，则是在每个Stage开始前用stride=2的卷积/池化层来降低分辨率。Patch Merging是一个类似于池化的操作，但是比Pooling操作复杂一些。池化会损失信息，Patch Merging不会。每次降采样是两倍，因此在行方向和列方向上，按位置间隔2选取元素，拼成新的patch，再把所有patch都拼接（concat）起来作为一整个向量，最后展开。此时通道的维度会变成原先的4倍（因为H,W各缩小2倍）。

基于前述介绍的Swim Transformer，本申请实施例使用的第一特征编码网络和第二特征编码网络分别可以是一个Swim Transformer，两个Swim Transformer堆叠进行相关度计算，两个Swim Transformer堆叠作为改进的Swim Transformer。参见图7所示，Stage2、Stage3、Stage4分别可以输出第i个视频帧图像的第一向量表示，以及输出第i+1个视频帧图像的第二向量表示，并且计算得到相关度。其中，Stage2、Stage3、Stage4对应的网络结构可以作为n个特征编码子网络。基于Stage2输出的第一向量表示和第二向量表示计算得到的相关度为P1，基于Stage3输出的第一向量表示和第二向量表示计算得到的相关度为P2，基于Stage4输出的第一向量表示和第二向量表示计算得到的相关度为P3，基于P1、P2和P3得到第i个视频帧图像和第i+1个视频帧图像之间的相关度。

S203、基于所述多个视频片段中每个视频片段对应的对象交互数据，从所述多个视频片段中确定候选视频片段。

对象交互数据可以与待处理视频的视频片段相对应，从而在一定程度上反映用户对视频片段的关注度、感兴趣程度。故服务器可以基于多个视频片段中每个视频片段对应的对象交互数据，从多个视频片段中确定候选视频片段，实现基于对象交互数据对视频片段进行粗筛。由此可以直接过滤掉用户不感兴趣的视频片段，避免对用户不感兴趣的视频片段继续进行后续处理，提高目标时间点的确定效率，减少资源开销，降低成本。

可以理解的是，基于多个视频片段中每个视频片段对应的对象交互数据，从多个视频片段中确定候选视频片段的方式可以包括很多。通常情况下，对象交互数据的数量可以反映用户对视频片段的关注度、热度，一个视频片段的对象交互数据的数量越多，表示用户对该视频片段的关注度越高，该视频片段的热度可能越高。基于此，在一种可能的实现方式中，基于多个视频片段中每个视频片段对应的对象交互数据，从多个视频片段中确定候选视频片段的方式可以是获取每个视频片段内对象交互数据的数量，将多个视频片段中对象交互数据的数量满足预设条件的视频片段确定为候选视频片段。其中，对象交互数据可以是有效的对象交互数据，能够反映用户对视频片段想法的数据，例如对象交互数据是弹幕数据时，有效的弹幕数据可以是过滤掉标点符号等没有语义的弹幕数据。

弹幕数据可以是指观看视频时弹出的评论性字幕，弹幕数据可以给用户（例如观众）一种“实时互动”的感觉，虽然不同弹幕数据的发送时间有所区别，但是其只会在视频中特定的一个时间点出现，因此在相同时间点发送的弹幕数据基本上也具有相同的主题，在参与评论时就会有与其他观众同时评论的感觉。同时因为是属于观众的自主行为，所以在实际的视频播放平台中，这些弹幕数据一定程度上代表着视频的热度曲线。

一个视频片段具有一定的时长，不同视频片段的时长可能不同，基于此，在确定对象交互数据的数量是否满足预设条件时，可以基于对象交互数据的数量计算对象交互数据在视频片段内的平均值。若每个视频片段的时长是t，对象交互数据的数量是n，对象交互数据在视频片段内的平均值是s，s=n/t。此时预设条件可以是对象交互数据的数量的平均值达到某一数量阈值。

以待处理视频时影视剧的视频、对象交互数据是弹幕数据为例，经过S202的分段处理后，能够将影视剧的视频中所有分镜分界线进行毫秒粒度级别的定位，然后根据分镜分界线的计算，就能够分割出整个待处理视频的所有分镜，例如分镜t1、分镜t2、分镜t3、分镜t4、分镜t5，参见图8所示。在接收到所有的分镜的时间段后，结合弹幕数据对所有分镜进行粗筛，能够通过粗筛挑选出热度值较高的分镜，从而在热度值高的分镜中定位到目标时间点。

在进行挑选分镜时，使用的是基于分镜内的所有弹幕数据的数量的平均值来进行对所有的分镜排序筛选，挑选出平均值较高的分镜作为候选视频片段。

由图8所示，每个分镜的时长为t，分镜t1、分镜t2、分镜t3、分镜t4、分镜t5内弹幕数据的数量依次是n1、n2、n3、n4、n5，然后计算出其分镜内弹幕数据的数量的平均值，依次是s1、s2、s3、s4、s5。进而能够粗筛出所有分镜中平均值较高的分镜，作为下一阶段的候选视频片段。

这种粗筛方式以对象交互数据的数量的平均值为筛选依据，从而忽略掉视频片段的时长对对象交互数据的数量的影响，提高粗筛的准确性。

S204、对所述候选视频片段包括的每个视频帧图像进行视频内容识别，得到第一识别结果，每个视频帧图像的第一识别结果用于指示所述视频帧图像是否包括目标内容。

服务器可以结合视频内容进一步从粗筛后的视频片段中细筛目标时间点。具体的，服务器可以对候选视频片段包括的每个视频帧图像进行视频内容识别，得到第一识别结果。每个视频帧图像的第一识别结果用于指示视频帧图像是否包括目标内容，目标内容通常为视频片段中比较有看点的视频内容，可以吸引用户观看，以便可以基于第一识别结果从候选视频片段中确定出用户比较感兴趣且比较有看点的时间点，能够吸引用户观看。

需要说明的是，待处理视频的类型可能包括很多种，例如影视剧、综艺节目等人物类型视频、动物类型视频、自然景观类型，根据待处理视频的类型不同，目标内容也可以有所不同。例如待处理视频的类型是人物类型，则目标内容可以是目标人脸，若待处理视频的类型是动物类型视频，则目标内容可以是动物。当目标内容为目标人脸时，此时的视频内容识别可以是人脸识别，对候选视频片段包括的每个视频帧图像进行视频内容识别，得到第一识别结果的方式可以是针对候选视频片段包括的每个视频帧图像，对视频帧图像进行人脸检测，并基于检测结果从视频帧图像中截取人脸图像。然后，对人脸图像进行特征提取得到人脸图像的第三向量表示，进而基于第三向量表示进行身份识别，得到第一识别结果。其中，检测结果用于指示人脸在视频帧图像中的位置。

在本申请实施例中，基于第三向量表示进行身份识别得到第一识别结果的方式可以是将第三向量表示与已知所属对象的人脸向量表示进行比对，从而确定第三向量表示所属的对象，得到第一识别结果。

需要说明的是，已知所属对象的人脸向量表示可以是预先建立的人脸库中的人脸向量表示，人脸库中包括比较全面的、大量人脸向量表示，通常可能达到上万量级，人脸库中的所有人脸向量表示都是通过同样的方法提取到的，每个人脸向量表示都代表一个人脸标识（Identity，ID）。

在一些情况下，待处理视频中包括哪些对象的人脸是已知的，例如待处理视频时影视剧的视频，那么影视剧中包括的明星可以在演员表中体现，则待处理视频中包括的人脸通常为这些明星的人脸，而不会是其他人的人脸。基于此，在一种可能的实现方式中，已知所属对象的人脸向量表示可以是人脸向量表示集中的人脸向量表示，人脸向量表示集是从人脸库中挑选出的部分人脸向量表示的集合。则基于第三向量表示进行身份识别，得到第一识别结果的方式可以是基于待处理视频的对象列表，从人脸库中获取对象列表对应的人脸向量表示集，人脸向量表示集中包括对象列表中不同对象的人脸向量表示。然后，将第三向量表示与人脸向量表示集中的人脸向量表示进行匹配，确定第三向量表示所对应的对象，进而基于第三向量表示所对应的对象确定第一识别结果。其中，对象列表中的对象是待处理视频中可能出现的对象，这样基于对象列表直接从人脸库中提取出相对应的人脸向量表示集，然后所有的匹配都是在这个人脸向量表示集中进行匹配，不需要对人脸库中其他海量的向量表示进行计算，从而减少整个人脸识别的匹配时间，能够极大的提升效率降低耗时。

若目标人脸为任意人脸，则在基于第三向量表示所对应的对象确定第一识别结果时，确定出第三向量表示所对应的对象，确定出的第一识别结果指示视频帧图像中包括目标内容。例如基于第三表示向量识别出视频帧图像中包括演员A的人脸，则可以认为第一识别结果指示视频帧图像包括目标人脸。在一些情况下，视频帧图像中可能包括主角、配角，甚至群演，但是通常出现主角才是精彩内容，即目标人脸为特定演员的人脸。在这种情况下，确定出第三向量表示所对应的对象后，还要进一步确定第三向量表示所对应的对象是否是主要对象，若是，则确定出的第一识别结果指示视频帧图像中包括目标内容。例如若是主角是演员B，但基于第三表示向量识别出视频帧图像中包括演员A的人脸，可以认为第一识别结果为不包括目标人脸；若基于第三表示向量识别出视频帧图像中包括演员B的人脸，可以认为第一识别结果为包括目标人脸。

上述人脸识别过程可以概括为两个部分，分别是人脸检测和身份识别。参见图9所示，人脸检测可以是检测视频帧图像中是否存在人脸，以及检测人脸在视频帧图像中所在位置。身份识别可以是识别视频帧图像中的人脸是哪个对象的人脸，即识别人脸的身份。在本申请实施例中，身份识别也可以叫做明星识别，身份识别技术是基于人的脸部特征，对输入的人脸图像或者视频流，首先判断其是否存在人脸，如果存在人脸，则进一步的给出每个人脸的位置、大小和各个主要面部器官的位置。并依据这些信息，进一步提取每个人脸中所蕴涵的身份特征，并将其与已知的人脸进行对比，从而识别每个人脸的身份。本申请实施例中该技术是用来对待处理视频（影视剧的视频）中明星进行识别，分辨出每一个视频帧图像的明星出现与否。

人脸检测时可以使用人脸检测模型进行人脸检测，身份识别时可以使用身份识别模型进行特征提取。对于一个视频帧图像（如图9中901所示），通过人脸检测模型（如图9中902所示）进行人脸检测，实现五官的检测定位（如图9中903所示）从而确定人脸的位置，进而基于人脸的位置从视频帧图像中切割出人脸图像（如图9中904所示）。然后，基于人脸图像，通过身份识别模型（如图9中905所示）进行特征提取得到第三向量表示（如图9中906所示）。对于一个待处理视频（如图9中907所示），可以获取待处理视频对应的对象列表（如图9中908所示），进而基于对象列表从人脸库（如图9中909所示）中提取人脸向量表示集（如图9中910所示），然后所有的匹配都是在这个人脸向量表示集中进行匹配，得到第一识别结果（如图9中911所示）。其中，以待处理视频时影视剧的视频为例，对象列表可以是演员表，人脸库中的人脸向量表示可以是演员1、演员2、演员3、……、演员n分别对应的人脸向量表示。

本申请实施例对人脸检测模型和身份识别模型的网络结构不作限定。在一种可能的实现方式中，人脸检测模型可以是多任务卷积神经网络（Multi-task convolutionalneural network，MTCNN），身份识别模型可以是残差网络（Residual Network，Resnet)，例如Resnet50。图10为整个MTCNN的网络结构示例图，其总共分为三个模块，分别是候选网络（Proposal Network，P-Net）、精炼网络（Refine Network，R-Net）和输出网络（OutputNetwork，O-Net）。以下步骤是整个MTCNN的预测过程：

（1）首先将视频帧图像进行不同尺度的变换（Resize），构建图像金字塔，以适应不同大小的人脸的进行检测。构建图像金字塔的方式可以是：按照设定的缩放因子（resize_factor）对视频帧图像进行resize，直到等于P-net要求的大小，例如可以是12*12大小。由此，可以得到原始的视频帧图像、视频帧图像*resize_factor、视频帧图像*resize_factor^2...、视频帧图像*resize_factor^n（注，最后一个的图像的大小会大等于12）。这些不同大小的图像，堆叠起来像是金字塔，简单称为图像金字塔。注意，这些图像都是要一幅幅输入到P-net中去得到候选的。其中，resize_factor 可以是根据人脸大小分布来确定的，基本确定在0.70-0.80之间会比较合适，设的比较大，容易延长推理时间，小了容易漏掉一些中小型人脸。本申请实施例中，esize_factor例如可以设定为0.70。

（2）图像金字塔输入P-net，得到大量的候选（candidate）。P-Net是一个人脸区域的候选网络，其网络结构可以参见图10中（a）图所示，P-net的输入一个12×12×3的视频帧图像，输出包含3部分：分类结果（二分类，代表是否人脸）、检测到的人脸框（bbox）的位置以及定位到的关键点（landmarks）的位置，本申请实施例对关键点的数量不做限定，这里以关键点的数量是5个为例，5个关键点分别可以是左眼、右眼、鼻、左嘴角、右嘴角。视频帧图像，通过3层的卷积之后，输出上述3部分。

第一部分输出是用来判断该图像是否存在人脸，输出的向量大小1×1×2，也就是两个值。第二部分输出bbox的位置，一般称为框回归。P-Net输入的12×12的图像块可能并不是完美的人脸框的位置，如有的时候人脸并不正好为方形，有可能12×12的视频帧图像偏左或偏右，因此需要输出当前框位置相对完美的人脸框位置的偏移。这个偏移大小为1×1×4，即表示框左上角的横坐标的相对偏移，框左上角的纵坐标的相对偏移、框的宽度的误差、框的高度的误差。第三部分输出关键点的位置，以5个关键点为例，5个关键点分别对应着左眼的位置、右眼的位置、鼻子的位置、左嘴巴的位置、右嘴巴的位置。每个关键点需要两维来表示，因此输出的向量大小为1×1×10。

根据上述步骤（1）得到的图像金字塔，将所有图像输入到P-net，得到输出map形状是（m, n, 16）。根据分类得分，筛选掉一大部分的候选，再根据得到的4个偏移量对bbox进行校准后得到bbox的左上右下的坐标，对这些候选根据交并比（Intersection overUnion，IOU）值再进行非极大值抑制（Non Maximum Suppression，NMS）筛选掉一大部分候选。详细的说就是根据分类得分从大到小排，得到（num_left, 4）的张量，即num_left个bbox的左上、右下绝对坐标。每次以最大分数值的bbox坐标和剩余坐标求出IOU，去除掉IOU大于0.6（阈值是提前设置的）的bbox，并把这个最大分数值移到最终结果。重复这个操作，会去除掉很多有大量重叠（overlap）的bbox，最终得到(num_left_after_nms，16)个候选，这些候选需要根据bbox坐标去原图截出图像后，resize为24*24输入到R-net。

（3）经过P-net筛选出来的候选图像，经过R-net进行精调。R-net的网络结构可以参见图10中（b）图所示，从网络结构可以看到，R-net的网络结构和P-Net网络结构有差异，多了一个全连接层，所以会取得更好的作用。在输入R-Net之前，图像都需要缩放到24×24×3，R-Net的输出与P-Net是相同的，R-Net的目的是为了去除大量的非人脸框。

根据P-net输出的位置，去原图像上截取出部分图像（截取部分图像有个细节是需要截取bbox最大边长的正方形，这是为了保障resize的时候不产生形变和保留更多的人脸框周围细节），resize为24×24，输入到R-net，进行精调。R-net仍旧会输出二分类独热码（one-hot）2个输出（即分类结果）、bbox的坐标偏移量4个输出（即人脸框的位置）、landmark的位置10个输出（即关键点的位置），根据二分类得分去除掉大部分不是人脸的候选、对截图的bbox进行偏移量调整后（说的简单点就是对左上右下的x、y坐标进行上下左右调整），再次重复P-net所述的根据IOU值进行NMS筛选掉一大部分候选。最终R-net输出的也是（num_left_after_R-net, 16），根据bbox的位置再去原图像截出部分图像输入到O-net，同样也是根据最大边长的正方形截取方法，避免形变和保留更多细节。

（4）经过R-net去除掉很多候选后的图像输入到O-net，输出准确的bbox的位置和landmark的位置。O-net的网络结构可以参见图10中（c）图所示，从网络结构可以看到，O-net比R-Net有多了一层卷积层，所以处理的结果会更加精细。输入的图像大小48×48×3，输出包括分类结果、检测到的人脸框的位置以及关键点的位置。

大体可以重复P-net的过程，不过有区别的是这个时候除了关注bbox的位置（位置可以用坐标表示）外，也要输出landmark的坐标。经过分类筛选、调整后的NMS筛选，得到准确的人脸框的位置和landmark的位置。

图11a为Resnet50的网络结构示例图，Resnet广泛用于目标分类等领域以及作为计算机视觉任务主干经典神经网络的一部分，典型的网络有Resnet50、Resnet101等，本申请实施例使用的可以是Resnet50。Resnet50可以分为5个阶段（stage），参见图11a所示，分别是阶段0、阶段1、阶段2、阶段3和阶段4。

每个阶段的结构可以参见图11b所示，其中Stage 0的结构比较简单，可以视其为对输入的预处理，后4个Stage都由瓶颈卷积层（Bottleneck，BTNK）组成，结构较为相似。Stage 0输入的形状为(3,224,224)，3为通道数，两个224分别为高和宽。Stage 0的结构包括第一层和第二层，第一层包括3个先后操作，分别是Conv、批量归一化（BatchNormalization、BN）、线性整流函数（Rectified Linear Unit，RELU）。Conv的卷积核大小是7×7，卷积核的数量是64，卷积核的步长为2，可以用/2表示。第二层为最大池化层（MAXPOOL），其内核（kernel）大小为3×3、步长为2。Stage 0输出的形状为(64,56,56)，其中64等于stage 0的第一层卷积层中卷积核的数量，56等于224/2/2（步长为2会使输入尺寸减半）。

Stage 1包含3个Bottleneck（包括1个瓶颈卷积1（BTNK1）和2个瓶颈卷积2（BTNK2）），剩下的3个stage分别包括4个Bottleneck（包括1个BTNK1和2个BTNK2）、6个Bottleneck（包括1个BTNK1和5个BTNK2）、3个Bottleneck（包括1个BTNK1和2个BTNK2）。Stage 1输出的形状为(256,56,56)，Stage 2输出的形状为(512,28, 28)，Stage 3输出的形状为(1024,14, 14)，Stage 4输出的形状为(2048,7, 7)。由此，通过Resnet50将人脸图像转化为一个2048的第三向量表示，该第三向量表示可以代表这张人脸的语义特征信息。

需要说明的是，BTNK1和BTNK2的结构可以参见图11c所示，BTNK2有2个可变的参数C和W，即输入的形状(C,W,W)中的C和W，BTNK2左侧的3个卷积层以及相关BN和RELU。与BTNK2相比，BTNK1多了1个右侧的卷积层，从而匹配输入与输出维度差异的作用。

S205、基于所述第一识别结果，从所述候选视频片段中确定出现所述目标内容的备选时间点。

每个视频帧图像的第一识别结果用于指示视频帧图像是否包括目标内容，目标内容通常为视频片段中比较有看点的视频内容，可以吸引用户观看，故服务器可以基于第一识别结果从候选视频片段中确定出现目标内容的备选时间点，以便根据备选时间点定位用户比较感兴趣且比较有看点的时间点，能够吸引用户观看。

需要说明的是，待处理视频中除了包括可以看见的视频内容，还可以包括音频，音频在一定程度上可以反映对应的视频内容是否是推动情节发展的实质内容。其中，音频可以是人声，也可以是背景音乐等，基于待处理视频的类型的不同，音频也可以有所不同。若待处理视频的类型是人物类型视频，则音频可以是人声或者人声和背景音乐；若待处理视频的类型是自然景观类型，则音频可以是背景音乐。因此，当待处理视频的类型是人物类型视频、目标内容是目标人脸时，为了提高备选时间点的内容质量，还可以利用人声识别对人脸识别进行补充。具体的，服务器可以获取待处理视频的音频序列，音频序列中包括多个按照时间顺序进行排列的音频片段。针对音频序列中每个音频片段，对音频片段进行人声识别，得到第二识别结果，第二识别结果用于指示音频片段中是否出现人声。在这种情况下，基于第一识别结果，从候选视频片段中确定出现目标内容的备选时间点的方式可以是基于第一识别结果和第二识别结果，从候选视频片段中确定出现目标人脸和人声的备选时间点。

音频序列中可能包括各种声音，例如人声、背景噪声（例如走路声、风声等），本申请实施例主要是通过人声识别判断其中是否包括人声。此处的人声识别可以是话音激活检测（Voice Activity Detection，VAD），广泛应用于语音编码、降噪和自动语音识别场景中。这里所说的是人声/非人声检测，一个VAD通常包括两个部分，特征提取和人声/非人声判决。

本申请实施例通过对人脸的识别和人声的识别，从而能够定位到每个视频片段中目标人脸出现的时间，同时还能够定位到整个候选视频片段中出现人声的时间，将两个时间进行合并，就能够定位到每个候选视频片段中，既出现目标人脸同时还出现人声的时间点，将这些时间点作为备选时间点，从而进入到下一步筛选阶段。

本申请实施例使用人脸识别和人声识别一起来定位备选时间点，利用人声识别的第二识别结果来对人脸识别的第一识别结果进行补充，从而定位出目标人脸出现的时间以及与之相对应的发声时间，从而让备选时间点既能够有目标人脸的出现，又有推动情节发展的人声发出，提升备选时间点的内容质量，能够更加吸引用户的观看兴趣。

本申请实施例对音频片段进行人声识别得到第二识别结果的方式可以包括多种，在一种可能的实现方式中，可以先对音频片段的频谱图进行特征提取得到音频片段对应的音频特征，进而基于音频特征对音频片段进行人声识别，得到第二识别结果。

可以理解的是，音频片段的本身是时域信号，时域信号中也包含了大量的时域信息，尤其是像音频响度和采样点幅度的信息，能够反映音频片段的特点，有助于人声识别。因此，在另一种可能的实现方式中，在进行人声识别时，可以对音频片段既使用时域处理，又使用频域处理，从而得到包含时域信息和频域信息的音频特征，进而基于音频特征对音频片段进行人声识别，得到第二识别结果。具体的，对音频片段进行人声识别，得到第二识别结果的方式可以是通过一维卷积层对音频片段进行特征提取得到一维编码特征，并对一维编码特征进行维度转换得到第一特征图谱。其中，第一特征图谱是二维图谱（wavegram）。对音频片段进行频域变换得到音频片段对应的频谱图，并通过二维卷积层对音频片段对应的频谱图进行特征提取得到第二特征图谱。其中，第二特征图片也是二维图谱。然后对第一特征图谱和第二特征图谱进行融合得到音频片段的音频特征，进而基于音频特征对音频片段进行人声识别，得到第二识别结果。

本申请实施例对音频片段进行人声识别，得到第二识别结果的具体流程可以参见图12所示。音频片段是音频序列的一小段语音，是音频时域信号，图12中包括两个支路，一个支路是时域处理支路，另一个支路是频域处理支路。时域处理支路包括一维卷积层，通过一维卷积层对音频片段进行特征提取得到一维编码特征。将一维编码特征进行维度转换得到一个二维图谱，即第一特征图谱。频域处理支路包括二维卷积层，通过二维卷积层对音频片段对应的频谱图进行特征提取得到与第一特征图片同维度的第二特征图谱。

图12中左侧是时域处理支路，时域处理支路使用了大量的一维卷积层（可以表示为Conv 1D），在音频时域信号中使用大量的一维卷积层能够直接学习到音频时域信号的时域特性，尤其是像音频响度和采样点幅度的信息。经过大量的一维卷积层和最大池化层（MaxPooling 1D，s=4）后，把生成的一维编码特征转换成为一个二维图谱（第一特征图谱），该目的是为了能够使得时域处理支路与频域处理支路的输出进行相结合。

图12中右侧是频域处理支路，频域处理支路的输入也是音频片段，然后求得该音频片段的频谱图，这里求得的是对数梅尔频谱（log-mel）频谱，采用的是梅尔（mel）频率。梅尔频率是一种基于人耳对等距的音高（pitch）变化的感官判断而定的非线性频率刻度，是在进行信号处理时，更能够迎合人耳的听觉感受阈变化来人为设定的频率刻度，在音频处理领域，有很多基础音频特征是通过mel频率来进行计算的。将求得的频谱图输入到多个二维卷积层以及最大池化层（MaxPooling 2D）中，输出第二特征图谱。第二特征图谱与左侧时域处理支路输出的第一特征图谱的维度相同。

图12中的中部位置存在着多次两个处理支路的信息交流，分别是将时域处理支路的信息进行形状重建（reshape），然后与频域处理支路的特征进行拼接（concat），然后统一输入到最高层的叠加模块中。该机制就是为了能够让时域和频域保持信息上的互补，同时还能够让高层网络感知到底层网络的信息。

最后将第一特征图谱和第二特征图谱以及中间两个支路交流的特征图进行concat，共同组成一组二维频域特征图，将该生成的二维频域特征图输入到二维卷积层（可以表示为Conv 2D）中，然后按照最后一维度进行取平均（mean）和取最大（max），将求得的平均值与最大值进行求和最后再过一层RELU网络层，生成音频片段的音频特征，该音频特征可以表示为嵌入向量（embedding vector）。

由于要对每个音频片段是否是人声的类别做出判断，所以需要针对于输入的每一小段音频片段做出二分类，需要计算置信度，所以每个embedding vector都需要接入一个归一化指数函数（softmax）来对是否为人声的置信度进行计算，根据计算出的置信度从而能够判断出当前输入的这一小段音频片段是否存在人声。

S206、根据所述备选时间点确定目标时间点。

在得到备选时间点后，服务器可以基于备选时间点确定目标时间点，以便后续将目标时间点提供给用户使用。

目标时间点可以有多种应用场景，例如短视频创作平台的视频剪辑场景、长视频平台的视频观看场景。在短视频创作平台中，可以采用预设标识符在待处理视频的播放进度条中标注目标时间点；在长视频平台中，可以将目标时间点确定为剪辑候选入点。

在很多短视频创作平台中，很多上传者（也可以称为up主）可以是利用当前大热的影视剧的视频进行短视频剪辑创作，本申请实施例能够一次性的将影视剧的视频中所有的高质量目标时间点全部给计算定位出来，然后由短视频创作平台将目标时间点作为剪辑候选入点提供给up主。这种方式能够极大的提升up主创作的效率。

在长视频平台中，本申请实施例能够快速的定位出影视剧的视频中高质量且用户感兴趣的目标时间点，长视频平台能够采用预设标识符直接在播放进度条中标注目标时间点，从而将目标时间点作为智能兴趣点的标注提供给用户。这种方式能够让用户自主选择跳转该智能兴趣点，让用户直接观看高质量的视频片段，增加了整个长视频平台的趣味性同时也能够提升用户的使用观看感受。

在本申请实施例中，基于备选时间点确定目标时间点的方式可以包括多种。在一种可能的实现方式中，可以直接将备选时间点作为目标时间点。

在另一种实现方式中，备选时间点的数量可以为多个，多个备选时间点的内容质量可能不同，故为了保证目标时间点的内容质量，还可以对备选时间点进一步进行精确筛选。精确筛选的目标可以是选择内容质量比较高的时间点。在一些情况下，一个时间点对应的对象交互数据的数量可以反映该时间点的内容质量，一般来说，一个时间点的内容质量越高，用户对该时间点所对应的视频内容的关注度越高，用户越有可能发布更多数量的对象交互数据。基于此，精确筛选的依据可以是备选时间点对应的对象交互数据的数量。具体的，根据备选时间点确定目标时间点的方式可以是获取待处理视频的对象交互数据曲线，对象交互数据曲线用于指示待处理视频中不同时间点的对象交互数据的数量。然后，从多个备选时间点中剔除第一时间点得到第二时间点，第一时间点是对象交互曲线中不属于上升时间段的备选时间点，在上升时间段中，对象交互数据的数量随着时间点的增加而增加，进而基于第二时间点确定目标时间点。

待处理视频中各个时间点对应的对象交互数据的数量可以构成一条对象交互数据曲线，以待处理视频是影视剧的视频、对象交互数据是弹幕数据为例，弹幕数据曲线可以参见图13所示。一般根据情节的发展，弹幕数据曲线的走向和情节是强相关联的，尤其是针对于热度比较高的影视剧，其弹幕数据的数量会特别大。然后由图13所示，整个弹幕数据曲线覆盖了三个分镜（视频片段），同时弹幕数据的数量也代表着用户的关注度与视频片段的精彩程度，弹幕数据的数量越高的时间点代表着用户越喜爱看该时间点的视频内容，根据短视频剪辑特性或用户观看视频的心理，目标时间点处需要快速抓住用户的观看兴趣，以此来提升点击率和完播率。所以在使用弹幕数据的数量来进行精确筛选时，可以在备选时间点中剔除弹幕数据的数量较低的备选时间点（第一时间点），从而将弹幕数据的数量较高的备选时间点（第二时间点）保留下来，得到高质量的目标时间点。

由图13中可以看出，三个分镜中分镜1和分镜3的弹幕数据的数量较多的，所以在粗筛能够将分镜2进行剔除，将分镜1和分镜3作为候选视频片段，从而在分镜1和分镜3中挑选备选时间点。在分镜1和分镜3中都存在着一个弹幕数据曲线的波峰（即峰值），然后波峰前面是一个弹幕数据曲线的上升时间段，在上升时间段中，弹幕数据的数量随着时间点的增加而增加，该上升时间段就是一个能够快速吸引用户观看兴趣的时间段，所以在精确筛选高质量时间点时，会将不属于弹幕数据曲线的上升时间段内的时间点进行剔除，使得保留的时间点都处于一个弹幕数据的数量上升的时间段，从而能够让目标时间点处的视频内容不仅有目标人脸出现且有人声，得到高质量的目标时间点。

上述方式通过对象交互数据的数量，尤其是对象交互数据的峰值作为精确筛选时间点的筛选依据，从而能够快速定位到用户喜爱的时间点，从而能够让剪辑快速进入看点，提升最终短视频剪辑的精彩程度，更能够吸引用户的兴趣。

需要说明的是，在拍摄待处理视频时，尤其是当待处理视频是影视剧的视频时，通常会采用空镜这种拍摄手法。空镜是影视剧拍摄手法中的描述名词，是指在一个分镜内，出现了大量的没有实质性内容的视频片段，同时也没有出现人脸等重要内容。影视剧中的空镜往往是一段空白的镜头或者是一个景色片段，无实质性内容。由于待处理视频中可能存在空镜，因此，精确筛选的依据可以是备选时间点对应的待定视频片段是否是空镜。为了避免基于目标时间点观看到的是空镜，在根据备选时间点确定目标时间点时，针对每个备选时间点，基于备选时间点从待处理视频中获取预设时长的待定视频片段，待定视频片段的起始点是备选时间点，待定视频片段的终止点是基于备选时间点和预设时长确定的。然后，对待定视频片段进行编码，得到待定视频片段对应的编码序列，并基于编码序列对待定视频片段进行空镜判断，得到判断结果。接着，根据判断结果确定目标时间点。若判断结果指示待定视频片段为空镜，则从多个备选时间点中剔除待定视频片段对应的备选时间点，得到目标时间点。其中，预设时长可以是根据实际需求设置的，例如可以设置为5s。

需要说明的是，本申请实施例在进行分镜判断时，可以利用分镜计算过程中SwinTransformer输出的视频帧图像的向量表示得到编码序列，基于Swin Transformer得到编码序列的方式可以参照图4、图7对应的实施例，此处不再详细介绍。以预设时长是5s为例，参见图14所示，本申请实施例可以针对每个备选时间点，从待处理视频中获取备选时间点后5s的待定视频片段，对备选时间点后5s的待定视频片段进行编码，然后生成一个编码序列。因为空镜的特征表现不是只存在于一两帧，而是一个长时的存在，所以这里选用每相邻的多个视频帧图像（例如10个视频帧图像）来作为一个特征块，作为一个长时特征信息输入到二维（Tow-Dimensional，2D）卷积神经网络（即2D CNN）中进行计算，最后经过一个softmax来对该多个视频帧图像是否存在空镜来做出判断。以上述每相邻的10个视频帧图像作为一个特征块为例，每个特征块对应一个是否存在空镜的判断结果，进而基于所有特征块对应的判断结果，得到最终的判断结果。通常情况下，若存在一个特征块对应的判断结果指示相邻的10个视频帧图像中存在空镜，则确定待定视频片段为空镜。

需要说明的是，空镜判断也可以是在提出第一时间点得到第二时间点后，继续使用空镜判断，从第二时间点中筛选不存在空镜的时间点，具体实现方式可以参见图14对应的实施例，只不过此时使用的备选时间点是提出第一时间点后的第二时间点，此处不再详细介绍。

上述方式复用了分镜计算中视频帧图像的向量表示来进行空镜判断，从而能够判断出当前备选时间点位周围一定时间内是否出现大范围的空镜，从而能够对备选时间点进行进一步的筛选，提升整个目标时间点附近的看点内容质量，避免出现目标时间点附近存在长时间空镜导致的内容质量下降问题。

接下来，将以待处理视频是影视剧的视频、对象交互数据是弹幕数据，对本申请实施例提供的视频处理方法的整体架构流程进行介绍。该视频处理方法主要可以分为粗筛和精确筛选两个部分，参见图15所示。首先是使用输入影视剧的视频，针对该视频对应的视频帧序列，基于改进型的Swin Transformer进行分镜计算，分镜计算时首先确定分镜分界线，然后根据分镜分界线将整个视频划分为多个分镜。多个分镜可以用分镜信息来体现，分镜信息可以包括每个分镜的起止时间，从而能够利用弹幕数据对分镜进行粗筛，将低热度的分镜进行剔除，针对剩余分镜进行精确筛选。

精确筛选部分是针对于每个分镜进行计算的，能够在粗筛出来的分镜中计算定位出需要的高质量目标时间点。精确筛选部分主要分为人脸识别、人声识别、弹幕数据的峰值以及空镜判断四个模块。其中，人脸识别是通过对分镜中的每一视频帧图像进行人脸检测，然后结合演员表，通过检测到的人脸图像进行人脸识别，就能够得到在分镜中主要角色出现的时间点。同时对视频的音频序列进行人声识别，对音频序列进行毫秒级别的分类，从而能够判断出分镜中出现人声的音频片段。结合人脸识别的第一识别结果和人声识别的第二识别结果就能够定位出主要角色出现并且有人声的目标时间点。其中，弹幕数据的峰值是视频播放平台基于该影视剧的视频所对应的弹幕数据曲线，确定出该分镜所在时间段内的峰值。经过使用上述两个时间点的综合判定后，能够在影视剧的视频中定位出很多较高质量的备选时间点。然后在备选时间点后预设时长内进行空镜的判断，根据判断结果就能够剔除掉存在大量空镜或者无意义镜头的时间点，保障目标时间点后的看点质量。经过这几个步骤的筛选后，就能够在视频中定位出适合短视频剪辑的高质量剪辑候选入点，或者定位出适合跳转的智能兴趣点。

本申请实施例使用一种基于多层次（视频内容和对象交互数据串行判断）多模态数据（人脸识别的第一识别结果和人声识别的第二识别结果）的目标时间点的定位方法，通过使用输入视频的多模态数据加上弹幕数据，共同来进行对目标时间点的定位和筛选，从而为剪辑任务以及在长视频平台提供能够快速进入视频看点且吸引用户观看兴趣的短视频剪辑高质量剪辑候选入点，极大的提升短视频的开片时间内容质量，同时为在线观看提供精准的看点跳转时间点（即智能兴趣点）。

需要说明的是，本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

基于图2对应实施例提供的视频处理方法，本申请实施例还提供一种视频处理装置1600。参见图16所示，所述视频处理装置1600包括获取单元1601、分段单元1602、确定单元1603和识别单元1604：

所述获取单元1601，用于获取待处理视频和所述待处理视频在视频播放平台的对象交互数据；

所述分段单元1602，用于对所述待处理视频进行分段处理，得到多个视频片段；

所述确定单元1603，用于基于所述多个视频片段中每个视频片段对应的对象交互数据，从所述多个视频片段中确定候选视频片段；

所述识别单元1604，用于对所述候选视频片段包括的每个视频帧图像进行视频内容识别，得到第一识别结果，每个视频帧图像的第一识别结果用于指示所述视频帧图像是否包括目标内容；

所述确定单元1603，还用于基于所述第一识别结果，从所述候选视频片段中确定出现所述目标内容的备选时间点；

所述确定单元1603，还用于根据所述备选时间点确定目标时间点。

在一种可能的实现方式中，所述多个视频片段为多个分镜，所述分段单元1602，用于：

获取所述待处理视频的视频帧序列，所述视频帧序列中包括多个按照时间顺序进行排列的视频帧图像；

针对所述视频帧序列中任意相邻的两个视频帧图像，计算所述相邻的两个视频帧图像之间的相关度；

若所述相邻的两个视频帧图像之间的相关度低于相关度阈值，将所述相邻的两个视频帧图像对应的分帧时间点确定为相邻的两个分镜之间的分镜分界线；

基于所述分镜分界线将所述待处理视频划分为所述多个分镜。

在一种可能的实现方式中，所述相邻的两个视频帧图像分别是第i个视频帧图像和第i+1个视频帧图像，i为正整数且i小于所述视频帧序列中视频帧图像的数量，所述分段单元1602，用于：

基于第一特征编码网络对所述第i个视频帧图像进行特征编码，得到所述第i个视频帧图像的第一向量表示，以及基于第二特征编码网络对所述第i+1个视频帧图像进行特征编码，得到所述第i+1个视频帧图像的第二向量表示；所述第一特征编码网络的网络结构与所述第二特征编码网络的网络结构相同；

基于所述第一向量表示和所述第二向量表示计算所述第i个视频帧图像和所述第i+1个视频帧图像之间的相关度。

在一种可能的实现方式中，所述第一特征编码网络和所述第二特征编码网络分别包括n个特征编码子网络，所述分段单元1602，用于：

基于所述第一特征编码网络对所述第i个视频帧图像进行特征编码，获取所述第一特征编码网络包括的n个特征编码子网络分别输出的第一向量表示；

基于所述第二特征编码网络对所述第i+1个视频帧图像进行特征编码，获取所述第二特征编码网络包括的n个特征编码子网络分别输出的第二向量表示；

根据所述第一特征编码网络中第j个特征编码子网络输出的第一向量表示和所述第二特征编码网络中第j个特征编码子网络输出的第二向量表示，计算所述第i个视频帧图像和所述第i+1个视频帧图像之间的第j个相关度，j=1、2、……、n；

对计算得到的n个相关度进行加权求和，得到所述第i个视频帧图像和所述第i+1个视频帧图像之间的相关度。

在一种可能的实现方式中，所述确定单元1603，用于：

获取所述每个视频片段内所述对象交互数据的数量；

将所述多个视频片段中对象交互数据的数量满足预设条件的视频片段确定为所述候选视频片段。

在一种可能的实现方式中，所述目标内容为目标人脸，所述识别单元1604，用于：

针对所述候选视频片段包括的每个视频帧图像，对所述视频帧图像进行人脸检测，并基于检测结果从所述视频帧图像中截取人脸图像；

对所述人脸图像进行特征提取得到所述人脸图像的第三向量表示；

基于所述第三向量表示进行身份识别，得到所述第一识别结果。

在一种可能的实现方式中，所述识别单元1604，用于：

基于所述待处理视频的对象列表，从人脸库中获取所述对象列表对应的人脸向量表示集，所述人脸向量表示集中包括所述对象列表中不同对象的人脸向量表示；

将所述第三向量表示与所述人脸向量表示集中的人脸向量表示进行匹配，确定所述第三向量表示所对应的对象；

基于所述第三向量表示所对应的对象确定所述第一识别结果。

在一种可能的实现方式中，所述目标内容为目标人脸，所述获取单元1601，还用于：

获取所述待处理视频的音频序列，所述音频序列中包括多个按照时间顺序进行排列的音频片段；

所述识别单元1604，还用于针对所述音频序列中每个音频片段，对所述音频片段进行人声识别，得到第二识别结果，所述第二识别结果用于指示所述音频片段中是否出现人声；

所述识别单元1604，用于：

基于所述第一识别结果和所述第二识别结果，从所述候选视频片段中确定出现目标人脸和人声的备选时间点。

在一种可能的实现方式中，所述识别单元1604，用于：

通过一维卷积层对所述音频片段进行特征提取得到一维编码特征；

对所述一维编码特征进行维度转换得到第一特征图谱；

对所述音频片段进行频域变换得到所述音频片段对应的频谱图；

通过二维卷积层对所述音频片段对应的频谱图进行特征提取得到第二特征图谱；

对所述第一特征图谱和所述第二特征图谱进行融合得到所述音频片段的音频特征；

基于所述音频特征对所述音频片段进行人声识别，得到所述第二识别结果。

在一种可能的实现方式中，所述备选时间点的数量为多个，所述确定单元1603，用于：

获取所述待处理视频的对象交互数据曲线，所述对象交互数据曲线用于指示所述待处理视频中不同时间点的对象交互数据的数量；

从多个所述备选时间点中剔除第一时间点得到第二时间点，所述第一时间点是所述对象交互曲线中不属于上升时间段的备选时间点，在所述上升时间段中，所述对象交互数据的数量随着时间点的增加而增加；

基于所述第二时间点确定所述目标时间点。

针对每个备选时间点，基于所述备选时间点从所述待处理视频中获取预设时长的待定视频片段，所述待定视频片段的起始点是所述备选时间点，所述待定视频片段的终止点是基于所述备选时间点和所述预设时长确定的；

对所述待定视频片段进行编码，得到所述待定视频片段对应的编码序列；

基于所述编码序列对所述待定视频片段进行空镜判断，得到判断结果；

若所述判断结果指示所述待定视频片段为空镜，从多个所述备选时间点中剔除所述待定视频片段对应的备选时间点，得到所述目标时间点。

在一种可能的实现方式中，所述装置还包括标注单元：

所述标注单元，用于采用预设标识符在所述待处理视频的播放进度条中标注所述目标时间点；

或者，所述确定单元1603，还用于将所述目标时间点确定为剪辑候选入点。

由上述技术方案可以看出，在需要从待处理视频中确定目标时间点时，可以获取待处理视频和待处理视频在视频播放平台的对象交互数据。对象交互数据是对象基于待处理视频在视频播放平台上进行交互产生的数据，对象交互数据可以与待处理视频的视频片段相对应，从而在一定程度上反映用户对视频片段的关注度、感兴趣程度。故可以对待处理视频进行分段处理，得到多个视频片段，进而基于多个视频片段中每个视频片段对应的对象交互数据，从多个视频片段中确定候选视频片段，实现基于对象交互数据对视频片段进行粗筛。然后，结合视频内容进一步从粗筛后的视频片段中细筛目标时间点，具体的，可以对候选视频片段包括的每个视频帧图像进行视频内容识别，得到第一识别结果。每个视频帧图像的第一识别结果用于指示视频帧图像是否包括目标内容，目标内容通常为视频片段中比较有看点的视频内容，可以吸引用户观看，故可以基于第一识别结果从候选视频片段中确定出现目标内容的备选时间点，进而根据备选时间点确定目标时间点，此时目标时间点对应的视频内容是用户比较感兴趣且比较有看点的时间点，能够吸引用户观看。可见，本申请可以基于对象交互数据和视频内容自动化确定用户比较感兴趣且比较有看点的目标时间点，从而提升目标时间点的确定效率，并且能够避免人为主观感受的差异，导致最终定位得到的目标时间点的差异和不可复用性，提高目标时间点确定的准确性。

本申请实施例还提供了一种计算机设备，该计算机设备可以执行视频处理方法。该计算机设备可以是终端，以终端为智能手机为例：

图17示出的是与本申请实施例提供的智能手机的部分结构的框图。参考图17，智能手机包括：射频（英文全称：Radio Frequency，英文缩写：RF）电路1710、存储器1720、输入单元1730、显示单元1740、传感器1750、音频电路1760、无线保真（英文缩写：WiFi）模块1770、处理器1780、以及电源1790等部件。输入单元1730可包括触控面板1731以及其他输入设备1732，显示单元1740可包括显示面板1741，音频电路1760可以包括扬声器1761和传声器1762。可以理解的是，图17中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储器1720可用于存储软件程序以及模块，处理器1780通过运行存储在存储器1720的软件程序以及模块，从而执行智能手机的各种功能应用以及数据处理。存储器1720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据智能手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器1720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1780是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器1720内的软件程序和/或模块，以及调用存储在存储器1720内的数据，执行智能手机的各种功能和处理数据。可选的，处理器1780可包括一个或多个处理单元；优选的，处理器1780可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1780中。

在本实施例中，智能手机中的处理器1780可以执行本申请各实施例提供的视频处理方法。

本申请实施例提供的计算机设备还可以是服务器，请参见图18所示，图18为本申请实施例提供的服务器1800的结构图，服务器1800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器，例如中央处理器（Central Processing Units，简称CPU）1822，以及存储器1832，一个或一个以上存储应用程序1842或数据1844的存储介质1830（例如一个或一个以上海量存储设备）。其中，存储器1832和存储介质1830可以是短暂存储或持久存储。存储在存储介质1830的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1822可以设置为与存储介质1830通信，在服务器1800上执行存储介质1830中的一系列指令操作。

服务器1800还可以包括一个或一个以上电源1826，一个或一个以上有线或无线网络接口1850，一个或一个以上输入输出接口1858，和/或，一个或一个以上操作系统1841，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM等等。

在本实施例中，服务器1800中的中央处理器1822可以执行本申请各实施例提供的视频处理方法。

根据本申请的一个方面，提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行前述各个实施例所述的视频处理方法。

根据本申请的一个方面，提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述实施例各种可选实现方式中提供的方法。

上述各个附图对应的流程或结构的描述各有侧重，某个流程或结构中没有详述的部分，可以参见其他流程或结构的相关描述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是终端，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，简称ROM）、随机存取存储器（Random Access Memory，简称RAM）、磁碟或者光盘等各种可以存储计算机程序的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术成员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

对所述待处理视频进行分段处理，得到多个视频片段；

根据所述备选时间点确定目标时间点。

2.根据权利要求1所述的方法，其特征在于，所述多个视频片段为多个分镜，所述对所述待处理视频进行分段处理，得到多个视频片段，包括：

3.根据权利要求2所述的方法，其特征在于，所述相邻的两个视频帧图像分别是第i个视频帧图像和第i+1个视频帧图像，i为正整数且i小于所述视频帧序列中视频帧图像的数量，所述计算所述相邻的两个视频帧图像之间的相关度，包括：

4.根据权利要求3所述的方法，其特征在于，所述第一特征编码网络和所述第二特征编码网络分别包括n个特征编码子网络，所述基于第一特征编码网络对所述第i个视频帧图像进行特征编码，得到所述第i个视频帧图像的第一向量表示，包括：

所述基于第二特征编码网络对所述第i+1个视频帧图像进行特征编码，得到所述第i+1个视频帧图像的第二向量表示，包括：

所述基于所述第一向量表示和所述第二向量表示计算所述第i个视频帧图像和所述第i+1个视频帧图像之间的相关度，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述多个视频片段中每个视频片段对应的对象交互数据，从所述多个视频片段中确定候选视频片段，包括：

获取所述每个视频片段内所述对象交互数据的数量；

6.根据权利要求1所述的方法，其特征在于，所述目标内容为目标人脸，所述对所述候选视频片段包括的每个视频帧图像进行视频内容识别，得到第一识别结果，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述第三向量表示进行身份识别，得到所述第一识别结果，包括：

8.根据权利要求1所述的方法，其特征在于，所述目标内容为目标人脸，所述方法还包括：

针对所述音频序列中每个音频片段，对所述音频片段进行人声识别，得到第二识别结果，所述第二识别结果用于指示所述音频片段中是否出现人声；

所述基于所述第一识别结果，从所述候选视频片段中确定出现所述目标内容的备选时间点，包括：

基于所述第一识别结果和所述第二识别结果，从所述候选视频片段中确定出现所述目标人脸和人声的备选时间点。

9.根据权利要求8所述的方法，其特征在于，所述对所述音频片段进行人声识别，得到第二识别结果，包括：

对所述一维编码特征进行维度转换得到第一特征图谱；

10.根据权利要求1-9任一项所述的方法，其特征在于，所述备选时间点的数量为多个，所述根据所述备选时间点确定目标时间点，包括：

基于所述第二时间点确定所述目标时间点。

11.根据权利要求1-9任一项所述的方法，其特征在于，所述备选时间点的数量为多个，所述根据所述备选时间点确定目标时间点，包括：

12.根据权利要求1-9任一项所述的方法，其特征在于，所述方法还包括：

采用预设标识符在所述待处理视频的播放进度条中标注所述目标时间点；

或者，将所述目标时间点确定为剪辑候选入点。

13.一种视频处理装置，其特征在于，所述装置包括获取单元、分段单元、确定单元和识别单元：

14.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述处理器用于根据所述计算机程序中的指令执行权利要求1-12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序当被处理器执行时使所述处理器执行权利要求1-12任一项所述的方法。