CN116546239A

CN116546239A - 视频处理方法、装置及计算机可读存储介质

Info

Publication number: CN116546239A
Application number: CN202310382329.8A
Authority: CN
Inventors: 盛尧; 谢海涛; 张佳; 费有文; 李义彪
Original assignee: Cctv International Network Co ltd
Current assignee: Cctv International Network Co ltd
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-08-04

Abstract

本发明公开了一种视频处理方法、装置及计算机可读存储介质。该方法包括：从第一目标视频中识别预设的多个目标观看对象，其中，第一目标视频为对当前直播的直播场地进行全景拍摄得到的；确定每个目标观看对象在第一目标视频中的位置信息；基于每个目标观看对象对应的位置信息，对第一目标视频所包含的图像进行图像内容提取处理，得到与每个目标观看对象对应的第二目标视频，以向观看当前直播的当前对象展示第二目标视频所对应的视频内容，其中，不同的第二目标视频包括不同的目标观看对象。本发明解决了相关技术中通过人工追踪拍摄直播中的对象造成的人力成本高的技术问题。

Description

视频处理方法、装置及计算机可读存储介质

技术领域

本发明涉及信息技术领域，具体而言，涉及一种视频处理方法、装置及计算机可读存储介质。

背景技术

直播是根据现场事件的发生和发展进程，同步制作和传送相关媒体信息的过程，其形式可分为文字图片直播、视音频直播等。直播可以让观众获得实时参与感，且有效地加快了信息传播。然而，现有的直播视频通常为所有的用户展现统一的直播画面，若想要满足终端用户根据个人喜好观看不同视频播放内容(例如：观看指定对象等)的需求，则需要通过人工追踪拍摄多种不同的画面，从而具有人力成本高的问题。针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视频处理方法、装置及计算机可读存储介质，以至少解决相关技术中通过人工追踪拍摄直播中的对象造成的人力成本高的技术问题。

根据本发明实施例的一个方面，提供了一种视频处理方法，包括：从第一目标视频中识别预设的多个目标观看对象，其中，第一目标视频为对当前直播的直播场地进行全景拍摄得到的；确定每个目标观看对象在第一目标视频中的位置信息；基于每个目标观看对象对应的位置信息，对第一目标视频所包含的图像进行图像内容提取处理，得到与每个目标观看对象对应的第二目标视频，以向观看当前直播的当前对象展示第二目标视频所对应的视频内容，其中，不同的第二目标视频包括不同的目标观看对象。

进一步地，视频处理方法还包括：在从第一目标视频中识别预设的多个目标观看对象之前，基于目标观看对象对应的图像数据，构建目标数据集；基于目标数据集训练初始对象检测模型，得到目标对象检测模型，其中，目标对象检测模型用于从第一目标视频中识别目标观看对象。

进一步地，视频处理方法还包括：基于位置信息在第一目标视频所包含的图像中确定与每个目标观看对象对应的待截取区域；基于与每个目标观看对象对应的待截取区域所对应的图像，确定与每个目标观看对象对应的第二目标视频。

进一步地，视频处理方法还包括：在得到与每个目标观看对象对应的第二目标视频之后，确定当前直播的直播视频类型；基于直播视频类型确定待分析数据的数据类型；分析第一目标视频和/或第二目标视频，得到与数据类型对应的至少一个目标数据，以向观看当前直播的当前对象展示第二目标视频所对应的视频内容，并将至少一个目标数据展示给当前对象，其中，目标数据用于表征当前直播的直播内容。

进一步地，视频处理方法还包括：在得到与每个目标观看对象对应的第二目标视频之后，若第一目标视频的视频数量大于或等于2个，则基于预设的多个导播风格，对每个目标对象所对应的多个第二目标视频所包含的图像进行图像提取处理，得到每个第二目标视频所对应的第三目标视频，以将多个第三目标视频所对应的视频内容播放给当前对象，其中，不同的导播风格对应不同的图像提取方式。

进一步地，视频处理方法还包括：在得到每个第二目标视频所对应的第三目标视频之后，确定与每个导播风格对应的目标播放顺序，以基于目标播放顺序将多个第三目标视频对应的视频内容播放给当前对象。

进一步地，视频处理方法还包括：在得到与每个目标观看对象对应的第二目标视频之后，获取当前对象的历史交互信息，其中，历史交互信息为当前对象观看历史直播的视频画面时与目标终端设备的交互信息，目标终端设备用于播放历史直播的视频画面；基于历史交互信息，确定当前对象的观看类型，其中，观看类型表征当前对象对观看内容的喜好程度；基于观看类型，确定目标剪辑方式；基于目标剪辑方式对第二目标视频进行剪辑，得到待推荐视频，以将待推荐视频推荐给当前对象。

根据本发明实施例的另一方面，还提供了一种视频处理装置，包括：识别模块，用于从第一目标视频中识别预设的多个目标观看对象，其中，第一目标视频为对当前直播的直播场地进行全景拍摄得到的；第一确定模块，用于确定每个目标观看对象在第一目标视频中的位置信息；第一处理模块，用于基于每个目标观看对象对应的位置信息，对第一目标视频所包含的图像进行图像内容提取处理，得到与每个目标观看对象对应的第二目标视频，以向观看当前直播的当前对象展示第二目标视频所对应的视频内容，其中，不同的第二目标视频包括不同的目标观看对象。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述的视频处理方法。

根据本发明实施例的另一方面，还提供了一种电子设备，电子设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现用于运行程序，其中，程序被设置为运行时执行上述的视频处理方法。

在本发明实施例中，采用对全景拍摄到的视频进行处理，以得到包括不同目标观看对象的多个视频的方式，通过从第一目标视频中识别预设的多个目标观看对象，然后确定每个目标观看对象在第一目标视频中的位置信息，接着基于每个目标观看对象对应的位置信息，对第一目标视频所包含的图像进行图像内容提取处理，得到与每个目标观看对象对应的第二目标视频，从而以向观看当前直播的当前对象展示第二目标视频所对应的视频内容，其中，第一目标视频为对当前直播的直播场地进行全景拍摄得到的，不同的第二目标视频包括不同的目标观看对象。

在上述过程中，通过每个目标观看对象对应的位置信息，对第一目标视频所包含的图像进行处理，实现了对包括不同的目标观看对象的第二目标视频的获取，从而便于满足终端用户根据个人喜好观看不同视频播放内容的需求，避免了通过人工追踪拍摄直播中的多个对象造成的人力成本高的问题，降低了人力成本。此外，由于第一目标视频为对当前直播的直播场地进行全景拍摄得到的，因此，通过从第一目标视频中识别目标观看对象，可以有效避免因拍摄方向的限制，无法从视频画面中识别出目标观看对象的问题。

由此可见，本申请所提供的方案达到了对全景拍摄到的视频进行处理，以得到包括不同目标观看对象的多个视频的目的，从而实现了降低人力成本的技术效果，进而解决了相关技术中通过人工追踪拍摄直播中的对象造成的人力成本高的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的视频处理方法的流程示意图；

图2是根据本发明实施例的一种可选的确定第二目标视频的流程示意图；

图3是根据本发明实施例的一种可选的确定目标数据的流程示意图；

图4是根据本发明实施例的一种可选的视频处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于播放的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

实施例1

本发明提供了一种视频处理方法的实施例，需要说明的是，在附图中展示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中展示出了逻辑顺序，但是在某些情况下，也支持以不同于此处的顺序执行所展示出或描述的步骤。

如图1所示，是根据本发明实施例提供的一种可选的视频处理方法的流程示意图，该方法包括如下步骤：

步骤S102，从第一目标视频中识别预设的多个目标观看对象，其中，第一目标视频为对当前直播的直播场地进行全景拍摄得到的。

在步骤S102中，可以通过电子设备、应用系统、服务器等装置从第一目标视频中识别预设的多个目标观看对象，在本申请中，通过视频处理系统从第一目标视频中识别预设的多个目标观看对象。可选的，视频处理系统可以从预设的多个观看对象中确定与当前直播的直播场地对应的多个目标观看对象。其中，目标观看对象为当前直播中的能够被拍摄到的对象，目标观看对象可以是人，可以是动物，也可以是物品等。

进一步地，当确定了目标观看对象之后，视频处理系统可以根据各目标观看对象的对象特征，从至少一个第一目标视频中的每个第一目标视频中均识别出前述的多个目标观看对象。其中，在本实施例中，第一目标视频可以是一个，也可以是多个，第一目标视频为设置于当前直播的直播场地的摄像机对该直播场地进行全景拍摄得到的，当第一目标视频存在多个时，各第一目标视频由不同的摄像机拍摄得到，前述的摄像机可以是VR(VirtualReality，虚拟现实技术)摄像机，第一目标视频可以是VR视频，即每个第一目标视频中均会包括前述的多个目标观看对象。

需要说明的是，由于第一目标视频为对当前直播的直播场地进行全景拍摄得到的，因此，通过从第一目标视频中识别目标观看对象，可以有效避免因拍摄方向的限制，无法从视频画面中识别出目标观看对象的问题，从而避免了通过人工追踪拍摄直播中的多个对象造成的人力成本高的问题。

步骤S104，确定每个目标观看对象在第一目标视频中的位置信息。

在步骤S104中，首先，对确定某一目标观看对象在第一目标视频中的位置信息的方法进行说明。具体地，视频处理系统可以基于目标观看对象在某一第一目标视频中的所处位置，确定该目标观看对象在该第一目标视频中的位置信息，从而可以基于前述方法，确定目标观看对象在至少一个第一目标视频中的每个第一目标视频中的位置信息。其中，前述的位置信息用于表征目标观看对象在第一目标视频中所包含的每个图像中所处的位置，也即相当于目标观看对象在第一目标视频中的实时位置信息，其可以是像素坐标。

进一步地，可以依照前述的确定某一目标观看对象在第一目标视频中的位置信息的方法，实现对每个目标观看对象在第一目标视频中的位置信息的确定。

需要说明的是，通过确定每个目标观看对象的位置信息，以便于对后续的第一目标视频进行处理。

步骤S106，基于每个目标观看对象对应的位置信息，对第一目标视频所包含的图像进行图像内容提取处理，得到与每个目标观看对象对应的第二目标视频，以向观看当前直播的当前对象展示第二目标视频所对应的视频内容，其中，不同的第二目标视频包括不同的目标观看对象。

在步骤S106中，首先，对确定某一目标观看对象所对应的第二目标视频的方法进行说明。具体地，视频处理系统可以基于目标观看对象在图像中的位置信息，对当前处理的第一目标视频所包含的图像均进行图像内容提取处理，该图像内容提取处理可以是对图像中的部分区域进行截取，从而基于截取后的图像确定与该第一目标视频对应的第二目标视频。进而可以基于前述方法，确定目标观看对象与至少一个第一目标视频中的每个第一目标视频所对应的第二目标视频，也即确定目标观看对象对应的至少一个第二目标视频。

进一步地，可以依照前述的确定某一目标观看对象所对应的第二目标视频的方法，确定每个目标观看对象对应的每个第一目标视频所对应的第二目标视频，也即确定每个观看对象对应的至少一个第二目标视频。

进一步地，当获取了每个目标观看对象对应的至少一个第二目标视频后，视频处理系统可以基于某一目标观看对象在每个第二目标视频中的像素大小，实时从至少一个第二目标视频中选出能更清晰的展示该目标观看对象的视频，以用于后续在当前对象想要观看该目标观看对象时，将前述所选出的视频对应的视频内容展示给当前对象。可选的，在前述确定待播放的第二目标视频的过程中，视频处理系统也可以选出唯一且固定的第二目标视频，可选的，视频处理系统还可以根据预设的播放规则对至少一个第二目标视频切换展示。需要说明的是，对于多个目标观看对象中的任一目标观看对象，均可以依照前述的方法确定与目标观看对象对应的待播放的第二目标视频，故此处不再赘述。其中，前述的当前对象为正在观看直播的用户。

更进一步地，当确定了每个目标观看对象对应的待播放的第二目标视频之后，视频处理系统可以对待播放的第二目标视频进行编码处理，并发送给视频播放系统，通过视频播放系统解码后，以由视频播放系统将不同目标观看对象对应的第二目标视频所对应的视频内容展示当前对象，以供当前对象选择。

需要说明的是，通过每个目标观看对象对应的位置信息，对第一目标视频所包含的图像进行处理，实现了对包括不同的目标观看对象的第二目标视频的获取，从而便于满足终端用户根据个人喜好观看不同视频播放内容的需求。

基于上述步骤S102至步骤S106所限定的方案，可以获知，在本发明实施例中，采用对全景拍摄到的视频进行处理，以得到包括不同目标观看对象的多个视频的方式，通过从第一目标视频中识别预设的多个目标观看对象，然后确定每个目标观看对象在第一目标视频中的位置信息，接着基于每个目标观看对象对应的位置信息，对第一目标视频所包含的图像进行图像内容提取处理，得到与每个目标观看对象对应的第二目标视频，从而以向观看当前直播的当前对象展示第二目标视频所对应的视频内容，其中，第一目标视频为对当前直播的直播场地进行全景拍摄得到的，不同的第二目标视频包括不同的目标观看对象。

容易注意到的是，在上述过程中，通过每个目标观看对象对应的位置信息，对第一目标视频所包含的图像进行处理，实现了对包括不同的目标观看对象的第二目标视频的获取，从而便于满足终端用户根据个人喜好观看不同视频播放内容的需求，避免了通过人工追踪拍摄直播中的多个对象造成的人力成本高的问题，降低了人力成本。此外，由于第一目标视频为对当前直播的直播场地进行全景拍摄得到的，因此，通过从第一目标视频中识别目标观看对象，可以有效避免因拍摄方向的限制，无法从视频画面中识别出目标观看对象的问题。

在一种可选的实施例中，在从至少一个第一目标视频中识别目标观看对象之前，视频处理系统可以基于目标观看对象对应的图像数据，构建目标数据集，从而基于目标数据集训练初始对象检测模型，得到目标对象检测模型，其中，目标对象检测模型用于从第一目标视频中识别目标观看对象。

可选的，在训练过程中，视频处理系统可以先获取目标观看对象对应的图像数据，并进行标注，以构建目标数据集。之后，视频处理系统可以确定初始对象检测模型，并基于目标数据集，调试训练参数，从而得到目标对象检测模型。其中，前述的初始对象检测模型可以是相关技术中具有识别对象功能的神经网络模型。可选的，视频处理系统可以依据不同的目标观看对象类型，训练得到不同的对象检测模型，例如，熊猫基地中的熊猫检测模型，球赛现场的球类检测模型，运动员检测模型等，且在训练过程中，部分参数可以结合相关专家经验进行设置，例如，熊猫在视频中的黄金分割点能够实现更优的呈现。

需要说明的是，通过预先训练目标对象检测模型，可以提高对第一目标视频中观看对象的识别效率与准确度。

在一种可选的实施例中，在基于每个目标观看对象对应的位置信息，对第一目标视频所包含的图像进行图像内容提取处理，得到与每个目标观看对象对应的第二目标视频的过程中，如图2所示，视频处理系统可以执行如下步骤：

步骤S202：基于位置信息在第一目标视频所包含的图像中确定与每个目标观看对象对应的待截取区域。

可选的，对于某一目标观看对象而言，视频处理系统可以预设截取区域的区域范围大小，当视频处理系统获取到该目标观看对象的位置信息时，视频处理系统可以以该位置信息作为预设截取区域的中心，从而确定每个第一目标视频所包含的图像中该目标观看对象对应的待截取区域。进而可以基于前述方法，确定与每个目标观看对象对应的待截取区域。

步骤S204：基于与每个目标观看对象对应的待截取区域所对应的图像，确定与每个目标观看对象对应的第二目标视频。

可选的，视频处理系统可以基于第一目标视频对应的待截取区域对第一目标视频所包含的图像进行裁剪，从而得到裁剪后的图像，进而可以基于裁剪后的图像确定与该第一目标视频对应的第二目标视频。其中，裁剪后的图像组成的第二目标视频为平面视频，为了满足当前对象在不同设备端的观看需求，视频处理系统处理得到的第二目标视频的视频比例可以是16:9，也可以是9:16，还可以是其它预设比例。且需要说明的是，在对第一目标视频进行裁剪前，或是在从第一目标视频中识别出目标观看对象之前，可以对第一目标视频对应的视频内容进行图像处理，以将VR视频转换为平面视频。

需要说明的是，通过基于位置信息待截取区域，实现了对第一目标视频的有效截取，进而可以有效满足用户需求。

在一种可选的实施例中，在得到与每个目标观看对象对应的第二目标视频之后，如图3所示，视频处理系统可以基于动态数据捕捉与智能画像分析功能，实现基于直播画面对被拍摄的目标进行智能化的数据分析。具体地，视频处理系统可以执行如下步骤：

步骤S302：确定当前直播的直播视频类型。

可选的，视频处理系统可以基于当前直播的直播信息确定直播视频类型，以当前直播为足球直播为例，视频处理系统可以确定当前直播的直播视频类型为足球赛事。

步骤S304：基于直播视频类型确定待分析数据的数据类型。

可选的，前述的待分析数据的数据类型与直播视频类型的对应关系可以是预先设置的，也可以是视频处理系统基于互联网等平台中的大数据所确定的，例如，当当前直播的直播视频类型为足球时，可以基于直播视频类型确定待分析数据的数据类型为球员的移动距离、奔跑速度、活动区域等数据信息。

步骤S306：分析第一目标视频和/或第二目标视频，得到与数据类型对应的至少一个目标数据，以向观看当前直播的当前对象展示第二目标视频所对应的视频内容，并将至少一个目标数据展示给当前对象，其中，目标数据用于表征当前直播的直播内容。

可选的，视频处理系统可以基于第一目标视频所包含的图像，和/或，第二目标视频所包含的图像的图像信息，得到与数据类型对应的具体数值(也即目标数据)。

进一步地，视频处理系统可以将目标数据一并发送给视频播放系统，以通过视频播放系统将目标数据浮动显示在第二目标视频所对应的视频内容上，或是可以基于目标数据自动生成分析报告，以通过视频播放系统显示给目标对象，从而既可为专业球迷提供观赛辅助，也可以为球队教练复盘比赛，分析及优化比赛战术提供数据支持。

需要说明的是，分析第一目标视频和/或第二目标视频，得到目标数据，以在播放第二目标视频对应的视频内容的同时，显示相关的目标数据，可以便于用户更加直观、具体地了解直播内容，从而增加用户对直播的关注度，满足用户的沉浸式体验。

在一种可选的实施例中，在得到与每个目标观看对象对应的第二目标视频之后，若第一目标视频的视频数量大于或等于2个，则基于预设的多个导播风格，对每个目标对象所对应的多个第二目标视频所包含的图像进行图像提取处理，得到每个第二目标视频所对应的第三目标视频，以将多个第三目标视频所对应的视频内容播放给当前对象，其中，不同的导播风格对应不同的图像提取方式。

可选的，当直播场地上设置的摄像机数量大于或等于2个，也即第一目标视频的视频数量大于或等于2个时，视频处理系统可以设置导播风格。具体地，视频处理系统可以从预设存储区域中确定预设的多个导播风格，从而基于预设的导播风格对多个第二目标视频所包含的图像进行对应的图像提取处理，得到不同导播风格下，每个第二目标视频所对应的第三目标视频。之后，视频处理系统可以将不同导播风格对应的多个第三目标视频进行编码，发送至视频播放系统，然后由视频播放系统对各导播风格对应的多个第三目标视频进行解码，并根据当前对象所指定的目标导播风格，向当前对象播放与目标导播风格对应的多个第三目标视频对应的视频内容。其中，在向视频播放系统发送第三目标视频的过程中，视频处理系统可以先根据导播风格确定各第三目标视频的播放顺序，然后基于播放顺序向视频播放系统发送对应的第三目标视频，可选的，视频处理系统也可以依照预设的顺序向视频播放系统发送对应的第三目标视频。

其中，在基于预设的导播风格对多个第二目标视频所包含的图像进行对应的图像提取处理的过程中，可选的，视频处理系统可以预先建立“专家知识库”搜集多个导演的拍摄导播数据，然后训练AI导播模型，从而在确定了预设的导播风格之后，利用训练好的AI导播模型，确定与每个导播风格对应的目标图像提取方式，并基于目标图像提取方式对每个第二目标视频所包含的图像进行图像提取处理，得到在不同导播风格下，每个第二目标视频所对应的第三目标视频。其中，前述的图像提取处理可以是从各第二目标视频中提取多帧图像，例如，从某一目标观看对象对应的第一个第二目标视频中提取第1-10帧图像，并从该目标观看对象对应的第二个第二目标视频中提取第11-30帧图像等，前述的图像提取处理也可以是在从各第二目标视频中提取多帧图像之后，根据对应的导播风格，对至少一帧图像进行裁剪、滤镜等处理。

需要说明的是，由于每个导演在直播镜头的运用与画面的切换上都有自己独特的风格，且不同用户的喜好不同，因此，通过支持用户可任选不同的导演风格，打造符合用户喜爱的直播效果，可以进一步地提高与用户之间的交互性，提高用户体验以及对直播的关注度和兴趣度，同时，还避免了相关技术中需要人工切换画面达到对应的导播风格效果造成的人力成本高的问题。

在一种可选的实施例中，当直播场地上设置的摄像机数量为1个，也即第一目标视频的视频数量为1个时，根据实际应用的需求，视频处理系统同样可以设置导播风格，例如，在某一目标观看对象所对应的第二目标视频中，根据导播风格，在与导播风格对应的帧数时将画面切换为拍摄观众或拍摄场景的图像，故此处不再赘述。

在一种可选的实施例中，在得到每个第二目标视频所对应的第三目标视频之后，视频处理系统可以利用训练好的AI导播模型，基于目标导播风格，确定目标播放顺序，并按照目标播放顺序向视频播放系统发送对应的第三目标视频，以通过视频播放系统将多个第三目标视频对应的视频内容播放给当前对象。

需要说明的是，通过基于目标导播风格确定第三目标视频的播放顺序，使得最终向用户呈现的播放效果更加符合目标导播风格，从而便于进一步地提高用户体验。

在一种可选的实施例中，在得到与每个目标观看对象对应的第二目标视频之后，视频处理系统可以获取当前对象的历史交互信息，然后基于历史交互信息，确定当前对象的观看类型，并基于观看类型，确定目标剪辑方式，从而基于目标剪辑方式对第二目标视频进行剪辑，得到待推荐视频，以将待推荐视频推荐给当前对象。其中，观看类型表征当前对象对观看内容的喜好程度。

可选的，在直播过程中，视频处理系统可以通过视频播放系统，获取当前对象的点击操作、观看时长、点赞操作等历史交互信息，从而确定当前对象对不同类型的观看内容(如：搞笑片段、高能片段、结算片段等)的喜好程度，也即确定观看类型，之后，视频处理系统可以基于该观看类型，确定对当前对象正在观看的视频内容所对应的第二目标视频的目标剪辑方式，并基于目标剪辑方式对至少一个第二目标视频进行剪辑，得到待推荐视频，进而可以在当前时间通过视频播放系统推荐给当前对象，或是待当前直播结束后通过视频播放系统推荐给当前对象。其中，前述的剪辑方式中可以包括对视频中素材的筛选、加工编辑(如：添加字幕配音)等工作。

需要说明的是，通过基于用户喜好自动生成专属点播视频专辑，便于抓住用户心理热度，满足用户延续性的观看需求，从而进一步提高用户交互性与用户体验。

实施例2

本发明提供了一种视频处理装置的实施例，如图4所示，是根据本发明实施例的一种可选的视频处理装置的示意图，该装置包括：

识别模块401，用于从第一目标视频中识别预设的多个目标观看对象，其中，第一目标视频为对当前直播的直播场地进行全景拍摄得到的；

第一确定模块402，用于确定每个目标观看对象在第一目标视频中的位置信息；

第一处理模块403，用于基于每个目标观看对象对应的位置信息，对第一目标视频所包含的图像进行图像内容提取处理，得到与每个目标观看对象对应的第二目标视频，以向观看当前直播的当前对象展示第二目标视频所对应的视频内容，其中，不同的第二目标视频包括不同的目标观看对象；

需要说明的是，上述识别模块401、第一确定模块402、第一处理模块403对应于上述实施例中的步骤S102至步骤S106，三个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。

可选的，视频处理装置还包括：构建模块，用于基于目标观看对象对应的图像数据，构建目标数据集；训练模块，用于基于目标数据集训练初始对象检测模型，得到目标对象检测模型，其中，目标对象检测模型用于从第一目标视频中识别目标观看对象。

可选的，处理模块还包括：第一确定子模块，用于基于位置信息在第一目标视频所包含的图像中确定与每个目标观看对象对应的待截取区域；第二确定子模块，用于基于与每个目标观看对象对应的待截取区域所对应的图像，确定与每个目标观看对象对应的第二目标视频。

可选的，视频处理装置还包括：第二确定模块，用于确定当前直播的直播视频类型；第三确定模块，用于基于直播视频类型确定待分析数据的数据类型；分析模块，用于分析第一目标视频和/或第二目标视频，得到与数据类型对应的至少一个目标数据，以向观看当前直播的当前对象展示第二目标视频所对应的视频内容，并将至少一个目标数据展示给当前对象，其中，目标数据用于表征当前直播的直播内容。

可选的，视频处理装置还包括：第二处理模块，用于若第一目标视频的视频数量大于或等于2个，则基于预设的多个导播风格，对每个目标对象所对应的多个第二目标视频所包含的图像进行图像提取处理，得到每个第二目标视频所对应的第三目标视频，以将多个第三目标视频所对应的视频内容播放给当前对象，其中，不同的导播风格对应不同的图像提取方式。

可选的，视频处理装置还包括：第四确定模块，用于确定与每个导播风格对应的目标播放顺序，以基于目标播放顺序将多个第三目标视频对应的视频内容播放给当前对象。

可选的，视频处理装置还包括：获取模块，用于获取当前对象的历史交互信息，其中，历史交互信息为当前对象观看历史直播的视频画面时与目标终端设备的交互信息，目标终端设备用于播放历史直播的视频画面；第五确定模块，用于基于历史交互信息，确定当前对象的观看类型，其中，观看类型表征当前对象对观看内容的喜好程度；第六确定模块，用于基于观看类型，确定目标剪辑方式；剪辑模块，用于基于目标剪辑方式对第二目标视频进行剪辑，得到待推荐视频，以将待推荐视频推荐给当前对象。

实施例3

根据本发明实施例的另一方面，还提供了计算机可读存储介质，计算机可读存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述的视频处理方法。

实施例4

根据本发明实施例的另一方面，还提供了电子设备，电子设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现用于运行程序，其中，程序被设置为运行时执行上述的视频处理方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频处理方法，其特征在于，包括：

从第一目标视频中识别预设的多个目标观看对象，其中，所述第一目标视频为对当前直播的直播场地进行全景拍摄得到的；

确定每个目标观看对象在所述第一目标视频中的位置信息；

基于所述每个目标观看对象对应的位置信息，对所述第一目标视频所包含的图像进行图像内容提取处理，得到与每个目标观看对象对应的第二目标视频，以向观看当前直播的当前对象展示所述第二目标视频所对应的视频内容，其中，不同的第二目标视频包括不同的目标观看对象。

2.根据权利要求1所述的方法，其特征在于，在从第一目标视频中识别预设的多个目标观看对象之前，所述方法还包括：

基于所述目标观看对象对应的图像数据，构建目标数据集；

基于所述目标数据集训练初始对象检测模型，得到目标对象检测模型，其中，所述目标对象检测模型用于从所述第一目标视频中识别所述目标观看对象。

3.根据权利要求1所述的方法，其特征在于，基于所述每个目标观看对象对应的位置信息，对所述第一目标视频所包含的图像进行图像内容提取处理，得到与每个目标观看对象对应的第二目标视频，包括：

基于所述位置信息在所述第一目标视频所包含的图像中确定与所述每个目标观看对象对应的待截取区域；

基于与所述每个目标观看对象对应的待截取区域所对应的图像，确定与所述每个目标观看对象对应的第二目标视频。

4.根据权利要求1所述的方法，其特征在于，在得到与每个目标观看对象对应的第二目标视频之后，所述方法还包括：

确定当前直播的直播视频类型；

基于所述直播视频类型确定待分析数据的数据类型；

分析所述第一目标视频和/或所述第二目标视频，得到与所述数据类型对应的至少一个目标数据，以向观看当前直播的当前对象展示所述第二目标视频所对应的视频内容，并将所述至少一个目标数据展示给所述当前对象，其中，所述目标数据用于表征所述当前直播的直播内容。

5.根据权利要求1所述的方法，其特征在于，在得到与每个目标观看对象对应的第二目标视频之后，所述方法还包括：

若所述第一目标视频的视频数量大于或等于2个，则基于预设的多个导播风格，对每个目标对象所对应的多个第二目标视频所包含的图像进行图像提取处理，得到每个第二目标视频所对应的第三目标视频，以将多个第三目标视频所对应的视频内容播放给所述当前对象，其中，不同的导播风格对应不同的图像提取方式。

6.根据权利要求5所述的方法，其特征在于，在得到每个第二目标视频所对应的第三目标视频之后，所述方法还包括：

确定与每个导播风格对应的目标播放顺序，以基于所述目标播放顺序将所述多个第三目标视频对应的视频内容播放给所述当前对象。

7.根据权利要求1所述的方法，其特征在于，在得到与每个目标观看对象对应的第二目标视频之后，所述方法还包括：

获取当前对象的历史交互信息，其中，所述历史交互信息为所述当前对象观看历史直播的视频画面时与目标终端设备的交互信息，所述目标终端设备用于播放所述历史直播的视频画面；

基于所述历史交互信息，确定所述当前对象的观看类型，其中，所述观看类型表征所述当前对象对观看内容的喜好程度；

基于所述观看类型，确定目标剪辑方式；

基于所述目标剪辑方式对所述第二目标视频进行剪辑，得到待推荐视频，以将所述待推荐视频推荐给所述当前对象。

8.一种视频处理装置，其特征在于，包括：

识别模块，用于从第一目标视频中识别预设的多个目标观看对象，其中，所述第一目标视频为对当前直播的直播场地进行全景拍摄得到的；

第一确定模块，用于确定每个目标观看对象在所述第一目标视频中的位置信息；

第一处理模块，用于基于所述每个目标观看对象对应的位置信息，对所述第一目标视频所包含的图像进行图像内容提取处理，得到与每个目标观看对象对应的第二目标视频，以向观看当前直播的当前对象展示所述第二目标视频所对应的视频内容，其中，不同的第二目标视频包括不同的目标观看对象。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的视频处理方法。

10.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现用于运行程序，其中，所述程序被设置为运行时执行所述权利要求1至7任一项中所述的视频处理方法。