CN114363660A

CN114363660A - 视频合集确定方法、装置、电子设备及存储介质

Info

Publication number: CN114363660A
Application number: CN202111599899.XA
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Wuhan Co Ltd
Current assignee: Tencent Technology Wuhan Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-15
Anticipated expiration: 2041-12-24
Also published as: CN114363660B

Abstract

本申请公开了一种视频合集确定方法、装置、电子设备及存储介质。该方法包括：响应于视频合集确定指令，确定样本视频；确定样本视频对应的视频特征；从待选视频集合中确定出与视频特征相匹配的多个候选视频；基于样本视频和多个候选视频构建目标视频合集，以及建立目标视频合集与代表对象之间的关联关系；其中，代表对象是从对象集合中确定的满足对象质量要求以及视频数量要求的发布对象。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。本申请关注于从视频本身对应的内容特征和风格特征来确定合集，这样更加灵活有效、也更具适应性，同时不再依赖于人工标记也提高了效率。

Description

视频合集确定方法、装置、电子设备及存储介质

技术领域

本申请涉及互联网通信技术领域，尤其涉及一种视频合集确定方法、装置、电子设备及存储介质。

背景技术

随着互联网通信技术的迅猛发展，各类互联网产品层出不穷。相应的，作为一种互联网内容的视频也愈加丰富多样。相较于单个视频，视频合集可以更好的提高用户的视频观看体验。相关技术中，常通过下述方式确定视频合集：由人工为原始视频标记相关的定位结构化信息，基于待选视频携带的定位结构化信息得到对应的视频合集。这样往往成本高、效率低，且作为元信息的定位结构化信息容易因剪辑而丢失，以使得视频合集的确定缺乏有效性。

发明内容

为了解决现有技术应用在确定视频合集时，效率低、缺乏有效性等问题，本申请提供了一种视频合集确定方法、装置、电子设备及存储介质：

根据本申请的第一方面，提供了一种视频合集确定方法，所述方法包括：

响应于视频合集确定指令，确定样本视频；

确定所述样本视频对应的视频特征；其中，所述视频特征包括内容特征和风格特征；

从待选视频集合中确定出与所述视频特征相匹配的多个候选视频；

基于所述样本视频和所述多个候选视频构建目标视频合集，以及建立所述目标视频合集与代表对象之间的关联关系；其中，所述代表对象是从对象集合中确定的满足对象质量要求以及视频数量要求的发布对象，所述对象集合是基于所述目标视频合集中各个视频分别对应的发布对象构建的。

根据本申请的第二方面，提供了一种视频合集确定装置，所述装置包括：

响应模块：用于响应于视频合集确定指令，确定样本视频；

视频特征确定模块：用于确定所述样本视频对应的视频特征；其中，所述视频特征包括内容特征和风格特征；

候选视频确定模块：用于从待选视频集合中确定出与所述视频特征相匹配的多个候选视频；

视频合集构建模块：用于基于所述样本视频和所述多个候选视频构建目标视频合集，以及建立所述目标视频合集与代表对象之间的关联关系；其中，所述代表对象是从对象集合中确定的满足对象质量要求以及视频数量要求的发布对象，所述对象集合是基于所述目标视频合集中各个视频分别对应的发布对象构建的。

根据本申请的第三方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如第一方面所述的视频合集确定方法。

根据本申请的第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如第一方面所述的视频合集确定方法。

根据本申请的第五方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如第一方面所述的视频合集确定方法。

本申请提供的一种视频合集确定方法、装置、电子设备及存储介质，具有如下技术效果：

本申请响应于视频合集确定指令，确定样本视频；然后，确定样本视频对应的视频特征；再者，从待选视频集合中确定出与视频特征相匹配的多个候选视频；最后，基于样本视频和多个候选视频构建目标视频合集，以及建立目标视频合集与代表对象之间的关联关系。本申请利用有关内容和风格的视频特征进行候选视频的召回以构建目标视频合集，并为目标视频合集关联对应的代表对象。相较于相关技术中对于源于原始视频的定位结构化信息的依赖，本申请关注于从视频本身对应的内容特征和风格特征来确定合集，这样更加灵活有效、也更具适应性，同时不再依赖于人工标记也提高了效率、降低了成本。本申请从对象质量和视频数量角度出发进行代表对象的确定，并建立其与目标视频合集的关联关系，这样可以通过目标视频合集的曝光提高代表对象的曝光率，进而改善代表对象所发布的其他视频的曝光率。同时，据此可以引导与目标视频合集相关的其他发布对象提高所发布视频的垂直度，进而提高发布对象的质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种应用环境的示意图；

图2是本申请实施例提供的一种视频合集确定方法的流程示意图；

图3是本申请实施例提供的确定样本视频对应的视频特征的一种流程示意图；

图4是本申请实施例提供的从待选视频集合中确定出与视频特征相匹配的多个候选视频的一种流程示意图；

图5是本申请实施例提供的VGGNet(Visual Geometry Group Network)模型的网络结构示意图；

图6是本申请实施例提供的一种视频合集确定系统的示意图；

图7-9是本申请实施例提供的视频合集的界面展示示例图；

图10是本发明实施例提供的区块链系统的示意图；

图11是本发明实施例提供的区块结构的示意图；

图12是本申请实施例提供的一种视频合集确定装置的组成框图；

图13是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

PGC(Professional Generated Content)：指专业用户生产内容、专家生产内容。也称为PPC(Professionally-produced Content)。

UGC(User Generated Content)：指用户原创内容。

PUGC(Professional User Generated Content)：是以UGC形式，产出的相对接近PGC的专业内容。

MCN(Multi-Channel Network)：是一种多频道网络的产品形态，将PGC内容联合起来，在资本的有力支持下，保障内容的持续输出，从而最终实现商业的稳定变现。

Feeds(web feed、news feed、syndicated feed)：消息来源，又译为源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源是一种资料格式。网站透过它将最新资讯传播给用户，通常以时间轴方式排列，Timeline(时间轴)是Feed最原始最直接也最基本的展示形式。用户能够订阅网站的先决条件是，网站提供了消息来源。将feed汇流于一处称为聚合(aggregation)，而用于聚合的软体称为聚合器(aggregator)。对最终用户而言，聚合器是专门用来订阅网站的软件，一般亦称为RSS(简易信息聚合)阅读器、feed阅读器、新闻阅读器等。

IP(Intellectual Property)：知识产权。

请参阅图1，图1是本申请实施例提供的一种应用环境的示意图，该应用环境中可以包括客户端10和服务器端20。客户端10与服务器端20可以通过有线或无线通信方式进行直接或间接地连接。相关对象(比如用户、模拟器等)可以通过客户端10向服务器端20发送视频合集确定指令。服务器端20根据接收到的视频合集确定指令确定样本视频，然后确定样本视频对应的视频特征，再从待选视频集合中确定出与视频特征相匹配的多个候选视频，进而基于样本视频和多个候选视频构建目标视频合集，以及建立目标视频合集与代表对象(比如代表账号)之间的关联关系。需要说明的是，图1仅仅是一种示例。

客户端10可以是智能手机、电脑(如台式电脑、平板电脑、笔记本电脑)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、数字助理、智能语音交互设备(如智能音箱)、智能可穿戴设备、智能家电、车载终端等类型的实体设备，也可以是运行于实体设备中的软体，比如计算机程序。客户端所对应的操作系统可以是安卓系统(Android系统)、iOS系统(是由苹果公司开发的移动操作系统)、linux系统(一种操作系统)、Microsoft Windows系统(微软视窗操作系统)等。

服务器端20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。其中服务器可以包括有网络通信单元、处理器和存储器等等。服务器端可以为对应的客户端提供后台服务。

在本申请实施例中，服务端20响应于视频合集确定指令构建目标视频合集的过程可以利用有关机器学习(Machine Learning,ML)的技术。其中，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

上述客户端10和服务器端20可以用于构建一个有关视频合集确定的系统，该系统可以是分布式系统。以分布式系统为区块链系统为例，参见图10，图10是本发明实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图，由多个节点(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端形成，节点之间形成组成的点对点(P2P，Peer To Peer)网络，P2P协议是一个运行在传输控制协议(TCP，TransmissionControl Protocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

参见图10示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其他节点，供其他节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

例如，应用实现的业务包括：

2.1)钱包，用于提供进行电子货币的交易的功能，包括发起交易(即，将当前交易的交易记录发送给区块链系统中的其他节点，其他节点验证成功后，作为承认交易有效的响应，将交易的记录数据存入区块链的临时区块中；当然，钱包还支持查询电子货币地址中剩余的电子货币；

2.2)共享账本，用于提供账目数据的存储、查询和修改等操作的功能，将对账目数据的操作的记录数据发送到区块链系统中的其他节点，其他节点验证有效后，作为承认账目数据有效的响应，将记录数据存入临时区块中，还可以向发起操作的节点发送确认。

2.3)智能合约，计算机化的协议，可以执行某个合约的条款，通过部署在共享账本上的用于在满足一定条件时而执行的代码实现，根据实际的业务需求代码用于完成自动化的交易，例如查询买家所购买商品的物流状态，在买家签收货物后将买家的电子货币转移到商户的地址；当然，智能合约不仅限于执行用于交易的合约，还可以执行对接收的信息进行处理的合约。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

参见图11，图11是本发明实施例提供的区块结构(Block Structure)一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

在实际应用中，上述客户端10和服务器端20可以用于构建一个内容分发平台。注册用户对应的内容生产端可以发布内容(包括但不限于视频)。对于这些发布内容，服务器端20可以进行相关处理(比如构建视频合集)，以向注册用户或者游客用户对应的内容消费端进行分发。需要说明的是，对于与用户信息存在关联关系的内容生产数据、内容消费数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。内容分发平台所涉及视频的内容分类可以是电影、电视剧、综艺、动漫、体育等。相应的，视频合集可以是有关某类电影(比如侦探类电影)的分集解说合集、有关某个网剧/综艺/动漫的分集速看合集、有关某项体育赛事的分集介绍合集。当然，视频的内容分类不限于上述，还可以是教育、纪录片等。视频合集也不限于上述，还可以是有关冷知识的视频合集、有关A城市旅游的视频合集等。

以下介绍本申请一种视频合集确定方法的具体实施例，图2是本申请实施例提供的一种视频合集确定方法的流程示意图，本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示，所述方法可以包括：

S201：响应于视频合集确定指令，确定样本视频；

在本申请实施例中，响应于视频合集确定指令，服务器端根据视频合集确定指令确定样本视频。视频合集确定指令可以是相关对象(比如用户、模拟器等)可以通过客户端触发生成并由客户端发送至服务器端的；视频合集确定指令也可以是相关对象(比如用户、模拟器等)可以通过服务器端触发生成的。样本视频可以是未确定相关视频特征的视频，也可以是已确定相关视频特征的视频；可以是发布时间落入当前周期的视频(比如新发布视频)，也可以是发布时间落入历史周期的视频(比如历史视频)。样本视频可以是长视频、短视频、直播视频等。

示例性的，可以在待选视频集合中确定任一视频作为样本视频。待选视频集合可以是由后台视频池的所有视频构成，也可以是由后台视频池的部分视频构成，比如未确定相关视频特征的视频、已确定相关视频特征的视频、发布时间落入历史周期的视频(比如历史视频)等。待选视频集合中的视频可以是长视频、短视频、直播视频等。若待选视频集合包括视频1-100，样本视频则是从这100个视频中随机确定的一个视频。

进一步的，可以根据所述视频合集确定指令携带的指定类别信息，在所述待选视频集合中确定与所述指定类别信息相匹配的基准视频集合；其中，所述指定类别信息包括指定内容类别信息与指定风格类别信息中的一个或多个；然后在所述相匹配的基准视频集合中确定任一基准视频作为所述样本视频。

基准视频可以视作代表性视频、模板视频、标准视频，它可以对某类视频的内容、风格进行准确有效的表征。基准视频可以是未确定相关视频特征的视频，也可以是已确定相关视频特征的视频；可以是发布时间落入当前周期的视频(比如新发布视频)，也可以是发布时间落入历史周期的视频(比如历史视频)。示例性的，导演A的电影作品常追求对称美学，与其电影相关的视频可以反映一直对称构图风格，可以将这些视频作为对称构图风格类别的基准视频。

待选视频合集中的视频可以有内容类别(比如电影、电视剧、综艺、动漫、体育等类别)、风格类别的区分，相较于风格类别关注于视觉、听觉等视频局部，内容类别更关注视频全局。若待选视频集合包括视频1-100，其中视频1-95有所属的内容类别，也就是说视频1-95是基准视频。比如视频1-50属于内容类别a、视频51-90属于内容类别b、视频91-95属于内容类别c。当视频合集确定指令所携带的指定内容类别信息指示内容类别a时，那么视频1-50构建了相匹配的基准视频集合，样本视频则是从这50个基准视频中随机确定的一个视频。将内容类别、风格类别引入样本视频的确定中，可以提高基于样本视频进行相关内容类别、风格类别视频召回以构建视频合集的便捷性。

需要说明的是，1)基准视频可以是新发布视频，但待选视频集合一般不包括新发布视频，所以从待选视频集合中确定的基准视频一般是历史视频。2)本申请实施例进行目标视频合集构建的契机是当前有新发布的视频。可以理解，当内容生产端发布视频之后，服务器端可以生成指示新发布视频的视频合集确定指令。

S202：确定所述样本视频对应的视频特征；其中，所述视频特征包括内容特征和风格特征；

在本申请实施例中，服务器端确定样本视频对应的视频特征。视频特征包括内容特征和风格特征。可以理解，相较于风格特征，内容特征更能反映视频的全局性特征。风格特征所反映的视频的局部性特征可以是视觉风格特征、听觉风格特征。对视频进行内容特征提取的数据源可以是视频的原生内容和衍生内容，视频的原生内容可以有视频标题、视频帧图像(包括视频封面图像)、视频对应的音频、视频字幕、视频水印以及其他视频元素。视频的衍生内容可以是基于视频的原生内容所确定的视频标签信息、视频分类信息、视频所属内容IP等。此外，对视频进行内容特征提取的数据源还可以有视频的关联内容，比如视频评论，尤其是其中含有其他视频的描述信息(比如标题、链接、相关关键词)的视频评论。对视频进行风格特征提取的数据源可以是上述视频的原生内容，主要是视频帧图像(包括视频封面图像)、视频对应的音频。

这里确定视频特征的步骤，可以是开始执行对样本视频进行视频特征确定的步骤，也可以是从已有的视频特征库中确定样本视频对应的视频特征的步骤。当样本视频是未确定相关视频特征的视频时，步骤S202可以是开始执行对样本视频进行视频特征确定的步骤。当样本视频是已确定相关视频特征的视频时，步骤S202可以是从已有的视频特征库中确定样本视频对应的视频特征的步骤。当然，考虑到进行视频特征确定的方式是动态更新的，比如所使用的预设特征提取模型是动态更新的，步骤S202也可以是开始执行对样本视频进行视频特征确定的步骤。

在一示例性的实施方式中，如图3所示，所述确定所述样本视频对应的视频特征，包括：

S301：确定所述样本视频对应的表征图像；

S302：以所述表征图像为输入，利用预设特征提取模型得到对应的融合特征，以及确定所述融合特征为所述视频特征；其中，所述预设特征提取模型是通过多个表征样本进行机器学习训练获得的，每个所述表征样本携带有对应的视频特征，所述融合特征融合了有关内容的特征信息和有关风格的特征信息。

对于预设特征提取模型，在建模时，可以获取多个携带有视频特征的表征样本(图像形式)，将多个表征样本输入初始机器学习模型进行训练；在训练过程中，调整初始机器学习模型的模型参数至初始机器学习模型输出的融合特征与输入的表征样本所携带的视频特征相匹配；将调整后的模型参数所对应的初始机器学习模型作为预设特征提取模型。每个表征样本可以由同一视频样本对应的多个表征图像构成。每个表征样本所携带的视频特征是融合了有关内容的特征信息和有关风格的特征信息的。对于“初始机器学习模型输出的融合特征与输入的表征样本所携带的视频特征相匹配”，当表征样本包括多个表征图像时，可以理解，初始机器学习模型输出每个表征图像对应的第一类融合特征，再基于多个表征图像分别对应的第一类融合特征得到用于匹配的第二类融合特征。当然，也可以直接使用第一类融合特征进行匹配。

所用到的机器学习模型可以是神经网络机器学习模型、决策树机器学习模型等。利用机器学习训练得到具有高泛化能力的预设特征提取模型，在利用预设特征提取模型进行特征提取时，可以提高对不同表征图像的特征提取适应能力，进而可以大大提高特征提取的可靠性和有效性，尤其对于支持海量视频的内容分发平台。

考虑到图像作为视频的主要构成元素，利用图像来提取视频特征可以兼顾效率和准确度，同时利用图像也能够有效捕捉内容特征和风格特征。样本视频对应的表征图像可以有多个。所确定的样本视频对应的表征图像可以由样本视频的视频帧图像(包括视频封面图像)构成。可以按照预设抽帧间隔(比如5秒)对样本视频进行视频帧抽取以得到表征图像。预设抽帧间隔也可以根据业务需求进行调整。一般而言，视频越长，所对应的表征图像越多。相应的，样本视频对应的视频特征可以基于多个表征图像分别对应的融合特征来确定。当然，对于上述视频样本对应的表征图像的确定，可以参考这里确定样本视频对应的表征图像的内容，不再赘述。

下面将进一步介绍预设特征提取模型以及表征图像：

一)对于预设特征提取模型：

所述以所述表征图像为输入，利用预设特征提取模型得到对应的融合特征，包括下述步骤：首先，分别将所述表征图像输入所述预设特征提取模型的多个网络层组，以得到每个所述网络层组对应的输出特征；其中，每个所述网络层组包括至少一个卷积层和一个池化层，所述池化层设置于所述网络层组的输出端，所述多个网络层组分别对应不同的池化层；然后，利用所述预设特征提取模型的输出层处理每个所述网络层组对应的输出特征，得到所述融合特征。

预设特征提取模型的网络结构从输入端到输出端依次是：并行的多个网络层组和输出层。每个网络层组从输入端到输出端依次是至少一个卷积层和一个池化层。其中，每个网络层组中每个卷积层可以包括一个3*3的卷积核。每个网络层组中卷积层的数量可以相同，也可以不同。每个网络层组中池化层是不同的，这些池化层采用不同的池化方式。由此，在每个网络层组中，通过卷积层提取表征图像的图像特征，通过池化层对图像特征进行噪声消除。通过输出层将由每个网络层组输出的去噪特征进行融合以得到融合特征。预设特征提取模型以网络层组为单位实现不同的卷积层和池化层组合，可以从同一表征图像捕捉、挖掘出不同维度的特征，保证了融合特征的数据源的特征信息丰富度。融合特征源于对不同维度的特征的融合处理，可以在一定程度上实现对于有关内容的特征信息和有关风格的特征信息的准确表达。

在实际应用中，预设特征提取模型的网络结构可以采用VGGNet(Visual GeometryGroup Network)模型的网络结构，比如VGG16、VGG19。VGG16和VGG19的区别在于网络深度。以VGG16为例，参见图5，它包括隐藏层、最大池化(Max pooling)层以及输出层(softmax层)，其中隐藏层的数量为16，16个隐藏层由13个卷积层和3个全连接层构成。所有卷积层均包括一个3*3的卷积核。最大池化层所涉及池化核的大小为2*2。最大池化(Max pooling)层采用了步长stride＝1、填充padding＝0相关处理参数。图中13个卷积层与5个最大池化层组成了5段卷积，5段卷积中卷积层的深度依次为64->128->256->512->512，这里的深度指示3*3的卷积核在相关卷积层反复堆叠的深度。考虑到网络深度越高的VGGNet模型所提取的特征越偏向语义、远离风格，当预设特征提取模型中用到多个VGGNet模型时，可以设置不同网络深度的VGGNet模型。

不同的池化层的表现形式可以是：最大池化层、平均池化(Average Pooling)层、广义均值池化(Generalized Mean Pooling，GeM Pooling)层、CroW Pooling层(对应一种用于空间和通道的加权池方法)等。通过卷积层提取表征图像的图像特征，那么通过最大池化层可以提取图像特征中的最大值特征，通过平均池化层可以提取图像特征的均值特征。广义均值池化层的作用介于最大池化层和平均池化层之间，通过广义均值池化层提取的特征可以由下述公式一、二表示：

其中，这里的公式涉及P-范数。x是表征图像的特征图。广义均值池化中，假设CNN(卷积神经网络)提取后的第k个特征图，是第k个特征图池化后的结果。当Pk＝1时，广义均值池化为平均池化；当Pk无穷大时，广义均值池化为最大池化。通过调节参数P，可以关注不同细度的图区域。对于CroW Pooling层的理解可以是，CroW Pooling将图像通过卷积核激活后大于0的值视为包含一个词。在通道内，通过卷积核激活的值越大，其权重越高；在通道之间，通道内的通过卷积核激活的面积越大，其权重反而越小。

由此，对于预设特征提取模型的网络结构的设置可以是：1)预设特征提取模型中每个网络层组可以分别沿用一个VGGNet模型，不同网络层组所沿用的VGGNet模型采用不同的最大池化层，同一网络层组所沿用的VGGNet模型中各段卷积采用相同的最大池化层；2)预设特征提取模型中每个网络层组可以分别沿用同一VGGNet模型的不同段卷积，但是不同段卷积采用不同的最大池化层；3)预设特征提取模型包括内容特征提取部分、风格特征提取部分以及融合部分，其中风格特征提取部分可以沿用一个VGGNet模型来提取表征图像的风格特征。可以使用上述不同的池化层对这里预设特征提取模型涉及的VGGNet模型的最大池化层进行替换。示例性的，以这里的2)中的设置为例，可以设置5段卷积，每段卷积采用的池化层分别为最大池化层、GeM&CroW池化层、GeM&CroW池化层、CroW池化层以及CroW池化层。其中最后一个CroW池化层可以融入Resnet51(一种残差网络)的功能。当然，也可以设置6段卷积。

二)对于表征图像：

表征图像的来源可以不限于视频帧图像(包括视频封面图像)，比如通过对表征音频的转化处理得到表征图像。这样可以扩大获取表征图像的数据源，提高表征图像的信息丰富度；同时，可以沿用针对表征图像的预设特征提取模型，保证视频特征提取的便捷性。相应的，所述确定所述样本视频对应的表征图像，可以包括下述步骤：首先，确定所述样本视频对应的表征音频；其中，所述表征音频包括以下至少之一：主题曲、插曲、背景音乐、旁白、独白、对白；然后，将所述表征音频对应的音频信号进行转化得到对应的表征图像。

示例性的，从样本视频中分离出音频，可以将分离出的音频作为表征音频，然后将表征音频对应的音频信号进行转化得到对应的表征图像。对于解说类视频而言，音频可以用于体现视频的关键信息。可以对分离出的音频进行处理，从中筛选出与作为表征图像的视频帧图像相对应的音频片段作为表征音频，进而将表征音频对应的音频信号进行转化得到对应的表征图像。由于视频帧图像所在的时间较为短暂，这里相对应的音频片段可以以该所在的时间为基础进行时间范围的前后扩展。可以对分离出的音频进行处理，根据出现时间从中筛选出片头曲、片尾曲作为表征音频，进而将表征音频对应的音频信号进行转化得到对应的表征图像。

将表征音频对应的音频信号进行转化得到对应的表征图像的过程包括：提取音频信号的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)特征；然后，沿用相关梅尔频率倒谱系数特征作为图像特征实现转换，或者将相关梅尔频率倒谱系数特征转化为其他图像特征实现转化。

在实际应用中，通过对表征音频的转化处理得到表征图像，可以使用上述预设特征提取模型对得到的表征图像进行特征提取。

当然，也可以利用VGGish模型(一种特征提取模型，它是从AudioSet数据集训练得到的音频模型，其产生128维的Embedding特征)对表征音频对应的梅尔频率倒谱系数特征进行特征提取。所提取的特征可以作为样本视频对应的视频特征的数据源。此外，也可以利用基于NetVLAD(一种网络结构)的模型来提取(作为表征图像的)与视频帧图像相对应的表征音频的音频特征，然后可以通过可学习的权重融合生成音频模态的全局特征。所生成的音频模态的全局特征可以作为样本视频对应的视频特征的数据源。

S203：从待选视频集合中确定出与所述视频特征相匹配的多个候选视频；

在本申请实施例中，服务器端从待选视频集合中确定出与视频特征相匹配的多个候选视频。对于待选视频集合的理解，可以参考前述步骤S201中的相关记载，不再赘述。匹配候选视频的过程，可以通过分别计算样本视频对应的视频特征和待选视频集合中各个视频对应的视频特征之间的相似度来实现。相似度计算所采用的指标可以是欧式距离、余弦相似度等。若相似度大于或等于预设阈值，那么判定该视频为候选视频。也可以根据相似度对待选视频集合进行降序排序以得到序列，然后取序列中位于前预设数值的视频为候选视频。需要说明的是，当样本视频有至少两个时，可以对至少两个样本视频分别对应的视频特征进行融合以得到用作相似度计算的待计算特征，比如取至少两个样本视频分别对应的视频特征的均值作为待计算特征。在实际应用中，基于相似度的候选视频召回可以采用Faiss库(一种近似近邻搜索库)。当样本视频是新发布视频时，Faiss库可以视作上述后台视频池，新发布视频可以视作新入库视频。那么，每入库的一个视频可以通过视频特征召回一批近似视频。同时，可以按照视频的一级分类，定期对分类下的视频特征的初步聚类处理(可以用到诸如Kmeans算法等聚类算法)，其主要目的是缩小挖掘和校验验证视频合集的范围、减少计算量。

在一示例性的实施方式中，如图4所示，所述从所述待选视频集合中确定出与所述视频特征相匹配的多个候选视频，包括：

S401：从所述待选视频集合中确定出与所述视频特征相匹配的多个第一视频；

S402：分别对每个所述第一视频进行有关指定特征的文本识别；其中，所述指定特征所指示的特征信息包括以下至少之一：集数信息和视频主题信息；

S403：根据文本识别结果从所述多个第一视频中确定出携带有所述指定特征的多个第二视频，以及确定所述多个第二视频为所述多个候选视频。

示例性的，若待选视频集合由视频1-100构成，可以利用上述提及的相似度计算方法来确定与样本视频对应的视频特征相匹配的第一视频，比如视频1-30。

然后分别对视频1-30进行有关指定特征的文本识别，具体可以识别视频的标题中是否含有指示集数、视频主题的文本内容，可以识别视频的封面图像是否含有指示集数、视频主题的文本内容。再过滤掉视频1-30中未携带指定特征(即未含有指示集数、视频主题的文本内容)的视频21-30，进而将视频1-20作为候选视频。指示集数、视频主题的文本内容可以作为相关视频的具备合集构建要素的特征点，通过指示集数、视频主题的文本内容，可以提高后续所构建的目标视频合集的关联程度，也可以为后续所构建的目标视频合集提供排序依据，从而提高用户进入视频合集进行观看的有序性。以指示集数的文本内容为例，它可以说明相关视频的发布对象具备自建视频合集的意图。以指示视频主题的文本内容为例，它可以进一步突出相关视频的原生内容。

其中文本识别可以用到光学字符识别(Optical Character Recognition，OCR)技术。指示集数的文本内容的表征形式可以是集数(比如K)、第K集/期/篇、(集数(比如K))、EP集数(比如K)、P集数(比如K)、E集数(比如K)、上、中、下等。具体的集数可以使用阿拉伯数字(比如取K为5)、中文数字(比如取K为五、伍)、英文数字(比如取K为five)、罗马数字(比如取K为V)等进行表示。指示视频主题的文本内容的表征形式可以是内容IP名称、剧名、电影名。比如，视频标题或者视频封面图像出现内容IP名称+集数、S9E3、P4，那么可以认为相关视频携带有指定特征。若视频标题为空，且视频封面也未含有指示集数、视频主题的文本内容，那么可以认为相关视频未携带指定特征。对于视频标题和视频封面的指示集数、视频主题的文本内容的校验，可以通过设置对应的正则表达式来过滤实现。

当然，进行未携带指定特征的视频的过滤，也可以在确定待选视频集合之前。也就是说，待选视频集合中的视频均携带指定特征，进而直接从待选视频集合中确定出与样本视频对应的视频特征相匹配的候选视频。

S204：基于所述样本视频和所述多个候选视频构建目标视频合集，以及建立所述目标视频合集与代表对象之间的关联关系；其中，所述代表对象是从对象集合中确定的满足对象质量要求以及视频数量要求的发布对象，所述对象集合是基于所述目标视频合集中各个视频分别对应的发布对象构建的。

在本申请实施例中，服务器端基于样本视频和多个候选视频构建目标视频合集，以及建立目标视频合集与代表对象之间的关联关系。基于样本视频和召回的有关样本视频的候选视频来构建目标视频集合，候选视频的召回中利用样本视频的有关内容和风格的视频特征。这样可以不依赖原始视频库的高覆盖率，不需要以原始视频库中视频的特征为基准来实现候选视频的召回(否则需要先在原始视频库确定与样本视频相匹配的视频，再利用这个视频的特征来召回候选视频)，同时也可以避免因存储这些作为基准的特征而浪费存储资源。目标视频合集的构建，是一种内容天然的聚合组织方式的实现。以对原始视频进行裁剪后得到的视频片段作为短视频为例，视频合集实现了内容的结构化组织，视频合集的生成和更新，可以提高内容分发的推荐效果，提高用户的次均/人均内容消费时长和留存率。后台视频池中的视频可以以视频合集的形式串联，视频合集具备更长的内容分发周期。比如，当视频合集有更新，其便能够持续的被续期曝光。在实际应用中，通过视频合集所具备的剧情/主题连贯性，可以营造追剧感，有效提升时长指标，用户一旦进入合集消费场景，即可进行沉浸式消费。

为目标视频合集关联满足对象质量要求以及视频数量要求的代表对象，可以利用目标视频合集的曝光为代表对象引流(比如提高代表对象的订阅用户数量)，进而引导内容分发平台的发布对象提高所发布内容的垂直度、提高内容发布的数量。目标视频合集与代表对象的关联关系是动态变化的，可以理解，目标视频合集的构成视频可以发生变化，比如原有视频被相关发布对象删除、新增了视频；代表对象所对应的发布对象也可以发生变化，比如随着目标视频合集的构成视频的变化，发布对象A比发布对象B更具备作为代表对象的资格。代表对象可以具有对目标视频合集的构成视频进行排序管理的权利，以提高用户进入视频合集进行观看的有序性。代表对象可以具有对目标视频合集进行视频合集标题、封面图像的编辑管理的权利。通过为代表对象赋予相关管理权限，可以提高代表对象参与目标视频合集管理维护的积极性，可以为目标视频合集的展示提供个性化的要素以提高其曝光效果。通过视频合集可以赋能发布对象更多选择和创造力，可以基于已发布的视频选择特定主题进行合集创作，满足用户个性化且多元的需求。

对于构建目标视频合集，以及建立目标视频合集与代表对象之间的关联关系，可以先基于“对象质量要求”的结果构建目标视频合集，再基于“视频数量要求”确定代表对象并建立目标视频合集与代表对象之间的关联关系。有关“视频数量要求”可以参考下述步骤：首先，确定所述目标视频合集中由同一发布对象所发布且具有最多视频的目标视频子集；然后，确定所述目标视频子集对应的发布对象为所述代表对象，以及建立所述目标视频合集与所述代表对象之间的关联关系。若目标视频合集由视频1-20构成，可以确定其中由同一发布账号所发布的视频以确定视频子集。比如，视频子集1包括由发布账号1所发布的视频1-12，视频子集2包括由发布账号2所发布的视频13-15，视频子集3包括由发布账号3所发布的视频16-20。视频子集1是视频子集1-3中具有最多视频的，视频子集1则是目标视频子集。相应的，发布账号1为代表对象，建立其与目标视频合集之间的关联关系。视频数量要求的量化，能够更准确有效的衡量相关发布对象对于目标视频合集的贡献。若存在至少两个目标视频子集，可以确定分别确定至少两个目标视频子集对应的发布对象的对象质量分数(可参考后述，不再赘述)，选择其中对象质量分数最高的发布对象作为代表对象。

有关“对象质量要求”的内容还可以与前述有关指定特征的文本识别相结合，由此“构建目标视频合集，以及建立目标视频合集与代表对象之间的关联关系”具体可以分为下述情形：

1)先进行有关指定特征的文本识别，再进行对象质量过滤；同时，对象质量过滤的对象不包括样本视频对应的发布对象。那么，所述基于所述样本视频和所述多个候选视频构建目标视频合集，以及建立所述目标视频合集与代表对象之间的关联关系，可以包括以下步骤：a)分别确定所述多个候选视频对应的第一发布对象，得到第一发布对象集合；b)从所述第一发布对象集合中确定出满足所述对象质量要求的第二发布对象，得到第二发布对象集合；c)从所述多个候选视频中确定出由所述第二发布对象集合中对象所发布的目标视频；d)基于所述样本视频和所述所发布的目标视频构建所述目标视频合集；e)确定所述目标视频合集中各个视频分别对应的发布对象，得到所述对象集合；f)分别确定所述对象集合中各个发布对象所发布的落入所述目标视频合集的视频的数量；g)确定对应最大数量的发布对象为所述代表对象，以及建立所述目标视频合集与所述代表对象之间的关联关系。此时的候选视频可以是前述步骤S203中已经有关指定特征的文本识别的视频，候选视频均携带指定特征。

发布对象是否满足对象质量要求，可以通过发布对象的对象质量分数与分数阈值来量化比较。若对象质量分数大于或等于分数阈值，可以判定发布对象满足对象质量要求。对象质量分数可以是通过对发布对象近期所发布视频的相关计算得到的，比如对最近3个月内所发布视频进行内容垂直度计算，具体可参考下述公式三：

其中，i表示第i个视频分类(垂类)，n表示视频分类(垂类)总数，P_i表示第i个视频分类(垂类)的比例。可以先确定发布对象近期所发布视频以及每个视频对应的视频分类i，然后根据每个视频对应的视频分类确定每个视频分类的比例P_i。这里用到了信息论中熵的概念，熵度量了事物的不确定性，越不确定的事物，它的熵就越大。这里所采用的视频分类可以是一级分类，一级分类可以是视频发布以后，经视频主链路上的相关处理确定的，比如通过机器或者人工的分类标注。

内容垂直度体现着发布对象在相关领域(比如擅长领域)进行视频发布的专注程度、稳定性。通过内容垂直度的计算，可以有效过滤掉一些搬运对象。这些搬运对象所发布视频常非原创，而是搬运抄袭；所发布视频对应的视频分类也往往混乱、不集中。当然，对象质量分数的确定除了参考内容垂直度，还可以参考发布对象的订阅用户数量、所发布视频的正向反馈情况(比如获取点赞、分享、转发、收藏等的数量)。

这里对象质量过滤的对象不包括样本视频对应的发布对象，可以保证样本视频存在于目标视频合集中。后续可以将样本视频作为目标视频合集的代表视频，可以以代表视频对应的视频特征参与视频召回，提高召回视频合集的便捷性。在实际应用中，生成指示样本视频的视频合集确定指令的前提，可以是样本视频对应的发布对象满足上述对象质量要求。

2)先进行有关指定特征的文本识别，再进行对象质量过滤；同时，对象质量过滤的对象包括样本视频对应的发布对象。那么，所述基于所述样本视频和所述多个候选视频构建目标视频合集，以及建立所述目标视频合集与代表对象之间的关联关系，可以包括以下步骤：a)分别确定所述多个候选视频对应的第一发布对象，得到第一发布对象集合；b)从所述第一发布对象集合和所述样本视频对应的发布对象中，确定出满足所述对象质量要求的第二发布对象，得到第二发布对象集合；c)从所述多个候选视频和所述样本视频中，确定出由所述第二发布对象集合中对象所发布的目标视频，以构建所述目标视频合集；d)分别确定所述第二发布对象集合中各个发布对象所发布的落入所述目标视频合集的视频的数量；e)确定对应最大数量的发布对象为所述代表对象，以及建立所述目标视频合集与所述代表对象之间的关联关系。此时的候选视频可以是前述步骤S203中已经有关指定特征的文本识别的视频，候选视频均携带指定特征。

这里对象质量过滤的对象包括样本视频对应的发布对象，可以保证目标视频合集中各个视频均是满足对象质量要求的发布对象所发布的，可以兼顾视频召回的效率和视频合集的质量。当样本视频为搬运对象时，通过对象质量过滤，可以减少视频合集中出现搬运抄袭视频的概率。

3)先进行对象质量过滤，再进行有关指定特征的文本识别。同时，对象质量过滤的对象包括样本视频对应的发布对象。以对象质量过滤的对象包括样本视频对应的发布对象为例，可以a)分别确定所述多个候选视频对应的第一发布对象，得到第一发布对象集合；b)从所述第一发布对象集合和所述样本视频对应的发布对象中，确定出满足所述对象质量要求的第二发布对象，得到第二发布对象集合；c)从所述多个候选视频和所述样本视频中，确定出由所述第二发布对象集合中对象所发布的视频，得到多个第三视频；d)分别对每个所述第三视频进行有关指定特征的文本识别；其中，所述指定特征所指示的特征信息包括以下至少之一：集数信息和视频主题信息；e)根据文本识别结果从所述多个第三视频中确定出携带有所述指定特征的视频，以构建所述目标视频合集；f)分别确定所述第二发布对象集合中各个发布对象所发布的落入所述目标视频合集的视频的数量；g)确定对应最大数量的发布对象为所述代表对象，以及建立所述目标视频合集与所述代表对象之间的关联关系。此时的候选视频可以是前述步骤S203中与样本视频对应的视频特征相匹配的视频。

4)先进行对象质量过滤，再进行有关指定特征的文本识别。同时，对象质量过滤的对象不包括样本视频对应的发布对象。可以参考上述3)，不再赘述。此时的候选视频可以是前述步骤S203中与样本视频对应的视频特征相匹配的视频。

需要说明的是，2)-4)中对于对象质量过滤的内容可以参考前述1)中的相关记载，不再赘述。

由以上本申请实施例提供的技术方案可见，本申请实施例响应于视频合集确定指令，确定样本视频；然后，确定样本视频对应的视频特征；再者，从待选视频集合中确定出与视频特征相匹配的多个候选视频；最后，基于样本视频和多个候选视频构建目标视频合集，以及建立目标视频合集与代表对象之间的关联关系。本申请利用有关内容和风格的视频特征进行候选视频的召回以构建目标视频合集，并为目标视频合集关联对应的代表对象。相较于相关技术中对于源于原始视频的定位结构化信息的依赖，本申请关注于从视频本身对应的内容特征和风格特征来确定合集，这样更加灵活有效、也更具适应性，同时不再依赖于人工标记也提高了效率、降低了成本。本申请从对象质量和视频数量角度出发进行代表对象的确定，并建立其与目标视频合集的关联关系，这样可以通过目标视频合集的曝光提高代表对象的曝光率，进而改善代表对象所发布的其他视频的曝光率。同时，据此可以引导与目标视频合集相关的其他发布对象提高所发布视频的垂直度，进而提高发布对象的质量。

本申请实施例还提供了一种视频合集确定装置，如图12所示，该视频合集确定装置120包括：

响应模块1201：用于响应于视频合集确定指令，确定样本视频；

视频特征确定模块1202：用于确定所述样本视频对应的视频特征；其中，所述视频特征包括内容特征和风格特征；

候选视频确定模块1203：用于从所述待选视频集合中确定出与所述视频特征相匹配的多个候选视频；

视频合集构建模块1204：用于基于所述样本视频和所述多个候选视频构建目标视频合集，以及建立所述目标视频合集与代表对象之间的关联关系；其中，所述代表对象是从对象集合中确定的满足对象质量要求以及视频数量要求的发布对象，所述对象集合是基于所述目标视频合集中各个视频分别对应的发布对象构建的。

需要说明的，所述装置实施例中的装置与方法实施例基于同样的发明构思。

本申请实施例还提供了一种视频合集确定系统60，如图6所示，以下介绍图6中各个服务模块的主要功能：

一.内容生产端和内容消费端

(1)PGC或者UGC，MCN内容生产者，通过移动端或者后端接口AP(ApplicationProgramming Interface，应用程序接口)系统，提供视频内容，这些推荐分发内容的主要内容来源；

(2)通过和上下行内容接口服务的通讯，通常由一个拍摄端进行视频内容的拍摄和发布，拍摄后可以为本地视频内容选择搭配的音乐、封面图、滤镜模板等，也可以对本地视频内容进行剪辑；

(3)作为消费端，和上下行内容接口服务器通讯，推过推荐获取访问内容的索引信息即内容的下载地址访问入口，然后和内容存储服务器通讯，获取对应的内容。所获取的内容包括推荐的内容、专题订阅的内容(比如合集)。内容存储服务器存储的是内容实体，比如视频源文件、封面图的图片源文件。而内容的元信息(比如标题、作者、封面图、分类、Tag信息等)存储在内容数据库；

(4)同时将上传和下载过程当中用户播放的行为数据、卡顿、加载时间、播放点击等上报给后端用于统计分析；

(5)消费端通常通过Feeds流方式浏览视频内容数据。

二.上下行内容接口服务器

(1)和内容生产端直接通讯，从前端提交的内容，通常是内容的标题、发布者、摘要、封面图、发布时间，把文件存入内容数据库；

(2)将内容的元信息(比如文件大小、封面图链接、标题、发布时间、作者等)写入内容数据库；

(3)将发布的提交的内容同步给调度中心服务器，进行后续的内容处理和流转。

三.内容数据库

(1)内容的核心数据库，所有生产者发布内容的元信息都保存在这个业务数据库当中，重点是内容本身的元信息，比如文件大小、封面图链接、码率、文件格式、标题、发布时间、作者、视频格式、是否原创的标记或者首发，还包括人工审核过程中对内容的分类(包括一、二、三级别分类和标签信息，比如一篇讲解XX品牌手机的内容，一级分类是科技，二级分类是智能手机，三级分类是国内手机，标签信息是XX品牌XX型号)；

(2)人工审核过程当中会读取内容数据库当中的信息，同时人工审核的结果和状态也会回传进入内容数据库；

(3)调度中心对内容处理主要包括机器处理和人工审核处理，这里机器处理核心包括各种质量判断(比如低质过滤)、内容的分类和标签信息设置，还有就是内容相似排查，结果会写入内容数据库。其中完全重复一样的内容不会给人工进行重复的二次处理，节省审核的人力资源。

四.调度中心&人工审核系统

(1)负责内容流转的整个调度过程，通过上下行内容接口服务器接收入库的内容，然后从内容数据库中获取内容的元信息；

(2)调度人工审核系统和机器处理系统，控制调度的顺序和优先级；

(3)通过人工审核系统内容被启用，然后通过内容出口分发服务(通常是推荐引擎或者搜索引擎或者运营)直接的展示页面提供给终端的内容消费者，也就是消费端获得的内容索引信息，通常是内容访问的入口地址；

(4)人工审核系统是人工服务能力的载体，主要用于审核过滤一些机器无法确定判断的内容，同时还对进行视频内容的标签标注。

五.内容存储服务

(1)存储内容的元信息之外的内容实体信息，比如视频源文件和图文内容的图片源文件；

(2)在获取视频内容标签特征的时候，提供视频源文件包括源文件中间的抽帧内容临时存储，避免重复抽取。

六.下载文件系统

(1)从内容存储服务器下载和获取原始的内容，控制下载的速度和进度，通常是一组并行的服务器，有相关的任务调度和分发集群构成；

(2)下载完成的文件调用视频抽帧服务从源文件当中获取必要的视频文件的视频帧，作为后续构造视频内容图像embeeding向量服务的基础输入。

七.统计接口与分析服务

(1)接受作者端发文的流水上报，为后续计算比如垂直提供数据输入；

(2)和视频合集召回及校验服务提供原始数据输入，辅助数据召回及校验；

八.视频帧合集召回服务

(1)按照上面的描述的算法生成视频帧的embeeding向量，这些帧向量保存在redis数据库当中；

(2)这些视频帧向量通过faiss进行索引和管理，每入库的一个视频可以通过视频特征召回一批近似视频。同时，可以按照视频的一级分类，定期对分类下的视频特征的初步聚类处理(可以用到诸如Kmeans算法等聚类算法)。

九.视频合集挖掘服务

(1)按照上面描述的步骤，和内容调度服务器通讯，接受内容流程的调度处理；

(2)通过调度视频帧合集召回及视频合集校验服务，完成视频合集内容的聚合及挖掘。

十.视频合集校验服务

(1)按照上面描述的步骤和方法，利用内容的IP和账号的垂直度进行合集内容的校验与筛选；

(2)同时利用视频内容存在的标题文本信息和元信息(比如时长，演员，导演等等)进行校验，确保合集挖掘结果的准确。

这里的核心服务包括视频合集挖掘服务，视频合集召回服务及视频合集校验服务。最终挖掘输出的内容落实到合集账号(对应上述代表对象)作者上，一方面可以给合作作者赋能和引导，另外一方面可以从作者维度更好维护合集内容。内容的聚合就是账号。根据生产端实际情况，持续更新合集账号的范围。图7-9是典型在信息流内容分发的消费端，视频合集账号内容的展现和消费形式：合集内容的下方是关联的同一个合集当中的其他内容，主要来自同一个合集账号，也可以是其他发布相近内容的账号。图8示出了列表到底了的情况，图9示出了列表加载中的情况。

视频内容合集的挖掘主要可以分为召回和校验2大关键步骤，由于是视频内容，在内容处理的主要链路上会经过初步的分类和标签处理。比如，视频内容的IP名称，内容分类包括一级分类、二级分类、三级分类(比如一级分类为电影、二级分类为电影剪辑、三级分类为动作电影等等)以及标签信息。通常同一个合集的内容描述的内容领域和风格也是非常相似。这里提到的挖掘视频合集，主要从内容的IP、内容标题、封面图、发文作者以及内容风格几个角度出发。以从作者的角度来讲，“解说”是更有个人风格，固定的解说人员的内容也可以构成合集。也可以将固定的解说人员且同样视频画面艺术创作风格的内容构成合集。

需要说明的，所述系统实施例中的系统与方法实施例基于同样的发明构思。

本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，该存储器中存储有至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的视频合集确定方法。

进一步地，图13示出了一种用于实现本申请实施例所提供的视频合集确定方法的电子设备的硬件结构示意图，所述电子设备可以参与构成或包含本申请实施例所提供的视频合集确定装置。如图13所示，电子设备100可以包括一个或多个(图中采用1002a、1002b，……，1002n来示出)处理器1002(处理器1002可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1004、以及用于通信功能的传输装置1006。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图13所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，电子设备100还可包括比图13中所示更多或者更少的组件，或者具有与图13所示不同的配置。

应当注意到的是上述一个或多个处理器1002和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到电子设备100(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器1004可用于存储应用软件的软件程序以及模块，如本申请实施例中所述的视频合集确定方法对应的程序指令/数据存储装置，处理器1002通过运行存储在存储器1004内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种视频合集确定方法。存储器1004可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1004可进一步包括相对于处理器1002远程设置的存储器，这些远程存储器可以通过网络连接至电子设备100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备100的通信供应商提供的无线网络。在一个实例中，传输装置1006包括一个网络适配器(NetworkInterfaceController，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实施例中，传输装置1006可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与电子设备100(或移动设备)的用户界面进行交互。

本申请的实施例还提供了一种计算机可读存储介质，所述存储介质可设置于电子设备之中以保存用于实现方法实施例中一种视频合集确定方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的视频合集确定方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和电子设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频合集确定方法，其特征在于，所述方法包括：

响应于视频合集确定指令，确定样本视频；

2.根据权利要求1所述的方法，其特征在于，所述从待选视频集合中确定出与所述视频特征相匹配的多个候选视频，包括：

从所述待选视频集合中确定出与所述视频特征相匹配的多个第一视频；

分别对每个所述第一视频进行有关指定特征的文本识别；其中，所述指定特征所指示的特征信息包括以下至少之一：集数信息和视频主题信息；

根据文本识别结果从所述多个第一视频中确定出携带有所述指定特征的多个第二视频，以及确定所述多个第二视频为所述多个候选视频。

3.根据权利要求1所述的方法，其特征在于，所述基于所述样本视频和所述多个候选视频构建目标视频合集，包括：

分别确定所述多个候选视频对应的第一发布对象，得到第一发布对象集合；

从所述第一发布对象集合中确定出满足所述对象质量要求的第二发布对象，得到第二发布对象集合；

从所述多个候选视频中确定出由所述第二发布对象集合中对象所发布的目标视频；

基于所述样本视频和所述所发布的目标视频构建所述目标视频合集。

4.根据权利要求1所述的方法，其特征在于，所述基于所述样本视频和所述多个候选视频构建目标视频合集，包括：

从所述第一发布对象集合和所述样本视频对应的发布对象中，确定出满足所述对象质量要求的第二发布对象，得到第二发布对象集合；

从所述多个候选视频和所述样本视频中，确定出由所述第二发布对象集合中对象所发布的目标视频，以构建所述目标视频合集。

5.根据权利要求3或4所述的方法，其特征在于，所述建立所述目标视频合集与代表对象之间的关联关系，包括：

确定所述目标视频合集中由同一发布对象所发布且具有最多视频的目标视频子集；

确定所述目标视频子集对应的发布对象为所述代表对象，以及建立所述目标视频合集与所述代表对象之间的关联关系。

6.根据权利要求1或2所述的方法，其特征在于，所述确定样本视频，包括：

根据所述视频合集确定指令携带的指定类别信息，在所述待选视频集合中确定与所述指定类别信息相匹配的基准视频集合；其中，所述指定类别信息包括指定内容类别信息与指定风格类别信息中的一个或多个；

在所述相匹配的基准视频集合中确定任一基准视频作为所述样本视频。

7.根据权利要求1或2所述的方法，其特征在于，所述确定所述样本视频对应的视频特征，包括：

确定所述样本视频对应的表征图像；

以所述表征图像为输入，利用预设特征提取模型得到对应的融合特征，以及确定所述融合特征为所述视频特征；其中，所述预设特征提取模型是通过多个表征样本进行机器学习训练获得的，每个所述表征样本携带有对应的视频特征，所述融合特征融合了有关内容的特征信息和有关风格的特征信息。

8.根据权利要求7所述的方法，其特征在于，所述以所述表征图像为输入，利用预设特征提取模型得到对应的融合特征，包括：

分别将所述表征图像输入所述预设特征提取模型的多个网络层组，以得到每个所述网络层组对应的输出特征；其中，每个所述网络层组包括至少一个卷积层和一个池化层，所述池化层设置于所述网络层组的输出端，所述多个网络层组分别对应不同的池化层；

利用所述预设特征提取模型的输出层处理每个所述网络层组对应的输出特征，得到所述融合特征。

9.根据权利要求7所述的方法，其特征在于，所述确定所述样本视频对应的表征图像，包括：

确定所述样本视频对应的表征音频；其中，所述表征音频包括以下至少之一：主题曲、插曲、背景音乐、旁白、独白、对白；

将所述表征音频对应的音频信号进行转化得到对应的表征图像。

10.一种视频合集确定装置，其特征在于，所述装置包括：

响应模块：用于响应于视频合集确定指令，确定样本视频；

11.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-9任一项所述的视频合集确定方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-9任一项所述的视频合集确定方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-9任一项所述的视频合集确定方法。