CN116962822A

CN116962822A - 视频处理方法、装置、计算机设备及存储介质

Info

Publication number: CN116962822A
Application number: CN202211483695.4A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-11-24
Filing date: 2022-11-24
Publication date: 2023-10-27

Abstract

本申请提供了一种视频处理方法、装置、计算机设备及存储介质，属于人工智能领域中的视频处理技术，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。所述方法包括：基于多个观看对象的对象行为信息和多个发布对象的视频发布信息，确定多个发布对象中每个发布对象的发布对象特征；基于待处理的目标视频的视频信息，对目标视频进行特征提取，得到目标视频的视频内容特征；融合视频内容特征和目标视频的目标发布对象的发布对象特征，得到目标视频的视频融合特征；基于目标视频的视频融合特征，对目标视频进行处理。上述技术方案，能够从视频内容和对象行为两个方面对目标视频进行理解，从而基于该视频融合特征对目标视频进行处理。

Description

视频处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能领域，特别涉及一种视频处理方法、装置、计算机设备及存储介质。

背景技术

随着互联网技术的发展和视频内容生产的门槛降低，视频的上传量以指数级的速度增长，使得运营商从数量庞大的视频中为观看对象进行视频推荐变得尤其困难。因此，如何为观看对象进行视频推荐，是需要解决的问题。

目前，由于任一视频中都包括多个维度的信息，例如标题、封面图以及音频等。通常是针对各个维度分别构建模型，然后分别对各个维度的信息进行嵌入式处理，得到多个维度信息的特征向量。然后，基于各个模型输出的多个维度信息的特征向量，从多个维度为观看对象推荐视频。

上述技术方案存在的问题是，针对不同维度分别构建不同的模型，使得构建模型和维护模型的成本高。

发明内容

本申请实施例提供了一种视频处理方法、装置、计算机设备及存储介质，能够从视频内容和对象行为两个方面对目标视频进行理解，从而基于该视频融合特征对目标视频进行处理。所述技术方案如下：

一方面，提供了一种视频处理方法，所述方法包括：

基于多个观看对象的对象行为信息和多个发布对象的视频发布信息，确定所述多个发布对象中每个发布对象的发布对象特征，所述对象行为信息用于表示所述观看对象与所述多个发布对象之间的交互行为，所述视频发布信息用于表示所述发布对象发布的视频；

基于待处理的目标视频的视频信息，对所述目标视频进行特征提取，得到所述目标视频的视频内容特征，所述视频信息包括所述目标视频的多个视频帧、音频信号和标题文本；

融合所述视频内容特征和所述目标视频的目标发布对象的发布对象特征，得到所述目标视频的视频融合特征；

基于所述目标视频的视频融合特征，对所述目标视频进行处理。

另一方面，提供了一种视频处理装置，所述装置包括：

第一确定模块，用于基于多个观看对象的对象行为信息和多个发布对象的视频发布信息，确定所述多个发布对象中每个发布对象的发布对象特征，所述对象行为信息用于表示所述观看对象与所述多个发布对象之间的交互行为，所述视频发布信息用于表示所述发布对象发布的视频；

提取模块，用于基于待处理的目标视频的视频信息，对所述目标视频进行特征提取，得到所述目标视频的视频内容特征，所述视频信息包括所述目标视频的多个视频帧、音频信号和标题文本；

融合模块，用于融合所述视频内容特征和所述目标视频的目标发布对象的发布对象特征，得到所述目标视频的视频融合特征；

处理模块，用于基于所述目标视频的视频融合特征，对所述目标视频进行处理。

在一些实施例中，所述第一确定模块，包括：

构建单元，用于基于多个观看对象的对象行为信息和多个发布对象的视频发布信息，构建目标加权有向图，所述目标加权有向图中的节点用于表示所述多个发布对象，所述目标加权有向图中的有向边基于观看对象的交互行为的时序构建，所述有向边的权重用于表示发布对象之间的相似程度；

第一确定单元，用于采用随机游走的方式，在所述目标加权有向图中确定多个目标对象序列；

第二确定单元，用于基于所述多个目标对象序列和所述多个发布对象的视频发布信息，确定所述多个发布对象中每个发布对象的发布对象特征。

在一些实施例中，所述第一确定单元，用于对所述目标加权有向图进行采样，得到多个目标节点，所述目标节点的相邻节点的数量大于数量阈值；采用随机游走的方式，以所述多个目标节点为游走目标，确定包括所述目标节点的所述多个目标对象序列。

在一些实施例中，所述构建单元，用于基于所述多个观看对象的对象行为信息，生成多个节点，所述节点用于表示所述对象行为信息涉及的发布对象；基于所述多个观看对象的对象行为信息中交互行为的时序，在所述多个节点之间构建有向边；基于所述多个发布对象的视频发布信息，确定所述多个节点之间的有向边的权重，得到所述目标加权有向图。

在一些实施例中，所述第二确定单元，用于对于任一发布对象，确定所述发布对象的多个视频的视频类别统计信息和对象标签信息，所述视频类别统计信息通过在所述多个视频所属的垂直领域中统计得到，所述对象标签信息通过对所述发布对象的视频发布信息编码得到；以所述发布对象的视频类别统计信息和对象标签信息作为所述发布对象的对象属性信息，基于所述发布对象的目标对象序列，确定所述发布对象的发布对象特征。

在一些实施例中，所述第二确定单元，用于对于任一发布对象，确定所述发布对象的多个视频中每个视频的视频内容特征；以所述每个视频的视频内容特征作为所述发布对象的对象属性信息，基于所述发布对象的目标对象序列，确定所述发布对象的发布对象特征。

在一些实施例中，所述装置还包括：

插入模块，用于将正样本信息插入到负样本向量中，得到难负样本向量；

聚合模块，用于聚合所述难负样本向量的相邻节点信息，得到融合向量；

训练模块，用于基于所述融合向量对所述融合视频向量模型进行训练。

在一些实施例中，所述提取模块，用于对所述目标视频的视频信息中的多个视频帧进行特征提取，得到视频帧特征；对所述目标视频的视频信息中的音频信号进行特征提取，得到第一音频特征；对所述目标视频的视频信息中的标题文本进行特征提取，得到第一文本特征；基于注意力机制，对所述视频帧特征、所述第一音频特征和所述第一文本特征进行融合，得到所述目标视频的视频内容特征。

在一些实施例中，所述目标视频的视频内容特征基于视频预训练模型得到；所述提取模块，用于基于所述视频预训练模型和多个训练标签，对所述目标视频的视频信息中的标题文本进行特征提取，得到第二文本特征，所述训练标签为训练视频携带的标签；基于所述视频预训练模型，对所述目标视频进行特征提取，得到视频特征；基于所述视频预训练模型中的音频特征提取器，对所述目标视频的视频信息中的音频信号进行特征提取，得到第二音频特征；基于注意力机制，对所述第二文本特征、所述视频特征和所述第二音频特征进行融合，得到所述目标视频的视频内容特征。

在一些实施例中，所述装置还包括：

第二确定模块，用于从所述目标视频中确定至少一个第一视频帧，所述第一视频帧与所述第一视频帧的前一帧视频帧之间的亮度变化大于亮度阈值；

抽帧模块，用于对于任一第一视频帧，在所述第一视频帧的前后等间隔的进行抽帧，得到多个第二视频帧；

第三确定模块，用于将所述至少一个第一视频帧和所述多个第二视频帧作为所述目标视频的多个视频帧。

在一些实施例中，所述处理模块，用于基于所述目标视频的视频融合特征，对所述目标视频进行推荐；或者，基于所述目标视频的视频融合特征，从所述多个发布对象发布的多个视频中确定至少一个相似视频，将所述至少一个相似视频补充到视频推荐池中，所述相似视频的视频融合特征与所述目标视频的视频融合特征之间的相似度大于相似度阈值，所述视频推荐池用于进行视频推荐。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段计算机程序，所述至少一段计算机程序由所述处理器加载并执行以实现本申请实施例中的视频处理方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一段计算机程序，所述至少一段计算机程序由处理器加载并执行以实现如本申请实施例中视频处理方法。

另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行以实现本申请实施例中提供的视频处理方法。

本申请实施例提供了一种视频处理方法，通过对目标视频的视频信息进行特征提取，得到目标视频的视频内容特征，避免了对目标视频的每个维度的特征分别建模再分别进行特征提取，减少了建模成本。由于只对目标视频的视频帧、音频和文本等先验信息进行理解是不够的，因此需要加入观看对象交互行为等后验信息，也即通过多个观看对象的对象行为信息和多个发布对象的视频发布信息，确定每个发布对象的发布对象特征。然后，将两个特征进行融合得到视频融合特征，使得能够从视频内容和对象行为两个方面对目标视频进行理解，从而基于该视频融合特征对目标视频进行处理，对目标视频进行推荐或者将与目标视频相似的视频补充到视频推荐池中，使得提升了视频推荐的丰富度，避免了视频推荐的密集和重复，改善观看对象的体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例提供的一种视频处理方法的实施环境示意图；

图2是根据本申请实施例提供的一种视频处理方法的流程图；

图3是根据本申请实施例提供的另一种视频处理方法的流程图；

图4是根据本申请实施例提供的一种账号向量化模型的训练流程图；

图5是根据本申请实施例提供的一种深度游走的示意图；

图6是根据本申请实施例提供的一种多模态视频预处理模型的训练流程图；

图7是根据本申请实施例提供的一种视频处理方法的框图；

图8是根据本申请实施例提供的一种视频处理系统中内容生产端的示意图；

图9是根据本申请实施例提供的一种视频处理系统中内容消费端生产端的示意图；

图10是根据本申请实施例提供的一种视频处理系统中视频处理过程的示意图；

图11是根据本申请实施例提供的一种视频处理装置的框图；

图12是根据本申请实施例提供的另一种视频处理装置的框图；

图13是根据本申请实施例提供的一种终端的结构框图；

图14是根据本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的视频都是在充分授权的情况下获取的。

以下，对本申请涉及的术语进行解释。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实与地图构建等技术。

MCN(Multi-Channel Network，多频道网络)是一种多频道网络的产品形态，将PGC内容联合起来，在资本的有力支持下，保障内容的持续输出，从而最终实现商业的稳定变现。

PGC(Professional Generated Content，专业生产内容)指专业生产内容(视频网站)、专家生产内容(微博)，用来泛指内容个性化、视角多元化、社会关系虚拟化。

UGC(User Generated Content，用户生产内容)是普通大众创造的内容。一般不参与平台分成，源于个人爱好，目的是为了展现自我。

ICF(Item Collaboration Filter，物品协同过滤)是最基本的推荐算法之一，大致思路如下：假设喜欢物品A的用户集合为Sa，相应物品B的为Sb，通常以皮尔逊距离作为物品A和物品B的相似度距离。计算所有物品两两之间的相似距离就能得到一个相似度矩阵，这样当一个用户喜欢物品W就能从矩阵中找出与W相似的物品推荐给用户。

协同过滤就是协同大家的反馈、评价和意见一起对海量的信息进行过滤，从中筛选出目标用户可能感兴趣的信息的推荐过程。协同过滤是一个直观、可解释性强的模型，但推荐结果的头部效应较明显，处理稀疏向量的能力弱。为了解决上述问题，矩阵分解技术在协同过滤共现矩阵的基础上，使用更稠密的隐向量表示用户和物品，挖掘用户和物品的隐含兴趣和隐含特征。另外，为了引入对象特征、物品特征和上下文特征，推荐系统逐渐发展到以逻辑回归模型为核心的、能够综合不同类型特征的机器学习模型的道路上。

泛化能力(generalization ability)是指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据背后的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出，该能力称为泛化能力。

HR(Hit Rate，命中率)反映的是在推荐序列中是否包含了用户真正点击的物品。

Feeds指消息来源，又译为源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源等，是一种资料格式，网站透过它将最新资讯传播给用户，通常以时间轴方式排列，Timeline(时间轴)是Feed最原始最直觉也最基本的展示形式。用户能够订阅网站的先决条件是，网站提供了消息来源。将feed汇流于一处称为聚合(aggregation)，而用于聚合的软体称为聚合器(aggregator)。对最终用户而言，聚合器是专门用来订阅网站的软件。

本申请实施例提供的视频处理方法，能够由计算机设备执行中。在一些实施例中，该计算机设备为终端或服务器。图1是根据本申请实施例提供的一种视频处理方法的实施环境示意图。参见图1，该实施环境包括终端101和服务器102。

终端101和服务器102能够通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在一些实施例中，终端101是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、车载终端、飞行器等，但并不局限于此。终端101安装和运行有支持视频播放的应用程序。

在一些实施例中，服务器102是独立的物理服务器，也能够是多个物理服务器构成的服务器集群或者分布式系统，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102用于为支持视频播放应用程序提供后台服务。在一些实施例中，服务器102承担主要计算工作，终端101承担次要计算工作；或者，服务器102承担次要计算工作，终端101承担主要计算工作；或者，服务器102和终端101二者之间采用分布式计算架构进行协同计算。

图2是根据本申请实施例提供的一种视频处理方法的流程图，如图2所示，在本申请实施例中以由服务器执行为例进行说明。该方法包括以下步骤：

201、服务器基于多个观看对象的对象行为信息和多个发布对象的视频发布信息，确定多个发布对象中每个发布对象的发布对象特征，对象行为信息用于表示观看对象与多个发布对象之间的交互行为，视频发布信息用于表示发布对象发布的视频。

在本申请实施例中，由于视频数量的增多且视频包含的信息较多，使得运营商为观看对象推荐适合的视频的难度也大大增加。为解决该问题，本申请提供了一种由服务器执行的视频处理方法，用于确定为观看对象进行推荐的视频。其中，该服务器用于提供视频相关的后台服务。

为了使视频处理方法更有代表性和广泛性，本申请实施例以服务器基于最近一周内多个观看对象的对象行为信息和最近三个月内多个发布对象的视频发布信息为例进行说明，能够确定每个发布对象的发布对象特征。其中，该对象行为信息用于表示观看对象与发布对象之间的交互行为，例如观看对象对发布对象发布的视频进行了点赞、关注发布对象或者多个观看对象都观看了发布对象发布的同一视频等。该视频发布信息用于表示发布对象发布的视频以及视频的属性信息。通过将观看对象与视频之间的交互行为，转化为观看对象与发布对象之间的交互行为，从而能够更好地理解视频的内容，表示视频的特征，提高推荐效率。

202、服务器基于待处理的目标视频的视频信息，对目标视频进行特征提取，得到目标视频的视频内容特征，视频信息包括目标视频的多个视频帧、音频信号和标题文本。

在本申请实施例中，目标视频为待处理的任一视频。该目标视频通常包括多个维度的信息，例如多个视频帧、音频信号和标题文本。以目标视频的音频信号为例，假设服务器基于音频信号维度的特征为观看对象进行视频推荐，而观看对象可能对视频的音频信号并不感兴趣，从而对基于该音频信号推荐的视频也不感兴趣，导致了推荐效果差，观看体验差。因此，服务器可以对目标视频包括的各个维度的信息都进行特征提取，得到能够表示视频整体内容的视频内容特征，从而能够基于该整体特征来确定用于推荐的视频，使得推荐效果好。

203、服务器融合视频内容特征和目标视频的目标发布对象的发布对象特征，得到目标视频的视频融合特征。

在本申请实施例中，由于只基于目标视频的视频帧、音频信号或文本等先验信息确定用于推荐的视频，或者只基于观看对象与发布对象之间的交互行为进行确定用于推荐的视频，都具有一定的局限性。因此，服务器可以将上述步骤中得到的目标视频的视频内容特征和目标视频的目标发布对象的发布对象特征进行融合，得到目标视频的视频融合特征。由于该视频融合特征为一个统一的描述目标视频的特征向量，使得对目标视频的理解由纯内容变化为内容与交互行为一起的融合，从而能够更好地获取视频内容背后的观看对象的行为特征。

204、服务器基于目标视频的视频融合特征，对目标视频进行处理。

在本申请实施例中，服务器能够基于目标视频的视频融合特征，从目标视频的视频内容以及观看对象与目标发布对象之间的交互行为两个方面理解目标视频的内容，从而能够将视频内容先后验多维度信息映射到统一的语义空间，使得能够更好度量视频和对象之间的相似程度，且通过视频融合特征来统一表示视频，从而能够从平台中检索相似的视频进行补充，提升视频推荐丰富度，使得避免了视频推荐的密集和重复，改善观看对象的体验。

本申请实施例提供了一种视频处理方法，通过对目标视频的视频信息进行特征提取，得到目标视频的视频内容特征，避免了对目标视频的每个维度的特征分别建模再分别进行特征提取，减少了建模成本。由于只对目标视频的视频帧、音频和文本等先验信息进行理解是不够的，因此需要加入观看对象交互行为等后验信息，也即通过多个观看对象的对象行为信息和多个发布对象的视频发布信息，确定每个发布对象的发布对象特征。然后，将两个特征进行融合得到视频融合特征，使得能够从视频内容和对象行为两个方面对目标视频进行处理，对目标视频进行推荐或者将与目标视频相似的视频补充到视频推荐池中，使得提升了视频推荐的丰富度，避免了视频推荐的密集和重复，改善观看对象的体验。

图3是根据本申请实施例提供的另一种视频处理方法的流程图，如图3所示，在本申请实施例中以由服务器执行为例进行说明。该方法包括以下步骤：

301、服务器获取多个观看对象的对象行为信息和多个发布对象的视频发布信息，对象行为信息用于表示观看对象与多个发布对象之间的交互行为，视频发布信息用于表示发布对象发布的视频。

在本申请实施例中，由于目前确定用于推荐的视频时仅考虑了视频内容的先验特征，而忽略了观看对象与视频内容之间的交互行为，也即缺少对后验对象行为信息的利用。因此，服务器可以基于视频内容的先验特征和后验对象行为信息确定用于推荐的视频。可选地，服务器可以获取多个观看对象在第一时间段内的对象行为信息和多个发布对象在第二时间段内的视频发布信息。其中，该服务器用于提供视频相关的后台服务。该观看对象可以为账号，也即可以为只观看视频但不发布视频的账号，也可以为既观看视频也发布视频的账号。该发布对象也可以为账号，也即可以为既观看视频也发布视频的账号。在下述步骤中以第一时间段为最近一周，第二时间段为最近三个月为例进行说明。

302、服务器基于多个观看对象的对象行为信息和多个发布对象的视频发布信息，构建目标加权有向图，目标加权有向图中的节点用于表示多个发布对象，目标加权有向图中的有向边基于观看对象的交互行为的时序构建，有向边的权重用于表示发布对象之间的相似程度。

在本申请实施例中，该服务器通过上述步骤中获取到的多个观看对象的对象行为信息，能够确定多个观看对象的多个对象行为序列。其中，该对象行为序列包括与观看对象发生交互行为的发布对象以及发生交互行为的时序。然后，服务器可以基于多个对象行为序列，也即基于观看对象与发布对象之间的交互行为的时序，生成多个节点，该节点用于表示与观看对象发生交互行为的发布对象。然后，服务器基于多个观看对象与多个发布对象之间的交互行为的时序，在多个节点之间构建有向边。然后，服务器基于对象之间的相似程度，确定多个节点之间的有向边的权重，得到目标加权有向图。其中，对象之间的相似程度可以用ICF值(Item Collaboration Filter，物品协同过滤)表示，包括发布的视频内容的相似程度和对象消费行为的相似程度，该对象消费行为表示对任一观看对象或任一发布对象发布的视频进行点赞、关注或播放等行为。通过构建目标加权有向图，使得能够清楚地显示出多个对象之间的交互关系，从而为得到后验行为信息的特征向量提供支持。

例如，对于任一观看对象A，若观看对象A先观看了发布对象D的视频，再观看了发布对象B的视频，最后观看了发布对象E的视频。根据观看对象A与三个发布对象发生交互行为的时序，能够得到观看对象A的对象行为序列为D-B-E。基于该对象行为序列，能够构建由表示发布对象D的节点指向表示发布对象B的节点的有向边，构建由表示发布对象B的节点指向表示发布对象E的节点的有向边。

303、服务器采用随机游走的方式，在目标加权有向图中确定多个目标对象序列。

在本申请实施例中，服务器能够基于目标加权有向图中边的权重，对目标加权有向图进行采样，得到多个目标节点。然后，服务器采用随机游走的方式，以多个目标节点为游走目标，确定包括目标节点的多个目标对象序列。其中，该目标节点的相邻节点的数量大于数量阈值，也可以称为热门节点。通过采样时往热门节点方向游走，这样采样出来的目标对象序列更为准确、置信度更高。

304、服务器基于多个目标对象序列和多个发布对象的视频发布信息，确定多个发布对象中每个发布对象的发布对象特征。

在本申请实施例中，由于目标对象序列和视频发布信息都能反映出发布对象的行为信息，因此，服务器可以对多个目标对象序列和多个发布对象的视频发布信息进行处理，得到每个发布对象的发布对象特征，也即能够得到对象的后验行为信息的特征，将观看对象与目标视频之间的交互行为转化为观看对象与发布对象之间的行为，从而能够更好地理解目标视频的内容。

在一些实施例中，服务器可以基于深度游走方式来确定每个发布对象的发布对象特征。其中，深度游走方式为随机游走方式与跳字模型(Skip-Gram)的组合。相应地，服务器基于多个观看对象的对象行为信息，构造多个对象行为序列。然后，服务器从多个对象行为序列中抽取数据集。然后，服务器采用随机游走的方式从数据集中进行抽样，得到多个目标节点。然后，服务器采用随机游走的方式，以多个目标节点为游走目标，得到多个目标对象序列。然后，服务器采用跳字模型对多个目标对象序列以及对象属性信息进行处理，得到发布对象特征。其中，该对象属性信息用于表示对象标签信息以及视频类别统计信息。该对象标签信息可以基于Word2vec(Word To Vector)对视频发布信息进行编码得到。该视频类别统计信息可以在该视频所属的垂直领域中统计得到。通过确定每个发布对象的发布对象特征，能够将观看对象与目标视频之间的交互行为转化为观看对象与发布对象之间的行为，从而能够更好地理解目标视频的内容。

在一些实施例中，服务器可以通过与下述步骤305相似的方式，得到发布对象的多个视频的视频内容特征，从而得到发布对象的发布对象特征。相应地，对于任一发布对象，服务器确定发布对象的多个视频中每个视频的视频内容特征。然后，服务器以每个视频的视频内容特征作为发布对象的对象属性信息，基于发布对象的目标对象序列，确定发布对象的发布对象特征。通过确定每个发布对象的发布对象特征，能够将观看对象与目标视频之间的交互行为转化为观看对象与发布对象之间的行为，从而能够更好地理解目标视频的内容。

在一些实施例中，上述步骤302-步骤304可以通过对象向量化模型来实现。图4是根据本申请实施例提供的一种对象向量化模型的训练流程图。如图4所示，U表示观看对象，节点表示发布对象。服务器可以基于多个观看对象的对象行为信息，构造对象行为序列，例如，观看对象U1先观看了发布对象D的视频，然后观看了发布对象A的视频，然后观看了发布对象B的视频，得到对象行为序列D-A-B。然后，服务器基于多个样本对象行为序列构造目标加权有向图。然后，服务器采用随机游走的方式，以从目标加权有向图中采样得到的多个目标节点为游走目标，确定多个目标对象序列。然后，服务器采用加权随机游走的方式，基于多个目标对象序列和对象属性信息，得到对象向量化模型。图5是根据本申请实施例提供的一种深度游走的示意图。如图5所示，SI0-SIn表示对象属性信息。为了融合多个特征向量，使之形成最后的发布对象特征，对每类特征对应的向量分别赋予权重。图5中的隐层表示就是对不同特征向量进行加权平均操作的层，将加权平均后的特征向量输入负采样输出层，通过梯度反向传播，求得每个特征向量的权重。深度游走为随机游走与跳字模型的组合。随机游走负责对图结构进行采样，获得图中节点与节点的邻接关系，跳字模型从采样的序列中训练节点的特征向量，即图5中隐层表示的结果。在对象行为序列的原始数据上，随机游走生成新的目标对象序列，然后加入对象行为信息，基于账号向量化模型，得到发布对象特征。

305、服务器基于待处理的目标视频的视频信息，对目标视频进行特征提取，得到目标视频的视频内容特征，视频信息包括目标视频的多个视频帧、音频信号和标题文本。

在本申请实施例中，服务器可以对待处理的目标视频进行特征提取，得到能够表示目标视频的整体视频内容的特征。相应地，服务器对目标视频的视频信息中的多个视频帧进行特征提取，得到视频帧特征。然后，服务器对目标视频的视频信息中的音频信号进行特征提取，得到第一音频特征。然后，服务器对目标视频的视频信息中的标题文本进行特征提取，得到第一文本特征。然后，服务器基于注意力机制，对视频帧特征、第一音频特征和第一文本特征进行融合，得到目标视频的视频内容特征。通过获取目标视频的视频内容特征，能够得到目标视频的多个维度的特征，从而能够基于先验视频特征更好地理解视频内容，避免了对每个维度单独建模进行特征提取，减少了建模成本。

在一些实施例中，服务器可以采用多种方法对目标视频进行抽帧，例如均匀抽帧、变长抽帧或等间隔抽帧。若服务器采用均匀抽帧的方式对目标视频进行抽帧，以1秒抽取1帧为例，会导致采样频率过高，增加抽帧的负担和计算量，从而使得计算成本增大。若服务器采用变长抽帧的方式对目标视频进行抽帧，以1秒、3秒、5秒间隔抽帧为例，会导致帧率不够。因此，服务器可以先确定第一视频帧，再基于第一视频帧进行等间隔抽帧。其中，第一视频帧与第一视频帧的前一帧视频帧之间的亮度变化大于亮度阈值。相应地，服务器从目标视频中确定至少一个第一视频帧。然后，对于任一第一视频帧，服务器在第一视频帧的前后等间隔的进行抽帧，得到多个第二视频帧。然后，服务器将至少一个第一视频帧和多个第二视频帧作为目标视频的多个视频帧。通过基于亮度变化明显的视频帧进行等间隔抽帧，使得得到的视频帧的数量能够满足使用且效率高。

在一些实施例中，步骤305可以通过多模态视频预处理模型来实现。对于任一目标视频，服务器通过下述四种预训练任务实现对多模态视频预处理模型的训练。任务一，服务器基于MLM(Mask language Modeling，掩码语言建模)对目标视频信息中的标题文本进行掩码，然后，服务器基于多模态视频预处理模型，通过自监督的方式对被掩码的文本进行复原。任务二，服务器基于MFM(Mask Frame Modeling，掩码帧建模)对目标视频信息中的多个视频帧的特征进行掩码，然后，服务器基于多模态视频预处理模型重构视频帧的特征。任务三，服务器基于VTM(Video To Text，视频到文本)将目标视频信息中的视频-文本对当作正样本，从其他视频的标题中随机采样一个作为负样本，然后，服务器基于多模态视频预处理模型预测视频-文本对的正负。任务四，服务器基于VTA(Video To Audio，视频到音频)将目标视频信息中的视频-音频对当作正样本，从其他视频的音频信号中随机采样一个作为负样本，然后，服务器基于多模态视频预处理模型预测视频-音频对的正负。

例如，服务器可以通过MLM对15％的标题文本进行掩码。对于被掩码的标题文本，其中的80％被替换为mask，10％被随机替换成其它单词，10％不变。

例如，图6是根据本申请实施例提供的一种多模态视频预处理模型的训练流程图。如图6所示，服务器可以通过EffencientNet得到视频帧信息，通过Vggish抽取音频信号，然后通过多层Transformer结构构造得到多模态视频预处理模型。然后，服务器将样本视频信息输入到多模态Transformer中，通过多层Transformer结构后，再通过四种预训练任务，完成对多模态视频预处理的训练。

在一些实施例中，服务器还可以通过视频预训练模型得到目标视频的视频内容特征。相应地，服务器基于视频预训练模型和多个训练标签，对目标视频的视频信息中的标题文本进行特征提取，得到第二文本特征。然后，服务器基于视频预训练模型，对目标视频进行特征提取，得到视频特征。然后，服务器基于视频预训练模型中的音频特征提取器，对目标视频的视频信息中的音频信号进行特征提取，得到第二音频特征。然后，服务器基于注意力机制，对第二文本特征、视频特征和第二音频特征进行融合，得到目标视频的视频内容特征。其中，该训练标签为训练视频携带的标签。通过获取目标视频的视频内容特征，能够得到目标视频的多个维度的特征，从而能够基于先验视频特征更好地理解视频内容。

在一些实施例中，视频预训练模型包括三部分，分别对标题文本、目标视频和音频信号进行特征提取。其中，采用视频预训练模型，引入HashTag来对标题文本进行特征提取。HashTag为训练标签，也即训练视频的视频内容的关键词；采用视频预训练模型中的VideoSwinT模型可以直接对目标视频进行特征提取，不需要对目标视频进行抽帧；采用视频预训练模型中的wavlm-base-plus提取器对音频信号进行特征提取。

306、服务器融合视频内容特征和目标视频的目标发布对象的发布对象特征，得到目标视频的视频融合特征。

在本申请实施例中，服务器可以对视频内容特征和发布对象特征进行融合，得到目标视频的视频融合特征，能够将视频内容先后验多维度信息映射到统一的语义空间，使得能够基于目标视频的先验视频特征和目标发布对象的后验行为特征理解目标视频。

在一些实施例中，步骤306可以通过融合视频向量模型来实现。服务器可以采用多种方式对视频向量的进行融合，例如GraphSAGE(Graph Sample And aggregate，图采样和聚合)、MCNS(Markov Chain Monte CarloNegative Sampling，马尔可夫链蒙特卡罗负采样)和MixGCF模型(Mix Graph Collaboration Filter，混合图协同过滤)。本申请实施例以MixGCF模型为例进行说明。MixGCF模型是一种新的负采样合成方式，而不是直接从数据中挑选负样本。MixGCF模型在进行负采样时包括两个步骤，也即positive mixing(正混合)和hop mixing。相应地，服务器采用positive mixing将正样本信息插入到负样本向量中，得到难负样本向量。然后，服务器采用hop mixing聚合难负样本向量的相邻节点信息，得到融合向量。通过训练MixGCF模型，使得负样本增强，从而提高了模型的泛化能力，且难负样本的生成结合了不同样本的语义信息，从而为融合视频向量模型提供了富含信息的梯度。

在一些实施例中，服务器可以构造多个样本来验证融合视频向量模型的训练效果。其中，该样本为服务器在视频推荐池中，基于最近一个月的对象之间的关注行为，筛选出发布过视频的验证对象。然后，对于任一验证对象，根据ICF值(Item CollaborationFilter，物品协同过滤)确定与该验证对象相似的多个其他验证对象。然后，服务器基于融合视频向量模型得到的融合向量，确定多个验证对象，并计算相应的HR(Hit Rate，命中率)。需要说明的是，该多个其他验证对象与验证对象之间的相似程度可以通过人工进行校验。

需要说明的是，由于融合视频向量模型为基于对象行为和视频内容得到的模型，因此，模型的训练目标不是只对后验行为信息或者视频的先验特征进行拟合，而是要基于先后验信息，得到在只有后验行为信息的情况下或者在只有视频先验特征的情况下不能得到的相似对象。通过融合向量计算得到的命中率，需要让训练得到的融合视频向量模型能较好地拟合对象的关注及消费序列行为，且能预测到其他方面相似的相似对象，例如视频内容方面。因此，该命中率的取值不能太高也不能太低，本申请实施例以命中率的取值在[0.15,0.3]范围内为例进行说明。

307、服务器基于目标视频的视频融合特征，对目标视频进行处理。

在本申请实施例中，服务器能够基于视频融合特征，对目标视频进行处理。相应地，服务器基于目标视频的视频融合特征，对目标视频进行推荐。或者，服务器基于目标视频的视频融合特征，从多个发布对象发布的多个视频中确定至少一个相似视频，将至少一个相似视频补充到视频推荐池中。其中，该相似视频的视频融合特征与目标视频的视频融合特征之间的相似度大于相似度阈值。通过基于目标视频的视频融合特征，能够从目标视频的视频内容以及观看对象与目标发布对象之间的交互行为两个方面理解目标视频的内容，从而能够将视频内容先后验多维度信息映射到统一的语义空间，使得能够更好度量视频和对象之间的相似程度，且通过视频融合特征来统一表示视频，从而能够从平台中检索相似的视频进行补充，提升视频推荐丰富度，使得避免了视频推荐的密集和重复，改善观看对象的体验。

例如，图7是根据本申请实施例提供的一种视频处理方法的框图。如图7所示，服务器将目标视频输入到多模态视频预处理模型中，得到视频内容特征。然后，服务器将目标发布对象输入到账号向量化模型中，得到发布对象特征。然后，服务器将视频内容特征和发布对象特征输入到融合视频向量模型中，通过全连接层(Fully Connected Layer，FCL)得到视频融合特征，进而基于该视频融合特征确定用于推荐的视频。

本申请实施例提供了一种视频处理方法，通过对目标视频的视频信息进行特征提取，得到目标视频的视频内容特征，避免了对目标视频的每个维度的特征分别建模再分别进行特征提取，减少了建模成本。由于只对目标视频的视频帧、音频和文本等先验信息进行理解是不够的，因此需要加入观看对象交互行为等后验信息，也即通过观看对象与目标发布对象发布的多个视频之间的交互行为，确定目标发布对象的发布对象特征。然后，将两个特征进行融合得到视频融合特征，使得能够从视频内容和对象行为两个方面对目标视频进行理解，从而基于该视频融合特征对目标视频进行处理，对目标视频进行推荐或者将与目标视频相似的视频补充到视频推荐池中，使得提升了视频推荐的丰富度，避免了视频推荐的密集和重复，改善观看对象的体验。

图8是根据本申请实施例提供的一种视频处理系统中内容生产端的示意图。如图8所示，内容生产端通过上下行内容接口服务器上传要发布的视频。然后，通过内容存储服务模块存储该视频的源文件。然后，将该视频的内容元信息写入到内容数据库中。然后，通过上下行内容接口服务器，将该视频输入调度中心服务模块。然后，调度中心服务模块调用融合视频向量模型对该视频进行处理。然后，调度中心服务模块将融合视频向量模型的输出结果同步给人工审核系统模块。然后，人工审核系统模块从内容数据库中读取原始视频。然后，通过调度中心服务模块对内容数据库中的元信息进行更新。然后，调度中心服务模块通过启动内容分发出口服务进行视频分发。然后，通过内容分发出口服务模块将视频分发给内容消费端。

在一些实施例中，图9是根据本申请实施例提供的一种视频处理系统中内容消费端生产端的示意图。如图9所示，内容消费端通过上下行内容接口服务器获取视频的索引信息。然后，内容消费端通过内容存储服务模块直接获取视频源文件。然后，上下行内容接口服务器上报对象发文流水给统计与分析接口服务模块。然后，内容消费端上报对象行为和流水给统计与分析接口服务。

在一些实施例中，图10是根据本申请实施例提供的一种视频处理系统中视频处理过程的示意图。如图10所示，下载文件系统模块从内容存储服务模块中下载视频文件。然后，抽帧和抽音频服务模块对下载文件系统模块下载的文件进行处理。然后，多模态视频预处理模型从抽帧和抽音频服务模块中读取视频帧和音频信号以及视频元信息。然后，多模态视频预处理模型对读取到的视频的多个特征进行处理，输出视频内容特征。然后，对象向量化模型从统计与分析接口服务模块中读取对象行为统计信息，从调度中心服务模块中读取视频元数据。然后，对象向量化模型对对象行为统计信息和视频元数据进行处理，输出发布对象特征。然后，融合视频向量模型将视频内容特征和发布对象特征进行融合，输出视频融合特征。然后，融合视频向量模型将视频融合特征写入视频内容向量库中，融合视频向量模型还可以从视频内容向量库中读取该视频或者其他视频的视频融合特征用于后续进行视频推荐。

下面对内容生产端、内容消费端和模型处理过程中涉及到的各个模块和各个服务进行说明。

在一些实施例中，对内容生产端和内容消费端进行说明。PGC(ProfessionalGenerated Content,专业生产内容)、UGC(User Generate Content，用户生产内容)和MCN(Multi-Channel Network，多频道网络)内容生产者，可以通过终端上传视频，例如移动端或者后端接口API(Application Programming Interface，应用程序编程接口)系统。其中，该视频属于视频推荐池，也即推荐分发内容的主要内容来源。

通过上下行内容接口服务器的通讯，可以实现视频的上传、发布和获取。其中，视频发布可以通过拍摄摄影端，在视频拍摄过程中可以选择搭配视频的音乐、封面图、滤镜模板和美化功能等。

观看对象通过上下行内容接口服务器可以获取访问视频的索引信息。然后，观看对象和内容存储服务器通讯，获取对应的视频内容，例如推荐的视频和专题订阅的视频。其中，内容存储服务器存储的是内容实体比如视频源文件、封面图的图片源文件，而内容的元信息比如标题、发布对象、封面图、分类，标签信息等存储在内容数据库。

在上传视频和下载视频过程中，可以将观看对象播放视频时的行为数据、卡顿情况、视频加载时间以及播放点击等情况上报给后端用于统计分析。

内容消费端通常通过Feeds流(信息流)方式浏览视频。

在一些实施例中，对上下行内容接口服务器进行说明。上下行内容接口服务器可以直接和内容生产端通讯，获取内容生产端提交的视频内容，例如视频的标题、发布对象、摘要、封面图和发布时间。然后，把获取到的内容存入内容数据库。上下行内容接口服务器还可以将视频内容的元信息写入内容数据库。其中，该元信息包括视频大小、封面图链接、标题、发布时间和发布对象等信息。上下行内容接口服务器还可以将发布的视频内容同步给调度中心服务模块，进行后续的视频内容处理和流转。

在一些实施例中，对内容数据库进行说明。内容数据库为视频内容的核心数据库，所有发布对象发布的视频内容的元信息都保存在该数据库中。其中，该内容数据库包括视频内容本身的元信息、视频是否为原创的标记、视频是否为首发以及人工审核过程中对视频内容的分类。其中，该视频内容的分类包括三个级别的分类以及对应的标签信息。例如，任一视频的视频内容为介绍A品牌手机，对该视频进行人工分类，可以得到该视频的一级分类为科技，二级分类为智能手机，三级分类是国内手机，标签信息为A品牌和手机型号。

在人工审核的过程中，会读取内容数据库中的信息。同时，将人工审核的结果和状态回传到内容数据库中。其中，该人工审核的状态表示是否启用进入视频推荐池进行公开分发。

调度中心服务模块可以通过机器或者人工对视频内容进行处理。其中，机器处理的核心包括质量判断、内容标签和内容相似排查。其中，质量判断可以对视频内容的画面、音频、内容等方面进行判断。内容标签可以通过三个级别的分类确定。内容相似排查可以基于视频内容的多维度信息进行，相似排查的结果会写入内容数据库。需要说明的是，在对视频内容进行处理时，人工和机器可以同时处理。对于任一视频的视频内容，若机器已经进行过处理，人工就不会再次进行处理，从而节省审核的人力资源。

在一些实施例中，对调度中心服务模块和人工审核系统模块进行说明。调度中心服务模块负责内容流转的整个调度过程，通过上下行内容接口服务器接收存入内容数据库的内容，然后从内容数据库中获取内容的元信息。

人工审核系统模块和机器处理系统模块，可以控制调度的顺序和优先级。视频内容通过人工审核系统模块被启用，然后通过内容出口分发服务模块，例如推荐引擎、搜索引擎或者运营，直接提供给终端的观看对象。对于任一视频的视频内容，可以通过标签扩展服务丰富和扩展视频内容的标签，以提升内容冷启动和运营的效率。其中，人工审核系统模块为人工服务能力的载体，可以用于审核过滤机器无法确定判断的内容，同时还可以对视频内容进行标签标注。需要说明的是，由于机器处理和人工处理是同时进行的，不会对同一视频进行两次判断。但对于任一视频，若机器无法进行判断，那么可以转由人工进行判断。

在一些实施例中，对内容存储服务模块进行说明。内容存储服务模块可以存储视频内容的元信息之外的内容实体信息，例如视频源文件和图文内容的图片源文件。在进行视频内容特征提取时，内容存储服务模块可以提供视频源文件的临时存储，避免重复抽取。其中，该视频源文件包括源文件中间的抽帧内容和音频信号。

在一些实施例中，对下载文件系统模块进行说明。下载文件系统采用一组并行的服务器，通过相关的任务调度和分发集群构成，可以从内容存储服务器中下载和获取原始的内容，也可以对下载的速度和进度进行调控。对于下载完成的内容，可以调用抽帧服务模块从内容中获取必要的文件关键帧和音频信号，为后续构造多模态视频预训练模型做准备。

在一些实施例中，对抽帧和抽取音频服务模块进行说明。对下载文件系统模块从内容存储服务模块上下载到的视频进行内容特征的初级处理。然后，可以采用上述步骤305中的抽帧方法，对内容的帧序列和音频特征进行抽取。

在一些实施例中，对多模态视频预处理模型进行说明。多模态视频预处理模型可以通过按照上述步骤305描述的模型结构和训练方法得到，通过标题文本，通过EffencientNet得到的视频帧，通过Vggish抽取的音频信号,然后通过多层Transformer结构构造对应的模型。

在一些实施例中，对对象向量化模型进行说明。对象向量化模型按照上述步骤304描述的模型结构，将对象看做是内容的聚合，对象的相似不仅是视频内容的相似，还包括对象消费行为的相似。由于相似对象有共同的关注和点击等行为，可以得到对象行为序列，进而构建对象间的加权有向图。其中，节点表示对象，有向边的权重表示对象之间的ICF值。然后加入对象先验特征，包括对象类别、对象标签、视频内容标签。然后采用随机游走的方式来得到最终的发布对象特征。

在一些实施例中，对视频内容向量库进行说明。为了下游使用，对于每个进入视频推荐池中的视频内容，将视频的视频融合特征，保存在对应的视频内容向量库当中，同时会对视频内容进行降维和建立索引，比如采用faiss库(Facebook AI Similarity Search，相似向量检索库)构建向量检索服务，以保证在不同场景下进行推荐使用。

在一些实施例中，对融合视频向量模型进行说明。融合视频向量模型按照上述步骤306描述的融合方法，将对象向量化模型与多模态视频预处理模型得到的向量融合为最终的视频融合特征，同时将该模型服务化。然后，和内容调度中心服务模块通讯，对于内容流转链路上启用的视频内容，通过融合服务得到最终的视频融合特征。

在一些实施例中，对统计与分析接口服务模块进行说明。统计与分析接口服务模块用于接收对象发布视频内容时上报的发布流水信息和终端的消费流水信息的上报。然后，对上报的流水进行统计挖掘和分析，得到对象与视频交互行为的统计信息，为后续筛选账号向量化模型的数据提供支持。

图11是根据本申请实施例提供的一种视频处理装置的框图。该装置用于执行上述方法执行时的步骤，参见图11，装置包括：

第一确定模块1101，用于基于多个观看对象的对象行为信息和多个发布对象的视频发布信息，确定多个发布对象中每个发布对象的发布对象特征，对象行为信息用于表示观看对象与多个发布对象之间的交互行为，视频发布信息用于表示发布对象发布的视频；

提取模块1102，用于基于待处理的目标视频的视频信息，对目标视频进行特征提取，得到目标视频的视频内容特征，视频信息包括目标视频的多个视频帧、音频信号和标题文本；

融合模块1103，用于融合视频内容特征和目标视频的目标发布对象的发布对象特征，得到目标视频的视频融合特征；

处理模块1104，用于基于目标视频的视频融合特征，对目标视频进行处理。

在一些实施例中，图12是根据本申请实施例提供的另一种视频处理装置的框图。参见图12所示，第一确定模块1101，包括：

构建单元1201，用于基于多个观看对象的对象行为信息和多个发布对象的视频发布信息，构建目标加权有向图，目标加权有向图中的节点用于表示多个发布对象，目标加权有向图中的有向边基于观看对象的交互行为的时序构建，有向边的权重用于表示发布对象之间的相似程度；

第一确定单元1202，用于采用随机游走的方式，在目标加权有向图中确定多个目标对象序列；

第二确定单元1203，用于基于多个目标对象序列和多个发布对象的视频发布信息，确定多个发布对象中每个发布对象的发布对象特征。

在一些实施例中，第一确定单元1202，用于对目标加权有向图进行采样，得到多个目标节点，目标节点的相邻节点的数量大于数量阈值；采用随机游走的方式，以多个目标节点为游走目标，确定包括目标节点的多个目标对象序列。

在一些实施例中，构建单元1201，用于基于多个观看对象的对象行为信息，生成多个节点，节点用于表示对象行为信息涉及的发布对象；基于多个观看对象的对象行为信息中交互行为的时序，在多个节点之间构建有向边；基于多个发布对象的视频发布信息，确定多个节点之间的有向边的权重，得到目标加权有向图。

在一些实施例中，第二确定单元1203，用于对于任一发布对象，确定发布对象的多个视频的视频类别统计信息和对象标签信息，视频类别统计信息通过在多个视频所属的垂直领域中统计得到，对象标签信息通过对发布对象的视频发布信息编码得到；以发布对象的视频类别统计信息和对象标签信息作为发布对象的对象属性信息，基于发布对象的目标对象序列，确定发布对象的发布对象特征。

在一些实施例中，第二确定单元1203，用于对于任一发布对象，确定发布对象的多个视频中每个视频的视频内容特征；以每个视频的视频内容特征作为发布对象的对象属性信息，基于发布对象的目标对象序列，确定发布对象的发布对象特征。

在一些实施例中，参见图12所示，装置还包括：

插入模块1105，用于将正样本信息插入到负样本向量中，得到难负样本向量；

聚合模块1106，用于聚合难负样本向量的相邻节点信息，得到融合向量；

训练模块1107，用于基于融合向量对融合视频向量模型进行训练。

在一些实施例中，提取模块1102，用于对目标视频的视频信息中的多个视频帧进行特征提取，得到视频帧特征；对目标视频的视频信息中的音频信号进行特征提取，得到第一音频特征；对目标视频的视频信息中的标题文本进行特征提取，得到第一文本特征；基于注意力机制，对视频帧特征、第一音频特征和第一文本特征进行融合，得到目标视频的视频内容特征。

在一些实施例中，提取模块1102，用于基于视频预训练模型和多个训练标签，对目标视频的视频信息中的标题文本进行特征提取，得到第二文本特征，训练标签为训练视频携带的标签；基于视频预训练模型，对目标视频进行特征提取，得到视频特征；基于视频预训练模型中的音频特征提取器，对目标视频的视频信息中的音频信号进行特征提取，得到第二音频特征；基于注意力机制，对第二文本特征、视频特征和第二音频特征进行融合，得到目标视频的视频内容特征。

在一些实施例中，参见图12所示，装置还包括：

第二确定模块1108，用于从目标视频中确定至少一个第一视频帧，第一视频帧与第一视频帧的前一帧视频帧之间的亮度变化大于亮度阈值；

抽帧模块1109，用于对于任一第一视频帧，在第一视频帧的前后等间隔的进行抽帧，得到多个第二视频帧；

第三确定模块1110，用于将至少一个第一视频帧和多个第二视频帧作为目标视频的多个视频帧。

在一些实施例中，处理模块1103，用于基于目标视频的视频融合特征，对目标视频进行推荐；或者，基于目标视频的视频融合特征，从多个发布对象发布的多个视频中确定至少一个相似视频，将至少一个相似视频补充到视频推荐池中，相似视频的视频融合特征与目标视频的视频融合特征之间的相似度大于相似度阈值，视频推荐池用于进行视频推荐。

本申请实施例提供了一种视频处理装置，通过对目标视频的视频信息进行特征提取，得到目标视频的视频内容特征，避免了对目标视频的每个维度的特征分别建模再分别进行特征提取，减少了建模成本。由于只对目标视频的视频帧、音频和文本等先验信息进行理解是不够的，因此需要加入观看对象交互行为等后验信息，也即通过多个观看对象的对象行为信息和多个发布对象的视频发布信息，确定每个发布对象的发布对象特征。然后，将两个特征进行融合得到视频融合特征，使得能够从视频内容和对象行为两个方面对目标视频进行理解，从而基于该视频融合特征对目标视频进行处理，对目标视频进行推荐或者将与目标视频相似的视频补充到视频推荐池中，使得提升了视频推荐的丰富度，避免了视频推荐的密集和重复，改善观看对象的体验。

需要说明的是：上述实施例提供的视频处理装置在运行应用程序时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频处理装置与视频处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在本申请实施例中，计算机设备能够被配置为终端或者服务器，当计算机设备被配置为终端时，可以由终端作为执行主体来实施本申请实施例提供的技术方案，当计算机设备被配置为服务器时，可以由服务器作为执行主体来实施本申请实施例提供的技术方案，也可以通过终端和服务器之间的交互来实施本申请提供的技术方案，本申请实施例对此不作限定。

图13是根据本申请实施例提供的一种终端1300的结构框图。该终端1300可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts GroupAudio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture ExpertsGroup Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1300还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1300包括有：处理器1301和存储器1302。

处理器1301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1301可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1301可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1301还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1302中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器1301所执行以实现本申请中方法实施例提供的视频处理方法。

在一些实施例中，终端1300还可选包括有：外围设备接口1303和至少一个外围设备。处理器1301、存储器1302和外围设备接口1303之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1303相连。具体地，外围设备包括：射频电路1304、显示屏1305、摄像头组件1306、音频电路1307和电源1308中的至少一种。

外围设备接口1303可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1301和存储器1302。在一些实施例中，处理器1301、存储器1302和外围设备接口1303被集成在同一芯片或电路板上；在一些其他实施例中，处理器1301、存储器1302和外围设备接口1303中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1304用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1304通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1304将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。在一些实施例中，射频电路1304包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1304还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1305用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1305是触摸显示屏时，显示屏1305还具有采集在显示屏1305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1301进行处理。此时，显示屏1305还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1305可以为一个，设置在终端1300的前面板；在另一些实施例中，显示屏1305可以为至少两个，分别设置在终端1300的不同表面或呈折叠设计；在另一些实施例中，显示屏1305可以是柔性显示屏，设置在终端1300的弯曲表面上或折叠面上。甚至，显示屏1305还可以设置成非矩形的不规则图形，也即异形屏。显示屏1305可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode，有机发光二极管)等材质制备。

摄像头组件1306用于采集图像或视频。在一些实施例中，摄像头组件1306包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1306还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1307可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1301进行处理，或者输入至射频电路1304以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1301或射频电路1304的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1307还可以包括耳机插孔。

电源1308用于为终端1300中的各个组件进行供电。电源1308可以是交流电、直流电、一次性电池或可充电电池。当电源1308包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1300还包括有一个或多个传感器1309。该一个或多个传感器1309包括但不限于：加速度传感器1310、陀螺仪传感器1311、压力传感器1312、光学传感器1313以及接近传感器1314。

加速度传感器1310可以检测以终端1300建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1310可以用于检测重力加速度在三个坐标轴上的分量。处理器1301可以根据加速度传感器1310采集的重力加速度信号，控制显示屏1305以横向视图或纵向视图进行用户界面的显示。加速度传感器1310还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1311可以检测终端1300的机体方向及转动角度，陀螺仪传感器1311可以与加速度传感器1310协同采集用户对终端1300的3D动作。处理器1301根据陀螺仪传感器1311采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1312可以设置在终端1300的侧边框和/或显示屏1305的下层。当压力传感器1312设置在终端1300的侧边框时，可以检测用户对终端1300的握持信号，由处理器1301根据压力传感器1312采集的握持信号进行左右手识别或快捷操作。当压力传感器1312设置在显示屏1305的下层时，由处理器1301根据用户对显示屏1305的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器1313用于采集环境光强度。在一个实施例中，处理器1301可以根据光学传感器1313采集的环境光强度，控制显示屏1305的显示亮度。具体地，当环境光强度较高时，调高显示屏1305的显示亮度；当环境光强度较低时，调低显示屏1305的显示亮度。在另一个实施例中，处理器1301还可以根据光学传感器1313采集的环境光强度，动态调整摄像头组件1306的拍摄参数。

接近传感器1314，也称距离传感器，通常设置在终端1300的前面板。接近传感器1314用于采集用户与终端1300的正面之间的距离。在一个实施例中，当接近传感器1314检测到用户与终端1300的正面之间的距离逐渐变小时，由处理器1301控制显示屏1305从亮屏状态切换为息屏状态；当接近传感器1314检测到用户与终端1300的正面之间的距离逐渐变大时，由处理器1301控制显示屏1305从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图13中示出的结构并不构成对终端1300的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图14是根据本申请实施例提供的一种服务器的结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(CentralProcessing Units，CPU)1401和一个或一个以上的存储器1402，其中，该存储器1402中存储有至少一条计算机程序，该至少一条计算机程序由该处理器1401加载并执行以实现上述各个方法实施例提供的视频处理方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一段计算机程序，该至少一段计算机程序由计算机设备的处理器加载并执行以实现上述实施例的方法中计算机设备所执行的操作。例如，所述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、光盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述各种可选实现方式中提供的视频处理方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于多个观看对象的对象行为信息和多个发布对象的视频发布信息，确定所述多个发布对象中每个发布对象的发布对象特征，包括：

基于多个观看对象的对象行为信息和多个发布对象的视频发布信息，构建目标加权有向图，所述目标加权有向图中的节点用于表示所述多个发布对象，所述目标加权有向图中的有向边基于观看对象的交互行为的时序构建，所述有向边的权重用于表示发布对象之间的相似程度；

采用随机游走的方式，在所述目标加权有向图中确定多个目标对象序列；

基于所述多个目标对象序列和所述多个发布对象的视频发布信息，确定所述多个发布对象中每个发布对象的发布对象特征。

3.根据权利要求2所述的方法，其特征在于，所述采用随机游走的方式，在所述目标加权有向图中确定多个目标对象序列，包括：

对所述目标加权有向图进行采样，得到多个目标节点，所述目标节点的相邻节点的数量大于数量阈值；

采用随机游走的方式，以所述多个目标节点为游走目标，确定包括所述目标节点的所述多个目标对象序列。

4.根据权利要求2所述的方法，其特征在于，所述基于多个观看对象的对象行为信息和多个发布对象的视频发布信息，构建目标加权有向图，包括：

基于所述多个观看对象的对象行为信息，生成多个节点，所述节点用于表示所述对象行为信息涉及的发布对象；

基于所述多个观看对象的对象行为信息中交互行为的时序，在所述多个节点之间构建有向边；

基于所述多个发布对象的视频发布信息，确定所述多个节点之间的有向边的权重，得到所述目标加权有向图。

5.根据权利要求2所述的方法，其特征在于，所述基于所述多个目标对象序列和所述多个发布对象的视频发布信息，确定所述多个发布对象中每个发布对象的发布对象特征，包括：

对于任一发布对象，确定所述发布对象的多个视频的视频类别统计信息和对象标签信息，所述视频类别统计信息通过在所述多个视频所属的垂直领域中统计得到，所述对象标签信息通过对所述发布对象的视频发布信息编码得到；

以所述发布对象的视频类别统计信息和对象标签信息作为所述发布对象的对象属性信息，基于所述发布对象的目标对象序列，确定所述发布对象的发布对象特征。

6.根据权利要求2所述的方法，其特征在于，所述基于所述多个目标对象序列和所述多个发布对象的视频发布信息，确定所述多个发布对象中每个发布对象的发布对象特征，包括：

对于任一发布对象，确定所述发布对象的多个视频中每个视频的视频内容特征；

以所述每个视频的视频内容特征作为所述发布对象的对象属性信息，基于所述发布对象的目标对象序列，确定所述发布对象的发布对象特征。

7.根据权利要求1所述的方法，其特征在于，所述目标视频的视频融合特征基于融合视频向量模型得到，所述方法还包括：

将正样本信息插入到负样本向量中，得到难负样本向量；

聚合所述难负样本向量的相邻节点信息，得到融合向量；

基于所述融合向量对所述融合视频向量模型进行训练。

8.根据权利要求1所述的方法，其特征在于，所述基于待处理的目标视频的视频信息，对所述目标视频进行特征提取，得到所述目标视频的视频内容特征，包括：

对所述目标视频的视频信息中的多个视频帧进行特征提取，得到视频帧特征；

对所述目标视频的视频信息中的音频信号进行特征提取，得到第一音频特征；

对所述目标视频的视频信息中的标题文本进行特征提取，得到第一文本特征；

基于注意力机制，对所述视频帧特征、所述第一音频特征和所述第一文本特征进行融合，得到所述目标视频的视频内容特征。

9.根据权利要求1所述的方法，其特征在于，所述目标视频的视频内容特征基于视频预训练模型得到；

所述基于待处理的目标视频的视频信息，对所述目标视频进行特征提取，得到所述目标视频的视频内容特征，包括：

基于所述视频预训练模型和多个训练标签，对所述目标视频的视频信息中的标题文本进行特征提取，得到第二文本特征，所述训练标签为训练视频携带的标签；

基于所述视频预训练模型，对所述目标视频进行特征提取，得到视频特征；

基于所述视频预训练模型中的音频特征提取器，对所述目标视频的视频信息中的音频信号进行特征提取，得到第二音频特征；

基于注意力机制，对所述第二文本特征、所述视频特征和所述第二音频特征进行融合，得到所述目标视频的视频内容特征。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从所述目标视频中确定至少一个第一视频帧，所述第一视频帧与所述第一视频帧的前一帧视频帧之间的亮度变化大于亮度阈值；

对于任一第一视频帧，在所述第一视频帧的前后等间隔的进行抽帧，得到多个第二视频帧；

将所述至少一个第一视频帧和所述多个第二视频帧作为所述目标视频的多个视频帧。

11.根据权利要求1所述的方法，其特征在于，所述基于所述目标视频的视频融合特征，对所述目标视频进行处理，包括：

基于所述目标视频的视频融合特征，对所述目标视频进行推荐；或者，

基于所述目标视频的视频融合特征，从所述多个发布对象发布的多个视频中确定至少一个相似视频，将所述至少一个相似视频补充到视频推荐池中，所述相似视频的视频融合特征与所述目标视频的视频融合特征之间的相似度大于相似度阈值，所述视频推荐池用于进行视频推荐。

12.一种视频处理装置，其特征在于，所述装置包括：

13.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段计算机程序，所述至少一段计算机程序由所述处理器加载并执行权利要求1至11任一项权利要求所述的视频处理方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储至少一段计算机程序，所述至少一段计算机程序用于执行权利要求1至11任一项权利要求所述的视频处理方法。