CN116980665A

CN116980665A - 一种视频处理方法、装置、计算机设备、介质及产品

Info

Publication number: CN116980665A
Application number: CN202310133955.3A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2023-10-31

Abstract

本申请实施例公开了一种视频处理方法、装置、计算机设备、介质及产品，该方法包括：获取待处理视频的先验数据以及后验数据；对先验数据进行特征提取，得到待处理视频的先验特征，并对后验数据进行特征提取，得到待处理视频的后验特征；将先验特征和后验特征进行融合处理，得到融合特征；基于融合特征确定待处理视频在点击率维度、完播率维度以及播放时长维度下分别对应的目标值；基于待处理视频在点击率维度、完播率维度以及播放时长维度下分别对应的目标值对待处理视频进行推荐。可以提高文本类别识别的准确率。本申请可应用于人工智能等场景，如上述待处理视频的目标值可利用神经网络模型来确定，以用于视频推荐等场景。

Description

一种视频处理方法、装置、计算机设备、介质及产品

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频处理方法、装置、计算机设备、介质及产品。

背景技术

随着电子技术和互联网技术的快速发展，多媒体数据也得到了快速发展，用户可以通过各种多媒体平台浏览各种各样的视频，面对如此海量的视频，目前，通常是采用人工评估的方式来对各个视频进行影响力评估，以从海量的视频中筛选出具有吸引力的视频作为推荐视频，而这种方式推荐效率和推荐准确性较低。因此，如何高效且准确的从海量的视频中筛选出具有吸引力的视频成为了当前研究热点。

发明内容

本申请实施例提供了一种视频处理方法、装置、计算机设备、介质及产品，可以提高视频推荐的准确性和效率。

第一方面，本申请实施例提供了一种视频处理方法，包括：

获取待处理视频，并获取所述待处理视频的先验数据以及后验数据；所述先验数据是与所述待处理视频的视频属性相关的数据，所述后验数据是与对象的历史行为相关的数据，所述后验数据由累计的历史行为数据以及实时的历史行为数据组成；

对所述先验数据进行特征提取，得到所述待处理视频的先验特征，并对所述后验数据进行特征提取，得到所述待处理视频的后验特征；

将所述先验特征和所述后验特征进行融合处理，得到融合特征；

基于所述融合特征确定所述待处理视频在点击率维度、完播率维度以及播放时长维度下分别对应的目标值；

基于所述待处理视频在点击率维度、完播率维度以及播放时长维度下分别对应的目标值对所述待处理视频进行推荐。

第二方面，本申请实施例提供了一种视频处理装置，包括：

获取单元，用于获取待处理视频，并获取所述待处理视频的先验数据以及后验数据；所述先验数据是与所述待处理视频的视频属性相关的数据，所述后验数据是与对象的历史行为相关的数据，所述后验数据由累计的历史行为数据以及实时的历史行为数据组成；

提取单元，用于对所述先验数据进行特征提取，得到所述待处理视频的先验特征，并对所述后验数据进行特征提取，得到所述待处理视频的后验特征；

融合单元，用于将所述先验特征和所述后验特征进行融合处理，得到融合特征；

确定单元，用于基于所述融合特征确定所述待处理视频在点击率维度、完播率维度以及播放时长维度下分别对应的目标值；

推荐单元，用于基于所述待处理视频在点击率维度、完播率维度以及播放时长维度下分别对应的目标值对所述待处理视频进行推荐。

第三方面，本申请实施例提供了一种计算机设备，该计算机设备包括处理器和存储器，其中，存储器用于存储计算机程序，该计算机程序包括程序指令，处理器被配置用于调用该程序指令，执行上述方法中的部分或全部步骤。

第四方面，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时，用于执行上述方法中的部分或全部步骤。

第五方面，本申请实施例还提供了一种计算机程序产品或者计算机程序，该计算机程序产品或计算机程序包括程序指令，该程序指令被处理器执行时可实现上述方法中的部分或全部步骤。

本申请实施例可以对获取待处理视频，并获取待处理视频的先验数据以及后验数据；然后，可以对先验数据进行特征提取，得到待处理视频的先验特征，并可以对后验数据进行特征提取，得到待处理视频的后验特征；接着，可以将先验特征和后验特征进行融合处理，得到融合特征；进一步的，可以基于融合特征确定待处理视频在点击率维度、完播率维度以及播放时长维度下分别对应的目标值；并基于待处理视频在点击率维度、完播率维度以及播放时长维度下分别对应的目标值对待处理视频进行推荐。通过这种方式，可以实现自动化的视频推荐，提高视频推荐效率；可以融合视频的先验数据以及后验数据对视频进行表征，以提高视频的表征效果，从而可以提高视频推荐的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的一种视频处理系统的架构示意图；

图1b是本申请实施例提供的另一种视频处理系统的架构示意图；

图2是本申请实施例提供的一种视频处理方法的流程示意图；

图3a是本申请实施例提供的一种确定处理需求的流程示意图；

图3b是本申请实施例提供的一种累计后验数据和实时后验数据的表征示意图；

图3c是本申请实施例提供的一种视频处理模型的结构示意图；

图3d是本申请实施例提供的一种先验特征模块的结构示意图；

图3e是本申请实施例提供的一种后验特征模块的结构示意图；

图3f是本申请实施例提供的一种融合模块的结构示意图；

图4是本申请实施例提供的另一种视频处理方法的流程示意图；

图5是本申请实施例提供的另一种视频处理模型的结构示意图；

图6是本申请实施例提供的一种视频处理装置的结构示意图；

图7是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

下述首先对本申请实施例所涉及到的相关术语及概念进行简要介绍：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

基于上述所提及人工智能等技术，本申请实施例提出了一种视频处理方案；具体的，该方案大致原理如下：可以获取待处理视频，以对该待处理视频进行处理，以得到该待处理视频的目标值，进而可以基于待处理视频的目标值进行推荐。具体地，可以在获取待处理视频之后，可以进一步获取该待处理视频的先验数据以及后验数据，以基于该先验数据以及后验数据确定目标值。可选的，可以对先验数据进行特征提取，得到待处理视频的先验特征；并可以对后验数据进行特征提取，得到待处理视频的后验特征。

在得到该先验特征以及后验特征之后，即可以基于该先验特征以及后验特征确定目标值，例如，可以将先验特征和后验特征进行融合处理，得到融合特征，并基于该融合特征确定待处理视频在目标维度下的目标值。其中，该目标维度可以包括点击率维度、完播率维度以及播放时长维度，即该目标值可以包括在点击率维度、完播率维度以及播放时长维度下分别对应的目标值。进一步的，可以基于待处理视频在点击率维度、完播率维度以及播放时长维度下分别对应的目标值对待处理视频进行推荐。

通过上述实施方式，可以融合视频的先验数据以及后验数据对视频进行表征，以提高视频的表征效果，即可以充分融合视频的先验数据以及后验数据对视频进行影响力评估，以确定出推荐程度，实现利用多个维度下的数据进行视频的相关处理，提升影响力评估准确性，从而可以提高推荐准确性，进而可以提高用户视频观看以及用户粘性；相比于人工推荐中对视频内容评估的主观性，本申请实施例可以充分利用视频本身的数据以及后验数据(对象行为数据)来理解视频内容，从而提高视频理解的客观性，进而提高视频推荐准确性；而且，相比于人工推荐，本申请实施例可以实现自动且智能的推荐，以提高推荐效率。本申请实施例还可以对多个维度下的影响力进行评估，以结合多维度的影响力来实现对视频的推荐，从而提高推荐准确性。

在具体实现中，上述所提及的视频处理方案的执行主体可以是计算机设备，该计算机设备可以是终端或者服务器。此处所提及的终端可以是智能手机、平板电脑、笔记本电脑、台式电脑等设备，还可以是例如手柄、触摸屏等外设设备；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，等等。示例的，当计算机设备为服务器时，本申请实施例提供了一种视频处理系统，如图1a所示，该视频处理系统可包括至少一个终端和至少一个服务器；终端可以获取待处理视频，并将获取到的待处理视频上传至服务器(即计算机设备)，以使服务器可以获取到该待处理视频，并确定该待处理视频在各个维度下的目标值，进而基于目标值进行推荐。

在一种实现场景中，本申请还提供了另一种应用该视频处理方案的视频处理系统，如图1b是本申请实施例提供的一种视频处理系统的架构示意图，该示意图可以理解为一种基于机器学习的先验与弱后验融合的信息流视频内容影响力评估系统的流程框架图。其中，视频处理方法具体可由视频处理模块执行，例如，例如，如图1b所示，该视频处理模块可以包括如图1b所示的下载文件模块、视频内容抽帧和音频分离服务模块、多模态特征提取模块、后验行为信息聚合服务模块以及视频影响力服务模块。

在一种实现方式中，可以通过下载文件模块下载并获取所需要的待处理视频；然后，利用视频内容抽帧和音频分离服务模块对待处理视频进行相关处理，例如进行图像抽帧和音频分离等操作，得到待处理视频的视觉模态数据以及音频模态数据，以作为后续多模态特征提取模块的各模态输入。进一步的，可以将视频内容抽帧和音频分离服务模块所得到的视觉模态数据和音频模态数据输入多模态特征提取模块，以利用该多模态特征提取模块对视觉模态数据和音频模态数据分别进行特征提取，从而得到视觉模态和音频模态下的先验特征，该多模态特征提取模块还可以对待处理视频进行属性模态和文本模态下先验特征的提取，从而得到该处理视频在各模态下的先验特征。

还可以利用后验行为信息聚合服务模块确定待处理视频的后验特征，如立累计(累积)后验特征和实时后验特征。接着，可以调用视频影响力服务模块并根据待处理视频的先验特征以及后验特征对待处理视频进行影响力评估，得到该待处理视频的目标值。

在一种实现方式中，该视频处理系统还可以包括内容生产端、内容消费端、上下行内容接口服务模块、内容分发出口模块、内容数据库、高影响力视频样本库、调度中心模块、人工审核模块、视频排重服务模块以及视频存储服务模块、统计接口和分析服务模块。下述对所提及的各模块的作用进行相关阐述，其中：

内容生产端，可用于提供多媒体平台所需的多媒体数据，该多媒体数据例如可以是图文或视频等，其中，多媒体数据的内容生产者可以包括专业生产内容(ProfessionalGenerated Content，PGC)或者用户生成内容(User Generated Content，UGC)或者多渠道网络(Multi-Channel Network，MCN)或者专业用户生产内容(Professional UserGenerated Content，PUGC)的内容生产者，内容生产者可通过移动端或者后端接口API系统，提供本地或者拍摄的视频，这些都是分发内容的主要内容来源。内容生产端还可以通过和上下行内容接口服务模块之间的通信，先获取上传服务器的接口地址，然后再通过接口地址上传本地文件(如视频)，其中，视频拍摄过程中本地视频内容可以选择搭配的音乐、滤镜模板和图文的美化功能等等。

内容消费端，可用于和上下行内容接口服务模块进行通信连接，以获取访问视频文件的索引信息，如视频文件的下载地址；然后和视频存储服务器通讯，以根据索引信息下载对应的视频文件并且通过本地播放器来播放观看。还可以同时将上传和下载过程中用户播放的行为数据(如快进、拖动、回退、卡顿，加载时间，播放点击等)上报给服务器，同时还可以提供视频内容质量反馈入口，包括质量问题类型，对应包含各种低质特征的视频，可以将该视频添加标识(ID)，以便于可以基于标识对质量较差的视频进行筛选。内容消费端通常可以通过Feeds流方式浏览视频数据，所以视频重复文件对用户体验会有很大影响。对于执行了本申请实施例的影响力评估的视频，内容消费端可以加权(如对各个维度下的目标值进行加权处理)展示在Feeds当中，以增加曝光几率和加速冷启动。

上下行内容接口服务模块，可和内容生产端直接通信，由前端提交的内容(如视频文件)可以通过该服务模块直接进入服务端，并把相关文件存入视频内容存储服务模块中。例如，由前端提交的内容通常可以是视频的标题，发布者，摘要，封面图，发布时间，或者是拍摄的视频内容等等。还可以将视频文件的元信息(如视频文件大小，封面图链接，码率，文件格式，标题，发布时间，作者等)写入内容数据库。还可以将上传的视频文件提交给调度中心模块，以使得调度中心模块可以进行后续的内容(如视频)处理和流转。其中，下述所描述的内容具体可指视频。

内容数据库，可用于数据存储，内容数据库是内容的核心数据库，所有生产者发布内容的元信息均可以保存在这个内容数据库中，例如，元信息可以包括内容本身的文件大小、封面图链接、码率、文件格式、标题、发布时间、作者、是否原创或者首发等等。可选的，可以将人工审核过程对内容进行分类的分类结果进行存储，如可以存储视频文件的级别分类和对应的标签信息，比如一个讲解手表的视频，该视频的一级分类可以是科技，二级分类可以是智能手表，三级分类可以是国内手表，标签信息具体可以是该手表的品牌以及型号。可选的，在人工审核过程中，可以读取内容数据库中的数据，同时，人工审核的结果和状态也可回传进入内容数据库中，以更新内容数据库中内容的元信息。

内容数据库还可以存储视频内容存储服务模块对视频文件进行相关处理后所得到的结果，如上下行内容接口服务模块将发布的视频文件存储在视频内容存储服务模块中之后，视频内容存储服务模块可对内容进行标准的转码操作，转码完成后异步返回元信息，例如可以将文件大小，码率，规格，截取的封面图等这些信息保存在内容数据库中。可选的，调度中心模块对内容处理的结果也可以写入内容数据库中，如调度中心模块对内容处理可以包括机器处理和人工审核处理，其中，机器处理核心可以是调用内容排重服务模块对完全重复和相似的内容进行处理，而排重的结果可写入内容数据库；完全重复的内容也不会给人工进行重复的二次处理。内容数据库可以为多模态特征提取模块提供视频的元信息，例如，视频的标题，内容OCR，ASR识别的结果，OCR和ASR可以由单独的模型处理视频所得到，并保存在内容数据库中备用。

调度中心模块，可用于负责视频流转的整个调度过程，可通过上下行内容接口服务模块接对入库的视频进行接收，然后从内容数据库中获取视频的元信息。还可用于调度人工审核模块和机器处理系统，并可控制调度的顺序和优先级。还可用于和视频排重服务模块进行通信，以过滤掉不必要的重复或相似的新入库内容，视频排重服务模块可以对不同码率，不同清晰度，不同尺寸，部分黑屏，有无滤镜，有无logo和在相似视频内容当中插入部分广告内容和片头片尾的裁剪都可以进行处理，有效建设进入人工审核过程当中需要处理的内容。

调度中心模块还可以调度进入人工审核模块需要进行人工审核的视频，过滤掉重复的视频。还可将通过人工审核模块的内容启用内容出口分发服务模块，以通过推荐引擎或者搜索引擎或者运营直接的展示页面将内容提供给终端的内容消费者。还可负责与图谱辅助内容分类服务模块进行通信，以完成视频内容多级分类和调度处理。还可以与视频影响力评估服务模块通信，完成视频的多目标影响力打分评估预测，并将预测结果保存在内容数据当中供后续的推荐分发使用。

内容分发出口模块，可用于与调度中心模块进行通信，获取调度中心模块提供的视频，以将视频下发至内容消费端，并将视频展示在用户终端的消息来源列表中。

人工审核模块，可用于对内容数据库中的数据进行审核，人工审核模块通常是一个业务复杂的基于Web数据库开发的系统。人工审核模块可读取内容数据库中图文内容本身的原始信息，以通过人工来对内容进行规范，并对不符合规范的内容进行一轮初步过滤；并可在初步审核的基础之上，对内容进行二次审核，主要可以是对内容进行分类和标签的标注或确认。由于视频内容本身完全通过机器学习(比如深度学习)进行审核还不完全成熟，所以可通过在机器处理的基础上进行二次的人工审核处理，从而实现通过人机协作，提升视频本身标注的准确性和效率。

人工审核模块还可接受调度中心模块的调度，对经过视频标题，封面和内容质量模型处理之后的疑似内容进行人工复核。人工审核过程当中审核不通过涉及视频质量问题的内容，直接标记出来上报到统计接口和分析服务器，作为后续构建检测模型的样本训练数据。

视频排重服务模块，可提供视频排重服务，可以通过视频内容本身的指纹特征进行比较，将重复或相似的视频文件指保留一份延续到后续的链路，减少链路上不必要的重复文件。在同时发布的内容较多的情况下，利用可实现海量去重服务的工程进行并行化处理，以避免重复的内容启用。

视频存储服务模块，可通过上下行内容接口服务模块将内容生产者上传的视频进行保存。视频存储服务模块通常是一组分布范围很广，离用户侧较近，以便就近接入的存储服务器，通常外围还有CDN加速服务器进行分布式缓存加速。通常，终端消费者在获取内容索引信息后，可以直接访问视频存储服务模块以下载对应的内容。视频存储服务模块除了作为对外服务的数据源以外，还可作为对内服务的数据源，供下载文件模块获取原始的视频数据进行相关的处理。其中，内外数据源的通路通常是分开部署的，避免相互影响。

下载文件模块，可用于从视频存储服务模块下载和获取原始的视频内容，并可控制下载的速度和进度，下载文件模块通常是一组并行的服务器，由相关的任务调度和分发集群构成。而下载完成的文件可与视频内容抽帧和音频分离服务模块通信，为后续视频多模态特征提取模块提供服务。

视频内容抽帧和音频分离服务模块，可对下载的视频内容进行抽帧处理和进行音频特征提取等操作，以作为后续视频内容的模态输入。可对下载文件模块从视频存储服务模块上下载到的视频文件进行视频文件特征的初级处理，如可以包括视频帧的抽取，视频中音频内容的分离等，以供后续视频多模态特征提取模块提供服务。

后验行为数据聚合服务模块，可以用于获取视频的后验特征(如累积后验和实时后验特征)。

多模态特征提取模块，可以用于获取视频的多模态特征(即先验特征)，如可以采用属性模态、视觉模态、音频模态以及文本模态下的数据来获取相应模态下的特征，并可以将这些模态下的特征作为先验特征。

视频影响力服务模块，可对视频的影响力进行评估(即确定待处理视频的目标值)，具体可由视频影响力服务模块中的视频处理模型实现视频的影响力评估。在该视频处理模型的训练阶段中，可以将视频的影响力进行目标拆分，如可以拆分为点击率，完播率，单VV时长等关键目标，并采用回归训练方式对视频处理模型进行训练。可以将构建的视频处理模型服务化，以接受调度服务在内容流转处理主链路过程当中的调度处理。

高影响力视频样本库，可以保存利用后验数据筛选得到的不同档位的高影响力视频样本，并为视频影响力服务模块中的视频处理模型提供数据样本服务。

统计接口和分析服务模块，可以接收内容消费端的消费流水数据上报和对视频内容质量相关问题的反馈上报；还可以接收人工审核过程当中质量过滤问题的流水上报，收集反馈问题，低质数据自动回流，算法迭代输入等；还可以统计分析后验行为数据，以作为构建视频影响力服务模块中视频处理模型的输入数据源。

基于上述所提供的视频处理方案，本申请实施例提供了一种视频处理方法，该视频处理方法可由上述所提及的计算机设备执行。请参阅图2，该视频处理方法包括但不限于以下步骤：

S201，获取待处理视频，并获取待处理视频的先验数据以及后验数据。

其中，待处理视频可以是指信息流推荐给用户阅读的视频，可以包括长视频、短视频，如短视频可以包括竖版的小视频和横版的短视频，以Feeds流的形式提供。短视频也就是即短片视频，是一种互联网内容传播方式，一般是在互联网新媒体上传播的时长在预设时间段内(如5分钟以内)的视频传播内容。长视频也就是即长片片视频，是在互联网新媒体上传播的时长超过预设时间段的视频传播内容。

上述的Feeds即是消息来源，又译为源料、馈送、资讯提供、供稿、摘要、源、新闻订阅、网源(英文：web feed、news feed、syndicated feed)是一种资料格式，网站透过它将最新资讯传播给用户，通常以时间轴方式排列，Timeline是Feed最原始最直觉也最基本的展示形式。用户能够订阅网站的先决条件是，网站提供了消息来源。将feed汇流于一处称为聚合(aggregation)，而用于聚合的软体称为聚合器(aggregator)。对最终用户而言，聚合器是专门用来订阅网站的软件，一般亦称为RSS阅读器、feed阅读器、新闻阅读器等。

在一种实现方式中，可以在获取到针对待处理视频的关于视频影响力评估的处理需求时，触发获取待处理视频，从而进行后续的操作。

可选的，可以在计算机设备获取到针对待处理视频的处理请求，确定获取到针对待处理视频的处理需求，该处理请求可以由目标对象(可以是指任一用户)在用户操作界面上执行相关操作，而触发生成处理请求。如当目标对象需要获取到待处理视频对应的目标值时，可以在所使用的终端所输出的用户操作界面上执行相关操作，以向计算机设备发送针对待处理视频的处理请求。例如，参见图3a所示，目标对象所使用的终端的终端屏幕上可以显示一个用户操作界面，该用户操作界面可以至少包括视频输入区域301以及确认控件302。若目标对象想要得到待处理视频对应的目标值，则可以先在视频输入区域301中输入待处理视频的相关信息(如可以直接是该待处理视频，或者是该待处理视频对应的存储区域地址)；然后，可以对确认控件302执行触发操作(如点击、按压等操作)；在终端检测到确认控件302被触发之后，可以基于输入区域301中的信息获取到待处理视频，而在终端获取到待处理视频之后，即可以向计算机设备发送携带有待处理视频的处理请求。

可选的，可以在触发一个视频处理定时任务时，确定获取到针对待处理视频的处理需求时。如可以设置一个视频处理定时任务，当触发了针对该视频处理定时任务中的触发条件时，则可以确定获取到处理需求。在一个实施例中，在某一指定区域可以存储有大量的视频，则触发条件可以是当前时间到达预设处理时间，或指定区域存储了一个新视频，或指定存储区域的剩余存储空间超过预设剩余存储空间等等。

可以理解的是，在对视频进行影响力评估，通常可以从以下几个角度考虑如视频质量(比如是否清晰、镜头是否晃动、是否有无意义的内容，这是基础的质量问题)、视频美学(比如色彩是否优美，构图是否好，光线明暗对比度是否好)。而在视频的质量和美学较高的情况下还不足以说明视频的影响力很大，大部分的视频是靠内容情节取胜，也就是靠视频的内容去吸引人，不管是长视频(如电视剧、电影、动漫等)，还是短视频(如横版短视频和竖版短视频)，视频中均可以包含人物、事件、地点以及这些特征之间的对白和场景动作等；同时，视频分发过程当中还会产生大量的用户与视频的互动及行为数据信息，比如点击、评论、点赞、转发等等。基于此可知，为评估一个视频的影响力，可以综合这些数据来反映视频的影响力。

综上所述，可以基于待处理视频的先验数据和后验数据来对待处理视频的影响力进行评估。其中，先验数据可以是与待处理视频的视频属性相关的数据，后验数据可以是与对象的历史行为相关的数据，该对象可以是指用户，对象的数量可以是一个或多个，该后验数据可以由累计的历史行为数据以及实时的历史行为数据组成。下述对先验数据以及后验数据进行具体介绍。

其中，先验数据可以包括多个模态下的数据，可以理解的是，一个视频对应有文本(如视频标题、视频对白等)、音频、图像(如视频中包括的多帧图像，如视频封面图像)以及视频本身的属性数据，可以将这些数据称之为各个模态下的数据。针对一个视频而言，该视频的先验数据可以包括属性模态、视觉模态、音频模态以及文本模态下的数据；为方便描述，这些模态下的数据可分别简称为属性模态数据、视觉模态数据、音频模态数据以及文本模态数据。

其中，属性模态数据可以是指待处理视频的属性数据，例如，属性数据可以包括视频的所属类别(类目)，例如，该所属类别可以包括一级类目(Category)或多级类目(如一到三级类目)；还可以包括视频标签(如Tag、HashTag等)、视频作者标识(AuthorID)、粉丝档位(FansLevel，可以按照粉丝数量的不同区间来划分档位，比如粉丝档位可分为100万+，50万+，10万+，5万+，1万+，5千+，2千+，500+，100+等档位、视频时长，视频质量分等级(QualituLevel)、发布时间等等。

其中，视觉模态数据可以是指待处理视频包括的视频帧；音频模态数据可以是指待处理视频对应的音频数据；文本模态数据可以包括待处理视频所包括的文本数据，如待处理视频的标题、OCR数据和视频对白中的一种或多种。

其中，待处理视频的标题通常是发布者对视频表达内容的主观描述，通常可以涵盖视频想表达的高级语义。但是在实践中，可能发现很多视频没有标题或标题传达的信息不足，则可以利用OCR数据补充标题中缺乏的信息，以丰富文本模态信息。可选的，OCR数据也可能存在着一些问题，比如：画面切换过程中OCR数据识别不准、固定位置OCR数据需要去重、口述类OCR数据需保留以及新闻滚屏类OCR数据需删除等等。则可以考虑对OCR数据进行去噪处理，以保证OCR数据的准确性，进而提高类别识别的准确性。其中，去噪处理可以包括过滤单字类/纯数字/纯字母OCR数据、过滤相邻两帧bbox(图像框)位置偏移小且文字重复率高的OCR数据、过滤bbox在屏幕底端且高较小的OCR数据等。在得到去噪后的OCR数据之后，即可将去噪后的OCR数据作为文本模态数据。可选的，如果待处理视频不存在OCR数据，但考虑到待处理视频通常有视频对白，则可以把自动语音识别(Automatic SpeechRecognition，ASR)数据作为文本模态数据。可选的，在文本模态数据包括标题、OCR数据和视频对白中的多种时，可以将该多种文本模态信息进行拼接，以将拼接后的多种文本模态信息作为待处理视频最终所需要的文本模态数据，例如，可以将去噪后的OCR数据与标题进行拼接，以将拼接后的数据作为文本模态数据。

其中，后验数据中累计的历史行为数据和实时的历史行为数据可以分别称之为累计后验数据(如累计的曝光量、点击量、点击率等)和实时后验数据(如实时的曝光量、点击量、点击率等)，即后验数据可以包括累计后验数据和实时后验数据。累计后验数据可以由按照时间先后顺序排列的第一预设时间范围内的多个时间点的后验数据构成，任一时间点的后验数据可以包括：第一预设时间范围内任一时间点之前产生的后验数据。实时后验数据由按照时间先后顺序排列的第二预设时间范围内的多个时间点的后验数据构成，任一时间点的后验数据可以包括：任一时间点的前一时间点与任一时间点之间产生的后验数据。其中，实时后验数据可以是小时级的实时后验数据，即可以以小时级来统计一个时间点的后验数据，并作为该时间点的实时后验数据。例如，图3b中左右两个坐标系中的数据分别表示累计后验数据和实时后验数据。

S202，对先验数据进行特征提取，得到待处理视频的先验特征，并对后验数据进行特征提取，得到待处理视频的后验特征。

在一种实现方式中，步骤S202的具体实现可以通过调用视频处理模型得到，例如，该视频处理模型可以参见如图3c所示，其中，该视频处理模型可以包括特征提取模块、融合模块以及处理模块。特征提取模块可以用于提取待处理视频对应的特征，如此处的先验特征和后验特征；基于此，可知，步骤S202的具体实现可以是将先验特征和后验特征输入该特征提取模块，以使该特征提取模块对先验数据进行特征提取，得到待处理视频的先验特征，并对后验数据进行特征提取，以得到待处理视频的后验特征。

在一种实现方式中，该特征提取模块可以包括先验特征模块以及后验特征模块，如图3c所示。其中，先验特征模块用于确定先验特征，如可以将先验数据输入该先验特征模块，以使该先验特征模块对该先验数据进行特征提取，得到先验特征；后验特征模块用于确定后验特征，如可以将后验数据输入该后验特征模块，以使该后验特征模块对该后验数据进行特征提取，得到后验特征。基于此，可知，步骤S202的具体实现可以是：将先验特征输入先验特征模块，以使该先验特征模块对该先验数据进行特征提取，得到待处理视频的先验特征；并将后验特征输入后验特征模块，以使该后验特征模块对该后验数据进行特征提取，得到待处理视频的后验特征。

前述可知，先验数据可以包括各个模态下的数据，如属性模态数据、视觉模态数据、音频模态数据以及文本模态数据；则在对先验数据进行特征提取时，可以对各个模态下的数据进行特征提取，以确定各个模态下的模态特征，该模态特征也可以称之为先验特征，即可以确定各个模态下的先验特征。各个模态下的模态特征也就是上述的先验特征。可选的，首先，可以对属性模态数据、视觉模态数据、音频模态数据以及文本模态数据分别进行嵌入处理，以得到各个模态下的表征向量；然后，可以将各个模态下的表征向量分别进行特征提取，以得到各个模态数据对应的先验特征。

综上所知，先验特征模块可以包括嵌入模块以及先验特征子模块，如图3d所示。其中，嵌入模块可以包括各个模态下的嵌入模块，用于对各个模态下的模态数据进行嵌入处理，得到对应模态下的表征向量；先验特征子模块可以包括各个模态下的先验特征子模块，用于基于各个模态下的表征向量进行特征提取，从而得到对应模态下的先验特征。

其中，先验特征子模块可以包括属性特征模块、视觉特征模块、音频特征模块、文本特征模块，如图3d所示。其中，属性特征模块用于确定在属性模态下的先验特征，如可以将属性模态数据对应的表征向量输入该属性特征模块，以利用该属性特征模块对该属性模态数据进行特征提取，得到在属性模态下的先验特征。视觉特征模块用于确定在视觉模态下的先验特征，如可以将视觉模态数据对应的表征向量输入该视觉特征模块，以利用该视觉特征模块对该视觉模态数据进行特征提取，得到在视觉模态下的先验特征。音频特征模块用于确定在音频模态下的先验特征，如可以将音频模态数据对应的表征向量输入该音频特征模块，以利用该音频特征模块对该音频模态数据进行特征提取，得到在音频模态下的先验特征。文本特征模块用于确定在文本模态下的先验特征，如可以将文本模态数据对应的表征向量输入该文本特征模块，以利用该文本特征模块对该文本模态数据进行特征提取，得到在文本模态下的先验特征。

下述对各个模态下的先验特征的确定进行相关阐述：

在一种实现方式中，确定属性模态下的先验特征的具体实施方式可以为如下描述。

首先，可以对该属性数据进行嵌入化处理，以得到该属性数据的向量表征。进一步的，可以对该向量表征进行特征提取，得到该属性模态下对应的先验特征。如前所述，在进行属性模态下先验特征的提取时，可以通过调用属性特征模块来实现，该属性特征模块可以是具有特征提取功能的神经网络模型来实现，例如，该模型可以是DeepFM、或其他模型，具体不做限定。

在一种实现方式中，确定视觉模态下的先验特征的具体实施方式可以为如下描述。

首先，可以对待处理视频进行嵌入处理，以得到在视觉模态下的表征向量。

可选的，确定视觉模态下的表征向量的具体实现可以是：首先，可以从待处理视频中抽取一个或多个视频帧；然后，可以提取各个视频帧中的图像特征。在此实施方式下，视频模态下的嵌入模块可以包括帧抽取模块以及图像特征模块；其中，帧抽取模块可以用于确定所抽取的视频帧，图像特征模块可以用于确定各个视频帧中的图像特征。帧抽取模块可以是TSN(Temporal Segment Networks)网络结构，即可以通过TSN实现抽帧操作。具体实现中，可以将待处理视频输入帧抽取模块，以利用该帧抽取模块从该待处理视频抽取一个或多个视频帧，然后，所抽取的视频帧可以输入图像特征模块，以利用该图像特征模块对各个视频帧进行特征提取，从而得到各个视频帧中的图像特征。

在一个实施例中，图像特征模块可以包括第一特征提取模块，即可以调用第一特征提取模块对各个视频帧进行特征提取，以得到各个视频帧中的图像特征。例如，第一特征提取模块可以指骨干(Backone)网络，该骨干网络可以是RestNet或Xception、或其他可用于提取图像级特征的神经网络模型。

在另一个实施例中，可以对各个视频帧进行特征提取，以得到各个视频帧中的图像特征，为方便后续描述，可以将此处的图像特征称之为初始图像特征，此处特征提取可以利用上述的第一特征提取模块来实现；可理解的是，本申请实施例最终所需要的是关于视频对应的特征，则在得到各个视频帧中的初始图像特征之后，还可以对各个视频帧对应的初始图像特征再次进行特征提取，以得到最终所需的各个视频帧对应的图像特征。

在此实施方式下可知，图像特征模块可以包括第一特征提取模块和第二特征提取模块，而此处的特征提取可以通过第二特征提取模块来实现，该第二特征提取模块可以是NeXtVLad的中间层，NeXtVLAD模型是第二届Youtube-8M视频理解竞赛中效果优异的特征降维模型，NeXtVLAD模型可以通过特征聚类的方式将多帧图像级特征聚合为视频级特征。再次进行的特征提取相当于是一个聚类的降维操作，在这种实施方式下所得到的图像特征，特征更加抽象，同时特征维度和占用存储空间更小，从而可以减少后续的处理和计算量。最后，可以基于各个视频帧对应的图像特征确定在视觉模态下的表征向量，例如，可以将各个视频帧对应的图像特征进行加和平均处理，处理所得到的结果即是在视觉模态下的表征向量。

然后，可以对视觉模态下的表征向量进行特征提取，得到在视觉模态下的先验特征。如前所述，在进行视觉模态下先验特征的提取时，可以通过调用视觉特征模块来实现，该视觉特征模块可以是SwinT+NeXtVLad、Transformer等模型。

在一种实现方式中，确定音频模态下的先验特征的具体实施方式可以为如下描述。

首先，可以对待处理视频的音频模态数据进行嵌入处理，得到该待处理视频在音频模态下的具有表征能力的高维嵌入向量，该高维嵌入向量可以称之为在音频模态下的表征向量；如前所述，音频模态下的表征向量可以通过音频模态下的嵌入模块来实现。然后，可以对该音频模态下的表征向量进行特征提取，得到在音频模态下的先验特征；如前所述，在进行音频模态下先验特征的提取时，可以通过音频特征模块来实现，该音频特征模块可以是具有音频特征提取功能的网络结构，例如，该音频特征模块可以是音频预训练模型(如WavLM模型)、Vggish模型、或其他可进行音频特征提取的神经网络模型。其中，WavLM模型是基于在94000小时无监督的英文数据上进行训练得到的，WavLM模型还在多个语音相关的数据集上都取得了SOTA(state-of-the-art)的成绩。通过以上实施方式，可以实现音频特征向量化的转化，以增加音频模态下的特征。其中，如WavLM模型、Vggish模型等对场景类的声音事件有较强的特别表达能力。在本申请中，通过增加音频模态，可以对视频内容比如情感、搞笑等分类的准确率有较明显的提升。

在一种实现方式中，确定文本模态下的先验特征的具体实施方式可以为如下描述。

首先，可以对该文本模态数据进行嵌入处理，以得到在文本模态下的表征向量；如前所述，文本模态下的表征向量可以通过文本模态下的嵌入模块来实现。进一步的，可以对该文本模态下的表征向量进行特征提取，以得到在文本模态下的先验特征；如前所述，在进行文本模态下先验特征的提取时，可以通过文本特征模块来实现，该文本特征模块可以是具有文本特征提取的网络结构，例如该文本特征模块可以是Bert模型、TextRCNN模型，或其他可进行文本特征提取的神经网络模型。

在一种实现方式中，如前所述，在后验数据包括累计后验数据和实时后验数据的情况下，对后验数据进行特征提取，得到待处理视频的后验特征的具体实施方式可为如下描述：

可以对累计后验数据进行特征提取，以得到针对累计后验数据对应的后验特征，如可称之为累计后验特征；并可以对实时后验数据进行特征提取，以得到针对实时后验数据的后验特征，如可称之为实时后验特征。在得到累计后验特征以及实时后验特征之后，即可以累计后验特征以及实时后验特征确定后验特征。

可选的，可以对累计后验特征和实时后验特征行拼接处理，得到后验特征。可选的，可以获取累计后验特征和实时后验特征分别对应的权重，如可以将累计后验特征对应的权重称之为第一后验权重，将实时后验特征对应的权重称之为第二后验权重；在获取到第一后验权重和第二后验权重之后，可以利用第一后验权重对累计后验特征进行加权处理，以得到累计加权结果，并可以利用第二后验权重对实时后验特征进行加权处理，以得到实时加权结果；进一步的，可以基于累计加权结果和实时加权结果确定后验特征，如可以将累计加权结果和实时加权结果之间的和值作为后验特征。

在一种实现方式中，上述确定后验特征的具体实现可以通过调用视频处理模型中的后验特征模块得到；该后验特征模块可以包括累计特征模块、实时特征模块以及第一拼接模块，如图3e所示。累计特征模块可以用于确定累计后验特征，如可以将累计后验数据输入该累计后验模块，以得到累计后验特征；实时特征模块可以用于确定实时后验特征，如可以将实时后验数据输入该实时后验模块，以得到实时后验特征；第一拼接模块可以用于确定后验特征，如可以将累计后验特征和实时后验特征输入该第一拼接模块，以得到后验特征。

基于此可知，通过调用视频处理模型中的后验特征模块来确定后验特征的具体实施方式可以为如下描述：

首先，可以将累计后验数据输入累计特征模块，以利用该累计特征模块获取累计后验特征；并可以将实时后验数据输入实时特征模块，以利用该实时特征模块获取实时后验特征。然后，可以将累计后验特征和实时后验特征输入第一拼接模块，以利用该第一拼接模块对累计后验特征和实时后验特征进行拼接处理，得到待处理视频的后验特征。

其中，累计特征模块可以是LSTM网络结构，采用LSTM神经网络可以建模开始时刻到当前时刻的累计后验表现特征(如累计的曝光量、累计点击量、累计点击率等)，通过LSTM网络可以捕捉视频内容后验表现随时间演变的长期增长趋势。其中，当前时刻可以是指对待处理视频执行视频处理操作对应的时刻，开始时刻可以是指待处理视频启用进入推荐池开始分发的时刻。实时后验模块可以是CNN网络结构，采用CNN神经网络可以建模当前时刻的小时级的实时后验表现(如实时的曝光量、累计点击量、累计点击率等)，通过CNN网络可以捕获视频内容的短期波动趋势，通常可以使用视频发文初期的视频内容的后验表现信息。其中，此处的当前时刻可以是是待处理视频发文的24小时内的随机的一个时间点。

综上可以看出，本申请在利用待处理视频的后验数据获取对应的后验数据时，可以设计不同的网络来捕获不同性质的特征，比如累计后验表现特征可以利用LSTM网络来捕捉视频内容的增长趋势，比如实时后验表现特征可以利用CNN网络来捕获视频内容的短期波动趋势；从而可以充分利用待处理视频的后验数据对待处理视频进行后续的影响力评估。

S203，将先验特征和后验特征进行融合处理，得到融合特征。

在一种实现方式中，融合处理可以是拼接操作。可选的，可以将先验特征和后验特征进行拼接处理，以得到融合特征。可选的，可以获取先验特征与后验特征分别对应的权重，如可以将先验特征对应的权重称之为先验权重，将后验特征对应的权重称之为后验权重；在获取到先验权重和后验权重之后，可以利用先验权重对先验特征进行加权处理，以得到第一加权结果，并可以利用后验权重对后验特征进行加权处理，以得到第二加权结果；进一步的，可以基于第一加权结果和第二加权结果确定融合特征，如可以将第一加权结果和第二加权结果之间的和值作为融合特征。

在一种实现方式中，步骤S203的具体实现可以通过调用视频处理模型中的融合模块来实现，在此实施方式下，该融合模块可以包括第二拼接模块，该第二拼接模块可以用于对先验特征和后验特征进行融合处理，也就是拼接处理，以得到融合特征。基于此可知，步骤S203的具体实现可以是：将先验特征和后验特征输入该融合模块，以利用该融合模块进行融合处理，得到融合特征。

在一种实现方式中，考虑到待处理视频对应的先验特征与后验特征隶属于不同维度的特征表示，为了更好的融合这两部分特征表示，可以使用基于注意力机制(Attention)的跨模态(CrossModel)的多领域(field)特征融合方法来实现，此处的多领域可以是指先验特征与后验特征这两个维度。具体实现中，可以先将先验特征和后验特征进行拼接处理，以得初始融合特征；其中，在进行拼接处理时，可以直接是拼接处理，也可以是加权后的拼接处理(如上述提及的利用先验权重和后验权重来得到融合特征)。在得到该初始融合特征之后，可以对初始融合特征中包含的先验维度下特征和后验维度下特征进行跨模态融合，以得到融合特征。例如，可以利用注意力机制对初始融合特征中包含的先验维度下特征和后验维度下特征进行跨模态融合，该注意力机制具体可以是Transformer网络中的注意力机制，即可以利用Transformer网络来实现跨模态融合，如可以将该融合称之为CrossModel-Transformers Encoder-Attention Fusion。

在此实施方式下，视频处理模型中的融合模块可以包括第二拼接模块以及融合子模块，如图3f所示。第二拼接模块可以用于确定初始融合特征，如可以将先验特征和后验特征输入该第二拼接模块，以得到初始融合特征；融合子模块可以用于确定融合特征，如可以将初始融合特征输入该融合子模块，以得到融合特征。

基于此可知，通过调用视频处理模型中的融合模块来实现步骤S203的具体实施方式可以为如下描述：

首先，可以将先验特征和先验特征输入第二拼接模块，以利用该第二拼接模块获取初始融合特征；然后，可以将该初始融合特征输入融合子模块，以利用该融合子模块对初始融合特征中包含的先验维度下特征和后验维度下特征进行跨模态融合，得到融合特征。

S204，基于融合特征确定待处理视频在点击率维度、完播率维度以及播放时长维度下分别对应的目标值。

在一种实现方式中，可以基于融合特征确定待处理视频在目标维度下的目标值；其中，该目标维度可以包括点击率维度、完播率维度以及播放时长维度；即可以基于融合特征确定待处理视频在点击率维度、完播率维度以及播放时长维度下分别对应的目标值。

其中，完播率可以是指完整播放待处理视频的概率，播放时长可以是指单VV(Video View，视频播放)时长，单VV时长可以是指单次VV对应的时长，或者一次VV对应的平均时长。其中，点击率维度下的目标值可以是指点击率、完播率维度下的目标值可以是指完播率，播放时长维度下的目标值可以是指播放时长。也就是说步骤S204是需要基于融合特征确定待处理视频的点击率、完播率以及播放时长。

可理解的是，视频的点击率、完播率以及播放时长在视频推荐场景中通常可以作为较为重要的推荐指标，如可以将点击率较高或完播率较高或播放时长较长的视频作为推荐视频。综上所知，一个目标值可以用于指示待处理视频在对应目标维度下的推荐程度，或者说影响力程度，该目标值也可以称之为推荐值或影响力等等；目标值可以与推荐程度(影响力程度)呈正相关，即目标值越大，待处理视频对应的推荐程度也就越大，目标值越小，待处理视频的推荐程度也就是越小。基于此可知步骤S204也可以理解为是基于融合特征对待处理视频进行影响力评估(或推荐评估)，以得到待处理视频在点击率维度、完播率维度以及播放时长维度下分别对应的目标值。本申请实施例可以将对待处理视频的影响力进行目标(任务)拆分，该目标可以是指上述提及的目标维度，即可以将待处理视频的影响力拆分为在各个维度下的影响力。

在一种实现方式中，步骤S204可以通过调用视频处理模型中的处理模块来实现。具体实现中，可以将融合特征输入该处理模块，以使该处理模块对该融合特征进行处理，以得到该待处理视频在各个维度下的目标值。

可选的，为了让视频处理模型中的处理模块能同时进行多个维度下的学习，如点击率维度，完播率维度与播放时长维度下的学习，可以将点击率维度，完播率维度与播放时长维度作为三个任务让视频处理模型进行多任务学习。基于此可知，处理模块可以是具有多目标(任务)学习功能的网络结构，如该处理模块可以是基于hard参数共享方法的网络结构、或基于MMoE(Multi-gate Mixture-of-Experts)的多目标学习的网络结构的，等等。考虑到基于MMoE的多目标学习方法相比于基于hard参数共享方法具有较为明显的优势，本申请实施例中的处理模块可以优先采用基于MMoE的多目标学习的网络结构。

综上所知，在目标维度的数量为多个的情况下，如以目标维度包括点击率维度、完播率维度以及播放时长维度为例进行说明，则目标值可以包括点击率维度下的目标值、完播率维度下的目标值以及播放时长维度下的目标值。在这种情况下，步骤S204的具体实现可以是：首先，可以基于融合特征确定在点击率维度、完播率维度以及播放时长维度下分别对应的子特征。针对点击率维度、完播率维度以及播放时长维度中的任一维度，可以获取针对该任一维度下每个子特征的特征权重，以利用每个子特征的特征权重对相应子特征进行加权处理，得到针对任一维度下的目标特征；例如，可以将每个子特征的特征权重对相应子特征进行加权处理后，得到每个子特征对应的加权结果，接着可以将每个子特征对应的加权结果之间的和值作为该任一维度下的目标特征。在得到该任一维度下的目标特征之后，即可以利用目标特征确定待处理视频针对任一维度下的目标值。

其中，上述实现过程可以通过MMoE网络结构来实现，MMoE网络结构中的Multi-gate对于任务差异带来的冲突有一定的缓解作用，即使在多任务之间的相关性不高的情况下，也有不错的模型效果。MMoE网络结构中不同的expert可以负责学习不同的信息内容，也就是可以基于MMoE网络结构中不同的expert获取到各个一维度下的子特征；而MMoE网络结构中gate可以用来组合expert所学习到的信息，在组合过程中，即是利用上述所提及的特征权重对子特征进行加权操作。通过不同任务对应的gate的softmax的热力分布差异，来表明expert对不同的目标各司其责，以提升模型效果。在本申请实施例中，MMoE网络结构中expert和gate的数量可以与目标维度的数量相同，如假设目标维度包括点击率维度、完播率维度以及播放时长维度，则expert和gate的数量可为3。

S205，基于待处理视频在点击率维度、完播率维度以及播放时长维度下分别对应的目标值对待处理视频进行推荐。

本申请实施例所提供的视频处理方法可以具体应用在视频推荐场景中。在一种实现方式中，该待处理视频可以是候选推荐视频集中的一个视频，综上所知，可以基于上述步骤S201-S204确定候选推荐视频集每一个视频在各个维度下的目标值，而在确定每个视频在各个维度下的目标值之后，即可以基于每个视频在各个维度下的目标值进行视频推荐。

可选的，在视频推荐场景中，可以基于任意一种维度下的目标值进行视频推荐，该任意一种维度可以是基于业务需求确定的，如业务需求为在点击率维度下进行视频推荐，则可以利用点击率维度下的目标值进行视频推荐。那么，在维度的数量为一个的情况下，可以将基于每个视频在该维度下的目标值的大小确定待推荐视频。例如，可以先将按照候选推荐视频集中每个视频的目标值从大到小的顺序，对候选推荐视频集中的视频进行排序，得到视频排序结果；然后，可以基于视频排序结果从候选推荐视频集中确定待推荐视频，如可以将视频排序结果中处于前N位的视频作为待推荐视频。

可选的，在视频推荐场景中，可以基于多种维度下的目标值进行视频推荐，该多种维度同样可以基于业务需求确定。那么，在维度的数量为多个的情况下，如以多个维度包括点击率维度、完播率维度以及播放时长维度为例进行相关说明。在一个实施例中，可以基于每个视频在各个维度下的目标值的大小确定待推荐视频。具体实现中，针对待处理视频而言，可以将该待处理视频在各个维度下的目标值进行求和处理，并将求和处理结果作为该待处理视频的推荐值；或者，可以获取点击率维度、完播率维度以及播放时长维度分别对应的权重，以利用各个维度分别对应的权重对相应目标值进行加权处理，从而得到待处理视频的推荐值。

基于上述方式，可以确定候选推荐视频集中每个视频的推荐值，进一步的，可以基于每个视频的推荐值确定待推荐视频。可选的，可以按照候选推荐视频集中每个视频的推荐值从大到小的顺序，对候选推荐视频集中的视频进行排序，得到视频排序结果；进一步的，可以基于视频排序结果从候选推荐视频集中确定待推荐视频。例如，可以将视频排序结果中处于前N位的视频作为待推荐视频。可以看出，通过这种方式，可以将推荐值较高的视频作为待推荐视频，以提高视频推荐准确性，提高用户视频观看体验。

可以理解的是，在视频推荐系统中，视频库的视频量通常很大(超百万级别)，而从视频库到视频召回阶段可能存在很大的数量级差异，对召回模块的挑战很大，通常在召回之前需要对视频库进行初筛，以将有限的流量向更“好”的视频内容倾斜。而综上可以看出，本申请实施例可以利用视频的影响力结果(即各个维度下的目标值)，预估视频库中各个视频扩大分发后的表现，从而决定视频在召回阶段的优先级(如优先级可以与推荐值呈正相关)，以在召回之前对视频库进行初筛(如上述提及的可以利用推荐值对候选推荐视频集进行筛选得到待推荐视频)，将有限的流量向更“好”的视频内容倾斜，可以加快“好”视频内容的消费，提高冷启动效率，最终增加对短内容的消费。

并且，也可以在视频分发过程中依据视频的影响力结果和业务不同侧重的目标(即维度)对视频进行加权和降权的细粒度调整，可以对单VV时长，完播率，大盘VV(大盘播放平均时长)等效果带来比较显著的提升，改善用户消费视频内容的体验和提升消费粘性，改善视频的留存率，提升信息流视频内容分发效率。

在一种实现方式中，本申请实施例也可以应用在关于广告投放中场景，例如可以基于上述视频的推荐值确定是否将广告投放在视频中。具体实现中，针对一个候选视频集，可以基于上述方式确定该候选视频集中各个候选视频的推荐值，进而基于推荐值确定需要投放广告的视频，如可以将推荐值大小处于前N为的视频作为需要投放广告的视频，通过这种方式，可以将广告投放在影响力较大或者说吸引力较大的视频中，从而提高广告投放效果。

通过上述实施方式，可以充分融合视频的先验数据以及后验数据对视频进行影响力评估，以确定出推荐程度，实现利用多个维度下的数据进行视频的相关处理，提升影响力评估准确性，从而可以提高推荐准确性，进而可以提高用户视频观看以及用户粘性；相比于人工推荐中对视频内容评估的主观性，本申请实施例可以充分利用视频本身的数据以及后验数据(对象行为数据)来理解视频内容，从而提高视频理解的客观性，进而提高视频推荐准确性；而且，相比于人工推荐，本申请实施例可以实现自动且智能的推荐，以提高推荐效率。本申请实施例还可以对多个维度下的影响力进行评估，以结合多维度的影响力来实现对视频的推荐，从而提高推荐准确性。

基于上述描述，本申请实施例进一步提出了另一种视频处理方法；在本申请实施例中，主要以计算机设备执行该视频处理方法为例进行说明。如图4所示，该视频处理方法包括但不限于以下步骤：

S401，获取用于训练视频处理模型的样本视频集，并对样本视频集中的每个样本视频添加标签数据。

其中，样本视频集中可以包括一个或多个样本视频。

在一种实现方式中，在构建样本视频集时，为保证样本视频的影响力结果是置信的，可以筛选累计曝光值大于预设数值(如300)的视频作为样本视频。具体实现中，在获取到用于训练视频处理模型的初始样本视频集之后，还可以获取初始样本视频集中各个样本视频的累计曝光值，若某一样本视频的累计曝光值大于预设数值，则将该样本视频添加到样本视频集中，若某一样本视频的累计曝光值不大于预设数值，则将该样本视频过滤。

在一种实现方式中，为了确保样本视频的规模，可以在预设有效时间段内统计样本视频的相关数据，如累计曝光值、先验数据、后验数据等等。例如，预设有效时间段可以是2个月，或3个月等，具体时间段不做限定。

可以理解的是，从视频消费角度看，一个视频的影响力可以采用点击率来作为指标来评价。例如，以点击率来说，点击率较高的视频可以优先分发。而除了考虑点击率外，还可以考虑视频时长等相关的目标(指标)，可理解的是，视频内容分发能够体现用户粘性和价值较为重要的指标通常是用户消费的时长。可理解的是，视频通常可以包括对应的标题或封面，由于目前的大量视频通常存在博取眼球的标题或封面，为方便描述，可以将这些视频称之为标题党视频或封面党视频。这类视频容易引导用户执行点击操作，但因视频品质问题没有很大的影响面。一般来说，标题党视频或封面党视频由于其内容质量较差可能会导致用户观看视频的停留时间较短，用户点击视频之后如果感觉视频内容没有吸引力可能会退出播放，并不会完成视频的播放。为了缓解标题党视频或封面党视频带来的偏差，可以利用视频时长，如单vv时长(播放时长)和完播率等作为另外的目标去衡量视频的影响力。

综上所述，可以以点击率、完播率、单VV时长中的一种或多种作为指标来对视频的影响力进行评估；下述在相关描述中，以点击率、完播率以及单VV时长作为指标来对视频的影响力进行评估为例进行阐述。本申请实施例为对视频的影响力进行评估，也就是为预测视频的点击率、完播率以及单VV时长，则训练视频处理模型的目的可以理解为使得视频处理模型具有预测点击率、完播率、单VV时长的功能。基于此可知，一个样本视频的标签数据可以是该样本视频的点击率、完播率以及单VV时长。考虑到样本视频集中样本视频的数量是较多的，则关于点击率、完播率以及单VV时长对应的数值也是较多的，为了降低视频处理模型训练以及预测过程中的处理复杂度，可以将点击率、完播率以及单VV时长分别进行档位划分，即减少数值量；即一个样本视频的标签数据可以是点击率、完播率以及单VV时长分别对应的档位级别。下述以点击率为例，对点击率对应的档位级别进行相关说明。

考虑到信息流分发的视频是海量的，这些分发的视频可以存在很多不同的类目(类别)，例如，可以包括体育、影视、教育等类别的视频，不同类别下视频对应的点击率通常会存在较大差异，例如，搞笑视频的点击率比纪录片对应的点击率高，影视视频的点击率比旅游视频的点击率高。基于此可知，在基于点击率进行档位划分时，为保证各档位下视频的类别平衡，视频对应的点击率的档位划分可以在各个类别下进行。可选的，以任一类别来说，该类别下的样本视频的档位级别可以基于该样本视频的类别值(或称为类别得分)来确定。

综上所述，确定样本视频集中各个样本视频的标签数据的具体实施方式可为如下描述：

可以先对样本视频集中的每个样本视频进行类别分类，得到每个样本视频的类别；针对同一类别的样本视频，可以将这些样本视频作为一个样本视频子集，即一个类别对应一个样本视频子集，一个类别下的样本视频子集中的每个样本视频的类别相同。其中，类别的划分不做具体限定，例如，通过对样本视频集中的样本视频进行类别分类之后，可以确定这些视频的类别包括体育、影视、教育等，则可以将类别为体育对应的样本视频组合为一个样本视频子集，将类别为影视对应的样本视频组合为一个样本视频子集。

在确定样本视频集中的样本视频的类别之后，即可以对各个类别下的样本视频添加对应的标签数据。可选的，针对任一类别下的样本视频子集，可以确定该样本视频子集中的每个样本视频在该任一类别下的类别值，以基于类别值确定各个样本视频的标签数据。

在一个实施例中，首先，可以对样本视频子集中的每个样本视频进行打分，以确定每个样本视频在任一类别下的类别值。具体实现中，针对样本视频子集中的任一样本视频，可以获取该任一样本视频的点击率和曝光量；并可以基于样本视频子集中每个样本视频的点击率确定针对样本视频子集的平均点击率，如可以将样本视频子集中所有样本视频的点击率的均值作为该样本视频子集的平均点击率。进一步的，可以根据平均点击率，以及该任一样本视频的点击率和曝光量确定任一样本视频的类别值。如可以采用预设打分规则根据平均点击率，以及该任一样本视频的点击率和曝光量对该任一样本视频进行打分，以得到该任一样本视频的类别值。

综上所知，在确定视频的影响力时，可以将点击率作为一个评估维度来确定，考虑到不同曝光量下的点击率不可比，本申请实施例所采用的预设打分规则可以是威尔逊(wilson)得分的计算方式来对样本视频进行打分，例如，该预设打分规则对应的计算公式可如下公式(1)所示：

其中中p表示样本视频的点击率，pavg[c]表示样本视频所属类别的平均点击率，exp表示样本视频的曝光量。公式(1)具有以下性质：点击率小于平均点击率时，曝光量越大，对应的样本视频的打分越低，即样本视频的类别值越小，点击率大于平均点击率时，曝光量越大，对应的样本视频的打分越高，即样本视频的类别值越大。

然后，可以对样本视频子集中的样本视频的类别值进行排序，并基于排序结果确定每个样本视频在任一类别下的类别值位置；其中，类别值位置可以是指一个样本视频的类别值在该样本视频子集对应的所有类别值的百分占位。在一个实施例中，可以按照类别值从大到小的顺序对样本视频子集中的样本视频的类别值进行排序，以得到对应的排序结果，在得到该排序结果之后，即可以基于该排序结果确定该各个样本视频在该排序结果中的类别值位置。例如，样本视频子集中存在100个样本视频，对应存在100个类别值，假设某一样本视频的类别值在所有的类别值中所处的位置为3，则该样本视频对应的类别值位置为3％。

最后，可以基于类别值位置确定每个样本视频的档位级别，并可以将档位级别作为样本视频的标签数据。可选的，可以根据类别值位置与档位级别之间的映射关系，基于样本视频的类别值位置确定样本视频的档位级别。其中，该类别值位置与档位级别之间的映射关系可以预先设置，该映射关系可如表1所示：

表1：

如表1所示，如果某一样本视频的类别值位置在所有类别值位置中的前3％，则可以确定该样本视频的档位级别为8，则该样本视频对应的标签数据为8；如果某一样本视频的类别值位置在所有类别值位置中的前3％-10％，则可以确定该样本视频的档位级别为7，则该样本视频对应的标签数据为7。其中，某一样本视频的档位级别对应的数值越高，该样本视频的点击率也就是越高。

其中，在确定完播率或播放时长分别对应的档位级别时，可以采用上述确定点击率对应的档位级别的方法，仅需将点击率相关数据调整为完播率或播放时长即可。

综上可以看出，本申请实施例可以利用后验点击率数据，划分多个点击率档位，并将这多个档位作为样本视频的点击率影响力的ground truth(真实数据)，或者说标签数据；对于完播率和播放时长可以作类似的档位划分。通过上述类别划分以及档位划分，可以保证不同类别的可比性，从而提高标签数据的可靠性，进而提高视频处理模型预测的可靠性。

在一种实现方式中，在确定各个类别下每个视频的档位级别之后，还可以基于视频的档位级别从样本视频集中筛选出最终需要进行训练的样本视频，如为保证各档位级别下视频类别的平衡，可以抽取各个类别下的视频作为各档位级别的视频。针对任一档位级别，可以确定该档位级别下各个类别对应的视频的数量，以对各个类别对应的视频的数量进行处理(如对某一类别下的视频进行删除或新增)，保证各个类别对应的视频的数量的平衡。

S402，获取每个样本视频的先验数据以及后验数据。

其中，样本视频的先验数据和后验数据与上述待处理视频的先验数据和后验梳理的理解类似，则对应样本视频的先验数据以及后验数据的获取可以参考上述步骤S201中的描述，在此处不再赘述。

S403，针对样本视频集中的任一样本视频，将样本视频的先验数据以及后验数据输入视频处理模型，得到任一样本视频的预测数据。

其中，该视频处理模型可以如图3c或图5所示。该视频处理模型包括特征提取模块、融合模块以及处理模块。步骤S403的具体实现可以是：将样本视频的先验数据以及后验数据输入该特征提取模块，以利用该特征提取模块对样本视频的先验数据以及后验数据进行特征提取，得到该样本视频的样本先验特征以及样本后验特征。然后，可以将样本先验特征和样本后验特征输入融合模块，得到样本融合特征；最后，可以将该样本融合特征输入处理模块，得到样本视频的预测数据。

下述对视频处理模型中的各个模块的处理过程进行相关描述。

针对特征提取模块，该特征提取模块可以包括先验特征模块和后验特征模块；则样本视频的先验数据可以输入该先验特征模块，以利用该先验特征模块对样本视频的先验数据进行特征提取，得到样本先验特征；样本视频的后验数据可以输入该后验特征模块，以利用该后验特征模块对样本视频的后验数据进行特征提取，得到样本后验特征。

如前所述，样本视频的先验数据可以包括各个模态下的样本数据，如样本视频的先验数据可以包括属性模态样本数据、视觉模态样本数据、音频模态样本数据以及文本模态样本数据。先验特征模块可以包括各个模态下的嵌入模块以及各个模态下的特征模块，如各个模态下的特征模块可以包括属性特征模块、视觉特征模块、音频特征模块以及文本特征模块。则通过先验特征模块得到样本先验特征的具体实现可以是：可以将各个模态下的数据输入对应模态下的嵌入模块，以得到对应模态下的样本表征向量；然后，可以将各个模态下的样本表征向量输入对应模态下的特征模块，以得到对应模态下的样本先验特征。各个模块对相应模态下的样本数据进行处理的过程可以参见上述实施例中的描述，此处不再赘述。

如前所述，样本视频的后验数据包括样本累计后验数据以及样本实时后验数据；后验特征模块可以包括累计特征模块、实时特征模块以及第一拼接模块；则通过后验特征模块确定样本视频的后验特征的具体实现可以是：可以将样本累计后验数据输入累计特征模块，以利用该累计特征模块对样本累计后验数据进行特征提取，得到样本累计特征；并可以将样本实时后验数据输入实时特征模块，以利用该实时特征模块对样本实时后验数据进行特征提取，得到样本实时特征；在得到样本累计特征以及样本实时特征之后，即可以将样本累计特征以及样本实时特征输入第一拼接模块，利用该第一拼接模块对样本累计特征以及样本实时特征进行拼接处理，从而得到样本视频的样本后验特征。

针对融合模块，如前所述，该融合模块可以包括第二拼接模块，或，该融合模块包括第二拼接模块以及融合子模块。在融合模块包括第二拼接模块的情况下，可以将样本先验特征和样本后验特征输入该第二拼接模块，以利用该第二拼接模块对样本先验特征和样本后验特征进行拼接处理，得到样本融合特征。在融合模块包括第二拼接模块以及融合子模块的情况下，可以将样本先验特征和样本后验特征输入该第二拼接模块，以利用该第二拼接模块对样本先验特征和样本后验特征进行拼接处理，得到样本初始融合特征；然后，再将该样本初始融合特征输入融合子模块，以利用该融合子模块对样本初始融合特征中所包含的先验维度下的特征以及后验维度下的特征进行跨模态融合，得到样本融合特征。

其中，关于处理模块的理解可以参见上述步骤S204中的描述，此处不再赘述。

S404，基于任一样本视频的预测数据以及标签数据对视频处理模型进行训练，得到训练后的视频处理模型。

其中，训练后的视频处理模型用于确定待处理视频在点击率维度、完播率维度以及播放时长维度下分别对应的目标值。各种维度以及目标值可以参见步骤S204中的描述，此处不再赘述。

在一种实现方式中，可以基于预测数据以及标签数据计算模型损失值，以基于模型损失值对视频处理模型进行训练，得到训练后的视频处理模型，如可以按照减少模型损失值的方向，优化视频处理模型的模型参数，以得到训练后的视频处理模型。可选的，可以采用模型损失函数基于预测数据以及标签数据计算模型损失值，其中，模型损失函数可以是平方误差损失函数(MSE,mean square error)、Huber Loss(是一个用于回归问题的带参损失函数)等损失函数。在本申请实施例中，可以优先选择利用Huber Loss损失函数，该Huber Loss损失函数可以增强MSE损失函数对噪声(或叫离群点，outliers)的鲁棒性，以缓解MSE损失函数存在的对样本中的离群点较为敏感而导致训练不稳定的问题。

需要说明的是，如果样本视频的标签数据是关于样本视频在目标维度下针对真实数据的档位级别，则在利用视频处理模型对待处理视频进行处理时，所得到的目标值是针对目标维度下预测的档位级别；例如，假设样本视频的标签数据是针对点击率的档位级别，则在利用视频处理模型进行点击率预测时，所得到的目标值也是针对点击率的档位级别。如果样本视频的标签数据是关于样本视频在目标维度下的真实数据，则在利用视频处理模型对待处理视频进行处理时，所得到的目标值在目标维度下预测的数值，而不是档位级别；例如，假设样本视频的标签数据是针对点击率的真实数据，则在利用视频处理模型进行点击率预测时，所得到的目标值是点击率对应的数值。

综上可知，该视频处理模型可以对视频的影响力进行评估，该视频处理模型也可以称之为影响力预估模型。下述以将该视频处理模型应用在视频推荐场景中进行相关描述，该影响力预估模型具体应用在推荐系统中的推荐召回模块。在具体应用场景中，以一个视频为例，可以先获取该视频的先验数据以及后续数据，例如，可以抽取该视频在最近24小时的先验数据以及后续数据；然后，通过视频处理模型并基于先验数据和后验数据，确定该视频在点击率维度、完播率维度以及播放时长维度下分别对应的打分(即目标值)；最后，可以通过将三个目标值进行加权的方法获得该视频的最终影响力打分(如上述提及的推荐值)，并可以将该视频的影响力打分定时更新到线上，以便于可以基于视频的影响力打分对该视频进行推荐。综上可以看出，通过影响力预估模型以及多目标打分融合，可以较精准的预估候选推荐视频扩大分发后的表现，从而决定视频在召回阶段的优先级，该优先级可以是基于视频的影响力打分确定的，视频在召回阶段的优先级可以与影响力打分呈正相关，如某一视频的影响力打分越高，则该视频在召回阶段的优先级越高。

在本申请实施例中，可以将视频的影响力进行目标拆分，如可以拆分为包括点击率，完播率，播放时长关键目标，并可以采用回归训练目标对视频处理模型进行训练，以得到训练后的视频处理模型。在训练过程中，可以通过档位级别的划分来细致区分不同视频内容间的影响力差异，将视频内容的影响力打分转化为连续且易于区分的数值，并让视频处理模型去拟合该视频内容的点击率，完播率，播放时长分别对应的档位级别等目标，以提高模型训练效率。并且，在将视频的影响力进行目标拆分的基础上，本申请实施例可以在跨模态机器学习的基础上引入多目标机器学习，以更好和下游实际落地及应用场景进行更细粒度的场景适配，丰富实际应用场景，并可以加强策略制定的灵活性。

其中，上述方法实施例都是对本申请的方法的举例说明，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。例如，训练得到视频处理模型之后，即可获取待处理视频，以基于视频处理模型实现对待处理视频进行处理，得到待处理视频在各个维度下的目标值，进而实现视频推荐，此处不赘述。

上述详细阐述了本申请实施例的方法，为了便于更好地实施本申请实施例的上述方案，相应地，下面提供了本申请实施例的装置。

图6示出了本申请一个示例性实施例提供的一种视频处理装置的结构示意图；该视频处理装置可以用于是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该视频处理装置可以是计算机设备中的应用程序；该视频处理装置可以用于执行图2和图4所示的方法实施例中的部分或全部步骤。请参见图6，该视频处理装置包括如下单元：

获取单元601，用于获取待处理视频，并获取所述待处理视频的先验数据以及后验数据；所述先验数据是与所述待处理视频的视频属性相关的数据，所述后验数据是与对象的历史行为相关的数据，所述后验数据由累计的历史行为数据以及实时的历史行为数据组成；

提取单元602，用于对所述先验数据进行特征提取，得到所述待处理视频的先验特征，并对所述后验数据进行特征提取，得到所述待处理视频的后验特征；

融合单元603，用于将所述先验特征和所述后验特征进行融合处理，得到融合特征；

确定单元604，用于基于所述融合特征确定所述待处理视频在点击率维度、完播率维度以及播放时长维度下分别对应的目标值；

推荐单元605，用于基于所述待处理视频在点击率维度、完播率维度以及播放时长维度下分别对应的目标值对所述待处理视频进行推荐。

在一种实现方式中，所述先验数据包括属性模态数据、视觉模态数据、音频模态数据以及文本模态数据；所述提取单元602，具体用于：

对所述属性模态数据、所述视觉模态数据、所述音频模态数据以及所述文本模态数据分别进行嵌入处理，得到各个模态下的表征向量；

将所述各个模态下的表征向量分别进行特征提取，得到所述各个模态下的先验特征。

在一种实现方式中，所述后验数据包括累计后验数据和实时后验数据；所述累计后验数据由按照时间先后顺序排列的第一预设时间范围内的多个时间点的后验数据构成，任一时间点的后验数据包括：所述第一预设时间范围内所述任一时间点之前产生的后验数据；所述实时后验数据由按照时间先后顺序排列的第二预设时间范围内的多个时间点的后验数据构成，任一时间点的后验数据包括：所述任一时间点的前一时间点与所述任一时间点之间产生的后验数据；所述提取单元602，具体用于：

对所述累计后验数据进行特征提取，得到累计后验特征，并对所述实时后验数据进行特征提取，得到实时后验特征；

对所述累计后验特征和所述实时后验特征行拼接处理，得到后验特征。

在一种实现方式中，所述融合单元603，具体用于：

将所述先验特征和所述后验特征进行拼接处理，得初始融合特征；

调用注意力机制对所述初始融合特征中包含的先验维度下特征和后验维度下特征进行跨模态融合，得到融合特征。

在一种实现方式中，所述确定单元604，具体用于：

基于所述融合特征确定在所述点击率维度、所述完播率维度以及所述播放时长维度下分别对应的子特征；

针对点击率维度、完播率维度以及播放时长维度中的任一维度，获取针对所述任一维度下每个子特征的特征权重；

利用所述每个子特征的特征权重对相应子特征进行加权处理，得到针对所述任一维度下的目标特征；

利用所述目标特征确定所述待处理视频针对所述任一维度下的目标值。

在一种实现方式中，所述待处理视频为候选推荐视频集中的一个视频；所述推荐单元605，具体用于：

获取所述点击率维度、所述完播率维度以及所述播放时长维度分别对应的权重；

利用各个维度下分别对应的权重对相应目标值进行加权处理，得到所述待处理视频的推荐值；

按照所述候选推荐视频集中每个视频的推荐值从大到小的顺序，对所述候选推荐视频集中的视频进行排序，得到视频排序结果；

基于所述视频排序结果从所述候选推荐视频集中确定待推荐视频。

在一种实现方式中，所述装置还包括训练单元606，具体用于：

获取用于训练视频处理模型的样本视频集，并对所述样本视频集中的每个样本视频添加标签数据；

获取所述每个样本视频的先验数据以及后验数据；

针对样本视频集中的任一样本视频，将所述样本视频的先验数据以及后验数据输入所述视频处理模型，得到所述任一样本视频的预测数据；

基于所述任一样本视频的预测数据以及标签数据对所述视频处理模型进行训练，得到训练后的视频处理模型；所述训练后的视频处理模型用于确定所述待处理视频在点击率维度、完播率维度以及播放时长维度下分别对应的目标值。

在一种实现方式中，所述训练单元606，具体用于：

对所述样本视频集中的每个样本视频进行类别分类，得到所述每个样本视频的类别；

针对任一类别下的样本视频子集，确定所述样本视频子集中的每个样本视频在所述任一类别下的类别值；一个类别下的样本视频子集中的每个样本视频的类别相同；

对所述样本视频子集中的样本视频的类别值进行排序，并基于排序结果确定所述每个样本视频的类别值在所述任一类别下的类别值位置；

基于类别值位置确定所述每个样本视频的档位级别，并将所述档位级别作为所述样本视频的标签数据。

在一种实现方式中，所述训练单元606，具体用于：

针对所述样本视频子集中的任一样本视频，获取所述任一样本视频的点击率和曝光量；

基于所述样本视频子集中每个样本视频的点击率确定针对所述样本视频子集的平均点击率；

根据所述平均点击率，以及所述任一样本视频的点击率和曝光量，确定所述任一样本视频的类别值。

可以理解，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。本申请实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

请参见图7，图7为本申请实施例提供的一种计算机设备的结构示意图。如图7所示，该计算机设备包括：至少一个处理器701、存储器702。可选的，该计算机设备还可以包括网络接口703。其中，处理器701、存储器702以及网络接口703之间可以交互数据，网络接口703受处理器701的控制用于收发消息，存储器702用于存储计算机程序，该计算机程序包括程序指令，处理器701用于执行存储器702存储的程序指令。其中，处理器701被配置用于调用该程序指令执行上述方法。

其中，存储器702可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器702也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)、固态硬盘(solid-state drive，SSD)等；存储器702还可以包括上述两种或两种以上种类的存储器的组合。

其中，处理器701可以是中央处理器(central processing unit，CPU)。在一个实施例中，处理器701还可以是图形处理器(Graphics Processing Unit，GPU)。处理器701也可以是由CPU和GPU的组合。

在一个可能的实施方式中，存储器702用于存储程序指令，处理器701可以调用该程序指令，执行以下步骤：

在一种实现方式中，所述先验数据包括属性模态数据、视觉模态数据、音频模态数据以及文本模态数据；所述处理器701，具体用于：

在一种实现方式中，所述后验数据包括累计后验数据和实时后验数据；所述累计后验数据由按照时间先后顺序排列的第一预设时间范围内的多个时间点的后验数据构成，任一时间点的后验数据包括：所述第一预设时间范围内所述任一时间点之前产生的后验数据；所述实时后验数据由按照时间先后顺序排列的第二预设时间范围内的多个时间点的后验数据构成，任一时间点的后验数据包括：所述任一时间点的前一时间点与所述任一时间点之间产生的后验数据；所述处理器701，具体用于：

在一种实现方式中，所述处理器701，具体用于：

在一种实现方式中，所述待处理视频为候选推荐视频集中的一个视频；所述处理器701，具体用于：

在一种实现方式中，所述处理器701，还用于：

获取所述每个样本视频的先验数据以及后验数据；

在一种实现方式中，所述处理器701，具体用于：

具体实现中，上述所描述的装置、处理器、存储器等可执行上述方法实施例所描述的实现方式，也可执行本申请实施例所描述的实现方式，在此不再赘述。

本申请实施例中还提供一种计算机(可读)存储介质，该计算机存储介质存储有计算机程序，计算机程序包括程序指令，程序指令被处理器执行时，使处理器可执行上述方法实施例中所执行的部分或全部步骤。可选的，该计算机存储介质可以是易失性的，也可以是非易失性的。计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品包括程序指令，该程序指令被处理器执行时可实现上述视频处理方法中的部分或全部步骤。可选地，该程序指令可以存储在计算机可读存储介质中，计算机设备如计算机设备的处理器从计算机可读存储介质读取该程序指令，处理器执行该程序指令，使得该计算机设备执行上述提供的视频处理方法。

本申请还涉及到区块链的相关技术。其中，区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。区块链中包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。本申请中，可以将所确定的待识别文本的类别识别结果添加至区块链中进行存储，以保证数据的不可篡改性。

本领域普通技术人员可以意识到，结合本申请中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用，使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个程序指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。程序指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。

程序指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如，同轴电缆、光纤、数字用户线(DSL))或无线(例如，红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述先验数据包括属性模态数据、视觉模态数据、音频模态数据以及文本模态数据；

所述对所述先验数据进行特征提取，得到所述待处理视频的先验特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述后验数据包括累计后验数据和实时后验数据；所述累计后验数据由按照时间先后顺序排列的第一预设时间范围内的多个时间点的后验数据构成，任一时间点的后验数据包括：所述第一预设时间范围内所述任一时间点之前产生的后验数据；所述实时后验数据由按照时间先后顺序排列的第二预设时间范围内的多个时间点的后验数据构成，任一时间点的后验数据包括：所述任一时间点的前一时间点与所述任一时间点之间产生的后验数据；

所述对所述后验数据进行特征提取，得到所述待处理视频的后验特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述将所述先验特征和所述后验特征进行融合处理，得到融合特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述融合特征确定所述待处理视频在点击率维度、完播率维度以及播放时长维度下分别对应的目标值，包括：

6.根据权利要求1所述的方法，其特征在于，所述待处理视频为候选推荐视频集中的一个视频；所述基于所述待处理视频在点击率维度、完播率维度以及播放时长维度下分别对应的目标值对所述待处理视频进行推荐，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，还包括：

获取所述每个样本视频的先验数据以及后验数据；

8.根据权利要求7所述的方法，其特征在于，所述对所述样本视频集中的每个样本视频添加标签数据，包括：

9.根据权利要求8所述的方法，其特征在于，所述确定所述样本视频子集中的每个样本视频在所述任一类别下的类别值，包括：

10.一种视频处理装置，其特征在于，包括：

11.一种计算机设备，其特征在于，包括处理器和存储器，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-9任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-9任一项所述的方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括程序指令，所述程序指令被处理器执行时实现权利要求1-9任一项所述方法。