CN111191078B

CN111191078B - 基于视频信息处理模型的视频信息处理方法及装置

Info

Publication number: CN111191078B
Application number: CN202010016360.6A
Authority: CN
Inventors: 陈小帅
Original assignee: Shenzhen Yayue Technology Co ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2020-01-08
Filing date: 2020-01-08
Publication date: 2024-05-07
Anticipated expiration: 2040-01-08
Also published as: CN111191078A

Abstract

本方面提供了一种基于视频信息处理模型的视频信息处理方法，包括：获取待处理视频，通过图像处理网络对关键帧进行处理，以获取与关键帧相匹配的图像特征向量；对标题文本信息进行处理，以获取与标题文本信息对应的标题文本处理结果；确定图像特征向量与标题文本处理结果的相关性参数，并根据图像特征向量与标题文本处理结果的相关性参数确定相应的待推荐封面图像帧；获取相应的兴趣标签向量，本发明还提供了信息处理装置、电子设备及存储介质。本发明能够实现通过目标用户的兴趣标签向量与待推荐封面图像帧的相关性参数，确定与目标用户兴趣相匹配的待推荐封面图像帧。

Description

基于视频信息处理模型的视频信息处理方法及装置

技术领域

本发明涉及信息处理技术，尤其涉及视频信息处理模型的训练方法、装置、电子设备及存储介质。

背景技术

传统技术条件下，多媒体信息的需求量呈现爆发式增长，传统的信息处理技术已无法应对多媒体数据在向用户进行定向推广等任务上的需求。用自然语言对视频、图像等进行描述，对于人类来说非常简单，但对机器来说却是一项很难的任务，这需要机器能够跨越对图像理解的语义鸿沟，正确融合计算机视觉和自然语言处理这两项技术。近年来，很多基于深度学习的方法和系统被开发出来处理混合语音信号的分离和识别，如深度吸引网络。为此，人工智能技术（AI，Artificial Intelligence）提供了训练适当的语音识别网络来支持上述应用的方案。其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能，在语音处理领域中，也就是通过利用数字计算机或者数字计算机控制的机器实现对语音的识别。目前，该方向的研究收到了广泛的关注，能够实现在安防、家居、医疗、教学等领域得到有效应用，但是这一过程中，视频文件的封面图像帧也存在着与用户的兴趣无法匹配、使得用户错过了可能感兴趣的视频，最终导致视频的播放率降低的缺点。

发明内容

有鉴于此，本发明实施例提供一种基于视频信息处理模型的视频信息处理方法、装置、电子设备及存储介质，实现了提升视频信息内容的分享速度，扩大了视频信息内容的分享场景，解决了传统技术中无法通过机器处理确定与目标用户兴趣相匹配的待推荐封面图像帧的问题。

本发明通过了一种基于视频信息处理模型的视频信息处理方法，所述方法包括：

获取待处理视频，并对所述待处理视频进行解析以实现获取所述待处理视频的关键帧和标题文本信息；

通过所述视频信息处理模型的图像处理网络对所述关键帧进行处理，以获取与所述关键帧相匹配的图像特征向量；

通过所述视频信息处理模型的文本处理网络对所述标题文本信息进行处理，以获取与所述标题文本信息对应的标题文本处理结果；

通过所述视频信息处理模型，确定所述图像特征向量与所述标题文本处理结果的相关性参数，并根据所述图像特征向量与所述标题文本处理结果的相关性参数确定相应的待推荐封面图像帧；

获取目标用户的兴趣参数，并对兴趣参数进行解析以实现获取相应的兴趣标签向量；

通过所述视频信息处理模型，确定所述目标用户的兴趣标签向量与待推荐封面图像帧的相关性参数，以实现通过所述目标用户的兴趣标签向量与待推荐封面图像帧的相关性参数，确定与所述目标用户兴趣相匹配的待推荐封面图像帧。

本发明实施例还提供了一种基于视频信息处理模型的处理装置，其特征在于，所述装置包括：

信息传输模块，用于获取待处理视频，并对所述待处理视频进行解析以实现获取所述待处理视频的关键帧和标题文本信息；

信息处理模块，用于通过所述视频信息处理模型的图像处理网络对所述关键帧进行处理，以获取与所述关键帧相匹配的图像特征向量；

所述信息处理模块，用于通过所述视频信息处理模型的文本处理网络对所述标题文本信息进行处理，以获取与所述标题文本信息对应的标题文本处理结果；

所述信息处理模块，用于通过所述视频信息处理模型，确定所述图像特征向量与所述标题文本处理结果的相关性参数，并根据所述图像特征向量与所述标题文本处理结果的相关性参数确定相应的待推荐封面图像帧；

所述信息处理模块，用于获取目标用户的兴趣参数，并对兴趣参数进行解析以实现获取相应的兴趣标签向量；

所述信息处理模块，用于通过所述视频信息处理模型，确定所述目标用户的兴趣标签向量与待推荐封面图像帧的相关性参数，以实现通过所述目标用户的兴趣标签向量与待推荐封面图像帧的相关性参数，确定与所述目标用户兴趣相匹配的待推荐封面图像帧。

上述方案中，

所述信息处理模块，用于对所述待处理视频进行解析，获取所述待处理视频的时序信息；

所述信息处理模块，用于根据所述待处理视频的时序信息，对所述待处理视频所对应的视频图像帧状态信息进行解析，获取所述待处理视频的关键帧；

所述信息处理模块，用于对所述待处理视频的关键帧所包括的标题信息进行分词处理，以形成相应的标题文本信息。

上述方案中，

所述信息处理模块，用于确定与所述视频信息处理模型的使用环境相匹配的动态噪声阈值；

所述信息处理模块，用于根据所述动态噪声阈值对所述待处理视频的关键帧所包括的标题信息进行去噪处理，并触发与所述动态噪声阈值相匹配的第一分词策略；

所述信息处理模块，用于根据与所述动态噪声阈值相匹配的第一分词策略，对所述关键帧所包括的标题信息进行分词处理，形成相应的标题文本信息。

上述方案中，

所述信息处理模块，用于确定与所述视频信息处理模型的使用环境相匹配的固定噪声阈值；

所述信息处理模块，用于根据所述固定噪声阈值对所述待处理视频的关键帧所包括的标题信息进行去噪处理，并触发与所述固定噪声阈值相匹配的第二分词策略；

所述信息处理模块，用于根据与所述固定噪声阈值相匹配的第二分词策略，对所述关键帧所包括的标题信息进行分词处理，形成相应的标题文本信息。

上述方案中，

所述信息处理模块，用于响应于所述时序信息，确定与所述关键帧相匹配的关键帧特征；

所述信息处理模块，用于通过所述视频信息处理模型的图像处理网络利用所述时序信息，对所述关键帧特征进行处理，形成与所述关键帧相匹配的图像特征向量。

上述方案中，

所述信息处理模块，用于获取与所述待处理视频的播放界面相对应的目标分辨率；

所述信息处理模块，用于响应于所述目标分辨率，通过所述视频信息处理模型中的图像处理网络对相应的关键帧进行分辨率增强处理，并获取相应关键帧特征，以实现所述图像特征向量与所述待处理视频的播放界面相对应的目标分辨率相适配。

上述方案中，

所述信息处理模块，用于通过文本处理网络提取与所述标题文字特征相匹配的文字特征向量；

所述信息处理模块，用于通过所述文本处理网络，根据所述文字特征向量确定与标题文字特征所对应的至少一个词语级的隐变量；

所述信息处理模块，用于通过所述文本处理网络，根据所述至少一个词语级的隐变量，生成与所述词语级的隐变量相对应的处理词语以及所述处理词语的被选取概率；

所述信息处理模块，用于根据所述处理结果的被选取概率，选取至少一个处理词语组成与所述标题文字特征相对应的文本处理结果。

上述方案中，

所述信息处理模块，用于确定与所述待处理视频的播放环境相匹配的码率信息；

所述信息处理模块，用于通过所述视频信息处理模型中的图像处理网络，利用所述图像特征向量中的视觉特征向量，对所述待处理视频的码率进行调整，以实现待处理视频的码率与所述播放环境的码率信息相匹配。

上述方案中，

所述信息处理模块，用于获取所述目标用户的观看历史信息；

所述信息处理模块，用于根据所述目标用户的观看历史信息，确定所述目标用户在不同视频标签中的观看时长信息；

所述信息处理模块，用于根据所述目标用户在不同视频标签中的观看时长信息，确定所述目标用户的兴趣标签向量。

上述方案中，

所述信息处理模块，用于当与所述视频信息处理模型相匹配的进程为视频推荐进程时，根据所述目标用户的观看历史信息，调整与所述视频信息处理模型的图像处理网络中的基于注意力机制的循环卷积神经网络的参数，以实现所述基于注意力机制的循环卷积神经网络的参数与所述视频推荐进程相适配。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前序的基于视频信息处理模型的视频信息处理方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令所述可执行指令被处理器执行时实现前序的基于视频信息处理模型的视频信息处理方法。

本发明实施例具有以下有益效果：

本发明通过获取待处理视频，并对所述待处理视频进行解析以实现获取所述待处理视频的关键帧和标题文本信息；通过所述视频信息处理模型的图像处理网络对所述关键帧进行处理，以获取与所述关键帧相匹配的图像特征向量；通过所述视频信息处理模型的文本处理网络对所述标题文本信息进行处理，以获取与所述标题文本信息对应的标题文本处理结果；通过所述视频信息处理模型，确定所述图像特征向量与所述标题文本处理结果的相关性参数，并根据所述图像特征向量与所述标题文本处理结果的相关性参数确定相应的待推荐封面图像帧；获取目标用户的兴趣参数，并对兴趣参数进行解析以实现获取相应的兴趣标签向量；通过所述视频信息处理模型，确定所述目标用户的兴趣标签向量与待推荐封面图像帧的相关性参数，由此，实现了通过目标用户的兴趣标签向量与待推荐封面图像帧的相关性参数，确定与目标用户兴趣相匹配的待推荐封面图像帧，能够及时准确的将视频封面内容转换为相应的图像帧，有效提升视频信息内容的分享速度，扩大了视频信息内容的分享场景，解决了传统技术中无法通过机器处理确定与目标用户兴趣相匹配的待推荐封面图像帧的问题。

附图说明

图1为本发明实施例提供的基于视频信息处理模型的视频信息处理方法的使用场景示意图；

图2为本发明实施例提供的基于视频信息处理模型的处理装置的组成结构示意图；

图3为本发明实施例提供的基于视频信息处理模型的视频信息处理方法一个可选的流程示意图；

图4为本发明实施例提供的基于视频信息处理模型的视频信息处理方法一个可选的流程示意图；

图5为本发明实施例中文本处理网络一个可选的结构示意图；

图6为本发明实施例中文本处理网络一个可选的词语级类隐变量的确定过程示意图；

图7为本发明实施例中文本处理网络中编码器一个可选的结构示意图；

图8为本发明实施例中文本处理网络中编码器的向量拼接示意图；

图9为本发明实施例中文本处理网络中编码器的编码过程示意图；

图10为本发明实施例中文本处理网络中解码器的解码过程示意图；

图11为本发明实施例中文本处理网络中解码器的解码过程示意图；

图12为本发明实施例中文本处理网络中解码器的解码过程示意图；

图13为本发明实施例中图像处理网络一个可选的结构示意图；

图14为本发明实施例提供的基于视频信息处理模型的视频信息处理方法一个可选的流程示意图；

图15为本发明实施例所提供的视频信息处理模型的应用环境示意图；

图16为本发明实施例提供的基于视频信息处理模型的视频信息处理方法一个可选的流程示意图；

图17为本发明实施例提供的基于视频信息处理模型的模型数据结构示意图；

图18为本发明实施例提供的基于视频信息处理模型的视频信息处理方法的前端显示示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解， “一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1）神经网络（Neural Network，NN）：人工神经网络（Artificial NeuralNetwork，ANN），简称神经网络或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络（动物的中枢神经系统，特别是大脑）的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

2）BERT：全称为Bidirectional Encoder Representations fromTransformers，一种利用海量文本的语言模型训练方法。该方法被广泛用于多种自然语言处理任务，如文本分类、文本匹配、机器阅读理解等。

3）人工神经网络：简称神经网络（Neural Network，NN），在机器学习和认知科学领域，是一种模仿生物神经网络结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

4）模型参数：是使用通用变量来建立函数和变量之间关系的一个数量。在人工神经网络中，模型参数通常是实数矩阵。

5）API：全称Application Programming Interface，可文本处理成应用程序接口，是一些预先定义的函数，或指软件系统不同组成部分衔接的约定。目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力，而又无需访问原码，或理解内部工作机制的细节。

6）编码器-解码器结构：机器文本处理技术常用的网络结构。由编码器和解码器两部分组成，编码器将输入的文本转换为一系列能够表达输入文本特征的上下文向量，解码器接收编码器输出的结果作为自己的输入，输出对应的另一种语言的文本序列。

7）响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

8）待处理视频，互联网中可获取的各种形式的视频信息，如客户端或者智能设备中呈现的视频文件、多媒体信息等，也可以通过封装于微信小程序中的视频信息处理模型待向目标用户推荐的视频。

9）卷积神经网络（CNN Convolutional Neural Networks）是一类包含卷积计算且具有深度结构的前馈神经网络（Feed forward Neural Networks），是深度学习（deeplearning）的代表算法之一。卷积神经网络具有表征学习（representation learning）能力，能够按其阶层结构对输入信息进行平移不变分类（shift-invariantclassification）。

10）模型训练，对图像数据集进行多分类学习。该模型可采用Tensor Flow、torch等深度学习框架进行构建，使用CNN等神经网络层的多层结合组成多分类模型。模型的输入为图像经过openCV等工具读取形成的三通道或原通道矩阵，模型输出为多分类概率，通过softmax等算法最终输出网页类别。在训练时，模型通过交叉熵等目标函数向正确趋势逼近。

11）双向注意力神经网络模（BERT Bidirectional Encoder Representationsfrom Transformers）谷歌提出的双向注意力神经网络模型。

12）token：词单元，对输入文本做任何实际处理前，都需要将其分割成诸如词、标点符号、数字或纯字母数字等语言单元。这些单元被称为词单元。

13）Soft max：归一化指数函数，是逻辑函数的一种推广。它能将一个含任意实数的K维向量“压缩”到另一个K维实向量中，使得每一个元素的范围都在[0 ,1]之间，并且所有元素的和为1。

14）分词：使用中文分词工具切分中文文本，得到细粒度词的集合。停用词：对于文本的语义没有贡献或者贡献可以不计的字或词。Cosin相似度：两个文本表示成向量之后的余弦相似度。

15）Transformers：一种新的网络结构，采用注意力机制，代替传统的编码器-解码器必须依赖其它神经网络的模式。字向量：对单个字用固定维度的分布向量表示。复合词：由细粒度的关键词组成的粒度较粗的关键词，其语义相对细粒度关键词更加丰富和完整。

16）终端，包括但不限于：普通终端、专用终端，其中所述普通终端与发送通道保持长连接和/或短连接，所述专用终端与所述发送通道保持长连接。

图1为本发明实施例提供的基于视频信息处理模型的视频信息处理方法的使用场景示意图，参见图1，终端（包括终端10-1和终端10-2）上设置有能够显示相应待处理的视频的软件的客户端，例如视频播放的客户端或插件，用户通过相应的客户端可以获得待处理的视频（服务器一侧将待处理的视频通过所确定的与目标用户兴趣相匹配的待推荐封面图像帧，向用户一侧进行推送）并进行展示；终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

作为一个示例，服务器200用于布设所述基于视频信息处理模型的处理装置以实现本发明所提供的基于视频信息处理模型的视频信息处理方法，以通过获取待处理视频，并对所述待处理视频进行解析以实现获取所述待处理视频的关键帧和标题文本信息；通过所述视频信息处理模型的图像处理网络对所述关键帧进行处理，以获取与所述关键帧相匹配的图像特征向量；通过所述视频信息处理模型的文本处理网络对所述标题文本信息进行处理，以获取与所述标题文本信息对应的标题文本处理结果；通过所述视频信息处理模型，确定所述图像特征向量与所述标题文本处理结果的相关性参数，并根据所述图像特征向量与所述标题文本处理结果的相关性参数确定相应的待推荐封面图像帧；获取目标用户的兴趣参数，并对兴趣参数进行解析以实现获取相应的兴趣标签向量；通过所述视频信息处理模型，确定所述目标用户的兴趣标签向量与待推荐封面图像帧的相关性参数，以实现通过所述目标用户的兴趣标签向量与待推荐封面图像帧的相关性参数，确定与所述目标用户兴趣相匹配的待推荐封面图像帧。并通过终端（终端10-1和/或终端10-2）展示输出与所述待处理的视频，以及与所述待处理的视频所包括的与目标用户兴趣相匹配的待推荐封面图像帧。当然，本发明所提供的基于视频信息处理模型的处理装置可以应用于视频播放，在视频播放中通常会对不同数据来源的待处理的视频进行处理，最终在用户界面（UI UserInterface）上呈现出与相应的待处理的视频，以及与所述待处理的视频所包括的与目标用户兴趣相匹配的待推荐封面图像帧，待处理的视频相的特征的准确性与及时性直接影响了用户体验。视频播放的后台数据库每天都会收到大量不同来源的视频数据，所得到与所述待处理的视频相匹配的文本信息还可以供其他应用程序调用。

当然在通过基于视频信息处理模型的处理装置对待处理的视频处理以实现确定与所述目标用户兴趣相匹配的待推荐封面图像帧，具体包括：

获取待处理视频，并对所述待处理视频进行解析以实现获取所述待处理视频的关键帧和标题文本信息；通过所述视频信息处理模型的图像处理网络对所述关键帧进行处理，以获取与所述关键帧相匹配的图像特征向量；通过所述视频信息处理模型的文本处理网络对所述标题文本信息进行处理，以获取与所述标题文本信息对应的标题文本处理结果；通过所述视频信息处理模型，确定所述图像特征向量与所述标题文本处理结果的相关性参数，并根据所述图像特征向量与所述标题文本处理结果的相关性参数确定相应的待推荐封面图像帧；获取目标用户的兴趣参数，并对兴趣参数进行解析以实现获取相应的兴趣标签向量；通过所述视频信息处理模型，确定所述目标用户的兴趣标签向量与待推荐封面图像帧的相关性参数，以实现通过所述目标用户的兴趣标签向量与待推荐封面图像帧的相关性参数，确定与所述目标用户兴趣相匹配的待推荐封面图像帧。

下面对本发明实施例的基于视频信息处理模型的处理装置的结构做详细说明，基于视频信息处理模型的处理装置可以各种形式来实施，如运行有基于视频信息处理模型的处理装置的终端，也可以为设置有视频信息处理模型的视频网站运营商的服务器或者服务器群组，例如前序图1中的服务器200。图2为本发明实施例提供的基于视频信息处理模型的处理装置的组成结构示意图，可以理解，图2仅仅示出了基于视频信息处理模型的处理装置的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的基于视频信息处理模型的处理装置包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。基于视频信息处理模型的处理装置中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端（如10-1）的操作。这些数据的示例包括：用于在终端（如10-1）上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的基于视频信息处理模型的处理装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的基于视频信息处理模型的处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的基于视频信息处理模型的视频信息处理方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路（ASIC，Application Specific Integrated Circuit）、DSP、可编程逻辑器件（PLD，Programmable Logic Device）、复杂可编程逻辑器件（CPLD，ComplexProgrammable Logic Device）、现场可编程门阵列（FPGA，Field-Programmable GateArray）或其他电子元件。

作为本发明实施例提供的基于视频信息处理模型的处理装置采用软硬件结合实施的示例，本发明实施例所提供的基于视频信息处理模型的处理装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件（例如，包括处理器201以及连接到总线205的其他组件）完成本发明实施例提供的基于视频信息处理模型的视频信息处理方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（DSP，Digital Signal Processor），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的基于视频信息处理模型的处理装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路（ASIC，Application Specific IntegratedCircuit）、DSP、可编程逻辑器件（PLD，Programmable Logic Device）、复杂可编程逻辑器件（CPLD，Complex Programmable Logic Device）、现场可编程门阵列（FPGA，Field-Programmable Gate Array）或其他电子元件执行实现本发明实施例提供的基于视频信息处理模型的视频信息处理方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持基于视频信息处理模型的处理装置的操作。这些数据的示例包括：用于在基于视频信息处理模型的处理装置上操作的任何可执行指令，如可执行指令，实现本发明实施例的从基于视频信息处理模型的视频信息处理方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的基于视频信息处理模型的处理装置可以采用软件方式实现，图2示出了存储在存储器202中的基于视频信息处理模型的处理装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括基于视频信息处理模型的处理装置，基于视频信息处理模型的处理装置中包括以下的软件模块：

信息传输模块2081和信息处理模块2082。当基于视频信息处理模型的处理装置中的软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的基于视频信息处理模型的视频信息处理方法，其中，基于视频信息处理模型的处理装置中各个软件模块的功能，包括：

信息传输模块2081，用于获取待处理视频，并对所述待处理视频进行解析以实现获取所述待处理视频的关键帧和标题文本信息。

信息处理模块2082，用于通过所述视频信息处理模型的图像处理网络对所述关键帧进行处理，以获取与所述关键帧相匹配的图像特征向量；

所述信息处理模块2082，用于通过所述视频信息处理模型的文本处理网络对所述标题文本信息进行处理，以获取与所述标题文本信息对应的标题文本处理结果；

所述信息处理模块2082，用于通过所述视频信息处理模型，确定所述图像特征向量与所述标题文本处理结果的相关性参数，并根据所述图像特征向量与所述标题文本处理结果的相关性参数确定相应的待推荐封面图像帧；

所述信息处理模块2082，用于获取目标用户的兴趣参数，并对兴趣参数进行解析以实现获取相应的兴趣标签向量；

所述信息处理模块2082，用于通过所述视频信息处理模型，确定所述目标用户的兴趣标签向量与待推荐封面图像帧的相关性参数，以实现通过所述目标用户的兴趣标签向量与待推荐封面图像帧的相关性参数，确定与所述目标用户兴趣相匹配的待推荐封面图像帧。

结合图2示出的基于视频信息处理模型的处理装置说明本发明实施例提供的基于视频信息处理模型的视频信息处理方法，参见图3，图3为本发明实施例提供的基于视频信息处理模型的视频信息处理方法一个可选的流程示意图，可以理解地，图3所示的步骤可以由运行基于视频信息处理模型的处理装置的各种电子设备执行，例如可以是运行有基于视频信息处理模型的处理装置的终端，也可以为设置有视频信息处理模型的视频网站运营商的服务器或者服务器集群组，客户端在视频播放进程中可以向设置有视频信息处理模型的视频网站运营商的服务器发出播放请求，并获取服务器所发送的视频信息，并对所获取的视频进行显示。

其中，带有基于视频信息处理模型的处理装置的专用终端可以为前序图2所示的实施例中带有基于视频信息处理模型的处理装置的电子设备。下面针对图3示出的步骤进行说明。

步骤301：基于视频信息处理模型的处理装置获取待处理视频，并对所述待处理视频进行解析以实现获取所述待处理视频的关键帧和标题文本信息。

继续结合图2示出的视频信息处理模型的视频信息处理装置说明本发明实施例提供的基于视频信息处理模型的视频信息处理方法，参见图4，图4为本发明实施例提供的基于视频信息处理模型的视频信息处理方法一个可选的流程示意图，可以理解地，图4所示的步骤可以由运行视频信息处理模型的视频信息处理装置的各种电子设备执行，例如可以是如带有视频信息处理模型的视频信息处理功能的专用终端、服务器或者服务器集群用于对确定与第一目标视频相匹配的基础特征和多模态维度特征，以确定与所述视频信息处理模型相适配的模型参数，具体包括以下步骤：

步骤401：基于视频信息处理模型的处理装置对所述待处理视频进行解析，获取所述待处理视频的时序信息。

步骤402：基于视频信息处理模型的处理装置根据所述待处理视频的时序信息，对所述待处理视频所对应的视频图像帧状态信息进行解析，获取所述待处理视频的关键帧。

步骤403：基于视频信息处理模型的处理装置对所述待处理视频的关键帧所包括的标题信息进行分词处理，以形成相应的标题文本信息。

在本发明的一些实施例中，对所述待处理视频的关键帧所包括的标题信息进行分词处理，以形成相应的标题文本信息，可以通过以下方式实现：

确定与所述视频信息处理模型的使用环境相匹配的动态噪声阈值；

根据所述动态噪声阈值对所述待处理视频的关键帧所包括的标题信息进行去噪处理，并触发与所述动态噪声阈值相匹配的第一分词策略；根据与所述动态噪声阈值相匹配的第一分词策略，对所述关键帧所包括的标题信息进行分词处理，形成相应的标题文本信息。其中由于视频信息处理模型的使用环境不同，与所述视频信息处理模型的使用环境相匹配的动态噪声阈值也不相同，例如，单一类型视频推荐的使用环境中，与所述视频信息处理模型的使用环境相匹配的动态噪声阈值需要小于符合类的多模态视频推荐环境中的动态噪声阈值。

确定与所述视频信息处理模型的使用环境相匹配的固定噪声阈值；根据所述固定噪声阈值对所述待处理视频的关键帧所包括的标题信息进行去噪处理，并触发与所述固定噪声阈值相匹配的第二分词策略；根据与所述固定噪声阈值相匹配的第二分词策略，对所述关键帧所包括的标题信息进行分词处理，形成相应的标题文本信息。其中，当视频信息处理模型固化于相应的硬件机构中，例如短视频播放时，使用环境为短视频推荐播放时，由于噪声较为单一，通过固定视频信息处理模型相对应的固定噪声阈值，能够有效提神视频信息处理模型的训练速度，减少用户的等待时间。

其中，所谓分词，即有动词含义也有名词含义；每个分词就是一个单词或者词组，即有确定意义的最小语义单元；对于所接收的不同的用户或者不同的文本处理模型的使用环境，其需要划分其中包含的最小语义单位也是不同的，需要及时地做出调整，这一过程叫做分词，即分词可以指上述划分最小语义单位的过程；另一方面，划分后获得的最小语义单位，也常常被称为分词，即分词这个操作执行后获得的单词；有时为了将两个意思相互区别，将后一个意思所指称的最小语义单位称为分词对象(Term)；本申请中即使用分词对象这个称呼；分词对象对应于倒排表中作为索引依据的关键词。对于汉语而言，由于作为最小语义单位的词往往是由不同数量的字组成的，词之间不存在空白隔断等拼音文字中天然的区分标志，因此，对于汉语而言，准确进行分词以获得合理的分词对象是一个重要的步骤。

在本发明的一些实施例中，由于视频的关键帧的标题操作者的语言习惯并不相同，对于不同的视频的标题信息需要调整不同的分词方式，以适配不同用户的语言习惯。尤其是对于汉语而言，以汉字为基础表意单位，而真正具有含义的最小语义单位则是词；由于词与词之间并没有像英语单词之间的空格作为分割，因此，一句文本中，哪些字组成词并不确定，因此，通除噪处理，能够形成与视频关键帧的标题信息相对应的词语级特征向量集合，避免词语级特征向量集合出现无意义的词语级特征向量，例如“的”、“地”和“得”。

步骤302：基于视频信息处理模型的处理装置通过所述视频信息处理模型的图像处理网络对所述关键帧进行处理，以获取与所述关键帧相匹配的图像特征向量。

步骤303：基于视频信息处理模型的处理装置通过所述视频信息处理模型的文本处理网络对所述标题文本信息进行处理，以获取与所述标题文本信息对应的标题文本处理结果。

在本发明的一些实施例中，通过所述视频信息处理模型的文本处理网络对所述标题文本信息进行处理，以获取与所述标题文本信息对应的标题文本处理结果，可以通过以下方式实现：

通过文本处理网络提取与所述标题文字特征相匹配的文字特征向量；通过所述文本处理网络，根据所述文字特征向量确定与标题文字特征所对应的至少一个词语级的隐变量；通过所述文本处理网络，根据所述至少一个词语级的隐变量，生成与所述词语级的隐变量相对应的处理词语以及所述处理词语的被选取概率；根据所述处理结果的被选取概率，选取至少一个处理词语组成与所述标题文字特征相对应的文本处理结果。

在本发明的一些实施例中，文本处理网络可以为双向注意力神经网络模（BERTBidirectional Encoder Representations from Transformers）。继续参考图5，图5为本发明实施例中文本处理网络一个可选的结构示意图，其中， Encoder包括： N=6个相同的layers组成，每一层包含两个sub-layers。第一个sub-layer 就是多头注意力层（multi-head attention layer）然后是一个简单的全连接层。其中每个sub-layer都加了残差连接（residual connection）和归一化（normalisation）。

Decoder包括：由N=6个相同的Layer组成，其中layer和encoder并不相同，这里的layer包含了三个sub-layers，其中有一个自注意力层（self-attention layer），encoder-decoder attention layer 最后是一个全连接层。前两个sub-layer 都是基于multi-head attention layer。

继续参考图6，图6为本发明实施例中文本处理网络一个可选的词语级类隐变量的确定过程示意图，其中，其中，encoder和decoder部分都包含了6个encoder和decoder。进入到第一个encoder的输入层（inputs）结合嵌入层（embedding）和位置嵌入层（positionalembedding）。通过了6个encoder之后，输出到了decoder部分的每一个decoder中；输入目标为 “西游记86版第35集女儿国之送别圣僧去往西天”经过文本处理网络的处理，输出的词语级类隐变量结果为：“西游记-女儿国-送圣僧”。

继续参考图7，图7为本发明实施例中文本处理网络中编码器一个可选的结构示意图，其中，其输入由维度为d的查询（Q）和键（K）以及维度为d的值（V）组成，所有键计算查询的点积，并应用softmax函数获得值的权重。

继续参考图7，图7中示出了本发明实施例中文本处理网络中编码器的向量示意，其中Q，K和V的是通过输入encoder的向量x与W^Q，W^K，W^V相乘得到Q，K和V。其中，W^Q， W^K，W^V在文章的维度是（512，64），然后假设我们inputs的维度是（m，512），其中m（其中，m为≥1的正整数）代表了字的个数。所以输入向量与W^Q，W^KW^V相乘之后得到的Q、K和V的维度就是（m，64）。

继续参考图8，图8为本发明实施例中文本处理网络中编码器的向量拼接示意图，其中，Z₀到Z₇就是对应的8个并行的head（维度是（m，64）），然后concat这个8个head之后就得到了（m，512）维度。最后与W^O相乘之后就到了维度为（m，512）的输出的矩阵，那么这个矩阵的维度就和进入下一个encoder的维度保持一致。

继续参考图9，图9为本发明实施例中文本处理网络中编码器的编码过程示意图，其中，x1经过self-attention到了z1的状态，通过了self-attetion的张量还需要进过残差网络和Later Norm的处理，然后进入到全连接的前馈网络中，前馈网络需要进行同样的操作，进行的残差处理和正规化。最后输出的张量才可以的进入到了下一个encoder之中，然后这样的操作，迭代经过了6次，迭代处理的结果进入到decoder中。

继续参考图10，图10为本发明实施例中文本处理网络中解码器的解码过程示意图，其中，decoder的输入输出和解码过程：

输出：对应i位置的输出词的概率分布；

输入：encoder的输出&对应i-1位置decoder的输出。所以中间的attention不是self-attention，它的K，V来自encoder，Q来自上一位置decoder的输出。

继续参考图11和图12，图11为本发明实施例中文本处理网络中解码器的解码过程示意图，其中，解码器网络的最后一个decoder输出的向量会经过Linear层和softmax层。图12为本发明实施例中文本处理网络中解码器的解码过程示意图，Linear层的作用就是对decoder部分出来的向量做映射成一个未归一化的概率（logits）向量，然后softmax层根据这个logits向量，将其转换为了概率值，最后找到概率最大值的位置，即完成了解码器的输出。

在本发明的一些实施例中，通过所述视频信息处理模型的图像处理网络对所述关键帧进行处理，以获取与所述关键帧相匹配的图像特征向量，可以通过以下方式实现：

响应于所述时序信息，确定与所述关键帧相匹配的关键帧特征；通过所述视频信息处理模型的图像处理网络利用所述时序信息，对所述关键帧特征进行处理，形成与所述关键帧相匹配的图像特征向量。其中，待处理视频可以包括多模态特征，多模态特征是针对待处理视频的标题文字、图片信息以及视觉信息进行的特征抽取，用于描述待处理视频的内容信息，标题和封面图可以影响视频的播放点击率，视频视觉帧图像信息可以影响视频的播放完成度。进一步地，视频信息处理模型的图像处理网络利用所述时序信息，对关键帧特征进行处理，形成与所述关键帧相匹配的图像特征向量，可以通过图像特征向量充分对关键帧的特征进行描述。

参考图13，图13为本发明实施例中图像处理网络一个可选的结构示意图，其中，编码器中可以包含卷积神经网络，将图像特征向量输入编码器后，输出图像特征向量对应的帧级别图像特征向量。具体地，将图像特征向量输入编码器，即输入编码器中的卷积神经网络，通过卷积神经网络提取图像特征向量对应的帧级别图像特征向量，卷积神经网络输出提取的帧级别图像特征向量，并作为编码器的输出，进而利用编码器输出的图像特征向量执行相应的图像语义识别，或者，编码器中可以包含卷积神经网络和循环神经网络，将图像特征向量输入编码器后，输出图像特征向量对应的携带有时序信息的帧级别图像特征向量，如图13中的编码器所示。具体地，将图像特征向量输入编码器，即输入编码器中的卷积神经网络（例如图13中的CNN神经网络），通过卷积神经网络提取图像特征向量对应的帧级别图像特征向量，卷积神经网络输出提取的帧级别图像特征向量，输入到编码器中的循环神经网络（对应图13中的hi-1、hi等结构），通过循环神经网络对提取的卷积神经网络特征向量进行时序信息的提取与融合，循环神经网络输出携带有时序信息的图像特征向量，并作为编码器的输出，进而利用编码器输出的图像特征向量执行相应的处理步骤。

在本发明的一些实施例中，所述方法还包括：

获取与所述待处理视频的播放界面相对应的目标分辨率；响应于所述目标分辨率，通过所述视频信息处理模型中的图像处理网络对相应的关键帧进行分辨率增强处理，并获取相应关键帧特征，以实现所述图像特征向量与所述待处理视频的播放界面相对应的目标分辨率相适配。由此，不但实现了通过图像处理网络对待处理的视频进行处理，以确定合适的待处理标视频的封面图像，还实现了与目标分辨率相适配，提升用户的观看体验。

在本发明的一些实施例中，所述方法还包括：

确定与所述待处理视频的播放环境相匹配的码率信息；通过所述视频信息处理模型中的图像处理网络，利用所述图像特征向量中的视觉特征向量，对所述待处理视频的码率进行调整，以实现待处理视频的码率与所述播放环境的码率信息相匹配。由此，实现了通过视觉信息进行处理，以确定合适的待处理视频的动态码率，以适应不同播放环境（或者用户需求）的需要。

步骤304：基于视频信息处理模型的处理装置通过所述视频信息处理模型，确定所述图像特征向量与所述标题文本处理结果的相关性参数，并根据所述图像特征向量与所述标题文本处理结果的相关性参数确定相应的待推荐封面图像帧；

步骤305：基于视频信息处理模型的处理装置获取目标用户的兴趣参数，并对兴趣参数进行解析以实现获取相应的兴趣标签向量。

步骤306：基于视频信息处理模型的处理装置通过所述视频信息处理模型，确定所述目标用户的兴趣标签向量与待推荐封面图像帧的相关性参数。

由此，可以实现通过所述目标用户的兴趣标签向量与待推荐封面图像帧的相关性参数，确定与所述目标用户兴趣相匹配的待推荐封面图像帧。其中，以短视频播放的应用程序为例，通过对数据源中不同的短视频进行处理，并最终确定一定数量（至少一条短视频）短视频通过短视频播放的应用程序的UI界面向用户进行推荐，在推荐过程中，用户通过待推荐封面图像帧不但可以向短视频播放的应用程序的用户展示视频内容，而且与目标用户兴趣相匹配的待推荐封面图像帧能够吸引用户的关注，并触发用户对相应短视频的点击与播放，通过目标用户的兴趣标签向量与待推荐封面图像帧的相关性参数，能够准确高效地在不同的封面图像帧中选取与目标用户兴趣相匹配的待推荐封面图像帧，并将所选取的封面图像帧作为短视频的封面向用户进行推荐。

继续结合图2示出的视频信息处理模型的视频信息处理装置说明本发明实施例提供的基于视频信息处理模型的视频信息处理方法，参见图14，图14为本发明实施例提供的基于视频信息处理模型的视频信息处理方法一个可选的流程示意图，可以理解地，图14所示的步骤可以由运行视频信息处理模型的视频信息处理装置的各种电子设备执行，例如可以是运行有基于视频信息处理模型的处理装置的终端，也可以为设置有视频信息处理模型的视频网站运营商的服务器或者服务器集群组，短视频客户端在视频播放进程中可以向短视频播放进程的服务器A发出播放请求，并获取服务器所推荐的短视频视频信息，并对所获取的视频进行显示，同样的，长视频客户端在视频播放进程中可以向长视频播放进程的服务器B发出播放请求，并获取服务器所推荐的长视频视频信息，并对所获取的视频进行显示（其中短视频客户端和长视频客户端既可以运行在同一终端中，也可以运行于不同终端中），这一过程中短视频播放进程的服务器A和长视频播放进程的服务器B可以将相应的播放请求转发至运行视频信息处理模型的视频信息处理装置，由运行视频信息处理模型的视频信息处理装置确定目标用户的兴趣标签向量，以完成后续的长视频或短视频的推荐。

例如可以是如带有视频信息处理模型的视频信息处理功能的专用终端、服务器或者服务器集群，具体包括以下步骤：

步骤1401：获取所述目标用户的观看历史信息。

步骤1402：根据所述目标用户的观看历史信息，确定所述目标用户在不同视频标签中的观看时长信息。

步骤1403：根据所述目标用户在不同视频标签中的观看时长信息，确定所述目标用户的兴趣标签向量。

在本发明的一些实施例中，当与所述视频信息处理模型相匹配的进程为视频推荐进程时，

根据所述目标用户的观看历史信息，调整与所述视频信息处理模型的图像处理网络中的基于注意力机制的循环卷积神经网络的参数，以实现所述基于注意力机制的循环卷积神经网络的参数与所述视频推荐进程相适配。其中，由于不同目标用户的使用习惯不同，通过目标用户的观看历史信息，调整与所述视频信息处理模型的图像处理网络中的基于注意力机制的循环卷积神经网络的参数，能够实现视频信息处理模型的快速部署，节省用户的等待时间。

下面以视频推荐进程的使用环境为例，对本发明实施例所提供的基于视频信息处理模型的视频信息处理方法进行说明，其中，图15为本发明实施例所提供的视频信息处理模型的应用环境示意图，其中，参见图15，终端（包括终端150-1和终端150-2）上设置有能够显示不同视频信息的软件的客户端（例如长视频端或者用短视频客户端），其中，短视频播放界面可以是相应的APP中所展现的，也可以是通过微信小程序所触发的（视频信息处理模型可以经过训练后封装于相应的APP或以插件形式保存于微信小程序中），随着短视频应用产品不断发展增多，视频信息的承载量远远大于文字信息，短视频可以通过相应的应用程序不间断地向用户进行推荐，其中，用户通过相应的客户端可以获得不同的视频信息，这一过程中个视频一般都会选取跟视频主题相关的一张图片作为封面图，如一个短视频在展示时一般会将标题和封面图展示给用户，便于用户直观的了解视频内容；终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。这一过程中，传统的视频封面图生成方式，均是通过计算视频中各帧跟视频标题的相关性，然后选取相关性高的视频帧作为封面图，所选取的封面图是静态的，对所有用户都是一样的，没有将用户兴趣考虑进来，不能更好的将符合用户兴趣的视频主题直观的展现出来，使得用户可能感兴趣的视频，因选取的封面图没有将用户感兴趣的部分展现出来，使得用户错过了感兴趣的视频，最终导致整体视频的播放率降低。

图16为本发明实施例提供的基于视频信息处理模型的视频信息处理方法一个可选的流程示意图，图17为本发明实施例提供的基于视频信息处理模型的模型数据结构示意图，其中，终端1中播放短视频，终端2中播放长视频，图16所示的服务器是运设置有视频信息处理模型的视频网站运营商的服务器或者服务器集群组，同时服务器中可以保存来自不同数据源的长视频和短视频。运行在终端1中的短视频客户端在视频播放进程中可以向服务器发出播放请求，并获取服务器所推荐的短视频视频信息，并对所获取的短视频进行显示，同样的，运行在终端2中的长视频客户端在视频播放进程中可以向服务器发出播放请求，并获取服务器所推荐的长视频视频信息，并对所获取的长视频进行显示（其中短视频客户端和长视频客户端可以获取不同数据源中的视频，也可以获取相同数据源中的视频），服务器可以根据所接收的访问请求分别向终端1推荐短视频，并通过封面图像帧1进行展示，也可以向终端2推荐长视频，并通过封面图像帧2进行展示，具体步骤包括：

步骤1601：服务器获取待处理视频，并对所述待处理视频进行解析以实现获取所述待处理视频的关键帧和标题文本信息。

其中，待处理视频的视频帧数较多，全部使用所有帧构建封面图候选，不仅计算量巨大，且存在很多重复帧、无意义帧，使得封面图候选准确率较低。通过抽取能表征视频信息的关键帧序列，因此可以从这些帧中选取一部分作为封面图候选。具体的，视频关键帧的抽取可以为一个序列标注模型，通过对视频中每一帧进行0、1标注，1表示是此帧是关键帧。通过对视频集进行人工标注，对每一帧标注0、1，构建训练数据集，通过在此数据集上训练视频帧序列标注，使得视频信息处理模型具备输入一个视频，即可输出该视频关键帧序列。

步骤1602：服务器通过所述视频信息处理模型的图像处理网络对所述关键帧进行处理，以获取与所述关键帧相匹配的图像特征向量；

其中，通可以过将每个关键帧输入Resnet等预先训练好的图像处理网络，将图像处理网络的分类层前的最后一层隐藏层输出，如256位浮点型向量，作为该帧的表示，以获取与所述关键帧相匹配的图像特征向量。其中，使用基于深度残差resnet50的预训练卷积神经网络进行特征抽取，把视频的关键帧信息提取为128维特征向量。Resnet在图像特征提取中是目前广泛的提取网络，有利于关键帧信息的表示。关键帧信息在用户观看前有这很大的眼球吸引力，合理贴切的封面图可以很好地提升视频的的播放点击率。

步骤1603：服务器通过视频信息处理模型的文本处理网络对标题文本信息进行处理，以获取与标题文本信息对应的标题文本处理结果；

其中，可以通过将视频标题分词，然后将标题分词序列依次输入BiLSTM/Transformer-Encoder等神经网络模型，模型的输出作为标题的文本表示；进一步地，标题特征使用自然语言处理的预训练模型进行特征抽取，其中，预训练模型以一个可选的结构的为双向注意力神经网络模BERT（Bidirectional Encoder Representation fromTransformers)，用于把视频标题句子送入模型任务获取64维（维度大小可以自定义）标题特征向量。通过bert模型进一步增加词向量模型泛化能力，实现句子级别的表示能力。

步骤1604：服务器通过视频信息处理模型，确定图像特征向量与标题文本处理结果的相关性参数，并根据图像特征向量与标题文本处理结果的相关性参数确定不同的待推荐封面图像帧。

其中，通过将关键帧表示和视频标题表示输入分类模型，输出关键帧与视频标题的为相关类别的概率，作为相关性得分。模型的训练需要构建相关性监督语料，通过对数据集中的数据进行0/1标注，标注出每个关键帧是否与标题相关，1表示相关，0表示不相关。通过使用上述语料训练相关性模型，为每个关键帧计算与标题的相关性得分，保留满足相关性阈值（优选为0.6）的关键帧作为封面图的备选队列。

步骤1605：服务器获取目标用户的兴趣参数，并对兴趣参数进行解析以实现获取相应的兴趣标签向量。

其中，获取目标用户的兴趣参数可以通过获取用户的画像实现，以推荐视频的用户的画像为例，画像描述的是用户对不同标签的观看便偏好，如用户的画像及概率为：武打0.3、宫斗剧0.3、美女0.2，每个封面图候选的用户兴趣得分为所有用户的画像标签概率*用户的画像标签与该封面图候选的相关性得分之和。

步骤1606：服务器通过视频信息处理模型，确定目标用户的兴趣标签向量与待推荐封面图像帧的相关性参数，以实现通过目标用户的兴趣标签向量与待推荐封面图像帧的相关性参数确定与目标用户兴趣相匹配的待推荐封面图像帧。

其中，图18为本发明实施例提供的基于视频信息处理模型的视频信息处理方法的前端显示示意图，具体的，封面图候选的最终得分 = x₁ * 封面图备选与标题的相关性得分 + x₂ * 用户兴趣与封面图备选的相关性得分，其中限定x1 + x₂ = 1.0，x₁>= 0.0,x₂ >= 0.0。选取最终得分最高的候选最为展示封面图，返回用户客户端进行展示，最终将“西游记-女儿国-送圣僧”作为封面图像帧做为视频的封面向用户展示。

通过本实施例所提供的方法，相比于传统技术中生成视频封面，本发明实施例的技术方案将视频封面图由静态模式，变为基于用户兴趣动态选取方式，将当前视频中用户最感兴趣的符合主题的视频帧作为封面图展现出来，且能随用户的浏览和播放行为动态获取用户兴趣，针对用户兴趣动态选取封面图，提升视频内容兴趣点对用户的曝光，使得用户更加高效地获取与自身兴趣相匹配的视频，提升用户对视频的点击播放，也提升了用户的使用体验，同时，确定与目标用户兴趣相匹配的待推荐封面图像帧，能够及时准确地将视频封面内容转换为相应的图像帧，有效提升视频信息内容的分享速度，扩大了视频信息内容的分享场景，解决了传统技术中无法通过机器处理确定与目标用户兴趣相匹配的待推荐封面图像帧的问题。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视频信息处理模型的视频信息处理方法，其特征在于，所述方法包括：

获取待处理视频，其中，所述待处理视频包括多模态特征，所述多模态特征是针对所述待处理视频的标题文字、图片信息以及视觉信息进行特征抽取得到的，用于确定与所述视频信息处理模型相适配的模型参数；

对所述待处理视频进行解析，获取所述待处理视频的时序信息；

根据所述待处理视频的时序信息，对所述待处理视频所对应的视频图像帧状态信息进行解析，获取所述待处理视频的关键帧；

对所述待处理视频的关键帧所包括的标题信息进行分词处理，以形成相应的标题文本信息；

响应于所述时序信息，确定与所述关键帧相匹配的关键帧特征；

通过所述视频信息处理模型的图像处理网络利用所述时序信息，对所述关键帧特征进行处理，形成与所述关键帧相匹配的图像特征向量；

通过文本处理网络提取与标题文字特征相匹配的文字特征向量；

通过所述文本处理网络，根据所述文字特征向量确定与所述标题文字特征所对应的至少一个词语级的隐变量；

通过所述文本处理网络，根据所述至少一个词语级的隐变量，生成与所述词语级的隐变量相对应的处理词语以及所述处理词语的被选取概率；

根据处理结果的被选取概率，选取至少一个处理词语组成与所述标题文字特征相对应的文本处理结果；

获取目标用户的观看历史信息，其中，当与所述视频信息处理模型相匹配的进程为视频推荐进程时，根据所述目标用户的观看历史信息，调整与所述视频信息处理模型的图像处理网络中的基于注意力机制的循环卷积神经网络的参数，以实现所述基于注意力机制的循环卷积神经网络的参数与所述视频推荐进程相适配；

根据所述目标用户的观看历史信息，确定所述目标用户在不同视频标签中的观看时长信息；

根据所述目标用户在不同视频标签中的观看时长信息，确定所述目标用户的兴趣标签向量；

通过所述视频信息处理模型，确定所述目标用户的兴趣标签向量与待推荐封面图像帧的相关性参数，以实现通过所述目标用户的兴趣标签向量与待推荐封面图像帧的相关性参数，确定与所述目标用户兴趣相匹配的待推荐封面图像帧；

所述方法还包括：

确定与所述待处理视频的播放环境相匹配的码率信息；

通过所述视频信息处理模型中的图像处理网络，利用所述图像特征向量中的视觉特征向量，对所述待处理视频的码率进行调整，以实现待处理视频的码率与所述播放环境的码率信息相匹配。

2.根据权利要求1所述的方法，其特征在于，所述对所述待处理视频的关键帧所包括的标题信息进行分词处理，以形成相应的标题文本信息，包括：

根据所述动态噪声阈值对所述待处理视频的关键帧所包括的标题信息进行去噪处理，并触发与所述动态噪声阈值相匹配的第一分词策略；

根据与所述动态噪声阈值相匹配的第一分词策略，对所述关键帧所包括的标题信息进行分词处理，形成相应的标题文本信息。

3.根据权利要求1所述的方法，其特征在于，所述对所述待处理视频的关键帧所包括的标题信息进行分词处理，以形成相应的标题文本信息，包括：

确定与所述视频信息处理模型的使用环境相匹配的固定噪声阈值；

根据所述固定噪声阈值对所述待处理视频的关键帧所包括的标题信息进行去噪处理，并触发与所述固定噪声阈值相匹配的第二分词策略；

根据与所述固定噪声阈值相匹配的第二分词策略，对所述关键帧所包括的标题信息进行分词处理，形成相应的标题文本信息。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取与所述待处理视频的播放界面相对应的目标分辨率；

响应于所述目标分辨率，通过所述视频信息处理模型中的图像处理网络对相应的关键帧进行分辨率增强处理，并获取相应关键帧特征，以实现所述图像特征向量与所述待处理视频的播放界面相对应的目标分辨率相适配。

5.一种基于视频信息处理模型的处理装置，其特征在于，所述装置包括：

信息传输模块，用于获取待处理视频，其中，所述待处理视频包括多模态特征，所述多模态特征是针对所述待处理视频的标题文字、图片信息以及视觉信息进行特征抽取得到的，用于确定与所述视频信息处理模型相适配的模型参数；

信息处理模块，用于对所述待处理视频进行解析，获取所述待处理视频的时序信息；根据所述待处理视频的时序信息，对所述待处理视频所对应的视频图像帧状态信息进行解析，获取所述待处理视频的关键帧；对所述待处理视频的关键帧所包括的标题信息进行分词处理，以形成相应的标题文本信息；响应于所述时序信息，确定与所述关键帧相匹配的关键帧特征；

所述信息处理模块，还用于通过所述视频信息处理模型的图像处理网络利用所述时序信息，对所述关键帧特征进行处理，形成与所述关键帧相匹配的图像特征向量；

所述信息处理模块，还用于通过文本处理网络提取与标题文字特征相匹配的文字特征向量；通过所述文本处理网络，根据所述文字特征向量确定与所述标题文字特征所对应的至少一个词语级的隐变量；通过所述文本处理网络，根据所述至少一个词语级的隐变量，生成与所述词语级的隐变量相对应的处理词语以及所述处理词语的被选取概率；根据处理结果的被选取概率，选取至少一个处理词语组成与所述标题文字特征相对应的文本处理结果；

所述信息处理模块，还用于通过所述视频信息处理模型，确定所述图像特征向量与所述标题文本处理结果的相关性参数，并根据所述图像特征向量与所述标题文本处理结果的相关性参数确定相应的待推荐封面图像帧；

所述信息处理模块，还用于获取目标用户的观看历史信息，其中，当与所述视频信息处理模型相匹配的进程为视频推荐进程时，根据所述目标用户的观看历史信息，调整与所述视频信息处理模型的图像处理网络中的基于注意力机制的循环卷积神经网络的参数，以实现所述基于注意力机制的循环卷积神经网络的参数与所述视频推荐进程相适配；根据所述目标用户的观看历史信息，确定所述目标用户在不同视频标签中的观看时长信息；根据所述目标用户在不同视频标签中的观看时长信息，确定所述目标用户的兴趣标签向量；

所述信息处理模块，还用于通过所述视频信息处理模型，确定所述目标用户的兴趣标签向量与待推荐封面图像帧的相关性参数，以实现通过所述目标用户的兴趣标签向量与待推荐封面图像帧的相关性参数，确定与所述目标用户兴趣相匹配的待推荐封面图像帧；

所述信息处理模块，还用于确定与所述待处理视频的播放环境相匹配的码率信息；通过所述视频信息处理模型中的图像处理网络，利用所述图像特征向量中的视觉特征向量，对所述待处理视频的码率进行调整，以实现待处理视频的码率与所述播放环境的码率信息相匹配。

6.根据权利要求5所述的装置，其特征在于，

7.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至4任一项所述的基于视频信息处理模型的视频信息处理方法。

8.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至4任一项所述的基于视频信息处理模型的视频信息处理方法。