CN111860597B

CN111860597B - 一种视频信息处理方法、装置、电子设备及存储介质

Info

Publication number: CN111860597B
Application number: CN202010554515.1A
Authority: CN
Inventors: 魏瑶; 高俊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2021-09-07
Anticipated expiration: 2040-06-17
Also published as: CN111860597A

Abstract

本发明提供了一种视频信息处理方法，包括：获取目标用户的历史视频对应的视频图像；基于所述视频图像，通过视频信息处理模型中的视频编码器网络确定历史视频特征向量；通过视频信息处理模型中的条件变分自编码器网络，根据所述历史视频特征向量确定与所述历史视频对应的隐变量；基于所述历史视频对应的隐变量，通过所述视频信息处理模型中的回复解码器网络确定与所述视频图像对应的文本信息，本发明还提供了信息处理装置、电子设备及存储介质。本发明能够实现通过输出文本信息作为所述目标用户实时视频流信息对应的回复文本，有效提升视频信息播放中回复文本的丰富程度，扩大了视频信息内容的回复场景，提升回复的前瞻性，提升用户的使用体验。

Description

一种视频信息处理方法、装置、电子设备及存储介质

技术领域

本发明涉及视频信息处理技术，尤其涉及视频信息处理方法、装置、电子设备及存储介质。

背景技术

相关技术中，视频信息向量化表示是很多机器学习算法的基础，如何能基于视频信息准确进行向量表示是该方向的研究重点。相关技术大多相对比较片面，没有结构化地对视频进行表示学习。相关技术可以在实现针对不同模态的回复或评论生成时，可以根据用户输入的文本生成一段回复文本，或者根据一篇新闻文章，生成内容相关的新闻评论，但是不能够实现生成对直播视频的评论文本。

发明内容

有鉴于此，本发明实施例提供一种视频信息处理方法、装置、电子设备及存储介质，本发明实施例的技术方案是这样实现的：

本发明实施例通提供了一种视频信息处理方法，所述方法包括：

获取目标用户的历史视频对应的视频图像；

基于所述视频图像，通过视频信息处理模型中的视频编码器网络确定历史视频特征向量；

通过所述视频信息处理模型中的条件变分自编码器网络，根据所述历史视频特征向量确定与所述历史视频对应的隐变量；

基于所述历史视频对应的隐变量，通过所述视频信息处理模型中的回复解码器网络确定与所述视频图像对应的文本信息，以实现通过输出所述文本信息作为所述目标用户实时视频流信息对应的回复文本。

上述方案中，基于所述视频图像对应的观众回复信息，通过所述视频信息处理模型中的回复编码器网络确定回复文本特征向量，包括：

确定与所述视频信息处理模型的使用环境相匹配的固定噪声阈值；

根据所述固定噪声阈值对所述视频图像对应的观众回复信息进行去噪处理，并触发与所述固定噪声阈值相匹配的动态分词策略；

根据与所述动态噪声阈值相匹配的动态分词策略，对所述观众回复信息进行分词处理；

通过所述回复编码器网络中的循环卷积神经子网络，对经过分词处理的所述观众回复信息进行词嵌入处理，形成相应的回复文本特征向量。

本发明实施例还提供了一种视频信息处理装置，所述装置包括：

信息传输模块，用于获取目标用户的历史视频对应的视频图像；

信息处理模块，用于基于所述视频图像，通过视频信息处理模型中的视频编码器网络确定历史视频特征向量；

所述信息处理模块，用于通过所述视频信息处理模型中的条件变分自编码器网络，根据所述历史视频特征向量确定与所述历史视频对应的隐变量；

所述信息处理模块，用于基于所述历史视频对应的隐变量，通过所述视频信息处理模型中的回复解码器网络确定与所述视频图像对应的文本信息，以实现通过输出所述文本信息作为所述目标用户实时视频流信息对应的回复文本。

上述方案中，

所述信息处理模块，用于当所述目标用户的类型为第一类型时，确定所述目标用户的历史视频中互动次数最多的历史视频；

所述信息处理模块，用于提取所述互动次数最多的历史视频中的至少一帧图像作为所述目标用户的历史视频对应的视频图像。

上述方案中，

所述信息处理模块，用于当所述目标用户的类型为第二类型时，确定与所述目标用户的归属领域相同的其他用户的历史视频中收入最高的历史视频；

所述信息处理模块，用于提取所述收入最高的历史视频中的至少一帧图像作为所述目标用户的历史视频对应的视频图像。

上述方案中，

所述信息处理模块，用于当所述目标用户的类型为第三类型时，确定与所述目标用户进行直播互动的其他用户的历史视频中播放次数最多的历史视频；

所述信息处理模块，用于提取所述播放次数最多的历史视频中的至少一帧图像作为所述目标用户的历史视频对应的视频图像。

上述方案中，所述装置还包括：

训练模块，用于基于目标用户的历史视频，确定与所述视频信息处理模型相匹配的训练样本集合；

所述训练模块，用于根据与所述训练样本集合对所述视频信息处理模型进行训练，确定与所述视频信息处理模型中不同网络结构相适配的模型参数，以实现通过所述视频信息处理模型不同网络结构，确定与所述训练样本相匹配的特征向量，并通过所述视频信息处理模型，利用与所述训练样本相匹配的特征向量，确定所述历史视频对应的文本信息。

上述方案中，

所述训练模块，用于获取目标用户的历史视频对应的视频图像和与所述视频图像对应的观众回复信息；

所述训练模块，用于基于所述视频图像，通过所述视频信息处理模型中的视频编码器网络确定历史视频特征向量；

所述训练模块，用于基于所述视频图像对应的观众回复信息，通过所述视频信息处理模型中的回复编码器网络确定回复文本特征向量；

所述训练模块，用于通过所述视频信息处理模型中的条件变分自编码器网络，根据所述历史视频特征向量和所述回复文本特征向量确定与所述历史视频对应的隐变量；

所述训练模块，用于将所述历史视频特征向量、回复文本特征向量以及与所述历史视频对应的隐变量组成为一组训练样本。

上述方案中，

所述训练模块，用于通过所述视频编码器网络中的视频卷积神经子网络，对所述视频图像进行编码，获得所有图像帧的第一视频向量集合；

所述训练模块，用于对所述历史视频进行解析，获取所述历史视频的时序信息；

所述训练模块，用于基于所述历史视频的时序信息和所述第一视频向量集合，通过所述视频编码器网络中的视频循环卷积神经子网络，确定历史视频特征向量。

上述方案中，

所述训练模块，用于确定与所述视频信息处理模型的使用环境相匹配的动态噪声阈值；

所述训练模块，用于根据所述动态噪声阈值对所述视频图像对应的观众回复信息进行去噪处理，并触发与所述动态噪声阈值相匹配的动态分词策略；

所述训练模块，用于根据与所述动态噪声阈值相匹配的动态分词策略，对所述观众回复信息进行分词处理；

所述训练模块，用于通过所述回复编码器网络中的循环卷积神经子网络，对经过分词处理的所述观众回复信息进行词嵌入处理，形成相应的回复文本特征向量。

上述方案中，

所述训练模块，用于确定与所述视频信息处理模型的使用环境相匹配的固定噪声阈值；

所述训练模块，用于根据所述固定噪声阈值对所述视频图像对应的观众回复信息进行去噪处理，并触发与所述固定噪声阈值相匹配的动态分词策略；

上述方案中，

所述训练模块，用于基于所述历史视频特征向量和所述历史视频对应的概率分布，确定相应的先验分布；

所述训练模块，用于基于所述历史视频特征向量、所述回复文本特征向量和所述历史视频对应的概率分布确定相应的后验分布以及条件分布；

所述训练模块，用于确定所述先验分布和所述后验分布之间的信息增益散度；

所述训练模块，用于通过所述视频信息处理模型中的条件变分自编码器网络，根据所述信息增益散度以及条件分布，对所述先验分布和后验分布进行拟合，以实现通过所述条件变分自编码器网络的高斯分布采样确定与所述历史视频对应的隐变量。

上述方案中，

所述训练模块，用于根据与所述训练样本集合，通过所述视频信息处理模型中的回复解码器网络确定与所述视频图像对应的文本信息；

所述训练模块，用于确定与所述视频信息处理模型中的不同网络结构相匹配的不同损失函数；

所述训练模块，用于根据所述视频信息处理模型中的回复解码器网络所确定的与所述视频图像对应的文本信息，以及所述视频信息处理模型中的不同网络结构相匹配的不同损失函数，调整所述视频信息处理模型中不同网络结构的参数，直至所述视频信息处理模型中不同网络结构的损失函数达到相应的收敛条件。

上述方案中，

所述信息处理模块，用于将所述目标用户的标识、视频信息处理模型中不同网络结构的参数以及与所述视频图像对应的文本信息发送至区块链网络，以使

所述区块链网络的节点将所述目标用户的标识、视频信息处理模型中不同网络结构的参数以及与所述视频图像对应的文本信息填充至新区块，且当对所述新区块共识一致时，将所述新区块追加至区块链的尾部，以实现同一用户的不同使用环境中视频信息处理模型均能够获取所述区块中的信息。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前序的视频信息处理方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现前述的视频信息处理方法。

本发明实施例具有以下有益效果：

本发明通过获取目标用户的历史视频对应的视频图像；基于所述视频图像，通过视频信息处理模型中的视频编码器网络确定历史视频特征向量；通过所述视频信息处理模型中的条件变分自编码器网络，根据所述历史视频特征向量确定与所述历史视频对应的隐变量；基于所述历史视频对应的隐变量，通过所述视频信息处理模型中的回复解码器网络确定与所述视频图像对应的文本信息，由此，可以实现通过输出所述文本信息作为所述目标用户实时视频流信息对应的回复文本，有效提升视频信息播放中回复文本的丰富程度，扩大了视频信息内容的回复场景，提升回复的前瞻性，提升用户的使用体验。

附图说明

图1为本发明实施例提供的视频信息处理方法的使用场景示意图；

图2为本发明实施例提供的视频信息处理装置的组成结构示意图；

图3为本发明实施例提供的视频信息处理方法一个可选的流程示意图；

图4为本发明实施例提供的视频信息处理模型的训练方法一个可选的流程示意图；

图5为本发明实施例提供的视频信息处理模型的训练方法一个可选的流程示意图；

图6是本发明实施例提供的信息处理装置100的架构示意；

图7是本发明实施例提供的区块链网络200中区块链的结构示意图；

图8是本发明实施例提供的区块链网络200的功能架构示意图；

图9为本发明实施例中视频信息处理方法的应用环境示意图；

图10为本发明实施例中视频信息处理方法的使用过程示意图；

图11为本发明实施例中视频信息处理模型的结构示意图；

图12为本发明实施例中视频信息处理模型的解码过程示意图；

图13为本发明实施例中视频信息处理模型的数据流转示意图；

图14为本发明实施例中视频信息处理方法的前端表现示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)基于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2)分词：又称切词，起作用为把一个完整的句子的文本信息切分成多个词，例如：刘德华是个中国歌手。分词后的结果为：刘德华、中国、歌手。

3)分词库：又称切词库，指一种特定的分词方法，不同的分词库各自对应的单词字典，并可以根据各自对应的单词字典对相应的文本信息进行分词处理。

4)卷积神经网络(CNN Convolutional Neural Networks)是一类包含卷积计算且具有深度结构的前馈神经网络(Feed forward Neural Networks)，是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification)。

5)模型训练，对图像数据集进行多分类学习。该模型可采用Tensor Flow、torch等深度学习框架进行构建，使用CNN等神经网络层的多层结合组成多分类模型。模型的输入为图像经过openCV等工具读取形成的三通道或原通道矩阵，模型输出为多分类概率，通过softmax等算法最终输出文本信息。在训练时，模型通过交叉熵等目标函数向正确趋势逼近。

6)神经网络(Neural Network，NN)：人工神经网络(Artificial Neural Network，ANN)，简称神经网络或类神经网络，在机器学习和认知科学领域，是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

7)编码器-解码器结构：机器翻译技术常用的网络结构。由编码器和解码器两部分组成，编码器将输入的文本转换为一系列能够表达输入文本特征的上下文向量，解码器接收编码器输出的结果作为自己的输入，输出对应的另一种语言的文本序列。

8)模型参数：是使用通用变量来建立函数和变量之间关系的一个数量。在人工神经网络中，模型参数通常是实数矩阵。

9)循环神经网络(Recurrent Neural Network,RNN)是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。

10)交易(Transaction)，等同于计算机术语“事务”，交易包括了需要提交到区块链网络执行的操作，并非单指商业语境中的交易，鉴于在区块链技术中约定俗成地使用了“交易”这一术语，本发明实施例遵循了这一习惯。

11)区块链(Blockchain)，是由区块(Block)形成的加密的、链式的交易的存储结构。

12)区块链网络(Blockchain Network)，通过共识的方式将新区块纳入区块链的一系列的节点的集合。

13)账本(Ledger)，是区块链(也称为账本数据)和与区块链同步的状态数据库的统称。

14)智能合约(Smart Contracts)，也称为链码(Chaincode)或应用代码，部署在区块链网络的节点中的程序，节点执行接收的交易中所调用的智能合约，来对状态数据库的键值对数据进行更新或查询的操作。

15)共识(Consensus)，是区块链网络中的一个过程，用于在涉及的多个节点之间对区块中的交易达成一致，达成一致的区块将被追加到区块链的尾部，实现共识的机制包括工作量证明(PoW，Proof of Work)、权益证明(PoS，Proof of Stake)、股份授权证明(DPoS，Delegated Proof-of-Stake)、消逝时间量证明(PoET，Proof of Elapsed Time)等。

图1为本发明实施例提供的视频信息处理方法的使用场景示意图，参见图1，终端(包括终端10-1和终端10-2)上设置有能够显示相应历史视频的软件的客户端，例如视频直播或者视频播放的客户端或插件，用户通过相应的客户端可以获得历史视频(例如直播的视频流)并进行展示；终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。作为一个示例，服务器200用于布设所述信息处理装置以实现本发明所提供的视频信息处理方法，并通过终端(终端10-1和/或终端10-2)展示输出与所述历史视频相匹配的文本信息。当然，本发明所提供的信息处理方法不但可以应用于直播视频客户端的直播视频播放，也可以应用于微信小程序中的视频直播小程序，最终在用户界面(User Interface，UI)上呈现出与相应的历史视频相匹配的文本信息，以提升用户的交互体验。相关技术中，视频信息向量化表示是很多机器学习算法的基础，如何能够把视频信息准确的表示出来是该方向的研究重点。相关技术大多相对比较片面，没有结构化地对视频进行表示学习。相关技术可以在实现针对不同模态的回复或评论生成时，可以根据用户输入的文本生成一段回复文本，或者根据一篇新闻文章，生成内容相关的新闻评论，但是不能够实现生成对直播视频的评论文本。

作为一个示例，服务器200用于布设所述信息处理装置以实现本发明所提供的信息处理方法，以通过获取目标用户的历史视频对应的视频图像；基于所述视频图像，通过视频信息处理模型中的视频编码器网络确定历史视频特征向量；通过所述视频信息处理模型中的条件变分自编码器网络，根据所述历史视频特征向量确定与所述历史视频对应的隐变量；基于所述历史视频对应的隐变量，通过所述视频信息处理模型中的回复解码器网络确定与所述视频图像对应的文本信息，以实现通过输出所述文本信息作为所述目标用户实时视频流信息对应的回复文本。其中，所述文本信息用于通过自然语言对所述历史视频的内容进行回复或描述，并通过终端(终端10-1和/或终端10-2)展示输出与所述历史视频相匹配的文本信息。当然，本发明所提供的信息处理装置可以应用于视频播放，在视频播放中通常会对不同数据来源的历史视频进行处理，最终在用户界面上呈现出与相应的历史视频相匹配的文本信息，文本信息的准确性、丰富性、及时性都直接影响了用户体验。视频播放的后台数据库每天都会收到大量不同来源的视频数据，所得到与所述历史视频相匹配的文本信息还可以供其他应用程序调用或者可以迁移至不同的视频播放进程(例如网页视视频直播进程、小程序视频播放进程或者短视频客户端的视频播放进程)。

当然在通过视频信息处理装置所部署的视频信息处理模型得到与所述历史视频相匹配的文本信息之前还需要对视频信息处理模型进行训练，具体包括：基于目标用户的历史视频，确定与所述视频信息处理模型相匹配的训练样本集合；

根据与所述训练样本集合对所述视频信息处理模型进行训练，确定与所述视频信息处理模型中不同网络结构相适配的模型参数，以实现通过所述视频信息处理模型不同网络结构，确定与所述训练样本相匹配的特征向量，并通过所述视频信息处理模型，利用与所述训练样本相匹配的特征向量，确定所述历史视频对应的文本信息。

下面对本发明实施例的视频信息处理装置的结构做详细说明，视频信息处理装置可以各种形式来实施，如带有视频信息处理装置处理功能的专用终端，也可以为设置有视频信息处理装置处理功能的服务器，例如前序图1中的服务器200。图2为本发明实施例提供的视频信息处理装置的组成结构示意图，可以理解，图2仅仅示出了视频信息处理装置的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的视频信息处理装置包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。视频信息处理装置中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的视频信息处理装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的视频信息处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的视频信息处理方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的视频信息处理装置采用软硬件结合实施的示例，本发明实施例所提供的视频信息处理装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的视频信息处理方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的视频信息处理装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的视频信息处理方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持视频信息处理装置的操作。这些数据的示例包括：用于在视频信息处理装置上操作的任何可执行指令，如可执行指令，实现本发明实施例的从视频信息处理方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的视频信息处理装置可以采用软件方式实现，图2示出了存储在存储器202中的视频信息处理装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括视频信息处理装置，视频信息处理装置中包括以下的软件模块信息传输模块2081和信息处理模块2082。当视频信息处理装置中的软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的视频信息处理方法，其中，视频信息处理装置中各个软件模块的功能，包括：

信息传输模块2081，用于获取目标用户的历史视频对应的视频图像；

信息处理模块2082，用于基于所述视频图像，通过视频信息处理模型中的视频编码器网络确定历史视频特征向量；

所述信息处理模块2082，用于通过所述视频信息处理模型中的条件变分自编码器网络，根据所述历史视频特征向量确定与所述历史视频对应的隐变量；

所述信息处理模块2082，用于基于所述历史视频对应的隐变量，通过所述视频信息处理模型中的回复解码器网络确定与所述视频图像对应的文本信息，以实现通过输出所述文本信息作为所述目标用户实时视频流信息对应的回复文本。

结合图2示出的信息处理装置说明本发明实施例提供的视频信息处理方法，参见图3，图3为本发明实施例提供的视频信息处理方法一个可选的流程示意图，可以理解地，图3所示的步骤可以由运行视频信息处理装置的各种电子设备执行，例如可以是如带有视频信息处理装置的训练功能的专用终端、服务器或者服务器集群。下面针对图3示出的步骤进行说明。

步骤301：视频信息处理装置获取目标用户的历史视频对应的视频图像。

在本发明的一些实施例中，获取目标用户的历史视频对应的视频图像，可以通过以下方式实现：

当所述目标用户的类型为第一类型时，确定所述目标用户的历史视频中互动次数最多的历史视频；提取所述互动次数最多的历史视频中的至少一帧图像作为所述目标用户的历史视频对应的视频图像。其中，由于目标用户的类型多种多样，以视频直播的使用场景为例，热门主播作为目标用户时，目标用户的类型为第一类型，由于历史视频数量较多，因此，可以提取所述互动次数最多的历史视频中的至少一帧图像作为所述目标用户的历史视频对应的视频图像，以丰富所生的文本信息的形式，避免由于所生成的回复单一，影响用户的使用体验。

当所述目标用户的类型为第二类型时，确定与所述目标用户的归属领域相同的其他用户的历史视频中收入最高的历史视频；提取所述收入最高的历史视频中的至少一帧图像作为所述目标用户的历史视频对应的视频图像。其中，以视频直播的使用场景为例，当所述目标用户的类型为第二类型时，用户可以为新加入的主播，通过提取所述收入最高的历史视频中的至少一帧图像作为所述目标用户的历史视频对应的视频图像，所生成的文本信息的前瞻性获得提升，可以增加用户黏性，提升用户的使用体验。

当所述目标用户的类型为第三类型时，确定与所述目标用户进行直播互动的其他用户的历史视频中播放次数最多的历史视频；提取所述播放次数最多的历史视频中的至少一帧图像作为所述目标用户的历史视频对应的视频图像。

步骤302：视频信息处理装置基于所述视频图像，通过视频信息处理模型中的视频编码器网络确定历史视频特征向量。

步骤303：视频信息处理装置通过所述视频信息处理模型中的条件变分自编码器网络，根据所述历史视频特征向量确定与所述历史视频对应的隐变量。

步骤304：视频信息处理装置基于所述历史视频对应的隐变量，通过所述视频信息处理模型中的回复解码器网络确定与所述视频图像对应的文本信息。

由此，可以实现通过输出所述文本信息作为所述目标用户实时视频流信息对应的回复文本。

继续结合图2示出的视频信息处理装置说明本发明实施例提供的视频信息处理模型的训练方法，参见图4，图4为本发明实施例提供的视频信息处理模型的训练方法一个可选的流程示意图，可以理解地，图4所示的步骤可以由运行视频信息处理装置的各种电子设备执行，例如可以是如带有视频信息处理功能的专用终端、服务器或者服务器集群用于确定与所述视频信息处理模型相适配的模型参数，完成视频信息处理模型的部署，具体包括以下步骤：

步骤401：基于目标用户的历史视频，确定与所述视频信息处理模型相匹配的训练样本集合。

在本发明的一些实施例中，基于目标用户的历史视频，确定与所述视频信息处理模型相匹配的训练样本集合，可以通过以下方式实现：

获取目标用户的历史视频对应的视频图像和与所述视频图像对应的观众回复信息；基于所述视频图像，通过所述视频信息处理模型中的视频编码器网络确定历史视频特征向量；基于所述视频图像对应的观众回复信息，通过所述视频信息处理模型中的回复编码器网络确定回复文本特征向量；通过所述视频信息处理模型中的条件变分自编码器网络，根据所述历史视频特征向量和所述回复文本特征向量确定与所述历史视频对应的隐变量；将所述历史视频特征向量、回复文本特征向量以及与所述历史视频对应的隐变量组成为一组训练样本。

在本发明的一些实施例中，基于所述视频图像，通过所述视频信息处理模型中的视频编码器网络确定历史视频特征向量，可以通过以下方式实现：

通过所述视频编码器网络中的视频卷积神经子网络，对所述视频图像进行编码，获得所有图像帧的第一视频向量集合；对所述历史视频进行解析，获取所述历史视频的时序信息；基于所述历史视频的时序信息和所述第一视频向量集合，通过所述视频编码器网络中的视频循环卷积神经子网络，确定历史视频特征向量。其中，所获取的时序信息可以用于对历史视频的视频图像帧和对应的音频文件进行分解，由于历史视频的来源具有不确定性(可以是互联网中的视频资源，也可以是电子设备所保存的本地视频文件)，通过获取与所述历史视频相对应的播放时长参数与存储位置参数，能够在相应的区块链网络中保存原始的历史视频时，同时将与所述历史视频相对应的播放时长参数与存储位置参数保存在区块链网络中，以实现对历史视频的溯源。

在本发明的一些实施例中，基于所述视频图像对应的观众回复信息，通过所述视频信息处理模型中的回复编码器网络确定回复文本特征向量，可以通过以下方式实现：

确定与所述视频信息处理模型的使用环境相匹配的动态噪声阈值；根据所述动态噪声阈值对所述视频图像对应的观众回复信息进行去噪处理，并触发与所述动态噪声阈值相匹配的动态分词策略；根据与所述动态噪声阈值相匹配的动态分词策略，对所述观众回复信息进行分词处理；通过所述回复编码器网络中的循环卷积神经子网络，对经过分词处理的所述观众回复信息进行词嵌入处理，形成相应的回复文本特征向量。其中，例如，单一主播的学术视频直播播放环境中(例如老师通过网络进行直播授课)，终端所显示的文本信息仅包括了当前学科领域的文本信息与所述视频信息处理模型的使用环境相匹配的动态噪声阈值需要小于娱乐主播的使用环境中的动态噪声阈值。

其中，无论根据历史视频中的图像帧生成相应的可识别文本信息，需要对历史信息中的视频图像对应的观众回复信息进行分词处理，所谓分词，即有动词含义也有名词含义；每个分词就是一个单词或者词组，即有确定意义的最小语义单元；对于所接收的不同的用户或者不同的文本处理模型的使用环境，其需要划分其中包含的最小语义单位也是不同的，需要及时地做出调整，这一过程叫做分词，即分词可以指上述划分最小语义单位的过程；另一方面，划分后获得的最小语义单位，也常常被称为分词，即分词这个操作执行后获得的单词；有时为了将两个意思相互区别，将后一个意思所指称的最小语义单位称为分词对象(Term)；本申请中即使用分词对象这个称呼；分词对象对应于倒排表中作为索引依据的关键词。对于汉语而言，由于作为最小语义单位的词往往是由不同数量的字组成的，词之间不存在空白隔断等拼音文字中天然的区分标志，因此，对于汉语而言，准确进行分词以获得合理的分词对象是一个重要的步骤。

在本发明的一些实施例中，不同的用户的语言习惯与操作习惯并不相同，对于不同的用户需要调整不同的分词方式，以适配不同用户的语言习惯。尤其是对于汉语而言，以汉字为基础表意单位，而真正具有含义的最小语义单位则是词；由于词与词之间并没有像英语单词之间的空格作为分割，因此，一句文本中，哪些字组成词并不确定，因此，对汉语文本进行分词就是一个重要的工作。并且，对于文本处理指令文本，其中包含一些仅仅对自然语言理解有价值的东西，而对文本处理模型而言，要查询到相关内容，必须确定哪些是真正有价值的检索依据，因此，通除噪处理，能够形成与文本处理指令文本相对应的词语级特征向量集合，避免词语级特征向量集合出现无意义的词语级特征向量，例如“的”、“地”和“得”

确定与所述视频信息处理模型的使用环境相匹配的固定噪声阈值；根据所述固定噪声阈值对所述视频图像对应的观众回复信息进行去噪处理，并触发与所述固定噪声阈值相匹配的动态分词策略；根据与所述动态噪声阈值相匹配的动态分词策略，对所述观众回复信息进行分词处理；通过所述回复编码器网络中的循环卷积神经子网络，对经过分词处理的所述观众回复信息进行词嵌入处理，形成相应的回复文本特征向量。具体来说，使用环境为专业术语问题语句(或者某一领域的问题语句)时，由于噪声较为单一，通过固定视频信息处理模型相对应的固定噪声阈值，能够有效提升视频信息处理模型的处理速度，减少用户的等待时间，提升用户的使用体验。

继续结合图2示出的视频信息处理装置说明本发明实施例提供的视频信息处理模型的训练方法，参见图5，图5为本发明实施例提供的视频信息处理模型的训练方法一个可选的流程示意图，可以理解地，图5所示的步骤可以由运行视频信息处理装置的各种电子设备执行，例如可以是如带有视频信息处理功能的专用终端、服务器或者服务器集群用于确定与所述视频信息处理模型相适配的模型参数，完成视频信息处理模型的部署，具体包括以下步骤：

步骤501：基于所述历史视频特征向量和所述历史视频对应的概率分布，确定相应的先验分布。

步骤502：基于所述历史视频特征向量、所述回复文本特征向量和所述历史视频对应的概率分布确定相应的后验分布以及条件分布。

步骤503：确定所述先验分布和所述后验分布之间的信息增益散度。

步骤504：通过所述视频信息处理模型中的条件变分自编码器网络，根据所述信息增益散度以及条件分布，对所述先验分布和后验分布进行拟合，以实现通过所述条件变分自编码器网络的高斯分布采样确定与所述历史视频对应的隐变量。

继续参考图4，还包括以下步骤：

步骤402：根据与所述训练样本集合，通过所述视频信息处理模型中的回复解码器网络确定与所述视频图像对应的文本信息。

步骤403：确定与所述视频信息处理模型中的不同网络结构相匹配的不同损失函数。

其中，编码器中可以包含卷积神经网络，将图像特征向量输入编码器后，输出图像特征向量对应的帧级别视频特征向量。具体地，将图像特征向量输入编码器，即输入编码器中的卷积神经网络，通过卷积神经网络提取图像特征向量对应的帧级别视频特征向量，卷积神经网络输出提取的帧级别视频特征向量，并作为编码器的输出，进而利用编码器输出的视频特征向量执行相应的图像语义识别，或者，编码器中可以包含卷积神经网络和循环神经网络，将图像特征向量输入编码器后，输出图像特征向量对应的携带有时序信息的帧级别视频特征向量。

步骤404：根据所述视频信息处理模型中的回复解码器网络所确定的与所述视频图像对应的文本信息，以及所述视频信息处理模型中的不同网络结构相匹配的不同损失函数，调整所述视频信息处理模型中不同网络结构的参数，直至所述视频信息处理模型中不同网络结构的损失函数达到相应的收敛条件。

由此，可以实现通过所述视频信息处理模型不同网络结构，确定与所述训练样本相匹配的特征向量，并通过所述视频信息处理模型，利用与所述训练样本相匹配的特征向量，确定所述历史视频对应的文本信息。其中，文本信息可以具有全局词性。

在本发明的一些实施例中，可以根据所接收的用户指令对电子设备所输出的内容进行调整，在用户仅能够查看相应的文字信息时，输出与历史视频相匹配的文本信息，以适应用户的不同需求。

在本发明的一些实施例中，当形成与目标视频相匹配的文本信息后为便于文本信息的保存与查询，可以将将所述目标用户的标识、视频信息处理模型中不同网络结构的参数以及与所述视频图像对应的文本信息发送至区块链网络，以使所述区块链网络的节点将目标用户的标识、视频信息处理模型中不同网络结构的参数以及与所述视频图像对应的文本信息所述填充至新区块，且当对所述新区块共识一致时，将所述新区块追加至区块链的尾部。

参见图6，图6是本发明实施例提供的信息处理装置100的架构示意图，包括区块链网络200(示例性示出了共识节点210-1至共识节点210-3)、认证中心300、业务主体400和业务主体500，下面分别进行说明。

区块链网络200的类型是灵活多样的，例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例，任何业务主体的电子设备例如用户终端和服务器，都可以在不需要授权的情况下接入区块链网络200；以联盟链为例，业务主体在获得授权后其下辖的电子设备(例如终端/服务器)可以接入区块链网络200，此时，成为区块链网络200中的客户端节点。

在一些实施例中，客户端节点可以只作为区块链网络200的观察者，即提供支持业务主体发起交易(例如，用于上链存储数据或查询链上数据)功能，对于区块链网络200的共识节点210的功能，例如排序功能、共识服务和账本功能等，客户端节点可以缺省或者有选择性(例如，取决于业务主体的具体业务需求)地实施。从而，可以将业务主体的数据和业务处理逻辑最大程度迁移到区块链网络200中，通过区块链网络200实现数据和业务处理过程的可信和可追溯。

区块链网络200中的共识节点接收来自不同业务主体(例如图6中示出的业务主体400和业务主体500)的客户端节点(例如，图6中示出的归属于业务主体400的客户端节点410、以及归属于业务主体500的客户端节点510)提交的交易，执行交易以更新账本或者查询账本，执行交易的各种中间结果或最终结果可以返回业务主体的客户端节点中显示。

例如，客户端节点410/510可以订阅区块链网络200中感兴趣的事件，例如区块链网络200中特定的组织/通道中发生的交易，由共识节点210推送相应的交易通知到客户端节点410/510，从而触发客户端节点410/510中相应的业务逻辑。

下面以多个业务主体接入区块链网络以实现目标视频和相应文本信息的管理为例，说明区块链网络的示例性应用。

参见图6，管理环节涉及的多个业务主体，如业务主体400可以是基于人工智能的信息处理装置，业务主体500可以是带有视频播放功能的显示系统，从认证中心300进行登记注册获得各自的数字证书，数字证书中包括业务主体的公钥、以及认证中心300对业务主体的公钥和身份信息签署的数字签名，用来与业务主体针对交易的数字签名一起附加到交易中，并被发送到区块链网络，以供区块链网络从交易中取出数字证书和签名，验证消息的可靠性(即是否未经篡改)和发送消息的业务主体的身份信息，区块链网络会根据身份进行验证，例如是否具有发起交易的权限。业务主体下辖的电子设备(例如终端或者服务器)运行的客户端都可以向区块链网络200请求接入而成为客户端节点。

业务主体400的客户端节点410用于获取目标用户的历史视频对应的视频图像；基于所述视频图像，通过视频信息处理模型中的视频编码器网络确定历史视频特征向量；通过所述视频信息处理模型中的条件变分自编码器网络，根据所述历史视频特征向量确定与所述历史视频对应的隐变量；基于所述历史视频对应的隐变量，通过所述视频信息处理模型中的回复解码器网络确定与所述视频图像对应的文本信息，并将目标用户的标识、视频信息处理模型中不同网络结构的参数以及与所述视频图像对应的文本信息发送至区块链网络200。

其中，将目标用户的标识、视频信息处理模型中不同网络结构的参数以及与所述视频图像对应的文本信息发送至区块链网络200，可以预先在客户端节点410设置业务逻辑，当形成相应的文本信息时，客户端节点410将目标用户的标识、视频信息处理模型中不同网络结构的参数以及与所述视频图像对应的文本信息自动发送至区块链网络200，也可以由业务主体400的业务人员在客户端节点410中登录，手动打包目标用户的标识、视频信息处理模型中不同网络结构的参数以及与所述视频图像对应的文本信息，并将其发送至区块链网络200。在发送时，客户端节点410根据目标用户的标识、视频信息处理模型中不同网络结构的参数以及与所述视频图像对应的文本信息生成对应更新操作的交易，在交易中指定了实现更新操作需要调用的智能合约、以及向智能合约传递的参数，交易还携带了客户端节点410的数字证书、签署的数字签名(例如，使用客户端节点410的数字证书中的私钥，对交易的摘要进行加密得到)，并将交易广播到区块链网络200中的共识节点210。

区块链网络200中的共识节点210中接收到交易时，对交易携带的数字证书和数字签名进行验证，验证成功后，根据交易中携带的业务主体400的身份，确认业务主体400是否是具有交易权限，数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成功后签署节点210自己的数字签名(例如，使用节点210-1的私钥对交易的摘要进行加密得到)，并继续在区块链网络200中广播。

区块链网络200中的共识节点210接收到验证成功的交易后，将交易填充到新的区块中，并进行广播。区块链网络200中的共识节点210广播的新区块时，会对新区块进行共识过程，如果共识成功，则将新区块追加到自身所存储的区块链的尾部，并根据交易的结果更新状态数据库，执行新区块中的交易：对于提交更新目标用户的标识、视频信息处理模型中不同网络结构的参数以及与所述视频图像对应的文本信息的交易，在状态数据库中添加包括目标用户的标识、视频信息处理模型中不同网络结构的参数以及与所述视频图像对应的文本信息的键值对。

业务主体500的业务人员在客户端节点510中登录，输入目标视频或者文本信息查询请求，客户端节点510根据目标视频或者文本信息查询请求生成对应更新操作/查询操作的交易，在交易中指定了实现更新操作/查询操作需要调用的智能合约、以及向智能合约传递的参数，交易还携带了客户端节点510的数字证书、签署的数字签名(例如，使用客户端节点510的数字证书中的私钥，对交易的摘要进行加密得到)，并将交易广播到区块链网络200中的共识节点210。

区块链网络200中的共识节点210中接收到交易，对交易进行验证、区块填充及共识一致后，将填充的新区块追加到自身所存储的区块链的尾部，并根据交易的结果更新状态数据库，执行新区块中的交易：对于提交的更新某一目标视频对应的人工识别结果的交易，根据人工识别结果更新状态数据库中该目标视频对应的键值对；对于提交的查询某个目标视频的交易，从状态数据库中查询目标视频对应的键值对，并返回交易结果。

值得说明的是，在图6中示例性地示出了将目标用户的标识、视频信息处理模型中不同网络结构的参数以及与所述视频图像对应的文本信息直接上链的过程，但在另一些实施例中，对于目标视频的数据量较大的情况，客户端节点410可将目标视频的哈希以及相应的文本信息的哈希成对上链，将原始的目标视频以及相应的文本信息存储于分布式文件系统或数据库。客户端节点510从分布式文件系统或数据库获取到目标视频以及相应的文本信息后，可结合区块链网络200中对应的哈希进行校验，从而减少上链操作的工作量。

作为区块链的示例，参见图7，图7是本发明实施例提供的区块链网络200中区块链的结构示意图，每个区块的头部既可以包括区块中所有交易的哈希值，同时也包含前一个区块中所有交易的哈希值，新产生的交易的记录被填充到区块并经过区块链网络中节点的共识后，会被追加到区块链的尾部从而形成链式的增长，区块之间基于哈希值的链式结构保证了区块中交易的防篡改和防伪造。

下面说明本发明实施例提供的区块链网络的示例性的功能架构，参见图8，图8是本发明实施例提供的区块链网络200的功能架构示意图，包括应用层201、共识层202、网络层203、数据层204和资源层205，下面分别进行说明。

资源层205封装了实现区块链网路200中的各个节点210的计算资源、存储资源和通信资源。

数据层204封装了实现账本的各种数据结构，包括以文件系统中的文件实现的区块链，键值型的状态数据库和存在性证明(例如区块中交易的哈希树)。

网络层203封装了点对点(P2P，Point to Point)网络协议、数据传播机制和数据验证机制、接入认证机制和业务主体身份管理的功能。

其中，P2P网络协议实现区块链网络200中节点210之间的通信，数据传播机制保证了交易在区块链网络200中的传播，数据验证机制用于基于加密学方法(例如数字证书、数字签名、公/私钥对)实现节点210之间传输数据的可靠性；接入认证机制用于根据实际的业务场景对加入区块链网络200的业务主体的身份进行认证，并在认证通过时赋予业务主体接入区块链网络200的权限；业务主体身份管理用于存储允许接入区块链网络200的业务主体的身份、以及权限(例如能够发起的交易的类型)。

共识层202封装了区块链网络200中的节点210对区块达成一致性的机制(即共识机制)、交易管理和账本管理的功能。共识机制包括POS、POW和DPOS等共识算法，支持共识算法的可插拔。

交易管理用于验证节点210接收到的交易中携带的数字签名，验证业务主体的身份信息，并根据身份信息判断确认其是否具有权限进行交易(从业务主体身份管理读取相关信息)；对于获得接入区块链网络200的授权的业务主体而言，均拥有认证中心颁发的数字证书，业务主体利用自己的数字证书中的私钥对提交的交易进行签名，从而声明自己的合法身份。

账本管理用于维护区块链和状态数据库。对于取得共识的区块，追加到区块链的尾部；执行取得共识的区块中的交易，当交易包括更新操作时更新状态数据库中的键值对，当交易包括查询操作时查询状态数据库中的键值对并向业务主体的客户端节点返回查询结果。支持对状态数据库的多种维度的查询操作，包括：根据区块向量号(例如交易的哈希值)查询区块；根据区块哈希值查询区块；根据交易向量号查询区块；根据交易向量号查询交易；根据业务主体的账号(向量号)查询业务主体的账号数据；根据通道名称查询通道中的区块链。

应用层201封装了区块链网络能够实现的各种业务，包括交易的溯源、存证和验证等。

下面以短视频播放界面中的视频直播场景为例对本发明实施例所提供的视频信息处理方法进行说明，其中，图9为本发明实施例中视频信息处理方法的应用环境示意图，其中，如图9所示，短视频播放界面可以是相应的APP中所展现的，也可以是通过微信小程序所触发的(视频信息处理模型可以经过训练后封装于相应的APP或以插件形式保存于微信小程序中)，随着短视频应用产品不断发展增多，视频信息的承载量远远大于文字信息，短视频可以通过相应的应用程序不间断地向用户进行推荐，通过视频直播，目标用户可以吸引更多的用户观看直播，但是相关技术可以在实现针对不同模态的回复或评论生成时，可以根据用户输入的文本生成一段回复文本，或者根据一篇新闻文章，生成内容相关的新闻评论，但是不能够实现生成对直播视频的评论文本，不利于目标用户吸引其他用户观看直播。

为了克服上述缺陷，本发明提供了一种视频信息处理方法，下面对本发明所提供的视频信息处理方法的使用过程进行说明，其中，参考图10和图11，图10为本发明实施例中视频信息处理方法的使用过程示意图，结合图9所示，视频播放用户的终端可以显示用户界面，其中，用户界面中包括以视频观看用户的第一人称视角，对即视频播放环境进行观察的人称视角画面，所述用户界面中还包括任务控制组件和信息展示组件；通过所述用户界面基于所述信息展示组件输出视频信息，以及与目标用户实时视频流信息对应的回复文本；通过所述用户界面基于所述任务控制组件触发视频播放进程，输出不同主播对应的视频流信息；实现所述视频观看用户通过所述显示用户界面观看不同目标用户所分别对应的实时视频流信息，以及对应的文本信息。图11为本发明实施例中视频信息处理模型的结构示意图，包括以下步骤：

步骤1001：获取训练样本，通过视频信息处理模型的视频编码器网络确定历史视频信息的特征向量。

其中，训练样本包括现有的直播视频与真实用户文本。具体来说，视频信息处理模型的视频编码器网络(Video Encoder)用于对原始视频进行编码，得到可用于模型输入的特征向量。进一步地，对于热门主播或者历史视频数量较多(可选的视频数量大于5段)的主播，过去一段时间内的历史视频可以是点赞量或者互动音浪(收入、打赏)最多的视频作为样本来源，对于新人主播或者没有历史作品的主播(可选的历史视频数量少于三段)可以查找相同类型(或者关注列表中同类型、有互动关系)的主播的视频作为训练样本来源。其中视频信息处理模型中的Video Encoder由两层网络组成，具体包括：

第一层为CNN网络，用于对每帧图片进行编码得到所有图片的特征向量集合H＝{h₁h₂....h_m}，其中h为每帧图片的特征向量，m为历史视频帧数。其计算公式如下所示：

H＝f_cnn(I) 公式1

其中I为输入的M帧图片集合。其中，卷积神经网络(CNN Convolutional NeuralNetworks)是一类包含卷积计算且具有深度结构的前馈神经网络(Feed forward NeuralNetworks)，是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification)。

由于CNN网络只考虑了视频图片本身的信息，缺少了时序信息。第二层的RNN网络则用于对m帧图片进行时序建模。其中，递归神经网络(RNN，Recurrent Neural Network)，具有树状阶层结构且网络节点按其连接顺序对输入信息进行递归的人工神经网络(ANN，Artificial Neural Network)，是深度学习(deep learning)算法之一，具体的，RNN计算公式如下所示：

h_t＝σ_n(W_hx_t+U_hy_t-1+b_n) 公式2

y_t＝σ_y(W_yh_t+b_y) 公式3

其中x_t为输入向量，h_t为隐层向量(hidden layer vector)，y_t为输出向量，W，U，b为RNN参数矩阵，σ_n和σ_y为激活函数。RNN不仅将当前时刻的图片特征向量作为输入，为考虑时序信息也将上一时刻的RNN输出向量y_t-1作为输入。根据常用方法，本模型将RNN网络最后时刻输出的向量作为最终的历史视频特征向量。为简化表示，历史视频特征向量c可通过如下公式计算得到：

c＝f_rnn(H)

其中H为由第一层CNN网络得到的图片特征向量集合，f_rnn为前述RNN的计算过程，输出为最后时刻的向量表示。

步骤1002：通过回复编码器网络对用户回复进行编码得到真实回复文本的特征向量。

其中，回复编码器网络(Response Encoder)主要用于对原始文本信息进行编码。具体可以用于对文本序列编码。Response Encoder主要基于一层RNN网络，输入为一组回复文本W＝{w₁w₂....w_n}，其由m个字组成，如用户评论“可以唱一首歌吗”。每个文字首先由词嵌入技术得到每个词的词向量E＝{e₁e₂....e_n}词嵌入主要是将词表大小高维空间嵌入到一个低维连续向量空间。再将其作为RNN网络的输入，其计算过程可前述Video Encoder网络中的RNN网络。因此，回复文本的特征向量x可通过以下公式计算得到：

E＝f_emb(W)

x＝f_rnn(E)

步骤1003：基于历史视频信息的特征向量和真实回复文本的特征向量，通过条件变分自编码器网络确定对应的隐变量向量。

其中，条件变分自编码器网络(CVAE Conditional Auto Encoder)可以根据不同输入条件生成更加多样的文本数据。具体来说，用于模型训练的每一组训练样本可以由3个随机变量表示，即：1)历史视频特征向量c，2)用户回复文本特征向量x，3)隐变量z。基于此，可以定义条件分布p(x,z|c)＝p(x|z,c)p(z|c)，CVAE网络的目标是利用深度神经网络(参数为Φ)对p(x|z,c)和p(z|c)实现拟合。具体的：可以定义p_θ(z|c)为先验网络，p_θ(x|z,c)为回复解码器。则x的生成过程可以概括为1)根据先验网络p_θ(x|z,c)采样得到隐变量z；2)通过Response Decoder网络p_θ(x|z,c)生成x。在模型训练阶段，给定c以及用户的真实回复x，CVAE利用一个后验网络q_φ(x|z,c)对历史视频信息c以及真实用户回复x进行建模来模拟真实场景下的概率分布，再利用先验网络p_φ(x|z,c)来近似后验网络。因此，CVAE的目标包括：1)使得先验网络近似后验网络，2)最大化x的条件对数似然函数。但由于直接优化对数似然函数是不可行的，一般转而优化它的变分下界，其定义如下所示：

L(θ,Φ,x,c)＝-KL(qΦq(z|x,c)||pΦ(z|c))+E_qΦ(z|c,x)[logΦ(x|z,c)]≤logp(x|c)

其中L项为变分下届，KL散度是用于计算先验网络的分布与后验网络分布的相似度。

步骤1004：视频信息处理模型中的网络参数进行调整，以实现所述视频信息处理模型通过文本解码器网络生成与视频内容对应的回复文本信息。

参考图12，图12为本发明实施例中视频信息处理模型的解码过程示意图，给定CVAE网络可以根据高斯分布采样得到的隐变量，基于RNN网络的Response Decoder网络目标是对隐变量进行解码，即生成回复文本。解码过程如图11所示。解码器将隐变量z作为初始RNN网络的输入，再将前一个字作为下一个RNN网络的输入，每一步生成一个字，直至生成结束符为止。

其中，对视频信息处理模型的训练过程中，模型输入为一组视频以及一组真实用户回复文本，而用户回复文本仅在模型训练时需要。而在视频信息处理模型应用阶段，由于用户真实回复无法得到，作为模型输入仅为一组视频(由多帧图片构成)，输出则是一组根据视频内容生成的回复文本信息。

参考图13和图14，图13为本发明实施例中视频信息处理模型的数据流转示意图，图14为本发明实施例中视频信息处理方法的前端表现示意图，其中，视频信息处理模型拟合后可应用于实际视频直播的使用场景，可以在某一时刻提供直播间视频的历史m帧视频作为模型输入，编码器即Video Encoder网络将其编码为特征向量作为CVAE先验网络的输入，先验网络据此生成隐变量z提供给解码器，即Response Decoder，最后解码器根据隐变量解码生成自动回复文本。参考图14，可以在直播间根据直播视频内容生成相应的评论，以此对主播进行回应,由此，可以实现在直播间实时回复主播，引导用户评论，增加直播间的活跃度，提升用户的使用体验。

有益效果：

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频信息处理方法，其特征在于，所述方法包括：

获取目标用户的历史视频对应的视频图像；

基于所述历史视频对应的隐变量，通过所述视频信息处理模型中的回复解码器网络对所述历史视频对应的隐变量进行解码处理，确定与所述视频图像对应的文本信息，以实现通过输出所述文本信息作为所述目标用户实时视频流信息对应的回复文本。

2.根据权利要求1所述的方法，其特征在于，所述获取目标用户的历史视频对应的视频图像，包括：

当所述目标用户的类型为第一类型时，确定所述目标用户的历史视频中互动次数最多的历史视频；

提取所述互动次数最多的历史视频中的至少一帧图像作为所述目标用户的历史视频对应的视频图像。

3.根据权利要求1所述的方法，其特征在于，所述获取目标用户的历史视频对应的视频图像，包括：

当所述目标用户的类型为第二类型时，确定与所述目标用户的归属领域相同的其他用户的历史视频中收入最高的历史视频；

提取所述收入最高的历史视频中的至少一帧图像作为所述目标用户的历史视频对应的视频图像。

4.根据权利要求1所述的方法，其特征在于，所述获取目标用户的历史视频对应的视频图像，包括：

当所述目标用户的类型为第三类型时，确定与所述目标用户进行直播互动的其他用户的历史视频中播放次数最多的历史视频；

提取所述播放次数最多的历史视频中的至少一帧图像作为所述目标用户的历史视频对应的视频图像。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于目标用户的历史视频，确定与所述视频信息处理模型相匹配的训练样本集合；

根据所述训练样本集合对所述视频信息处理模型进行训练，确定与所述视频信息处理模型中不同网络结构相适配的模型参数，以实现通过所述视频信息处理模型不同网络结构，确定与所述训练样本相匹配的特征向量，并通过所述视频信息处理模型，利用与所述训练样本相匹配的特征向量，确定所述历史视频对应的文本信息。

6.根据权利要求5所述的方法，其特征在于，所述基于目标用户的历史视频，确定与所述视频信息处理模型相匹配的训练样本集合，包括：

获取目标用户的历史视频对应的视频图像和与所述视频图像对应的观众回复信息；

基于所述视频图像，通过所述视频信息处理模型中的视频编码器网络确定历史视频特征向量；

基于所述视频图像对应的观众回复信息，通过所述视频信息处理模型中的回复编码器网络确定回复文本特征向量；

通过所述视频信息处理模型中的条件变分自编码器网络，根据所述历史视频特征向量和所述回复文本特征向量确定与所述历史视频对应的隐变量；

将所述历史视频特征向量、回复文本特征向量以及与所述历史视频对应的隐变量组成为一组训练样本。

7.根据权利要求6所述的方法，其特征在于，所述基于所述视频图像，通过所述视频信息处理模型中的视频编码器网络确定历史视频特征向量，包括：

通过所述视频编码器网络中的视频卷积神经子网络，对所述视频图像进行编码，获得所有图像帧的第一视频向量集合；

对所述历史视频进行解析，获取所述历史视频的时序信息；

基于所述历史视频的时序信息和所述第一视频向量集合，通过所述视频编码器网络中的视频循环卷积神经子网络，确定历史视频特征向量。

8.根据权利要求6所述的方法，其特征在于，所述基于所述视频图像对应的观众回复信息，通过所述视频信息处理模型中的回复编码器网络确定回复文本特征向量，包括：

确定与所述视频信息处理模型的使用环境相匹配的动态噪声阈值；

根据所述动态噪声阈值对所述视频图像对应的观众回复信息进行去噪处理，并触发与所述动态噪声阈值相匹配的动态分词策略；

9.根据权利要求6所述的方法，其特征在于，所述通过所述视频信息处理模型中的条件变分自编码器网络，根据所述历史视频特征向量和所述回复文本特征向量确定与所述历史视频对应的隐变量，包括：

基于所述历史视频特征向量和所述历史视频对应的概率分布，确定相应的先验分布；

基于所述历史视频特征向量、所述回复文本特征向量和所述历史视频对应的概率分布确定相应的后验分布以及条件分布；

确定所述先验分布和所述后验分布之间的信息增益散度；

通过所述视频信息处理模型中的条件变分自编码器网络，根据所述信息增益散度以及条件分布，对所述先验分布和后验分布进行拟合，以实现通过所述条件变分自编码器网络的高斯分布采样确定与所述历史视频对应的隐变量。

10.根据权利要求5所述的方法，其特征在于，所述根据所述训练样本集合对所述视频信息处理模型进行训练，确定与所述视频信息处理模型中不同网络结构相适配的模型参数，包括：

根据所述训练样本集合，通过所述视频信息处理模型中的回复解码器网络确定与所述视频图像对应的文本信息；

确定与所述视频信息处理模型中的不同网络结构相匹配的不同损失函数；

根据所述视频信息处理模型中的回复解码器网络所确定的与所述视频图像对应的文本信息，以及所述视频信息处理模型中的不同网络结构相匹配的不同损失函数，调整所述视频信息处理模型中不同网络结构的参数，直至所述视频信息处理模型中不同网络结构的损失函数达到相应的收敛条件。

11.根据权利要求1所述的方法，其特征在于，所述方法还包括：

显示用户界面，所述用户界面中包括以视频观看用户的第一人称视角，对视频播放环境进行观察，所述用户界面中还包括任务控制组件和信息展示组件；

通过所述用户界面基于所述信息展示组件输出视频信息，以及与目标用户实时视频流信息对应的回复文本；

通过所述用户界面基于所述任务控制组件触发视频播放进程，输出不同主播对应的视频流信息；实现所述视频观看用户通过所述显示用户界面观看不同目标用户所分别对应的实时视频流信息，以及对应的文本信息。

12.根据权利要求1至11任一项所述的方法，其特征在于，所述方法还包括：

将所述目标用户的标识、视频信息处理模型中不同网络结构的参数以及与所述视频图像对应的文本信息发送至区块链网络，以使

所述区块链网络的节点将所述目标用户的标识、视频信息处理模型中不同网络结构的参数以及与所述视频图像对应的文本信息填充至新区块，且当对所述新区块共识一致时，将所述新区块追加至区块链的尾部，以实现同一用户的不同使用环境中视频信息处理模型均能够获取区块中的信息。

13.一种视频信息处理装置，其特征在于，所述装置包括：

所述信息处理模块，用于基于所述历史视频对应的隐变量，通过所述视频信息处理模型中的回复解码器网络对所述历史视频对应的隐变量进行解码处理，确定与所述视频图像对应的文本信息，以实现通过输出所述文本信息作为所述目标用户实时视频流信息对应的回复文本。

14.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至12任一项所述的视频信息处理方法。

15.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至12任一项所述的视频信息处理方法。