CN112966150A

CN112966150A - 一种视频内容抽取的方法、装置、计算机设备及存储介质

Info

Publication number: CN112966150A
Application number: CN202110220323.1A
Authority: CN
Inventors: 陈昊
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-06-15

Abstract

本申请公开了一种视频内容抽取的方法、装置、计算机设备及存储介质，属于人工智能技术领域，本申请通过将第一样本视频导入预先训练好的变分自编码器中，获取第一样本视频对应的隐变量特征，其中，隐变量特征为第一样本视频的视频特征分布，对第二样本视频进行标注，基于标注后的第二样本视频和视频特征分布，生成模型训练集，通过模型训练集对预设的初始视频抽取模型进行训练，接收目标视频，将目标视频导入到视频抽取模型，输出目标视频对应的视频抽取结果。此外，本申请还涉及区块链技术，目标视频可存储于区块链中。本申请通过变分自编码器生成大量的标注样本视频，有效降低了样本视频标注的工作量，提高了模型训练的效率。

Description

一种视频内容抽取的方法、装置、计算机设备及存储介质

技术领域

本申请属于人工智能技术领域，具体涉及一种视频内容抽取的方法、装置、计算机设备及存储介质。

背景技术

随着人工智能在金融领域中的广泛使用，在移动端开展金融业务的场景越来越丰富，很多场景下需要借助移动端录制视频，然后通过移动端录制的视频开展相应的业务，如人脸识别审批业务等等。然而在通过移动端录制的视频开展业务之前，往往需要对视频内容进行抽取处理，以获得视频中的重点信息内容，例如，在人脸识别审批业务场景中，通过对视频内容进行抽取获得用户脸部信息内容。

传统解决视频内容抽取问题主要基于两种思路来实现。第一种方法是基于预设抽取规则的方法，即预先根据经验制定出一系列的抽取规则，比如制定人物占画面的比例大于某个阈值进行抽取等等，但在通过抽取规则对视频内容进行抽取时，首先需要制定一个完整抽取规则，制作完整抽取规则本身难度非常大，其次制定出的抽取规则可能在少数场合满足需求，但是很难以做到多场景通用的效果。第二类方法是基于自注意力学习的方法，比如基于深度学习模型，通过训练好的深度学习模型对视频内容进行抽取，虽然现有的基于自注意力学习方法会取得效果较好，但是在视频抽取模型训练时，需要用到大量的训练视频，且这些训练视频都需要提前进行人工标注，而对视频进行人工标注的过程较为繁琐，效率较低且容易出现标注错误的情况。

发明内容

本申请实施例的目的在于提出一种视频内容抽取方法、装置、计算机设备及存储介质，以解决现有基于自注意力学习方法采用人工标注的方式进行训练视频的标注，而人工标准存在的效率较低且容易出现标注错误的问题。

为了解决上述技术问题，本申请实施例提供一种视频内容抽取的方法，采用了如下所述的技术方案：

一种视频内容抽取的方法，包括：

从预设的数据库中获取第一样本视频，将第一样本视频导入预先训练好的变分自编码器中；

对第一样本视频进行特征提取，获取第一样本视频对应的隐变量特征，其中，隐变量特征为第一样本视频的视频特征分布；

从预设的数据库中获取第二样本视频，并对第二样本视频进行标注；

基于标注后的第二样本视频和视频特征分布，生成模型训练集；

通过模型训练集对预设的初始视频抽取模型进行训练，得到训练完成的视频抽取模型；

接收目标视频，将目标视频导入到训练完成的视频抽取模型，输出目标视频对应的视频抽取结果。

进一步地，在从预设的数据库中获取第一样本视频，将第一样本视频导入预先训练好的变分自编码器中的步骤之前，还包括：

从预设的数据库中获取第三样本视频，并将第三样本视频导入预设的初始变分自编码器中；

对第三样本视频进行编码，得到第三视频编码矩阵；

计算第三视频编码矩阵的均值和方差，并将第三视频编码矩阵的均值和方差按照预设分布进行随机采样，得到隐变量特征；

对隐变量特征进行解码，生成对应的解码视频；

判断生成的解码视频和第三样本视频是否一致；

若生成的解码视频和第三样本视频不一致，则对初始变分自编码器进行调整，直至解码视频和第三样本视频达到一致为止。

进一步地，对初始变分自编码器进行调整，直至解码视频和第三样本视频达到一致为止的步骤，具体包括：

构建初始变分自编码器的损失函数；

基于损失函数计算解码视频和第三样本视频之间的预测误差；

基于预测误差使用反向传播算法对初始变分自编码器进行迭代更新，直至初始变分自编码器输出的解码视频与第三样本视频达到一致为止。

进一步地，基于标注后的第二样本视频和视频特征分布，生成模型训练集的步骤，具体包括：

分别对标注后的第二样本视频与视频特征分布进行编码，得到第二视频编码矩阵和视频特征编码矩阵；

基于第二视频编码矩阵和视频特征编码矩阵生成第四样本视频；

组合第二样本视频和第四样本视频，得到模型训练集。

进一步地，基于第二视频编码矩阵和视频特征编码矩阵生成第四样本视频的步骤，具体包括：

从第二视频编码矩阵中提取第二样本视频的特征因子；

基于第二样本视频的特征因子对视频特征编码矩阵进行调整，得到第四视频编码矩阵；

基于第四视频编码矩阵生成第四样本视频。

进一步地，通过模型训练集对预设的初始视频抽取模型进行训练，得到训练完成的视频抽取模型的步骤，具体包括：

提取训练样本集中每一视频帧的特征张量，并组合所有视频帧的特征张量，得到特征张量组合；

对特征张量组合进行特征相似度预测，获得特征预测结果；

基于特征预测结果对特征张量组合进行合并，得到合并张量；

对合并张量进行解码，生成与合并张量对应的解码结果；

基于解码结果和预设标准结果使用反向传播算法对初始视频抽取模型进行迭代更新，直至模型拟合，得到拟合的视频抽取模型。

进一步地，基于解码结果和预设标准结果使用反向传播算法对初始视频抽取模型进行迭代更新，直至模型拟合，得到拟合的视频抽取模型的步骤，具体包括：

基于解码结果和预设标准结果计算初始视频抽取模型的抽取误差；

比较抽取误差与预设误差阈值进行；

若抽取误差大于预设误差阈值，则基于反向传播算法对初始视频抽取模型进行迭代更新，直至抽取误差小于或等于预设误差阈值为止，得到拟合的视频抽取模型。

为了解决上述技术问题，本申请实施例还提供一种视频内容抽取的装置，采用了如下所述的技术方案：

一种视频内容抽取的装置，包括：

第一获取模块，用于从预设的数据库中获取第一样本视频，将第一样本视频导入预先训练好的变分自编码器中；

特征分布模块，用于对第一样本视频进行特征提取，获取第一样本视频对应的隐变量特征，其中，隐变量特征为第一样本视频的视频特征分布；

第二获取模块，用于从预设的数据库中获取第二样本视频，并对第二样本视频进行标注；

样本生成模块，用于基于标注后的第二样本视频和视频特征分布，生成模型训练集；

模型训练模块，用于通过模型训练集对预设的初始视频抽取模型进行训练，得到训练完成的视频抽取模型；

视频抽取模块，用于接收目标视频，将目标视频导入到训练完成的视频抽取模型，输出目标视频对应的视频抽取结果。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，处理器执行计算机可读指令时实现如上述的视频内容抽取的方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，计算机可读存储介质上存储有计算机可读指令，计算机可读指令被处理器执行时实现如上述的视频内容抽取的方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请公开了一种视频内容抽取的方法、装置、计算机设备及存储介质，属于人工智能技术领域，本申请通过预先训练一个变分自编码器，通过变分自编码器获得未进行标注的样本视频的视频特征分布，然后通过获得的视频特征分布和部分标注后的样本视频进行特征学习，生成大量的有标注样本视频，最后通过生成的有标注样本视频训练视频抽取模型。本申请通过预设的变分自编码器实现了视频抽取模型的半监督训练方式，通过变分自编码器生成大量的有标注样本视频，以及生成的有标注样本视频训练视频抽取模型，有效降低了样本视频标注的工作量，提高了模型训练的效率。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请可以应用于其中的示例性系统架构图；

图2示出了根据本申请的视频内容抽取的方法的一个实施例的流程图；

图3示出了根据本申请的视频内容抽取的装置的一个实施例的结构示意图；

图4示出了根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的视频内容抽取的方法一般由服务器/终端设备执行，相应地，视频内容抽取的装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的视频内容抽取的的方法的一个实施例的流程图。所述的视频内容抽取的方法，包括以下步骤：

S201，从预设的数据库中获取第一样本视频，将第一样本视频导入预先训练好的变分自编码器中。

其中，变分自编码器(Variational auto-encoder，VAE)是一类重要的生成模型(generative model)，在VAE的模型结构中，若输入的样本数据为X，VAE会生成样本数据X的隐变量Z，由Z到X是一个生成模型，从自编码器(auto-encoder)的角度来看，从Z到X的过程就是解码模块；而由X到Z是一个识别模型(recognition model)，从自编码器(auto-encoder)的角度来看，从X到Z的过程就是编码模块，因此VAE实质上是由一个编码模块和一个解码模块构成。VAE现在广泛地用于生成图像，当VAE训练好了以后，就可以用它来生成相应的图像。

具体的，第一样本视频为存储在预设的数据库中的、未经过标注的样本视频，通过从预设的数据库中获取第一样本视频，并将第一样本视频导入预先训练好的变分自编码器中，以获取第一样本视频对应的视频特征分布，然后基于获得的第一样本视频的视频特征分布和某些标注过的样本视频生成大量的有标注样本视频，通过生成的标注样本视频训练视频抽取模型。本申请通过预设的变分自编码器实现了视频抽取模型的半监督训练方式，有效降低了样本视频标注的工作量，提高了模型训练的效率。

S202，对第一样本视频进行特征提取，获取第一样本视频对应的隐变量特征，其中，隐变量特征为第一样本视频的视频特征分布。

具体的，从预设的数据库中获取第一样本视频，并将第一样本视频导入变分自编码器后，通过变分自编码器的编码器对第一样本视频进行编码，得到第一视频编码矩阵，通过变分自编码器计算第一视频编码矩阵的均值和方差，将第一视频编码矩阵的均值和方差按照预设分布进行随机采样，将采样结果进行组合得到第一样本视频的隐变量特征，其中，所述隐变量特征为所述第一样本视频的视频特征分布。其中，在本申请具体的实施例中，预设分布为正态分布N(0，I)。

S203，从预设的数据库中获取第二样本视频，并对第二样本视频进行标注。

具体的，从预设的数据库中获取第二样本视频，对第二样本视频进行标注。在本申请具体的实施方式中，如贷款审批场景，第一样本视频和第二样本视频均为预先收集的用户用于借款审批的视频影像。在收集到用户用于借款审批的视频影像后，将收集到的大部分视频影像(如95％)确定为第一样本视频，将收集到的小部分视频影像(如5％)确定为第二样本视频，并对第二样本视频进行标注，其中，在对第二样本视频进行标注时，可以根据第二样本视频中借款用户的脸部特征、肢体特征以及环境特征等进行标注，将第一样本视频导入变分自编码器，通过变分自编码器获得第一样本视频的视频特征分布，然后通过获得的视频特征分布和标注后的第二样本视频生成大量的有标注样本视频。

S204，基于标注后的第二样本视频和视频特征分布，生成模型训练集。

具体的，将标注后的第二样本视频与视频特征分布导入到预设的初始视频抽取模型，其中，初始视频抽取模型可以采用传统的深度卷积神经网络CNN，初始视频抽取模型包括编码层、自注意力层、卷积层和解码层，其中，编码层使用的BiLSTM基础架构进行构建，自注意力层采用的是基础的transformer模型架构实现，解码层使用的是LSTM的基础架构进行构建。在本申请具体的实施例中，将标注后的第二样本视频与视频特征分布导入到预设初始视频抽取模型的编码层进行编码，得到第二视频编码矩阵和视频特征编码矩阵，通过自注意力层学习第二视频编码矩阵和视频特征编码矩阵中的特征，并生成大量的第四样本视频，第四样本视频即有标注样本视频，通过组合标注后的第二样本视频和第四样本视频，得到一个用于训练视频抽取模型的模型训练集。

其中，卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification)，因此也被称为“平移不变人工神经网络”。卷积神经网络仿造生物的视知觉(visual perception)机制构建，可以进行监督学习和非监督学习，其卷积层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化(grid-like topology)特征，例如像素和音频进行学习，有稳定的效果且对数据没有额外的特征工程要求。

S205，通过模型训练集对预设的初始视频抽取模型进行训练，得到训练完成的视频抽取模型。

具体的，提取训练样本集中的每一视频帧的特征张量，并组成特征张量组合，通过初始视频抽取模型的卷积层对特征张量组合进行特征相似度预测，获得特征预测结果。在本申请具体的实施方式中，这里的特征相似度预测是指对特征张量组合进行卷积运算，计算卷积运算结果与预设标准结果之间的相似度，预设标准结果可以取输入视频的第一张视频帧。然后基于特征预测结果对特征张量组合进行合并，即合并相似特征，得到合并张量，通过初始视频抽取模型的解码层对合并张量进行解码，获取解码结果，基于解码结果和预设标准结果使用反向传播算法对初始视频抽取模型进行迭代更新，直至模型拟合，输出拟合的视频抽取模型。本申请采用相似度识别的方式预测输入视频中每一视频帧与预设标准图像帧的相似度差异结果，并基于特征预测结果采用图像合并的方式生成输入视频对应的视频抽取结果，对输入视频的压缩损失更小，精度更高，适用于各种场景的视频内容抽取。

S206，接收目标视频，将目标视频导入到训练完成的视频抽取模型，输出目标视频对应的视频抽取结果。

具体的，在训练好的所述视频抽取模型后，接收视频内容抽取指令，获取与视频内容抽取指令对应的目标视频，将目标视频导入到训练好的所述视频抽取模型，输出目标视频对应的视频抽取结果。在本实施例中，视频内容抽取的方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收视频内容抽取指令。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

本申请公开了一种视频内容抽取的方法，属于人工智能技术领域，本申请通过预先训练一个变分自编码器，通过变分自编码器获得未进行标注的样本视频的视频特征分布，然后通过获得的视频特征分布和部分标注后的样本视频进行特征学习，生成大量的有标注样本视频，最后通过生成的有标注样本视频训练视频抽取模型。本申请通过预设的变分自编码器实现了视频抽取模型的半监督训练方式，通过变分自编码器生成大量的有标注样本视频，以及生成的有标注样本视频训练视频抽取模型，有效降低了样本视频标注的工作量，提高了模型训练的效率。

对第三样本视频进行编码，得到第三视频编码矩阵；

对隐变量特征进行解码，生成对应的解码视频；

判断生成的解码视频和第三样本视频是否一致；

具体的，在步骤S201之前，还需要预先训练好一个变分自编码器，从预设的数据库中获取第三样本视频，其中，第三样本视频为任意内容的视频。将第三样本视频导入预设的初始变分自编码器中，通过初始变分自编码器的编码模块对第三样本视频进行编码，得到第三视频编码矩阵，通过初始变分自编码器计算第三视频编码矩阵的均值和方差，将第三视频编码矩阵的均值和方差按照预设分布进行随机采样，其中，在本申请具体的实施例中，预设分布为正态分布N(0，I)，并将采样结果进行组合得到第三样本视频的隐变量特征，通过初始变分自编码器的解码模块对第三样本视频的隐变量特征进行解码，生成解码视频，判断生成的解码视频和第三样本视频是否一致，若生成的解码视频和第三样本视频一致，则表示变分自编码器训练完成。若生成的解码视频和第三样本视频不一致，则基于比对结果对初始变分自编码器进行调整，直至解码视频和第三样本视频达到一致为止，即直到变分自编码器输入和输出一致时，表示变分自编码器训练完成。

在上述实施例中，通过获取第三样本视频来进行变分自编码器的训练，在变分自编码器训练完成后，可以通过训练完成的变分自编码器获得输入视频的隐变量特征，即获取视频的特征分布。

构建初始变分自编码器的损失函数；

具体的，构建初始变分自编码器的损失函数，并通过构建的损失函数计算解码视频和第三样本视频之间的预测误差，并基于预测误差使用反向传播算法对初始变分自编码器进行迭代更新，直至初始变分自编码器输出的解码视频与第三样本视频达到一致为止。

其中，反向传播算法，即误差反向传播算法(Backpropagation algorithm，BP算法)适合于多层神经元网络的一种学习算法，它建立在梯度下降法的基础上，用于深度学习网络的误差计算。BP网络的输入、输出关系实质上是一种映射关系：一个n输入m输出的BP神经网络所完成的功能是从n维欧氏空间向m维欧氏空间中一有限域的连续映射，这一映射具有高度非线性。BP算法的学习过程由正向传播过程和反向传播过程组成。在正向传播过程中，输入信息通过输入层经隐含层，逐层处理并传向输出层，并转入反向传播，逐层求出目标函数对各神经元权值的偏导数，构成目标函数对权值向量的梯量，以作为修改权值的依据。

在本申请具体的实施例中，需要分两个阶段来对变分自编码器进行训练，第一阶段为变分自编码器的常规训练阶段，第二阶段为变分自编码器的对抗训练阶段。在变分自编码器的第二阶段训练中，引入表征对抗生成网络的判别器，引入表征对抗生成网络后变分自编码器的损失函数表达式如下：

其中，φ为变分自编码器的编码模块权重，θ为变分自编码器的解码模块权重，D表示抗生成网络的判别器Discriminator，

为判别器Discriminator的权重，X表示变分自编码器的输入，

表示变分自编码器的输出，Z表示隐变量。当训练完成后，可以通过变分自编码器获得一组表征输入视频均值和方差的数组，根据获得的数组基于预设分布进行随机采样，得到随机变量Z，Z即为隐变量特征，也即输入视频的视频特征分布。

在上述实施例中，通过分两个阶段并采用反向传播算法来对变分自编码器进行训练，获得一个精度高且输出效果稳定的变分自编码器，通过训练完成的变分自编码器获得输入视频的隐变量特征，即获取视频的特征分布。

组合第二样本视频和第四样本视频，得到模型训练集。

具体的，通过初始视频抽取模型的编码层对输入的标注后的第二样本视频进行编码，生成第二视频编码矩阵记为A，再使用初始视频抽取模型的编码层对输入的视频特征分布进行编码，生成视频特征编码矩阵记为B，先通过初始视频抽取模型的自注意力层对矩阵A的特征进行学习，使得自注意力层记住矩阵A的特征，然后令自注意力层继续学习矩阵B的特征，并基于矩阵A特征对矩阵B进行视频特征调整，生成新的视频特征编码矩阵C，新的视频特征张量C对应新的样本视频，即第四样本视频，生成的新的样本视频与标注过的样本视频组合形成视频抽取模型的训练样本。

在上述实施例中，本申请通过自注意力学习机制对第二视频编码矩阵和视频特征编码矩阵的特征进行学习，并通过特征调整生成大量的有标注样本视频，通过预设的变分自编码器实现了视频抽取模型的半监督训练方式，有效降低了样本视频标注的工作量，提高了模型训练的效率。

从第二视频编码矩阵中提取第二样本视频的特征因子；

基于第四视频编码矩阵生成第四样本视频。

具体的，从第二视频编码矩阵中提取第二样本视频的特征因子，其中，特征因子对应的是脸部特征、肢体特征以及环境特征这些进行标注的特征，基于第二样本视频的特征因子对视频特征编码矩阵进行调整，得到第四视频编码矩阵，基于第四视频编码矩阵生成第四样本视频。在上述实施例中，本申请通过自注意力学习机制对第二视频编码矩阵和视频特征编码矩阵的特征进行学习，并通过特征调整生成大量的有标注样本视频，通过预设的变分自编码器实现了视频抽取模型的半监督训练方式，有效降低了样本视频标注的工作量，提高了模型训练的效率。

对特征张量组合进行特征相似度预测，获得特征预测结果；

对合并张量进行解码，生成与合并张量对应的解码结果；

其中，传统的基于自注意力学习的视频内容抽取方法一般是通过计算视频中的每一帧图像的权重值，然后基于计算得到的权重值对视频中的重点内容进行识别和抽取，但这种通过计算权重的视频内容抽取方式对视频信息损失较大，精度较低。

具体的，在本申请中，通过提取训练样本集中每一视频帧的特征张量，并组合所有视频帧的特征张量，得到特征张量组合，通过初始视频抽取模型的卷积层对特征张量组合进行特征相似度预测，获得特征预测结果。在本申请具体的实施方式中，这里的特征相似度预测是指对特征张量组合进行卷积运算，计算卷积运算结果与预设标准结果之间的相似度，预设标准结果可以取输入视频的第一张视频帧。然后基于特征预测结果对特征张量组合进行合并，即合并相似特征，得到合并张量，通过初始视频抽取模型的解码层对合并张量进行解码，获取解码结果，基于解码结果和预设标准结果使用反向传播算法对初始视频抽取模型进行迭代更新，直至模型拟合，输出拟合的视频抽取模型。

通过上述实施例，本申请采用相似度识别的方式预测输入视频中每一视频帧与预设标准图像帧的相似度差异结果，并基于特征预测结果采用图像合并的方式生成输入视频对应的视频抽取结果，对输入视频的压缩损失更小，精度更高，适用于各种场景的视频内容抽取。

比较抽取误差与预设误差阈值进行；

具体的，基于解码结果和预设标准结果计算初始视频抽取模型的抽取误差，比较抽取误差与预设误差阈值进行，若抽取误差大于预设误差阈值，则基于反向传播算法对初始视频抽取模型进行迭代更新，直至抽取误差小于或等于预设误差阈值为止，得到拟合的视频抽取模型。其中，预设误差阈值可以根据场景需求提前设定。在上述实施例中，本申请通过计算抽取误差并基于反向传播算法对初始视频抽取模型进行迭代更新，可以训练得到一个拟合视频抽取模型。

需要强调的是，为进一步保证上述目标视频的私密和安全性，上述目标视频还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种视频内容抽取的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的视频内容抽取的装置包括：

第一获取模块301，用于从预设的数据库中获取第一样本视频，将第一样本视频导入预先训练好的变分自编码器中；

特征分布模块302，用于对第一样本视频进行特征提取，获取第一样本视频对应的隐变量特征，其中，隐变量特征为第一样本视频的视频特征分布；

第二获取模块303，用于从预设的数据库中获取第二样本视频，并对第二样本视频进行标注；

样本生成模块304，用于基于标注后的第二样本视频和视频特征分布，生成模型训练集；

模型训练模块305，用于通过模型训练集对预设的初始视频抽取模型进行训练，得到训练完成的视频抽取模型；

视频抽取模块306，用于接收目标视频，将目标视频导入到训练完成的视频抽取模型，输出目标视频对应的视频抽取结果。

进一步地，该视频内容抽取的装置还包括：

第三获取模块，用于从预设的数据库中获取第三样本视频，并将第三样本视频导入预设的初始变分自编码器中；

第三编码模块，用于对第三样本视频进行编码，得到第三视频编码矩阵；

随机采样模块，用于计算第三视频编码矩阵的均值和方差，并将第三视频编码矩阵的均值和方差按照预设分布进行随机采样，得到隐变量特征；

特征解码模块，用于对隐变量特征进行解码，生成对应的解码视频；

视频判断模块，用于判断生成的解码视频和第三样本视频是否一致；

编码器调整模块，用于当生成的解码视频和第三样本视频不一致时，对初始变分自编码器进行调整，直至解码视频和第三样本视频达到一致为止。

进一步地，编码器调整模块具体包括：

损失函数构建单元，用于构建初始变分自编码器的损失函数；

预测误差计算单元，用于基于损失函数计算解码视频和第三样本视频之间的预测误差；

编码器调整单元，用于基于预测误差使用反向传播算法对初始变分自编码器进行迭代更新，直至初始变分自编码器输出的解码视频与第三样本视频达到一致为止。

进一步地，样本生成模块304具体包括：

第二编码单元，用于分别对标注后的第二样本视频与视频特征分布进行编码，得到第二视频编码矩阵和视频特征编码矩阵；

样本视频生成单元，用于基于第二视频编码矩阵和视频特征编码矩阵生成第四样本视频；

样本视频组合单元，用于组合第二样本视频和第四样本视频，得到模型训练集。

进一步地，样本视频生成单元具体包括：

特征提取子单元，用于从第二视频编码矩阵中提取第二样本视频的特征因子；

特征调整子单元，用于基于第二样本视频的特征因子对视频特征编码矩阵进行调整，得到第四视频编码矩阵；

样本视频生成子单元，用于基于第四视频编码矩阵生成第四样本视频。

进一步地，模型训练模块305具体包括：

张量组合单元，用于提取训练样本集中每一视频帧的特征张量，并组合所有视频帧的特征张量，得到特征张量组合；

特征预测单元，用于对特征张量组合进行特征相似度预测，获得特征预测结果；

张量合并单元，用于基于特征预测结果对特征张量组合进行合并，得到合并张量；

张量解码单元，用于对合并张量进行解码，生成与合并张量对应的解码结果；

模型迭代单元，用于基于解码结果和预设标准结果使用反向传播算法对初始视频抽取模型进行迭代更新，直至模型拟合，得到拟合的视频抽取模型。

进一步地，模型迭代单元具体包括：

抽取误差计算子单元，用于基于解码结果和预设标准结果计算初始视频抽取模型的抽取误差；

误差比较子单元，用于比较抽取误差与预设误差阈值进行；

模型迭代子单元，用于当抽取误差大于预设误差阈值时，基于反向传播算法对初始视频抽取模型进行迭代更新，直至抽取误差小于或等于预设误差阈值为止，得到拟合的视频抽取模型。

本申请公开了一种视频内容抽取的装置，属于人工智能技术领域，本申请通过预先训练一个变分自编码器，通过变分自编码器获得未进行标注的样本视频的视频特征分布，然后通过获得的视频特征分布和部分标注后的样本视频进行特征学习，生成大量的有标注样本视频，最后通过生成的有标注样本视频训练视频抽取模型。本申请通过预设的变分自编码器实现了视频抽取模型的半监督训练方式，通过变分自编码器生成大量的有标注样本视频，以及生成的有标注样本视频训练视频抽取模型，有效降低了样本视频标注的工作量，提高了模型训练的效率。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如视频内容抽取的方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述视频内容抽取的方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请公开了一种视频内容抽取的计算机设备，属于人工智能技术领域，本申请通过预先训练一个变分自编码器，通过变分自编码器获得未进行标注的样本视频的视频特征分布，然后通过获得的视频特征分布和部分标注后的样本视频进行特征学习，生成大量的有标注样本视频，最后通过生成的有标注样本视频训练视频抽取模型。本申请通过预设的变分自编码器实现了视频抽取模型的半监督训练方式，通过变分自编码器生成大量的有标注样本视频，以及生成的有标注样本视频训练视频抽取模型，有效降低了样本视频标注的工作量，提高了模型训练的效率。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的视频内容抽取的方法的步骤。

本申请公开了一种视频内容抽取的存储介质，属于人工智能技术领域，本申请通过预先训练一个变分自编码器，通过变分自编码器获得未进行标注的样本视频的视频特征分布，然后通过获得的视频特征分布和部分标注后的样本视频进行特征学习，生成大量的有标注样本视频，最后通过生成的有标注样本视频训练视频抽取模型。本申请通过预设的变分自编码器实现了视频抽取模型的半监督训练方式，通过变分自编码器生成大量的有标注样本视频，以及生成的有标注样本视频训练视频抽取模型，有效降低了样本视频标注的工作量，提高了模型训练的效率。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种视频内容抽取的方法，其特征在于，包括：

从预设的数据库中获取第一样本视频，将所述第一样本视频导入预先训练好的变分自编码器中；

对所述第一样本视频进行特征提取，获取所述第一样本视频对应的隐变量特征，其中，所述隐变量特征为所述第一样本视频的视频特征分布；

从预设的数据库中获取第二样本视频，并对所述第二样本视频进行标注；

基于标注后的所述第二样本视频和所述视频特征分布，生成模型训练集；

通过所述模型训练集对预设的初始视频抽取模型进行训练，得到训练完成的视频抽取模型；

接收目标视频，将所述目标视频导入到训练完成的所述视频抽取模型，输出所述目标视频对应的视频抽取结果。

2.如权利要求1所述的视频内容抽取的方法，其特征在于，在所述从预设的数据库中获取第一样本视频，将所述第一样本视频导入预先训练好的变分自编码器中的步骤之前，还包括：

从预设的数据库中获取第三样本视频，并将所述第三样本视频导入预设的初始变分自编码器中；

对所述第三样本视频进行编码，得到第三视频编码矩阵；

计算第三视频编码矩阵的均值和方差，并将所述第三视频编码矩阵的均值和方差按照预设分布进行随机采样，得到隐变量特征；

对所述隐变量特征进行解码，生成对应的解码视频；

判断生成的所述解码视频和所述第三样本视频是否一致；

若生成的所述解码视频和所述第三样本视频不一致，则对所述初始变分自编码器进行调整，直至所述解码视频和所述第三样本视频达到一致为止。

3.如权利要求2所述的视频内容抽取的方法，其特征在于，所述对所述初始变分自编码器进行调整，直至所述解码视频和所述第三样本视频达到一致为止的步骤，具体包括：

构建所述初始变分自编码器的损失函数；

基于所述损失函数计算所述解码视频和所述第三样本视频之间的预测误差；

基于所述预测误差使用反向传播算法对所述初始变分自编码器进行迭代更新，直至所述初始变分自编码器输出的解码视频与所述第三样本视频达到一致为止。

4.如权利要求1所述的视频内容抽取的方法，其特征在于，所述基于标注后的所述第二样本视频和所述视频特征分布，生成模型训练集的步骤，具体包括：

分别对标注后的所述第二样本视频与所述视频特征分布进行编码，得到第二视频编码矩阵和视频特征编码矩阵；

基于所述第二视频编码矩阵和所述视频特征编码矩阵生成第四样本视频；

组合所述第二样本视频和所述第四样本视频，得到所述模型训练集。

5.如权利要求4所述的视频内容抽取的方法，其特征在于，所述基于所述第二视频编码矩阵和所述视频特征编码矩阵生成第四样本视频的步骤，具体包括：

从所述第二视频编码矩阵中提取所述第二样本视频的特征因子；

基于所述第二样本视频的特征因子对所述视频特征编码矩阵进行调整，得到第四视频编码矩阵；

基于所述第四视频编码矩阵生成第四样本视频。

6.如权利要求1至5任意一项所述的视频内容抽取的方法，其特征在于，所述通过所述模型训练集对预设的初始视频抽取模型进行训练，得到训练完成的视频抽取模型的步骤，具体包括：

提取所述训练样本集中每一视频帧的特征张量，并组合所有视频帧的特征张量，得到特征张量组合；

对所述特征张量组合进行特征相似度预测，获得特征预测结果；

基于所述特征预测结果对所述特征张量组合进行合并，得到合并张量；

对所述合并张量进行解码，生成与所述合并张量对应的解码结果；

基于解码结果和预设标准结果使用反向传播算法对所述初始视频抽取模型进行迭代更新，直至模型拟合，得到拟合的视频抽取模型。

7.如权利要求6所述的视频内容抽取的方法，其特征在于，所述基于解码结果和预设标准结果使用反向传播算法对所述初始视频抽取模型进行迭代更新，直至模型拟合，得到拟合的视频抽取模型的步骤，具体包括：

基于解码结果和预设标准结果计算所述初始视频抽取模型的抽取误差；

比较所述抽取误差与预设误差阈值进行；

若所述抽取误差大于预设误差阈值，则基于反向传播算法对所述初始视频抽取模型进行迭代更新，直至所述抽取误差小于或等于预设误差阈值为止，得到拟合的视频抽取模型。

8.一种视频内容抽取的装置，其特征在于，包括：

第一获取模块，用于从预设的数据库中获取第一样本视频，将所述第一样本视频导入预先训练好的变分自编码器中；

特征分布模块，用于对所述第一样本视频进行特征提取，获取所述第一样本视频对应的隐变量特征，其中，所述隐变量特征为所述第一样本视频的视频特征分布；

第二获取模块，用于从预设的数据库中获取第二样本视频，并对所述第二样本视频进行标注；

样本生成模块，用于基于标注后的所述第二样本视频和所述视频特征分布，生成模型训练集；

模型训练模块，用于通过所述模型训练集对预设的初始视频抽取模型进行训练，得到训练完成的视频抽取模型；

视频抽取模块，用于接收目标视频，将所述目标视频导入到训练完成的所述视频抽取模型，输出所述目标视频对应的视频抽取结果。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的视频内容抽取的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的视频内容抽取的方法的步骤。