CN110717421A

CN110717421A - 一种基于生成对抗网络的视频内容理解方法及装置

Info

Publication number: CN110717421A
Application number: CN201910913294.XA
Authority: CN
Inventors: 樊硕
Original assignee: Beijing Yingpu Technology Co Ltd
Current assignee: Beijing Yingpu Technology Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2020-01-21

Abstract

本申请公开了一种基于生成对抗网络的视频内容理解方法及装置，涉及视频内容理解领域。所述方法包括：采用GAN模型对源域数据进行处理，以得到与目标域数据贴近的新源域数据；采用新源域数据作为训练数据对ResNet模型进行预训练；将目标域数据作为训练完成后的ResNet模型的输入，微调ResNet模型的参数；将微调后形成的目标域数据的图像向量特征作为LSTM的输入，完成对视频内容的理解。所述装置包括：域间差距降低模块、训练模块、参数调节模块和描述语句生成模块。本申请能够提高模型的泛化能力、模型的性能以及效率。本申请适用于视频处理、分类、及推荐等。

Description

一种基于生成对抗网络的视频内容理解方法及装置

技术领域

本申请涉及视频内容理解，特别是涉及一种基于生成对抗网络的视频内容理解方法及装置。

背景技术

随着互联网的快速发展，从传统的视频网站到电视电影节目的网络化，再到现在新兴的视频直播网站和小视频分享网站，互联网视频已经进入了爆炸式发展的新阶段。海量的视频数据也对视频处理、分类、推荐等常见的相关技术提出了更高的要求。大众已经习惯于通过互联网视频的方式了解和传播信息，其中视频字幕是构成完整视频的重要因素，字幕中往往包含了重要语义信息，由于人们看互联网视频的习惯性因素，大多数人首先会优于视频画面通过视频字幕了解到视频的主要内容，因此视频字幕是一个完整视频必不可少的因素。但在很多情况下，视频字幕往往会被视频制作者所忽略，使得字幕中仅仅包含了一些简略的概括性信息，对于视频内容的理解来说并没有很大的贡献，这种类型的视频字幕会降低人们对视频内容的兴趣度，影响人们的视频观感，因此如何基于视频语义信息，实现视频内容的理解成为热点问题。传统的视频内容理解模型有因子图模型，主要通过在视频中提取场景的置信度信息推理出视频字幕信息，后来随着深度学习的兴起，大多数研究都采用基于深度学习的方法进行视频内容理解的研究，例如CNN(Convolutional NeuralNetworks，卷积神经网络)常被用来处理图像相关的数据，而LSTM(Long Short TermMemory Network，长短时记忆网络)常被用来处理文本相关的数据，鉴于CNN模型对图像的强表征能力和LSTM模型能够生成逐个单词的特征，CNN+LSTM结合的方式已成为主流视频内容理解模型的方法。但现有模型取得好性能的前提是具有大量的训练数据，而在实际应用中，并不是所有领域都具有大量的正确带标注的训练数据集，因此如果把在公开数据集训练好的模型应用于实际内容时，由于领域的特征不匹配性质，会导致模型性能的急剧下降，并且，在这种情况下采用人工标注的方法又非常费时费力，也不能满足日益丰富的视频数据的处理需求。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种基于生成对抗网络的视频内容理解方法，所述方法包括：

采用GAN(Generative Adversarial Network，生成对抗网络)模型对源域数据进行处理，以得到与目标域数据贴近的新源域数据；

采用新源域数据作为训练数据对ResNet模型进行预训练；

将目标域数据作为训练完成后的ResNet模型的输入，微调ResNet模型的参数，使其能够学习目标域数据特征并适应于目标域数据；

将目标域数据输入到参数微调后的ResNet模型中，将该模型的输出数据的图像向量特征作为LSTM的输入，生成与视频图像特征相关的描述语句，完成对视频内容的理解。

可选地，采用CNN模型作为所述GAN模型中生成器的编码器。

可选地，采用ReLU作为所述编码器的激活函数。

根据本申请的另一个方面，提供了一种基于生成对抗网络的视频内容理解装置，所述装置包括：

域间差距降低模块，其配置成采用GAN模型对源域数据进行处理，以得到与目标域数据贴近的新源域数据；

训练模块，其配置成采用新源域数据作为训练数据对ResNet模型进行预训练；

参数调节模块，其配置成将目标域数据作为训练完成后的ResNet模型的输入，微调ResNet模型的参数，使其能够学习目标域数据特征并适应于目标域数据；和

描述语句生成模块：其配置成将目标域数据输入到参数微调后的ResNet模型中，将该模型的输出数据的图像向量特征作为LSTM的输入，生成与视频图像特征相关的描述语句，完成对视频内容的理解。

可选地，所述的域间差距降低模块中，采用CNN模型作为所述GAN模型中生成器的编码器。

可选地，采用ReLU作为所述编码器的激活函数。

第三方面，本申请还提供一种基于生成对抗网络的视频内容理解设备，包括：存储器和处理器，所述存储器用于保存基于生成对抗网络的视频内容理解的指令，所述处理器用于基于生成对抗网络的视频内容理解的指令被执行时，执行上述的方法。

第四方面，本申请还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述的方法。

第五方面，一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行上述的方法。

本申请的基于生成对抗网络的视频内容理解方法及装置采用基于迁移学习的思想，预训练公开数据集(源域)并对目标域数据集进行微调，使得小数据量的目标域数据集也能训练出准确率较高的模型，并提出了基于生成对抗网络的视频内容理解模型，能够在模型训练前尽可能对齐源域和目标域的特征，减少源域和目标域的域间差距，因此，能够提高模型的泛化能力，并提高模型的性能和效率。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的一种基于生成对抗网络的视频内容理解方法的示意性流程图；

图2是根据本申请另一个实施例的一种基于生成对抗网络的视频内容理解装置的示意性结构框图；

图3是根据本申请另一个实施例的一种计算设备的示意性结构框图；

图4是根据本申请另一个实施例的一种计算机可读存储介质的示意性结构框图。

具体实施方式

本实施例采用MSCOCO数据集作为源域数据集，该数据集中含有400000张训练图像，每张图像含有5个人工生成的描述信息。目标域数据集采用收集的网络视频，一共有100个时长为20S到30S的视频，对每段视频截取5帧有代表性的画面，那么一共有500帧画面，并且每个画面有5个人工生成的描述信息，选取其中的300帧作为训练数据，其余的作为测试数据。

图1是根据本申请一个实施例的一种基于生成对抗网络的视频内容理解方法的示意性流程图。基于生成对抗网络的视频内容理解方法一般性地可包括如下四个步骤：

S1、采用GAN模型对源域数据进行处理，以得到与目标域数据贴近的新源域数据。

由于源域和目标域的数据间存在域间差距，若直接采用迁移学习的方式，当两者差距较大时源域数据会产生噪声从而影响模型性能，因此本实施例提出采用GAN模型降低两者域间差距。GAN模型由两个部分组成：生成器和鉴别器。本实施例将源域数据送入生成器中生成新源域图像，选取目标域图像作为“真实”对比图像，将新源域图像与目标域图像作为比对，送入鉴别器进行判别，使得生成器能够生成逐渐贴近于目标图像的新源域图像，降低域间差距。

生成器包括编码器和解码器，编码器采用CNN(Convolutional Neural Networks，卷积神经网络)模型，该模型一共包括6个卷积层，设置其中3个卷积层为下采样，3个卷积层为上采样，采用ReLU作为采样层的激活函数。编码器输出图像的输出特征，将所述输出特征发送至解码器，解码器采用上采样的3个卷积层来学习如何重建原始特征向量。鉴别器使用了5个卷积层，将生成器生成的图像作为输入，将其与目标域图像进行比对判别为真或假，使用softmax函数将此特征向量转换为二进制输出，以与生成器相同的方式，使用ReLU作为所有层的激活函数。鉴别器将尽可能生成真实的图像样本，并且鉴别器被训练为不被所生成的图像欺骗并且成功地将它们检测为假的。通过GAN模型的生成器和鉴别器的博弈操作，将生成新源域数据集，该数据集在一定程度上减少了原始源域和目标域的域间差距。

S2、采用新源域数据作为训练数据对ResNet模型进行预训练。

采用新源域数据预训练ResNet残差网络，该网络有152层，与普通网络的区别是引入了跳跃连接,这可以使上一个残差块的信息没有阻碍的流入到下一个残差块,提高了信息流通,并且避免了由与网络过深所引起的消失梯度问题和退化问题，训练完成后的ResNet模型已具备了源域的特征信息。

S3、将目标域数据作为训练完成后的ResNet模型的输入，微调ResNet模型的参数，使其能够学习目标域数据特征并适应于目标域数据。

将目标域数据作为训练完成后的ResNet模型的输入，微调ResNet模型的参数，使其能够学习目标域数据特征并适应于目标域数据，这是迁移学习中的模型迁移方法，能够利用源域数据的预训练参数，将其应用于目标域数据时只需要对参数进行微调就能获得良好性能。

S4、将微调后形成的目标域数据的图像向量特征作为LSTM的输入，生成与视频图像特征相关的描述语句，完成对视频内容的理解，所述微调后形成的目标域数据是指将目标域数据输入到参数微调后的ResNet模型中得到的该模型的输出数据。

将微调后形成的目标域数据的图像向量特征作为LSTM(Long Short Term MemoryNetwork，长短时记忆网络)的输入，进入文本解码阶段，生成与视频图像特征相关的描述语句，完成对视频内容的理解。

图2是根据本申请一个实施例的一种基于生成对抗网络的视频内容理解装置的示意性原理框图。基于生成对抗网络的视频内容理解装置一般性地可包括如下四个模块：

描述语句生成模块：其配置成将微调后形成的目标域数据的图像向量特征作为LSTM的输入，生成与视频图像特征相关的描述语句，完成对视频内容的理解。

域间差距降低模块采用GAN模型对源域数据进行处理，以得到与目标域数据贴近的新源域数据。

由于源域和目标域的数据间存在域间差距，若直接采用迁移学习的方式，当两者差距较大时源域数据会产生噪声从而影响模型性能，因此本实施例提出采用GAN(Generative Adversarial Network，生成对抗网络)模型降低两者域间差距。GAN模型由两个部分组成：生成器和鉴别器。本实施例将源域数据送入生成器中生成新源域图像，选取目标域图像作为“真实”对比图像，将新源域图像与目标域图像作为比对，送入鉴别器进行判别，使得生成器能够生成逐渐贴近于目标图像的新源域图像，降低域间差距。

训练模块采用新源域数据作为训练数据对ResNet模型进行预训练。

参数调节模块将目标域数据作为训练完成后的ResNet模型的输入，微调ResNet模型的参数，使其能够学习目标域数据特征并适应于目标域数据。

描述语句生成模块将微调后形成的目标域数据的图像向量特征作为LSTM的输入，生成与视频图像特征相关的描述语句，完成对视频内容的理解。

本申请实施例还提供了一种计算设备，参照图3，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。

本申请实施例还提供了一种计算机可读存储介质。参照图4，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于生成对抗网络的视频内容理解方法，包括：

采用GAN模型对源域数据进行处理，以得到与目标域数据贴近的新源域数据；

采用新源域数据作为训练数据对ResNet模型进行预训练；

将微调后形成的目标域数据的图像向量特征作为LSTM的输入，生成与视频图像特征相关的描述语句，完成对视频内容的理解。

2.根据权利要求1所述的方法，其特征在于，采用CNN模型作为所述GAN模型中生成器的编码器。

3.根据权利要求2所述的方法，其特征在于，采用ReLU作为所述编码器的激活函数。

4.一种基于生成对抗网络的视频内容理解装置，包括：

5.根据权利要求4所述的装置，其特征在于，所述的域间差距降低模块中，采用CNN模型作为所述GAN模型中生成器的编码器。

6.根据权利要求4所述的装置，其特征在于，采用ReLU作为所述编码器的激活函数。

7.一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1-3中任一项所述的方法。

8.一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如权利要求1-3中任一项所述的方法。

9.一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行权利要求1-3中任一项所述的方法。