CN108846375A

CN108846375A - 一种基于神经网络的多模态协同学习方法及装置

Info

Publication number: CN108846375A
Application number: CN201810697764.9A
Authority: CN
Inventors: 尉寅玮; 王翔; 宋雪萌; 王英龙; 聂礼强
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-11-20
Anticipated expiration: 2038-06-29
Also published as: CN108846375B

Abstract

本发明公开了种一种基于神经网络的多模态协同学习方法及装置，该方法包括：S1抓取短视频数据建立短视频数据集，所述短视频数据包括用户历史发布的短视频及其附属信息；S2提取短视频数据集中短视频数据的多模态特征，并针对各个模态特征进行信息补足；S3依次将各个模态特征中任一模态特征作为主模态，其余作为辅模态，并计算主模态和辅模态的关系权重，分别进行同一性特征信息与补充性特征信息分类，将补充性特征信息和通过神经网络增强的同一性特征信息进行信息重组；S4建立关注机制网络，区分每一个重组后的模态特征信息对短视频所属场景分类的贡献程度，利用神经网络进行短视频场景分类。

Description

一种基于神经网络的多模态协同学习方法及装置

技术领域

本发明属于短视频处理的技术领域，涉及一种基于神经网络的多模态协同学习方法及装置，尤其是涉及一种用于短视频地理场景分析的基于神经网络的多模态协同学习方法及装置。

背景技术

随着互联网2.0时代的到来，以及便携式终端设备的发展，信息的传播从文字、图像、音频等单一形态逐步过渡到多模态融合的视频形态。如今通过手机、平板电脑等便携式终端设备拍摄并进行社交圈分享的短视频成为广受用户喜爱的社交应用。各种短视频应用，如Vine、Instagram、快手、抖音、美拍、微信、微博、腾讯微视等近年来迅速发展。短视频与互联网多种社交平台无缝连接，使其在拍摄后可直接分享社交网络。短视频融合了文本、音频、图像多个模态，可以更加直观、立体地满足用户的表达和沟通需要。短视频所包含的信息量更为多元化，更易于推动话题传播，短视频用户越来越多，用户粘性越来越强。

与传统视频不同，短视频一般拍摄于某个特点地理位置，这个地理位置具有很高的利用价值，如信息检索，生活或商业信息推荐，社交网络构建等等。然而在实际的应用中，用户在社交平台分享短视频后，即便平台提供了地理位置标注功能，用户也很少进行标注，据统计，在Vine平台上，每200亿短视频仅有1.22％进行了地理位置标注。因此根据对短视频拍摄的地理场景进行分析具有重要意义。

短视频的地理场景分析具有较大的难度，主要体现在以下几个方面：

1)训练数据匮乏。由于短视频是一个新兴的媒介形式，现在还没有大规模结构化的短视频数据集发布，而标注新的训练样本需要大量的人力和物力，这给短视频的表达学习带来了较大的挑战。

2)信息量不足不全。和传统视频相比，短视频很短，通常只有一个或者几个镜头，持续6-30秒。短就意味着蕴含的信息量不足。此外，有些短视频的文本描述因用户的惰性习惯，而缺失。

3)多模态且异构。和传统视频网站相比，比如Youtube和Youku，现在的短视频平台，更强调社交性能。因此短视频是社交属性、文本描述、音频和视频模态的综合体，且这些模态的数据是异构的。

4)质量差。和专业的拍摄设备相比，大部分的手机缺少防抖功能，因此拍出来的视觉效果不佳；此外，手机的录音设备不专业及拍摄地周围存在着背景声，导致部分短视频的音频模态声音嘈杂，而传统视频拍摄，比如电影，可以通过清场来解决此类问题。

5)地理信息结构化。短视频一般都是在同一个地点拍摄，大部分的手机又支持GPS功能，因此有些用户会给短视频添加结构化的地理标签。

综上所述，现有技术中如何解决短视频的地理场景分析的问题，如何准确的对短视频的地理场景进行分类，尚缺乏行之有效的解决方案。

发明内容

针对现有技术中存在的不足，本发明提供了一种基于神经网络的多模态协同学习方法及装置，用于短视频地理场景分析，快速的对短视频所属的地理场景进行分类，有效解决现有短视频缺少地理位置标签的问题，同时针对短视频存在的训练数据匮乏、信息量不足不全、视频多模态且异构、视频质量差等问题，进行补偿，有效提高短视频地理场景分析的精度及效率。

本发明的第一目的是提供一种基于神经网络的多模态协同学习方法。

为了实现上述目的，本发明采用如下一种技术方案：

一种基于神经网络的多模态协同学习方法，该方法包括：

S1抓取短视频数据建立短视频数据集，所述短视频数据包括用户历史发布的短视频及其附属信息；

S2提取短视频数据集中短视频数据的多模态特征，并针对各个模态特征进行信息补足；

S3依次将各个模态特征中任一模态特征作为主模态，其余作为辅模态，并计算主模态和辅模态的关系权重，分别进行同一性特征信息与补充性特征信息分类，将补充性特征信息和通过神经网络增强的同一性特征信息进行信息重组；

S4建立关注机制网络，区分每一个重组后的模态特征信息对短视频所属场景分类的贡献程度，利用神经网络进行短视频场景分类。

作为进一步的优选方案，在所述步骤S1中，所述抓取短视频数据建立短视频数据集的具体步骤包括：

S11抓取活跃用户作为种子用户，形成种子池，通过宽度优先搜索法抓取每个种子用户的关注者用户，扩充种子池；

S12抓取种子池中每个用户历史发布的短视频及其附属信息，所述附属信息包括发布者、文本描述、观看次数、转发次数、点赞次数和地理信息。

作为进一步的优选方案，所述步骤S2的具体步骤包括：

S21提取短视频数据集中短视频数据的多模态特征，所述短视频数据的多模态特征包括图像模态特征、音频模态特征和文本模态特征；

S22通过矩阵分解法进行所述音频模态特征和文本模态特征的信息补足。

作为进一步的优选方案，在本方法中，所述步骤S3通过建立协同学习网络，增强各个模态的表达能力，具体步骤包括：

S31依次将各个模态特征中任一模态特征作为主模态，其余作为辅模态；

S32通过将主模态和辅模态输入神经网络中计算主模态和辅模态的关系权重，得到主模态分值向量和辅模态分值向量；

S33进行同一性特征信息与补充性特征信息分类，得到主模态和辅模态的同一性向量和补充性向量；

S34将主模态和辅模态辅模态的同一性分值向量通过神经网络进行增强。

S35将补充性特征信息和通过神经网络增强的同一性特征信息进行信息重组。

作为进一步的优选方案，所述步骤S33的具体步骤包括：

S331预设主模态训练阈值和辅模态训练阈值，并根据该主模态训练阈值和辅模态训练阈值分别将主模态分值向量和辅模态分值向量分为同一性分值向量和补充性分值向量；

S332将主模态和辅模态的同一性分值向量和补充性分值向量与原主模态和辅模态分别进行元素对应乘积运算，得到主模态和辅模态的同一性向量和补充性向量。

作为进一步的优选方案，所述步骤S4的具体步骤包括：

S41建立各模态的关注度矩阵，所述关注度矩阵的列代表场景，行代表模态特征，所述关注度矩阵中的每个元素代表该模态特征对该场景分类的贡献程度；利用关注度矩阵对原特征进行加权，并通过神经网络计算得到各模态的区别特征；

S42利用神经网络进行场景分类，将各模态的区别特征输入神经网络，得到各模态在分类场景中的概率分布和不同场景分类的概率标签向量，将各个模态的概率标签向量进行融合和损失补偿，得到短视频场景分类结果。

本发明的第二目的是提供一种计算机可读存储介质。

为了实现上述目的，本发明采用如下一种技术方案：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备设备的处理器加载并执行以下处理：

本发明的第三目的是提供一种终端设备。

为了实现上述目的，本发明采用如下一种技术方案：

一种终端设备，采用互联网终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行以下处理：

本发明的第四目的是提供一种短视频的地理场景分析方法。

为了实现上述目的，本发明采用如下一种技术方案：

一种短视频的地理场景分析方法，该方法包括：

接收短视频信息，基于所述一种基于神经网络的多模态协同学习方法进行短视频的地理场景分析，得到短视频场景所属分类。

本发明的第五目的是提供一种短视频的地理场景分析系统。

为了实现上述目的，本发明采用如下一种技术方案：

一种短视频的地理场景分析系统，该系统基于一种短视频的地理场景分析方法。

本发明的有益效果：

1、本发明所述的一种基于神经网络的多模态协同学习方法及装置，能够准确有效的对短视频的地理场景进行分类，为后续科学研究或生活、商业推荐提供分析基础。

2、本发明所述的一种基于神经网络的多模态协同学习方法及装置，通过协同学习网络的构建，对同一性特征信息与补充性特征信息的拆分、增强和融合，有效的增强了各模态的信息表达能力，减小了无效信息的影响。

3、本发明所述的一种基于神经网络的多模态协同学习方法及装置，通过加入关注机制网络，区分每一个模态特征信息对视频所属场景分类的贡献程度，对增强的模态特征信息进行进一步处理，解决了信息冗余带来的问题，便于获取区别信息，从而提高短视频场景分类的准确率。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明的一种基于神经网络的多模态协同学习方法流程图。

具体实施方式：

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本实施例使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

本发明实施例中出现的名词术语解释：

Macro-F1：每一个类的性能指标的算术平均值

Micro-F1：每一个实例的性能指标的算术平均值

P-value：在假设原假设(H0)正确时，出现现状或更差的情况的概率。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合下面结合附图与实施例对本发明作进一步说明。

实施例：

本实施例的第一目的是提供一种基于神经网络的多模态协同学习方法。

为了实现上述目的，本发明采用如下一种技术方案：

如图1所示。

一种基于神经网络的多模态协同学习方法，该方法包括：

在本实施例的所述步骤S1中，所述抓取短视频数据建立短视频数据集的具体步骤包括：

S12抓取种子池中每个用户历史发布的短视频及其附属信息，所述附属信息包括发布者、文本描述、观看次数、转发次数、点赞次数和地理信息(venue ID)。

在本实施例中，短视频数据集训练集，验证集和测试集。

在本实施例中，所述步骤S2的具体步骤包括：

图像模态特征的提取：首先利用OpenCV选取出每个视频的主框架，然后利用ResNet从每个框架中提取出图像模态特征，形成一个多维向量x_v(2048维)。

声音模态特征的提取，首先利用FFmpeg对每个视频进行音轨分离，然后将音轨转换成统一形式，再通过DAE模型，利用theano框架提取出音频模态特征，形成一个多维向量x_a(200维)。其中DAE模型是经过预训练的。

文本模态特征的提取，利用Sentence2Vector工具从视频描述中提取出文本模态特征，形成一个多维向量x_t(100维)。

在本实施例中，模态特征信息补足，相较于图像模态特征，声音模态及文本模态特征容易出现信息缺失，因此需要通过矩阵分解的方式进行信息补足。

通过步骤S3和S4建立神经网络多模态协调学习模型(Neural multImodalCooperative lEarning model(NICE))。

在本实施例中，所述步骤S3通过建立协同学习网络，增强各个模态的表达能力，具体步骤包括：

S31构建主模态、辅模态矩阵。依次将各个模态特征中任一模态特征作为主模态，其余作为辅模态；

将S2中提取的图像模态特征x_v、文本模态特征x_t、声音模态特征x_a的任意一个依次作为主模态，表示为h^m，相应的另外两个模态作为辅模态g^m，分别表示为和那么辅模态g^m可以表示为

其中，m指特定模态。

将h^m和g^m输入到神经网络中进行学习，从而得到一个主模态分值向量

g^m向量中每个分值数据的取值范围是0-1。

在本实施例中，所述步骤S33的具体步骤包括：

设定一个训练阈值其中利用上述阈值，将主模态分值向量分为同一性分值向量和补充性分值向量，分别表示为和其中，补充性分值向量中每一个分值为：

同一性分值向量中每一个分值为：

对主模态、辅模态矩阵分别进行以上操作后，就会得到主模态、辅模态的同一性分值向量和补充性分值向量，分别为，

将所得到的主、辅模态的同一性分值向量和补充性分值向量与原主、辅模态进行如下运算，

从而得到主模态同一性向量和补充性向量，分别为，以及辅模态同一性向量和补充性向量，分别为，

将主模态同一性向量以及辅模态同一性向量输入神经网络进行增强分类，

从而得到增强的同一性向量

由于每个模态特征信息向量维度不同，因此为了保证一致性，需要先进行相对熵的计算，

将增强后的同一性向量与补充性向量集成起来，得到重组的模态特征信息。

在本实施例中，所述步骤S4的具体步骤包括：

首先，建立各模态的关注度矩阵Ω^m，矩阵的列代表场景，行代表模态特征，那么矩阵中的每个元素代表该模态特征对该场景分类的贡献程度。那么Ω^m的每一列表示为，

是关注度分值。

然后通过激活函数，获取各模态的区别特征表示

首先，将各模态的区别特征输入神经网络，得到各模态在分类场景中的概率分布，

得到不同场景分类的概率标签向量，

其次，将三个模态的概率标签向量进行融合，

然后求解损失函数，

最终，得到场景分类结果，

与传统的分析方法相比，本发明提出的方法(NICE)在Macro-F1，Micro-F1，P-value方面均有较好的表现，如下表1所示。

表1

本实施例的第二目的是提供一种计算机可读存储介质。

为了实现上述目的，本发明采用如下一种技术方案：

本实施例的第三目的是提供一种终端设备。

为了实现上述目的，本发明采用如下一种技术方案：

这些计算机可执行指令在设备中运行时使得该设备执行根据本公开中的各个实施例所描述的方法或过程。

在本实施例中，计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开内容操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开内容的各个方面。

应当注意，尽管在上文的详细描述中提及了设备的若干模块或子模块，但是这种划分仅仅是示例性而非强制性的。实际上，根据本公开的实施例，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

本实施例的第四目的是提供一种短视频的地理场景分析方法。

为了实现上述目的，本发明采用如下一种技术方案：

一种短视频的地理场景分析方法，该方法包括：

本实施例的第五目的是提供一种短视频的地理场景分析系统。

为了实现上述目的，本发明采用如下一种技术方案：

本发明的有益效果：

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于神经网络的多模态协同学习方法，其特征在于，该方法包括：

2.如权利要求1所述的一种基于神经网络的多模态协同学习方法，其特征在于，在所述步骤S1中，所述抓取短视频数据建立短视频数据集的具体步骤包括：

3.如权利要求1所述的一种基于神经网络的多模态协同学习方法，其特征在于，所述步骤S2的具体步骤包括：

4.如权利要求1所述的一种基于神经网络的多模态协同学习方法，其特征在于，在本方法中，所述步骤S3通过建立协同学习网络，增强各个模态的表达能力，具体步骤包括：

5.如权利要求4所述的一种基于神经网络的多模态协同学习方法，其特征在于，所述步骤S33的具体步骤包括：

6.如权利要求1所述的一种基于神经网络的多模态协同学习方法，其特征在于，所述步骤S4的具体步骤包括：

7.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行根据权利要求1-6中任一项所述的一种基于神经网络的多模态协同学习方法。

8.一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令用于执行根据权利要求1-6中任一项所述的一种基于神经网络的多模态协同学习方法。

9.一种短视频的地理场景分析方法，其特征在于，该方法包括：

接收短视频信息，基于权利要求1-6中任一项所述的一种基于神经网络的多模态协同学习方法进行短视频的地理场景分析，得到短视频场景所属分类。

10.一种短视频的地理场景分析系统，该系统基于权利要求9中所述的一种短视频的地理场景分析方法。