CN110168531A

CN110168531A - 用于多模态融合模型的方法和系统

Info

Publication number: CN110168531A
Application number: CN201780079516.1A
Authority: CN
Inventors: 堀智织; 堀贵明; J·赫尔希; T·马克斯
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-12-30
Filing date: 2017-12-25
Publication date: 2019-08-23
Anticipated expiration: 2037-12-25
Also published as: JP2019535063A; JP6719663B2; DE112017006685T5; CN110168531B; WO2018124309A1; US10417498B2; US20180189572A1

Abstract

一种生成单词序列的系统，该系统包括：与存储器连接的一个或更多个处理器；以及存储指令的一个或更多个存储装置，所述指令导致多个操作，所述操作包括：接收第一输入矢量和第二输入矢量；提取第一特征矢量和第二特征矢量；估计第一组权重和第二组权重；根据所述第一组权重和所述第一特征矢量计算第一内容矢量，并且计算第二内容矢量；将所述第一内容矢量变换成具有预定维度的第一模态内容矢量，并且将所述第二内容矢量变换成具有所述预定维度的第二模态内容矢量；估计一组模态注意力权重；根据所述一组模态注意力权重以及所述第一模态内容矢量和所述第二模态内容矢量，生成具有所述预定维度的加权内容矢量；以及利用所述序列生成器生成预测单词。

Description

用于多模态融合模型的方法和系统

技术领域

本发明总体上涉及用于描述多模态数据的方法和系统，并且，更具体地，涉及用于视频描述的方法和系统。

背景技术

已知为视频字幕的自动化视频描述是指自动生成叙述输入视频的自然语言描述(例如，句子)。视频描述可以是广泛的应用，包括视频检索、家庭电影或在线上传的视频片段的自动描述、针对视障人士的视频描述、监控系统的警告生成以及人机之间的知识共享的场景理解。

视频描述系统从视频数据中提取显著特征，所述特征可以是多模态特征(如表示一些对象的图像特征、表示一些动作的运动特征以及指示一些事件的音频特征)，并且生成叙述事件的描述，使得该描述中的词语与那些提取的特征相关并且如自然语言那样恰当地排序。

视频描述中的一个固有问题是视频特征序列与描述中的词语序列不同步。事实上，对象和动作在视频中出现的次序可能不同于它们在句子中出现的次序。在选择正确的词语来描述某事物时，只有直接对应于该对象或动作的特征才是相关的，而其它特征是杂乱的来源。另外，一些事件并不总是能在所有特征中观察到。

发明内容

[技术问题]

因此，需要包含性地或选择性地使用不同的特征来推断描述的每个词语以实现高质量的视频描述。

[问题的解决方案]

本公开的一些实施方式基于根据包括多个模态的输入数据来生成内容矢量。在一些情况下，所述模态可能是音频信号、视频信号(图像信号)以及视频信号中包含的运动信号。

本公开基于根据包括多个模态的输入数据来生成内容矢量的多模态融合系统。在某些情况下，该多模态融合系统接收输入信号(包括图像(视频)信号、运动信号以及音频信号)，并生成叙述与输入信号相关的事件的描述。

根据本公开的实施方式，一种根据多模态输入矢量生成单词序列的系统，该系统包括：一个或更多个处理器以及存储指令的一个或更多个存储装置，所述指令能够操作为在由所述一个或更多个处理器执行时，使所述一个或更多个处理器执行多个操作，所述操作包括：根据第一顺序间隔和第二顺序间隔接收第一输入矢量和第二输入矢量；利用第一特征提取器和第二特征提取器，从所述第一输入和所述第二输入分别提取第一特征矢量和第二特征矢量；根据所述第一特征矢量和所述第二特征矢量以及序列生成器的预前(prestep)语境矢量，分别估计第一组权重和第二组权重；根据所述第一组权重和所述第一特征矢量计算第一内容矢量，并且根据所述第二组权重和所述第二特征矢量计算第二内容矢量；将所述第一内容矢量变换成具有预定维度的第一模态内容矢量，并且将所述第二内容矢量变换成具有所述预定维度的第二模态内容矢量；根据所述预前语境矢量以及所述第一内容矢量和所述第二内容矢量或者所述第一模态内容矢量和所述第二模态内容矢量，估计一组模态注意力权重；根据所述一组模态注意力权重以及所述第一模态内容矢量和所述第二模态内容矢量，生成具有所述预定维的加权内容矢量；以及利用所述序列生成器生成预测单词，以根据所述加权内容矢量生成所述单词序列。

而且，本公开的一些实施方式提供了一种存储软件的非暂时性计算机可读介质，该软件包括可通过一个或更多个处理器执行的指令，所述指令在这样执行时，使所述一个或更多个处理器执行多个操作。所述操作包括：根据第一顺序间隔和第二顺序间隔接收第一输入矢量和第二输入矢量；利用第一特征提取器和第二特征提取器，从所述第一输入和所述第二输入分别提取第一特征矢量和第二特征矢量；根据所述第一特征矢量和所述第二特征矢量以及序列生成器的预前语境矢量，分别估计第一组权重和第二组权重；根据所述第一组权重和所述第一特征矢量计算第一内容矢量，并且根据所述第二组权重和所述第二特征矢量计算第二内容矢量；将所述第一内容矢量变换成具有预定维度的第一模态内容矢量，并且将所述第二内容矢量变换成具有所述预定维度的第二模态内容矢量；根据所述预前语境矢量以及所述第一内容矢量和所述第二内容矢量或者所述第一模态内容矢量和所述第二模态内容矢量，估计一组模态注意力权重；根据所述一组模态注意力权重以及所述第一模态内容矢量和所述第二模态内容矢量，生成具有所述预定维度的加权内容矢量；以及利用所述序列生成器生成预测单词，以根据所述加权内容矢量生成所述单词序列。

根据本公开另一实施方式，一种根据多模态输入矢量根据多模态输入矢量生成单词序列的方法，该方法包括以下步骤：根据第一顺序间隔和第二顺序间隔接收第一输入矢量和第二输入矢量；利用第一特征提取器和第二特征提取器，从所述第一输入和所述第二输入分别提取第一特征矢量和第二特征矢量；根据所述第一特征矢量和所述第二特征矢量以及序列生成器的预前语境矢量，分别估计第一组权重和第二组权重；根据所述第一组权重和所述第一特征矢量计算第一内容矢量，并且根据所述第二组权重和所述第二特征矢量计算第二内容矢量；将所述第一内容矢量变换成具有预定维度的第一模态内容矢量，并且将所述第二内容矢量变换成具有所述预定维度的第二模态内容矢量；根据所述预前语境矢量以及所述第一内容矢量和所述第二内容矢量或者所述第一模态内容矢量和所述第二模态内容矢量，估计一组模态注意力权重；根据所述一组模态注意力权重以及所述第一模态内容矢量和所述第二模态内容矢量，生成具有所述预定维度的加权内容矢量；以及利用所述序列生成器生成预测单词，以根据所述加权内容矢量生成所述单词序列。

参照附图，对目前所公开实施方式加以进一步描述。所示附图不必按比例，相反，强调的是，附图通常被置于例示目前所公开实施方式的原理之下。

附图说明

图1是例示根据本公开一些实施方式的多模态融合系统的框图。

图2A是例示根据本公开实施方式的简单多模态方法的框图。

图2B是例示根据本公开实施方式的多模态注意力方法的框图。

图3是例示根据本公开实施方式的基于LSTM的编码器-解码器架构的示例的框图。

图4是例示根据本公开实施方式的根据视频的基于注意力的句子生成器的示例的框图。

图5是例示根据本公开实施方式的根据视频的基于注意力的句子生成器的扩展的框图。

图6是例示根据本公开实施方式的简单特征融合方法(简单多模态方法)的图。

图7是例示根据本公开实施方式的句子生成器的架构的图。

图8示出了通过常规方法获得的性能结果与根据本公开实施方式的多模态注意力方法获得的性能结果的比较。

图9A、图9B、图9C及图9D示出了通过常规方法获得的性能结果与根据本公开实施方式的多模态注意力方法获得的性能结果的比较。

具体实施方式

虽然上面所标识附图阐述了目前公开的实施方式，但也可以设想其它实施方式，如讨论中提到的。本公开通过表述而非限制的方式来呈现例示性实施方式。本领域技术人员可以设计出落入目前所公开实施方式的原理的范围和精神内的许多其它修改例和实施方式。

下面的描述仅提供了示例性实施方式，而非旨在对本公开的范围、适用性，或构造进行限制。相反，示例性实施方式的以下描述将向本领域技术人员提供用于实现一个或更多个示例性实施方式的使能描述。在不脱离如所附权利要求书中阐述的所公开主旨的精神和范围的情况下，设想了可以对部件的功能和排布结构进行的各种改变。

在以下描述中给出具体细节以提供对实施方式的透彻理解。然而，本领域普通技术人员应当明白，这些实施方式可以在不需要这些具体细节的情况下来实践。例如，所公开主旨中的系统、处理以及其它部件可以以框图形式示出为组件，以便在不必要的细节上模糊这些实施方式。在其它情况下，公知的处理、结构，以及技术可以在没有不必要的细节的情况下被示出，以便避免模糊这些实施方式。而且，各个附图中的相同标号和指定表示相同部件。

而且，单独的实施方式可以被描述为被描绘为流程图、程序框图、数据流图、结构图，或框图的处理。尽管流程图可以将操作描述为顺序处理，但许多操作可以并行或同时执行。另外，操作的次序可以重新排列。处理可以在其操作完成时终止，但可以具有图中未讨论或包括的附加步骤。而且，并非任何具体描述处理中的所有操作都可能发生在所有实施方式中。处理可以对应于方法、功能、过程、子例程、子程序等。当一个处理对应一个函数时，该函数的终止可以对应于该函数返回至调用函数或主函数。

而且，所公开主旨的实施方式可以至少部分地、人工或自动实现。可以通过使用机器、硬件、软件、固件、中间件(middleware)、微代码、硬件描述语言，或任何其组合来执行或至少辅助手动或自动实现。当以软件、固件、中间件或微代码实现时，用于执行必要任务的程序代码或代码段可以被存储在机器可读介质中。处理器可以执行必要的任务。

根据本公开的实施方式，一种根据多模态输入矢量生成单词序列的系统，该系统包括：一个或更多个处理器，所述一个或更多个处理器与存储可操作指令的一个或更多个存储装置连接。当所述指令由所述一个或更多个处理器执行时，所述指令使所述一个或更多个处理器执行多个操作，所述操作包括：根据第一顺序间隔和第二顺序间隔接收第一输入矢量和第二输入矢量；利用第一特征提取器和第二特征提取器，分别从第一输入和第二输入提取第一特征矢量和第二特征矢量；根据第一特征矢量和第二特征矢量以及序列生成器的预前语境矢量，分别估计第一组权重和第二组权重；根据第一权重和第一特征矢量计算第一内容矢量，并且根据第二权重和第二特征矢量计算第二内容矢量；将第一内容矢量变换成具有预定维度的第一模态内容矢量，并且将第二内容矢量变换成具有所述预定维度的第二模态内容矢量；根据预前语境矢量以及第一模态内容矢量和第二模态内容矢量，估计一组模态注意力权重；根据该组模态注意力权重以及第一内容矢量和第二内容矢量，生成具有所述预定维度的加权内容矢量；以及利用序列生成器生成预测单词，以根据加权内容矢量来生成单词序列。

在这种情况下，第一模态内容矢量、第二模态内容矢量以及加权内容矢量具有相同的预定维度。这使得该系统可以执行多模态融合模型。换句话说，通过设计或确定所述输入矢量的维度和加权内容矢量的维度以使具有相同维度，那些矢量可以在多模态融合模型的数据处理中容易地处理，因为那些矢量是利用具有相同维度的相同数据格式表达的。由于通过使用被变换成具有相同维度的数据来简化了数据处理，根据本公开实施方式的多模态融合模型方法或系统可以减少用于根据多模态输入矢量来生成单词序列的中央处理单元使用和功耗。

当然，根据系统设计的要求，可以将矢量的数量改变成预定N个矢量。例如，当该预定N被设定为3时，三个输入矢量可以是从经由系统中包括的输入/输出接口接收到的图像数据、视频信号以及音频信号中获取的图像特征、运动特征以及音频特征。

在一些情况下，第一顺序间隔和第二顺序间隔可以是相同的间隔，并且第一矢量和第二矢量可以是不同的模态。

图1示出了根据本公开一些实施方式的多模态融合系统100的框图。多模态融合系统100可以包括具有输入/输出(I/O)接口110的人机接口(HMI)，该输入/输出接口110可连接有键盘111和指点装置/介质112、麦克风113、接收器114、发射器115、3D传感器116、全球定位系统(GPS)117、一个或更多个I/O接口118、处理器120、存储装置130、存储器140、可与包括局域网和互联网(未示出)的网络155连接的网络接口控制器150(NIC)、连接至显示装置165的显示接口160、可与成像装置175连接的成像接口170、可与打印装置185连接的打印机接口180。具有I/O接口110的HMI可以包括模拟/数字转换器和数字/模拟转换器。具有I/O接口110的HMI包括可以经由无线互联网连接或无线局域网与其它3D点云显示系统或其它计算机通信的无线通信接口，这使能构建多个3D点云。3D点云系统100可以包括电源190。电源190可以能够经由I/O接口118从外部电源(未示出)再充电的电池。根据应用，电源190可以可选地位于系统100的外部。

HMI和I/O接口110以及I/O接口118可以被构造成连接至包括计算机监视器、摄像机、电视机、投影仪或移动装置等的另一显示装置(未示出)。

多模态融合系统100可以经由连接至NIC 150的网络155接收包括语音数据的电文本/成像文档195。存储装置130包括：序列生成模型131、特征提取模型132以及多模态融合模型200，其中，序列生成模型131、特征提取模型132以及多模态融合模型200这三者的算法作为程序代码数据存储在存储装置130中。模型131至模型132以及模型200这三者的算法可以存储至计算机可读记录介质(未示出)，使得处理器120可以通过从所述介质加载该算法来执行模型131至模型132以及模型200这三者的算法。而且，指点装置/介质112可以包括读取和执行存储在计算机可读记录介质上的程序的模块。

为了开始执行模型131-132以及模型200的算法，可以利用键盘111、指点装置/介质112或者经由连接至其它计算机(未示出)的无线网络或网络155，将指令发送给系统100。响应于通过麦克风113接收用户的声信号，利用存储在存储装置130中的预先安装的常规语音识别程序，可以开始模型131-132以及模型200的算法。而且，系统100包括接通/断开开关(未示出)以允许用户开始/停止操作系统100。

HMI和I/O接口110可以包括模数(A/D)转换器、数模(D/A)转换器以及连接网络155的无线信号天线。而且，所述一个或更多个I/O接口118可连接至有线电视(TV)网络或接收TV信号的常规电视(TV)天线。经由接口118接收到的信号可以转换成数字图像和音频信号，所述信号可以根据与处理器120和存储器140连接的模型131-132以及模型200的算法来处理，使得生成视频脚本并且在经由扬声器119输出TV信号中的声音的同时将所述视频脚本与数字图像的图片帧一起显示在显示装置165上。扬声器可以包括在系统100中，或者外部扬声器可以经由接口110或I/O接口118连接。

处理器120可以是包括一个或更多个图形处理单元(GPU)的多个处理器。存储装置130可以包括可识别经由麦克风113获得的语音信号的语音识别算法(未示出)。

多模态融合系统模块200、序列生成模型131以及特征提取模型132可以由神经网络形成。

图2A是例示根据本公开实施方式的简单多模态方法的框图。该简单多模态方法可以由执行存储在存储装置130中的序列生成模型131、特征提取模型132以及多模态融合模型200的程序的处理器120来执行。序列生成模型131、特征提取模型132以及多模态融合模型200可以存储到计算机可读记录介质中，使得该简单多模态方法可以在处理器120加载并执行序列生成模型131、特征提取模型132以及多模态融合模型200的算法时执行。该简单多模态方法与序列生成模型131、特征提取模型132以及多模态融合模型200组合执行。而且，该简单多模态方法使用特征提取器211、221及231(特征提取器1～K)、注意力估计器212、222及232(注意力估计器1～K)、加权和处理器213、223及233(加权和处理器(计算器)1～K)、特征变换模块214、224及234(特征变换模块1～K)、简单和处理器(计算器)240以及序列生成器250。

图2B是例示根据本公开实施方式的多模态注意力方法的框图。除了特征提取器1～K、注意力估计器1～K、加权和处理器1～K、特征变换模块1～K以及序列生成器250以外，多模态注意力方法还包括模态注意力估计器255和加权和处理器245，而不使用简单和处理器240。该多模态注意力方法与序列生成模型131、特征提取模型132以及多模态融合模型200组合执行。在这两种方法中，序列生成模型131提供序列生成器250，并且特征提取模型132提供特征提取器1～K。而且，特征变换模块1～K、模态注意力估计器255、加权和处理器1～K以及加权和处理器245可以由多模态融合模型200提供。

假定多模态视频数据包括K个模态，其中K≥2并且一些模态可以相同，利用针对该数据的特征提取器211、注意力估计器212以及加权和处理器213将模态-1数据转换成固定维度内容矢量，其中，特征提取器211从该数据中提取多个特征矢量，注意力估计器212估计提取的各个特征矢量的各个权重，并且加权和处理器213输出(生成)利用所估计的权重被计算为所提取的特征矢量的加权和的内容矢量。利用针对该数据的特征提取器221、注意力估计器222以及加权和处理器223将模态-2数据转换成固定维度内容矢量。直到模态-K数据，获得K个固定维度内容矢量，其中，将特征提取器231、注意力估计器232以及加权和处理器233用于模态-K数据。模态-1、模态-2、…、模态-K数据中的每一个可以是具有间隔的按时间顺序排序的顺序数据或者是按具有预定时间间隔的其它预定次序的顺序数据。

然后，通过各个特征变换模块214、224以及234将K个内容矢量中的每一个变换(转换)成N维矢量，并且获得K个变换的N维矢量，其中，N是预定义正整数。

在图2A的简单多模态方法中，将K个变换的N维矢量求和成单个N维内容矢量，而在图2B的多模态注意力方法中，利用模态注意力估计器255和加权和处理器245将这些矢量转换成单个N维内容矢量，其中模态注意力估计器255估计各个变换的N维矢量的各个权重，并且加权和处理器245输出(生成)利用所估计的权重计算为该K个变换的N维矢量的加权和的N维内容矢量。

序列生成器250接收单个N维内容矢量，并预测与描述视频数据的句子中的单词相对应的一个标签。为了预测下一个单词，序列生成器250将该句子的语境信息(如表示先前生成的单词的矢量)提供给注意力估计器212、222、232以及模态注意力估计器255，以估计注意力权重从而获得恰当的内容矢量。该矢量可以被称为预前(pre-step或prestep)语境矢量。

序列生成器250从句首记号“<sos>”开始预测下一个单词，并且通过迭代地预测下一个单词(预测单词)直到预测对应于“句尾”的特殊符号“<eos>”来生成一个或多个描述性句子。换句话说，序列生成器250根据多模态输入矢量生成单词序列。在一些情况下，可以经由诸如HMI和I/O接口110或者一个或更多个I/O接口118之类的不同输入/输出接口来接收多模态输入矢量。

在每个生成处理中，生成的预测单词在从加权内容矢量和预前语境矢量给出的所有可能单词中具有最高概率。而且，该预测单词可以被累积到存储器140、存储装置130或更多存储装置(未示出)中以生成单词序列，并且可以继续该累积处理，直到接收到所述特殊符号(序列结束)。系统100可以经由NIC 150和网络155、HMI和I/O接口110或者一个或更多个I/O接口118发送从序列生成器250生成的预测单词，使得预测单词的数据可以用于其它计算机195或其它输出装置(未示出)。

当K内容矢量中的每一个来自不同的模态数据和/或通过不同的特征提取器时，利用K个变换的矢量的加权和的模态或特征融合使得能够通过根据句子的语境信息注意不同模态和/或不同特征来更好地预测每个单词。因此，该多模态注意力方法可以利用不同模态或特征上的注意力权重来包含性地或选择性地利用不同的特征，从而推断该描述的每个单词。

而且，系统100中的多模态融合模型200包括数据分发模块(未示出)，给数据分发模块经由I/O接口110或118接收多个时间顺序数据，并将所接收的数据分发成模态-1数据、模态-2数据、…、模态-K数据，根据一个或多个预定间隔划分所分发的每个时间顺序数据，然后将模态-1数据、模态-2数据、…、模态-K数据分别提供给特征提取器1～K。

在一些情况下，所述多个时间顺序数据可以是视频片段中包括的视频信号和音频信号。当该视频片段被用于模态数据时，系统100使用图2B中的特征提取器211、221以及231(设定K＝3)。该视频片段经由I/O接口110或118提供给系统100中的特征提取器211、221以及231。特征提取器211、221以及231可以从该视频片段中分别提取图像数据、音频数据以及运动数据，作为模态-1数据、模态-2数据以及模态-3(例如，图2B中的K＝3)。在这种情况下，特征提取器211、221和231根据第一间隔、第二间隔以及第三间隔，从该视频片段的数据流分别接收模态-1数据、模态-2数据以及模态-3。

在一些情况下，当可以利用不同的时间间隔来捕获图像特征、运动特征或音频特征时，数据分发模块可以分别以预定的不同时间间隔来划分多个时间顺序数据。

基于编码器-解码器的句子生成器

用于视频描述的方法可以基于序列到序列学习。首先将输入序列(即，图像序列)编码成固定维度语义矢量。然后，根据语义矢量生成输出序列，即，单词序列。在此情况下，编码器和解码器(或生成器)两者通常被建模为长短期记忆(LSTM)网络。

图3示出了基于LSTM的编码器-解码器架构的示例。给定序列图像X＝x₁,x₂,…,x_L，每个图像首先被馈送至特征提取器，特征提取器可以是用于图像或视频分类任务的预训练卷积神经网络(CNN)，自然如GoogLeNet、VGGNet或C3D。该图像特征序列X’＝x’₁,x’₂,…,x’_L是通过为每个输入图像提取CNN的全连接层的激活矢量来获得的。然后将该特征矢量序列馈送至LSTM编码器，并且LSTM的隐藏状态由下式给出

h_t＝LSTM(h_t-1，x′_t；λ_E)， (1)

其中，编码器网络λ_E的LSTM函数被计算为

LSTM(h_t-1，x_t；λ)＝o_t tanh(c_t)， (2)

其中，

其中，σ()是逐元素方式的sigmoid函数，并且i_t、f_t、to以及c_t分别是第t个输入矢量的输入门(input gate)矢量、忘记门(forget gate)矢量、输出门(output gate)矢量以及单元激活矢量。权重矩阵W_zz ^(λ)和偏置矢量b_Z ^(λ)由下标z∈{x,h,i,f,o,c}标识。例如，W_hi是隐藏输入门矩阵，并且W_xo是输入-输出门矩阵。在该过程中不使用窥孔连接(Peepholeconnection)。

解码器从句首记号“<sos>”开始迭代地预测下一个单词，直到其预测句尾记号“<eos>”。句首记号可以被称为开始标签，并且句尾记号可以被称为结束标签。

给定解码器状态s_i-1，解码器网络λ_D将下一单词概率分布推断为

并根据下式生成具有最高概率的单词y_i

其中，V指示词汇表。利用解码器的LSTM网络将解码器状态更新为

s_i＝LSTM(s_i-1，y′_i；λ_D)， (9)

其中，y’_i是y_m的单词嵌入矢量，并且初始状态s₀根据最终编码器状态h_L和y’₀＝Embed(<sos>)获得，如图3中所示。

在训练阶段，给出Y＝y₁,…,y_M作为参考。然而，在测试阶段，需要基于下式找到最佳单词序列

P(y_M|s_M-1)P(<eos>|s_M). (11)

因此，可以将测试阶段中的波束搜索用于在每第m个步骤保持多个状态和具有最高累积概率的假设，并且从已到达句尾记号的那些中选择最佳假设。

基于注意力的句子生成器

用于视频描述的另一方法可以是基于注意力的序列生成器，其使得网络能够根据当前语境强调来自特定时间或空间区域的特征，使得能够更准确地预测下一个单词。与上述基本方法相比，基于注意力的生成器可以根据输入语境和输出语境来选择性地利用输入特征。注意力模型的功效已经在诸如机器翻译的许多任务中显示出来。

图4是例示根据视频的基于注意力的句子生成器的示例的框图，其具有针对输入图像序列的时间注意力机制。该输入图像序列可以是具有预定时间间隔的时间顺序次序。该输入的特征矢量序列是利用一个或更多个特征提取器获得的。在这种情况下，基于注意力的生成器可以采用基于双向LSTM(BLSTM)或门控递归单元(GRU)的编码器来进一步转换图5中的特征矢量序列，使得每个矢量都包含其语境信息。

然而，在视频描述任务中，可以直接使用基于CNN的特征，或者可以添加一个或更多个前馈层以减少维数。

如果在如图5中的特征提取之后使用BLSTM编码器，那么可以获得激活矢量(即，编码器状态)为

其中，h_t ^(f)和h_t ^(b)是前向和后向隐藏的激活矢量：

如果使用前馈层，那么激活矢量被计算为

h_t＝tanh(W_px′_t+b_p)， (15)

其中，W_p是权重矩阵，并且b_p是偏差矢量。而且，如果直接使用CNN特征，那么将其假设为h_t＝x_t。

通过在输入序列中从始至终对隐藏激活矢量使用注意力权重，实现注意力机制。这些权重使网络能够强调来自对预测下一个输出单词最重要的那些时间步的特征。

设α_i,t为第i个输出单词与第t个输入特征矢量之间的注意力权重。对于第i个输出，获得表示输入序列的相关内容的矢量作为隐藏单元激活矢量的加权和：

解码器网络是基于注意力的递归序列生成器(ARSG)，其生成具有内容矢量c_i的输出标签序列。该网络还具有LSTM解码器网络，其中，解码器状态可以按与方程(9)相同的方式更新。

然后，输出标签概率被计算为

并且单词y_i根据下式生成

与基本编码器-解码器的方程(7)和方程(8)相反，概率分布以内容矢量ci为条件，其强调与预测每个后续单词最相关的特定特征。可以在softmax层之前插入一个或更多个前馈层。在这种情况下，该概率计算如下：

并且

注意力权重可以被计算为

并且

其中，W_A和V_A是矩阵，w_A和b_A是矢量，并且e_i,t是标量。

基于注意力的多模态融合

本公开实施方式提供了处理多模态融合的注意力模型，其中，每个模态都有其自己的特征矢量序列。对于视频描述，可用诸如图像特征、运动特征以及音频特征的多模态输入。而且，来自不同特征提取方法的多个特征的组合通常对提高描述准确度是有效的。

在一些情况下，来自VGGNet(图像特征)和C3D(时空运动特征)的内容矢量可以被组合成一个矢量，该矢量被用于预测下一个单词。这可以在融合层中执行。设K是模态的数量，即，输入特征矢量序列的数量，代替方程(19)，计算以下激活矢量

其中，

并且c_k,i是对应于第k个特征提取器或模态的第k个内容矢量。

图6示出了假设K＝2的简单特征融合方法(简单多模态方法)，其中，内容矢量是分别利用针对各个输入序列x₁₁,…,x_1L和x₂₁’,…,x_2L’的注意力权重获得的。然而，这些内容矢量与权重矩阵W_c1和W_c2组合，它们通常被用于句子生成步骤。从而，来自各个特征类型(或一种模态)的内容矢量总是利用相同的权重进行融合的，而与解码器状态无关。该架构可以引入有效地利用多种类型的特征的能力，以允许各个特征类型(每个模态)的相对权重基于语境而改变。

根据本公开的实施方式，注意力机制可以扩展至多模态融合。利用多模态注意力机制，基于当前解码器状态，解码器网络可以选择性地注意输入的特定模态(或特定特征类型)以预测下一个单词。根据本公开实施方式的基于注意力的特征融合可以利用下式来执行

其中，

多模态注意力权重β_k,i按与时间注意力机制类似的方式获得：

其中，

其中，W_B和V_Bk是矩阵，w_B和b_Bk是矢量，并且v_k,i是标量。

图7示出了根据本公开实施方式的句子生成器的架构，包括多模态注意力机制。与图6中的简单多模态融合方法不同，在图7中，特征级注意力权重可以根据解码器状态和内容矢量而改变，这使得解码器网络在预测描述中的每个后续单词时能够注意不同组的特征和/或模态。

用于评估的数据集

下面描述了一些实验结果，用于利用Youtube2Text视频语料库来讨论根据本公开实施方式的特征融合。该语料库非常适合于训练和评估自动视频描述生成模型。该数据集具有1970个视频片段，这些视频片段具有多种自然语言描述。每个视频片段都注释了由不同的Mechanical Turkers提供的多个并行句子。总共存在80,839个句子，其中每个片段约有41个带注释句子。每个句子平均包含大约8个单词。所有句子中包含的单词构成了具有13,010个独特词汇条目的词汇表。该数据集是开放域的，并且涵盖了广泛的主题，包括体育、动物以及音乐。该数据集被拆分成具有1,200个视频片段的训练集，具有100个片段的验证集以及由剩余670个片段组成的测试集。

视频预处理

从每个视频片段提取图像数据，其包括每秒24帧，并且重新缩放成224x224像素图像。为了提取图像特征，使用预训练的GoogLeNet CNN(M.Lin,Q.Chen,and S.Yan.Networkin network.CoRR,abs/1312.4400,2013)，借助于Caffe的流行实现(Y.Jia,E.Shelhamer,J.Donahue,S.Karayev,J.Long,R.Girshick,S.Guadarrama,和T.Darrell.Caffe:Convolutional architecture for fast feature embedding.arXiv preprint arXiv:1408.5093,2014)来提取固定长度表示。从隐藏层pool5/7x7s1中提取特征。从每个视频片段的每16个帧中选择一个帧，并将它们馈送到CNN中以获得1024维的逐帧特征矢量。

还使用VGGNet(K.Simonyan和A.Zisserman.Very deep convolutional networksfor large-scale image recognition.CoRR,abs/1409.1556,2014)，其针对ImageNet数据集(A.Krizhevsky,I.Sutskever,和G.E.Hinton.Imagenet classification with deepconvolutional neural networks.In F.Pereira,C.J.C.Burges,L.Bottou,和K.Q.Weinberger,editors,Advances in Neural Information Processing Systems 25,1097–1105页.Curran Associates,Inc.,2012)进行预训练。全连接层fc7的隐藏激活矢量被用于图像特征，其生成4096维特征矢量序列。而且，为了对运动和短期时空活动进行建模，使用预训练的C3D(D.Tran,L.D.Bourdev,R.Fergus,L.Torresani,和M.Paluri.Learning spatiotemporal features with 3d convolutional networks.In2015 IEEE International Conference on Computer Vision,ICCV 2015,Santiago,Chile,December 7-13,2015,4489–4497页,2015)(其针对Sports-1M数据集(A.Karpathy,G.Toderici,S.Shetty,T.Leung,R.Sukthankar,和L.Fei-Fei.Large-scale videoclassification with convolutional neural networks.In Proceedings of the IEEEconference on Computer Vision and Pattern Recognition,1725–1732页,2014)进行预训练)。C3D网络读取视频中的顺序帧，并且每16个帧输出固定长度的特征矢量。从全连接层fc6-1中提取激活矢量，其具有4096维特征。

音频处理

并入音频特征以在根据本公开实施方式的基于注意力的特征融合方法中使用。由于YouTube2Text语料库不包含音轨，因此经由原始视频URL提取音频数据。尽管在YouTube上不再可获得所述视频的子集，但能够收集针对1,649个视频片段的音频数据，其覆盖了84％的语料库。将以44kHz采样的音频数据下采样至16kHz，并且在具有25ms移位的情况下，从每个50ms时间窗提取Mel频率倒谱系数(MFCC)。然后，将13维MFCC特征序列连接成来自每组20个连续帧的一个矢量，得到260维矢量序列。将MFCC特征归一化，使得训练集中的均值矢量和方差矢量为0和1。验证集和测试集也利用训练集的原始均值矢量和方差矢量进行调整。与图像特征不同，为MFCC特征应用BLSTM编码器网络，该网络与解码器网络联合训练。如果视频片段缺少音频数据，则馈送一序列虚设MFCC特征，这只是一序列零矢量。

描述多模态数据的设置

训练字幕生成模型(即，解码器网络)，以利用训练集来最小化交叉熵标准。将图像特征通过512个单元的一个投影层馈送至解码器网络，而将音频特征(即，MFCC)馈送至BLSTM编码器，然后是解码器网络。编码器网络具有512个单元(unit)的一个投影层和512个单元(cell)的双向LSTM层。解码器网络具有512个单元的一个LSTM层。当每个单词被馈送至LSTM层时，该单词被嵌入至256维矢量中。应用AdaDelta优化器(M.D.Zeiler.ADADELTA:anadaptive learning rate method.CoRR,abs/1212.5701,2012)来更新参数，其被广泛用于优化注意力模型。LSTM和注意力模型利用Chainer(S.Tokui,K.Oono,S.Hido,和J.Clayton.Chainer:a next generation open source framework for deeplearning.In Proceedings of Workshop on Machine Learning Systems(Learn-7ingSys)in The Twenty-ninth Annual Conference on Neural Information ProcessingSystems(NIPS),2015)来实现。

基础事实与自动视频描述结果之间的相似性利用机器翻译激励指标评估：BLEU(K.Papineni,S.Roukos,T.Ward,and W.Zhu.Bleu:a method for automatic evaluationof machine translation.In Proceedings of the 40th Annual Meeting of theAssociation for Computational Linguistics,July 6-12,2002,Philadelphia,PA,USA.,pages 311–318,2002)、METEOR(M.J.Denkowski and A.Lavie.Meteor universal:Language specific translation evaluation for any target language.InProceedings of the Ninth Workshop on Statistical Machine Translation,WMT@ACL2014,June 26-27,2014,Baltimore,Maryland,USA,pages 376–380,2014)，以及用于图像描述的其它指标CIDEr(R.Vedantam,C.L.Zitnick,and D.Parikh.Cider:Consensus-basedimage description evaluation.In IEEE Conference on Computer Vision andPattern Recognition,CVPR 2015,Boston,MA,USA,June 7-12,2015,pages 4566–4575,2015)。我们使用了为图像字幕化挑战准备的公开可获的评估脚本(X.Chen,H.Fang,T.Lin,R.Vedantam,S.Gupta,P.Doll′ar,and C.L.Zitnick.Microsoft COCO captions:Datacollection and evaluation server.CoRR,abs/1504.00325,2015)。

评估结果

图8示出了常规方法与根据本公开实施方式的多模态注意力方法关于Youtube2text数据集获得的性能结果的比较。常规方法是简单加性多模态融合(简单多模态)、利用时间注意力的单模态模型(单模态)，并且执行使用时间注意力的基线系统。

表格的前三行使用时间注意力但只有一种模态(一种特征类型)。接下来的两行利用简单多模态融合(参见图6)或我们提出的多模态注意力机制(参见图7)进行两种模态(图像和时空)的多模态融合。接下来的两行也执行多模态融合，这次是三种模态(图像特征、时空特征以及音频特征)。在每一列中，前两种方法的得分以粗体显示。

简单多模态模型比单模态模型表现更好。然而，多模态注意力模型的表现优于简单多模态模型。音频特征劣化了基线的性能，因为一些YouTube数据包括与视频内容无关的诸如背景音乐的噪声。多模态注意力模型减轻了音频特征噪声的影响。此外，使用我们提出的方法组合音频特征在所有实验条件下达到了CIDEr的最佳性能。

因此，多模态注意力模型改进了简单多模态。

图9A至图9C示出了三个示例视频片段，对于其来说，在CIDEr量度中，基于注意力的多模态融合方法(利用VGG和C3D的时间&多模态注意力)的表现优于单模态方法(利用VGG的时间注意力)和简单模态融合方法(利用VGG和C3D的时间注意力)。图9D示出了示例视频片段，对于其来说，包括音频特征的基于注意力的多模态融合方法(时间&多模态注意力)的表现优于单模态方法(利用VGG的时间注意力)，以及在利用音频特征的情况下/没有音频特征的情况下的简单模态融合方法(利用VGG、C3D的时间注意力)。这些示例示出了多模态注意力机制的功效。

在本公开的一些实施方式中，当上述多模态融合模型安装在计算机系统中时，可以用较少的计算功率有效地生成视频脚本，因此使用多模态融合模型方法或系统可以减少中央处理单元的使用和功耗。

而且，根据本公开的实施方式提供了执行多模态融合模型的有效方法，因此利用多模态融合模型的方法和系统的使用可以减少中央处理单元(CPU)的使用、功耗和/或网络带宽使用。

本公开的上述实施方式可以按许多方式中的任一种来实现。例如，这些实施方式可以利用硬件、软件或其组合来实现。当按软件来实现时，软件代码可以在任何合适处理器或处理器集合上执行，而不管设置在单一计算机中还是在多个计算机当中分布。这种处理器可以被实现为集成电路，在集成电路组件中具有一个或更多个处理器。然而，处理器可以利用采用任何合适格式的电路来实现。

而且，在此概述的各种方法或处理可以被编码为可以在采用多种操作系统或平台中的任一种的一个或更多个处理器上执行的软件。另外，这种软件可以利用许多合适编程语言和/或编程或脚本工具中的任一种来编写，而且还可以被编译为在框架或虚拟机上执行的可执行机器语言代码或中间代码。通常情况下，该程序模块的功能可以如在各种实施方式中所希望的组合或分布。

而且，本公开的实施方式可以被具体实施为已经提供了其一实施例的方法。作为该方法的一部分执行的动作可以按任何合适方式来安排。因此，即使在例示性实施方式中被示出为顺序动作，也可以构造按与所例示相比不同的次序来执行动作的实施方式，其可以包括同时执行一些动作。而且，在权利要求书中使用诸如第一、第二的普通术语来修改权利要求部件不独立地暗示一个权利要求部件的任何优先级、优先权，或次序超过执行方法的动作的另一或时间次序，而是仅仅被用作用于区分具有特定名称的一个权利要求部件与具有相同名称(但供普通术语使用)的另一部件的标记，以区分这些权利要求部件。

Claims

1.一种根据多模态输入矢量生成单词序列的系统，该系统包括：

与存储器连接的一个或更多个处理器以及存储指令的一个或更多个存储装置，所述指令在由所述一个或更多个处理器执行时，使所述一个或更多个处理器执行多个操作，所述操作包括：

根据第一顺序间隔和第二顺序间隔接收第一输入矢量和第二输入矢量；

利用第一特征提取器和第二特征提取器，分别从所述第一输入和所述第二输入提取第一特征矢量和第二特征矢量；

根据所述第一特征矢量和所述第二特征矢量以及序列生成器的预前语境矢量，分别估计第一组权重和第二组权重；

根据所述第一组权重和所述第一特征矢量来计算第一内容矢量，并且根据所述第二组权重和所述第二特征矢量来计算第二内容矢量；

将所述第一内容矢量变换成具有预定维度的第一模态内容矢量，并且将所述第二内容矢量变换成具有所述预定维度的第二模态内容矢量；

根据所述预前语境矢量以及所述第一内容矢量和所述第二内容矢量或者所述第一模态内容矢量和所述第二模态内容矢量，估计一组模态注意力权重；

根据所述一组模态注意力权重以及所述第一模态内容矢量和所述第二模态内容矢量，生成具有所述预定维度的加权内容矢量；以及

利用所述序列生成器生成预测单词，以根据所述加权内容矢量生成所述单词序列。

2.根据权利要求1所述的系统，其中，所述第一顺序间隔和所述第二顺序间隔是相同的间隔。

3.根据权利要求1所述的系统，其中，所述第一输入矢量和所述第二输入矢量是不同的模态。

4.根据权利要求1所述的系统，其中，所述操作还包括：

将所述预测单词累积到所述存储器或者所述一个或更多个存储装置中以生成所述单词序列。

5.根据权利要求4所述的系统，其中，持续进行所述累积操作，直到接收到结束标签。

6.根据权利要求1所述的系统，其中，所述操作还包括：

发送从所述序列生成器生成的所述预测单词。

7.根据权利要求1所述的系统，其中，所述第一特征提取器和所述第二特征提取器是已针对图像或视频分类任务进行了训练的预训练卷积神经网络(CNN)。

8.根据权利要求1所述的系统，其中，所述特征提取器是长短期记忆(LSTM)网络。

9.根据权利要求1所述的系统，其中，确定如下的预测单词：在给定了所述加权内容矢量和所述预前语境矢量的情况下，该预测单词在所有可能单词中具有最高概率。

10.根据权利要求1所述的系统，其中，所述序列生成器采用长短期记忆(LSTM)网络。

11.根据权利要求1所述的系统，其中，所述第一输入矢量是经由第一输入/输出(I/O)接口接收的，并且所述第二输入矢量是经由第二I/O接口接收的。

12.一种存储软件的非暂时性计算机可读介质，所述软件包括能够由一个或更多个处理器执行的指令，所述指令在被执行时，使与存储器连接的所述一个或更多个处理器执行多个操作，所述操作包括：

13.根据权利要求12所述的非暂时性计算机可读介质，其中，所述第一顺序间隔和所述第二顺序间隔是相同的间隔。

14.根据权利要求12所述的非暂时性计算机可读介质，其中，所述第一输入矢量和所述第二输入矢量是不同的模态。

15.根据权利要求12所述的非暂时性计算机可读介质，其中，所述操作还包括：

16.根据权利要求15所述的非暂时性计算机可读介质，其中，持续进行所述累积步骤，直到接收到结束标签。

17.根据权利要求12所述的非暂时性计算机可读介质，其中，所述操作还包括：

发送从所述序列生成器生成的所述预测单词。

18.根据权利要求12所述的非暂时性计算机可读介质，其中，所述第一特征提取器和所述第二特征提取器是已针对图像或视频分类任务进行了训练的预训练卷积神经网络(CNN)。

19.一种根据多模态输入生成单词序列的方法，该方法包括以下步骤：

20.根据权利要求19所述的方法，其中，所述第一顺序间隔和所述第二顺序间隔是相同的间隔。