CN110168531A - 用于多模态融合模型的方法和系统 - Google Patents

用于多模态融合模型的方法和系统 Download PDF

Info

Publication number
CN110168531A
CN110168531A CN201780079516.1A CN201780079516A CN110168531A CN 110168531 A CN110168531 A CN 110168531A CN 201780079516 A CN201780079516 A CN 201780079516A CN 110168531 A CN110168531 A CN 110168531A
Authority
CN
China
Prior art keywords
vector
content
feature
input
modality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780079516.1A
Other languages
English (en)
Other versions
CN110168531B (zh
Inventor
堀智织
堀贵明
J·赫尔希
T·马克斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN110168531A publication Critical patent/CN110168531A/zh
Application granted granted Critical
Publication of CN110168531B publication Critical patent/CN110168531B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

一种生成单词序列的系统,该系统包括:与存储器连接的一个或更多个处理器;以及存储指令的一个或更多个存储装置,所述指令导致多个操作,所述操作包括:接收第一输入矢量和第二输入矢量;提取第一特征矢量和第二特征矢量;估计第一组权重和第二组权重;根据所述第一组权重和所述第一特征矢量计算第一内容矢量,并且计算第二内容矢量;将所述第一内容矢量变换成具有预定维度的第一模态内容矢量,并且将所述第二内容矢量变换成具有所述预定维度的第二模态内容矢量;估计一组模态注意力权重;根据所述一组模态注意力权重以及所述第一模态内容矢量和所述第二模态内容矢量,生成具有所述预定维度的加权内容矢量;以及利用所述序列生成器生成预测单词。

Description

用于多模态融合模型的方法和系统
技术领域
本发明总体上涉及用于描述多模态数据的方法和系统,并且,更具体地,涉及用于视频描述的方法和系统。
背景技术
已知为视频字幕的自动化视频描述是指自动生成叙述输入视频的自然语言描述(例如,句子)。视频描述可以是广泛的应用,包括视频检索、家庭电影或在线上传的视频片段的自动描述、针对视障人士的视频描述、监控系统的警告生成以及人机之间的知识共享的场景理解。
视频描述系统从视频数据中提取显著特征,所述特征可以是多模态特征(如表示一些对象的图像特征、表示一些动作的运动特征以及指示一些事件的音频特征),并且生成叙述事件的描述,使得该描述中的词语与那些提取的特征相关并且如自然语言那样恰当地排序。
视频描述中的一个固有问题是视频特征序列与描述中的词语序列不同步。事实上,对象和动作在视频中出现的次序可能不同于它们在句子中出现的次序。在选择正确的词语来描述某事物时,只有直接对应于该对象或动作的特征才是相关的,而其它特征是杂乱的来源。另外,一些事件并不总是能在所有特征中观察到。
发明内容
[技术问题]
因此,需要包含性地或选择性地使用不同的特征来推断描述的每个词语以实现高质量的视频描述。
[问题的解决方案]
本公开的一些实施方式基于根据包括多个模态的输入数据来生成内容矢量。在一些情况下,所述模态可能是音频信号、视频信号(图像信号)以及视频信号中包含的运动信号。
本公开基于根据包括多个模态的输入数据来生成内容矢量的多模态融合系统。在某些情况下,该多模态融合系统接收输入信号(包括图像(视频)信号、运动信号以及音频信号),并生成叙述与输入信号相关的事件的描述。
根据本公开的实施方式,一种根据多模态输入矢量生成单词序列的系统,该系统包括:一个或更多个处理器以及存储指令的一个或更多个存储装置,所述指令能够操作为在由所述一个或更多个处理器执行时,使所述一个或更多个处理器执行多个操作,所述操作包括:根据第一顺序间隔和第二顺序间隔接收第一输入矢量和第二输入矢量;利用第一特征提取器和第二特征提取器,从所述第一输入和所述第二输入分别提取第一特征矢量和第二特征矢量;根据所述第一特征矢量和所述第二特征矢量以及序列生成器的预前(prestep)语境矢量,分别估计第一组权重和第二组权重;根据所述第一组权重和所述第一特征矢量计算第一内容矢量,并且根据所述第二组权重和所述第二特征矢量计算第二内容矢量;将所述第一内容矢量变换成具有预定维度的第一模态内容矢量,并且将所述第二内容矢量变换成具有所述预定维度的第二模态内容矢量;根据所述预前语境矢量以及所述第一内容矢量和所述第二内容矢量或者所述第一模态内容矢量和所述第二模态内容矢量,估计一组模态注意力权重;根据所述一组模态注意力权重以及所述第一模态内容矢量和所述第二模态内容矢量,生成具有所述预定维的加权内容矢量;以及利用所述序列生成器生成预测单词,以根据所述加权内容矢量生成所述单词序列。
而且,本公开的一些实施方式提供了一种存储软件的非暂时性计算机可读介质,该软件包括可通过一个或更多个处理器执行的指令,所述指令在这样执行时,使所述一个或更多个处理器执行多个操作。所述操作包括:根据第一顺序间隔和第二顺序间隔接收第一输入矢量和第二输入矢量;利用第一特征提取器和第二特征提取器,从所述第一输入和所述第二输入分别提取第一特征矢量和第二特征矢量;根据所述第一特征矢量和所述第二特征矢量以及序列生成器的预前语境矢量,分别估计第一组权重和第二组权重;根据所述第一组权重和所述第一特征矢量计算第一内容矢量,并且根据所述第二组权重和所述第二特征矢量计算第二内容矢量;将所述第一内容矢量变换成具有预定维度的第一模态内容矢量,并且将所述第二内容矢量变换成具有所述预定维度的第二模态内容矢量;根据所述预前语境矢量以及所述第一内容矢量和所述第二内容矢量或者所述第一模态内容矢量和所述第二模态内容矢量,估计一组模态注意力权重;根据所述一组模态注意力权重以及所述第一模态内容矢量和所述第二模态内容矢量,生成具有所述预定维度的加权内容矢量;以及利用所述序列生成器生成预测单词,以根据所述加权内容矢量生成所述单词序列。
根据本公开另一实施方式,一种根据多模态输入矢量根据多模态输入矢量生成单词序列的方法,该方法包括以下步骤:根据第一顺序间隔和第二顺序间隔接收第一输入矢量和第二输入矢量;利用第一特征提取器和第二特征提取器,从所述第一输入和所述第二输入分别提取第一特征矢量和第二特征矢量;根据所述第一特征矢量和所述第二特征矢量以及序列生成器的预前语境矢量,分别估计第一组权重和第二组权重;根据所述第一组权重和所述第一特征矢量计算第一内容矢量,并且根据所述第二组权重和所述第二特征矢量计算第二内容矢量;将所述第一内容矢量变换成具有预定维度的第一模态内容矢量,并且将所述第二内容矢量变换成具有所述预定维度的第二模态内容矢量;根据所述预前语境矢量以及所述第一内容矢量和所述第二内容矢量或者所述第一模态内容矢量和所述第二模态内容矢量,估计一组模态注意力权重;根据所述一组模态注意力权重以及所述第一模态内容矢量和所述第二模态内容矢量,生成具有所述预定维度的加权内容矢量;以及利用所述序列生成器生成预测单词,以根据所述加权内容矢量生成所述单词序列。
参照附图,对目前所公开实施方式加以进一步描述。所示附图不必按比例,相反,强调的是,附图通常被置于例示目前所公开实施方式的原理之下。
附图说明
图1是例示根据本公开一些实施方式的多模态融合系统的框图。
图2A是例示根据本公开实施方式的简单多模态方法的框图。
图2B是例示根据本公开实施方式的多模态注意力方法的框图。
图3是例示根据本公开实施方式的基于LSTM的编码器-解码器架构的示例的框图。
图4是例示根据本公开实施方式的根据视频的基于注意力的句子生成器的示例的框图。
图5是例示根据本公开实施方式的根据视频的基于注意力的句子生成器的扩展的框图。
图6是例示根据本公开实施方式的简单特征融合方法(简单多模态方法)的图。
图7是例示根据本公开实施方式的句子生成器的架构的图。
图8示出了通过常规方法获得的性能结果与根据本公开实施方式的多模态注意力方法获得的性能结果的比较。
图9A、图9B、图9C及图9D示出了通过常规方法获得的性能结果与根据本公开实施方式的多模态注意力方法获得的性能结果的比较。
具体实施方式
虽然上面所标识附图阐述了目前公开的实施方式,但也可以设想其它实施方式,如讨论中提到的。本公开通过表述而非限制的方式来呈现例示性实施方式。本领域技术人员可以设计出落入目前所公开实施方式的原理的范围和精神内的许多其它修改例和实施方式。
下面的描述仅提供了示例性实施方式,而非旨在对本公开的范围、适用性,或构造进行限制。相反,示例性实施方式的以下描述将向本领域技术人员提供用于实现一个或更多个示例性实施方式的使能描述。在不脱离如所附权利要求书中阐述的所公开主旨的精神和范围的情况下,设想了可以对部件的功能和排布结构进行的各种改变。
在以下描述中给出具体细节以提供对实施方式的透彻理解。然而,本领域普通技术人员应当明白,这些实施方式可以在不需要这些具体细节的情况下来实践。例如,所公开主旨中的系统、处理以及其它部件可以以框图形式示出为组件,以便在不必要的细节上模糊这些实施方式。在其它情况下,公知的处理、结构,以及技术可以在没有不必要的细节的情况下被示出,以便避免模糊这些实施方式。而且,各个附图中的相同标号和指定表示相同部件。
而且,单独的实施方式可以被描述为被描绘为流程图、程序框图、数据流图、结构图,或框图的处理。尽管流程图可以将操作描述为顺序处理,但许多操作可以并行或同时执行。另外,操作的次序可以重新排列。处理可以在其操作完成时终止,但可以具有图中未讨论或包括的附加步骤。而且,并非任何具体描述处理中的所有操作都可能发生在所有实施方式中。处理可以对应于方法、功能、过程、子例程、子程序等。当一个处理对应一个函数时,该函数的终止可以对应于该函数返回至调用函数或主函数。
而且,所公开主旨的实施方式可以至少部分地、人工或自动实现。可以通过使用机器、硬件、软件、固件、中间件(middleware)、微代码、硬件描述语言,或任何其组合来执行或至少辅助手动或自动实现。当以软件、固件、中间件或微代码实现时,用于执行必要任务的程序代码或代码段可以被存储在机器可读介质中。处理器可以执行必要的任务。
根据本公开的实施方式,一种根据多模态输入矢量生成单词序列的系统,该系统包括:一个或更多个处理器,所述一个或更多个处理器与存储可操作指令的一个或更多个存储装置连接。当所述指令由所述一个或更多个处理器执行时,所述指令使所述一个或更多个处理器执行多个操作,所述操作包括:根据第一顺序间隔和第二顺序间隔接收第一输入矢量和第二输入矢量;利用第一特征提取器和第二特征提取器,分别从第一输入和第二输入提取第一特征矢量和第二特征矢量;根据第一特征矢量和第二特征矢量以及序列生成器的预前语境矢量,分别估计第一组权重和第二组权重;根据第一权重和第一特征矢量计算第一内容矢量,并且根据第二权重和第二特征矢量计算第二内容矢量;将第一内容矢量变换成具有预定维度的第一模态内容矢量,并且将第二内容矢量变换成具有所述预定维度的第二模态内容矢量;根据预前语境矢量以及第一模态内容矢量和第二模态内容矢量,估计一组模态注意力权重;根据该组模态注意力权重以及第一内容矢量和第二内容矢量,生成具有所述预定维度的加权内容矢量;以及利用序列生成器生成预测单词,以根据加权内容矢量来生成单词序列。
在这种情况下,第一模态内容矢量、第二模态内容矢量以及加权内容矢量具有相同的预定维度。这使得该系统可以执行多模态融合模型。换句话说,通过设计或确定所述输入矢量的维度和加权内容矢量的维度以使具有相同维度,那些矢量可以在多模态融合模型的数据处理中容易地处理,因为那些矢量是利用具有相同维度的相同数据格式表达的。由于通过使用被变换成具有相同维度的数据来简化了数据处理,根据本公开实施方式的多模态融合模型方法或系统可以减少用于根据多模态输入矢量来生成单词序列的中央处理单元使用和功耗。
当然,根据系统设计的要求,可以将矢量的数量改变成预定N个矢量。例如,当该预定N被设定为3时,三个输入矢量可以是从经由系统中包括的输入/输出接口接收到的图像数据、视频信号以及音频信号中获取的图像特征、运动特征以及音频特征。
在一些情况下,第一顺序间隔和第二顺序间隔可以是相同的间隔,并且第一矢量和第二矢量可以是不同的模态。
图1示出了根据本公开一些实施方式的多模态融合系统100的框图。多模态融合系统100可以包括具有输入/输出(I/O)接口110的人机接口(HMI),该输入/输出接口110可连接有键盘111和指点装置/介质112、麦克风113、接收器114、发射器115、3D传感器116、全球定位系统(GPS)117、一个或更多个I/O接口118、处理器120、存储装置130、存储器140、可与包括局域网和互联网(未示出)的网络155连接的网络接口控制器150(NIC)、连接至显示装置165的显示接口160、可与成像装置175连接的成像接口170、可与打印装置185连接的打印机接口180。具有I/O接口110的HMI可以包括模拟/数字转换器和数字/模拟转换器。具有I/O接口110的HMI包括可以经由无线互联网连接或无线局域网与其它3D点云显示系统或其它计算机通信的无线通信接口,这使能构建多个3D点云。3D点云系统100可以包括电源190。电源190可以能够经由I/O接口118从外部电源(未示出)再充电的电池。根据应用,电源190可以可选地位于系统100的外部。
HMI和I/O接口110以及I/O接口118可以被构造成连接至包括计算机监视器、摄像机、电视机、投影仪或移动装置等的另一显示装置(未示出)。
多模态融合系统100可以经由连接至NIC 150的网络155接收包括语音数据的电文本/成像文档195。存储装置130包括:序列生成模型131、特征提取模型132以及多模态融合模型200,其中,序列生成模型131、特征提取模型132以及多模态融合模型200这三者的算法作为程序代码数据存储在存储装置130中。模型131至模型132以及模型200这三者的算法可以存储至计算机可读记录介质(未示出),使得处理器120可以通过从所述介质加载该算法来执行模型131至模型132以及模型200这三者的算法。而且,指点装置/介质112可以包括读取和执行存储在计算机可读记录介质上的程序的模块。
为了开始执行模型131-132以及模型200的算法,可以利用键盘111、指点装置/介质112或者经由连接至其它计算机(未示出)的无线网络或网络155,将指令发送给系统100。响应于通过麦克风113接收用户的声信号,利用存储在存储装置130中的预先安装的常规语音识别程序,可以开始模型131-132以及模型200的算法。而且,系统100包括接通/断开开关(未示出)以允许用户开始/停止操作系统100。
HMI和I/O接口110可以包括模数(A/D)转换器、数模(D/A)转换器以及连接网络155的无线信号天线。而且,所述一个或更多个I/O接口118可连接至有线电视(TV)网络或接收TV信号的常规电视(TV)天线。经由接口118接收到的信号可以转换成数字图像和音频信号,所述信号可以根据与处理器120和存储器140连接的模型131-132以及模型200的算法来处理,使得生成视频脚本并且在经由扬声器119输出TV信号中的声音的同时将所述视频脚本与数字图像的图片帧一起显示在显示装置165上。扬声器可以包括在系统100中,或者外部扬声器可以经由接口110或I/O接口118连接。
处理器120可以是包括一个或更多个图形处理单元(GPU)的多个处理器。存储装置130可以包括可识别经由麦克风113获得的语音信号的语音识别算法(未示出)。
多模态融合系统模块200、序列生成模型131以及特征提取模型132可以由神经网络形成。
图2A是例示根据本公开实施方式的简单多模态方法的框图。该简单多模态方法可以由执行存储在存储装置130中的序列生成模型131、特征提取模型132以及多模态融合模型200的程序的处理器120来执行。序列生成模型131、特征提取模型132以及多模态融合模型200可以存储到计算机可读记录介质中,使得该简单多模态方法可以在处理器120加载并执行序列生成模型131、特征提取模型132以及多模态融合模型200的算法时执行。该简单多模态方法与序列生成模型131、特征提取模型132以及多模态融合模型200组合执行。而且,该简单多模态方法使用特征提取器211、221及231(特征提取器1~K)、注意力估计器212、222及232(注意力估计器1~K)、加权和处理器213、223及233(加权和处理器(计算器)1~K)、特征变换模块214、224及234(特征变换模块1~K)、简单和处理器(计算器)240以及序列生成器250。
图2B是例示根据本公开实施方式的多模态注意力方法的框图。除了特征提取器1~K、注意力估计器1~K、加权和处理器1~K、特征变换模块1~K以及序列生成器250以外,多模态注意力方法还包括模态注意力估计器255和加权和处理器245,而不使用简单和处理器240。该多模态注意力方法与序列生成模型131、特征提取模型132以及多模态融合模型200组合执行。在这两种方法中,序列生成模型131提供序列生成器250,并且特征提取模型132提供特征提取器1~K。而且,特征变换模块1~K、模态注意力估计器255、加权和处理器1~K以及加权和处理器245可以由多模态融合模型200提供。
假定多模态视频数据包括K个模态,其中K≥2并且一些模态可以相同,利用针对该数据的特征提取器211、注意力估计器212以及加权和处理器213将模态-1数据转换成固定维度内容矢量,其中,特征提取器211从该数据中提取多个特征矢量,注意力估计器212估计提取的各个特征矢量的各个权重,并且加权和处理器213输出(生成)利用所估计的权重被计算为所提取的特征矢量的加权和的内容矢量。利用针对该数据的特征提取器221、注意力估计器222以及加权和处理器223将模态-2数据转换成固定维度内容矢量。直到模态-K数据,获得K个固定维度内容矢量,其中,将特征提取器231、注意力估计器232以及加权和处理器233用于模态-K数据。模态-1、模态-2、…、模态-K数据中的每一个可以是具有间隔的按时间顺序排序的顺序数据或者是按具有预定时间间隔的其它预定次序的顺序数据。
然后,通过各个特征变换模块214、224以及234将K个内容矢量中的每一个变换(转换)成N维矢量,并且获得K个变换的N维矢量,其中,N是预定义正整数。
在图2A的简单多模态方法中,将K个变换的N维矢量求和成单个N维内容矢量,而在图2B的多模态注意力方法中,利用模态注意力估计器255和加权和处理器245将这些矢量转换成单个N维内容矢量,其中模态注意力估计器255估计各个变换的N维矢量的各个权重,并且加权和处理器245输出(生成)利用所估计的权重计算为该K个变换的N维矢量的加权和的N维内容矢量。
序列生成器250接收单个N维内容矢量,并预测与描述视频数据的句子中的单词相对应的一个标签。为了预测下一个单词,序列生成器250将该句子的语境信息(如表示先前生成的单词的矢量)提供给注意力估计器212、222、232以及模态注意力估计器255,以估计注意力权重从而获得恰当的内容矢量。该矢量可以被称为预前(pre-step或prestep)语境矢量。
序列生成器250从句首记号“<sos>”开始预测下一个单词,并且通过迭代地预测下一个单词(预测单词)直到预测对应于“句尾”的特殊符号“<eos>”来生成一个或多个描述性句子。换句话说,序列生成器250根据多模态输入矢量生成单词序列。在一些情况下,可以经由诸如HMI和I/O接口110或者一个或更多个I/O接口118之类的不同输入/输出接口来接收多模态输入矢量。
在每个生成处理中,生成的预测单词在从加权内容矢量和预前语境矢量给出的所有可能单词中具有最高概率。而且,该预测单词可以被累积到存储器140、存储装置130或更多存储装置(未示出)中以生成单词序列,并且可以继续该累积处理,直到接收到所述特殊符号(序列结束)。系统100可以经由NIC 150和网络155、HMI和I/O接口110或者一个或更多个I/O接口118发送从序列生成器250生成的预测单词,使得预测单词的数据可以用于其它计算机195或其它输出装置(未示出)。
当K内容矢量中的每一个来自不同的模态数据和/或通过不同的特征提取器时,利用K个变换的矢量的加权和的模态或特征融合使得能够通过根据句子的语境信息注意不同模态和/或不同特征来更好地预测每个单词。因此,该多模态注意力方法可以利用不同模态或特征上的注意力权重来包含性地或选择性地利用不同的特征,从而推断该描述的每个单词。
而且,系统100中的多模态融合模型200包括数据分发模块(未示出),给数据分发模块经由I/O接口110或118接收多个时间顺序数据,并将所接收的数据分发成模态-1数据、模态-2数据、…、模态-K数据,根据一个或多个预定间隔划分所分发的每个时间顺序数据,然后将模态-1数据、模态-2数据、…、模态-K数据分别提供给特征提取器1~K。
在一些情况下,所述多个时间顺序数据可以是视频片段中包括的视频信号和音频信号。当该视频片段被用于模态数据时,系统100使用图2B中的特征提取器211、221以及231(设定K=3)。该视频片段经由I/O接口110或118提供给系统100中的特征提取器211、221以及231。特征提取器211、221以及231可以从该视频片段中分别提取图像数据、音频数据以及运动数据,作为模态-1数据、模态-2数据以及模态-3(例如,图2B中的K=3)。在这种情况下,特征提取器211、221和231根据第一间隔、第二间隔以及第三间隔,从该视频片段的数据流分别接收模态-1数据、模态-2数据以及模态-3。
在一些情况下,当可以利用不同的时间间隔来捕获图像特征、运动特征或音频特征时,数据分发模块可以分别以预定的不同时间间隔来划分多个时间顺序数据。
基于编码器-解码器的句子生成器
用于视频描述的方法可以基于序列到序列学习。首先将输入序列(即,图像序列)编码成固定维度语义矢量。然后,根据语义矢量生成输出序列,即,单词序列。在此情况下,编码器和解码器(或生成器)两者通常被建模为长短期记忆(LSTM)网络。
图3示出了基于LSTM的编码器-解码器架构的示例。给定序列图像X=x1,x2,…,xL,每个图像首先被馈送至特征提取器,特征提取器可以是用于图像或视频分类任务的预训练卷积神经网络(CNN),自然如GoogLeNet、VGGNet或C3D。该图像特征序列X’=x’1,x’2,…,x’L是通过为每个输入图像提取CNN的全连接层的激活矢量来获得的。然后将该特征矢量序列馈送至LSTM编码器,并且LSTM的隐藏状态由下式给出
ht=LSTM(ht-1,x′t;λE), (1)
其中,编码器网络λE的LSTM函数被计算为
LSTM(ht-1,xt;λ)=ot tanh(ct), (2)
其中,
其中,σ()是逐元素方式的sigmoid函数,并且it、ft、to以及ct分别是第t个输入矢量的输入门(input gate)矢量、忘记门(forget gate)矢量、输出门(output gate)矢量以及单元激活矢量。权重矩阵Wzz (λ)和偏置矢量bZ (λ)由下标z∈{x,h,i,f,o,c}标识。例如,Whi是隐藏输入门矩阵,并且Wxo是输入-输出门矩阵。在该过程中不使用窥孔连接(Peepholeconnection)。
解码器从句首记号“<sos>”开始迭代地预测下一个单词,直到其预测句尾记号“<eos>”。句首记号可以被称为开始标签,并且句尾记号可以被称为结束标签。
给定解码器状态si-1,解码器网络λD将下一单词概率分布推断为
并根据下式生成具有最高概率的单词yi
其中,V指示词汇表。利用解码器的LSTM网络将解码器状态更新为
si=LSTM(si-1,y′i;λD), (9)
其中,y’i是ym的单词嵌入矢量,并且初始状态s0根据最终编码器状态hL和y’0=Embed(<sos>)获得,如图3中所示。
在训练阶段,给出Y=y1,…,yM作为参考。然而,在测试阶段,需要基于下式找到最佳单词序列
P(yM|sM-1)P(<eos>|sM). (11)
因此,可以将测试阶段中的波束搜索用于在每第m个步骤保持多个状态和具有最高累积概率的假设,并且从已到达句尾记号的那些中选择最佳假设。
基于注意力的句子生成器
用于视频描述的另一方法可以是基于注意力的序列生成器,其使得网络能够根据当前语境强调来自特定时间或空间区域的特征,使得能够更准确地预测下一个单词。与上述基本方法相比,基于注意力的生成器可以根据输入语境和输出语境来选择性地利用输入特征。注意力模型的功效已经在诸如机器翻译的许多任务中显示出来。
图4是例示根据视频的基于注意力的句子生成器的示例的框图,其具有针对输入图像序列的时间注意力机制。该输入图像序列可以是具有预定时间间隔的时间顺序次序。该输入的特征矢量序列是利用一个或更多个特征提取器获得的。在这种情况下,基于注意力的生成器可以采用基于双向LSTM(BLSTM)或门控递归单元(GRU)的编码器来进一步转换图5中的特征矢量序列,使得每个矢量都包含其语境信息。
然而,在视频描述任务中,可以直接使用基于CNN的特征,或者可以添加一个或更多个前馈层以减少维数。
如果在如图5中的特征提取之后使用BLSTM编码器,那么可以获得激活矢量(即,编码器状态)为
其中,ht (f)和ht (b)是前向和后向隐藏的激活矢量:
如果使用前馈层,那么激活矢量被计算为
ht=tanh(Wpx′t+bp), (15)
其中,Wp是权重矩阵,并且bp是偏差矢量。而且,如果直接使用CNN特征,那么将其假设为ht=xt
通过在输入序列中从始至终对隐藏激活矢量使用注意力权重,实现注意力机制。这些权重使网络能够强调来自对预测下一个输出单词最重要的那些时间步的特征。
设αi,t为第i个输出单词与第t个输入特征矢量之间的注意力权重。对于第i个输出,获得表示输入序列的相关内容的矢量作为隐藏单元激活矢量的加权和:
解码器网络是基于注意力的递归序列生成器(ARSG),其生成具有内容矢量ci的输出标签序列。该网络还具有LSTM解码器网络,其中,解码器状态可以按与方程(9)相同的方式更新。
然后,输出标签概率被计算为
并且单词yi根据下式生成
与基本编码器-解码器的方程(7)和方程(8)相反,概率分布以内容矢量ci为条件,其强调与预测每个后续单词最相关的特定特征。可以在softmax层之前插入一个或更多个前馈层。在这种情况下,该概率计算如下:
并且
注意力权重可以被计算为
并且
其中,WA和VA是矩阵,wA和bA是矢量,并且ei,t是标量。
基于注意力的多模态融合
本公开实施方式提供了处理多模态融合的注意力模型,其中,每个模态都有其自己的特征矢量序列。对于视频描述,可用诸如图像特征、运动特征以及音频特征的多模态输入。而且,来自不同特征提取方法的多个特征的组合通常对提高描述准确度是有效的。
在一些情况下,来自VGGNet(图像特征)和C3D(时空运动特征)的内容矢量可以被组合成一个矢量,该矢量被用于预测下一个单词。这可以在融合层中执行。设K是模态的数量,即,输入特征矢量序列的数量,代替方程(19),计算以下激活矢量
其中,
并且ck,i是对应于第k个特征提取器或模态的第k个内容矢量。
图6示出了假设K=2的简单特征融合方法(简单多模态方法),其中,内容矢量是分别利用针对各个输入序列x11,…,x1L和x21’,…,x2L’的注意力权重获得的。然而,这些内容矢量与权重矩阵Wc1和Wc2组合,它们通常被用于句子生成步骤。从而,来自各个特征类型(或一种模态)的内容矢量总是利用相同的权重进行融合的,而与解码器状态无关。该架构可以引入有效地利用多种类型的特征的能力,以允许各个特征类型(每个模态)的相对权重基于语境而改变。
根据本公开的实施方式,注意力机制可以扩展至多模态融合。利用多模态注意力机制,基于当前解码器状态,解码器网络可以选择性地注意输入的特定模态(或特定特征类型)以预测下一个单词。根据本公开实施方式的基于注意力的特征融合可以利用下式来执行
其中,
多模态注意力权重βk,i按与时间注意力机制类似的方式获得:
其中,
其中,WB和VBk是矩阵,wB和bBk是矢量,并且vk,i是标量。
图7示出了根据本公开实施方式的句子生成器的架构,包括多模态注意力机制。与图6中的简单多模态融合方法不同,在图7中,特征级注意力权重可以根据解码器状态和内容矢量而改变,这使得解码器网络在预测描述中的每个后续单词时能够注意不同组的特征和/或模态。
用于评估的数据集
下面描述了一些实验结果,用于利用Youtube2Text视频语料库来讨论根据本公开实施方式的特征融合。该语料库非常适合于训练和评估自动视频描述生成模型。该数据集具有1970个视频片段,这些视频片段具有多种自然语言描述。每个视频片段都注释了由不同的Mechanical Turkers提供的多个并行句子。总共存在80,839个句子,其中每个片段约有41个带注释句子。每个句子平均包含大约8个单词。所有句子中包含的单词构成了具有13,010个独特词汇条目的词汇表。该数据集是开放域的,并且涵盖了广泛的主题,包括体育、动物以及音乐。该数据集被拆分成具有1,200个视频片段的训练集,具有100个片段的验证集以及由剩余670个片段组成的测试集。
视频预处理
从每个视频片段提取图像数据,其包括每秒24帧,并且重新缩放成224x224像素图像。为了提取图像特征,使用预训练的GoogLeNet CNN(M.Lin,Q.Chen,and S.Yan.Networkin network.CoRR,abs/1312.4400,2013),借助于Caffe的流行实现(Y.Jia,E.Shelhamer,J.Donahue,S.Karayev,J.Long,R.Girshick,S.Guadarrama,和T.Darrell.Caffe:Convolutional architecture for fast feature embedding.arXiv preprint arXiv:1408.5093,2014)来提取固定长度表示。从隐藏层pool5/7x7s1中提取特征。从每个视频片段的每16个帧中选择一个帧,并将它们馈送到CNN中以获得1024维的逐帧特征矢量。
还使用VGGNet(K.Simonyan和A.Zisserman.Very deep convolutional networksfor large-scale image recognition.CoRR,abs/1409.1556,2014),其针对ImageNet数据集(A.Krizhevsky,I.Sutskever,和G.E.Hinton.Imagenet classification with deepconvolutional neural networks.In F.Pereira,C.J.C.Burges,L.Bottou,和K.Q.Weinberger,editors,Advances in Neural Information Processing Systems 25,1097–1105页.Curran Associates,Inc.,2012)进行预训练。全连接层fc7的隐藏激活矢量被用于图像特征,其生成4096维特征矢量序列。而且,为了对运动和短期时空活动进行建模,使用预训练的C3D(D.Tran,L.D.Bourdev,R.Fergus,L.Torresani,和M.Paluri.Learning spatiotemporal features with 3d convolutional networks.In2015 IEEE International Conference on Computer Vision,ICCV 2015,Santiago,Chile,December 7-13,2015,4489–4497页,2015)(其针对Sports-1M数据集(A.Karpathy,G.Toderici,S.Shetty,T.Leung,R.Sukthankar,和L.Fei-Fei.Large-scale videoclassification with convolutional neural networks.In Proceedings of the IEEEconference on Computer Vision and Pattern Recognition,1725–1732页,2014)进行预训练)。C3D网络读取视频中的顺序帧,并且每16个帧输出固定长度的特征矢量。从全连接层fc6-1中提取激活矢量,其具有4096维特征。
音频处理
并入音频特征以在根据本公开实施方式的基于注意力的特征融合方法中使用。由于YouTube2Text语料库不包含音轨,因此经由原始视频URL提取音频数据。尽管在YouTube上不再可获得所述视频的子集,但能够收集针对1,649个视频片段的音频数据,其覆盖了84%的语料库。将以44kHz采样的音频数据下采样至16kHz,并且在具有25ms移位的情况下,从每个50ms时间窗提取Mel频率倒谱系数(MFCC)。然后,将13维MFCC特征序列连接成来自每组20个连续帧的一个矢量,得到260维矢量序列。将MFCC特征归一化,使得训练集中的均值矢量和方差矢量为0和1。验证集和测试集也利用训练集的原始均值矢量和方差矢量进行调整。与图像特征不同,为MFCC特征应用BLSTM编码器网络,该网络与解码器网络联合训练。如果视频片段缺少音频数据,则馈送一序列虚设MFCC特征,这只是一序列零矢量。
描述多模态数据的设置
训练字幕生成模型(即,解码器网络),以利用训练集来最小化交叉熵标准。将图像特征通过512个单元的一个投影层馈送至解码器网络,而将音频特征(即,MFCC)馈送至BLSTM编码器,然后是解码器网络。编码器网络具有512个单元(unit)的一个投影层和512个单元(cell)的双向LSTM层。解码器网络具有512个单元的一个LSTM层。当每个单词被馈送至LSTM层时,该单词被嵌入至256维矢量中。应用AdaDelta优化器(M.D.Zeiler.ADADELTA:anadaptive learning rate method.CoRR,abs/1212.5701,2012)来更新参数,其被广泛用于优化注意力模型。LSTM和注意力模型利用Chainer(S.Tokui,K.Oono,S.Hido,和J.Clayton.Chainer:a next generation open source framework for deeplearning.In Proceedings of Workshop on Machine Learning Systems(Learn-7ingSys)in The Twenty-ninth Annual Conference on Neural Information ProcessingSystems(NIPS),2015)来实现。
基础事实与自动视频描述结果之间的相似性利用机器翻译激励指标评估:BLEU(K.Papineni,S.Roukos,T.Ward,and W.Zhu.Bleu:a method for automatic evaluationof machine translation.In Proceedings of the 40th Annual Meeting of theAssociation for Computational Linguistics,July 6-12,2002,Philadelphia,PA,USA.,pages 311–318,2002)、METEOR(M.J.Denkowski and A.Lavie.Meteor universal:Language specific translation evaluation for any target language.InProceedings of the Ninth Workshop on Statistical Machine Translation,WMT@ACL2014,June 26-27,2014,Baltimore,Maryland,USA,pages 376–380,2014),以及用于图像描述的其它指标CIDEr(R.Vedantam,C.L.Zitnick,and D.Parikh.Cider:Consensus-basedimage description evaluation.In IEEE Conference on Computer Vision andPattern Recognition,CVPR 2015,Boston,MA,USA,June 7-12,2015,pages 4566–4575,2015)。我们使用了为图像字幕化挑战准备的公开可获的评估脚本(X.Chen,H.Fang,T.Lin,R.Vedantam,S.Gupta,P.Doll′ar,and C.L.Zitnick.Microsoft COCO captions:Datacollection and evaluation server.CoRR,abs/1504.00325,2015)。
评估结果
图8示出了常规方法与根据本公开实施方式的多模态注意力方法关于Youtube2text数据集获得的性能结果的比较。常规方法是简单加性多模态融合(简单多模态)、利用时间注意力的单模态模型(单模态),并且执行使用时间注意力的基线系统。
表格的前三行使用时间注意力但只有一种模态(一种特征类型)。接下来的两行利用简单多模态融合(参见图6)或我们提出的多模态注意力机制(参见图7)进行两种模态(图像和时空)的多模态融合。接下来的两行也执行多模态融合,这次是三种模态(图像特征、时空特征以及音频特征)。在每一列中,前两种方法的得分以粗体显示。
简单多模态模型比单模态模型表现更好。然而,多模态注意力模型的表现优于简单多模态模型。音频特征劣化了基线的性能,因为一些YouTube数据包括与视频内容无关的诸如背景音乐的噪声。多模态注意力模型减轻了音频特征噪声的影响。此外,使用我们提出的方法组合音频特征在所有实验条件下达到了CIDEr的最佳性能。
因此,多模态注意力模型改进了简单多模态。
图9A、图9B、图9C及图9D示出了通过常规方法获得的性能结果与根据本公开实施方式的多模态注意力方法获得的性能结果的比较。
图9A至图9C示出了三个示例视频片段,对于其来说,在CIDEr量度中,基于注意力的多模态融合方法(利用VGG和C3D的时间&多模态注意力)的表现优于单模态方法(利用VGG的时间注意力)和简单模态融合方法(利用VGG和C3D的时间注意力)。图9D示出了示例视频片段,对于其来说,包括音频特征的基于注意力的多模态融合方法(时间&多模态注意力)的表现优于单模态方法(利用VGG的时间注意力),以及在利用音频特征的情况下/没有音频特征的情况下的简单模态融合方法(利用VGG、C3D的时间注意力)。这些示例示出了多模态注意力机制的功效。
在本公开的一些实施方式中,当上述多模态融合模型安装在计算机系统中时,可以用较少的计算功率有效地生成视频脚本,因此使用多模态融合模型方法或系统可以减少中央处理单元的使用和功耗。
而且,根据本公开的实施方式提供了执行多模态融合模型的有效方法,因此利用多模态融合模型的方法和系统的使用可以减少中央处理单元(CPU)的使用、功耗和/或网络带宽使用。
本公开的上述实施方式可以按许多方式中的任一种来实现。例如,这些实施方式可以利用硬件、软件或其组合来实现。当按软件来实现时,软件代码可以在任何合适处理器或处理器集合上执行,而不管设置在单一计算机中还是在多个计算机当中分布。这种处理器可以被实现为集成电路,在集成电路组件中具有一个或更多个处理器。然而,处理器可以利用采用任何合适格式的电路来实现。
而且,在此概述的各种方法或处理可以被编码为可以在采用多种操作系统或平台中的任一种的一个或更多个处理器上执行的软件。另外,这种软件可以利用许多合适编程语言和/或编程或脚本工具中的任一种来编写,而且还可以被编译为在框架或虚拟机上执行的可执行机器语言代码或中间代码。通常情况下,该程序模块的功能可以如在各种实施方式中所希望的组合或分布。
而且,本公开的实施方式可以被具体实施为已经提供了其一实施例的方法。作为该方法的一部分执行的动作可以按任何合适方式来安排。因此,即使在例示性实施方式中被示出为顺序动作,也可以构造按与所例示相比不同的次序来执行动作的实施方式,其可以包括同时执行一些动作。而且,在权利要求书中使用诸如第一、第二的普通术语来修改权利要求部件不独立地暗示一个权利要求部件的任何优先级、优先权,或次序超过执行方法的动作的另一或时间次序,而是仅仅被用作用于区分具有特定名称的一个权利要求部件与具有相同名称(但供普通术语使用)的另一部件的标记,以区分这些权利要求部件。

Claims (20)

1.一种根据多模态输入矢量生成单词序列的系统,该系统包括:
与存储器连接的一个或更多个处理器以及存储指令的一个或更多个存储装置,所述指令在由所述一个或更多个处理器执行时,使所述一个或更多个处理器执行多个操作,所述操作包括:
根据第一顺序间隔和第二顺序间隔接收第一输入矢量和第二输入矢量;
利用第一特征提取器和第二特征提取器,分别从所述第一输入和所述第二输入提取第一特征矢量和第二特征矢量;
根据所述第一特征矢量和所述第二特征矢量以及序列生成器的预前语境矢量,分别估计第一组权重和第二组权重;
根据所述第一组权重和所述第一特征矢量来计算第一内容矢量,并且根据所述第二组权重和所述第二特征矢量来计算第二内容矢量;
将所述第一内容矢量变换成具有预定维度的第一模态内容矢量,并且将所述第二内容矢量变换成具有所述预定维度的第二模态内容矢量;
根据所述预前语境矢量以及所述第一内容矢量和所述第二内容矢量或者所述第一模态内容矢量和所述第二模态内容矢量,估计一组模态注意力权重;
根据所述一组模态注意力权重以及所述第一模态内容矢量和所述第二模态内容矢量,生成具有所述预定维度的加权内容矢量;以及
利用所述序列生成器生成预测单词,以根据所述加权内容矢量生成所述单词序列。
2.根据权利要求1所述的系统,其中,所述第一顺序间隔和所述第二顺序间隔是相同的间隔。
3.根据权利要求1所述的系统,其中,所述第一输入矢量和所述第二输入矢量是不同的模态。
4.根据权利要求1所述的系统,其中,所述操作还包括:
将所述预测单词累积到所述存储器或者所述一个或更多个存储装置中以生成所述单词序列。
5.根据权利要求4所述的系统,其中,持续进行所述累积操作,直到接收到结束标签。
6.根据权利要求1所述的系统,其中,所述操作还包括:
发送从所述序列生成器生成的所述预测单词。
7.根据权利要求1所述的系统,其中,所述第一特征提取器和所述第二特征提取器是已针对图像或视频分类任务进行了训练的预训练卷积神经网络(CNN)。
8.根据权利要求1所述的系统,其中,所述特征提取器是长短期记忆(LSTM)网络。
9.根据权利要求1所述的系统,其中,确定如下的预测单词:在给定了所述加权内容矢量和所述预前语境矢量的情况下,该预测单词在所有可能单词中具有最高概率。
10.根据权利要求1所述的系统,其中,所述序列生成器采用长短期记忆(LSTM)网络。
11.根据权利要求1所述的系统,其中,所述第一输入矢量是经由第一输入/输出(I/O)接口接收的,并且所述第二输入矢量是经由第二I/O接口接收的。
12.一种存储软件的非暂时性计算机可读介质,所述软件包括能够由一个或更多个处理器执行的指令,所述指令在被执行时,使与存储器连接的所述一个或更多个处理器执行多个操作,所述操作包括:
根据第一顺序间隔和第二顺序间隔接收第一输入矢量和第二输入矢量;
利用第一特征提取器和第二特征提取器,分别从所述第一输入和所述第二输入提取第一特征矢量和第二特征矢量;
根据所述第一特征矢量和所述第二特征矢量以及序列生成器的预前语境矢量,分别估计第一组权重和第二组权重;
根据所述第一组权重和所述第一特征矢量来计算第一内容矢量,并且根据所述第二组权重和所述第二特征矢量来计算第二内容矢量;
将所述第一内容矢量变换成具有预定维度的第一模态内容矢量,并且将所述第二内容矢量变换成具有所述预定维度的第二模态内容矢量;
根据所述预前语境矢量以及所述第一内容矢量和所述第二内容矢量或者所述第一模态内容矢量和所述第二模态内容矢量,估计一组模态注意力权重;
根据所述一组模态注意力权重以及所述第一模态内容矢量和所述第二模态内容矢量,生成具有所述预定维度的加权内容矢量;以及
利用所述序列生成器生成预测单词,以根据所述加权内容矢量生成所述单词序列。
13.根据权利要求12所述的非暂时性计算机可读介质,其中,所述第一顺序间隔和所述第二顺序间隔是相同的间隔。
14.根据权利要求12所述的非暂时性计算机可读介质,其中,所述第一输入矢量和所述第二输入矢量是不同的模态。
15.根据权利要求12所述的非暂时性计算机可读介质,其中,所述操作还包括:
将所述预测单词累积到所述存储器或者所述一个或更多个存储装置中以生成所述单词序列。
16.根据权利要求15所述的非暂时性计算机可读介质,其中,持续进行所述累积步骤,直到接收到结束标签。
17.根据权利要求12所述的非暂时性计算机可读介质,其中,所述操作还包括:
发送从所述序列生成器生成的所述预测单词。
18.根据权利要求12所述的非暂时性计算机可读介质,其中,所述第一特征提取器和所述第二特征提取器是已针对图像或视频分类任务进行了训练的预训练卷积神经网络(CNN)。
19.一种根据多模态输入生成单词序列的方法,该方法包括以下步骤:
根据第一顺序间隔和第二顺序间隔接收第一输入矢量和第二输入矢量;
利用第一特征提取器和第二特征提取器,分别从所述第一输入和所述第二输入提取第一特征矢量和第二特征矢量;
根据所述第一特征矢量和所述第二特征矢量以及序列生成器的预前语境矢量,分别估计第一组权重和第二组权重;
根据所述第一组权重和所述第一特征矢量来计算第一内容矢量,并且根据所述第二组权重和所述第二特征矢量来计算第二内容矢量;
将所述第一内容矢量变换成具有预定维度的第一模态内容矢量,并且将所述第二内容矢量变换成具有所述预定维度的第二模态内容矢量;
根据所述预前语境矢量以及所述第一内容矢量和所述第二内容矢量或者所述第一模态内容矢量和所述第二模态内容矢量,估计一组模态注意力权重;
根据所述一组模态注意力权重以及所述第一模态内容矢量和所述第二模态内容矢量,生成具有所述预定维度的加权内容矢量;以及
利用所述序列生成器生成预测单词,以根据所述加权内容矢量生成所述单词序列。
20.根据权利要求19所述的方法,其中,所述第一顺序间隔和所述第二顺序间隔是相同的间隔。
CN201780079516.1A 2016-12-30 2017-12-25 用于多模态融合模型的方法和系统 Active CN110168531B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662440433P 2016-12-30 2016-12-30
US62/440,433 2016-12-30
US15/472,797 US10417498B2 (en) 2016-12-30 2017-03-29 Method and system for multi-modal fusion model
US15/472,797 2017-03-29
PCT/JP2017/047417 WO2018124309A1 (en) 2016-12-30 2017-12-25 Method and system for multi-modal fusion model

Publications (2)

Publication Number Publication Date
CN110168531A true CN110168531A (zh) 2019-08-23
CN110168531B CN110168531B (zh) 2023-06-20

Family

ID=61094562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780079516.1A Active CN110168531B (zh) 2016-12-30 2017-12-25 用于多模态融合模型的方法和系统

Country Status (5)

Country Link
US (1) US10417498B2 (zh)
JP (1) JP6719663B2 (zh)
CN (1) CN110168531B (zh)
DE (1) DE112017006685T5 (zh)
WO (1) WO2018124309A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110473529A (zh) * 2019-09-09 2019-11-19 极限元(杭州)智能科技股份有限公司 一种基于自注意力机制的流式语音转写系统
CN111274372A (zh) * 2020-01-15 2020-06-12 上海浦东发展银行股份有限公司 用于人机交互的方法、电子设备和计算机可读存储介质
CN112000818A (zh) * 2020-07-10 2020-11-27 中国科学院信息工程研究所 一种面向文本和图像的跨媒体检索方法及电子装置
CN113139121A (zh) * 2020-01-20 2021-07-20 阿里巴巴集团控股有限公司 查询方法、模型训练方法、装置、设备及存储介质
CN113360514A (zh) * 2021-07-02 2021-09-07 支付宝(杭州)信息技术有限公司 联合更新模型的方法、装置及系统
CN113986005A (zh) * 2021-10-13 2022-01-28 电子科技大学 基于集成学习的多模态融合视线估计框架
CN117789099A (zh) * 2024-02-26 2024-03-29 北京搜狐新媒体信息技术有限公司 视频特征提取方法及装置、存储介质及电子设备

Families Citing this family (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10366292B2 (en) * 2016-11-03 2019-07-30 Nec Corporation Translating video to language using adaptive spatiotemporal convolution feature representation with dynamic abstraction
EP3566182A1 (en) * 2017-02-06 2019-11-13 Deepmind Technologies Limited Memory augmented generative temporal models
US12106214B2 (en) * 2017-05-17 2024-10-01 Samsung Electronics Co., Ltd. Sensor transformation attention network (STAN) model
US10902738B2 (en) * 2017-08-03 2021-01-26 Microsoft Technology Licensing, Llc Neural models for key phrase detection and question generation
US11475254B1 (en) * 2017-09-08 2022-10-18 Snap Inc. Multimodal entity identification
US11170508B2 (en) * 2018-01-03 2021-11-09 Ramot At Tel-Aviv University Ltd. Systems and methods for the segmentation of multi-modal image data
CN108875708A (zh) * 2018-07-18 2018-11-23 广东工业大学 基于视频的行为分析方法、装置、设备、系统及存储介质
CN110851641B (zh) * 2018-08-01 2022-09-16 杭州海康威视数字技术股份有限公司 跨模态检索方法、装置和可读存储介质
CN110858232B (zh) * 2018-08-09 2024-03-29 阿里巴巴集团控股有限公司 搜索方法、设备、系统及存储介质
US11010559B2 (en) * 2018-08-30 2021-05-18 International Business Machines Corporation Multi-aspect sentiment analysis by collaborative attention allocation
US20200134398A1 (en) * 2018-10-29 2020-04-30 Sri International Determining intent from multimodal content embedded in a common geometric space
CN109871736B (zh) * 2018-11-23 2023-01-31 腾讯科技(深圳)有限公司 自然语言描述信息的生成方法及装置
CN110162799B (zh) * 2018-11-28 2023-08-04 腾讯科技(深圳)有限公司 模型训练方法、机器翻译方法以及相关装置和设备
CN109543824B (zh) * 2018-11-30 2023-05-23 腾讯科技(深圳)有限公司 一种序列模型的处理方法和装置
JP7206898B2 (ja) * 2018-12-25 2023-01-18 富士通株式会社 学習装置、学習方法および学習プログラム
CN110020596B (zh) * 2019-02-21 2021-04-30 北京大学 一种基于特征融合和级联学习的视频内容定位方法
CN111640424B (zh) * 2019-03-01 2024-02-13 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN109960747B (zh) * 2019-04-02 2022-12-16 腾讯科技(深圳)有限公司 视频描述信息的生成方法、视频处理方法、相应的装置
CN110163091B (zh) * 2019-04-13 2023-05-26 天津大学 基于lstm网络多模态信息融合的三维模型检索方法
US10885345B2 (en) * 2019-04-29 2021-01-05 Tencent America LLC End-to-end video captioning with multi-task reinforcement learning
EP3767332B1 (en) * 2019-07-18 2023-12-13 Aptiv Technologies Limited Methods and systems for radar object detection
CN110503636B (zh) * 2019-08-06 2024-01-26 腾讯医疗健康(深圳)有限公司 参数调整方法、病灶预测方法、参数调整装置及电子设备
CN110557447B (zh) * 2019-08-26 2022-06-10 腾讯科技(武汉)有限公司 一种用户行为识别方法、装置及存储介质和服务器
US11264009B2 (en) * 2019-09-13 2022-03-01 Mitsubishi Electric Research Laboratories, Inc. System and method for a dialogue response generation system
CN110826397B (zh) * 2019-09-20 2022-07-26 浙江大学 一种基于高阶低秩多模态注意力机制的视频描述方法
CN112651417B (zh) * 2019-10-12 2024-06-14 杭州海康威视数字技术股份有限公司 车牌识别方法、装置、设备及存储介质
US11270123B2 (en) * 2019-10-22 2022-03-08 Palo Alto Research Center Incorporated System and method for generating localized contextual video annotation
WO2021095211A1 (ja) * 2019-11-14 2021-05-20 富士通株式会社 出力方法、出力プログラム、および出力装置
US10699129B1 (en) * 2019-11-15 2020-06-30 Fudan University System and method for video captioning
CN110866509B (zh) 2019-11-20 2023-04-28 腾讯科技(深圳)有限公司 动作识别方法、装置、计算机存储介质和计算机设备
CN111160350B (zh) * 2019-12-23 2023-05-16 Oppo广东移动通信有限公司 人像分割方法、模型训练方法、装置、介质及电子设备
CN111275085B (zh) * 2020-01-15 2022-09-13 重庆邮电大学 基于注意力融合的在线短视频多模态情感识别方法
CN111274440B (zh) * 2020-01-19 2022-03-25 浙江工商大学 一种基于视觉和音频内容相关度挖掘的视频推荐方法
CN111291804A (zh) * 2020-01-22 2020-06-16 杭州电子科技大学 基于注意力机制的多传感器时间序列分析模型
US11635299B2 (en) * 2020-02-06 2023-04-25 Mitsubishi Electric Research Laboratories, Inc. Method and system for scene-aware interaction
CN111294512A (zh) * 2020-02-10 2020-06-16 深圳市铂岩科技有限公司 图像处理方法、装置、存储介质及摄像装置
CN111325323B (zh) * 2020-02-19 2023-07-14 山东大学 一种融合全局信息和局部信息的输变电场景描述自动生成方法
WO2021183256A1 (en) * 2020-03-10 2021-09-16 Sri International Physics-guided deep multimodal embeddings for task-specific data exploitation
CN111814844B (zh) * 2020-03-17 2023-07-11 同济大学 一种基于位置编码融合的密集型视频描述方法
WO2021204143A1 (en) * 2020-04-08 2021-10-14 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Methods for action localization, electronic device and storage medium
CN111523575B (zh) * 2020-04-13 2023-12-12 中南大学 基于短视频多模态特征的短视频推荐方法
US20210350232A1 (en) * 2020-05-07 2021-11-11 Nec Laboratories America, Inc. Fault detection in cyber-physical systems
CN113630302B (zh) * 2020-05-09 2023-07-11 阿里巴巴集团控股有限公司 一种垃圾邮件识别方法及装置、计算机可读存储介质
CN111639748B (zh) * 2020-05-15 2022-10-11 武汉大学 一种基于lstm-bp时空组合模型的流域污染物通量预测方法
CN111767726B (zh) * 2020-06-24 2024-02-06 北京奇艺世纪科技有限公司 数据处理方法及装置
CN112001437B (zh) * 2020-08-19 2022-06-14 四川大学 面向模态非完全对齐的数据聚类方法
CN112069361A (zh) * 2020-08-27 2020-12-11 新华智云科技有限公司 一种基于多模态融合的视频描述文本生成方法
CN112115601B (zh) * 2020-09-10 2022-05-17 西北工业大学 一种可靠的用户注意力监测估计表示模型
CN112468888B (zh) * 2020-11-26 2023-04-07 广东工业大学 基于gru网络的视频摘要生成方法与系统
CN112738555B (zh) * 2020-12-22 2024-03-29 上海幻电信息科技有限公司 视频处理方法及装置
CN112765959B (zh) * 2020-12-31 2024-05-28 康佳集团股份有限公司 意图识别方法、装置、设备及计算机可读存储介质
US11620903B2 (en) * 2021-01-14 2023-04-04 Baidu Usa Llc Machine learning model to fuse emergency vehicle audio and visual detection
CN112861945B (zh) * 2021-01-28 2022-05-13 清华大学 一种多模态融合谎言检测方法
US20220245424A1 (en) * 2021-01-29 2022-08-04 Samsung Electronics Co., Ltd. Microgenre-based hyper-personalization with multi-modal machine learning
CN112954312B (zh) * 2021-02-07 2024-01-05 福州大学 一种融合时空特征的无参考视频质量评估方法
CN113205148B (zh) * 2021-05-20 2022-10-11 山东财经大学 一种迭代层间信息融合的医学图像帧插值方法及终端机
CN113537566B (zh) * 2021-06-16 2022-05-06 广东工业大学 一种基于dccso优化深度学习模型的超短期风电功率预测方法
US11445267B1 (en) 2021-07-23 2022-09-13 Mitsubishi Electric Research Laboratories, Inc. Low-latency captioning system
CN113326703B (zh) * 2021-08-03 2021-11-16 国网电子商务有限公司 基于异构空间下多模态对抗融合的情感识别方法及系统
CN113569975A (zh) * 2021-08-04 2021-10-29 华南师范大学 一种基于模型融合的素描作品评级方法及装置
CN113990473B (zh) * 2021-10-28 2022-09-30 上海昆亚医疗器械股份有限公司 一种医疗设备运维信息收集分析系统及其使用方法
CN114120044B (zh) * 2021-12-08 2024-07-19 马上消费金融股份有限公司 图像分类方法、图像分类网络训练方法、装置及电子设备
KR102411278B1 (ko) * 2021-12-30 2022-06-22 주식회사 파일러 멀티-모달 비디오 캡셔닝 기반 영상 보안 시스템 및 방법
CN114328927A (zh) * 2021-12-30 2022-04-12 深圳市检验检疫科学研究院 基于标签感知的门控循环采集方法
CN114663733A (zh) * 2022-02-18 2022-06-24 北京百度网讯科技有限公司 多模态特征的融合方法、装置、设备、介质及产品
CN114387567B (zh) * 2022-03-23 2022-06-28 长视科技股份有限公司 一种视频数据的处理方法、装置、电子设备及存储介质
CN115034327B (zh) * 2022-06-22 2024-08-13 支付宝(杭州)信息技术有限公司 外部数据应用、用户识别的方法、装置和设备
CN115062328B (zh) * 2022-07-12 2023-03-10 中国科学院大学 一种基于跨模态数据融合的信息智能解析方法
US20240046085A1 (en) 2022-08-04 2024-02-08 Mitsubishi Electric Research Laboratories, Inc. Low-latency Captioning System
CN115512368B (zh) * 2022-08-22 2024-05-10 华中农业大学 一种跨模态语义生成图像模型和方法
CN115134676B (zh) * 2022-09-01 2022-12-23 有米科技股份有限公司 一种音频辅助视频补全的视频重构方法及装置
CN115590481B (zh) * 2022-12-15 2023-04-11 北京鹰瞳科技发展股份有限公司 一种用于预测认知障碍的装置和计算机可读存储介质
CN116414456B (zh) * 2023-01-19 2024-01-19 杭州知存智能科技有限公司 存算芯片内的加权融合变换部件、存算电路及协同计算方法
CN116128863B (zh) * 2023-03-01 2023-09-12 北京医准智能科技有限公司 一种医学图像处理方法、装置及设备
CN116543795B (zh) * 2023-06-29 2023-08-29 天津大学 一种基于多模态特征融合的声音场景分类方法
CN116932731B (zh) * 2023-09-18 2024-01-30 上海帜讯信息技术股份有限公司 面向5g消息的多模态知识问答方法及系统
CN117312864A (zh) * 2023-11-30 2023-12-29 国家计算机网络与信息安全管理中心 基于多模态信息的变形词生成模型的训练方法及装置
CN117668762B (zh) * 2024-01-31 2024-05-17 新疆三联工程建设有限责任公司 用于住宅地下渗漏的监测预警系统及方法
CN117708375B (zh) * 2024-02-05 2024-05-28 北京搜狐新媒体信息技术有限公司 一种视频处理方法、装置及相关产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102937972A (zh) * 2012-10-15 2013-02-20 上海外教社信息技术有限公司 一种视听字幕制作系统及方法
CN103885924A (zh) * 2013-11-21 2014-06-25 北京航空航天大学 一种领域自适应的公开课字幕自动生成系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10909329B2 (en) 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102937972A (zh) * 2012-10-15 2013-02-20 上海外教社信息技术有限公司 一种视听字幕制作系统及方法
CN103885924A (zh) * 2013-11-21 2014-06-25 北京航空航天大学 一种领域自适应的公开课字幕自动生成系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAONAN YU等: ""Video Paragraph Captioning Using Hierarchical Recurrent Neural Networks"", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERNRECOGNITION(CVPR)》 *
SHIZHE CHEN等: ""Multi-modal Conditional Attention Fusion for Dimensional Emotion Prediction"", 《PROCEEDINGS OF THE 24TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110473529A (zh) * 2019-09-09 2019-11-19 极限元(杭州)智能科技股份有限公司 一种基于自注意力机制的流式语音转写系统
CN110473529B (zh) * 2019-09-09 2021-11-05 北京中科智极科技有限公司 一种基于自注意力机制的流式语音转写系统
CN111274372A (zh) * 2020-01-15 2020-06-12 上海浦东发展银行股份有限公司 用于人机交互的方法、电子设备和计算机可读存储介质
CN113139121A (zh) * 2020-01-20 2021-07-20 阿里巴巴集团控股有限公司 查询方法、模型训练方法、装置、设备及存储介质
CN112000818A (zh) * 2020-07-10 2020-11-27 中国科学院信息工程研究所 一种面向文本和图像的跨媒体检索方法及电子装置
CN113360514A (zh) * 2021-07-02 2021-09-07 支付宝(杭州)信息技术有限公司 联合更新模型的方法、装置及系统
CN113360514B (zh) * 2021-07-02 2022-05-17 支付宝(杭州)信息技术有限公司 联合更新模型的方法、装置及系统
CN113986005A (zh) * 2021-10-13 2022-01-28 电子科技大学 基于集成学习的多模态融合视线估计框架
CN113986005B (zh) * 2021-10-13 2023-07-07 电子科技大学 基于集成学习的多模态融合视线估计框架
CN117789099A (zh) * 2024-02-26 2024-03-29 北京搜狐新媒体信息技术有限公司 视频特征提取方法及装置、存储介质及电子设备
CN117789099B (zh) * 2024-02-26 2024-05-28 北京搜狐新媒体信息技术有限公司 视频特征提取方法及装置、存储介质及电子设备

Also Published As

Publication number Publication date
JP2019535063A (ja) 2019-12-05
JP6719663B2 (ja) 2020-07-08
DE112017006685T5 (de) 2020-01-23
CN110168531B (zh) 2023-06-20
WO2018124309A1 (en) 2018-07-05
US10417498B2 (en) 2019-09-17
US20180189572A1 (en) 2018-07-05

Similar Documents

Publication Publication Date Title
CN110168531B (zh) 用于多模态融合模型的方法和系统
EP3857459B1 (en) Method and system for training a dialogue response generation system
EP4073787B1 (en) System and method for streaming end-to-end speech recognition with asynchronous decoders
CN107391646B (zh) 一种视频图像的语义信息提取方法及装置
CN112131988B (zh) 确定虚拟人物唇形的方法、装置、设备和计算机存储介质
CN108419094B (zh) 视频处理方法、视频检索方法、装置、介质及服务器
CN114283430A (zh) 跨模态图文匹配训练方法及装置、存储介质、电子设备
CN110427899B (zh) 基于人脸分割的视频预测方法及装置、介质、电子设备
WO2020195068A1 (en) System and method for end-to-end speech recognition with triggered attention
CN114943960A (zh) 一种文本识别方法、系统、电子设备及存储介质
CN112288816B (zh) 位姿优化方法、位姿优化装置、存储介质与电子设备
CN110263218B (zh) 视频描述文本生成方法、装置、设备和介质
CN112200041A (zh) 视频动作识别方法、装置、存储介质与电子设备
CN116050496A (zh) 图片描述信息生成模型的确定方法及装置、介质、设备
CN114245230A (zh) 视频的生成方法、装置、电子设备及存储介质
CN116611491A (zh) 目标检测模型的训练方法、装置、电子设备和存储介质
CN118172432A (zh) 姿势调整方法、装置、电子设备及存储介质
KR102612625B1 (ko) 신경망 기반의 특징점 학습 장치 및 방법
CN110147538B (zh) 图片集描述生成方法、装置和计算机设备
Moons et al. Resource aware design of a deep convolutional-recurrent neural network for speech recognition through audio-visual sensor fusion
Joshi et al. FYEO: A Character Level Model for Lip Reading
CN116364067A (zh) 语音识别模型的训练方法及装置、电子设备和存储介质
WO2024158893A1 (en) Systems and methods for capturing an image of a desired moment
CN116343770A (zh) 语音识别模型的训练方法及装置、电子设备和存储介质
CN118427375A (zh) 自动跟随、安全看护方法及装置、存储介质及可移动终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant