CN117203680A - 数据模态的自适应选择以用于高效视频识别 - Google Patents

数据模态的自适应选择以用于高效视频识别 Download PDF

Info

Publication number
CN117203680A
CN117203680A CN202280019832.0A CN202280019832A CN117203680A CN 117203680 A CN117203680 A CN 117203680A CN 202280019832 A CN202280019832 A CN 202280019832A CN 117203680 A CN117203680 A CN 117203680A
Authority
CN
China
Prior art keywords
video
data
modality
modalities
video segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280019832.0A
Other languages
English (en)
Inventor
R·潘达
陈均富
范权福
R·S·菲利斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN117203680A publication Critical patent/CN117203680A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/88Image or video recognition using optical means, e.g. reference filters, holographic masks, frequency domain filters or spatial domain filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

提供了一种用于数据模态的自适应选择以进行高效视频识别的方法。该方法包括:接收包括多个数据模态上的视频段序列的输入视频。该方法还包括:对于序列中的视频段,基于表示视频段的数据,选择一个或多个数据模态。所选择的每个数据模态对于视频段的视频识别是最佳的。该方法还包括:对于所选择的每个数据模态,将表示所选择的数据模态上的视频段的至少一个数据输入提供给与所选择的数据模态相对应的机器学习模型,并且经由机器学习模型生成表示视频段的第一类型的预测。该方法还包括:通过聚合所有所生成的第一类型的预测,确定表示整个输入视频的第二类型的预测。

Description

数据模态的自适应选择以用于高效视频识别
背景技术
本发明的实施例的领域一般涉及视频识别。
视频识别是基于机器学习(ML)的计算机视觉任务,其涉及获取、处理和分析来自诸如视频的视觉源的数据。多模态学习广泛用于视频识别。多模态学习利用各种数据模态来改进模型的性能。经由多模态学习训练的模型表示不同数据模态的联合表示。大多数传统的深度多模态模型集中于如何融合来自多个数据模态的信息。然而,利用多模态学习的传统视频识别解决方案在计算上是昂贵的,因为这些解决方案通常处理来自视觉源的所有数据,包括数据的冗余/不相关部分。例如,传统的解决方案可能分析表示不同数据模态(诸如RGB流和音频流)上的视频的多个数据流的整体,以识别在视频中执行的活动(即,动作)。然而,可能不必分析视频的所有视频段的多个数据流来识别在视频中执行的活动。需要提供一种自适应多模态学习框架,其通过基于输入在运行中选择对于视频的每个视频段的视频识别最佳的数据模态(即,对于每个视频段的不同数据模态的数据相关选择),来提高视频识别的效率(即,提高计算效率),显著节省计算(即,降低计算成本),以及提高视频识别的准确度(即,提高预测/分类的准确度/质量)。
发明内容
本发明的实施例一般涉及视频识别,并且更具体地,涉及一种用于数据模态的自适应选择以用于高效视频识别的方法和系统。
本发明的一个实施例提供了一种用于视频识别的方法。所述方法包括:接收包括多个数据模态上的视频段序列的输入视频。所述方法还包括:对于所述序列中的视频段,基于表示所述视频段的数据,从所述多个数据模态中选择一个或多个数据模态。所选择的每个数据模态对于所述视频段的视频识别是最佳的。所述方法还包括:对于所选择的每个数据模态,将表示所选择的数据模态上的所述视频段的至少一个数据输入提供给与所选择的数据模态相对应的机器学习模型,并且经由所述机器学习模型生成表示所述视频段的第一类型的预测。所述方法还包括:通过聚合所有所生成的第一类型的预测,确定表示整个输入视频的第二类型的预测。所述第二类型的预测指示在所述输入视频中捕获的对象或活动。其它实施例包括一种用于视频识别的系统和一种用于视频识别的计算机程序产品。这些特征有助于提供视频识别准确度与计算效率之间的最佳折衷的优点。
可以包括一个或多个以下特征。
在一些实施例中,所述多个数据模态中的每个数据模态具有对应的机器学习模型,所述对应的机器学习模型是与对应于所述多个数据模态中的一个或多个其他数据模态的一个或多个其他机器学习模型联合训练的。在一些实施例中,与所述多个数据模态中的每个数据模态相对应的每个机器学习模型包括子网络。这些可选特征有助于学习有利于选择在识别视频时在计算上更高效的数据模态的决策策略的优点。
本发明的实施例的这些和其它方面、特征和优点将参考附图和本文的详细描述来理解,并且将通过在所附权利要求中特别指出的各种元件和组合来实现。应当理解,本发明的附图的上述一般描述和以下简要描述以及实施例的详细描述都是本发明的优选实施例的示例和说明,而不是对所要求保护的本发明的实施例的限制。
附图说明
在说明书结尾处的权利要求中特别指出并清楚地要求保护被认为是本发明的实施例的主题。从下面结合附图的详细描述中,本发明的实施例的前述和其它目的、特征和优点将变得显而易见,其中:
图1示出了根据本发明的实施例的用于实现数据模态的自适应选择以用于高效视频识别的示例计算架构;
图2示出了根据本发明的实施例的示例自适应多模态学习系统;
图3示出了根据本发明的实施例的包括在系统中的决策策略网络和视频识别网络的示例组件;
图4示出了根据本发明的实施例的涉及系统的示例应用场景;
图5A示出了根据本发明的实施例的不同模态上的第一视频段序列;
图5B示出了根据本发明的实施例的不同模态上的第二视频段序列;
图5C示出了根据本发明的实施例的不同模态上的第三视频段序列;
图5D示出了根据本发明的实施例的不同模态上的第四视频段序列;
图5E示出了根据本发明的实施例的不同模态上的第五视频段序列;
图5F示出了根据本发明的实施例的不同模态上的第六视频段序列;
图5G示出了根据本发明的实施例的不同模态上的第七视频段序列;
图5H示出了根据本发明的实施例的不同模态上的第八视频段序列;
图5I示出了根据本发明的实施例的不同模态上的第九视频段序列;
图6是根据本发明的实施例的用于数据模态的自适应选择以用于高效视频识别的示例过程的流程图;
图7描绘了根据本发明的实施例的云计算环境;
图8描绘了根据本发明的实施例的抽象模型层;以及
图9是示出了用于实现本发明的实施例的信息处理系统的高级框图。
详细描述参考附图通过示例解释了本发明的优选实施例以及优点和特征。
具体实施方式
本发明的实施例一般涉及视频识别,并且更具体地,涉及一种用于数据模态的自适应选择以用于高效视频识别的方法和系统。本发明的一个实施例提供了一种用于视频识别的方法。该方法包括:接收包括多个数据模态上的视频段序列的输入视频。该方法还包括:对于序列中的视频段,基于表示视频段的数据,从多个数据模态中选择一个或多个数据模态。所选择的每个数据模态对于视频段的视频识别是最佳的。该方法还包括:对于所选择的每个数据模态,将表示所选择的数据模态上的视频段的至少一个数据输入提供给与所选择的数据模态相对应的机器学习模型,并且经由机器学习模型生成表示视频段的第一类型的预测。该方法还包括:通过聚合所有所生成的第一类型的预测,确定表示整个输入视频的第二类型的预测。第二类型的预测指示在输入视频中捕获的对象或活动。
本发明的另一个实施例提供了一种用于视频识别的系统。该系统包括至少一个处理器和存储指令的非暂时处理器可读存储设备,指令在由至少一个处理器执行时使至少一个处理器执行操作。这些操作包括:接收包括多个数据模态上的视频段序列的输入视频。这些操作还包括:对于序列中的视频段,基于表示视频段的数据,从多个数据模态中选择一个或多个数据模态。所选择的每个数据模态对于视频段的视频识别是最佳的。这些指令还包括:对于所选择的每个数据模态,将表示所选择的数据模态上的视频段的至少一个数据输入提供给与所选择的数据模态相对应的机器学习模型,并且经由机器学习模型生成表示视频段的第一类型的预测。这些指令还包括:通过聚合所有所生成的第一类型的预测,确定表示整个输入视频的第二类型的预测。第二类型的预测指示在输入视频中捕获的对象或活动。
本发明的一个实施例提供了一种用于视频识别的计算机程序产品。该计算机程序产品包括存储程序指令的计算机可读存储介质。这些程序指令能够由处理器执行以使得处理器:接收包括多个数据模态上的视频段序列的输入视频。这些程序指令能够由处理器执行以还使得处理器:对于序列中的视频段,基于表示视频段的数据,从多个数据模态中选择一个或多个数据模态。所选择的每个数据模态对于视频段的视频识别是最佳的。这些程序指令能够由处理器执行以还使得处理器:对于所选择的每个数据模态,将表示所选择的数据模态上的视频段的至少一个数据输入提供给与所选择的数据模态相对应的机器学习模型,并且经由机器学习模型生成表示视频段的第一类型的预测。这些程序指令能够由处理器执行以还使得处理器:通过聚合所有所生成的第一类型的预测,确定表示整个输入视频的第二类型的预测。第二类型的预测指示在输入视频中捕获的对象或活动。
图1示出了根据本发明的实施例的用于实现数据模态的自适应选择以用于高效视频识别的示例计算架构300。在一个实施例中,计算架构300是集中式计算架构。在另一个实施例中,计算架构300是分布式计算架构。
在一个实施例中,计算架构300包括计算资源,诸如但不限于一个或多个处理器单元310和一个或多个存储单元320。一个或多个应用可以利用计算架构300的计算资源在计算架构300上执行/操作。在一个实施例中,计算架构300上的应用包括但不限于自适应多模态学习系统330。如本文稍后详细描述的,系统330被配置用于不同模态的数据相关选择以用于高效视频识别。
在一个实施例中,系统330被配置为通过连接(例如,诸如Wi-Fi连接或蜂窝数据连接的无线连接、有线连接或两者的组合)与一个或多个电子设备350和/或一个或多个远程服务器设备360交换数据。
在一个实施例中,电子设备350包括一个或多个计算资源,诸如但不限于一个或多个处理器单元351和一个或多个存储单元352。一个或多个应用可以利用电子设备350的一个或多个计算资源在电子设备350上执行/操作,例如但不限于加载到或下载到电子设备350的一个或多个软件应用354。软件应用354的示例包括但不限于人工智能(AI)应用等。
电子设备350的示例包括但不限于台式计算机、移动电子设备(例如,平板电脑、智能电话、膝上型计算机等)、可穿戴设备(例如,智能手表等)、物联网(IoT)设备等。
在一个实施例中,电子设备350包括集成到或耦合到电子设备350的一个或多个输入/输出(I/O)单元353,诸如键盘、小键盘、触摸接口、显示屏等。用户可以利用电子设备350的I/O模块353来配置一个或多个用户偏好、配置一个或多个参数、提供输入等。
在一个实施例中,电子设备350和/或远程服务器设备360可以是以下中的至少一项的源:输入视频、训练视频。
在一个实施例中,系统330可由在远程服务器设备360上托管的一个或多个在线服务(例如,AI服务)和/或在电子设备350上操作的一个或多个软件应用354(例如,AI应用)访问或利用。例如,在一个实施例中,虚拟助理、搜索引擎或在电子设备350上操作的另一类型的软件应用354可以调用系统330以执行AI任务。
图2示出了根据本发明的实施例的示例自适应多模态学习系统330。输入视频包括一个或多个数据模态上的视频段400的序列。数据模态的示例包括但不限于RGB模态、音频模态、光流量模态等。
视频段400的序列被表示为一个或多个数据流。每个数据流包括表示特定数据模态上的视频段400的序列的数据输入序列。数据流的示例包括但不限于,包括RGB输入(即,视频段400的RGB帧)序列的RGB流、包括音频输入(即,视频段400的音频帧)序列的音频流、包括光流量输入(即,视频段400的光流量帧)序列的光流量流(optical flow stream)、和/或包括RGB差分(difference)输入(即,视频段400的RGB差分帧)序列的RGB差分流。
在一个实施例中,系统330包括多模态决策策略网络410和视频识别网络430。视频识别网络430包括被训练用于多个数据模态上的不同视频段400的视频识别的多个机器学习模型。在一个实施例中,多个机器学习模型包括不同的子网络435(图3)。不同的子网络435中的每个子网络435对应于与不同的子网络435中的另一个子网络435所对应的另一个数据模态不同的特定数据模态。每个子网络435被配置为接收和处理表示对应的数据模态上的视频段400的数据输入。
在一个实施例中,多模态决策策略网络410被配置为:(1)接收包括视频段400的序列的输入视频,以及(2)对于输入视频中的每个视频段400,基于表示多个数据模态上的视频段400的数据输入,从多个数据模态中自适应地选择对于视频段400的视频识别最佳的一个或多个数据模态420。对于输入视频中的每个视频段400,多模态决策策略网络410根据表示多个数据模态上的视频段400的数据输入,在运行中选择对于视频段的视频识别最佳的一个或多个数据模态420。对于输入视频中的每个视频段400,多模态决策策略网络410实现适合于视频段400的视频识别的对数据模态420的自适应选择,并且该选择是数据相关的。在视频识别期间,每个所选择的数据模态420帮助关注在数据流中查看何处(如果数据流是RGB流或光流量流)或者在数据流中侦听何处(如果数据流是音频流)。
在一个实施例中,对于输入视频中的每个视频段400,视频识别网络430被配置为:(1)(例如,从决策策略网络410)接收对于视频段400的视频识别最佳的一个或多个所选择的数据模态420,(2)将表示一个或多个所选择的数据模态420上的视频段400的一个或多个数据输入转发到与一个或多个所选择的数据模态420相对应的一个或多个子网络435,以及(3)通过处理经由一个或多个子网络435的一个或多个数据输入,生成表示视频段400的一个或多个第一类型的预测(即,分类)。具体地,对于每个所选择的数据模态420,将表示所选择的数据模态420上的视频段400的至少一个数据输入路由到对应于所选择的数据模态420的子网络435。在视频段400的视频识别期间,经由一个或多个子网络435仅处理表示一个或多个所选择的数据模态420上的视频段400的数据输入;跳过/绕过(即,不处理)表示未选择的数据模态421(图3)上的视频段400的任何数据输入。每个所选择的数据模态420与视频段400的视频识别相关,而每个未选择的数据模态421对于视频识别是冗余的/不相关的。跳过/绕过未选择的数据模态421消除了对处理表示不同数据模态上的输入视频的多个数据流的整体的需要,从而增加了计算效率、降低了计算成本并且提高了视频识别的准确度。
在一个实施例中,表示视频段400的第一类型的预测是指示在视频段400中捕获的不同的子网络435被训练为识别的对象或活动的段级预测。
在一个实施例中,视频识别网络430包括融合单元436(图3)。融合单元436被配置为:(1)对于输入视频中的每个视频段400,(例如从一个或多个不同的子网络435)接收表示视频段400的一个或多个第一类型的预测(即,段级预测),以及(2)通过平均(即,聚合)针对输入视频的所有视频段400接收的所有第一类型的预测,确定表示整个输入视频的第二类型的预测440。
在一个实施例中,表示整个输入视频的第二类型的预测440是指示在输入视频中捕获的不同的子网络435被训练为识别的对象或活动的视频级预测。
在一个实施例中,联合地训练不同的子网络435(例如,经由具有可学习权重的后期融合)。
图3示出了根据本发明的实施例的决策策略网络410和视频识别网络430的示例组件。设V一般表示包括K个数据模态{M1,M2,...,MK}上的视频段序列{s1,s2,...,sT}的输入视频。对于输入视频V中的每个视频段,决策策略网络410被配置为确定要利用K个数据模态中的哪个数据模态用于视频段的视频识别,以便在考虑计算效率的同时提高视频识别的准确度(即,预测/分类的准确度/质量)。
在一个实施例中,决策策略网络410包括单元415,其被配置为对输入视频V中跨不同的时间步骤(step)的因果性(causality)进行建模,在一个实施例中,单元415包括:(a)具有对应的可训练参数θΦ的联合特征提取器,和(2)具有对应的可训练参数θLSTM的长短期记忆(LSTM)。在每个时间步骤t,联合特征提取器被配置为:(1)接收表示K个数据模态上的当前视频段st的数据输入(例如,RGB输入、RGB差分输入和/或音频输入),以及(2)从数据输入中提取与当前视频段st相对应的联合特征ft
在每个时间步骤t,LSTM被配置为:(1)(例如,从联合特征提取器)接收对应于当前视频段st的联合特征ft、先前隐藏状态ht-1和单元输出ot-1,以及(2)根据以下提供的等式(1)计算当前隐藏状态ht和单元输出ot
ht,ot=LSTM(ft;ht-1;ot-1) (1)。
在一个实施例中,决策策略网络410包括具有对应的可训练参数的K个全连接(FC)层416,其中,K个数据模态中的每一个具有对应的FC层416。
在一个实施例中,在每个时间步骤t,对于K个数据模态中的每个数据模态k((k∈[1,...,K])),决策策略网络410被配置为:(1)基于当前隐藏状态ht估计对应的策略分发,以及(2)将Gumbel-Softmax操作应用于对应的策略分发以对对应的二元决策ut,k进行采样(即,从Gumbel-Softmax分布进行采样),其中,二元决策ut,k指示对于当前视频段st是否选择或跳过/绕过数据模态k(即,针对数据模态k的决策策略)。例如,如果二元决策ut,k等于1,则对于当前视频段st选择数据模态k,以使得表示数据模态k上的当前视频段st的数据输入被路由到视频识别网络430以进行处理(即,数据模态k是所选择的数据模态420)。如果二元决策ut,k等于0,则针对当前视频段st跳过/绕过数据模态k,以使得没有表示数据模态k上的当前视频段st的数据输入被路由到视频识别网络430以进行处理(即,数据模态k是未被选择的数据模态421)。只有对于当前视频段st表示每个所选择的数据模态420上的当前视频段st的数据输入被路由到视频识别网络430以进行处理。
例如,在一个实施例中,在每个时间步骤t,对于K个数据模态中的每个数据模态k,决策策略网络410被配置为:(1)经由对应的FC层416生成对应的策略分发zk,策略分发zk包括基于当前隐藏状态ht的策略logits和对应于FC层416的可训练参数θFCk,其中,并且zk=FC(ht,θFCk),以及(2)根据下面提供的等式(2),将Gumbel-Softmax运算应用于对应的策略分发zk,以从Gumbel-Softmax分布中提取表示对应的二元决策ut,k的离散样本:
其中,i∈{0,1},Gi,k是标准Gumbel分布,Gi,k=-log(-logUi,k)并且Ui,k是从均匀的i.i.d.分布Unif(0,1)中采样的。
在一个实施例中,被表示为独热(one-hot)向量,并且独热编码被放松以根据以下提供的等式(3)来计算实值向量Pk
其中,τ是控制Pk的离散度的温度参数。
在一个实施例中,视频识别网络430包括具有对应的可训练参数的K个子网络435,其中,K个数据模态中的每个数据模态具有对应的子网络435。
在一个实施例中,系统330具有至少两个不同的操作阶段:训练阶段,在此期间,K个子网络435被联合地训练;以及推断阶段,在此期间,所得到的经训练的K个子网络435被部署用于视频识别。
在一个实施例中,为了增加视频识别准确度(即,预测/分类的准确度/质量)以及最小化对需要更多计算的数据模态的选择以增加计算效率,训练阶段包括最小化根据以下提供的等式(4)表示的损失:
其中,P(V;Θ)是针对训练视频V的预测,y是用于训练视频V的独热编码的地面实况标签,λk是与处理数据模态k相关联的成本,Uk是用于数据模态k的决策策略,Ck是对在预测正确时视频段总数C中选择数据模态k的视频段分数的测量,而γ是惩罚不正确预测的参数。γ和λk一起被用于控制在视频识别准确度与计算效率之间的折衷。例如,将γ和λk两者设置为0导致训练没有计算效率损失。等式(4)的第一部分表示标准交叉熵损失以测量视频识别准确度,等式(4)的第二部分驱动视频识别网络430以学习有利于选择在识别视频时在计算上更高效的数据模态(例如,处理RGB输入比音频输入需要更多的计算)的决策策略。
假设输入视频V捕获割草,并且输入视频V包括RGB模态、光流量模态和音频模态上的视频段序列。具体地,视频段序列被表示为RGB流、光流量流以及音频流,RGB流包括表示RGB模态上的视频段的RGB输入序列(即,视频段的RGB帧),光流量流包括表示光流量模态上的视频段的光流量输入序列(即,视频段的光流量帧),音频流包括表示音频模态上的视频段的音频输入序列(即,视频段的音频帧)。在一个实施例中,在确定是否为每个视频段选择光流量模态时,决策策略网络410利用包括RGB差分输入序列的RGB差分流(即,视频段的RGB差分帧)而不是光流量流D,以减少计算成本。
如图3所示,在时间步骤t,对于当前视频段st,决策策略网络410被配置为:1)从RGB流接收表示RGB模态上的当前视频段st的RGB输入st,rgb,(2)从RGB差分流接收表示光流量模态上的当前视频段st的RGB差分输入st,rgd,(3)从音频流接收表示音频模态上的当前视频段st的音频输入st,aud,以及(4)部分地基于所接收的输入,生成对应的二元决策策略向量。二元决策策略向量的每个元素是对应于RGB、光流量和音频模态之一的二元值(例如,二元决策),并且元素表示是否选择或跳过/绕过当前视频段st的对应数据模态。例如,如果二元决策策略向量的对应于RGB模态的元素等于1,则RGB模态是当前视频段st的所选择的数据模态420;否则,如果该元素等于0,则RGB模态是未被选择的数据模态421。
假设视频识别网络430包括对应于RGB模态的第一子网络435(“子网1”)、对应于光流量模态的第二子网络435(“子网2”)、以及对应于音频模态的第三子网络435(“子网3”)。假设对应于当前视频段st的二元决策策略向量指示RGB、光流量和音频模态都是针对当前视频段st所选择的数据模态420。对于当前视频段st,视频识别网络430被配置为:1)通过将RGB输入st,rgb转发到子网1以用于处理,经由子网1生成第一段级预测,(2)通过将表示光流量模态上的当前视频段st的光流输入st,of(来自光流量流)转发到子网2以用于处理,经由子网2生成第二段级预测,以及(3)通过将音频输入st,aud转发到子网3以用于处理,经由子网3生成第三段级预测。
融合单元436被配置为:(1)接收由子网1、子网2和/或子网3为输入视频V的所有视频段(包括当前视频段st)生成的所有段级预测,和(2)通过平均(即,聚合)所有所接收的段级预测,确定针对整个输入视频V的视频级预测。如图3所示,当输入视频V捕获到割草时,针对整个输入视频V确定的视频级预测可以是“割草”。
图4示出了根据本发明的实施例的涉及系统330的示例应用场景。假设提供给系统330的输入视频V捕获到狗叫,并且输入视频V包括RGB模态和音频模态上的视频段序列s1,s2,...,sC。具体地,视频段序列被表示为:(1)RGB流,其包括表示RGB模态上的视频段的RGB输入序列s1,rgb,s2,rgb,...,sC,rgb,以及(2)音频流,其包括表示音频模态上的视频段的音频输入序列s1,aud,s2,aud,...,sC,aud
在每个时间步骤t,决策策略网络410被配置为:基于表示RGB模态上的当前视频段st的RGB输入st,rgb(来自RGB流),生成包括对应于RGB模态的策略logits的策略分发zrgb,(2)基于表示音频模态上的当前视频段st的音频输入st,aud(来自音频流),生成包括对应于音频模态的策略logits的策略分发zaud,(3)将Gumbel-Softmax操作应用于策略分发zrgb,以对指示是否选择或跳过/绕过当前视频段st的RGB模态的二元决策ut,rgb进行采样,以及(4)将Gumbel-Softmax操作应用于策略分发zaud,以对指示是否选择或跳过/绕过当前视频段st的音频模态的二元决策ut,aud进行采样。
如图4所示,如果二元决策u2,rgb、u5,rgb和uC,rgb等于1,则RGB模态是仅针对视频段s2、s5和sC的所选择的数据模态420,以使得只有表示RGB模态上的视频段s2、s5和sC的RGB输入s2,rgb、s5,rgb和sC,rgb(来自RGB流)(为了易于说明而用突出框突出显示)被转发到对应于RGB模态的第一子网络435。第一子网络435通过分别处理RGB输入s2,rgb、s5,rgb和sC,rgb,生成针对视频段s2、s5和sC的段级预测。如图4进一步所示,如果二元决策u2,aud、u3,aud和uC,aud等于1,音频模态是仅针对视频段s2、s3和sC的所选择的数据模态420,以使得只有表示音频模态上的视频段s2、s3和sC的音频输入s2,aud、s3,aud和sC,aud(来自音频流)(为了易于说明,用突出框突出显示)被转发到对应于音频模态的第二子网络435。第二子网络435通过分别处理音频输入s2,aud、s3,aud和sC,aud,生成针对视频段s2、s3和sC的段级预测。
如图4所示,融合单元436接收由第一和第二子网络435生成的所有段级预测,并且通过平均(即,聚合)所有所接收的段级预测来确定针对整个输入视频V的视频级预测。如图4所示,当输入视频V捕获到狗叫时,为整个输入视频V确定的视频级预测是“吠叫”。
图5A示出了根据本发明的实施例的不同模态上的第一视频段序列500。假设提供给系统330的输入视频V捕获击剑,并且输入视频V包括RGB模态和音频模态上的第一视频段序列500。例如,如图5A所示,第一视频段序列500被表示为:(1)RGB流501,其包括表示RGB模态上的视频段的RGB输入序列,以及(2)音频流502,其包括表示音频模态上的视频段的音频输入序列。
如图5A所示,系统330仅针对输入视频V的第二和第三视频段选择RGB模态,以使得系统330仅处理表示第二和第三视频段的RGB输入以进行视频识别。如图5A进一步所示,系统330跳过/绕过输入视频V的所有视频段的音频模态,以使得不处理整个音频流502以进行视频识别。当输入视频V捕获到击剑时,由系统330针对整个输入视频V确定的视频级预测可以是“进行击剑”。
图5B示出了根据本发明的实施例的不同模态上的第二视频段序列510。假设提供给系统330的输入视频V捕获到正在弹奏钢琴,并且输入视频V包括RGB模态和音频模态上的第二视频段序列510。例如,如图5B所示,第二视频段序列510被表示为:(1)RGB流511,其包括表示RGB模态上的视频段的RGB输入序列,以及(2)音频流512,其包括表示音频模态上的视频段的音频输入序列。
如图5B所示,系统330仅针对输入视频V的第二视频段选择RGB模态,以使得系统330仅处理表示第二视频段的RGB输入以用于视频识别。如图5B进一步所示,系统330针对输入视频V的所有视频段选择音频模态,以使得系统330处理整个音频流512以用于视频识别。当输入视频V捕获到弹奏钢琴时,由系统330针对整个输入视频V确定的视频级预测可以是“弹奏钢琴”。
图5C示出了根据本发明的实施例的不同模态上的第三视频段序列520。假设提供给系统330的输入视频V捕获到砍伐木头,并且输入视频V包括RGB模态和光流量模态上的第三视频段序列520。例如,如图5C所示,第三视频段序列520被表示为:(1)RGB流521,其包括表示RGB模态上的视频段的RGB输入的序列,以及(2)光流量流522,其包括表示光流量模态上的视频段的光流量输入序列。
如图5C所示,系统330仅针对输入视频V的第一和第三视频段选择RGB模态,以使得系统330仅处理表示第一和第三视频段的RGB输入以进行视频识别。如图5C中进一步所示,系统330仅针对输入视频V的第二和第三视频段选择光流量模态,以使得系统330仅处理表示第二和第三视频段的光流量输入以用于视频识别。当输入视频V捕获到砍伐木头时,由系统330针对整个输入视频V确定的视频级预测可以是“砍伐木头”。
图5D示出了根据本发明的实施例的不同模态上的第四视频段序列530。假设提供给系统330的输入视频V捕获到撕纸,并且输入视频V包括RGB模态和光流量模态上的第四视频段序列530。例如,如图5D所示,第四视频段序列530被表示为:(1)RGB流531,其包括表示RGB模态上的视频段的RGB输入序列,以及(2)光流量流532,其包括表示光流量模态上的视频段的光流量输入序列。
如图5D所示,系统330仅针对输入视频V的第一、第二和第三视频段选择RGB模态,以使得系统330仅处理表示第一、第二和第三视频段的RGB输入以进行视频识别。如图5D中进一步所示,系统330仅针对输入视频V的第二视频段选择光流量模态,以使得系统330仅处理表示第二视频段的光流量输入以用于视频识别。当输入视频V捕获到撕纸时,由系统330针对整个输入视频V确定的视频级预测可以是“撕纸”。
图5E示出了根据本发明的实施例的不同模态上的第五视频段序列540。假设提供给系统330的输入视频V捕获到演奏手风琴,并且输入视频V包括RGB模态、光流量模态和音频模态上的第五视频段序列540。例如,如图5E所示,第五视频段序列540被表示为:RGB流541,其包括表示RGB模态上的视频段的RGB输入序列,(2)光流量流542,其包括表示光流量模态上的视频段的光流量输入序列,以及(3)音频流543,其包括表示音频模态上的视频段的音频输入序列。
如图5E所示,系统330仅针对输入视频V的第一和第四视频段选择RGB模态,以使得系统330仅处理表示第一和第四视频段的RGB输入以进行视频识别。如图5E中进一步所示,系统330仅针对输入视频V的第六视频段选择光流量模态,以使得系统330仅处理表示第六视频段的光流量输入以用于视频识别。如图5E进一步所示,系统330仅针对输入视频V的第一到第六视频段选择音频模态,以使得系统330仅处理表示第一到第六视频段的音频输入以进行视频识别。当输入视频V捕获到演奏手风琴时,系统330针对整个输入视频V确定的视频级预测可以是“演奏手风琴”。
图5F示出了根据本发明的实施例的不同模态上的第六视频段序列550。假设提供给系统330的输入视频V捕获到拉拉队,并且输入视频V包括RGB模态和音频模态上的第六视频段序列550。例如,如图5F所示,第六视频段序列550被表示为:(1)RGB流551,其包括表示RGB模态上的视频段的RGB输入序列,以及(2)音频流552,其包括表示音频模态上的视频段的音频输入序列。
如图5F所示,系统330仅针对输入视频V的第一和第二视频段选择RGB模态,以使得系统330仅处理表示第一和第二视频段的RGB输入以进行视频识别。如图5F进一步所示,系统330仅针对输入视频V的第一和第二视频段选择音频模态,以使得系统330仅处理表示第一和第二视频段的音频输入以进行视频识别。当输入视频V捕获到拉拉队时,系统330针对整个输入视频V确定的视频级预测可以是“拉拉队”。
图5G示出了根据本发明的实施例的不同模态上的第七视频段序列560。假设提供给系统330的输入视频V捕获到演奏口琴,并且输入视频V包括RGB模态和音频模态上的第七视频段序列560。例如,如图5G所示,第七视频段序列560被表示为:(1)RGB流561,其包括表示RGB模态上的视频段的RGB输入序列,以及(2)音频流562,其包括表示音频模态上的视频段的音频输入序列。
如图5G所示,系统330仅针对输入视频V的第三视频段选择RGB模态,以使得系统330仅处理表示第三视频段的RGB输入以用于视频识别。如图5G进一步所示,系统330针对输入视频V的所有视频段选择音频模态,以使得系统330处理整个音频流562以用于视频识别。当输入视频V捕获到演奏口琴时,系统330针对整个输入视频V确定的视频级预测可以是“演奏口琴”。
图5H示出了根据本发明的实施例的不同模态上的第八视频段序列570。假设提供给系统330的输入视频V捕获到砍伐木头,并且输入视频V包括RGB模态和光流量模态上的第八视频段序列570。例如,如图5H所示,第八视频段序列570被表示为:(1)RGB流571,其包括表示RGB模态上的视频段的RGB输入序列,以及(2)光流量流572,其包括表示光流量模态上的视频段的光流量输入序列。
如图5H所示,系统330仅针对输入视频V的第二视频段选择RGB模态,以使得系统330仅处理表示第二视频段的RGB输入以用于视频识别。如图5H中进一步所示,系统330仅针对输入视频V的第二和第三视频段选择光流量模态,以使得系统330仅处理表示第二和第三视频段的光流量输入以用于视频识别。当输入视频V捕获到砍伐木头时,系统330针对整个输入视频V确定的视频级预测可以是“砍伐木头”。
图5I示出了根据本发明的实施例的不同模态上的第九视频段序列580。假设提供给系统330的输入视频V捕获到踢踏舞,并且输入视频V包括RGB模态、光流量模态和音频模态上的第九视频段序列580。例如,如图5I所示,第九视频段序列580被表示为:RGB流581,其包括表示RGB模态上的视频段的RGB输入序列,(2)光流量流582,其包括表示光流量模态上的视频段的光流量输入序列,以及(3)音频流583,其包括表示音频模态上的视频段的音频输入序列。
如图5I所示,系统330仅针对输入视频V的第一视频段选择RGB模态,以使得系统330仅处理表示第一视频段的RGB输入以用于视频识别。如图5I中进一步所示,系统330仅针对输入视频V的第二视频段选择光流量模态,以使得系统330仅处理表示第二视频段的光流量输入以用于视频识别。如图5I进一步所示,系统330针对输入视频V的所有视频段选择音频模态,以使得系统330处理整个音频流583以用于视频识别。当输入视频V捕获到踢踏舞时,由系统330针对整个输入视频V确定的视频级预测可以是“踢踏舞”。
图6是根据本发明的实施例的用于数据模态的自适应选择以用于高效视频识别的示例过程600的流程图。处理块601包括:接收包括多个数据模态上的视频段序列的输入视频。处理块602包括:对于序列的视频段,基于表示视频段的数据,从多个数据模态中选择一个或多个数据模态,其中,所选择的每个数据模态对于视频段的视频识别是最佳的。处理块603包括:对于所选择的每个数据模态,将表示所选择的数据模态上的视频段的至少一个数据输入提供给与所选择的数据模态相对应的机器学习模型(例如,子网络);并且经由机器学习模型生成表示视频段的第一类型的预测(例如,段级预测)。处理块604包括:通过聚合所有所生成的第一类型的预测,确定表示整个输入视频的第二类型的预测(例如,视频级预测),其中,第二类型的预测指示在输入视频中捕获的对象或活动。
在一个实施例中,处理块601-604由系统330的一个或多个组件执行。
应当理解,尽管本公开包括关于云计算的详细描述,但是本文中记载的教导的实现不限于云计算环境。相反,本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。
云计算是一种服务交付模型,用于实现对可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便的按需网络访问,可配置计算资源可以以最小的管理努力或与服务的提供者的交互来快速供应和释放。在一个实施例中,该云模型包括至少五个特性、至少三个服务模型和至少四个部署模型。
特性如下:
按需自助:云消费者可以单方面地自动地根据需要提供计算能力,诸如服务器时间和网络存储,而不需要与服务的提供者进行人工交互。
广泛的网络接入:能力在网络上可用,并且通过促进由异构的薄或厚客户端平台(例如,移动电话、膝上型计算机和个人数字助理)使用的标准机制来访问。
资源池化:供应商的计算资源被集中以使用多租户模型来服务多个消费者,其中不同的物理和虚拟资源根据需求被动态地分配和重新分配。在一个实施例中,存在位置无关的意义,因为消费者通常不控制或不知道所提供的资源的确切位置,但是能够在较高抽象级别(例如国家、州或数据中心)指定位置。
快速弹性:在一些情况下,可以快速且弹性地提供快速向外扩展的能力和快速向内扩展的能力。对于消费者,可用于提供的能力通常看起来不受限制,并且可以在任何时间以任何数量购买。
测量服务:云系统通过利用在适合于服务类型(例如,存储、处理、带宽和活动用户账户)的某一抽象级别的计量能力来自动地控制和优化资源使用。可以监视、控制和报告资源使用,从而为所利用服务的提供者和消费者两者提供透明度。
服务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的提供者的应用。应用程序可通过诸如web浏览器(例如,基于web的电子邮件)等瘦客户机界面从各种客户机设备访问。消费者不管理或控制包括网络、服务器、操作系统、存储、或甚至个别应用能力的底层云基础结构,可能的例外是有限的用户专用应用配置设置。
平台即服务(PaaS):提供给消费者的能力是将消费者创建或获取的应用部署到云基础设施上,该消费者创建或获取的应用是使用由提供商支持的编程语言和工具创建的。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施,但具有对部署的应用和可能的应用托管环境配置的控制。
基础设施即服务(IaaS):提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其它基本计算资源,所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施,但具有对操作系统、存储、部署的应用的控制,以及可能对选择的联网组件(例如,主机防火墙)的有限控制。
部署模型如下:
私有云:云基础设施仅为组织操作。在一个实施例中,它由组织或第三方管理,并且存在于场所内或场所外。
社区云:云基础设施由若干组织共享,并且支持具有共享关注(例如,任务、安全要求、策略和合规性考虑)的特定社区。在一个实施例中,它由组织或第三方管理,并且存在于场所内或场所外。
公共云:云基础设施可用于一般公众或大型工业群体,并且由销售云服务的组织拥有。
混合云:云基础设施是两个或更多云(私有、共同体或公共)的组合,所述云保持唯一实体,但是通过使数据和应用能够移植的标准化或私有技术(例如,用于云之间的负载平衡的云突发)绑定在一起。
云计算环境是面向服务的,其焦点在于无状态、低耦合、模块性和语义互操作性。在云计算的核心是包括互连节点的网络的基础设施。
图7描绘了根据本发明的实施例的云计算环境50。如图所示,在一个实施例中,云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10,本地计算设备例如是个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N。在一个实施例中,节点10彼此通信。在一个实施例中,它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中,诸如如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境50提供基础设施即服务、平台即服务和软件即服务,云消费者不需要为其维护本地计算设备上的资源。应当理解,图5中所示的计算设备54A-N的类型仅旨在说明,并且计算节点10和云计算环境50可通过任何类型的网络和网络可寻址连接(例如,使用网络浏览器)与任何类型的计算机化设备通信。
图8描绘了根据本发明的实施例的由云计算环境50提供的一组功能抽象层。应当预先理解,图8中所示的组件、层和功能仅旨在说明,并且本发明的实施例不限于此。如所描绘的,提供了以下层和相应的功能:
硬件和软件层60包括硬件和软件组件。硬件组件的示例包括:主机61;基于RISC(精简指令集计算机)架构的服务器62;服务器63;刀片服务器64;存储设备65;以及网络和联网组件66。在一些实施例中,软件组件包括网络应用服务器软件67和数据库软件68。
在一个实施例中,虚拟化层70提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器71;虚拟存储装置72;虚拟网络73,包括虚拟专用网络;虚拟应用和操作系统74;以及虚拟客户端75。
在一个实施例中,管理层80提供以下描述的功能。资源供应81提供计算资源和用于在云计算环境内执行任务的其他资源的动态采购。计量和定价82在云计算环境内利用资源时提供成本跟踪,并为这些资源的消费开账单或发票。在一个实施例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理,使得满足所需的服务水平。服务水平协议(SLA)规划和履行85提供云计算资源的预安排和采购,根据该SLA预期该云计算资源的未来要求。
在一个实施例中,工作负载层90提供了云计算环境被用于的功能的示例。在一个实施例中,从该层提供的工作负载和功能的示例包括:绘图和导航91;软件开发和生命周期管理92;虚拟教室教育传递93;数据分析处理94;交易处理95;以及AI 96(例如,自适应多模态学习系统330(图1))。
图9是示出了用于实现本发明的一个实施例的信息处理系统700的高级框图。计算机系统包括一个或多个处理器,诸如处理器702。处理器702连接到通信基础设施704(例如,通信总线、跨接条或网络)。
计算机系统可以包括显示接口706,其转发来自语音通信基础设施704(或来自未示出的帧缓冲器)的图形、文本和其他数据,以便在显示单元708上显示。在一个实施例中,计算机系统还包括主存储器710,优选地是随机存取存储器(RAM),并且还包括辅助存储器712。在一个实施例中,辅助存储器712包括例如硬盘驱动器714和/或可移动存储驱动器716,其表示例如软盘驱动器、磁带驱动器或光盘驱动器。可移动存储驱动器716以本领域普通技术人员公知的方式从可移动存储单元718读取和/或向其写入。可移动存储单元718表示例如软盘、压缩盘、磁带或光盘等,其由可移动存储驱动器716读取和写入。如将理解的,可移动存储单元718包括计算机可读介质,其中存储计算机软件和/或数据。
在替代实施例中,辅助存储器712包括用于允许计算机程序或其它指令被加载到计算机系统中的其它类似装置。这种装置包括例如可移动存储单元720和接口722。这种装置的示例包括程序包和包接口(例如在视频游戏设备中找到的)、可移动存储器芯片(例如EPROM或PROM)和相关插座、以及其它可移动存储单元720和接口722,其允许软件和数据从可移动存储单元720传送到计算机系统。
在一个实施例中,计算机系统还包括通信接口724。通信接口724允许软件和数据在计算机系统和外部设备之间传输。在一个实施例中,通信接口724的示例包括调制解调器、网络接口(例如以太网卡)、通信端口或PCMCIA插槽和卡等。在一个实施例中,经由通信接口724传输的软件和数据采取信号的形式,信号例如是电子信号、电磁信号、光信号或能够由通信接口724接收的其他信号。这些信号经由通信路径(即,信道)726被提供给通信接口724。在一个实施例中,通信路径726承载信号,并且使用电线或电缆、光纤、电话线、蜂窝电话链路、RF链路和/或其它通信信道来实现。
本发明的实施例可以是处于任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质),这些计算机可读程序指令用于使处理器执行本发明实施例的各方面。
计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下项:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置,以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤线缆的光脉冲)、或通过导线传输的电信号。
本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络(例如因特网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储入质中。
用于执行本发明实施例的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据,或者以一种或多种编程语言(包括面向对象的编程语言,例如Smalltalk、C++等)和过程编程语言(例如“C”编程语言或类似的编程语言)的任何组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行,部分在用户的计算机上执行,作为独立的软件包执行,部分在用户的计算机上并且部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机,或者可以连接到外部计算机(例如,使用因特网服务提供商通过因特网)。在一些实施例中,为了执行本发明实施例的各方面,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。
在此参考根据本发明的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明实施例的各方面。将理解,流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以被提供给计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作,使得其中存储有指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作布置,以产生计算机实现的过程,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。
附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中,框中所注明的功能可不按图中所注明的次序发生。例如,连续示出的两个方框实际上可以作为一个步骤完成,同时、基本上同时、以部分或完全时间上重叠的方式执行,或者方框有时可以以相反的顺序执行,这取决于所涉及的功能。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。
从以上描述可以看出,本发明的实施例提供了用于实现本发明的实施例的系统、计算机程序产品和方法。本发明的实施例还提供了用于实现本发明的实施例的非暂时性计算机可用存储介质。非暂时性计算机可用存储介质具有计算机可读程序,其中,程序在计算机上被处理时使计算机实现本文描述的本发明的实施例的步骤。在权利要求中提及单数形式的元素并不旨在指“一个且仅有”,除非明确如此说明,而是指“一个或多个”。本领域普通技术人员当前已知或之后变得已知的上述示例性实施例的元素的所有结构和功能等同物旨在被本权利要求涵盖。根据35 U.S.C.第112节第六段的规定,在本文中不解释任何权利要求元素,除非使用短语“用于...的装置”或“用于...的步骤”明确叙述该元素。
本文所用的术语仅是为了描述本发明的特定实施例,而不是为了限制。如本文所用,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文另有明确指示。还将理解,术语“包括”和/或“包含”在本说明书中使用时,指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在,但不排除一个或多个其它特征、整数、步骤、操作、元件、组件和/或其组合的存在或添加。
以下权利要求中的所有装置或步骤加上功能元件的对应结构、材料、动作和等效物旨在包括用于结合如具体要求保护的其他要求保护的元件来执行所述功能的任何结构、材料或动作。
已经出于说明的目的呈现了对本发明的各种实施例的描述,但并不旨在是详尽的或限于所公开的实施例。在不背离所描述的实施例的范围的情况下,许多修改和变化对于本领域普通技术人员来说是显而易见的。选择在此使用的术语以便最好地解释实施例的原理、实际应用或相对于市场上可以找到的技术的技术改进,或者使本领域的其他普通技术人员能够理解本文公开的实施例。

Claims (20)

1.一种用于视频识别的方法,包括:
接收包括多个数据模态上的视频段序列的输入视频;
对于所述序列中的视频段,基于表示所述视频段的数据,从所述多个数据模态中选择一个或多个数据模态,其中,所选择的每个数据模态对于所述视频段的视频识别是最佳的;
对于所选择的每个数据模态,将表示所选择的数据模态上的所述视频段的至少一个数据输入提供给与所选择的数据模态相对应的机器学习模型,并且经由所述机器学习模型生成表示所述视频段的第一类型的预测;以及
通过聚合所有所生成的第一类型的预测,确定表示整个输入视频的第二类型的预测,其中,所述第二类型的预测指示在所述输入视频中捕获的对象或活动。
2.根据权利要求1所述的方法,其中,所述多个数据模态包括RGB模态、光流量模态、以及音频模态中的至少一个。
3.根据权利要求1所述的方法,其中,表示所述视频段的所述数据包括以下项中的至少一项:一个或多个RGB帧、一个或多个RGB差分帧、以及一个或多个音频帧。
4.根据权利要求1所述的方法,其中,所述多个数据模态中的每个数据模态具有对应的机器学习模型,所述对应的机器学习模型是与对应于所述多个数据模态中的一个或多个其他数据模态的一个或多个其他机器学习模型联合训练的。
5.根据权利要求4所述的方法,其中,与所述多个数据模态中的每个数据模态相对应的每个机器学习模型包括子网络。
6.根据权利要求1所述的方法,其中,所选择的一个或多个数据模态提供视频识别准确度与计算效率之间的最佳折衷。
7.根据权利要求1所述的方法,还包括:
经由联合特征提取器从表示所述多个数据模态上的所述视频段的所述数据输入中提取联合特征;
部分地基于所提取的联合特征,经由长短期记忆LSTM来计算所述视频段的隐藏状态;以及
对于所述多个数据模态中的每个数据模态:
基于所述视频段的所述隐藏状态,估计对应的策略分发;以及
将Gumbel-Softmax操作应用于所述对应的策略分发,以对对应的指示是否选择用于所述视频段的所述视频识别的所述数据模态的二元决策进行采样。
8.根据权利要求1所述的方法,其中,所述多个数据模态中的未被选择的每个数据模态对于所述视频段的所述视频识别是冗余的。
9.一种用于视频识别的系统,包括:
至少一个处理器;以及
非暂时性处理器可读存储设备,其存储指令,所述指令在由所述至少一个处理器执行时使得所述至少一个处理器执行操作,所述操作包括:
接收包括多个数据模态上的视频段序列的输入视频;
对于所述序列中的视频段,基于表示所述视频段的数据,从所述多个数据模态中选择一个或多个数据模态,其中,所选择的每个数据模态对于所述视频段的视频识别是最佳的;
对于所选择的每个数据模态,将表示所选择的数据模态上的所述视频段的至少一个数据输入提供给与所选择的数据模态相对应的机器学习模型,并且经由所述机器学习模型生成表示所述视频段的第一类型的预测;以及
通过聚合所有所生成的第一类型的预测,确定表示整个输入视频的第二类型的预测,其中,所述第二类型的预测指示在所述输入视频中捕获的对象或活动。
10.根据权利要求9所述的系统,其中,所述多个数据模态包括RGB模态、光流量模态、以及音频模态中的至少一个。
11.根据权利要求9所述的系统,其中,表示所述视频段的所述数据包括以下项中的至少一项:一个或多个RGB帧、一个或多个RGB差分帧、以及一个或多个音频帧。
12.根据权利要求9所述的系统,其中,所述多个数据模态中的每个数据模态具有对应的机器学习模型,所述对应的机器学习模型是与对应于所述多个数据模态中的一个或多个其他数据模态的一个或多个其他机器学习模型联合训练的。
13.根据权利要求12所述的系统,其中,与所述多个数据模态中的每个数据模态相对应的每个机器学习模型包括子网络。
14.根据权利要求9所述的系统,其中,所选择的一个或多个数据模态提供视频识别准确度与计算效率之间的最佳折衷。
15.根据权利要求9所述的系统,其中,所述指令还包括:
经由联合特征提取器从表示所述多个数据模态上的所述视频段的所述数据输入中提取联合特征;
部分地基于所提取的联合特征,经由长短期记忆LSTM来计算所述视频段的隐藏状态;以及
对于所述多个数据模态中的每个数据模态:
基于所述视频段的所述隐藏状态,估计对应的策略分发;以及
将Gumbel-Softmax操作应用于所述对应的策略分发,以对对应的指示是否选择用于所述视频段的所述视频识别的所述数据模态的二元决策进行采样。
16.根据权利要求9所述的系统,其中,所述多个数据模态中的未被选择的每个数据模态对于所述视频段的所述视频识别是冗余的。
17.一种用于视频识别的计算机程序产品,所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质存储程序指令,所述程序指令能够由处理器执行以使得所述处理器:
接收包括多个数据模态上的视频段序列的输入视频;
对于所述序列中的视频段,基于表示所述视频段的数据,从所述多个数据模态中选择一个或多个数据模态,其中,所选择的每个数据模态对于所述视频段的视频识别是最佳的;
对于所选择的每个数据模态,将表示所选择的数据模态上的所述视频段的至少一个数据输入提供给与所选择的数据模态相对应的机器学习模型,并且经由所述机器学习模型生成表示所述视频段的第一类型的预测;以及
通过聚合所有所生成的第一类型的预测,确定表示整个输入视频的第二类型的预测,其中,所述第二类型的预测指示在所述输入视频中捕获的对象或活动。
18.根据权利要求17所述的计算机程序产品,其中,所述多个数据模态包括RGB模态、光流量模态、以及音频模态中的至少一个。
19.根据权利要求17所述的计算机程序产品,其中,表示所述视频段的所述数据包括以下项中的至少一项:一个或多个RGB帧、一个或多个RGB差分帧、以及一个或多个音频帧。
20.根据权利要求17所述的计算机程序产品,其中,所述多个数据模态中的每个数据模态具有对应的机器学习模型,所述对应的机器学习模型是与对应于所述多个数据模态中的一个或多个其他数据模态的一个或多个其他机器学习模型联合训练的。
CN202280019832.0A 2021-03-11 2022-03-10 数据模态的自适应选择以用于高效视频识别 Pending CN117203680A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/199,307 US20220292285A1 (en) 2021-03-11 2021-03-11 Adaptive selection of data modalities for efficient video recognition
US17/199,307 2021-03-11
PCT/CN2022/080147 WO2022188838A1 (en) 2021-03-11 2022-03-10 Adaptive selection of data modalities for efficient video recognition

Publications (1)

Publication Number Publication Date
CN117203680A true CN117203680A (zh) 2023-12-08

Family

ID=83193924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280019832.0A Pending CN117203680A (zh) 2021-03-11 2022-03-10 数据模态的自适应选择以用于高效视频识别

Country Status (6)

Country Link
US (1) US20220292285A1 (zh)
JP (1) JP2024509854A (zh)
CN (1) CN117203680A (zh)
DE (1) DE112022001431T5 (zh)
GB (1) GB2620309A (zh)
WO (1) WO2022188838A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189062A (zh) * 2023-04-21 2023-05-30 北京金楼世纪科技有限公司 一种视频流行度预测方法和系统

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7143352B2 (en) * 2002-11-01 2006-11-28 Mitsubishi Electric Research Laboratories, Inc Blind summarization of video content
KR20060116335A (ko) * 2005-05-09 2006-11-15 삼성전자주식회사 이벤트를 이용한 동영상 요약 장치 및 방법과 그 장치를제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수있는 기록 매체
US9031843B2 (en) * 2007-09-28 2015-05-12 Google Technology Holdings LLC Method and apparatus for enabling multimodal tags in a communication device by discarding redundant information in the tags training signals
US8135221B2 (en) * 2009-10-07 2012-03-13 Eastman Kodak Company Video concept classification using audio-visual atoms
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
IL206240A0 (en) * 2010-06-08 2011-02-28 Verint Systems Ltd Systems and methods for extracting media from network traffic having unknown protocols
US8750375B2 (en) * 2010-06-19 2014-06-10 International Business Machines Corporation Echocardiogram view classification using edge filtered scale-invariant motion features
US8274508B2 (en) * 2011-02-14 2012-09-25 Mitsubishi Electric Research Laboratories, Inc. Method for representing objects with concentric ring signature descriptors for detecting 3D objects in range images
EP2523149B1 (en) * 2011-05-11 2023-01-11 Tata Consultancy Services Ltd. A method and system for association and decision fusion of multimodal inputs
EP2786307A1 (en) * 2011-11-29 2014-10-08 Layar B.V. Dynamically configuring an image processing function
WO2015054627A1 (en) * 2013-10-10 2015-04-16 The Trustees Of Columbia University In The City Of New York Methods and systems for aggregation and organization of multimedia data acquired from a plurality of sources
US10776710B2 (en) * 2015-03-24 2020-09-15 International Business Machines Corporation Multimodal data fusion by hierarchical multi-view dictionary learning
CN105022835B (zh) * 2015-08-14 2018-01-12 武汉大学 一种群智感知大数据公共安全识别方法及系统
BR102016007265B1 (pt) * 2016-04-01 2022-11-16 Samsung Eletrônica da Amazônia Ltda. Método multimodal e em tempo real para filtragem de conteúdo sensível
US9836853B1 (en) * 2016-09-06 2017-12-05 Gopro, Inc. Three-dimensional convolutional neural networks for video highlight detection
EP3616090A1 (en) * 2017-04-26 2020-03-04 Piksel, Inc. Multimedia stream analysis and retrieval
BR112020001729A8 (pt) * 2017-08-01 2023-04-11 Huawei Tech Co Ltd Método, aparelho e dispositivo de reconhecimento de gestos
CN113229961A (zh) * 2017-09-04 2021-08-10 梶田大树 照相机系统
US11443227B2 (en) * 2018-03-30 2022-09-13 International Business Machines Corporation System and method for cognitive multilingual speech training and recognition
US11687770B2 (en) * 2018-05-18 2023-06-27 Synaptics Incorporated Recurrent multimodal attention system based on expert gated networks
US10887640B2 (en) * 2018-07-11 2021-01-05 Adobe Inc. Utilizing artificial intelligence to generate enhanced digital content and improve digital content campaign design
CN109508375A (zh) * 2018-11-19 2019-03-22 重庆邮电大学 一种基于多模态融合的社交情感分类方法
US20220198814A1 (en) * 2019-08-14 2022-06-23 Hewlett-Packard Development Company, L.P. Image dewarping with curved document boundaries
US11270123B2 (en) * 2019-10-22 2022-03-08 Palo Alto Research Center Incorporated System and method for generating localized contextual video annotation
US11416774B2 (en) * 2019-10-23 2022-08-16 Samsung Electronica Da Amazonia Ltda. Method for video recognition capable of encoding spatial and temporal relationships of concepts using contextual features
WO2021166058A1 (ja) * 2020-02-18 2021-08-26 日本電気株式会社 画像認識装置、画像認識方法、及び、記録媒体
WO2021211140A1 (en) * 2020-04-17 2021-10-21 Google Llc Generating quantization tables for image compression
CN111507311B (zh) * 2020-05-22 2024-02-20 南京大学 一种基于多模态特征融合深度网络的视频人物识别方法
US20220157045A1 (en) * 2020-11-16 2022-05-19 Qualcomm Incorporated Automatic early-exiting machine learning models
US20220245424A1 (en) * 2021-01-29 2022-08-04 Samsung Electronics Co., Ltd. Microgenre-based hyper-personalization with multi-modal machine learning
US11574477B2 (en) * 2021-03-08 2023-02-07 Adobe Inc. Highlight video generated with adaptable multimodal customization
US20230140369A1 (en) * 2021-10-28 2023-05-04 Adobe Inc. Customizable framework to extract moments of interest

Also Published As

Publication number Publication date
US20220292285A1 (en) 2022-09-15
GB202314813D0 (en) 2023-11-08
JP2024509854A (ja) 2024-03-05
WO2022188838A1 (en) 2022-09-15
GB2620309A (en) 2024-01-03
DE112022001431T5 (de) 2024-03-28
WO2022188838A9 (en) 2023-12-07

Similar Documents

Publication Publication Date Title
US20170054641A1 (en) Predictive network traffic management
US10386190B2 (en) Cognitive guide system for multi-objective excursion
US11178010B2 (en) Personalized machine learning model management and deployment on edge devices
US20200394542A1 (en) Automatic visualization and explanation of feature learning output from a relational database for predictive modelling
US10956816B2 (en) Enhancing rating prediction using reviews
US11194862B2 (en) Topic bridging determination using topical graphs
US10922101B2 (en) User interface widget recommendation
US10671928B2 (en) Adaptive analytical modeling tool
US11354338B2 (en) Cognitive classification of workload behaviors in multi-tenant cloud computing environments
US20180300740A1 (en) Predicting cost of an infrastructure stack described in a template
US10803246B2 (en) Decomposing composite product reviews
US20200250489A1 (en) Self-improving transferring in bot conversation
WO2022188838A1 (en) Adaptive selection of data modalities for efficient video recognition
US11783224B2 (en) Trait-modeled chatbots
US11151990B2 (en) Operating a voice response system
US11183186B2 (en) Operating a voice response system
US20200380530A1 (en) Automatic internet of things enabled contract compliance monitoring
US20230177385A1 (en) Federated machine learning based on partially secured spatio-temporal data
US10832676B2 (en) Detecting and correcting user confusion by a voice response system
CN114424216A (zh) 域特定模型压缩
US11429876B2 (en) Infusing knowledge into natural language processing tasks using graph structures
US10762432B2 (en) Semantic analysis network resource provider recommendation system
US11211049B2 (en) Program dialog by example
US11157554B2 (en) Video response generation and modification
US20210216879A1 (en) Methods and systems for improving heuristic searches for artificial intelligence planning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination