CN108027834A - 用于通过文本的视频搜索的语义多感官嵌入 - Google Patents

用于通过文本的视频搜索的语义多感官嵌入 Download PDF

Info

Publication number
CN108027834A
CN108027834A CN201680054406.5A CN201680054406A CN108027834A CN 108027834 A CN108027834 A CN 108027834A CN 201680054406 A CN201680054406 A CN 201680054406A CN 108027834 A CN108027834 A CN 108027834A
Authority
CN
China
Prior art keywords
video
entry
inquiry
text
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680054406.5A
Other languages
English (en)
Inventor
A·哈比比安
T·E·J·门辛克
C·G·M·斯诺克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN108027834A publication Critical patent/CN108027834A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

一种嵌入视频以供文本搜索的方法,包括从视频中提取视觉特征。视觉特征可例如包括外观信息、运动、音频和/或类似特征。词条向量由与视频相关联的文本描述确定。例如,文本可被包括在视频的标题中或被包括在视频内(例如,字幕)。基于所提取的视频特征计算特征投影,以及基于词条向量计算文本投影。通过联合优化语义可预测性和语义描述性,基于特征投影和文本投影来计算语义嵌入。

Description

用于通过文本的视频搜索的语义多感官嵌入
相关申请的交叉引用
本申请要求于2015年9月21日提交的题为“SEMANTIC MULTISENSORY EMBEDDINGSFOR VIDEO SEARCH BY TEXT(用于通过文本的视频搜索的语义多感官嵌入)”的美国临时专利申请No.62/221,569的权益,其公开内容通过援引全部明确纳入于此。
背景
领域
本公开的某些方面一般涉及计算机视觉、多媒体分析和机器学习,尤其涉及改进用于嵌入视频以启用基于文本的搜索能力的系统和方法。
背景技术
可包括一群互连的人工神经元(例如,神经元模型)的人工神经网络是一种计算设备或者表示将由计算设备执行的方法。
卷积神经网络是一种前馈人工神经网络。卷积神经网络可包括神经元集合,其中每一个神经元具有感受野并且共同地拼出一输入空间。卷积神经网络(CNN)具有众多应用。具体而言,CNN已被广泛使用于模式识别和分类领域。
深度学习架构(诸如深度置信网络和深度卷积网络)是分层神经网络架构,其中第一层神经元的输出变成第二层神经元的输入,第二层神经元的输出变成第三层神经元的输入,依此类推。深度神经网络可被训练以识别特征阶层并且因此它们已被越来越多地用于对象识别应用。类似于卷积神经网络,这些深度学习架构中的计算可分布在处理节点群体上,其可被配置在一个或多个计算链中。这些多层架构可每次训练一层并可使用反向传播微调。
其他模型也可用于对象识别。例如,支持向量机(SVM)是可被应用于分类的学习工具。支持向量机包括对数据进行归类的分离超平面(例如,决策边界)。该超平面由监督式学习来定义。期望的超平面增加训练数据的裕量。换言之,超平面应该具有到训练示例的最大的最小距离。
尽管这些解决方案在数个分类基准上达到了优异的结果,但它们的计算复杂度可能极其高。另外,模型的训练可能是有挑战性的。
概述
在本公开的一方面,给出了一种嵌入视频以供文本搜索的方法。该方法包括联合优化语义可预测性和语义描述性。语义可预测性和语义描述性通过基于查询中包含的词条来学习嵌入以及通过基于视频的多模式分析来学习嵌入以被联合优化。
另一方面,提出了一种用于嵌入视频以供文本搜索的装置。该装置包括存储器和至少一个处理器。该一个或多个处理器被耦合到存储器。该(诸)处理器被配置为共同优化语义可预测性和语义描述性。语义可预测性和语义描述性通过基于查询中包含的词条来学习嵌入以及通过基于视频的多模式分析来学习嵌入以被联合优化。
在又一方面,提出了一种用于嵌入视频以供文本搜索的装备。该装备包括用于联合优化语义可预测性和语义描述性的装置。语义可预测性和语义描述性通过基于查询中包含的词条来学习嵌入以及通过基于视频的多模式分析来学习嵌入以被联合优化。该装备还包括用于基于嵌入来预测视频中的事件的装置。
在又一方面,提出了一种非瞬态计算机可读介质。该非瞬态计算机可读介质其上编码有用于嵌入视频以供文本搜索的程序代码。该程序代码由处理器执行且包括用于联合优化语义可预测性和语义描述性的程序代码。语义可预测性和语义描述性通过基于查询中包含的词条来学习嵌入以及通过基于视频的多模式分析来学习嵌入以被联合优化。
本公开的附加特征和优点将在下文描述。本领域技术人员应当领会,本公开可容易地被用作修改或设计用于实施与本公开相同的目的的其他结构的基础。本领域技术人员还应认识到,这样的等效构造并不脱离所附权利要求中所阐述的本公开的教导。被认为是本公开的特性的新颖特征在其组织和操作方法两方面连同进一步的目的和优点在结合附图来考虑以下描述时将被更好地理解。然而,要清楚理解的是,提供每一幅附图均仅用于解说和描述目的,且无意作为对本公开的限定的定义。
附图简述
在结合附图理解下面阐述的详细描述时,本公开的特征、本质和优点将变得更加明显,在附图中,相同附图标记始终作相应标识。
图1解说了根据本公开的某些方面的使用片上系统(SOC)(包括通用处理器)来设计神经网络的示例实现。
图2解说了根据本公开的各方面的系统的示例实现。
图3A是解说根据本公开的各方面的神经网络的示图。
图3B是解说根据本公开的各方面的示例性深度卷积网络(DCN)的框图。
图4是解说根据本公开的各方面的用于训练和嵌入的示例性过程的框图。
图5是解说基于图4的示例的示例性联合优化的线图。
图6是解说根据本公开的各方面的视频的内容的示例性预测的示图。
图7是根据本公开的各方面的示例基于文本的搜索查询。
图8解说了根据本公开的各方面的用于嵌入视频以供文本搜索的方法。
图9解说了根据本公开的各方面的用于训练和嵌入的方法。
图10解说了根据本公开的各方面的用于视频检索的方法。
详细描述
以下结合附图阐述的详细描述旨在作为各种配置的描述,而无意表示可实践本文中所描述的概念的仅有的配置。本详细描述包括具体细节以便提供对各种概念的透彻理解。然而,对于本领域技术人员将显而易见的是,没有这些具体细节也可实践这些概念。在一些实例中,以框图形式示出众所周知的结构和组件以避免湮没此类概念。
基于本教导,本领域技术人员应领会,本公开的范围旨在覆盖本公开的任何方面,不论其是与本公开的任何其他方面相独立地还是组合地实现的。例如,可以使用所阐述的任何数目的方面来实现装置或实践方法。另外,本公开的范围旨在覆盖使用作为所阐述的本公开的各个方面的补充或者与之不同的其他结构、功能性、或者结构及功能性来实践的此类装置或方法。应当理解,所披露的本公开的任何方面可由权利要求的一个或多个元素来实施。
措辞“示例性”在本文中用于表示“用作示例、实例、或解说”。本文中描述为“示例性”的任何方面不必被解释为优于或胜过其他方面。
尽管本文描述了特定方面,但这些方面的众多变体和置换落在本公开的范围之内。虽然提到了优选方面的一些益处和优点,但本公开的范围并非旨在被限定于特定益处、用途或目标。相反,本公开的各方面旨在能宽泛地应用于不同的技术、系统配置、网络和协议,其中一些作为示例在附图以及以下对优选方面的描述中解说。详细描述和附图仅仅解说本公开而非限定本公开,本公开的范围由所附权利要求及其等效技术方案来定义。
用于通过文本的视频搜索的语义多感官嵌入
视频搜索解决方案可基于从文件名、周围文本、社交标记、隐藏字幕或演讲稿导出的文本来提供对视频的访问。当视觉内容没有被提及或没有在相关文本中被正当反映时,这会导致令人失望的检索性能。附加地,当视频源自非英语国家时,查询内容变得困难得多,因为来自精确机器翻译的稳健自动语音识别结果难以实现。如果此时没有文字可与视频内容相关联,这些技术会产生不期望的结果。
为了提供更稳健的视频检索,可使用概念检测器。概念检测器与物体、场景、人物和事件有关。概念检测器将概念存在的概率指派给一段视频内容,其可根据概念存在的概率通过对视频内容段进行排序来在搜索时间被用于检索。然而,对于概念检测器,每个个体检测器都需要单独的视频集合及其概念级别标记,以便在训练期间学习。概念检测器包含大量的人工注释工作来指定通用的概念词汇表,并为每个训练概念提供肯定和否定的视频。当构建全面的概念检测器集合以匹配用户的词汇表时,这样大量手动注释工作是有限制性的(例如,它不是可缩放的)。
本公开的各方面都针对学习有意义的视频表示,而不是从每个可能的文本先验查询的视频中学习概念。在训练时间,可以从大量视频和它们的文本描述(可能是有噪的)(例如,包括拼写错误的单词、印刷错误、不常见或俚语词条)中学习语义多感官嵌入。例如,文本描述可以从互联网来源等中收获。在搜索时间,表示或经学习的嵌入可提供任何文本视频检索请求,而没有任何视频或图像示例。
根据本公开的各方面,一个目标是学习将每个低级视频表示xi∈X映射到语义表示si∈S中的表示函数f:X→S。低级视频表示是标准的非语义描述符,其可通过预先训练的卷积神经网络,或者通过聚集手工制作的视频描述符(诸如,通过尺度不变特征变换(SIFT)和有向梯度直方图(HOG))来提取。
可在视频集合和它们的语义标记上训练表示函数,该语义标记可包括来自描述yi∈Y的词条向量。
学习表示函数的普通方法是叠加二进制分类器集合,其预测在由视频特征给定的描述中每个个体词条的存在与否。然而,个体地预测这些词条受困于两个主要缺点。首先,大多数词条很少出现在描述中。对于这些不常用的词条,没有足够的肯定示例可用于训练可靠的视觉分类器。其次,词条向量是高度有噪的和不完整的,这限制了它们被直接用作训练视觉分类器的监督源的可靠性。因此,本公开的各方面旨在学习词条向量的较低维投影上的语义表示,这些词条向量已经被示为较不稀少且较不有噪的。
表示函数可被公式化为多模式嵌入,其可被称为VideoStory(视频故事)嵌入或表示。在联合优化框架中学习嵌入,该框架平衡了:
1)描述性,尽可能地保留在视频描述中编码的信息,以及
2)可预测性,以确保可从视频内容中有效地识别表示。
VideoStory框架
视频数据集可由视频特征表示,其中D表示视觉特征的维度,而N表示视频的数目。视频的文本描述可由二进制词条向量Y∈(0,1)M×N表示,其指示在每个视频描述中存在哪些词条,其中M是描述中唯一性词条的数目。VideoStory表示可通过使下式最小化来学习:
其中是文本投影矩阵,是视觉投影矩阵,而是VideoStory嵌入。损失函数Ld对应于用于学习描述性VideoStory的第一目标,而损失函数Lp对应于用于学习可预测的VideoStory的第二目标。VideoStory嵌入S用作两种损失函数之间的互连。
描述性
Ld函数使原始视频描述Y与从A和S获得的经重构转化之间的二次误差最小化:
其中Ψ(·)和Ω(·)表示正则化函数,而λa≥0和λs≥0是正则化矩阵系数。在一些方面,l2正则化矩阵的矩阵变体(例如,),平方矩阵元素的总和(经平方的弗罗宾尼斯(Frobenius)范数)可用于正则化。对VideoStory矩阵可应用类似的正则化。
可预测性
Lp函数测量VideoStory S与使用W的视频特征嵌入之间发生的损失。由于VideoStory S是实值的,与二进制或多类编码相反,用于支持向量机(SVM)的标准分类损失(诸如铰链损耗)可能不可靠。因此,Lp可被定义为正则化回归:
其中,例如,Frobenius范数可用于视觉投影矩阵W的正则化,其中而λw是正则化系数。
联合优化
为了处理大规模数据集和最先进的高维视觉特征(例如,视频特征或深度学习表示上的费什尔(Fisher)向量),可使用随机梯度下降法(SGD)优化或其他优化技术。表1的伪代码提供了一个此类示例。
表1
数据集(历元)跳过次数和步长η是SGD的超参数。
在嵌入S固定时,如在式(1)中给定的VideoStory目标函数相对于矩阵A和W是凸的。在该情形中,联合优化可解耦为式(2)和式(3),其两者都可降低为固定S的标准岭回归。此外,当A和W两者都是固定的时,式(1)中的目标相对于S是凸的。因此,可通过计算相对于参数的当前值的样本梯度来采用标准SGD,并且S可与A和W一起被最小化。
在步骤t随机采样的视频和描述对可由(xt,yt)表示,而st可表示样本t的当前VideoStory嵌入。用于该样本的式(1)相对于A,W和st的梯度,由下式给出:
以及(5)
在式(6)中,联合学习描述性和可预测性的效果变得清晰,其中文本投影矩阵A和视觉投影矩阵W两者都有助于学习VideoStory嵌入S。该嵌入S可被用来在式(4)中获得文本投影A矩阵,以及在式(5)获得视觉投影W矩阵。这进而导致了VideoStory嵌入,其既是描述性的(通过保留文本信息)又是可预测性的(通过最小化视觉预测损失)。
在一些方面,参数A,S和W可通过具有零均值的随机数来初始化。替换地,在一些方面,A和S矩阵可通过词条向量Y的奇异值分解(SVD)来初始化,其可加速学习过程的收敛。
在训练视觉和文字投影矩阵之后,可使用这些矩阵来预测每个视频的VideoStory表示和词条向量。在给出视频xi和描述yi两者的情况下,可通过从式(1)返回si来获得VideoStory表示,同时保持A和W两者固定。然而,实践中大多数视频都未提供有描述。因此,可从低级特征xi中预测VideoStory表示,如由下式给出:
给出预测表示si,可如下式表示词条向量的预测:
其中最高值的词条与此视频最相关。
多模式VideoStory嵌入
利用多种模态对于理解复杂事件可以是有效。在一些方面,可学习多模式视频故事VideoStorymm嵌入。也就是说,当测量可预测性损失时,VideoStory框架可通过并入多种模态(例如音频、视觉审美、运动视频)来扩展。在一些方面,词条只有在所有模态中都相似的情况下才可以被组合。这可防止在视觉上相似但在其他特征空间,即音频和动作(例如,鸟和飞机、或签名和哭泣)中不相似的词条的组合。
经学习的视觉投影矩阵W从低级视频特征预测VideoStory表示。文本投影矩阵A从VideoStory表示预测词条向量。
为此,来自式(3)的单模态可预测性损失可用每模态可预测性损失的加权组合来代替:
其中S是多模态VideoStory表示,并且W={Wj,j=1...J}是包括来自所有J个模态的特征投影矩阵的集合。每个特征投影矩阵将从视频提取的低级特征(例如,音频和/或运动描述符)投影到其对应的VideoStory表示中。此外,γj≥0是用于在学习VideoStory表示中加权每个模态的重要性的参数。在一些方面,可将γj参数初始化为1。在另一方面,如果有足够的训练示例可用,则也可通过交叉验证来优化γj参数。
目标函数式(1)相对于参数S,A和Wj(在其他参数固定时)仍然是凸的。然而,关于st的梯度,式(6)可由下式给出:
可以看出,所有的模态一起为学习多模式VideoStory嵌入S作出了贡献。
在给出视频特征和描述yi两者的情况下,可通过从式(1)返回si来获得多模式VideoStory表示,同时保持A和W固定。否则,可使用经学习的特征投影矩阵来提取该表示。每个特征投影矩阵Wj基于其基础模态来预测VideoStory表示如下:
最终的多模式表示可通过聚集每个模态表示来获得,例如,通过平均、级联或内核池化。通过在模态上进行聚集,不期望的组合可能会受罚(例如,鸟和飞机),由此防止词条分组的不期望的组合,并降低所有模态的可预测性损失。
用于基于文本的视频搜索的VideoStory
如上所讨论的,描述性损失Ld被定义为重建来自VideoStory表示的所有词条的总体误差。根据该定义,描述性损失偏向于更频繁的词条,因为最小化它们的重构误差会导致整体误差上的更大减少。因此,可能会丢弃描述中不频繁的词条,这可能会使其来自视频特征的预测准确性降级。这可能会削弱用于基于文本的视频搜索的表示学习的有效性,其中从视频预测查询词条的准确性可能更重要。
为了解决该问题,在一些方面,VideoStory框架可学习对基于文本的视频搜索有效的视频表示。该VideoStory扩展可被称为VideoStory0。VideoStory0最小化了词条关于其描述事件的重要性(而非关于其在VideoStory训练数据中的频度)的重构误差。为此,词条敏感的描述性损失可由下式给出:
其中是对角矩阵,表示每个词条的描述事件的重要性。通过为词条j设置hjj的相对高的值,与其他词条相比,其重构误差更受罚。因此,词条有望得到更准确地重建。
词条重要性矩阵H可通过依赖文本事件定义中词条的存在或不存在来确定。词条重要性矩阵可经由例如文本、音频等的查询来提供或确定。在一些方面,在事件定义中存在的词条比不存在的词条更重要。如果词条j在事件定义中存在,则重要性矩阵hjj的每个元素被设置为α,并且如果词条j在事件定义中不存在,则将其设置为1-α。如此,α可用作0和1之间的平衡参数。例如,为了给当前词条指派更多的重要性,可将α设置为大于0.5的值(例如,0.75)。可针对每个事件单独提取重要性矩阵或者针对所有时间联合提取重要性矩阵。
用于基于文本的视频搜索的多模式VideoStory
为了利用视频的多模式分析和文本查询的词条分析两者,可使用以下目标函数来训练嵌入:
在训练视觉和文本投影矩阵之后,可如下执行基于文本的搜索。每个测试视频(例如,未见视频)可通过基于式(7)和式(8)预测其词条向量来表示。通过将事件定义中的词条与VideoStory训练数据中的M个唯一性词条进行匹配,可将文本事件定义转化成事件查询,表示为可通过基于余弦相似度测量视频表示和事件查询之间的相似度来获得排名:
在一些方面,排名最高的视频可被呈现为搜索结果。替换地,可呈现排名高于预定义阈值的视频。
因此,学习的输出是两个投影矩阵:i)视觉投影矩阵W,以及ii)文本投影矩阵A。在训练之后,并且在测试/搜索时间,经学习的投影矩阵A和W可被有利地用于具有或不具有文本标记的视频的基于文本的视频搜索。例如,对于每个测试视频(未见视频),可如等式7和8中的通过连续地应用经学习的视觉和文本投影来预测词条(y)。输出是未见视频的预测词条向量y。当用户请求文本查询时,可通过如在式14中匹配它们的词条来比较文本查询和每个测试视频。最后,测试视频可通过它们经测量的与查询的相似度来排名并被呈现给用户。
图1解说了根据本公开的某些方面使用片上系统(SOC)100的前述用于嵌入视频以供文本搜索的的示例实现,SOC 100可包括通用处理器(CPU)或多核通用处理器(CPU)102。变量(例如,神经信号和突触权重)、与计算设备(例如,带有权重的神经网络)相关联的系统参数、延迟、频率槽信息、以及任务信息可被存储在与神经处理单元(NPU)108相关联的存储器块、与CPU102相关联的存储器块、与图形处理单元(GPU)104相关联的存储器块、与数字信号处理器(DSP)106相关联的存储器块、专用存储器块118中,或可跨多个块分布。在通用处理器102处执行的指令可从与CPU 102相关联的程序存储器加载或可从专用存储器块118加载。
SOC 100还可包括为具体功能定制的附加处理块(诸如GPU 104、DSP 106、连通性块110(其可包括第四代长期演进(4G LTE)连通性、无执照Wi-Fi连通性、USB连通性、蓝牙连通性等))以及例如可检测和识别姿势的多媒体处理器112。在一种实现中,NPU实现在CPU、DSP、和/或GPU中。SOC 100还可包括传感器处理器114、图像信号处理器(ISP)、和/或导航120(其可包括全球定位系统)。
SOC 100可基于ARM指令集。在本公开的一方面,被加载到通用处理器102中的指令可包括用于联合优化语义可预测性和语义描述性的代码。被加载到通用处理器102中的指令还可包括用于基于查询中包括的词条来学习嵌入以及基于视频的多模式分析来学习嵌入的代码。
图2解说了根据本公开的某些方面的系统200的示例实现。如图2中所解说的,系统200可具有可执行本文所描述的方法的各种操作的多个局部处理单元202。每个局部处理单元202可包括局部状态存储器204和可存储神经网络的参数的局部参数存储器206。另外,局部处理单元202可具有用于存储局部模型程序的局部(神经元)模型程序(LMP)存储器208、用于存储局部学习程序的局部学习程序(LLP)存储器210、以及局部连接存储器212。此外,如图2中所解说的,每个局部处理单元202可与用于为该局部处理单元的各局部存储器提供配置的配置处理器单元214对接,并且与提供各局部处理单元202之间的路由的路由连接处理单元216对接。
深度学习架构可通过学习在每一层中以逐次更高的抽象程度来表示输入、藉此构建输入数据的有用特征表示来执行对象识别任务。以此方式,深度学习解决了传统机器学习的主要瓶颈。在深度学习出现之前,用于对象识别问题的机器学习办法可能严重依赖人类工程设计的特征,或许与浅分类器相结合。浅分类器可以是两类线性分类器,例如,其中可将特征向量分量的加权和与阈值作比较以预测输入属于哪一类。人类工程设计的特征可以是由拥有领域专业知识的工程师针对具体问题领域定制的模版或内核。相反,深度学习架构可学习以表示与人类工程师可能会设计的类似的特征,但它是通过训练来学习的。此外,深度网络可以学习以表示和识别人类可能还没有考虑过的新类型的特征。
深度学习架构可以学习特征阶层。例如,如果向第一层呈递视觉数据,则第一层可学习以识别输入流中的相对简单的特征(诸如边)。在另一示例中,如果向第一层呈递听觉数据,则第一层可学习以识别特定频率中的频谱功率。取第一层的输出作为输入的第二层可以学习以识别特征组合,诸如对于视觉数据识别简单形状或对于听觉数据识别声音组合。例如,更高层可学习以表示视觉数据中的复杂形状或听觉数据中的词语。再高层可学习以识别常见视觉对象或口语短语。
深度学习架构在被应用于具有自然阶层结构的问题时可能表现特别好。例如,机动车辆的分类可受益于首先学习以识别轮子、挡风玻璃、以及其他特征。这些特征可在更高层以不同方式被组合以识别轿车、卡车和飞机。
神经网络可被设计成具有各种连通性模式。在前馈网络中,信息从较低层被传递到较高层,其中给定层中的每个神经元向更高层中的神经元进行传达。如上所述,可在前馈网络的相继层中构建阶层式表示。神经网络还可具有回流或反馈(也被称为自顶向下(top-down))连接。在回流连接中,来自给定层中的神经元的输出可被传达给相同层中的另一神经元。回流架构可有助于识别跨越不止一个按顺序递送给该神经网络的输入数据组块的模式。从给定层中的神经元到较低层中的神经元的连接被称为反馈(或自顶向下)连接。当高层级概念的识别可辅助辨别输入的特定低层级特征时,具有许多反馈连接的网络可能是有助益的。
参照图3A,神经网络的各层之间的连接可以是全连接的(302)或局部连接的(304)。在全连接网络302中,第一层中的神经元可将它的输出传达给第二层中的每个神经元,从而第二层中的每个神经元将从第一层中的每个神经元接收输入。替换地,在局部连接网络304中,第一层中的神经元可连接至第二层中有限数目的神经元。卷积网络306可以是局部连接的,并且被进一步配置成使得与针对第二层中每个神经元的输入相关联的连接强度被共享(例如,308)。更一般化地,网络的局部连接层可被配置成使得一层中的每个神经元将具有相同或相似的连通性模式,但其连接强度可具有不同的值(例如,310、312、314和316)。局部连接的连通性模式可能在更高层中产生空间上相异的感受野,这是由于给定区域中的更高层神经元可接收到通过训练被调谐为到网络的总输入的受限部分的性质的输入。
局部连接的神经网络可能非常适合于其中输入的空间位置有意义的问题。例如,被设计成识别来自车载相机的视觉特征的网络300可发展具有不同性质的高层神经元,这取决于它们与图像下部关联还是与图像上部关联。例如,与图像下部相关联的神经元可学习以识别车道标记,而与图像上部相关联的神经元可学习以识别交通信号灯、交通标志等。
深度卷积网络(DCN)可以用受监督式学习来训练。在训练期间,可向DCN呈递图像(诸如限速标志的经裁剪图像326),并且可随后计算“前向传递(forward pass)”以产生输出322。输出322可以是对应于特征(诸如“标志”、“60”、和“100”)的值向量。网络设计者可能希望DCN在输出特征向量中针对其中一些神经元输出高得分,例如与经训练网络300的输出322中所示的“标志”和“60”对应的那些神经元。在训练之前,DCN产生的输出很可能是不正确的,并且由此可计算实际输出与目标输出之间的误差。DCN的权重可随后被调整以使得DCN的输出得分与目标更紧密地对准。
为了调整权重,学习算法可为权重计算梯度向量。该梯度可指示在权重被略微调整情况下误差将增加或减少的量。在顶层,该梯度可直接对应于连接倒数第二层中的活化神经元与输出层中的神经元的权重的值。在较低层中,该梯度可取决于权重的值以及所计算出的较高层的误差梯度。权重可随后被调整以减小误差。这种调整权重的方式可被称为“反向传播”,因为其涉及在神经网络中的“反向传递(backward pass)”。
在实践中,权重的误差梯度可能是在少量示例上计算的,从而计算出的梯度近似于真实误差梯度。这种近似方法可被称为随机梯度下降法。随机梯度下降法可被重复,直到整个系统可达成的误差率已停止下降或直到误差率已达到目标水平。
在学习之后,DCN可被呈递新图像326并且在网络中的前向传递可产生输出322,其可被认为是该DCN的推断或预测。
深度置信网络(DBN)是包括多层隐藏节点的概率性模型。DBN可被用于提取训练数据集的阶层式表示。DBN可通过堆叠多层受限波尔兹曼机(RBM)来获得。RBM是一类可在输入集上学习概率分布的人工神经网络。由于RBM可在没有关于每个输入应该被分类到哪个类的信息的情况下学习概率分布,因此RBM经常被用于无监督式学习中。使用混合无监督式和受监督式范式,DBN的底部RBM可按无监督方式被训练并且可以用作特征提取器,而顶部RBM可按受监督方式(在来自先前层的输入和目标类的联合分布上)被训练并且可用作分类器。
深度卷积网络(DCN)是卷积网络的网络,其配置有附加的池化和归一化层。DCN已在许多任务上达成现有最先进的性能。DCN可使用受监督式学习来训练,其中输入和输出目标两者对于许多典范是已知的并被用于通过使用梯度下降法来修改网络的权重。
DCN可以是前馈网络。另外,如上所述,从DCN的第一层中的神经元到下一更高层中的神经元群的连接跨第一层中的神经元被共享。DCN的前馈和共享连接可被利用于进行快速处理。DCN的计算负担可比例如类似大小的包括回流或反馈连接的神经网络小得多。
卷积网络的每一层的处理可被认为是空间不变模版或基础投影。如果输入首先被分解成多个通道,诸如彩色图像的红色、绿色和蓝色通道,那么在该输入上训练的卷积网络可被认为是三维的,其具有沿着该图像的轴的两个空间维度以及捕捉颜色信息的第三维度。卷积连接的输出可被认为在后续层318和320中形成特征图,该特征图(例如,320)中的每个元素从先前层(例如,318)中一定范围的神经元以及从该多个通道中的每一个通道接收输入。特征图中的值可以用非线性(诸如矫正)max(0,x)进一步处理。来自毗邻神经元的值可被进一步池化(这对应于降采样)并可提供附加的局部不变性以及维度缩减。还可通过特征图中神经元之间的侧向抑制来应用归一化,其对应于白化。
深度学习架构的性能可随着有更多被标记的数据点变为可用或随着计算能力提高而提高。现代深度神经网络用比仅仅十五年前可供典型研究者使用的计算资源多数千倍的计算资源来例行地训练。新的架构和训练范式可进一步推升深度学习的性能。经矫正的线性单元可减少被称为梯度消失的训练问题。新的训练技术可减少过度拟合(over-fitting)并因此使更大的模型能够达成更好的普遍化。封装技术可抽象出给定的感受野中的数据并进一步提升总体性能。
图3B是解说示例性深度卷积网络350的框图。深度卷积网络350可包括多个基于连通性和权重共享的不同类型的层。如图3B所示,该示例性深度卷积网络350包括多个卷积块(例如,C1和C2)。每个卷积块可配置有卷积层、归一化层(LNorm)、和池化层。卷积层可包括一个或多个卷积滤波器,其可被应用于输入数据以生成特征图。尽管仅示出了两个卷积块,但本公开不限于此,而是,根据设计偏好,任何数目的卷积块可被包括在深度卷积网络350中。归一化层可被用于对卷积滤波器的输出进行归一化。例如,归一化层可提供白化或侧向抑制。池化层可提供在空间上的降采样聚集以实现局部不变性和维度缩减。
例如,深度卷积网络的平行滤波器组可任选地基于ARM指令集被加载到SOC 100的CPU 102或GPU 104上以达成高性能和低功耗。在替换实施例中,平行滤波器组可被加载到SOC 100的DSP 106或ISP 116上。另外,DCN可访问其他可存在于SOC上的处理块,诸如专用于传感器114和导航120的处理块。
深度卷积网络350还可包括一个或多个全连接层(例如,FC1和FC2)。深度卷积网络350可进一步包括逻辑回归(LR)层。深度卷积网络350的每一层之间是要被更新的权重(未示出)。每一层的输出可以用作深度卷积网络350中后续层的输入以从第一卷积块C1处提供的输入数据(例如,图像、音频、视频、传感器数据和/或其他输入数据)学习阶层式特征表示。
在一种配置中,机器学习模型被配置为用于通过基于查询中包括的词条并基于视频的多模式分析来学习嵌入以联合优化语义可预测性和语义描述性。该模型还被配置为基于嵌入来预测视频中的事件。该模型包括联合优化装置和/或预测装置。在一方面,联合优化装置和/或预测装置可以是配置成执行所叙述功能的通用处理器102、与通用处理器102相关联的程序存储器、存储器块118、局部处理单元202、和/或路由连接处理单元216。在另一配置中,前述装置可以是配置成执行由前述装置所叙述的功能的任何模块或任何装置。
根据本公开的某些方面,每个局部处理单元202可被配置成基于模型的一个或多个期望功能特征来确定模型的参数,以及随着所确定的参数被进一步适配、调谐和更新来使这一个或多个功能特征朝着期望的功能特征发展。
图4是解说根据本公开的各方面的用于训练和嵌入的示例性过程400的框图。参照图4,提供了来自训练数据集的视频集402。例如,可从视频库检索的视频402可以包括文本描述。在图4的示例中,第一视频包括文本描述“疯狂的家伙在自行车上做疯狂的特技”而第二视频(部分被遮挡)包括文本描述“来自骑车者汤姆的独创自行车技巧”。尽管图4的视频中的每一者包括文本描述或标记,这仅仅是为了便于解释,并且标记可能不被包括或视频可能未被标记。
文本描述和与视频相关联的任何其他基于文本的描述(例如,字幕信息)可用于形成词条向量406(yi)。在该示例中,使用视频文本描述,可形成词条向量并且包括词条“特技”、“自行车”和“摩托车”。词条向量可进一步包括检测到的词条中的每一者的同义词。例如,词条向量还可包括自行车的同义词(诸如,摩托车、越野车等)。文本投影A可基于词条向量406(yi)来确定。
视频特征xi可从视频中提取。视频特征404(xi)可包括外观、运动、音频、类似特征及其组合。例如,视频特征可以包括摩托车的移动、骑乘者的移动到座位上的朝向一侧的位置、摩托车的声音等。这些视频特征404(xi)可用于确定特征投影W。特征投影W和文本投影A可进而用于计算嵌入si。通过联合优化语义可预测性和语义描述性可确定或学习嵌入。
图5是解说基于图4的示例的示例性联合优化的线图500。如图5中所示,在线图的左侧,所提议的嵌入包括所有经标识词条(例如,特技/自行车/摩托车)的分组。该分组是可预测的,但可能不是描述性的。也就是说,嵌入可能会从内容中识别,因为视频中的每一者都包含特技、自行车或摩托车。然而,嵌入不可能是非常描述性的,因为它包含了所有的词条。换而言之,包括此嵌入的数据集的搜索将产生比期望的更大数目的结果(例如,其中视频包括自行车、摩托车或特技的结果)。
另一方面,在线图的右侧,经标识的词条无一被分组。如此,嵌入是描述性的,但可能无法预测。如此,包括此嵌入的数据集的搜索将产生比期望的更少的结果(例如,仅其中视频包括自行车、摩托车和特技的结果)。
使用联合优化可确定经改进的分组。在图5的示例中,只有同义词被分组(例如,摩托车和自行车)。如此,描述性和可预测性是平衡的,使得包括此嵌入的数据集的搜索可产生更期望的结果集(例如,其中视频包括骑自行车或摩托车的特技的结果)。
图6是解说根据本公开的各方面的视频的内容的示例性预测的示图600。如图6所示,经训练的视觉特征投影W和经训练的文本投影A可被应用于未见视频602以预测视频的内容(604)。经训练的视觉特征投影W可用于预测来自视频特征的表示(例如,跳跃的狗或泼溅的水)。文本投影A可用于从表示中预测词条向量(606)。在词条向量606中,视频的最可能内容以较大的文本显示。在该示例中,标记“狗”可与视频602相关联。在一些方面,附加词条可被包括在标记中(例如,潜水、火车和小狗)。
相应地,可改进视频搜索和检索。如图7所解说,用户可输入搜索查询702(诸如“玩玩具的狗”),并且作为回应,可呈现包括玩玩具的狗的相关视频704。
图8解说了用于嵌入视频以供文本搜索的方法800。在框802中,该过程通过基于查询中包括的词条并且基于视频的多模式分析来学习嵌入以联合优化语义可预测性和语义描述性。
在一些方面,多模式分析是关于嵌入的多模式可预测性损失的。在一些方面,描述性损失是考虑关于词条敏感性的查询分析而确定的。此外,在框804中,该过程基于嵌入来预测视频中的事件。
图9解说了根据本公开的各方面的用于训练和嵌入的方法900。在框902中,该过程从视频中提取视觉特征。视觉特征可例如包括外观信息、运动、音频和/或类似特征。在框904中,该过程从与视频相关联的文本描述中确定词条向量。例如,文本可被包括在视频的标题中或被包括在视频内(例如,字幕)。
在框906中,该过程基于所提取的视频特征来计算特征投影。在框908中,该过程基于词条向量来计算文本投影。在框910中,该过程基于特征投影和文本投影来计算语义嵌入。语义嵌入可通过联合优化语义可预测性和语义描述性来计算。
图10解说了根据本公开的各方面的用于视频检索的方法1000。在框1002中,该过程基于语义嵌入来学习视觉特征投影和文本特征投影。在框1004中,该过程接收针对视频集合中的元素的查询(例如,基于文本的查询)。在框1006中,该过程基于经学习的视觉特征投影和经学习的文本特征投影来确定查询结果。查询结果可以进而在框1008中被显示。
在一些方面,方法800、900和1000可由SOC 100(图1)或系统200(图2)来执行。即,举例而言但不作为限定,方法800、900和1000的每个元素可由SOC 100或系统200、或者一个或多个处理器(例如,CPU 102和局部处理单元202)和/或其中所包括的其他组件来执行。
以上所描述的方法的各种操作可由能够执行相应功能的任何合适的装置来执行。这些装置可包括各种硬件和/或(诸)软件组件和/或(诸)模块,包括但不限于电路、专用集成电路(ASIC)、或处理器。一般而言,在附图中有解说的操作的场合,那些操作可具有带相似编号的相应配对装置加功能组件。
如本文所使用的,术语“确定”涵盖各种各样的动作。例如,“确定”可包括演算、计算、处理、推导、研究、查找(例如,在表、数据库或其他数据结构中查找)、探知及诸如此类。另外,“确定”可包括接收(例如接收信息)、访问(例如访问存储器中的数据)、及类似动作。此外,“确定”可包括解析、选择、选取、确立及类似动作。
如本文中所使用的,引述一列项目中的“至少一个”的短语是指这些项目的任何组合,包括单个成员。作为示例,“a、b或c中的至少一个”旨在涵盖:a、b、c、a-b、a-c、b-c、以及a-b-c。
结合本公开所描述的各种解说性逻辑框、模块、以及电路可用设计成执行本文中所描述的功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列信号(FPGA)或其他可编程逻辑器件(PLD)、分立的门或晶体管逻辑、分立的硬件组件或其任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,处理器可以是任何市售的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如,DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或多个微处理器、或任何其他此类配置。
结合本公开描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中实施。软件模块可驻留在本领域所知的任何形式的存储介质中。可使用的存储介质的一些示例包括随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动盘、CD-ROM,等等。软件模块可包括单条指令、或许多条指令,且可分布在若干不同的代码段上,分布在不同的程序间以及跨多个存储介质分布。存储介质可被耦合到处理器以使得该处理器能从/向该存储介质读写信息。替换地,存储介质可以被整合到处理器。
本文所公开的方法包括用于达成所描述的方法的一个或多个步骤或动作。这些方法步骤和/或动作可以彼此互换而不会脱离权利要求的范围。换言之,除非指定了步骤或动作的特定次序,否则具体步骤和/或动作的次序和/或使用可以改动而不会脱离权利要求的范围。
所描述的功能可在硬件、软件、固件或其任何组合中实现。如果以硬件实现,则示例硬件配置可包括设备中的处理系统。处理系统可以用总线架构来实现。取决于处理系统的具体应用和整体设计约束,总线可包括任何数目的互连总线和桥接器。总线可将包括处理器、机器可读介质、以及总线接口的各种电路链接在一起。总线接口可用于尤其将网络适配器等经由总线连接至处理系统。网络适配器可用于实现信号处理功能。对于某些方面,用户接口(例如,按键板、显示器、鼠标、操纵杆,等等)也可以被连接到总线。总线还可以链接各种其他电路,诸如定时源、外围设备、稳压器、功率管理电路以及类似电路,它们在本领域中是众所周知的,因此将不再进一步描述。
处理器可负责管理总线和一般处理,包括执行存储在机器可读介质上的软件。处理器可用一个或多个通用和/或专用处理器来实现。示例包括微处理器、微控制器、DSP处理器、以及其他能执行软件的电路系统。软件应当被宽泛地解释成意指指令、数据、或其任何组合,无论是被称作软件、固件、中间件、微代码、硬件描述语言、或其他。作为示例,机器可读介质可包括随机存取存储器(RAM)、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦式可编程只读存储器(EPROM)、电可擦式可编程只读存储器(EEPROM)、寄存器、磁盘、光盘、硬驱动器、或者任何其他合适的存储介质、或其任何组合。机器可读介质可被实施在计算机程序产品中。该计算机程序产品可以包括包装材料。
在硬件实现中,机器可读介质可以是处理系统中与处理器分开的一部分。然而,如本领域技术人员将容易领会的,机器可读介质或其任何部分可在处理系统外部。作为示例,机器可读介质可包括传输线、由数据调制的载波、和/或与设备分开的计算机产品,所有这些都可由处理器通过总线接口来访问。替换地或补充地,机器可读介质或其任何部分可被集成到处理器中,诸如高速缓存和/或通用寄存器文件可能就是这种情形。虽然所讨论的各种组件可被描述为具有特定位置,诸如局部组件,但它们也可按各种方式来配置,诸如某些组件被配置成分布式计算系统的一部分。
处理系统可以被配置为通用处理系统,该通用处理系统具有一个或多个提供处理器功能性的微处理器、以及提供机器可读介质中的至少一部分的外部存储器,它们都通过外部总线架构与其他支持电路系统链接在一起。替换地,该处理系统可以包括一个或多个神经元形态处理器以用于实现本文中所描述的神经元模型和神经系统模型。作为另一替换方案,处理系统可以用带有集成在单块芯片中的处理器、总线接口、用户接口、支持电路系统、和至少一部分机器可读介质的专用集成电路(ASIC)来实现,或者用一个或多个现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、控制器、状态机、门控逻辑、分立硬件组件、或者任何其他合适的电路系统、或者能执行本公开通篇所描述的各种功能性的电路的任何组合来实现。取决于具体应用和加诸于整体系统上的总设计约束,本领域技术人员将认识到如何最佳地实现关于处理系统所描述的功能性。
机器可读介质可包括数个软件模块。这些软件模块包括当由处理器执行时使处理系统执行各种功能的指令。这些软件模块可包括传送模块和接收模块。每个软件模块可以驻留在单个存储设备中或者跨多个存储设备分布。作为示例,当触发事件发生时,可以从硬驱动器中将软件模块加载到RAM中。在软件模块执行期间,处理器可以将一些指令加载到高速缓存中以提高访问速度。可随后将一个或多个高速缓存行加载到通用寄存器文件中以供处理器执行。在以下述及软件模块的功能性时,将理解此类功能性是在处理器执行来自该软件模块的指令时由该处理器来实现的。此外,应领会,本公开的各方面产生对处理器、计算机、机器或实现此类方面的其它系统的机能的改进。
如果以软件实现,则各功能可作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者,这些介质包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定,此类计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能用于携带或存储指令或数据结构形式的期望程序代码且能被计算机访问的任何其他介质。另外,任何连接也被正当地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或无线技术(诸如红外(IR)、无线电、以及微波)从web网站、服务器、或其他远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL或无线技术(诸如红外、无线电、以及微波)就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘、和碟,其中盘(disk)常常磁性地再现数据,而碟(disc)用激光来光学地再现数据。因此,在一些方面,计算机可读介质可包括非瞬态计算机可读介质(例如,有形介质)。另外,对于其他方面,计算机可读介质可包括瞬态计算机可读介质(例如,信号)。上述的组合应当也被包括在计算机可读介质的范围内。
因此,某些方面可包括用于执行本文中给出的操作的计算机程序产品。例如,此类计算机程序产品可包括其上存储(和/或编码)有指令的计算机可读介质,这些指令能由一个或多个处理器执行以执行本文中所描述的操作。对于某些方面,计算机程序产品可包括包装材料。
此外,应当领会,用于执行本文中所描述的方法和技术的模块和/或其它恰适装置能由用户终端和/或基站在适用的场合下载和/或以其他方式获得。例如,此类设备能被耦合至服务器以促成用于执行本文中所描述的方法的装置的转移。替换地,本文中所描述的各种方法能经由存储装置(例如,RAM、ROM、诸如压缩碟(CD)或软盘等物理存储介质等)来提供,以使得一旦将该存储装置耦合至或提供给用户终端和/或基站,该设备就能获得各种方法。此外,可利用适于向设备提供本文中所描述的方法和技术的任何其他合适的技术。
将理解,权利要求并不被限定于以上所解说的精确配置和组件。可在以上所描述的方法和装置的布局、操作和细节上作出各种改动、更换和变形而不会脱离权利要求的范围。

Claims (19)

1.一种用于嵌入视频以供文本搜索的方法,包括:
通过以下操作联合优化语义可预测性和语义描述性:
至少部分基于查询中包括的词条来学习所述嵌入;以及
至少部分基于所述视频的多模式分析来学习所述嵌入。
2.如权利要求1所述的方法,其特征在于,所述多模式分析是关于所述嵌入的多模式可预测性损失的。
3.如权利要求1所述的方法,其特征在于,所述查询的分析是关于所述语义描述性的。
4.如权利要求1所述的方法,其特征在于,考虑所述查询关于词条敏感性的分析来确定描述性损失。
5.如权利要求1所述的方法,其特征在于,进一步包括至少部分地基于所述嵌入来预测所述视频中的事件。
6.一种用于嵌入视频以供文本搜索的装置,包括:
存储器;以及
耦合至所述存储器的至少一个处理器,所述至少一个处理器被配置成:
通过以下操作联合优化语义可预测性和语义描述性:
至少部分基于查询中包括的词条来学习所述嵌入;以及
至少部分基于所述视频的多模式分析来学习所述嵌入。
7.如权利要求6所述的装置,其特征在于,所述多模式分析是关于所述嵌入的多模式可预测性损失的。
8.如权利要求6所述的装置,其特征在于,所述查询的分析是关于所述语义描述性的。
9.如权利要求6所述的装置,其特征在于,所述至少一个处理器被进一步配置为考虑所述查询关于词条敏感度的分析来确定描述性损失。
10.如权利要求6所述的装置,其特征在于,所述至少一个处理器被进一步配置为至少部分基于所述嵌入来预测所述视频中的事件。
11.一种用于嵌入视频以供文本搜索的装备,包括:
用于通过以下操作联合优化语义可预测性和语义描述性的装置:
至少部分基于查询中包括的词条来学习所述嵌入;以及
至少部分基于所述视频的多模式分析来学习所述嵌入;以及
用于至少部分地基于所述嵌入来预测所述视频中的事件的装置。
12.如权利要求11所述的装备,其特征在于,所述多模式分析是关于所述嵌入的多模式可预测性损失的。
13.如权利要求11所述的装备,其特征在于,所述查询的分析是关于所述语义描述性的。
14.如权利要求11所述的装备,其特征在于,考虑所述查询关于词条敏感性的分析来确定描述性损失。
15.一种其上编码有用于嵌入视频以供文本搜索的程序代码的非瞬态计算机可读介质,所述程序代码由处理器执行并且包括:
用于通过以下操作联合优化语义可预测性和语义描述性的程序代码:
至少部分基于查询中包括的词条来学习所述嵌入;以及
至少部分基于所述视频的多模式分析来学习所述嵌入。
16.如权利要求15所述的非瞬态计算机可读介质,其特征在于,所述多模式分析是关于所述嵌入的多模式可预测性损失的。
17.如权利要求15所述的非瞬态计算机可读介质,其特征在于,所述查询的分析是关于所述语义描述性的。
18.如权利要求15所述的非瞬态计算机可读介质,其特征在于,进一步包括用于考虑所述查询关于词条敏感性的分析来确定描述性损失的程序代码。
19.如权利要求15所述的非瞬态计算机可读介质,其特征在于,进一步包括用于至少部分地基于所述嵌入来预测所述视频中的事件的程序代码。
CN201680054406.5A 2015-09-21 2016-08-03 用于通过文本的视频搜索的语义多感官嵌入 Pending CN108027834A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562221569P 2015-09-21 2015-09-21
US62/221,569 2015-09-21
US15/080,501 2016-03-24
US15/080,501 US20170083623A1 (en) 2015-09-21 2016-03-24 Semantic multisensory embeddings for video search by text
PCT/US2016/045353 WO2017052791A1 (en) 2015-09-21 2016-08-03 Semantic multisensory embeddings for video search by text

Publications (1)

Publication Number Publication Date
CN108027834A true CN108027834A (zh) 2018-05-11

Family

ID=58282851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680054406.5A Pending CN108027834A (zh) 2015-09-21 2016-08-03 用于通过文本的视频搜索的语义多感官嵌入

Country Status (3)

Country Link
US (1) US20170083623A1 (zh)
CN (1) CN108027834A (zh)
WO (1) WO2017052791A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376610A (zh) * 2018-09-27 2019-02-22 南京邮电大学 视频监控中基于图像概念网络的行人不安全行为检测方法
CN111160035A (zh) * 2019-12-31 2020-05-15 北京明朝万达科技股份有限公司 文本语料的处理方法和装置
CN111357011A (zh) * 2019-01-31 2020-06-30 深圳市大疆创新科技有限公司 环境感知方法、装置以及控制方法、装置和车辆
TWI739377B (zh) * 2020-04-08 2021-09-11 瑞昱半導體股份有限公司 字幕影像產生裝置及方法
CN113486183A (zh) * 2021-09-06 2021-10-08 平安科技(深圳)有限公司 基于支持向量机的文本分类方法、装置、电子设备及介质
CN113661487A (zh) * 2019-03-28 2021-11-16 微软技术许可有限责任公司 使用机器训练词条频率加权因子的产生密集嵌入向量的编码器
CN116611896A (zh) * 2023-07-19 2023-08-18 山东省人工智能研究院 基于属性驱动解耦表征学习的多模态推荐方法

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017136070A1 (en) * 2016-02-03 2017-08-10 Google Inc. Compressed recurrent neural network models
US11842313B1 (en) 2016-06-07 2023-12-12 Lockheed Martin Corporation Method, system and computer-readable storage medium for conducting on-demand human performance assessments using unstructured data from multiple sources
US11409791B2 (en) * 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
US20180101540A1 (en) * 2016-10-10 2018-04-12 Facebook, Inc. Diversifying Media Search Results on Online Social Networks
US20180124437A1 (en) * 2016-10-31 2018-05-03 Twenty Billion Neurons GmbH System and method for video data collection
US10642887B2 (en) * 2016-12-27 2020-05-05 Adobe Inc. Multi-modal image ranking using neural networks
CN108959312B (zh) * 2017-05-23 2021-01-29 华为技术有限公司 一种多文档摘要生成的方法、装置和终端
JP6886869B2 (ja) * 2017-06-09 2021-06-16 川崎重工業株式会社 動作予測システム及び動作予測方法
CN107239801B (zh) * 2017-06-28 2020-07-28 安徽大学 视频属性表示学习方法及视频文字描述自动生成方法
US11263489B2 (en) 2017-06-29 2022-03-01 Intel Corporation Techniques for dense video descriptions
US10885111B2 (en) * 2018-04-16 2021-01-05 International Business Machines Corporation Generating cross-domain data using variational mapping between embedding spaces
US10558761B2 (en) 2018-07-05 2020-02-11 Disney Enterprises, Inc. Alignment of video and textual sequences for metadata analysis
US11657322B2 (en) * 2018-08-30 2023-05-23 Nec Corporation Method and system for scalable multi-task learning with convex clustering
US20200134398A1 (en) * 2018-10-29 2020-04-30 Sri International Determining intent from multimodal content embedded in a common geometric space
CN109522451B (zh) * 2018-12-13 2024-02-27 连尚(新昌)网络科技有限公司 重复视频检测方法和装置
CN110222560B (zh) * 2019-04-25 2022-12-23 西北大学 一种嵌入相似性损失函数的文本人员搜索方法
US11537664B2 (en) 2019-05-23 2022-12-27 Google Llc Learning to select vocabularies for categorical features
US11580415B2 (en) * 2019-07-09 2023-02-14 Baidu Usa Llc Hierarchical multi-task term embedding learning for synonym prediction
US11302361B2 (en) 2019-12-23 2022-04-12 Samsung Electronics Co., Ltd. Apparatus for video searching using multi-modal criteria and method thereof
US20210374499A1 (en) * 2020-05-26 2021-12-02 International Business Machines Corporation Iterative deep graph learning for graph neural networks
US11531829B2 (en) * 2020-07-24 2022-12-20 Accenture Global Solutions Limited Automatic image annotation
CN113656547B (zh) * 2021-08-17 2023-06-30 平安科技(深圳)有限公司 文本匹配方法、装置、设备及存储介质
CN114756763A (zh) * 2022-02-23 2022-07-15 北方工业大学 社交网络虚假新闻检测方法及装置
CN115134676B (zh) * 2022-09-01 2022-12-23 有米科技股份有限公司 一种音频辅助视频补全的视频重构方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036023A (zh) * 2014-06-26 2014-09-10 福州大学 一种融合上下文的树形视频语义索引建立方法
CN104199933A (zh) * 2014-09-04 2014-12-10 华中科技大学 一种多模态信息融合的足球视频事件检测与语义标注方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2051173A3 (en) * 2007-09-27 2009-08-12 Magix Ag System and method for dynamic content insertion from the internet into a multimedia work
US8538896B2 (en) * 2010-08-31 2013-09-17 Xerox Corporation Retrieval systems and methods employing probabilistic cross-media relevance feedback
US20130094590A1 (en) * 2011-10-12 2013-04-18 Vixs Systems, Inc. Video decoding device for extracting embedded metadata and methods for use therewith

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036023A (zh) * 2014-06-26 2014-09-10 福州大学 一种融合上下文的树形视频语义索引建立方法
CN104199933A (zh) * 2014-09-04 2014-12-10 华中科技大学 一种多模态信息融合的足球视频事件检测与语义标注方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AMIRHOSSEIN HABIBIAN ET AL: "Video2Sentence and Vice Versa", 《ACM DIGITAL LIBRARY》 *
AMIRHOSSEIN HABIBIAN ET AL: "VideoStory: A New Multimedia Embedding for Few-Example Recognition and Translation of Events", 《ACM DIGITAL LIBRARY》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376610A (zh) * 2018-09-27 2019-02-22 南京邮电大学 视频监控中基于图像概念网络的行人不安全行为检测方法
CN109376610B (zh) * 2018-09-27 2022-03-29 南京邮电大学 视频监控中基于图像概念网络的行人不安全行为检测方法
CN111357011A (zh) * 2019-01-31 2020-06-30 深圳市大疆创新科技有限公司 环境感知方法、装置以及控制方法、装置和车辆
CN111357011B (zh) * 2019-01-31 2024-04-30 深圳市大疆创新科技有限公司 环境感知方法、装置以及控制方法、装置和车辆
CN113661487A (zh) * 2019-03-28 2021-11-16 微软技术许可有限责任公司 使用机器训练词条频率加权因子的产生密集嵌入向量的编码器
CN111160035A (zh) * 2019-12-31 2020-05-15 北京明朝万达科技股份有限公司 文本语料的处理方法和装置
CN111160035B (zh) * 2019-12-31 2023-06-20 北京明朝万达科技股份有限公司 文本语料的处理方法和装置
TWI739377B (zh) * 2020-04-08 2021-09-11 瑞昱半導體股份有限公司 字幕影像產生裝置及方法
CN113486183A (zh) * 2021-09-06 2021-10-08 平安科技(深圳)有限公司 基于支持向量机的文本分类方法、装置、电子设备及介质
CN113486183B (zh) * 2021-09-06 2021-11-30 平安科技(深圳)有限公司 基于支持向量机的文本分类方法、装置、电子设备及介质
CN116611896A (zh) * 2023-07-19 2023-08-18 山东省人工智能研究院 基于属性驱动解耦表征学习的多模态推荐方法
CN116611896B (zh) * 2023-07-19 2023-10-24 山东省人工智能研究院 基于属性驱动解耦表征学习的多模态推荐方法

Also Published As

Publication number Publication date
WO2017052791A1 (en) 2017-03-30
US20170083623A1 (en) 2017-03-23

Similar Documents

Publication Publication Date Title
CN108027834A (zh) 用于通过文本的视频搜索的语义多感官嵌入
Socher et al. Grounded compositional semantics for finding and describing images with sentences
CN111488734B (zh) 基于全局交互和句法依赖的情感特征表示学习系统及方法
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN108027899A (zh) 用于提高经训练的机器学习模型的性能的方法
CN107851198A (zh) 媒体分类
JP6446602B2 (ja) データのカテゴリ分類のための方法およびシステム
Mao et al. Deep captioning with multimodal recurrent neural networks (m-rnn)
US10496885B2 (en) Unified embedding with metric learning for zero-exemplar event detection
CN107209873A (zh) 用于深度卷积网络的超参数选择
CN107924491A (zh) 未知类别的检测和用于未知类别的分类器的初始化
CN107430703A (zh) 对细调特征的顺序图像采样和存储
US20180129742A1 (en) Natural language object tracking
CN107646116A (zh) 用于定点神经网络的位宽选择
CN110852368A (zh) 全局与局部特征嵌入及图文融合的情感分析方法与系统
CN107533669A (zh) 滤波器特异性作为用于神经网络的训练准则
CN107430705A (zh) 用于重新训练分类器的样本选择
CN107924486A (zh) 用于分类的强制稀疏
CN107580712A (zh) 定点神经网络的降低的计算复杂度
CN108431826A (zh) 自动检测视频图像中的对象
CN107533665A (zh) 经由偏置项在深度神经网络中纳入自顶向下信息
CN107636697A (zh) 基于浮点神经网络量化的定点神经网络
CN107004157A (zh) 模型压缩和微调
AU2017101803A4 (en) Deep learning based image classification of dangerous goods of gun type
CN107851124A (zh) 自组织网络中的媒体标记传播

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180511

WD01 Invention patent application deemed withdrawn after publication