CN111433784A

CN111433784A - 用于检索视频时间段的方法和系统

Info

Publication number: CN111433784A
Application number: CN201980006115.2A
Authority: CN
Inventors: 萧人豪; 何朝文
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2018-03-22
Filing date: 2019-03-21
Publication date: 2020-07-17
Anticipated expiration: 2039-03-21
Also published as: AU2019239454A1; KR102480323B1; KR20200125682A; CN111433784B; JP7091468B2; WO2019179496A1; US20210004605A1; EP3766002A4; JP2021516407A; EP3766002A1; US11663268B2; AU2019239454B2

Abstract

提供了一种用于检索视频时间段的方法和系统。在该方法中，分析视频以获得视频的帧特征信息；帧特征信息被输入到编码器以输出与视频的时间信息相关的第一数据；将第一数据和用于检索视频的视频时间段的检索描述输入解码器以输出第二数据；根据第一数据和第二数据执行注意力计算训练；根据注意力计算训练确定视频的与检索描述对应的视频时间段。

Description

用于检索视频时间段的方法和系统

技术领域

本公开涉及机器学习，并且特别地，涉及用于检索视频时间段的方法和系统。

背景技术

利用自然语言对视频中的瞬间或时刻(moment)进行定位是一个具有巨大商业潜力和应用前景的重要研究课题，如视频检索、视频摘要、视频描述和问答等。然而，大多数现有的系统都是用自然语言检索整个视频片段，自然语言决定了视频中发生了什么，而不是何时发生。之前的一些工作试图提出“瞬间”检索系统，但是，由于视频数据集必须包含大量成对的局部视频片段和引用表达式，或者包含唯一标识对应瞬间的文本描述信息，具有稀缺性和不可用性，因此上述“瞬间”检索系统只能达到非常有限的精度。

大多数现有系统的目标是通过自然语言搜索来检索特定的视频(而不是视频中的某个瞬间或时刻)。自然语言视频检索方法的目的是用自然语言搜索来检索特定视频。目前的方法采用了类似于传统图像语言嵌入的深视频语言嵌入。对于这种全视频检索，可以参考[1]M.Otani,Y.Nakashima,E.Rahtu,J.Heikkila,and N.Yokoya.“Learning jointrepresentations of videos and sentences with web image search,”In ECCVWorkshops,2016；[2]A.Torabi,N.Tandon,and L.Sigal.“Learning languagevisualembedding for movie understanding with naturallanguage,”arXiv preprint arXiv:1609.08124,2016；[3]R.Xu,C.Xiong,W.Chen,and J.J.Corso.“Jointly modeling deepvideo and compositional text to bridge vision and language in a unifiedframework,”in AAAI,2015。然而，此类方法无法实现片段级的视频检索。

以前的一些工作利用了时间动作提名(temporal action proposals，也称为时序动作提名)来进行有效的动作检测。该时间动作提名标识了将在第二阶段由动作分类器独立分类的相关时间窗。然而，此类方法只能预测视频中的潜在事件提名，但无法帮助检索任务。对于这种时间动作提名，参考[4]Buch et al.,SST:“Single-Stream Temporal ActionProposals,”CVPR 2017，[5]Escorcia et al.,DAPs:“Deep Action Proposals forAction Understanding,”ECCV 2016。

还有少量的前期工作(例如，参考[6]Hendricks et al.,“Localizing Momentsin Video with Natural Language,”arXiv preprint 2017)研究了基于成对的时间-描述数据集来检索视频中的时间段，然而，这种成对的数据集需要大量人工并且难以在实践中获得。

发明内容

根据本公开描述的主题的一个创新方面，提供了一种用于检索视频时间段的方法。该方法可以包括：分析视频以获得视频的帧特征信息，将帧特征信息输入编码器以输出与视频的时间信息有关的第一数据，将第一数据和用于检索视频的视频时间段的检索描述输入解码器以输出第二数据，根据第一数据和第二数据执行注意力计算训练，并且根据注意力计算训练确定视频的与检索描述对应的视频时间段。

根据本公开描述的主题的另一创新方面，提供了一种用于检索视频时间段的方法。该方法可以包括：分析视频以获得视频的帧特征信息；根据第一数据和第二数据执行注意力计算训练，第一数据涉及视频的时间信息并且通过编码器将帧特征信息作为输入而获得，第二数据通过解码器至少将第一数据和检索描述作为输入而获得；根据注意力计算训练确定与检索描述对应的视频的视频时间段。

根据本公开描述的主题的另一创新方面，提供了一种用于检索视频时间段的系统。该系统可以包括：提取器，用于提取输入到提取器的视频的帧特征信息；编码器，连接至提取器并用于根据帧特征信息获得视频的时间信息；解码器，连接至编码器并用于从编码器接收时间信息、从外部接收检索描述、并且根据时间信息和检索描述获得解码器的状态信息；层发生器，连接至编码器和解码器，用于从编码器接收时间信息并从解码器接收状态信息，并根据时间信息和状态信息进行注意计算；处理器，连接至层发生器，用于根据在层发生器进行的注意力计算，确定视频的对应于检索描述的视频时间段。

作为一个实施例，系统的层发生器可以包括注意力层发生器和FC层发生器。注意力层发生器连接至编码器和解码器，并且用于基于每个视频时间段与检索描述的每个描述项之间的相关性，获得视频的每个视频时间段的时间注意力权重，以及根据时间注意力权重获得时间信息的加权平均信息。FC层发生器连接至解码器和注意力层发生器，用于基于加权平均信息和状态信息获得最终注意力信息，并将最终注意力信息输出至解码器。

根据本公开描述的主题的再一创新方面，提供了一种计算机系统。该计算机系统包括：至少一个非易失性计算机存储器，用于存储数据并提供对数据的访问；至少一个处理器，连接至非易失性计算机存储器以访问数据；卷积神经网络(CNN)，可以由至少一个非易失性计算机存储器存储并且可以由至少一个处理器执行，CNN用于提取视频的帧特征信息；基于视频-描述的建模器，可以由至少一个非易失性计算机存储器存储并且可以由至少一个处理器执行。建模器可以包括：第一堆叠循环神经网络(RNN)，与CNN连接并用于根据视频的帧特征信息获得视频的时间信息；第二堆叠RNN，连接至第一RNN并且用于根据时间信息和检索描述生成基于隐藏表示的输出；注意力层分层时间存储器(HTM)，连接至第一RNN和第二RNN，并且用于基于时间信息和基于隐藏表示的输出，获得视频中的每个视频时间段的时间注意力权重。建模器还可以包括FC层HTM，该FC层HTM连接至注意力层HTM和第二堆叠RNN，并用于提供第二堆叠RNN的输入。

根据本公开描述的主题的再一创新方面，提供了一种计算机系统。该计算机系统包括：至少一个处理器以及存储指令的至少一个非易失性存储器。当指令由至少一个处理器执行时，使得计算机系统执行包括如下的操作：分析视频以获得视频的帧特征信息，将帧特征信息输入编码器以输出与视频的时间信息的第一数据，将第一向量和用于检索视频的视频时间段的检索描述输入编码器以输出第二数据，根据第一数据和第二数据执行注意力计算训练，并且根据注意力计算训练确定视频的与检索描述对应的视频时间段。

附图说明

图1是用于视频时间段检索行为的示例系统的框图。

图2是示例性计算系统的框图。

图3是示例性视频时间段检索引擎的框图。

图4是示出用于检索视频时间段的方法的示意流程图。

图5是示出用于检索视频时间段的系统的示意框图。

图6是示出本文提出的视频时间段检索框架的示意图。

图7是示出本文提出的视频时间段检索框架的另一示意图。

图8是示出检索描述(retrieval description)中包含的每个描述项的时间注意力权重的示意图。

图9是示出基于总注意力权重的时间动作定位的示意图。

图10(包括图10A和图10B)示出了时间段检索的结果。

具体实施方式

本文提供了一种与使用自然语言进行视频检索(retrieve，也称视频获取)有关的技术，特别地，提供了一种基于弱监督学习使用自然语言进行视频时间段检索的技术，目的在于根据自然语言查询来检索视频中的特殊视频或时间间隔。弱监督学习是指在弱监督下工作的机器学习技术。具体地，弱监督学习是一概括性术语，其涵盖了试图通过弱监督学习构建预测模型的各种研究。在本文中，我们不会过多讨论弱监督学习，相反，我们将重点关注视频检索。

关于视频时间段检索，上述Hendricks提供的传统方法需要维护大量成对的本地化视频片段和引用表达式或者唯一地标识对应时刻的文本描述。Hendricks的架构的实现需要大量的人力和存储空间。

考虑到这一点，在本文中，提供了一种视频时间段检索技术，其可以根据自然语言文本描述有效地从视频检索特定的时间段或时刻，而无需上述Hendricks中涉及的成对的时刻-描述数据。在一些实施例中，本文的技术可以基于视频和诸如文本描述的检索描述，这将在下文中讨论。根据视频帧(没有对应视频片段的信息)和文本描述，基于将在下文中描述的注意力机制(attention mechanism)，本文的技术可以自动从视频学习与文本描述对应的时间间隔(也称为时间段、时间帧、视频帧、视频短片等，在不冲突的情况下，这些术语可以互换使用)。这样一来，本公开使得视频时刻检索在现实产品中是可行的，并且避免了进行文本定位视频片段所产生的大量人力成本。

虽然本文中描述的实施通常涉及基于文本描述的视频时间段检索，但是本文描述的技术也可以应用于其他适当的领域，诸如语音输入，在语音输入的情况下，可以将语音转换成文本用于后续视频时间段检索。

以下将通过举例而非限制的方式来描述本公开。在附图中，相同的参考标号用于指示相似的元件。

图1是用于视频时间段检索行为的示例性系统的框图。如图1所示，系统100包括平台或多个平台101、客户端设备103、以及服务器105。系统100的这些实体经由网络111通信地连接。应当注意的是，图1所示的系统100只是一个例子，系统100可以包括更多或更少的部件、可以组合一些部件、也可以将一个或多个部件划分成额外的部件。例如，平台101可以集成到服务器105中。

网络111可以是传统的有线网络和/或无线网络，并且可以具有多种不同的配置。例如，网络111可以包括一个或多个局域网(LAN)、广域网(WLAN)、公共网络、私有网络、虚拟网络、点对点网络等。

平台101可以是诸如视频、音频、文章等各种网络资源的整合。平台101可以是包括用于存储各种数据信息的数据存储区107的网络服务器。可选地，平台101可以是数据存储装置。

客户端设备103可以包括存储器、处理器、和/或通信单元。客户端设备103连接至网络111并且可以向服务器105发送数据以及从服务器105接收数据。客户端设备103的非限制性实例包括手机、笔记本电脑、台式电脑、平板电脑、个人数字助理(PDA)、或者能够处理信息并接入网络111的任何其他电子设备。

服务器105可以包括引擎109。引擎109包括可操作地从客户端设备103和/或平台101接收并处理数据的计算机逻辑。在一些实施例中，引擎109是视频时间段检索引擎，并且配置为基于来自客户端设备103的文本描述和来自平台101的视频进行视频时间段检索。在一些实施例中，引擎109配置为基于来自客户端设备103的文本描述和存储在客户端设备103本地的视频进行视频时间段检索。在一些实施例中，引擎109可以使用由一个或多个计算机设备的一个或多个处理器执行的软件来实施。在一些实施例中，引擎109可以使用硬件来实施，包括但不限于场可编程门阵列(FPGA)、专用集成电路(ASIC)等。在一些实施例中，引擎109可以使用硬件和软件的组合来实施。

图2是示例性计算系统200的框图，其可以表示客户端设备103或服务器105的架构。客户端设备103中的部件或者服务器105中的部件可以经由总线210耦合或通信。

如上所述，计算系统200可以表示客户端设备103的架构。在该情况下，如图所示，客户端设备103可以包括处理器、存储器、以及通信单元。客户端设备103还包括输入装置201和输出装置203。输入装置201可以包括配置为接收来自用户的各种控制输入(诸如文本、语音等)的任意标准装置。输入装置201的非限制性实例包括键盘、鼠标、触摸屏、麦克风、扬声器、或其他音频输入装置等。输出装置203可以是配置为向用户或外部装置输出或显示信息的任意标准装置。输出装置的非限制实例包括用于向用户呈现信息的显示器/监视器。在本文中，在一个实施例中，输出信息是视频时间段(换句话说，视频短片)。

客户端设备103还可以安装有用于视频播放的应用程序(App)。对于上述App，本公开无特别限制。

可选地，计算系统200可以表示服务器105的架构，包括处理器、存储器、通信单元、以及引擎109，以下将参照图3具体描述。

图3是示例性视频时间段检索引擎的框图。如图所示，视频时间段检索引擎109可以包括各种子部件，诸如建模器300和卷积神经网络(CNN)301。建模器300配置为使用输入数据对视频时间段检索进行建模或训练，并且可以包括CNN 301、编码器303、解码器305、注意力层发生器307、以及全连接层(FC)层发生器309。在一些实施例中，部件301、303、305、307、和309中的一个或多个是可以由处理器(诸如图2中所示的处理器)执行的指令集。在其他实施例中，部件301、303、305、307、和309中的一个或多个可以存储在存储器(诸如图2所示的存储器)中。

视频时间段检索引擎109包括可用于检索视频时间段的计算机逻辑。在一些实施例中，如本文将更详细讨论的，CNN 301的输入信息可以包括视频。视频包括多个视频短片。“视频短片”是视频的剪辑，通常是较长记录的一部分。本文所指的“视频短片”宽泛地是指任何长度小于传统电视节目长度的短视频。解码器305的输入信息可以包括文本或语音。在语音输入的情况下，解码器可以具有语音-文本转换器。例如，解码器的输入可以是检索描述，用于在视频中检索与该描述相符或匹配的一些视频短片或视频片段。

在训练阶段，CNN 301用于提取视频输入的帧特征性信息(即，帧特征)。所提取的帧特征的向量表示被馈送到编码器303。编码器303被配置为记录时间信息并将编码器303的当前状态信息输出到解码器305和注意力层发生器307。解码器305配置为接收编码器303的输出和诸如检索描述的训练输入，并将其当前隐藏表示输出至注意力层发生器307。因此，注意力层发生器307可以接收编码器303和解码器305的输出并且进行注意力计算，以获得诸如时间注意力权重和上下文向量的参数。时间注意力权重用于指示每个视频短片和目标字(即，检索描述中的描述项)之间的相关性。上下文向量用于整个源视频的紧凑表示。注意力层发生器307的输出(例如，上下文向量)将被馈送到FC层发生器309以获得最终注意力向量，该最终注意力向量将作为输入被提供到解码器305，用于解码器305的后续训练和输出。

在这种训练中，可以在注意力层发生器307获得注意力层，并在FC层发生器309获得FC层。以下将详细描述注意力层和FC层。

借助于通过引擎109训练的模型，在推理阶段(reference stage)，服务器105可以检索特定时间视频片段(基于用户经由客户端设备103输入的检索描述)，而在建模期间无需大量成对的时刻-描述数据，这样就解决了传统方法中的问题。

下面将参照附图描述训练阶段和推理阶段。

图4是示出检索视频时间段的方法的流程图。如图4所示，用于检索视频时间段的方法可以包括训练阶段和推理阶段。在训练阶段，通过例如CNN分析接收的视频，以获得视频的帧特征信息。帧特征信息然后被输入到编码器(例如，LSTM/RNN)以输出第一数据。第一数据例如是与视频的时间信息相关的第一向量(h_s)。第一向量和用于检索视频的视频时间段的检索描述被输入到解码器(例如，LSTM/RNN)以输出诸如第二向量(h_t)的第二数据。之后，根据第一向量(h_s)和第二向量(h_t)，在例如注意力层执行注意力计算训练。

注意力计算训练例如可以如下实现。第一向量和第二向量被输入到耦合至编码器和解码器的注意力层。在注意力层，基于每个视频时间段与检索描述中包含的每个描述项的相关性，获得视频的每个视频时间段的时间注意力权重(α_t)。在注意力层，基于时间注意力权重(α_t)和第二向量(h_t)，获得诸如第一向量的加权平均向量(c_t)的加权平均数据，并将加权平均数据输出至与注意力层和解码器耦合的FC层。最后，在FC层，基于加权平均向量和第二向量，获得最终注意力向量(a_t)并将其输出至解码器。

为了实施图4示出的方法，还提供了一种用于检索视频时间段的系统。图5是示出用于检索视频时间段的系统的示意框图。如图所示，系统50包括提取器52(诸如2D/3DCNN)、编码器54(诸如LSTM/RNN)、解码器56(诸如LSTM/RNN)、以及用于学习层的层发生器58。在一个实施例中，编码器54和解码器56可以分别通过单独的LSTM来实施。在一些实例中，系统50还可以包括处理器53。在一个实施例中，处理器53与上述部件52、54、56、和58连接。可选地，处理器53可以与层发生器58连接。在一些实例中，处理器53还可以与显示器连接，该显示器用于向用户显示诸如系统50的检索结果的信息。在一些实例中，解码器56还配置为与用于输入数据的输入装置57连接。如上所述，输入装置可以是诸如键盘、触摸屏等的用于文本输入的输入装置，或者是诸如麦克风的用于语音输入的输入装置。以下将详细描述系统50的部件。

提取器52用于提取输入到提取器50的视频的帧特征信息。编码器54连接至提取器52并且配置为根据帧特征信息获得视频的时间信息(对应于第一向量h_s)。解码器56连接至编码器54并且用于从编码器54接收时间信息、从外部(例如，从输入装置57)接收检索描述、以及根据时间信息和检索描述获得解码器56的状态信息(对应于第二向量h_t)。层发生器58连接至编码器54和解码器56并且配置为从编码器54接收时间信息以及从解码器56接收状态信息、以及根据时间信息和状态信息进行注意力计算。

在一些实施例中，层发生器58可以包括用于生成注意力层的注意力层发生器581和用于生成FC层的FC层发生器582。虽然注意力层发生器581和FC层发生器582被示出为集成到层发生器58中，但是也可以使用其他架构。例如，注意力层发生器581和FC层发生器582可以彼此独立。

注意力层发生器581连接至编码器54和解码器56并且配置为基于每个视频时间段与检索描述中的每个描述项之间的相关性获得视频的每个视频时间段的时间注意力权重(α_t)。注意力层发生器581还配置为根据时间注意力权重(α_t)获得第一向量的加权平均向量(c_t)。以下将详细描述本文中提到的参数。

FC层发生器582连接至解码器56和注意力层发生器581，并且配置为基于加权平均向量(c_t)和状态信息(h_t)获得最终注意力向量(a_t)。FC层发生器582还配置为将最终注意力向量输出至解码器56。

处理器53耦合至层发生器58并且配置为根据层发生器的注意力计算确定视频的视频时间段。处理器53还可以连接至显示器55，并将系统50的检索结果提供给显示器55进行显示。

在一个实施例中，处理器53包括加法电路531和检索电路532。加法电路531和检索电路532将在推理阶段中启用。对于视频的每个视频时间段，加法电路531用于在推理阶段中将与检索描述中的所有描述项相关的所有时间注意力权重相加。检索电路532与加法电路531相连接，并且配置为基于加法电路531的求和结果，检索或提取视频时间段。在一个实施例中，检索电路532用于检索总时间注意力权重大于阈值的的视频时间段，并将检索的视频时间段提供给显示器进行显示。如果不存在其总时间注意力权重大于阈值的视频时间段，检索电路532将会反馈NULL结果或者任何指示没有检索到满足条件的视频时间段的信息。

处理器53还可以具有排序功能。排序功能旨在基于总时间注意力权重对视频时间段进行排序。可以理解，排序功能可以集成到加法电路531，或者可以集成到检索电路532。可选地，排序功能可以经由独立于并且连接至加法电路531和检索电路532的部件实现。本公开对此没有特别限制。

通过参照图6和图7，将更好地理解图4的训练阶段和推理阶段的操作以及图5示出的系统的操作。在图6和图7中，分别示出了本文提出的用自然语言进行视频时间段检索(换句话说，时间动作定位)的序列-序列模型(sequence-to-sequence model)。

训练阶段

如图所示，采用了具有注意力模块的标准编码器-解码器LSTM框架。在训练阶段，本文提出的技术目的在于学习注意力层。注意力层可以基于不同视频帧与检索描述中的每个描述项之间的相关性对不同视频帧赋予权重。不同于主要采用解码器作为下一字发生器的传统描述(captioning)方法，在本文提出的技术中，检索描述(y₁,…,y_m)和由视频帧(x₁,…,x_n)构成的视频都被输入到学习的编码器-解码器。同时，保留了检索描述中包含的每个项目的时间关注权重α_t，以指示视频中的对应时间段。

需要注意的是，在训练阶段，不需要视频片段的对齐描述(aligneddescriptions)。相比于需要成对的时间-描述数据集的现有技术，可以节省系统内存，从而提高处理器的效率。

I.CNN和编码器

为了描述视频片段，采用了帧特征提取器，该帧特征提取器可以是CNN或3D CNN(例如，C3D，其目的在于使用用大规模视频数据集训练的3D CNN，学习用于视频短片的空-时特征)。如图6和图7所示，视频被输入到CNN。在He Kaiming、Zhang Xiangyu、RenShaoqing、和Sun Jian的“Deep Residual Learning for Image Recognition”CVPR 2016一文中，给出了可以用于本文的CNN的实例。在D.Tran、L.Bourdev、R.Fergus、L.Torresani、和M.Paluri的“Learning Spatiotemporal Features with 3D Convolutional Networks”ICCV 2015一文中，给出了可以用于本文的3D CNN的实例，其全部内容结合于此作为参考。在一个实施例中，视频被分成16帧短片，然后大小被调整到例如224×224，以适合C3D模型的输入。对于每个视频短片，从CNN或3D CNN，例如，神经网络中的最后一个全连接层(即，softmax输出层之前的最后一个FC层)，提取帧特征信息。

图6示出了随时间展开的LSTM堆栈。如图所示，提取的FC-层特征被输入编码器。编码器可以用堆叠的RNN(可以称为第一堆叠RNN，例如，LSTM)实现以记录时间信息。其中，每个LSTM单元的输出都是其当前状态向量h_s。可以看出，编码器的每个LSTM单元的输出都被提供到解码器和注意力层。当LSTM进行编码时，在该阶段没有交叉熵损失。

II.解码器和注意力层

在编码器遍历了视频中的所有视频帧之后，句首(<SOS>)标记被提供给解码器，例如，堆叠的RNN(可以称为第二堆叠RNN，例如，LSTM)，以提示解码器开始将其当前隐藏表示解码成字的序列。解码器用编码器的最后隐藏状态(h_s)初始化，因此可以访问源信息。从图6中可以看出，编码器的当前状态向量h_s被提供给解码器。具体地，如图7所示，当前状态向量h_s1、h_s2、h_s3、和h_s4被提供给解码器。“字的序列”是指检索描述中包含的描述项，例如，检索描述“运球”中包含的“运”“球”(“dribbling”、“a”、和“basketball”)中的每个都是描述项。

在附图中，当前隐藏表示用h_t表示。例如，在用户输入了检索描述“运球”(dribbling a basketball)的情况下，

timestep(时间步)00:输入＝‘<SOS>’,解码器隐藏表示＝h0；

timestep 01:输入＝‘dribbling’，解码器隐藏表示＝h1；

timestep 02:输入＝‘a’,解码器隐藏表示＝h2；

timestep 02:输入＝‘basketball’,解码器隐藏表示＝h3；以此类推。

向量h_t和h_s是基于时间步来计算的。在编码器侧，“一个时间步”是指输入或读取一个视频帧/剪辑/片段。在解码器侧，“一个时间步”是指输入或读取一个字或字的序列，例如，“dribbling”、“a”、和“basketball”。

以下，将详细描述注意力层和FC层的注意力计算。如图6所示，编码器的输出(h_s)和解码器的输出(h_t)被提供到注意力层用于注意力计算。具体地，如图7所示，从编码器输出的向量h_s1、h_s2、h_s3、和h_s4以及从编码器输出的向量h_t1、h_t2、h_t3、和h_t4被输入到注意力层。对于解码器，其输出向量还将被提供到FC层。如图6所示，输出向量h_t被提供给FC层。

在解码器的每个时间步都进行注意力计算。注意力计算包括如下阶段。首先，如图6所示，在注意力层，将来自解码器的当前目标隐藏状态h_t与来自编码器的所有源状态h_s进行比较，以得到时间注意力权重α_t＝[α_t1,α_t1,...,α_ts]，其中，W是用于生成非标准化时间评分的权重矩阵，并且可以表示为W_s，以与后面的公式中出现的矩阵W_c相区分。

score(h_t,h_s)＝h_t ^TWh_s

基于注意力权重，可以获得上下文向量c_t作为源状态的加权平均。

在FC层，将从注意力层获得的上下文向量c_t与从解码器获得的当前目标隐藏状态h_t合并，以获得最终注意力向量a_t，其中，W_c是用于生成a_t的权重矩阵。

a_t＝tanh(W_c[c_t；h_t])

如图6所示，最终注意力向量a_t将被提供给解码器作为解码器的输入，基于该输入，解码器将得到后续输出。最终注意力向量的数量与检索描述中包含的描述项的数量一致。仍然以“<SOS>dribbling a basketball”为例，在FC层，将获得四个最终注意力向量，该四个最终注意力向量然后被输入解码器。

在解码阶段训练时，在给定了可视帧序列的隐藏表示(h_t)、最终注意力向量(a_t)、以及其之前看到的先前字的情况下，图6或图7的模型可以最大化预测输出序列的最大似然对数。对于具有参数θ和输出序列Y＝(y₁,...,y_m)的模型，这可以用公式表示为：

arg max_θ∑log p(y_t|h_t-1,a_t-1,y_t-1；θ)

使用随机梯度下降在整个训练数据集上优化该似然对数。仅当LSTM正在学习解码时才计算损失。该操作的目的在于训练图6或图7的整个神经网络的方向以获得每个部件(例如，注意力层)的参数。

推理阶段

给出了视频帧的序列(x₁,...,x_n)以及检索描述(y₁,...,y_m)，借助于图6或图7示出的架构，在推理阶段，可以检测视频中与检索描述相对应的视频时间段。对于图8的检索描述实例“dribbling a basketball”，本文提出的系统相对于每个描述项逐渐收集每个视频片段的注意力权重。例如，如图8的第二行所示，搜索项“dribbling”的最可能的时间段可能在视频时间段3和视频时间段4，在视频时间段3，注意力权重为0.45，在视频时间段4，注意力权重为0.4。

为了定位整个检索描述的时间段，将每个时间段或时间间隔的所有时间注意力权重相加(即，∑α_t)，并使用预定阈值来识别最可能的时间段。例如，其注意力之和大于阈值的视频片段将被确定为对应搜索的检测事件。有一种情况是，不存在其注意力之和大于阈值的片段，在该情况下，系统可以为本次搜索返回Null或空结果。

例如，如图8所示，时间段1(最左侧片段)的时间注意力权重之和为：

∑α_t1＝α₁+α₂+α₃+α₄＝0.14+0.01+0.01+0.01＝0.17

类似地，时间段4(从左数第四个片段)的时间注意力权重之和为：

∑α_t4＝α₁+α₂+α₃+α₄＝0.14+0.40+0.60+0.35＝1.49

其他片段的权重之和可以类似地获得。具体地，∑α_t1＝0.17、∑α_t2＝0.21、∑α_t3＝0.99、∑α_t4＝1.49、∑α_t5＝0.59、∑α_t6＝0.27、∑α_t7＝0.19。预定阈值例如为0.5。基于此，如图9所示，搜索项“dribbling a basketball”的时间间隔可以确定为较暗区域。即，视频片段x3～x5将被确定为待检索(即，待获取)的视频片段。

因此，在给出了视频(含片段x1～x7)和检索描述时，本文提出的技术可以帮助定位视频中的对应视频片段。如图10(A)所示，本文提出的系统将返回视频片段x3～x5，视频片段x3～x5最好地描述了“dribbling a basketball”的时间事件。

另一实例是，给出了视频和搜索对象描述，本文提出的技术可以帮助定位视频中的指定对象的对应时间段。如图10(B)所示，根据本发明实施例的系统将返回视频片段x2以及x6～x7，这些视频片段包含了时间段中的“hoop”对象。

应当理解，为了避免冗余，没有对相同或相似的部分进行重复描述。例如，在不冲突的情况下，诸如向量h_t、h_s、α_ts、a_t等的数据或信息的计算可以等同地应用于本公开的各个实施例。

本发明或者本发明的任何部分或其功能可以使用硬件、软件、或者硬件和软件的组合来实施，并且可以在一个或多个计算机系统或其他处理系统中实施。用于执行本发明实施例的操作并且能够执行文本所述的功能的计算机系统可以包括连接至通信基础设施(例如，通信总线、交叉线、或网络)的一个或多个处理器。上文已经结合这种示例性计算机系统描述了各种软件实施例。在阅读说明书之后，本领域普通技术人员将明白如何使用其他计算机系统和/或架构来实施本发明。

计算机系统可以包括转发来自通信基础设施(或来自帧缓存)图形、文本、以及其他数据以在显示单元进行显示的显示接口。显示接口可以与浏览器通信。计算机系统还包括主存储器，优选地，随机接入存储器，并且还可以包括辅存储器和数据库。辅存储器例如可以包括硬盘驱动器和/或可移除的存储器驱动器、软盘驱动器、磁带驱动器、光盘驱动器等。可移除的存储器驱动以公知的方式从可移除的存储器单元进行读取或者向可移除的存储器单元进行写入。可移除的存储器单元可以表示软盘、磁带、光盘等，其可以由可移除的存储器驱动器进行读取和写入。可以理解，可移除的存储器单元可以包括其中存储有计算机软件和/或数据的计算机可用存储介质或计算机可读介质。

计算机系统还可以包括允许在计算机系统和外部设备之间转发软件和数据的通信接口。计算机程序介质和计算机可用介质一般地是指诸如可移除的存储器驱动器的媒体、硬盘驱动器中安装的硬盘、以及信号等。这些计算机程序产品为计算机系统提供了软件。

计算机程序或控制逻辑存储在主存储器和/或辅存储器中。计算机程序还可以经由通信接口接收。当这种计算机程序或控制逻辑(软件)被执行时，使得计算机系统或其处理器执行本文所述的本发明实施例的特征和功能。

以上，为了说明和描述的目的给出了上面的说明书，而上述说明书并非是详尽的，且并非仅限于所公开的具体形式的实施例。在上述说明书的教导下，可以有多种修改和变化。本公开的范围是由权利要求而非说明书限定。

Claims

1.一种检索视频时间段的方法，包括：

分析视频以获得所述视频的帧特征信息；

将所述帧特征信息输入编码器以输出与所述视频的时间信息相关的第一数据；

将所述第一数据和用于检索所述视频的视频时间段的检索描述输入解码器，以输出第二数据；

根据所述第一数据和所述第二数据执行注意力计算训练；以及

根据所述注意力计算训练确定所述视频的与所述检索描述的对应的视频时间段。

2.根据权利要求1所述的方法，其中，根据所述第一数据和所述第二数据执行注意力计算训练包括：

将所述第一数据和所述第二数据输入注意力层，所述注意力层连接至所述编码器和所述解码器；

对于所述视频的每个视频时间段，基于每个视频时间段与所述检索描述中包含的每个描述项之间的相关性，在所述注意力层获得时间注意力权重数据；

基于所述第一信息和所述时间注意力权重数据，在所述注意力层获得加权平均数据，并将所述加权平均向量信息输出到FC层，所述FC层连接至所述注意力层和所述解码器；以及

基于所述加权平均数据和所述第二数据，在所述FC层获得最终注意力数据，并将所述最终注意力数据输出到解码器。

3.根据权利要求2所述的方法，其中，如下获得所述时间注意力权重数据：

score(h_t,h_s)＝h_t ^TWh_s

其中，h_s表示所述第一数据，h_t表示所述第二数据，W表示用于生成非标准化时间分数的权重矩阵，α_ts表示所述时间注意力权重；c_t、h_s、h_t基于时间步来计算。

4.根据权利要求3所述的方法，其中，如下获得所述加权平均数据：

其中，c_t表示所述加权平均数据。

5.根据权利要求4所述的方法，其中，如下获得所述最终注意力数据：

a_t＝tanh(W_c[c_t；h_t])

其中，a_t表示最终注意力数据，W_c表示用于生成a_t的权重矩阵。

6.根据权利要求3所述的方法，其中，所述根据所述注意力计算训练确定所述视频的视频时间段包括：

对于所述视频的每个视频时间段，将与所述检索描述中包含的所有描述项相关的所有时间注意力权重相加；以及

将总时间注意力权重大于阈值的视频时间段确定为检索到的视频时间段。

7.根据权利要求2所述的方法，其中，所述第一数据表示所述编码器的当前状态向量表示，所述第二数据表示所述解码器的当前目标隐藏状态向量表示。

8.根据权利要求1所述的方法，其中，所述分析所述视频以获得所述视频的帧特征信息包括：

将所述视频分成视频时间段；

将所述视频时间段输入包括多个层的卷积神经网络(CNN)；以及

从所述CNN提取特征作为所述视频的所述帧特征信息。

9.根据权利要求1所述的方法，其中，所述检索描述是文本输入或能够转换成文本的语音输入。

10.根据权利要求1所述的方法，其中，所述编码器是用堆叠循环神经网络(RNN)实现的，并且所述解码器是用另一堆叠循环RNN实现的。

11.一种用于检索视频时间段的系统，包括：

提取器，用于提取输入到所述提取器的视频的帧特征信息；

编码器，连接至所述提取器并用于根据所述帧特征信息获得所述视频的时间信息；

解码器，连接至所述编码器，用于从所述编码器接收所述时间信息、从外部接收检索描述、并且根据所述时间信息和所述检索描述获得所述解码器的状态信息；

层发生器，连接至所述编码器和所述解码器，用于从所述编码器接收所述时间信息并从所述解码器接收所述状态信息，并根据所述时间信息和所述状态信息进行注意力计算；以及

处理器，连接至所述层发生器，用于根据在所述层发生器进行的所述注意力计算，确定所述视频的对应于所述检索描述的视频时间段。

12.根据权利要求11所述的系统，其中，所述层发生器包括：

注意力层发生器，连接至所述编码器和所述解码器，并且用于基于所述视频的每个视频时间段与所述检索描述的每个描述项之间的相关性，获得每个视频时间段的时间注意力权重，并且根据所述时间注意力权重，获得所述时间信息的加权平均信息；以及

FC层发生器，连接至所述解码器和所述注意力层发生器，用于基于所述加权平均信息和所述状态信息获得最终注意力信息，并将所述最终注意力信息输出至解码器。

13.根据权利要求12所述的系统，其中，所述时间注意力权重如下获得：

score(h_t,h_s)＝h_t ^TWh_s

其中，h_s表示时间信息，h_t表示所述解码器的所述状态信息，W表示用于生成非标准化时间分数的权重矩阵，α_ts表示所述时间注意力权重；c_t、h_s、h_t基于时间步来计算。

14.根据权利要求13所述的系统，其中，所述加权平均信息如下获得：

其中，c_t表示所述加权平均数据。

15.根据权利要求14所述的系统，其中，所述最终注意力信息如下获得：

a_t＝tanh(W_c[c_t；h_t])

其中，a_t表示最终注意力信息，W_c表示用于生成a_t的权重矩阵。

16.根据权利要求11所述的系统，其中，所述处理器包括：

加法电路，用于对于所述视频的每个视频时间段，将与所述检索描述中包含的所有描述项有关的所有时间注意力权重相加；以及

检索电路，用于检索其总时间注意力权重大于阈值的视频时间段作为检索到的所述视频时间段，并将检索到的所述视频时间段提供给显示器进行显示。

17.一种计算机系统，包括：

至少一个非易失性计算机存储器，用于存储数据并提供对所述数据的访问；

至少一个处理器，连接至所述至少一个非易失性计算机存储器以访问数据；

卷积神经网络(CNN)，可以由所述至少一个非易失性计算机存储器存储并且可以由所述至少一个处理器执行，所述CNN用于提取视频的帧特征信息；

基于视频-描述的建模器，可以由所述至少一个非易失性计算机存储器存储并且可以由所述至少一个处理器执行，所述建模器包括：

第一堆叠循环神经网络(RNN)，与所述CNN连接并用于根据所述视频的帧特征信息获得所述视频的时间信息；

第二堆叠RNN，连接至所述第一RNN并且用于根据所述时间信息和检索描述生成基于隐藏表示的输出；以及

注意力层分层时间存储器(HTM)，连接至所述第一RNN和所述第二RNN，并且用于基于所述时间信息和所述基于隐藏表示的输出，获得所述视频中的每个视频时间段的时间注意力权重。

18.根据权利要求17所述的系统，其中，所述注意力层HTM用于如下获得所述时间注意力权重：

score(h_t,h_s)＝h_t ^TWh_s

其中

h_s表示从所述第一堆叠RNN输出的时间信息；

h_t表示从所述第二堆叠RNN输出的隐藏表示；以及

W表示用于生成非标准化时间分数的权重矩阵。

19.根据权利要求18所述的系统，其中，所述建模器还包括：

FC层HTM，连接至所述注意力层HTM和所述第二堆叠RNN，并且用于提供所述第二堆叠RNN的输入。

20.根据权利要求19所述的系统，其中，所述注意力层HTM还用于如下获得上下文向量c_t并将所述上下文向量输出至所述FC层HTM：

c_t＝∑_sα_tsh_s。

21.根据权利要求20所述的系统，其中，所述FC层HTM用于如下获得最终注意力向量a_t并将所述最终注意力向量输入所述第二堆叠RNN：

a_t＝tanh(W_c[c_t；h_t])

其中，W_c表示用于生成a_t的权重矩阵。