CN110072142B

CN110072142B - 视频描述生成方法、装置、视频播放方法、装置和存储介质

Info

Publication number: CN110072142B
Application number: CN201810072504.2A
Authority: CN
Inventors: 王景文; 姜文浩; 马林; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-01-24
Filing date: 2018-01-24
Publication date: 2020-06-02
Anticipated expiration: 2038-01-24
Also published as: CN110072142A; US11412023B2; WO2019144856A1; EP3745305A1; US20200296149A1; EP3745305A4; EP3745305B1

Abstract

本发明揭示了一种视频描述生成、装置、视频播放方法、装置和计算机可读存储介质。所述方法包括：提取视频特征，获得对应于视频流中视频编码时刻的视频特征序列；通过前向和后向递归神经网络编码视频特征序列，获得对应于每个视频编码时刻的前向隐状态序列和后向隐状态序列；根据前向隐状态序列和后向隐状态序列，定位每个视频编码时刻所对应的事件以及在视频编码时刻上事件对应的区间，进而预测所述事件的视频内容描述。在区分重叠事件的基础上，引入事件所对应的区间来预测生成事件在此视频编码时刻所对应的词，对于在此视频编码时刻上重叠的事件而言，即便发生着重叠，仍然是对应于不同区间的，在此视频编码时刻上对事件所进行的视频内容描述将得以具备非常高的区分度，以此类推，对给定的视频流进行着更有区分度的事件描述。

Description

视频描述生成方法、装置、视频播放方法、装置和存储介质

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种视频描述生成方法、装置、视频播放方法、装置和计算机可读存储介质。

背景技术

随着计算机视觉技术在人工智能上的突破性应用，计算机视觉技术中视频描述生成的应用量有了爆炸性的增长，视频描述生成的实现被部署到各种应用中，为应用完成视频内容描述任务。

现有的视频描述生成，是通过单向递归网络来检测事件，得到事件表征向量，并输入到另一个解码的递归网络中，以产生对应的事件描述。

但是，由于是通过单向递归网络，并且由随之而生成的隐状态向量作为事件表征向量，因此，对于结束时间相近的事件，即在时间上存在重叠的事件，并无法准确定位得到，从而对于时间上存在重叠的事件，其所对应视频内容的准确描述更无从谈起。

也就是说，视频描述生成的实现中无法有效区分重叠事件，并对重叠事件进行更有区分度的描述。

发明内容

为了解决相关技术的视频描述生成实现中难以区分重叠事件，且无法对重叠事件进行更有区分度的描述的技术问题，本发明提供了一种视频描述生成、装置、视频播放方法、装置和计算机可读存储介质。

一种视频描述生成方法，所述方法包括：

提取视频特征，获得对应于视频流中视频编码时刻的视频特征序列；

通过前向和后向递归神经网络编码所述视频特征序列，获得对应于每个视频编码时刻的前向隐状态序列和后向隐状态序列；

根据所述前向隐状态序列和后向隐状态序列，定位每个视频编码时刻所对应的事件以及在所述视频编码时刻上事件对应的区间；

根据所述视频编码时刻上事件对应的区间预测所述事件的视频内容描述，生成所述事件在所述视频编码时刻所对应的词；

通过所述事件对应于视频编码时刻的所有词，构建所述视频流中事件的自然语言描述。

一种视频描述生成装置，所述装置包括：

特征提取模块，用于提取视频特征，获得对应于视频流中视频编码时刻的视频特征序列；

编码模块，用于通过前向和后向递归神经网络编码所述视频特征序列，获得对应于每个视频编码时刻的前向隐状态序列和后向隐状态序列；

定位模块，用于根据所述前向隐状态序列和后向隐状态序列，定位每个视频编码时刻所对应的事件以及在所述视频编码时刻上事件对应的区间；

描述预测模块，用于根据所述视频编码时刻上事件对应的区间预测所述事件的视频内容描述，生成所述事件在所述视频编码时刻所对应的词；

描述构建模块，用于通过所述事件对应于视频编码时刻的所有词，构建所述视频流中事件的自然语言描述。

一种视频描述生成装置，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法。

一种视频播放方法，适用于计算机设备，所述方法包括：

视频边播放边对其进行视频描述生成中对应于各视频编码时刻的视频特征序列，确定对应于每个视频编码时刻的前向隐状态序列和后向隐状态序列；

根据所述视频编码时刻上事件对应的区间预测所述事件的视频内容描述，即时获得所述视频流中视频编码时刻上事件的自然语言描述；

按照所述视频编码时刻以及所播放视频的进度，为所播放视频内容中发生的事件进行相应自然语言描述的显示。

一种视频播放装置，包括处理器以及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如下方法步骤：

本发明的实施例提供的技术方案可以包括以下有益效果：

对给定的视频流，首先提取视频特征，获得对应视频流中视频编码时刻的视频特征序列，然后通过前向和后向递归神经网络编码视频特征序列，获得对应于每个视频编码时刻的前向隐状态序列和后向隐状态序列，进而便根据前向隐状态序列和后向隐状态序列来定位每个视频编码时刻所对应的事件以及在此视频编码时刻上所定位事件对应的区间，以在此视频编码时刻重叠的事件都精准定位出来，有效区分在此视频编码时刻上重叠的事件，最后根据视频编码时刻上事件对应的区间来预测事件的视频内容描述，生成事件在此视频编码时刻所对应的词，至此，即可事件对应于视频编码时刻的所有词，构建得到视频流中所定位得到事件的自然语言描述，在区分重叠事件的基础上，引入事件所对应的区间来预测生成事件在此视频编码时刻所对应的词，对于在此视频编码时刻上重叠的事件而言，即便发生着重叠，仍然是对应于不同区间的，因此，在此视频编码时刻上对事件所进行的视频内容描述将得以具备非常高的区分度，以此类推，对给定的视频流进行着更有区分度的事件描述。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的本发明所涉及的实施环境的示意简图；

图2是根据一示例性实施例示出的一种装置的框图；

图3是根据一示例性实施例示出的一种视频描述生成方法的流程图；

图4是根据图3对应实施例示出的对步骤350的细节进行描述的流程图；

图5是根据图3对应实施例示出的对步骤370的细节进行描述的流程图；

图6是根据图5对应实施例求出的对步骤371的细节进行描述的流程图；

图7是根据图6对应实施例示出的对步骤3713的细节进行描述的流程图；

图8是根据图5对应实施例示出的对步骤373的细节进行描述的流程图；

图9是根据图8对应实施例示出的对步骤3733的细节进行描述的流程图；

图10是根据一示例性实施例示出的视频描述生成的整体框架示意图；

图11是根据一示例性实施例示出的上下文门控调节的动态选择性融合流程图；

图12是一示例性实施例示出的一种视频描述生成装置的框图；

图13是根据图12所对应实施例示出的对定位模块的细节进行描述的框图；

图14是根据图12所对应实施例示出的对描述预测模块的细节进行描述的框图；

图15是根据图12所对应实施例示出的对特征融合单元的细节进行描述的框图；

图16是根据图15所对应实施例示出的对特征整合子单元的细节进行描述的框图；

图17是根据图14所示实施例示出的对解码单元的细节进行描述的框图；

图18是根据图17对应实施例示出的对空间映射子单元的细节进行的描述的框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的本发明所涉及的实施环境的示意简略。在一个示例性实施例中，本发明所实现视频描述生成，部署在视频类网站中，对视频进行事件的自动定位和语音标注，进而为视频类网站完成视频片段检索、视频个性化推荐等功能。

如图1所示的，所提供视频具备视频片段检索功能、视频个性化推荐功能的视频类网站通过服务端110和客户端130实现。

服务端110作为视频服务器，将对所输入视频，即视频提供方150所进行的视频上传，基于本发明所实现视频描述生成而处理视频，进而完成所对应的存储。

运行于各类终端设备的客户端130，通过对服务端110的访问而获得所请求的视频，此视频已基于本发明所实现的视频描述生成而进行了视频片段的自然语言标注，因此，在所进行的视频播放中能够快速提取视频片段。

此为本发明所实现视频描述生成的一个落地场景，但并不限于此，还将部署于各种人工智能应用，在此不一一进行列举。

图2是根据一示例性实施例示出的一种装置的框图。例如，装置200可以是图1所示的推荐服务器。

参照图2，该装置200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)222(例如，一个或一个以上处理器)和存储器232，一个或一个以上存储应用程序242或数据244的存储介质230(例如一个或一个以上海量存储设备)。其中，存储器232和存储介质230可以是短暂存储或持久存储。存储在存储介质230的程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器222可以设置为与存储介质230通信，在装置200上执行存储介质230中的一系列指令操作。装置200还可以包括一个或一个以上电源226，一个或一个以上有线或无线网络接口250，一个或一个以上输入输出接口258，和/或，一个或一个以上操作系统241，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等等。下述图4、图5、图6、图7和图8所示实施例中所述的由服务器所执行的步骤可以基于该图2所示的装置结构。

图3是根据一示例性实施例示出的一种视频描述生成方法的流程图。该视频描述生成方法，在一个示例性实施例中，如图3所示，至少包括以下步骤。

在步骤310中，提取视频特征，获得对应于视频流中视频编码时刻的视频特征序列。

其中，对给定视频流自动实现视频内容的描述。所指的视频流，与本发明所实现视频描述生成的落地场景强相关，不同的落地场景有着携带不同类型视频内容的视频流。例如，所落地场景为安全监控场景，则视频流来自于部署于各处的摄像头，所对应的视频内容即为摄像头对所在位置所捕获的内容；又例如，所落地场景为视频类网站的实现场景，则视频流是存储于视频服务器，且通过视频类网站发布，所对应的视频内容则相对较为丰富。

视频流对应于时间轴有着不同的视频图像，即每一帧视频图像的显示以及帧间视频图像的相互切换来实现视频流中视频内容的显示，因此，视频流是对应于一视频图像序列的，此视频图像序列由每一帧视频图像按照所对应的时间顺序形成。

因此，对于视频流中视频编码时刻的视频特征，是按照视频编码时刻而在视频流中对此视频编码时刻上的视频图像进行特征提取而获得的。也就是说，对于给定视频流所进行的视频特征提取，是按照一定时间间隔所进行的，每隔一指定时间间隔便进行一次视频特征提取，由此，所提取视频特征的对象即为当前视频编码时刻所对应的视频图像。

在一个示例性实施例，步骤310包括：按照指定时间间隔提取视频流在每一视频编码时刻的视频特征，对应于视频编码时刻的视频特征顺序形成视频特征序列。

在此所指的指定时间间隔使对应了为视频描述生成而配置的视频特征提取频率，例如，指定时间间隔可以为2秒，由此，便对视频流在其时间轴上按照2秒的间隔执行视频特征提取。

沿着时间轴顺序对视频流顺序进行视频特征的提取，所提取的视频特征必然对应于一视频编码时刻，即提取到此视频特征的视频编码时刻，进而即可按照视频编码时刻所对应的时间先后顺序使得所提取的视频特征形成视频特征序列。

视频特征序列包含着对视频流提取视频特征而获得的所有视频特征。应当理解，视频特征用于描述所对应视频编码时刻的视频图像在视觉上存在的特征，以此类推，通过视频特征序列便可获得视频流在视觉上存在的特征。

视频特征根据提取过程的实现而对应于不同的形式。在一个示例性实施例中，视频特征的提取通过深度神经网络技术完成，则所提取的视频特征是与深度神经网络技术相符的。例如，所采用的为卷积神经网络(Convolutional Neural Network，简称CNN)，则视频特征即为3D卷积特征。由于卷积神经网络所进行的特征提取是通过局部感知和参数共享，故适用于视频特征的提取，进而保证所提取特征的精准性。

应当进一步说明的是，按照指定时间间隔所进行的视频特征提取，通过对视频流进行滑动窗口式的特征提取实现，以提高视频特征提取的流畅性和效率。

在步骤330中，通过前向和后向递归神经网络编码视频特征序列，获得对应于每个视频编码时刻的前向隐状态序列和后向隐状态序列。

其中，对视频流提取得到视频特征序列之后，便由前向递归神经网络和后向递归神经网络分别进行视频特征序列的编码，此编码过程是针对于视频特征序列中的每一视频特征进行的，而每一视频特征都对应于视频流所在时间轴上的一视频编码时刻，因此，通过对视频特征而进行的编码获得对应于视频编码时刻的前向隐状态序列和后向隐状态序列。

具体而言，对视频特征序列所进行的编码，一方面通过前向递归神经网络按照所对应的视频编码时刻从前向后编码，获得前向隐状态序列；另一方面则通过后向递归神经网络按照所对应的视频编码时刻从后向前编码，获得后向隐状态序列。

所进行的编码，由于是针对对应于视频编码时刻的视频特征进行的，因此所获得的隐状态序列均是对应于视频编码时刻的，即，所包含的隐状态对应于视频编码时刻，无论是前向隐状态序列，还是后向隐状态序列，都是如此。

前向隐状态序列和后向隐状态序列都包含有隐状态，应当理解，隐状态是针对所对应视频编码时刻的视频特征进行的向量描述，隐状态携带了所对应视频编码时刻的视频信息。

进一步的，对于在视频流所对应时间轴上从前向后编码的前向隐状态序列，前向隐状态序列包含的前向隐状态携带了所对应视频编码时刻的历史信息；对于在视频流所对应时间轴上从后向前编码的后向隐状态序列，后向隐状态序列包含的后向隐状态携带了所对应视频编码时刻的未来信息。

由此，对于一视频编码时刻而言，所进行的视频内容描述，不再限于所提取的视频特征，还在前向隐状态和后向隐状态的作用下考虑了此视频编码时刻的上下文相关性，进而能够保证此视频编码时刻所进行视频内容描述的精准性和全面性。

也就是说，在前向递归神经网络和后向递归神经网络的作用下，得以对每一视频编码时刻基于视频特征以及历史信息、未来信息分别进行了描述，即如所获得的前向隐状态序列和后向隐状态序列。

在步骤350中，根据前向隐状态序列和后向隐状态序列，定位每个视频编码时刻所对应的事件以及在此视频编码时刻上事件对应的区间。

其中，应当理解的，通过前向隐状态序列和后向隐状态序列，得以获得每一视频编码时刻所对应的视频特征描述以及上下文相关性，进而即可进行此视频编码时刻上事件的精准预测。

随着视频流中视频内容发展，一视频编码时刻上往往对应着一个或者两个以上的事件，换而言之，这些事件在此视频编码时刻上存在着时间上的重叠性，需要通过前向隐状态序列和后向隐状态序列识别出时间上重叠的事件，即定位出每个视频编码时刻所对应的事件。

应当说明的是，所指的事件与所需要进行的视频内容描述相关，随着视频流中视频内容的发展，每一时间段上发生的事件便构成了视频流的视频内容，因此，所需要识别定位的事件，在时间轴上是对应于一时间段的，并且在视频流中是处于一视频段上的。对于在一视频编码时刻上定位的事件而言，在此视频编码时刻上事件所对应的区间便是包含于事件在时间轴上对应的时间段中的。

由此，便在前向隐状态序列和后向隐状态序列的作用下，针对于每个视频编码时刻定位得到此视频编码时刻所对应的一个或者两个以上的事件，以及每一事件所对应的区间。

至此，便为视频流定位出在时间上存在重叠的事件，视频流中事件的准确定位，将得以保障后续针对于每一事件所进行自然语言描述的准确生成，大幅提高定位和描述质量。

在步骤370中，根据此视频编码时刻上事件对应的区间预测事件的视频内容描述，生成事件在此视频编码时刻所对应的词。

其中，在定位得到视频编码时刻上所发生的事件之后，即可根据事件所对应的区间而实现此视频编码时刻上事件所对应视频内容的描述。应当进一步说明的是，在此视频编码时刻上重叠的事件，虽然存在着时间的重叠性，但由于每一事件所对应区间的不同，具体而言，每一事件在同一视频编码时刻上有着不同的上下文相关性，因此，将由所对应的区间在此视频编码时刻上进行所对应事件的视频内容描述预测。

至此，所生成事件在此视频编码时刻所对应的词，便是在此视频编码时刻上为事件而预测得到的视频内容描述。

在步骤390中，通过事件对应于视频编码时刻的所有词，构建视频流中事件的自然语言描述。

其中，通过步骤370的执行，以此类推，对于占据了一时间段的事件而言，便获得这一时间段中事件对应于每一视频编码时刻的所有词，这些词形成了事件的自然语音描述。

至此，便得以实现了视频流中每一事件所对应视频内容的自动描述，并不需要进行人工标注，即便时间上高度重叠的事件也获得有效区分，进而对事件进行更有区分度的描述，实现视频密集描述。

图4是根据图3对应实施例示出的对步骤350的细节进行描述的流程图。该步骤350，如图4所示，至少包括以下步骤。

在步骤351中，通过前向隐状态序列和后向隐状态序列进行前向预测和后向预测，为每个视频编码时刻获得前向候选区间和所对应的可信度，后向候选区间和所对应的可信度。

其中，对给定视频流，在进行了视频特征提取以及视频特征的编码之后，即可获得这一给定视频流的前向隐状态序列和后向隐状态序列，此时，将对每个视频编码时刻基于前向隐状态序列和后向隐状态序列分别进行前向预测和后向预测，进而获得通过前向隐状态序列进行前向预测的前向候选区间，以及这一前向候选区间对应的可信度，也获得通过后向隐状态序列进行后向预测的后向候选区间，以及这一后向候选区间对应的可信度。

由此，使每个视频编码时刻上通过前向预测和后向预测的进行而预测得到若干前向候选区间和若干后向候选区间。

无论是前向候选区间，还是后向候选区间，都是与此视频编码时刻的隐状态，具体而言，是前向隐状态和后向隐状态对应于相同类别的候选区间。也就是说，所进行的候选区间预测，是基于隐状态而为视频编码时刻获取对应于相同类别的候选区间，所对应的可信度则表征所预测得到视频编码时刻的事件候选区间包含事件的可能性，进而最终得到事件所对应的区间。

在一个示例性实施例的具体实现中，如前所述的，无论是前向隐状态序列，还是后向隐状态序列，都是通过递归神经网络编码得到。与之相对应的，随之而进行的前向预测和后向预测将通过一层全连接网络的使用而实现。

具体的，对于前向预测的进行，在前向隐状态序列中，使用一层全连接网络对每一前向隐状态在所对应视频编码时刻上向前预测若干个区间，所预测得到的若干个区间即为前向候选区间。

对每一前向候选区间，通过非线性变换操作，例如，Sigmoid操作得到对应的可信度。前向隐状态序列为，t为视频编码时刻，其取值为t＝1,2,…，是t视频编码时刻所对应的前向隐状态，通过Sigmoid操作的执行，将前向隐状态通过神经元后映射到一个新的空间中，在此空间中对其进行加权和偏移处理后再激活，以获得可信度，即如下述公式所示的：

其中，是前向候选区间对应的可信度，是Sigmoid分类函数，是权重系数，为偏移量。

与之相类似的，对于每一后向候选区间，则通过下述公式运算得到所对应的可信度，即：

其中，是后向候选区间对应的可信度，是权重系数，是后向隐状态。

至此，便对每一视频编码时刻根据前向隐状态和后向隐状态预测向前和后向完成区间预测，并获得所预测区间的可信度。

在步骤353中，针对于每个视频编码时刻，根据所对应的可信度进行前向候选区间和后向候选区间的合并预测，合并预测所得到的合并可信度定位视频编码时刻所对应的事件，且事件所对应预测合并的前向候选区间和后向候选区间形成此视频编码时刻上事件对应的区间。

其中，在通过前述步骤的执行，针对于每个视频编码时刻获得若干前向候选区间，以及若干后向候选区间之后，依然针对于每个视频编码时刻进行着前向候选区间和后向候选区间的合并预测，以获得此视频编码时刻上事件所对应的区间。

应当理解，对于一视频编码时刻而言，所预测得到的若干前向候选区间、后向候选区间这两类区间合并，便构成了可能包含事件的候选区间，并且由于所预测得到的前向候选区间和后向候选区间均为多个，因此，能够获得多个可能包含事件的候选区间，因此，需要进行执行合并预测而获得的合并可信度来确定哪一候选区间包含着事件，进而即可完成事件的定位。

所进行的合并预测，是根据前向候选区间对应的可信度，后向候选区间对应的可信度实现的。即根据所对应的可信度来运算一前向候选区间和一后向候选区间合并所形成区间包含事件的可能性，所运算得到的合并可信度越大，则可能性越高。

针对于一视频编码时刻，在所预测得到的前向候选区间和后向候选区间两两进行合并预测获得合并可信度，所得到的合并可信度便用于包含事件的区间选取。例如，在高于某一限值的合并可信度所对应区间即可视为包含着事件的区间。

在一示例性实施例的具体实现中，在通过前向操作和后向操作的执行而完成前向预测和后向预测之后，得到了N个事件的定位，以及对应的前向后向分数，即前述所指的可信度，假设为以及，此时，通过合并操作的执行而得到所合并区间中存在事件的可信度分数，即合并可信度。

例如，此合并操作可以是乘法操作，则通过下述公式获得合并可信度，即：

此时，合并可信度在大于所设定的限值时，即可认为所对应前向候选区间和后向候选区间所合并形成的区间中存在着当前所对应视频编码时刻上发生的事件，进而即可定位得到这一视频编码时刻上的事件，以此类推，定位得到这一视频编码时刻上的所有事件，以及每一事件对应的区间。

通过此示例性实施例，得以实现上一视频编码时刻上存在重叠的事件的识别，即基于每一事件所对应的不同区间而识别定位得到，视频流上的每一视频编码时刻均能够识别所存在的多个事件，进而不再限于单一事件的识别，也不再将一视频编码时刻上存在的多个事件识别为一个事件，针对性以及区分性得到增强，视频流中事件识别准确性得到提高，避免了视频流的事件识别中事件遗漏的发生。

在一个示例性实施例中，对于为一事件而预测得到的多个自然语言描述而言，通过联合排序(Joint Ranking)来得到高可信度的结果输出。

具体而言，对事件的自然语言描述，例如，其是以句子形式存在的，将对其计算描述句子的可信度，即句子可信度，进而结合合并可信度来运算得到描述可信度，从输出的自然语言描述中筛选出高描述可信度的句子。

在一个示例性实施例的具体实现中，句子可信度由下述公式运算得到，即：

其中，w_i为包含M个词的句子中第i个词。

至此，通过公式C＝10×C_p+C_c来运算得到描述可信度。

图5是根据图3对应实施例示出的对步骤370的细节进行描述的流程图。该步骤370，如图5所示，至少包括以下步骤。

在步骤371中，在视频编码时刻上事件对应的区间，为事件进行事件特征的融合检测获得此视频编码时刻上事件所对应的事件特征。

其中，如前所述的，不同的事件对应着不同的区间，即有着不同的视频片段，因此不同的事件有着不同的事件特征，其可由事件所对应的视频片段以所存在的上下文相关信息融合检测得到。

事件特征用于表征事件的主要内容，通过进行事件所对应视频片段的检测和处理而获得，即通过融合检测的进行获得。一方面，将在视频编码时刻上事件所对应区间上实现事件特征的融合检测，应当理解，事件所对应区间上融合检测的进行，便是对事件所对应视频片段进行融合检测，以保证事件所相关信息采集的准确性和全面性。

另一方面，融合检测的进行，将用于实现事件特征的准确可靠获得。具体而言，对事件所对应视频片段进行视觉特征检测，并获取其上下文相关性等方面的特征，对此执行融合，便完成前述所指的融合检测。

与之相对应的，所获得的事件特征便与视觉特征和上下文相关性密切相关，因此，融合检测而获得的事件特征反映了视频片段呈现的视觉内容，除此之外，也构建了与前后视频内容描述之间的衔接，将得以增强视频流所生成视频描述的顺畅性和语义性能。

一视频编码时刻上，不同的事件将对应于不同的区间，进而相应获得不同的事件特征，以对同一视频编码时刻上的多个事件分别完成清楚的描述。

在此应当进一步说明的是，在前述步骤进行了视频流中事件的定位，即定位得到了每一视频编码时刻上存在的多个事件，进而通过本示例性实施例，对每一视频编码时刻上的每一事件，都进行着事件特征的融合检测，以便于对每一视频编码时刻上的每一视频编码时刻实现视频内容描述。

在步骤373中，通过此视频编码时刻上事件所对应的事件特征和区间映射的上下文信息，解码此视频编码时刻，生成事件在此视频编码时刻对应的词。

其中，通过所提取的视频特征，采用前向递归网络和后向递归网络进行了视频特征的编码，并且每一视频特征都是对应于视频编码时刻的，因此，对此视频编码时刻进行了编码。

通过编码的进行获得了前向隐状序列和后向隐状态序列，无论是前向隐状态序列，还是后向隐状态序列，都是对视频编码时刻编码而获的编码向量。与之相对应的，还将进行着视频编码时刻的解码，进而生成事件在此视频编码时刻上的视频内容描述。

事件特征描述了事件本身；区间所映射的上下文信息，则为事件的视频内容描述充分考虑前后所存在的视频内容，此将通过携带历史信息的前向隐状态，以及携带未来信息的后向隐状态实现。

区间映射的上下文信息，用于指示区间所对应视频片段，即是事件的上下文相关性。一视频编码时刻上事件所对应的区间，包括两个区间端点，这两个区间端点即为存在时间先后顺序的两个视频编码时刻，即在前视频编码时刻和在后视频编码时刻，在前视频编码时刻所对应的前向隐状态，以及在后视频编码时刻所对应的后向隐状态，构成区间所对应的上下文信息。

根据事件特征和上下文信息进行视频编码时刻上事件的诠释，生成事件在此视频编码时刻所对应的词。换而言之，为事件解码视频编码时刻而生成的词，将在此视频编码时刻上进行了事件的描述，进行着此视频编码时刻上事件所对应视频内容的描述，以视频编码时刻为单位保证着视频流以及视频流中事件的准确描述。

图6是根据图5对应实施例求出的对步骤371的细节进行描述的流程图。在一个示例性实施例中，如图6所示，至少包括以下步骤。

在步骤3711中，检测视频编码时刻上事件所对应区间中的视觉特征。

其中，视觉特征，是事件所对应区间上视频片段在视觉上存在的特征，例如，所显示视频图像中各种标记的存在都将成为视觉特征。

在步骤3713中，在注意力机制下根据区间映射的上下文信息融合视觉特征，获得视频编码时刻上事件所对应的事件特征。

其中，注意力机制用于关注与事件对应区间，即事件所在的视频片段中与最终所输出的词相关的局部图像，通过注意力机制的引入，能够更好地定位视频中的关键帧信息，进而精准获得所对应自然语言描述的词。

在如上所述的示例性实施例中，应当看到，本发明所示的视频描述生成将基于编码-解码架构实现，所谓编码，就是将所输入的视频特征序列转化成一定长度的向量；解码就是将之前生成的向量再转化成输出序列，即词序列。在编码和解码二者之间，由于适配于视频处理的需要，编码所输出向量的长度，与解码所需要输入向量的长度往往各不相同，因此需要在注意力机制的作用下进行处理，以保证向解码输入的向量充分携带关键帧信息，保证信息准确性的同时得以自适应的适配于解码过程的实现。

具体的，在注意力机制下，结合区间映射的上下文信息来进行视频特征的处理，即实现相互之间的融合。在此应当说明的是，对于解码过程中所对应词的生成，也将基于解码器生成上一个词的过程进行，即也根据与上一个词之间的相关性，参与到视觉特征的融合中。

当然应当说明的是，所指的上一个词，是解码器解码上一视频编码时刻而生成的上一个词。在一个示例性实施例的具体实现中，将使用上一个词所对应的词嵌入向量以及解码器生成上一个词而对应的状态信息表征解码器中上一个词的生成，进而将所对应词嵌入向量和状态信息应用于下一个词，即当前所输入解码器的事件特征融合中。

进一步的，解码器生成上一个词而对应的状态信息指示了所生成上一个词对于视频内容描述为上一词的概率，将首先借助于所生成上一个词以及状态信息，来获得所检测视觉特征与解码器当前状态的相关性，以此来更好的定位所存在的关键帧信息，进而根据所定位关键帧信息的权重来实现注意力融合，获得事件特征。

图7是根据图6对应实施例示出的对步骤3713的细节进行描述的流程图。在一个示例性实施例中，该步骤3713，如图7所示，至少包括以下步骤。

在步骤401中，在区间映射的上下文信息辅助下，相对于事件生成上一视频编码时刻所对应词的状态信息，计算为视觉特征之间的相关度。

其中，如前所述的，区间映射的上下文信息包括端点上在前视频编码时刻对应的前向隐状态以及在后视频编码时刻所对应的后向隐状态。

将区间映射的上下文信息引入，为事件在当前视频编码时刻运算上一视频编码时刻所对应词的状态信息和视频特征之间的相关度。进一步的，同时融合上下文信息进行相关度计算，如下述公式所示：

其中，是检测事件中视觉特征

与当前解码器的状态信息H_t-1的相关度，

W_v、W_h和W_H均为对应于为权重系数，tanh用于指示所进行的非线性变化采tanh激活函数，

是上下文信息，[·，·]表示向量拼接，H_t-1是当前解码器的状态信息，b是偏置项。

在步骤403中，根据视觉特征与事件在上一视频编码时刻所预测视频内容的相关度，运算事件在所对应区间中每一视觉特征的权重。

其中，通过前述步骤401，运算得到每一视觉特征相对于当前解码器状态的相关度之后，即可由所有视频特征对应的相关度运算每一视频特征的权重。

事件在所对应区间中每一视觉特征的权重，用于指示所对应的视觉特征对于视频内容描述的重要程度，进而方能够根据所指示的重要程度来在注意力机制下进行所对应视觉特征的整合。

在一个示例性实施例的具体实现中，所指的权重运算，通过下述公式实现，即：

其中，

是视觉特征v_t的权重，p为视觉特征的数量。

在步骤405中，根据对应权重进行事件在所对应区间中视觉特征的整合，生成事件在视频编码时刻上对应的事件特征。

其中，由每一视觉特征所对应的权重来进行事件所在区间中所有视觉特征的整合，以获得事件在视频编码时刻上的事件特征。

应当理解的，每一视觉特征所对应的权重，是对视觉特征参考了上下文信息、当前解码器所进行解码而生成上一个词的状态来运算得到的，并不限于单一的视觉特征，而是置于整个事件，即事件所对应的视频片段来运算，因此，所获得的权重将精准衡量了对于事件而言所对应视觉特征的重要性。

至此，即可由每一视觉特征所对应的权重来整合视觉特征，生成事件在视频编码时刻上对应的事件特征。

所指的视觉特征整合，是通过加权和来完成的注意力整合，事件特征

可如下述公式整合得到，即：

通过如上所述的示例性实施例，便在注意力机制的作用下获得可进行解码的事件特征，至此，随着解码器中解码的进行，获得当前视频编码时刻上事件所对应的视频描述，即实现相应词的生成。

图8是根据图5对应实施例示出的对步骤373的细节进行描述的流程图。该步骤373，在一个示例性实施例中，如图8所示，至少包括以下步骤。

在步骤3731中，将视频编码时刻上事件所对应的事件特征和所对应区间映射的上下文信息映射至同一逻辑空间。

其中，通过前述示例性实施例，运算得到视频编码时刻上事件所对应的事件特征，由此，将通过所获得的事件特征和上下文信息来计算解码器输入，计算向解码器输入的特征。

在进行特征运算之前，首先需要进行事件特征和上下文信息向同一逻辑空间的映射，以获得具备相同标尺衡量的事件特征和上下文信息。

在一个示例性实施例的具体实现中，通过tanh激活函数而进行的非线性变换进行事件特征和上下文信息向同一逻辑空间的映射。

具体如下述公式所示，即：

其中，

是被映射至逻辑空间的事件特征，

是权重系数，h是映射至逻辑空间的上下文信息，W_ctx是权重系数。

在步骤3733中，对映射于同一逻辑空间的事件特征和上下文信息执行门控操作，自适应构建视频编码时刻上事件向解码器输入的特征。

其中，门控操作用于基于上下文来自适应地调节当前事件特征与上下文信息在预测下一个词时的相对贡献。根据解码器所预测的上一个词以及解码器所对应的状态信息，进行非线性操作，以完成门控操作，通过门控操作而输出的值用于平衡事件特征与上下文信息。

图9是根据图8对应实施例示出的对步骤3733的细节进行描述的流程图。在一个示例性实施例中，该步骤3733，如图9所示，至少包括以下步骤。

在步骤501中，结合事件在上一视频编码时刻所预测视频内容生成的词以及状态信息，对映射于同一逻辑空间的事件特征和上下文信息进行非线性变换，生成门控输出值。

在步骤503中，由门控输出值自适应调节映射于同一逻辑空间的事件特征和上下文信息，事件特征和上下文信息被调整后的特征构成此视频编码时刻上事件向解码器输入的特征。

在一个示例性实施例的具体实现中，门控操作的执行，通过下述公式实现，即：

其中，g_ctx是解码中上下文信息在预测下一个词所起作用的比重，E_t是词嵌入向量。

通过门控操作输出的值，对于映射于同一逻辑空间的事件特征和上下文信息进行调整，以获得向解码器输入的特征。

在一个示例性实施例的具体实现中，t视频编码时刻下解码器接收到的输入为：

其中，F即为t视频编码时刻下向解码器输入的特征，×表示按元素乘法(element-wise multiplication)。

在步骤3735中，通过视频编码时刻上事件经由门控操作而向解码器输入的特征，由解码器预测生成事件在该视频编码时刻对应的词。

其中，在向解码器输入事件在t视频编码时刻的特征之后，将在解码器的运算下输出事件在t视频编码时刻对应的词。

在一个示例性实施例的具体实现中，所采用的解码器，是LSTM(Long Short-TermMemory)解码器，即长短期记忆的递归单元。

以此类推，即可获得每一视频编码时刻上所存在多个事件所分别对应的词，进而形成视频流中事件的自然语言描述。

通过如上所述的示例性实施例，便实现了视频内容描述服务，在此视频内容描述服务的运行下，能够在后台服务器中对视频流进行视频特征提取，及事件定位和描述，并且能够提高视频密集描述的事件定位质量和描述质量。

例如，将视频内容服务部署于视频类网站中，对视频感兴趣片段进行自动定位和语言标注，进而实现视频片段快速提取、视频片段检索和视频个性化推荐等。

以一视频流为例，来描述上述视频描述生成方法。此视频流是一视频类网站即将发布的视频，在发布之后，将通过本发明所示的视频描述生成方法实现事件的定位以及语言标注。

图10是根据一示例性实施例示出的视频描述生成的整体框架示意图。在此示例性实施例中，首先对视频流进行视频特征提取，即对视频流进行滑动窗口式的特征提取，得到一视频特征序列：V＝{v₁，v₂，...，v_T}。

如图10所示的，在视频描述生成的整体框架上，所获得的视频特征序列经由前向序列编码器和后向序列编码器执行每一视频编码时刻上的编码，即如框架610所示。

应当理解，前向序列编码器即为前向递归神经网络，后向序列编码器为后向递归神经网络。

在前向序列编码器和后向序列编码器的作用下获得上下文信息，亦称之为上下文向量，例如，对于m视频编码时刻至n视频编码时刻所构成的区间，对应的上下文向量为和。

如前所述的，通过前向序列编码器获得前向隐状态序列，通过后向序列编码器获得后向隐状态序列。

至此，在所执行的步骤620中，进行着事件定位预测，通过前向隐状态序列和后向隐状态序列定位得到一视频编码时刻上事件所对应的区间为m视频编码时刻至n视频编码时刻所构成的区间。

在此区间上，对此区间的视频片段进行视觉特征检测，获得视觉特征

进而如框架630的实现，由上下文向量和视觉特征

实现视觉信息输入F的构建，即构建向解码器输入的特征，进而在视觉信息输入F的作用下，事件描述得以生成。

应当进一步描述的，对于所进行的事件定位预测，即步骤620的执行，将是在前向序列编码器和后向序列编码器的作用下，进行前向预测和后向预测，以对一视频编码时刻进行历史和未来的预测，并对此执行合并预测，具体如框架620所示的。

对于所进行的事件描述生成，则如框架641所示，在LSTM单元的作用下对每一视频编码时刻执行解码，通过所构建的视觉信息输入F，而获得对每一视频编码时刻生成的词，进而最终形成整个视频流中每一事件的语言标注。

进一步的，图11是根据一示例性实施例示出的上下文门控调节的动态选择性融合流程图。对于图10所进行的视觉信息输入F的构建以及事件描述生成，将通过图11所示的实现完成。

具体的，对视觉特征

通过注意力机制与当前解码器状态H_t-1、上下文向量h整合在一起，以获得整合的事件特征

对所获得的事件特征

以及上下文向量h在上下文门控的作用下执行门控操作，以自适应调节事件特征和上下文向量，并在所输出数值的作用下构建视频信息输入F。

将视频信息输入F输入递归单元LSTM，并在多层感知机的作用下，获得输出，即构成自然语言描述的词。其中，应当理解，上下文门控的输出值将用于对输入递归单元的特征进行自适应调整，所获得的输出。

在此过程的实现中，得以增强视频密集描述能力，能够得到长视频的事件定位和对应的文字描述，能够给视频打上文字标签，并且能够通过文字和句子来对视频进行视频检索或片段检索，进而实现视频的快速、片段选择性播放等。

下述为本发明装置实施例，可以用于执行本发明上述视频描述生成方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明视频描述生成方法实施例。

图12是一示例性实施例示出的一种视频描述生成装置的框图。该视频描述生成装置，如图12所示，包括但不限于：特征提取模块810、编码模块830、定位模块850、描述预测模块870和描述构建模块890。

特征提取模块810，用于提取视频特征，获得对应于视频流中视频编码时刻的视频特征序列。

编码模块830，用于通过前向和后向递归神经网络编码所述视频特征序列，获得对应于每个视频编码时刻的前向隐状态序列和后向隐状态序列。

定位模块850，用于根据前向隐状态序列和后向隐状态序列，定位每个视频编码时刻所对应的事件以及在视频编码时刻上事件对应的区间。

描述预测模块870，用于根据视频编码时刻上事件对应的区间预测事件的视频内容描述，生成事件在视频编码时刻所对应的词。

描述构建模块890，用于通过事件对应于视频编码时刻的所有词，构建所述视频流中事件的自然语言描述。

在一个示例性实施例中，特征提取模块810进一步用于按照指定时间间隔提取视频流在每一视频编码时刻的视频特征，对应于视频编码时刻的视频特征顺序形成视频特征序列。

图13是根据图12所对应实施例示出的对定位模块的细节进行描述的框图。在一个示例性实施例中，该定位模块850，如图13所示，包括但不限于：双向预测单元851和合并预测单元853。

双向预测单元851，用于通过前向隐状态序列和后向隐状态序列进行前向预测和后向预测，为每个视频编码时刻获得前向候选区间和所对应的可信度，后向候选区间和所对应的可信度。

合并预测单元853，用于针对于每个视频编码时刻，根据所对应的可信度进行前向候选区间和后向候选区间的合并预测，合并预测所得到的合并可信度定位视频编码时刻对应的事件，且事件所对应预测合并的前向候选区间和后向候选区间形成视频编码时刻上事件对应的区间。

图14是根据图12所对应实施例示出的对描述预测模块的细节进行描述的框图。该描述预测模块870，如图14所示，包括但不限于：特征融合单元871和解码单元873。

特征融合单元871，用于在视频编码时刻上事件对应的区间，为事件进行事件特征的融合检测获得视频编码时刻上事件所对应的事件特征。

解码单元873，用于通过视频编码时刻上事件所对应的事件特征和区间映射的上下文信息，解码视频编码时刻，生成事件在视频编码时刻对应的词。

图15是根据图12所对应实施例示出的对特征融合单元的细节进行描述的框图。该特征融合单元871，如图15所示，包括但不限于：特征检测子单元8711和特征整合子单元8713。

特征检测子单元8711，用于检测视频编码时刻上事件所对应区间中的视觉特征。

特征整合子单元8713，用于在注意力机制下根据区间映射的上下文信息整合视觉特征，获得视频编码时刻上事件所对应的事件特征。

图16是根据图15所对应实施例示出的对特征整合子单元的细节进行描述的框图。该特征整合子单元8713，如图16所示，包括但不限于：相关度计算子单元901、权重运算子单元903和事件特征生成子单元905。

相关度计算子单元901，用于在区间映射的上下文信息辅助下，相对于事件生成上一视频编码时刻所对应词的状态信息，计算与视觉特征之间的相关度。

权重运算子单元903，用于根据视觉特征与事件在上一视频编码时刻所预测视频内容的相关度，运算事件在所对应区间中每一视觉特征的权重。

事件特征生成子单元905，用于根据所对应权重进行事件在所对应区间中视觉特征的整合，生成事件在视频编码时刻上对应的事件特征。

图17是根据图14所示实施例示出的对解码单元的细节进行描述的框图。该解码单元873，如图17所示，包括但不限于：空间映射子单元8731、门控子单元8733和解码器8735。

空间映射子单元8731，用于将视频编码时刻上事件所对应的事件特征和所对应区间映射的上下文信息映射至同一逻辑空间。

门控子单元8733，用于对映射于同一逻辑空间的事件特征和上下文信息执行门控操作，自适应构建视频编码时刻上所述事件向解码器输入的特征。

解码器8735，用于通过视频编码时刻上事件经由门控操作而向解码器输入的特征，由解码器预测生成事件在视频编码时刻对应的词。

图18是根据图17对应实施例示出的对空间映射子单元的细节进行的描述的框图。该空间映射子单元8731，如图18所示，包括但不限于：门控输出子单元1001和输入特征构建子单元1003。

门控输出子单元1001，用于结合事件在上一视频编码时刻所预测视频内容生成的词以及状态信息，对映射于同一逻辑空间的事件特征和上下文信息进行非线性变换，生成门控输出值。

输入特征构建子单元1003，用于由门控输出值自适应调节映射于同一逻辑空间的事件特征和上下文信息，事件特征和上下文信息被调整后的特征构成视频编码时刻上事件向解码器输入的特征。

可选的，本发明还提供一种资源推荐装置，该资源推荐装置可以用于前述所示实施环境中，执行如上任一所示的方法的全部或者部分步骤。所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

所述计算机可读指令被所述处理器执行时实现前述方法。

该实施例中的装置的处理器执行操作的具体方式已经在前述方法的实施例中执行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种存储介质，该存储介质为计算机可读存储介质，例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质例如包括指令的存储器，上述指令可由装置的处理器执行以完成上述方法。

基于如上所述的示例性实施例，能够为前端所进行的视频播放即时进行视频描述生成，进而使得所进行的视频播放中，存在于视频内容中的各个事件能够在播放时相应的显示自然语言描述，以此类推，使得整个视频播放过程中存在的事件，甚至于时间上重叠的事件，都能够在所播放的视频内容中获得相应的自然语言描述。

基于此，将实现了一种能够即时为所输入视频流生成视频描述的视频播放方法及装置，通过此视频播放装置的实现，得以在视频的播放中同步显示所预测事件对应的自然语言描述。

首先，本发明提供一种视频播放方法，适用于计算机设备，该视频播放方法包括：

根据前向隐状态序列和后向隐状态序列，定位每个视频编码时刻所对应的事件以及在视频编码时刻上事件对应的区间；

根据视频编码时刻上事件对应的区间预测事件的视频内容描述，即时获得视频流中视频编码时刻上事件的自然语言描述；

按照视频编码时刻以及所播放视频的进度，为所播放视频内容中发生的事件进行相应自然语言描述的显示。

其次，本发明还提供一种视频播放装置，包括处理器以及存储器，存储器上存储有计算机可读指令，计算机可读指令被处理器执行时实现如下方法步骤：

按照视频编码时刻以及视播放视频的进度，为所播放视频内容中发生的事件进行相应自然语言的显示。

至此，便实现了所播放的视频流中存在事件的定位以及事件所相关视频内容的自然语言描述生成和显示，并且是在每个视频编码时刻上根据所对应的前向隐状态序列和后向隐状态序列进行着此视频编码时刻上事件的定位以及所定位事件的视频内容描述预测，因此，时间上重叠的事件能够被有效识别，进而被准确描述，对于视频播放中各事件的自然语言描述准确率，将至少达到95％。

应当理解，本发明所实现的视频播放装置，一方面，其是作为视频播放器而存在的，即对输入的视频流进行视频播放；另一方面，也配置着对所输入视频流即时进行事件的视频描述预测功能，进而保证了所输入视频流的视频内容输出中，同步进行着各事件所对应自然语言描述的输出。

而对于本发明所实现视频播放装置涉及的细节实现，参照本发明所提供的视频描述生成方法实施例。

视频播放装置具备了视频播放功能以及视频描述生成功能，因此，能够根据需要而部署于各种应用场景中，例如，安全监控场景，所采集视频的播放中同步输出视频描述的场景，以进一步提升基于视频内容的人工智能应用性能。

具体的，在安全监控场景下，通过部署于各处的摄像头进行着交通状况的视频采集，并通过所采集视频的显示来实现交通状况的实时监控。

在此交通状况的实时监控中，针对于视频中发生的车祸事件，能够随着视频特征序列的确定以及车祸事件的定位，预测车祸事件的视频内容描述，获得车祸事件的自然语言描述。

通过本发明的技术实现，能够对视频中快速发生的车祸事件在呈现此车祸事件的视频内容时一并提供相应的自然语言描述，一方面保证了车祸事件的自然语言描述能够快速准确的获得，另一方面也使得视频中快速发生的车祸事件能够经由即时输出的自然语言描述而呈现更多细节信息，进而扩展了所输出信息的准确性和丰富性。

应当理解，对于视频中发生的车祸事件，往往是快速发生的，因此，在视频呈现中，车祸事件所对应的视频内容也是快速切换的，实质上并无法输出有效信息。

而在所准确生成的视频描述，即车祸事件所对应自然语言描述的辅助下，方能够对真实车祸现场的状况进行真实无死角的还原。

由此，通过本发明的技术实现，得以辅助安全监控场景快速且无遗漏的实现安全监控，极大的提升了安全监控的准确率和效率。

又例如，对于所采集视频的播放中同步输出视频描述的场景，以演讲现场的视频直播为例进行说明。

在演讲现场对演讲者的演讲过程进行视频采集，以通过采集得到的视频流进行此演讲过程的视频直播。

随着演讲者的演讲，通过所采集视频流得以进行着演讲者演讲的视频显示，在此，便通过本发明的技术实现，配合生成并显示演讲过程所对应的视频内容描述。

进一步的，所进行的视频内容描述生成，如前所述的，将根据每一视频编码时刻对应的前向隐状态序列和后向隐状态序列定位所存在的事件以及事件对应在此视频编码时刻上对应的区间，进而以此为依据而为所存在的每一事件生成自然语言描述。

而更进一步的，所进行的视频内容描述生成，还基于所定位事件在视频编码时刻上对应的区间，检测视觉特征，例如，视觉特征包括对视频中演讲者而抓取的动作等，整合所获得的视觉特征来得到事件特征，进而实现精准的视频内容生成。

综上所述的，根据前述应用场景的实现，能够明确看到，通过本发明的技术实现，将极大的提升了视频应用的性能，视频播放中事件的准确识别和描述，也极大的扩展了视频应用所能够落地的应用场景。

而通过本发明的技术实现，将使得视频中在时间上相互重叠的事件被识别，进而使得视频描述的准确率提高一倍，获得95％以上的准确率。例如，下述表格即为一实验对照数据：

所采用的视频描述生成方法	准确性得分
		Krishna et al.	4.82
本发明的方法	9.65

表1

表1是分别应用本发明的方法，以及Krishna et al.这一现在最为优秀的方法进行同一视频的视频描述生成所获得的实验对照结果，应当补充说明的是，在实验对照结果中准确性得分是以10分为满分而统计生成的。

由此可以清楚的看到，通过本发明的技术实现，视频描述的准确率提高一倍，且获得95％以上的准确率。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种视频描述生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述提取视频特征，获得对应于视频流中视频编码时刻的视频特征序列，包括：

按照指定时间间隔提取所述视频流在每一视频编码时刻的视频特征，对应于视频编码时刻的所述视频特征顺序形成视频特征序列。

3.根据权利要求1所述的方法，其特征在于，所述根据所述前向隐状态序列和后向隐状态序列，定位每个视频编码时刻所对应的事件以及在所述视频编码时刻上事件对应的区间，包括：

通过所述前向隐状态序列和后向隐状态序列进行前向预测和后向预测，为每个视频编码时刻获得前向候选区间和所对应的可信度，后向候选区间和所对应的可信度；

针对于每个视频编码时刻，根据所对应的可信度进行所述前向候选区间和后向候选区间的合并预测，所述合并预测所得到的合并可信度定位所述视频编码时刻对应的事件，且所述事件所对应预测合并的前向候选区间和后向候选区间形成所述视频编码时刻上事件对应的区间。

4.根据权利要求1所述的方法，其特征在于，所述根据所述视频编码时刻上事件对应的区间预测所述事件的视频内容描述，生成所述事件在所述视频编码时刻所对应的词，包括：

在所述视频编码时刻上事件对应的区间，为所述事件进行事件特征的融合检测获得所述视频编码时刻上事件所对应的事件特征；

通过所述视频编码时刻上事件所对应的事件特征和所述区间映射的上下文信息，解码所述视频编码时刻，生成所述事件在所述视频编码时刻对应的词。

5.根据权利要求4所述的方法，其特征在于，所述在所述视频编码时刻上事件所对应的区间，为所述事件进行事件特征的融合检测获得所述视频编码时刻上事件所对应的事件特征，包括：

检测所述视频编码时刻上事件所对应区间中的视觉特征；

在注意力机制下根据所述区间映射的上下文信息整合所述视觉特征，获得所述视频编码时刻上事件所对应的事件特征。

6.根据权利要求5所述的方法，其特征在于，所述在注意力机制下根据所述区间映射的上下文信息融合所述视觉特征，获得所述视频编码时刻上事件所对应的事件特征，包括：

在所述区间映射的上下文信息辅助下，相对于所述事件生成上一视频编码时刻所对应词的状态信息，计算与所述视觉特征之间的相关度；

根据所述视觉特征与所述事件在上一视频编码时刻所预测视频内容的相关度，运算所述事件在所对应区间中每一视觉特征的权重；

根据所对应权重进行所述事件在所对应区间中视觉特征的整合，生成所述事件在所述视频编码时刻上对应的事件特征。

7.根据权利要求4所述的方法，其特征在于，所述通过所述视频编码时刻上事件所对应的事件特征和所述区间映射的上下文信息，解码所述视频编码时刻，生成所述事件在所述视频编码时刻对应的词，包括：将视频编码时刻上事件所对应的事件特征和所对应区间映射的上下文信息映射至同一逻辑空间；

对映射于同一逻辑空间的事件特征和上下文信息执行门控操作，自适应构建所述视频编码时刻上所述事件向解码器输入的特征；

通过所述视频编码时刻上所述事件经由门控操作而向解码器输入的特征，由所述解码器预测生成所述事件在所述视频编码时刻对应的词。

8.根据权利要求7所述的方法，其特征在于，所述对映射于同一逻辑空间的事件特征和上下文信息执行门控操作，自适应构建所述视频编码时刻上所述事件向解码器输入的特征，包括：

结合所述事件在上一视频编码时刻所预测视频内容生成的词以及状态信息，对映射于同一逻辑空间的事件特征和上下文信息进行非线性变换，生成门控输出值；

由所述门控输出值自适应调节映射于同一逻辑空间的所述事件特征和上下文信息，所述事件特征和上下文信息被调整后的特征构成所述视频编码时刻上所述事件向解码器输入的特征。

9.一种视频描述生成装置，其特征在于，所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述定位模块包括：

双向预测单元，用于通过所述前向隐状态序列和后向隐状态序列进行前向预测和后向预测，为每个视频编码时刻获得前向候选区间和所对应的可信度，后向候选区间和所对应的可信度；

合并预测单元，用于针对于每个视频编码时刻，根据所对应的可信度进行所述前向候选区间和后向候选区间的合并预测，所述合并预测所得到的合并可信度定位所述视频编码时刻对应的事件，且所述事件所对应预测合并的前向候选区间和后向候选区间形成所述视频编码时刻上事件对应的区间。

11.根据权利要求9所述的装置，其特征在于，所述描述预测模块包括：

特征融合单元，用于在所述视频编码时刻上事件对应的区间，为所述事件进行事件特征的融合检测获得所述视频编码时刻上事件所对应的事件特征；

解码单元，用于通过所述视频编码时刻上事件所对应的事件特征和所述区间映射的上下文信息，解码所述视频编码时刻，生成所述事件在所述视频编码时刻对应的词。

12.根据权利要求11所述的装置，其特征在于，所述特征融合单元包括：

特征检测子单元，用于检测所述视频编码时刻上事件所对应区间中的视觉特征；

特征整合子单元，用于在注意力机制下根据所述区间映射的上下文信息整合所述视觉特征，获得所述视频编码时刻上事件所对应的事件特征。

13.一种视频播放装置，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据权利要求1至8中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至8中任一项所述的方法。

15.一种视频播放方法，适用于计算机设备，所述方法包括：

根据所述视频编码时刻上事件对应的区间预测所述事件的视频内容描述，即时获得视频流中视频编码时刻上事件的自然语言描述；

16.一种视频播放装置，其特征在于，包括处理器以及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如下方法步骤：