CN109213896A - 基于长短期记忆网络强化学习的水下视频摘要生成方法 - Google Patents
基于长短期记忆网络强化学习的水下视频摘要生成方法 Download PDFInfo
- Publication number
- CN109213896A CN109213896A CN201810884718.XA CN201810884718A CN109213896A CN 109213896 A CN109213896 A CN 109213896A CN 201810884718 A CN201810884718 A CN 201810884718A CN 109213896 A CN109213896 A CN 109213896A
- Authority
- CN
- China
- Prior art keywords
- network
- video
- semantic feature
- frame
- summarized radio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/04—Network management architectures or arrangements
- H04L41/044—Network management architectures or arrangements comprising hierarchical management structures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开基于长短期记忆网络强化学习的水下视频摘要生成方法。本发明首先构建语义特征网络、长短期记忆网络、多层感知器网络;然后对摘要视频进行质量评估:多样性与代表性。最后根据质量评估的两个回报函数,采用强化学习中典型的策略梯度的方法训练整个视频摘要网络,更新对应的MLP网络参数,直至完成所有语义特征评估,得到优化的MLP模型,用于生成高质量的摘要视频。本发明的关键在于构建双层双向LSTM网络结构进行时空关联建模。本发明由于将性能改进着眼于视频摘要网络结构设计环节,方法简单易于实现,对使用传统方法的工程无需重新构造,详细兼容,能够节省大量人力。
Description
技术领域
本发明属于深度学习及视频分析技术领域,涉及一种基于长短期记忆网络强化学习的水下视频摘要生成方法。
背景技术
在视频分析领域,视频摘要是指利用计算机技术分析视频结构、理解视频内容,并从原始的多媒体数据中选取具有代表性的、有意义的部分,将它们以某种方式组合并生成紧凑的、用户可读的原始视频的缩略。在实际应用于水下视频时,目前已有方法主要面对两大问题:一是视频标注数据较少(甚至没有)时的视频摘要,也就是弱(无)监督学习的视频摘要生成;二是针对水下视频的特征映射:水下视频的特性、包含场景、目标类型等均有别于常规的陆地上拍摄的视频,那么其特征映射方式就需要重新设计。本发明所提出的基于长短期记忆网络强化学习的水下视频摘要方法就是将时空关联建模作为突破口。
原始视频是时-空维度上的数据集合,视频摘要就是从这个数据集合上抽取有代表性的子集。视频摘要涉及到两个关键的处理环节:特征映射与时空关联建模。特征映射是将原始视频映射到特征空间,降低数据维度的同时初步降低数据冗余度,在特征空间上的相似性测度比在原始数据空间上的相似性测度有可能更符合人的视觉特点。时空关联是指视频数据集合在时间与空间上的相关性,视频数据的冗余一定程度上就体现其时空上的关联;挖掘这种时空关联模式,有助于抽取出相互独立的且有代表性的摘要视频子集。
在特征映射与时空关联建模这两个关键处理环节上,基于深度学习的视频摘要方法比传统的视频摘要方法具有优势。在特征映射方面,与传统的颜色、纹理、边缘、视觉显著性等特征相比,在大量样本的支撑下,卷积神经网络(Convolutional Neural Network,CNN)能提供的特征描述层次更多,内容更丰富,且适应性更强。本发明采用长短期记忆网络(Long Short-Term Memory,LSTM)对视频中存在的变时间长度关联结构进行时空关联建模,对其有更好的描述。
发明内容
本发明的目的在于针对传统视频摘要方法的不足,为深度学习及视频分析研究提供一种基于长短期记忆网络强化学习的水下视频摘要生成方法。
本发明方法包括以下步骤:
步骤(1)、设计与训练语义特征网络。
从水下监测需求出发,相关的语义内容包括感兴趣目标的类型、时空定位以及运动信息等。鉴于典型CNN在视觉特征提取上的良好表现,可以基于典型CNN构建语义特征网络。在CNN的大框架下,语义特征映射网络的结构设计的主要内容是其容量,如卷积层数、总的通道数等。制约容量设计有两方面的因素:其一是语义特征表达的需求,从底层特征逐步上升到高层语义,需要网络有足够的容量;其二是训练样本数的约束,特定目标的水下视频样本数量相对少,为了保证网络的泛化能力,网络的容量必须限制在于与样本相匹配的程度。在感兴趣目标水下视频相对有限的条件下,选择较为粗略的二分类方案,对CNN的容量的要求较低,从而能够保证获取的特征有较强的适应性。
语义特征网络输入为水下视频的每帧图像,输出为视频每帧的语义特征。
步骤(2)、设计长短期记忆网络结构。
采用长短期记忆网络(LSTM)对视频帧集合在不同时间尺度上关联进行建模,输出隐藏状态以便后续步骤中与步骤(1)的每帧特征信息结合,最终构建关键帧集合。
所述的不同时间尺度上关联具体表现必须为时序上的双向性,前向代表当前帧与之前帧的关联,后向代表当前帧与未来帧的关联。
具体是构建双层双向LSTM网络结构。第一层是前向网络,用来对顺序时间排序的视频帧集合的关联建模;第二层是后向网络,用来对逆序时间排序的视频帧集合的关联建模。
LSTM的输入为步骤(1)得到的视频每帧特征信息的集合,输出为LSTM单元中的隐藏状态信息(hiden state)。
步骤(3)、构建多层感知器网络
将步骤(1)语义特征网络输出的语义特征与步骤(2)双层双向LSTM输出的隐藏状态信息输入到全连接的多层感知器网络(MLP)中,输出对应视频帧的概率测度(即上述对应视频帧属于摘要视频的概率)。
步骤(4)、通过强化学习算法更新多层感知器网络MLP的策略
鉴于水下视频摘要标注样本较少,视频摘要网络的学习重点考虑无监督学习方式。将视频摘要看作是序列决策过程,采用强化学习进行训练。在强化学习范式下,视频摘要网络的动作是根据原始视频生成摘要视频,回报函数是摘要视频的综合性能评价指标,在回报函数的指引下,视频摘要网络进行迭代更新。回报函数的具体形式以及视频摘要网络的更新算法都是具体的设计内容。
假设pi是第i个MLP的输出,表示第i个视频帧属于摘要视频的概率,那么根据全部MLP的输出进行阈值采样(概率高于一定阈值即采样),就可以获取在当前网络下的摘要视频:S={vyi|ayi=1,i=1,2,3,...},其中vyi是当前选中的视频帧,ayi∈{0,1}表示采样情况,即ayi=1则视频帧是属于摘要视频。
在训练过程中,评估当前网络获取的摘要视频的质量,并由此计算回报函数。对摘要视频的质量评估包含两个因素:多样性与代表性。
多样性评估是测度摘要视频帧之间的差异性。假设Y={yi|i=1,2,...N}是摘要视频帧的下标集合,是摘要视频帧的个数,那么多样性回报函数可表示为:
其中,xt是摘要视频帧的第t个语义特征,xt'是摘要视频帧的第t′个语义特征,d(·,·)是两个语义特征之间的差异或不显示性测度。
代表性评估是测度原始视频的内容在生成的摘要视频中是否得到充分表示。假设X={xt|t=1,2,...M}是原始视频的语义特征集合,M是原始视频帧的个数,那么代表性回报函数可表示为:
其中,exp()表示自然常数e为底的指数函数。
总回报函数R(S)=Rdiv+Rrep。
根据回报函数,可采用强化学习中典型的策略梯度的方法训练整个视频摘要网络(包括语义特征网络、长短期记忆网络、多层感知器网络),更新对应的MLP网络参数,直至摘要视频评估结束(即完成所有语义特征评估),得到优化的MLP模型,用于生成高质量的摘要视频。
本发明的有益效果是:采用双层双向LSTM网络结构对视频帧集合在不同时间尺度上关联进行建模,再运用强化学习方法进行网络参数更新,最终生成高质量的视频摘要。
本发明的关键在于构建双层双向LSTM网络结构进行时空关联建模。本发明由于将性能改进着眼于视频摘要网络结构设计环节,方法简单易于实现,对使用传统方法的工程无需重新构造,详细兼容,能够节省大量人力。并且可以与其它视频摘要的方法相结合,进一步提高生成的摘要视频质量。
附图说明
图1为本发明的流程图。
图2为本发明各网络构建设计图。
具体实施方式
下面结合具体实施例对本发明做进一步的分析。
本实施例在基于长短期记忆网络强化学习的水下视频摘要生成过程中具体包括以下步骤,如图1所示:
步骤(1)、设计与训练语义特征网络。
本发明的语义特征网络关注感兴趣目标的类型信息。从上述语义特征出发,选择适当的训练样本。训练样本集划分为两大类:感兴趣目标样本与其他样本。在感兴趣目标水下视频相对有限的条件下,选择较为粗略的二分类方案,对CNN的容量的要求较低,从而能够保证获取的特征有较强的适应性。
鉴于CNN在视觉特征提取上的良好表现,可以基于CNN构建语义特征映射网络。本实施例采用GoogleNet网络提取视频每帧的语义特征信息,输入为水下视频的每帧图像,输出为视频每帧的语义特征信息。
步骤(2)、基于长短期记忆网络进行视频摘要网络结构设计。
视频摘要网络可构建双层双向LSTM网络结构。第一层是前向网络,用来对顺序时间排序的视频帧集合的关联建模;第二层是后向网络,用来对逆序时间排序的视频帧集合的关联建模。
步骤(3)、构建多层感知器网络
将步骤(1)语义特征网络输出的语义特征与步骤(2)双层双向LSTM输出的隐藏状态信息输入到全连接的多层感知器网络(MLP)中,输出上述关键帧的概率测度(即上述关键帧属于摘要视频的概率),如图2所示。
步骤(4)、设计视频摘要网络的强化学习算法。
假设pi是第i个MLP的输出,表示第i个数据帧属于摘要视频的概率,那么根据全部MLP的输出进行随机采样,就可以获取在当前网络下的摘要视频:S={vyi|ayi=1,i=1,2,3,...},其中vyi是当前选中的视频帧,ayi=1表示视频帧是属于摘要视频。
在训练过程中,评估当前网络获取的摘要视频的质量,并由此计算回报函数。对摘要视频的质量评估包含两个因素:多样性与代表性。多样性评估是测度摘要视频帧之间的差异性。假设Y={yi|ayi=1,2,...N}是摘要视频帧的下标集合,是摘要视频帧的个数,那么多样性回报函数可表示为:
其中,xt是摘要视频帧的语义特征,d(·,·)是两幅视频帧之间的差异或不显示性测度。代表性评估是测度原始视频的内容在生成的摘要视频中是否得到充分表示。假设X={xt|t=1,2,...M}是原始视频的语义特征集合,M是原始视频帧的个数,那么代表性回报函数可表示为:
总回报函数R(S)=Rdiv+Rrep。
根据回报函数,可采用强化学习中典型的策略梯度的方法训练视频摘要网络,更新对应的MLP网络参数,直至摘要视频评估结束,得到优化的MLP模型,用于生成高质量的摘要视频。
从上述实施例可以看出:本发明提出的水下视频摘要方法用CNN表示语义特征,用LSTM对视频帧之间不同时间尺度上的关联建模,采用强化学习的方式训练摘要网络。CNN对语义特征具有良好的表达能力,成功应用于目标监测、目标识别等方面。LSTM对短时关联与长时关联都有良好的建模能力,契合视频摘要任务的内在需求。视频摘要生成及其质量评估,也在强化学习的适用范围之类。因此,所提出的基于长短期记忆网络强化学习的水下视频摘要生成方法是可行的。
上述实施例并非是对于本发明的限制,本发明并非仅限于上述实施例,只要符合本发明要求,均属于本发明的保护范围。
Claims (1)
1.基于长短期记忆网络强化学习的水下视频摘要生成方法,其特征在于该方法包括以下步骤:
步骤(1)、构建语义特征网络
基于典型卷积神经网络构建语义特征网络;语义特征网络输入为水下视频的每帧图像,输出为视频每帧的语义特征;
语义特征包括感兴趣目标的类型、时空定位以及运动信息等;
步骤(2)、构建长短期记忆网络结构
构建双层双向LSTM网络结构:第一层是前向网络,用来对顺序时间排序的视频帧集合的关联建模;第二层是后向网络,用来对逆序时间排序的视频帧集合的关联建模;
LSTM的输入为步骤(1)得到的水下视频每帧语义特征信息的集合,输出为LSTM单元中的隐藏状态信息;
步骤(3)、构建多层感知器网络
将步骤(1)语义特征网络输出的语义特征与步骤(2)双层双向LSTM输出的隐藏状态信息输入到全连接的多层感知器网络(MLP)中,输出对应视频帧的概率测度,即上述对应视频帧属于摘要视频的概率;
步骤(4)、通过强化学习算法更新多层感知器网络MLP的策略
4.1假设pi是第i个MLP的输出,表示第i个视频帧属于摘要视频的概率,那么根据全部MLP的输出进行阈值采样,获取在当前网络下的摘要视频:S={vyi|ayi=1,i=1,2,3,...},其中vyi是当前选中的视频帧,ayi∈{0,1}表示采样情况,即ayi=1则视频帧是属于摘要视频;
4.2对摘要视频的质量进行多样性与代表性的评估:
1)多样性评估是测度摘要视频帧之间的差异性;假设Y={yi|i=1,2,...N}是摘要视频帧的下标集合,是摘要视频帧的个数,那么多样性回报函数可表示为:
其中,xt是摘要视频帧的第t个语义特征,xt'是摘要视频帧的第t′个语义特征,d(·,·)是两个语义特征之间的差异或不显示性测度;
2)代表性评估是测度原始视频的内容在生成的摘要视频中是否得到充分表示;假设X={xt|t=1,2,...M}是原始视频的语义特征集合,M是原始视频帧的个数,那么代表性回报函数可表示为:
其中,exp()表示自然常数e为底的指数函数;
总回报函数R(S)=Rdiv+Rrep;
4.3根据上述两回报函数,采用强化学习中典型的策略梯度的方法训练语义特征网络、长短期记忆网络、多层感知器网络,更新对应的MLP网络参数,直至完成所有语义特征评估,得到优化的MLP模型,用于生成高质量的摘要视频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810884718.XA CN109213896B (zh) | 2018-08-06 | 2018-08-06 | 基于长短期记忆网络强化学习的水下视频摘要生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810884718.XA CN109213896B (zh) | 2018-08-06 | 2018-08-06 | 基于长短期记忆网络强化学习的水下视频摘要生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109213896A true CN109213896A (zh) | 2019-01-15 |
CN109213896B CN109213896B (zh) | 2021-06-01 |
Family
ID=64988073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810884718.XA Active CN109213896B (zh) | 2018-08-06 | 2018-08-06 | 基于长短期记忆网络强化学习的水下视频摘要生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109213896B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800717A (zh) * | 2019-01-22 | 2019-05-24 | 中国科学院自动化研究所 | 基于强化学习的行为识别视频帧采样方法及系统 |
CN109885728A (zh) * | 2019-01-16 | 2019-06-14 | 西北工业大学 | 基于元学习的视频摘要方法 |
CN110321426A (zh) * | 2019-07-02 | 2019-10-11 | 腾讯科技(深圳)有限公司 | 摘要抽取方法、装置及计算机设备 |
CN110933519A (zh) * | 2019-11-05 | 2020-03-27 | 合肥工业大学 | 一种基于多路特征的记忆网络视频摘要方法 |
CN111123894A (zh) * | 2019-12-30 | 2020-05-08 | 杭州电子科技大学 | 一种基于lstm和mlp结合的化工过程故障诊断方法 |
CN112233075A (zh) * | 2020-09-30 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 视频清晰度评估方法、装置、存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105025392A (zh) * | 2015-06-25 | 2015-11-04 | 西北工业大学 | 基于摘要空间特征学习的视频摘要关键帧提取方法 |
CN107169035A (zh) * | 2017-04-19 | 2017-09-15 | 华南理工大学 | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 |
CN107484017A (zh) * | 2017-07-25 | 2017-12-15 | 天津大学 | 基于注意力模型的有监督视频摘要生成方法 |
-
2018
- 2018-08-06 CN CN201810884718.XA patent/CN109213896B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105025392A (zh) * | 2015-06-25 | 2015-11-04 | 西北工业大学 | 基于摘要空间特征学习的视频摘要关键帧提取方法 |
CN107169035A (zh) * | 2017-04-19 | 2017-09-15 | 华南理工大学 | 一种混合长短期记忆网络和卷积神经网络的文本分类方法 |
CN107484017A (zh) * | 2017-07-25 | 2017-12-15 | 天津大学 | 基于注意力模型的有监督视频摘要生成方法 |
Non-Patent Citations (3)
Title |
---|
KE ZHANG等: ""Video Summarization with Long Short-Term Memory"", 《ECCV 2016: COMPUTER VISION–ECCV 2016》 * |
YI BIN等: ""Bidirectional Long-Short Term Memory for Video Description"", 《PROCEEDINGS OF THE 24TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 * |
王娟等: ""视频摘要技术综述"", 《中国图象图形学报》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885728A (zh) * | 2019-01-16 | 2019-06-14 | 西北工业大学 | 基于元学习的视频摘要方法 |
CN109885728B (zh) * | 2019-01-16 | 2022-06-07 | 西北工业大学 | 基于元学习的视频摘要方法 |
CN109800717A (zh) * | 2019-01-22 | 2019-05-24 | 中国科学院自动化研究所 | 基于强化学习的行为识别视频帧采样方法及系统 |
CN109800717B (zh) * | 2019-01-22 | 2021-02-02 | 中国科学院自动化研究所 | 基于强化学习的行为识别视频帧采样方法及系统 |
CN110321426A (zh) * | 2019-07-02 | 2019-10-11 | 腾讯科技(深圳)有限公司 | 摘要抽取方法、装置及计算机设备 |
CN110321426B (zh) * | 2019-07-02 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 摘要抽取方法、装置及计算机设备 |
CN110933519A (zh) * | 2019-11-05 | 2020-03-27 | 合肥工业大学 | 一种基于多路特征的记忆网络视频摘要方法 |
CN111123894A (zh) * | 2019-12-30 | 2020-05-08 | 杭州电子科技大学 | 一种基于lstm和mlp结合的化工过程故障诊断方法 |
CN112233075A (zh) * | 2020-09-30 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 视频清晰度评估方法、装置、存储介质及电子设备 |
CN112233075B (zh) * | 2020-09-30 | 2024-02-20 | 腾讯科技(深圳)有限公司 | 视频清晰度评估方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109213896B (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109213896A (zh) | 基于长短期记忆网络强化学习的水下视频摘要生成方法 | |
CN111814854A (zh) | 一种无监督域适应的目标重识别方法 | |
CN110083700A (zh) | 一种基于卷积神经网络的企业舆情情感分类方法及系统 | |
CN110866542B (zh) | 一种基于特征可控融合的深度表示学习方法 | |
CN108427740B (zh) | 一种基于深度度量学习的图像情感分类与检索算法 | |
CN110516095A (zh) | 基于语义迁移的弱监督深度哈希社交图像检索方法和系统 | |
CN111401132A (zh) | 监控场景下高层语义指导的行人属性识别方法 | |
Bao et al. | Hidden-concept driven multilabel image annotation and label ranking | |
CN109271546A (zh) | 图像检索特征提取模型建立、数据库建立及检索方法 | |
Yang et al. | A comprehensive survey on image aesthetic quality assessment | |
CN116975776A (zh) | 一种基于张量和互信息的多模态数据融合方法和设备 | |
CN107341471B (zh) | 一种基于双层条件随机场的人体行为识别方法 | |
CN116935170A (zh) | 视频处理模型的处理方法、装置、计算机设备和存储介质 | |
CN109523012A (zh) | 基于变分解耦合方式对符号有向网络的表达学习方法 | |
CN114283083B (zh) | 一种基于解耦表示的场景生成模型的美学增强方法 | |
CN112668633A (zh) | 一种基于细粒度领域自适应的图迁移学习方法 | |
CN115439919B (zh) | 模型更新方法、装置、设备、存储介质及程序产品 | |
CN116434010A (zh) | 一种多视图的行人属性识别方法 | |
CN110020379B (zh) | 一种基于深度动态网络嵌入表示模型的链路预测方法 | |
CN117093733A (zh) | 媒体分类模型的训练方法、媒体数据分类方法和装置 | |
CN110597983B (zh) | 一种基于类别嵌入的层次化文本分类计算方法 | |
Jia et al. | Lightweight CNN-Based Image Recognition with Ecological IoT Framework for Management of Marine Fishes | |
CN116844225B (zh) | 一种基于知识蒸馏的个性化人体动作识别方法 | |
CN113763391B (zh) | 一种基于视觉元素关系的智能化图像剪裁方法和系统 | |
CN117706954B (zh) | 一种用于场景生成的方法及装置、存储介质、电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |