CN106971010A - 一种适用于文本查询的视频摘要生成方法 - Google Patents

一种适用于文本查询的视频摘要生成方法 Download PDF

Info

Publication number
CN106971010A
CN106971010A CN201710333950.XA CN201710333950A CN106971010A CN 106971010 A CN106971010 A CN 106971010A CN 201710333950 A CN201710333950 A CN 201710333950A CN 106971010 A CN106971010 A CN 106971010A
Authority
CN
China
Prior art keywords
frame
video
inquiry
submodel
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710333950.XA
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201710333950.XA priority Critical patent/CN106971010A/zh
Publication of CN106971010A publication Critical patent/CN106971010A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明中提出的一种适用于文本查询的视频摘要生成方法,其主要内容包括:给定训练目标、评估帧相关性、使用子模型优化的帧创建视频摘要,其过程为,先给定训练目标,将视频帧和文本查询投影到相同的嵌入空间中,接着评估帧相关性,计算质量分数、多样性分数和代表性分数,再计算最终相关性,并对其进行建模,最后使用子模型优化的帧创建视频摘要。本发明运用子模型优化帧,创建多个目标的摘要,使子模型目标函数的线性组合最大化,创建出的摘要能更加准确地传达视频的主要信息,大大节省了人力和时间;同时在创建视频摘要的基础上,实现了文本查询功能,提高了实用性。

Description

一种适用于文本查询的视频摘要生成方法
技术领域
本发明涉及视频摘要领域,尤其是涉及了一种适用于文本查询的视频摘要生成方法。
背景技术
视频摘要技术建立在基于内容的多媒体分析技术基础上,多年以来一直是国内外多媒体研究的热点之一。随着对视频数据处理要求的不断提高和视频数据量的不断增多,人们需要为一长段视频建立一段摘要来快速浏览,以便更好地利用它。人们可以通过对视频内容的分析来减小视频存储,方便分类和索引,提高视频的使用效率、可用性和可访问性。视频摘要技术目前已经广泛地应用于大量使用视频监控的行业,如关键道路视频智能摘要、重点路段和收费闸口视频智能摘要、重点监舍或人员交接班视频智能摘要以及场馆、出入口视频智能摘要。然而,传统的视频摘要技术只能实现重要视频摘要的创建,不能实现文本查询功能,给查找和调取相关视频、跨视频搜索等带来了麻烦。
本发明提出了一种适用于文本查询的视频摘要生成方法,先给定训练目标,将视频帧和文本查询投影到相同的嵌入空间中,接着评估帧相关性,计算质量分数、多样性分数和代表性分数,再计算最终相关性,并对其进行建模,最后使用子模型优化的帧创建视频摘要。本发明运用子模型优化帧,创建多个目标的摘要,使子模型目标函数的线性组合最大化,创建出的摘要能更加准确地传达视频的主要信息,大大节省了人力和时间;同时在创建视频摘要的基础上,实现了文本查询功能,提高了实用性。
发明内容
针对不能实现文本查询功能的问题,本发明的目的在于提供一种适用于文本查询的视频摘要生成方法,先给定训练目标,将视频帧和文本查询投影到相同的嵌入空间中,接着评估帧相关性,计算质量分数、多样性分数和代表性分数,再计算最终相关性,并对其进行建模,最后使用子模型优化的帧创建视频摘要。
为解决上述问题,本发明提供一种适用于文本查询的视频摘要生成方法,其主要内容包括:
(一)给定训练目标;
(二)评估帧相关性;
(三)使用子模型优化的帧创建视频摘要。
其中,所述的给定训练目标,给定查询t的排名约束,相关帧v+的相关性分数高于不相关帧v-的相关性分数:
r(t,v+)>r(t,v-) (1)
可以使相关帧的相似度分数和质量分数高于不相关帧,从而开始训练模型;
在这种情况下,强加以上两个限制条件。
进一步地,所述的约束,为了强加这些约束并训练模型,将损失函数定义为:
其中,lp是成本函数,γ是间隔参数;使用Huber损失函数lp
其中,所述的评估帧相关性,将视频帧v和文本查询t投影到相同的嵌入空间中;将t和v的投影分别表示为t和v;一旦被训练,给定查询t的帧v的相关性可以通过一些相似性度量来估计;使用余弦相似性:
这可以评估关于查询的帧的语义相关性,也可以基于帧质量、构图等对先前的缩略图做出预测;计算最终相关性,即嵌入相似度和与查询无关的帧质量项的总和,并对其进行建模:
r(t,v)=s(t,v)+qv (5)
其中,qv是基于帧v的质量作为缩略图的查询分数。
进一步地,所述的文本和帧的表示,使用卷积神经网络来预测v和qv,通过循环神经网络获得t;为了共同学习这些网络的参数,用(t,v+,v-)三元组训练。
进一步地,所述的文字表示,首先将查询的每个单词投影到一个300个维度的语义空间中,使用长短期记忆(LSTM)模型将单个词的表示编码作为单个固定长度的嵌入,这样能够强调视觉上的信息词和处理短语。
进一步地,所述的图像表示,为了表示图像,利用预先训练的VGG-19网络的特征表征;用301个维度的线性层M代替softmax层;前300个维度作为嵌入v,而最后一个维度代表质量分数qv
其中,所述的使用子模型优化的帧创建视频摘要,使用子模型优化的帧创建多个目标的摘要;在这个帧中,摘要作为选择子集y*,其使子模型目标函数的线性组合最大化:
其中,表示视频的特征的所有可能解y和的集合;对于非负权重w,公式(6)是子模型,意味着可以使用贪婪算法进行贪婪评估和近似优化。
进一步地,所述的目标函数,选择一小组目标函数,每一个函数获取不同方面的摘要:
1)查询相似度f(·,·)=∑v∈ys(t,v),其中,t是查询嵌入,v是帧嵌入,s(·,·)表示公式(4)中定义的余弦相似度;
2)质量分数其中,qv表示基于v的质量作为缩略图的分数;
3)根据不相似的度量D,为摘要中的元素的多样性。
进一步地,所述的权重学习,学习公式(6)中的权重w,需要查询视频对中标记的真实数据摘要;如果相关性和多样性标签是已知的,可以通过子梯度下降来估计子模态函数的最优混合权重。
附图说明
图1是本发明一种适用于文本查询的视频摘要生成方法的系统流程图。
图2是本发明一种适用于文本查询的视频摘要生成方法的创建视频摘要的示例图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种适用于文本查询的视频摘要生成方法的系统流程图。主要包括给定训练目标,评估帧相关性,使用子模型优化的帧创建视频摘要。
给定训练目标,给定查询t的排名约束,相关帧v+的相关性分数高于不相关帧v-的相关性分数:
r(t,v+)>r(t,v-) (1)
可以使相关帧的相似度分数和质量分数高于不相关帧,从而开始训练模型;
在这种情况下,强加以上两个限制条件。
为了强加这些约束并训练模型,将损失函数定义为:
其中,lp是成本函数,γ是间隔参数;使用Huber损失函数lp
评估帧相关性,将视频帧v和文本查询t投影到相同的嵌入空间中;将t和v的投影分别表示为t和v;一旦被训练,给定查询t的帧v的相关性可以通过一些相似性度量来估计;使用余弦相似性:
这可以评估关于查询的帧的语义相关性,也可以基于帧质量、构图等对先前的缩略图做出预测;计算最终相关性,即嵌入相似度和与查询无关的帧质量项的总和,并对其进行建模:
r(t,v)=s(t,v)+qv (5)
其中,qv是基于帧v的质量作为缩略图的查询分数。
文本和帧的表示,使用卷积神经网络来预测v和qv,通过循环神经网络获得t;为了共同学习这些网络的参数,用(t,v+,v-)三元组训练。
文字表示,首先将查询的每个单词投影到一个300个维度的语义空间中,使用长短期记忆(LSTM)模型将单个词的表示编码作为单个固定长度的嵌入,这样能够强调视觉上的信息词和处理短语。
图像表示,为了表示图像,利用预先训练的VGG-19网络的特征表征;用301个维度的线性层M代替softmax层;前300个维度作为嵌入v,而最后一个维度代表质量分数qv
图2是本发明一种适用于文本查询的视频摘要生成方法的创建视频摘要的示例图。使用子模型优化的帧创建多个目标的摘要;在这个帧中,摘要作为选择子集y*,其使子模型目标函数的线性组合最大化:
其中,表示视频的特征的所有可能解y和的集合;对于非负权重w,公式(6)是子模型,意味着可以使用贪婪算法进行贪婪评估和近似优化。
选择一小组目标函数,每一个函数获取不同方面的摘要:
1)查询相似度f(·,·)=∑v∈ys(t,v),其中,t是查询嵌入,v是帧嵌入,s(·,·)表示公式(4)中定义的余弦相似度;
2)质量分数其中,qv表示基于v的质量作为缩略图的分数;
3)根据不相似的度量D,为摘要中的元素的多样性。
学习公式(6)中的权重w,需要查询视频对中标记的真实数据摘要;如果相关性和多样性标签是已知的,可以通过子梯度下降来估计子模态函数的最优混合权重。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种适用于文本查询的视频摘要生成方法,其特征在于,主要包括给定训练目标(一);评估帧相关性(二);使用子模型优化的帧创建视频摘要(三)。
2.基于权利要求书1所述的给定训练目标(一),其特征在于,给定查询t的排名约束,相关帧v+的相关性分数高于不相关帧v-的相关性分数:
r(t,v+)>r(t,v-) (1)
可以使相关帧的相似度分数和质量分数高于不相关帧,从而开始训练模型;
s ( t , v + ) > s ( t , v - ) , q v + > q v - - - - ( 2 )
在这种情况下,强加以上两个限制条件。
3.基于权利要求书2所述的约束,其特征在于,为了强加这些约束并训练模型,将损失函数定义为:
loss ( t , v + , v - ) = l p ( max ( 0 , γ - s ( t , v + ) + s ( t , v - ) ) ) + l p ( max ( 0 , γ - q v + + q v - ) ) - - - ( 3 )
其中,lp是成本函数,γ是间隔参数;使用Huber损失函数lp
4.基于权利要求书1所述的评估帧相关性(二),其特征在于,将视频帧v和文本查询t投影到相同的嵌入空间中;将t和v的投影分别表示为t和v;一旦被训练,给定查询t的帧v的相关性可以通过一些相似性度量来估计;使用余弦相似性:
s ( t , v ) = t · v | | t | | | | v | | - - - ( 4 )
这可以评估关于查询的帧的语义相关性,也可以基于帧质量、构图等对先前的缩略图做出预测;计算最终相关性,即嵌入相似度和与查询无关的帧质量项的总和,并对其进行建模:
r(t,v)=s(t,v)+qv (5)
其中,qv是基于帧v的质量作为缩略图的查询分数。
5.基于权利要求书4所述的文本和帧的表示,其特征在于,使用卷积神经网络来预测v和qv,通过循环神经网络获得t;为了共同学习这些网络的参数,用(t,v+,v-)三元组训练。
6.基于权利要求书5所述的文字表示,其特征在于,首先将查询的每个单词投影到一个300个维度的语义空间中,使用长短期记忆(LSTM)模型将单个词的表示编码作为单个固定长度的嵌入,这样能够强调视觉上的信息词和处理短语。
7.基于权利要求书5所述的图像表示,其特征在于,为了表示图像,利用预先训练的VGG-19网络的特征表征;用301个维度的线性层M代替softmax层;前300个维度作为嵌入v,而最后一个维度代表质量分数qv
8.基于权利要求书1所述的使用子模型优化的帧创建视频摘要(三),其特征在于,使用子模型优化的帧创建多个目标的摘要;在这个帧中,摘要作为选择子集y*,其使子模型目标函数的线性组合最大化:
其中,表示视频的特征的所有可能解y和的集合;对于非负权重w,公式(6)是子模型,意味着可以使用贪婪算法进行贪婪评估和近似优化。
9.基于权利要求书8所述的目标函数,其特征在于,选择一小组目标函数,每一个函数获取不同方面的摘要:
1)查询相似度f(·,·)=∑v∈y s(t,v),其中,t是查询嵌入,v是帧嵌入,s(·,·)表示公式(4)中定义的余弦相似度;
2)质量分数f(·,·)=∑v∈y qv,其中,qv表示基于v的质量作为缩略图的分数;
3)根据不相似的度量D,为摘要中的元素的多样性。
10.基于权利要求书8所述的权重学习,其特征在于,学习公式(6)中的权重w,需要查询视频对中标记的真实数据摘要;如果相关性和多样性标签是已知的,可以通过子梯度下降来估计子模态函数的最优混合权重。
CN201710333950.XA 2017-05-12 2017-05-12 一种适用于文本查询的视频摘要生成方法 Withdrawn CN106971010A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710333950.XA CN106971010A (zh) 2017-05-12 2017-05-12 一种适用于文本查询的视频摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710333950.XA CN106971010A (zh) 2017-05-12 2017-05-12 一种适用于文本查询的视频摘要生成方法

Publications (1)

Publication Number Publication Date
CN106971010A true CN106971010A (zh) 2017-07-21

Family

ID=59331357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710333950.XA Withdrawn CN106971010A (zh) 2017-05-12 2017-05-12 一种适用于文本查询的视频摘要生成方法

Country Status (1)

Country Link
CN (1) CN106971010A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729821A (zh) * 2017-09-27 2018-02-23 浙江大学 一种基于一维序列学习的视频概括方法
CN109121021A (zh) * 2018-09-28 2019-01-01 北京周同科技有限公司 一种视频集锦的生成方法、装置、电子设备及存储介质
CN109858427A (zh) * 2019-01-24 2019-06-07 广州大学 一种语料提取方法、装置及终端设备
CN109889923A (zh) * 2019-02-28 2019-06-14 杭州一知智能科技有限公司 利用结合视频描述的分层自注意力网络总结视频的方法
CN110298270A (zh) * 2019-06-14 2019-10-01 天津大学 一种基于跨模态重要性感知的多视频摘要方法
CN112257411A (zh) * 2020-10-20 2021-01-22 云南电网有限责任公司迪庆供电局 配电网调度交接班的方法及装置
CN117079081A (zh) * 2023-10-16 2023-11-17 山东海博科技信息系统股份有限公司 一种多模态视频文本处理模型训练方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ARUN BALAJEE VASUDEVAN等: "Query-adaptive Video Summarization via Quality-aware Relevance Estimation", 《网页在线公开:HTTPS://ARXIV.ORG/ABS/1705.00581V1》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729821A (zh) * 2017-09-27 2018-02-23 浙江大学 一种基于一维序列学习的视频概括方法
CN107729821B (zh) * 2017-09-27 2020-08-11 浙江大学 一种基于一维序列学习的视频概括方法
CN109121021A (zh) * 2018-09-28 2019-01-01 北京周同科技有限公司 一种视频集锦的生成方法、装置、电子设备及存储介质
CN109858427A (zh) * 2019-01-24 2019-06-07 广州大学 一种语料提取方法、装置及终端设备
CN109889923A (zh) * 2019-02-28 2019-06-14 杭州一知智能科技有限公司 利用结合视频描述的分层自注意力网络总结视频的方法
CN109889923B (zh) * 2019-02-28 2021-03-26 杭州一知智能科技有限公司 利用结合视频描述的分层自注意力网络总结视频的方法
CN110298270A (zh) * 2019-06-14 2019-10-01 天津大学 一种基于跨模态重要性感知的多视频摘要方法
CN112257411A (zh) * 2020-10-20 2021-01-22 云南电网有限责任公司迪庆供电局 配电网调度交接班的方法及装置
CN112257411B (zh) * 2020-10-20 2024-05-14 云南电网有限责任公司迪庆供电局 配电网调度交接班的方法及装置
CN117079081A (zh) * 2023-10-16 2023-11-17 山东海博科技信息系统股份有限公司 一种多模态视频文本处理模型训练方法及系统
CN117079081B (zh) * 2023-10-16 2024-01-26 山东海博科技信息系统股份有限公司 一种多模态视频文本处理模型训练方法及系统

Similar Documents

Publication Publication Date Title
CN106971010A (zh) 一种适用于文本查询的视频摘要生成方法
CN109918532A (zh) 图像检索方法、装置、设备及计算机可读存储介质
CN104239513B (zh) 一种面向领域数据的语义检索方法
CN111666406B (zh) 基于自注意力的单词和标签联合的短文本分类预测方法
Zhang et al. Three-way decisions of rough vague sets from the perspective of fuzziness
CN103116657A (zh) 一种网络教学资源的个性化搜索方法
CN113806630B (zh) 基于注意力的多视角特征融合跨域推荐方法及装置
CN102999615A (zh) 基于径向基函数神经网络的多样化图像标注和检索方法
CN111126563B (zh) 基于孪生网络的时空数据的目标识别方法及系统
CN112598165B (zh) 基于私家车数据的城市功能区转移流量预测方法及装置
CN113127716B (zh) 一种基于显著性图的情感时间序列异常检测方法
CN111783895B (zh) 基于神经网络的旅行计划推荐方法、装置、计算机设备和存储介质
Liu et al. Behavior2vector: Embedding users’ personalized travel behavior to vector
Ye et al. A web services classification method based on GCN
CN109657159A (zh) 舆情数据角色识别中异构关系数据的迁移学习界限的确定方法
CN115952280A (zh) 基于多模型联邦集成的用户画像方法
CN116227624A (zh) 面向异构模型的联邦知识蒸馏方法和系统
CN116310647A (zh) 一种基于增量学习的劳保物品目标检测方法及系统
CN114330554A (zh) 一种面向智能安防的视觉深度模型知识重组方法
CN107169114A (zh) 一种海量数据多维排序搜索方法
Behura et al. Road accident prediction and feature analysis by using deep learning
Leonardi et al. Image memorability using diverse visual features and soft attention
CN114969471A (zh) 一种基于图嵌入的个性化信息推荐方法及推荐系统
Feng et al. Learning from noisy correspondence with tri-partition for cross-modal matching
Wang Construction of Alumni Information Analysis Model Based on Big Data

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20170721

WW01 Invention patent application withdrawn after publication