CN106971010A - 一种适用于文本查询的视频摘要生成方法 - Google Patents
一种适用于文本查询的视频摘要生成方法 Download PDFInfo
- Publication number
- CN106971010A CN106971010A CN201710333950.XA CN201710333950A CN106971010A CN 106971010 A CN106971010 A CN 106971010A CN 201710333950 A CN201710333950 A CN 201710333950A CN 106971010 A CN106971010 A CN 106971010A
- Authority
- CN
- China
- Prior art keywords
- frame
- video
- inquiry
- submodel
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明中提出的一种适用于文本查询的视频摘要生成方法,其主要内容包括:给定训练目标、评估帧相关性、使用子模型优化的帧创建视频摘要,其过程为,先给定训练目标,将视频帧和文本查询投影到相同的嵌入空间中,接着评估帧相关性,计算质量分数、多样性分数和代表性分数,再计算最终相关性,并对其进行建模,最后使用子模型优化的帧创建视频摘要。本发明运用子模型优化帧,创建多个目标的摘要,使子模型目标函数的线性组合最大化,创建出的摘要能更加准确地传达视频的主要信息,大大节省了人力和时间;同时在创建视频摘要的基础上,实现了文本查询功能,提高了实用性。
Description
技术领域
本发明涉及视频摘要领域,尤其是涉及了一种适用于文本查询的视频摘要生成方法。
背景技术
视频摘要技术建立在基于内容的多媒体分析技术基础上,多年以来一直是国内外多媒体研究的热点之一。随着对视频数据处理要求的不断提高和视频数据量的不断增多,人们需要为一长段视频建立一段摘要来快速浏览,以便更好地利用它。人们可以通过对视频内容的分析来减小视频存储,方便分类和索引,提高视频的使用效率、可用性和可访问性。视频摘要技术目前已经广泛地应用于大量使用视频监控的行业,如关键道路视频智能摘要、重点路段和收费闸口视频智能摘要、重点监舍或人员交接班视频智能摘要以及场馆、出入口视频智能摘要。然而,传统的视频摘要技术只能实现重要视频摘要的创建,不能实现文本查询功能,给查找和调取相关视频、跨视频搜索等带来了麻烦。
本发明提出了一种适用于文本查询的视频摘要生成方法,先给定训练目标,将视频帧和文本查询投影到相同的嵌入空间中,接着评估帧相关性,计算质量分数、多样性分数和代表性分数,再计算最终相关性,并对其进行建模,最后使用子模型优化的帧创建视频摘要。本发明运用子模型优化帧,创建多个目标的摘要,使子模型目标函数的线性组合最大化,创建出的摘要能更加准确地传达视频的主要信息,大大节省了人力和时间;同时在创建视频摘要的基础上,实现了文本查询功能,提高了实用性。
发明内容
针对不能实现文本查询功能的问题,本发明的目的在于提供一种适用于文本查询的视频摘要生成方法,先给定训练目标,将视频帧和文本查询投影到相同的嵌入空间中,接着评估帧相关性,计算质量分数、多样性分数和代表性分数,再计算最终相关性,并对其进行建模,最后使用子模型优化的帧创建视频摘要。
为解决上述问题,本发明提供一种适用于文本查询的视频摘要生成方法,其主要内容包括:
(一)给定训练目标;
(二)评估帧相关性;
(三)使用子模型优化的帧创建视频摘要。
其中,所述的给定训练目标,给定查询t的排名约束,相关帧v+的相关性分数高于不相关帧v-的相关性分数:
r(t,v+)>r(t,v-) (1)
可以使相关帧的相似度分数和质量分数高于不相关帧,从而开始训练模型;
在这种情况下,强加以上两个限制条件。
进一步地,所述的约束,为了强加这些约束并训练模型,将损失函数定义为:
其中,lp是成本函数,γ是间隔参数;使用Huber损失函数lp。
其中,所述的评估帧相关性,将视频帧v和文本查询t投影到相同的嵌入空间中;将t和v的投影分别表示为t和v;一旦被训练,给定查询t的帧v的相关性可以通过一些相似性度量来估计;使用余弦相似性:
这可以评估关于查询的帧的语义相关性,也可以基于帧质量、构图等对先前的缩略图做出预测;计算最终相关性,即嵌入相似度和与查询无关的帧质量项的总和,并对其进行建模:
r(t,v)=s(t,v)+qv (5)
其中,qv是基于帧v的质量作为缩略图的查询分数。
进一步地,所述的文本和帧的表示,使用卷积神经网络来预测v和qv,通过循环神经网络获得t;为了共同学习这些网络的参数,用(t,v+,v-)三元组训练。
进一步地,所述的文字表示,首先将查询的每个单词投影到一个300个维度的语义空间中,使用长短期记忆(LSTM)模型将单个词的表示编码作为单个固定长度的嵌入,这样能够强调视觉上的信息词和处理短语。
进一步地,所述的图像表示,为了表示图像,利用预先训练的VGG-19网络的特征表征;用301个维度的线性层M代替softmax层;前300个维度作为嵌入v,而最后一个维度代表质量分数qv。
其中,所述的使用子模型优化的帧创建视频摘要,使用子模型优化的帧创建多个目标的摘要;在这个帧中,摘要作为选择子集y*,其使子模型目标函数的线性组合最大化:
其中,表示视频的特征的所有可能解y和的集合;对于非负权重w,公式(6)是子模型,意味着可以使用贪婪算法进行贪婪评估和近似优化。
进一步地,所述的目标函数,选择一小组目标函数,每一个函数获取不同方面的摘要:
1)查询相似度f(·,·)=∑v∈ys(t,v),其中,t是查询嵌入,v是帧嵌入,s(·,·)表示公式(4)中定义的余弦相似度;
2)质量分数其中,qv表示基于v的质量作为缩略图的分数;
3)根据不相似的度量D,为摘要中的元素的多样性。
进一步地,所述的权重学习,学习公式(6)中的权重w,需要查询视频对中标记的真实数据摘要;如果相关性和多样性标签是已知的,可以通过子梯度下降来估计子模态函数的最优混合权重。
附图说明
图1是本发明一种适用于文本查询的视频摘要生成方法的系统流程图。
图2是本发明一种适用于文本查询的视频摘要生成方法的创建视频摘要的示例图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种适用于文本查询的视频摘要生成方法的系统流程图。主要包括给定训练目标,评估帧相关性,使用子模型优化的帧创建视频摘要。
给定训练目标,给定查询t的排名约束,相关帧v+的相关性分数高于不相关帧v-的相关性分数:
r(t,v+)>r(t,v-) (1)
可以使相关帧的相似度分数和质量分数高于不相关帧,从而开始训练模型;
在这种情况下,强加以上两个限制条件。
为了强加这些约束并训练模型,将损失函数定义为:
其中,lp是成本函数,γ是间隔参数;使用Huber损失函数lp。
评估帧相关性,将视频帧v和文本查询t投影到相同的嵌入空间中;将t和v的投影分别表示为t和v;一旦被训练,给定查询t的帧v的相关性可以通过一些相似性度量来估计;使用余弦相似性:
这可以评估关于查询的帧的语义相关性,也可以基于帧质量、构图等对先前的缩略图做出预测;计算最终相关性,即嵌入相似度和与查询无关的帧质量项的总和,并对其进行建模:
r(t,v)=s(t,v)+qv (5)
其中,qv是基于帧v的质量作为缩略图的查询分数。
文本和帧的表示,使用卷积神经网络来预测v和qv,通过循环神经网络获得t;为了共同学习这些网络的参数,用(t,v+,v-)三元组训练。
文字表示,首先将查询的每个单词投影到一个300个维度的语义空间中,使用长短期记忆(LSTM)模型将单个词的表示编码作为单个固定长度的嵌入,这样能够强调视觉上的信息词和处理短语。
图像表示,为了表示图像,利用预先训练的VGG-19网络的特征表征;用301个维度的线性层M代替softmax层;前300个维度作为嵌入v,而最后一个维度代表质量分数qv。
图2是本发明一种适用于文本查询的视频摘要生成方法的创建视频摘要的示例图。使用子模型优化的帧创建多个目标的摘要;在这个帧中,摘要作为选择子集y*,其使子模型目标函数的线性组合最大化:
其中,表示视频的特征的所有可能解y和的集合;对于非负权重w,公式(6)是子模型,意味着可以使用贪婪算法进行贪婪评估和近似优化。
选择一小组目标函数,每一个函数获取不同方面的摘要:
1)查询相似度f(·,·)=∑v∈ys(t,v),其中,t是查询嵌入,v是帧嵌入,s(·,·)表示公式(4)中定义的余弦相似度;
2)质量分数其中,qv表示基于v的质量作为缩略图的分数;
3)根据不相似的度量D,为摘要中的元素的多样性。
学习公式(6)中的权重w,需要查询视频对中标记的真实数据摘要;如果相关性和多样性标签是已知的,可以通过子梯度下降来估计子模态函数的最优混合权重。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
Claims (10)
1.一种适用于文本查询的视频摘要生成方法,其特征在于,主要包括给定训练目标(一);评估帧相关性(二);使用子模型优化的帧创建视频摘要(三)。
2.基于权利要求书1所述的给定训练目标(一),其特征在于,给定查询t的排名约束,相关帧v+的相关性分数高于不相关帧v-的相关性分数:
r(t,v+)>r(t,v-) (1)
可以使相关帧的相似度分数和质量分数高于不相关帧,从而开始训练模型;
在这种情况下,强加以上两个限制条件。
3.基于权利要求书2所述的约束,其特征在于,为了强加这些约束并训练模型,将损失函数定义为:
其中,lp是成本函数,γ是间隔参数;使用Huber损失函数lp。
4.基于权利要求书1所述的评估帧相关性(二),其特征在于,将视频帧v和文本查询t投影到相同的嵌入空间中;将t和v的投影分别表示为t和v;一旦被训练,给定查询t的帧v的相关性可以通过一些相似性度量来估计;使用余弦相似性:
这可以评估关于查询的帧的语义相关性,也可以基于帧质量、构图等对先前的缩略图做出预测;计算最终相关性,即嵌入相似度和与查询无关的帧质量项的总和,并对其进行建模:
r(t,v)=s(t,v)+qv (5)
其中,qv是基于帧v的质量作为缩略图的查询分数。
5.基于权利要求书4所述的文本和帧的表示,其特征在于,使用卷积神经网络来预测v和qv,通过循环神经网络获得t;为了共同学习这些网络的参数,用(t,v+,v-)三元组训练。
6.基于权利要求书5所述的文字表示,其特征在于,首先将查询的每个单词投影到一个300个维度的语义空间中,使用长短期记忆(LSTM)模型将单个词的表示编码作为单个固定长度的嵌入,这样能够强调视觉上的信息词和处理短语。
7.基于权利要求书5所述的图像表示,其特征在于,为了表示图像,利用预先训练的VGG-19网络的特征表征;用301个维度的线性层M代替softmax层;前300个维度作为嵌入v,而最后一个维度代表质量分数qv。
8.基于权利要求书1所述的使用子模型优化的帧创建视频摘要(三),其特征在于,使用子模型优化的帧创建多个目标的摘要;在这个帧中,摘要作为选择子集y*,其使子模型目标函数的线性组合最大化:
其中,表示视频的特征的所有可能解y和的集合;对于非负权重w,公式(6)是子模型,意味着可以使用贪婪算法进行贪婪评估和近似优化。
9.基于权利要求书8所述的目标函数,其特征在于,选择一小组目标函数,每一个函数获取不同方面的摘要:
1)查询相似度f(·,·)=∑v∈y s(t,v),其中,t是查询嵌入,v是帧嵌入,s(·,·)表示公式(4)中定义的余弦相似度;
2)质量分数f(·,·)=∑v∈y qv,其中,qv表示基于v的质量作为缩略图的分数;
3)根据不相似的度量D,为摘要中的元素的多样性。
10.基于权利要求书8所述的权重学习,其特征在于,学习公式(6)中的权重w,需要查询视频对中标记的真实数据摘要;如果相关性和多样性标签是已知的,可以通过子梯度下降来估计子模态函数的最优混合权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710333950.XA CN106971010A (zh) | 2017-05-12 | 2017-05-12 | 一种适用于文本查询的视频摘要生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710333950.XA CN106971010A (zh) | 2017-05-12 | 2017-05-12 | 一种适用于文本查询的视频摘要生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106971010A true CN106971010A (zh) | 2017-07-21 |
Family
ID=59331357
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710333950.XA Withdrawn CN106971010A (zh) | 2017-05-12 | 2017-05-12 | 一种适用于文本查询的视频摘要生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106971010A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729821A (zh) * | 2017-09-27 | 2018-02-23 | 浙江大学 | 一种基于一维序列学习的视频概括方法 |
CN109121021A (zh) * | 2018-09-28 | 2019-01-01 | 北京周同科技有限公司 | 一种视频集锦的生成方法、装置、电子设备及存储介质 |
CN109858427A (zh) * | 2019-01-24 | 2019-06-07 | 广州大学 | 一种语料提取方法、装置及终端设备 |
CN109889923A (zh) * | 2019-02-28 | 2019-06-14 | 杭州一知智能科技有限公司 | 利用结合视频描述的分层自注意力网络总结视频的方法 |
CN110298270A (zh) * | 2019-06-14 | 2019-10-01 | 天津大学 | 一种基于跨模态重要性感知的多视频摘要方法 |
CN112257411A (zh) * | 2020-10-20 | 2021-01-22 | 云南电网有限责任公司迪庆供电局 | 配电网调度交接班的方法及装置 |
CN117079081A (zh) * | 2023-10-16 | 2023-11-17 | 山东海博科技信息系统股份有限公司 | 一种多模态视频文本处理模型训练方法及系统 |
-
2017
- 2017-05-12 CN CN201710333950.XA patent/CN106971010A/zh not_active Withdrawn
Non-Patent Citations (1)
Title |
---|
ARUN BALAJEE VASUDEVAN等: "Query-adaptive Video Summarization via Quality-aware Relevance Estimation", 《网页在线公开:HTTPS://ARXIV.ORG/ABS/1705.00581V1》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729821A (zh) * | 2017-09-27 | 2018-02-23 | 浙江大学 | 一种基于一维序列学习的视频概括方法 |
CN107729821B (zh) * | 2017-09-27 | 2020-08-11 | 浙江大学 | 一种基于一维序列学习的视频概括方法 |
CN109121021A (zh) * | 2018-09-28 | 2019-01-01 | 北京周同科技有限公司 | 一种视频集锦的生成方法、装置、电子设备及存储介质 |
CN109858427A (zh) * | 2019-01-24 | 2019-06-07 | 广州大学 | 一种语料提取方法、装置及终端设备 |
CN109889923A (zh) * | 2019-02-28 | 2019-06-14 | 杭州一知智能科技有限公司 | 利用结合视频描述的分层自注意力网络总结视频的方法 |
CN109889923B (zh) * | 2019-02-28 | 2021-03-26 | 杭州一知智能科技有限公司 | 利用结合视频描述的分层自注意力网络总结视频的方法 |
CN110298270A (zh) * | 2019-06-14 | 2019-10-01 | 天津大学 | 一种基于跨模态重要性感知的多视频摘要方法 |
CN112257411A (zh) * | 2020-10-20 | 2021-01-22 | 云南电网有限责任公司迪庆供电局 | 配电网调度交接班的方法及装置 |
CN112257411B (zh) * | 2020-10-20 | 2024-05-14 | 云南电网有限责任公司迪庆供电局 | 配电网调度交接班的方法及装置 |
CN117079081A (zh) * | 2023-10-16 | 2023-11-17 | 山东海博科技信息系统股份有限公司 | 一种多模态视频文本处理模型训练方法及系统 |
CN117079081B (zh) * | 2023-10-16 | 2024-01-26 | 山东海博科技信息系统股份有限公司 | 一种多模态视频文本处理模型训练方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106971010A (zh) | 一种适用于文本查询的视频摘要生成方法 | |
CN109918532A (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
CN104239513B (zh) | 一种面向领域数据的语义检索方法 | |
CN111666406B (zh) | 基于自注意力的单词和标签联合的短文本分类预测方法 | |
Zhang et al. | Three-way decisions of rough vague sets from the perspective of fuzziness | |
CN103116657A (zh) | 一种网络教学资源的个性化搜索方法 | |
CN113806630B (zh) | 基于注意力的多视角特征融合跨域推荐方法及装置 | |
CN102999615A (zh) | 基于径向基函数神经网络的多样化图像标注和检索方法 | |
CN111126563B (zh) | 基于孪生网络的时空数据的目标识别方法及系统 | |
CN112598165B (zh) | 基于私家车数据的城市功能区转移流量预测方法及装置 | |
CN113127716B (zh) | 一种基于显著性图的情感时间序列异常检测方法 | |
CN111783895B (zh) | 基于神经网络的旅行计划推荐方法、装置、计算机设备和存储介质 | |
Liu et al. | Behavior2vector: Embedding users’ personalized travel behavior to vector | |
Ye et al. | A web services classification method based on GCN | |
CN109657159A (zh) | 舆情数据角色识别中异构关系数据的迁移学习界限的确定方法 | |
CN115952280A (zh) | 基于多模型联邦集成的用户画像方法 | |
CN116227624A (zh) | 面向异构模型的联邦知识蒸馏方法和系统 | |
CN116310647A (zh) | 一种基于增量学习的劳保物品目标检测方法及系统 | |
CN114330554A (zh) | 一种面向智能安防的视觉深度模型知识重组方法 | |
CN107169114A (zh) | 一种海量数据多维排序搜索方法 | |
Behura et al. | Road accident prediction and feature analysis by using deep learning | |
Leonardi et al. | Image memorability using diverse visual features and soft attention | |
CN114969471A (zh) | 一种基于图嵌入的个性化信息推荐方法及推荐系统 | |
Feng et al. | Learning from noisy correspondence with tri-partition for cross-modal matching | |
Wang | Construction of Alumni Information Analysis Model Based on Big Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20170721 |
|
WW01 | Invention patent application withdrawn after publication |