CN113191263A - 一种视频描述方法及装置 - Google Patents
一种视频描述方法及装置 Download PDFInfo
- Publication number
- CN113191263A CN113191263A CN202110476064.9A CN202110476064A CN113191263A CN 113191263 A CN113191263 A CN 113191263A CN 202110476064 A CN202110476064 A CN 202110476064A CN 113191263 A CN113191263 A CN 113191263A
- Authority
- CN
- China
- Prior art keywords
- video
- shot
- description
- shot data
- description information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000011218 segmentation Effects 0.000 claims abstract description 29
- 238000006243 chemical reaction Methods 0.000 claims abstract description 18
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 65
- 230000008569 process Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 2
- 238000007499 fusion processing Methods 0.000 claims description 2
- 238000012886 linear function Methods 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims description 2
- 230000001771 impaired effect Effects 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000008901 benefit Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/71—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种视频描述方法及装置,方法包括:导入待测视频,对所述待测视频进行时序语义特征分割,得到多个镜头数据;通过预设视频描述模型分别对各个所述镜头数据进行转换分析,得到与各个所述镜头数据对应的镜头描述信息;对多个所述镜头描述信息进行语句融合分析,得到视频描述信息。本发明能够确保了视频里信息的不丢失,且不会产生镜头语义冗余,能对每个镜头都进行描述,有助于提高在线视频的索引和搜索质量,并提高了视频检索的效率和精确性,拥有了更强的鲁棒性,且有可能使视力受损者受益。
Description
技术领域
本发明主要涉及视频处理技术领域,具体涉及一种视频描述方法及装置。
背景技术
视频描述任务对计算机视觉和机器学习研究提出了重要的挑战,它有多种实际应用,例如,每分钟有100个小时的视频上传到YouTube。然而,如果一个视频标记不当,它的效用就会大大降低。现有技术对视频进行描述的方法是间断地提取一些帧来进行描述,这样的方法会丢失掉一些信息,使得描述不准确,对视频的检索也就不能准确。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种视频描述方法及装置。
本发明解决上述技术问题的技术方案如下:一种视频描述方法,包括如下步骤:
导入待测视频,对所述待测视频进行时序语义特征分割,得到多个镜头数据;
通过预设视频描述模型分别对各个所述镜头数据进行转换分析,得到与各个所述镜头数据对应的镜头描述信息;
对多个所述镜头描述信息进行语句融合分析,得到视频描述信息。
本发明解决上述技术问题的另一技术方案如下:一种视频描述装置,包括:
特征分割模块,用于导入待测视频,对所述待测视频进行时序语义特征分割,得到多个镜头数据;
转换分析模块,用于通过预设视频描述模型分别对各个所述镜头数据进行转换分析,得到与各个所述镜头数据对应的镜头描述信息;
视频描述信息获得模块,用于对多个所述镜头描述信息进行语句融合分析,得到视频描述信息。
本发明的有益效果是:通过对待测视频的时序语义特征分割得到多个镜头数据,通过预设视频描述模型分别对各个镜头数据的转换分析得到与各个镜头数据对应的镜头描述信息,能够确保了视频里信息的不丢失,且不会产生镜头语义冗余,能对每个镜头都进行描述,有助于提高在线视频的索引和搜索质量,对多个镜头描述信息的语句融合分析得到视频描述信息,提高了视频检索的效率和精确性,拥有了更强的鲁棒性,且有可能使视力受损者受益。
附图说明
图1为本发明实施例提供的视频描述方法的流程示意图;
图2为本发明实施例提供的视频描述方法的示意图;
图3为本发明实施例提供的视频描述装置的模块框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明实施例提供的视频描述方法的流程示意图。
如图1和2所示,一种视频描述方法,包括如下步骤:
导入待测视频,对所述待测视频进行时序语义特征分割,得到多个镜头数据;
通过预设视频描述模型分别对各个所述镜头数据进行转换分析,得到与各个所述镜头数据对应的镜头描述信息;
对多个所述镜头描述信息进行语句融合分析,得到视频描述信息。
应理解地,所述时序语义特征分割通俗来说叫镜头分割。
应理解地,所述预设视频描述模型可以为LSTM网络。
具体地,如图2所示,选取一段视频(即所述待测视频),将此视频进行时序语义特征分割;分割完成后,将分割出来的所述镜头数据的特征分别输入到预设视频描述模型中,计算该模型输出内容与分割出来的每个所述镜头数据的预设标准描述之间的损失,更新迭代,最终生成对每个镜头的所述镜头描述信息;把对每个镜头的所述镜头描述信息输入到预设语句融合模型中,计算该模型输出内容与视频标准描述之间的损失,更新迭代,最终生成对这一整个视频的完整描述(即所述视频描述信息)。
上述实施例中,通过对待测视频的时序语义特征分割得到多个镜头数据,通过预设视频描述模型分别对各个镜头数据的转换分析得到与各个镜头数据对应的镜头描述信息,能够确保了视频里信息的不丢失,且不会产生镜头语义冗余,能对每个镜头都进行描述,有助于提高在线视频的索引和搜索质量,对多个镜头描述信息的语句融合分析得到视频描述信息,提高了视频检索的效率和精确性,拥有了更强的鲁棒性,且有可能使视力受损者受益。
可选地,作为本发明的一个实施例,所述对所述待测视频进行时序语义特征分割,得到多个镜头数据的过程包括:
利用PyCharm工具对所述待测视频进行帧提取,得到多个视频帧图像,多个所述视频帧图像按照视频帧时间顺序排列;
分别对各个所述视频帧图像进行特征提取,得到与所述视频帧图像对应的特征向量;
将两两相邻的所述特征向量划分为一组,并对每组的两个所述特征向量进行相似度计算,得到与各个所述特征向量对应的特征相似度;
对所有的所述特征相似度进行相似度分析,得到多个待处理镜头数据;
分别对各个所述待处理镜头数据进行去噪处理,得到与所述待处理镜头数据对应的镜头数据。
应理解地,所述PyCharm工具是一种Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制,此外,该IDE提供了一些高级功能,以用于支持Django框架下的专业Web开发。
具体地,定义一个视频序列(即所述待测视频)为V={i1,i2,…,in},n表示视频帧数,定义特征提取函数为H(x),对所述待测视频中每一帧所述视频帧图像进行特征提取,获得特征向量集F={f1,f2,…,fn}(即多个所述特征向量),其中fm=H(im),所述特征向量集F中主要包含的是语义成分中的主语成分,将这些所述特征向量有序排列,它们之间的时序特征便构成了语义成分的谓语成分。
上述实施例中,对待测视频的时序语义特征分割得到多个镜头数据,能够确保了视频里信息的不丢失,且不会产生镜头语义冗余,能对每个镜头都进行描述,有助于提高在线视频的索引和搜索质量。
可选地,作为本发明的一个实施例,所述对每组的两个所述特征向量进行相似度计算,得到与各个所述特征向量对应的特征相似度的过程包括:
通过第一式对每组的两个所述特征向量进行相似度计算,得到与各个所述特征向量对应的特征相似度,所述第一式为:
sn=cos(fn,fn+1),
其中,fn为第n个特征向量,fn+1为与fn相邻的特征向量,sn为特征相似度。
具体地,计算时间维度中相邻特征的相似度:
sn=cos(fn,fn+1),
定义S={s1,s2,…,sn-1}为所有特征的相似度集合(即多个所述特征相似度)。
上述实施例中,通过第一式对每组的两个特征向量的相似度计算得到与各个特征向量对应的特征相似度,能够确保了视频里信息的不丢失,且不会产生镜头语义冗余,能对每个镜头都进行描述,有助于提高在线视频的索引和搜索质量。
可选地,作为本发明的一个实施例,所述对所有的所述特征相似度进行相似度分析,得到多个待处理镜头数据的过程包括:
通过第二式计算所有的所述特征相似度的时序分割序列,得到时序分割序列,所述第二式为:
B={b0,b1,b2,…,bn-1},
其中,B为时序分割序列,b0、b1、b2……bn-1均为时序分割标志,n为特征相似度的个数,b0为1,sn为第n个特征相似度,T1为预设特征相似度阈值;
将b0作为首个分割点,并将所述时序分割序列B中首个分割点之后的各所述时序分割标志依次与预设时序分割标志进行比对,将比对一致的时序分割标志作为分割点,将所述分割点与前一分割点之间的时序分割标志所对应的所有特征向量作为同一个待处理镜头数据,从而依次分割得到多个待处理镜头数据。
优选地,所述预设时序分割值可以为1。
应理解地,当首次分割时,前一分割点为首个分割点,即1。
具体地,当相邻的所述特征相似度小于T1时,意味着其语义特征极有可能发生改变,T1的大小与选定的特征提取函数F相关,分割序列设置为1表示该位置的特征将作为语义分割后的新序列的首位特征。最后,将分割结果用集合P表示:
P={{f1,f2,…,fu-1},{fu,fu+1,…,fv-1},…,{fw,fw+1,…,fn}},
集合P中包含的子集数量是视频中不同语义片段的数量(即所述待处理镜头数据的数量),子集中的序列是所述特征向量集F对应的索引值。
上述实施例中,对所有的特征相似度的相似度分析得到多个待处理镜头数据,能够确保了视频里信息的不丢失,且不会产生镜头语义冗余,能对每个镜头都进行描述,有助于提高在线视频的索引和搜索质量。
可选地,作为本发明的一个实施例,所述分别对各个所述待处理镜头数据进行去噪处理,得到与所述待处理镜头数据对应的镜头数据的过程包括:
通过第三式分别对各个所述待处理镜头数据进行去噪处理,得到与所述待处理镜头数据对应的镜头数据,所述第三式为:
其中,Qi为第i个镜头数据,Pi为第i个待处理镜头数据,card为取待处理镜头数据中元素个数,T2为预设特征占比阈值,n为所有帧的个数。
应理解地,由于人工截取视频时存在误差,导致视频首部和尾部会产生一些碎片化片段,这些片段对整个视频语义而言是一种干扰。为了消除此类干扰,本发明通过计算集合P中的子集与所述特征向量集F的数量比,将比值较小的子集过滤。
上述实施例中,通过第三式分别对各个待处理镜头数据的去噪处理得到与待处理镜头数据对应的镜头数据,消除了碎片化片段的干扰,对无用数据进行过滤,能够确保了视频里信息的不丢失,且不会产生镜头语义冗余,能对每个镜头都进行描述,有助于提高在线视频的索引和搜索质量。
可选地,作为本发明的一个实施例,所述通过预设视频描述模型分别对各个所述镜头数据进行转换分析,得到与各个所述镜头数据对应的镜头描述信息的过程包括:
通过预设视频描述模型分别将各个所述镜头数据转换为与各个所述镜头数据对应的待更新镜头描述信息;
利用交叉熵损失函数算法分别计算各个所述待更新镜头描述信息和与所述待更新镜头描述信息对应的预设标准描述信息的损失值,得到与各个所述镜头数据对应的交叉熵损失;
通过所述预设视频描述模型分别对各个所述交叉熵损失进行参数更新,得到与各个所述镜头数据对应的更新后视频描述模型;
通过所述更新后视频描述模型分别将各个所述镜头数据转换为与各个所述镜头数据对应的镜头描述信息。
具体地,将分割出来的每个所述镜头数据输入所述预设视频描述模型,计算该模型输出内容与分割出来的每个所述待更新镜头描述信息的所述预设标准描述信息之间的损失,更新迭代,最终生成对每个镜头的描述(即所述镜头描述信息),记为v1,v2,…,vn,其中n是此视频的分割镜头的总数。
上述实施例中,通过预设视频描述模型分别对各个镜头数据的转换分析,得到与各个镜头数据对应的镜头描述信息,为后续处理提供数据基础,能够确保了视频里信息的不丢失,且不会产生镜头语义冗余,能对每个镜头都进行描述,有助于提高在线视频的索引和搜索质量。
可选地,作为本发明的一个实施例,所述对多个所述镜头描述信息进行语句融合分析,得到视频描述信息的过程包括:
S1:对多个所述镜头描述信息进行向量转换处理,得到镜头描述向量;
S2:获取当前时刻,并根据当前时刻LSTM的隐藏状态和所述镜头描述向量计算注意力分布,得到当前时刻注意力分布;
S3:计算所述镜头描述向量和所述当前时刻注意力分布的乘积,得到上下文向量;
S4:将所述上下文向量输入至预设语句融合模型中,通过所述预设语句融合模型进行语句融合处理,得到单词信息和下一时刻LSTM的隐藏状态;
S5:对所述当前时刻进行判断,若所述当前时刻小于预设时刻,则将所述下一时刻LSTM的隐藏状态作为当前时刻LSTM的隐藏状态,并返回步骤S2;若所述当前时刻等于预设时刻时,则根据多个所述单词信息得到视频描述信息。
应理解地,计算所述镜头描述向量和所述当前时刻注意力分布的乘积,得到上下文向量,公式如下:
St=atE,
其中,St为上下文向量,at为t时刻注意力分布,E为镜头描述向量。
具体地,在已知所述上下文向量St和所有先前预测的所述单词信息{y1,y2,…,yt-1}的情况下预测下一个所述单词信息yt,即解码器通过将联合概率分解成有序条件来得到下一个所述单词信息yt的概率,公式为:
P(yt|{y1,y2,…,yt-1},E)=softmax(WySt+by),
得到此视频的预测输出Y={y1,y2,…,yt}(即所述视频描述信息),和视频的标签进行交叉熵损失的运算,将得到的损失传回LSTM模型(即所述预设语句融合模型)重新学习。
上述实施例中,对多个镜头描述信息的语句融合分析得到视频描述信息,提高了视频检索的效率和精确性,拥有了更强的鲁棒性,且有可能使视力受损者受益。
可选地,作为本发明的一个实施例,所述步骤S1的过程包括:
通过第四式对多个所述镜头描述信息进行向量转换处理,得到镜头描述向量,所述第四式为:
E=f(W[v1;v2;…;vn]+b),
其中,E为镜头描述向量,f为非线性函数,W为权重向量,b为偏置,vn为第n个镜头描述信息。
应理解地,将所有镜头的所述镜头描述信息嵌入为一个向量(即所述镜头描述向量)。
上述实施例中,通过第四式对多个镜头描述信息的向量转换处理得到镜头描述向量,为后续处理提供基础数据,提高了视频检索的效率和精确性,拥有了更强的鲁棒性,且有可能使视力受损者受益。
可选地,作为本发明的一个实施例,所述步骤S2中,根据当前时刻LSTM的隐藏状态和所述镜头描述向量计算注意力分布,得到当前时刻注意力分布的过程包括:
通过第五式对所述当前时刻LSTM的隐藏状态和所述镜头描述向量进行注意力分布的计算,得到当前时刻注意力分布,所述第五式为:
at∝exp(htWaE),
其中,at为t时刻注意力分布,ht为当前时刻LSTM的隐藏状态,Wa为可学习的参数,E为镜头描述向量。
应理解地,将得到的所述镜头描述向量作为所述预设语句融合模型的输入,在此模型中加入注意力机制。
上述实施例中,通过第五式对当前时刻LSTM的隐藏状态和镜头描述向量的注意力分布计算得到当前时刻注意力分布,为后续处理提供基础数据,提高了视频检索的效率和精确性,拥有了更强的鲁棒性,且有可能使视力受损者受益。
图3为本发明实施例提供的视频描述装置的模块框图。
可选地,作为本发明的另一个实施例,如图3所示,一种视频描述装置,包括:
特征分割模块,用于导入待测视频,对所述待测视频进行时序语义特征分割,得到多个镜头数据;
转换分析模块,用于通过预设视频描述模型分别对各个所述镜头数据进行转换分析,得到与各个所述镜头数据对应的镜头描述信息;
视频描述信息获得模块,用于对多个所述镜头描述信息进行语句融合分析,得到视频描述信息。
可选地,本发明的另一个实施例提供一种视频描述装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的视频描述方法。该装置可为计算机等装置。
可选地,本发明的另一个实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的视频描述方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种视频描述方法,其特征在于,包括如下步骤:
导入待测视频,对所述待测视频进行时序语义特征分割,得到多个镜头数据;
通过预设视频描述模型分别对各个所述镜头数据进行转换分析,得到与各个所述镜头数据对应的镜头描述信息;
对多个所述镜头描述信息进行语句融合分析,得到视频描述信息。
2.根据权利要求1所述的视频描述方法,其特征在于,所述对所述待测视频进行时序语义特征分割,得到多个镜头数据的过程包括:
利用PyCharm工具对所述待测视频进行帧提取,得到多个视频帧图像,多个所述视频帧图像按照视频帧时间顺序排列;
分别对各个所述视频帧图像进行特征提取,得到与所述视频帧图像对应的特征向量;
将两两相邻的所述特征向量划分为一组,并对每组的两个所述特征向量进行相似度计算,得到与各个所述特征向量对应的特征相似度;
对所有的所述特征相似度进行相似度分析,得到多个待处理镜头数据;
分别对各个所述待处理镜头数据进行去噪处理,得到与所述待处理镜头数据对应的镜头数据。
3.根据权利要求2所述的视频描述方法,其特征在于,所述对每组的两个所述特征向量进行相似度计算,得到与各个所述特征向量对应的特征相似度的过程包括:
通过第一式对每组的两个所述特征向量进行相似度计算,得到与各个所述特征向量对应的特征相似度,所述第一式为:
sn=cos(fn,fn+1),
其中,fn为第n个特征向量,fn+1为与fn相邻的特征向量,sn为特征相似度。
4.根据权利要求2所述的视频描述方法,其特征在于,所述对所有的所述特征相似度进行相似度分析,得到多个待处理镜头数据的过程包括:
通过第二式计算所有的所述特征相似度的时序分割序列,得到时序分割序列,所述第二式为:
B={b0,b1,b2,…,bn-1},
其中,B为时序分割序列,b0、b1、b2……bn-1均为时序分割标志,n为特征相似度的个数,b0为1,sn为第n个特征相似度,T1为预设特征相似度阈值;
将b0作为首个分割点,并将所述时序分割序列B中首个分割点之后的各所述时序分割标志依次与预设时序分割标志进行比对,将比对一致的时序分割标志作为分割点,将所述分割点与前一分割点之间的时序分割标志所对应的所有特征向量作为同一个待处理镜头数据,从而依次分割得到多个待处理镜头数据。
6.根据权利要求5所述的视频描述方法,其特征在于,所述通过预设视频描述模型分别对各个所述镜头数据进行转换分析,得到与各个所述镜头数据对应的镜头描述信息的过程包括:
通过预设视频描述模型分别将各个所述镜头数据转换为与各个所述镜头数据对应的待更新镜头描述信息;
利用交叉熵损失函数算法分别计算各个所述待更新镜头描述信息和与所述待更新镜头描述信息对应的预设标准描述信息的损失值,得到与各个所述镜头数据对应的交叉熵损失;
通过所述预设视频描述模型分别对各个所述交叉熵损失进行参数更新,得到与各个所述镜头数据对应的更新后视频描述模型;
通过所述更新后视频描述模型分别将各个所述镜头数据转换为与各个所述镜头数据对应的镜头描述信息。
7.根据权利要求1所述的视频描述方法,其特征在于,所述对多个所述镜头描述信息进行语句融合分析,得到视频描述信息的过程包括:
S1:对多个所述镜头描述信息进行向量转换处理,得到镜头描述向量;
S2:获取当前时刻,并根据当前时刻LSTM的隐藏状态和所述镜头描述向量计算注意力分布,得到当前时刻注意力分布;
S3:计算所述镜头描述向量和所述当前时刻注意力分布的乘积,得到上下文向量;
S4:将所述上下文向量输入至预设语句融合模型中,通过所述预设语句融合模型进行语句融合处理,得到单词信息和下一时刻LSTM的隐藏状态;
S5:对所述当前时刻进行判断,若所述当前时刻小于预设时刻,则将所述下一时刻LSTM的隐藏状态作为当前时刻LSTM的隐藏状态,并返回步骤S2;若所述当前时刻等于预设时刻时,则根据多个所述单词信息得到视频描述信息。
8.根据权利要求7所述的视频描述方法,其特征在于,所述步骤S1的过程包括:
通过第四式对多个所述镜头描述信息进行向量转换处理,得到镜头描述向量,所述第四式为:
E=f(W[v1;v2;…;vn]+b),
其中,E为镜头描述向量,f为非线性函数,W为权重向量,b为偏置,vn为第n个镜头描述信息。
9.根据权利要求7所述的视频描述方法,其特征在于,所述步骤S2中,根据当前时刻LSTM的隐藏状态和所述镜头描述向量计算注意力分布,得到当前时刻注意力分布的过程包括:
通过第五式对所述当前时刻LSTM的隐藏状态和所述镜头描述向量进行注意力分布的计算,得到当前时刻注意力分布,所述第五式为:
at∝exp(htWaE),
其中,at为t时刻注意力分布,ht为当前时刻LSTM的隐藏状态,Wa为可学习的参数,E为镜头描述向量。
10.一种视频描述装置,其特征在于,包括:
特征分割模块,用于导入待测视频,对所述待测视频进行时序语义特征分割,得到多个镜头数据;
转换分析模块,用于通过预设视频描述模型分别对各个所述镜头数据进行转换分析,得到与各个所述镜头数据对应的镜头描述信息;
视频描述信息获得模块,用于对多个所述镜头描述信息进行语句融合分析,得到视频描述信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110476064.9A CN113191263B (zh) | 2021-04-29 | 2021-04-29 | 一种视频描述方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110476064.9A CN113191263B (zh) | 2021-04-29 | 2021-04-29 | 一种视频描述方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113191263A true CN113191263A (zh) | 2021-07-30 |
CN113191263B CN113191263B (zh) | 2022-05-13 |
Family
ID=76980675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110476064.9A Active CN113191263B (zh) | 2021-04-29 | 2021-04-29 | 一种视频描述方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113191263B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070201558A1 (en) * | 2004-03-23 | 2007-08-30 | Li-Qun Xu | Method And System For Semantically Segmenting Scenes Of A Video Sequence |
US20120123780A1 (en) * | 2010-11-15 | 2012-05-17 | Futurewei Technologies, Inc. | Method and system for video summarization |
CN107979764A (zh) * | 2017-12-06 | 2018-05-01 | 中国石油大学(华东) | 基于语义分割和多层注意力框架的视频字幕生成方法 |
CN110622176A (zh) * | 2017-11-15 | 2019-12-27 | 谷歌有限责任公司 | 视频分区 |
CN111079601A (zh) * | 2019-12-06 | 2020-04-28 | 中国科学院自动化研究所 | 基于多模态注意力机制的视频内容描述方法、系统、装置 |
CN111325068A (zh) * | 2018-12-14 | 2020-06-23 | 北京京东尚科信息技术有限公司 | 基于卷积神经网络的视频描述方法及装置 |
US10699129B1 (en) * | 2019-11-15 | 2020-06-30 | Fudan University | System and method for video captioning |
CN111860235A (zh) * | 2020-07-06 | 2020-10-30 | 中国科学院空天信息创新研究院 | 高低层特征融合的注意力遥感图像描述的生成方法及系统 |
-
2021
- 2021-04-29 CN CN202110476064.9A patent/CN113191263B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070201558A1 (en) * | 2004-03-23 | 2007-08-30 | Li-Qun Xu | Method And System For Semantically Segmenting Scenes Of A Video Sequence |
US20120123780A1 (en) * | 2010-11-15 | 2012-05-17 | Futurewei Technologies, Inc. | Method and system for video summarization |
CN110622176A (zh) * | 2017-11-15 | 2019-12-27 | 谷歌有限责任公司 | 视频分区 |
CN107979764A (zh) * | 2017-12-06 | 2018-05-01 | 中国石油大学(华东) | 基于语义分割和多层注意力框架的视频字幕生成方法 |
CN111325068A (zh) * | 2018-12-14 | 2020-06-23 | 北京京东尚科信息技术有限公司 | 基于卷积神经网络的视频描述方法及装置 |
US10699129B1 (en) * | 2019-11-15 | 2020-06-30 | Fudan University | System and method for video captioning |
CN111079601A (zh) * | 2019-12-06 | 2020-04-28 | 中国科学院自动化研究所 | 基于多模态注意力机制的视频内容描述方法、系统、装置 |
CN111860235A (zh) * | 2020-07-06 | 2020-10-30 | 中国科学院空天信息创新研究院 | 高低层特征融合的注意力遥感图像描述的生成方法及系统 |
Non-Patent Citations (5)
Title |
---|
LIANLI GAO等: "Fused GRU with semantic-temporal attention for video captioning", 《NEUROCOMPUTING》 * |
VIPUL SHARMA等: "SSFNET-VOS: Semantic segmentation and fusion network for video object segmentation", 《PATTERN RECOGNITION LETTERS》 * |
ZHENZHEN HOU等: "A model based on dual-layer attention mechanism for semantic matching", 《2019 IEEE INTERNATIONAL CONFERENCE OF INTELLIGENT APPLIED SYSTEMS ON ENGINEERING》 * |
张学敏 等: "基于目标跟踪和多特征融合的火焰检测算法", 《电视技术》 * |
李振铎: "基于目标检测的视频结构化技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113191263B (zh) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106777318B (zh) | 基于协同训练的矩阵分解跨模态哈希检索方法 | |
CN108197670B (zh) | 伪标签生成模型训练方法、装置及伪标签生成方法及装置 | |
CN108491817A (zh) | 一种事件检测模型训练方法、装置以及事件检测方法 | |
CN109948735B (zh) | 一种多标签分类方法、系统、装置及存储介质 | |
CN110110100A (zh) | 基于协同矩阵分解的离散监督跨媒体哈希检索方法 | |
CN104966105A (zh) | 一种鲁棒机器错误检索方法与系统 | |
CN108804577B (zh) | 一种资讯标签兴趣度的预估方法 | |
CN113239159B (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
CN112434736B (zh) | 一种基于预训练模型的深度主动学习文本分类方法 | |
CN113743455A (zh) | 目标检索方法、装置、电子设备及存储介质 | |
CN111090765B (zh) | 一种基于缺失多模态哈希的社交图像检索方法及系统 | |
CN110442736B (zh) | 一种基于二次判别分析的语义增强子空间跨媒体检索方法 | |
CN110852076B (zh) | 一种自动化疾病编码转换的方法及装置 | |
CN110147558B (zh) | 一种翻译语料处理的方法和装置 | |
CN105760896A (zh) | 一种多源异构大数据的腐蚀源联合去噪方法 | |
CN113191263B (zh) | 一种视频描述方法及装置 | |
CN111259176B (zh) | 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 | |
CN111104422B (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN116108219B (zh) | 图像检索方法、装置、电子设备和存储介质 | |
CN110727762B (zh) | 确定相似文本的方法、装置、存储介质及电子设备 | |
CN115631379A (zh) | 结合主动学习和噪声筛除的视频分析方法、装置及介质 | |
CN115953584A (zh) | 一种具有可学习稀疏性的端到端目标检测方法及系统 | |
CN113157946B (zh) | 实体链接方法、装置、电子设备及存储介质 | |
CN115203206A (zh) | 数据内容搜索方法、装置、计算机设备及可读存储介质 | |
CN114821424A (zh) | 视频分析方法、视频分析装置、计算机设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |