CN113052149B - 视频摘要生成方法、装置、计算机设备及介质 - Google Patents

视频摘要生成方法、装置、计算机设备及介质 Download PDF

Info

Publication number
CN113052149B
CN113052149B CN202110552191.2A CN202110552191A CN113052149B CN 113052149 B CN113052149 B CN 113052149B CN 202110552191 A CN202110552191 A CN 202110552191A CN 113052149 B CN113052149 B CN 113052149B
Authority
CN
China
Prior art keywords
video
vector
video segment
feature vector
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110552191.2A
Other languages
English (en)
Other versions
CN113052149A (zh
Inventor
杨德杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110552191.2A priority Critical patent/CN113052149B/zh
Publication of CN113052149A publication Critical patent/CN113052149A/zh
Application granted granted Critical
Publication of CN113052149B publication Critical patent/CN113052149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及人工智能技术领域,提供一种视频摘要生成方法、装置、计算机设备及介质,包括:将原始视频切分为多个视频片段,并识别每个视频片段的视频文本;提取视频片段的视觉特征向量及提取视频文本的文本语义向量;采用层级注意力机制将所述视觉特征向量及对应的所述文本语义向量进行融合得到融合特征向量;基于Bi‑LSTM构成视频片段选择器,使用所述视频片段选择器根据所述融合特征向量计算每个视频片段的重要度;以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练,得到最优的视频片段选择器;使用所述最优的视频片段选择器生成视频摘要。本发明融合了视频的图像特征和文本特征,生成的视频摘要准确度较高。

Description

视频摘要生成方法、装置、计算机设备及介质
技术领域
本发明涉及人工智能技术领域,具体涉及一种视频摘要生成方法、装置、计算机设备及介质。
背景技术
在代理人培训场景下,需要代理人对所学视频课程进行及时复习。而视频课程时长往往过长,为提高代理人的复习效率,需要从原始课程视频中准确提取视频摘要,即整个视频课程的关键片段,帮助代理人有效学习课堂重点内容。
当前的视频摘要技术往往通过识别视频帧图像中人物动作变化,对整个视频构建的帧序列中不同帧进行打分,选取分数最高的几个帧组成视频摘要,只考虑图像蕴含的信息。但在课堂视频中,教师动作常常比较单一,不同帧之间的图像差异较小,教师授课的语言内容成为选取关键片段更重要的部分。另外,以帧为单位打分粒度过小,融合成的视频摘要会出现不连贯的问题,导致视频摘要抽取效果较差。
发明内容
鉴于以上内容,有必要提出一种视频摘要生成方法、装置、计算机设备及介质,生成的视频摘要准确度较高。
本发明的第一方面提供一种视频摘要生成方法,所述方法包括:
对原始视频进行断点检测,根据检测得到的多个断点将所述原始视频切分为多个视频片段,并识别每个视频片段的视频文本;
提取所述视频片段的第一视觉特征向量,计算所述第一视觉特征向量的第一向量维度,根据最大的第一向量维度对所述第一视觉特征向量进行扩充得到第二视觉特征向量;
提取所述视频文本的第一文本语义向量,计算所述第一文本语义向量的第二向量维度,根据最大的第二向量维度对所述第一文本语义向量进行扩充得到第二文本语义向量;
采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量;
基于Bi-LSTM构成视频片段选择器,使用所述视频片段选择器根据所述融合特征向量计算每个视频片段的重要度;
以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练,得到最优的视频片段选择器;
使用所述最优的视频片段选择器生成视频摘要。
根据本发明的一个可选的实施方式,所述使用所述最优的视频片段选择器生成视频摘要包括:
使用所述最优的视频片段选择器计算每个视频片段的目标重要度;
对所述目标重要度进行离散化处理得到离散值;
获取所述离散值中的目标离散值及获取所述目标离散值对应的目标视频片段;
根据所述目标视频片段生成视频摘要。
根据本发明的一个可选的实施方式,所述提取所述视频片段的第一视觉特征向量包括:
分割所述视频片段为多个视频帧;
利用DeepCNN提取所述视频帧的特征向量;
计算所述视频片段的多个视频帧的特征向量的均值,得到所述第一视觉特征向量。
根据本发明的一个可选的实施方式,所述采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量包括:
将所述第二视觉特征向量投影到目标空间得到第一投影向量,及将所述第二文本语义向量投影到所述目标空间得到第二投影向量;
计算所述第一投影向量在所述目标空间中的第一权重,及计算所述第二投影向量在所述目标空间中的第二权重;
根据所述第二视觉特征向量及所述第一权重、所述第二文本语义向量及所述第二权重得到融合特征向量。
根据本发明的一个可选的实施方式,所述以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练包括:
创建多个损失函数;
根据所述多个损失函数生成目标损失函数;
通过生成式对抗网络基于所述第二视觉特征向量和所述第二文本语义向量生成重建视频向量;
应用随机梯度变分贝叶斯估计方法,基于所述重建视频向量最小化所述目标损失函数,得到多个参数,所述多个参数包括最优的视频片段选择器的参数。
根据本发明的一个可选的实施方式,所述多个损失函数包括:稀疏损失函数,GAN结构生成器损失函数及GAN结构鉴别器损失函数,所述目标损失函数
Figure DEST_PATH_IMAGE001
Figure 308464DEST_PATH_IMAGE002
表示所述稀疏损失函数,
Figure DEST_PATH_IMAGE003
表示所述GAN结构生成器损失函数中的重建损失函数,
Figure 62794DEST_PATH_IMAGE004
表示所述GAN结构生成器损失函数中的先验损失函数,
Figure DEST_PATH_IMAGE005
表示所述GAN结构鉴别器损失函数,
Figure 799805DEST_PATH_IMAGE006
为超参数。
根据本发明的一个可选的实施方式,所述基于所述重建视频向量最小化所述目标损失函数包括:
对所述GAN结构鉴别器损失函数的加权损失运用随机梯度变分贝叶斯估计得到最优鉴别器参数;
通过最小化所述稀疏损失函数,所述GAN结构生成器损失函数中的重建损失函数和所述GAN结构生成器损失函数中的先验损失函数,得到最优生成器参数与视频片段选择器参数。
本发明的第二方面提供一种视频摘要生成装置,所述装置包括:
视频切分模块,用于对原始视频进行断点检测,根据检测得到的多个断点将所述原始视频切分为多个视频片段,并识别每个视频片段的视频文本;
第一提取模块,用于提取所述视频片段的第一视觉特征向量,计算所述第一视觉特征向量的第一向量维度,根据最大的第一向量维度对所述第一视觉特征向量进行扩充得到第二视觉特征向量;
第二提取模块,用于提取所述视频文本的第一文本语义向量,计算所述第一文本语义向量的第二向量维度,根据最大的第二向量维度对所述第一文本语义向量进行扩充得到第二文本语义向量;
特征融合模块,用于采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量;
重要度计算模块,用于基于Bi-LSTM构成视频片段选择器,使用所述视频片段选择器根据所述融合特征向量计算每个视频片段的重要度;
优化训练模块,用于以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练,得到最优的视频片段选择器;
摘要生成模块,用于使用所述最优的视频片段选择器生成视频摘要。
本发明的第三方面提供一种计算机设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述视频摘要生成方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述视频摘要生成方法。
综上所述,本发明所述的视频摘要生成方法、装置、计算机设备及介质,融合了视频的图像特征和文本特征,并基于层级注意力机制计算了图像特征和文本特征在视频中的权重,基于视频片段选择器根据权重计算每个视频片段的重要度,最后通过优化视频片段选择器来优化重要度,从而根据优化后的重要度生成视频摘要,生成的视频摘要准确度较高。
附图说明
图1是本发明实施例一提供的视频摘要生成方法的流程图。
图2是本发明实施例提供的为采用层级注意力机制计算融合特征向量的示意图。
图3是本发明实施例提供的对视频片段选择器进行优化训练的网络架构图。
图4是本发明实施例二提供的视频摘要生成装置的结构图。
图5是本发明实施例三提供的计算机设备的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本发明实施例提供的视频摘要生成方法由计算机设备执行,相应地,视频摘要生成装置运行于计算机设备中。
图1是本发明实施例一提供的视频摘要生成方法的流程图。所述视频摘要生成方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,对原始视频进行断点检测,根据检测得到的多个断点将所述原始视频切分为多个视频片段,并识别每个视频片段的视频文本。
在教学场景中,所述原始视频可以为教学视频。
对于完整原始视频,可以利用语音端点检测(Voice Activity Detection,VAD)将原始视频截断为多个视频片段,使得每个视频片段为一个完整的语句。采用语音识别技术将每个视频片段中的视频语音转化为视频文本,其中,视频文本的时间轴与原始视频的时间轴是相对应的。
具体实施时,首先利用语音端点检测原始视频中每个完整的语句在原始视频中的开始时间与结束时间,并利用每个完整的语句的开始时间和结束时间分割原始视频,将原始视频
Figure DEST_PATH_IMAGE007
分割为
Figure 124521DEST_PATH_IMAGE008
个视频片段:
Figure DEST_PATH_IMAGE009
,n为原始视频对应的原始视频文本
Figure 554366DEST_PATH_IMAGE010
中完整语句的数量。例如:某个视频文本对应的完整语句在原始视频中的开始时间为第5秒,结束时间为第8秒,则将原始视频的第5秒至第8秒之间的视频帧截取出来作为一个视频片段。
本实施例,通过VAD检测原始视频中的断点,并根据断点分割原始视频,能够有效的确保分割得到的每个视频片段刚好对应原始视频中的一个完整的语句,从而在后续基于视频片段提取视觉特征向量和文本语义向量时,避免出现语义截断的问题,提取的视觉特征向量和文本语义向量准确度高。
S12,提取所述视频片段的第一视觉特征向量,计算所述第一视觉特征向量的第一向量维度,根据最大的第一向量维度对所述第一视觉特征向量进行扩充得到第二视觉特征向量。
其中,所述第一视觉特征向量为镜头级别的特征向量,也可以称之为视频图像特征。在提取每一个视频片段的第一视觉特征向量之后,计算每一个第一视觉特征向量的第一向量维度,将多个第一向量维度中的最大者确定为最大的第一向量维度,从而基于最大的第一向量维度对其他的第一向量维度对应的第一视觉特征向量进行扩充得到第二视觉特征向量。
在一个可选的实施方式中,所述提取所述视频片段的第一视觉特征向量包括:
分割所述视频片段为多个视频帧;
利用DeepCNN提取所述视频帧的特征向量;
计算所述视频片段的多个视频帧的特征向量的均值,得到所述第一视觉特征向量。
该可选的实施方式中,可以根据原始视频的采样率将每一个视频片段分割为多个视频帧,多个视频帧可以构成视频片段的一个视频帧序列,原始视频的视频帧序列表示如下:
Figure DEST_PATH_IMAGE011
,其中,
Figure 858308DEST_PATH_IMAGE012
为视频片段
Figure DEST_PATH_IMAGE013
内的视频帧数。
Figure 133431DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
为原始视频
Figure 776902DEST_PATH_IMAGE007
的总视频帧数,
Figure 925118DEST_PATH_IMAGE016
为视频片段的总数。
利用DeepCNN提取每个视频片段内的每一个视频帧序列的特征向量,得到原始视频的特征向量
Figure DEST_PATH_IMAGE017
,对每个视频片段的所有视频帧的特征向量取平均,得到镜头级别的视觉特征向量:
Figure 654040DEST_PATH_IMAGE018
。其中,
Figure DEST_PATH_IMAGE019
,为使
Figure 732854DEST_PATH_IMAGE020
的第一向量维度相同,将第一向量维度固定为
Figure DEST_PATH_IMAGE021
, 对于第一视觉特征向量的维度不足的,可以在第一视觉特征向量的尾部位置补充0,如此,能够有效的保证得到的第二视觉特征向量具有相同的维度,便于后续进行计算。
S13,提取所述视频文本的第一文本语义向量,计算所述第一文本语义向量的第二向量维度,根据最大的第二向量维度对所述第一文本语义向量进行扩充得到第二文本语义向量。
可以利用bert-as-service工具提取所述视频文本的第一文本语义向量,bert模型由多个双向transformer结构组成,transformer中的自注意力机制能够使得生成的文本语义向量包含视频文本的长距离语义信息。
具体而言,通过bert将从原始视频中分割得到的每个完整的视频文本转化为一个第一文本语义向量。
Figure 293148DEST_PATH_IMAGE022
表示第i个视频文本的第一文本语义向量。将每个第一文本语义向量的大小固定为
Figure DEST_PATH_IMAGE023
Figure 64795DEST_PATH_IMAGE024
表示第i个第一文本语义向量的维度。对于第一文本语义向量的维度不足的,可以在第一文本语义向量的尾部位置补充0,如此,能够有效的保证得到的第二文本语义向量具有相同的维度,便于后续进行计算。
S14,采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量。
由于第二视觉特征向量
Figure 15434DEST_PATH_IMAGE018
为图像级别的特征向量,而第二文本语义向量
Figure DEST_PATH_IMAGE025
为文本级别的特征向量,这两个特征向量中每个元素如
Figure 897939DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE027
的长度均不同,因此需要将两个特征向量转化到同一空间中进行特征融合。可通过层级注意力机制将二者转化到同一空间,从而融合得到镜头级别下的视频的整体特征向量。
在一个可选的实施方式中,所述采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量包括:
将所述第二视觉特征向量投影到目标空间得到第一投影向量,及将所述第二文本语义向量投影到所述目标空间得到第二投影向量;
计算所述第一投影向量在所述目标空间中的第一权重,及计算所述第二投影向量在所述目标空间中的第二权重;
对所述第二视觉特征向量及所述第一权重、所述第二文本语义向量及所述第二权重进行加权和计算,得到融合特征向量。
参阅图2所示,为采用层级注意力机制计算融合特征向量的示意图,假设令
Figure 63472DEST_PATH_IMAGE028
表示第二视觉特征向量,
Figure DEST_PATH_IMAGE029
表示第二文本语义向量,则将第二视觉特征向量投影到目标空间得到第一投影向量
Figure 6021DEST_PATH_IMAGE030
,将第二文本语义向量投影到同一目标空间得到第二投影向量
Figure DEST_PATH_IMAGE031
。其中
Figure 443955DEST_PATH_IMAGE032
,k=1或者2。得到的每个特征向量
Figure DEST_PATH_IMAGE033
的大小都为
Figure 864572DEST_PATH_IMAGE034
进而可求得第一投影向量在目标空间中的第一权重及第二投影向量在目标空间中的第二权重,第一投影向量和第二投影向量在同一空间中的权重表示为
Figure DEST_PATH_IMAGE035
。通过如下公式计算融合特征向量
Figure 337142DEST_PATH_IMAGE036
,
Figure DEST_PATH_IMAGE037
。其中,
Figure 450591DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
Figure 641401DEST_PATH_IMAGE040
为模型训练过程中不断更新的参数矩阵。
该可选的实施例中,采用层级注意力机制进行融合,考虑了每个向量在视频融合后的总特征向量中的占比,将第二视觉特征向量与第二文本语义向量通过上述的第一权重和第二权重进行加权,可得到融合了视觉图像特征和文本语义特征的整体特征向量。
S15,基于Bi-LSTM构成视频片段选择器,使用所述视频片段选择器根据所述融合特征向量计算每个视频片段的重要度。
将融合特征向量
Figure DEST_PATH_IMAGE041
输入至由Bi-LSTM构成的视频片段选择器(下文也可称之为镜头选择器)中,通过视频片段选择器基于所述融合特征向量进行预测并输出每个视频片段的重要度
Figure 68972DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE043
,重要度表示视频片段的重要性程度。
S16,以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练,得到最优的视频片段选择器。
视频片段选择器结合每个视频片段的重要度对原始视频的融合特征向量(整体特征向量)进行加权,输出离散结果
Figure 396048DEST_PATH_IMAGE044
可以选择GAN框架的无监督模型优化视频片段选择器。参阅图3所示,为对视频片段选择器进行优化训练的网络架构图。由于基于GAN框架的模型为无监督模型,因此将GAN框架与上述视频片段选择器共同进行训练,通过GAN不断优化视频片段选择器,得到最优的视频片段选择器,并根据最优的视频片段选择器给出最优的视频片段的选择结果。
如图3所示,GAN框架(Generative adversarial nets,生成式对抗网络)由一个生成器(G)和一个鉴别器(D)构成,生成器用于将视频片段选择器生成的视频摘要还原为整体视频,鉴别器用于区分重建视频与原始视频,当鉴别器无法区分重建视频与原始视频时,表明模型训练已完成,将视频片段选择器当前选择的视频片段组成最终的视频摘要。
生成器
Figure DEST_PATH_IMAGE045
由VAE(Variational AutoEncoder,变分自动编码器)-LSTM构成,输入是视频特征,生成重建视频
Figure 273874DEST_PATH_IMAGE046
。生成器的结构包括编码器和解码器两部分(如图3的右部分所示)。首先将视频片段选择器得到的加权后的融合特征向量
Figure DEST_PATH_IMAGE047
输入至一个由LSTM构成的编码器中,得到具有时序信息的深度隐向量特征表示
Figure 561767DEST_PATH_IMAGE048
,接着将深度隐向量特征表示
Figure DEST_PATH_IMAGE049
输入至另一个由LSTM构成的解码器中,该解码器用于得到重建视频
Figure 589766DEST_PATH_IMAGE050
,编码器和解码器两个LSTM结构组合成为一个VAE-LSTM结构。
鉴别器(D)同样由LSTM构成,可看作一个距离评估器,估计原始视频与重建视频之间的距离,通过训练不断最小化损失函数,优化鉴别器参数,得到性能最好的鉴别器,即对真实样本判定越准确的鉴别器。具体而言,将重建视频向量
Figure 771348DEST_PATH_IMAGE050
与原始视频的融合特征向量
Figure 961021DEST_PATH_IMAGE041
放入鉴别器
Figure DEST_PATH_IMAGE051
中,通过鉴别器估计原始视频和重建视频在特征空间中的分布差异
Figure 673894DEST_PATH_IMAGE052
,即,原始视频与重建视频之间的距离,以实现对原始视频和重建视频的区分。生成器和鉴别器共同构成了GAN结构。
在一个可选的实施方式中,所述以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练包括:
(1)创建多个损失函数;
由于训练的是无监督模型,因而训练集为没有标注视频片段重要度标签的数据集,通过在模型中的每一环节定义损失函数,并不断优化损失函数以减小整体损失,来训练模型。
所述多个损失函数包括:稀疏损失函数,GAN结构生成器损失函数及GAN结构鉴别器损失函数。
所述稀疏损失函数
Figure 240004DEST_PATH_IMAGE002
用于限制摘要长度,其定义为:
Figure DEST_PATH_IMAGE053
,其中,
Figure 541672DEST_PATH_IMAGE054
为视频片段选择器的输出概率,即视频片段选择器输出的每个视频片段的重要度,
Figure DEST_PATH_IMAGE055
Figure 902247DEST_PATH_IMAGE056
为视频片段选择器的参数,
Figure DEST_PATH_IMAGE057
为融合特征向量,
Figure 351682DEST_PATH_IMAGE058
为每个完整语句的时长,n为对原始视频进行切分得到的视频片段的总数。由于最终需要根据重要度选取视频摘要片段,对重要度求平均,可得到视频片段在整个原始视频下的长度占比。
Figure DEST_PATH_IMAGE059
为视频摘要片段的时长占原始视频总时长的比例,一般为15%。稀疏损失越大,表明视频摘要片段长度与原始视频的长度差异越大。通过该损失函数可对视频片段选择器的参数进行优化。
由于GAN中的生成器为VAE结构,则GAN结构生成器(G)损失函数用于在训练过程中最小化生成损失,即在对原始视频编码和重建的过程中损失最小。VAE的学习是通过最小化数据分布的负对数似然函数完成的:
Figure 721484DEST_PATH_IMAGE060
Figure DEST_PATH_IMAGE061
为观测向量
Figure 612080DEST_PATH_IMAGE047
,即视频片段选择器输出的视频摘要结果向量;
Figure 409134DEST_PATH_IMAGE049
为观测向量编码后生成的深度隐向量特征表示
Figure 831019DEST_PATH_IMAGE062
Figure DEST_PATH_IMAGE063
为观测前的先验概率分布,通常设定为正态分布;
Figure 4512DEST_PATH_IMAGE064
为把观测向量进行隐状态编码后,该编码的近似概率分布;
Figure DEST_PATH_IMAGE065
为编码后观测向量的条件概率分布,即重建视频向量
Figure 15193DEST_PATH_IMAGE066
的概率分布。
GAN结构生成器(G)损失函数右侧的第二项表示先验损失
Figure DEST_PATH_IMAGE067
,其中
Figure 45466DEST_PATH_IMAGE068
为KL散度,用于衡量两分布之间的差异,表示观测前后编码向量的分布差异大小,该损失函数用于确保模型学习到的视频摘要编码向量的分布,与原始编码的先验分布一致。生成器重建视频的目标是利用原始视频与重建视频之间的距离
Figure DEST_PATH_IMAGE069
来衡量重建误差,由于对数似然函数可用于进行样本相似性衡量,因此可衡量原始视频与重建视频之间的差异。将GAN结构生成器(G)损失函数右侧的第一项
Figure 830014DEST_PATH_IMAGE070
的期望
Figure DEST_PATH_IMAGE071
作为将视频摘要重建为完整视频的重建的似然估计(重建损失函数)
Figure 541618DEST_PATH_IMAGE003
,由于LSTM(GAN鉴别器)的最后一个隐藏层的输出会包含原始视频和重建视频整个序列的信息,包括原始视频的序列信息与重建视频的整个序列信息,且包含序列的上下文依赖关系,因此选取鉴别器LSTM的最后一个隐层的输出
Figure 469122DEST_PATH_IMAGE072
替代
Figure 607980DEST_PATH_IMAGE061
,则
Figure DEST_PATH_IMAGE073
在GAN结构鉴别器(D)损失函数中,令
Figure 191408DEST_PATH_IMAGE074
为真实数据样本,
Figure DEST_PATH_IMAGE075
为先验编码的分布,
Figure 441123DEST_PATH_IMAGE076
为生成器最终生成的重建视频。将原始视频
Figure 239446DEST_PATH_IMAGE041
与生成器生成的重建视频
Figure 549205DEST_PATH_IMAGE066
共同输入进鉴别器中,在输入进鉴别器时,同时输入鉴别标签,令原始视频的标签为1,重建视频的标签为0。
GAN的最终目标为在鉴别器D出错的概率最大的条件下,找到一个适合真实数据分布的生成器。公式为:
Figure DEST_PATH_IMAGE077
Figure 619929DEST_PATH_IMAGE078
表示输入原始视频后,鉴别器对它的判定情况。鉴别器的输出在
Figure DEST_PATH_IMAGE079
之间,
Figure 673336DEST_PATH_IMAGE080
越接近1则说明判定的越准确,
Figure DEST_PATH_IMAGE081
越接近0,对于
Figure 513116DEST_PATH_IMAGE082
Figure DEST_PATH_IMAGE083
越小则鉴别器判定越准确,
Figure 993776DEST_PATH_IMAGE084
越接近1,
Figure 286217DEST_PATH_IMAGE081
越接近0,则总体越趋近0。
括号中的项
Figure DEST_PATH_IMAGE085
为GAN鉴别器的整体对抗损失函数
Figure 143314DEST_PATH_IMAGE005
。即:
Figure 712967DEST_PATH_IMAGE086
,用于衡量鉴别器的准确度。
(2)根据所述多个损失函数生成目标损失函数
Figure DEST_PATH_IMAGE087
目标损失函数
Figure 364528DEST_PATH_IMAGE001
Figure 409845DEST_PATH_IMAGE002
为稀疏损失函数,用于在视频片段选择器部分限制生成的视频摘要的长度。
Figure 805054DEST_PATH_IMAGE088
分别为GAN结构生成器损失函数中的重建损失函数和先验损失函数,即重建视频的过程中产生的损失,衡量重建视频与原始视频之间的差异。
Figure 353847DEST_PATH_IMAGE005
为GAN结构鉴别器损失函数,通过该损失函数定义鉴别器的判定效果,对生成器和鉴别器同时进行优化。
其中
Figure 441889DEST_PATH_IMAGE006
为超参数,用于平衡生成过程和对抗过程。超参数一般通过随机搜索的方式得到最优值。
(3)通过生成式对抗网络基于所述第二视觉特征向量和所述第二文本语义向量生成重建视频向量。
将视频片段选择器与GAN结构共同进行训练,通过GAN无监督结构不断优化视频片段选择器。
首先,随机初始化层级注意力机制、视频片段选择器、GAN结构整体模型参数,将原始视频的第二文本语义向量
Figure 771239DEST_PATH_IMAGE025
和所述第二视觉特征向量
Figure 970139DEST_PATH_IMAGE018
输入模型中,经过模型的训练,得到重建视频向量
Figure 373439DEST_PATH_IMAGE050
(4)应用随机梯度变分贝叶斯估计方法,基于所述重建视频向量最小化所述目标损失函数,得到多个参数,所述多个参数包括最优的视频片段选择器参数
Figure 632382DEST_PATH_IMAGE056
通过不断优化目标损失函数,以更新模型中的参数
Figure DEST_PATH_IMAGE089
表示层级注意力机制中的参数,
Figure 386711DEST_PATH_IMAGE056
表示视频片段选择器Bi-LSTM中的参数,
Figure 936772DEST_PATH_IMAGE090
表示生成器的编码器encoder中的参数,
Figure DEST_PATH_IMAGE091
表示生成器的解码器decoder中的参数,
Figure 460157DEST_PATH_IMAGE092
表示鉴别器D的参数。
在一个可选的实施方式中,所述基于所述重建视频向量最小化所述目标损失函数包括:
对GAN结构鉴别器损失函数的加权损失
Figure DEST_PATH_IMAGE093
运用随机梯度变分贝叶斯估计得到最优鉴别器参数
Figure 890002DEST_PATH_IMAGE092
通过最小化所述稀疏损失函数
Figure 866048DEST_PATH_IMAGE002
,GAN结构生成器损失函数中的重建损失函数
Figure 406751DEST_PATH_IMAGE003
和GAN结构生成器损失函数中的先验损失函数
Figure 50222DEST_PATH_IMAGE004
得到最优生成器参数
Figure 385388DEST_PATH_IMAGE094
与视频片段选择器参数
Figure 114310DEST_PATH_IMAGE056
由于稀疏损失函数
Figure 193124DEST_PATH_IMAGE002
包含视频片段选择器的输出概率,该输出概率由当前视频片段选择器Bi-LSTM结构中的参数
Figure 691101DEST_PATH_IMAGE056
决定。因此通过对上述优化方式,在优化GAN结构的同时不断优化Bi-LSTM结构的稀疏损失函数
Figure 197169DEST_PATH_IMAGE002
,以更新视频片段选择器参数
Figure 288753DEST_PATH_IMAGE056
。综上,通过GAN结构对视频片段选择器的选择结果不断进行无监督训练,最终得到最优的视频片段选择器参数
Figure 171258DEST_PATH_IMAGE056
S17,使用所述最优的视频片段选择器生成视频摘要。
通过对视频片段选择器进行优化训练,得到最优的视频片段选择器,再使用最优的视频片段选择器选择最优的视频片段,从而基于最优的视频片段生成视频摘要。
在一个可选的实施方式中,所述使用所述最优的视频片段选择器生成视频摘要包括:
使用所述最优的视频片段选择器计算每个视频片段的目标重要度;
对所述目标重要度进行离散化处理得到离散值;
获取所述离散值中的目标离散值及获取所述目标离散值对应的目标视频片段;
根据所述目标视频片段生成视频摘要。
该可选的实施方式中,由于当视频片段选择器的训练达到最优时,最优的视频片段选择器输出的每个视频片段的重要度也为最优结果。
将最优的视频片段选择器生成的目标重要度
Figure 523742DEST_PATH_IMAGE042
进行离散化,当所述目标重要度中的任意一个元素大于预设阈值时,将所述任意一个元素更新为第一离散值,当所述目标重要度中的任意一个元素小于预设阈值时,将所述任意一个元素更新为第二离散值。对于所述目标重要度中的任意一个元素等于预设阈值时,既适用于大于预设阈值的情况,也适用于小于预设阈值的情况,本发明不做任何限制。
通过视频片段选择器得到的离散结果
Figure DEST_PATH_IMAGE095
,作为原始视频中的视频片段子序列,组合得到最终的视频摘要结果
Figure 466291DEST_PATH_IMAGE096
,m为视频摘要中包含的视频片段的总个数。
示例性的,假设预设阈值为0.5,当
Figure DEST_PATH_IMAGE097
时,更新
Figure 966542DEST_PATH_IMAGE098
为1,当
Figure DEST_PATH_IMAGE099
时,更新
Figure 387159DEST_PATH_IMAGE098
为0,更新后的目标重要度
Figure 672778DEST_PATH_IMAGE100
,可以选择重要度为1的视频片段构成原始视频的子视频片段序列,作为视频摘要片段集
Figure 520648DEST_PATH_IMAGE096
,最后将选取的目标视频片段进行拼接得到最终的视频摘要。
本发明融合了视频的图像特征和文本特征,并基于层级注意力机制计算了图像特征和文本特征在视频中的权重,基于视频片段选择器根据权重计算每个视频片段的重要度,最后通过优化视频片段选择器来优化重要度,从而根据优化后的重要度生成视频摘要,生成的视频摘要准确度较高。
本发明所述的方法适合应用于教学视频场景中,抽取教学视频的视频摘要准确度较高。
图4是本发明实施例二提供的视频摘要生成装置的结构图。
在一些实施例中,所述视频摘要生成装置40可以包括多个由计算机程序段所组成的功能模块。所述视频摘要生成装置40中的各个程序段的计算机程序可以存储于计算机设备的存储器中,并由至少一个处理器所执行,以执行(详见图4描述)视频摘要生成的功能。
本实施例中,所述视频摘要生成装置40根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:视频切分模块401、第一提取模块402、第二提取模块403、特征融合模块404、重要度计算模块405、优化训练模块406、摘要生成模块407。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述视频切分模块401,用于对原始视频进行断点检测,根据检测得到的多个断点将所述原始视频切分为多个视频片段,并识别每个视频片段的视频文本。
在教学场景中,所述原始视频可以为教学视频。
对于完整原始视频,可以利用语音端点检测(Voice Activity Detection,VAD)将原始视频截断为多个视频片段,使得每个视频片段为一个完整的语句。采用语音识别技术将每个视频片段中的视频语音转化为视频文本,其中,视频文本的时间轴与原始视频的时间轴是相对应的。
具体实施时,首先利用语音端点检测原始视频中每个完整的语句在原始视频中的开始时间与结束时间,并利用每个完整的语句的开始时间和结束时间分割原始视频,将原始视频
Figure 445879DEST_PATH_IMAGE007
分割为
Figure 670187DEST_PATH_IMAGE008
个视频片段:
Figure 997263DEST_PATH_IMAGE009
,n为原始视频对应的原始视频文本
Figure 343931DEST_PATH_IMAGE010
中完整语句的数量。例如:某个视频文本对应的完整语句在原始视频中的开始时间为第5秒,结束时间为第8秒,则将原始视频的第5秒至第8秒之间的视频帧截取出来作为一个视频片段。
本实施例,通过VAD检测原始视频中的断点,并根据断点分割原始视频,能够有效的确保分割得到的每个视频片段刚好对应原始视频中的一个完整的语句,从而在后续基于视频片段提取视觉特征向量和文本语义向量时,避免出现语义截断的问题,提取的视觉特征向量和文本语义向量准确度高。
所述第一提取模块402,用于提取所述视频片段的第一视觉特征向量,计算所述第一视觉特征向量的第一向量维度,根据最大的第一向量维度对所述第一视觉特征向量进行扩充得到第二视觉特征向量。
其中,所述第一视觉特征向量为镜头级别的特征向量,也可以称之为视频图像特征。在提取每一个视频片段的第一视觉特征向量之后,计算每一个第一视觉特征向量的第一向量维度,将多个第一向量维度中的最大者确定为最大的第一向量维度,从而基于最大的第一向量维度对其他的第一向量维度对应的第一视觉特征向量进行扩充得到第二视觉特征向量。
在一个可选的实施方式中,所述第一提取模块402提取所述视频片段的第一视觉特征向量包括:
分割所述视频片段为多个视频帧;
利用DeepCNN提取所述视频帧的特征向量;
计算所述视频片段的多个视频帧的特征向量的均值,得到所述第一视觉特征向量。
该可选的实施方式中,可以根据原始视频的采样率将每一个视频片段分割为多个视频帧,多个视频帧可以构成视频片段的一个视频帧序列,原始视频的视频帧序列表示如下:
Figure 756458DEST_PATH_IMAGE011
,其中,
Figure 518877DEST_PATH_IMAGE012
为视频片段
Figure 700460DEST_PATH_IMAGE013
内的视频帧数。
Figure 155712DEST_PATH_IMAGE014
Figure 868584DEST_PATH_IMAGE015
为原始视频
Figure 434695DEST_PATH_IMAGE007
的总视频帧数,
Figure 470784DEST_PATH_IMAGE016
为视频片段的总数。
利用DeepCNN提取每个视频片段内的每一个视频帧序列的特征向量,得到原始视频的特征向量
Figure 96937DEST_PATH_IMAGE017
,对每个视频片段的所有视频帧的特征向量取平均,得到镜头级别的视觉特征向量:
Figure 484056DEST_PATH_IMAGE018
。其中,
Figure 588279DEST_PATH_IMAGE019
,为使
Figure 806770DEST_PATH_IMAGE020
的第一向量维度相同,将第一向量维度固定为
Figure 603825DEST_PATH_IMAGE021
, 对于第一视觉特征向量的维度不足的,可以在第一视觉特征向量的尾部位置补充0,如此,能够有效的保证得到的第二视觉特征向量具有相同的维度,便于后续进行计算。
所述第二提取模块403,用于提取所述视频文本的第一文本语义向量,计算所述第一文本语义向量的第二向量维度,根据最大的第二向量维度对所述第一文本语义向量进行扩充得到第二文本语义向量。
可以利用bert-as-service工具提取所述视频文本的第一文本语义向量,bert模型由多个双向transformer结构组成,transformer中的自注意力机制能够使得生成的文本语义向量包含视频文本的长距离语义信息。
具体而言,通过bert将从原始视频中分割得到的每个完整的视频文本转化为一个第一文本语义向量。
Figure 212661DEST_PATH_IMAGE022
表示第i个视频文本的第一文本语义向量。将每个第一文本语义向量的大小固定为
Figure 386153DEST_PATH_IMAGE023
Figure 396835DEST_PATH_IMAGE024
表示第i个第一文本语义向量的维度。对于第一文本语义向量的维度不足的,可以在第一文本语义向量的尾部位置补充0,如此,能够有效的保证得到的第二文本语义向量具有相同的维度,便于后续进行计算。
所述特征融合模块404,用于采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量。
由于第二视觉特征向量
Figure 364791DEST_PATH_IMAGE018
为图像级别的特征向量,而第二文本语义向量
Figure 273972DEST_PATH_IMAGE025
为文本级别的特征向量,这两个特征向量中每个元素如
Figure 719997DEST_PATH_IMAGE026
Figure 850764DEST_PATH_IMAGE027
的长度均不同,因此需要将两个特征向量转化到同一空间中进行特征融合。可通过层级注意力机制将二者转化到同一空间,从而融合得到镜头级别下的视频的整体特征向量。
在一个可选的实施方式中,所述特征融合模块404采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量包括:
将所述第二视觉特征向量投影到目标空间得到第一投影向量,及将所述第二文本语义向量投影到所述目标空间得到第二投影向量;
计算所述第一投影向量在所述目标空间中的第一权重,及计算所述第二投影向量在所述目标空间中的第二权重;
对所述第二视觉特征向量及所述第一权重、所述第二文本语义向量及所述第二权重进行加权和计算,得到融合特征向量。
参阅图2所示,为采用层级注意力机制计算融合特征向量的示意图,假设令
Figure 989621DEST_PATH_IMAGE028
表示第二视觉特征向量,
Figure 573049DEST_PATH_IMAGE029
表示第二文本语义向量,则将第二视觉特征向量投影到目标空间得到第一投影向量
Figure 822765DEST_PATH_IMAGE030
, 将第二文本语义向量投影到同一目标空间得到第二投影向量
Figure 808038DEST_PATH_IMAGE031
。其中
Figure 180114DEST_PATH_IMAGE032
,k=1或者2。得到的每个特征向量
Figure 250838DEST_PATH_IMAGE033
的大小都为
Figure 304245DEST_PATH_IMAGE034
进而可求得第一投影向量在目标空间中的第一权重及第二投影向量在目标空间中的第二权重,第一投影向量和第二投影向量在同一空间中的权重表示为
Figure 144025DEST_PATH_IMAGE035
。通过如下公式计算融合特征向量
Figure 624685DEST_PATH_IMAGE036
,
Figure 917126DEST_PATH_IMAGE037
。其中,
Figure 774223DEST_PATH_IMAGE038
Figure 281559DEST_PATH_IMAGE039
Figure 933120DEST_PATH_IMAGE040
为模型训练过程中不断更新的参数矩阵。
该可选的实施例中,采用层级注意力机制进行融合,考虑了每个向量在视频融合后的总特征向量中的占比,将第二视觉特征向量与第二文本语义向量通过上述的第一权重和第二权重进行加权,可得到融合了视觉图像特征和文本语义特征的整体特征向量。
所述重要度计算模块405,用于基于Bi-LSTM构成视频片段选择器,使用所述视频片段选择器根据所述融合特征向量计算每个视频片段的重要度。
将融合特征向量
Figure 978437DEST_PATH_IMAGE041
输入至由Bi-LSTM构成的视频片段选择器(下文也可称之为镜头选择器)中,通过视频片段选择器基于所述融合特征向量进行预测并输出每个视频片段的重要度
Figure 373646DEST_PATH_IMAGE042
Figure 922439DEST_PATH_IMAGE043
,重要度表示视频片段的重要性程度。
所述优化训练模块406,用于以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练,得到最优的视频片段选择器。
视频片段选择器结合每个视频片段的重要度对原始视频的融合特征向量(整体特征向量)进行加权,输出离散结果
Figure 10481DEST_PATH_IMAGE044
可以选择GAN框架的无监督模型优化视频片段选择器。参阅图3所示,为对视频片段选择器进行优化训练的网络架构图。由于基于GAN框架的模型为无监督模型,因此将GAN框架与上述视频片段选择器共同进行训练,通过GAN不断优化视频片段选择器,得到最优的视频片段选择器,并根据最优的视频片段选择器给出最优的视频片段的选择结果。
如图3所示,GAN框架(Generative adversarial nets,生成式对抗网络)由一个生成器(G)和一个鉴别器(D)构成,生成器用于将视频片段选择器生成的视频摘要还原为整体视频,鉴别器用于区分重建视频与原始视频,当鉴别器无法区分重建视频与原始视频时,表明模型训练已完成,将视频片段选择器当前选择的视频片段组成最终的视频摘要。
生成器
Figure 277514DEST_PATH_IMAGE045
由VAE(Variational Auto Encoder,变分自动编码器)-LSTM构成,输入是视频特征,生成重建视频
Figure 273152DEST_PATH_IMAGE046
。生成器的结构包括编码器和解码器两部分(如图3的右部分所示)。首先将视频片段选择器得到的加权后的融合特征向量
Figure 942031DEST_PATH_IMAGE047
输入至一个由LSTM构成的编码器中,得到具有时序信息的深度隐向量特征表示
Figure 200974DEST_PATH_IMAGE048
,接着将深度隐向量特征表示
Figure 689724DEST_PATH_IMAGE049
输入至另一个由LSTM构成的解码器中,该解码器用于得到重建视频
Figure 692315DEST_PATH_IMAGE050
,编码器和解码器两个LSTM结构组合成为一个VAE-LSTM结构。
鉴别器(D)同样由LSTM构成,可看作一个距离评估器,估计原始视频与重建视频之间的距离,通过训练不断最小化损失函数,优化鉴别器参数,得到性能最好的鉴别器,即对真实样本判定越准确的鉴别器。具体而言,将重建视频向量
Figure 215700DEST_PATH_IMAGE050
与原始视频的融合特征向量
Figure 379965DEST_PATH_IMAGE041
放入鉴别器
Figure 758859DEST_PATH_IMAGE051
中,通过鉴别器估计原始视频和重建视频在特征空间中的分布差异
Figure 299562DEST_PATH_IMAGE052
,即,原始视频与重建视频之间的距离,以实现对区分原始视频和重建视频的区分。生成器和鉴别器共同构成了GAN结构。
在一个可选的实施方式中,所述优化训练模块406以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练包括:
(1)创建多个损失函数;
由于训练的是无监督模型,因而训练集为没有标注视频片段重要度标签的数据集,通过在模型中的每一环节定义损失函数,并不断优化损失函数以减小整体损失,来训练模型。
所述多个损失函数包括:稀疏损失函数,GAN结构生成器损失函数及GAN结构鉴别器损失函数。
所述稀疏损失函数
Figure 677453DEST_PATH_IMAGE002
用于限制摘要长度,其定义为:
Figure 278199DEST_PATH_IMAGE053
,其中,
Figure 741541DEST_PATH_IMAGE054
为视频片段选择器的输出概率,即视频片段选择器输出的每个视频片段的重要度,
Figure 85935DEST_PATH_IMAGE055
Figure 583912DEST_PATH_IMAGE056
为视频片段选择器的参数,
Figure 152297DEST_PATH_IMAGE057
为融合特征向量,
Figure 368515DEST_PATH_IMAGE058
为每个完整语句的时长,n为对原始视频进行切分得到的视频片段的总数。由于最终需要根据重要度选取视频摘要片段,对重要度求平均,可得到视频片段在整个原始视频下的长度占比。
Figure 251020DEST_PATH_IMAGE059
为视频摘要片段的时长占原始视频总时长的比例,一般为15%。稀疏损失越大,表明视频摘要片段长度与原始视频的长度差异越大。通过该损失函数可对视频片段选择器的参数进行优化。
由于GAN中的生成器为VAE结构,则GAN结构生成器(G)损失函数用于在训练过程中最小化生成损失,即在对原始视频编码和重建的过程中损失最小。VAE的学习是通过最小化数据分布的负对数似然函数完成的:
Figure 603504DEST_PATH_IMAGE060
Figure 280473DEST_PATH_IMAGE061
为观测向量
Figure 718407DEST_PATH_IMAGE047
,即视频片段选择器输出的视频摘要结果向量;
Figure 404604DEST_PATH_IMAGE049
为观测向量编码后生成的深度隐向量特征表示
Figure 424643DEST_PATH_IMAGE062
Figure 538093DEST_PATH_IMAGE063
为观测前的先验概率分布,通常设定为正态分布;
Figure 463324DEST_PATH_IMAGE064
为把观测向量进行隐状态编码后,该编码的近似概率分布;
Figure 687632DEST_PATH_IMAGE065
为编码后观测向量的条件概率分布,即重建视频向量
Figure 14708DEST_PATH_IMAGE066
的概率分布。
GAN结构生成器(G)损失函数右侧的第二项表示先验损失
Figure 299059DEST_PATH_IMAGE067
,其中
Figure 446006DEST_PATH_IMAGE068
为KL散度,用于衡量两分布之间的差异,表示观测前后编码向量的分布差异大小,该损失函数用于确保模型学习到的视频摘要编码向量的分布,与原始编码的先验分布一致。生成器重建视频的目标是利用原始视频与重建视频之间的距离
Figure 536322DEST_PATH_IMAGE069
来衡量重建误差,由于对数似然函数可用于进行样本相似性衡量,因此可衡量原始视频与重建视频之间的差异。将GAN结构生成器(G)损失函数右侧的第一项
Figure 717905DEST_PATH_IMAGE070
的期望
Figure 173157DEST_PATH_IMAGE071
作为将视频摘要重建为完整视频的重建的似然估计(重建损失函数)
Figure 72980DEST_PATH_IMAGE003
,由于LSTM(GAN鉴别器)的最后一个隐藏层的输出会包含原始视频和重建视频整个序列的信息,包括原始视频的序列信息与重建视频的整个序列信息,且包含序列的上下文依赖关系,因此选取鉴别器LSTM的最后一个隐层的输出
Figure 639090DEST_PATH_IMAGE072
替代
Figure 675179DEST_PATH_IMAGE061
,则
Figure 301333DEST_PATH_IMAGE073
在GAN结构鉴别器(D)损失函数中,令
Figure 422872DEST_PATH_IMAGE074
为真实数据样本,
Figure 605723DEST_PATH_IMAGE075
为先验编码的分布,
Figure 761898DEST_PATH_IMAGE076
为生成器最终生成的重建视频。将原始视频
Figure 558953DEST_PATH_IMAGE041
与生成器生成的重建视频
Figure 167789DEST_PATH_IMAGE066
共同输入进鉴别器中,在输入进鉴别器时,同时输入鉴别标签,令原始视频的标签为1,重建视频的标签为0。
GAN的最终目标为在鉴别器D出错的概率最大的条件下,找到一个适合真实数据分布的生成器。公式为:
Figure 75702DEST_PATH_IMAGE077
Figure 86383DEST_PATH_IMAGE078
表示输入原始视频后,鉴别器对它的判定情况。鉴别器的输出在
Figure 116656DEST_PATH_IMAGE079
之间,
Figure 212788DEST_PATH_IMAGE080
越接近1则说明判定的越准确,
Figure 924392DEST_PATH_IMAGE081
越接近0,对于
Figure 55159DEST_PATH_IMAGE082
Figure 194016DEST_PATH_IMAGE083
越小则鉴别器判定越准确,
Figure 511865DEST_PATH_IMAGE084
越接近1,
Figure 27160DEST_PATH_IMAGE081
越接近0,则总体越趋近0。
括号中的项
Figure 825483DEST_PATH_IMAGE085
为GAN鉴别器的整体对抗损失函数
Figure 135242DEST_PATH_IMAGE005
。即:
Figure 940387DEST_PATH_IMAGE086
,用于衡量鉴别器的准确度。
(2)根据所述多个损失函数生成目标损失函数
Figure 993793DEST_PATH_IMAGE087
目标损失函数
Figure 833573DEST_PATH_IMAGE001
Figure 314233DEST_PATH_IMAGE002
为稀疏损失函数,用于在视频片段选择器部分限制生成的视频摘要的长度。
Figure 934570DEST_PATH_IMAGE088
分别为GAN结构生成器损失函数中的重建损失函数和先验损失函数,即重建视频的过程中产生的损失,衡量重建视频与原始视频之间的差异。
Figure 526089DEST_PATH_IMAGE005
为GAN结构鉴别器损失函数,通过该损失函数定义鉴别器的判定效果,对生成器和鉴别器同时进行优化。
其中
Figure 485954DEST_PATH_IMAGE006
为超参数,用于平衡生成过程和对抗过程。超参数一般通过随机搜索的方式得到最优值。
(3)通过生成式对抗网络基于所述第二视觉特征向量和所述第二文本语义向量生成重建视频向量。
将视频片段选择器与GAN结构共同进行训练,通过GAN无监督结构不断优化视频片段选择器。
首先,随机初始化层级注意力机制、视频片段选择器、GAN结构整体模型参数,将原始视频的第二文本语义向量
Figure 137516DEST_PATH_IMAGE025
和所述第二视觉特征向量
Figure 917253DEST_PATH_IMAGE018
输入模型中,经过模型的训练,得到重建视频向量
Figure 312462DEST_PATH_IMAGE050
(4)应用随机梯度变分贝叶斯估计方法,基于所述重建视频向量最小化所述目标损失函数,得到多个参数,所述多个参数包括最优的视频片段选择器参数
Figure 126834DEST_PATH_IMAGE056
通过不断优化目标损失函数,以更新模型中的参数
Figure 949297DEST_PATH_IMAGE089
表示层级注意力机制中的参数,
Figure 29379DEST_PATH_IMAGE056
表示视频片段选择器Bi-LSTM中的参数,
Figure 228280DEST_PATH_IMAGE090
表示生成器的编码器encoder中的参数,
Figure 897158DEST_PATH_IMAGE091
表示生成器的解码器decoder中的参数,
Figure 890522DEST_PATH_IMAGE092
表示鉴别器D的参数。
在一个可选的实施方式中,所述基于所述重建视频向量最小化所述目标损失函数包括:
对GAN结构鉴别器损失函数的加权损失
Figure 644852DEST_PATH_IMAGE093
运用随机梯度变分贝叶斯估计得到最优鉴别器参数
Figure 647443DEST_PATH_IMAGE092
通过最小化所述稀疏损失函数
Figure 170828DEST_PATH_IMAGE002
,GAN结构生成器损失函数中的重建损失函数
Figure 397410DEST_PATH_IMAGE003
和GAN结构生成器损失函数中的先验损失函数
Figure 639035DEST_PATH_IMAGE004
得到最优生成器参数
Figure 179738DEST_PATH_IMAGE094
与视频片段选择器参数
Figure 557630DEST_PATH_IMAGE056
由于稀疏损失函数
Figure 158375DEST_PATH_IMAGE002
包含视频片段选择器的输出概率,该输出概率由当前视频片段选择器Bi-LSTM结构中的参数
Figure 621718DEST_PATH_IMAGE056
决定。因此通过对上述优化方式,在优化GAN结构的同时不断优化Bi-LSTM结构的稀疏损失函数
Figure 966111DEST_PATH_IMAGE002
,以更新视频片段选择器参数
Figure 198510DEST_PATH_IMAGE056
。综上,通过GAN结构对视频片段选择器的选择结果不断进行无监督训练,最终得到最优的视频片段选择器参数
Figure 783206DEST_PATH_IMAGE056
所述摘要生成模块407,用于使用所述最优的视频片段选择器生成视频摘要。
通过对视频片段选择器进行优化训练,得到最优的视频片段选择器,再使用最优的视频片段选择器选择最优的视频片段,从而基于最优的视频片段生成视频摘要。
在一个可选的实施方式中,所述摘要生成模块407使用所述最优的视频片段选择器生成视频摘要包括:
使用所述最优的视频片段选择器计算每个视频片段的目标重要度;
对所述目标重要度进行离散化处理得到离散值;
获取所述离散值中的目标离散值及获取所述目标离散值对应的目标视频片段;
根据所述目标视频片段生成视频摘要。
该可选的实施方式中,由于当视频片段选择器的训练达到最优时,最优的视频片段选择器输出的每个视频片段的重要度也为最优结果。
将最优的视频片段选择器生成的目标重要度
Figure 733844DEST_PATH_IMAGE042
进行离散化,当所述目标重要度中的任意一个元素大于预设阈值时,将所述任意一个元素更新为第一离散值,当所述目标重要度中的任意一个元素小于预设阈值时,将所述任意一个元素更新为第二离散值。对于所述目标重要度中的任意一个元素等于预设阈值时,既适用于大于预设阈值的情况,也适用于小于预设阈值的情况,本发明不做任何限制。
通过视频片段选择器得到的离散结果
Figure 616350DEST_PATH_IMAGE095
,作为原始视频中的视频片段子序列,组合得到最终的视频摘要结果
Figure 968834DEST_PATH_IMAGE096
,m为视频摘要中包含的视频片段的总个数。
示例性的,假设预设阈值为0.5,当
Figure 911382DEST_PATH_IMAGE097
时,更新
Figure 349316DEST_PATH_IMAGE098
为1,当
Figure 97830DEST_PATH_IMAGE099
时,更新
Figure 304820DEST_PATH_IMAGE098
为0,更新后的目标重要度
Figure 418270DEST_PATH_IMAGE100
,可以选择重要度为1的视频片段构成原始视频的子视频片段序列,作为视频摘要片段集
Figure 343500DEST_PATH_IMAGE096
,最后将选取的目标视频片段进行拼接得到最终的视频摘要。
本发明融合了视频的图像特征和文本特征,并基于层级注意力机制计算了图像特征和文本特征在视频中的权重,基于视频片段选择器根据权重计算每个视频片段的重要度,最后通过优化视频片段选择器来优化重要度,从而根据优化后的重要度生成视频摘要,生成的视频摘要准确度较高。
本发明所述的装置适合应用于教学视频场景中,抽取教学视频的视频摘要准确度较高。
需要强调的是,为进一步保证上述视频片段选择器的私密性和安全性,上述视频片段选择器可存储于区块链的节点中。
参阅图5所示,为本发明实施例三提供的计算机设备的结构示意图。在本发明较佳实施例中,所述计算机设备5包括存储器51、至少一个处理器52、至少一条通信总线53及收发器54。
本领域技术人员应该了解,图5示出的计算机设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机设备5还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机设备5是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备5还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述计算机设备5仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器51中存储有计算机程序,所述计算机程序被所述至少一个处理器52执行时实现如所述的视频摘要生成方法中的全部或者部分步骤。所述存储器51包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一些实施例中,所述至少一个处理器52是所述计算机设备5的控制核心(Control Unit),利用各种接口和线路连接整个计算机设备5的各个部件,通过运行或执行存储在所述存储器51内的程序或者模块,以及调用存储在所述存储器51内的数据,以执行计算机设备5的各种功能和处理数据。例如,所述至少一个处理器52执行所述存储器中存储的计算机程序时实现本发明实施例中所述的视频摘要生成方法的全部或者部分步骤;或者实现视频摘要生成装置的全部或者部分功能。所述至少一个处理器52可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线53被设置为实现所述存储器51以及所述至少一个处理器52等之间的连接通信。
尽管未示出,所述计算机设备5还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器52逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备5还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,计算机设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本发明陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种视频摘要生成方法,其特征在于,所述方法包括:
对原始视频进行断点检测,根据检测得到的多个断点将所述原始视频切分为多个视频片段,并识别每个视频片段的视频文本;
提取所述视频片段的第一视觉特征向量,计算所述第一视觉特征向量的第一向量维度,根据最大的第一向量维度对所述第一视觉特征向量进行扩充得到第二视觉特征向量;
提取所述视频文本的第一文本语义向量,计算所述第一文本语义向量的第二向量维度,根据最大的第二向量维度对所述第一文本语义向量进行扩充得到第二文本语义向量;
采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量;
基于Bi-LSTM构成视频片段选择器,使用所述视频片段选择器根据所述融合特征向量计算每个视频片段的重要度;
以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练,得到最优的视频片段选择器;
使用所述最优的视频片段选择器生成视频摘要。
2.如权利要求1所述的视频摘要生成方法,其特征在于,所述使用所述最优的视频片段选择器生成视频摘要包括:
使用所述最优的视频片段选择器计算每个视频片段的目标重要度;
对所述目标重要度进行离散化处理得到离散值;
获取所述离散值中的目标离散值及获取所述目标离散值对应的目标视频片段;
根据所述目标视频片段生成视频摘要。
3.如权利要求1所述的视频摘要生成方法,其特征在于,所述提取所述视频片段的第一视觉特征向量包括:
分割所述视频片段为多个视频帧;
利用DeepCNN提取所述视频帧的特征向量;
计算所述视频片段的多个视频帧的特征向量的均值,得到所述第一视觉特征向量。
4.如权利要求1所述的视频摘要生成方法,其特征在于,所述采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量包括:
将所述第二视觉特征向量投影到目标空间得到第一投影向量,及将所述第二文本语义向量投影到所述目标空间得到第二投影向量;
计算所述第一投影向量在所述目标空间中的第一权重,及计算所述第二投影向量在所述目标空间中的第二权重;
根据所述第二视觉特征向量及所述第一权重、所述第二文本语义向量及所述第二权重得到融合特征向量。
5.如权利要求1至4中任意一项所述的视频摘要生成方法,其特征在于,所述以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练包括:
创建多个损失函数;
根据所述多个损失函数生成目标损失函数;
通过生成式对抗网络基于所述第二视觉特征向量和所述第二文本语义向量生成重建视频向量;
应用随机梯度变分贝叶斯估计方法,基于所述重建视频向量最小化所述目标损失函数,得到多个参数,所述多个参数包括最优的视频片段选择器的参数。
6.如权利要求5所述的视频摘要生成方法,其特征在于,所述多个损失函数包括:稀疏损失函数,GAN结构生成器损失函数及GAN结构鉴别器损失函数,所述目标损失函数
Figure 877392DEST_PATH_IMAGE001
Figure 691764DEST_PATH_IMAGE002
表示所述稀疏损失函数,
Figure 514227DEST_PATH_IMAGE003
表示所述GAN结构生成器损失函数中的重建损失函数,
Figure 781260DEST_PATH_IMAGE004
表示所述GAN结构生成器损失函数中的先验损失函数,
Figure 42477DEST_PATH_IMAGE005
表示所述GAN结构鉴别器损失函数,
Figure 711356DEST_PATH_IMAGE006
为超参数。
7.如权利要求6所述的视频摘要生成方法,其特征在于,所述基于所述重建视频向量最小化所述目标损失函数包括:
对所述GAN结构鉴别器损失函数的加权损失运用随机梯度变分贝叶斯估计得到最优鉴别器参数;
通过最小化所述稀疏损失函数,所述GAN结构生成器损失函数中的重建损失函数和所述GAN结构生成器损失函数中的先验损失函数,得到最优生成器参数与视频片段选择器参数。
8.一种视频摘要生成装置,其特征在于,所述装置包括:
视频切分模块,用于对原始视频进行断点检测,根据检测得到的多个断点将所述原始视频切分为多个视频片段,并识别每个视频片段的视频文本;
第一提取模块,用于提取所述视频片段的第一视觉特征向量,计算所述第一视觉特征向量的第一向量维度,根据最大的第一向量维度对所述第一视觉特征向量进行扩充得到第二视觉特征向量;
第二提取模块,用于提取所述视频文本的第一文本语义向量,计算所述第一文本语义向量的第二向量维度,根据最大的第二向量维度对所述第一文本语义向量进行扩充得到第二文本语义向量;
特征融合模块,用于采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量;
重要度计算模块,用于基于Bi-LSTM构成视频片段选择器,使用所述视频片段选择器根据所述融合特征向量计算每个视频片段的重要度;
优化训练模块,用于以GAN为网络框架,根据所述重要度对所述视频片段选择器进行优化训练,得到最优的视频片段选择器;
摘要生成模块,用于使用所述最优的视频片段选择器生成视频摘要。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的视频摘要生成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的视频摘要生成方法。
CN202110552191.2A 2021-05-20 2021-05-20 视频摘要生成方法、装置、计算机设备及介质 Active CN113052149B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110552191.2A CN113052149B (zh) 2021-05-20 2021-05-20 视频摘要生成方法、装置、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110552191.2A CN113052149B (zh) 2021-05-20 2021-05-20 视频摘要生成方法、装置、计算机设备及介质

Publications (2)

Publication Number Publication Date
CN113052149A CN113052149A (zh) 2021-06-29
CN113052149B true CN113052149B (zh) 2021-08-13

Family

ID=76518482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110552191.2A Active CN113052149B (zh) 2021-05-20 2021-05-20 视频摘要生成方法、装置、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN113052149B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779310B (zh) * 2021-09-10 2023-06-02 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN113676671B (zh) * 2021-09-27 2023-06-23 北京达佳互联信息技术有限公司 视频剪辑方法、装置、电子设备及存储介质
CN113987264A (zh) * 2021-10-28 2022-01-28 北京中科闻歌科技股份有限公司 视频摘要生成方法、装置、设备、系统及介质
CN114359810A (zh) * 2022-01-11 2022-04-15 平安科技(深圳)有限公司 视频摘要生成方法、装置、电子设备及存储介质
CN114398889A (zh) * 2022-01-18 2022-04-26 平安科技(深圳)有限公司 基于多模态模型的视频文本摘要方法、设备及存储介质
CN114519395B (zh) * 2022-02-22 2024-05-14 平安科技(深圳)有限公司 模型的训练方法和装置、文本摘要生成方法和装置、设备
CN115544244B (zh) * 2022-09-06 2023-11-17 内蒙古工业大学 一种基于交叉融合和重建的多模态生成式摘要获取方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005236546A (ja) * 2004-02-18 2005-09-02 Nippon Telegr & Teleph Corp <Ntt> 部分コンテンツ作成方法及び装置及びプログラム
CN104123396A (zh) * 2014-08-15 2014-10-29 三星电子(中国)研发中心 一种基于云电视的足球视频摘要生成方法及装置
CN106327518A (zh) * 2016-08-04 2017-01-11 广东工业大学 一种视频摘要生成的方法及系统
CN107222795A (zh) * 2017-06-23 2017-09-29 南京理工大学 一种多特征融合的视频摘要生成方法
CN109710800A (zh) * 2018-11-08 2019-05-03 北京奇艺世纪科技有限公司 模型生成方法、视频分类方法、装置、终端及存储介质
CN109743642A (zh) * 2018-12-21 2019-05-10 西北工业大学 基于分层循环神经网络的视频摘要生成方法
CN110263220A (zh) * 2019-06-28 2019-09-20 北京奇艺世纪科技有限公司 一种视频精彩片段识别方法及装置
CN111163351A (zh) * 2019-12-17 2020-05-15 博雅信安科技(北京)有限公司 一种基于渐进式生成对抗网络的视频摘要方法
CN111723937A (zh) * 2019-03-21 2020-09-29 北京三星通信技术研究有限公司 多媒体数据的描述信息的生成方法、装置、设备及介质
CN112203122A (zh) * 2020-10-10 2021-01-08 腾讯科技(深圳)有限公司 基于人工智能的相似视频处理方法、装置及电子设备
CN112287175A (zh) * 2020-10-29 2021-01-29 中国科学技术大学 一种视频高亮片段预测方法和系统
CN112418012A (zh) * 2020-11-09 2021-02-26 武汉大学 一种基于时空注意力模型的视频摘要生成方法
CN112468888A (zh) * 2020-11-26 2021-03-09 广东工业大学 基于gru网络的视频摘要生成方法与系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007519053A (ja) * 2003-06-30 2007-07-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチメディアストリームのマルチメディア要約を生成するシステムおよび方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005236546A (ja) * 2004-02-18 2005-09-02 Nippon Telegr & Teleph Corp <Ntt> 部分コンテンツ作成方法及び装置及びプログラム
CN104123396A (zh) * 2014-08-15 2014-10-29 三星电子(中国)研发中心 一种基于云电视的足球视频摘要生成方法及装置
CN106327518A (zh) * 2016-08-04 2017-01-11 广东工业大学 一种视频摘要生成的方法及系统
CN107222795A (zh) * 2017-06-23 2017-09-29 南京理工大学 一种多特征融合的视频摘要生成方法
CN109710800A (zh) * 2018-11-08 2019-05-03 北京奇艺世纪科技有限公司 模型生成方法、视频分类方法、装置、终端及存储介质
CN109743642A (zh) * 2018-12-21 2019-05-10 西北工业大学 基于分层循环神经网络的视频摘要生成方法
CN111723937A (zh) * 2019-03-21 2020-09-29 北京三星通信技术研究有限公司 多媒体数据的描述信息的生成方法、装置、设备及介质
CN110263220A (zh) * 2019-06-28 2019-09-20 北京奇艺世纪科技有限公司 一种视频精彩片段识别方法及装置
CN111163351A (zh) * 2019-12-17 2020-05-15 博雅信安科技(北京)有限公司 一种基于渐进式生成对抗网络的视频摘要方法
CN112203122A (zh) * 2020-10-10 2021-01-08 腾讯科技(深圳)有限公司 基于人工智能的相似视频处理方法、装置及电子设备
CN112287175A (zh) * 2020-10-29 2021-01-29 中国科学技术大学 一种视频高亮片段预测方法和系统
CN112418012A (zh) * 2020-11-09 2021-02-26 武汉大学 一种基于时空注意力模型的视频摘要生成方法
CN112468888A (zh) * 2020-11-26 2021-03-09 广东工业大学 基于gru网络的视频摘要生成方法与系统

Also Published As

Publication number Publication date
CN113052149A (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN113052149B (zh) 视频摘要生成方法、装置、计算机设备及介质
CN113094200B (zh) 一种应用程序的故障预测方法和装置
CN109583332B (zh) 人脸识别方法、人脸识别系统、介质及电子设备
US10943154B2 (en) Systems for modeling uncertainty in multi-modal retrieval and methods thereof
US11763091B2 (en) Automated content tagging with latent dirichlet allocation of contextual word embeddings
CN112906385B (zh) 文本摘要生成方法、计算机设备及存储介质
CN108985133B (zh) 一种人脸图像的年龄预测方法及装置
CN112417092B (zh) 基于深度学习的智能化文本自动生成系统及其实现方法
US20220405682A1 (en) Inverse reinforcement learning-based delivery means detection apparatus and method
CN109933792A (zh) 基于多层双向lstm和验证模型的观点型问题阅读理解方法
CN114021582B (zh) 结合语音信息的口语理解方法、装置、设备及存储介质
CN114926835A (zh) 文本生成、模型训练方法和装置
CN111611805A (zh) 一种基于图像的辅助写作方法、装置、介质及设备
CN116956896A (zh) 基于人工智能的文本分析方法、系统、电子设备及介质
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN113515593A (zh) 基于聚类模型的话题检测方法、装置和计算机设备
CN113705207A (zh) 语法错误识别方法及装置
CN117312562A (zh) 内容审核模型的训练方法、装置、设备及存储介质
CN111161238A (zh) 图像质量评价方法及装置、电子设备、存储介质
CN116453226A (zh) 基于人工智能的人体姿态识别方法、装置及相关设备
CN115018215B (zh) 基于多模态认知图谱的人口居住预测方法、系统和介质
CN114625340B (zh) 基于需求分析的商用软件研发方法、装置、设备及介质
KR102413588B1 (ko) 학습 데이터에 따른 객체 인식 모델 추천 방법, 시스템 및 컴퓨터 프로그램
AU2021251463B2 (en) Generating performance predictions with uncertainty intervals
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant