CN111523430B

CN111523430B - 基于ucl的可定制交互式视频制作方法与装置

Info

Publication number: CN111523430B
Application number: CN202010298639.8A
Authority: CN
Inventors: 杨鹏; 闵克祥; 赵广振
Original assignee: Nanjing Youhui Xin'an Technology Co ltd
Current assignee: Nanjing Youhui Xin'an Technology Co ltd
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2023-10-24
Anticipated expiration: 2040-04-16
Also published as: CN111523430A

Abstract

本发明公开了一种基于UCL的可定制交互式视频制作方法与装置。该方法首先对Faster R‑CNN目标检测网络模型进行改进，以达到对视频中出现的目标进行细粒度类别检测与精准识别的应用效果；然后对视频进行分段，提取视频段的多个特征并采用基于LSTM的视频语义提取模型，提取各段视频的语义信息；最后利用统一内容标签UCL对视频进行语义标引，并构建基于UCL的知识库，以便支持可定制交互式视频应用对视频中出现的目标的详细信息进行自动检索等。本发明既能实现可定制交互式视频的自动化制作，同时也能保证嵌入视频中的信息的时效性和灵活性，以及交互式视频应用中视频目标信息的语义关联性和按需可定制性。

Description

基于UCL的可定制交互式视频制作方法与装置

技术领域

本发明涉及一种基于UCL(Uniform Content Label，统一内容标签)的可定制交互式视频的制作方法与装置，属于视频图像处理领域。

背景技术

网络视频行业的蓬勃发展，推动着视频多媒体应用的不断创新。相比于传统意义上，用户被动接受全部视频内容，人们寻求更加主动，能交互操作的方式来了解和发掘视频中的内容信息，同时对视频中的冗余信息或者用户不需要的信息能做到过滤和筛选。交互式视频就是这样一类视频新应用。目前交互式视频可分为三类：第一类是可定制式，它允许用户在观看时调整一些视频的变量元素，但视频本身是线性的。例如用户在在观看视频时，鼠标移动到某物件上，能够显示改物件的信息。第二类是会话式，用户直接参与改变视频的顺序甚至结果，视频不再线性，视频的设计者准备多个结局和段落，让用户可以自行选择。第三类是探索式，用户在视频播放中自行摸索可交互点和交互方式。这类视频一般采用生活中的场景(让人更容易产生代入感)，在用户操作前，会一直循环播放场景，直到用户发现交互点，才会继续。相对于传统的视频服务，交互式视频凭借着，可交互、信息量大等优点，在特定视频定制应用领域，有着得天独厚的优势和很大的市场需求。然而，目前很多交互式视频制作工具可用于制作可定制式视频，但需要视频制作者将物品或人信息的超链接，手动嵌入到视频中，费时费力。并且一旦信息被嵌入到视频当中，则不宜更改，时效性和灵活性大大降低。

在技术方面，近年来国内外学者在目标检测，知识库构建方面已经取得了一定的进展，但是在实际运用中还存在一定的问题，首先候选区域的目标检测算法和基于回归的目标检测算法，虽然在检测目标时能够达到很高的检测精度和较快的检测速度，但却不能检测出目标的详细类别信息，例如，通过目标检测可以检测出物体是一瓶可乐，却不能检测出这瓶可乐具体的品牌。其次，基于知识库进行信息检索，已经能获得一定的语义信息，但是知识库中的信息需要不断地丰富，以此提高信息检索的时效性。例如，在检索某一公众人物A时，可通过知识库获取A的基本信息，但是可能观众更关心A最近出席了哪些活动，发表了哪些讲话，并观看与这些内容相关的视频。

发明内容

发明目的：针对现有技术中可定制交互式视频制作存在的问题与不足，本发明提出一种基于UCL的可定制交互式视频制作方法与装置，能够利用深度学习技术自动提取视频中的目标和视频段的语义信息，并能利用UCL对视频进行语义标引和知识库构建，实现可定制交互式视频的自动化制作，提高嵌入信息的时效性。

技术方案：为实现上述发明目的，本发明所述的一种基于UCL的可定制交互式视频制作方法，首先利用改进的目标检测模型检测出视频中出现的目标；然后需要将视频按照场景进行分段，并以视频段中的各个帧的视觉特征、运动特征、音频特征和目标特征为输入，利用视频语义提取模型提取出视频段的高层语义信息；最后将之前提取的各信息进行UCL标引并以此构建UCL知识库。该方法包括如下步骤：

(1)利用基于Faster R-CNN的细粒度目标检测模型，对视频中的各个帧图像进行目标检测，以检测出视频中出现的目标的细粒度类别；

(2)采用视频分段算法对视频按照场景进行分段；所述视频分段算法以视频中各帧图像作为输入，利用深度神经网络提取图像特征，并通过图像特征聚类以判断图像所属的场景；

(3)对步骤(2)得到的视频段进行特征提取，提取视频段的特征包括：视觉特征、光学流图像特征、音频特征和目标特征，将提取到的特征编码成向量序列后通过基于LSTM的语义提取模型生成视频的自然语言描述；

(4)由步骤(3)所提取的视频中所有视频段的自然语言描述，利用TextRank算法获得整个视频的关键词集合和对应的关键词重要程度集合，然后将视频的关键词集合及对应的重要程度集合、自然语言描述集、视频标题、视频的作者和视频的创作时间封装成UCL包，作为知识库的语料信息；

(5)利用知识库存储视频UCL包和UCL包之间的关系；所述知识库以实体库为基础，将视频UCL包连接在实体库中的实体节点上，并基于UCL包中的关键词与实体的匹配程度，计算UCL与实体之间的关联权重。

作为优选，所述步骤(1)中利用基于Faster R-CNN的细粒度目标检测模型检测视频中出现的目标的细粒度类别，包括如下步骤：

(1.1)利用Faster R-CNN目标检测模型得到帧图像的候选框特征图集合和每个候选框的位置偏移量；

(1.2)使用三元损失函数训练各个细粒度类别判别模型，将每个候选框特征图作为候选框图像送入各个细粒度类别判别模型中进行细粒度类别判定。

作为优选，步骤(1.2)中利用细粒度类别判别模型判别候选框细粒度类别包括如下步骤：

(1.2.1)在利用第i个粗粒度类别CC_i的细粒度类别判别模型CCM_i判别候选框图像j时，将j输入到VGG16模型中，把VGG16模型的最后一个池化层的输出送入全连接层，获得候选框图像j的特征向量f_j；

(1.2.2)对特征向量f_j进行归一化，获得候选框的归一化特征向量out；

(1.2.3)遍历粗粒度类别CC_i图库中的图片，对于图库中第m张图片img_m，其粗粒度类别CC_i的细粒度类别判别模型输出为out_m，类别为categories_m。通计算候选框图像与粗粒度类别CC_i图库中图片的特征向量欧式距离distance(out，out_m)；

(1.2.4)按照如下公式得到两张图片的相似程度标志similarity_tag(out，out_m)；

其中，τ₁与τ₂为模型的超参，由交叉验证得出；取图库中与候选框图像的欧氏距离最短的图片img_s；当img_s与候选框图像的相似程度标志为1表示两张图片的相似度很高，属于同一细粒度类别，img_s的细粒度类别就是候选框图像的最终类别；当img_s与候选框图像的相似程度标志为0表示两张图片的相似度较，属于同一粗粒度类别，img_s的粗粒度类别就是候选框图像的最终类别；当img_s与候选框图像的相似程度标志为-1表示两张图片的相似度较低，属于不同类别，利用其他细粒度类别判别模型判别候选框图像的细粒度类别；若比较结束后仍无类别输出，则无此类别。

作为优选，步骤(1.2)利用如下公式作为损失函数训练各个粗粒度类别的细粒度类别判别模型；

其中，N是样本中三元组<a,p,n>的总数，a表示参考样本图片，p表示正例样本图片，它与a同类但不是同一个；n表示反例样本图片，它与a属于不同类别；a_k、p_k和n_k分别表示训练集中第k个三元组中参考样本图片、正例样本图片和反例样本图片，f(a_k)、f(p_k)和f(n_k)分别表示以a_k、p_k和n_k作为输入，细粒度的类别判别模型的输出特征向量；超参数由交叉验证得出。

作为优选，所述步骤(3)中视觉特征通过GoogLeNet模型提取，将该模型的最后一个FC的输出向量作为视觉特征向量；光学流图像特征是先生成光流图片，再将光流图片利用GoogLeNet模型提取出光流图像特征得到的；音频特征的提取方法是，先将视频段中的背景音乐去除，然后通过如下公式计算第i个视频段音频信号拆分的时长t_i，最后将音频信号拆分成时长为t_i的片段，并计算每个片段的特征作为音频特征；

其中，t_i表示第i个视频段的音频信号拆分的时长，time(i)表示视频片段i的时长，frame(i)表示视频片段i的帧数。

作为优选，所述步骤(3)中目标特征的提取方法是，首先利用步骤(1)获得每帧的目标集合，根据如下公式为每帧图片生成候选词集合将每个候选词利用Word2Vec模型表征为词向量，整个候选词集映射为词向量矩阵；

其中，m为候选词集合Cⁱ中元素的数量，n为每帧的目标集合中目标的数量；表示i帧图像中第j个目标框的大小；OrderBy函数表示将/>按从大到小顺序排列，Select函数表示在排序后的序列中选择前m个目标框对应的目标类别。

作为优选，所述步骤(3)中通过基于LSTM的语义提取模型生成视频的自然语言描述，具体包括，首先将提取的第i帧的视觉特征image_i、音频特征audio_i、光学流图像特征optics_i拼接得到F_i，然后将F_i作为Encode器中第i个LSTM单元的输入，将该单元的隐藏层作为语义向量C(i)。为了充分利用视频的局部特征，以产生更好的描述效果，最后将语义向量C(i)与目标特征作二次融合，作为Decode的输入，生成视频段的自然语言描述。

作为优选，所述步骤(4)中视频中关键词的重要程度通过如下公式计算：

其中，I为指示函数，g_i表示视频中第i个关键词的重要程度，s_j为视频中第j个视频段的自然语言描述，w_i为视频的第i个关键词，m表示视频段个数，n表示关键词个数。

作为优选，所述步骤(5)中将视频UCL连接在实体库中的实体节点上，具体包括：首先提取UCL中的关键词集合和重要程度集合，然后在实体库中找到某一关键词对应的实体，最后将UCL连接到知识库中，并根据关键词重要程度得分，赋予边权值。

基于相同的发明构思，本发明所述的一种基于UCL的可定制交互式视频制作装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的基于UCL的可定制交互式视频制作方法。

有益效果：与现有技术相比，本发明具体如下优点：

1.本发明利用目标检测模型、视频分段模型、视频语义提取模型以及构建知识库能够实现可定制交互式视频的自动化制作，解决了视频制作者将目标信息手动嵌入到视频中所带来的费时费力的问题，也使得嵌入的信息的时效性大大提高。

2.本发明在检测视频中目标类别时，改进了Faster R-CNN目标检测模型，在经典的Faster R-CNN网络结构的基础上，利用三元损失函数进行相似度计算，能够对视频中出现的目标的细粒度类别进行精准识别。

3.本发明结合UCL能够标引丰富语义特征的特点，对视频的高层的语义特征进行UCL标引后构建UCL知识库，以此不断丰富目标信息的内容，同时提高了目标信息的时效性。

附图说明

图1为本发明实施例的方法流程图。

图2为本发明实施例涉及的基于Faster R-CNN细粒度目标检测模型图。

图3为本发明实施例涉及的视频语义提取模型图。

图4为本发明实施例涉及的UCL知识库的效果图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明实施例公开的基于UCL的可定制交互式视频制作方法，具体实施步骤如下：

步骤1，视频中细粒度目标类别检测。如图2所示，本发明利用Faster R-CNN目标检测模型提取候选框特征图，然后将该特征图输入到各个粗粒度类别的细粒度类别判别模型中，获得候选框特征图的特征向量，通过比较候选框特征图与粗粒度类别图库中各个图片的特征向量欧式距离判断是否为同一物体。该细粒度类别判别模型使用三元损失函数进行训练，能实现对目标类别的细粒度检测，具体实施过程分为5个子步骤：

子步骤1.1，图像是视频基本的组成部分，视频中的目标检测可由视频中的每帧图像进行目标检测来完成。本发明利用由JPRGImages图像集预先训练好的Faster R-CNN目标检测模型。由于在可定制交互式视频中进行目标检测需要知道每帧图像中出现的目标的详细类别及其位置信息，因而本发明对ROI池化层后面的网络结构进行改进，得到帧图像的候选框特征图集M＝{m₁,m₂,m₃,...,m_n}后，一方面将M通过全连接层和候选框回归层获取每个候选框的位置偏移量bbox_pred，用于得到更加精确的目标检测框集合l＝{l₁,l₂,l₃,...,l_n}。另一方面通过后续步骤得到更加细粒度的目标类别。

子步骤1.2，ROI池化层将候选框，进行最大池化处理，这样处理后，即使大小不一样的候选框，输出的特征矩阵都一样，实现了固定长度的输出。

子步骤1-3，为了能识别出每个候选框图像的细粒度类别，本发明为每个粗粒度类别都设计了一个粗粒度类别的细粒度类别判别模型，这些模型的结构相同，参数不共享。

对这些细粒度类别判别模型利用公式(1)的损失函数进行训练，此损失函数时利用相同物体的特征向量的欧式距离，总是小于不同物体的特征向量的欧式距离这一先验知识来训练网络的。

其中，N是样本中三元组<a,p,n>的总数，a表示参考样本图片，p表示正例样本图片，它与a同类但不是同一个；n表示反例样本图片，它与a属于不同类别；a_k表示训练集中第k个三元组中参考样本图片，f(a_k)表示以a_k作为输入，细粒度的类别判别模型的输出特征向量；p_k表示训练集中第k个三元组中正例样本图片，f(p_k)表示以p_k作为输入，细粒度的类别判别模型的输出特征向量；n_k表示训练集中第k个三元组样本中反例样本图片，f(n_k)表示以n_k作为输入，细粒度的类别判别模型的输出特征向量；超参数由交叉验证得出。

子步骤1.4，将每个候选框特征图(后面统称为候选框图像)作为候选框图像送入各个细粒度类别判别模型中进行细粒度类别判定，具体实施过程分为4个子步骤：

子步骤1.4.1，假设在利用第i个粗粒度类别CC_i的细粒度类别判别模型CCM_i，判别候选框图像j时，要j输入到由ImageNet图像集预训练好的VGG16模型中，把该模型的最后一个池化层的输出为j的候选框特征图fm_j。为了能够训练出的模型更加有效，本发明将候选框特征图fm_j送入由n个神经元组成的全连接层(本例中由128个神经元组成)，获得j的n维的特征向量f_j。

子步骤1.4.2，对步骤1.4.1所得n维特征向量f_j，利用公式(2)进行归一化，将n维特征向量映射到一个超球面上，便于算法的优化，加速模型学习的过程。获得候选框的归一化特征向量out。

其中，x_k为特征向量的第k维特征，n为特征向量的维度，y_k表示归一化后的特征向量的第k维特征。

子步骤1.4.3，遍历粗粒度类别CC_i图库中的图片，对于图库中第m张图片img_m，其粗粒度类别CC_i的细粒度类别判别模型输出为out_m，类别为categories_m。通过公式(3)，计算候选框图像与粗粒度类别CC_i图库中图片img_m的特征向量欧式距离。

其中，out(k)表示候选框图像的特征向量out的第k维特征，表示图片img_m的特征向量out_m的第k维特征，n为特征向量的维度。

子步骤1.4.4，按照公式(4)，将粗粒度类别CC_i图库中各个图片的CCM_i模型输出与候选框图像的CCM_i模型输出一一比较并计算欧式距离distance(out，out_m)，得到两图片的相似程度标志similarity_tag(out，out_m)。

其中，out表示候选框图像的CCM_i模型输出，out_m表示粗粒度类别CC_i图库中图片img_m的CCM_i模型输出，τ₁与τ₂为模型的超参，由交叉验证得出。

对于图片来说，如果两张图片越相似，空间距离越小；差别越大，则空间距离越大。故本发明提出一种策略，取图库中与候选框图像的欧氏距离最短的图片imgs，当imgs与候选框图像的相似程度标志为1表示两张图片的相似度很高，属于同一细粒度类别，imgs的细粒度类别就是候选框图像的最终类别；当imgs与候选框图像的相似程度标志为0表示两张图片的相似度较，属于同一粗粒度类别，imgs的粗粒度类别就是候选框图像的最终类别；当两张图片的相似程度标志为-1表示两张图片的相似度较低，属于不同类别，利用其他细粒度类别判别模型判别候选框图像的细粒度类别；若比较结束后仍无类别输出，则无此类别。

步骤2，对视频按照场景进行分段。视频中的场景包含多组镜头，而每个镜头对应多个视频帧，帧之间图像的变化反映出镜头内目标的动作变化，若只提取镜头内个别帧，将导致部分高层语义信息的丢失。因此，本发明首先对视频中每一帧进行提取其视觉特征，然后利用均值漂移聚类算法对视频中的每一帧进行聚类。最后根据聚类结果，将整个视频划分为各个视频段。具体实施过程分为4个子步骤：

子步骤2.1，对视频中的每一帧，利用CNN提取帧图像特征，得到视频帧特征序列Frames＝{f₁，f₂，...，f_m}。本发明使用Google公司研究出来的深度网络结构GoogLeNet作为特征提取的模型，在此模型中最后一个FC输出的特征最为抽象，故可以将此FC输出的特征作为视频中每帧图像的CNN特征。

子步骤2.2，在视频帧特征序列中任意选择未分类的视频帧特征，作为特征空间中初始搜索圆O的圆心，其半径为带宽h。根据公式(5)计算圆心O中采样点的均值m_h(f)。

其中，f为中心点；f_i为带宽范围内的点；n为带宽范围内的点的数量；g(f)为对核函数的导数求负。本文在均值漂移中引入核函数，使得距离中心的点具有更大的权值，让圆心沿着密度增加的方向移动。

子步骤2.3，计算圆心与均值m_h(f)之差，它表示均值漂移向量M_h(f),如果||M_h(f)||＜ε，代表已经收敛，迭代结束，存储圆心和采样点并执行子步骤2.2。否则将均值m_h(f)赋值给圆心，并利用公式(5)重新计算均值m_h(f)后并执行子步骤2.3。

子步骤2.4，每个圆内的视频帧序列应属于同一场景，但由于一个视频中每个场景，可能出现多次。故本发明对圆内的帧序列按帧时间进行排序，对不连续的帧序列，划分到不同视频段中。

步骤3，将由步骤2分段后的视频，提取出该视频的自然语言描述，作为其高层语义信息。如图3所示，为了提取该信息，本发明改进了S2VT模型(Venugopalan S,Rohrbach M,Donahue J,et al.Sequence to sequence-video to text[C].Proceedings of the IEEEinternational conference on computer vision.2015:4534-4542.)，提出了一种基于LSTM的视频语义提取模型，首先将视频段的多种特征进行融合后作为Encode的输入，然后将目标特征与隐藏单元进行二次融合送入Decode中。最后输出视频的自然语言描述。具体实施过程分为6个子步骤：

子步骤3.1，视觉特征提取。本发明使用GoogLeNet模型提取视频段中每帧图像的视觉特征。将该模型的最后一个FC的输出向量作为视觉特征向量。本发明也可以使用其他模型提取图像帧的视觉特征。

子步骤3.2，音频特征提取。对于视频段而言，视频中目标发出的声音或者背景描述可以辅助视频的自然语言描述的提取。本发明将视频段中的背景音乐去除，利用pyAudioAnalysis音频分析开源工具进行音频的特征抽取，将音频信号拆分成时长为公式(6)的短期的片段，然后计算每个片段的特征。本发明也可使用其他音频分析开源工具提取音频特征。

其中，t_i表示第i个视频段的音频信号拆分的时长t_i，time(i)表示第i个视频片段的时长，frame(i)表示第i个视频片段的帧数。

子步骤3.3，光学流图像特征提取。光学流图像作为LSTM的输入有助于提高视频中目标行为分类的精度。本发明利用NVIDIA flownet2.pytorch代码块生成光流图片，再将光流图片利用GoogLeNet模型提取出光流图像特征。

子步骤3.4，目标特征提取。对视频的低层语义特征的提取，如图像特征、音频特征，更关注提取视频的全局特征，以获得视频的全局信息。这样将导致丢失视频的局部信息。例如对“马云在发表演讲”这段视频的描述的抽取，只会抽取出“一个人在说话”这样的描述。故，本发明对局部特征进行抽取作为全局特征的补充，使得自然语言描述更加，详细且生动。首先利用步骤1获得每帧的目标集合其中n为第i帧目标集合中目标的数量。根据公式(7)为每帧图片生成候选词集合/>将每个候选词利用Word2Vec模型表征为词向量，整个候选词集映射为如公式(8)所示的词向量矩阵V，作为视频语义提取算法的输入。

其中，m为候选词集合Cⁱ中元素的数量，表示第i帧图像中第j个目标框的大小。OrderBy函数表示将/>按从大到小顺序排列，Select函数表示在排序后的序列中选择前m个目标框对应的目标类别。

其中，V为候选词集的词向量矩阵，V(i,j)为候选词集中第i个词的第j个特征向量。

子步骤3.5，特征融合。将子步骤3.1、子步骤3.2、子步骤3.3提取的第i帧的视觉特征image_i、音频特征audio_i、光学流图像特征optics_i横向拼接得到F_i，如公式(9)所示。

F_i＝(image_i,audio_i,optics_i) (9)

子步骤3.6，目标特征提取。如图3所示，将F_i作为Encode中第i个LSTM单元的输入，将该单元的隐藏层作为语义向量C(i)。为了充分利用视频的局部特征，以产生更好的描述效果，将语义向量C(i)与目标特征作二次融合，作为Decode的输入，生成视频段的自然语言描述。

步骤4，视频语义UCL标引及UCL知识库构建。为了可定制交互式视频应用对视频中出现的目标的详细信息能够进行自动检索，需要构建UCL知识库，首先需要对视频进行UCL标引，首先对视频进行分段后提取各段的语义信息，利用语义信息获得视频的关键词。最后利用UCL国家标准《统一内容标签格式规范》(GB/T 35304.2017)对视频进行UCL语义标引。具体实施过程分为4个子步骤：

子步骤4.1，利用步骤2和步骤3，提取视频的所有自然语言描述集合Sentences＝{s₁,s₂,…,s_m}，其中m表示视频段的数量。然后利用TextRank算法，提取每段语句的关键词，构成关键词集合W＝{w₁,w₂,w₃,…,w_n}。

子步骤4.2，利用公式(10)计算视频中每个关键词的重要程度，构成集合G＝{g₁,g₂,g₃,…,g_n}。计算G中得分较高的num个关键词，作为UCL关键词集合。

其中，I为指示函数，s_j为视频中第j个视频段的自然语言描述，w_i为视频的第i个关键词，m表示视频段个数，n表示关键词个数。

子步骤4.3，将视频的关键词集合及对应的重要程度集合、自然语言描述集、视频标题、视频的作者、视频的创作时间通过UCL打包程序封装成UCL，作为知识库的语料信息。具体的视频UCL标引格式见表1。

表1视频UCL标引内容描述表

子步骤4.4，基础UCL知识库构建，如图4所示，本发明首先利用scrapy网络爬虫框架，爬取百度百科和维基百科的数据源，将数据源的类别标签作为实体所属的类别，信息框可以作为实体属性和实体关系的来源，摘要主要是实体的文本信息；接着将视频制作者希望展示的信息作为实体的额外信息(实现了可定制交互式视频的内容可定制)，并利用Neo4j图数据库构建基础数据库；然后提取UCL中的关键词集合W＝{w₁,w₂,w₃,…,w_n}，在实体库中找到关键词w_i对应的实体，将UCL连接到知识库中；最后根据关键词重要程度得分，赋予边权值。

基于上述可定制交互视频制作方法可搭建可定制交互视频应用平台。首先利用步骤1，检测出视频中每一帧图像中出现目标的细粒度类别(视频制作者可根据希望检测的目标类别，训练模型，实现可定制交互式视频的类别可定制)；然后根据细粒度类别，从步骤4.1搭建的UCL知识库中检索出实体节点，并将该实体节点的文本信息和额外信息作为目标详细类别的信息，之后利用OpenCV将信息添加到对应的视频帧中，并为目标区域添加鼠标点击事件(用户通过点击感兴趣目标的区域，获得目标的信息，实现了用户与视频的交互)；最后利用步骤2和步骤3，提取视频的视频段及其自然语言描述并生成视频UCL标引添加到UCL知识库中。

综上，本发明首先在经典的Faster R-CNN目标检测网络模型的基础上，利用三元损失函数对其改进，从而达到对目标(人和物)细粒度类别进行精准识别的效果；然后对视频进行分段并采用基于LSTM的视频语义提取模型提取各段视频的语义信息；最后利用UCL能够标引丰富语义特征的特点，对视频进行UCL标引并构建UCL知识库，以便能获取目标的详细信息。本发明既能实现可定制交互式视频的自动化制作，同时也能保证嵌入视频中的信息的时效性和灵活性，并且支持可定制交互式视频应用对视频中出现的目标的详细信息进行自动检索、语义关联和按需定制等。

基于相同的发明构思，本发明实施例公开的一种基于UCL的可定制交互式视频制作装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述基于UCL的可定制交互式视频制作方法。

Claims

1.一种基于UCL的可定制交互式视频制作方法，其特征在于，包括如下步骤：

(3)对步骤(2)得到的视频段进行特征提取，提取的视频段特征包括视觉特征、光学流图像特征、音频特征和目标特征；将提取到的特征编码成向量序列后通过基于LSTM的语义提取模型生成视频的自然语言描述；

(4)由步骤(3)所提取的视频中所有视频段的自然语言描述，利用TextRank算法获得整个视频的关键词集合和对应的关键词重要程度集合，然后将视频的关键词集合及对应的重要程度集合、自然语言描述集、视频标题、视频的作者和视频的创作时间封装成UCL，作为知识库的语料信息；

(5)利用知识库存储视频UCL和UCL之间的关系；所述知识库以实体库为基础，将视频UCL连接在实体库中的实体节点上，并基于UCL中的关键词与实体的匹配程度，计算UCL与实体之间的关联权重；

所述步骤(1)中利用基于Faster R-CNN的细粒度目标检测模型检测视频中出现的目标的细粒度类别，包括如下步骤：

(1.2)使用三元损失函数训练各个细粒度类别判别模型，将每个候选框特征图作为候选框图像送入各个细粒度类别判别模型中进行细粒度类别判定；

所述步骤(1.2)中利用细粒度类别判别模型识别候选框细粒度类别包括如下步骤：

(1.2.3)遍历粗粒度类别CC_i图库中图库中的图片，对于图库中第m张图片img_m，其粗粒度类别CC_i的细粒度类别判别模型输出为out_m，类别为categories_m；计算候选框图像j与粗粒度类别CC_i图库中图片img_m的特征向量欧式距离distance(out,out_m)；

(1.2.4)按照如下公式得到两张图片的相似程度标志similarity_tage(out,out_m)；

其中，τ₁与τ₂为模型的超参，由交叉验证得出；取图库中与候选框图像的欧氏距离最短的图片img_s，当img_s与候选框图像的相似程度标志为1表示两张图片的相似度很高，属于同一细粒度类别，img_s的细粒度类别就是候选框图像的最终类别；当img_s与候选框图像的相似程度标志为0表示两张图片的相似度较高，属于同一粗粒度类别，img_s的粗粒度类别就是候选框图像的最终类别；当img_s与候选框图像的相似度标志为-1表示两张图片的相似度较低，属于不同类别，继续利用其他细粒度类别判别模型判别候选框图像的细粒度类别，若比较结束后仍无类别输出，则无此类别；

所述步骤(1.2)利用如下公式作为损失函数训练各个粗粒度类别的细粒度类别判别模型；

2.根据权利要求1所述的基于UCL的可定制交互式视频制作方法，其特征在于，所述步骤(3)中，视觉特征通过GoogLeNet模型提取，将该模型的最后一个FC的输出向量作为视觉特征向量；光学流图像特征是先生成光流图片，再将光流图片利用GoogLeNet模型提取出光流图像特征得到的；音频特征的提取方法是，先将视频段中的背景音乐去除，然后通过如下公式计算第i个视频段的音频信号拆分的时长t_i，最后将音频信号拆分成时长为t_i的片段，并计算每个片段的特征作为音频特征；

其中，t_i表示第i个视频段的音频信号拆分的时长，time(i)表示第i个视频片段的时长，frame(i)表示第i个视频片段的帧数。

3.根据权利要求1所述的基于UCL的可定制交互式视频制作方法，其特征在于，所述步骤(3)中目标特征的提取方法是，首先利用步骤(1)获得每帧的目标集合，根据如下公式为每帧图片生成候选词集合将每个候选词利用Word2Vec模型表征为词向量，整个候选词集映射为词向量矩阵；

4.根据权利要求1所述的基于UCL的可定制交互式视频制作方法，其特征在于，所述步骤(3)中通过基于LSTM的语义提取模型生成视频的自然语言描述，具体包括，首先将提取的第i帧的视觉特征image_i、音频特征audio_i、光学流图像特征optics_i拼接得到F_i，然后将F_i作为Encode中第i个LSTM单元的输入，将该单元的隐藏层作为语义向量；最后将语义向量与目标特征作二次融合，作为Decode的输入，生成视频段的自然语言描述。

5.根据权利要求1所述的基于UCL的可定制交互式视频制作方法，其特征在于，所述步骤(4)中视频中关键词的重要程度通过如下公式计算：

其中，I为指示函数，g_i表示视频中第i个关键词的重要程度，s_j为视频中第j个视频段的自然语言描述，w_i为视频的第i个关键词；m表示视频段个数，n表示关键词个数。

6.根据权利要求1所述的基于UCL的可定制交互式视频制作方法，其特征在于，所述步骤(5)中将视频UCL连接在实体库中的实体节点上，具体包括：首先提取UCL中的关键词集合和重要程度集合，然后在实体库中找到与某一关键词对应的实体，最后将UCL连接到知识库中，并根据关键词重要程度得分，赋予边权值。

7.一种基于UCL的可定制交互式视频制作装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-6任一项所述的基于UCL的可定制交互式视频制作方法。