CN113191263B

CN113191263B - 一种视频描述方法及装置

Info

Publication number: CN113191263B
Application number: CN202110476064.9A
Authority: CN
Inventors: 蔡晓东; 王湘晴
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2022-05-13
Anticipated expiration: 2041-04-29
Also published as: CN113191263A

Abstract

本发明提供一种视频描述方法及装置，方法包括：导入待测视频，对所述待测视频进行时序语义特征分割，得到多个镜头数据；通过预设视频描述模型分别对各个所述镜头数据进行转换分析，得到与各个所述镜头数据对应的镜头描述信息；对多个所述镜头描述信息进行语句融合分析，得到视频描述信息。本发明能够确保了视频里信息的不丢失，且不会产生镜头语义冗余，能对每个镜头都进行描述，有助于提高在线视频的索引和搜索质量，并提高了视频检索的效率和精确性，拥有了更强的鲁棒性，且有可能使视力受损者受益。

Description

一种视频描述方法及装置

技术领域

本发明主要涉及视频处理技术领域，具体涉及一种视频描述方法及装置。

背景技术

视频描述任务对计算机视觉和机器学习研究提出了重要的挑战，它有多种实际应用，例如，每分钟有100个小时的视频上传到YouTube。然而，如果一个视频标记不当，它的效用就会大大降低。现有技术对视频进行描述的方法是间断地提取一些帧来进行描述，这样的方法会丢失掉一些信息，使得描述不准确，对视频的检索也就不能准确。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种视频描述方法及装置。

本发明解决上述技术问题的技术方案如下：一种视频描述方法，包括如下步骤：

导入待测视频，对所述待测视频进行时序语义特征分割，得到多个镜头数据；

通过预设视频描述模型分别对各个所述镜头数据进行转换分析，得到与各个所述镜头数据对应的镜头描述信息；

对多个所述镜头描述信息进行语句融合分析，得到视频描述信息。

本发明解决上述技术问题的另一技术方案如下：一种视频描述装置，包括：

特征分割模块，用于导入待测视频，对所述待测视频进行时序语义特征分割，得到多个镜头数据；

转换分析模块，用于通过预设视频描述模型分别对各个所述镜头数据进行转换分析，得到与各个所述镜头数据对应的镜头描述信息；

视频描述信息获得模块，用于对多个所述镜头描述信息进行语句融合分析，得到视频描述信息。

本发明的有益效果是：通过对待测视频的时序语义特征分割得到多个镜头数据，通过预设视频描述模型分别对各个镜头数据的转换分析得到与各个镜头数据对应的镜头描述信息，能够确保了视频里信息的不丢失，且不会产生镜头语义冗余，能对每个镜头都进行描述，有助于提高在线视频的索引和搜索质量，对多个镜头描述信息的语句融合分析得到视频描述信息，提高了视频检索的效率和精确性，拥有了更强的鲁棒性，且有可能使视力受损者受益。

附图说明

图1为本发明实施例提供的视频描述方法的流程示意图；

图2为本发明实施例提供的视频描述方法的示意图；

图3为本发明实施例提供的视频描述装置的模块框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的视频描述方法的流程示意图。

如图1和2所示，一种视频描述方法，包括如下步骤：

应理解地，所述时序语义特征分割通俗来说叫镜头分割。

应理解地，所述预设视频描述模型可以为LSTM网络。

具体地，如图2所示，选取一段视频(即所述待测视频)，将此视频进行时序语义特征分割；分割完成后，将分割出来的所述镜头数据的特征分别输入到预设视频描述模型中，计算该模型输出内容与分割出来的每个所述镜头数据的预设标准描述之间的损失，更新迭代，最终生成对每个镜头的所述镜头描述信息；把对每个镜头的所述镜头描述信息输入到预设语句融合模型中，计算该模型输出内容与视频标准描述之间的损失，更新迭代，最终生成对这一整个视频的完整描述(即所述视频描述信息)。

上述实施例中，通过对待测视频的时序语义特征分割得到多个镜头数据，通过预设视频描述模型分别对各个镜头数据的转换分析得到与各个镜头数据对应的镜头描述信息，能够确保了视频里信息的不丢失，且不会产生镜头语义冗余，能对每个镜头都进行描述，有助于提高在线视频的索引和搜索质量，对多个镜头描述信息的语句融合分析得到视频描述信息，提高了视频检索的效率和精确性，拥有了更强的鲁棒性，且有可能使视力受损者受益。

可选地，作为本发明的一个实施例，所述对所述待测视频进行时序语义特征分割，得到多个镜头数据的过程包括：

利用PyCharm工具对所述待测视频进行帧提取，得到多个视频帧图像，多个所述视频帧图像按照视频帧时间顺序排列；

分别对各个所述视频帧图像进行特征提取，得到与所述视频帧图像对应的特征向量；

将两两相邻的所述特征向量划分为一组，并对每组的两个所述特征向量进行相似度计算，得到与各个所述特征向量对应的特征相似度；

对所有的所述特征相似度进行相似度分析，得到多个待处理镜头数据；

分别对各个所述待处理镜头数据进行去噪处理，得到与所述待处理镜头数据对应的镜头数据。

应理解地，所述PyCharm工具是一种Python IDE，带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具，比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制，此外，该IDE提供了一些高级功能，以用于支持Django框架下的专业Web开发。

具体地，定义一个视频序列(即所述待测视频)为V＝{i1,i2,…,in}，n表示视频帧数，定义特征提取函数为H(x)，对所述待测视频中每一帧所述视频帧图像进行特征提取，获得特征向量集F＝{f₁,f₂,…,f_n}(即多个所述特征向量)，其中f_m＝H(i_m)，所述特征向量集F中主要包含的是语义成分中的主语成分，将这些所述特征向量有序排列，它们之间的时序特征便构成了语义成分的谓语成分。

上述实施例中，对待测视频的时序语义特征分割得到多个镜头数据，能够确保了视频里信息的不丢失，且不会产生镜头语义冗余，能对每个镜头都进行描述，有助于提高在线视频的索引和搜索质量。

可选地，作为本发明的一个实施例，所述对每组的两个所述特征向量进行相似度计算，得到与各个所述特征向量对应的特征相似度的过程包括：

通过第一式对每组的两个所述特征向量进行相似度计算，得到与各个所述特征向量对应的特征相似度，所述第一式为：

s_n＝cos(f_n,f_n+1)，

其中，f_n为第n个特征向量，f_n+1为与f_n相邻的特征向量，s_n为特征相似度。

具体地，计算时间维度中相邻特征的相似度：

s_n＝cos(f_n,f_n+1)，

定义S＝{s₁,s₂,…,s_n-1}为所有特征的相似度集合(即多个所述特征相似度)。

上述实施例中，通过第一式对每组的两个特征向量的相似度计算得到与各个特征向量对应的特征相似度，能够确保了视频里信息的不丢失，且不会产生镜头语义冗余，能对每个镜头都进行描述，有助于提高在线视频的索引和搜索质量。

可选地，作为本发明的一个实施例，所述对所有的所述特征相似度进行相似度分析，得到多个待处理镜头数据的过程包括：

通过第二式计算所有的所述特征相似度的时序分割序列，得到时序分割序列，所述第二式为：

B＝{b₀,b₁,b₂,…,b_n-1}，

其中，

其中，B为时序分割序列，b₀、b₁、b₂……b_n-1均为时序分割标志，n为特征相似度的个数，b₀为1，s_n为第n个特征相似度，T₁为预设特征相似度阈值；

将b₀作为首个分割点，并将所述时序分割序列B中首个分割点之后的各所述时序分割标志依次与预设时序分割标志进行比对，将比对一致的时序分割标志作为分割点，将所述分割点与前一分割点之间的时序分割标志所对应的所有特征向量作为同一个待处理镜头数据，从而依次分割得到多个待处理镜头数据。

优选地，所述预设时序分割值可以为1。

应理解地，当首次分割时，前一分割点为首个分割点，即1。

具体地，当相邻的所述特征相似度小于T₁时，意味着其语义特征极有可能发生改变，T₁的大小与选定的特征提取函数F相关，分割序列设置为1表示该位置的特征将作为语义分割后的新序列的首位特征。最后，将分割结果用集合P表示：

P＝{{f₁,f₂,…,f_u-1},{f_u,f_u+1,…,f_v-1},…,{f_w,f_w+1,…,f_n}}，

集合P中包含的子集数量是视频中不同语义片段的数量(即所述待处理镜头数据的数量)，子集中的序列是所述特征向量集F对应的索引值。

上述实施例中，对所有的特征相似度的相似度分析得到多个待处理镜头数据，能够确保了视频里信息的不丢失，且不会产生镜头语义冗余，能对每个镜头都进行描述，有助于提高在线视频的索引和搜索质量。

可选地，作为本发明的一个实施例，所述分别对各个所述待处理镜头数据进行去噪处理，得到与所述待处理镜头数据对应的镜头数据的过程包括：

通过第三式分别对各个所述待处理镜头数据进行去噪处理，得到与所述待处理镜头数据对应的镜头数据，所述第三式为：

其中，Qi为第i个镜头数据，Pi为第i个待处理镜头数据，card为取待处理镜头数据中元素个数，T2为预设特征占比阈值，n为所有帧的个数。

应理解地，由于人工截取视频时存在误差，导致视频首部和尾部会产生一些碎片化片段，这些片段对整个视频语义而言是一种干扰。为了消除此类干扰，本发明通过计算集合P中的子集与所述特征向量集F的数量比，将比值较小的子集过滤。

上述实施例中，通过第三式分别对各个待处理镜头数据的去噪处理得到与待处理镜头数据对应的镜头数据，消除了碎片化片段的干扰，对无用数据进行过滤，能够确保了视频里信息的不丢失，且不会产生镜头语义冗余，能对每个镜头都进行描述，有助于提高在线视频的索引和搜索质量。

可选地，作为本发明的一个实施例，所述通过预设视频描述模型分别对各个所述镜头数据进行转换分析，得到与各个所述镜头数据对应的镜头描述信息的过程包括：

通过预设视频描述模型分别将各个所述镜头数据转换为与各个所述镜头数据对应的待更新镜头描述信息；

利用交叉熵损失函数算法分别计算各个所述待更新镜头描述信息和与所述待更新镜头描述信息对应的预设标准描述信息的损失值，得到与各个所述镜头数据对应的交叉熵损失；

通过所述预设视频描述模型分别对各个所述交叉熵损失进行参数更新，得到与各个所述镜头数据对应的更新后视频描述模型；

通过所述更新后视频描述模型分别将各个所述镜头数据转换为与各个所述镜头数据对应的镜头描述信息。

具体地，将分割出来的每个所述镜头数据输入所述预设视频描述模型，计算该模型输出内容与分割出来的每个所述待更新镜头描述信息的所述预设标准描述信息之间的损失，更新迭代，最终生成对每个镜头的描述(即所述镜头描述信息)，记为v₁,v₂,…,v_n,其中n是此视频的分割镜头的总数。

上述实施例中，通过预设视频描述模型分别对各个镜头数据的转换分析，得到与各个镜头数据对应的镜头描述信息，为后续处理提供数据基础，能够确保了视频里信息的不丢失，且不会产生镜头语义冗余，能对每个镜头都进行描述，有助于提高在线视频的索引和搜索质量。

可选地，作为本发明的一个实施例，所述对多个所述镜头描述信息进行语句融合分析，得到视频描述信息的过程包括：

S1：对多个所述镜头描述信息进行向量转换处理，得到镜头描述向量；

S2：获取当前时刻，并根据当前时刻LSTM的隐藏状态和所述镜头描述向量计算注意力分布，得到当前时刻注意力分布；

S3：计算所述镜头描述向量和所述当前时刻注意力分布的乘积，得到上下文向量；

S4：将所述上下文向量输入至预设语句融合模型中，通过所述预设语句融合模型进行语句融合处理，得到单词信息和下一时刻LSTM的隐藏状态；

S5：对所述当前时刻进行判断，若所述当前时刻小于预设时刻，则将所述下一时刻LSTM的隐藏状态作为当前时刻LSTM的隐藏状态，并返回步骤S2；若所述当前时刻等于预设时刻时，则根据多个所述单词信息得到视频描述信息。

应理解地，计算所述镜头描述向量和所述当前时刻注意力分布的乘积，得到上下文向量，公式如下：

S_t＝a_tE，

其中，S_t为上下文向量，a_t为t时刻注意力分布，E为镜头描述向量。

具体地，在已知所述上下文向量S_t和所有先前预测的所述单词信息{y₁,y₂,…,y_t-1}的情况下预测下一个所述单词信息y_t,即解码器通过将联合概率分解成有序条件来得到下一个所述单词信息y_t的概率，公式为：

P(y_t|{y₁,y₂,…,y_t-1},E)＝softmax(W_yS_t+b_y)，

得到此视频的预测输出Y＝{y₁,y₂,…,y_t}(即所述视频描述信息),和视频的标签进行交叉熵损失的运算，将得到的损失传回LSTM模型(即所述预设语句融合模型)重新学习。

上述实施例中，对多个镜头描述信息的语句融合分析得到视频描述信息，提高了视频检索的效率和精确性，拥有了更强的鲁棒性，且有可能使视力受损者受益。

可选地，作为本发明的一个实施例，所述步骤S1的过程包括：

通过第四式对多个所述镜头描述信息进行向量转换处理，得到镜头描述向量，所述第四式为：

E＝f(W[v₁；v₂；…；v_n]+b)，

其中，E为镜头描述向量，f为非线性函数，W为权重向量，b为偏置，v_n为第n个镜头描述信息。

应理解地，将所有镜头的所述镜头描述信息嵌入为一个向量(即所述镜头描述向量)。

上述实施例中，通过第四式对多个镜头描述信息的向量转换处理得到镜头描述向量，为后续处理提供基础数据，提高了视频检索的效率和精确性，拥有了更强的鲁棒性，且有可能使视力受损者受益。

可选地，作为本发明的一个实施例，所述步骤S2中，根据当前时刻LSTM的隐藏状态和所述镜头描述向量计算注意力分布，得到当前时刻注意力分布的过程包括：

通过第五式对所述当前时刻LSTM的隐藏状态和所述镜头描述向量进行注意力分布的计算，得到当前时刻注意力分布，所述第五式为：

a_t∝exp(h_tW_aE)，

其中，a_t为t时刻注意力分布，h_t为当前时刻LSTM的隐藏状态，W_a为可学习的参数，E为镜头描述向量。

应理解地，将得到的所述镜头描述向量作为所述预设语句融合模型的输入，在此模型中加入注意力机制。

上述实施例中，通过第五式对当前时刻LSTM的隐藏状态和镜头描述向量的注意力分布计算得到当前时刻注意力分布，为后续处理提供基础数据，提高了视频检索的效率和精确性，拥有了更强的鲁棒性，且有可能使视力受损者受益。

图3为本发明实施例提供的视频描述装置的模块框图。

可选地，作为本发明的另一个实施例，如图3所示，一种视频描述装置，包括：

可选地，本发明的另一个实施例提供一种视频描述装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，当所述处理器执行所述计算机程序时，实现如上所述的视频描述方法。该装置可为计算机等装置。

可选地，本发明的另一个实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的视频描述方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频描述方法，其特征在于，包括如下步骤：

对多个所述镜头描述信息进行语句融合分析，得到视频描述信息；

所述通过预设视频描述模型分别对各个所述镜头数据进行转换分析，得到与各个所述镜头数据对应的镜头描述信息的过程包括：

通过所述更新后视频描述模型分别将各个所述镜头数据转换为与各个所述镜头数据对应的镜头描述信息；

所述对多个所述镜头描述信息进行语句融合分析，得到视频描述信息的过程包括：

2.根据权利要求1所述的视频描述方法，其特征在于，所述对所述待测视频进行时序语义特征分割，得到多个镜头数据的过程包括：

3.根据权利要求2所述的视频描述方法，其特征在于，所述对每组的两个所述特征向量进行相似度计算，得到与各个所述特征向量对应的特征相似度的过程包括：

s_n＝cos(f_n,f_n+1)，

4.根据权利要求2所述的视频描述方法，其特征在于，所述对所有的所述特征相似度进行相似度分析，得到多个待处理镜头数据的过程包括：

B＝{b₀,b₁,b₂,…,b_n-1}，

其中，

5.根据权利要求4所述的视频描述方法，其特征在于，所述分别对各个所述待处理镜头数据进行去噪处理，得到与所述待处理镜头数据对应的镜头数据的过程包括：

其中，Qi为第i个镜头数据，Pi为第i个待处理镜头数据，card为取待处理镜头数据中元素个数，T2为预设特征占比阈值，n1为所有帧的个数。

6.根据权利要求1所述的视频描述方法，其特征在于，所述步骤S1的过程包括：

E＝f(W[v₁；v₂；…；v_n]+b)，

7.根据权利要求1所述的视频描述方法，其特征在于，所述步骤S2中，根据当前时刻LSTM的隐藏状态和所述镜头描述向量计算注意力分布，得到当前时刻注意力分布的过程包括：

a_t∝exp(h_tW_aE)，

8.一种视频描述装置，其特征在于，包括：

视频描述信息获得模块，用于对多个所述镜头描述信息进行语句融合分析，得到视频描述信息；

所述转换分析模块具体用于：

所述视频描述信息获得模块具体用于：

对多个所述镜头描述信息进行向量转换处理，得到镜头描述向量；

获取当前时刻，并根据当前时刻LSTM的隐藏状态和所述镜头描述向量计算注意力分布，得到当前时刻注意力分布；

计算所述镜头描述向量和所述当前时刻注意力分布的乘积，得到上下文向量；

将所述上下文向量输入至预设语句融合模型中，通过所述预设语句融合模型进行语句融合处理，得到单词信息和下一时刻LSTM的隐藏状态；

对所述当前时刻进行判断，若所述当前时刻小于预设时刻，则将所述下一时刻LSTM的隐藏状态作为当前时刻LSTM的隐藏状态，并再次根据当前时刻LSTM的隐藏状态和所述镜头描述向量计算注意力分布；若所述当前时刻等于预设时刻时，则根据多个所述单词信息得到视频描述信息。