CN112911338A

CN112911338A - 一种基于编码解码网络的交通场景描述方法及系统

Info

Publication number: CN112911338A
Application number: CN202110119577.4A
Authority: CN
Inventors: 常发亮; 张潇; 刘春生; 李爽
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-06-04
Anticipated expiration: 2041-01-28
Also published as: CN112911338B

Abstract

本公开提供了一种基于编码解码网络的交通场景描述方法及系统，获取交通场景的视频帧图像数据；对获取的视频帧图像数据进行场景分割，得到去除交通背景后的图像数据；将得到的图像数据输入到预设模型中，得到用于交通场景描述的视频字幕；其中，预设模型以编码解码器为框架，训练时：分别将解码后的结果与掩盖了当前和过去时间步长的GroundTruth输入到两个长短期记忆网络中，将输出结果与注意力机制得到的特征进行线性变换，输入到与解码器相同的长短期记忆网络得到引导的描述；本公开在模型训练阶段提出了一个引导模块，以鼓励编码器‑解码器结构在翻译中生成与过去和未来单词相关的单词，提高了视频内容描述的准确度。

Description

一种基于编码解码网络的交通场景描述方法及系统

技术领域

本公开涉及视频图像处理技术领域，特别涉及一种基于编码解码网络的交通场景描述方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术，并不必然构成现有技术。

从驾驶员的角度描述一个交通场景是一项富有挑战性和回报性的任务。由于交通参与者数量众多，使得计算机难以捕获关键信息。以往的交通场景理解工作主要集中在交通场景理解的子任务上，必须通过后续处理来完成交通场景理解。

视频字幕被广泛关注，它根据视频内容提供自然的语言描述。视频字幕的开发可应用于后续的视频检索或摘要生成，帮助视障人士了解现实，它也可以应用在交通领域，以帮助智能驾驶的发展。视频字幕既涉及计算机视觉，又涉及语言处理，由于内容的丰富，用自然语言描述视频具有极大的挑战性。

发明人发现，现有的编码-解码器框架在视频字幕任务中表现良好，但存在着不足，教师强制策略通常用于训练编解码器模型，使每个词的预测概率接近于0-1分布，导致网络忽略上下文词，这一弱点影响了翻译中句子的一致性，不利于视频内容的描述。

发明内容

为了解决现有技术的不足，本公开提供了一种基于编码解码网络的交通场景描述方法及系统，在模型训练阶段提出了一个引导模块，以鼓励编码器-解码器结构在翻译中生成与过去和未来单词相关的单词，提高了视频内容描述的准确度。

为了实现上述目的，本公开采用如下技术方案：

本公开第一方面所述的一种基于编码解码网络的交通场景描述方法。

一种基于编码解码网络的交通场景描述方法，包括以下步骤：

获取交通场景的视频帧图像数据；

对获取的视频帧图像数据进行场景分割，得到去除交通背景后的图像数据；

将得到的图像数据输入到预设模型中，得到用于交通场景描述的视频字幕；

其中，预设模型以编码解码器为框架，训练时：分别将解码后的结果与掩盖了当前和过去时间步长的GroundTruth输入到两个长短期记忆网络(Long-short Term Memory，LSTM)中，将输出结果与注意力机制得到的特征进行线性变换，输入到与解码器相同的长短期记忆网络引导编码解码器生成更好的描述。

本公开第二方面提供了一种基于编码解码网络的交通场景描述系统。

一种基于编码解码网络的交通场景描述系统，包括：

数据获取模块，被配置为：获取交通场景的视频帧图像数据；

图像分割模块，被配置为：对获取的视频帧图像数据进行场景分割，得到去除交通背景后的图像数据；

场景描述模块，被配置为：将得到的图像数据输入到预设模型中，得到用于交通场景描述的视频字幕；

其中，预设模型以编码解码器为框架，训练时：分别将解码后的结果与掩盖了当前和过去时间步长的GroundTruth输入到两个长短期记忆网络中，将输出结果与注意力机制得到的特征进行线性变换，输入到与解码器相同的长短期记忆网络引导编码解码器生成更好的描述。

本公开第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开第一方面所述的基于编码解码网络的交通场景描述方法中的步骤。

本公开第四方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开第一方面所述的基于编码解码网络的交通场景描述方法中的步骤。

与现有技术相比，本公开的有益效果是：

1、本公开所述的方法、系统、介质或电子设备，在模型训练阶段提出了一个引导模块，以鼓励编码器-解码器结构在翻译中生成与过去和未来单词相关的单词，提高了视频内容描述的准确度，提高了编码器-解码器的性能。

2、本公开所述的方法、系统、介质或电子设备，在编码器和解码器之间使用了注意力机制，使网络更加注意参与交通事件发生的交通参与者而忽视正常驾驶的交通参与者，可以在每个时间步中通过权重提取每帧特征的一部分，从而形成新的适合的特征，进一步的提高了视频内容描述的准确度。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例1提供的基于编码解码网络的交通场景描述方法的流程示意图。

图2为本公开实施例1提供的引导结构示意图。

图3为本公开实施例1提供的视频字幕示例的可视化结果示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例1：

本公开实施例1提供了一种基于编码解码网络的交通场景描述方法，对输入特征和软注意模块得到的特征进行归一化处理，可以提高网络对视频字幕任务的性能；在训练阶段提出了一个引导模块，以鼓励编码器-解码器结构在翻译中生成与过去和未来单词相关的单词，而在评估阶段删除该引导模块。该架构的灵感来自于句子中单词之间通常存在重要的语义连接这一事实。

为了验证本实施例提出的方法的有效性，以具有软注意模块的长短时记忆网络为基准，在其上加入归一化和引导模块，实验结果表明，本实施例提出的网络在性能上优于基准网络。

具体的，包括以下内容：

为了应用端到端的方法完成交通场景的理解任务，从DiDi、DADA等数据集和自己的记录交通视频中选取了400个交通事件视频片段，为每个视频标注7个描述，使用本实施例提出的网络描述流程见图1。

S1：通过场景分割网络提取交通参与者

本实施例的数据集包含各种交通场景，这会对网络抓住重点交通参与者产生影响。为了去除背景的影响，将网络的焦点集中在交通参与者上，采用场景分割方法去除交通背景。为了更好地建模，本实施例使用了可以检测分割车辆、行人、骑行工具等目标的MaskRCNN，保留交通参与者，去除无关的背景。

S2：编码器

本实施例使用编码解码器作为场景描述的框架。为了从视频中提取到有用的视觉特征，采用深度网络InceptionV4提取视频的高层语义特征，向InceptionV4提供帧来获得表示视频V的特征，取固定数量的帧{v₁,v₂,...,v_m}训练编码解码器，其中m为固定数。

S3：解码器

用于处理序列到序列问题的解码器通常是一种循环神经网络(Recurrent NeuralNetwork,RNN)，长短期记忆网络在处理类似问题方面得到了广泛的应用。与传统RNN相比，长短期记忆网络的优点在于它可以记住并利用所有的前信息来预测下一步，而不是仅仅依赖邻近的前信息来预测下一步。通过将编码器的视频特征输入解码器来生成视频的描述。长短期记忆网络网络可以通过一种叫做门的结构来删除或添加信息到单元的状态中，门可以选择性地决定允许哪些信息通过。一个长短期记忆网络包含三个门来控制单元的状态，它们被称为遗忘门、输入门和输出门。

表示长短期记忆网络工作的数学表达式如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

C_t＝f_t*C_t-1+i_t*[tanh(W_C·[h_t-1,x_t]+b_C)]

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

其中，i,o,f,C,h分别表示模块的输入门、输出门、遗忘门、单元和隐藏层五个模块，都是用三维的张量表示。

在编码器和解码器之间使用了注意力机制，目的是使网络更加注意参与交通事件发生的交通参与者而忽视正常驾驶的交通参与者，因为通常交通事件只是由几个交通参与者发生。注意机制可以在每个时间步中通过权重提取每帧特征的一部分，从而形成新的适合的特征。

注意力的数学表达式如下：

e_tj＝g(S_t-1,h_j)

其中，c是注意力模块的输出，a是注意力模块的权重，g由一个小的神经网络近似。

S4：引导模块

为了将过去和未来单词在描述中结合起来，在每个时间步长中，分别将解码后的结果和掩盖了当前和过去时间步长的GroundTruth输入到两个长短期记忆网络中；

将输出结果与注意力模块得到的特征进行线性变换，输入到与解码器相同的长短期记忆网络，所提出的编码-解码-引导体系结构可以以端到端的方式进行训练。

在这样的引导过程中，解码器被鼓励在每一个时间步生成一个与上下文相关的单词，这有望提高视频字幕的性能。在实践中，引导模块绘制的分布会产生额外的损耗来引导由编码解码框架绘制的分布。

在验证阶段，提出的引导模块网络省去了引导模块，只使用编码器-解码器框架进行推理，引导模块如图2所示。

在时间步i中，考虑解码后的单词{y₁,...,y_i-1}作为标题的过去词。在教师的强制策略下，模型将向前推进到GroundTruth，

在这个时间步骤之后，考虑

作为标题的未来词。

为了获得过去和未来字幕的表示，使用两个相同的长短期记忆网络作为编码器，并将两个编码器的输出融合在一起。假设过去编码器输出的隐藏状态矩阵为A_p，未来编码器输出的隐藏状态矩阵为A_f，将两者融合为：

A_e＝RD(W_pA_p)+RD(W_fA_f)

其中，A_e是融合后的向量，W_p和W_f是线性变换矩阵，RD表示将一个二维矩阵沿着一维求和，为了使当前时间步长生成的单词反映相应源视频的含义，将融合的输出A_e和注意力模块的输出A_att进行简单的融合，得到一个最终的特征向量A_F：

A_F＝Norm(Norm(A_e)+Norm(A_att))

其中，Norm为层归一化，最后，使用长短期记忆网络作为引导模块的解码器，对上一步得到的最终特征进行解码，生成引导字幕。

对原始解码结果和引导结果进行了联合训练。具体来说，对于原解码模块，采用交叉熵损失为：

引导模块也通过交叉熵损失进行优化，如下所示:

联合两个损失一起训练本实施例所述的描述网络：

L_all＝L+L_e

S5：实验验证

实验基于pytorch框架实现，在ubuntu16.04系统下运行，硬件环境为TITAN RTX显卡。综合该方法所提出的交通场景描述网络结构及其各个模块，整体方法包括如下步骤：

步骤1：通过场景分割网络提取交通参与者：

使用场景分割网络Mask RCNN去除无关的交通背景，只保留交通参与者。

步骤2：

基于训练数据集，训练提出的交通场景描述网络：

1)随机初始化网络参数；

2)计算网络的前向输出结果；

3)根据输入真实值与网络输出间的差值，进行迭代训练。

如图3所示，展示了交通数据集上的一些视频字幕示例的可视化结果。

实施例2：

本公开实施例2提供了一种基于编码解码网络的交通场景描述系统，包括：

其中，预设模型以编码解码器为框架，训练时：分别将解码后的结果与掩盖了当前和过去时间步长的GroundTruth输入到两个长短期记忆网络中，将输出结果与注意力机制得到的特征进行线性变换，输入到与解码器相同的长短期记忆网络得到引导的描述。

所述系统的工作方法与实施例1提供的基于编码解码网络的交通场景描述方法相同，这里不再赘述。

实施例3：

本公开实施例3提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开实施例1所述的基于编码解码网络的交通场景描述方法中的步骤。

实施例4：

本公开实施例4提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例1所述的基于编码解码网络的交通场景描述方法中的步骤。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于编码解码网络的交通场景描述方法，其特征在于：包括以下步骤：

获取交通场景的视频帧图像数据；

2.如权利要求1所述的基于编码解码网络的交通场景描述方法，其特征在于：

采用Mask RCNN网络去除交通背景，检测分割后的交通参与者。

3.如权利要求1所述的基于编码解码网络的交通场景描述方法，其特征在于：

采用深度网络InceptionV4提取视频图像数据的高层语义特征，向InceptionV4提供帧来获得表示视频的特征，取固定数量的帧训练编码解码器。

4.如权利要求1所述的基于编码解码网络的交通场景描述方法，其特征在于：

解码器采用长短期记忆网络，通过将编码器的视频特征输入解码器来生成视频字幕。

5.如权利要求1所述的基于编码解码网络的交通场景描述方法，其特征在于：

在编码器和解码器之间设置注意力机制，在每个时间步中通过权重提取每帧特征的一部分，形成新的特征。

6.如权利要求1所述的基于编码解码网络的交通场景描述方法，其特征在于：

预设模型训练完成后，去除引导模块，采用训练好的编码解码器进行视频字幕的生成。

7.如权利要求1所述的基于编码解码网络的交通场景描述方法，其特征在于：

解码器利用引导模块被鼓励在每一个时间步生成一个与上下文相关的单词。

8.一种基于编码解码网络的交通场景描述系统，其特征在于：包括：

9.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的基于编码解码网络的交通场景描述方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于编码解码网络的交通场景描述方法中的步骤。