CN113033439B

CN113033439B - 用于数据处理的方法、装置和电子设备

Info

Publication number: CN113033439B
Application number: CN202110348761.6A
Authority: CN
Inventors: 鞠波; 杨威; 叶晓青; 谭啸; 孙昊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2023-10-20
Anticipated expiration: 2041-03-31
Also published as: CN113033439A

Abstract

本公开公开了用于数据处理的方法和装置，涉及人工智能领域，尤其涉及计算机视觉、自动驾驶和深度学习领域。根据一种实施例的具体实现方案为：获取感测数据的第一帧序列以及第二帧序列，第一帧序列和第二帧序列至均包括多个重合帧；基于第一帧序列和第二帧序列，确定第一输出帧序列和第二输出帧序列，第一输出帧序列指示与第一帧序列相关的第一特征信息、并且第二输出帧序列指示与第二帧序列相关的第二特征信息；以及基于第一输出帧序列和第二输出帧序列，利用多个权重参数来确定第三输出帧序列，第三输出帧序列指示与多个重合帧相关的第三特征信息。以此方式，所得的输出能够有效表示感测数据的多个帧序列的时间上下文信息。

Description

用于数据处理的方法、装置和电子设备

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉技术、自动驾驶和深度学习领域，并且更具地，涉及用于数据处理的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

深度学习技术在计算机视觉领域具有广泛的应用。例如，用于计算机视觉技术的图像处理模型通常可以从单帧数据(例如，RGB图像数据)中，提取所需的特征信息，以用于后续诸如对象分类、检测和跟踪等诸多任务，促进了诸如自动驾驶等技术的发展。然而，从单帧数据所提取的特征信息有限，例如，其不能表示在时间维度上的特征信息。

发明内容

本公开提供了一种用于数据处理的方法、装置、设备、存储介质以及计算机程序。

根据本公开的第一方面，提供了一种用于数据处理的方法，该方法包括：获取感测数据的第一帧序列以及第二帧序列，第一帧序列和第二帧序列均包括多个重合帧；基于第一帧序列和第二帧序列，根确定第一输出帧序列和第二输出帧序列，第一输出帧序列指示与第一帧序列相关的第一特征信息、并且第二输出帧序列指示与第二帧序列相关的第二特征信息；以及基于第一输出帧序列和第二输出帧序列，利用多个权重参数来确定第三输出帧序列，第三输出帧序列指示与多个重合帧相关的第三特征信息。

根据本公开的第二方面，提供了一种用于数据处理的装置，该装置包括数据获取模块，被配置为获取感测数据的第一帧序列以及第二帧序列，第一帧序列和第二帧序列至少包括多个重合帧。该装置还包括数据处理模块，被配置为基于第一帧序列和第二帧序列，确定第一输出帧序列和第二输出帧序列，第一输出帧序列指示与第一帧序列相关的第一特征信息、并且第二输出帧序列指示与第二帧序列相关的第二特征信息。该装置还包括输出确定模块，被配置为基于第一输出帧序列和第二输出帧序列，利用多个权重参数来确定第三输出帧序列，第三输出帧序列指示与多个重合帧相关的第三特征信息。

根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，该存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开的第一方面所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据本公开的第一方面所述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时，实现根据本公开的第一方面所述的方法。

根据本公开的方案所得的输出能够有效表示感测数据的多个帧序列的时间上下文信息。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案，不构成对本公开的限定。在附图中，相同或相似的附图标注表示相同或相似的元素，其中：

图1是示出了本公开的多个实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的一些实施例的用于数据处理的方法的流程图；

图3示出了根据本公开的一些实施例的用于数据处理的方法的示意图；

图4示出了根据本公开的一些实施例的用于数据处理的方法的示意图；

图5示出了根据本公开的一些实施例的用于数据处理的装置的示意框图；以及

图6示出了能够实施本公开的多个实施例的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如上所讨论的，在理解包括在时间维度的上下文信息的诸如数据流时，传统方案无法有效地提取处这样的上下文信息。在一些方案中，可以将多个单帧图像中所提取的特征信息，送入到用于提取时序特征的网络模型中，以对上下文信息进行提取，然而这种方案需要训练附加的用于提取时序特征的模型。在一些方案中，可以使用诸如3D CNN(卷积神经网络)进行三维卷积，以在多帧图像中提取出可以包括上下文信息的特征信息，然而采用由多帧图像构成的单个帧序列进行特征信息提取可能导致特征信息地遗失，其性能有待改进。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题，本公开的实施例提出了一种基于具有重合的感测数据帧的多个感测数据帧序列，来提取包括时间上下文信息的特征信息的技术方案。在该方案中，根据相同的图像处理模型，与输入的多个感测数据帧序列的重合部分相对应的多组输出帧可以被确定，多组输出帧分别用于表示与在不同的多个感测数据帧序列中的该重合部分相关联的特征信息。该多组输出帧然后可以进行加权以进行融合，经融合的一组输出帧能够表示由不同的输出帧的特征信息融合后的融合特征信息。

以此方式，所得的输出能够有效表示感测数据的多个帧序列的时间上下文信息，因而能够促进后续的诸如对象分类、检测、跟踪的任务的准确性和稳健性。

图1是示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。如图1所示，环境100可以包括感测设备110和计算设备120。在一些实施例中，感测设备110和计算设备120可以被安装在交通工具上、或者在其外部与交通工具进行通信。在一些实施例中，交通工具可以是配备一定自动驾驶能力的交通工具，其中自动驾驶能力可以包括但不限于辅助驾驶能力、半自动驾驶能力、高度自动驾驶能力或者完全自动驾驶能力。应当理解，仅出于示例性的目的，而以自主驾驶的交通工具为例来描述环境100中的架构和功能，而不暗示对本公开的范围的任何限制。本公开的实施例还可以被应用到具有不同的结构和/或功能的利用计算机视觉技术的各种环境中，例如，(诸如机器人的)路径规划设备、监控设备、目标检测和跟踪设备、姿势识别设备等。

感测设备110可以被配置为检测交通工具在其中操作的环境和/或该环境中的任何对象。感测设备110可以包括以下一项或多项：诸如毫米波雷达的雷达、摄像机、激光雷达(LIDAR)、声呐传感器。取决于感测设备110的类型，感测设备110可以被配置为按照预定的时间间隔，捕获以数据流形式的各种感测数据105，包括但不限于：RGB图像数据、雷达数据、二维或三维点云数据、声呐数据等。在一些实施例中，感测数据105可以经处理，以获取多个帧序列(例如，第一帧序列115-1和第二帧序列115-2)。在一些实施例中，感测数据105的每个帧序列包括具有预定通道数目的多个数据帧，数据帧例如可以是图像数据帧、或以其他方式能够被处理成图像数据帧。例如，在感测设备110是毫米波雷达的情况下，感测数据105的帧序列中的每帧可以指代通过对一帧雷达回波数据进行处理所获得的一帧雷达回波图。在一些实施例中，第一帧序列和第二帧序列中所所包括的帧数目可以相同。第一帧序列所包括的多个帧与第二帧序列所包括的多个帧部分相同，即二者均包括多个重合帧(例如，相同的多个帧)、以及附加地，互不相同的其他一个或多个帧。换言之，第一帧序列和第二帧序列可以具有重合部分，该重合部分包括在多个相同时刻处分别捕获的多个重合帧。

毫米波雷达是指工作频段在毫米波频段的雷达，测距原理跟一般雷达类似，向目标对象发射探测信号(无线电波)，然后接收回波，根据收发之间的时间差测得与目标对象相关信息，诸如目标距离、距离变化率(径向速度)、方位、高度等信息。可以理解的是，上述各种参数的任意一项或多项可以被组合以形成各种类型的雷达回波图。例如，雷达回波图可以指示目标距离与方位之间的关系。

激光雷达是指以发射激光束探测目标对象的位置和/或速度等特征量的雷达装置，其工作原理是向目标对象发射探测信号(激光束)，然后将接收到的从目标对象反射回来的信号(回波)与发射信号进行比较，作适当处理后，就可获得目标对象的相关信息，例如目标距离、方位、高度、速度、姿态、甚至形状等参数中的一个或多个。

在一些实施例中，感测设备110还可以包括用于确定交通工具的诸如定位、速度、加速度等各种信息的各种传感器，包括但不限于：加速度计、罗盘传感器、轮速度传感器、转向角传感器、IMU(惯性传感器)、卫星定位系统(GNSS)。卫星定位系统包括但不限于全球定位系统(GPS)，伽利略卫星定位系统，北斗卫星定位系统等，均可与本公开的实施例结合使用。可以理解的是，上述每种感测设备的数目均可以为多个。

计算设备120可以是任何具有计算能力的设备。作为非限制性示例，计算设备120可以是任意类型的固定计算设备、移动计算设备或便携式计算设备，包括但不限于台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、多媒体计算机、移动电话等；计算设备120的全部组件或一部分组件可以分布在云端。计算设备120至少包含处理器、存储器以及其他通常存在于通用计算机中的组件，以便实现计算、存储、通信、控制等功能。

计算设备120中可以包括各种预先训练好的图像处理模型130。在本公开的实施例的描述中，术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联，从而在训练完成后基于训练得到的参数集对给定的输入进行处理以生成对应的输出。“模型”有时也可以被称为“神经网络”、“学习模型”、“学习网络”或“网络”。这些术语在本文中可互换地使用。在一些实施例中，模型也可以指代将不同的模型组合而形成组合模型。

备选地，在一些实施例中，可以选取合适的初始模型进行训练以获取上述图像处理模型130。初始模型包括但不限于支持向量机(SVM)模型，贝叶斯模型，随机森林模型，各种深度学习/神经网络模型，诸如卷积神经网络(CNN，例如三维的CNN)、循环神经网络(RNN)等。可以理解的是，模型训练所使用的计算设备可以不一定是由计算设备120来执行，换言之，模型训练可以由其他计算设备来执行。在一些实施例中，图像处理模型130可以被实现为编解码器网络模型，其被配置为从输入的帧序列中，提取包括时间上下文信息在内的特征信息。在一些实施例中，编解码器网络模型可以包括编码器网络和解码器网络，其可以包括以下一项或多项的组合：一个或多个卷积层、一个或多个池化层、一个或多个反卷积层、以及一个或多个隐藏层。

在训练过程中，可以将感测数据的多个样本帧序列输入到待训练模型中，以获取对应的多个输出帧序列。与多个输出帧序列相关联的处理结果可以与对应于相应的样本帧序列的真值进行比较(例如，可以采取损失函数的形式)，以对模型的参数进行更新。在一些实施例中，可以对感测数据的多个样本帧序列进行数据增强操作，包括但不限于：对样本帧序列中的帧进行翻转、裁剪、缩放、旋转、增加噪声、仿射变换、颜色扰动等。在一些实施例中，还可以将样本帧序列在时间上按相反的顺序排列，来获取逆序的增强样本帧序列，并将两种样本输入到待训练模型中进行训练。将理解的是，原始的正序样本帧序列的真值也需要相应地反转，以与逆序的增强样本帧序列相关联。在一些实施例中，正序的原始样本帧序列与逆序增强样本帧序列的数目可以相同或大致相同，以使得经训练的模型对各种类型的数据均具有较好的处理能力。以此方式，能够增强训练样本的多样性，使得经训练的模型在对于输入的数据帧序列具有良好的泛化性能的同时，准确性得以改进。

经训练的模型可以被部署在计算设备120处、或以其他方式而可由计算设备120访问和使用。计算设备120可以被配置为基于输入的帧序列根据模型130来进行处理，以获取对应的输出帧序列。例如，根据模型130，可以对第一帧序列115-1进行处理以获取第一输出帧序列125-1，并且对第二帧序列115-2进行处理以获取第二输出帧序列125-2。在一些实施例中，每个输出帧序列包括具有预定通道数目的多个输出数据帧，输出数据帧可以指示输入的数据帧中的特征信息，其可以采取置信度图数据帧、热力图数据帧或以其他合适的形式。例如，在感测设备110是毫米波雷达的情况下，感测数据105的输出帧序列中的每帧可以指代对一帧雷达回波图进行处理所获得的一帧置信度图。在一些实施例中，第一帧序列与第一输出帧序列中的帧数目可以相同，并且第二帧序列与第二输出帧序列中的帧数目可以相同。

计算设备120还可以包括处理模块140，处理模块140被配置为对多个输出帧序列执行处理，以获得对应的处理结果145。在一些实施例中，处理模块140可以包括融合模块，处理可以包括融合处理，并且处理结果145是经融合的输出帧序列。融合处理可以针对特定时刻所捕获的特定数据帧，将多个不同的帧序列中与该特定数据帧相对应的输出帧、以及多个不同的帧序列中与该输出帧相邻的一个或多个另外的输出帧所包括的特征信息进行组合(例如，通过加权)，以在处理结果145中与该特定数据帧相对应的输出帧处融合上述不同的特征信息。附加地或备选地，还可以包括与目标对象检测、分类、跟踪有关的模块，以获取对应的检测结果、分类结果和跟踪结果等。

下文将结合图2至图4详细描述根据本公开实施例的方法。为了便于理解，在下文描述中提及的具体数据均是示例性的，并不用于限定本公开的保护范围。为了便于描述，以下结合图1所示的示例性环境100来描述根据本公开实施例的方法。根据本公开实施例的方法可以分别在图1中示出的计算设备120或其他适当的设备中实现。应当理解，根据本公开实施例的方法还可以包括未示出的附加动作和/或可以省略所示出的动作，本公开的范围在此方面不受限制。

图2示出了根据本公开的一些实施例的用于数据处理的方法200的流程图。如图2所示，在202，计算设备120可以获取感测数据的第一帧序列第二帧序列。第一帧序列所包括的多个帧与第二帧序列所包括的多个帧部分相同，即二者均包括多个重合帧(例如，相同的多个帧)，以及附加地，互不相同的其他一个或多个帧。换言之，第一帧序列和第二帧序列可以具有重合部分，该重合部分包括在多个相同时刻处分别捕获的多个重合帧。感测数据可以由感测设备110实时或近乎实时地捕获，并且可以由计算设备120实时或近乎实时地处理。在一些实施例中，感测数据可以包括以下至少一项：雷达回波图数据(例如，通过雷达而获取)、视频数据(例如，通过摄像机而获取)、声呐数据(例如，通过声呐而获取)以及点云数据(例如，通过激光雷达而获取)。为了便于说明，下面参考图3来进行详细描述。图3示出了根据本公开的一些实施例的用于数据处理的方法300的示意图。

如图3所示，感测数据305可以包括按预定时间间隔所捕获的单个帧的序列，帧的序列中所包括的多个帧在时间上是连续的。在一些实施例中，从感测数据305可以利用滑动窗口来获取帧序列可以使用滑动窗口来进行。具体地，可以基于设置参数利用滑动窗口来获取第一帧序列315-1和第二帧序列315-2。设置参数与滑动窗口相关，并且包括滑动窗口所包括的帧数目(即滑动窗口的尺寸)、以及滑动窗口每次滑动所移动的帧数目(即滑动步长)。设置参数可以根据需要而预先设定。基于合适的设置参数，所获取的第一帧序列315-1和第二帧序列315-2可以均包括多个重合帧(在本文中，有时也被称为重合部分317)。将理解的是，其他能够从感测数据中提取帧序列的方式也同样适用，并且帧序列中所包括的帧的数目也可以是不同的。在图3所示出的示例中，滑动窗口的尺寸设置为5，并且滑动步长设置为2，因而重合部分312将包括3个帧，但将理解的是，其他参数值同样适用，只要使得滑动步长小于滑动窗口尺寸即可。将理解的是，还可以获取更多数目个帧序列，该更多数目个帧序列均包括上述多个重合帧。通过使用滑动窗口能够简便地获取包括重合部分的两个或更多个相同尺寸的帧序列，以促进后续的处理。

回到参考图2，在204，计算设备120可以基于第一帧序列和第二帧序列，确定第一输出帧序列和第二输出帧序列。继续参考图3来进行说明，如图3所示，第一帧序列315-1可以被输入到图像处理模型330中，以确定对应的第一输出帧序列325-1。与上述过程同步地或异步地，第二帧序列325-2将可以被输入到相同的图像处理模型330中，以确定对应的第二输出帧序列325-2。第一输出帧序列325-1指示与第一帧序列相关的第一特征信息、并且第二输出帧序列325-2指示与第二帧序列相关的第二特征信息。由于对于在时间上对应于不完全相同时段的数据，图像处理模型430所能够提取的特征信息，特别是时间上下文信息可能不相同，因此，以此方式能够获得更为全面的特征信息。在一些实施例中，图像处理模型包括如上文参考图1描述过的编解码器网络模型。在一些实施例中，图像处理模型430可以通过基于(例如。经增强的)训练样本集进行训练而预先确定。可以理解的是，采用上述模型进行处理仅为本公开的一些实施例，其他能够对图像中的特征进行提取的方法(诸如，SIFT(尺度不变特征变换)、SUFT(加速稳健特征))也同样适用。

在一些实施例中，第一输出帧序列325-1可以包括与第一帧序列中的目标对象相关的第一置信度图序列，并且第二输出帧序列325-2包括与第二帧序列中的目标对象相关的第二置信度图序列。置信度图可以表示帧序列中的(多个)特定区域包括(多个)特定目标对象的可能性。在一些实施例中，在感测数据305是雷达回波图数据的情况下，图像处理模型330的输出可以采取置信度图的形式。在一些实施例中，第一帧序列与第一输出帧序列中的帧数目可以相同，并且第二帧序列与第二输出帧序列中的帧数目可以相同。由于重合部分317的存在，第一输出帧序列325-1中的第一输出帧子序列327-1、以及第二输出帧序列325-2中的第二输出帧子序列327-2将均对应于重合部分317中的相同的多个重合帧。在一些实施例中，输入的帧序列的数目与输出的输出帧序列的数目可以是一一对应的。

将理解的是，由于输入的帧序列所包括的帧并不完全相同，因此，第一输出帧序列325-1和第二输出帧序列325-2所包括的输出帧也将不同。在一些实施例中，至少由于不同帧序列中所包括的不同的时间上下文信息，第一输出帧序列325-1和第二输出帧序列325-2与重合部分317中的相同帧相对应的相同输出帧也可以不同，换言之，第一输出帧子序列327-1中的帧与第二输出帧子序列327-2的对应帧可以不同，因此包括不同的特征信息。

回到参考图2，在206，计算设备120可以基于第一输出帧序列和第二输出帧序列，利用多个权重参数来确定第三输出帧序列，第三输出帧序列指示与多个重合帧相关的第三特征信息。在一些实施例中，第三输出帧序列所采取的形式与第一和第二输出帧序列的形式相同。在一些实施例中，第三输出帧序列包括与多个重合帧中的目标对象相关的第三置信度图序列。继续参考图3来进行说明，如图3所示，计算设备120可以利用融合模块340来确定第三输出帧序列345。融合模块140可以被配置为获取多个权重参数，并且基于所获取的多个权重参数对第一输出帧序列325-1和第二输出帧序列325-2进行加权处理。在一些实施例中，融合模块140可以被配置仅对第一输出帧子序列327-1和第二输出帧子序列327-2进行加权处理。

在一些实施例中，多个权重参数可以采取三维卷积核的形式，三维卷积核包括与多个权重参数相对应的多个子核，并且被配置为使得与重合部分中的多个重合帧中的目标帧相对应的权重大于与该多个重合帧中的除目标帧之外的其他帧相对应的权重。在一些实施例中，目标帧可以是重合部分中的多个重合帧中的中间帧，而其他帧可以是与该中间帧在时间上前后相邻的一个或多个帧。在一些实施例中，用于融合的三维卷积核可以利用高斯分布而预先生成，并且被存储在存储设备中，以供后续重复使用，从而减少获取多个权重参数所需要的计算开销。在一些实施例中，三维卷积核的尺寸可以采取K×K×K，其中K是重合部分317中所包括的帧的数目。在图3的示例中，K为3。以此方式，能够方便地对多个数据帧进行加权操作，使其能够满足目标帧的权重较其他帧更大。需注意的是，采取三维卷积核仅是一些实施例，其他能够对帧序列中的多个重合帧进行加权处理，以使得经融合的特征信息中，目标帧的特征信息所占的权重较大的方式也同样适用，例如，通过先验经验而确定的权重参数矩阵等。

在一些实施例中，用于融合的三维卷积核可以通过重要性采样方法来获取。例如，可以获取在三维空间中的在三个维度上均符合高斯分布的随机点集合。然后，可以确定该三维空间中与位于一子核所指示的空间中的随机点子集，并确定随机点子集随机点的第一数目。基于该第一数目和随机点的总数目，可以获取与该子核相对应的值。例如，可以通过将第一数目除以总数目，以获取与该子核相对应的值。以类似的方式，可以获取与三维卷积核中的所有子核相对应的多个值。将理解的是，该多个值之和为1。

计算设备120可以基于第一输出帧序列325-1中与相同的多个重合帧相对应的第一输出帧子序列327-1，利用三维卷积核来确定第三输出帧子序列，第三输出帧子序列指示第一输出帧序列中的与该多个重合帧相关的融合特征信息。与上述过程同步地或异步地，计算设备120可以基于第二输出帧序列中325-2与相同的多个重合帧相对应的第二输出帧子序列327-1，利用三维卷积核来确定第四输出帧子序列，第四输出帧子序列指示第二输出帧序列3中的与多个重合帧相关的融合特征信息。

第三和第四输出帧子序列可以通过采取三维卷积的方式来确定。以融合模块340利用三维卷积核对第三输出帧子序列327-1进行处理为例来进行说明。第三输出帧子序列327-1中所包括的多个输出帧可以堆叠在一起，以形成三维的输出帧阵列，该三个维度可以分别被标识为h、w、t，其中h指代输出帧的高度参数，w指代输出帧的宽度参数，t指代在时间上连续的多个帧、即时间维度。利用三维卷积核可以对该输出帧阵列进行三维卷积处理。具体地，可以在三维的阵列的所有三个方向上移动，以与三维卷积核进行运算，获取对应的输出数值。在一些实施例中，为了使得所得的第三输出帧序列所包括的帧与重合部分317中所包括的帧的对应性。可以采用零填充(zero padding)对输出帧阵列进行处理，以保持上述对应性。

基于所确定的第三输出帧子序列和第四输出帧子序列，计算设备可以确定第三输出帧序列。例如，对于第三输出帧子序列和第四输出帧子序列中相对应的两帧(即，对应于在相同时刻的帧)，其所包括的每个像素点的值可以基于公式y＝(x1*k+x2*k)/2来计算，其中y表示两帧融合后的像素点的值，x1表示于第三输出帧子序列中的相应帧的像素点的值，并且x2表示于第四输出帧子序列中的相应帧的像素点的值，k表示针对该像素点的权重。在一些实施例中，k针对不同的像素点可以取值相同或不同。在一些实施例中，k针对与相对应的两帧中的不同帧也可以取值相同或不同。

以此方式，能够将不同帧序列中所包括的在时间上的特征信息有效融合在一起，以获取包括较为全面且准确的特征信息的处理结果用于后续的处理。将理解的是，虽然本文以两个帧序列作为输入来进行说明，但本方案的构思同样适用于多于两个帧序列作为输入的情况，其中这些帧序列具有重合部分。

在一些实施例中，基于第三输出帧序列可以执行目标对象检测、分类和跟踪中的至少一项，以改进这些任务的准确性。例如，基于第三输出帧序列，可以确定在自主驾驶交通工具周围与诸如其他交通工具的对象有关的信息，以用于确定自主驾驶的参数。

图4示出了根据本公开的一些实施例的用于数据处理的方法400的示意图。方法400与参考图2和图3所描述的方法200和300具有相同或相似的步骤，因此参考图2和图3所描述的实施例同样适用，并且在此简化对其的描述。以下将重点描述方法400与方法200和300的不同之处。

计算设备120可以从感测数据405获取第一帧序列415-1，并且可以从感测数据405获取第三帧序列415-3。第三帧序列415-1与第一帧序列415-3均包括相同的多个重合帧(在此，重合部分417)。具体地，第一帧序列415-1所包括的多个帧与第三帧序列415-3所包括的多个帧部分相同，即二者均包括多个重合帧(例如，相同的多个帧)，以及附加地，互不相同的其他一个或多个帧。换言之，第一帧序列和第三帧序列可以具有重合部分，该重合部分包括在多个相同时刻处分别捕获的多个重合帧。计算设备然后可以将第三帧序列415-3中的帧例如通过反转450操作，而在时间上按相反的顺序排列，以获取第二帧序列。在一些实施例中，如上面所描述的，计算设备可以基于设置参数利用滑动窗口来获取第一帧序列和第三帧序列。其中设置参数与滑动窗口相关，并且包括滑动窗口所包括的帧数目、以及滑动窗口每次滑动所移动的帧数目。

计算设备120可以例如根据图像处理模型430，基于所获取的第一帧序列和第二帧序列来分别获取第一输出帧序列425-1以及第二输出帧序列425-2。由于第二输出帧序列425-2是与在时间上按相反的顺序排列(即，逆序)的第二帧序列相对应，因此其也是在时间上按相反的顺序排列。由于对于在时间上按照不同顺序进行排列的数据，图像处理模型430所能够提取的特征信息，特别是时间上下文信息可能不相同，因此，以此方式能够获得更为全面的特征信息。

在一些实施例中，图像处理模型430可以被实现为参考图1描述过的编解码器网络模型。在一些实施例中，图像处理模型430可以通过以下操作而预先确定：基于如参考图1所描述的包括经正序排列的原始样本、以及逆序排列的增广样本二者的训练样本集进行训练。例如，可以对感测数据的多个原始样本(以帧序列的形式)进行如下数据增强操作：将原始样本中的所包括的帧在时间上按相反的顺序进行排列，以获取多个经增强的样本，每个经增强的样本中包括逆序(与原始样本的正序顺序相比)的帧序列。在一些实施例中，可以基于一预定概率(例如，50％)而对多个原始样本进行随机筛选，以确定需要进行上述数据增强操作的原始样本。。在一些实施例中，可以使用经上述数据增强操作的样本来代替对应的原始样本以用于训练模型。以此方式可以使得两种样本的数目相同或大致相同，并进而使得经训练的模型对各种类型的数据均具有较好的处理能力。将理解的是，对于经增强的样本，原始样本中与正序帧序列对应的真值也需要相应地反转，以与逆序的帧序列相适应。

基于第一输出帧序列425-1的第一输出帧子序列427-1、以及第二输出帧序列425-2的第二输出帧子序列427-2，计算设备120可以由融合模块440利用三维卷积核来分别确定对应的第三输出帧子序列、以及第四输出帧子序列。第一输出帧子序列427-1和第二输出帧子序列427-2均与重合部分417中相同的多个帧相对应。将理解的是，由于第二输出帧序列425-2中的帧在时间上逆序排列，因此，如图4中所示出的，选取与重合部分417中相同的多个帧相对应的第二输出帧子序列需要将逆序排列的因素考虑在内。

计算设备120可以基于第一输出帧序列(例如，其中的第一输出帧子序列427-1)和第二输出帧序列(例如，其中的第二输出帧子序列427-2)，由融合模块440利用多个权重参数(例如，采取上文所描述的三维卷积核)来确定第三输出帧序列450。在一些实施例中，在由融合模块进行处理之前，可以将第二输出帧子序列427-2中的帧序列中的帧再次按相反的顺序排列，以与待进行融合的第一输出帧子序列427-1中的帧的顺序一致。

以此方式，能够将不同的、且按照不同顺序排列的帧序列中所包括的在时间上的特征信息有效地融合在一起，以获取包括较为全面、且准确的特征信息的处理结果来用于后续的处理。

图5示出了根据本公开的实施例的用于数据处理的装置500的示意框图。如图5所示，该装置500包括数据获取模块502，被配置为获取感测数据的第一帧序列以及第二帧序列，第一帧序列和第二帧序列至少包括多个重合帧。该装置还包括数据处理模块504，被配置为基于第一帧序列和第二帧序列，确定第一输出帧序列和第二输出帧序列，第一输出帧序列指示与第一帧序列相关的第一特征信息、并且第二输出帧序列指示与第二帧序列相关的第二特征信息。该装置还包括输出确定模块506，被配置为基于第一输出帧序列和第二输出帧序列，利用多个权重参数来确定第三输出帧序列，第三输出帧序列指示与多个重合帧相关的第三特征信息。

在一些实施例中，数据获取模块502包括：第一数据获取子模块，被配置为从感测数据获取第一帧序列；第三数据获取子模块，被配置为从感测数据获取第三帧序列，第三帧序列与第一帧序列均包括多个重合帧；以及第二数据获取子模块，被配置为将第三帧序列中的帧在时间上按相反的顺序排列，以获取第二帧序列。

在一些实施例中，数据获取模块502包括：滑动窗口设置子模块，被配置为设置与滑动窗口相关的参数，参数包括滑动窗口所包括的帧数目、以及滑动窗口每次滑动所移动的帧数目；以及滑动窗口子模块，被配置为基于参数利用滑动窗口来获取第一帧序列和第二帧序列。

在一些实施例中，多个权重参数采取三维卷积核的形式，三维卷积核包括与多个权重参数相对应的多个子核，并且被配置为使得与多个重合帧中的目标帧相对应的权重大于与多个重合帧中的除目标帧之外的其他帧相对应的权重，其中三维卷积核利用高斯分布而预先生成。

在一些实施例中，输出确定模块506包括：第一输出确定子模块，被配置为基于第一输出帧序列中与多个重合帧相对应的第一输出帧子序列，利用三维卷积核来确定第三输出帧子序列，第三输出帧子序列指示第一输出帧序列中的与多个重合帧相关的融合特征信息；第二输出确定子模块，被配置为基于第二输出帧序列中与多个重合帧相对应的第二输出帧子序列，利用三维卷积核来确定第四输出帧子序列，第四输出帧子序列指示第二输出帧序列中的与多个重合帧相关的融合特征信息；以及数据融合子模块，被配置为基于第三输出帧子序列和第四输出帧子序列，确定第三输出帧序列。

在一些实施例中，感测数据包括以下至少一项：雷达回波图数据、视频数据、声呐数据以及点云数据。

在一些实施例中，第一输出帧序列包括与第一帧序列中的目标对象相关的第一置信度图序列、第二输出帧序列包括与第二帧序列中的目标对象相关的第二置信度图序列，并且第三输出帧序列包括与多个重合帧中的目标对象相关的第三置信度图序列。

在一些实施例中，该装置500还包括：数据利用模块，被配置为基于第三输出帧序列来执行目标对象检测、分类和跟踪中的至少一项。

在一些实施例中，其中数据处理模块504还被配置为将第一帧序列输入到图像处理模型中，以确定第一输出帧序列；以及将第二帧序列输入到图像处理模型中，以确定第二输出帧序列；其中图像处理模型包括编解码器网络模型。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如方法200、300和400。例如，在一些实施例中，方法200、300和400中的任一个可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的方法200、300和400中的任一个的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200、300和400中的任一个。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种数据处理方法，包括：

获取感测数据的第一帧序列以及第二帧序列，所述第一帧序列和所述第二帧序列均包括多个重合帧；

基于所述第一帧序列和所述第二帧序列确定第一输出帧序列和第二输出帧序列，所述第一输出帧序列指示与所述第一帧序列相关的第一特征信息、并且所述第二输出帧序列指示与所述第二帧序列相关的第二特征信息；以及

基于所述第一输出帧序列和所述第二输出帧序列，利用多个权重参数来确定第三输出帧序列，所述第三输出帧序列指示与所述多个重合帧相关的第三特征信息，其中与所述多个重合帧中的目标帧相对应的权重大于与所述多个重合帧中的除所述目标帧之外的其他帧相对应的权重，并且所述多个权重参数采取三维卷积核的形式；

其中确定所述第三输出帧序列包括：

基于所述第一输出帧序列中与所述多个重合帧相对应的第一输出帧子序列，利用所述三维卷积核来确定第三输出帧子序列，所述第三输出帧子序列指示所述第一输出帧序列中的与所述多个重合帧相关的融合特征信息；

基于所述第二输出帧序列中与所述多个重合帧相对应的第二输出帧子序列，利用所述三维卷积核来确定第四输出帧子序列，所述第四输出帧子序列指示所述第二输出帧序列中的与所述多个重合帧相关的融合特征信息；以及

基于所述第三输出帧子序列和第四输出帧子序列，确定所述第三输出帧序列。

2.根据权利要求1所述的方法，其中获取所述第一帧序列和所述第二帧序列包括：

从所述感测数据获取所述第一帧序列；

从所述感测数据获取第三帧序列，所述第三帧序列与所述第一帧序列均包括所述多个重合帧；以及

将所述第三帧序列中的帧在时间上按相反的顺序排列，以获取所述第二帧序列。

3.根据权利要求1或2所述的方法，其中获取所述第一帧序列和所述第二帧序列包括：

基于设置参数利用滑动窗口来获取所述第一帧序列和所述第二帧序列，所述设置参数与所述滑动窗口相关，并且包括所述滑动窗口所包括的帧数目、以及所述滑动窗口每次滑动所移动的帧数目。

4.根据权利要求1或2所述的方法，其中所述三维卷积核包括与所述多个权重参数相对应的多个子核，并且所述三维卷积核利用高斯分布而预先生成。

5.根据权利要求1或2所述的方法，其中所述感测数据包括以下至少一项：

雷达回波图数据、视频数据、声呐数据以及点云数据。

6.根据权利要求1或2所述的方法，其中所述第一输出帧序列包括与所述第一帧序列中的目标对象相关的第一置信度图序列、所述第二输出帧序列包括与所述第二帧序列中的所述目标对象相关的第二置信度图序列，并且所述第三输出帧序列包括与所述多个重合帧中的所述目标对象相关的第三置信度图序列。

7.根据权利要求1或2的所述的方法，还包括：

基于所述第三输出帧序列来执行目标对象检测、分类和跟踪中的至少一项。

8.根据权利要求1或2所述的方法，其中确定所述第一输出帧序列和所述第二输出帧序列包括：

将所述第一帧序列输入到图像处理模型中，以确定所述第一输出帧序列；以及

将所述第二帧序列输入到所述图像处理模型中，以确定所述第二输出帧序列；

其中所述图像处理模型包括编解码器网络模型。

9.一种用于数据处理的装置，包括：

数据获取模块，被配置为获取感测数据的第一帧序列以及第二帧序列，所述第一帧序列和所述第二帧序列至少包括相同的多个重合帧；

数据处理模块，被配置为基于所述第一帧序列和所述第二帧序列，确定第一输出帧序列和第二输出帧序列，所述第一输出帧序列指示与所述第一帧序列相关的第一特征信息、并且所述第二输出帧序列指示与所述第二帧序列相关的第二特征信息；以及

输出确定模块，被配置为基于所述第一输出帧序列和所述第二输出帧序列，利用多个权重参数来确定第三输出帧序列，所述第三输出帧序列指示与所述多个重合帧相关的第三特征信息，其中与所述多个重合帧中的目标帧相对应的权重大于与所述多个重合帧中的除所述目标帧之外的其他帧相对应的权重，并且所述多个权重参数采取三维卷积核的形式；

其中所述输出确定模块包括：

第一输出确定子模块，被配置为基于所述第一输出帧序列中与所述多个重合帧相对应的第一输出帧子序列，利用所述三维卷积核来确定第三输出帧子序列，所述第三输出帧子序列指示所述第一输出帧序列中的与所述多个重合帧相关的融合特征信息；

第二输出确定子模块，被配置为基于所述第二输出帧序列中与所述多个重合帧相对应的第二输出帧子序列，利用所述三维卷积核来确定第四输出帧子序列，所述第四输出帧子序列指示所述第二输出帧序列中的与所述多个重合帧相关的融合特征信息；以及

数据融合子模块，被配置为基于所述第三输出帧子序列和第四输出帧子序列，确定所述第三输出帧序列。

10.根据权利要求9所述的装置，其中所述数据获取模块包括：

第一数据获取子模块，被配置为从所述感测数据获取所述第一帧序列；

第三数据获取子模块，被配置为从所述感测数据获取第三帧序列，所述第三帧序列与所述第一帧序列均包括所述多个重合帧；以及

第二数据获取子模块，被配置为将所述第三帧序列中的帧在时间上按相反的顺序排列，以获取所述第二帧序列。

11.根据权利要求9或10所述的装置，其中所述数据获取模块包括：

滑动窗口子模块，被配置为基于设置参数利用滑动窗口来获取所述第一帧序列和所述第二帧序列，所述设置参数与所述滑动窗口相关，并且包括所述滑动窗口所包括的帧数目、以及所述滑动窗口每次滑动所移动的帧数目。

12.根据权利要求9或10所述的装置，其中所述三维卷积核包括与所述多个权重参数相对应的多个子核，并且所述三维卷积核利用高斯分布而预先生成。

13.根据权利要求9或10所述的装置，其中所述感测数据包括以下至少一项：

雷达回波图数据、视频数据、声呐数据以及点云数据。

14.根据权利要求9或10所述的装置，其中所述第一输出帧序列包括与所述第一帧序列中的目标对象相关的第一置信度图序列、所述第二输出帧序列包括与所述第二帧序列中的所述目标对象相关的第二置信度图序列，并且所述第三输出帧序列包括与所述多个重合帧中的所述目标对象相关的第三置信度图序列。

15.根据权利要求9或10所述的装置，还包括：

数据利用模块，被配置为基于所述第三输出帧序列来执行目标对象检测、分类和跟踪中的至少一项。

16.根据权利要求9或10所述的装置，其中所述数据处理模块还被配置为：

其中所述图像处理模型包括编解码器网络模型。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-8中任一项所述的方法。