CN117392396B

CN117392396B - 跨模态目标状态的检测方法、设备、智能设备和介质

Info

Publication number: CN117392396B
Application number: CN202311676768.6A
Authority: CN
Inventors: 李传康; 王溯恺; 王云龙; 单为; 姚卯青
Original assignee: Anhui Weilai Zhijia Technology Co Ltd
Current assignee: Anhui Weilai Zhijia Technology Co Ltd
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-03-05
Anticipated expiration: 2043-12-08
Also published as: CN117392396A

Abstract

本申请提供了一种跨模态目标状态的检测方法、设备、智能设备和介质，包括从初始目标检测序列中进行采样，得到采样的目标检测序列，对采样的目标检测序列中当前时帧内当前目标和历史时帧内第一历史目标进行特征提取，得到当前目标的第一特征信息和第一历史目标的历史特征信息；基于第一特征信息和第一历史目标的历史特征信息，得到当前目标的第二特征信息后，输入状态预测网络，得到当前目标的状态信息。这样，使得目标检测和状态预测的分离，无需对网络设置不同的分支，使得网络结构的较为简单，且不会收到上游检测结果的影响，并利用防状态突变的状态预测网络进行状态预测，提高了预测状态的准确性。

Description

跨模态目标状态的检测方法、设备、智能设备和介质

技术领域

本申请涉及目标检测技术领域，具体提供一种跨模态目标状态的检测方法、设备、智能设备和介质。

背景技术

自动驾驶的功能越来越受到大家的认可，而且使用的场景随着传感器和信息技术的进步，用户期待的功能也进一步提升。感知场景里正确跟踪到目标，为下游规划与控制（Planning And Control，PNC）、主动刹车系统（Autonomous Emergency Braking，AEB）等功能模块提供完备而准确的环境信息，有助于提升用户使用的体验。

相关技术中，跨模态目标状态的检测方法大致分为两类：1）基于规则滤波的检测方法；2）基于前融合神经网络的检测方法。

基于规则滤波的检测方法，一般假定物体做匀速或匀加速运动。基于目标在历史时帧的状态量，利用经典物理学运动公式和卡尔曼滤波，对当前时帧的状态量进行预测。然而该方法存在以下缺点：（1）当前时帧的状态量依赖于目标在历史时帧的状态量，易受上游噪声影响，导致有误差累积效应；（2）对于跨模态数据而言，不同模态数据的抖动程度不同，预测结果准确性相对较低。

基于前融合神经网络的检测方法，通常将雷达点云数据、相机图像数据等跨模态数据作为输入数据，分别经过不同分支进行特征提取后，在网络内部融合特征图，最终检测出目标的同时预测出目标的状态。然而该方法存在以下缺点：目标检测和状态预测为整体的模型，且需要针对每种模态数据设置对应的分支，模型复杂。

因此，如何在相对轻量级模型下准确地预测出目标状态，是本领域技术人员亟待解决的技术问题。

发明内容

为了克服上述缺陷，提出了本申请，以提供解决或至少部分地解决预测目标状态的准确性较低、预测目标状态的模型复杂的技术问题的跨模态目标状态的检测方法、设备、智能设备和介质。

在第一方面，本申请提供一种跨模态目标状态的检测方法，该跨模态目标状态的检测方法包括：

从初始目标检测序列中进行采样，得到采样的目标检测序列；所述采样的目标检测序列至少包括第一序列和第二序列；所述第一序列为基于第一模态数据的目标检测结果，以第一采样频率获取的时帧序列；所述第二序列为基于第二模态数据的目标检测结果，以第二采样频率获取的时帧序列；所述采样的目标检测序列包括所述初始目标检测序列中的当前时帧和多个历史时帧；

对每个当前目标和每个第一历史目标进行特征提取，得到所述当前目标的第一特征信息和所述第一历史目标的历史特征信息；其中，所述当前目标为所述当前时帧的内的目标；所述第一历史目标为每个所述历史时帧的内的目标；

基于所述第一特征信息和所述第一历史目标的历史特征信息，得到所述当前目标的第二特征信息；

将所述第二特征信息输入预先训练的状态预测网络，得到所述当前目标的状态信息；

其中，所述状态信息包括速度信息和/或朝向信息；所述状态预测网络基于防状态突变约束条件下进行训练得到。

在第二方面，本申请提供一种跨模态目标状态的检测设备，该基于跨模态数据的目标状态的检测设备包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行上述任一项所述的跨模态目标状态的检测方法。

在第三方面，提供一种智能设备，该智能设备可以包括如上所述的跨模态目标状态的检测设备。

在第四方面，提供一种计算机可读存储介质，该计算机可读存储介质存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行上述任一项所述的跨模态目标状态的检测方法。

本申请上述一个或多个技术方案，至少具有如下一种或多种有益效果：

在实施本申请的技术方案中，从初始目标检测序列中进行采样，得到采样的目标检测序列；对采样的目标检测序列中当前室内每个当前目标和每个历史时帧内每个第一历史目标进行特征提取，得到当前目标的第一特征信息和第一历史目标的历史特征信息；基于当前目标的第一特征信息和第一历史目标的历史特征信息，得到当前目标的第二特征信息；将所述第二特征信息输入预先训练的状态预测网络，得到所述当前目标的状态信息，这样，实现了目标检测和状态预测的分离，使得各个模型轻量化，且将多种模态数据作为一个整体的时序数据输入后续状态预测的网络结构，无需设置不同的分支进行特征提取，降低了网络结构的复杂程度，同时，利用能够防状态突变的状态预测网络进行状态预测，能够在跨模态数据存在抖动较大的模态数据时，准确地预测出当前时帧中当前目标的状态信息。

附图说明

参照附图，本申请的公开内容将变得更易理解。本领域技术人员容易理解的是：这些附图仅仅用于说明的目的，而并非意在对本申请的保护范围组成限制。此外，图中类似的数字用以表示类似的部件，其中：

图1是根据本申请的一个实施例的跨模态目标状态的检测方法的主要步骤流程示意图；

图2是本申请的跨模态目标状态的检测方法的输入数据的示意图；

图3是不同模态数据的目标检测结果对应的初始目标检测序列的示意图；

图4是本申请的检测目标状态的网络结构示意图；

图5是采用本申请的目标状态的检测方法的一种实际场景示意图；

图6是根据本申请的一个实施例的基于跨模态数据的目标状态的检测设备的主要结构框图。

具体实施方式

下面参照附图来描述本申请的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本申请的技术原理，并非旨在限制本申请的保护范围。

在本申请的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

自动驾驶系统(Automated Driving Systems，ADS)，其是指系统在自身的设计运行范围(Operational Domain Design，ODD)内将持续执行全部的动态驾驶任务(DynamicDriving Task，DDT)。即，在规定的适当驾驶场景条件下才允许机器系统全部承担车辆自动操控的任务，即车辆满足ODD条件时系统被激活，该系统代替人类驾驶员作为车辆的驾驶主体。其中，动态驾驶任务DDT是指对车辆进行持续的横向(左、右转向)和纵向运动控制(加速，减速，匀速)以及对车辆行驶环境中的目标和事件进行探测和响应。设计运行范围ODD是指自动驾驶系统可以安全运行的条件，其设置的条件可以包括地理位置、道路类型、速度范围、天气、时间、国家和地方性交通法律法规等。

在ADS的感知场景里正确预测出目标的状态，为下游PNC、AEB等功能模块提供完备而准确的环境信息，有助于提升用户使用的体验。因此，为了能够准确地的对目标的状态进行预测，本申请提供了以下技术方案：

参阅附图1，图1是根据本申请的一个实施例的跨模态目标状态的检测方法的主要步骤流程示意图。如图1所示，本申请实施例中的跨模态目标状态的检测方法主要包括下列步骤101-步骤104。

步骤101、从初始目标检测序列中进行采样，得到采样的目标检测序列；；

在一个具体实现过程中，可以设置多种不同的感知设备对当前场景进行感知，每种感知设备均可以得到当前场景的感知数据，但是每种设备得到的感知数据表现形式是不同的，不同表现形式的感知数据可以作为跨模态数据。当采集到当前场景的跨模态数据后，可以将跨模态数据输入预先训练的目标检测模型，检测出每种模态数据的目标检测结果，并将每种模态数据的目标检测结果，按照时序进行排序，得到的排序结果作为初始目标检测序列。图2是本申请的跨模态目标状态的检测方法的输入数据的示意图。图2中右侧为相机获得的自车360°全局图像对应的目标检测结果（图2中仅对部分目标进行标注右侧框出部分为检测到的目标框），左侧为雷达获得的点云对应的目标检测结果（图中白色框出部分为检测到的目标框）。

在一个具体实现过程中，当前场景的跨模态数据至少包括第一模态数据和第二模态数据，可以将所述第一模态数据和所述第二模态数据输入目标检测模型，得到所述第一模态数据的目标检测结果和所述第二模态数据的目标检测结果；基于所述第一模态数据的目标检测结果和所述第二模态数据的目标检测结果，形成所述初始目标检测序列，该初始目标检测序列具体可以参见图3。

图3是不同模态数据的目标检测结果对应的初始目标检测序列的示意图。图3中以雷达的检测频率为10Hz，相机的检测频率为30Hz为例进行说明的。图3中按照一帧点云的目标检测结果、三帧图像的目标检测结果进行排序，依次类推，得到排序结果作为初始目标检测序列，如图2所示：初始目标检测序列可以为L₁C₁C₂C₃L₂C₄C₅C₆…L_mC_nC_n+1C_n+2。其中，L₁对应的时帧为初始目标检测序列的当前时帧，其余的目标检测结果对应的时帧均可以为初始目标检测序列的历史时帧。在得到初始目标检测序列后，可以从初始目标检测序列中进行采样，得到采样的目标检测序列，采样的目标检测序列包括初始目标检测序列中的当前时帧和多个历史时帧。其中，具体采样数目可以由预设的时间窗口决定。理论上该预设时间窗口的时序长度T越大，则模型参考历史帧的信息越多，输出就越平滑与稳定。然而增大时序长度T的收益呈边际递减，过远的历史帧所带来的收益比较有限，且算力开销呈指数级别增长，因此，本方法可以将时序长度设置为但不限制于T=10，使得预测结果准确与算力的平衡。

在一个具体实现过程中，跨模态数据至少包括两种模态数据，这里可以为第一模态数据和第二模态数据，对应的初始目标检测序列中至少包括第一序列和第二序列。在进行采样时，可以基于第一采样频率从初始目标检测序列中获取第一预设帧数的第一模态数据的目标检测结果，并进行排列后，得到包括第一模态数据的目标检测结果的时帧序列作为第一序列。可以基于第二采样频率从初始目标检测序列中获取第二预设帧数的第二模态数据的目标检测结果，并进行排列后，得到包括第二模态数据的目标检测结果的时帧序列作为第二序列。第一序列和第二序列共同构成采样的目标检测序列。

需要说明的是，跨模态数据还可以包括第三模态数据、第四模态数据等，对应的初始目标检测序列还可以包括第三序列、第四序列等。在进行采样时，可以按照各自的采样频率进行采样，最终所有的序列共同构成目标检测序列，在此不再一一举例说明。

在一个具体实现过程，第一模态数据为相机采集的图像，相机的检测频率为30HZ，假设第一采样频率也为30HZ，可以从图3所示的初始目标检测序列中采样最近5帧图像的目标检测结果，作为第一序列，其排序结果如下：C₁、C₂、C₃、C₄、C₅。第二模态数据为雷达采集的点云，雷达的检测频率为10 HZ，假设第二采样频率也为10HZ，可以从图2所示的初始目标检测序列中采样最近5帧点云的目标检测结果作为第二序列，其排序结果如下：L₁、L₂、L₃、L₄、L₅。将第一序列和第二序列再次按照时序排序后，得到的排序结果为采样的目标检测序列，具体排列如下：L₅L₄L₃C₅C₄L₂C₃C₂C₁L₁。

假设第一采样序列为10HZ，可以从图2所示的初始目标检测序列中采样最近7帧图像的目标检测结果，作为第一序列，其排序结果如下：C₁、C₄、C₇、C₁₀、C₁₃、C₁₆、C₁₉。假设第二采样频率为5HZ，可以从图2所示的初始目标检测序列中采样最近3帧点云的目标检测结果作为第二序列，其排序结果如下：L₁、L₃、L₅。将第一序列和第二序列再次按照时序排序后，得到的排序结果为采样的目标检测序列，具体排列如下：C₁₉C₁₆C₁₃L₅C₁₀C₇L₃C₄C₁L₁。

需要说明的是，上述两种得到采样的目标检测序列的方式仅为示例性说明，在实际应用中，可以根据实际需求设置第一采样频率和第二采样频率，这样，可以支持更灵活的跨模态数据输入策略。另外，上述两种采样方式均以图像的目标检测结果对应的时帧作为当前时帧为例，实际上当前时帧也可以为点云的目标检测结果对应的时帧。即采样的目标检测序列中当前时帧为第一序列和第二序列中距离当前时刻最近的时帧。采样的目标检测序列中的多个历史时帧为所述第一序列和所述第二序列中的其余时帧按照时间顺序排列形成。

具体地，如图3所示，第一序列中时帧C₁以及第二序列中时帧L₁分别是两个序列中与当前时刻最近的时帧，可以分别计算出第一序列中时帧C₁对应的时刻与当前时刻的第一差值，以及，第二序列中时帧L₁对应的时刻与当前时刻的第二差值，若第一差值大于第二差值，则第二序列中时帧L₁作为采样的目标检测序列中的当前时帧，第一序列中时帧C₁到时帧C_n+2以及，第二序列中的时帧L₂到时帧L_m按照时间顺序排序形成采样的目标检测序列的多个历史时帧。否则，若第一差值小于第二差值，则第一序列中时帧C₁作为采样的目标检测序列中的当前时帧。第一序列中时帧C₂到时帧C_n+2以及，第二序列中的时帧L₁到时帧L_m按照时间顺序排序形成采样的目标检测序列的多个历史时帧。

步骤102、对每个当前目标和每个第一历史目标进行特征提取，得到所述当前目标的第一特征信息和所述第一历史目标的历史特征信息；

在一个具体实现过程中，可以基于图4所示的网络结构，利用编码器，对当前时帧内每个当前目标和历史时帧内每个第一历史目标进行特征提取，得到每个当前目标的第一特征信息和每个第一历史目标的特征信息，即可以对所述当前目标和所述第一历史目标进行编码，得到所述第一特征信息和所述第一历史目标的历史特征信息。

图4是本申请的检测目标状态的网络结构示意图。如图4所示，该网络结构可以包括K个编码器Encoder、J个解码器Decoder、第一掩码注意力信息网络（Asso Head网络）、第二掩码注意力信息网络和状态预测网络（State Head网络）构成。输入是步骤102中当前时帧的当前目标和历史时帧的第一历史目标，经过多层感知机MLP得到输入数据的映射向量，在第二掩码注意力信息（ST Attention Mask）下，经过softmax激活函数、Add＆LN网络、FFN网络等可以输出所有时帧中的目标Key的特征信息Memory，所有时帧中的目标Key的特征信息Memory可以包括当前时帧的当前目标的第一特征信息和历史时帧中第一历史目标的历史特征信息。Tgt是当前时帧中的当前目标Query的第一特征信息，可以从Memory取最后M个而来。Asso Head网络输出当前目标Query的关联匹配结果（即当前目标Query与所有目标Key之间的关联关系）作为第一掩码注意力信息（Association Mask），其中，第一掩码注意力信息用于指示与当前目标相匹配的第一历史目标，这样，可以使用第一掩码注意力信息引导解码器Decoder只对与自身相匹配的第一历史目标进行关注，即只对自身的历史状态信息进行关注，解码器Decoder中的多层感知机MLP、softmax激活函数、Add＆LN网络、FFN网络等可以得到每个当前目标的第二特征信息输入给State Head网络，再经由State Head网络输出每个当前目标的状态信息。

本实施例的网络结构其输入则是目标检测模型检测到的目标，即该网络结构仅仅进行状态预测，这样，实现了目标检测和状态预测的分离，使得各个模型轻量化，从而可以更适合实际产品开发实践，更容易迭代，分模块解决问题，并且可以隶属于两个团队分别优化，最后部署时候再合并。且可以将多种模态数据作为一个整体的时序数据输入后续状态预测的网络结构，无需设置不同的分支进行特征提取，降低了网络结构的复杂程度。在图4中M代表一个时帧中最大目标数，共T个时帧（当前时帧T 和历史时帧T-1个），N=T*M代表所有时帧的目标最大数。C为表示当前目标解码后的维度。

在一个具体实现过程中，在预测匹配关系时，对于两两目标在时空、类别、尺寸等特征信息的相似度满足预设条件时，则二者不太可能形成匹配关系，可以将其从网络训练和推理中剔除。具体地，上述预设条件可以为，对于两两目标而言，如果两个目标的一部分特征信息相似（如类型、尺寸等特征信息相似），但是两个目标被检测到的时间间隔超过预设时长，可以确定两者之间是不可能形成匹配关系的。再例如，如果两个目标的一部分特征信息相似，但是两个目标出现在不同的空间，也可以确定两者之间是不可能形成匹配关系的。又例如，如果两个目标的一部分特征信息相似（如时空等特征信息相似），但是二者类型完全不同，或者，尺寸差大于预设差值，也可以确定两者之间是不可能形成匹配关系的。

基于此，可以先计算出匹配可能性对应的矩阵作为预设的第二掩码注意力机制，在预设的第二掩码注意力信息下，对所述当前目标和所述第一历史目标进行特征提取，得到所述第一特征信息和所述第一历史目标的历史特征信息，这样，尽可能的剔除一些与当前目标没有匹配可能性的第一历史目标，再进行对第一历史目标进行特征提取。

在一个具体实现过程中，时空特征嵌入可以由时空位置嵌入（Spatio-TemporalPositional Embedding,STPE）模块实现，通过STPE ，Transformer网络可以进一步区分不同位置、时帧的元素，在注意力机制中更好地处理序列中的依赖关系。STPE可以是固定的，也可以是可学习的。固定的STPE可以通过一些数学函数（如正弦函数和余弦函数）生成，而可学习的STPE可以在训练过程中通过反向传播进行更新。本实施例可以采用固定式的正弦函数和余弦函数。

因此，还可以在预设的第二掩码注意力信息下，对当前时帧内每个当前目标和历史时帧内每个第一历史目标进行时空特征嵌入和编码，得到每个当前目标的第一特征信息和每个历史目标的特征信息。其中，所述时空位置嵌入用于增强所述当前目标的特征表示和所述第一历史目标的特征表示。

需要说明的是，本实施例中，可以根据实际需求提取所需要的特征信息，从而可以利用获取到更丰富的特征信息有助于Association Mask预测的准确性，进一步帮助状态的预测。

步骤103、基于所述每个当前目标的第一特征信息和所述每个历史目标的特征信息，得到所述每个当前目标的第二特征信息；

在一个具体实现过程中，可以基于图4所示的网络结构按照如下方式实现步骤103：

（1）基于所述第一特征信息和所述第一历史目标的历史特征信息，确定当前时帧的第一掩码注意力信息；

在一个具体实现过程中，对目标的状态预测一般只和自身历史状态信息有关，因此，可以基于每个当前目标的第一特征信息和每个第一历史目标的历史特征信息，对每个当前目标进行关联匹配，得到所述每个当前目标的关联匹配结果作为所述当前时帧的第一掩码注意力信息。其中，Association Mask可以是但不限制shape=(M, N)的0/1矩阵，由Asso Head网络学习得到，Mask中每个元素代表当前目标Query与所有Key之间的[匹配性]（1代表不存在匹配、0代表存在匹配）。对于一个当前目标Query，在每个时刻至多只有一个关联目标，在当前时刻一定关联自身，因此Mask每行至多只有T个0，至少1个0。即，所有历史帧的历史目标均能与当前目标关联时可以有T个0，仅有自身关联时，只有一个0。

具体地，也可以在预设的第二掩码注意力信息下，基于所述每个当前目标的第一特征信息和每个第一历史目标的历史特征信息，与当前目标的第一特征信息存在不同的第一历史目标的历史特征信息进行滤除，得到第二历史目标的历史特征信息，以助于编码器的训练收敛及推理表现，并可以基于当前目标的当前特征信息和第二历史目标的历史特征信息，得到当前目标的关联匹配结果。其中，第二历史目标为与当前目标存在匹配可能性的历史目标。

（2）基于所述第一掩码注意力机制、每个当前目标的第一特征信息和每个历史目标的特征信息，得到所述每个当前目标的第二特征信息。

在一个具体实现过程中，Asso Head网络得到Association Mask后，可以输入解码器，引导解码器Decoder只对与自身相匹配的第一历史目标进行关注，并基于每个当前目标的第一特征信息和每个第一历史目标的历史特征信息进行解码，得到每个当前目标的第二特征信息，以便将每个当前目标的第二特征信息输入给State Head网络，再经由StateHead网络输出每个当前目标的状态信息。

步骤104、将所述第二特征信息输入预先训练的状态预测网络，得到所述当前目标的状态信息。

在一个具体实现过程中，当前目标的状态信息可以包括朝向信息，此时，可以将第二特征信息输入状态预测网络中的朝向头部网络，进行预测，得到当前目标的朝向信息。其中，当前目标的朝向信息可以包括当前目标的朝向角、偏航角、俯仰角、横滚角等。其中，朝向角指以目标对象的位置为中心，将正北或正南方向作为起始方向旋转到目标对象的目标方向线所成的角，目标方向线可以指向目标对象的运动方向。俯仰角指目标对象的运动方向与水平面的夹角，偏航角是指目标对象的运动方向在水平面上的投影方向与水平面上的预定方向之间的夹角，预定方向可以设置为道路方向，横滚角用于表示横向倾角。

在一个具体实现过程中，当前目标的状态信息可以包括速度信息，此时，可以将第二特征信息输入状态预测网络中速度头部网络，进行预测，得到当前目标的速度信息。其中，该速度信息可以包括但不限制于当前目标的速度值、加速度值等。若当前目标处于运动状态，可以预测出当前目标的速度值、加速度值均不为0。若当前目标处于静止状态，可以预测出前目标的速度值、加速度值均为0。

在一个具体实现过程中，对于跨模态数据而言，不同模态数据的抖动程度不同，尤其是相机采集的图像抖动比较剧烈，这样，前后时帧之间的目标状态容易不同，导致最终得到的当前目标的状态信息可靠性较低。因此，本实施例中，可以基于预设的防状态突变约束条件下进行训练得到状态预测网络。

具体地，所述防状态突变约束条件可以包括但不限制于抑制目标位置突变的约束条件、抑制目标运动量突变的约束条件和抑制目标朝向突变约束条件中的至少一种。

其中，抑制目标位置突变的约束条件能够使位置、尺寸在帧间变化更加平滑，缓解抖动现象。

对于绝大部分运动目标，运动状态不会在一瞬间发生改变，因此，本实施例中，可以设置抑制目标运动量突变的约束条件，以便抑制突然的运动量变化，使得网络预测保持连贯稳定。

通常情况下，目标本身大部分时间不会发生180°的朝向突变，因此，可以设置抑制目标朝向突变约束条件，对当前帧和历史帧同时施加朝向约束，迫使目标前后帧保持同一个朝向。

在一个具体实现过程中，在利用训练数据对待训练网络进行训练过程中利用网络更新参数，对所述待训练网络进行参数更新，直到满足停止训练条件，得到所述状态预测网络。其中，所述网络更新参数按照如下方式获得：

（11）根据所述抑制目标位置突变的约束条件和每次训练的训练结果，得到第一网络更新参数；和/或，根据所述抑制目标运动量突变的约束条件和每次训练的训练结果得到第二网络更新参数；和/或，根据所述抑制目标朝向突变的约束条件和每次训练的训练结果得到第三网络更新参数；

在一个具体实现过程中，每次训练后会得到对应的训练结果，然后检测该训练结果与目标实际状态进行比对，从而得到是否满足对应的约束条件，从而设置对应的网络更新参数。

具体地，对于抑制目标位置突变的约束条件而言，可以计算目标在前后两帧中的位置差，然后再计算相邻两次位置差的差值是否小于预设差值，从而确定出是否满足抑制目标位置突变的约束条件，若相邻两次位置差的差值小于预设差值，满足抑制目标位置突变的约束条件，则不再对网络参数进行更新，相邻两次位置差的差值不小于预设差值，不满足抑制目标位置突变的约束条件，可以得到一个第一网络更新参数。

对于抑制目标运动量突变的约束条件而言，可以计算目标在一段时间内的状态曲线，在得到训练结果后，将其转换成状态曲线，若两个状态曲线基本一致，则满足抑制目标运动量突变的约束条件，不再对网络参数进行更新；若两个状态曲线差别很大，则不满足抑制目标运动量突变的约束条件，可以得到一个第二网络更新参数。

对于抑制目标朝向突变约束条件而言，可以设定某个时段内目标的朝向，在得到训练结果后，其朝向与设定的朝向之间误差较小，则满足抑制目标朝向突变约束条件，不再对网络参数进行更新；若朝向与设定的朝向之间误差较大，则不满足抑制目标朝向突变约束条件，可以得到一个第三网络更新参数。

（12）根据所述第一网络更新参数、第二网络更新参数和第三网络更新参数中的至少一种，得到所述网络更新参数。

具体地，当存在至少两个网络更新参数时，考虑到对目标的状态进行预测时，目标位置突变、目标运动量突变、目标朝向突变等对状态预测的精准度的影响是不同的，因此，可以针对每种突变约束条件下得到的网络更新参数设置对应的权重值，然后得到至少两个网络更新参数时，可以进行加权求和，得到最终的网络更新参数。

需要说明的是，每种网络更新参数对应的权重值，可以是固定的，也可以是根据实时场景变化的。例如，对于上坡场景，其朝向（与坡道之间的角度）随着坡道发生改变的频率较大，此时，可以将第三网络更新参数对应的权重设置较大一些，而第一网络更新参数的权重、第二网络更新参数的权重相对较小一些。在平整路面的时候，目标的朝向变化频率相对较小，可以将第三网络更新参数对应的权重设置较小一些，而第一网络更新参数的权重、第二网络更新参数的权重相对较大一些。在此不再一一举例说明。本实施例的跨模态目标状态的检测方法，从初始目标检测序列中进行采样，得到采样的目标检测序列；对采样的目标检测序列中当前室内每个当前目标和每个历史时帧内每个第一历史目标进行特征提取，得到当前目标的第一特征信息和第一历史目标的历史特征信息；基于当前目标的第一特征信息和第一历史目标的历史特征信息，得到当前目标的第二特征信息；将所述第二特征信息输入预先训练的状态预测网络，得到所述当前目标的状态信息，这样，实现了目标检测和状态预测的分离，使得各个模型轻量化，且将多种模态数据作为一个整体的时序数据输入后续状态预测的网络结构，无需设置不同的分支进行特征提取，降低了网络结构的复杂程度，同时，利用能够防状态突变的状态预测网络进行状态预测，能够在跨模态数据存在抖动较大的模态数据时，准确地预测出当前时帧中当前目标的状态信息。

图5是采用本申请的目标状态的检测方法的一种实际场景示意图。如图5所示，可以利用相机得到自车360°范围内的相机鸟瞰数据，利用雷达得到自车前向数据（图5中不再示出）。对这种两种数据进行目标检测后，并选取当前时帧的目标检测结果和历史时帧的目标检测结果后输入本申请的目标检测的网络结构中，最终可以准确地输出自车360°范围内车辆的速度和朝向等状态信息。

需要指出的是，尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述，但是本领域技术人员可以理解，为了实现本申请的效果，不同的步骤之间并非必须按照这样的顺序执行，其可以同时（并行）执行或以其他顺序执行，这些变化都在本申请的保护范围之内。

本领域技术人员能够理解的是，本申请实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

进一步，本申请还提供了一种基于跨模态数据的目标状态的检测设备。

参阅附图6，图6是根据本申请的一个实施例的基于跨模态数据的目标状态的检测设备的主要结构框图。如图6所示，本申请实施例中的基于跨模态数据的目标状态的检测设备可以包括处理器61和存储装置62。

存储装置62可以被配置成存储执行上述方法实施例的跨模态目标状态的检测方法的程序，处理器61可以被配置成用于执行存储装置62中的程序，该程序包括但不限于执行上述方法实施例的跨模态目标状态的检测方法的程序。为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该基于跨模态数据的目标状态的检测设备可以是包括各种电子设备形成的控制设备。

在一个具体实现过程中，该存储装置62和处理器61的数目均可以为多个。而执行上述方法实施例的跨模态目标状态的检测方法的程序可以被分割成多段子程序，每段子程序分别可以由处理器61加载并运行以执行上述方法实施例的跨模态目标状态的检测方法的不同步骤。具体地，每段子程序可以分别存储在不同的存储装置62中，每个处理器61可以被配置成用于执行一个或多个存储装置62中的程序，以共同实现上述方法实施例的跨模态目标状态的检测方法，即每个处理器61分别执行上述方法实施例的跨模态目标状态的检测方法的不同步骤，来共同实现上述方法实施例的跨模态目标状态的检测方法。

上述多个处理器61可以是部署于同一个设备上的处理器，例如上述设备可以是由多个处理器组成的高性能设备，上述多个处理器61可以是该高性能设备上配置的处理器。此外，上述多个处理器61也可以是部署于不同设备上的处理器，例如上述设备可以是服务器集群，上述多个处理器61可以是服务器集群中不同服务器上的处理器。

进一步，本申请还提供了一种智能设备，该智能设备包括上述实施例的跨模态目标状态的检测设备。该智能设备具体可以包括驾驶设备、自动驾驶车辆、智能车、机器人、无人飞机等。

在本申请的一些实施例中，所述智能设备还包括至少一个传感器，所述传感器用于感知信息。所述传感器与本申请提到的任何一种类型的处理器通信连接。可选地，所述智能设备还包括自动驾驶系统，自动驾驶系统用于引导智能设备自行行驶或辅助驾驶。所述处理器与所述传感器和/或自动驾驶系统通信，用于完成上述任一实施例所述的方法。

进一步，本申请还提供了一种计算机可读存储介质。在根据本申请的一个计算机可读存储介质实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的跨模态目标状态的检测方法的程序，该程序可以由处理器加载并运行以实现上述跨模态目标状态的检测方法。为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本申请实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

进一步，应该理解的是，由于各个模块的设定仅仅是为了说明本申请的装置的功能单元，这些模块对应的物理器件可以是处理器本身，或者处理器中软件的一部分，硬件的一部分，或者软件和硬件结合的一部分。因此，图中的各个模块的数量仅仅是示意性的。

本领域技术人员能够理解的是，可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本申请的原理，因此，拆分或合并之后的技术方案都将落入本申请的保护范围内。

需要说明的是，本申请各实施例中可能涉及的相关用户个人信息，均为严格按照法律法规的要求，遵循合法、正当、必要的原则，基于业务场景的合理目的，处理用户在使用产品/服务过程中主动提供或因使用产品/服务而产生的，以及经用户授权获取的个人信息。

本申请处理的用户个人信息会因具体产品/服务场景而有所不同，需以用户使用产品/服务的具体场景为准，可能会涉及用户的账号信息、设备信息、行驶信息、车辆信息或其他相关信息。本申请会以高度的勤勉义务对待用户的个人信息及其处理。

本申请非常重视用户个人信息的安全，已采取符合业界标准、合理可行的安全防护措施保护用户的信息，防止个人信息遭到未经授权访问、公开披露、使用、修改、损坏或丢失。

至此，已经结合附图所示的实施方式描述了本申请的技术方案，但是，本领域技术人员容易理解的是，本申请的保护范围显然不局限于这些具体实施方式。在不偏离本申请的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本申请的保护范围之内。

Claims

1.一种跨模态目标状态的检测方法，其特征在于，包括：

其中，所述状态信息包括速度信息和/或朝向信息；所述状态预测网络基于防状态突变约束条件下进行训练得到；

其中，所述防状态突变约束条件包括抑制目标位置突变的约束条件、抑制目标运动量突变的约束条件和抑制目标朝向突变约束条件中的至少一种；

所述状态预测网络基于防状态突变约束条件下进行训练得到，包括：

在利用训练数据对待训练网络进行训练过程中，利用网络更新参数对所述待训练网络进行参数更新，直到满足停止训练条件，得到所述状态预测网络；

其中，所述网络更新参数按照如下方式获得：

根据所述抑制目标位置突变的约束条件和每次训练的训练结果，得到第一网络更新参数；和/或，根据所述抑制目标运动量突变的约束条件和每次训练的训练结果得到第二网络更新参数；和/或，根据所述抑制目标朝向突变的约束条件和每次训练的训练结果得到第三网络更新参数；

根据所述第一网络更新参数、第二网络更新参数和第三网络更新参数中的至少一种，得到所述网络更新参数。

2.根据权利要求1所述的跨模态目标状态的检测方法，其特征在于，

所述当前时帧为所述第一序列和所述第二序列中与当前时刻最近的时帧；所述多个历史时帧为所述第一序列和所述第二序列中的其余时帧按照时间顺序排列形成。

3.根据权利要求1所述的跨模态目标状态的检测方法，其特征在于，基于所述第一特征信息和所述第一历史目标的历史特征信息，得到所述当前目标的第二特征信息，包括：

基于所述第一特征信息和所述第一历史目标的历史特征信息，确定当前时帧的第一掩码注意力信息；其中，所述第一掩码注意力信息用于指示与所述当前目标相匹配的第一历史目标；

基于所述第一掩码注意力信息、所述第一特征信息和所述第一历史目标的历史特征信息，得到所述当前目标的第二特征信息。

4.根据权利要求3所述的跨模态目标状态的检测方法，其特征在于，基于所述第一特征信息和所述第一历史目标的历史特征信息，确定当前时帧的第一掩码注意力信息，包括：

基于所述第一特征信息和所述第一历史目标的历史特征信息，对所述当前目标进行关联匹配，得到所述当前目标的关联匹配结果作为所述第一掩码注意力信息。

5.根据权利要求4所述的跨模态目标状态的检测方法，其特征在于，基于所述第一特征信息和所述第一历史目标的历史特征信息，对所述当前目标进行关联匹配，得到所述当前目标的关联匹配结果，包括：

在预设的第二掩码注意力信息下，基于所述第一特征信息和所述第一历史目标的特征信息，对所述第一历史目标进行滤除，得到第二历史目标的特征信息；其中，所述第二掩码注意力信息用于指示与所述当前目标不存在匹配可能性；所述第二历史目标为与所述当前目标存在匹配可能性的历史目标；

基于所述第一特征信息和第二历史目标的特征信息，得到所述关联匹配结果。

6.根据权利要求1所述的跨模态目标状态的检测方法，其特征在于，对每个当前目标和每个第一历史目标进行特征提取，得到所述当前目标的第一特征信息和所述第一历史目标的历史特征信息，包括：

在预设的第二掩码注意力信息下，对所述当前目标和所述第一历史目标进行时空位置嵌入和编码，得到所述第一特征信息和所述第一历史目标的历史特征信息；

其中，所述时空位置嵌入用于增强所述当前目标的特征表示和所述第一历史目标的特征表示。

7.一种跨模态目标状态的检测设备，其特征在于，包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行权利要求1至6中任一项所述的跨模态目标状态的检测方法。

8.一种智能设备，其特征在于，包括如权利要求7所述的跨模态目标状态的检测设备。

9.一种计算机可读存储介质，其特征在于，存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行权利要求1至6中任一项所述的跨模态目标状态的检测方法。