CN112541515A

CN112541515A - 模型训练方法、驾驶数据处理方法、装置、介质和设备

Info

Publication number: CN112541515A
Application number: CN201910900628.XA
Authority: CN
Inventors: 陶鑫; 刘洋
Original assignee: Beijing Jingdong Qianshi Technology Co Ltd
Current assignee: Beijing Jingdong Qianshi Technology Co Ltd
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2021-03-23

Abstract

本发明公开了一种模型训练方法、驾驶数据处理方法、模型训练装置、驾驶数据处理装置、计算机可读存储介质和电子设备，涉及智能驾驶领域。该模型训练方法包括：获取多组基于驾驶场景的第一样本数据、第二样本数据、目标样本数据；将第一样本数据、第二样本数据以及目标样本数据分别输入至特征提取模型，确定第一样本数据对应的第一特征向量、第二样本数据对应的第二特征向量、以及目标样本数据对应的目标特征向量；计算第一特征向量与目标特征向量的相似度作为第一相似度，以及计算第二特征向量与目标特征向量的相似度作为第二相似度；利用第一相似度和第二相似度对特征提取模型进行训练。本公开可以去除冗余的驾驶数据，促进存储资源的合理利用。

Description

模型训练方法、驾驶数据处理方法、装置、介质和设备

技术领域

本公开涉及智能驾驶领域。具体而言，涉及一种模型训练方法、驾驶数据处理方法、模型训练装置、驾驶数据处理装置、计算机可读存储介质和电子设备。

背景技术

随着物联网和人工智能的快速发展，汽车技术领域也进入了高速发展阶段。例如，在智能汽车行业，因人们对生活质量追求的提升，自动驾驶车辆也成为行业的研究热点。

自动驾驶车辆是一种通过计算机系统实现无人驾驶的智能汽车。其中，自动驾驶是通过各种传感器来感知车辆周围环境，并通过融合各种传感器的数据，例如，道路、车辆位置和障碍物信息等，来控制车辆的转向和速度，从而使车辆能够安全、可靠地在道路上行驶。

然而，各种环境下的驾驶场景十分复杂，上述计算机系统不仅需要接收传感器响应的大量数据，而且需要存储大量的车辆行驶数据。因此，如何处理大量数据成为了一个重要的问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种模型训练方法、驾驶数据处理方法、模型训练装置、驾驶数据处理装置、计算机可读存储介质和电子设备，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致冗余数据过多、未合理利用存储资源的问题。

根据本公开的第一个方面，提供了一种模型训练方法，包括：获取多组基于驾驶场景的样本数据，每组样本数据包括第一样本数据、第二样本数据、目标样本数据；其中，第一样本数据与目标样本数据之间的相似度大于第二样本数据与目标样本数据之间的相似度；将第一样本数据、第二样本数据以及目标样本数据分别输入至特征提取模型，确定出第一样本数据对应的第一特征向量、第二样本数据对应的第二特征向量、以及目标样本数据对应的目标特征向量；计算第一特征向量与目标特征向量的相似度，作为第一相似度，以及计算第二特征向量与目标特征向量的相似度，作为第二相似度；利用第一相似度和第二相似度对特征提取模型进行训练。

根据本公开的第二个方面，提供一种驾驶数据处理方法，包括：获取当前驾驶数据，利用一训练后的特征提取模型对当前驾驶数据进行处理，确定出与当前驾驶数据对应的当前特征向量；其中，训练后的特征提取模型是由上述的模型训练方法训练得到；获取各历史驾驶数据对应的各历史特征向量，并分别计算各历史特征向量与当前特征向量之间的相似度；若各历史特征向量中存在与当前特征向量之间的相似度大于等于一预设阈值的目标特征向量，则确定与目标特征向量对应的目标驾驶数据；从数据库中删除目标驾驶数据并将当前驾驶数据存储至数据库中，或者丢弃所述当前驾驶数据。

根据本公开的第三个方面，提供一种驾驶数据处理装置，包括：特征确定模块，用于获取当前驾驶数据，利用一训练后的特征提取模型对当前驾驶数据进行处理，确定出与当前驾驶数据对应的当前特征向量；其中，训练后的特征提取模型是由上述的模型训练方法训练得到；相似度计算模块，用于获取各历史驾驶数据对应的各历史特征向量，并分别计算各历史特征向量与当前特征向量之间的相似度；相似度判断模块，用于若各历史特征向量中存在与当前特征向量之间的相似度大于等于一预设阈值的目标特征向量，则确定与目标特征向量对应的目标驾驶数据，用于若各历史特征向量与当前特征向量之间的相似度均小于预设阈值，则将当前驾驶数据存储至数据库中；数据处理模块，用于从数据库中删除目标驾驶数据并将当前驾驶数据存储至数据库中，或者丢弃当前驾驶数据。

根据本公开的第四个方面，提供一种模型训练装置，包括：样本获取模块，用于获取多组基于驾驶场景的样本数据，每组样本数据包括第一样本数据、第二样本数据、目标样本数据；其中，第一样本数据与目标样本数据之间的相似度大于第二样本数据与目标样本数据之间的相似度；特征提取模块，用于将第一样本数据、第二样本数据以及目标样本数据分别输入至特征提取模型，确定出第一样本数据对应的第一特征向量、第二样本数据对应的第二特征向量、以及目标样本数据对应的目标特征向量；相似度计算模块，用于计算第一特征向量与目标特征向量的相似度，作为第一相似度，以及计算第二特征向量与目标特征向量的相似度，作为第二相似度；模型训练模块，用于利用第一相似度和第二相似度对特征提取模型进行训练。

可选地，特征提取模块包括第一特征提取子模块和第二特征提取子模块；第一特征提取子模块，用于将第一样本数据、第二样本数据以及目标样本数据分别输入至第一特征提取单元，确定出第一样本数据对应的第一特征矩阵、第二样本数据对应的第二特征矩阵、以及目标样本数据对应的目标特征矩阵；第二特征提取子模块，用于将第一特征矩阵、第二特征矩阵以及目标特征矩阵分别输入至第二特征提取单元，确定出第一特征矩阵对应的第一特征向量、第二特征矩阵对应的第二特征向量、以及目标特征矩阵对应的目标特征向量。

可选地，第一特征提取子模块包括：数据嵌入单元，用于分别对第一样本数据、第二样本数据以及目标样本数据进行嵌入操作，确定出第一样本数据对应的第一中间矩阵、第二样本数据对应的第二中间矩阵、以及目标样本数据对应的目标中间矩阵；特征确定单元，用于第一中间矩阵结合指定参数矩阵确定出第一特征矩阵，第二中间矩阵结合指定参数矩阵确定出第二特征矩阵，以及目标中间矩阵结合指定参数矩阵确定出目标特征矩阵。

可选地，模型训练模块包括：损失函数确定单元，用于基于第一相似度和第二相似度确定出损失函数；模型训练单元，用于利用损失函数对特征提取模型进行训练。

根据本公开的第五个方面，提供一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现如上述的模型训练方法或如上述的驾驶数据处理方法。

根据本公开的第六个方面，提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现如上述的模型训练方法或如上述的驾驶数据处理方法。

本公开的示例性实施例具有以下有益效果：

在本公开的一些实施例所提供的技术方案中，在获取驾驶数据后，利用一特征提取模型对驾驶数据进行处理，得到驾驶数据对应的特征向量。其中，针对特征提取模型的训练过程，首先，获取多组基于驾驶场景的样本数据，每组样本数据包括第一样本数据、第二样本数据、目标样本数据；然后，将第一样本数据、第二样本数据以及目标样本数据分别输入至特征提取模型，确定出第一样本数据对应的第一特征向量、第二样本数据对应的第二特征向量、以及目标样本数据对应的目标特征向量；接下来，计算第一特征向量与目标特征向量的相似度，作为第一相似度，以及计算第二特征向量与目标特征向量的相似度，作为第二相似度；随后，利用第一相似度和第二相似度对特征提取模型进行训练。一方面，通过该特征提取模型确定出获取的待处理驾驶数据与目标驾驶数据之间的相似度，并根据确定的相似度，将与目标驾驶数据之间相似度高的驾驶数据丢弃，从而减少了冗余的驾驶数据，节省了存储空间。而且还可以用节省的存储空间来存储相似度低的驾驶数据，即该方法也促进了存储资源的合理利用。另一方面，通过该特征提取模型可以确定在不同场景中获取的驾驶数据与目标驾驶数据之间的相似度，也就是说，增加了该相似度计算方法的使用场景，提高了相似度计算方法的利用率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了根据本公开的示例性实施方式的模型训练方法的流程图；

图2示意性示出了根据本公开的示例性实施方式的驾驶数据处理方法的流程图；

图3示意性示出了根据本公开的示例性实施方式的驾驶数据处理装置的方框图；

图4示意性示出了根据本公开的示例性实施方式的模型训练装置的方框图；

图5示意性示出了根据本公开的示例性实施方式的特征提取模块的方框图；

图6示意性示出了根据本公开的示例性实施方式的第一特征提取模块的方框图；

图7示意性示出了根据本公开的示例性实施方式的模型训练模块的方框图；

图8示意性示出了根据本公开的示例性实施方式的电子设备的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的步骤。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，本公开所用的术语“第一”、“第二”仅是为了区分的目的，不应当作为本公开内容的限制。

随着智能化时代的来临，汽车行业引入了智能汽车来提高人们的生活质量。智能汽车也称为自动驾驶汽车，该自动驾驶汽车通过融合各种传感器采集的驾驶数据来判断汽车的转向、速度等，因此，该过程需要存储和处理大量的驾驶数据。针对上述情况，为了提高存储空间的利用率，可以将驾驶数据中相似度高的冗余数据丢弃，然而，现有的相似度计算方法是人为设计的，无法处理大量的驾驶数据。为此，本公开提出了一种模型训练方法和一种驾驶数据处理方法来解决上述问题。

需要说明的是，在本公开的示例性实施方式中，下面所述的模型训练方法通常可以由服务器来实现，也就是说，可以由服务器执行模型训练方法的各个步骤，在这种情况下，模型训练装置可以配置在该服务器内。然而，模型训练方法还可以由终端设备(如，手机、平板、个人计算机等)来实现，本公开对此不做特殊限制。

另外，下面所述的驾驶数据处理方法通常可以由车载终端设备来实现，以便可以对车载终端设备获取的驾驶数据进行实时处理。该车载终端设备可以是车载中控系统、车载计算机系统等。在这种情况下，驾驶数据处理装置可以配置在该车载终端设备内。然而，在对实时性要求不高的场景下，驾驶数据处理方法还可以由服务器来实现，本公开对此亦不做特殊限制。

图1示意性示出了本公开的示例性实施方式的模型训练方法的流程图。参考图1，模型训练方法可以包括以下步骤：

S102.获取多组基于驾驶场景的样本数据，每组样本数据包括第一样本数据、第二样本数据、目标样本数据；其中，第一样本数据与目标样本数据之间的相似度大于第二样本数据与目标样本数据之间的相似度。

在本公开的示例性实施方式中，基于驾驶场景的样本数据可以是在驾驶车辆的数据解析过程中获取的传感器数据，例如，样本数据的信息可以包括通过激光雷达获得的车辆定位数据解析得到的信息、通过利用相机拍摄的车辆周围环境的图像信息解析得到的信息、通过感知车辆周围环境、规划车辆下一执行操作等过程的计算数据解析得到的信息，等等。

服务器可以在实际驾驶场景中根据人为标记的驾驶行为获取多组驾驶数据，也可以从实验驾驶场景中获取多组驾驶数据。该实验驾驶场景可以是为训练该特征提取模型专门进行的。

例如，在实验驾驶场景中，第一样本数据为车辆执行以3000转/每分钟的转速直线行驶的驾驶数据，第二样本数据为车辆执行右转行驶的驾驶数据，目标样本数据为车辆执行以700转/每分钟的转速直线行驶的驾驶数据。

第一样本数据和目标样本数据都是车辆直线行驶的驾驶数据，两者相似度高；第二样本数据与目标样本数据的驾驶数据完全不同，两者相似度低。因此，第一样本数据与目标样本数据之间的相似度大于第二样本数据与目标样本数据之间的相似度。

S104.将第一样本数据、第二样本数据以及目标样本数据分别输入至特征提取模型，确定出第一样本数据对应的第一特征向量、第二样本数据对应的第二特征向量、以及目标样本数据对应的目标特征向量。

特征提取模型可以包含第一特征提取单元和第二特征提取单元。首先，服务器将第一样本数据、第二样本数据以及目标样本数据分别输入至第一特征提取单元，确定出第一样本数据对应的第一特征矩阵、第二样本数据对应的第二特征矩阵、以及目标样本数据对应的目标特征矩阵；然后，将第一特征矩阵、第二特征矩阵以及目标特征矩阵分别输入至第二特征提取单元，确定出第一特征矩阵对应的第一特征向量、第二特征矩阵对应的第二特征向量、以及目标特征矩阵对应的目标特征向量。

其中，第一特征提取单元可以是循环神经网络模型，第二特征提取单元可以是全连接神经网络。该第二特征提取单元的输入可以为矩阵，输出可以为固定长度的向量，固定长度可以根据实际情况进行调整的动态长度。该全连接神经网络可以包括三层神经网络，例如，输入层、激活层和输出层。

例如：已知输入为一个驾驶数据

其中，

可以表示在t_i时刻m个传感器各自测量的驾驶数据。也就是说，可以将输入的驾驶数据表征为T×m的矩阵。

首先，将数据X_i输入至第一特征提取单元，计算特征矩阵W_i，见公式1：

W_i＝f(X_i) 公式(1)

其中，W_i∈R^d×r，f(·)表示第一特征提取单元计算特征矩阵的公式。

然后，将得到的特征矩阵W_i输入到第二特征提取单元，根据公式2计算特征向量H_i：

H_i＝g(W_i) 公式(2)

其中，H_i∈R^k×1，g(·)表示第二特征提取单元计算特征向量的公式。

另外，在本公开的示例性实施方式中，服务器也可以分别对第一样本数据、第二样本数据以及目标样本数据进行嵌入操作，确定出第一样本数据对应的第一中间矩阵、第二样本数据对应的第二中间矩阵、以及目标样本数据对应的目标中间矩阵；第一中间矩阵结合指定参数矩阵确定出第一特征矩阵，第二中间矩阵结合指定参数矩阵确定出第二特征矩阵，以及目标中间矩阵结合指定参数矩阵确定出目标特征矩阵。

指定参数矩阵的数量可以根据模型计算进行调整的动态值，例如，服务器可以在模型中引入两个指定参数矩阵。

例如，已知输入为一个驾驶数据

首先，对该驾驶数据使用双向长短期记忆网络(LSTM)技术进行嵌入操作，得到中间矩阵B＝[b₁,b₂,…,b_t,…,b_T]^T，然后，引入两个参数矩阵

和

接下来，根据公式3得出特征矩阵W_i：

其中，W_i∈R^d×r，第p行第q列的元素表征为W_i(p,q)。

随后，将得出的特征矩阵W_i输入第二特征提取单元，根据公式4映射得到特征向量H_i中的每个元素，H_i＝[h_i,1,h_i,2,…,h_i,j,…,h_i,k]∈R^k×1。因此，H_i中每个元素的计算见公式4：

h_i,j＝reLU(∑_p∑_qa_p,q,jw(p,q)+b_j) 公式(4)

其中，a_p,q,j，p∈[1,d]，q∈[1,r]，b_j,j∈[1,k]为公式4的系数，并且这些系数可以根据模型计算进行调整的动态值。

S106.计算第一特征向量与目标特征向量的相似度，作为第一相似度，以及计算第二特征向量与目标特征向量的相似度，作为第二相似度。

在本公开的示例性实施方式中，服务器可以计算第一特征向量与目标特征向量的相似度，并可以用第一特征向量与目标特征向量的欧式距离来确定两者之间的相似度，也就是说，可以用第一特征向量与目标特征向量的欧式距离的倒数作为两者之间的相似度。服务器可以计算第二特征向量与目标特征向量的相似度，并可以用第二特征向量与目标特征向量的欧式距离来表征两者之间的相似度。需要说明的是，在本公开的示例性实施方式中可以采用欧式距离，但不限于此，可以包括但不限于以下方法：曼哈顿距离、切比雪夫距离、夹角余弦距离、卡方距离等。

若第一特征向量与目标特征向量的欧式距离小于第二特征向量与目标特征向量的欧式距离，则可以表征第一相似度高于第二相似度；若第一特征向量与目标特征向量的欧式距离大于第二特征向量与目标特征向量的欧式距离，则可以表征第一相似度低于第二相似度。

例如，给出一组驾驶数据，包括左转驾驶数据X_i，直角左转驾驶数据

和直行驾驶数据

首先，根据公式5计算

和X_i的相似度，根据公式6计算

和X_i的相似度：

其中，φ(·)可以表征f(·)和g(·)级联后的公式，即特征向量的计算公式。然后，根据欧氏距离计算方法计算得出

和X_i的距离，X_i和

的距离。随后，若

和X_i的距离小于X_i和

的距离，则说明左转驾驶数据X_i和直角左转驾驶数据

的相似度高，左转驾驶数据X_i和直行驾驶数据

相似度低。若

和X_i的距离大于X_i和

的距离，则说明左转驾驶数据X_i和直角左转驾驶数据

的相似度低，左转驾驶数据X_i和直行驾驶数据

相似度高。

S108.利用第一相似度和第二相似度对特征提取模型进行训练。

首先，根据步骤S106得出第一相似度与第二相似度，服务器可以确定出第一相似度与第二相似度之间的大小关系，然后，结合步骤S102中，第一样本数据与目标样本数据之间的相似度大于第二样本数据与目标样本数据之间的相似度，对特征提取模型进行训练。

在本公开的示例性实施方式中，服务器可以在特征提取模型训练中基于第一相似度和第二相似度确定出损失函数，并利用损失函数对特征提取模型进行训练。需要说明的是，用来确定损失函数的相似度与步骤S106中的相似度的定义是一致的。

例如，已知一组驾驶数据，包括X_i、

和

首先，在使用欧氏距离来确定相似度的前提下，可以结合公式7计算出特征提取模型的损失函数：

其中，φ(·)可以表征特征向量的计算公式，l可以是一个超参数，不随着训练的过程更新，但是可以调整其取值，再进行训练，根据训练结果的好坏决定其取值，例如，l可以是1、2、4等。

然后，调整损失函数，对特征提取模型进行训练。

总之，本公开的模型训练方法使用多组基于驾驶场景的样本数据训练模型，使得特征提取模型的损失函数最小，从而可以得出每个驾驶数据对应的特征向量，并根据特征向量计算每个驾驶数据与目标驾驶数据之间的距离，得出每个驾驶数据与目标驾驶数据之间的相似度，提高了每个驾驶数据与目标驾驶数据之间相似度的处理效率。

进一步的，本示例实施方式中还提供了一种驾驶数据处理方法。

图2示意性示出了本公开的示例性实施方式的驾驶数据处理方法的流程图。参考图2，驾驶数据处理方法可以包括以下步骤：

S201.获取当前驾驶数据，利用一训练后的特征提取模型对当前驾驶数据进行处理，确定出与当前驾驶数据对应的当前特征向量。

在本公开的示例性实施方式中，当前驾驶数据可以与步骤S102中基于驾驶场景的样本数据的类型相同，因此，在此不再赘述。

针对获取到的当前驾驶数据，可以进行驾驶数据预处理，将驾驶数据中不需要进行处理的数据裁剪，也可以将不同场景的驾驶数据转换成上述特征提取模型可以处理的形式。

训练后的特征提取模型是由上述模型训练方法训练得到的。确定出的当前特征向量可以是固定长度，也可以根据实际情况需要调整的动态长度。

另外，若实时性要求高，则可以将上述训练模型配置在车载终端设备上，实时处理驾驶数据，若实时性要求不高，则可以上述训练模型配置在服务器上处理驾驶数据。

S203.获取各历史驾驶数据对应的各历史特征向量，并分别计算各历史特征向量与当前特征向量之间的相似度。

各历史驾驶数据可以存储在车载终端设备的数据库中，也可以存储在服务器上。且各历史驾驶数据可以是在不同的历史驾驶场景中获取的驾驶数据。各历史驾驶数据可以利用上述训练后的模型进行处理，确定出各历史驾驶数据对应的各历史特征向量。

在本公开的示例性实施方式中，可以先利用上述训练后的模型对各历史驾驶数据进行处理，得到各历史驾驶数据对应的各历史特征向量，然后存储至数据库中，接着，在需要计算各历史特征向量与当前特征向量之间的相似度的情况下，直接从数据库中提取各历史特征向量进行计算。也可以在需要处理当前驾驶数据的情况下，利用上述训练后的模型对各历史驾驶数据进行处理，确定各历史驾驶数据对应的各历史特征向量，并计算各历史特征向量与当前特征向量之间的相似度。

其中，各历史特征向量与当前特征向量之间的相似度可以用，各历史特征向量与当前特征向量之间的欧式距离表征。需要说明的是，在本公开的示例性实施方式中可以采用欧式距离，但不限于此，可以包括但不限于以下方法：曼哈顿距离、切比雪夫距离、夹角余弦距离、卡方距离等。

S205.若各历史特征向量中存在与当前特征向量之间的相似度大于等于一预设阈值的目标特征向量，则确定与目标特征向量对应的目标驾驶数据。

在本公开的示例性实施方式中，目标特征向量可以是一个或者多个。也就是说，数据库中可以存储多个与当前驾驶数据相似的历史驾驶数据，即可能计算各历史特征向量与当前特征向量之间的相似度后，可能出现一个或者多个相似度大于预设阈值的目标特征向量。

预设阈值可以是固定值，也可以是根据实际情况调整的动态值，例如，预设阈值可以是0.8、0.9等。

相似度可以是0-1之间的值，0可以表示各历史特征向量与待处理特征向量没有相似度，1可以表示各历史特征向量与待处理特征向量完全相同。另外，0也可以表示各历史特征向量与待处理特征向量完全相同，1也可以表示各历史特征向量与待处理特征向量没有相似度，0-1之间的值可以表示各历史特征向量与待处理特征向量的相似程度。

S207.从数据库中删除目标驾驶数据并将当前驾驶数据存储至数据库中，或者丢弃所述当前驾驶数据。

执行步骤S205后，数据库中可能会确定一个或多个大于等于一预设阈值的目标特征向量，即确定一个或多个目标驾驶数据。在本公开的示例性实施方式中，从数据库方面考虑，可以将一个或多个目标驾驶数据删除，并将当前驾驶数据存储至数据库中；从当前驾驶数据方面考虑，也可以直接将当前驾驶数据丢弃。

需要注意的是，从数据库方面考虑，可以不考虑当前驾驶数据包含的具体驾驶信息，直接将目标驾驶数据删除并将当前驾驶数据存储至数据库中，也可以考虑通过比较当前驾驶数据包含的驾驶信息，与目标驾驶数据包含的驾驶信息之间，确定删除目标驾驶数据并当前驾驶数据存储至数据库中，还是直接将当前驾驶数据丢弃。

例如，在数据库中，确定出一个或多个与当前驾驶数据相似的目标驾驶数据后，接着，可以采用语义分析对目标驾驶数据和当前驾驶数据的信息进行判断，随后，确定执行从数据库中删除目标驾驶数据并将当前驾驶数据存储至数据库中的步骤。在本公开的示例性实施方式中，可以包含但不限于采用语义分析方法来确定是否需要执行从数据库中删除目标驾驶数据并将当前驾驶数据存储至数据库中的步骤。也可以根据实际场景情况来判断是否需要执行从数据库中删除目标驾驶数据并将当前驾驶数据存储至数据库中的步骤。

根据本公开的示例性实施例，若各历史特征向量与当前特征向量之间的相似度均小于预设阈值，也就是说，数据库中没有一个与当前驾驶数据相似的历史驾驶数据，即在数据库中可能没有存储当前驾驶数据，需要将当前驾驶数据存储至数据库中，为后续处理驾驶数据做准备。

综上所述，获取驾驶数据后，可以采用本公开的驾驶数据处理方法对驾驶数据进行处理，得到驾驶数据对应的特征向量，进而得出该特征向量与各历史特征向量之间的相似度。该驾驶数据处理方法提高了相似度的计算处理效率，有助于判断出该驾驶数据是否已存储，减少冗余数据的存储，提高存储资源的合理利用。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本示例实施方式中还提供了一种驾驶数据处理装置。

图3示意性示出了本公开的示例性实施方式的驾驶数据处理装置的方框图。参考图3，根据本公开的示例性实施方式的驾驶数据处理装置300可以包括：特征确定模块302、相似度计算模块304、相似度判断模块306和数据处理模块308。

其中，特征确定模块302，用于获取当前驾驶数据，利用一训练后的特征提取模型对当前驾驶数据进行处理，确定出与当前驾驶数据对应的当前特征向量；其中，训练后的特征提取模型是由上述的模型训练方法训练得到；相似度计算模块304，用于获取各历史驾驶数据对应的各历史特征向量，并分别计算各历史特征向量与当前特征向量之间的相似度；相似度判断模块306，用于若各历史特征向量中存在与当前特征向量之间的相似度大于等于一预设阈值的目标特征向量，则确定与目标特征向量对应的目标驾驶数据；数据处理模块308，用于从数据库中删除目标驾驶数据并将当前驾驶数据存储至数据库中，或者丢弃当前驾驶数据。

另外，根据本公开的示例性实施例，相似度判断模块306可以被配置为执行：若各历史特征向量与当前特征向量之间的相似度均小于预设阈值，则将当前驾驶数据存储至数据库中。

进一步的，本示例实施方式中还提供了一种模型训练装置。

图4示意性示出了本公开的示例性实施方式的模型训练装置的方框图。参考图4，根据本公开的示例性实施方式的模型训练装置400可以包括：样本获取模块401、特征提取模块403、相似度计算模块405和模型训练模块407。

其中，样本获取模401，用于获取多组基于驾驶场景的样本数据，每组样本数据包括第一样本数据、第二样本数据、目标样本数据；其中，第一样本数据与目标样本数据之间的相似度大于第二样本数据与目标样本数据之间的相似度；特征提取模块403，用于将第一样本数据、第二样本数据以及目标样本数据分别输入至特征提取模型，确定出第一样本数据对应的第一特征向量、第二样本数据对应的第二特征向量、以及目标样本数据对应的目标特征向量；相似度计算模块405，用于计算第一特征向量与目标特征向量的相似度，作为第一相似度，以及计算第二特征向量与目标特征向量的相似度，作为第二相似度；模型训练模块407，用于利用第一相似度和第二相似度对特征提取模型进行训练。

根据本公开的示例性实施例，参考图5，特征提取模块403可以包括：第一特征提取子模块502和第二特征提取子模块504。

其中，第一特征提取子模块502，用于将第一样本数据、第二样本数据以及目标样本数据分别输入至第一特征提取单元，确定出第一样本数据对应的第一特征矩阵、第二样本数据对应的第二特征矩阵、以及目标样本数据对应的目标特征矩阵；第二特征提取子模块504，用于将第一特征矩阵、第二特征矩阵以及目标特征矩阵分别输入至第二特征提取单元，确定出第一特征矩阵对应的第一特征向量、第二特征矩阵对应的第二特征向量、以及目标特征矩阵对应的目标特征向量。

根据本公开的示例性实施例，参考图6，第一特征提取子模块502可以包括：数据嵌入单元601和特征矩阵确定单元603。

其中，数据嵌入单元601，用于分别对第一样本数据、第二样本数据以及目标样本数据进行嵌入操作，确定出第一样本数据对应的第一中间矩阵、第二样本数据对应的第二中间矩阵、以及目标样本数据对应的目标中间矩阵；特征确定单元603，用于第一中间矩阵结合指定参数矩阵确定出第一特征矩阵，第二中间矩阵结合指定参数矩阵确定出第二特征矩阵，以及目标中间矩阵结合指定参数矩阵确定出目标特征矩阵。

根据本公开的示例性实施例，参考图7，模型训练模块407可以包括：损失函数确定单元702和模型训练单元704。

其中，损失函数确定单元702，用于基于第一相似度和第二相似度确定出损失函数；模型训练单元704，用于利用损失函数对特征提取模型进行训练。

由于本发明实施方式的程序运行性能分析装置的各个功能模块与上述方法发明实施方式中相同，因此在此不再赘述。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图8来描述根据本发明的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，电子设备800以通用计算设备的形式表现。电子设备900的组件可以包括但不限于：上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830、显示单元840。

其中，存储单元存储有程序代码，程序代码可以被处理单元810执行，使得处理单元810执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，处理单元810可以执行如图1中所示的步骤S102至步骤S108或者如图2中所示的步骤S201至步骤S207。

存储单元820可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202，还可以进一步包括只读存储单元(ROM)8203。

存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204，这样的程序模块8205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线830可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备800也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备800的设备通信，和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且，电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器860通过总线830与电子设备800的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备800使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种模型训练方法，其特征在于，包括：

获取多组基于驾驶场景的样本数据，每组样本数据包括第一样本数据、第二样本数据、目标样本数据；其中，所述第一样本数据与所述目标样本数据之间的相似度大于所述第二样本数据与所述目标样本数据之间的相似度；

将所述第一样本数据、所述第二样本数据以及所述目标样本数据分别输入至特征提取模型，确定出所述第一样本数据对应的第一特征向量、所述第二样本数据对应的第二特征向量、以及所述目标样本数据对应的目标特征向量；

计算所述第一特征向量与所述目标特征向量的相似度，作为第一相似度，以及计算所述第二特征向量与所述目标特征向量的相似度，作为第二相似度；

利用所述第一相似度和所述第二相似度对所述特征提取模型进行训练。

2.根据权利要求1所述的模型训练方法，其特征在于，所述特征提取模型包括第一特征提取单元和第二特征提取单元；其中，将所述第一样本数据、所述第二样本数据以及所述目标样本数据分别输入至特征提取模型，确定出所述第一样本数据对应的第一特征向量、所述第二样本数据对应的第二特征向量、以及所述目标样本数据对应的目标特征向量，包括：

将所述第一样本数据、所述第二样本数据以及所述目标样本数据分别输入至所述第一特征提取单元，确定出所述第一样本数据对应的第一特征矩阵、所述第二样本数据对应的第二特征矩阵、以及所述目标样本数据对应的目标特征矩阵；

将所述第一特征矩阵、所述第二特征矩阵以及所述目标特征矩阵分别输入至所述第二特征提取单元，确定出所述第一特征矩阵对应的第一特征向量、所述第二特征矩阵对应的第二特征向量、以及所述目标特征矩阵对应的目标特征向量。

3.根据权利要求2所述的模型训练方法，其特征在于，将所述第一样本数据、所述第二样本数据以及所述目标样本数据分别输入至所述第一特征提取单元，确定所述第一样本数据对应的第一特征矩阵、所述第二样本数据对应的第二特征矩阵、以及所述目标样本数据对应的目标特征矩阵包括：

分别对所述第一样本数据、所述第二样本数据以及所述目标样本数据进行嵌入操作，确定出所述第一样本数据对应的第一中间矩阵、所述第二样本数据对应的第二中间矩阵、以及所述目标样本数据对应的目标中间矩阵；

所述第一中间矩阵结合指定参数矩阵确定出第一特征矩阵，所述第二中间矩阵结合所述指定参数矩阵确定出第二特征矩阵，以及所述目标中间矩阵结合所述指定参数矩阵确定出目标特征矩阵。

4.根据权利要求1至3任一项所述的模型训练方法，其特征在于，利用所述第一相似度和所述第二相似度对所述特征提取模型进行训练包括：

基于所述第一相似度和所述第二相似度确定出损失函数；

利用所述损失函数对所述特征提取模型进行训练。

5.一种驾驶数据处理方法，其特征在于，包括：

获取当前驾驶数据，利用一训练后的特征提取模型对所述当前驾驶数据进行处理，确定出与所述当前驾驶数据对应的当前特征向量；其中，所述训练后的特征提取模型是由权利要求1至4中任一项所述的模型训练方法训练得到；

获取各历史驾驶数据对应的各历史特征向量，并分别计算各所述历史特征向量与所述当前特征向量之间的相似度；

若各所述历史特征向量中存在与所述当前特征向量之间的相似度大于等于一预设阈值的目标特征向量，则确定与所述目标特征向量对应的目标驾驶数据；

从数据库中删除所述目标驾驶数据并将所述当前驾驶数据存储至所述数据库中，或者丢弃所述当前驾驶数据。

6.根据权利要求5所述的驾驶数据处理方法，其特征在于，所述驾驶数据处理方法还包括：

若各历史特征向量与当前特征向量之间的相似度均小于预设阈值，则将所述当前驾驶数据存储至所述数据库中。

7.一种驾驶数据处理装置，其特征在于，包括：

特征确定模块，用于获取当前驾驶数据，利用一训练后的特征提取模型对所述当前驾驶数据进行处理，确定出与所述当前驾驶数据对应的当前特征向量；其中，所述训练后的特征提取模型是由权利要求1至4中任一项所述的模型训练方法训练得到；

相似度计算模块，用于获取各历史驾驶数据对应的各历史特征向量，并分别计算各所述历史特征向量与所述当前特征向量之间的相似度；

相似度判断模块，用于若各所述历史特征向量中存在与所述当前特征向量之间的相似度大于等于一预设阈值的目标特征向量，则确定与所述目标特征向量对应的目标驾驶数据；

数据处理模块，用于从数据库中删除所述目标驾驶数据并将所述当前驾驶数据存储至所述数据库中，或者丢弃所述当前驾驶数据。

8.一种模型训练装置，其特征在于，包括：

样本获取模块，用于获取多组基于驾驶场景的样本数据，每组样本数据包括第一样本数据、第二样本数据、目标样本数据；其中，所述第一样本数据与所述目标样本数据之间的相似度大于所述第二样本数据与目标样本数据之间的相似度；

特征提取模块，用于将所述第一样本数据、所述第二样本数据以及所述目标样本数据分别输入至特征提取模型，确定出所述第一样本数据对应的第一特征向量、所述第二样本数据对应的第二特征向量、以及所述目标样本数据对应的目标特征向量；

相似度计算模块，用于计算所述第一特征向量与所述目标特征向量的相似度，作为第一相似度，以及计算所述第二特征向量与所述目标特征向量的相似度，作为第二相似度；

模型训练模块，用于利用所述第一相似度和所述第二相似度对所述特征提取模型进行训练。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至4中任一项所述的模型训练方法或如权利要求5或6所述的驾驶数据处理方法。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至4中任一项所述的模型训练方法或如权利要求5或6所述的驾驶数据处理方法。