CN113837162B

CN113837162B - 数据处理方法及相关装置

Info

Publication number: CN113837162B
Application number: CN202111427501.4A
Authority: CN
Inventors: 韦伟
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-04-08
Anticipated expiration: 2041-11-29
Also published as: CN113837162A

Abstract

本申请涉及计算机技术领域，提供一种模型训练方法及相关装置，可应用于地图、交通、车载、自动驾驶、云技术、人工智能、辅助驾驶等各种场景，用以提高道路类型的识别准确率，其中，方法包括：基于获取的目标道路样本集合，获得多组训练数据，其中，每组训练数据中包含至少三个目标道路样本，至少三个目标道路样本中的一个目标道路样本的道路类型与其他目标道路样本的道路类型不同，然后，将多组训练数据分别输入待训练的道路特征转换模型进行迭代训练，并输出目标道路特征转换模型。这样，通过学习道路特征转换方式，提高机器学习模型的准确率，进而在模型应用过程中，提高道路类型的识别准确率。

Description

数据处理方法及相关装置

技术领域

本申请涉及计算机技术领域，提供一种数据处理方法及相关装置。

背景技术

随着导航技术的不断发展，导航系统的出现极大地提高了目标对象的出行效率。在导航系统中，识别存在道路较窄、铺设不平、长期占用等情况的道路，对于导航系统规避难走道路、提升导航服务水平具有重要作用。

相关技术中，通常将待识别道路的特征信息输入至机器学习模型中，得到待识别道路的类型信息。

然而，由于导航记录、轨迹和图片等用于提取特征信息的数据具有覆盖范围不均衡、过于稀疏的特点，因此，在不同程度上存在数据不足的问题，若采用机器学习模型直接进行道路类型的识别，会导致道路类型的识别准确率较低。

发明内容

本申请实施例提供一种模型训练方法及相关装置，用以提高道路类型的识别准确率。

第一方面，本申请实施例提供一种模型训练方法，包括：

获取目标道路样本集合，每个目标道路样本中包含相应的道路特征信息；

基于所述目标道路样本集合，获得多组训练数据，其中，每组训练数据中包含至少三个目标道路样本，所述至少三个目标道路样本中的一个目标道路样本的道路类型，与其他目标道路样本的道路类型不同；

将所述多组训练数据，分别输入待训练的道路特征转换模型进行迭代训练，并输出目标道路特征转换模型；其中，在每次训练中，基于所述道路特征转换模型，获得一组训练数据中，至少三个目标道路样本各自对应的道路特征编码，并基于得到的各个道路特征编码对应的模型损失值，进行模型参数调整。

第二方面，本申请实施例提供一种模型训练装置，包括：

获取单元，用于获取目标道路样本集合，每个目标道路样本中包含相应的道路特征信息；

组合单元，用于基于所述目标道路样本集合，获得多组训练数据，其中，每组训练数据中包含至少三个目标道路样本，所述至少三个目标道路样本中的一个目标道路样本的道路类型，与其他目标道路样本的道路类型不同；

训练单元，用于将所述多组训练数据，分别输入待训练的道路特征转换模型进行迭代训练，并输出目标道路特征转换模型；其中，在每次训练中，基于所述道路特征转换模型，获得一组训练数据中，至少三个目标道路样本各自对应的道路特征编码，并基于得到的各个道路特征编码对应的模型损失值，进行模型参数调整。

作为一种可能的实现方式，所述至少三个目标道路样本包括第一样本、第二样本和第三样本，所述第一样本和所述第二样本的道路类型相同，所述第一样本和所述第三样本的道路类型不同；训练单元用于通过以下方式确定所述模型损失值：

基于得到的各个道路特征编码，确定所述一组训练数据中，所述第一样本和所述第二样本的道路特征编码之间的第一距离；

基于得到的各个道路特征编码，确定所述一组训练数据中，所述第一样本和所述第三样本的道路特征编码之间的第二距离；

基于确定的第一距离和第二距离，确定所述各个道路特征编码对应的模型损失值。

作为一种可能的实现方式，所述基于确定的第一距离和第二距离，确定所述各个道路特征编码对应的模型损失值时，所述训练单元具体用于：

确定所述第一距离与所述第二距离之间的差值；

基于所述差值和预设的差值范围，得到所述各个道路特征编码对应的模型损失值。

作为一种可能的实现方式，所述获取目标道路样本集合时，所述获取单元具体用于：

获取各个应用场景各自对应的候选道路样本集合；

基于指定的样本抽取比例，分别从所述各个应用场景各自对应的候选道路样本集合中，抽取出目标道路样本集合。

作为一种可能的实现方式，所述道路特征信息中至少包含道路静态属性信息，所述道路静态属性信息中包括以下信息中的至少一项：道路等级、道路宽度、车道数、道路长度、道路铺设情况。

作为一种可能的实现方式，模型训练装置还包括应用单元，所述应用单元用于：

获取单元，用于获取目标应用场景中待识别道路的道路特征信息，以及获取所述目标应用场景中包含的各种候选道路类型各自对应的道路特征编码集合；

编码单元，用于将所述道路特征信息输入至目标道路特征转换模型中，并输出所述待识别道路对应的待识别道路特征编码；

识别单元，用于基于所述待识别道路特征编码和获取的各个道路特征编码集合，确定所述待识别道路的目标道路类型。

作为一种可能的实现方式，所述基于所述待识别道路特征编码和获取的各个道路特征编码集合，确定所述待识别道路的目标道路类型时，所述应用单元具体用于：

分别确定所述待识别道路特征编码与所述各个道路特征编码集合之间的距离；

将所述各个道路特征编码集合中，与所述待识别道路特征编码之间的距离不大于距离门限值的道路特征编码集合对应的候选道路类型，作为所述待识别道路的目标道路类型。

作为一种可能的实现方式，所述分别确定所述待识别道路特征编码与所述各个道路特征编码集合之间的距离时，所述应用单元具体用于：

分别确定所述待识别道路特征编码，与所述各个道路特征编码集合各自包含的各个道路特征编码之间的第三距离，并基于确定的各个第三距离，得到所述待识别道路特征编码与所述各个道路特征编码集合之间的距离；或者，

将所述识别道路特征编码，与所述各个道路特征编码集合各自对应的平均特征编码之间的距离，分别作为所述待识别道路特征编码与所述各个道路特征编码集合之间的距离。

作为一种可能的实现方式，所述基于确定的各个第三距离，得到所述待识别道路特征编码与所述各个道路特征编码集合之间的距离时，所述应用单元具体用于：

基于所述各个道路特征编码集合各自对应的各个第三距离，以及所述各个道路特征编码集合各自对应的特征编码总数目，确定所述各个道路特征编码集合各自对应的平均距离；

将所述各个道路特征编码集合各自对应的平均距离，分别作为所述待识别道路特征编码与所述各个道路特征编码集合之间的距离。

作为一种可能的实现方式，所述应用单元用于通过以下方式确定所述各种候选道路类型各自对应的道路特征编码集合：

获取目标应用场景对应的候选道路样本集合，每个候选道路样本中包含相应的道路特征信息；

将所述候选道路样本集合中包含的各个候选道路样本，分别输入至所述目标道路特征转换模型中，输出所述各个候选道路样本各自对应的道路特征编码；

基于各种候选道路类型，得到所述各种候选道路类型各自对应的道路特征编码集合。

第三方面，本申请实施例提供一种电子设备，包括处理器和存储器，其中，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行上述模型训练方法的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，其包括计算机程序，当所述计算机程序在电子设备上运行时，所述计算机程序用于使所述电子设备执行上述模型训练方法的步骤。

第五方面，本申请实施例提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中，电子设备的处理器从所述计算机可读存储介质中读取并执行所述计算机程序，使得电子设备执行上述模型训练方法的步骤。

本申请实施例中，在模型训练阶段，根据获取的目标道路样集合，获取多组训练数据，其中，每组训练数据中包含至少三个目标道路样本，所述至少三个目标道路样本中的一个目标道路样本的道路类型，与其他目标道路样本的道路类型不同，然后，根据多组训练数据，对用于将道路特征信息转换为道路特征编码的道路特征转换模型进行迭代训练，并输出目标道路特征转换模型。

这样，一方面，相对于直接学习道路样本的道路类型，本申请实施例中，只需要学习道路特征转换方式，从而降低了模型训练难度，提高了模型训练效率，另一方面，通过构建同时包含同类型道路样本和不同类型道路样本的各组训练数据，从而在迭代训练时，可以学习到同类型道路样本以及不同类型道路样本之间的差异，提高模型准确率，进而在模型应用阶段，提高了道路类型的识别准确率，此外，特别是针对小样本场景，由于不需要重复训练，依赖的样本数量较少，因此，能够减少样本标定所耗费的时间，进一步提高模型训练效率。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中提供的一种系统架构的示意图；

图2为本申请实施例中提供的一种模型训练方法的流程示意图；

图3为本申请实施例中提供的一种从各个候选道路样本集合中抽取目标道路样本集合的逻辑示意图；

图4为本申请实施例中提供的一种道路特征转换模型的示意图；

图5为本申请实施例中提供的一种确定三元组对应的模型损失值的逻辑示意图；

图6为本申请实施例中提供的一种道路类型识别方法的流程示意图；

图7为本申请实施例中提供的一种各种候选道路类型各自对应的道路特征编码集合的示意图；

图8为本申请实施例中提供的一种确定待识别道路的目标道路类型的流程示意图；

图9a为本申请实施例中提供的第一种确定待识别道路特征编码与第z类道路特征编码集合之间的距离的逻辑示意图；

图9b为本申请实施例中提供的第一种确定待识别道路特征编码与第z类道路特征编码集合之间的距离的逻辑示意图；

图10为本申请实施例中提供的一种确定目标道路类型的逻辑示意图；

图11为本申请实施例中提供的一种模型训练装置的结构示意图；

图12为本申请实施例中提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

下面对本申请实施例中涉及的部分概念进行介绍。

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。比如，本申请实施例中采用机器学习技术，在获取到待识别道路的道路特征信息之后，采用训练得到的目标道路特征转换模型，得到待识别道路对应的待识别道路特征编码，然后，将待识别道路特征编码与目标应用场景中包含的各种候选道路类型各自对应的道路特征编码集合进行对比，确定待识别道路的目标道路类型。

下面对本申请实施例的设计思想进行介绍。

然而，由于导航记录、轨迹和图片等用于提取特征信息的数据具有覆盖范围不均衡、过于稀疏的特点，因此，在不同程度上存在数据不足的问题，若采用机器学习模型直接进行道路类型的识别，会导致难走道路的识别准确率较低。

为了道路类型的识别准确率，本申请实施例中，基于获取的目标道路样本集合，获得多组训练数据，其中，每组训练数据中包含至少三个目标道路样本，至少三个目标道路样本中的一个目标道路样本的道路类型与其他目标道路样本的道路类型不同，然后，将多组训练数据，分别输入待训练的道路特征转换模型进行迭代训练，并输出目标道路特征转换模型。在每次训练中，针对一组训练数据中，基于道路特征转换模型，获得至少三个目标道路样本各自对应的道路特征编码，并基于得到的各个道路特征编码对应的模型损失值，进行模型参数调整。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请实施例及实施例中的特征可以相互组合。

参阅图1所示，其为本申请实施例适用的一种系统架构图。该架构至少包括终端设备101以及服务器102。终端设备101的数量可以是一个或多个，服务器102的数量也可以是一个或多个，本申请对终端设备101和服务器102的数量不做具体限定。

终端设备101中可以安装有目标应用，其中，目标应用可以是客户端应用、网页版应用、小程序应用等。在实际应用中，目标应用可以是任意具备信息处理功能的应用。终端设备101可以是手机、电脑、智能语音交互设备、智能家电、车载终端等，但并不局限于此。本申请实施例可应用于各种场景，包括但不限于地图、交通、车载、自动驾驶、云技术、人工智能、辅助驾驶，如可适用于交通领域中的智能交通系统（Intelligent Traffic System，ITS）以及智能车路协同系统（Intelligent Vehicle Infrastructure CooperativeSystems，IVICS）。

智能交通系统又称智能运输系统（Intelligent Transportation System），是将先进的科学技术（信息技术、计算机技术、数据通信技术、传感器技术、电子控制技术、自动控制理论、运筹学、人工智能等）有效地综合运用于交通运输、服务控制和车辆制造，加强车辆、道路、使用者三者之间的联系，从而形成一种保障安全、提高效率、改善环境、节约能源的综合运输系统。

智能车路协同系统，简称车路协同系统，是智能交通系统(ITS)的一个发展方向。车路协同系统是采用先进的无线通信和新一代互联网等技术，全方位实施车车、车路动态实时信息交互，并在全时空动态交通信息采集与融合的基础上开展车辆主动安全控制和道路协同管理，充分实现人车路的有效协同，保证交通安全，提高通行效率，从而形成的安全、高效和环保的道路交通系统。

服务器102可以是目标应用的后台服务器，为目标应用提供相应的服务，服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101与服务器102可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本申请实施例中的模型训练方法、模型训练方法均可以是终端设备101执行，也可以是服务器102执行，也可以由终端设备101与服务器102交互执行。

本申请实施例中涉及模型训练阶段和模型应用阶段，其中，在模型训练阶段，基于获取的目标道路样本集合，获得多组训练数据，其中，每组训练数据中包含至少三个目标道路样本，至少三个目标道路样本中的一个目标道路样本的道路类型，与其他目标道路样本的道路类型不同，然后，将多组训练数据，分别输入待训练的道路特征转换模型进行迭代训练，并输出目标道路特征转换模型。

在模型应用阶段，针对目标应用场景，在获取到待识别道路的道路特征信息之后，采用训练得到的目标道路特征转换模型，得到待识别道路对应的待识别道路特征编码，然后，将待识别道路特征编码与目标应用场景中包含的各种候选道路类型各自对应的道路特征编码集合进行对比，确定待识别道路的目标道路类型。

在道路特征转换模型投入使用之前，首先需要对道路特征转换模型进行训练，因此，下面先对道路特征转换模型的训练过程进行介绍。

参阅图2所示，其为本申请实施例中提供的一种道路特征转换模型的训练方法的流程示意图，该方法可以应用于终端设备，也可以应用于服务器，具体流程如下：

S201、获取目标道路样本集合，每个目标道路样本中包含相应的道路特征信息。

本申请实施例中，道路特征信息中至少包含道路静态属性信息，道路静态属性信息中包括以下信息中的至少一项：道路等级、道路宽度、车道数、道路长度、道路铺设情况信息。

其中，道路等级可以是预先根据基础路网的规划划分的等级，例如，针对城市道路，道路等级可以分为快速路、主干路、次干路、支路。道路铺设情况可以包括已铺设和未铺设两种情况，已铺设包括但不限于铺设水泥、沥青等材料。

例如，道路样本A1中的道路静态属性信中包含：道路等级、道路宽度、车道数、道路长度和道路铺设情况信息，其中，道路等级为快速路，道路宽度为40米，车道数为双向四车道，道路长度为2.8公里，道路铺设情况为已铺设。

为进一步提高模型训练效果以及道路类型识别准确率，道路特征信息中还可以融合多种特征信息，具体的，道路特征信息中还可以包括以下信息中的一项或多项：道路流量特征信息、道路车速特征信息、道路车流密度特征信息、道路偏航特征信息、道路邻域特征信息、道路多媒体信息。

其中，道路流量特征信息中可以包括：设定时长内道路的日均流量、周均流量、月均流量以及半年流量中的一项或多项。

道路流量特征信息中可以包括：设定时长内平均速度、25%位速度、中位速度、75%位速度、速度标准差、以及道路速度在各个区间的分布频率中的一项或多项。

道路车流密度特征信息中可以包括：设定时长内道路日均、周均、月均以及半年的轨迹点密度中的一项或多项。

道路偏航特征信息中可以包括：设定时长内道路导航的顺航数、偏航数和偏航率中的一项或多项，顺航数是指用户根据导航指示行驶的次数，偏航数是指用户未根据导航指示行驶的次数，偏航率可以根据顺航数和偏航数得到。

道路邻域特征信息中可以包括：设定范围内周边其他道路的数目，以及周边其他道路的道路流量特征信息、道路车速特征信息、道路车流密度特征信息、道路偏航特征信息中的一项或多项。

道路多媒体信息中可以包括但不限于道路图片、道路视频等。

需要说明的是，在本申请的具体实施方式中，涉及到道路偏航特征信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本申请实施例中，道路类型可以用于表征道路是否为难走道路，还可以用于表征道路难走程度。本申请实施例中，道路的难走程度可以采用分值表示，也可以采用等级标识，本文中仅以等级表示为例进行说明。在一些实施例中，道路类型还可以用于表征道路是否铺设、道路是否为长期封闭道路等等。

作为一种可能的实现方式，道路类型中的道路难走程度可以是针对难走道路划分的。例如，当道路难走程度为0~C时，道路均为难走道路，随着等级的增加，道路难走程度增加，其中，C的取值为正整数。

作为另一种可能的实现方式，道路难走程度也可以是针对难走道路和非难走道路划分的，非难走道路也可以称为普通道路，也就是说，道路难走程度不仅可以用于指示难走的难走程度，还可以用于指示道路是否为难走道路。例如，当道路难走程度为0时，道路为普通道路，当道路难走程度为1~C级时，道路为难走道路，随着等级的增加，道路难走程度增加。当然，也可以采用其他可能的值来进行标注，本申请实施例对此并不进行限制。下本中仅以道路难走程度同时指示道路是否为难走道路为例进行说明。

由于导航所需的基础路网往往具有覆盖地域范围广的特征，道路特征和道路周围环境复杂多变，在不同区域，道路类型有着很大的差异，例如，城区的道路类型和郊区的道路类型就存在较大不同。因此，为提高训练效率，实现单次训练、多场景适用的效果，在一些实施例中，目标道路样本集合可以通过以下方式确定：

获取各个应用场景各自对应的候选道路样本集合；基于指定的样本抽取比例，分别从应用场景各自对应的候选道路样本集合中，抽取出目标道路样本集合。

本申请实施例中，可以根据“地理区域”和“是否城区”两个维度，划分各个应用场景。若导航业务覆盖的空间范围内包括N个地理区域，则应用场景包括：区域1城区、区域1非城区、区域2城区、区域2非城区、……、区域N城区，区域N非城区。其中，地理区域可以根据省级、市级等行政规划划分，也可以根据实际应用划分，对此不作限定。

例如，参阅表1所示，若地理区域包括A省、B省、……、N省，则应用场景包括：A省城区、A省非城区、B省城区、B省非城区、……、N省城区，N省非城区。

表1 应用场景

下文中，仅以4个应用场景为例进行说明，4个应用场景包括：A省城区、A省非城区、B省城区、B省非城区。

其中，A省城区对应的候选道路样本集合中包含：道路样本A1、道路样本A2、……、道路样本AM1，A省非城区对应的候选道路样本集合中包含：道路样本B1、道路样本B2、……、道路样本BM2，B省城区对应的候选道路样本集合中包含：道路样本C1、道路样本C2、……、道路样本CM3，B省非城区对应的候选道路样本集合中包含：道路样本D1、道路样本D2、……、道路样本DM4。M1、M2、M3、M4的取值均为正整数，M1、M2、M3、M4的取值可以完全相同，也可以部分相同，还可以完全不同，对此不作限制。

本申请实施例中，在根据指定的样本抽取比例，从各个应用场景各自对应的候选道路样本集合中，抽取出目标道路样本集合时，可以根据预设的目标道路样本总数目，以及指定的样本抽取比例，确定各个应用场景各自对应的候选道路样本集合中子目标样本数目，然后，根据各个子目标样本数目，从应用场景各自对应的候选道路样本集合中，分别抽取出各个目标样本，得到目标道路样本集合。

例如，参阅图3所示，假设，A省城区、A省非城区、B省城区、B省非城区的样本抽取比例为2:2:1:1，目标道路样本总数目为6万，则确定A省城区对应的候选道路样本集合的子目标样本数目为2万，确定A省非城区对应的候选道路样本集合的子目标样本数目为2万，确定B省城区对应的候选道路样本集合的子目标样本数目为1万，确定B省非城区对应的候选道路样本集合的子目标样本数目为1万，然后，根据各个子目标样本数目，从A省城区对应的候选道路样本集合抽取出包含2万个目标样本，从A省非城区对应的候选道路样本集合抽取出2万个目标样本，从B省城区对应的候选道路样本集合抽取出1万个目标样本，从B省非城区对应的候选道路样本集合抽取出1万个目标样本，得到目标道路样本集合，其中，目标道路样本集合中包含道路样本A1、道路样本A5、道路样本B1、道路样本B3、道路样本C2、道路样本D3等。

S202、基于目标道路样本集合，获得多组训练数据，其中，每组训练数据中包含至少三个目标道路样本，至少三个目标道路样本中的一个目标道路样本的道路类型，与其他目标道路样本的道路类型不同。

本申请实施例中，可以预先对候选道路样本进行标注。考虑到降低标注成本，提高标注效率，本申请实施例中，也可以在抽取出目标道路样本之后，对目标道路样本的样本类型进行标注，对此不作限制。

下文中仅以每组训练数据包含三个目标道路样本为例进行说明。为了便于描述，采用训练数据集合D表示目标道路样本集合，采用三元组{a，p，n}表示一组训练数据，{a，p，n}可以是多组训练数据中的任意一组训练数据，其中，a与p的道路类型相同，a与n的道路类型不同。本文中，a也可以称为第一样本，p也可以称为第二样本，n也可以称为第三样本。

例如，三元组{a，p，n}中，a为道路样本A1、p为道路样本C1、n为道路样本B1，其中，道路样本A1的道路类型表征道路样本A1的道路难走程度为1级，道路样本C1的道路类型表征道路样本C1的道路难走程度为1级，道路样本B1的道路类型表征道路样本B1的道路难走程度为2级。

S203、将多组训练数据中的一组训练数据，输入待训练的道路特征转换模型，得到一组训练数据中，至少三个目标道路样本各自对应的道路特征编码。

本申请实施例中，道路特征转换模型用于将输入的道路特征信息转换为道路特征编码，道路特征转换模型可以采用特征转化神经网络实现，特征转化神经网络可以采用但不限于以下网络中的一项或组合：全联接神经网络、卷积神经网络、循环神经网络、变换器（Transformer）网络。

例如，参阅图4所示，将a输入至待训练的道路特征转换模型中，得到a对应的道路特征编码，将p输入至待训练的道路特征转换模型中，得到p对应的道路特征编码，将n输入至待训练的道路特征转换模型中，得到n对应的道路特征编码。

需要说明的是，本申请实施例中，执行S203时，可以从多组训练数据中，任意选取一组训练数据，也可以按照顺序，依次选取训练数据，对此不作限制。

S204、基于得到的各个道路特征编码对应的模型损失值，进行模型参数调整。

需要说明的是，本申请实施例中，各个道路特征编码对应的模型损失值，也可以理解为一组训练数据对应的模型损失值。

考虑到在小样本情况下，提高模型训练效果，在一些实施例中，参阅图5所示，可以通过以下方式确定{a，p，n}对应的模型损失值：

基于得到的各个道路特征编码，确定a和p各自对应的道路特征编码之间的同类编码距离；基于得到的各个道路特征编码，确定a和n各自对应的道路特征编码之间的异类编码距离；基于确定的同类编码距离和异类编码距离，确定{a，p，n}对应的模型损失值。本文中，同类编码距离也可以称为第一距离，异类编码距离也可以称为第二距离。

为了使得不同类型的道路更容易区分，道路特征转换模型输出的编码应当使得不同类型的道路之间的差异尽量大、同一类型的道路之间的差异尽量小，具体的，基于确定的第一距离和第二距离，确定{a，p，n}对应的模型损失值时，可以确定第一距离与第二距离之间的差值，然后，基于差值和预设的差值范围，得到{a，p，n}对应的模型损失值。

具体的，{a，p，n}对应的模型损失值Loss_j可以根据以下公式得到：

相应的，道路特征转换模型的损失函数可以表示为：

其中，Loss表示损失函数，

表示训练数据集合D中包含的训练数据的组数，

、

、

分别表示第j个三元组中a、p、n对应的道路特征信息，

、

、

分别表示第j个三元组中a、p、n对应的道路特征编码，

算子表示2范数，

算子用于计算同类编码距离与异类编码距离，

算子表示取正运算，α表示同类编码距离与异类编码距离之间的期望差值，也可以理解为，α用于表征预设的差值范围，示例性的，α的取值可以是（0.0,5.0]中的正实数。

例如，假设，α的取值为0.1，a为道路样本A1、p为道路样本C1、n为道路样本B1，道路样本A1与道路样本C1之间的同类编码距离为0.1，道路样本A1与道路样本B1之间的异类编码距离为1，基于差值-0.9和预设的差值范围，得到{道路样本A1，道路样本C1，道路样本B1}对应的模型损失值为0。

又例如，假设，α的取值为2，a为道路样本A1、p为道路样本C1、n为道路样本B1，道路样本A1与道路样本C1之间的同类编码距离为0.1，道路样本A1与道路样本B1之间的异类编码距离为1，基于差值-0.9和预设的差值范围，得到{道路样本A1，道路样本C1，道路样本B1}对应的模型损失值为1.1。

需要说明的是，本申请实施例中，可以先确定第一距离，再确定第二距离，也可以先确定第二距离，再确定第一距离，对此不作限制。

S205、判断是否符合模型输出条件，若是，执行S206，否则，进行下一次迭代训练，即返回执行S203。

S206、输出目标道路特征转换模型。

本申请实施例中，可以通过梯度下降法，对道路特征转换模型训练，以使损失函数最小化。

本申请实施例中，当模型损失值的取值小于设定的损失阈值时，则表明道路特征转换模型的准确度能够达到要求，因而可以确定符合模型输出条件，相反的，当模型损失值的取值不小于设定的损失阈值时，则表明道路特征转换模型的准确度未能达到要求，那么进一步对模型进行参数调整，并通过参数调整后的模型进行后续的训练流程，即重复进行S203~205的过程。需要说明的是，本申请实施例中模型输出条件并不仅限于判断模型是否收敛，还可以是判断迭代训练次数是否达到预设阈值，若是，则结束训练，对此，本申请不做具体限定。

本申请实施例中，在训练得到目标道路特征转换模型之后，则可以利用已训练的目标道路特征转换模型对待识别道路进行识别。

参阅图6所示，其为本申请实施例中提供的一种道路类型识别方法的流程示意图，其特征在于，该方法包括：

S601、获取目标应用场景中待识别道路的道路特征信息，以及获取目标应用场景中包含的各种候选道路类型各自对应的道路特征编码集合。

本申请实施例中，在训练得到目标道路特征转换模型之后，可以分别针对各个应用场景，分别构建各种候选道路类型各自对应的道路特征编码集合。

下面，以应用场景i为例进行说明，应用场景i为各个应用场景中的任意一个应用场景。

具体的，应用场景i下各种候选道路类型各自对应的道路特征编码集合可以通过以下方式确定：

获取应用场景i对应的候选道路样本集合，并将候选道路样本集合中包含的各个候选道路样本，分别输入至目标道路特征转换模型中，输出各个候选道路样本各自对应的道路特征编码，以及基于各种候选道路类型，得到各种候选道路类型各自对应的道路特征编码集合。

需要说明的是，本申请实施例中，应用场景i对应的候选道路样本集合中包含有各种候选道路类型的各个候选道路样本。

以应用场景i为A省城区为例，参阅图7所示，候选道路类型包括：第1种道路类型、第2种道路类型、……、第Q种道路类型，Q的取值为正整数，其中，第1种道路类型为难走0级，第2种道路类型为难走1级、……、第Q种道路类型为难走C级，获取A省城区对应的候选道路样本集合之后，将候选道路样本：道路样本A1、道路样本A2、……、道路样本AM1，分别输入至目标道路特征转换模型中，输出各个候选道路样本各自对应的道路特征编码，以及基于各种候选道路类型，得到第1种道路类型对应的道路特征编码集合、第2种道路类型对应的道路特征编码集合、……、第Q种道路类型对应的道路特征编码集合。

需要说明的是，本申请实施例中，为减少识别次数，提高识别效率，也可以在从应用场景i对应的候选道路样本集合中，抽取出的各个目标道路样本之后，将各个目标道路样本，分别输入至目标道路特征转换模型中，输出各个目标道路样本各自对应的道路特征编码，以及基于各种候选道路类型，得到各种候选道路类型各自对应的道路特征编码集合，由于与候选道路样本的特征编码过程类似，在此不再赘述。

S602、将道路特征信息输入至目标道路特征转换模型中，并输出待识别道路对应的待识别道路特征编码。

由于S602中的特征编码过程与S203中的特征编码过程相同，在此不再赘述，具体参见S203。

S603、基于待识别道路特征编码和获取的各个道路特征编码集合，确定待识别道路的目标道路类型。

具体的，参阅图8所示，执行S603时，可以采用以下步骤：

S801、分别确定待识别道路特征编码与各个道路特征编码集合之间的距离。

下面，以待识别道路特征编码与道路类型z对应的道路特征编码集合之间的距离为例进行说明，道路类型z为各种候选道路类型中的任意一种道路类型。本文中，将道路类型z对应的道路特征编码集合也可以称为第z类道路特征编码集合。

待识别道路特征编码与道路类型z对应的道路特征编码集合之间的距离可以采用但不限于以下两种可能的方式确定：

第一种可能的方式：分别确定待识别道路特征编码，与道路特征编码集合Z中包含的各个道路特征编码之间的第三距离，并基于确定的各个第三距离，得到待识别道路特征编码与道路类型z对应的道路特征编码集合之间的距离。

具体的，确定各个第三距离之后，可以通过以下方式得到待识别道路特征编码与道路类型z对应的道路特征编码集合之间的距离：

基于第z类道路特征编码集合对应的各个第三距离，以及第z类道路特征编码集合对应的特征编码总数目，确定第z类道路特征编码集合对应的平均距离；将第z类道路特征编码集合对应的平均距离，作为待识别道路特征编码与第z类道路特征编码集合之间的距离。

本申请实施例中，待识别道路特征编码与第z类道路特征编码集合之间的距离可以采用以下公式确定：

其中，t表示待识别道路，

为场景i下，t与第z种道路类型对应的道路特征编码集合之间的距离，

为待识别道路特征编码，

为第z种道路类型对应的道路特征编码集合中第x个道路特征编码，s（z）表示第z类道路特征编码集合中包含的道路特征编码的数目，

算子表示2范数。

例如，参阅图9a所示，假设，道路类型z为难走C级，难走C级对应的道路特征编码集合中包含：道路样本A11、道路样本A12和道路样本A12，确定待识别道路与道路样本A11之间的第三距离为4，确定待识别道路与道路样本A12之间的第三距离为3，确定待识别道路与道路样本A13之间的第三距离为5，然后，基于确定的各个第三距离，以及难走C级对应的道路特征编码集合的特征编码总数目3，确定难走C级对应的道路特征编码集合对应的平均距离为4，之后，将平均距离4，作为待识别道路特征编码与难走C级对应的道路特征编码集合之间的距离。

第二种可能的方式，将识别道路特征编码，与各个道路特征编码集合各自对应的平均特征编码之间的距离，分别作为待识别道路特征编码与各个道路特征编码集合之间的距离。

具体的，待识别道路特征编码与各个道路特征编码集合之间的距离可以采用以下公式确定：

其中，t表示待识别道路，

为待识别道路特征编码，

算子表示2范数。

仍以道路类型z为难走C级为例，参阅图9b所示，假设，难走C级对应的道路特征编码集合中包含：道路样本A11、道路样本A12和道路样本A12，难走C级对应的特征编码集合的平均特征编码为4，将识别道路特征编码，与各个道路特征编码集合各自对应的平均特征编码，作为待识别道路特征编码与难走C级对应的特征编码集合之间的距离。

S802、将各个道路特征编码集合中，与待识别道路特征编码之间的距离不大于距离门限值的道路特征编码集合对应的候选道路类型，作为待识别道路的目标道路类型。

本申请实施例中，距离门限值可以是（0.0,5.0]中的任意一个正实数。

例如，参阅图10所示，第1种候选道路类型、第2种候选道路类型、……、第z种候选道路类型分别为难走0级、难走1级、难走2级、难走4级，待识别道路特征编码与第1种道路特征编码集合之间的距离D1为2，待识别道路特征编码与第2种道路特征编码集合之间的距离D2为2，待识别道路特征编码与第3种道路特征编码集合之间的距离D3为1，待识别道路特征编码与第4种对应的道路特征编码集合之间的距离D4为4，假设，距离门限值为1，各个道路特征编码集合中，难走2级对应的道路特征编码集合与待识别道路特征编码之间的距离不大于距离门限值，因此，将难走2级作为待识别道路的目标道路类型。

基于相同的发明构思，本申请实施例提供一种模型训练装置。如图11所示，其为模型训练装置1100的结构示意图，可以包括：

获取单元1101，用于获取目标道路样本集合，每个目标道路样本中包含相应的道路特征信息；

组合单元1102，用于基于所述目标道路样本集合，获得多组训练数据，其中，每组训练数据中包含至少三个目标道路样本，所述至少三个目标道路样本中的一个目标道路样本的道路类型，与其他目标道路样本的道路类型不同；

训练单元1103，用于将所述多组训练数据，分别输入待训练的道路特征转换模型进行迭代训练，并输出目标道路特征转换模型；其中，在每次训练中，基于所述道路特征转换模型，获得一组训练数据中，至少三个目标道路样本各自对应的道路特征编码，并基于得到的各个道路特征编码对应的模型损失值，进行模型参数调整。

作为一种可能的实现方式，所述至少三个目标道路样本包括第一样本、第二样本和第三样本，所述第一样本和所述第二样本的道路类型相同，所述第一样本和所述第三样本的道路类型不同；训练单元1103用于通过以下方式确定所述模型损失值：

作为一种可能的实现方式，所述基于确定的第一距离和第二距离，确定所述各个道路特征编码对应的模型损失值时，所述训练单元1103具体用于：

确定所述第一距离与所述第二距离之间的差值；

作为一种可能的实现方式，所述获取目标道路样本集合时，所述获取单元1101具体用于：

获取各个应用场景各自对应的候选道路样本集合；

作为一种可能的实现方式，所述道路特征信息中还包含：所述道路特征信息中还包含以下信息中的至少一项：道路流量特征信息、道路车速特征信息、道路车流密度特征信息、道路偏航特征信息、道路邻域特征信息、道路多媒体信息。

作为一种可能的实现方式，模型训练装置1100还包括应用单元1104，所述应用单元1104用于：

获取目标应用场景中待识别道路的道路特征信息，以及获取所述目标应用场景中包含的各种候选道路类型各自对应的道路特征编码集合；

将所述道路特征信息输入至目标道路特征转换模型中，并输出所述待识别道路对应的待识别道路特征编码；

基于所述待识别道路特征编码和获取的各个道路特征编码集合，确定所述待识别道路的目标道路类型。

作为一种可能的实现方式，所述基于所述待识别道路特征编码和获取的各个道路特征编码集合，确定所述待识别道路的目标道路类型时，所述应用单元1104具体用于：

作为一种可能的实现方式，所述分别确定所述待识别道路特征编码与所述各个道路特征编码集合之间的距离时，应用单元1104具体用于：

作为一种可能的实现方式，所述基于确定的各个第三距离，得到所述待识别道路特征编码与所述各个道路特征编码集合之间的距离时，所述应用单元1104具体用于：

作为一种可能的实现方式，所述应用单元1104用于通过以下方式确定所述各种候选道路类型各自对应的道路特征编码集合：

为了描述的方便，以上各部分按照功能划分为各模块（或单元）分别描述。当然，在实施本申请时可以把各模块（或单元）的功能在同一个或多个软件或硬件中实现。

关于上述实施例中的装置，其中各个单元执行请求的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在介绍了本申请示例性实施方式的模型训练方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

图12是根据一示例性实施例示出的一种电子设备1200的框图，该装置包括：

处理器1210；

用于存储处理器1210可执行指令的存储器1220；

其中，处理器1210被配置为执行指令，以实现本申请实施例中的模型训练方法或道路类型识别方法，例如，图2、图6或图8中所示的步骤。

在示例性实施例中，还提供了一种包括操作的存储介质，例如包括操作的存储器1220，上述操作可由电子设备1200的处理器1210执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、便携式紧凑盘只读存储器（Compact Disk Read Only Memory，CD-ROM）、磁带、软盘和光数据存储设备等。

基于同一发明构思，本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中各种可选实现方式中提供的模型训练方法或道路类型识别方法。

在一些可能的实施方式中，本申请提供的模型训练方法、道路类型识别方法的各个方面还可以实现为一种程序产品的形式，其包括计算机程序，当程序产品在计算机设备上运行时，计算机程序用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的模型训练方法或道路类型识别方法中的步骤，例如，计算机设备可以执行如图2、图6或图8中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器（EPROM或闪存）、光纤、CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的程序产品可以采用CD-ROM并包括程序代码，并可以在计算装置上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种数据处理方法，其特征在于，该方法包括：

获取各个应用场景各自对应的候选道路样本集合，并基于指定的样本抽取比例，分别从所述各个应用场景各自对应的候选道路样本集合中，抽取出目标道路样本集合，其中，每个目标道路样本中包含相应的道路特征信息，每个应用场景是基于地理位置区域划分的；

将所述多组训练数据，分别输入待训练的道路特征转换模型进行迭代训练，并输出目标道路特征转换模型；其中，在每次训练中，基于所述道路特征转换模型，获得一组训练数据中，至少三个目标道路样本各自对应的道路特征编码，并基于得到的各个道路特征编码对应的模型损失值，进行模型参数调整；

获取目标应用场景中待识别道路的道路特征信息，以及获取所述目标应用场景中包含的各种候选道路类型各自对应的道路特征编码集合；其中，所述各个应用场景中包含所述目标应用场景，每种候选道路类型对应的道路特征编码集合是基于所述目标道路特征转换模型得到的；

将所述待识别道路的道路特征信息，输入至所述目标道路特征转换模型中，并输出所述待识别道路对应的待识别道路特征编码；

基于所述待识别道路特征编码和获取的各个道路特征编码集合，确定所述待识别道路的目标道路类型；

其中，每个道路特征信息中至少包含道路静态属性信息，所述道路静态属性信息中包括以下信息中的至少一项：道路等级、道路宽度、车道数、道路长度、道路铺设情况。

2.如权利要求1所述的方法，其特征在于，所述至少三个目标道路样本包括第一样本、第二样本和第三样本，所述第一样本和所述第二样本的道路类型相同，所述第一样本和所述第三样本的道路类型不同；

所述模型损失值是通过以下方式确定的：

3.如权利要求2所述的方法，其特征在于，所述基于确定的第一距离和第二距离，确定所述各个道路特征编码对应的模型损失值，包括：

确定所述第一距离与所述第二距离之间的差值；

4.如权利要求1-3中任一项所述的方法，其特征在于，所述基于所述待识别道路特征编码和获取的各个道路特征编码集合，确定所述待识别道路的目标道路类型，包括：

5.如权利要求4所述的方法，其特征在于，所述分别确定所述待识别道路特征编码与所述各个道路特征编码集合之间的距离，包括：

6.如权利要求5所述的方法，其特征在于，所述基于确定的各个第三距离，得到所述待识别道路特征编码与所述各个道路特征编码集合之间的距离，包括：

7.如权利要求1-3中任一项所述的方法，其特征在于，所述各种候选道路类型各自对应的道路特征编码集合是通过以下方式确定的：

8.如权利要求1-3中任一项所述的方法，其特征在于，所述道路特征信息中还包含以下信息中的至少一项：道路流量特征信息、道路车速特征信息、道路车流密度特征信息、道路偏航特征信息、道路邻域特征信息、道路多媒体信息。

9.一种数据处理装置，其特征在于，包括：

获取单元，用于获取各个应用场景各自对应的候选道路样本集合，并基于指定的样本抽取比例，分别从所述各个应用场景各自对应的候选道路样本集合中，抽取出目标道路样本集合，其中，每个目标道路样本中包含相应的道路特征信息，每个应用场景是基于地理位置区域划分的；

训练单元，用于将所述多组训练数据，分别输入待训练的道路特征转换模型进行迭代训练，并输出目标道路特征转换模型；其中，在每次训练中，基于所述道路特征转换模型，获得一组训练数据中，至少三个目标道路样本各自对应的道路特征编码，并基于得到的各个道路特征编码对应的模型损失值，进行模型参数调整；

应用单元，用于获取目标应用场景中待识别道路的道路特征信息，以及获取所述目标应用场景中包含的各种候选道路类型各自对应的道路特征编码集合，其中，每种候选道路类型对应的道路特征编码集合是基于所述目标道路特征转换模型得到的，所述各个应用场景中包含所述目标应用场景；将所述道路特征信息输入至所述目标道路特征转换模型中，并输出所述待识别道路对应的待识别道路特征编码；以及，基于所述待识别道路特征编码和获取的各个道路特征编码集合，确定所述待识别道路的目标道路类型；

10.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1-8中任一所述方法的步骤。

11.一种计算机可读存储介质，其特征在于，其包括计算机程序，当所述计算机程序在电子设备上运行时，所述计算机程序用于使所述电子设备执行权利要求1-8中任一所述方法的步骤。

12.一种计算机程序产品，其特征在于，其包括计算机程序，所述计算机程序存储在计算机可读存储介质中，电子设备的处理器从所述计算机可读存储介质读取并执行所述计算机程序，使得所述电子设备执行权利要求1-8中任一所述方法的步骤。