CN113326877A

CN113326877A - 模型训练、数据处理方法、装置、设备、存储介质及程序

Info

Publication number: CN113326877A
Application number: CN202110590579.1A
Authority: CN
Inventors: 何元钦
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-08-31

Abstract

本发明公开了一种模型训练、数据处理方法、装置、设备、存储介质及程序，所述方法包括：获取完整轨迹信息对应的多个轨迹点数据，每个轨迹点数据包括轨迹点对应的第一位置类别，对第一轨迹点数据中的第一位置类别进行干扰处理，得到干扰轨迹点数据，通过待训练的预设模型对干扰轨迹点数据和第二轨迹点数据进行处理，得到第一轨迹点数据对应的预测位置类别，根据第一轨迹点数据对应的第一位置类别和预测位置类别，更新预设模型的模型参数。本发明训练得到的预设模型具有对轨迹点的位置类别进行补全的能力，从而可以使用训练后的预设模型对不完整轨迹信息进行补全处理，得到完整轨迹信息。

Description

模型训练、数据处理方法、装置、设备、存储介质及程序

技术领域

本发明涉及人工智能技术领域，尤其涉及一种模型训练、数据处理方法、装置、设备、存储介质及程序。

背景技术

一些应用场景中，例如，交通拥堵模拟场景、疾病传播模拟场景等，需要针对用户出行特征进行分析和建模。而出行特征可以通过对用户轨迹信息进行分析得到。

相关技术中，可以通过终端设备记录用户的轨迹信息。具体的，终端设备可以采集用户所处位置。这样，根据终端设备在预设时段内所采集的用户所处的多个位置，可以得到用户的轨迹信息。例如，用户的轨迹信息可以为：位置A(10点)->位置B(11点)->位置C(12点)->位置D(13点)->位置E(14点)。

然而，实际应用中，终端设备对用户所处位置的记录频率依赖于用户的使用场景和使用习惯，导致终端设备采集的轨迹信息可能是不完整的。例如，终端设备仅记录了位置A(10点)->位置E(14点)，中间时间点(11点、12点、13点)所处位置是缺失的。因此，如何对不完整轨迹信息进行补全是亟待解决的技术问题。

发明内容

本发明的主要目的在于提供一种模型训练、数据处理方法、装置、设备、存储介质及程序，以提供一种对不完整轨迹信息进行补全的方式。

第一方面，本发明提供一种模型训练方法，所述方法包括：

获取完整轨迹信息对应的多个轨迹点数据，每个轨迹点数据包括轨迹点对应的第一位置类别；

对第一轨迹点数据中的第一位置类别进行干扰处理，得到干扰轨迹点数据，所述第一轨迹点数据为所述多个轨迹点数据中的部分轨迹点数据；

通过待训练的预设模型对所述干扰轨迹点数据和第二轨迹点数据进行处理，得到所述第一轨迹点数据对应的预测位置类别，所述第二轨迹点数据为所述多个轨迹点数据中除所述第一轨迹点数据之外的轨迹点数据；

根据所述第一轨迹点数据对应的第一位置类别和所述预测位置类别，更新所述预设模型的模型参数。

一种可能的实现方式中，通过待训练的预设模型对所述干扰轨迹点数据和第二轨迹点数据进行处理，得到所述第一轨迹点数据对应的预测位置类别，包括：

通过所述预设模型中的第一子模型对所述干扰轨迹点数据和所述第二轨迹点数据进行处理，得到所述干扰轨迹点数据对应的特征向量；

通过所述预设模型中的第二子模型对所述特征向量进行处理，得到所述第一轨迹点数据对应的预测位置类别；

根据所述第一轨迹点数据对应的第一位置类别和所述预测位置类别，更新所述预设模型的模型参数，包括：

根据所述第一轨迹点数据对应的第一位置类别和所述预测位置类别，更新所述第一子模型和所述第二子模型的模型参数。

一种可能的实现方式中，通过所述预设模型中的第一子模型对所述干扰轨迹点数据和所述第二轨迹点数据进行处理，得到所述干扰轨迹点数据对应的特征向量，包括：

确定所述干扰轨迹点数据对应的位置类别向量；

确定所述第二轨迹点数据对应的位置类别向量；

将所述干扰轨迹点数据对应的位置类别向量以及所述第二轨迹点数据对应的位置类别向量输入至所述第一子模型，以使所述第一子模型输出所述干扰轨迹点数据对应的特征向量。

一种可能的实现方式中，对第一轨迹点数据中的第一位置类别进行干扰处理，包括下述中的任意一种：

将所述第一轨迹点数据中的第一位置类别替换为预设信息；

将所述第一轨迹点数据中的第一位置类别替换为其他位置类别；

将所述第一轨迹点数据中的第一位置类别保持不变。

一种可能的实现方式中，获取完整轨迹信息对应的多个轨迹点数据，包括：

获取预设时段对应的第一轨迹信息，所述第一轨迹信息包括N个轨迹点数据，所述N为大于1的整数；

根据所述N的取值以及所述N个轨迹点数据对应的轨迹时刻的分布情况，确定所述第一轨迹信息是否为完整轨迹信息，所述轨迹时刻为采集轨迹点数据的时刻；

若是，则将所述N个轨迹点数据确定为所述多个轨迹点数据；

若否，则对所述N个轨迹点数据进行补全处理，得到所述多个轨迹点数据。

一种可能的实现方式中，对所述N个轨迹点数据进行补全处理，得到所述多个轨迹点数据，包括：

获取所述N个轨迹点数据对应的轨迹时刻；

根据所述N个轨迹点数据对应的轨迹时刻，确定至少一个待补充轨迹点数据对应的轨迹时刻；

根据所述N个轨迹点数据和所述至少一个待补充轨迹点数据对应的轨迹时刻，生成所述至少一个待补充轨迹点数据；

根据所述N个轨迹点数据和所述至少一个待补充轨迹点数据，得到所述多个轨迹点数据。

一种可能的实现方式中，根据所述N个轨迹点数据和所述至少一个待补充轨迹点数据对应的轨迹时刻，生成所述至少一个待补充轨迹点数据，包括：

针对任意一个待补充轨迹点数据，根据所述待补充轨迹点数据对应的轨迹时刻，在所述N个轨迹点数据中确定目标轨迹点数据，所述目标轨迹点数据对应的轨迹时刻与所述待补充轨迹点数据对应的轨迹时刻之间的时间差最小；

将所述目标轨迹点数据确定为所述待补充轨迹点数据。

一种可能的实现方式中，根据所述第一轨迹点数据对应的第一位置类别和所述预测位置类别，更新所述预设模型的模型参数，包括：

根据所述第一轨迹点数据对应的第一位置类别和所述预测位置类别，确定损失函数；

通过所述损失函数，更新所述预设模型的模型参数。

一种可能的实现方式中，根据所述第一轨迹点数据对应的第一位置类别和所述预测位置类别，更新所述预设模型的模型参数之后，还包括：

判断更新后的预设模型是否收敛；

若是，则将更新后的预设模型作为训练完成的模型；

若否，则重复对所述预设模型进行训练，直至更新后的预设模型收敛。

一种可能的实现方式中，每个轨迹点数据还包括下述中的至少一项：轨迹点对应的时间信息、轨迹点对应的位置、轨迹点对应的位置所属区域、轨迹点对应的坐标信息。

第二方面，本发明提供一种数据处理方法，包括：

获取不完整轨迹信息，所述不完整轨迹信息包括M个轨迹点数据，每个轨迹点数据包括轨迹点对应的第一位置类别，所述M为大于1且小于K的整数，所述K为完整轨迹信息中包括的轨迹点数据的数量；

通过已训练的预设模型对所述M个轨迹点数据进行处理，得到K个轨迹点数据；其中，所述预设模型为通过权利要求1至10任一项所述的方法训练得到的。

第三方面，本发明提供一种模型训练装置，包括：

获取模块，用于获取完整轨迹信息对应的多个轨迹点数据，每个轨迹点数据包括轨迹点对应的第一位置类别；

处理模块，用于对第一轨迹点数据中的第一位置类别进行干扰处理，得到干扰轨迹点数据，所述第一轨迹点数据为所述多个轨迹点数据中的部分轨迹点数据；

所述处理模块，还用于通过待训练的预设模型对所述干扰轨迹点数据和第二轨迹点数据进行处理，得到所述第一轨迹点数据对应的预测位置类别，所述第二轨迹点数据为所述多个轨迹点数据中除所述第一轨迹点数据之外的轨迹点数据；

更新模块，用于根据所述第一轨迹点数据对应的第一位置类别和所述预测位置类别，更新所述预设模型的模型参数。

第四方面，本发明提供一种数据处理装置，包括：

获取模块，用于获取不完整轨迹信息，所述不完整轨迹信息包括M个轨迹点数据，每个轨迹点数据包括轨迹点对应的第一位置类别，所述M为大于1且小于K的整数，所述K为完整轨迹信息中包括的轨迹点数据的数量；

处理模块，用于通过已训练的预设模型对所述M个轨迹点数据进行处理，得到K个轨迹点数据；其中，所述预设模型为通过第一反面任一项所述的方法训练得到的。

第五方面，本发明提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面任一项所述的模型训练方法的步骤，或者，实现如第二方面所述的数据处理方法的步骤。

第六方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的模型训练方法的步骤，或者，实现如第二方面所述的数据处理方法的步骤。

第七方面，本发明提供一种计算机程序产品，包括：计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的模型训练方法的步骤，或者，实现如第二方面所述的数据处理方法的步骤。

本发明提供的模型训练、数据处理方法、装置、设备、存储介质及程序，可以获取完整轨迹信息对应的多个轨迹点数据，每个轨迹点数据包括轨迹点对应的第一位置类别，对第一轨迹点数据中的第一位置类别进行干扰处理，得到干扰轨迹点数据，所述第一轨迹点数据为所述多个轨迹点数据中的部分轨迹点数据，通过待训练的预设模型对所述干扰轨迹点数据和第二轨迹点数据进行处理，得到所述第一轨迹点数据对应的预测位置类别，所述第二轨迹点数据为所述多个轨迹点数据中除所述第一轨迹点数据之外的轨迹点数据，根据所述第一轨迹点数据对应的第一位置类别和所述预测位置类别，更新所述预设模型的模型参数。通过上述训练过程，得到的预设模型具有对轨迹点的位置类别进行补全的能力，从而可以使用训练后的预设模型对不完整轨迹信息进行补全处理，得到完整轨迹信息。

附图说明

图1为本发明实施例适用的一种系统架构的示意图；

图2A为本发明实施例提供的完整轨迹信息的示意图；

图2B为本发明实施例提供的不完整轨迹信息的示意图；

图3为本发明实施例提供的一种模型训练方法的流程示意图；

图4为本发明实施例提供的一种模型处理过程的示意图；

图5为本发明实施例提供的另一种模型训练方法的流程示意图；

图6为本发明实施例提供的另一种模型训练过程的示意图；

图7为本发明实施例提供的一种数据处理方法的流程示意图；

图8为本发明实施例提供的一种模型训练装置的结构示意图；

图9为本发明实施例提供的一种数据处理装置的结构示意图；

图10为本发明实施例提供的一种电子设备的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

用户轨迹信息可以作为分析出行特征的数据来源。而实际应用过程中，终端设备采集的用户轨迹信息经常是不完整的。如果基于不完整轨迹信息提取出行特征，会影响出行特征的准确性。因此，如何对不完整轨迹信息进行补全是亟待解决的技术问题。

为了便于理解本发明的技术方案，首先结合图1对本发明实施例涉及的系统架构进行介绍。

图1为本发明实施例适用的一种系统架构的示意图。如图1所示，数据采集设备用于采集用户的轨迹信息。通常，数据采集设备是随用户移动的设备。示例性的，数据采集设备包括但不限于：智能手机、笔记本电脑、平板电脑、智能穿戴设备、车载设备等。

数据采集设备具有全球定位系统(Global Positioning System，GPS)功能。数据采集设备可以实时或者以预设时间间隔或者根据用户的配置信息，采集带有GPS坐标和时间信息的数据，通过将GSP坐标与对应的位置进行匹配，可以将GPS坐标转化为对应的停留位置。停留位置也可以称为兴趣点(point of interest)或者轨迹点。将采集到的轨迹点按照时间顺序排列，即可形成用户的轨迹信息。

数据采集设备采集到用户的轨迹信息后，将轨迹信息存储至轨迹信息数据库中。训练设备可以对轨迹信息数据库中的多个轨迹信息进行学习、建模，得到轨迹补充模型。轨迹补充模型具有对不完整轨迹信息进行补全的能力。

轨迹补充模型可以部署到执行设备中。将不完整轨迹信息输入到执行设备，执行设备利用轨迹补充模型对不完整轨迹信息进行补全，得到完整轨迹信息。应理解，该执行设备可以是终端设备，例如：智能手机、平板电脑、笔记本电脑、车载设备等。该执行设备还可以是服务器或者云端等。

需要说明的是，在实际的应用中，数据库中存储的轨迹信息不一定都来自于数据采集设备的采集，也可以是从其他设备接收得到的。另外需要说明的是，训练设备也不一定完全基于数据库中的轨迹信息进行模型构建，也可以从云端或其他地方获取轨迹信息进行模型构建，图1所示的系统架构不应该作为对本发明实施例的限定。

本发明的技术方案中，所有涉及的用户轨迹信息的获取、存储和应用等，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

本发明实施例中的轨迹信息采用较为稀疏的数据格式。一个轨迹中包括按照时间顺序排列的多个轨迹点。相邻轨迹点之间具有一定的时间间隔。例如，该时间间隔可以为1小时，或者30分钟，或者2小时等。

相应的，每个轨迹信息中包括多个轨迹点数据。每个轨迹点数据用于描述用户在某时刻的停留位置的相关信息。示例性的，每个轨迹点数据可以包括时间信息、位置、以及位置的相关描述。其中，一个位置的相关描述可以包括：该位置对应的位置类别(例如：商场、住宅、工业区、饭店等)、该位置所属行政区域(例如，城市、区等)、该位置对应的坐标信息(例如经度、纬度等)。

实际应用中，用户出行轨迹中的轨迹点的密度变化较大，使得采集到的轨迹信息可能存在不完整的情况。

本实施例中，完整轨迹信息是指，在一个预设时段内的各预设时刻均对应有轨迹点数据。不完整轨迹信息是指，在一个预设时段内的一部分预设时刻对应有轨迹点数据，而另一部分预设时刻不对应有轨迹点数据。例如，预设时段可以为24小时、12小时等。相邻预设时刻之间的间隔可以为1小时、30分钟等。下面结合图2A和图2B对完整轨迹信息和不完整轨迹信息进行举例说明。

图2A为本发明实施例提供的完整轨迹信息的示意图。假设预设时段为12小时，例如从6点至18点，预设时刻为每个整点时刻。参见图2A，完整轨迹信息中包括了6点、7点、8点、9点、10点、11点、12点、13点、14点、15点、16点、17点、18点各自对应的轨迹点数据。每个轨迹点数据包括：轨迹点对应的时间信息、轨迹点对应的位置、轨迹点对应的位置所属区域、轨迹点对应的坐标信息。

图2B为本发明实施例提供的不完整轨迹信息的示意图。参见图2B，不完整轨迹信息中包括了6点、8点、10点、15点、16点、17点、18点各自对应的轨迹点数据，而缺失了7点、9点、11点、12点、13点、14点各自对应的轨迹点数据。每个轨迹点数据包括：轨迹点对应的时间信息、轨迹点对应的位置、轨迹点对应的位置所属区域、轨迹点对应的坐标信息。

基于图1所示的系统架构，本发明实施例提供一种模型训练方法和数据处理方法。其中，模型训练方法可以由训练设备执行，数据处理方法可以由执行设备执行。一些应用场景中，训练设备和执行设备可以是同一设备。另一些应用场景中，训练设备和执行设备可以是不同的设备。

本发明技术方案中，可以通过对完整轨迹信息对应的多个轨迹点数据进行学习，训练得到轨迹补充模型，使得轨迹补充模型具有对不完整轨迹信息进行补全的能力。进而，可以利用轨迹补充模型对不完整轨迹信息进行补全，得到完整轨迹信息。

需要说明的是，本发明实施例中，由于轨迹点的位置较为稀疏，并且实际应用中经常关注的是轨迹点的位置所对应的位置类别，因此，本发明实施例中仅以对轨迹点的位置类别进行补全为例进行描述。相应的，本发明实施例训练得到的轨迹补充模型具有对轨迹点的位置类别进行补全的能力。应理解，当需要对轨迹点的其他信息进行补全时，可以采用类似的方式，本发明实施例对此不作赘述。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图3为本发明实施例提供的一种模型训练方法的流程示意图。本实施例的方法可以由训练设备执行。经过本实施例的训练过程可以得到轨迹补充模型。如图3所示，本实施例的方法，可以包括：

S301：获取完整轨迹信息对应的多个轨迹点数据，每个轨迹点数据包括轨迹点对应的第一位置类别。

本实施例中，可以利用完整轨迹信息对应的多个轨迹点数据，对预设模型(即轨迹补充模型)进行训练。示例性的，本实施例中参与训练的多个轨迹点数据可以为图2A中的各轨迹点数据。

本发明实施例中，需要使训练后的预设模型具有对位置类别进行补全的能力，因此，参与训练的每个轨迹点数据中包括轨迹点对应的第一位置类别。其中，第一位置类别也可以称为真实位置类别或者实际位置类别，用于与后续的预测位置类别进行区分。

可选的，每个轨迹点数据还可以包括下述中的至少一项：轨迹点对应的时间信息、轨迹点对应的位置、轨迹点对应的位置所属区域、轨迹点对应的坐标信息等。应理解，当参与训练的各轨迹点数据中包含的轨迹点相关信息越多时，训练得到的预设模型对位置类别的补全能力越强。

S302：对第一轨迹点数据中的第一位置类别进行干扰处理，得到干扰轨迹点数据，所述第一轨迹点数据为所述多个轨迹点数据中的部分轨迹点数据。

具体的，可以将所述多个轨迹点数据中的部分轨迹点数据确定为第一轨迹点数据。第一轨迹点数据的数量可以为一个或者多个。进而，对每个第一轨迹点数据中的第一位置类别进行干扰处理，得到干扰轨迹点数据。

其中，干扰处理是指对第一轨迹点数据中的第一位置类别增加扰动。可选的，对第一轨迹点数据中的第一位置类别进行干扰处理，可以包括下述中的任意一种：

(1)将第一轨迹点数据中的第一位置类别替换为预设信息。

示例性的，预设信息可以为特殊符号。其中，特殊符号可以是一个预先定义的向量，或者是采用随机初始化的向量。例如，在进行干扰处理时，可以将第一轨迹点数据中的第一位置类别替换为符号[MASK]。

(2)将所述第一轨迹点数据中的第一位置类别替换为其他位置类别。

示例性的，假设位置类别包括：住宅、商场、饭店、工业区、景点。第一轨迹点数据中的第一位置类别为商场，则在进行干扰处理时，可以将第一轨迹点数据中的第一位置类别替换为住宅、饭店、工业区、景点中的任意一个。

(3)将所述第一轨迹点数据中的第一位置类别保持不变。

一种可能的实现方式中，上述三种干扰处理的方式可以结合使用。示例性的，可以在80％的情况下采用方式(1)进行干扰处理，10％的情况下采用方式(2)进行干扰处理，剩余10％的情况下采用方式(3)进行干扰处理。通过采用不同的干扰处理方式，能够提高预设模型对位置类别的补全能力。

S303：通过待训练的预设模型对所述干扰轨迹点数据和第二轨迹点数据进行处理，得到所述第一轨迹点数据对应的预测位置类别，所述第二轨迹点数据为所述多个轨迹点数据中除所述第一轨迹点数据之外的轨迹点数据。

本实施例中，由于第一轨迹点数据中的第一位置类别已加扰，预设模型可以根据干扰轨迹点数据和第二轨迹点数据，对第一轨迹点数据的位置类别进行预测，得到第一轨迹点数据对应的预测位置类别。

其中，预设模型可以是基于机器学习的任意网络模型。预设模型可以是一个模型，还可以是由多个子模型组成。本实施例对于预设模型的结构不作限定。

图4为本发明实施例提供的一种模型处理过程的示意图。下面结合图4进行举例说明。参见图4，假设完整轨迹信息中包括k个轨迹点数据，第1个轨迹点数据中的第一位置类别为E₁，第2个轨迹点数据中的第一位置类别为E₂，……，第k个轨迹点数据中的第一位置类别为E_k。将第j个轨迹点数据确定为第一轨迹点数据，即对第j个轨迹点数据中的第一位置类别(E_j)进行加扰处理。

继续参见图4，将加扰后的第j个轨迹点数据(即干扰轨迹点数据)以及其他未加扰的轨迹点数据(即第二轨迹点数据)输入预设模型，以使预设模型根据加扰后的第j个轨迹点数据以及其他未加扰的轨迹点数据，对第j个轨迹点数据的位置类别进行预测，得到预测位置类别(即E′_j)。

S304：根据所述第一轨迹点数据对应的第一位置类别和所述预测位置类别，更新所述预设模型的模型参数。

示例性的，可以根据第一轨迹点数据对应的第一位置类别和预测位置类别，确定损失函数；通过损失函数更新预设模型的模型参数。

可选的，可以根据第一位置类别和预测位置类别计算交叉熵，根据交叉熵确定损失函数。进而，根据损失函数，使用随机梯度下降法对预设模型的模型参数进行更新。

应理解的是，本实施例中S301至S304以一次迭代过程为例进行描述。实际应用中，对预设模型的训练可以包括多次迭代过程。

示例性的，在每次对预设模型的模型参数进行更新之后，判断更新后的预设模型是否收敛，若是，则训练结束，将更新后的预设模型作为训练完成的模型。若否，则重复对预设模型进行训练(即重复执行S301至S304)，直至更新后的预设模型收敛。

本实施例提供的模型训练方法，包括：获取完整轨迹信息对应的多个轨迹点数据，每个轨迹点数据包括轨迹点对应的第一位置类别，对第一轨迹点数据中的第一位置类别进行干扰处理，得到干扰轨迹点数据，所述第一轨迹点数据为所述多个轨迹点数据中的部分轨迹点数据，通过待训练的预设模型对所述干扰轨迹点数据和第二轨迹点数据进行处理，得到所述第一轨迹点数据对应的预测位置类别，所述第二轨迹点数据为所述多个轨迹点数据中除所述第一轨迹点数据之外的轨迹点数据，根据所述第一轨迹点数据对应的第一位置类别和所述预测位置类别，更新所述预设模型的模型参数。通过上述训练过程，得到的预设模型具有对轨迹点的位置类别进行补全的能力，从而可以使用训练后的预设模型对不完整轨迹信息进行补全处理，得到完整轨迹信息。

在上述实施例的基础上，下面结合一个更具体的实施例对本发明提供的模型训练方法进行更详细的说明。本实施例在图3和图4所示实施例的基础上对预设模型的结构以及处理过程进行细化。

图5为本发明实施例提供的另一种模型训练方法的流程示意图。如图5所示，本实施例的方法，包括：

S501：获取完整轨迹信息对应的多个轨迹点数据，每个轨迹点数据包括轨迹点对应的第一位置类别。

S502：对第一轨迹点数据中的第一位置类别进行干扰处理，得到干扰轨迹点数据，所述第一轨迹点数据为所述多个轨迹点数据中的部分轨迹点数据。

应理解，S501和S502的具体实现方式与图3中的S301和S302类似，此处不作赘述。

S503：通过预设模型中的第一子模型对所述干扰轨迹点数据和第二轨迹点数据进行处理，得到所述干扰轨迹点数据对应的特征向量，所述第二轨迹点数据为所述多个轨迹点数据中除所述第一轨迹点数据之外的轨迹点数据。

S504：通过预设模型中的第二子模型对所述特征向量进行处理，得到所述第一轨迹点数据对应的预测位置类别。

本实施例中，预设模型可以包括第一子模型和第二子模型。其中，第一子模型被配置为根据干扰轨迹点数据和第二轨迹点数据，获取干扰轨迹点数据对应的特征向量。第二子模型被配置为根据干扰轨迹点数据对应的特征向量，预测得到第一轨迹点数据对应的预测位置类别。

可选的，第一子模型可以为Bert模型。

可选的，第二子模型可以为分类模型。例如，第二子模型可以为基于贝叶斯的分类模型、基于决策树的分类模型、基于神经网络的分类模型等。

一种可能的实现方式中，可以确定干扰轨迹点数据对应的位置类别向量，并确定第二轨迹点数据对应的位置类别向量，进而，将干扰轨迹点数据对应的位置类别向量以及第二轨迹点数据对应的位置类别向量输入至第一子模型，以使第一子模型输出干扰轨迹点数据对应的特征向量。

进一步的，将干扰轨迹点数据对应的特征向量输入至第二子模型，以使第二子模型输出第一轨迹点数据对应的预测位置类别。

S505：根据所述第一轨迹点数据对应的第一位置类别和所述预测位置类别，更新所述第一子模型和所述第二子模型的模型参数。

本实施例中，第一子模型和第二子模型可以作为一个整体进行训练。也就是说，在每次迭代过程中，对第一子模型和第二子模型的模型参数进行同步更新。

下面结合图6，对本实施例的模型训练方法进行举例说明。

图6为本发明实施例提供的另一种模型训练过程的示意图。本实施例中，以第一子模型为Bert模型，第二子模型为分类模型为例进行举例说明。图6以一次迭代过程为例进行示意。其中，P₁表示第1个轨迹点数据，P₂表示第2个轨迹点数据，……，P_k表示第k个轨迹点数据。假设每个轨迹点数据中包括：轨迹点对应的位置所属区域、轨迹点对应的位置类别、轨迹点对应的时间信息。其中，时间信息包括日期和时刻。

首先，针对每个轨迹点数据，将轨迹点数据中的信息进行向量化，以便作为Bert模型的输入。

举例而言，由于轨迹点数据中的位置类别通常采用单词表示，例如，位置类别为“住宅”、“商业”、“工业区”等。因此，针对轨迹点数据中的位置类别，可以采用单词转化为向量(word2vec)的方法进行向量化，从而得到位置类别向量。图6中，E₁表示第1个轨迹点数据对应的位置类别向量，E₂表示第2个轨迹点数据对应的位置类别向量，……，E_k表示第k个轨迹点数据对应的位置类别向量。

类别的，轨迹点数据中的位置所属区域通常采用单词表示，例如，位置所属区域为“深圳”、“北京”等。因此，针对轨迹点数据中的位置所属区域，也可以采用单词转化为向量(word2vec)的方法进行向量化，从而得到区域向量。图6中，C₁表示第1个轨迹点数据对应的区域向量，C₂表示第2个轨迹点数据对应的区域向量，……，C_k表示第k个轨迹点数据对应的区域向量。

针对轨迹点数据中的日期，可以区分工作日和非工作日。例如，工作为0，非工作日为1，从而得到日期向量。图6中，D₁表示第1个轨迹点数据对应的日期向量，D₂表示第2个轨迹点数据对应的日期向量，……，D_k表示第k个轨迹点数据对应的日期向量。

针对数据点数据中的时刻(例如6点、7点等)，可以采用可训练的随机初始化向量，或者，使用注意力机制中的三角函数位置编码，从而得到时间向量。图6中，T₁表示第1个轨迹点数据对应的时间向量，T₂表示第2个轨迹点数据对应的时间向量，……，T_k表示第k个轨迹点数据对应的时间向量。

经过上述对轨迹点数据进行处理，得到4类向量，分别为位置类别向量、区域向量、日期向量和时间向量。参见图6，上述4类向量可以作为Bert模型的输入。

一种可能的实现方式中，可以对上述4类向量相加，将相加后的向量输入至Bert模型。

另一种可能的实现方式中，可以对上述4类向量拼接，将拼接后的向量输入至Bert模型。

需要说明的是，若轨迹信息中还包括其他更多的信息，例如，轨迹点的位置、用户的居住位置、工作地位置、轨迹点与居住点的距离等，均可以采用上述方式构建得到向量，并作为Bert模型的输入。

继续参见图6，在将轨迹点数据输入Bert模型之前，可以随机确定一个或者多个第一轨迹点数据，对第一轨迹点数据对应的位置类别向量进行干扰处理，得到干扰轨迹点数据。图6中，以对第j个轨迹点数据对应的位置类别向量进行干扰处理为例。

继续参见图6，将干扰后的第j个轨迹点数据和其他未干扰的轨迹点数据输入Bert模型，使得Bert模型根据干扰后的第j个轨迹点数据和其他未干扰的轨迹点数据，获取干扰后的第j个轨迹点数据对应的特征向量(即，图6中的特征向量O_j)。如图6所示，Bert模型还会输出其他未干扰轨迹点数据对应的特征向量(即，图6中的特征向量O₁、O₂等)，本实施例中，Bert模型只需要将干扰后的第j个轨迹点数据对应的特征向量(即，图6中的特征向量O_j)输入到分类模型中，使得分类模型根据该特征向量预测得到第j个轨迹点数据对应的预测位置类别。

进一步的，根据第j个轨迹点数据对应的真实位置类别(即第一位置类别)和预测位置类别，得到交叉熵，将交叉熵作为损失函数。使用随机梯度下降法，对Bert模型和分类模型的模型参数进行更新。

重复上述的迭代过程，直至Bert模型和分类模型收敛，训练结束。

本实施例中，由于Bert模型在提取特征向量时，会考虑不同轨迹点数据之间的上下文关系，使得Bert模型输出的干扰轨迹点数据对应的特征向量更加准确，进而保证了预测位置类别的准确性。另外，本实施例中，在训练预设模型时，利用了轨迹点数据中的位置类别、位置所属区域、日期、时刻等多种信息，进一步提高了预测位置类别的准确性。

上述图3至图6所示实施例重点描述了模型训练的过程。上述模型训练的过程中均需要利用完整轨迹信息对应的多个轨迹点数据。在上述任意实施例的基础上，下面，结合一个具体的实施例介绍如何获取完整轨迹信息对应的多个轨迹点数据。本实施例可以作为S301和S501的一种可能的实现方式。

本实施例中，可以获取用户的历史出行数据，历史出行数据中包括用户的轨迹点数据。以预设时段为粒度，对用户的历史出行数据进行切分，得到每个预设时段对应的轨迹信息。例如，以天为单位进行切换，切分的分界点可以为每天凌晨0点，或者每天凌晨4点，等。

针对切分后的每个预设时段，获取该预设时段对应的第一轨迹信息。假设第一轨迹信息中包括N个轨迹点数据，N为大于1的整数。根据N的取值以及所述N个轨迹点数据对应的轨迹时刻的分布情况，可以确定出第一轨迹信息是否为完整轨迹信息。其中，所述轨迹时刻为采集轨迹点数据的时刻。

举例而言，假设预设时段为24小时，若N的取值大于或者等于24，且每个小时都对应有轨迹点数据(比如，每个整点都对应有轨迹点数据)，则确定第一轨迹信息为完整轨迹信息。

若N的取值小于24，则说明有些小时内是不存在轨迹点数据的，因此，确定第一轨迹信息为不完整轨迹信息。

若N的取值大于或等于24，但是N个轨迹点数据的轨迹时刻分布不均，例如，有些小时内对应有多个轨迹点数据，而有些小时内不对应有轨迹点数据。因此，该情况下，确定第一轨迹信息为不完整轨迹信息。

进一步的，当确定第一轨迹信息为完整轨迹信息的情况下，可以将第一轨迹信息中的N个轨迹点数据，确定为完整轨迹信息对应的多个轨迹点数据。当确定第一轨迹信息为不完整轨迹信息的情况下，可以对第一轨迹信息中的N个轨迹点数据进行补全处理，得到完整轨迹信息对应的多个轨迹点数据。

一种可能的实现方式中，可以采用如下补全方式：

获取所述N个轨迹点数据对应的轨迹时刻；根据N个轨迹点数据对应的轨迹时刻，确定至少一个待补充轨迹点数据对应的轨迹时刻；根据所述N个轨迹点数据和所述至少一个待补充轨迹点数据对应的轨迹时刻，生成所述至少一个待补充轨迹点数据；根据所述N个轨迹点数据和所述至少一个待补充轨迹点数据，得到所述多个轨迹点数据。

可选的，针对每个待补充轨迹点数据，根据所述待补充轨迹点数据对应的轨迹时刻，在所述N个轨迹点数据中确定目标轨迹点数据，所述目标轨迹点数据对应的轨迹时刻与所述待补充轨迹点数据对应的轨迹时刻之间的时间差最小；将所述目标轨迹点数据确定为所述待补充轨迹点数据。

举例而言，假设N个轨迹点数据中除了不存在12点对应的轨迹点数据，其他整点对应的轨迹点数据都存在，则可以确定出待补充轨迹点数据对应的轨迹时刻为12点。该情况下，可以将11点对应的轨迹点数据作为12点对应的轨迹点数据进行填充，或者，将13点对应的轨迹点数据作为12点对应的轨迹点数据进行填充。从而，将填充后的各轨迹点数据作为完整轨迹信息对应的多个轨迹点数据。

需要说明的是，本实施例提供的对轨迹点数据进行补全的方式可适用于轨迹点数据缺失数量较少的情况，即，适用于对较为完整轨迹信息进行补全。例如，轨迹信息中只缺失1个或者2个轨迹点数据，或者，轨迹信息中仅缺失夜晚的轨迹点数据。该情况下，可以采用上述的邻近填充的方式对轨迹点数据进行补全，以便补全后的完整轨迹信息可用于对预设模型进行训练。

针对轨迹点数据缺失数量较多的轨迹信息，可以采用训练后的预设模型进行补全。下面结合图7所示的实施例描述采用预设模型对轨迹信息进行补全的过程。

图7为本发明实施例提供的一种数据处理方法的流程示意图。本实施例的方法可以由执行设备执行。如图7所示，本实施例的方法，包括：

S701：获取不完整轨迹信息，所述不完整轨迹信息包括M个轨迹点数据，每个轨迹点数据包括轨迹点对应的第一位置类别，所述M为大于1且小于K的整数，所述K为完整轨迹信息中包括的轨迹点数据的数量。

S702：通过已训练的预设模型对所述M个轨迹点数据进行处理，得到K个轨迹点数据。

其中，所述预设模型可以是采用上述任一实施例提供的模型训练方法训练得到的。

可选的，每个轨迹点数据中还可以包括下述中的至少一项：轨迹点对应的时间信息、轨迹点对应的位置、轨迹点对应的位置所属区域、轨迹点对应的坐标信息。

以图6所示的预设模型为例进行举例说明。将所述M个轨迹点数据输入Bert模型，Bert模型可以输出缺失数据点数据对应的特征向量，Bert模型将特征向量输入至分类模型，分类模型预测得到缺失数据点数据对应的预测位置类别。这样，可以将分类模型输出的预测位置类别填充到不完整轨迹信息中，使得轨迹信息中每个轨迹点均对应有位置类别，从而得到完整轨迹信息。

本实施例中，通过采用已训练的分类模型对不完整轨迹信息进行处理，得到完整轨迹信息，实现了对不完整轨迹信息的补全。

图8为本发明实施例提供的一种模型训练装置的结构示意图。本实施例的装置可以为软件和/或硬件的形式。如图8所示，本实施例提供的模型训练装置800，可以包括：获取模块801、处理模块802和更新模块803。

其中，获取模块801，用于获取完整轨迹信息对应的多个轨迹点数据，每个轨迹点数据包括轨迹点对应的第一位置类别；

处理模块802，用于对第一轨迹点数据中的第一位置类别进行干扰处理，得到干扰轨迹点数据，所述第一轨迹点数据为所述多个轨迹点数据中的部分轨迹点数据；

所述处理模块802，还用于通过待训练的预设模型对所述干扰轨迹点数据和第二轨迹点数据进行处理，得到所述第一轨迹点数据对应的预测位置类别，所述第二轨迹点数据为所述多个轨迹点数据中除所述第一轨迹点数据之外的轨迹点数据；

更新模块803，用于根据所述第一轨迹点数据对应的第一位置类别和所述预测位置类别，更新所述预设模型的模型参数。

一种可能的实现方式中，所述处理模块802具体用于：

所述更新模块803具体用于：根据所述第一轨迹点数据对应的第一位置类别和所述预测位置类别，更新所述第一子模型和所述第二子模型的模型参数。

一种可能的实现方式中，所述处理模块802具体用于：

确定所述干扰轨迹点数据对应的位置类别向量；

确定所述第二轨迹点数据对应的位置类别向量；

一种可能的实现方式中，所述处理模块802具体用于执行如下中的任意一项：

将所述第一轨迹点数据中的第一位置类别替换为预设信息；

将所述第一轨迹点数据中的第一位置类别保持不变。

一种可能的实现方式中，所述获取模块801具体用于：

若是，则将所述N个轨迹点数据确定为所述多个轨迹点数据；

一种可能的实现方式中，所述获取模块801具体用于：

获取所述N个轨迹点数据对应的轨迹时刻；

一种可能的实现方式中，所述获取模块801具体用于：

将所述目标轨迹点数据确定为所述待补充轨迹点数据。

一种可能的实现方式中，所述更新模块803具体用于：

通过所述损失函数，更新所述预设模型的模型参数。

一种可能的实现方式中，所述处理模块802还用于：

判断更新后的预设模型是否收敛；

若是，则将更新后的预设模型作为训练完成的模型；

本实施例提供的模型训练装置，可用于执行上述任一方法实施例提供的模型训练方法，其实现原理和技术效果类似，此处不作赘述。

图9为本发明实施例提供的一种数据处理装置的结构示意图。本实施例的装置可以为软件和/或硬件的形式。如图9所示，本实施例提供的数据处理装置900，可以包括：获取模块901和处理模块902。

其中，获取模块901，用于获取不完整轨迹信息，所述不完整轨迹信息包括M个轨迹点数据，每个轨迹点数据包括轨迹点对应的第一位置类别，所述M为大于1且小于K的整数，所述K为完整轨迹信息中包括的轨迹点数据的数量；

处理模块902，用于通过已训练的预设模型对所述M个轨迹点数据进行处理，得到K个轨迹点数据；其中，所述预设模型为通过上述任一方法实施例中的模型训练方法训练得到的。

本实施例提供的数据处理装置，可用于执行上述任一方法实施例中的数据处理方法，其实现原理和技术效果类似，此处不作赘述。

图10为本发明实施例提供的一种电子设备的结构示意图。本实施例的电子设备可以作为训练设备，或者执行设备。如图10所示，本实施例提供的电子设备1000，包括：存储器1001、处理器1002及存储在所述存储器1001上并可在所述处理器1002上运行的计算机程序，所述计算机程序被所述处理器1002执行时实现如前述任一实施例所述的模型训练方法的步骤，或者，实现如前述任一实施例所述的数据处理方法的步骤。

可选地，存储器1001既可以是独立的，也可以跟处理器1002集成在一起。

本实施例提供的设备的实现原理和技术效果可以参见前述各实施例，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前述任一实施例所述的模型训练方法的步骤，或者，实现如前述任一实施例所述的数据处理方法的步骤。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如前述任一实施例所述的模型训练方法的步骤，或者，实现如前述任一实施例所述的数据处理方法的步骤。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本发明各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(Central Processing Unit，简称CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，通过待训练的预设模型对所述干扰轨迹点数据和第二轨迹点数据进行处理，得到所述第一轨迹点数据对应的预测位置类别，包括：

3.根据权利要求2所述的方法，其特征在于，通过所述预设模型中的第一子模型对所述干扰轨迹点数据和所述第二轨迹点数据进行处理，得到所述干扰轨迹点数据对应的特征向量，包括：

确定所述干扰轨迹点数据对应的位置类别向量；

确定所述第二轨迹点数据对应的位置类别向量；

4.根据权利要求1所述的方法，其特征在于，对第一轨迹点数据中的第一位置类别进行干扰处理，包括下述中的任意一种：

将所述第一轨迹点数据中的第一位置类别替换为预设信息；

将所述第一轨迹点数据中的第一位置类别保持不变。

5.根据权利要求1至4任一项所述的方法，其特征在于，获取完整轨迹信息对应的多个轨迹点数据，包括：

若是，则将所述N个轨迹点数据确定为所述多个轨迹点数据；

6.根据权利要求5所述的方法，其特征在于，对所述N个轨迹点数据进行补全处理，得到所述多个轨迹点数据，包括：

获取所述N个轨迹点数据对应的轨迹时刻；

7.根据权利要求6所述的方法，其特征在于，根据所述N个轨迹点数据和所述至少一个待补充轨迹点数据对应的轨迹时刻，生成所述至少一个待补充轨迹点数据，包括：

将所述目标轨迹点数据确定为所述待补充轨迹点数据。

8.根据权利要求1至4任一项所述的方法，其特征在于，根据所述第一轨迹点数据对应的第一位置类别和所述预测位置类别，更新所述预设模型的模型参数，包括：

通过所述损失函数，更新所述预设模型的模型参数。

9.根据权利要求1至4任一项所述的方法，其特征在于，根据所述第一轨迹点数据对应的第一位置类别和所述预测位置类别，更新所述预设模型的模型参数之后，还包括：

判断更新后的预设模型是否收敛；

若是，则将更新后的预设模型作为训练完成的模型；

10.根据权利要求1至4任一项所述的方法，其特征在于，每个轨迹点数据还包括下述中的至少一项：轨迹点对应的时间信息、轨迹点对应的位置、轨迹点对应的位置所属区域、轨迹点对应的坐标信息。

11.一种数据处理方法，其特征在于，包括：

12.一种模型训练装置，其特征在于，包括：

13.一种数据处理装置，其特征在于，包括：

处理模块，用于通过已训练的预设模型对所述M个轨迹点数据进行处理，得到K个轨迹点数据；其中，所述预设模型为通过权利要求1至10任一项所述的方法训练得到的。

14.一种电子设备，其特征在于，所述电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至10中任一项所述的模型训练方法的步骤，或者，实现如权利要求11所述的数据处理方法的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的模型训练方法的步骤，或者，实现如权利要求11所述的数据处理方法的步骤。

16.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的模型训练方法的步骤，或者，实现如权利要求11所述的数据处理方法的步骤。