CN116662679A

CN116662679A - 特征提取及模型获取方法、装置、电子设备、介质及产品

Info

Publication number: CN116662679A
Application number: CN202210138781.5A
Authority: CN
Inventors: 刘康
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-02-15
Filing date: 2022-02-15
Publication date: 2023-08-29

Abstract

本公开实施例公开了一种特征提取及模型获取方法、装置、电子设备、介质及产品，该方法包括：基于确定各网格区域之间的连接关系以及各网格区域的历史行为特征向量，构建图G(V，A，F)，所述图中的节点V表示各网格区域；所述图中的边表示各网格区域之间的连接关系，记为矩阵A；所述图中各节点的特征向量F为各网格区域的历史行为特征向量；基于所述图G(V，A，F)训练编码解码模型得到特征提取模型，所述特征提取模型用于提取所述图中各节点的行为地理位置特征向量。该技术方案提取的行为地理位置特征向量可以广泛适用于各种需要输入行为地理位置特征的深度模型或非深度模型中。

Description

特征提取及模型获取方法、装置、电子设备、介质及产品

技术领域

本公开涉及地理数据处理技术领域，具体涉及一种特征提取及模型获取方法、装置、电子设备、介质及产品。

背景技术

在网约车平台以及外卖平台当中，地理位置信息是一类非常重要的信息，例如订单的起终点位置信息会影响司机或骑手的接单意愿、可以反映客户对于价格的敏感度，从而影响补贴下发和订单定价等平台关键行为、地理偏好可以影响司机或骑手完单数量(例如由于车牌限行限制、个人意愿等原因有些司机选择在郊区接单，其完单量就会明显小于在城中接单的司机；选择在商圈、学校附近接单的骑手其完单量就会显著高于在住宅区接单的骑手)等。通常在使用该订单的起终点位置信息之前，都会该订单起终点位置信息进行预处理，以便能够在后续的模型中使用。目前有两种处理方式，第一种方式是将该订单起终点位置信息进行one-hot编码，第二种方式是在深度学习模型中加入embedding层来对订单起终点位置信息做编码后使用。但是，第一种方式会由于大量订单的起终点位置信息的稀疏特性带来特征爆炸影响后续的模型效果，第二种方式虽然解决了特征爆炸的问题但同时引入非深度模型无法使用、embedding层的编码结果不具有通用性等问题。

发明内容

为了解决相关技术中的问题，本公开实施例提供一种特征提取模型的获取方法、装置、电子设备、介质及产品。

第一方面，本公开实施例中提供了一种特征提取模型获取方法。

具体地，所述特征提取模型获取方法，包括：

基于预设区域内各历史行为起点所在网格区域和终点所在网格区域，确定各网格区域之间的连接关系；

基于所述各网格区域内的历史行为数据，确定各网格区域的历史行为特征向量；

构建图G(V，A，F)，其中，所述图中的节点V表示各网格区域；所述图中的边表示各网格区域之间的连接关系，记为矩阵A；所述图中各节点的特征向量F为各网格区域的历史行为特征向量；

基于所述图G(V，A，F)训练编码解码模型得到特征提取模型，所述特征提取模型用于提取所述图中各节点的行为地理位置特征向量。

结合第一方面，本公开在第一方面的第一种实现方式中，其中，，所述连接关系包括以下至少一种关系：连接方向、连接权重和连接类型。

结合第一方面及其第一种实现方式，本公开在第一方面的第二种实现方式中，其中，所述基于预设区域内各历史行为的起点位置所在网格区域和终点位置所在网格区域，确定各网格区域的连接关系，包括：

在所述连接关系包括连接方向时，各网格区域之间的连接方向包括从行为起点所在的网格区域到行为终点所在的网格区域的方向；

在所述连接关系包括连接权重时，基于各网格区域之间的历史行为数量确定各网格区域之间的连接权重；

在所述连接关系包括连接类型时，基于各网格区域之间的历史行为类型确定各格区域之间的连接类型。

结合第一方面及其上述的各种实现方式，本公开在第一方面的第三种实现方式中，其中，在所述连接关系包括连接方向和连接权重时，所述基于预设区域内各历史行为的起点位置所在网格区域和终点位置所在网格区域，确定各网格区域的连接关系，包括：

针对第一网格区域，获取行为起点所在区域为第一网格区域的各历史行为中，以第二网格区域为行为终点所在区域的第一历史行为的数量；

基于所述第一历史行为的数量，获取从所述第一网格区域指向所述第二网格区域的连接方向对应的连接权重，其中，以所述第一网格区域为起点的各连接方向对应的连接权重之和为1。

结合第一方面及其上述的各种实现方式，本公开在第一方面的第四种实现方式中，其中，在所述连接关系还包括连接类型时，所述基于预设区域内各历史行为的起点位置所在网格区域和终点位置所在网格区域，确定各网格区域的连接关系还包括：

基于所述第一历史行为的历史行为类型，获取从所述第一网格区域指向所述第二网格区域的连接方向上的各连接类型，以及各连接类型对应的第二历史行为的数量；

基于所述各连接类型以及各连接类型对应的第二历史行为的数量，得到从所述第一网格区域指向所述第二网格区域的连接方向上的各连接类型的连接权重。

结合第一方面及其上述的各种实现方式，本公开在第一方面的第五种实现方式中，其中，所述基于各历史行为起点所在网格区域和终点所在网格区域，确定各网格区域的连接关系，还包括：

在使网格区域之间存在所述连接关系的历史行为的数量小于预设数量时，确定所述网格区域之间不存在所述连接关系。

结合第一方面及其上述的各种实现方式，本公开在第一方面的第六种实现方式中，其中，所述基于所述图G(V，A，F)训练编码解码模型得到特征提取模型，包括：

采用编码解码模型中的编码器对所述图G(V，A，F)进行特征提取，得到各节点的行为地理位置特征向量；

采用所述编码解码模型中的解码器对所述编码器提取的各节点的行为地理位置特征向量进行反向解码，获得重构图；

计算所述图中各节点的连接关系与所述重构图的各节点的连接关系之间的误差得到所述编码解码模型的损失函数，不断更新所述编码器和所述解码器中的参数，极小化损失函数，得到训练好的编码解码模型中的编码器为特征提取模型。

结合第一方面及其上述的各种实现方式，本公开在第一方面的第七种实现方式中，其中，所述编码器包括至少一层图注意力机制GAT层；所述解码器包括全连接网络层。

结合第一方面及其上述的各种实现方式，本公开在第一方面的第八种实现方式中，其中，所述计算所述图中各节点的连接关系与所述重构图的各节点的连接关系之间的误差得到所述编码解码模型的损失函数包括：

计算所述图中各节点的连接权重与所述重构图的各节点的连接权重之间的均方差得到所述编码解码模型的损失函数。

第二方面，本公开实施例中提供了一种特征提取方法。

具体地，所述特征提取方法，包括：

基于所述图G(V，A，F)训练编码解码模型得到特征提取模型，并得到所述特征提取模型提取的所述图中各节点的行为地理位置特征向量。

结合第二方面，本公开在第二方面的第一种实现方式中，其中，所述方法还包括：

使用所述训练好的编码器，对基于所述预设区域内的新的历史行为相关数据构建的新图G(V，A，F)进行特征提取，得到各节点的行为地理位置特征向量。

第三方面，本公开实施例中提供了一种特征提取模型获取装置。

具体地，所述特征提取模型获取装置，包括：

第一确定模块，被配置为基于预设区域内各历史行为起点所在网格区域和终点所在网格区域，确定各网格区域之间的连接关系；

第二确定模块，被配置为基于所述各网格区域内的历史行为数据，确定各网格区域的历史行为特征向量；

第一构图模块，被配置为构建图G(V，A，F)，其中，所述图中的节点V表示各网格区域；所述图中的边表示各网格区域之间的连接关系，记为矩阵A；所述图中各节点的特征向量F为各网格区域的历史行为特征向量；

训练模块，被配置为基于所述图G(V，A，F)训练编码解码模型得到特征提取模型，所述特征提取模块用于提取所述图中各节点的行为地理位置特征向量。

结合第三方面，本公开在第三方面的第一种实现方式中，其中，所述连接关系包括以下至少一种关系：连接方向、连接权重和连接类型。

结合第三方面及其第一种实现方式，本公开在第三方面的第二种实现方式中，其中，所述第一确定模块被配置为：

在所述连接关系包括连接权重时，基于各网格区域之间的历史行为的数量确定各网格区域之间的连接权重；

结合第三方面及其上述各种实现方式，本公开在第三方面的第三种实现方式中，其中，在所述连接关系包括连接方向和连接权重时，所述第一确定模块被配置为：

结合第三方面及其上述各种实现方式，本公开在第三方面的四种实现方式中，其中，在所述连接关系还包括连接类型时，所述第一确定模块还可以被配置为：

结合第三方面及其上述各种实现方式，本公开在第三方面的五种实现方式中，其中，所述第一确定模块可以被配置为：

结合第三方面及其上述各种实现方式，本公开在第三方面的六种实现方式中，其中，所述训练模块被配置为：

结合第三方面及其上述各种实现方式，本公开在第三方面的七种实现方式中，其中，所述编码器包括至少一层图注意力机制GAT层；所述解码器包括全连接网络层。

结合第三方面及其上述各种实现方式，本公开在第三方面的八种实现方式中，其中，所述训练模块中计算所述图中各节点的连接关系与所述重构图的各节点的连接关系之间的误差得到所述编码解码模型的损失函数的部分被配置为：

第四方面，本公开实施例中提供了一种特征提取装置。

具体地，所述特征提取装置，包括：

第三确定模块，被配置为基于预设区域内各历史行为起点所在网格区域和终点所在网格区域，确定各网格区域之间的连接关系；

第四确定模块，被配置为基于所述各网格区域内的历史行为数据，确定各网格区域的历史行为特征向量；

第二构图模块，被配置为构建图G(V，A，F)，其中，所述图中的节点V表示各网格区域；所述图中的边表示各网格区域之间的连接关系，记为矩阵A；所述图中各节点的特征向量F为各网格区域的历史行为特征向量；

获取模块，被配置为基于所述图G(V，A，F)训练编码解码模型得到特征提取模型，并得到所述特征提取模型提取的所述图中各节点的行为地理位置特征向量。

结合第四方面，本公开在第四方面的第一种实现方式中，其中，所述装置还包括：

第三提取模块，被配置为使用所述训练好的特征提取模型，对基于所述预设区域内的新的历史行为相关数据构建的新图G(V，A，F)进行特征提取，得到各节点的行为地理位置特征向量。

第五方面，本公开实施例提供了一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如任一方面所述的方法。

第六方面，本公开实施例中提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现如任一方面所述的方法。

第七方面，本公开实施例中提供了一种计算机程序产品，包括计算机指令，该计算机指令被处理器执行时实现如任一方面所述的方法步骤。

根据本公开实施例提供的技术方案，可以基于预设区域内各历史行为起点所在网格区域和终点所在网格区域，确定各网格区域之间的连接关系；基于所述各网格区域内的历史行为数据，确定各网格区域的历史行为特征向量；构建图G(V，A，F)，其中，所述图中的节点V表示各网格区域；所述图中的边表示各网格区域之间的连接关系，记为矩阵A；所述图中各节点的特征向量F为各网格区域的历史行为特征向量；基于所述图G(V，A，F)训练编码解码模型得到特征提取模型，所述特征提取模型用于提取所述图中各节点的行为地理位置特征向量。如此，通过无监督学习的方式来训练编码解码模型中的编码器作为特征提取模型，这样就可以独立地使用训练好的编码器来提取各行为的地理位置信息中的行为地理位置特征，得到各网络区域的行为地理位置特征向量，该训练好的编码器提取的行为地理位置特征向量不存在特征爆炸的问题且由于是独立提取的，可以按照需求适用于各种需要输入行为地理位置特征的深度模型或非深度模型中。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开的实施例的特征提取模型获取方法的流程图；

图2示出根据本公开的实施例的图G(V，A，F)的示意图；

图3示出根据本公开的实施例的特征提取方法的流程图；

图4示出根据本公开的实施例的特征提取模型获取装置的结构框图；

图5示出根据本公开的实施例的特征提取装置的结构框图；

图6示出根据本公开的实施例的电子设备的结构框图；

图7示出适于用来实现根据本公开实施例的方法的计算机系统的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施例，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施例无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

在本公开中，对用户信息或用户数据的获取均为经用户授权、确认，或由用户主动选择的操作。

为了解决上述问题，本公开提供了一种特征提取模型获取方法，可以基于预设区域内各历史行为起点所在网格区域和终点所在网格区域，确定各网格区域之间的连接关系；基于所述各网格区域内的历史行为数据，确定各网格区域的历史行为特征向量；构建图G(V，A，F)，其中，所述图中的节点V表示各网格区域；所述图中的边表示各网格区域之间的连接关系，记为矩阵A；所述图中各节点的特征向量F为各网格区域的历史行为特征向量；基于所述图G(V，A，F)训练编码解码模型得到特征提取模型，所述特征提取模型用于提取所述图中各节点的行为地理位置特征向量。如此，通过无监督学习的方式来训练编码解码模型中的编码器作为特征提取模型，这样就可以独立地使用训练好的编码器来提取各行为的地理位置信息中的行为地理位置特征，得到各网络区域的行为地理位置特征向量，该训练好的编码器提取的行为地理位置特征向量不存在特征爆炸的问题且由于是独立提取的，可以按照需求适用于各种需要输入行为地理位置特征的深度模型或非深度模型中。

图1示出根据本公开的实施例的特征提取模型获取方法的流程图。如图1所示，所述特征提取模型获取方法包括以下步骤S101-S104：

在步骤S101中，基于预设区域内各历史行为起点所在网格区域和终点所在网格区域，确定各网格区域之间的连接关系；

在步骤S102中，基于所述各网格区域内的历史行为数据，确定各网格区域的历史行为特征向量；

在步骤S103中，构建图G(V，A，F)，其中，所述图中的节点V表示各网格区域；所述图中的边表示各网格区域之间的连接关系，记为矩阵A；所述图中各节点的特征向量F为各网格区域的历史行为特征向量；

在步骤S104中，基于所述图G(V，A，F)训练编码解码模型得到特征提取模型，所述特征提取模型用于提取所述图中各节点的行为地理位置特征向量。

在本公开一实施方式中，所述特征提取模型的获取方法可适用于可执行训练特征提取模型的计算机、计算设备、电子设备、服务器、服务集群等电子设备。

在本公开一实施方式中，该预设区域指的是任意的一块连续的地理区域，如可以是一个城市所在的地理区域，一个省所在的地理区域或一个国家所在的地理区域。这里可以根据订单类型来选择预设区域的类型，这里的订单指的是包含需要进行位置移动的行为如运输行为、快递行为的订单，例如，订单可以是打车订单或外卖订单。假设需要提取地理位置特征的订单是网约车平台的打车订单或外卖平台的外卖订单，由于打车订单或外卖订单只存在少量跨城订单，相比于城市内的城内订单可以忽略不记，此时，对应的预设区域可以是一个城市所在的地理区域。

在本公开一实施方式中，可以将预设区域按照某种形状如三角形/四边形/六边形等切分成互不相交的网络状格子，这些网络格子所覆盖地理区域可以称为网格区域。示例的，可以使用开源网格系统h3将预设区域划分为若干的六边形网格，得到若干的六边形网格区域。

在本公开一实施方式中，该历史行为指的是完成该历史订单所执行的需要进行位置移动的行为，该行为具有位置移动的起点和位置移动的终点，分别称为行为的起点和行为的终点。可以获取海量的历史订单数据，从该历史订单数据中获取完成该历史订单所执行的历史行为的地理位置数据，该历史行为的地理位置数据包括各历史行为的起点所在网格区域和终点所在网格区域，如果第一网格区域和第二网格区域之间存在历史行为(这里的存在历史行为指的是有历史行为的起终点分别在第一网格区域和第二网格区域)，则该第一网格区域与该第二网格区域之间存在连接关系，如果第一网格区域和第二网格区域之间不存在历史行为，则该第一网格区域与该第二网格区域之间没有连接关系，该第一网格区域和第二网格区域均是该预设区域内的任意一网格区域，该第一网格区域和第二网格区域可以是同一网格区域，也可以是不同的网格区域。各网格区域之间的连接关系包括两个不同网格区域之间的连接关系以及同一网格区域的自连接关系。

在本公开一实施方式中，该网格区域内的历史行为数据包括行为起点和/或终点在该网格区域内的各历史订单的订单交易数据，基于这些订单交易数据可以统计得到各网格区域的历史行为特征向量，该历史行为特征向量反映行为起点和/或终点在该网格区域内的历史订单的交易情况，例如可以包括行为起点和/或终点在该网格区域内历史m天的订单数量，历史m天的成交率等等特征数据。

在本公开一实施方式中，可以基于该各网格区域之间的连接关系和各网格区域的历史行为特征向量来构建图G(V，A，F)，图结构包括节点和边，其中，图中的节点V表示各网格区域，所述图中的边表示各网格区域之间的连接关系，可以用矩阵A来表示，所述图中各节点的特征向量F为各网格区域的历史行为特征向量。

在本公开一实施方式中，可以采用无监督学习的方式来训练得到特征提取模型，可以构建一个编码解码模型，该编码解码模型包括编码器、解码器和损失函数。该编码器为特征提取模型，用于对图G(V，A，F)进行特征提取得到各节点的行为地理位置特征向量；该解码器用于对所述编码器提取的各节点的行为地理位置特征向量进行反向解码，基于所述各节点的行为地理位置特征向量预测各节点之间的连接关系，基于该各节点之间的连接关系得到重构图；该损失函数用于计算所述图中各节点的连接关系与所述重构图的各节点的连接关系之间的误差。在训练该编码解码模型时，可以基于该损失函数反馈的误差，不断迭代更新所述编码器和所述解码器中的参数，使损失函数输出的误差逐渐减小至不再变化，就得到训练好的编码解码模型，该选练好的编码解码模型中的编码器即为训练好的特征提取模型，此时，该训练好的编码器输出的各节点的行为地理位置特征向量就能够准确地反应这些历史行为的起点和/或终点位置信息的特征，可以将其用在需要使用历史行为的地理位置特征的模型中，示例的，如完单量预测模型、接单概率预测模型等等模型中，将该训练好的编码器提取的各节点的行为地理位置特征向量输入至司机完单量预测模型中使用后，经检测发现可以提升该司机完单量预测模型的AUC(Area Under Curve，ROC曲线下的面积)值。

本实施例可以通过无监督学习的方式，使用基于历史行为的地理位置相关信息构建的图来训练编码解码模型中的编码器作为地理位置信息的特征提取模型，这样就可以独立地使用训练好的编码器来准确地提取到可以反应各历史行为地理位置特征的各网络区域的行为地理位置特征向量，该训练好的编码器提取的行为地理位置特征向量不存在特征爆炸的问题，且由于该编码器是独立于后续需要使用该地理位置特征的模型进行训练的，能够准确地提取到可以反应各历史行为的起终点位置特征的各网络区域的行为地理位置特征向量，故其提取的行为地理位置特征向量可以按照需求适用于各种需要输入行为地理位置特征的深度模型或非深度模型中。

在一种可能的实现方式中，所述连接关系包括以下至少一种关系：连接方向、连接权重和连接类型。

在该实现方式中，如果需要提取的地理位置特征要能够表征行为的行动方向，则构建的图G(V，A，F)就需要是有向图，此时需要获取各网格区域之间的连接方向，各网格区域之间的连接方向包括从行为起点所在的网格区域到行为终点所在的网格区域的方向。示例的，对于第一网格区域和第二网格区域，假设第一网格区域和第二网格区域之间存在M个历史订单，如果完成这M个历史订单所执行的历史行为的起点所在网格区域为第一网格区域，终点所在网格区域为第二网格区域，则第一网格区域和第二网格区域之间的连接方向为第一网格区域指向第二网格区域；如果这M个历史订单所执行的历史行为中部分行为的起点所在网格区域为第一网格区域，终点所在网格区域为第二网格区域，另一部分行为的起点所在网格区域为第二网格区域，终点所在网格区域为第一网格区域，则第一网格区域和第二网格区域之间的连接方向就包括从第一网格区域指向第二网格区域的方向以及从第二网格区域指向第一网格区域的方向，该第一网格区域和该第二网格区域可以是同一网格区域，也可以是不同网格区域。

在该实现方式中，该连接权重用于表征各网格区域之间的联系的紧密程度，可以基于各网格区域之间的历史行为的数量确定各网格区域之间的连接权重，两网格区域之间的历史行为的数量越多，说明两网格区域之间的联系越紧密，权重值就越大。

在该实现方式中，该连接类型用于表征各网格区域之间的历史行为的行为类型，可以基于各网格区域之间的历史行为类型确定各格区域之间的连接类型。示例的，在网约车及外卖订单内的行为存在明显的高峰、平峰、工作日、节假日等时间区分，为了使得图G包含此种特性，可以将行为分为工作日高峰期行为、工作日平峰期行为、节假日行为、夜间行为等多种行为类型。或者，这些行为还可以按照行为价格分为高价行为、中价行为、低价行为等行为类型。当然，这些行为还可以按照行为的各种属性划分为各种行为类型，在此不一一例举。如果两个网格区域之间的连接关系包括某连接类型，则表明这两个网格区域之间存在该连接类型所对应行为类型的行为。

在一种可能的实现方式中，在所述连接关系包括连接方向和连接权重时，上述特征提取模型获取中的步骤S101可以实现为以下步骤：

在该实现方式中，如果该连接关系包括连接方向和连接权重，则需要获取每个连接方向上的连接权重。针对第一网格区域，假设在完成各历史订单所执行的行为中，行为起点所在区域为第一网格区域的历史行为共有N个，以第二网格区域A为行为终点所在区域的第一历史行为的数量为N1，以第二网格区域B为行为终点所在区域的第一历史行为的数量为N2，以第二网格区域C为行为终点所在区域的第一历史行为的数量为N3，N1+N2+N3＝N；则可以获取从所述第一网格区域指向所述第二网格区域A的连接方向对应的连接权重为N1/N，获取从所述第一网格区域指向所述第二网格区域B的连接方向对应的连接权重为N2/N，获取从所述第一网格区域指向所述第二网格区域B的连接方向对应的连接权重为N3/N，N1/N+N2/N+N3/N＝1。如此，可以针对各个网格区域按照上述方式计算各网格区域之间的连接方向对应的连接权重。

在一种可能的实现方式中，在所述连接关系包括连接方向、连接权重和连接类型时，上述特征提取模型获取中的步骤S101还可以实现为以下步骤：

在该实现方式中，仍以上述示例为例进行说明，以第一网格区域为行为起点所在网格区域，第二网格区域A为行为终点所在区域的第一历史行为的数量为N1，其中，工作日高峰期行为的数量为N11、工作日平峰期的数量为N12、节假日行为的数量为N13、夜间行为的数量为N14，N11+N12+N13+N14＝N1；则可以获取从所述第一网格区域指向所述第二网格区域A的连接方向上的连接类型-工作日高峰期行为的连接权重为N11/N，获取从所述第一网格区域指向所述第二网格区域A的连接方向上的连接类型-工作日平峰期行为的连接权重为N12/N，获取从所述第一网格区域指向所述第二网格区域A的连接方向上的连接类型-节假日行为的连接权重为N13/N，获取从所述第一网格区域指向所述第二网格区域A的连接方向上的连接类型-夜间行为的连接权重为N14/N。

示例的，在所述连接关系包括连接方向、连接权重和连接类型时，构建出的图G(V，A，F)为加权有向异质图，可以如图2所示，该图2中的节点表示各网格区域，两个节点之间存在连接关系，则两个节点之间有连线，可以用连线上的箭头方向表示该连接方向，用不用颜色的连线表示连接类型。可以用矩阵A_k中的元素值表示各节点之间的连接权重，k为第k种连接类型，如存在一条从节点i到节点j的连接方向上连接类型标识为k的连接权重为n，则矩阵A_k中第i行第j列的元素为n。

在一种可能的实现方式中，上述特征提取模型获取中的步骤S101还可以实现为以下步骤：

在使网格区域之间存在所述连接关系的历史行为数量小于预设数量时，确定所述网格区域之间不存在所述连接关系。

在该实现方式中，为了减少数据量，可以在使两个网格区域之间存在某连接方向上的某连接类型的历史行为数量小于预设数量比如说5时，表明该连接方向上该连接类型的历史订单较少，可以忽略不计，此时可以确定两个网格区域之间不存在该连接关系，该图G中相应的两个节点之间没有连线。该两个网格区域可以是同一网格区域，也可以是不同网格区域。

在一种可能的实现方式中，所述编码器包括至少一层图注意力机制GAT层；所述解码器包括全连接网络层。

在该实现方式中，该编码器用于从图G(V，A，F)中提取各节点的行为地理位置特征向量，在图G(V，A，F)为加权有向异质图时，为了更好的提取图G(V，A，F)中的特征，可以使用GAT(Graph attention layer，图注意力)层来进行提取，该GAT层的输入是N个节点的特征向量，每个节点的特征向量的维度为F，经过一个GAT层后输出N个节点的新特征向量，每个节点的新特征向量的维度为F^*(F^*可以为任意值)。

在该实现方式中，该编码器可以包括一层GAT层，也可以包括两层或两层以上的GAT层。优选的，可以使用两层GAT层进行特征提取。

在该实现方式中，所述解码器用于基于各节点的行为地理位置特征向量，预测得到各节点之间的连接关系，如各节点之间存在哪个连接方向哪个连接类型的连接且该连接的权重，基于预测的各节点之间的连接关系可以重构一图结构，得到重构图。该解码器可以是全连接网络层。

在该实现方式中，可以计算原始的图中各节点的连接关系与重构图的各节点的连接关系之间的误差，不断迭代更新所述编码器和所述解码器中的参数，使该误差逐渐减小至不再变化，就得到训练好的编码解码模型，该训练好的编码解码模型中的编码器即为训练好的特征提取模型，基于该编码器提取的各节点的行为地理位置特征向量可以准确地还原出与该原始的图相似的重构图，故该编码器提取的各节点的行为地理位置特征向量就可以准确地表征该图中的各种特征。

在一种可能的实现方式中，上述特征提取模型获取方法的步骤S104中所述计算所述图中各节点的连接关系与所述重构图的各节点的连接关系之间的误差得到所述编码解码模型的损失函数的步骤可以包括以下步骤：

在该实现方式中，可以将该损失函数设置为该原始的图中各节点的连接权重与所述重构图的各节点的连接权重之间的均方差，在训练该编码解码模型时，如果该均方差减小到一定程度后不再变化，则可以停止训练，得到训练好的编码解码模型。

图3示出根据本公开的实施例的特征提取方法的流程图。如图3所示，所述特征提取方法包括以下步骤

在步骤S301中，基于预设区域内各历史行为起点所在网格区域和终点所在网格区域，确定各网格区域之间的连接关系；

在步骤S302中，基于所述各网格区域内的历史行为数据，确定各网格区域的历史行为特征向量；

在步骤S303中，构建图G(V，A，F)，其中，所述图中的节点V表示各网格区域；所述图中的边表示各网格区域之间的连接关系，记为矩阵A；所述图中各节点的特征向量F为各网格区域的历史行为特征向量；

在步骤S304中，基于所述图G(V，A，F)训练编码解码模型得到特征提取模型，并得到所述特征提取模型提取的所述图中各节点的行为地理位置特征向量。

在本公开一实施方式中，所述特征提取方法可适用于可执行特征提取的计算机、计算设备、电子设备、服务器、服务集群等电子设备。

在本公开一实施方式中，该网格区域内的历史行为数据包括行为起点和/或终点在该网格区域内的各历史订单的订单交易数据，基于这些订单交易数据可以统计得到各网格区域的历史行为特征向量，该历史行为特征向量反应行为起点和/或终点在该网格区域内的历史订单的交易情况，例如可以包括行为起点和/或终点在该网格区域内历史m天的订单数量，历史m天的订单成交率等等特征数据。

在本公开一实施方式中，可以采用无监督学习的方式来训练得到特征提取模型，可以构建一个编码解码模型，该编码解码模型包括编码器、解码器和损失函数。该编码器为特征提取模型，用于对图G(V，A，F)进行特征提取得到各节点的行为地理位置特征向量；该解码器用于对所述编码器提取的各节点的行为地理位置特征向量进行反向解码，基于所述各节点的行为地理位置特征向量预测各节点之间的连接关系，基于该各节点之间的连接关系得到重构图；该损失函数用于计算所述图中各节点的连接关系与所述重构图的各节点的连接关系之间的误差。在训练该编码解码模型时，可以基于该损失函数反馈的误差，不断迭代更新所述编码器和所述解码器中的参数，使损失函数输出的误差逐渐减小至不再变化，就得到训练好的编码解码模型，该选练好的编码解码模型中的编码器即为训练好的特征提取模型，此时，该训练好的编码器之前输出的各节点的行为地理位置特征向量就能够准确地反应这些历史行为的起点和/或终点位置信息的特征，可以将其用在需要使用历史行为的地理位置特征的模型中，示例的，如完单量预测模型、接单概率预测模型等等模型中，将该训练好的编码器提取的各节点的行为地理位置特征向量输入至司机完单量预测模型中使用后，经检测发现可以提升该司机完单量预测模型的AUC值。

在一种可能的实现方式中，上述特征提取方法还可以包括以下步骤：

在该实现方式中，训练好该编码器后，可以用该编码器来提取基于该预设区域内的新历史订单的历史行为相关数据构建的新图G(V，A，F)中各节点的行为地理位置特征向量。这里需要说明的是，由于各区域内的地理特征不同，每个区域可以对应训练一个编码器。

本实施例中特征提取与上述特征提取模型获取方法对应一致，具体细节可以参见上述对特征提取模型获取方法的描述，在此不再赘述。

图4示出根据本公开的实施例的特征提取模型获取装置的结构框图。其中，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。

如图4所示，所述特征提取模型获取装置400包括第一确定模块410、第二确定模块420、第一构图模块430和训练模块440。

第一确定模块410，被配置为基于预设区域内各历史行为起点所在网格区域和终点所在网格区域，确定各网格区域之间的连接关系；

第二确定模块420，被配置为基于所述各网格区域内的历史行为数据，确定各网格区域的历史行为特征向量；

第一构图模块430，被配置为构建图G(V，A，F)，其中，所述图中的节点V表示各网格区域；所述图中的边表示各网格区域之间的连接关系，记为矩阵A；所述图中各节点的特征向量F为各网格区域的历史行为特征向量；

训练模块440，被配置为基于所述图G(V，A，F)训练编码解码模型得到特征提取模型，所述特征提取模块用于提取所述图中各节点的行为地理位置特征向量。

在一种可能的实现方式中，所述第一确定模块410被配置为：

在一种可能的实现方式中，在所述连接关系包括连接方向和连接权重时，所述第一确定模块被配置为：

在一种可能的实现方式中，在所述连接关系还包括连接类型时，所述第一确定模块410还可以被配置为：

在一种可能的实现方式中，所述第一确定模块410可以被配置为：

在一种可能的实现方式中，所述训练模块440被配置为：

在一种可能的实现方式中，所述训练模块440中计算所述图中各节点的连接关系与所述重构图的各节点的连接关系之间的误差得到所述编码解码模型的损失函数的部分被配置为：

本实施例中特征提取模型获取装置的具体细节可以参见上述特征提取模型获取方法的描述，在此不再赘述。

图5示出根据本公开的实施例的特征提取装置的结构框图。其中，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。

如图5所示，所述特征提取装置500包括第三确定模块510、第四确定模块520、第二构图模块530和获取模块540。

第三确定模块510，被配置为基于预设区域内各历史行为起点所在网格区域和终点所在网格区域，确定各网格区域之间的连接关系；

第四确定模块520，被配置为基于所述各网格区域内的历史行为数据，确定各网格区域的历史行为特征向量；

第二构图模块530，被配置为构建图G(V，A，F)，其中，所述图中的节点V表示各网格区域；所述图中的边表示各网格区域之间的连接关系，记为矩阵A；所述图中各节点的特征向量F为各网格区域的历史行为特征向量；

获取模块540，被配置为基于所述图G(V，A，F)训练编码解码模型得到特征提取模型，并得到所述特征提取模型提取的所述图中各节点的行为地理位置特征向量。

在一种可能的实现方式中，其中，所述装置还包括：

本实施例中特征提取装置的具体细节可以参见上述特征提取方法的描述，在此不再赘述。

本公开还公开了一种电子设备，图6示出根据本公开的实施例的电子设备的结构框图。

如图6所示，所述电子设备600包括存储器601和处理器602，其中，存储器601用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器602执行以实现根据本公开的实施例的方法。

如图7所示，计算机系统700包括处理单元701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行上述实施例中的各种处理。在RAM 703中，还存储有系统700操作所需的各种程序和数据。处理单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括键盘、鼠标等的输入部分706；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。其中，所述处理单元701可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。

特别地，根据本公开的实施例，上文描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括计算机指令，该计算机指令被处理器执行时实现上文所述的方法步骤。在这样的实施例中，该计算机程序产品可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种特征提取模型获取方法，包括：

2.根据权利要求1所述的方法，其中，所述连接关系包括以下至少一种关系：连接方向、连接权重和连接类型。

3.根据权利要求2所述的方法，其中，所述基于预设区域内各历史行为的起点位置所在网格区域和终点位置所在网格区域，确定各网格区域的连接关系，包括：

4.根据权利要求2所述的方法，在所述连接关系包括连接方向和连接权重时，所述基于预设区域内各历史行为的起点位置所在网格区域和终点位置所在网格区域，确定各网格区域的连接关系，包括：

5.根据权利要求4所述的方法，在所述连接关系还包括连接类型时，所述基于预设区域内各历史行为的起点位置所在网格区域和终点位置所在网格区域，确定各网格区域的连接关系还包括：

6.根据权利要求1所述的方法，其中，所述基于各历史行为起点所在网格区域和终点所在网格区域，确定各网格区域的连接关系，还包括：

7.根据权利要求1所述的方法，其中，所述基于所述图G(V，A，F)训练编码解码模型得到特征提取模型，包括：

8.根据权利要求7所述的方法，其中，所述计算所述图中各节点的连接关系与所述重构图的各节点的连接关系之间的误差得到所述编码解码模型的损失函数包括：

9.一种特征提取方法，其中，包括：

10.根据权利要求9所述的方法，其中，所述方法还包括：

使用所述训练好的特征提取模型，对基于所述预设区域内的新的历史行为相关数据构建的新图G(V，A，F)进行特征提取，得到各节点的行为地理位置特征向量。

11.一种特征提取模型获取装置，包括：

12.一种特征提取装置，其中，包括：

13.一种电子设备，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1至10任一项所述的方法步骤。

14.一种计算机程序产品，包括计算机指令，该计算机指令被处理器执行时实现权利要求1至10任一项所述的方法步骤。