CN112163979A

CN112163979A - 一种基于联邦学习的城市交通出行数据分析方法

Info

Publication number: CN112163979A
Application number: CN202011119990.2A
Authority: CN
Inventors: 陈思恩
Original assignee: Tech Valley Xiamen Information Technology Co ltd
Current assignee: Tech Valley Xiamen Information Technology Co ltd
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-01-01

Abstract

本发明公开了一种基于联邦学习的城市交通出行数据分析方法，包括以下步骤：城市交通出行数据源各方提供乘客数据，根据预先约定的数据规范各自完成数据加工；城市交通出行数据源各方通过机器学习或深度学习训练并构建本地自有模型，基于自有模型获得样本数据；将样本数据输入到联邦学习平台进行联合建模；利用联合模型构建乘客群体标签，根据乘客群体标签提取基于标签的特征工程，获得用户特征数据集，构建出用户画像；基于用户特征数据集和用户画像，通过联合建模制定推荐模型，利用推荐模型根据用户和产品的联系，向乘客推荐相应的产品或业务。

Description

一种基于联邦学习的城市交通出行数据分析方法

技术领域

本发明涉及数据分析技术领域，具体涉及一种基于联邦学习的城市交通出行数据分析方法。

背景技术

企业的数据融合方法是利用人工智能等技术，以智能化手段开展与第三方合作机构的联合建模过程，运用平台化的模式实现产品开发、用户引流和业务拓展的完整服务。通过多方数据的融合，丰富数据的维度和深度，挖掘产品、服务等合作空间。

数据融合驱动下的平台化业务拓展成为趋势，为新产品的研发和新渠道的拓展起到催化作用。企业在科技驱动下探索商业模式创新。企业用自身数据在的集群上训练模型，再汇总到第三方或者企业本身；第三方进行模型融合调优后，再分发给各参与方。联邦学习的重点意义就在于对终端用户隐私的保护、对各个参与方自有数据所有权的保护，以及对企业在数据和建模上合作共赢的推进。

针对城市交通出行领域，乘客信息分散在城市交通运营各方，存在乘客信息不完整，准确度低等问题，如何通过数据融合实现完整、准确的乘客信息获得，挖掘乘客信息价值，实现对乘客的精准营销投放，越来越受到人们的关注。

发明内容

为解决上述问题，本发明提供了一种基于联邦学习的城市交通出行数据分析方法。

本发明采用以下技术方案：

一种基于联邦学习的城市交通出行数据分析方法，包括以下步骤：

S1、城市交通出行数据源各方提供乘客数据，根据预先约定的数据规范各自完成数据加工，所述数据加工包括数据加密和数据对齐，所述乘客数据包括交通工具类型、站点信息、位置信息、通话信息及出行平台使用信息；

S2、城市交通出行数据源各方通过机器学习或深度学习训练并构建本地自有模型，获得特征参数，基于自有模型获得样本数据，所述样本数据包括本地自有模型的训练参数和梯度；

S3、将样本数据输入到联邦学习平台进行联合建模，对城市交通出行数据源方输入的样本数据进行加密ID匹配，输出ID交集，通过模型训练获得联合模型；

S4、利用联合模型构建乘客群体标签，根据乘客群体标签提取基于标签的特征工程，获得用户特征数据集，构建出用户画像；

S5、基于用户特征数据集和用户画像，通过联合建模制定推荐模型，利用推荐模型根据用户和产品的联系，向乘客推荐相应的产品或业务。

优选地，所述通过联合建模制定推荐模型具体为：采用联邦推荐算法进行建模融合和分析，利用推荐模型根据用户和产品的联系，向乘客推荐相应的产品或业务，所述联邦推荐算法包括横向联邦推荐算法、纵向联邦推荐算法及迁移联邦推荐算法。

优选地，所述步骤S1中的数据加密采用多方安全计算、差分隐私、同态加密中的一种或多种。

优选地，所述同态加密为非对称同态加密，采用RSA加密算法或Paillier加密算法。

优选地，所述城市交通出行数据源各方包括城市交通运营方和出行平台运营方。

优选地，所述步骤S3还包括：根据所述联合模型反馈的参数对本地自有模型的参数进行更新。

优选地，所述步骤S2中的特征参数包括全量ID、特征变量和表现数据。

优选地，所述联合模型是城市交通出行数据源各方的自有本地模型在联邦学习平台融合后的虚拟模型。

优选地，所述乘客群体标签包括交通工具、站点、位置、消费喜好程度及出行行为习惯。

优选地，所述非对称同态加密具体为：

协作者将公钥分发给发起者和参与者，用以对训练过程中需要交换的数据进行加密；

发起者和参与者以加密形式交互用于计算梯度值的中间结果；

发起者和参与者分别基于加密的梯度值进行计算，同时参与者根据其标签数据计算损失，并把汇总结果给协作者，协作者通过汇总结果计算总梯度值并利用私钥将其解密；

协作者将解密后的总梯度值分别回传给发起者和参与者，发起者和参与者根据总梯度值更新各自模型的参数。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：

本发明基于联邦学习技术进行乘客群体标签确定，构建乘客画像，能够全面了解乘客对交通工具、站点、位置、消费的喜好程度以及出行行为习惯，准确的划分出乘客群体；基于乘客画像及特征数据集，制定推荐策略，能够实现针对乘客的精准营销。

附图说明

图1为本发明的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

参考图1所示，本发明公开了一种基于联邦学习的城市交通出行数据分析方法，包括以下步骤：

S1、城市交通出行数据源各方提供乘客数据，根据预先约定的数据规范各自完成数据加工，所述数据加工包括数据加密和数据对齐。城市交通出行数据源各方包括城市交通运营方和出行平台运营方。所述乘客数据包括交通工具类型、站点信息、位置信息、通话信息及出行平台使用信息。数据加密采用多方安全计算、差分隐私、同态加密中的一种或多种。所述同态加密为非对称同态加密，采用RSA加密算法或Paillier加密算法。非对称同态加密具体为：协作者将公钥分发给发起者和参与者，用以对训练过程中需要交换的数据进行加密；发起者和参与者以加密形式交互用于计算梯度值的中间结果；发起者和参与者分别基于加密的梯度值进行计算，同时参与者根据其标签数据计算损失，并把汇总结果给协作者，协作者通过汇总结果计算总梯度值并利用私钥将其解密；协作者将解密后的总梯度值分别回传给发起者和参与者，发起者和参与者根据总梯度值更新各自模型的参数。

S2、城市交通出行数据源各方通过机器学习或深度学习训练并构建本地自有模型，获得特征参数，基于自有模型获得样本数据，所述样本数据包括本地自有模型的训练参数和梯度。在本实施例中，特征参数包括全量ID、特征变量和表现数据。

S3、将样本数据输入到联邦学习平台进行联合建模，对城市交通出行数据源方输入的样本数据进行加密ID匹配，输出ID交集，通过模型训练获得联合模型，根据所述联合模型反馈的参数对本地自有模型的参数进行更新。联合模型是城市交通出行数据源各方的自有本地模型在联邦学习平台融合后的虚拟模型。

S4、利用联合模型构建乘客群体标签，根据乘客群体标签提取基于标签的特征工程，获得用户特征数据集，构建出用户画像。在本实施例中，乘客群体标签包括交通工具、站点、位置、消费喜好程度及出行行为习惯。

S5、基于用户特征数据集和用户画像，通过联合建模制定推荐模型。通过联合建模制定推荐模型具体为：采用联邦推荐算法进行建模融合和分析，利用推荐模型根据用户和产品的联系，向乘客推荐相应的产品或业务，所述联邦推荐算法包括横向联邦推荐算法、纵向联邦推荐算法及迁移联邦推荐算法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于联邦学习的城市交通出行数据分析方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于联邦学习的城市交通出行数据分析方法，其特征在于，所述通过联合建模制定推荐模型具体为：采用联邦推荐算法进行建模融合和分析，利用推荐模型根据用户和产品的联系，向乘客推荐相应的产品或业务，所述联邦推荐算法包括横向联邦推荐算法、纵向联邦推荐算法及迁移联邦推荐算法。

3.如权利要求1所述的一种基于联邦学习的城市交通出行数据分析方法，其特征在于，所述步骤S1中的数据加密采用多方安全计算、差分隐私、同态加密中的一种或多种。

4.如权利要求3所述的一种基于联邦学习的城市交通出行数据分析方法，其特征在于，所述同态加密为非对称同态加密，采用RSA加密算法或Paillier加密算法。

5.如权利要求1所述的一种基于联邦学习的城市交通出行数据分析方法，其特征在于，所述城市交通出行数据源各方包括城市交通运营方和出行平台运营方。

6.如权利要求1所述的一种基于联邦学习的城市交通出行数据分析方法，其特征在于，所述步骤S3还包括：根据所述联合模型反馈的参数对本地自有模型的参数进行更新。

7.如权利要求1所述的一种基于联邦学习的城市交通出行数据分析方法，其特征在于，所述步骤S2中的特征参数包括全量ID、特征变量和表现数据。

8.如权利要求1所述的一种基于联邦学习的城市交通出行数据分析方法，其特征在于，所述联合模型是城市交通出行数据源各方的自有本地模型在联邦学习平台融合后的虚拟模型。

9.如权利要求1所述的一种基于联邦学习的城市交通出行数据分析方法，其特征在于，所述乘客群体标签包括交通工具、站点、位置、消费喜好程度及出行行为习惯。

10.如权利要求4所述的一种基于联邦学习的城市交通出行数据分析方法，其特征在于，所述非对称同态加密具体为：