CN113961734A

CN113961734A - 基于停车数据和app操作日志的用户和车辆画像构建方法

Info

Publication number: CN113961734A
Application number: CN202111575171.3A
Authority: CN
Inventors: 刘寒松; 王永; 王国强; 刘瑞; 翟贵乾
Original assignee: Sonli Holdings Group Co Ltd
Current assignee: Sonli Holdings Group Co Ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-01-21
Anticipated expiration: 2041-12-22
Also published as: CN113961734B

Abstract

本发明公开了基于停车数据和APP操作日志的用户和车辆画像构建方法，涉及交通和数据挖掘处理技术领域。本发明包括如下步骤：S1.获取用户停车行为数据和用户APP操作日志数据；S2.数据清洗，数据清洗的操作包括：字段去重；删除不必要的空记录，填充充分必要但缺失的数据；数值格式统一；S3包括步骤S3‑1和步骤S3‑2；步骤S3‑1：S3‑1‑A构建单视图数据集，S3‑1‑B构建基本画像；步骤S3‑2：S3‑2‑A构建多视图数据集，S3‑2‑B设计多视图代理任务，S3‑2‑C构建高级画像；S4.构建总画像：基本画像和高级画像组合构成用户和车辆的总画像。本发明实现了从浅层和深层两个维度刻画用户和车辆信息。

Description

基于停车数据和APP操作日志的用户和车辆画像构建方法

技术领域

本发明属于数据挖掘技术领域，涉及基于停车数据和APP操作日志的用户和车辆画像构建方法。

背景技术

从数据中挖掘有效信息已经成为大数据背景下的重要技术，被广泛应用于个性化推荐和关系网构建等实际场景。现有借助车辆使用信息、车联网或车身总线等数据挖掘用户行为和车辆特征的方法多借助统计学方法处理简单的单维度数据，在大数据场景中，数据处理能力和挖掘信息质量会急剧下降。即使有部分基于深度学习（如深度卷积网络）的方法，受流行网络模型架构的影响依然存在一些固有的问题：

1. 无法同时处理多视图数据。用户和车辆的信息通常采集自不同的终端，以不同的信息形式存储，具有多视图的属性。多视图属性可以理解为对同一个目标多个角度的描述，又可细分为多模态和多特征属性。例如，停车信息可以由停车场的摄像头采集，以图像的形式存储，包含详细的车辆信息；同时，停车信息也可以来自停车缴费记录，以文本信息存储，包含更多的时序信息和用户行为。现有方法通常需要为每种模态的数据建立模型，甚至对于同一种模态数据的不同特征（如缴费记录中的时间特征和空间特征）也要单独建模。

2. 挖掘的信息层次单一。现有方法为每种模态或特征单独建模的方式必然会引起挖掘信息的单一，不同视图数据间存在互补信息无法被充分的挖掘，无法刻画用户或车辆的深层次属性。

3.深度模型需要大量的标注信息。尽管基于深度学习的方法能够挖掘单一模态深层特征，但训练过程需要大量的标注数据；标注过程往往由专业人员手动完成，这在驾驶、停车行为分析等对实时性要求较高开放场景中几乎是不可能满足的。

发明内容

本发明为了弥补现有技术的不足，提供了基于停车数据和APP操作日志的用户和车辆画像构建方法，通过对多个终端设备采集的多视图数据建模，并以浅层和深层两个角度刻画用户和车辆画像。本发明是通过如下技术方案实现的：本发明提供了基于停车数据和APP操作日志的用户和车辆画像构建方法，包括如下步骤：

S1.数据获取，包括获取用户停车行为数据和用户APP操作日志数据；

S2.数据清洗，数据清洗的操作包括：字段去重；删除不必要的空记录，填充充分必要但缺失的数据；数值格式统一；

S3包括步骤S3-1和步骤S3-2；步骤S3-1：S3-1-A构建单视图数据集，S3-1-B构建基本画像；步骤S3-2：S3-2-A构建多视图数据集，S3-2-B设计多视图代理任务，S3-2-C构建高级画像；

S3-1-A构建单视图数据集：基于清洗后的数据，抽取单视图数据实例构建单视图数据集；并制定单视图数据集及其对应规则；

S3-1-B构建基本画像：利用统计学基本方法和杰卡德距离，手动设计基本画像的生成规则；以设计的规则为基础，分析用户停车行为，构建确定性的用户和车辆的基本画像；

S3-2-A构建多视图数据集：基于清洗后的数据，按照单次停车为一个数据单位构建多视图数据集；

S3-2-B设计多视图代理任务：先对数据进行破坏性预处理，然后按照数据维度为多视图数据设计代理任务；一维数据的代理任务包括：重建任务和一致性学习任务；二维数据的代理任务包括：重建任务、旋转预测任务和一致性学习任务；

S3-2-C构建高级画像：以ViT为模型结构，通过多视图代理任务和多视图数据集训练得到预训练模型；用户或车辆的高级画像由经过该预训练模型导出的深层特征组成；

S4.构建总画像：基本画像和高级画像组合构成用户和车辆的总画像。

作为优选方案，步骤S1中获取的数据包括用户停车行为数据和用户APP操作日志数据；

用户停车行为数据包括停车位置、停车时间和停车影像；

停车位置包括经纬度、停车场名称、道路名称和附近重要建筑排序；

停车时间包括进入停车场时间、离开停车场时间和持续时间；

停车影像包括进入停车场时的影像、离开停车场时的影像和停车过程的影像；

用户APP操作日志数据以单次停车为一个记录单位，包括缴费记录、搜索记录和其他记录；

缴费记录包括缴费时间和缴费金额；

搜索记录包括停车场搜索次数、总搜索时长、搜索到的停车场的时长、收费情况、距离当前位置的距离和距离最终停车位置的距离；

其他记录包括寻车功能使用次数、广告点击次数、点击广告的类型、截图分享次数、截图内容和分享人。

作为优选方案，步骤S3-1-A中制定的单视图数据集及其对应规则包括时空视图和行为视图；

a.时空视图的数据集和规则如下：

数据集为以天为最小单位抽取每天进入停车场的名称和时间；

规则以工作日期间每天最早和最晚停车时间的方差描述工作日出行时间规律度，方差越小出行越规律；同理可得非工作日出行规律度和节假日出行时间规律度；另外以工作日、非工作日和节假日期间每天进入停车场名称的集合描述出行空间规律度；

b.行为视图的数据集和规则如下：

数据集以单次停车记录为最小单位抽取停车影像数据；

规则为构建MLP多层感知机模型。

作为优选方案，步骤S3-2-A中当处理二维数据时重建任务被定义为：

其中，使用

损失作为该任务的损失函数，

和

分别表示输入图像和破坏性预处理后的图像，

表示重建模型，

是模型中的可学习参数，

为图像数量；

当处理二维数据时旋转预测任务被定义为：

其中，

表示旋转操作，将输入图像按照角度

旋转；

表示模型旋转头的输出，

则是每种旋转度数的预测概率，

为归一化指数函数，目的是将神经网络的输出以概率的形式展现，计算公式是

，其中C是类别数，V是前一层的输出，i是索引，S即为对应的softmax值；

索引是旋转预测任务的目标函数，这里使用的是交叉熵损失。

作为优选方案，步骤S3-1-B中以出行规律度和出游爱好程度构建用户的基本画像；以车辆损耗程度和车辆异常情况构建车辆的基本画像。

作为优选方案，步骤S3-2-C中高级画像的构建包括：构建ViT模型；将预处理后的视图数据依次输入ViT模型，通过代理任务中设置的标签和损失训练ViT模型参数，得到最终的预训练模型；在训练好的ViT模型中，输入用户停车行为数据得到该行为的深层特征；根据输入数据的视图，将得到的深层特征在特征纬度拼接即可作为用户或车辆的高级画像。

本发明的有益效果是：

本发明从浅层和深层两个维度刻画用户和车辆信息，通过手工设定的特定规则，挖掘可解释的浅层特征和关系构建基本画像。采用自监督的策略，通过一个跨视图的ViT模型结构挖掘不同视图间的特征，组成用户和车辆的高级画像。一方面，解决了现有方法中为单种模态数据构建特定结构，甚至仅为单个试图数据构建特定规则的局限性提高了系统的普适性，以及挖掘到特征的多样性；另一方面多视图代理任务的构建，使得模型的训练摆脱了大量人工标记的限制，满足了实时性要求较高的开放场景中的要求。

附图说明

下面结合附图对本发明作进一步的说明。

图1为本发明的用户和车辆画像构建方法流程示意图。

图2为本发明的当处理二维图像数据时的多视图代理任务设计示意图。

图3为本发明的高级画像构建的结构框图。

图4为本发明的ViT 模型内部结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。

附图为本发明的基于停车数据和APP操作日志的用户和车辆画像构建方法的具体实施例。该实施例包括如下步骤：

用户停车行为数据包括停车位置、停车时间和停车影像；

缴费记录包括缴费时间和缴费金额；

由于数据来源稳定，用户停车行为数据可以由停车场摄像头和传感器等获取，也可以由停车APP直接获取；用户APP操作日志数据由系统自动生成，且除二维图像数据外均以Json格式保存和传输，因此数据清洗过程仅包括：

字段去重：去除由多个数据源造成的重复字段；

删除不必要的空记录，填充充分必要但缺失的数据：例如某次停车时，用户没有点击广告的行为，则将“广告点击次数”和“点击广告类型”均赋值为-1；

数值格式统一：对于Json文件中的数值属性，统一其存储格式，例如价格、距离等数据保留两位小数，时间数据修改为yyyy-MM-dd HH:mm:ss格式等。

a.时空视图的数据集和规则如下：

数据集以天为最小单位抽取每天进入停车场的名称和时间；本实施例中以周为单位统计：每天最早进入停车场的时间、每天最晚进入停车场时间和每天进入的停车场名称；

b.行为视图的数据集和规则如下：

数据集以单次停车记录为最小单位抽取停车影像数据，每条数据包括驶入停车场影像、驶出停车场影像和停车过程影像；

规则为构建MLP多层感知机模型，本实施例中的MLP模型包括输入层，隐藏层和输出层，均使用全连接结构；输入层接收展平后的图像向量，图像被首先预处理缩放至84×84，隐藏层的特征尺度设置为768，输出层尺寸取决于具体的画像要求。

S3-1-B构建基本画像：利用统计学基本方法和杰卡德距离，手动设计基本画像的生成规则；杰卡德（Jaccard）距离：是一种距离度量，用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度，计算方法是1-Jaccard相似系数。本发明借助Jaccard距离判断工作日和节假日出行目的地的差别，依次为依据刻画用户的出游爱好程度。手动设计基本画像的生成规则：指的是通过人工设计的规则，例如本发明中的Jaccard距离、MLP模型的计算规则，从数据中挖掘用户和车辆的特征，如本发明中的“出行规律度”、“出游爱好程度”、“车辆损耗程度”等。以步骤S3设计的规则为基础，分析用户停车行为，构建用户和车辆的基本画像；本实施例中以出行规律度和出游爱好程度构建用户的基本画像；以车辆损耗程度和车辆异常情况构建车辆的基本画像；

a.出行规律度=（工作日时间规律度+非工作日时间规律度）/（工作日天数+非工作日天数）；

b. 出游爱好程度=

，其中A和B分别表示工作日和节假日出行空间规律度，

指Jaccard相似指数；

c. 车辆损耗程度=

，其中I表示展评后的行为视图数据，

模型的输出层尺寸设置为10，车辆的损耗程度被离散为10个级别度量；

d. 车辆异常情况=

，其中I表示展平后的行为视图数据，

模型的输出层尺寸设置为2，代表车辆是否存在异常。

为构建用户和车辆的高级画像，需首先考虑本发明中使用的数据具有多源和多视图属性，多源指数据的来源不止一个；多视图指对于单次用户停车行为，可以由停车场的传感器获取的数据描述，也可以由APP中记录的用户数据描述，还可以由后台用户APP操作日志描述；可用的数据中既包含二维图像数据，又包含一维文本数据，称为多模态；即使部分数据模态相同，但它们对单次停车行为的描述角度也可能不同，称为多特征；具有多模态和多特征属性的数据统称为多视图属性。

根据清洗后的数据，构建多视图数据集，用N表示停车行为的数目，本实施例构建四组视图数据：

a. 第一视图为选择停车场视觉传感器获得的进入停车场时的图像数据作为停车行为的第一视图，则该视图的数据尺寸为N×W×H×C，其中W和H表示图像的大小，W表示图像的宽度，H表示图像的高度，C表示图像通道数；本实施例中W和H取224，C取3表示彩色图像；

b. 第二视图为与第一视图同理构建驶出停车场时的图像数据作为停车行为的第二视图，视图数据尺寸与第一视图相同；

c. 第三视图为根据后台的用户APP操作日志数据，选择其中“缴费记录”中的数据拼接成单条文本数据，作为停车行为的第三视图，该视图中的数据是用户停车行为和用户特征的直接描述；利用word2vec工具，将第三视图的数据转换为其对应的张量形式，处理后的数据尺寸为N×D，其中D为每条数据的长度，本实例中D取768；

d. 第四视图为根据后台的用户APP操作日志数据，选择其中“搜索记录”和“其他记录”中的文本数据，作为停车行为的第四视图，该视图是对停车行为和用户特征的间接描述；处理方式与第三视图一致，数据尺寸为N×D，本实例中D取1024。

构建获得的多视图数据集包含四个视图张量，用于高级画像的构建。上述四个视图中，第一视图和第二视图为图像视图，第三视图和第四视图为文本视图。

S3-2-B设计多视图代理任务：先对数据进行破坏性预处理，然后按照数据维度为多视图数据设计代理任务；一维数据的代理任务包括：重建任务和一致性学习任务；二维数据的代理任务包括：重建任务、旋转预测任务和一致性学习任务。

为多视图数据设计代理任务之前，首先需要对数据进行破坏性预处理；该预处理的目的是避免代理任务中获得平凡解，故对数据的处理以破坏或遮挡数据中的局部信息为主。以二维图像视图为例，预处理包括对图像随机区域进行的局部变换和对通道层面进行的全局变换，包括：随机像素块丢弃、随机像素块替换、局部灰度化、颜色畸变、高斯模糊和灰度化；这些破坏性预处理的动机是模型需要学习更泛化的知识，如物体或概念的颜色、纹理和结构，以推断破坏的区域。在一维文本或音频视图中，像素块破坏和全局颜色变换被相应替换为局部信号破坏和全局信号缩放。

如附图2所示，当处理二维数据时重建任务被定义为：重建任务的目的是从经过损坏的数据中恢复出原始数据，因此使用

损失作为该任务的损失函数。以二维图像视图为例，用

和

分别表示输入图像和破坏性预处理后的图像，

表示重建模型，

是模型中的可学习参数，图像数量为

时，重建目标

被定义为：

如图2所示，旋转预测任务是期望模型预测出输入数据的旋转角度，因此，该任务中输入数据是旋转后的数据，标签是旋转的角度。以二维图像视图为例，此实施例中将旋转角度随机选择设定为：0°、90°、180°或270°，这项任务背后的动机是模型应该首先学习图像中物体的概念，以便能够预测它们的方向。旋转预测目标函数采用的交叉熵损失如下：

其中，

表示旋转操作，将输入图像按照角度

旋转，

表示模型旋转头的输出，在本实例的ViT模型如图3所示，

则是每种旋转度数的预测概率，

通过对数据应用如上的破坏性预处理后，不会改变模型对内容的身份感知，因此可以使用一致性学习作为代理任务，采用余弦相似度作为表示相似性的附加度量。一致性学习目标函数表示为对比损失，其中网络训练减少正对之间的距离，即来自同一输入数据的破坏性预处理数据，并最大化负对之间的距离，即来自不同输入数据的样本。考虑带有可调节尺度参数

的正则化softmax相似度，数据

与其他数据点

之间的关系可以定义如下：

其中

表示来自一致性头的输出，

是

归一化后输入数据的点积，即余弦相似度，τ在本实例中设置为0.5，数据点

指的是某一具体的输入样本，如图片、文本等，数据点

指的是

经过破坏性预处理后的样本。

基于此余弦相似度，对比损失

定义为所有正对的算术平均：

S3-2-C构建高级画像：以ViT为模型结构，通过多视图代理任务和多视图数据集训练得到预训练模型；用户或车辆的高级画像由经过该预训练模型导出的深层特征组成；高级画像的构建包括：构建ViT模型；将预处理后的视图数据依次输入ViT模型，通过代理任务中设置的标签和损失训练ViT模型参数，得到最终的预训练模型；在训练好的ViT模型中，输入用户停车行为数据得到该行为的深层特征；根据输入数据的视图，将得到的深层特征在特征纬度拼接即可作为用户或车辆的高级画像。

ViT模型构建，ViT模型以Transformer模型为基础，如附图3所示，整个模型按照数据流动方向分为三个部分：

a.针对展开块的线性映射层

该层的具体实现形式为单个全连接层，目的是接受不同尺寸的视图数据，并将其映射到相同的特征空间。

b.视觉Transformer模块，即ViT模块

如附图4所示，视觉Transformer模块的每个子模块中包括正则化层，多头注意力层，多层感知机和残差结构，附图中

符号表示两个特征在通道维度的拼接，即resnet中的残差操作。本实例中的ViT模块包含4个子模块，即图4中L设置为4；两个正则化层分别位于输入的嵌入数据和多头注意力层后，用来正则化各层特征，减少ICS（internal covariateshift）现象，正则化层的具体操作是把输入的特征变换为均值为0方差为1的数据。其中多头注意力层的本质是实现对输入的嵌入数据的加权；多层感知机用来将加权后的特征映射到统一的深层特征空间。

c.针对重构的线性映射层

与“针对展开块的线性映射层”实现方式相同，针对重构的线性映射层同样是单个全连接层，目的是从学习到的深层特征中重建出原始数据，以完成重建任务。

代理任务只用于训练过程中，测试时只需输入停车行为的多视图数据，即可得到深层特征。

训练过程：训练时，首先按照代理任务的要求依次预处理构建的四个视图数据；之后将预处理后的视图数据依次输入如图3所示的ViT模型，通过代理任务中设置的标签和损失训练ViT模型参数，得到最终的预训练模型。

测试过程：测试过程即为高级画像的构建过程，如图3所示，在训练好的ViT模型中，输入用户停车行为数据即可得到该行为的深层特征。根据输入数据的视图，将得到的深层特征在特征纬度拼接即可作为用户或车辆的高级画像。测试时仅以第一视图或第二视图为输入，则得到的深层特征可以描述车辆的高级属性；仅使用第三视图或第四视图作为输入时，得到的深层特征则刻画了用户停车行为的高级画像；同时使用该实施例中定义的四种视图，则深层特征刻画了用户、车辆及其停车行为的综合高级画像。

其中基本画像提供了对用户或车辆的浅层描述，即浅层描述指的是通过手工定义的规则从数据中提取的用户和车辆特征。本实例中具体指的是出行规律度和出游爱好程度；车辆损耗程度和车辆异常情况；这些描述由人工设定的规则得到，是确定性的；高级画像由深度模型从多视图数据集中挖掘得到，以深度特征张量形式存在，这些特征张量不可解释，但包含了用户或车辆的深层属性，可以作为下游任务例如：个性化推荐系统，异常驾驶行为检测等算法的输入。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.基于停车数据和APP操作日志的用户和车辆画像构建方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于停车数据和APP操作日志的用户和车辆画像构建方法，其特征在于，步骤S1中获取的数据包括用户停车行为数据和用户APP操作日志数据；

用户停车行为数据包括停车位置、停车时间和停车影像；

缴费记录包括缴费时间和缴费金额；

3.根据权利要求1所述的基于停车数据和APP操作日志的用户和车辆画像构建方法，其特征在于，步骤S3-1-A中制定的单视图数据集及其对应规则包括时空视图和行为视图；

a.时空视图的数据集和规则如下：

b.行为视图的数据集和规则如下：

数据集以单次停车记录为最小单位抽取停车影像数据；

规则为构建MLP多层感知机模型。

4.根据权利要求1所述的基于停车数据和APP操作日志的用户和车辆画像构建方法，其特征在于，步骤S3-1-B中以出行规律度和出游爱好程度构建用户的基本画像；以车辆损耗程度和车辆异常情况构建车辆的基本画像。

5.根据权利要求1所述的基于停车数据和APP操作日志的用户和车辆画像构建方法，其特征在于，步骤S3-2-A中当处理二维数据时重建任务被定义为：

其中，使用

损失作为该任务的损失函数，

和

分别表示输入图像和破坏性预处理后的图像，

表示重建模型，

是模型中的可学习参数，

为图像数量；

当处理二维数据时旋转预测任务被定义为：

其中，

表示旋转操作，将输入图像按照角度

旋转；

表示模型旋转头的输出，

则是每种旋转度数的预测概率，

为归一化指数函数，为了将神经网络的输出以概率的形式展现，

6.根据权利要求1所述的基于停车数据和APP操作日志的用户和车辆画像构建方法，其特征在于，步骤S3-2-C中高级画像的构建包括：构建ViT模型；将预处理后的视图数据依次输入ViT模型，通过代理任务中设置的标签和损失训练ViT模型参数，得到最终的预训练模型；在训练好的ViT模型中，输入用户停车行为数据得到该行为的深层特征；根据输入数据的视图，将得到的深层特征在特征纬度拼接即可作为用户或车辆的高级画像。