CN113961734B - 基于停车数据和app操作日志的用户和车辆画像构建方法 - Google Patents

基于停车数据和app操作日志的用户和车辆画像构建方法 Download PDF

Info

Publication number
CN113961734B
CN113961734B CN202111575171.3A CN202111575171A CN113961734B CN 113961734 B CN113961734 B CN 113961734B CN 202111575171 A CN202111575171 A CN 202111575171A CN 113961734 B CN113961734 B CN 113961734B
Authority
CN
China
Prior art keywords
data
parking
user
view
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111575171.3A
Other languages
English (en)
Other versions
CN113961734A (zh
Inventor
刘寒松
王永
王国强
刘瑞
翟贵乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sonli Holdings Group Co Ltd
Original Assignee
Sonli Holdings Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sonli Holdings Group Co Ltd filed Critical Sonli Holdings Group Co Ltd
Priority to CN202111575171.3A priority Critical patent/CN113961734B/zh
Publication of CN113961734A publication Critical patent/CN113961734A/zh
Application granted granted Critical
Publication of CN113961734B publication Critical patent/CN113961734B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • G06Q30/0271Personalized advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Biomedical Technology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于停车数据和APP操作日志的用户和车辆画像构建方法,涉及交通和数据挖掘处理技术领域。本发明包括如下步骤:S1.获取用户停车行为数据和用户APP操作日志数据;S2.数据清洗,数据清洗的操作包括:字段去重;删除不必要的空记录,填充充分必要但缺失的数据;数值格式统一;S3包括步骤S3‑1和步骤S3‑2;步骤S3‑1:S3‑1‑A构建单视图数据集,S3‑1‑B构建基本画像;步骤S3‑2:S3‑2‑A构建多视图数据集,S3‑2‑B设计多视图代理任务,S3‑2‑C构建高级画像;S4.构建总画像:基本画像和高级画像组合构成用户和车辆的总画像。本发明实现了从浅层和深层两个维度刻画用户和车辆信息。

Description

基于停车数据和APP操作日志的用户和车辆画像构建方法
技术领域
本发明属于数据挖掘技术领域,涉及基于停车数据和APP操作日志的用户和车辆画像构建方法。
背景技术
从数据中挖掘有效信息已经成为大数据背景下的重要技术,被广泛应用于个性化推荐和关系网构建等实际场景。现有借助车辆使用信息、车联网或车身总线等数据挖掘用户行为和车辆特征的方法多借助统计学方法处理简单的单维度数据,在大数据场景中,数据处理能力和挖掘信息质量会急剧下降。即使有部分基于深度学习(如深度卷积网络)的方法,受流行网络模型架构的影响依然存在一些固有的问题:
1. 无法同时处理多视图数据。用户和车辆的信息通常采集自不同的终端,以不同的信息形式存储,具有多视图的属性。多视图属性可以理解为对同一个目标多个角度的描述,又可细分为多模态和多特征属性。例如,停车信息可以由停车场的摄像头采集,以图像的形式存储,包含详细的车辆信息;同时,停车信息也可以来自停车缴费记录,以文本信息存储,包含更多的时序信息和用户行为。现有方法通常需要为每种模态的数据建立模型,甚至对于同一种模态数据的不同特征(如缴费记录中的时间特征和空间特征)也要单独建模。
2. 挖掘的信息层次单一。现有方法为每种模态或特征单独建模的方式必然会引起挖掘信息的单一,不同视图数据间存在互补信息无法被充分的挖掘,无法刻画用户或车辆的深层次属性。
3.深度模型需要大量的标注信息。尽管基于深度学习的方法能够挖掘单一模态深层特征,但训练过程需要大量的标注数据;标注过程往往由专业人员手动完成,这在驾驶、停车行为分析等对实时性要求较高开放场景中几乎是不可能满足的。
发明内容
本发明为了弥补现有技术的不足,提供了基于停车数据和APP操作日志的用户和车辆画像构建方法,通过对多个终端设备采集的多视图数据建模,并以浅层和深层两个角度刻画用户和车辆画像。本发明是通过如下技术方案实现的:本发明提供了基于停车数据和APP操作日志的用户和车辆画像构建方法,包括如下步骤:
S1.数据获取,包括获取用户停车行为数据和用户APP操作日志数据;
S2.数据清洗,数据清洗的操作包括:字段去重;删除不必要的空记录,填充充分必要但缺失的数据;数值格式统一;
S3包括步骤S3-1和步骤S3-2;步骤S3-1:S3-1-A构建单视图数据集,S3-1-B构建基本画像;步骤S3-2:S3-2-A构建多视图数据集,S3-2-B设计多视图代理任务,S3-2-C构建高级画像;
S3-1-A构建单视图数据集:基于清洗后的数据,抽取单视图数据实例构建单视图数据集;并制定单视图数据集及其对应规则;
S3-1-B构建基本画像:利用统计学基本方法和杰卡德距离,手动设计基本画像的生成规则;以设计的规则为基础,分析用户停车行为,构建确定性的用户和车辆的基本画像;
S3-2-A构建多视图数据集:基于清洗后的数据,按照单次停车为一个数据单位构建多视图数据集;
S3-2-B设计多视图代理任务:先对数据进行破坏性预处理,然后按照数据维度为多视图数据设计代理任务;一维数据的代理任务包括:重建任务和一致性学习任务;二维数据的代理任务包括:重建任务、旋转预测任务和一致性学习任务;
S3-2-C构建高级画像:以ViT为模型结构,通过多视图代理任务和多视图数据集训练得到预训练模型;用户或车辆的高级画像由经过该预训练模型导出的深层特征组成;
S4.构建总画像:基本画像和高级画像组合构成用户和车辆的总画像。
作为优选方案,步骤S1中获取的数据包括用户停车行为数据和用户APP操作日志数据;
用户停车行为数据包括停车位置、停车时间和停车影像;
停车位置包括经纬度、停车场名称、道路名称和附近重要建筑排序;
停车时间包括进入停车场时间、离开停车场时间和持续时间;
停车影像包括进入停车场时的影像、离开停车场时的影像和停车过程的影像;
用户APP操作日志数据以单次停车为一个记录单位,包括缴费记录、搜索记录和其他记录;
缴费记录包括缴费时间和缴费金额;
搜索记录包括停车场搜索次数、总搜索时长、搜索到的停车场的时长、收费情况、距离当前位置的距离和距离最终停车位置的距离;
其他记录包括寻车功能使用次数、广告点击次数、点击广告的类型、截图分享次数、截图内容和分享人。
作为优选方案,步骤S3-1-A中制定的单视图数据集及其对应规则包括时空视图和行为视图;
a.时空视图的数据集和规则如下:
数据集为以天为最小单位抽取每天进入停车场的名称和时间;
规则以工作日期间每天最早和最晚停车时间的方差描述工作日出行时间规律度,方差越小出行越规律;同理可得非工作日出行规律度和节假日出行时间规律度;另外以工作日、非工作日和节假日期间每天进入停车场名称的集合描述出行空间规律度;
b.行为视图的数据集和规则如下:
数据集以单次停车记录为最小单位抽取停车影像数据;
规则为构建MLP多层感知机模型。
作为优选方案,步骤S3-2-A中当处理二维数据时重建任务被定义为:
Figure 620839DEST_PATH_IMAGE001
其中,使用
Figure 617613DEST_PATH_IMAGE002
损失作为该任务的损失函数,
Figure 610977DEST_PATH_IMAGE003
Figure 693203DEST_PATH_IMAGE004
分别表示输入图像和破坏性预处理后的图像,
Figure 430215DEST_PATH_IMAGE005
表示重建模型,
Figure 422441DEST_PATH_IMAGE006
是模型中的可学习参数,
Figure 445761DEST_PATH_IMAGE007
为图像数量;
当处理二维数据时旋转预测任务被定义为:
Figure 985589DEST_PATH_IMAGE008
其中,
Figure 260713DEST_PATH_IMAGE009
表示旋转操作,将输入图像按照角度
Figure 232080DEST_PATH_IMAGE010
旋转;
Figure 301667DEST_PATH_IMAGE011
表示模型旋转头的输出,
Figure 499430DEST_PATH_IMAGE012
则是每种旋转度数的预测概率,
Figure 702878DEST_PATH_IMAGE013
为归一化指数函数,目的是将神经网络的输出以概率的形式展现,计算公式是
Figure 669697DEST_PATH_IMAGE014
,其中C是类别数,V是前一层的输出,i是索引,S即为对应的softmax值;
Figure 910186DEST_PATH_IMAGE015
索引是旋转预测任务的目标函数,这里使用的是交叉熵损失。
作为优选方案,步骤S3-1-B中以出行规律度和出游爱好程度构建用户的基本画像;以车辆损耗程度和车辆异常情况构建车辆的基本画像。
作为优选方案,步骤S3-2-C中高级画像的构建包括:构建ViT模型;将预处理后的视图数据依次输入ViT模型,通过代理任务中设置的标签和损失训练ViT模型参数,得到最终的预训练模型;在训练好的ViT模型中,输入用户停车行为数据得到该行为的深层特征;根据输入数据的视图,将得到的深层特征在特征纬度拼接即可作为用户或车辆的高级画像。
本发明的有益效果是:
本发明从浅层和深层两个维度刻画用户和车辆信息,通过手工设定的特定规则,挖掘可解释的浅层特征和关系构建基本画像。采用自监督的策略,通过一个跨视图的ViT模型结构挖掘不同视图间的特征,组成用户和车辆的高级画像。一方面,解决了现有方法中为单种模态数据构建特定结构,甚至仅为单个试图数据构建特定规则的局限性提高了系统的普适性,以及挖掘到特征的多样性;另一方面多视图代理任务的构建,使得模型的训练摆脱了大量人工标记的限制,满足了实时性要求较高的开放场景中的要求。
附图说明
下面结合附图对本发明作进一步的说明。
图1为本发明的用户和车辆画像构建方法流程示意图。
图2为本发明的当处理二维图像数据时的多视图代理任务设计示意图。
图3为本发明的高级画像构建的结构框图。
图4为本发明的ViT 模型内部结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施例的限制。
附图为本发明的基于停车数据和APP操作日志的用户和车辆画像构建方法的具体实施例。该实施例包括如下步骤:
S1.数据获取,包括获取用户停车行为数据和用户APP操作日志数据;
用户停车行为数据包括停车位置、停车时间和停车影像;
停车位置包括经纬度、停车场名称、道路名称和附近重要建筑排序;
停车时间包括进入停车场时间、离开停车场时间和持续时间;
停车影像包括进入停车场时的影像、离开停车场时的影像和停车过程的影像;
用户APP操作日志数据以单次停车为一个记录单位,包括缴费记录、搜索记录和其他记录;
缴费记录包括缴费时间和缴费金额;
搜索记录包括停车场搜索次数、总搜索时长、搜索到的停车场的时长、收费情况、距离当前位置的距离和距离最终停车位置的距离;
其他记录包括寻车功能使用次数、广告点击次数、点击广告的类型、截图分享次数、截图内容和分享人。
S2.数据清洗,数据清洗的操作包括:字段去重;删除不必要的空记录,填充充分必要但缺失的数据;数值格式统一;
由于数据来源稳定,用户停车行为数据可以由停车场摄像头和传感器等获取,也可以由停车APP直接获取;用户APP操作日志数据由系统自动生成,且除二维图像数据外均以Json格式保存和传输,因此数据清洗过程仅包括:
字段去重:去除由多个数据源造成的重复字段;
删除不必要的空记录,填充充分必要但缺失的数据:例如某次停车时,用户没有点击广告的行为,则将“广告点击次数”和“点击广告类型”均赋值为-1;
数值格式统一:对于Json文件中的数值属性,统一其存储格式,例如价格、距离等数据保留两位小数,时间数据修改为yyyy-MM-dd HH:mm:ss格式等。
S3包括步骤S3-1和步骤S3-2;步骤S3-1:S3-1-A构建单视图数据集,S3-1-B构建基本画像;步骤S3-2:S3-2-A构建多视图数据集,S3-2-B设计多视图代理任务,S3-2-C构建高级画像;
S3-1-A构建单视图数据集:基于清洗后的数据,抽取单视图数据实例构建单视图数据集;并制定单视图数据集及其对应规则;
a.时空视图的数据集和规则如下:
数据集以天为最小单位抽取每天进入停车场的名称和时间;本实施例中以周为单位统计:每天最早进入停车场的时间、每天最晚进入停车场时间和每天进入的停车场名称;
规则以工作日期间每天最早和最晚停车时间的方差描述工作日出行时间规律度,方差越小出行越规律;同理可得非工作日出行规律度和节假日出行时间规律度;另外以工作日、非工作日和节假日期间每天进入停车场名称的集合描述出行空间规律度;
b.行为视图的数据集和规则如下:
数据集以单次停车记录为最小单位抽取停车影像数据,每条数据包括驶入停车场影像、驶出停车场影像和停车过程影像;
规则为构建MLP多层感知机模型,本实施例中的MLP模型包括输入层,隐藏层和输出层,均使用全连接结构;输入层接收展平后的图像向量,图像被首先预处理缩放至84×84,隐藏层的特征尺度设置为768,输出层尺寸取决于具体的画像要求。
S3-1-B构建基本画像:利用统计学基本方法和杰卡德距离,手动设计基本画像的生成规则;杰卡德(Jaccard)距离:是一种距离度量,用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度,计算方法是1-Jaccard相似系数。本发明借助Jaccard距离判断工作日和节假日出行目的地的差别,依次为依据刻画用户的出游爱好程度。手动设计基本画像的生成规则:指的是通过人工设计的规则,例如本发明中的Jaccard距离、MLP模型的计算规则,从数据中挖掘用户和车辆的特征,如本发明中的“出行规律度”、“出游爱好程度”、“车辆损耗程度”等。以步骤S3设计的规则为基础,分析用户停车行为,构建用户和车辆的基本画像;本实施例中以出行规律度和出游爱好程度构建用户的基本画像;以车辆损耗程度和车辆异常情况构建车辆的基本画像;
a.出行规律度=(工作日时间规律度+非工作日时间规律度)/(工作日天数+非工作日天数);
b. 出游爱好程度=
Figure 719879DEST_PATH_IMAGE016
,其中A和B分别表示工作日和节假日出行空间规律度,
Figure 336805DEST_PATH_IMAGE017
指Jaccard相似指数;
c. 车辆损耗程度=
Figure 781299DEST_PATH_IMAGE018
,其中I表示展评后的行为视图数据,
Figure 192689DEST_PATH_IMAGE019
模型的输出层尺寸设置为10,车辆的损耗程度被离散为10个级别度量;
d. 车辆异常情况=
Figure 99465DEST_PATH_IMAGE020
,其中I表示展平后的行为视图数据,
Figure 644716DEST_PATH_IMAGE021
模型的输出层尺寸设置为2,代表车辆是否存在异常。
S3-2-A构建多视图数据集:基于清洗后的数据,按照单次停车为一个数据单位构建多视图数据集;
为构建用户和车辆的高级画像,需首先考虑本发明中使用的数据具有多源和多视图属性,多源指数据的来源不止一个;多视图指对于单次用户停车行为,可以由停车场的传感器获取的数据描述,也可以由APP中记录的用户数据描述,还可以由后台用户APP操作日志描述;可用的数据中既包含二维图像数据,又包含一维文本数据,称为多模态;即使部分数据模态相同,但它们对单次停车行为的描述角度也可能不同,称为多特征;具有多模态和多特征属性的数据统称为多视图属性。
根据清洗后的数据,构建多视图数据集,用N表示停车行为的数目,本实施例构建四组视图数据:
a. 第一视图为选择停车场视觉传感器获得的进入停车场时的图像数据作为停车行为的第一视图,则该视图的数据尺寸为N×W×H×C,其中W和H表示图像的大小,W表示图像的宽度,H表示图像的高度,C表示图像通道数;本实施例中W和H取224,C取3表示彩色图像;
b. 第二视图为与第一视图同理构建驶出停车场时的图像数据作为停车行为的第二视图,视图数据尺寸与第一视图相同;
c. 第三视图为根据后台的用户APP操作日志数据,选择其中“缴费记录”中的数据拼接成单条文本数据,作为停车行为的第三视图,该视图中的数据是用户停车行为和用户特征的直接描述;利用word2vec工具,将第三视图的数据转换为其对应的张量形式,处理后的数据尺寸为N×D,其中D为每条数据的长度,本实例中D取768;
d. 第四视图为根据后台的用户APP操作日志数据,选择其中“搜索记录”和“其他记录”中的文本数据,作为停车行为的第四视图,该视图是对停车行为和用户特征的间接描述;处理方式与第三视图一致,数据尺寸为N×D,本实例中D取1024。
构建获得的多视图数据集包含四个视图张量,用于高级画像的构建。上述四个视图中,第一视图和第二视图为图像视图,第三视图和第四视图为文本视图。
S3-2-B设计多视图代理任务:先对数据进行破坏性预处理,然后按照数据维度为多视图数据设计代理任务;一维数据的代理任务包括:重建任务和一致性学习任务;二维数据的代理任务包括:重建任务、旋转预测任务和一致性学习任务。
为多视图数据设计代理任务之前,首先需要对数据进行破坏性预处理;该预处理的目的是避免代理任务中获得平凡解,故对数据的处理以破坏或遮挡数据中的局部信息为主。以二维图像视图为例,预处理包括对图像随机区域进行的局部变换和对通道层面进行的全局变换,包括:随机像素块丢弃、随机像素块替换、局部灰度化、颜色畸变、高斯模糊和灰度化;这些破坏性预处理的动机是模型需要学习更泛化的知识,如物体或概念的颜色、纹理和结构,以推断破坏的区域。在一维文本或音频视图中,像素块破坏和全局颜色变换被相应替换为局部信号破坏和全局信号缩放。
如附图2所示,当处理二维数据时重建任务被定义为:重建任务的目的是从经过损坏的数据中恢复出原始数据,因此使用
Figure 320548DEST_PATH_IMAGE002
损失作为该任务的损失函数。以二维图像视图为例,用
Figure 168418DEST_PATH_IMAGE003
Figure 952704DEST_PATH_IMAGE004
分别表示输入图像和破坏性预处理后的图像,
Figure 645853DEST_PATH_IMAGE005
表示重建模型,
Figure 707350DEST_PATH_IMAGE006
是模型中的可学习参数,图像数量为
Figure 585176DEST_PATH_IMAGE022
时,重建目标
Figure 466544DEST_PATH_IMAGE023
被定义为:
Figure 228964DEST_PATH_IMAGE001
如图2所示,旋转预测任务是期望模型预测出输入数据的旋转角度,因此,该任务中输入数据是旋转后的数据,标签是旋转的角度。以二维图像视图为例,此实施例中将旋转角度随机选择设定为:0°、90°、180°或270°,这项任务背后的动机是模型应该首先学习图像中物体的概念,以便能够预测它们的方向。旋转预测目标函数采用的交叉熵损失如下:
Figure 505487DEST_PATH_IMAGE008
其中,
Figure 695160DEST_PATH_IMAGE009
表示旋转操作,将输入图像按照角度
Figure 188458DEST_PATH_IMAGE024
旋转,
Figure 488989DEST_PATH_IMAGE011
表示模型旋转头的输出,在本实例的ViT模型如图3所示,
Figure 993920DEST_PATH_IMAGE025
则是每种旋转度数的预测概率,
Figure 479128DEST_PATH_IMAGE026
为归一化指数函数,目的是将神经网络的输出以概率的形式展现,计算公式是
Figure 69509DEST_PATH_IMAGE014
,其中C是类别数,V是前一层的输出,i是索引,S即为对应的softmax值;
Figure 173732DEST_PATH_IMAGE015
索引是旋转预测任务的目标函数,这里使用的是交叉熵损失。
通过对数据应用如上的破坏性预处理后,不会改变模型对内容的身份感知,因此可以使用一致性学习作为代理任务,采用余弦相似度作为表示相似性的附加度量。一致性学习目标函数表示为对比损失,其中网络训练减少正对之间的距离,即来自同一输入数据的破坏性预处理数据,并最大化负对之间的距离,即来自不同输入数据的样本。考虑带有可调节尺度参数
Figure 923382DEST_PATH_IMAGE027
的正则化softmax相似度,数据
Figure 454857DEST_PATH_IMAGE028
与其他数据点
Figure 798114DEST_PATH_IMAGE029
之间的关系可以定义如下:
Figure 798038DEST_PATH_IMAGE030
其中
Figure 543140DEST_PATH_IMAGE031
表示来自一致性头的输出,
Figure 104571DEST_PATH_IMAGE032
Figure 935124DEST_PATH_IMAGE033
归一化后输入数据的点积,即余弦相似度,τ在本实例中设置为0.5,数据点
Figure 115569DEST_PATH_IMAGE028
指的是某一具体的输入样本,如图片、文本等,数据点
Figure 105391DEST_PATH_IMAGE029
指的是
Figure 713090DEST_PATH_IMAGE028
经过破坏性预处理后的样本。
基于此余弦相似度,对比损失
Figure 765359DEST_PATH_IMAGE034
定义为所有正对的算术平均:
Figure 874130DEST_PATH_IMAGE035
S3-2-C构建高级画像:以ViT为模型结构,通过多视图代理任务和多视图数据集训练得到预训练模型;用户或车辆的高级画像由经过该预训练模型导出的深层特征组成;高级画像的构建包括:构建ViT模型;将预处理后的视图数据依次输入ViT模型,通过代理任务中设置的标签和损失训练ViT模型参数,得到最终的预训练模型;在训练好的ViT模型中,输入用户停车行为数据得到该行为的深层特征;根据输入数据的视图,将得到的深层特征在特征纬度拼接即可作为用户或车辆的高级画像。
ViT模型构建,ViT模型以Transformer模型为基础,如附图3所示,整个模型按照数据流动方向分为三个部分:
a.针对展开块的线性映射层
该层的具体实现形式为单个全连接层,目的是接受不同尺寸的视图数据,并将其映射到相同的特征空间。
b.视觉Transformer模块,即ViT模块
如附图4所示,视觉Transformer模块的每个子模块中包括正则化层,多头注意力层,多层感知机和残差结构,附图中
Figure 593824DEST_PATH_IMAGE036
符号表示两个特征在通道维度的拼接,即resnet中的残差操作。本实例中的ViT模块包含4个子模块,即图4中L设置为4;两个正则化层分别位于输入的嵌入数据和多头注意力层后,用来正则化各层特征,减少ICS(internal covariateshift)现象,正则化层的具体操作是把输入的特征变换为均值为0方差为1的数据。其中多头注意力层的本质是实现对输入的嵌入数据的加权;多层感知机用来将加权后的特征映射到统一的深层特征空间。
c.针对重构的线性映射层
与“针对展开块的线性映射层”实现方式相同,针对重构的线性映射层同样是单个全连接层,目的是从学习到的深层特征中重建出原始数据,以完成重建任务。
代理任务只用于训练过程中,测试时只需输入停车行为的多视图数据,即可得到深层特征。
训练过程:训练时,首先按照代理任务的要求依次预处理构建的四个视图数据;之后将预处理后的视图数据依次输入如图3所示的ViT模型,通过代理任务中设置的标签和损失训练ViT模型参数,得到最终的预训练模型。
测试过程:测试过程即为高级画像的构建过程,如图3所示,在训练好的ViT模型中,输入用户停车行为数据即可得到该行为的深层特征。根据输入数据的视图,将得到的深层特征在特征纬度拼接即可作为用户或车辆的高级画像。测试时仅以第一视图或第二视图为输入,则得到的深层特征可以描述车辆的高级属性;仅使用第三视图或第四视图作为输入时,得到的深层特征则刻画了用户停车行为的高级画像;同时使用该实施例中定义的四种视图,则深层特征刻画了用户、车辆及其停车行为的综合高级画像。
S4.构建总画像:基本画像和高级画像组合构成用户和车辆的总画像。
其中基本画像提供了对用户或车辆的浅层描述,即浅层描述指的是通过手工定义的规则从数据中提取的用户和车辆特征。本实例中具体指的是出行规律度和出游爱好程度;车辆损耗程度和车辆异常情况;这些描述由人工设定的规则得到,是确定性的;高级画像由深度模型从多视图数据集中挖掘得到,以深度特征张量形式存在,这些特征张量不可解释,但包含了用户或车辆的深层属性,可以作为下游任务例如:个性化推荐系统,异常驾驶行为检测等算法的输入。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (5)

1.基于停车数据和APP操作日志的用户和车辆画像构建方法,其特征在于,包括如下步骤:
S1.数据获取,包括获取用户停车行为数据和用户APP操作日志数据;
S2.数据清洗,数据清洗的操作包括:字段去重;删除不必要的空记录,填充充分必要但缺失的数据;数值格式统一;
S3包括步骤S3-1和步骤S3-2;步骤S3-1:S3-1-A构建单视图数据集,S3-1-B构建基本画像;步骤S3-2:S3-2-A构建多视图数据集,S3-2-B设计多视图代理任务,S3-2-C构建高级画像;
S3-1-A构建单视图数据集:基于清洗后的数据,抽取单视图数据实例构建单视图数据集;并制定单视图数据集及其对应规则;
S3-1-B构建基本画像:利用统计学基本方法和杰卡德距离,手动设计基本画像的生成规则;以设计的规则为基础,分析用户停车行为,构建确定性的用户和车辆的基本画像;
S3-2-A构建多视图数据集:基于清洗后的数据,按照单次停车为一个数据单位构建多视图数据集;
S3-2-B设计多视图代理任务:先对数据进行破坏性预处理,然后按照数据维度为多视图数据设计代理任务;一维数据的代理任务包括:重建任务和一致性学习任务;二维数据的代理任务包括:重建任务、旋转预测任务和一致性学习任务;当处理二维数据时重建任务被定义为,
Figure 843121DEST_PATH_IMAGE001
其中,使用
Figure 245414DEST_PATH_IMAGE002
损失作为该任务的损失函数,
Figure 493993DEST_PATH_IMAGE003
Figure 623623DEST_PATH_IMAGE004
分别表示输入图像和破坏性预处理后的图像,
Figure 172416DEST_PATH_IMAGE005
表示重建模型,
Figure 463720DEST_PATH_IMAGE006
是模型中的可学习参数,
Figure 465174DEST_PATH_IMAGE007
为图像数量;
当处理二维数据时旋转预测任务被定义为,
Figure 382184DEST_PATH_IMAGE008
其中,
Figure 785483DEST_PATH_IMAGE009
表示旋转操作,将输入图像按照角度
Figure 513268DEST_PATH_IMAGE010
旋转;
Figure 736439DEST_PATH_IMAGE011
表示模型旋转头的输出,
Figure 207871DEST_PATH_IMAGE012
则是每种旋转度数的预测概率,
Figure 465677DEST_PATH_IMAGE013
为归一化指数函数,为了将神经网络的输出以概率的形式展现,
Figure 112166DEST_PATH_IMAGE014
索引是旋转预测任务的目标函数,这里使用的是交叉熵损失;
S3-2-C构建高级画像:以ViT为模型结构,通过多视图代理任务和多视图数据集训练得到预训练模型;用户或车辆的高级画像由经过该预训练模型导出的深层特征组成;
S4.构建总画像:基本画像和高级画像组合构成用户和车辆的总画像。
2.根据权利要求1所述的基于停车数据和APP操作日志的用户和车辆画像构建方法,其特征在于,步骤S1中获取的数据包括用户停车行为数据和用户APP操作日志数据;
用户停车行为数据包括停车位置、停车时间和停车影像;
停车位置包括经纬度、停车场名称、道路名称和附近重要建筑排序;
停车时间包括进入停车场时间、离开停车场时间和持续时间;
停车影像包括进入停车场时的影像、离开停车场时的影像和停车过程的影像;
用户APP操作日志数据以单次停车为一个记录单位,包括缴费记录、搜索记录和其他记录;
缴费记录包括缴费时间和缴费金额;
搜索记录包括停车场搜索次数、总搜索时长、搜索到的停车场的时长、收费情况、距离当前位置的距离和距离最终停车位置的距离;
其他记录包括寻车功能使用次数、广告点击次数、点击广告的类型、截图分享次数、截图内容和分享人。
3.根据权利要求1所述的基于停车数据和APP操作日志的用户和车辆画像构建方法,其特征在于,步骤S3-1-A中制定的单视图数据集及其对应规则包括时空视图和行为视图;
a.时空视图的数据集和规则如下:
数据集为以天为最小单位抽取每天进入停车场的名称和时间;
规则以工作日期间每天最早和最晚停车时间的方差描述工作日出行时间规律度,方差越小出行越规律;同理可得非工作日出行规律度和节假日出行时间规律度;另外以工作日、非工作日和节假日期间每天进入停车场名称的集合描述出行空间规律度;
b.行为视图的数据集和规则如下:
数据集以单次停车记录为最小单位抽取停车影像数据;
规则为构建MLP多层感知机模型。
4.根据权利要求1所述的基于停车数据和APP操作日志的用户和车辆画像构建方法,其特征在于,步骤S3-1-B中以出行规律度和出游爱好程度构建用户的基本画像;以车辆损耗程度和车辆异常情况构建车辆的基本画像。
5.根据权利要求1所述的基于停车数据和APP操作日志的用户和车辆画像构建方法,其特征在于,步骤S3-2-C中高级画像的构建包括:构建ViT模型;将预处理后的视图数据依次输入ViT模型,通过代理任务中设置的标签和损失训练ViT模型参数,得到最终的预训练模型;在训练好的ViT模型中,输入用户停车行为数据得到该行为的深层特征;根据输入数据的视图,将得到的深层特征在特征纬度拼接即可作为用户或车辆的高级画像。
CN202111575171.3A 2021-12-22 2021-12-22 基于停车数据和app操作日志的用户和车辆画像构建方法 Active CN113961734B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111575171.3A CN113961734B (zh) 2021-12-22 2021-12-22 基于停车数据和app操作日志的用户和车辆画像构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111575171.3A CN113961734B (zh) 2021-12-22 2021-12-22 基于停车数据和app操作日志的用户和车辆画像构建方法

Publications (2)

Publication Number Publication Date
CN113961734A CN113961734A (zh) 2022-01-21
CN113961734B true CN113961734B (zh) 2022-04-01

Family

ID=79473551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111575171.3A Active CN113961734B (zh) 2021-12-22 2021-12-22 基于停车数据和app操作日志的用户和车辆画像构建方法

Country Status (1)

Country Link
CN (1) CN113961734B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114219901B (zh) * 2022-02-22 2022-06-10 松立控股集团股份有限公司 基于投影一致性和孪生Transformer的三维底盘投影方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108230720A (zh) * 2016-12-09 2018-06-29 深圳市易行网交通科技有限公司 停车管理方法和装置
CN111105628A (zh) * 2019-12-23 2020-05-05 北京首钢自动化信息技术有限公司 一种停车场画像构建方法和装置
CN111160867A (zh) * 2019-12-31 2020-05-15 松立控股集团股份有限公司 大范围地域停车场大数据分析系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210233198A1 (en) * 2020-01-29 2021-07-29 Uber Technologies, Inc. Micro-mobility vehicle status compliance determination
CN111428579A (zh) * 2020-03-03 2020-07-17 平安科技(深圳)有限公司 人脸图像的获取方法与系统
CN111311784A (zh) * 2020-03-04 2020-06-19 深圳市物语智联科技有限公司 用户画像确定方法、装置、计算机设备及存储介质
CN111444236B (zh) * 2020-03-23 2023-04-28 华南理工大学 一种基于大数据的移动终端用户画像构建方法及系统
CN113821703B (zh) * 2020-06-18 2023-12-08 广州汽车集团股份有限公司 一种车联网用户画像生成方法及其系统
CN113345265B (zh) * 2021-06-21 2021-11-30 厦门中卡科技股份有限公司 基于用户数据的智能停车导航与商业引导系统、方法
CN113808287B (zh) * 2021-08-21 2023-05-05 深圳市大道至简信息技术有限公司 一种停车场分区域计时计费的管理方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108230720A (zh) * 2016-12-09 2018-06-29 深圳市易行网交通科技有限公司 停车管理方法和装置
CN111105628A (zh) * 2019-12-23 2020-05-05 北京首钢自动化信息技术有限公司 一种停车场画像构建方法和装置
CN111160867A (zh) * 2019-12-31 2020-05-15 松立控股集团股份有限公司 大范围地域停车场大数据分析系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于数据画像的城市居住区停车行为分析与建模";张余杰;《中国优秀硕士学位论文全文数据库 (工程科技Ⅱ辑)》;20200315;C034-976 *

Also Published As

Publication number Publication date
CN113961734A (zh) 2022-01-21

Similar Documents

Publication Publication Date Title
Li et al. Benchmarking single-image dehazing and beyond
Chu et al. Deep multi-scale convolutional LSTM network for travel demand and origin-destination predictions
CN111886609B (zh) 用于减少机器学习中的数据存储的系统和方法
Maniat et al. Deep learning-based visual crack detection using Google Street View images
CN114359562B (zh) 一种四维点云自动语义分割标注系统及方法
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN116797787B (zh) 基于跨模态融合与图神经网络的遥感影像语义分割方法
Gutiérrez et al. On the use of information fusion techniques to improve information quality: Taxonomy, opportunities and challenges
JP2023533907A (ja) 自己注意ベースのニューラルネットワークを使用した画像処理
CN113988147A (zh) 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置
CN113961734B (zh) 基于停车数据和app操作日志的用户和车辆画像构建方法
Lu et al. Multi-scale feature progressive fusion network for remote sensing image change detection
CN116597270A (zh) 基于注意力机制集成学习网络的道路损毁目标检测方法
Hameed et al. Convolutional autoencoder-based deep learning approach for aerosol emission detection using lidar dataset
Pandey et al. Deep neural networks based approach for pothole detection
Kajabad et al. YOLOv4 for urban object detection: Case of electronic inventory in St. Petersburg
CN115019218B (zh) 图像处理方法和处理器
CN114398462B (zh) 一种基于多源异构信息网络的目的地推荐方法及系统
CN115761519A (zh) 指标预测方法、装置、设备、存储介质及程序产品
CN115511214A (zh) 基于多尺度样本不均的矿产预测方法及系统
Andersen et al. Domain adapted probabilistic inspection using deep probabilistic segmentation
US20220327335A1 (en) Controlling asynchronous fusion of spatio-temporal multimodal data
Zhao et al. A crowdsourcing-based platform for labelling remote sensing images
Schennings Deep convolutional neural networks for real-time single frame monocular depth estimation
Ge et al. An improved U-net architecture for image dehazing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant