CN116308763B - 基于卷积自编码器的车贷贷后风险预测方法及系统 - Google Patents

基于卷积自编码器的车贷贷后风险预测方法及系统 Download PDF

Info

Publication number
CN116308763B
CN116308763B CN202310569231.3A CN202310569231A CN116308763B CN 116308763 B CN116308763 B CN 116308763B CN 202310569231 A CN202310569231 A CN 202310569231A CN 116308763 B CN116308763 B CN 116308763B
Authority
CN
China
Prior art keywords
vehicle
encoder
gps data
post
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310569231.3A
Other languages
English (en)
Other versions
CN116308763A (zh
Inventor
杨崇译
贾宁
陈燎
崔润邦
未伟
孙杨
高鹏展
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Fantike Technology Co ltd
Tianjin University
Original Assignee
Beijing Fantike Technology Co ltd
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Fantike Technology Co ltd, Tianjin University filed Critical Beijing Fantike Technology Co ltd
Priority to CN202310569231.3A priority Critical patent/CN116308763B/zh
Publication of CN116308763A publication Critical patent/CN116308763A/zh
Application granted granted Critical
Publication of CN116308763B publication Critical patent/CN116308763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本申请公开了一种基于卷积自编码器的车贷贷后风险预测方法及系统,所述方法包括以下步骤:S1)获取待研究车辆设定时间周期内的GPS数据;S2)对获取的GPS数据提取地理出行特征、驾驶习惯特征和车辆运动特征,得到对应的特征向量;S3)从获取的GPS数据构建基于出行地点及时间的矩阵,进而得到车辆时空轨迹的灰度图像;S4)将S3)的灰度图像输入预先建立和训练好的特征提取模型,得到嵌入式向量;S5)将S2)和S4)的向量输入预先建立和训练好的贷后风险评价模型,得到对应的预测结果;所述特征提取模型采用卷积自编码器;所述贷后风险评价模型采用LightGBM模型。

Description

基于卷积自编码器的车贷贷后风险预测方法及系统
技术领域
本申请涉及金融风险管控技术领域,更具体地说,涉及基于卷积自编码器的车贷贷后风险预测方法及系统。
背景技术
随着21世纪以来我国经济发展水平的快速提升以及消费结构的不断升级,我国的汽车行业发展势头迅猛,汽车的产销量多年以来持续上升。这样高速的发展和持续扩大的销售需求自然而然的推动了相关金融领域的快速发展。汽车金融由于其贷款门槛低、贷款金额小、流动性高、贷款等待较短等已成为消费金融的重要组成部分,但在其业务量不断增加的同时,各类潜在的风险问题也随之频发。为了促进汽车金融行业的快速发展,有效识别和预防各种风险问题,提升汽车金融领域的风险控制能力是很有必要的。
目前的汽车金融业务主要面对的是欺诈风险、信用风险和贷后风险这三方面的风险问题。其中贷后风险是指贷款发放后,借款人是否存在拒绝偿还贷款的可能。由于借款人的经营财务状况是在不断变化的,因此会有借款人在贷款审批授信时财务状况良好,但贷后由于投资失误、政策影响等致使其财务状况恶化的情况,这种情况容易导致借款人拒绝及时偿还贷款,也是多数贷后风险发生的原因。在现实场景中,及时发现借款人的财务状况变化对于贷款方来讲是十分重要但又极具挑战性的。
一般来讲,这种财务状况的恶化一定程度上会引起借款人生活习惯上的变化,对于商用车辆驾驶员来讲,这种变化很有可能直接引起车辆行驶轨迹的异动。同时,由于我国法规规定,道路运输类车辆需强制安装卫星定位装置,这就使得通过轨迹挖掘工作来推测、识别驾驶员的财务状况恶化成为了可能。
作为近年来的新兴的研究领域之一,基于GPS等远程信息数据来分析驾驶员的出行模式、出行分布,推测驾驶员的驾驶行为等已经取得了很多有价值的研究成果。但是现有技术多是基于线性预测方法或是聚类、分类等算法进行轨迹挖掘工作的,这就使得其模型预测的准确性在很大程度上受特征工程的影响,所建立的人工特征也更容易参杂研究者自身的主观认识,从而容易受到交通、环境等因素的影响。于此同时,各项研究工作虽针对不同的问题场景提出了多种特征,但是却缺乏对这些特征间共性的思考与归纳,不利于领域的后续发展。现有技术存在的另一个主要问题是缺乏对驾驶轨迹时间维度的刻画,多数研究都着重于挖掘驾驶轨迹中所体现的空间特征或是运动特征,缺乏对出行地点周期性分布等时空特征的充分考虑,这一定程度上也是受轨迹数据的表现形式所导致的。
因此,如何有效刻画驾驶轨迹时间维度的时空特征,提高违约风险预测的准确性,成为本领域需要解决的技术问题。
发明内容
有鉴于此,本申请提出了基于卷积自编码器的车贷贷后风险预测方法及系统,以提高违约风险预测的准确性。
根据本申请的一个方面,提供了一种基于卷积自编码器的车贷贷后风险预测方法,所述方法包括:
步骤S1)获取待研究车辆设定时间周期内的GPS数据;
步骤S2)对获取的GPS数据提取地理出行特征、驾驶习惯特征和车辆运动特征,得到对应的特征向量;
步骤S3)从获取的GPS数据构建基于出行地点及时间的矩阵,进而得到车辆时空轨迹的灰度图像;
步骤S4)将步骤S3)的灰度图像输入预先建立和训练好的特征提取模型,得到嵌入式向量;
步骤S5)将步骤S2)和步骤S4)的向量输入预先建立和训练好的贷后风险评价模型,得到对应的预测结果;
所述特征提取模型采用卷积自编码器;所述贷后风险评价模型采用LightGBM模型。
优选的,所述步骤S2)的地理出行特征包括车辆停留总次数、车辆停留地点类型总数、车辆相邻月份重复出行频率和车辆相邻季度重复出行频率。
优选的,所述步骤S2)的驾驶习惯特征包括:车辆夜间行驶占比和车辆停驶时长占比。
优选的,所述步骤S2)的车辆运动特征包括:车辆平均里程、车辆平均里程标准差、车辆平均行驶速度、车辆平均行驶速度标准差、车辆平均加速度和车辆平均加速度标准差,所述车辆运动特征时间单位均为日。
优选的,所述步骤S3)具体包括:
对于GPS数据,基于预先设定的车辆行驶速度阈值、频次阈值、活动半径阈值和间距阈值,提取停留点,并设定停留点对应的类型;
将GPS数据以日为单位进行时间维度上的划分,得到T日的数据;结合划分的车辆停留点类型总数C,构建的矩阵A,其中的元素记为/>,表示第i日去往第j类型停留点的可能性,满足下式:
其中,表示车辆在第i日去往第j类型停留点的次数,/>表示车辆第i日去往C类型停留点的总和;
将矩阵A中各元素等比例对应到0~255的色域中,转化为灰度图像。
优选的,所述方法还包括特征提取模型的训练步骤,具体包括:
步骤T1)建立训练集,所述训练集包括若干个时空表示的灰度图矩阵;
步骤T2)从训练集中读取一个时空矩阵输入卷积自编码器的编码器中,得到对应的特征向量S,再将特征向量S输入卷积自编码器的解码器,得到对应的时空表示的灰度图矩阵输出/>,其中/>中的元素为/>,/>中的元素为/>, 矩阵/>和矩阵/>的行数和列数分别相同,p,q分别表示对应的行号和列号;
步骤T3)根据下式计算损失函数的重构误差RE:
步骤T4)判断RE是否满足阈值要求,判断为否,调整卷积自编码器的参数,转至步骤T2),判断为是,转至步骤T5);
步骤T5)得到训练好的卷积自编码器,从而完成特征提取模型的训练。
优选的,所述贷后风险评价模型的输入为步骤S2)的向量以及步骤S4)的嵌入式向量,输出为分类标签0或1;其中,
标签为0,表示预测结果为商用车用户下月不会出现违约行为;
标签为1,表示预测结果为商用车用户下月会出现违约行为。
优选的,所述方法还包括对贷后风险评价模型进行自监督的训练步骤;具体包括:
收集车贷工作中的历史GPS数据,提取地理出行特征、驾驶习惯特征和车辆运动特征,得到对应的特征向量;
从收集的历史GPS数据GPS数据构建基于出行地点及时间的矩阵,进而得到车辆时空轨迹的灰度图像;
将灰度图像输入预先建立和训练好的特征提取模型,得到嵌入式向量;
将特征向量、嵌入式向量以及所记录到的车辆违约情况相对应,构建训练集;
将训练集输入LightGBM模型进行训练,待满足训练要求,得到训练好的贷后风险评价模型。
根据本申请的再一方面,提供了一种基于卷积自编码器的车贷贷后风险预测系统,所述系统包括:
数据获取模块,用于获取待研究车辆设定时间周期内的GPS数据;
特征向量提取模块,用于对获取的GPS数据提取地理出行特征、驾驶习惯特征和车辆运动特征,得到对应的特征向量;
灰度图像构建模块,用于从获取的GPS数据构建基于出行地点及时间的矩阵,进而得到车辆时空轨迹的灰度图像;
嵌入式向量输出模块,用于将灰度图像输入预先建立和训练好的特征提取模型,得到嵌入式向量;
预测结果输出模块,用于将特征向量提取模块和嵌入式向量输出模块输出的向量输入预先建立和训练好的贷后风险评价模型,得到对应的预测结果;
所述特征提取模型采用卷积自编码器;所述贷后风险评价模型采用LightGBM模型。
本申请还提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上 运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述表格数据生成方法。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行本申请的上述表格数据生成方法。
根据本申请的技术方案,通过对轨迹数据的结构化处理,本发明在有效表达原始轨迹的同时也能够更加准确的提取商用车辆轨迹中所体现出的时空变化特性。技术优势如下:
1.本发明提出了一种基于卷积自编码器的车贷贷后风险预测方法,使其能够规整化的表达商用车出行的时空轨迹,从而更适用于深度学习模型;
2.本发明创造性的将卷积自编码器应用到商用车轨迹特征挖掘工作中,避免了对轨迹数据的预标注工作;
3.本发明归纳了多项轨迹挖掘研究中所用到的人工特征,并提出了新的特征以完善原有特征工程。
本申请的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施方式及其说明用于解释本申请。在附图中:
图1为本发明的基于卷积自编码器的车贷贷后风险预测方法流程图;
图2为驾驶员时空轨迹的矩阵表达;
图3为驾驶员时空轨迹的图像数据表达示意;
图4为深度特征提取模型的处理流程图。
具体实施方式
下面将参考附图并结合实施方式来详细说明本申请的技术方案。
实施例1
如图1所示,本发明的实施例1提供了基于卷积自编码器的车贷贷后风险预测方法,具体包括:
步骤S1)获取待研究车辆设定时间周期内的GPS数据;
步骤S2)对获取的GPS数据提取地理出行特征、驾驶习惯特征和车辆运动特征,得到对应的特征向量;
步骤S3)从获取的GPS数据构建基于出行地点及时间的矩阵,进而得到车辆时空轨迹的灰度图像;
步骤S4)将步骤S3)的灰度图像输入预先建立和训练好的特征提取模型,得到嵌入式向量;
步骤S5)将步骤S2)和步骤S4)得到的向量输入预先建立和训练好的贷后风险评价模型,得到对应的预测结果;
所述特征提取模型采用卷积自编码器;所述贷后风险评价模型采用LightGBM模型。
以下对各步骤具体分析。
商用车的出行轨迹数据是由一段时间内所记录得到的GPS点序列所构成,每个GPS样本点应当至少包含有经度、纬度、时间戳这三项特征值。对于所用到的GPS信息记录设备,设每日设备的采样频率为p。在此基础上,对于某时刻的GPS样本点,其所记录的特征值应至少包含经度、纬度、时间戳三项。
1、基于规则的驾驶特征提取
通过分析整理过往的驾驶轨迹挖掘工作,可以发现大多数研究工作的关注重点是对地理出行特征、驾驶习惯特征和车辆运动特征这三类特征的刻画。针对这三方面的特征,我们分别提出了以下的批处理方法:
对于地理出行特征,其主要关注点在于刻画车辆行驶途中的停留行为,提取车辆的停留点,分析车辆行驶轨迹的重复度,从而实现对潜在出行规律的挖掘。对于行驶中出现停留行为,可以基于时间和空间维度的阈值引导采样来加以识别。对于车辆出行轨迹的重叠性,则可以通过分析出行轨迹的日周期性、周周期性、月周期性及季度周期性等加以刻画。
对于驾驶习惯特征,这部分关注的是对驾驶员一些日常驾车行为的概括性表述,比如驾驶员一天中驾车时间;驾驶员日间行车和夜间行车的状况等。相关的信息可以通过GPS数据中的车辆行驶速度、ACC状态及时间戳等字段推断得到,通过计算这些日常行为在总时长中的占比便能够对这类特征加以刻画。
对于车辆运动特征,其主要关注的是对车辆行驶的速度、加速度等运动行为的具体刻画,这些信息对于道路安全规划、危险驾驶及交通事故的预防等有着重要意义。车辆的各项运动特征可以借助对应的运动学基本公式计算得到,同时也要通过各类描述性统计指标观察运动数据分布情况。
下面是我们针对部分常用特征提取工作的简要说明。
首先考虑将长期的GPS记录结果以月份为周期进行划分,并将每一个划分得到的片段视为开展进一步处理工作的各独立单位,为方便描述,在下文中这样的片段集合将被记为R。其中,表示第l周期下通过规则提取到的驾驶员驾驶特征向量,并有,部分元素所对应的驾驶特征及处理方式参考如下。
表1部分元素所对应的特征名称及特征表示式
表示的是车辆在该时间段内的停留次数,停留行为则基于阈值引导确定。本研究中将行驶速度低于5km/s且持续的采样数目高于60的GPS片段视为有效片段,若该片段内GPS经纬度活动半径低于1km,则认为其是有效的停留片段,并提取该片段的均值(/>,/>)作为停留点坐标。
表示车辆有停留行为发生的地点数目,当/>中所识别的停留点间直线距离低于10km时,则视其为同一停留地点。
表示相邻两个时间段内停留地点重复出现的频率。记当前时间段的GPS数据集为Ri,前一时间段的数据集为Ri-1。相应各自时间段的下的停留片段集合分别可以记为Pi和Pi-1。计算各自的停留点集合并分析Pi停留点/>在/>停留点/>中重复出现的数量的占比,即/>
表示相邻季度(此处认为一个季度为三个月)内停留地点重复出现的频率。该指标计算过程和/>基本相同,只是在被比较的时间段上向前提取了一个季度的时间滑窗。
表示车辆在夜间行驶的时间长度在总行驶时间长度中的占比。对于从某片段R中所提取到的停留片段集合P,其在R中的补集即为车辆在该片段下的行驶集合,这里记为D。对于其中时间戳处于22:00~6:00的部分则进一步记为集合/>,其含义为车辆的夜间行驶集合。相应的/>
表示车辆以高速状态行驶的时长在总行驶时长中的占比。高速行驶状态的识别同样是基于阈值引导确定,本研究将R中行驶速度高于60km/s的点集记为高速行驶集合,记为H,类似的集合内元素总数同样记为lonH,相应有/>
表示车辆的停驶时间在总时长中的占比。类比之前的内容,停驶时长占比被表述为/>
表示车辆每月的平均里程。部分的GPS记录设备会在记录同时收录车辆行驶的里程数据,此情况下直接对该参数进行调用即可。在里程记录数据缺失的情况下,则可以基于Vincenty公式进行推算。记为/>
表示车辆每日行驶里程的标准差。表示为/>其中/>对应各天的平均里程。
表示车辆的每月平均行驶速度。速度项一般由GPS设备给出或经由Vincenty公式和记录时间戳之差计算得出。
表示车辆每日平均行驶速度的标准差。
表示车辆每月的平均加速度。籍由速度差和时间戳之差计算得出。
表示车辆每日平均加速度的标准差。
2、基于GPS数据的时空轨迹表述形式
这部分的主要内容是提出了如下的出行轨迹表达方法:从预处理后的GPS轨迹中生成包含有轨迹时空出行特征的图像。提出这一方法的目的一方面是为了避免直接分析GPS原始数据所造成的数据输入长度不统一这样的问题,另一方面则使模型更着重分析像商用车辆停留这样同出行习惯密切相关的关键性行为。对GPS数据的处理工作如下:
首先,对于原始GPS数据,这里基于预先设定的阈值进行停留点的提取工作。此处所设定的停留点提取规则为:车辆行驶速度小于5km/s,且满足该条件的连续记录频次在60次以上。对于满足上述条件的行驶记录,再次判断其经纬度坐标是否介于1km的活动半径内,如仍能满足该条件,则计算该行驶记录各点经纬度坐标的算术平均,并将结果记为当前车辆的一个停留点。对于间距低于10km的停留点,记为同一停留点。
关于地点类型的确定:通过使用地理开发工具,检索与当前停留点距离最近的兴趣点(point of interest,POI),检索半径设定为150m。最终将检索结果中的“地点类别”一栏记录为当前停留点的地点类型标签。
这样将研究中所用到的GPS样本点按出行地点的类别划分为C类,将切分后的GPS样本点集进一步以天为单位做时间纬度上的划分,设划分后得到共计T天的数据。
在此基础上,构建一个尺寸为的矩阵A,其中的各项元素记为/>,其所指代的是用户于该GPS片段内第i天(1<=i<=T)去往第j类地点的可能性(1<=j<=C)。该可能性的值基于概率进行计算,具体的表示式为:/>。其中/>表示的是驾驶员在第i天去往地点j的次数,/>。其具体表示形式可以参考图2。将矩阵A中各元素/>等比例对应到0~255的色域中,进一步将该矩阵转化为灰度图像的形式,其结果参考如图3所示,图3横轴代表时间1~30日,纵轴代表不同的地点类型,在此实施例中划分了8大类地点,图中元素代表某天中去往某类地点可能性的大小。
并将得到的图像数据用作深度学习模型的输入端。
3、卷积自编码器的特征提取架构
采用卷积自编码器建立特征提取模型。该模型输入为灰度图像,输出是嵌入式向量。
现有技术往往将自动编码器用于数据降噪、可视化降维,而在传统卷积神经网络模型的基础上加入自动编码器并将其运用到轨迹挖掘中,可以有效降低过往轨迹挖掘算法中对车辆行驶轨迹预标注所产生的时间成本。在将神经网络同自动编码器相结合的基础上,我们调整了原有损失函数以用于这种自监督学习下的特征提取工作,该部分模型的框架如图4所示。首先通过训练好的卷积神经网络对输入端的时空矩阵A做特征提取,输出结果记为特征向量S,同时将A也视为自编码器的输入端。S视为自编码器encoder环节的输出结果,基于S经解码器decoder解码,得到逆编码后的输出端矩阵,记为
特征提取模型的训练步骤,具体包括:
步骤T1)建立训练集,所述训练集包括若干个时空表示的灰度图矩阵;
步骤T2)从训练集中读取一个时空矩阵输入卷积自编码器的编码器中,得到对应的特征向量S,再将特征向量S输入卷积自编码器的解码器,得到对应的时空表示的灰度图矩阵输出/>,其中/>中的元素为/>,/>中的元素为/>, 矩阵/>和矩阵/>的行数和列数分别相同,p,q分别表示对应的行号和列号;
步骤T3)基于MSE计算自编码器的重构误差(RE),同时作为无监督学习模型的损失函数,其表示为:
步骤T4)判断RE是否满足阈值要求,判断为否,调整卷积自编码器的参数,转至步骤T2),判断为是,转至步骤T5);
步骤T5)得到训练好的卷积自编码器,从而完成特征提取模型的训练。
4、基于聚类算法验证模型效果
为了验证深度学习模型输出特征的效果,我们在这里引入了聚类算法+人工标签体系来评价输出特征是否能显著的区分各类驾驶轨迹。在这部分,我们选取了K-means算法来对模型的输出结果S进行聚类。作为在以往研究工作中广泛应用的聚类算法,K-means有着算法简单、计算速度快、聚类效果好等优点。对于深度学习模型输出结果S所对应的原始GPS信息,则由另一组志愿者进行分析,并确定商用车行驶轨迹所表现出的驾驶特点。根据分析的结果,确定K-means聚类模型的簇数k。通过比较得到的聚类结果和评价结果,判断深度学习算法的效果优劣。
5、特征融合下的汽车金融贷后风险预测模型
贷后风险评价模型的输入为步骤S2)的向量以及步骤S4)的嵌入式向量,输出为分类标签0或1;其中,
标签为0,表示预测结果为商用车用户下月不会出现违约行为;
标签为1,表示预测结果为商用车用户下月会出现违约行为。
在这一部分,我们基于真实的商用车行驶记录和贷款数据集,选择LightGBM分类模型对深度学习模型输出结果的有效性进行验证,并评估其对于汽车金融风控所带来的提升效果。LightGBM作为近年来常用的分类模型,其在XGBoost的基础上做出优化,使得模型计算成本得到了极大的降低。本研究中,我们将根据规则得到的特征Fl和基于深度学习模型得到的特征Sl相融合的结果作为分类模型的特征,并将商用车驾驶员各月份的违约记录Nl作为分类模型的预测标签,基于这些数据来训练LightGBM模型,最终通过测试集评价模型对于汽车金融贷后风险的预测与识别能力。
实施例2
本发明的实施例2提供了一种基于卷积自编码器的车贷贷后风险预测系统,基于实施例1的方法实现,该系统包括:
数据获取模块,用于获取待研究车辆设定时间周期内的GPS数据;
特征向量提取模块,用于对获取的GPS数据提取地理出行特征、驾驶习惯特征和车辆运动特征,得到对应的特征向量;
灰度图像构建模块,用于从获取的GPS数据构建基于出行地点及时间的矩阵,进而得到车辆时空轨迹的灰度图像;
嵌入式向量输出模块,用于将灰度图像输入预先建立和训练好的特征提取模型,得到嵌入式向量;
预测结果输出模块,用于将特征向量提取模块和嵌入式向量输出模块输出的向量输入预先建立和训练好的贷后风险评价模型,得到对应的预测结果;
所述特征提取模型采用卷积自编码器;所述贷后风险评价模型采用LightGBM模型。
实施例3
本发明的实施例3还可提供的一种计算机设备,包括:至少一个处理器、存储器、至少一个网络接口和用户接口。该设备中的各个组件通过总线系统耦合在一起。可理解,总线系统用于实现这些组件之间的连接通信。总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。
其中,用户接口可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
可以理解,本申请公开实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器 (Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器 (Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(DoubleData Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本公开实施例方法的程序可以包含在应用程序中。
在本上述的实施例中,还可通过调用存储器存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器用于:
执行实施例1的方法的步骤。
实施例1的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行实施例1中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合实施例1所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程 存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本发明描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits,ASIC)、数字信号处理器(Digital SignalProcessing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(ProgrammableLogic Device,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本发明的功能模块(例如过程、函数等) 来实现本发明技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
实施例4
本发明实施例4还可提供一种非易失性存储介质,用于存储计算机程序。当该计算机程序被处理器执行时可以实现上述方法实施例中的各个步骤。
以上详细描述了本申请的优选实施方式,但是,本申请并不限于上述实施方式中的具体细节,在本申请的技术构思范围内,可以对本申请的技术方案进行多种简单变型,这些简单变型均属于本申请的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本申请对各种可能的组合方式不再另行说明。
此外,本申请的各种不同的实施方式之间也可以进行任意组合,只要其不违背本申请的思想,其同样应当视为本发明所公开的内容。

Claims (10)

1.一种基于卷积自编码器的车贷贷后风险预测方法,所述方法包括:
步骤S1)获取待研究车辆设定时间周期内的GPS数据;
步骤S2)对获取的GPS数据提取地理出行特征、驾驶习惯特征和车辆运动特征,得到对应的特征向量;
步骤S3)从获取的GPS数据构建基于出行地点及时间的矩阵,进而得到车辆时空轨迹的灰度图像;
步骤S4)将步骤S3)的灰度图像输入预先建立和训练好的特征提取模型,得到嵌入式向量;
步骤S5)将步骤S2)和步骤S4)得到的向量输入预先建立和训练好的贷后风险评价模型,得到对应的预测结果;
所述特征提取模型采用卷积自编码器;所述贷后风险评价模型采用LightGBM模型;
所述步骤S3)具体包括:
对于GPS数据,基于预先设定的车辆行驶速度阈值、频次阈值、活动半径阈值和间距阈值,提取停留点,通过设定半径检索与停留点距离最近的兴趣点,进而设定停留点对应的类型;
将GPS数据以日为单位进行时间维度上的划分,得到T日的数据;结合划分的车辆停留点类型总数C,构建的矩阵A,其中的元素记为/>,表示第i日去往第j类型停留点的可能性,满足下式:
其中,/>表示车辆在第i日去往第j类型停留点的次数,/>表示车辆在第i日去往C类型停留点的总和;
将矩阵A中各元素等比例对应到0~255的色域中,转化为灰度图像。
2.根据权利要求1所述的基于卷积自编码器的车贷贷后风险预测方法,其特征在于,所述步骤S2)的地理出行特征包括车辆停留总次数、车辆停留地点类型总数、车辆相邻月份重复出行频率和车辆相邻季度重复出行频率。
3.根据权利要求1所述的基于卷积自编码器的车贷贷后风险预测方法,其特征在于,所述步骤S2)的驾驶习惯特征包括:车辆夜间行驶占比和车辆停驶时长占比。
4.根据权利要求1所述的基于卷积自编码器的车贷贷后风险预测方法,其特征在于,所述步骤S2)的车辆运动特征包括:车辆平均里程、车辆平均里程标准差、车辆平均行驶速度、车辆平均行驶速度标准差、车辆平均加速度和车辆平均加速度标准差,所述车辆运动特征的时间单位均为日。
5.根据权利要求1所述的基于卷积自编码器的车贷贷后风险预测方法,其特征在于,所述方法还包括特征提取模型的训练步骤,具体包括:
步骤T1)建立训练集,所述训练集包括若干个时空表示的灰度图矩阵;
步骤T2)从训练集中读取一个时空矩阵输入卷积自编码器的编码器中,得到对应的特征向量S,再将特征向量S输入卷积自编码器的解码器,得到对应的时空表示的灰度图矩阵输出/>,其中/>中的元素为/>,/>中的元素为/>,矩阵/>和矩阵/>的行数和列数分别相同,p,q分别表示对应的行号和列号;
步骤T3)根据下式计算损失函数的重构误差RE:
步骤T4)判断RE是否满足阈值要求,判断为否,调整卷积自编码器的参数,转至步骤T2),判断为是,转至步骤T5);
步骤T5)得到训练好的卷积自编码器,从而完成特征提取模型的训练。
6.根据权利要求1所述的基于卷积自编码器的车贷贷后风险预测方法,其特征在于,所述贷后风险评价模型的输入为步骤S2)得到的特征向量以及步骤S4)得到的嵌入式向量,输出为分类标签0或1;其中,
标签为0,表示预测结果为商用车用户下月不会出现违约行为;
标签为1,表示预测结果为商用车用户下月会出现违约行为。
7.根据权利要求6所述的基于卷积自编码器的车贷贷后风险预测方法,其特征在于,所述方法还包括对贷后风险评价模型进行自监督的训练步骤;具体包括:
收集车贷工作中的历史GPS数据,提取地理出行特征、驾驶习惯特征和车辆运动特征,得到对应的特征向量;
从收集的历史GPS数据构建基于出行地点及时间的矩阵,进而得到车辆时空轨迹的灰度图像;
将灰度图像输入预先建立和训练好的特征提取模型,得到嵌入式向量;
将特征向量、嵌入式向量以及所记录到的车辆违约情况相对应,构建训练集;
将训练集输入LightGBM模型进行训练,待满足训练要求,得到训练好的贷后风险评价模型。
8.一种基于卷积自编码器的车贷贷后风险预测系统,其特征在于,所述系统包括:
数据获取模块,用于获取待研究车辆设定时间周期内的GPS数据;
特征向量提取模块,用于对获取的GPS数据提取地理出行特征、驾驶习惯特征和车辆运动特征,得到对应的特征向量;
灰度图像构建模块,用于从获取的GPS数据构建基于出行地点及时间的矩阵,进而得到车辆时空轨迹的灰度图像;
嵌入式向量输出模块,用于将灰度图像输入预先建立和训练好的特征提取模型,得到嵌入式向量;和
预测结果输出模块,用于将特征向量提取模块和嵌入式向量输出模块输出的向量输入预先建立和训练好的贷后风险评价模型,得到对应的预测结果;
所述特征提取模型采用卷积自编码器;所述贷后风险评价模型采用LightGBM模型;
所述灰度图像构建模块的处理过程包括:
对于GPS数据,基于预先设定的车辆行驶速度阈值、频次阈值、活动半径阈值和间距阈值,提取停留点,通过设定半径检索与停留点距离最近的兴趣点,进而设定停留点对应的类型;
将GPS数据以日为单位进行时间维度上的划分,得到T日的数据;结合划分的车辆停留点类型总数C,构建的矩阵A,其中的元素记为/>,表示第i日去往第j类型停留点的可能性,满足下式:
其中,/>表示车辆在第i日去往第j类型停留点的次数,/>表示车辆在第i日去往C类型停留点的总和;
将矩阵A中各元素等比例对应到0~255的色域中,转化为灰度图像。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的方法。
CN202310569231.3A 2023-05-19 2023-05-19 基于卷积自编码器的车贷贷后风险预测方法及系统 Active CN116308763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310569231.3A CN116308763B (zh) 2023-05-19 2023-05-19 基于卷积自编码器的车贷贷后风险预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310569231.3A CN116308763B (zh) 2023-05-19 2023-05-19 基于卷积自编码器的车贷贷后风险预测方法及系统

Publications (2)

Publication Number Publication Date
CN116308763A CN116308763A (zh) 2023-06-23
CN116308763B true CN116308763B (zh) 2023-09-12

Family

ID=86803574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310569231.3A Active CN116308763B (zh) 2023-05-19 2023-05-19 基于卷积自编码器的车贷贷后风险预测方法及系统

Country Status (1)

Country Link
CN (1) CN116308763B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108492023A (zh) * 2018-03-19 2018-09-04 浙江工业大学 一种基于轨迹分析的车贷风控方法
CN109064312A (zh) * 2018-07-17 2018-12-21 深圳汇加优运互联数据服务有限公司 一种车辆贷款风险控制方法、电子装置及存储介质
CN111311010A (zh) * 2020-02-22 2020-06-19 中国平安财产保险股份有限公司 车辆风险预测方法、装置、电子设备及可读存储介质
AU2020103488A4 (en) * 2020-11-17 2021-01-28 Chang'an University Method and device for evaluating driving behaviour of truck based on gps trajectory data
CN114266653A (zh) * 2021-12-28 2022-04-01 南京星云数字技术有限公司 集成学习的客户贷款风险预估方法
CN115330521A (zh) * 2022-08-17 2022-11-11 奇瑞徽银汽车金融股份有限公司 基于gps轨迹数据的车辆贷款逾期风险评估方法及系统
CN115545886A (zh) * 2022-09-23 2022-12-30 中银金融科技(苏州)有限公司 逾期风险识别方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108492023A (zh) * 2018-03-19 2018-09-04 浙江工业大学 一种基于轨迹分析的车贷风控方法
CN109064312A (zh) * 2018-07-17 2018-12-21 深圳汇加优运互联数据服务有限公司 一种车辆贷款风险控制方法、电子装置及存储介质
CN111311010A (zh) * 2020-02-22 2020-06-19 中国平安财产保险股份有限公司 车辆风险预测方法、装置、电子设备及可读存储介质
AU2020103488A4 (en) * 2020-11-17 2021-01-28 Chang'an University Method and device for evaluating driving behaviour of truck based on gps trajectory data
CN114266653A (zh) * 2021-12-28 2022-04-01 南京星云数字技术有限公司 集成学习的客户贷款风险预估方法
CN115330521A (zh) * 2022-08-17 2022-11-11 奇瑞徽银汽车金融股份有限公司 基于gps轨迹数据的车辆贷款逾期风险评估方法及系统
CN115545886A (zh) * 2022-09-23 2022-12-30 中银金融科技(苏州)有限公司 逾期风险识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN116308763A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
Yao et al. Clustering driver behavior using dynamic time warping and hidden Markov model
US20230207135A1 (en) Methods and systems for detecting environment features in images to predict location-based health metrics
Wen et al. Characterizing car-following behaviors of human drivers when following automated vehicles using the real-world dataset
Das et al. Nonparametric multivariate adaptive regression splines models for investigating lane-changing gap acceptance behavior utilizing strategic highway research program 2 naturalistic driving data
CN110304068B (zh) 汽车行驶环境信息的采集方法、装置、设备和存储介质
CN110648014A (zh) 一种基于时空分位数回归的区域风电预测方法及系统
Gao et al. What can we learn from telematics car driving data: A survey
Masaki et al. Small area estimation of non-monetary poverty with geospatial data
CN113423063A (zh) 基于车载t-box的车辆监控方法、装置、车辆及介质
Nguyen et al. Deep learning system for travel speed predictions on multiple arterial road segments
CN113838303B (zh) 停车场推荐方法、装置、电子设备及存储介质
Nasrollahzadeh et al. Identifying factors associated with roadside work zone collisions using machine learning techniques
Qi et al. Applying an interpretable machine learning framework to the traffic safety order analysis of expressway exits based on aggregate driving behavior data
Masello et al. Using contextual data to predict risky driving events: A novel methodology from explainable artificial intelligence
Stankevich et al. Usage-based vehicle insurance: Driving style factors of accident probability and severity
Basso et al. Assessing influential factors for lane change behavior using full real-world vehicle-by-vehicle data
CN116308763B (zh) 基于卷积自编码器的车贷贷后风险预测方法及系统
Kang et al. Deep learning model for crash injury severity analysis using shapley additive explanation values
CN117455237A (zh) 一种基于多源数据的道路交通事故风险预测方法
Iranmanesh et al. Identifying high crash risk segments in rural roads using ensemble decision tree-based models
CN111582589A (zh) 一种租车出险预测方法、装置、设备及存储介质
Gerber et al. Impact of road grade on the risk profile of driver behavior
CN112069376A (zh) 交通信息可视化的数据处理方法、系统和存储介质
Yuan et al. Driver back-tracing based on automated vehicle identification data
Akinosho et al. Deep learning-based multi-target regression for traffic-related air pollution forecasting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant