CN114926299A - 一种基于大数据分析的预测车辆事故风险预测方法 - Google Patents

一种基于大数据分析的预测车辆事故风险预测方法 Download PDF

Info

Publication number
CN114926299A
CN114926299A CN202210699278.7A CN202210699278A CN114926299A CN 114926299 A CN114926299 A CN 114926299A CN 202210699278 A CN202210699278 A CN 202210699278A CN 114926299 A CN114926299 A CN 114926299A
Authority
CN
China
Prior art keywords
vehicle
data
model
prediction
accident
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210699278.7A
Other languages
English (en)
Inventor
王鹏
柳鹏程
宫月莹
宋欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
QIMING INFORMATION TECHNOLOGY CO LTD
Original Assignee
QIMING INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by QIMING INFORMATION TECHNOLOGY CO LTD filed Critical QIMING INFORMATION TECHNOLOGY CO LTD
Priority to CN202210699278.7A priority Critical patent/CN114926299A/zh
Publication of CN114926299A publication Critical patent/CN114926299A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于大数据分析的预测车辆事故风险预测方法,涉及车辆风险预测领域,方法先选取历史发生过事故的车辆数据,并在对应同一历史时间区间选取未发生事故车辆数据和对应出险信息作为特征标签,得到模型原始数据集;再对模型原始数据集进行降噪、抽样和归一化处理;然后对处理后的原始数据集进行多重共线性检验和关联分析,确定特征集合;根据特征集合选取关进特征构建样本数据集;构建预测模型,采用集成法对模型进行训练;根据预测精度以及评价指标,对模型的预测性能进行评估;输出预测结果。本发明事故概率的预测不再依赖于主观判定或专家经验,依托由时序数据构建的机器学习算法直接计算出险概率,更加精准客观,具有高可信度。

Description

一种基于大数据分析的预测车辆事故风险预测方法
技术领域
本发明涉及车辆风险预测技术领域,尤其涉及一种基于大数据分析的预测车辆事故风险预测方法。
背景技术
传统的车辆保险往往采取统一定价的方式,对于车主的个人情况(如:年龄、性别、婚姻情况、驾龄等)及车辆的基本信息(如:行驶里程、时长等)只在前期进行一次流程性的录入采集,未对数据进行二次统计分析,对不同背景、驾驶完全不同的投保人没有进行合理区分,挖掘其深层价值。针对这一情况,目前行业内涌现出两种新型车险模式,分别通过记录车主的行驶里程和出行天数来核对实际需要支付的保费,虽然在一定程度上对现状有所改善,但难以与投保期间车主的真实行为相匹配,缺少对司机驾驶习惯的了解掌握,无法控制事故风险。
因此,有效预测车辆事故发生概率对于当前的车险定价领域至关重要。目前,该项技术现有的方法大多基于车辆的基本特征,对影响车辆事故发生的特征因子进行主观判断,而后进行数据建模。上述车险定价模式单一,未将真实的驾驶行为考虑到前期定价中,无法预测未来的车辆事故发生概率,导致在投保时保险公司难以分辨低事故率的优质客群以及识别高事故率的风险客群,造成定价固化,车险赔付率居高不下。
而现有技术也没有将驾驶行为相关因子纳入特征范围,特征维度单一,且没有根据时间变化掌握驾驶习惯来衡量事故发生的原因,模型结果刻画风险能力不强。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于大数据分析的预测车辆事故风险预测方法,通过构建机器学习预测模型,选取驾驶行为时序数据、车辆基础数据及车辆出险记录作为数据集,从海量数据中分析筛选有用特征,不依赖专家经验和主观判断,对模型进行学习训练,预测事故发生概率。
本发明的目的是通过以下技术方案来实现的:
一种基于大数据分析的预测车辆事故风险预测方法,包括:
S1:获取原始数据,采集连续时间窗口t-1,t-2,t-3下的车辆基础数据与驾驶行为数据,预测其在时间t处的事故风险;选取历史发生过事故的车辆数据,并在对应同一历史时间区间选取相同数量的驾驶行为良好且从未出险的车辆数据,以及相对应的出险信息作为特征标签,得到模型原始数据集;
S2,数据预处理,对模型原始数据集中的样本数据进行降噪、抽样和归一化处理,将样本的特征值转换到同一量纲下;
S3,特征工程,根据驾驶行为及车辆本身各单属性因子进行多重共线性检验和关联分析,并对分析结果进行筛选,确定特征集合;
S4,模型训练,根据特征集合选取关进特征构建模型样本数据集,并将模型样本数据集划分为训练集、测试集和验证集;构建机器学习预测模型,采用集成法利用训练集对机器学习预测模型进行学习训练;
S5,模型评估,根据预测精度以及受试者工作特征曲线ROC评价指标,选取验证集数据对机器学习预测模型的预测性能进行评估;
S6,输出车辆事故风险预测结果。
具体的,所述归一化处理过程具体下式进行线性变换处理:
基于以下线性变换执行归一化处理:
Figure BDA0003703341290000031
其中,xij(t)、uij(t)分别表示第t个时间点的第i个公司的第j个特征指标的标准值与原始值,j=1,2,...,J,i=1,2,...,I,J和I分别表示特征总数与车辆数据总数,线性变换将每个变量扩展到区间[0,1]中,对于预测模型通常对产生更好的结果。
具体的,所述步骤S3具体包括以下子步骤:
S31:根据驾驶行为及车辆本身各单属性因子的多重共线性检验,明确各单属性因子间的相关性程度,保证因子间的相互独立性;
S32:根据车辆事故与各单属性因子的关联分析,明确各单属性因子对事故发生的影响度大小;
S33:将各维度单属性因子的相关性分数按照从高到低进行排序;
S34:设定相关性分数阈值,筛选所有高于相关性分数阈值的单属性因子,而后综合考虑多个关键因子之间的联系,形成关键因子;
S35:通过特征选择模型筛选冗余特征,最终确定特征集合。
具体的,所述步骤S4具体包括以下子步骤:
S41:利用步骤S35中确定的特征集合,对每个关键因子在时间序列上选取连续的m个数据点聚合成一条数据,通过选取所有关进特征构建模型样本;
S42:根据数据集划分训练集、测试集和验证集;
S43:构建适用于预测车辆事故发生率的机器学习预测模型,将训练集数据带入模型进行学习训练,同时采用集成法将选择特征的过程融入学习训练,最后利用测试集进行预测结果验证。
具体的,所述机器学习预测模型具体为一个由时序变量组成的逻辑回归模型,其具有以下一般形式:
Figure BDA0003703341290000041
t=t0+L,t0+L+1,...,t0+L+d
上式中,Yi,t为二元变量,若Yi,t=1,则表示该车辆i当前月份发生过事故,否则,车辆i从未发生过事故,对应Yi,t=0;α0表示截距,αt-l=(αt-l,1t-l,2,...,αt-l,p)是t-l时刻解释变量的系数向量;Xi,t-l是车辆i在时间t-l的p维驾驶行为特征向量,l=0,1,2,...,L;l和L为时间跨度数和最大跨度;t0为观察期始,d为观察期长度。
本发明的有益效果:
1.将车辆硬件设备采集的海量数据进行聚合分析,通过特征选择算法,能够提取出有助于评估驾驶行为的特征指标。
2.事故概率的预测不再依赖于主观判定或专家经验,依托由时序数据构建的机器学习算法直接计算出险概率,更加精准客观,具有高可信度。
3.相较于复杂的黑盒模型,本发明采用的算法理论基础完善,可解释性强。
4.解决保险行业痛点问题,可为保险公司提供客户等级划分体系及个性化车险定价的技术支持,有助于降低保险机构的赔付风险。
附图说明
图1是本发明的方法流程图;
图2是本发明整体技术流程图;
图3是特征工程处理流程图。
具体实施方式
为了对本发明的技术特征、目的和有益效果有更加清楚的理解,现对本发明的技术方案精选以下详细说明。显然,所描述的实施案例是本发明一部分实施例,而不是全部实施例,不能理解为对本发明可实施范围的限定。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的其他所有实施例,都属于本发明的保护范围。
实施例一:
本实施例中,如图1所示,S1:获取原始数据,采集连续时间窗口t-1,t-2,t-3下的车辆基础数据与驾驶行为数据,预测其在时间t处的事故风险;选取历史发生过事故的车辆数据,并在对应同一历史时间区间选取相同数量的驾驶行为良好且从未出险的车辆数据,以及相对应的出险信息作为特征标签,得到模型原始数据集;
S2,数据预处理,对模型原始数据集中的样本数据进行降噪、抽样和归一化处理,将样本的特征值转换到同一量纲下;
S3,特征工程,根据驾驶行为及车辆本身各单属性因子进行多重共线性检验和关联分析,并对分析结果进行筛选,确定特征集合;
S4,模型训练,根据特征集合选取关进特征构建模型样本数据集,并将模型样本数据集划分为训练集、测试集和验证集;构建机器学习预测模型,采用集成法利用训练集对机器学习预测模型进行学习训练;
S5,模型评估,根据预测精度以及受试者工作特征曲线ROC评价指标,选取验证集数据对机器学习预测模型的预测性能进行评估;
S6,输出车辆事故风险预测结果。
本发明通过综合考虑车辆的基础特征、驾驶行为特征以及潜在风险因子等因素,筛选出导致事故发生的关键因子,提供一种应用于保费定价的用于预测事故发生的方法。以下将结合附图2对本发明进行详细的说明。
如图2所示为该技术方案整体步骤示意图,方法具体实现步骤如下:
S1:获取原始数据:本发明采集连续时间窗口t-1,t-2,t-3下的车辆基础数据与驾驶行为数据来预测其在时间t处的事故风险。选取2020-2022年的发生过事故的车辆数据,对应同一时间区间选取相同数量的驾驶行为良好且从未出险的车辆数据,以及相对应的出险信息(例如:累计前三个月的驾驶行为数据对应当前的出险记录)作为特征标签,得到模型原始数据集,如下表1所示;
表1车辆事故发生率预测模型数据集构成
Figure BDA0003703341290000061
Figure BDA0003703341290000071
S2:数据预处理:生产环境的数据复杂且无序,需在模型训练前做一些基本处理,如:降噪、抽样以及归一化,去除一些脏数据或者不可用数据并且对异常点进行剔除,并且在数据量极大的情况下,对海量数据进行采样,使用采样后的数据进行分析和建模,最后将样本的特征值转换到同一量纲下;
本发明基于以下线性变换执行归一化处理:
Figure BDA0003703341290000072
其中,xij(t)、uij(t)分别表示第t个时间点的第i个公司的第j个特征指标的标准值与原始值,j=1,2,...,J,i=1,2,...,I,J和I分别表示特征总数与车辆数据总数,线性变换将每个变量扩展到区间[0,1]中,对于预测模型通常对产生更好的结果。
在现实收集的样本中,数据粗存在噪声,会极大影响模型的训练效果。本发明去除噪声的方法具体为:根据不一样的业务场景有不一样的处理方法,这里只提出正态分布3σ原则。正态分布也叫常态分布,是连续随机变量几率分布的一种,天然界、人类社会、心理、教育中大量现象均按正态分布,如能力的高低、学生成绩的好坏都属于正态分布,咱们能够把数据集的质量分布立杰成一个正态分布。它会随着随机变量的平均数、标准差与单位不一样而有不一样的分布形态。正态分布能够表示成一种几率密度函数。
在现实收集的样本中,正负类别不均衡是现实数据中很常见的问题。一个分类器往往Accuracy将近90%,但是对少数样本的判别的Recall却只有10%左右。这对于我们正确找出少数类样本非常不利。一般而言,正负样本比例超过1:3,分类器就已经会倾向于负样本的判断(表现在负样本Recall过高,而正样本Recall低,而整体的Accuracy依然会有很好的表现)。在这种情况下,我们可以说这个分类器是失败的,因为它没法实现我们对这类人群的定位。
样本不平衡的处理方法有以下3种:
(1)欠采样。欠采样(undersampling)法是去除训练集内一些多数样本,使得两类数据量级接近,然后在正常进行学习。
这种方法的缺点是就是放弃了很多反例,这会导致平衡后的训练集小于初始训练集。而且如果采样随机丢弃反例,会损失已经收集的信息,往往还会丢失重要信息。
欠采样改进方法1:但是我们可以更改抽样方法来改进欠抽样方法,比如把多数样本分成核心样本和非核心样本,非核心样本为对预测目标较低概率达成的样本,可以考虑从非核心样本中删除而非随机欠抽样,这样保证了需要机器学习判断的核心样本数据不会丢失。
举例来说依然是预测用户注册这个目标,我们可以将跳出率为100%的用户名下的所有会话都可以划分为非核心样本,因为跳出用户包含的信息量非常少(其他行为特征为空),将此部分用户样本排除可以最大可能的保留更多原始数据信息。
欠采样改进方法2:另外一种欠采样的改进方法是EasyEnsemble提出的继承学习制度,它将多数样本划分成若N个集合,然后将划分过后的集合与少数样本组合,这样就形成了N个训练集合,而且每个训练结合都进行了欠采样,但从全局来看却没有信息丢失。
(2)过采样。过采样(oversampling)是对训练集内的少数样本进行扩充,既增加少数样本使得两类数据数目接近,然后再进行学习。
简单粗暴的方法是复制少数样本,缺点是虽然引入了额外的训练数据,但没有给少数类样本增加任何新的信息,非常容易造成过拟合。
过采样改进方法1:通过抽样方法在少数类样本中加入白噪声(比如高斯噪声)变成新样本一定程度上可以缓解这个问题。如年龄,原年龄=新年龄+random(0,1)。
过采样代表算法:SMOTE算法,SMOTE是通过对少数样本进行插值来获取新样本的。比如对于每个少数类样本a,从a最邻近的样本中选取样本b,然后在ab中随机选择一点作为新样本。
(3)阈值移动。这类方法的中心思想不是对样本集和做再平衡设置,而是对算法的决策过程进行改进。
举个简单的例子,通常我们对预测结果进行分类时,当预测y(y代表正类可能性)值>0.5时,判定预测结果为正,反之为负。
规定决策规则:若
Figure BDA0003703341290000091
则预测为正例。不难发现,只有当样本中正反比例为1:1时,阈值设置为0.5才是合理的。如果样本不平衡决策规则需要进行变更,令m+代表正例个数,m-代表负例个数,改进决策规则:
Figure BDA0003703341290000101
则预测为正例。
因为训练集是总体样本的无偏采样,观测几率就代表真实几率,决策规则中
Figure BDA0003703341290000102
代表样本中正例的观测几率,只要分类器中的预测几率高于观测几率达到改进判定结果的目标。
S3:特征工程,如图3所示,特征工程处理过程具体如下:
S31:根据驾驶行为及车辆本身各单属性因子的多重共线性检验,明确各单属性因子间的相关性程度,保证因子间的相互独立性;
S32:根据车辆事故与各单属性因子的关联分析,明确各单属性因子对事故发生的影响度大小;
S33:将各维度单属性因子的相关性分数按照从高到低进行排序;
S34:设定相关性分数阈值,筛选所有高于相关性分数阈值的单属性因子,而后综合考虑多个关键因子之间的联系,形成关键因子;
S35:通过特征选择模型筛选冗余特征,最终确定特征集合。
本发明中提出将惩罚因子l1-范数结合逻辑回归模型,采用集成法将选择特征的过程融入学习训练中,即特征选择与分类器学习训练同时进行,过程合二为一,将部分无效特征前的系数压缩为零,在降低模型复杂度的同时提高了分类器的学习效率;
本实施例中,步骤S4模型训练过程具体如下:
S41:利用步骤S35中确定的特征集合,对每个关键因子在时间序列上选取连续的m个数据点聚合成一条数据,通过选取所有关进特征构建模型样本;
S42:根据数据集划分训练集、测试集和验证集;
S43:构建适用于预测车辆事故发生率的机器学习预测模型。
本发明中选择Logistic回归模型,将训练集数据带入模型进行学习训练,利用测试集进行预测结果验证。Logistic回归作为事故预测领域中常用的技术方法,已得到广泛应用。本发明提出一个由时序变量组成的逻辑回归模型,其具有以下一般形式:
Figure BDA0003703341290000111
上式中,Yi,t为二元变量,若Yi,t=1,则表示该车辆i当前月份发生过事故,否则,车辆i从未发生过事故,对应Yi,t=0;α0表示截距,αt-l=(αt-l,1t-l,2,...,αt-l,p)是t-l时刻解释变量的系数向量;Xi,t-l是车辆i在时间t-l的p维驾驶行为特征向量,l=0,1,2,...,L;l和L为时间跨度数和最大跨度;t0为观察期始,d为观察期长度。
S5:模型评估:根据预测精度以及受试者工作特征曲线(ROC)评价指标,选取验证集数据对模型的预测性能进行评估;
S6:输出预测结果。
本发明通过构建机器学习预测模型,选取驾驶行为时序数据、车辆基础数据及车辆出险记录作为数据集,从海量数据中分析筛选有用特征,不依赖专家经验和主观判断,对模型进行学习训练,预测事故发生概率。本发明通过将车辆硬件设备采集的海量数据进行聚合分析,通过特征选择算法,能够提取出有助于评估驾驶行为的特征指标。事故概率的预测不再依赖于主观判定或专家经验,依托由时序数据构建的机器学习算法直接计算出险概率,更加精准客观,具有高可信度。相较于复杂的黑盒模型,本发明采用的算法理论基础完善,可解释性强。本发明解决保险行业痛点问题,可为保险公司提供客户等级划分体系及个性化车险定价的技术支持,有助于降低保险公司的赔付风险。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

Claims (5)

1.一种基于大数据分析的预测车辆事故风险预测方法,其特征在于,包括:
S1:获取原始数据,采集连续时间窗口t-1,t-2,t-3下的车辆基础数据与驾驶行为数据,预测其在时间t处的事故风险;选取历史发生过事故的车辆数据,并在对应同一历史时间区间选取相同数量的驾驶行为良好且从未出险的车辆数据,以及相对应的出险信息作为特征标签,得到模型原始数据集;
S2,数据预处理,对模型原始数据集中的样本数据进行降噪、抽样和归一化处理,将样本的特征值转换到同一量纲下;
S3,特征工程,根据驾驶行为及车辆本身各单属性因子进行多重共线性检验和关联分析,并对分析结果进行筛选,确定特征集合;
S4,模型训练,根据特征集合选取关进特征构建模型样本数据集,并将模型样本数据集划分为训练集、测试集和验证集;构建机器学习预测模型,采用集成法利用训练集对机器学习预测模型进行学习训练;
S5,模型评估,根据预测精度以及受试者工作特征曲线ROC评价指标,选取验证集数据对机器学习预测模型的预测性能进行评估;
S6,输出车辆事故风险预测结果。
2.根据权利要求1所述的一种基于大数据分析的预测车辆事故风险预测方法,其特征在于,所述归一化处理过程具体下式进行线性变换处理:
基于以下线性变换执行归一化处理:
Figure FDA0003703341280000021
其中,xij(t)、uij(t)分别表示第t个时间点的第i个公司的第j个特征指标的标准值与原始值,j=1,2,...,J,i=1,2,...,I,J和I分别表示特征总数与车辆数据总数,线性变换将每个变量扩展到区间[0,1]中,对于预测模型通常对产生更好的结果。
3.根据权利要求1所述的一种基于大数据分析的预测车辆事故风险预测方法,其特征在于,所述步骤S3具体包括以下子步骤:
S31:根据驾驶行为及车辆本身各单属性因子的多重共线性检验,明确各单属性因子间的相关性程度,保证因子间的相互独立性;
S32:根据车辆事故与各单属性因子的关联分析,明确各单属性因子对事故发生的影响度大小;
S33:将各维度单属性因子的相关性分数按照从高到低进行排序;
S34:设定相关性分数阈值,筛选所有高于相关性分数阈值的单属性因子,而后综合考虑多个关键因子之间的联系,形成关键因子;
S35:通过特征选择模型筛选冗余特征,最终确定特征集合。
4.根据权利要求1所述的一种基于大数据分析的预测车辆事故风险预测方法,其特征在于,所述步骤S4具体包括以下子步骤:
S41:利用步骤S35中确定的特征集合,对每个关键因子在时间序列上选取连续的m个数据点聚合成一条数据,通过选取所有关进特征构建模型样本;
S42:根据数据集划分训练集、测试集和验证集;
S43:构建适用于预测车辆事故发生率的机器学习预测模型,将训练集数据带入模型进行学习训练,同时采用集成法将选择特征的过程融入学习训练,最后利用测试集进行预测结果验证。
5.根据权利要求4所述的一种基于大数据分析的预测车辆事故风险预测方法,其特征在于,所述机器学习预测模型具体为一个由时序变量组成的逻辑回归模型,其具有以下一般形式:
Figure FDA0003703341280000031
上式中,Yi,t为二元变量,若Yi,t=1,则表示该车辆i当前月份发生过事故,否则,车辆i从未发生过事故,对应Yi,t=0;α0表示截距,αt-l=(αt-l,1t-l,2,…,αt-l,p)是t-l时刻解释变量的系数向量;Xi,t-l是车辆i在时间t-l的p维驾驶行为特征向量,l=0,1,2,...,L;l和L为时间跨度数和最大跨度;t0为观察期始,d为观察期长度。
CN202210699278.7A 2022-06-20 2022-06-20 一种基于大数据分析的预测车辆事故风险预测方法 Pending CN114926299A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210699278.7A CN114926299A (zh) 2022-06-20 2022-06-20 一种基于大数据分析的预测车辆事故风险预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210699278.7A CN114926299A (zh) 2022-06-20 2022-06-20 一种基于大数据分析的预测车辆事故风险预测方法

Publications (1)

Publication Number Publication Date
CN114926299A true CN114926299A (zh) 2022-08-19

Family

ID=82814884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210699278.7A Pending CN114926299A (zh) 2022-06-20 2022-06-20 一种基于大数据分析的预测车辆事故风险预测方法

Country Status (1)

Country Link
CN (1) CN114926299A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226787A (zh) * 2023-05-04 2023-06-06 中汽信息科技(天津)有限公司 商用车出险概率预测方法、设备和介质
CN117541403A (zh) * 2023-11-17 2024-02-09 德联易控科技(北京)有限公司 一种风险数据库构建方法、装置、电子设备和可读介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226787A (zh) * 2023-05-04 2023-06-06 中汽信息科技(天津)有限公司 商用车出险概率预测方法、设备和介质
CN117541403A (zh) * 2023-11-17 2024-02-09 德联易控科技(北京)有限公司 一种风险数据库构建方法、装置、电子设备和可读介质

Similar Documents

Publication Publication Date Title
CN110516305B (zh) 基于注意机制元学习模型的小样本下故障智能诊断方法
CN114926299A (zh) 一种基于大数据分析的预测车辆事故风险预测方法
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和系统
CN109739844B (zh) 基于衰减权重的数据分类方法
CN112039903B (zh) 基于深度自编码神经网络模型的网络安全态势评估方法
CN108681742B (zh) 用于分析司机驾驶行为对车辆能耗敏感性的分析方法
CN112687349A (zh) 一种降低辛烷值损失模型的构建方法
CN112215696A (zh) 基于时序归因分析的个人信用评估与解释方法、装置、设备及存储介质
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
CN105116400A (zh) 基于iMMFA模型的雷达高分辨距离像的目标识别方法
CN111415323A (zh) 图像的检测方法及装置,神经网络的训练方法及装置
CN114022269A (zh) 一种公共信用领域企业信用风险评估方法
CN112149884A (zh) 一种面向大规模学员的学业预警监测方法
CN111477329A (zh) 一种基于图文结合评估心理状态的方法
CN112861443B (zh) 一种融入先验知识的深度学习故障诊断方法
CN112256881B (zh) 用户信息分类方法及装置
CN116433333B (zh) 基于机器学习的数字商品交易风险防控方法及装置
CN111652430A (zh) 一种互联网金融平台违约率的预测方法及系统
CN111401329B (zh) 信息流向识别方法、装置、设备和存储介质
CN114066173A (zh) 资金流动行为分析方法及存储介质
Brandsætera et al. Explainable artificial intelligence: How subsets of the training data affect a prediction
SAN et al. Efficient Vehicle Recognition and Classification using Convolutional Neural Network
CN113421154A (zh) 基于控制图的信贷风险评估方法及系统
Liu et al. Structure simplification of neural network for smile classification.
Zaini et al. Implementation of Mahalanobis-Taguchi system to evaluate the normal and abnormal samples in academic faculties

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination