CN118014382A - 一种车辆运营状态判定方法、装置、设备及存储介质 - Google Patents
一种车辆运营状态判定方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN118014382A CN118014382A CN202311841463.6A CN202311841463A CN118014382A CN 118014382 A CN118014382 A CN 118014382A CN 202311841463 A CN202311841463 A CN 202311841463A CN 118014382 A CN118014382 A CN 118014382A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- data
- operation state
- travel
- working condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000003860 storage Methods 0.000 title claims description 8
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 42
- 238000012549 training Methods 0.000 claims description 34
- 238000005065 mining Methods 0.000 claims description 25
- 238000005520 cutting process Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000004140 cleaning Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 231100000279 safety data Toxicity 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Landscapes
- Traffic Control Systems (AREA)
Abstract
本申请提供了一种车辆运营状态判定方法。在执行方法时,先获取车辆工况数据,然后根据车辆工况数据处理得到车辆行程数据,最后根据车辆行程数据和车辆的运营状态对增量式朴素贝叶斯模型进行训练得到车辆运营状态预测模型,以使所述车辆运营状态预测模型用于预测车辆的运营状态。这样,通过车辆工况数据对应的车辆行程数据训练车辆运营状态模型,使得车辆运营状态预测模型可以根据车辆工况数据预测车辆的运营状态,达到了自动检测车辆运营状态的效果。如此,可以实现自动检测车辆运营状态。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种基于助手软件的测试的方法及装置。
背景技术
随着汽车市场的不断扩大和竞争的加剧,越来越多的汽车制造商开始关注他们的产品被购买后的实际用途。了解车辆是否被用作运营(例如出租车、货运车辆等)还是非运营(例如私人用车)可以帮助制造商更好地理解其产品的市场定位和潜在客户群体。
传统方法通常涉及问卷调查、市场研究或直接与车主沟通,但这些方法都存在一些局限性。并且,这些方法需要大量的时间和资源,并且难以扩展到大规模的汽车数据。
因此,如何自动识别车辆的运营和非运营状态是目前亟待解决的问题。
发明内容
有鉴于此,本申请提供了一种车辆运营状态判定方法、装置、设备及存储介质,旨在自动识别车辆的运营状态。
第一方面,本申请提供了一种车辆运营状态判定方法,所述方法包括:
获取车辆工况数据;
根据所述车辆工况数据处理得到车辆行程数据;
根据所述车辆行程数据和所述车辆的运营状态对增量式朴素贝叶斯模型进行训练得到车辆运营状态预测模型,以使所述车辆运营状态预测模型用于预测车辆的运营状态。
可选地,根据所述车辆行程数据和所述车辆的运营状态对增量式朴素贝叶斯模型进行训练得到车辆运营状态预测模型,包括:
根据所述车辆行程数据和所述车辆的运行状态构建训练数据集;所述训练数据集包括特征数据和标签数据;所述标签数据包括运营车辆和非运营车辆;
根据先验概率公式对朴素贝叶斯模型的先验概率进行初始化;
提取训练数据集中的特征数据和标签数据;
根据后验概率公式对特征数据的条件概率进行初始化并进行估计得到增量式朴素贝叶斯模型。
可选地,所述先验概率公式通过如下公式表达:
P(C)=(n*P1(C)+n'*P2(C))/(n+n')
所述P(C)表示状态标签C的先验概率,n是原有数据中状态标签C出现的次数,P1(C)是在原有数据中计算得到的状态标签C的先验概率,n′是新增数据中状态标签C出现的次数,P2(C)是在新增数据中计算得到的状态标签C的先验概率;
所述后验概率公式通过如下公式表达:
P(X|C)=(m*P1(X|C)+m'*P2(X|C))/(m+m')
所述P(X|C)表示在状态标签C的情况下特征X的条件概率,m是原有数据中特征X在状态标签C下出现的次数,P1(X|C)是在原有数据中计算得到的特征X在状态标签C下的条件概率,m'是是新增数据中特征X在状态标签C下出现的次数,P2(X|C)是在新增数据中计算得到的特征X在状态标签C下的条件概率。
可选地,所述根据所述车辆工况数据处理得到车辆行程数据,包括:
对所述车辆工况数据进行预处理得到预处理数据;
基于预先设定的切割规则对所述预处理数据进行切割得到车辆工况子数据;
根据所述车辆工况子数据确定所述车辆行程数据。
可选地,所述根据所述车辆工况子数据确定所述车辆行程数据,包括:
根据所述车辆行程数据利用频繁模式挖掘算法确定所述车辆的常驻地;
根据所述车辆行程数据和常驻地建立所述车辆的频繁出行模式;
基于所述车辆的频繁出行模型统计所述车辆单日偏离常驻地的次数得到所述车辆的非常驻地出行次数。
可选地,根据所述车辆行程数据利用频繁模式挖掘算法确定所述车辆的常驻地,包括:
根据所述车辆行程数据利用FP-growth算法确定所述车辆的常驻地。
可选地,所述根据所述车辆行程数据利用FP-growth算法确定所述车辆的常驻地,包括:
根据所述车辆行程数据,确定行程数据中出现的所有地点以及所有地点的频次,并按照频次排序生成项头表;所述项头表用于存储频繁项集的信息;所述频繁项集的信息至少包括每个地点对应的名称、频次和事务指针;
根据所述项头表的排序顺序,依次读取每条事务指针对应的行程数据,将行程数据中的地点序列插入FP树中;
通过向上遍历所述FP树,得到每个地点的条件模式基;
基于所述条件模式基通过递归的方式构建子FP树,并挖掘频繁项集得到所述车辆的常驻地。
第二方面,本申请提供了一种车辆运营状态判定装置,其特征在于,所述装置包括:
获取模块,用于获取车辆工况数据;
确定模块,用于根据所述车辆工况数据处理得到车辆行程数据;
训练模块,用于根据所述车辆行程数据和所述车辆的运营状态对增量式朴素贝叶斯模型进行训练得到车辆运营状态预测模型,以使所述车辆运营状态预测模型用于预测车辆的运营状态。
第三方面,本申请提供了一种设备,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行前述第一方面任一项所述的车辆运营状态判定方法。
第四方面,本申请提供了一种计算机存储介质,所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现前述第一方面任一项所述的车辆运营状态判定方法。
本申请提供了一种车辆运营状态判定方法。在执行方法时,先获取车辆工况数据,然后根据车辆工况数据处理得到车辆行程数据,最后根据车辆行程数据和车辆的运营状态对增量式朴素贝叶斯模型进行训练得到车辆运营状态预测模型,以使所述车辆运营状态预测模型用于预测车辆的运营状态。这样,通过车辆工况数据对应的车辆行程数据训练车辆运营状态模型,使得车辆运营状态预测模型可以根据车辆工况数据预测车辆的运营状态,达到了自动检测车辆运营状态的效果。如此,可以实现自动检测车辆运营状态。
附图说明
为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种车辆运营状态判定方法的方法流程图;
图2为本申请实施例提供的一种获取车辆行程数据的方法流程图;
图3为本申请实施例提供的一种实现步骤S102的方法流程图;
图4为本申请实施例提供的一种实现步骤S103的方法流程图;
图5为本申请实施例提供的一种确定车辆常驻地的方法流程图;
图6为本申请实施例提供的一种车辆运营状态判定装置的结构示意图。
具体实施方式
正如前文所述,了解车辆是否被用作运营(如出租车、货运车辆等)或非运营(如私人用车),对于汽车制造商来说至关重要。但是,获取这种信息并非易事。传统的方法主要包括问卷调查、市场研究或直接与车主进行沟通。这些方法虽然可以提供一些信息,但也存在明显的缺陷。且这些方法往往需要大量的时间和资源,并且难以应用于大规模的市场调研。
经研究发现,通过收集和分析车辆的传感器数据,我们可以构建一个准确的模型,用于区分运营和非运营车辆的特征。这种方法不仅可以避免传统方法中浪费大量时间和资源问题,而且具有高度的准确性和可靠性。
有鉴于此,本申请提供了一种车辆运营状态判定方法。在执行方法时,先获取车辆工况数据,然后根据车辆工况数据处理得到车辆行程数据,最后根据车辆行程数据和车辆的运营状态对增量式朴素贝叶斯模型进行训练得到车辆运营状态预测模型,以使所述车辆运营状态预测模型用于预测车辆的运营状态。
这样,通过车辆工况数据对应的车辆行程数据训练车辆运营状态模型,使得车辆运营状态预测模型可以根据车辆工况数据预测车辆的运营状态,达到了自动检测车辆运营状态的效果。如此,可以实现自动检测车辆运营状态。
需要说明的是,本申请实施例不限定车辆运营状态判定的执行主体,例如,本申请实施例的方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assistant,PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。
为了能够更加详尽地了解本公开实施例的特点与技术内容,下面结合附图对本公开实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本公开实施例。在以下的技术描述中,为方便解释起见,通过多个细节以提供对所披露实施例的充分理解。然而,在没有这些细节的情况下,一个或多个实施例仍然可以实施。在其它情况下,为简化附图,熟知的结构和装置可以简化展示。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请中相关数据收集处理在实例应用时应该严格根据国家法律、行政法规和强制性国家标准等相关要求,获取个人信息的主体(下述简称主体)的知情同意或单独同意,并在法律法规及主体的授权范围内,方可开展后续数据使用及处理行为。相关要求包括但不限于:
(一)应当取得主体的单独同意,主体可以自主设定同意期限;
(二)在保证车辆的行车安全的前提下,以适当方式向主体提示收集数据的状态,为主体终止数据收集提供便利;
(三)主体要求删除部分或全部与主体相关的数据,处理者应当在十个工作日内对相关数据进行删除;
(四)若数据具有增强行车安全的目的、具有直接服务于主体的目的和/或具有充分的必要性,数据处理者方可收集与主体相关的数据;与主体相关的数据包括但不限于生物识别特征数据(比如指纹、声纹、人脸、心律等)、增强行车安全数据、智能驾驶数据、导航数据等;
(五)可通过用户手册、车载显示面板、语音、文字以及汽车使用相关应用程序等显著方式告知数据收集必要性以及对主体的影响;
(六)本申请若涉及主体的语音采集,则将该语音在车内进行文本转换,仅以文字形式上传,不涉及个人声纹信息,且在上传时对主体的个人信息进行加密转换上传。
图1为本申请实施例提供的一种车辆运营状态判定方法的方法流程图。
结合图1所示,本申请实施例提供的车辆运营状态判定方法可以包括:
S101:获取车辆工况数据。
在本步骤中,从车辆的传感器、记录仪或其他设备中获取与车辆运行状态相关的数据。这些数据可以包括车速、加速度、转向角度、刹车状态、发动机转速、停车时长、停车位置等工况数据等。具体地,现代车辆通常配备了各种传感器,如引擎传感器、车速传感器、油耗传感器等,这些传感器可以实时监测车辆的工作状态,并输出相应的工况数据。还可以通过连接车辆的车辆诊断接口,获取车辆的诊断数据,包括发动机转速、车速、发动机负荷等各种参数。若车辆配备了车载数据总线,如CAN总线,通过读取车载数据总线的信息,可以获取车辆各个部件的状态和工作参数。一些车辆可能配备了车载智能系统,如GPS定位系统、车载娱乐系统等,通过获取车载智能系统的数据,可以得到车辆的位置信息、行驶轨迹,以及驾驶行为等数据。通过以上途径获取到的车辆工况数据,可以分析车辆的使用状况。
S102:根据车辆工况数据处理得到车辆行程数据。
在本步骤中,由于车辆工况数据是从车辆终端获取的原始数据,为了进一步获取车辆工况数据中的信息,需要对车辆工况数据进行处理,得到车辆的行驶速度、位置信息、单程距离等车辆行程数据。
在一个可选的实施例中,图2为本申请实施例提供的一种获取车辆行程数据的方法流程图。结合图2所示,上述步骤S102具体可以包括:
S1021a:对车辆工况数据进行预处理得到预处理数据。
在本步骤中,对步骤S101中获取的车辆工况数据进行预处理,得到清洗、转换和整合后的预处理数据,为后续的数据分析和建模提供基础。具体而言,通过数据清洗、特征提取、数据转换、数据合并、数据归一化或标准化、数据降维和数据转换等方法对车辆工况数据进行预处理。其中,数据清洗就是去除重复数据、处理缺失值、处理异常值,例如超出合理范围的速度或温度数据。特征提取是指从原始的车辆工况数据中提取出需要的特征,例如车速、发动机转速、油耗、位置信息等。数据转换是指对一些非数值型的数据进行转换,例如将时间戳转换为日期时间格式,将地理坐标转换为具体的地理位置等。数据合并是指对于不同传感器或数据源采集到的数据,可能需要进行合并和整合,以便后续分析使用。数据归一化或标准化是指对数据进行归一化或标准化处理,使得不同特征的数值范围相近,有利于模型的训练和分析。数据降维是指对于高维数据,可以采用特征选择或主成分分析等方法进行降维处理,以减少数据维度,提高计算效率。数据转换是指根据实际需求,可能需要对数据进行转换,例如将原始的时间序列数据转换为统计特征,例如均值、方差、峰度、偏度等。最后将经过预处理的数据存储到适当的数据结构中,例如数据框、数据库、文件等,以便后续分析和建模使用。
S1022a:基于预先设定的切割规则对预处理数据进行切割得到车辆工况子数据。
在本实施例中,为了在对特定时间段或特定事件的分析和研究,需要将将预处理后的车端工况数据按照一定规则或者时间窗口进行分割,得到一系列的子数据片段。每个子片段通常包含一段连续的时间段内的数据,用于后续的分析或建模。切割数据可以有多种目的和方式,例如:基于时间窗口切割进行切割,也就是按照固定的时间长度或时间间隔,将预处理数据划分为等长或者固定间隔的时间片段。这样可以将连续的数据序列切割成多个子序列,每个子序列可以独立进行分析。又例如可以基于进行事件切割,具体地,可以根据特定的事件或阶段,将数据划分为不同的片段。例如,车辆工况数据中的不同驾驶阶段(加速、匀速、制动等)可以作为切割的依据。还可以基于状态切割,也即根据车辆的状态变化,将数据切割成不同的状态片段,用来分析不同状态下的行为特征。
在本实施例中,切割数据的目的是为了方便后续的分析、模型训练、数据集划分等。通过切割数据,可以将复杂的原始数据拆分为可管理和可处理的小片段,更有助于对特定时间段或特定事件的分析和研究。
S1023a:根据车辆工况子数据确定车辆行程数据。
在本实施例中,车辆行程数据可以包括车辆单程距离、行程平均速度、行程最高速度、行程时长、停车时长、单日出行时间、单日结束时间和售后次数等。在上述步骤S1022中,根据车辆工况数据,通过识别和分割出每次行程的起始点和终止点,确定行程的起始时间和结束时间,可以计算得到车辆单程距离d、行程平均速度s、行程最高速度smax、行程时长t1、停车时长t2等。通过分析每日行程数据中的单日出行时间和结束时间,可以计算出单日的出行时间t3和结束时间t4。同时根据车辆行程数据的分析,可以推测出车辆的使用情况,包括使用频率、行驶路线、停车时长等,从而可以估计车辆需要进行售后的次数c。
在一个可选的实施例中,为了进一步提高预测车辆运营状态的准确性,可以通过车辆的工况数据获取车辆的非常驻地出行次数。可以理解的是,一般而言,非营业状态的家用车辆的常驻地比较固定,例如家和公司,对于非常驻地出行次数比较偏少,而对于营业状态的车辆而言,对于非常驻地出行次数比较多。因此,可以通过计算车辆的常驻地,进一步确定车辆非常驻地出行次数,以用于判断车辆是否处于运营状态。
在一个可选的实施例中,图3为本申请实施例提供的一种实现步骤S102的方法流程图,结合图3所示,所述步骤S102还可以包括:
S1021b:根据车辆行程数据利用频繁模式挖掘算法确定车辆的常驻地。
在本步骤中,频繁模式挖掘算法是数据挖掘领域中一种用于发现数据集中频繁出现的模式或规律的算法。这些频繁模式通常包括频繁项集和频繁序列。频繁项集是指在数据集中频繁共同出现的一组物品或属性,而频繁序列是指在数据序列中频繁共同出现的一组事件序列。通过频繁模式挖掘算法对车辆行程数据进行数据挖掘,可以确定车辆的常驻地。
在一个可选的实施例中,频繁模式挖掘算法存在多种可能的实现方式,例如Apriori算法、FP-growth算法、Eclat算法和PrefixSpan算法等。其中Apriori算法是通过逐层搜索来发现频繁项集。它使用候选项集生成和剪枝的策略,以发现频繁项集。FP-growth算法是一种基于树形结构的频繁项集挖掘算法,它通过创建FP树(频繁模式树)来发现频繁项集,具有较高的效率。Eclat算法是一种基于垂直数据表示的频繁项集挖掘算法,它对数据进行压缩表示,以提高挖掘效率。PrefixSpan算法是一种用于挖掘序列模式的算法,它通过递归地构建前缀模式基于前缀来发现频繁序列。
在一个可选的实施例中,由于在实际的应用过程中,车辆行程数据的数据量巨大,FP-growth算法使用了一种基于树形结构的数据存储和压缩方法,能够有效地减少挖掘频繁项集时的计算时间和空间开销。故在本申请实施例中利用FP-growth算法确定车辆的常驻地。
S1022b:根据车辆行程数据和常驻地建立车辆的频繁出行模式。
基于单日首次出发时间段、地点,中午时间段驻车地,单日结束时间段、地点来建立频繁出行模式,可以用于统计单日非常驻地出行次数cf的目的。具体地,首先需要收集包含单日首次出发时间段、地点,中午时间段驻车地,单日结束时间段、地点等信息的数据集。这些信息可以从车辆行程记录、GPS轨迹数据或者移动设备的位置信息中获得。然后对收集到的数据进行预处理,包括数据清洗、特征提取等过程,以便后续的模式挖掘分析。利用频繁模式挖掘算法,例如Apriori算法或FP-growth算法,来发现单日的首次出发时间段、地点,中午时间段驻车地,单日结束时间段、地点之间的频繁出行模式。这些模式可以包括不同时间段和地点的组合,例如{早上->家,中午->工作,晚上->家}。
S1023b:基于车辆的频繁出行模型统计车辆单日偏离常驻地的次数得到车辆的非常驻地出行次数。
在步骤S1021a~步骤S1021b确定了车辆的常驻地和车辆的频繁出行模型,对于每辆车的行程数据,在每日行程中检测车辆偏离常驻地的情况。通过比较车辆的行程与频繁出行模型,可以确定车辆是否偏离了常驻地。根据偏离常驻地的情况,可以统计每辆车的单日非常驻地出行次数。每当车辆的行程与常驻地不符合频繁出行模型时,就可以将此次行程计算为非常驻地出行次数。也即,通过频繁出行模式,可以统计每种模式的出现次数,即单日非常驻地出行次数cf。
在本实施例中,采用频繁模式挖掘来计算车主常驻地,并获取日偏离次数的方法将单日非常驻地出行次数作为一个行程数据特征判断车辆运营状态。
S103:根据车辆行程数据和车辆的运营状态对增量式朴素贝叶斯模型进行训练得到车辆运营状态预测模型,以使车辆运营状态预测模型用于预测车辆的运营状态。
在本步骤中,朴素贝叶斯算法是基于贝叶斯定理和特征条件独立性假设的一种分类算法。在朴素贝叶斯分类器中,每个特征被视为相互独立的,因此模型计算了每个特征对于给定类别的条件概率,并利用贝叶斯定理计算最终的分类概率。增量式学习是一种在线学习的方法,能够在不断接收新的数据时动态地更新模型,而不需要重新使用整个数据集进行训练。这使得模型能够持续改进,以适应数据的变化。增量式学习能够在数据不断变化的环境中进行有效的分类和预测。增量式朴素贝叶斯模型是基于朴素贝叶斯算法的增量式学习模型。它在原有的朴素贝叶斯算法基础上,具有动态更新的特性,能够在不断接收新的数据时更新模型参数,而无需重新处理历史数据。这使得增量式朴素贝叶斯模型能够在不断变化的环境中进行持续学习,适应数据的变化。
在本申请实施例中,采用增量计算方法来逐渐扩充训练集,在新能源车辆体量日益增加的情况下,能够解决新能源车数据量过大,普通模型训练速度不足问题,并且能够进一步提高模型的准确度,可以随着随车辆逐渐售出不断周期性的训练模型,用于预测车辆的运营状态。
具体地,首先建立行程数据的特征和车辆状态标签之间的关系,结合少量标记数据,建立增量式朴素贝叶斯模型进行训练,识别运营车和非运营车。其中,特征与标签关系可以表示为F={d,s,smax,t1,t2,t3,t4,c,cf,T}。其中,d为计算车辆单程距离、s为行程平均速度、smax为行程最高速度、t1为行程时长、t2为停车时长、t3为单日出行时间、t4为单日结束时间、c为售后次数,cf为非常驻地出行次数,T为运营车与非运营车标签,对应1与0。
在一个可选的实施例中,图4为本申请实施例提供的一种实现步骤S103的方法流程图。结合图4所示,所述根据车辆行程数据和车辆的运营状态对增量式朴素贝叶斯模型进行训练得到车辆运营状态预测模型可以包括:
S1031:根据车辆行程数据和车辆的运行状态构建训练数据集。
在本步骤中,所述训练数据集包括特征数据和标签数据。将车辆的运行状态作为标签数据,具体为运营车辆和非运营车辆。其中,运营车辆即用于运营(例如出租车、货运车辆等)用途的车辆,非运营车辆即用于非运营(例如私人用车)用途的车辆,通过判断车辆的运营状态,可以帮助制造商更好地理解其产品的市场定位和潜在客户群体以及车辆的优化方向。从车辆行程数据中提取特征数据,特征数据可以包括车辆单程距离d、行程平均速度s、行程最高速度smax、行程时长t1、停车时长t2、单日出行时间t3、单日结束时间t4、售后次数c和单日非常驻地出行次数cf等。结合少量标记,根据车辆行程数据和车辆的运行状态构建训练数据集。
S1032:根据先验概率公式对朴素贝叶斯模型的先验概率进行初始化。
在本实施例中,先验概率(Prior Probability)是指在没有观测到任何数据之前,对于事件发生的主观概率估计。在本例中,先验概率P(C)表示在没有观测到任何车辆数据之前,对于车辆属于运营车或非运营车的主观概率估计。这个先验概率可以通过少量的标记数据进行估计,然后在不断增量训练数据的过程中进行更新。
所述先验概率公式通过如下公式表达:
P(C)=(n*P1(C)+n'*P2(C))/(n+n')
所述P(C)表示状态标签C的先验概率,n是原有数据中状态标签C出现的次数,P1(C)是在原有数据中计算得到的状态标签C的先验概率,n′是新增数据中状态标签C出现的次数,P2(C)是在新增数据中计算得到的状态标签C的先验概率。
S1033:提取训练数据集中的特征数据和标签数据。
在本步骤中,从训练数据集的少量标记数据中提取特征和对应的标签。特征包括d,s,smax,t1,t2,t3,t4,c,cf,标签为T,其中T表示运营车与非运营车的标签,1表示运营车,0表示非运营车。
S1034:根据后验概率公式对特征数据的条件概率进行初始化并进行估计得到增量式朴素贝叶斯模型。
在本步骤中,后验概率(Posterior Probability)是指在观测到数据后,通过贝叶斯定理计算得到的在观测到数据的条件下,事件发生的概率。在这个例子中,后验概率P(X|C)表示在已知车辆的特征数据X的情况下,车辆属于运营车或非运营车的概率。
所述后验概率公式通过如下公式表达:
P(X|C)=(m*P1(X|C)+m'*P2(X|C))/(m+m')
所述P(X|C)表示在状态标签C的情况下特征X的条件概率,m是原有数据中特征X在状态标签C下出现的次数,P1(X|C)是在原有数据中计算得到的特征X在状态标签C下的条件概率,m'是是新增数据中特征X在状态标签C下出现的次数,P2(X|C)是在新增数据中计算得到的特征X在状态标签C下的条件概率。
当新的标记数据可用时,根据增量式学习的方法,使用新的数据更新先验概率和条件概率。根据先验概率和条件概率公式,通过融合新的数据来更新模型参数,从而得到增量式朴素贝叶斯模型。
在本申请实施例中,通过建立增量式朴素贝叶斯模型中,不断更新先验概率和后验概率能够帮助模型不断适应新的数据,从而提高模型的准确性和适应性。通过将每次预测后的结果加入训练好的数据集,可以不断地改进模型对不断变化的数据的适应能力。
在一个可选的实施例中,通过增量式朴素贝叶斯模型预测车辆的运营状态,根据预测结果进一步分析不同车系中运营车的比例,即运营车数量/(运营车数量+非运营车数据量)及环比增速来分析车系车辆状态,为车企定位提供判断依据。
在上述实施例中,通过车辆工况数据对应的车辆行程数据训练车辆运营状态模型,使得车辆运营状态预测模型可以根据车辆工况数据预测车辆的运营状态,达到了自动检测车辆运营状态的效果。如此,可以实现自动检测车辆运营状态。
在本申请实施例中,上述图3所述的步骤S1023b存在多种可能的实现方式,下面分别进行介绍。需要说明的是,下文介绍中给出的实现方式仅作为示例性的说明,并不代表本申请实施例的全部实现方式。
图5为本申请实施例提供的一种确定车辆常驻地的方法流程图。结合图5所示,所述根据车辆行程数据利用FP-growth算法确定车辆的常驻地可以包括:
S501:根据车辆行程数据,确定行程数据中出现的所有地点以及所有地点的频次,并按照频次排序生成项头表。
在本步骤中,项头表用于存储频繁项集的信息,频繁项集的信息至少包括每个地点对应的名称、频次和事务指针。使用FP-Growth算法从车辆的行程数据中提取频繁项集,这些频繁项集可以代表车辆的行程模式,例如起始地点、结束地点、出发时间段、到达时间段等。对于每个频繁项集,构建一个链表结构的项头表。项头表的每一项包括频繁项集中的项、该项的支持度计数以及指向包含该项的所有事务的指针。表1为本申请实施例提供的一种可能的项头表。
表1
项 | 支持度计数 | 指针 |
起始地点A | 100 | ->事务1,事务5 |
起始地点B | 150 | ->事务2,事务3,事务6 |
结束地点C | 120 | ->事务4,事务7 |
结合表1所示,项头表包含了频繁项集中的每个项(起始地点A、起始地点B和起始地点C)以及它们的支持度计数(频繁项集在数据集中出现的次数),同时还包含指向包含该项的所有事务的指针。这些指针可以用来构建条件FP树,进而进行频繁模式挖掘。
S502:根据项头表的排序顺序,依次读取每条事务指针对应的行程数据,将行程数据中的地点序列插入FP树中。
在本实施例中,根据项头表的排序顺序,从第一个地点开始,逐一读取行程数据中的地点序列。对于每条行程数据,根据项头表的排序顺序,按照频繁项的出现频次高低依次插入FP树中。对于每个地点序列,从树的根节点开始,检查是否已经存在该地点的子节点,如果存在则增加该节点的计数值,如果不存在则创建一个新的节点,并更新相应计数值。对于同一行程内的地点序列,依次插入FP树中,构建出每条行程的模式树。当所有的行程数据都被插入FP树中后,树的结构将包含了所有地点的序列信息,以及它们的出现频次。通过这个过程,我们可以利用FP树来表示行程中地点的序列模式,从而可以对这些模式进行频繁模式挖掘和关联规则分析,以发现地点之间的频繁关联和规律。
S503:通过向上遍历FP树,得到每个地点的条件模式基。
在本步骤中,条件模式基是指以当前项为结尾的前缀路径的集合。具体来说,对于指定的频繁项,通过向上遍历FP树,可以找到以该项为结尾的所有路径,这些路径就是该频繁项的条件模式基。例如,假设有一个FP树,其中包含了以下频繁路径:{A,B,C},{A,C},{A,D},{B,C},{B,D}。我们想要得到以项C为结尾的所有前缀路径,即C的条件模式基。通过向上遍历FP树,我们可以找到以C为结尾的前缀路径,可以得到{A,B}和{}(空路径)。因此,{A,B}和{}就构成了C的条件模式基。
在实际算法中,通过递归的方式对FP树进行向上遍历,每次遍历都将得到以当前项为结尾的前缀路径。这些前缀路径的集合就构成了当前项的条件模式基。条件模式基的生成是为了在之后的步骤中,基于条件模式基构建子FP树,从而继续挖掘频繁项集。
S504:基于条件模式基通过递归的方式构建子FP树,并挖掘频繁项集得到车辆的常驻地。
在本步骤中,对于每个地点,利用其条件模式基构建一个子FP树。条件模式基是以当前项为结尾的前缀路径的集合。通过这些前缀路径构建的子FP树可以用于挖掘该频繁项的频繁子集。对于每个子FP树,递归地应用FP-Growth算法,继续挖掘地点频繁项集。这是一个递归的过程,直到无法继续生成地点频繁项集为止。在每一次递归中,都会生成新的地点频繁项集,从而获取更多的地点频繁项集信息。这种递归地挖掘地点频繁项集的方法使得FP-Growth算法能够高效地发现数据集中的地点频繁项集,因为它能够避免产生候选集的过程,同时通过利用条件模式基和子FP树的结构,能够更快速地挖掘出地点频繁项集。通过不断递归挖掘子树,FP-Growth算法可以找到数据集中的所有地点频繁项集。在本实施例中,通过挖掘得到的地点频繁项集,可以得到车辆的常驻地。
在本实施例中,通过FP-Growth算法使用的基于树形结构的数据存储和压缩方法,能够有效地减少挖掘频繁项集时的计算时间和空间开销。同时FP-growth算法使用FP-tree(频繁模式树)来存储数据集,能够有效地压缩数据并减少挖掘过程中的重复扫描,能够高效地发现车辆的常驻地。
以上为本申请实施例提供车辆运营状态判定方法的一些具体实现方式,基于此,本申请还提供了对应的装置。下面将从功能模块化的角度对本申请实施例提供的装置进行介绍。
参见图6所示的车辆运营状态判定装置600的结构示意图,该装置600包括获取模块610、确定模块620和训练模块630。
获取模块610,用于获取车辆工况数据;
确定模块620,用于根据所述车辆工况数据处理得到车辆行程数据;
训练模块630,用于根据所述车辆行程数据和所述车辆的运营状态对增量式朴素贝叶斯模型进行训练得到车辆运营状态预测模型,以使所述车辆运营状态预测模型用于预测车辆的运营状态。
所述训练模块630,包括:
构建单元,用于根据所述车辆行程数据和所述车辆的运行状态构建训练数据集;所述训练数据集包括特征数据和标签数据;所述标签数据包括运营车辆和非运营车辆;
初始化模块单元,用于根据先验概率公式对朴素贝叶斯模型的先验概率进行初始化;
提取模块单元,用于提取训练数据集中的特征数据和标签数据;
估计单元,用于根据后验概率公式对特征数据的条件概率进行初始化并进行估计得到增量式朴素贝叶斯模型。
所述先验概率公式通过如下公式表达:
P(C)=(n*P1(C)+n'*P2(C))/(n+n')
其中,P(C)表示状态标签C的先验概率,n是原有数据中状态标签C出现的次数,P1(C)是在原有数据中计算得到的状态标签C的先验概率,n′是新增数据中状态标签C出现的次数,P2(C)是在新增数据中计算得到的状态标签C的先验概率;
所述后验概率公式通过如下公式表达:
P(X|C)=(m*P1(X|C)+m'*P2(X|C))/(m+m')
其中,P(X|C)表示在状态标签C的情况下特征X的条件概率,m是原有数据中特征X在状态标签C下出现的次数,P1(X|C)是在原有数据中计算得到的特征X在状态标签C下的条件概率,m'是是新增数据中特征X在状态标签C下出现的次数,P2(X|C)是在新增数据中计算得到的特征X在状态标签C下的条件概率。
所述确定模块620,包括:
预处理单元,用于对所述车辆工况数据进行预处理得到预处理数据;
切割单元,用于基于预先设定的切割规则对所述预处理数据进行切割得到车辆工况子数据;
车辆行程数据确定单元,用于根据所述车辆工况子数据确定所述车辆行程数据。
所述装置还包括:
常驻地确定单元,用于根据所述车辆行程数据利用频繁模式挖掘算法确定所述车辆的常驻地;
模式建立单元,用于根据所述车辆行程数据和常驻地建立所述车辆的频繁出行模式;
统计单元,用于基于所述车辆的频繁出行模型统计所述车辆单日偏离常驻地的次数得到所述车辆的非常驻地出行次数。
所述常驻地确定单元,具体用于:
根据所述车辆行程数据利用FP-growth算法确定所述车辆的常驻地。
所述常驻地确定单元,具体用于:
根据所述车辆行程数据,确定行程数据中出现的所有地点以及所有地点的频次,并按照频次排序生成项头表;所述项头表用于存储频繁项集的信息;所述频繁项集的信息至少包括每个地点对应的名称、频次和事务指针;
根据所述项头表的排序顺序,依次读取每条事务指针对应的行程数据,将行程数据中的地点序列插入FP树中;
通过向上遍历所述FP树,得到每个地点的条件模式基;
基于所述条件模式基通过递归的方式构建子FP树,并挖掘频繁项集得到所述车辆的常驻地。
本申请实施例还提供了对应的设备以及计算机存储介质,用于实现本申请实施例提供的方案。
其中,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行本申请任一实施例所述的车辆运营状态判定方法。
所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现本申请任一实施例所述的车辆运营状态判定方法。
本申请实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识,并不代表顺序上的第一、第二。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的车辆运营状态判定方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请示例性的实施方式,并非用于限定本申请的保护范围。
Claims (10)
1.一种车辆运营状态判定方法,其特征在于,所述方法包括:
获取车辆工况数据;
根据所述车辆工况数据处理得到车辆行程数据;
根据所述车辆行程数据和所述车辆的运营状态对增量式朴素贝叶斯模型进行训练得到车辆运营状态预测模型,以使所述车辆运营状态预测模型用于预测车辆的运营状态。
2.根据权利要求1所述的车辆运营状态判定方法,其特征在于,根据所述车辆行程数据和所述车辆的运营状态对增量式朴素贝叶斯模型进行训练得到车辆运营状态预测模型,包括:
根据所述车辆行程数据和所述车辆的运行状态构建训练数据集;所述训练数据集包括特征数据和标签数据;所述标签数据包括运营车辆和非运营车辆;
根据先验概率公式对朴素贝叶斯模型的先验概率进行初始化;
提取训练数据集中的特征数据和标签数据;
根据后验概率公式对特征数据的条件概率进行初始化并进行估计得到增量式朴素贝叶斯模型。
3.根据权利要求2所述的车辆运营状态判定方法,其特征在于,所述先验概率公式通过如下公式表达:
P(C)=(n*P1(C)+n'*P2(C))/(n+n')
其中,P(C)表示状态标签C的先验概率,n是原有数据中状态标签C出现的次数,P1(C)是在原有数据中计算得到的状态标签C的先验概率,n′是新增数据中状态标签C出现的次数,P2(C)是在新增数据中计算得到的状态标签C的先验概率;
所述后验概率公式通过如下公式表达:
P(X|C)=(m*P1(X|C)+m'*P2(X|C))/(m+m')
其中,P(X|C)表示在状态标签C的情况下特征X的条件概率,m是原有数据中特征X在状态标签C下出现的次数,P1(X|C)是在原有数据中计算得到的特征X在状态标签C下的条件概率,m'是是新增数据中特征X在状态标签C下出现的次数,P2(X|C)是在新增数据中计算得到的特征X在状态标签C下的条件概率。
4.根据权利要求1所述的车辆运营状态判定方法,其特征在于,所述根据所述车辆工况数据处理得到车辆行程数据,包括:
对所述车辆工况数据进行预处理得到预处理数据;
基于预先设定的切割规则对所述预处理数据进行切割得到车辆工况子数据;
根据所述车辆工况子数据确定所述车辆行程数据。
5.根据权利要求1所述的车辆运营状态判定方法,其特征在于,所述方法还包括:
根据所述车辆行程数据利用频繁模式挖掘算法确定所述车辆的常驻地;
根据所述车辆行程数据和常驻地建立所述车辆的频繁出行模式;
基于所述车辆的频繁出行模型统计所述车辆单日偏离常驻地的次数得到所述车辆的非常驻地出行次数。
6.根据权利要求5所述的车辆运营状态判定方法,其特征在于,根据所述车辆行程数据利用频繁模式挖掘算法确定所述车辆的常驻地,包括:
根据所述车辆行程数据利用FP-growth算法确定所述车辆的常驻地。
7.根据权利要求6所述的车辆运营状态判定方法,其特征在于,所述根据所述车辆行程数据利用FP-growth算法确定所述车辆的常驻地,包括:
根据所述车辆行程数据,确定行程数据中出现的所有地点以及所有地点的频次,并按照频次排序生成项头表;所述项头表用于存储频繁项集的信息;所述频繁项集的信息至少包括每个地点对应的名称、频次和事务指针;
根据所述项头表的排序顺序,依次读取每条事务指针对应的行程数据,将行程数据中的地点序列插入FP树中;
通过向上遍历所述FP树,得到每个地点的条件模式基;
基于所述条件模式基通过递归的方式构建子FP树,并挖掘频繁项集得到所述车辆的常驻地。
8.一种车辆运营状态判定装置,其特征在于,所述装置包括:
获取模块,用于获取车辆工况数据;
确定模块,用于根据所述车辆工况数据处理得到车辆行程数据;
训练模块,用于根据所述车辆行程数据和所述车辆的运营状态对增量式朴素贝叶斯模型进行训练得到车辆运营状态预测模型,以使所述车辆运营状态预测模型用于预测车辆的运营状态。
9.一种设备,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行权利要求1-7任一项所述的车辆运营状态判定方法。
10.一种计算机存储介质,所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现权利要求1-7任一项所述的车辆运营状态判定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311841463.6A CN118014382A (zh) | 2023-12-28 | 2023-12-28 | 一种车辆运营状态判定方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311841463.6A CN118014382A (zh) | 2023-12-28 | 2023-12-28 | 一种车辆运营状态判定方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118014382A true CN118014382A (zh) | 2024-05-10 |
Family
ID=90950852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311841463.6A Pending CN118014382A (zh) | 2023-12-28 | 2023-12-28 | 一种车辆运营状态判定方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118014382A (zh) |
-
2023
- 2023-12-28 CN CN202311841463.6A patent/CN118014382A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yu et al. | Prediction of bus travel time using random forests based on near neighbors | |
JP2020520520A (ja) | トリップの種類を識別するためのテレマティクスデータの使用 | |
CN106314438A (zh) | 一种司机驾驶轨迹中异常轨迹的检测方法和系统 | |
CN113159105B (zh) | 一种驾驶行为无监督模式识别方法及数据采集监控系统 | |
US20190347513A1 (en) | System and method for detecting and classifying recurrent stops of a vehicle fleet | |
CN108229567B (zh) | 驾驶员身份识别方法及装置 | |
CN111523577A (zh) | 一种基于改进的lcss算法的海量轨迹相似度计算方法 | |
CN112509317B (zh) | 基于机器学习算法的公交实时到站预测方法、装置和设备 | |
CN110458214B (zh) | 驾驶员更换识别方法和装置 | |
CN114428828A (zh) | 基于行驶轨迹挖掘新增道路方法、装置及电子设备 | |
CN112712112A (zh) | 区域流动人口识别方法、装置、设备及介质 | |
CN110533094B (zh) | 一种用于驾驶员的评价方法和系统 | |
CN116257663A (zh) | 面向无人地面车辆的异常检测与关联分析方法及相关设备 | |
CN111738558A (zh) | 行为风险识别的可视化方法、装置、设备及存储介质 | |
Sadeghian et al. | A stepwise methodology for transport mode detection in GPS tracking data | |
CN113822487A (zh) | 运营车辆的风险预警方法、装置、存储介质及计算机设备 | |
US10740990B1 (en) | System and method for analyzing vehicle data | |
CN117290407A (zh) | 基于日志的列车制动能力影响分析方法、系统及介质 | |
CN118014382A (zh) | 一种车辆运营状态判定方法、装置、设备及存储介质 | |
CN116340332A (zh) | 更新车载智能系统的场景库的方法、装置和车辆 | |
CN114492544B (zh) | 模型训练方法及装置、交通事件发生概率评估方法及装置 | |
CN111163425A (zh) | 基于lbs轨迹的身份识别方法、电子装置及可读存储介质 | |
CN113284337A (zh) | 基于车辆轨迹多维数据的od矩阵计算方法及装置 | |
CN112633592A (zh) | 基于机器学习聚类算法的车辆常跑路线计算方法及系统 | |
CN117422484B (zh) | 一种数字化营销协同数据处理系统、方法、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |