CN118013402A - 模型训练方法、异常数据识别方法、装置、设备和介质 - Google Patents
模型训练方法、异常数据识别方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN118013402A CN118013402A CN202311800179.4A CN202311800179A CN118013402A CN 118013402 A CN118013402 A CN 118013402A CN 202311800179 A CN202311800179 A CN 202311800179A CN 118013402 A CN118013402 A CN 118013402A
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- model
- vehicle
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 178
- 238000012549 training Methods 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000007637 random forest analysis Methods 0.000 claims description 68
- 238000002372 labelling Methods 0.000 claims description 61
- 230000005856 abnormality Effects 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 30
- 230000004927 fusion Effects 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 18
- 230000001932 seasonal effect Effects 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 12
- 230000008859 change Effects 0.000 description 9
- 238000010276 construction Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000003066 decision tree Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 206010039203 Road traffic accident Diseases 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Traffic Control Systems (AREA)
Abstract
本申请实施例提供了一种模型训练方法、异常数据识别方法、装置、电子设备和计算机可读存储介质,该方法用于包括随机森林模型和时间序列模型的异常识别模型的训练,该方法包括获取包括多个数据组的数据集,每个数据组包括多个维度的样本数据,数据集中属于同一维度的样本数据是在不同时刻收集到的,将每个数据组输入随机森模型得到数据类别为异常的第一识别数据,从数据集中获取与第一识别数据属于同一维度的样本数据得到目标样本数据,将目标样本数据输入时间序列模型得到数据类别为异常的第二识别数据,采用第一、第二识别数据各自的数据类别和标注信息训练异常识别模型。本申请能够提高异常数据检测的准确性和稳定性。
Description
技术领域
本申请涉及数据处理技术领域,并且更具体地,涉及数据处理技术领域中一种模型训练方法、异常数据识别方法、装置、电子设备和计算机可读存储介质。
背景技术
近年来,随着汽车保有量的急剧增加,我国高速公路交通事故发生数量也持续上升。这一趋势已经引起了广泛的社会关注,相关部门也加紧采取措施来应对。据相关机构调查研究,车辆异常是造成交通事故发生的主要因素。这进一步加剧了我们对高速公路交通安全的担忧。
车辆异常可能是由多种因素引起的,包括驾驶员身体不适、疲劳驾驶、酒后驾驶等,还包括车辆本身出现电池电能不足、轮胎打滑、胎压太低等问题。这些因素都可能导致驾驶员无法正常驾驶车辆,从而增加了交通事故的风险。如果不能及时发现和管控这些异常车辆,轻则会增加交通拥堵,降低道路通行能力,重则会引发交通事故,造成人员伤亡及巨大的经济损失。
因此,识别车辆在行驶过程出现的异常情况并对其进行及时干预,减少因车辆异常而造成的交通事故发生,对于提升交通道路安全水平具有重要意义。
发明内容
本申请提供了一种模型训练方法、异常数据识别方法、装置、电子设备和计算机可读存储介质,该方法能够识别出车辆数据中的异常数据,从而根据异常数据及时定位出车辆发生异常的部件,有利于避免车辆因部件异常而导致的事故发生。
第一方面,提供了一种模型训练方法,用于异常识别模型的训练,所述异常识别模型包括预先训练的随机森林模型和时间序列模型,所述随机森林模型的输出层与所述时间序列模型的输入层连接;所述模型训练方法包括:获取多辆车各自对应的样本数据集;其中,每辆车对应的样本数据集包括多个样本数据组,每个样本数据组包括多个数据维度的样本数据,每个样本数据具有标注信息,所述标注信息用于表示样本数据的数据类别为正常类别或异常类别,每辆车对应的样本数据集中属于同一数据维度的样本数据是在不同时刻收集到的;对于每辆车对应的样本数据集中的每个样本数据组,将所述样本数据组输入所述随机森林模型,由所述随机森林模型基于输入数据的多数据维度特性对所述样本数据组中的异常数据进行识别,输出第一识别结果;其中,所述第一识别结果包括第一识别数据和所述第一识别数据的第一数据类别,所述第一数据类别为异常类别;从所述样本数据组对应的样本数据集中获取与所述第一识别数据属于同一数据维度的样本数据,得到目标样本数据;将所述目标样本数据和所述第一识别数据输入所述时间序列模型,由所述时间序列模型基于同一数据维度的输入数据的时间序列特性对所述目标样本数据中的异常数据进行识别,输出第二识别结果;其中,所述第二识别结果包括第二识别数据和所述第二识别数据的第二数据类别,所述第二数据类别为异常类别;根据所述第一数据类别、所述第二数据类别、所述第一识别数据的标注信息以及所述第二识别数据的标注信息,训练所述异常识别模型。
在上述技术方案中,本申请事先将预先训练的随机森林模型和时间序列模型进行融合,从而构建出来用于异常数据识别的异常数据的识别,通过采用获取多辆车各自对应的样本数据集,对于每辆车对应的样本数据集中的每个样本数据组,将所述样本数据组输入所述随机森林模型,由所述随机森林模型基于输入数据的多数据维度特性对所述样本数据组中的异常数据进行识别,输出包括数据类别为异常类别的第一识别数据的第一识别结果,从所述样本数据组对应的样本数据集中获取与所述第一识别数据属于同一数据维度的样本数据,得到目标样本数据,将所述目标样本数据和所述第一识别数据输入所述时间序列模型,由所述时间序列模型基于同一数据维度的输入数据的时间序列特性对所述目标样本数据中的异常数据进行识别,输出包括数据类别为异常类别的第二识别数据的第二识别结果,根据第一识别数据的数据类别、第二识别数据的数据类别、第一识别数据的标注信息以及所述第二识别数据的标注信息,训练异常识别模型的技术方案,实现了由随机森林模型和时间序列模型融合得到的异常识别模型的训练,应用异常识别模型可以实现异常数据的识别。由于异常识别模型是由随机森林模型和时间序列模型融合得到的,即异常识别模型综合了随机森林模型和时间序列模型的优势,有利于提高异常检测的准确性和稳定性。
结合第一方面,在某些可能的实现方式中,所述获取多辆车各自对应的样本数据集包括:对于多辆车中的每辆车,获取每辆车在不同时刻下所产生的样本运行数据,得到每辆车对应的多个时刻下的样本运行数据;为每辆车对应的多个时刻下的样本运行数据均设置标注信息;判断每辆车对应的多个时刻下的样本运行数据中,第一数据的第一数量与第二数据的第二数量的差值是否小于预设阈值;其中,所述第一数据包括每辆车对应的多个时刻下的样本运行数据中数据类别为正常类别的样本运行数据,所述第二数据包括每辆车对应的多个时刻下的样本运行数据中数据类别为异常类别的样本运行数据;若是,则对于每辆车对应的每个时刻下的样本运行数据,按照预设的多个数据维度对每个时刻下的样本运行数据进行归类,以得到每个时刻对应的样本数据组;根据每个时刻对应的样本数据组,生成每辆车对应的样本数据集,以得到多辆车各自对应的样本数据集;若否,则对每辆车对应的多个时刻下的样本运行数据进行预处理,以调整每辆车对应的多个时刻下的样本运行数据中第一数据的第一数量与第二数据的第二数量的差值小于预设阈值;其中,所述预处理包括采样处理或欠采样处理;按照预设的多个数据维度对每辆车对应的每个时刻下的且经预处理后的样本运行数据进行归类,以得到每个时刻对应的样本数据组;根据每个时刻对应的样本数据组,生成每辆车对应的样本数据集,以得到多辆车各自对应的样本数据集。
结合第一方面和上述实现方式,在某些可能的实现方式中,所述根据所述第一数据类别、所述第二数据类别、所述第一识别数据的标注信息以及所述第二识别数据的标注信息,训练所述异常识别模型包括:判断所述第一识别数据与所述第二识别数据是否相同;若是,则将所述第一识别结果与所述第二识别结果进行融合,得到融合识别结果;其中,所述融合识别结果包括第三识别数据和所述第三识别数据的第三数据类别,所述第三数据类别为异常类别,所述第三识别数据与所述第一识别数据相同;根据所述第三数据类别与所述第一识别数据的标注信息之间的差异信息,训练所述异常识别模型。
结合第一方面和上述实现方式,在某些可能的实现方式中,所述将所述第一识别结果与所述第二识别结果进行融合,得到融合识别结果包括:确定所述第一识别结果和所述第二识别结果的平均值,得到所述融合识别结果;或者,对所述第一识别结果和所述第二识别结果的进行加权平均处理,得到所述融合识别结果。
结合第一方面和上述实现方式,在某些可能的实现方式中,所述根据所述第一数据类别、所述第二数据类别、所述第一识别数据的标注信息以及所述第二识别数据的标注信息,训练所述异常识别模型包括:判断所述第一识别数据与所述第二识别数据是否相同;若否,根据所述第一数据类别与所述第一识别数据的标注信息之间的差异信息和所述第二数据类别与所述第二识别数据的标注信息之间的差异信息,训练所述异常识别模型。
结合第一方面和上述实现方式,在某些可能的实现方式中,所述模型训练方法还包括:对于多辆车中的任意一辆车,获取所述任意一辆车在不同时刻下所产生的且属于同一数据维度的数据,得到时间序列样本数据;验证所述时间序列样本数据的平稳性;若所述时间序列样本数据的平稳性验证未通过,则对所述时间序列样本数据进行差分处理,以得到季节性自回归综合移动平均模型的差分次数和所述时间序列样本数据对应的平稳时间序列样本数据;基于所述平稳时间序列样本数据绘制自相关图和偏自相关图;根据所述自相关图和所述偏自相关图,确定所述季节性自回归综合移动平均模型的自回归阶数和移动平均阶数;根据所述差分次数、所述自回归阶数和所述移动平均阶数构建所述季节性自回归综合移动平均模型,得到所述时间序列模型。
第二方面,提供了一种车辆异常识别方法,所述车辆异常识别方法包括:获取目标车辆在多个设定时间下所产生的目标数据组,得到多个目标数据组;其中,每个目标数据组包括多个数据维度的待识别数据;将所述多个目标数据组输入异常识别模型,由所述异常识别模型输出异常识别结果;其中,所述异常识别模型根据上述的模型训练方法训练得到,所述异常识别结果包括所述多个目标数据组中数据类别为异常类别的待识别数据;获取所述异常识别结果中的待识别数据对应的车辆部件;将所述车辆部件确定为所述目标车辆的异常部件。
在上述技术方案中,本申请提供的车辆异常识别方法通过采用获取目标车辆在多个设定时间下所产生的目标数据组,得到多个目标数据组,每个目标数据组包括多个数据维度的待识别数据,将多个目标数据组输入异常识别模型,由异常识别模型输出多个目标数据组中数据类别为异常类别的待识别数据的异常识别结果,获取异常识别结果中的待识别数据对应的车辆部件,将车辆部件确定为目标车辆的异常部件的技术方案,通过异常识别模型对车辆产生的运行数据中的异常数据进行识别,并通过异常数据定位出车辆中存在异常的部件。由于异常识别模型是由随机森林模型和时间序列模型融合得到的,综合了随机森林模型和时间序列模型的优势,不仅提高异常数据识别的准确性,还提高了车辆异常部件定位的准确性,能够帮助用户及时发现车辆潜在的异常或者故障,有利于避免车辆因部件异常而导致的事故发生。
第三方面,提供了一种模型训练装置,用于异常识别模型的训练,所述异常识别模型包括预先训练的随机森林模型和时间序列模型,所述随机森林模型的输出层与所述时间序列模型的输入层连接;所述模型训练装置包括:
样本获取模块,用于获取多辆车各自对应的样本数据集;其中,每辆车对应的样本数据集包括多个样本数据组,每个样本数据组包括多个数据维度的样本数据,每个样本数据具有标注信息,所述标注信息用于表示样本数据的数据类别为正常类别或异常类别,每辆车对应的样本数据集中属于同一数据维度的样本数据是在不同时刻收集到的;
第一识别模块,用于对于每辆车对应的样本数据集中的每个样本数据组,将所述样本数据组输入所述随机森林模型,由所述随机森林模型基于输入数据的多数据维度特性对所述样本数据组中的异常数据进行识别,输出第一识别结果;其中,所述第一识别结果包括第一识别数据和所述第一识别数据的第一数据类别,所述第一数据类别为异常类别;
数据选取模块,用于从所述样本数据组对应的样本数据集中获取与所述第一识别数据属于同一数据维度的样本数据,得到目标样本数据;
第二识别模块,用于将所述目标样本数据和所述第一识别数据输入所述时间序列模型,由所述时间序列模型基于同一数据维度的输入数据的时间序列特性对所述目标样本数据中的异常数据进行识别,输出第二识别结果;其中,所述第二识别结果包括第二识别数据和所述第二识别数据的第二数据类别,所述第二数据类别为异常类别;
模型训练模块,用于根据所述第一数据类别、所述第二数据类别、所述第一识别数据的标注信息以及所述第二识别数据的标注信息,训练所述异常识别模型。
结合第三方面,在某些可能的实现方式中,所述样本获取模块具体用于:对于多辆车中的每辆车,获取每辆车在不同时刻下所产生的样本运行数据,得到每辆车对应的多个时刻下的样本运行数据;为每辆车对应的多个时刻下的样本运行数据均设置标注信息;判断每辆车对应的多个时刻下的样本运行数据中,第一数据的第一数量与第二数据的第二数量的差值是否小于预设阈值;其中,所述第一数据包括每辆车对应的多个时刻下的样本运行数据中数据类别为正常类别的样本运行数据,所述第二数据包括每辆车对应的多个时刻下的样本运行数据中数据类别为异常类别的样本运行数据;若是,则对于每辆车对应的每个时刻下的样本运行数据,按照预设的多个数据维度对每个时刻下的样本运行数据进行归类,以得到每个时刻对应的样本数据组;根据每个时刻对应的样本数据组,生成每辆车对应的样本数据集,以得到多辆车各自对应的样本数据集;若否,则对每辆车对应的多个时刻下的样本运行数据进行预处理,以调整每辆车对应的多个时刻下的样本运行数据中第一数据的第一数量与第二数据的第二数量的差值小于预设阈值;其中,所述预处理包括采样处理或欠采样处理;按照预设的多个数据维度对每辆车对应的每个时刻下的且经预处理后的样本运行数据进行归类,以得到每个时刻对应的样本数据组;根据每个时刻对应的样本数据组,生成每辆车对应的样本数据集,以得到多辆车各自对应的样本数据集。
结合第三方面和上述实现方式,在某些可能的实现方式中,所述模型训练模块包括:
第一训练单元,用于判断所述第一识别数据与所述第二识别数据是否相同;若是,则将所述第一识别结果与所述第二识别结果进行融合,得到融合识别结果;其中,所述融合识别结果包括第三识别数据和所述第三识别数据的第三数据类别,所述第三数据类别为异常类别,所述第三识别数据与所述第一识别数据相同;根据所述第三数据类别与所述第一识别数据的标注信息之间的差异信息,训练所述异常识别模型。
结合第三方面和上述实现方式,在某些可能的实现方式中,所述第一训练单元在将所述第一识别结果与所述第二识别结果进行融合,得到融合识别结果方面,具体用于:确定所述第一识别结果和所述第二识别结果的平均值,得到所述融合识别结果;或者,对所述第一识别结果和所述第二识别结果的进行加权平均处理,得到所述融合识别结果。
结合第三方面和上述实现方式,在某些可能的实现方式中,所述模型训练模块还包括:
第二训练单元,用于判断所述第一识别数据与所述第二识别数据是否相同;若否,根据所述第一数据类别与所述第一识别数据的标注信息之间的差异信息和所述第二数据类别与所述第二识别数据的标注信息之间的差异信息,训练所述异常识别模型。
结合第三方面和上述实现方式,在某些可能的实现方式中,所述模型训练装置还包括:
模型构建单元,用于对于多辆车中的任意一辆车,获取所述任意一辆车在不同时刻下所产生的且属于同一数据维度的数据,得到时间序列样本数据;验证所述时间序列样本数据的平稳性;若所述时间序列样本数据的平稳性验证未通过,则对所述时间序列样本数据进行差分处理,以得到季节性自回归综合移动平均模型的差分次数和所述时间序列样本数据对应的平稳时间序列样本数据;基于所述平稳时间序列样本数据绘制自相关图和偏自相关图;根据所述自相关图和所述偏自相关图,确定所述季节性自回归综合移动平均模型的自回归阶数和移动平均阶数;根据所述差分次数、所述自回归阶数和所述移动平均阶数构建所述季节性自回归综合移动平均模型,得到所述时间序列模型。
第四方面,提供了一种异常数据识别装置,所述异常数据识别装置包括:
数据获取模块,用于获取目标车辆在多个设定时间下所产生的目标数据组,得到多个目标数据组;其中,每个目标数据组包括多个数据维度的待识别数据;
数据识别模块,用于将所述多个目标数据组输入异常识别模型,由所述异常识别模型输出异常识别结果;其中,所述异常识别模型根据上述的模型训练方法训练得到,所述异常识别结果包括所述多个目标数据组中数据类别为异常类别的待识别数据;
异常确定模块,用于获取所述异常识别结果中的待识别数据对应的车辆部件,将所述车辆部件确定为所述目标车辆的异常部件。
第五方面,提供一种电子设备,包括存储器和处理器。该存储器用于存储可执行程序代码,该处理器用于从存储器中调用并运行该可执行程序代码,使得该电子设备执行上述第一方面或第一方面任意一种可能的实现方式中的模型训练方法,或者执行上述第二方面的实现方式中的车辆异常识别方法。
第六方面,提供了一种计算机程序产品,该计算机程序产品包括:计算机程序代码,当该计算机程序代码在计算机上运行时,使得该计算机执行上述第一方面或第一方面任意一种可能的实现方式中的模型训练方法,或者执行上述第二方面的实现方式中的车辆异常识别方法。
第七方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序代码,当该计算机程序代码在计算机上运行时,使得该计算机执行上述第一方面或第一方面任意一种可能的实现方式中的模型训练方法,或者执行上述第二方面的实现方式中的车辆异常识别方法。
附图说明
图1示出了本申请实施例提供的一种模型训练方法的示意性流程图;
图2示出了关于异常识别模型的结构示意图;
图3示出了本申请实施例提供的一种车辆异常识别方法的示意性流程图;
图4示出了本申请实施例提供的一种模型训练装置的结构示意图;
图5示出了本申请实施例提供的一种异常数据识别装置的结构示意图;
图6示出了本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行清楚、详尽地描述。其中,在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,A/B可以表示A或B:文本中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为暗示或暗示相对重要性或隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个该特征。
以下为本申请实施例提供的一种模型训练方法的一实施例。
图1示出了本申请实施例提供的一种模型训练方法的示意性流程图,如图1所示,本申请实施例提供的模型训练方法应用于具有算力的电子设备,该模型训练方法用于异常识别模型的训练,如图2所示,图2示出了关于异常识别模型的结构示意图,异常识别模型包括预先训练的随机森林模型(Random Forest)100和预先训练的时间序列模型200,即异常识别模型可以理解为融合模型,如图2中左侧的虚线框内的图所示,随机森林模型100的输出层与时间序列模型200的输入层连接,即随机森林模型100的输出作为时间序列模型200的输入。
上述模型训练方法包括以下方案:
S110:获取多辆车各自对应的样本数据集。
在一示例性实施例中,每辆车对应的样本数据集是对车联网数据处理后得到的,车联网数据包括车辆性能数据、传感器数据、位置数据等。每辆车对应的样本数据集包括多个样本数据组,每个样本数据组包括多个数据维度的样本数据,例如,多个数据维度的数据为9,那么,每个样本数据组包括9个数据维度的样本数据,每个样本数据组包括的数据维度的数量是相同的。
多个数据维度包括:时间特征维度、车辆状态特征维度、传感器特征维度、传感器数据统计特征维度、位置特征维度、特定事件特征维度、统计特征维度、变化率特征维度、历史特征维度等等。
1、时间特征维度,包括:
小时、分钟、秒:表示从时间戳中提取的具体的时间信息。
星期几:表示根据时间戳计算出的星期几,以捕捉每周的周期性变化。
是否为工作日:表示根据日期判断是否为工作日,可能会影响车辆使用的模式。
2、车辆状态特征维度包括:
速度:表示车辆的速度信息。
加速度:表示车辆的加速度信息,有助于检测急加速或急减速的异常情况。
转向角度:表示车辆的转向角度,可能与异常驾驶行为有关。
3、传感器特征维度,包括:
温度、压力、湿度等传感器数据:用于监测车辆的环境状态,异常数据可能意味着设备故障或异常情况。
4、传感器数据统计特征维度:例如最大值、最小值、平均值等,用于捕捉数据分布的异常情况。
5、位置特征维度,包括:
经纬度:表示车辆的地理位置信息,可能与特定地区的异常情况相关。
位置变化速度:用于计算车辆位置的变化速度,异常速度可能表示非正常行驶。
6、特定事件特征维度,包括:
引擎故障码:用于将引擎故障码映射为数值特征,可能会影响车辆的状态。
急刹车次数、急转弯次数:根据传感器数据计算急刹车和急转弯的次数,用于检测驾驶行为异常。
7、统计特征维度,包括:
滑动窗口统计特征:用于计算一段时间内的平均值、标准差等统计特征,以捕捉数据的动态变化。
8、变化率特征维度,包括:
数据变化率:用于计算相邻数据点之间的变化率,用于检测异常的突发性变化。
9、历史特征维度,包括:
前一时刻的数据值:用于将前一时刻的数据作为特征,用于捕捉数据的趋势变化。
对于每辆车对应的样本数据集中的每个样本数据,每个样本数据具有标注信息,标注信息用于表示样本数据的数据类别为正常类别或异常类别,例如标注信息为“1”表示样本数据的数据类别为正常类别,标注信息为“0”表示样本数据的数据类别为异常类别。每辆车对应的样本数据集中属于同一数据维度的样本数据是在不同时刻收集到的,例如,A车对应的样本数据集中历史特征维度下的样本数据包括:数据1、数据2、数据3、...、数据10,数据1、数据2、数据3、...、数据10各自对应的时刻分别为t1、t2、t3、...、t10,t1<t2<t3、...、t9<t10,即数据1、数据2、数据3、...、数据10属于时间序列数据。
S120:对于每辆车对应的样本数据集中的每个样本数据组,将所述样本数据组输入所述随机森林模型,由所述随机森林模型基于输入数据的多数据维度特性对所述样本数据组中的异常数据进行识别,输出第一识别结果。
得到多辆车各自对应的样本数据集,对于每辆车对应的样本数据集,按照预设划分比例将样本数据集划分为训练集、测试集或验证集,例如划分为训练集和测试集,预设划分比例为8:2。每辆车对应的样本数据集中80%的训练集,20%的测试集。
如图2中右侧的虚线框内的流程图所示,在划分得到训练集和测试集之后,对于每辆车对应的训练集中的每个样本数据组,将每个样本数据组作为随机森林模型的输入,即第一输入,随机森林模型基于输入数据的多数据维度特性对输入的样本数据组中的异常数据进行识别,从而输出第一识别结果,第一识别结果包括第一识别数据和该第一识别数据的第一数据类别,第一数据类别为异常类别,第一数据类别通过概率值表示,第一数据类别的概率值大于预设值,表示异常类别,第一识别数据为输入的样本数据组包括的多个样本数据中的某一个。
S130:从所述样本数据组对应的样本数据集中获取与所述第一识别数据属于同一数据维度的样本数据,得到目标样本数据。
得到第一识别结果之后,从输入随机森林模型的样本数据组对应的样本数据集中获取与第一识别数据属于同一数据维度的样本数据,将第一识别数据和获取的与第一识别数据属于同一数据维度的样本数据作为目标样本数据。例如,输入随机森林模型的样本数据组对应的样本数据集为B车对应的样本数据集B,第一识别数据的数据维度为变化率特征维度,那么从样本数据集B获取数据维度为变化率特征维度的样本数据,将获取的数据维度为变化率特征维度的样本数据和第一识别数据,作为目标样本数据。
S140:将所述目标样本数据和所述第一识别数据输入所述时间序列模型,由所述时间序列模型基于同一数据维度的输入数据的时间序列特性对所述目标样本数据中的异常数据进行识别,输出第二识别结果。
如图2中右侧的虚线框内的流程图所示,得到目标样本数据,将目标样本数据作为时间序列模型的输入,即第二输入,时间序列模型基于输入数据的时间序列特性对目标样本数据中的异常数据进行识别,从而输出第二识别结果,第二识别结果包括第二识别数据和该第二识别数据的第二数据类别,第二数据类别为异常类别,第二数据类别通过概率值表示,第二数据类别的概率值大于预设值,表示异常类别,第二识别数据为目标样本数据中的某一个数据。
S150:根据所述第一数据类别、所述第二数据类别、所述第一识别数据的标注信息以及所述第二识别数据的标注信息,训练所述异常识别模型。
得到第一识别结果和第二识别结果之后,获取第一识别数据的标注信息和第二识别数据的标注信息,并基于第一数据类别、第二数据类别、第一识别数据的标注信息以及第二识别数据的标注信息迭代训练异常识别模型,直至异常识别模型收敛。
一种可能的实现方式中,根据所述第一数据类别、所述第二数据类别、所述第一识别数据的标注信息以及所述第二识别数据的标注信息,训练所述异常识别模型包括以下方案:
判断所述第一识别数据与所述第二识别数据是否相同;
若是,则将所述第一识别结果与所述第二识别结果进行融合,得到融合识别结果;
根据所述第三数据类别与所述第一识别数据的标注信息之间的差异信息,训练所述异常识别模型。
得到第一识别结果和第二识别结果之后,判断第一识别数据与第二识别数据是否同一样本数据,如果是,则表示随机森林模型和时间序列模型识别的数据为同一数据,则第一识别结果与第二识别结果进行融合,融合第一识别结果与第二识别结果具体是将第一数据类别的概率值与第二数据类别的概率值进行融合,得到融合识别结果。融合识别结果包括第三识别数据和第三识别数据的第三数据类别,第三数据类别的概率值为第一数据类别的概率值与第二数据类别的概率值的融合结果,第三数据类别的概率值大于预设值,表示第三数据类别为异常类别,第三识别数据与第一识别数据或第二识别数据相同。
一种可能的实现方式中,根据所述第一数据类别、所述第二数据类别、所述第一识别数据的标注信息以及所述第二识别数据的标注信息,训练所述异常识别模型包括以下方案:
确定所述第一识别结果和所述第二识别结果的平均值,得到所述融合识别结果;或者,
对所述第一识别结果和所述第二识别结果的进行加权平均处理,得到所述融合识别结果。
一种方式,计算第一数据类别的概率值与第二数据类别的概率值的平均值,得到第三数据类别的概率值。另一方式,事先设置了随机森林模型对应的第一融合权重值和时间序列模型的对应的第二融合权重值,第一融合权重值+第二融合权重值=1,第三数据类别的概率值=(第一数据类别的概率值×第一融合权重值+第二数据类别的概率值×第二融合权重值)/2。
得到第三数据类别的概率值之后,采用事先设计的第一损失函数计算第三数据类别与第一识别数据的标注信息之间的第一差值,该第一差值作为第三数据类别与第一识别数据的标注信息之间的差异信息,判断第一差值是否小于或者等于第一预设差值,如果第一差值大于第一预设差值,则继续对异常识别模型进行迭代训练,直至第一差值小于或者等于第一预设差值时,停止模型的训练,即异常识别模型训练完成。
一种可能的实现方式中,根据所述第一数据类别、所述第二数据类别、所述第一识别数据的标注信息以及所述第二识别数据的标注信息,训练所述异常识别模型包括以下方案:
判断所述第一识别数据与所述第二识别数据是否相同;
若否,根据所述第一数据类别与所述第一识别数据的标注信息之间的差异信息和所述第二数据类别与所述第二识别数据的标注信息之间的差异信息,训练所述异常识别模型。
得到第一识别结果和第二识别结果之后,判断第一识别数据与第二识别数据是否同一样本数据,如果否,则表示随机森林模型和时间序列模型识别的数据不为同一数据,进而通过第二损失函数计算第一数据类别与第一识别数据的标注信息之间的第二差值,第二差值为第一数据类别与第一识别数据的标注信息之间的差异信息,通过第二损失函数计算第二数据类别与第二识别数据的标注信息之间的第三差值,第三差值为第二数据类别与第二识别数据的标注信息之间的差异信息。判断第二差值是否小于或者等于第二预设差值以及第三差值是否小于或者等于第三预设差值,如果第二差值大于第二预设差值且第三差值大于第三预设差值,则继续对异常识别模型进行迭代训练,直至第二差值小于或者等于第二预设差值且第三差值小于或者等于第三预设差值时,停止模型的训练,即异常识别模型训练完成。
异常识别模型训练完成之后,对异常识别模型进行评估和参数调优。关于模型评估,即采用测试集对异常识别模型进行评估,模型评估的评估指标包括准确率、精确率、召回率、F1分数等。关于异常识别模型的比较基线,通过将随机森林模型的识别结果与异常识别模型的识别结果进行比较以及将时间序列模型的识别结果与异常识别模型的识别结果进行比较,从而根据比较结果确定异常识别模型获得了性能的提升。关于参数调优:根据异常识别模型的评估结果调整模型的权重、投票数、平均方式等实现模型调优。如果异常识别模型的性能无法达到期望的性能,可以重新选择随机森林模型的输出特征,因为有时候,某些特征可能对异常识别模型的融合效果产生负面影响。
对异常识别模型进行评估和参数调优,以使异常识别模型到达期望的标准,即异常识别模型训练完成,从而对异常识别模型进行保存,异常识别模型可以投入实际场景进行使用,例如用于车辆的异常数据的识别。
本申请事先将预先训练的随机森林模型和时间序列模型进行融合,从而构建出来用于异常数据识别的异常数据的识别,通过采用获取多辆车各自对应的样本数据集,对于每辆车对应的样本数据集中的每个样本数据组,将所述样本数据组输入所述随机森林模型,由所述随机森林模型基于输入数据的多数据维度特性对所述样本数据组中的异常数据进行识别,输出包括数据类别为异常类别的第一识别数据的第一识别结果,从所述样本数据组对应的样本数据集中获取与所述第一识别数据属于同一数据维度的样本数据,得到目标样本数据,将所述目标样本数据和所述第一识别数据输入所述时间序列模型,由所述时间序列模型基于同一数据维度的输入数据的时间序列特性对所述目标样本数据中的异常数据进行识别,输出包括数据类别为异常类别的第二识别数据的第二识别结果,根据第一识别数据的数据类别、第二识别数据的数据类别、第一识别数据的标注信息以及所述第二识别数据的标注信息,训练异常识别模型的技术方案,实现了由随机森林模型和时间序列模型融合得到的异常识别模型的训练,应用异常识别模型可以实现异常数据的识别。由于异常识别模型是由随机森林模型和时间序列模型融合得到的,即异常识别模型综合了随机森林模型和时间序列模型的优势,有利于提高异常检测的准确性和稳定性。
异常识别模型的优势包括:
1、综合考虑了数据的多维度特征,即随机森林模型可以处理多数据维度的数据的特征信息,例如车辆状态、操作行为、环境数据等。通过综合考虑多种特征,可以更全面地捕捉到存在异常的数据,从而提高检测的敏感性。
2、能够捕捉时间趋势和周期性,即时间序列模型可以分析时间序列数据的趋势和周期性,能够帮助识别数据中的季节性和趋势性异常。将时间序列模型的时间序列分析能力与随机森林模型的综合特征提取能力相结合,可以更准确地捕捉到异常数据。
3、能够提高模型的鲁棒性,通过将随机森林模型和时间序列模型进行融合,可以提高异常识别模型的鲁棒性,能够降低过拟合的风险。因为随机森林模型和时间序列模型识别异常数据分别采用不同的方法,它们在不同方面具有强大的能力,将它们融合在一起可以提高整体模型的稳定性。
4、能够提高模型输出结果的可靠性,通过将随机森林模型和时间序列模型进行融合,模型融合可以减少单一模型的预测偏差,提高最终输出结果的可靠性;通过综合多个模型的意见,可以得到更加一致和可信的异常数据的识别结果。
5、扩大的模型的应用场景,使得模型可以适用于更多复杂的场景,例如在复杂的车辆系统中,可能存在多种异常模式和因素,难以用单一模型完全覆盖,由随机森林模型和时间序列模型融合生成的异常识别模型可以应对复杂场景,识别不同类型的异常。
一种可能的实现方式中,所述获取多辆车各自对应的样本数据集包括以下方案:
对于多辆车中的每辆车,获取每辆车在不同时刻下所产生的样本运行数据,得到每辆车对应的多个时刻下的样本运行数据;
为每辆车对应的多个时刻下的样本运行数据均设置标注信息;
判断每辆车对应的多个时刻下的样本运行数据中,第一数据的第一数量与第二数据的第二数量的差值是否小于预设阈值;其中,所述第一数据包括每辆车对应的多个时刻下的样本运行数据中数据类别为正常类别的样本运行数据,所述第二数据包括每辆车对应的多个时刻下的样本运行数据中数据类别为异常类别的样本运行数据;
若是,则对于每辆车对应的每个时刻下的样本运行数据,按照预设的多个数据维度对每个时刻下的样本运行数据进行归类,以得到每个时刻对应的样本数据组;
根据每个时刻对应的样本数据组,生成每辆车对应的样本数据集,以得到多辆车各自对应的样本数据集;
若否,则对每辆车对应的多个时刻下的样本运行数据进行预处理,以调整每辆车对应的多个时刻下的样本运行数据中第一数据的第一数量与第二数据的第二数量的差值小于预设阈值;其中,所述预处理包括采样处理或欠采样处理;
按照预设的多个数据维度对每辆车对应的每个时刻下的且经预处理后的样本运行数据进行归类,以得到每个时刻对应的样本数据组;
根据每个时刻对应的样本数据组,生成每辆车对应的样本数据集,以得到多辆车各自对应的样本数据集。
样本数据集的生成过程如下:
事先选取多辆车,多辆车可以同一品牌下的不同车型的车辆,也可以不同品牌的车辆,等等,本申请不做具体限定。将多辆车中的每辆车称为车辆i,获取车辆i以往运行时在不同时刻下所产生的样本运行数据,从而可以获取到车辆i对应的多个时刻下的样本运行数据,该样本运行数据来源于上述的车联网数据。
获得到车辆i对应的多个时刻下的样本运行数据,对每个样本运行数据均设置标注信息,也就是如果样本运行数据是异常的,则设置数据类别为异常类别,样本运行数据是正常的,则设置数据类别为正常类别。
为车辆i对应的多个时刻下的样本运行数据均设置完成标注信息之后,判断车辆i对应的多个时刻下的样本运行数据中第一数据的第一数量与第二数据的第二数量的差值是否小于预设阈值。
如果是,则表示数据类别为正常类别的样本运行数据与数据类别为异常类别的样本运行数据的在数量上是平衡的,则按照预设的多个数据维度(例如时间特征维度、车辆状态特征维度、传感器特征维度等)对车辆i对应的多个时刻下的样本运行数据进行归类,也就是将车辆i对应的多个时刻下的样本运行数据中同一时刻采集的多个数据维度的样本运行数据划分在一个样本数据组中,例如,将车辆i对应的多个时刻下的样本运行数据中,在t1时刻下采集的且属于时间特征维度的样本运行数据、车辆状态特征维度的样本运行数据和传感器特征维度的样本运行数据划分为一个样本数据组;将车辆i对应的多个时刻下的样本运行数据中,在t2时刻下采集的且属于时间特征维度的样本运行数据、车辆状态特征维度的样本运行数据和传感器特征维度的样本运行数据划分为一个样本数据组,依次类推,从而得到车辆i对应的每个时刻下的样本数据组,通过车辆i对应的每个时刻下的样本数据组生成车辆i对应的样本数据集,如此可以得到多辆车各自对应的样本数据集。
如果否,则表示数据类别为正常类别的样本运行数据与数据类别为异常类别的样本运行数据的在数量上是不平衡的,数据类别为正常类别的样本运行数据可能过多,数据类别为异常类别的样本运行数据可能过少,或者数据类别为异常类别的样本运行数据可能过多,数据类别为正异常类别的样本运行数据可能过少,因此需要调整数据类别为正常类别的样本运行数据与数据类别为异常类别的样本运行数据的数量平衡。
调整过程包括:对车辆i对应的多个时刻下的样本运行数据进行预处理(采样或欠采样),从而使得车辆i对应的多个时刻下的样本运行数据中第一数据的第一数量与第二数据的第二数量的差值小于预设阈值,如此调整数据类别为正常类别的样本运行数据与数据类别为异常类别的样本运行数据的数量达到平衡,进而按照预设的多个数据维度对车辆i对应的每个时刻下的且经预处理后的样本运行数据进行归类,以得到车辆i对应的每个时刻下的样本数据组,此处的归类过程与上述归类过程相同,这里不再赘述。得到车辆i对应的每个时刻下的样本数据组,通过车辆i对应的每个时刻下的样本数据组生成车辆i对应的样本数据集,如此可以得到多辆车各自对应的样本数据集,即多辆车各自对应的样本数据集中的数据类别为正常类别的样本运行数据与数据类别为异常类别的样本运行数据在数量上是平衡的,可以确保模型在异常数据识别上有更好的表现。
一种可能的实现方式中,所述模型训练方法还包括:构建随机森林模型,随机森林模型的构建包括:
从车联网数据中获取不同时刻采集的属于上述多个数据维度的运行数据,这里获取的运行数据的时刻与上述样本运行数据在维度上是相同的,但是采集的时刻不同,为了便于区分,本申请将构建随机森林模型所使用的运行数据称为第一模型样本数据,通过从车联网数据中获取多个第一模型样本数据,生成用于构建随机森林模型的第一模型样本数据集,第一模型样本数据集中数据类别为正常类别的第一模型样本数据与数据类别为异常类别的第一模型样本数据在数量上是平衡的,可以确保数据的质量和一致性;以及将第一模型样本数据集分为特征(即模型输入)和目标变量(即模型输出)。
从第一模型样本数据集中随机抽取训练样本,对于每个决策树,从第一模型样本数据集中进行有放回抽样,构建一个随机样本集,这样每个决策树的训练数据都是略有不同的,以提高模型的多样性;其中,每个决策树对应一个随机样本集,即存在多个随机样本集。
对于每个随机样本集,构建一个独立的决策树,关于决策树的构建包括:
选择特征:即在每个节点上,从特征中选择一个子集来进行最佳分割;
分割数据:根据选定的特征和分割准则将数据分成两个子集;
递归构建:对每个子集递归地继续分割,直到满足终止条件(如叶节点数、深度等)。
集成决策树:将构建的多个决策树集成为一个随机森林模型,对于分类任务,可以使用投票法选择最终的预测结果;对于回归任务,可以计算平均值或加权平均值作为最终预测结果。
特征重要性评估:随机森林模型可以提供每个特征的重要性分数,用于衡量每个特征对模型性能的影响;重要性分数可以帮助用户理解数据中哪些特征对预测结果最具影响力。
模型的超参数调优:调整随机森林模型的超参数,如决策树数量、最大深度、最小样本分割数等,以获得更好的性能,在模型的超参数调优完成之后,随机森林模型构建完成。
一种可能的实现方式中,所述模型训练方法还包括时间序列模型的构建,构建过程包括:
对于多辆车中的任意一辆车,获取所述任意一辆车在不同时刻下所产生的且属于同一数据维度的数据,得到时间序列样本数据;
验证所述时间序列样本数据的平稳性;
若所述时间序列样本数据的平稳性验证未通过,则对所述时间序列样本数据进行差分处理,以得到季节性自回归综合移动平均模型的差分次数和所述时间序列样本数据对应的平稳时间序列样本数据;
基于所述平稳时间序列样本数据绘制自相关图和偏自相关图;
根据所述自相关图和所述偏自相关图,确定所述季节性自回归综合移动平均模型的自回归阶数和移动平均阶数;
根据所述差分次数、所述自回归阶数和所述移动平均阶数构建所述季节性自回归综合移动平均模型,得到所述时间序列模型。
将多辆车中的任意一辆车称为车辆j,按照时间顺序获取车辆j以往运行时在不同时刻下所产生的且属于同一数据维度的数据,例如,获取车辆j以往运行时在t1时刻下所产生的且属于车辆状态特征维度的数据1、t2时刻下所产生的且属于车辆状态特征维度的数据2、t3时刻下所产生的且属于车辆状态特征维度的数据2、....、tn时刻下所产生的且属于车辆状态特征维度的数据n。
为了确保数据是按照时间顺序排列的,如果获取到的数据中某个时刻的数据有缺失,则进行插值或填充,从而确保时间的连续性。例如,最终得到的t1-tn对应的时间序列样本数据为数据1、数据2、数据3、...、数据(n-1),t1<t2<t3、..、t(n-1)<tn。
时间序列模型的构建需要确保时间序列数据是平稳的,即在时间上没有明显的趋势和季节性。因此在到的多个时刻对应的时间序列样本数据之后,基于时间序列样本数据绘制自相关图(Autocorrelation Function,ACF)和偏自相关图(PartialAutocorrelation Function,PACF),通过自相关图和偏自相关图确定时间序列样本数据的自相关性和偏自相关性,根据自相关性和偏自相关性判断时间序列样本数据是否是平稳的,以对时间序列样本数据进行平稳性验证。
如果通过自相关性和偏自相关验证时间序列样本数据中平稳性未通过,则对时间序列样本数据进行差分处理,即对时间序列样本数据进行差分运算,将时间序列样本数据转化为平稳时间序列;其中,差分运算包括一阶差分和多阶差分。
对时间序列样本数据进行差分运算之后,可以得到由时间序列样本数据转化成的平稳时间序列样本数据,以及时间序列样本数据转化成的平稳时间序列样本数据的差分次数,也是季节性自回归综合移动平均模型(Autoregressive Integrated Moving Averagemodel,ARIMA)的差分次数。
进而基于平稳时间序列样本数据绘制自相关图和偏自相关图,并通过由平稳时间序列样本数据得到的自相关图和偏自相关图得到ARIMA模型的自回归阶数和移动平均阶数,然后根据差分次数、自回归阶数和移动平均阶数构建ARIMA模型,将构建的ARIMA模型作为时间序列模型。
得到时间序列模型之后,从车联网数据中获取不同时刻采集的属于同一数据维度的运行数据,从而构成第二模型样本数据集,采用第二模型样本数据集中同一数据维度的时间序列数据训练时间序列模型,直至时间序列模型收敛,完成时间序列模型的训练。
以下为本申请实施例提供的一种车辆异常识别方法的一实施例。
图3示出了本申请实施例提供的一种车辆异常识别方法的示意性流程图,如图3所示,本申请实施例提供的车辆异常识别应用于具有算力的电子设备,例如计算机,该车辆异常识别方法包括以下方案:
S210:获取目标车辆在多个设定时间下所产生的目标数据组,得到多个目标数据组;
S220:将所述多个目标数据组输入异常识别模型,由所述异常识别模型输出异常识别结果;
S230:获取所述异常识别结果中的待识别数据对应的车辆部件;
S240:将所述车辆部件确定为所述目标车辆的异常部件。
目标车辆为需要进行异常检测的车辆,设定时间是指历史时刻。目标车辆在以往运行时会产生运行数据,从目标车辆以往运行时所产生运行数据中,获取目标车辆在多个设定时间下所产生的目标数据组,得到多个目标数据组,每个目标数据组包括多个数据维度的待识别数据,多个目标数据组中不同设定时间产生的且属于同一数据维度的待识别数据形成时间序列数据。
得到多个目标数据组之后,将多个目标数据组输入到由上述模型训练方法训练得到的异常识别模型,该异常识别模型对多个目标数据组中的存在异常的数据进行识别,得到异常识别结果,异常识别结果包括多个目标数据组中数据类别为异常类别的待识别数据。
事先将车辆部件的标识信息与该车辆部件对应的运行数据进行了关联,当有运行数据发生异常时,通过发生异常的运行数据所对应的标识信息可以定位出发生异常的车辆部件。因此在得到异常识别结果之后,可以得到多个目标数据组中数据类别为异常类别的待识别数据,即得到多个目标数据组中为异常数据的待识别数据,进而确定出异常识别结果中的待识别数据对应的标识信息,确定出的标识信息所对应的车辆部件就是目标车辆的异常部件。
本申请提供的车辆异常识别方法通过采用获取目标车辆在多个设定时间下所产生的目标数据组,得到多个目标数据组,每个目标数据组包括多个数据维度的待识别数据,将多个目标数据组输入异常识别模型,由异常识别模型输出多个目标数据组中数据类别为异常类别的待识别数据的异常识别结果,获取异常识别结果中的待识别数据对应的车辆部件,将车辆部件确定为目标车辆的异常部件的技术方案,通过异常识别模型对车辆产生的运行数据中的异常数据进行识别,并通过异常数据定位出车辆中存在异常的部件。由于异常识别模型是由随机森林模型和时间序列模型融合得到的,综合了随机森林模型和时间序列模型的优势,不仅提高异常数据识别的准确性,还提高了车辆异常部件定位的准确性,能够帮助用户及时发现车辆潜在的异常或者故障,有利于避免车辆因部件异常而导致的事故发生。当检测到车辆中存在异常部件时,可以及时通知用户,以便用户及时对车辆进行维修或进行异常干预。该车辆异常识别方法可以配置于车辆的售后部门的检修系统中,可以为商家增加收益,从而增加客户量,避免客户流失。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图4示出了本申请实施例提供的一种模型训练装置的结构示意图,如图4所示,该一种模型训练装置400,用于异常识别模型的训练,所述异常识别模型包括预先训练的随机森林模型和时间序列模型,所述随机森林模型的输出层与所述时间序列模型的输入层连接;所述模型训练装置400包括:
样本获取模块410,用于获取多辆车各自对应的样本数据集;其中,每辆车对应的样本数据集包括多个样本数据组,每个样本数据组包括多个数据维度的样本数据,每个样本数据具有标注信息,所述标注信息用于表示样本数据的数据类别为正常类别或异常类别,每辆车对应的样本数据集中属于同一数据维度的样本数据是在不同时刻收集到的;
第一识别模块420,用于对于每辆车对应的样本数据集中的每个样本数据组,将所述样本数据组输入所述随机森林模型,由所述随机森林模型基于输入数据的多数据维度特性对所述样本数据组中的异常数据进行识别,输出第一识别结果;其中,所述第一识别结果包括第一识别数据和所述第一识别数据的第一数据类别,所述第一数据类别为异常类别;
数据选取模块430,用于从所述样本数据组对应的样本数据集中获取与所述第一识别数据属于同一数据维度的样本数据,得到目标样本数据;
第二识别模块440,用于将所述目标样本数据和所述第一识别数据输入所述时间序列模型,由所述时间序列模型基于同一数据维度的输入数据的时间序列特性对所述目标样本数据中的异常数据进行识别,输出第二识别结果;其中,所述第二识别结果包括第二识别数据和所述第二识别数据的第二数据类别,所述第二数据类别为异常类别;
模型训练模块450,用于根据所述第一数据类别、所述第二数据类别、所述第一识别数据的标注信息以及所述第二识别数据的标注信息,训练所述异常识别模型。
一种可能的实现方式中,所述样本获取模块410具体用于:对于多辆车中的每辆车,获取每辆车在不同时刻下所产生的样本运行数据,得到每辆车对应的多个时刻下的样本运行数据;为每辆车对应的多个时刻下的样本运行数据均设置标注信息;判断每辆车对应的多个时刻下的样本运行数据中,第一数据的第一数量与第二数据的第二数量的差值是否小于预设阈值;其中,所述第一数据包括每辆车对应的多个时刻下的样本运行数据中数据类别为正常类别的样本运行数据,所述第二数据包括每辆车对应的多个时刻下的样本运行数据中数据类别为异常类别的样本运行数据;若是,则对于每辆车对应的每个时刻下的样本运行数据,按照预设的多个数据维度对每个时刻下的样本运行数据进行归类,以得到每个时刻对应的样本数据组;根据每个时刻对应的样本数据组,生成每辆车对应的样本数据集,以得到多辆车各自对应的样本数据集;若否,则对每辆车对应的多个时刻下的样本运行数据进行预处理,以调整每辆车对应的多个时刻下的样本运行数据中第一数据的第一数量与第二数据的第二数量的差值小于预设阈值;其中,所述预处理包括采样处理或欠采样处理;按照预设的多个数据维度对每辆车对应的每个时刻下的且经预处理后的样本运行数据进行归类,以得到每个时刻对应的样本数据组;根据每个时刻对应的样本数据组,生成每辆车对应的样本数据集,以得到多辆车各自对应的样本数据集。
一种可能的实现方式中,所述模型训练模块450包括:
第一训练单元,用于判断所述第一识别数据与所述第二识别数据是否相同;若是,则将所述第一识别结果与所述第二识别结果进行融合,得到融合识别结果;其中,所述融合识别结果包括第三识别数据和所述第三识别数据的第三数据类别,所述第三数据类别为异常类别,所述第三识别数据与所述第一识别数据相同;根据所述第三数据类别与所述第一识别数据的标注信息之间的差异信息,训练所述异常识别模型。
一种可能的实现方式中,所述第一训练单元在将所述第一识别结果与所述第二识别结果进行融合,得到融合识别结果方面,具体用于:确定所述第一识别结果和所述第二识别结果的平均值,得到所述融合识别结果;或者,对所述第一识别结果和所述第二识别结果的进行加权平均处理,得到所述融合识别结果。
一种可能的实现方式中,所述模型训练模块450还包括:
第二训练单元,用于判断所述第一识别数据与所述第二识别数据是否相同;若否,根据所述第一数据类别与所述第一识别数据的标注信息之间的差异信息和所述第二数据类别与所述第二识别数据的标注信息之间的差异信息,训练所述异常识别模型。
一种可能的实现方式中,所述模型训练装置400还包括:
模型构建单元,用于对于多辆车中的任意一辆车,获取所述任意一辆车在不同时刻下所产生的且属于同一数据维度的数据,得到时间序列样本数据;验证所述时间序列样本数据的平稳性;若所述时间序列样本数据的平稳性验证未通过,则对所述时间序列样本数据进行差分处理,以得到季节性自回归综合移动平均模型的差分次数和所述时间序列样本数据对应的平稳时间序列样本数据;基于所述平稳时间序列样本数据绘制自相关图和偏自相关图;根据所述自相关图和所述偏自相关图,确定所述季节性自回归综合移动平均模型的自回归阶数和移动平均阶数;根据所述差分次数、所述自回归阶数和所述移动平均阶数构建所述季节性自回归综合移动平均模型,得到所述时间序列模型。
需要说明的是,上述实施例提供的模型训练装置在执行模型训练方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的模型训练装置与模型训练方法实施例属于同一构思,因此对于本申请装置实施例中未披露的细节,请参照本申请上述的模型训练方法的实施例,这里不再赘述。
图5示出了本申请实施例提供的一种异常数据识别装置的结构示意图,如图5所示,该异常数据识别装置500包括:
数据获取模块510,用于获取目标车辆在多个设定时间下所产生的目标数据组,得到多个目标数据组;其中,每个目标数据组包括多个数据维度的待识别数据;
数据识别模块520,用于将所述多个目标数据组输入异常识别模型,由所述异常识别模型输出异常识别结果;其中,所述异常识别模型上述的模型训练方法训练得到,所述异常识别结果包括所述多个目标数据组中数据类别为异常类别的待识别数据;
异常确定模块530,用于获取所述异常识别结果中的待识别数据对应的车辆部件,将所述车辆部件确定为所述目标车辆的异常部件。
需要说明的是,上述实施例提供的异常数据识别装置在执行异常数据识别方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的异常数据识别装置与异常数据识别方法实施例属于同一构思,因此对于本申请装置实施例中未披露的细节,请参照本申请上述的异常数据识别方法的实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
图6示出了本申请实施例提供的一种电子设备的结构示意图。
示例性的,如图6所示,该电子设备600包括:存储器601和处理器602,其中,存储器601中存储有可执行程序代码6011,处理器602用于调用并执行该可执行程序代码6011执行一种模型训练方法或者车辆异常识别方法。
本实施例可以根据上述方法示例对电子设备进行功能模块的划分,例如,可以对应各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中,上述集成的模块可以采用硬件的形式实现。需要说明的是,本实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
在采用对应各个功能划分各个功能模块的情况下,该电子设备可以包括:样本获取模块、第一识别模块、数据选取模块、第二识别模块、模型训练模块、数据获取模块、数据识别模块、异常确定模块等。需要说明的是,上述方法实施例涉及的各个步骤的所有相关内容的可以援引到对应功能模块的功能描述,在此不再赘述。
本实施例提供的电子设备,用于执行上述一种模型训练方法或者车辆异常识别方法,因此可以达到与上述实现方法相同的效果。
在采用集成的单元的情况下,电子设备可以包括处理模块、存储模块。其中,处理模块可以用于对电子设备的动作进行控制管理。存储模块可以用于支持电子设备执行相互程序代码和数据等。
其中,处理模块可以是处理器或控制器,其可以实现或执行结合本申请公开内容所藐视的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包括一个或多个微处理器组合,数字信号处理(digital signal processing,DSP)和微处理器的组合等等,存储模块可以是存储器。
本实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序代码,当该计算机程序代码在计算机上运行时,使得计算机执行上述相关方法步骤实现上述实施例中的一种模型训练方法或者车辆异常识别方法。
本实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的一种模型训练方法或者车辆异常识别方法。
另外,本申请的实施例提供的电子设备具体可以是芯片,组件或模块,该电子设备可包括相连的处理器和存储器;其中,存储器用于存储指令,当电子设备运行时,处理器可调用并执行指令,以使芯片执行上述实施例中的一种模型训练方法或者车辆异常识别方法。
其中,本实施例提供的电子设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的模型训练方法或者车辆异常识别方法,因此,其所能达到的有益效果可参考上文所提供的对应的模型训练方法或者车辆异常识别方法中的有益效果,此处不再赘述。
通过以上实施方式的描述,所属领域的技术人员可以了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为。
Claims (10)
1.一种模型训练方法,其特征在于,用于异常识别模型的训练,所述异常识别模型包括预先训练的随机森林模型和时间序列模型,所述随机森林模型的输出层与所述时间序列模型的输入层连接;
所述模型训练方法包括:
获取多辆车各自对应的样本数据集;其中,每辆车对应的样本数据集包括多个样本数据组,每个样本数据组包括多个数据维度的样本数据,每个样本数据具有标注信息,所述标注信息用于表示样本数据的数据类别为正常类别或异常类别,每辆车对应的样本数据集中属于同一数据维度的样本数据是在不同时刻收集到的;
对于每辆车对应的样本数据集中的每个样本数据组,将所述样本数据组输入所述随机森林模型,由所述随机森林模型基于输入数据的多数据维度特性对所述样本数据组中的异常数据进行识别,输出第一识别结果;其中,所述第一识别结果包括第一识别数据和所述第一识别数据的第一数据类别,所述第一数据类别为异常类别;
从所述样本数据组对应的样本数据集中获取与所述第一识别数据属于同一数据维度的样本数据,得到目标样本数据;
将所述目标样本数据和所述第一识别数据输入所述时间序列模型,由所述时间序列模型基于同一数据维度的输入数据的时间序列特性对所述目标样本数据中的异常数据进行识别,输出第二识别结果;其中,所述第二识别结果包括第二识别数据和所述第二识别数据的第二数据类别,所述第二数据类别为异常类别;
根据所述第一数据类别、所述第二数据类别、所述第一识别数据的标注信息以及所述第二识别数据的标注信息,训练所述异常识别模型。
2.根据权利要求1所述的模型训练方法,其特征在于,所述获取多辆车各自对应的样本数据集包括:
对于多辆车中的每辆车,获取每辆车在不同时刻下所产生的样本运行数据,得到每辆车对应的多个时刻下的样本运行数据;
为每辆车对应的多个时刻下的样本运行数据均设置标注信息;
判断每辆车对应的多个时刻下的样本运行数据中,第一数据的第一数量与第二数据的第二数量的差值是否小于预设阈值;其中,所述第一数据包括每辆车对应的多个时刻下的样本运行数据中数据类别为正常类别的样本运行数据,所述第二数据包括每辆车对应的多个时刻下的样本运行数据中数据类别为异常类别的样本运行数据;
若是,则对于每辆车对应的每个时刻下的样本运行数据,按照预设的多个数据维度对每个时刻下的样本运行数据进行归类,以得到每个时刻对应的样本数据组;
根据每个时刻对应的样本数据组,生成每辆车对应的样本数据集,以得到多辆车各自对应的样本数据集;
若否,则对每辆车对应的多个时刻下的样本运行数据进行预处理,以调整每辆车对应的多个时刻下的样本运行数据中第一数据的第一数量与第二数据的第二数量的差值小于预设阈值;其中,所述预处理包括采样处理或欠采样处理;
按照预设的多个数据维度对每辆车对应的每个时刻下的且经预处理后的样本运行数据进行归类,以得到每个时刻对应的样本数据组;
根据每个时刻对应的样本数据组,生成每辆车对应的样本数据集,以得到多辆车各自对应的样本数据集。
3.根据权利要求1所述的模型训练方法,其特征在于,所述根据所述第一数据类别、所述第二数据类别、所述第一识别数据的标注信息以及所述第二识别数据的标注信息,训练所述异常识别模型包括:
判断所述第一识别数据与所述第二识别数据是否相同;
若是,则将所述第一识别结果与所述第二识别结果进行融合,得到融合识别结果;其中,所述融合识别结果包括第三识别数据和所述第三识别数据的第三数据类别,所述第三数据类别为异常类别,所述第三识别数据与所述第一识别数据相同;
根据所述第三数据类别与所述第一识别数据的标注信息之间的差异信息,训练所述异常识别模型。
4.根据权利要求3所述的模型训练方法,其特征在于,所述将所述第一识别结果与所述第二识别结果进行融合,得到融合识别结果包括:
确定所述第一识别结果和所述第二识别结果的平均值,得到所述融合识别结果;或者,
对所述第一识别结果和所述第二识别结果的进行加权平均处理,得到所述融合识别结果。
5.根据权利要求1所述的模型训练方法,其特征在于,所述根据所述第一数据类别、所述第二数据类别、所述第一识别数据的标注信息以及所述第二识别数据的标注信息,训练所述异常识别模型包括:
判断所述第一识别数据与所述第二识别数据是否相同;
若否,根据所述第一数据类别与所述第一识别数据的标注信息之间的差异信息和所述第二数据类别与所述第二识别数据的标注信息之间的差异信息,训练所述异常识别模型。
6.根据权利要求1所述的模型训练方法,其特征在于,所述模型训练方法还包括:
对于多辆车中的任意一辆车,获取所述任意一辆车在不同时刻下所产生的且属于同一数据维度的数据,得到时间序列样本数据;
验证所述时间序列样本数据的平稳性;
若所述时间序列样本数据的平稳性验证未通过,则对所述时间序列样本数据进行差分处理,以得到季节性自回归综合移动平均模型的差分次数和所述时间序列样本数据对应的平稳时间序列样本数据;
基于所述平稳时间序列样本数据绘制自相关图和偏自相关图;
根据所述自相关图和所述偏自相关图,确定所述季节性自回归综合移动平均模型的自回归阶数和移动平均阶数;
根据所述差分次数、所述自回归阶数和所述移动平均阶数构建所述季节性自回归综合移动平均模型,得到所述时间序列模型。
7.一种车辆异常识别方法,其特征在于,所述车辆异常识别方法包括:
获取目标车辆在多个设定时间下所产生的目标数据组,得到多个目标数据组;其中,每个目标数据组包括多个数据维度的待识别数据;
将所述多个目标数据组输入异常识别模型,由所述异常识别模型输出异常识别结果;其中,所述异常识别模型根据权利要求1至6任意一项所述的模型训练方法训练得到,所述异常识别结果包括所述多个目标数据组中数据类别为异常类别的待识别数据;
获取所述异常识别结果中的待识别数据对应的车辆部件;
将所述车辆部件确定为所述目标车辆的异常部件。
8.一种模型训练装置,其特征在于,用于异常识别模型的训练,所述异常识别模型包括预先训练的随机森林模型和时间序列模型,所述随机森林模型的输出层与所述时间序列模型的输入层连接;
所述模型训练装置包括:
样本获取模块,用于获取多辆车各自对应的样本数据集;其中,每辆车对应的样本数据集包括多个样本数据组,每个样本数据组包括多个数据维度的样本数据,每个样本数据具有标注信息,所述标注信息用于表示样本数据的数据类别为正常类别或异常类别,每辆车对应的样本数据集中属于同一数据维度的样本数据是在不同时刻收集到的;
第一识别模块,用于对于每辆车对应的样本数据集中的每个样本数据组,将所述样本数据组输入所述随机森林模型,由所述随机森林模型基于输入数据的多数据维度特性对所述样本数据组中的异常数据进行识别,输出第一识别结果;其中,所述第一识别结果包括第一识别数据和所述第一识别数据的第一数据类别,所述第一数据类别为异常类别;
数据选取模块,用于从所述样本数据组对应的样本数据集中获取与所述第一识别数据属于同一数据维度的样本数据,得到目标样本数据;
第二识别模块,用于将所述目标样本数据和所述第一识别数据输入所述时间序列模型,由所述时间序列模型基于同一数据维度的输入数据的时间序列特性对所述目标样本数据中的异常数据进行识别,输出第二识别结果;其中,所述第二识别结果包括第二识别数据和所述第二识别数据的第二数据类别,所述第二数据类别为异常类别;
模型训练模块,用于根据所述第一数据类别、所述第二数据类别、所述第一识别数据的标注信息以及所述第二识别数据的标注信息,训练所述异常识别模型。
9.一种异常数据识别装置,其特征在于,所述异常数据识别装置包括:
数据获取模块,用于获取目标车辆在多个设定时间下所产生的目标数据组,得到多个目标数据组;其中,每个目标数据组包括多个数据维度的待识别数据;
数据识别模块,用于将所述多个目标数据组输入异常识别模型,由所述异常识别模型输出异常识别结果;其中,所述异常识别模型根据权利要求1至6任意一项所述的模型训练方法训练得到,所述异常识别结果包括所述多个目标数据组中数据类别为异常类别的待识别数据;
异常确定模块,用于获取所述异常识别结果中的待识别数据对应的车辆部件,将所述车辆部件确定为所述目标车辆的异常部件。
10.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行程序代码;
处理器,用于从所述存储器中调用并运行所述可执行程序代码,使得所述电子设备执行如权利要求1至6中任意一项所述的模型训练方法或执行如权利要求7所述的车辆异常识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311800179.4A CN118013402A (zh) | 2023-12-25 | 2023-12-25 | 模型训练方法、异常数据识别方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311800179.4A CN118013402A (zh) | 2023-12-25 | 2023-12-25 | 模型训练方法、异常数据识别方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118013402A true CN118013402A (zh) | 2024-05-10 |
Family
ID=90949489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311800179.4A Pending CN118013402A (zh) | 2023-12-25 | 2023-12-25 | 模型训练方法、异常数据识别方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118013402A (zh) |
-
2023
- 2023-12-25 CN CN202311800179.4A patent/CN118013402A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9600541B2 (en) | Method of processing and analysing vehicle driving big data and system thereof | |
US8732112B2 (en) | Method and system for root cause analysis and quality monitoring of system-level faults | |
CN111414477A (zh) | 车辆故障自动诊断方法、装置以及设备 | |
CN106314438A (zh) | 一种司机驾驶轨迹中异常轨迹的检测方法和系统 | |
US20220114560A1 (en) | Predictive maintenance | |
CN113010389B (zh) | 一种训练方法、故障预测方法、相关装置及设备 | |
CN112326280B (zh) | 列车转向架的故障检测方法、装置和计算机可读介质 | |
CN110705774A (zh) | 一种车辆能耗分析的预测方法和系统 | |
CN112434829A (zh) | 一种车辆维保项目确定方法、系统、装置及存储介质 | |
CN110533094B (zh) | 一种用于驾驶员的评价方法和系统 | |
CN115221218A (zh) | 车辆数据的质量评估方法、装置、计算机设备和存储介质 | |
Canal et al. | Driving profile analysis using machine learning techniques and ecu data | |
CN118013402A (zh) | 模型训练方法、异常数据识别方法、装置、设备和介质 | |
CN116541786A (zh) | 基于驾驶行为的网约车识别方法、装置及系统 | |
CN115599077A (zh) | 车辆故障定界方法、装置、电子设备及存储介质 | |
CN112990329B (zh) | 一种系统异常诊断方法和装置 | |
US20230237584A1 (en) | Systems and methods for evaluating vehicle insurance claims | |
Ming et al. | Classifying drivers using electronic logging devices | |
CN112859805A (zh) | 一种发动机控制器在线诊断方法及相关装置 | |
Reddy et al. | Accident analysis and severity prediction of road accidents in United States using machine learning algorithms | |
Siaminamini et al. | Generating a risk profile for car insurance policyholders: A deep learning conceptual model | |
CN115512536B (zh) | 一种基于人车画像的智能车辆管理系统 | |
von Glehn et al. | Telematics and machine learning system for estimating the load condition of a heavy-duty vehicle | |
WO2022180681A1 (ja) | データ生成システム、データ生成方法およびデータ生成プログラム | |
CN116691715B (zh) | 基于车联网大数据的车辆启动困难识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |