CN113176986A - 车联网数据质量确定方法、装置、计算机设备和存储介质 - Google Patents
车联网数据质量确定方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113176986A CN113176986A CN202110470047.4A CN202110470047A CN113176986A CN 113176986 A CN113176986 A CN 113176986A CN 202110470047 A CN202110470047 A CN 202110470047A CN 113176986 A CN113176986 A CN 113176986A
- Authority
- CN
- China
- Prior art keywords
- data
- type
- determining
- quality evaluation
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 238000013441 quality evaluation Methods 0.000 claims abstract description 204
- 230000002159 abnormal effect Effects 0.000 claims abstract description 171
- 238000012216 screening Methods 0.000 claims abstract description 64
- 230000006870 function Effects 0.000 claims description 85
- 238000009826 distribution Methods 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 25
- 238000007418 data mining Methods 0.000 claims description 24
- 238000012217 deletion Methods 0.000 claims description 7
- 230000037430 deletion Effects 0.000 claims description 7
- 230000036962 time dependent Effects 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 6
- 230000002547 anomalous effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 abstract description 13
- 230000003044 adaptive effect Effects 0.000 abstract description 7
- 230000000875 corresponding effect Effects 0.000 description 23
- 230000006855 networking Effects 0.000 description 18
- 238000012545 processing Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000001303 quality assessment method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000000498 cooling water Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000010705 motor oil Substances 0.000 description 1
- 239000003921 oil Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Computer Hardware Design (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种车联网数据质量确定方法、装置、计算机设备和存储介质。所述方法包括:确定数据筛选条件和多个质量评价指标的权重,所述多个质量评价指标包括准确性、完整性和时效性;获取满足所述数据筛选条件的车联网数据,所述车联网数据包括在不同时刻采集的至少一种类型数据;基于每一种类型数据确定每个所述质量评价指标未达标的异常数据;基于每一种类型数据、每个所述质量评价指标未达标的异常数据和所述多个质量评价指标的权重,确定每一种类型数据的质量等级。采用本方法能够提供适应实际需求的精准评价结果。
Description
技术领域
本申请涉及车联网技术领域,特别是涉及一种车联网数据质量确定方法、装置、计算机设备和存储介质。
背景技术
随着车联网技术的发展,出现了大量车辆行驶相关的动态数据以及车辆配置相关的静态数据。海量的数据中隐藏着应用价值,可以采用数据挖掘技术从大量的数据中通过算法搜索隐藏于其中的价值信息。但是数据挖掘之前,需要先评价数据质量,保证挖掘数据的准确性。
传统技术中,先分别对各种评价指标进行量化,再根据各种评价指标量化后的数值得到数量质量的整体评价。
然而,目前的传统方法采用固定模式,灵活度差,无法针对实际需求提供精准的评价结果。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提供适应实际需求的精准评价结果的车联网数据质量确定方法、装置、计算机设备和存储介质。
一种车联网数据质量确定方法,所述方法包括:
确定数据筛选条件和多个质量评价指标的权重,所述多个质量评价指标包括准确性、完整性和时效性;
获取满足所述数据筛选条件的车联网数据,所述车联网数据包括在不同时刻采集的至少一种类型数据;
基于每一种类型数据确定每个所述质量评价指标未达标的异常数据;
基于每一种类型数据、每个所述质量评价指标未达标的异常数据和所述多个质量评价指标的权重,确定每一种类型数据的质量等级。
在其中一个实施例中,基于每一种类型数据确定准确性未达标的异常数据,包括:
确定每一种类型数据是否满足正态分布;
若目标类型数据满足正态分布,则分别采用拉依达准则和高斯核函数在所述目标类型数据中识别异常数据,并将采用拉依达准则识别的异常数据和采用高斯核函数识别的异常数据的并集,作为所述目标类型数据中准确性未达标的异常数据;
若目标类型数据不满足正态分布,则采用高斯核函数在所述目标类型数据中识别异常数据,并将采用高斯核函数识别的异常数据,作为所述目标类型数据中准确性未达标的异常数据;
其中,所述目标类型数据为所述车联网数据中的任意一种类型数据。
在其中一个实施例中,采用拉依达准则在所述目标类型数据中识别异常数据,包括:
确定所述目标类型数据的平均值和标准偏差;
确定所述目标类型数据中各个时刻采集数据和所述平均值的差值的绝对值;
若目标时刻采集数据和所述平均值的差值大于所述标准偏差的三倍,则确定所述目标时刻采集数据为异常数据;
若目标时刻采集数据和所述平均值的差值小于等于所述标准偏差的三倍,则确定所述目标时刻采集数据为正常数据;
其中,所述目标时刻采集数据为在任意时刻采集的目标类型数据。
在其中一个实施例中,采用高斯核函数在所述目标类型数据中识别异常数据,包括:
将所述目标类型数据中各个时刻采集数据作为高斯核函数的核函数中心,得到所述各个时刻采集数据对应的概率密度函数;
将所述各个时刻采集数据对应的概率密度函数相加,得到所述目标类型数据的概率密度函数;
若基于所述目标类型数据的概率密度函数得到目标时刻采集数据的出现概率小于概率阈值,则确定所述目标时刻采集数据为异常数据;
若基于所述目标类型数据的概率密度函数得到目标时刻采集数据的出现概率大于等于概率阈值,则确定所述目标时刻采集数据为正常数据;
其中,所述目标时刻采集数据为在任意时刻采集的目标类型数据。
在其中一个实施例中,基于每一种类型数据确定完整性未达标的异常数据,包括:
确定每一种类型数据中缺失数据的采集时刻;
基于每一种类型数据中缺失数据的采集时刻,统计多种数据缺失情况的缺失数据数量,作为完整性未达标的异常数据,所述多种数据缺失情况包括单独缺失、连续缺失少量数据、连续缺失大量数据。
在其中一个实施例中,所述基于每一种类型数据、每个所述质量评价指标未达标的异常数据和所述多个质量评价指标的权重,确定每一种类型数据的质量等级,包括:
采用如下公式确定目标类型数据的质量评价结果:
q=w1*q1+w2*q2+w3*q3;
其中,q为目标类型数据的质量评价结果,w1为准确性的权重,q1为准确性未达标的异常数据在目标类型数据中所占的比例,w2为完整性的权重,q2为完整性未达标的异常数据在目标类型数据中所占的比例,w3为时效性的权重,q3为时效性未达标的异常数据在目标类型数据中所占的比例;
q2=W1*Q1+W2*Q2+W3*Q3,W1为单独缺失的权重,Q1为单独缺失的缺失数据数量在目标类型数据中所占的比例,W2为连续缺失少量数据的权重,Q2为连续缺失少量数据的缺失数据数量在目标类型数据中所占的比例,W3为连续缺失大量数据的权重,Q3为连续缺失大量数据的缺失数据数量在目标类型数据中所占的比例;
若所述目标类型数据的质量评价结果大于质量阈值,则确定所述目标类型数据的质量等级达标;
若所述目标类型数据的质量评价结果小于等于质量阈值,则确定所述目标类型数据的质量等级未达标;
其中,所述目标类型数据为所述车联网数据中的任意一种类型数据。
在其中一个实施例中,所述方法还包括:
若目标类型数据的质量等级达标,则对所述目标类型数据进行数据挖掘,所述目标类型数据为所述车联网数据中的任意一种类型数据。
一种车联网数据质量确定装置,所述装置包括:
交互模块,用于确定数据筛选条件和多个质量评价指标的权重,所述多个质量评价指标包括准确性、完整性和时效性;
调度模块,用于获取满足所述数据筛选条件的车联网数据,所述车联网数据包括在不同时刻采集的至少一种类型数据;
识别模块,用于基于每一种类型数据确定每个所述质量评价指标未达标的异常数据;
确定模块,用于基于每一种类型数据、每个所述质量评价指标未达标的异常数据和所述多个质量评价指标的权重,确定每一种类型数据的质量等级。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
确定数据筛选条件和多个质量评价指标的权重,所述多个质量评价指标包括准确性、完整性和时效性;
获取满足所述数据筛选条件的车联网数据,所述车联网数据包括在不同时刻采集的至少一种类型数据;
基于每一种类型数据确定每个所述质量评价指标未达标的异常数据;
基于每一种类型数据、每个所述质量评价指标未达标的异常数据和所述多个质量评价指标的权重,确定每一种类型数据的质量等级。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
确定数据筛选条件和多个质量评价指标的权重,所述多个质量评价指标包括准确性、完整性和时效性;
获取满足所述数据筛选条件的车联网数据,所述车联网数据包括在不同时刻采集的至少一种类型数据;
基于每一种类型数据确定每个所述质量评价指标未达标的异常数据;
基于每一种类型数据、每个所述质量评价指标未达标的异常数据和所述多个质量评价指标的权重,确定每一种类型数据的质量等级。
上述车联网数据质量确定方法、装置、计算机设备和存储介质,通过确定数据筛选条件,并获取满足数据筛选条件的车联网数据,可以利用数据筛选条件对车联网数据进行筛选,只有满足数据筛选条件的车联网数据才进行后续处理。这样,可以针对数据挖掘所关注的部分数据进行质量评估,从而提高质量评估结果的精准度,同时减少数据处理量,提高质量评估的速度。获取的车联网数据包括在不同时刻采集的至少一种类型数据,通过基于每一种类型数据确定每个质量评价指标未达标的异常数据,可以针对不同类型数据和不同质量评价指标分别进行处理,有利于提高质量评估结果的精准度。而且通过确定包括准确性、完整性和时效性的多个质量评价指标的权重,并基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级,可以利用权重的分配调整各种质量评价指标未达标的异常数据对数据质量等级的影响大小。这样,可以针对实际需求选取质量评价指标并设定其重要程度,得到适应实际需求的精准评价结果。
附图说明
图1为一个实施例中车联网数据质量确定方法的流程示意图;
图2为另一个实施例中车联网数据质量确定方法的流程示意图;
图3为一个实施例中车联网数据质量确定装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,提供了一种车联网数据质量确定方法。本实施例以该方法应用于终端为例进行说明。可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端通过网络与服务器进行通信。
其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本实施例中,如图1所示,该方法包括以下步骤:
步骤S102,确定数据筛选条件和多个质量评价指标的权重。
其中,质量评价指标为评价互联网数据的质量等级的标准类型。在本实施例中,多个质量评价指标包括准确性、完整性和时效性。准确性是车联网数据接近真实值的程度,包括数据范围是否符合业务规范和客观事实、是否能够有效反映实际情况等。完整性是车联网数据的缺失程度,包括一个时刻的数据缺失和一段时间的数据缺失等。时效性是车联网数据的实际采样频率满足数据挖掘所需频率的程度。
权重是质量评价指标相对于车联网数据质量的重要程度。权重越大,表示质量评价指标对车联网数据质量的影响越大。如果权重为0,则表示质量评价指标对车联网数据质量没有影响,评价车联网数据质量时不考虑这个质量评价指标。在本实施例中,多个质量评价指标的权重之和为1。
数据筛选条件为车联网数据的选取要求。车联网数据为车联网上传输的数据,可以包括车载上的车载设备通过无线通信技术在信息网络平台中传输的所有车辆信息。
示例性地,数据筛选条件包括VIN(Vehicle Identification Number,车辆识别号码)和车联网数据的采集时间。
其中,VIN是一组由十七个字母或数字组成、用于汽车上的一组独一无二的号码,可以识别汽车的生产上、引擎、底盘序号及其他性能等。例如,第一位为生产国别代码,第二位为生产厂家代码,第九位为VIN检验数代码,第十位为车型年款代码,第十一位为总装工厂代码,第十二位为出厂顺序代码。通过限定VIN中不同位置的代码,可以筛选出特定车辆上的车联网数据。
举例来说,数据筛选条件包括VIN的前三位为LFV、以及车联网数据的采集时间是从A时刻到B时刻,则只会选取VIN的前三位是LFV、并且采集时间是在A时刻到B时刻之间的车联网数据,VIN的前三位不是LFV的车联网数据、采集时间在A时刻之前的车辆信息和采集时间在B时刻之后的车联网数据都不要。
本实施例中,通过确定数据筛选条件,可以基于数据筛选条件选取数据挖掘的关注数据进行质量评估。而确定多个质量评价指标的权重,可以通过分配各个质量评价指标的权重,满足数据挖掘对数据质量的不同要求。综上,确定数据筛选条件和多个质量评价指标的权重,可以根据数据挖掘的实际需求进行适应性调整,得到精准的质量评估结果。
步骤S104,获取满足数据筛选条件的车联网数据,车联网数据包括在不同时刻采集的至少一种类型数据。
其中,车联网数据包括VIN、发动机转速、车辆行驶速度、车辆行驶里程、车辆百公里油耗、发动机机油压力、发动机冷却水温、GPS(Global Positioning System,全球定位系统)时间、GPS纬度、GPS经度、GPS高程、GPS方向、GPS速度和故障信息中的至少一种。
本实施例中,通过获取满足数据筛选条件的车联网数据,可以从海量的车联网数据中筛选出数据挖掘的关注数据进行质量评估,既能提高数据质量评估的准确度,也能减少数据处理量,加快数据质量评估的速度。而车联网数据包括在不同时刻采集的至少一种类型数据,可以针对每一种类型数据分别进行质量评估,针对性强,准确度高。
步骤S106,基于每一种类型数据确定每个质量评价指标未达标的异常数据。
其中,质量评价指标未达标的异常数据是指,任意一种类型数据中不符合质量评价指标的数据。例如,在同一种类型数据中,正常范围外的数据为准确性未达标的异常数据,缺失的数据为完整性未达标的数据,采用频率小于要求频率的数据为时效性未达标的数据。
基于每一种类型数据确定每个质量评价指标未达标的异常数据是指,针对每一种类型数据,都分别确定每个质量评价指标未达标的异常数据。
例如,车联网数据包括发动机转速和车辆行驶速度,质量评价指标包括准确性、完整性和时效性,则基于在不同时刻采集的发动机转速确定准确性未达标的异常数据、基于在不同时刻采集的发动机转速确定完整性未达标的异常数据、基于在不同时刻采集的发动机转速确定时效性未达标的异常数据、基于在不同时刻采集的车辆行驶速度确定准确性未达标的异常数据、基于在不同时刻采集的车辆行驶速度确定完整性未达标的异常数据、以及基于在不同时刻采集的车辆行驶速度确定时效性未达标的异常数据。
本实施例中,通过基于每一种类型数据确定每个质量评价指标未达标的异常数据,可以针对每一种类型数据的特点,分别进行质量评估,提高质量评估结果的准确度。而且对于每一种类型数据,可以综合每个质量评价指标的评估结果,并不是简单的异常数据筛查,而是从多个方面评估数据质量,提高质量评估结果的准确度。
示例性地,终端可以为每一种类型数据单独开启一个线程,不同类型数据同时进行处理,提高数据质量评估的速度。
步骤S108,基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级。
其中,一种类型数据的质量等级为这种类型数据适合数据挖掘的程度表示。具体地,若一种类型数据的质量等级为达标,则表示这种类型数据适合数据挖掘;若一种类型数据的质量等级为未达标,则表示这种类型数据不适合数据挖掘。
基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级是指,针对每一种类型数据,都分别确定基于这种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重确定质量等级。
例如,车联网数据包括发动机转速和车辆行驶速度,质量评价指标包括准确性、完整性和时效性,则基于在不同时刻采集的发动机转速、发动机转速中准确性未达标的异常数据、发动机转速中完整性未达标的异常数据、发动机转速中时效性未达标的异常数据、准确性的权重、完整性的权重和时效性的权重,确定发动机转速的质量等级;基于在不同时刻采集的车辆行驶速度、车辆行驶速度中准确性未达标的异常数据、车辆行驶速度中完整性未达标的异常数据、车辆行驶速度中时效性未达标的异常数据准确性的权重、完整性的权重和时效性的权重,确定车辆行驶速度的质量等级。
本实施例中,通过基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级,可以针对每一种类型数据的特点,分别进行质量评估,提高质量评估结果的准确度。而且对于每一种类型数据,可以综合每个质量评价指标的评估结果,从多个方面评估数据质量,提高质量评估结果的准确度。
上述车联网数据质量确定方法中,通过确定数据筛选条件,并获取满足数据筛选条件的车联网数据,可以利用数据筛选条件对车联网数据进行筛选,只有满足数据筛选条件的车联网数据才进行后续处理。这样,可以针对数据挖掘所关注的部分数据进行质量评估,从而提高质量评估结果的精准度,同时减少数据处理量,提高质量评估的速度。获取的车联网数据包括在不同时刻采集的至少一种类型数据,通过基于每一种类型数据确定每个质量评价指标未达标的异常数据,可以针对不同类型数据和不同质量评价指标分别进行处理,有利于提高质量评估结果的精准度。而且通过确定包括准确性、完整性和时效性的多个质量评价指标的权重,并基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级,可以利用权重的分配调整各种质量评价指标未达标的异常数据对数据质量等级的影响大小。这样,可以针对实际需求选取质量评价指标并设定其重要程度,得到适应实际需求的精准评价结果。
在一个实施例中,如图2所示,该方法包括以下步骤:
步骤S202,确定数据筛选条件和多个质量评价指标的权重,多个质量评价指标包括准确性、完整性和时效性。
具体地,该步骤S202包括:接收用户输入的数据筛选条件和多个质量评价指标的权重。
可选地,终端配有输入设备和输出设备。输出设备向用户显示数据筛选条件的类型及其对应的输入框,用户通过输入设备在输入框中填写数据筛选条件,终端即可接收到的内容与对应的数据筛选条件的类型结合,得到数据筛选条件。例如,用户在VIN的前三位对应的输入框填写“LFV”,则终端将“LFV”与VIN的前三位结合,得到数据筛选条件包括VIN的前三位为LFV。又如,用户在数据开始时间对应的输入框填写“A”,数据结束时间对应的输入框填写“B”,则终端将“A”、“B”与车联网数据的采集时间结合,得到数据筛选条件包括采集时间从A时刻到B时刻。
输出设备还向用户显示多种质量评价指标及其权重的输入框,用户通过输入设备在输入框中填写权重,终端即将对应的质量评价指标纳入车联网数据的质量评价中。在用户确认已填写的质量评价指标之后,终端会确定已填写的权重之和是否为1。若已填写的权重之和为1,则终端按照已填写的权重进行后续处理。若已填写的权重之和小于1,则输出设备向用户显示是否选择加上未填写权重的质量评价指标的确认窗口;若用户通过输入设备选择加上未填写权重的质量评价指标,则终端根据已填写的权重确定未填写的权重;若用户通过输入设备选择不加未填写权重的质量评价指标,则输出设备向用户显示权重设置错误的提示窗口。若已填写的权重之和大于1,则输出设备向用户显示权重设置错误的提示窗口。例如,用户通过输入设备在准确性的权重输入框中输入50%,在完整性的权重输入框中输入40%,并提交给终端。终端将准确性和完整性纳入车联网数据的质量评价中,并确定已填写的权重之和小于1,通过输出设备向用户显示是否选择加上时效性的确认窗口。如果用户通过输入设备选择加上时效性,则终端自动将时效性的权重设置为1-50%-40%=10%;如果用户通过输入设备选择不加上时效性,则终端通过输出设备显示权重设置错误的提示窗口。
输出设备也可以先向用户显示多种质量评价指标的选择框,用户通过输入设备选择一种质量评价指标之后,输出设备再向用户显示这种质量评价指标的权重输入框。在用户确认已填写的质量评价指标之后,终端会确定已填写的权重之和是否为1。若已填写的权重之和为1,则终端按照已填写的权重进行后续处理。若已填写的权重之和小于1且选择的一种质量评价指标的权重输入框为空,则终端根据已填写的权重确定未填写的权重。若已填写的权重之和小于1且选择的所有质量评价指标的权重输入框均已填写,或者已填写的权重之和小于1且选择的至少两种质量评价指标的权重输入框为空,或者已填写的权重之和大于1,则输出设备向用户显示权重设置错误的提示窗口。例如,用户通过输入设备选择准确性、完整性和时效性之后,输出设备分别显示准确性、完整性和时效性的权重输入框。
示例性地,可以默认选择所有的质量评价指标,并默认设有权重值,方便用户使用。例如,准确性的权重默认为50%,完整性的权重默认为40%,时效性的权重默认为10%。如果用户通过输入设备在准确性的权重输入框中输入50%,在完整性的权重输入框中输入40%,并提交给终端,则终端自动将时效性的权重设置为1-50%-40%=10%。
在本实施例中,通过输入设备和输出设备配合,与用户进行交互,方便用户输入数据筛选条件和多个质量评价指标的权重。
示例性地,准确度的权重范围为40%~50%,完整性的权重范围为30%~40%,时效性的权重范围为10%~30%。终端可以通过输出设备显示给用户,可以为用户提供参考,方便用户进行权重的设定。
示例性地,可以采用vue、echarts、Bootstrap、Element中的一种架构实现交互。
在实际应用中,用户可以通过登录web客户端输入数据筛选条件和多个质量评价指标的权重,方便数据筛选条件和多个质量评价指标的权重的设定。
步骤S204,获取满足数据筛选条件的车联网数据,车联网数据包括在不同时刻采集的至少一种类型数据。
在一种实现方式中,该步骤S204:向车联网数据的存储设备发送包括数据筛选条件的数据获取请求;接收车联网数据的存储设备发送的车联网数据,并保存在结构化数据库中。
在另一种实现方式中,该步骤S204:接收车联网数据的存储设备发送的车联网数据;若接收的车联网数据满足数据筛选条件,则将接收的车联网数据保存在结构化数据库中;若接收的车联网数据不满足数据筛选条件,则接收的车联网数据删除。
本实施例中,通过结构化数据库保存满足数据筛选条件的车联网数据,可以对车联网数据按照类型进行存放,方便后续同时调用在不同时刻采集的同一种类型数据。
示例性地,结构化数据库为MySQL、MongoDB、HDFS(Hadoop Distributed FileSystem,分布式文件系统)中的一种。
示例性地,车联网数据的存储设备为hive(数据仓库工具)。
步骤S206,若准确性的权重大于0,则基于每一种类型数据确定准确性未达标的异常数据。
其中,准确性未达标的异常数据主要是偏离主要分布范围太远的数据。
可选地,该步骤S206包括:确定每一种类型数据是否满足正态分布;若目标类型数据满足正态分布,则分别采用拉依达准则和高斯核函数在目标类型数据中识别异常数据,并将采用拉依达准则识别的异常数据和采用高斯核函数识别的异常数据的并集,作为目标类型数据中准确性未达标的异常数据;若目标类型数据不满足正态分布,则采用高斯核函数在目标类型数据中识别异常数据,并将采用高斯核函数识别的异常数据,作为目标类型数据中准确性未达标的异常数据。
其中,目标类型数据为车联网数据中的任意一种类型数据。
本实施例中,先确定同一种类型数据是否满足正态分布,可以了解这种类型数据是否适合采用拉依达准则识别异常数据。如果这种类型数据满足正态分布,则说明这种类型数据可以采用拉依达准则识别异常数据,此时分别采用拉依达准则和高斯核函数识别异常数据,并取两者的并集作为这种类型数据中准确性未达标的异常数据,可以利用两种异常数据识别方式有效识别出准确性未达标的异常数据,提高异常数据确定的准确度,最终提高质量评估的准确度。如果这种类型数据不满足正态分布,则说明这种类型数据不适合采用拉依达准则识别异常数据,此时只采用高斯核函数识别异常数据,并作为这种类型数据中准确性未达标的异常数据,也可以保证异常数据识别的准确度。
具体地,确定每一种类型数据是否满足正态分布,可以包括:对每一种类型数据分别采用K-S(Kolmogorov-Smirnov)检验技术确定是否满足正态分布。
具体地,采用拉依达准则在目标类型数据中识别异常数据,包括:确定目标类型数据的平均值和标准偏差;确定目标类型数据中各个时刻采集数据和平均值的差值的绝对值;若目标时刻采集数据和平均值的差值大于标准偏差的三倍,则确定目标时刻采集数据为异常数据;若目标时刻采集数据和平均值的差值小于等于标准偏差的三倍,则确定目标时刻采集数据为正常数据。
其中,目标时刻采集数据为在任意时刻采集的目标类型数据。
本实施例中,先基于目标类型数据,可以计算得到目标类型数据的平均值和标准偏差,进而计算得到目标类型数据的平均值和标准偏差。由于目标类型函数满足正态分布,因此将与平均值的差值是否大于标准偏差的三倍的数据作为异常数据的判断标准,符合实际情况,可以准确识别出异常数据。
例如,在不同时刻采集的同一种类型数据依次为x1、x2、x3、……、xn,则这种类型数据的平均值为这种类型数据的标准偏差为各个时刻采集数据和平均值的差值的绝对值为若则xi为异常数据;若则xi为正常数据。
具体地,采用高斯核函数在目标类型数据中识别异常数据,包括:将目标类型数据中各个时刻采集数据作为高斯核函数的核函数中心,得到各个时刻采集数据对应的概率密度函数;将各个时刻采集数据对应的概率密度函数相加,得到目标类型数据的概率密度函数;若基于目标类型数据的概率密度函数得到目标时刻采集数据的出现概率小于概率阈值,则确定目标时刻采集数据为异常数据;若基于目标类型数据的概率密度函数得到目标时刻采集数据的出现概率大于等于概率阈值,则确定目标时刻采集数据为正常数据。
其中,目标时刻采集数据为在任意时刻采集的目标类型数据。
本实施例中,利用已出现数据及其周围数据的出现概率较大,将同一种类型数据中各个时刻采集数据分别作为高斯核函数的核函数中心,得到各个时刻采集数据对应的概率密度函数,并将所有的概率密度函数相加,可以得到这种类型数据的概率密度函数。将各个时刻采集数据对应的出现概率是否小于概率阈值作为异常数据的判断标准,符合实际情况,可以准确识别出异常数据。
例如,在不同时刻采集的同一种类型数据依次为x1、x2、x3、……、xn,则将x1、x2、x3、……、xn分别作为xc代入高斯核函数得到对应的概率密度函数K(x,xc)=exp[-||x-xc||2/(2*σ)2],σ为设定的宽度参数,默认为这种类型数据的标准偏差。将n个概率密度函数相加,得到这种类型数据的概率密度函数。这种类型数据中任意一个时刻采集数据代入这种类型数据的概率密度函数并积分得到对应的概率,如果小于概率阈值则为异常数据,如果大于等于概率阈值则为正常数据。举例来说,发动机转速在[600,800]区间的概率为0.23%,发动机转速的概率阈值为0.3%,则在[600,800]区间的发动机转速为异常数据。
步骤S208,若完整性的权重大于0,则基于每一种类型数据确定完整性未达标的异常数据。
其中,完整性未达标的异常数据主要是缺失的数据。
在实际应用中,如果未接收到某个时刻的数据,则这个时刻的数据缺失。例如,在各个时刻采集的同一种类型数据依次为30、20、空白、15,则第三个时刻的数据缺失。
可选地,该步骤S208包括:确定每一种类型数据中缺失数据的采集时刻;基于每一种类型数据中缺失数据的采集时刻,统计多种数据缺失情况的缺失数据数量,作为完整性未达标的异常数据,多种数据缺失情况包括单独缺失、连续缺失少量数据、连续缺失大量数据。
本实施例中,将数据缺失情况划分为单独缺失、连续缺失少量数据、连续缺失大量数据三种,并针对每种数据缺失情况分别统计缺失数据数量,可以结合不同数据缺失情况对数据质量的影响大小,对数据的完整性进行准确评估。
示例性地,单独缺失为前后均未缺失的缺失数据。例如,在各个时刻采集的同一种类型数据依次为30、20、空白、15,则第三个时刻的缺失数据属于单独缺失。
连续缺失少量数据为前后至少有一个缺失数据且持续数量小于数量阈值的数据。例如,在各个时刻采集的同一种类型数据依次为30、空白、空白、15,则第二个时刻至第三个时刻的缺失数据属于连续缺失少量数据。
连续缺失大量数据为前后至少有一个缺失数据且持续数量大于等于数量阈值的数据。例如,在各个时刻采集的同一种类型的数据依次为30、空白、空白、空白、空白、空白、空白、15,则第二个时刻至第七个时刻的缺失数据属于连续缺失大量数据。
步骤S210,若时效性的权重大于0,则基于每一种类型数据确定时效性未达标的异常数据。
其中,时效性未达标的异常数据主要是采集间隔大于要求间隔的数据。
具体地,该步骤S200包括:若相邻两个时刻采集数据的间隔大于要求间隔,则确定两个数据为异常数据。
在实际应用中,各个时刻采集的数据都有对应的时间戳,可以根据相邻两个时刻采集数据的时间戳得到相邻两个时刻采集数据的间隔。例如,前一个时刻采集数据的时间戳为2020年12月18日16时32分05秒,下一个时刻采集数据的时间戳为2020年12月18日16时32分15秒,则这两个时刻采集数据的间隔为10s。如果这两个时刻采集数据属于压力类数据,压力类数据的要求间隔为1s(压力类数据的变化速度较快),则这两个时刻采集数据为异常数据。如果这两个时刻采集数据属于温度类数据,温度类数据的要求间隔为10s(温度类数据的变化速度较慢),则这两个时刻采集数据为正常数据。
步骤S212,基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级。
可选地,该步骤S212包括:采用如下公式确定目标类型数据的质量评价结果:q=w1*q1+w2*q2+w3*q3;若目标类型数据的质量评价结果大于质量阈值,则确定目标类型数据的质量等级达标;若目标类型数据的质量评价结果小于等于质量阈值,则确定目标类型数据的质量等级未达标。
其中,q为目标类型数据的质量评价结果,w1为准确性的权重,q1为准确性未达标的异常数据在目标类型数据中所占的比例,w2为完整性的权重,q2为完整性未达标的异常数据在目标类型数据中所占的比例,w3为时效性的权重,q3为时效性未达标的异常数据在目标类型数据中所占的比例。
q2=W1*Q1+W2*Q2+W3*Q3,W1为单独缺失的权重,Q1为单独缺失的缺失数据数量在目标类型数据中所占的比例,W2为连续缺失少量数据的权重,Q2为连续缺失少量数据的缺失数据数量在目标类型数据中所占的比例,W3为连续缺失大量数据的权重,Q3为连续缺失大量数据的缺失数据数量在目标类型数据中所占的比例。
其中,目标类型数据为车联网数据中的任意一种类型数据。
本实施例中,设置有两级权重,第一级权重可以调整各个质量评价指标的影响大小,适应不同的数据挖掘需要;第二级权重可以调整各种数据缺失情况的影响的大小,对数据的完整性进行准确评估。
示例性地,W1<W2<W3。例如,W1=1,W2=5,W3=10。
缺失数据持续时间越长,可恢复几率越低,对数据挖掘的影响程度越大。因此,缺失数据的持续数量与对应权重正相关,可以较好体现数据完整性对数据质量的影响,最终准确评估数据质量。
示例性地,质量阈值为95%。
可选地,该方法还包括:输出每一种类型数据的质量等级。
在实际应用中,终端可以通过web客户端向用户反馈每一种类型数据的质量等级,回应用户输入的数据筛选条件和多个质量评估指标的权重。
步骤S214,若目标类型数据的质量等级达标,则对目标类型数据进行数据挖掘,目标类型数据为车联网数据中的任意一种类型数据。
本实施例中,对质量等级达标的数据进行数据挖掘,以保证数据挖掘的准确性。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种车联网数据质量确定装置,包括:交互模块301、调度模块302、识别模块303和确定模块304,其中:
交互模块301,用于确定数据筛选条件和多个质量评价指标的权重,多个质量评价指标包括准确性、完整性和时效性。
调度模块302,用于获取满足数据筛选条件的车联网数据,车联网数据包括在不同时刻采集的至少一种类型数据。
识别模块303,用于基于每一种类型数据确定每个质量评价指标未达标的异常数据。
确定模块304,用于基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级。
上述车联网数据质量确定装置,通过确定数据筛选条件,并获取满足数据筛选条件的车联网数据,可以利用数据筛选条件对车联网数据进行筛选,只有满足数据筛选条件的车联网数据才进行后续处理。这样,可以针对数据挖掘所关注的部分数据进行质量评估,从而提高质量评估结果的精准度,同时减少数据处理量,提高质量评估的速度。获取的车联网数据包括在不同时刻采集的至少一种类型数据,通过基于每一种类型数据确定每个质量评价指标未达标的异常数据,可以针对不同类型数据和不同质量评价指标分别进行处理,有利于提高质量评估结果的精准度。而且通过确定包括准确性、完整性和时效性的多个质量评价指标的权重,并基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级,可以利用权重的分配调整各种质量评价指标未达标的异常数据对数据质量等级的影响大小。这样,可以针对实际需求选取质量评价指标并设定其重要程度,得到适应实际需求的精准评价结果。
在一个实施例中,识别模块303包括:分布确定单元、第一异常数据确定单元和第二异常数据确定单元,其中:
分布确定单元,用于确定每一种类型数据是否满足正态分布。
第一异常数据确定单元,用于当目标类型数据满足正态分布时,分别采用拉依达准则和高斯核函数在目标类型数据中识别异常数据,并将采用拉依达准则识别的异常数据和采用高斯核函数识别的异常数据的并集,作为目标类型数据中准确性未达标的异常数据。
第二异常数据确定单元,用于当目标类型数据不满足正态分布时,采用高斯核函数在目标类型数据中识别异常数据,并将采用高斯核函数识别的异常数据,作为目标类型数据中准确性未达标的异常数据。
其中,目标类型数据为车联网数据中的任意一种类型数据。
可选地,第一异常数据确定单元用于,确定目标类型数据的平均值和标准偏差;确定目标类型数据中各个时刻采集数据和平均值的差值的绝对值;若目标时刻采集数据和平均值的差值大于标准偏差的三倍,则确定目标时刻采集数据为异常数据;若目标时刻采集数据和平均值的差值小于等于标准偏差的三倍,则确定目标时刻采集数据为正常数据;其中,目标时刻采集数据为在任意时刻采集的目标类型数据。
可选地,第一异常数据确定单元和第二异常数据确定单元用于,将目标类型数据中各个时刻采集数据作为高斯核函数的核函数中心,得到各个时刻采集数据对应的概率密度函数;将各个时刻采集数据对应的概率密度函数相加,得到目标类型数据的概率密度函数;若基于目标类型数据的概率密度函数得到目标时刻采集数据的出现概率小于概率阈值,则确定目标时刻采集数据为异常数据;若基于目标类型数据的概率密度函数得到目标时刻采集数据的出现概率大于等于概率阈值,则确定目标时刻采集数据为正常数据;其中,目标时刻采集数据为在任意时刻采集的目标类型数据。
在一个实施例中,识别模块303包括:时刻确定单元和数量统计单元,其中:
时刻确定单元,用于确定每一种类型数据中缺失数据的采集时刻。
数量统计单元,用于基于每一种类型数据中缺失数据的采集时刻,统计多种数据缺失情况的缺失数据数量,作为完整性未达标的异常数据,多种数据缺失情况包括单独缺失、连续缺失少量数据、连续缺失大量数据。
在一个实施例中,确定模块304包括:结果确定单元和结果判定单元,其中:
结果确定单元,用于采用如下公式确定目标类型数据的质量评价结果:q=w1*q1+w2*q2+w3*q3;其中,q为目标类型数据的质量评价结果,w1为准确性的权重,q1为准确性未达标的异常数据在目标类型数据中所占的比例,w2为完整性的权重,q2为完整性未达标的异常数据在目标类型数据中所占的比例,w3为时效性的权重,q3为时效性未达标的异常数据在目标类型数据中所占的比例;q2=W1*Q1+W2*Q2+W3*Q3,W1为单独缺失的权重,Q1为单独缺失的缺失数据数量在目标类型数据中所占的比例,W2为连续缺失少量数据的权重,Q2为连续缺失少量数据的缺失数据数量在目标类型数据中所占的比例,W3为连续缺失大量数据的权重,Q3为连续缺失大量数据的缺失数据数量在目标类型数据中所占的比例。
结果判定单元,用于当目标类型数据的质量评价结果大于质量阈值时,确定目标类型数据的质量等级达标;当目标类型数据的质量评价结果小于等于质量阈值时,确定目标类型数据的质量等级未达标;其中,目标类型数据为车联网数据中的任意一种类型数据。
关于车联网数据质量确定装置的具体限定可以参见上文中对于车联网数据质量确定方法的限定,在此不再赘述。上述车联网数据质量确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储车联网数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种车联网数据质量确定方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:确定数据筛选条件和多个质量评价指标的权重,多个质量评价指标包括准确性、完整性和时效性;获取满足数据筛选条件的车联网数据,车联网数据包括在不同时刻采集的至少一种类型数据;基于每一种类型数据确定每个质量评价指标未达标的异常数据;基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:确定每一种类型数据是否满足正态分布;若目标类型数据满足正态分布,则分别采用拉依达准则和高斯核函数在目标类型数据中识别异常数据,并将采用拉依达准则识别的异常数据和采用高斯核函数识别的异常数据的并集,作为目标类型数据中准确性未达标的异常数据;若目标类型数据不满足正态分布,则采用高斯核函数在目标类型数据中识别异常数据,并将采用高斯核函数识别的异常数据,作为目标类型数据中准确性未达标的异常数据;其中,目标类型数据为车联网数据中的任意一种类型数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:确定目标类型数据的平均值和标准偏差;确定目标类型数据中各个时刻采集数据和平均值的差值的绝对值;若目标时刻采集数据和平均值的差值大于标准偏差的三倍,则确定目标时刻采集数据为异常数据;若目标时刻采集数据和平均值的差值小于等于标准偏差的三倍,则确定目标时刻采集数据为正常数据;其中,目标时刻采集数据为在任意时刻采集的目标类型数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将目标类型数据中各个时刻采集数据作为高斯核函数的核函数中心,得到各个时刻采集数据对应的概率密度函数;将各个时刻采集数据对应的概率密度函数相加,得到目标类型数据的概率密度函数;若基于目标类型数据的概率密度函数得到目标时刻采集数据的出现概率小于概率阈值,则确定目标时刻采集数据为异常数据;若基于目标类型数据的概率密度函数得到目标时刻采集数据的出现概率大于等于概率阈值,则确定目标时刻采集数据为正常数据;其中,目标时刻采集数据为在任意时刻采集的目标类型数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:确定每一种类型数据中缺失数据的采集时刻;基于每一种类型数据中缺失数据的采集时刻,统计多种数据缺失情况的缺失数据数量,作为完整性未达标的异常数据,多种数据缺失情况包括单独缺失、连续缺失少量数据、连续缺失大量数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:采用如下公式确定目标类型数据的质量评价结果:q=w1*q1+w2*q2+w3*q3;若目标类型数据的质量评价结果大于质量阈值,则确定目标类型数据的质量等级达标;若目标类型数据的质量评价结果小于等于质量阈值,则确定目标类型数据的质量等级未达标;其中,q为目标类型数据的质量评价结果,w1为准确性的权重,q1为准确性未达标的异常数据在目标类型数据中所占的比例,w2为完整性的权重,q2为完整性未达标的异常数据在目标类型数据中所占的比例,w3为时效性的权重,q3为时效性未达标的异常数据在目标类型数据中所占的比例;q2=W1*Q1+W2*Q2+W3*Q3,W1为单独缺失的权重,Q1为单独缺失的缺失数据数量在目标类型数据中所占的比例,W2为连续缺失少量数据的权重,Q2为连续缺失少量数据的缺失数据数量在目标类型数据中所占的比例,W3为连续缺失大量数据的权重,Q3为连续缺失大量数据的缺失数据数量在目标类型数据中所占的比例;目标类型数据为车联网数据中的任意一种类型数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:若目标类型数据的质量等级达标,则对目标类型数据进行数据挖掘,目标类型数据为车联网数据中的任意一种类型数据。
上述计算机设备,通过确定数据筛选条件,并获取满足数据筛选条件的车联网数据,可以利用数据筛选条件对车联网数据进行筛选,只有满足数据筛选条件的车联网数据才进行后续处理。这样,可以针对数据挖掘所关注的部分数据进行质量评估,从而提高质量评估结果的精准度,同时减少数据处理量,提高质量评估的速度。获取的车联网数据包括在不同时刻采集的至少一种类型数据,通过基于每一种类型数据确定每个质量评价指标未达标的异常数据,可以针对不同类型数据和不同质量评价指标分别进行处理,有利于提高质量评估结果的精准度。而且通过确定包括准确性、完整性和时效性的多个质量评价指标的权重,并基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级,可以利用权重的分配调整各种质量评价指标未达标的异常数据对数据质量等级的影响大小。这样,可以针对实际需求选取质量评价指标并设定其重要程度,得到适应实际需求的精准评价结果。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:确定数据筛选条件和多个质量评价指标的权重,多个质量评价指标包括准确性、完整性和时效性;获取满足数据筛选条件的车联网数据,车联网数据包括在不同时刻采集的至少一种类型数据;基于每一种类型数据确定每个质量评价指标未达标的异常数据;基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定每一种类型数据是否满足正态分布;若目标类型数据满足正态分布,则分别采用拉依达准则和高斯核函数在目标类型数据中识别异常数据,并将采用拉依达准则识别的异常数据和采用高斯核函数识别的异常数据的并集,作为目标类型数据中准确性未达标的异常数据;若目标类型数据不满足正态分布,则采用高斯核函数在目标类型数据中识别异常数据,并将采用高斯核函数识别的异常数据,作为目标类型数据中准确性未达标的异常数据;其中,目标类型数据为车联网数据中的任意一种类型数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定目标类型数据的平均值和标准偏差;确定目标类型数据中各个时刻采集数据和平均值的差值的绝对值;若目标时刻采集数据和平均值的差值大于标准偏差的三倍,则确定目标时刻采集数据为异常数据;若目标时刻采集数据和平均值的差值小于等于标准偏差的三倍,则确定目标时刻采集数据为正常数据;其中,目标时刻采集数据为在任意时刻采集的目标类型数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将目标类型数据中各个时刻采集数据作为高斯核函数的核函数中心,得到各个时刻采集数据对应的概率密度函数;将各个时刻采集数据对应的概率密度函数相加,得到目标类型数据的概率密度函数;若基于目标类型数据的概率密度函数得到目标时刻采集数据的出现概率小于概率阈值,则确定目标时刻采集数据为异常数据;若基于目标类型数据的概率密度函数得到目标时刻采集数据的出现概率大于等于概率阈值,则确定目标时刻采集数据为正常数据;其中,目标时刻采集数据为在任意时刻采集的目标类型数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定每一种类型数据中缺失数据的采集时刻;基于每一种类型数据中缺失数据的采集时刻,统计多种数据缺失情况的缺失数据数量,作为完整性未达标的异常数据,多种数据缺失情况包括单独缺失、连续缺失少量数据、连续缺失大量数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:采用如下公式确定目标类型数据的质量评价结果:q=w1*q1+w2*q2+w3*q3;若目标类型数据的质量评价结果大于质量阈值,则确定目标类型数据的质量等级达标;若目标类型数据的质量评价结果小于等于质量阈值,则确定目标类型数据的质量等级未达标;其中,q为目标类型数据的质量评价结果,w1为准确性的权重,q1为准确性未达标的异常数据在目标类型数据中所占的比例,w2为完整性的权重,q2为完整性未达标的异常数据在目标类型数据中所占的比例,w3为时效性的权重,q3为时效性未达标的异常数据在目标类型数据中所占的比例;q2=W1*Q1+W2*Q2+W3*Q3,W1为单独缺失的权重,Q1为单独缺失的缺失数据数量在目标类型数据中所占的比例,W2为连续缺失少量数据的权重,Q2为连续缺失少量数据的缺失数据数量在目标类型数据中所占的比例,W3为连续缺失大量数据的权重,Q3为连续缺失大量数据的缺失数据数量在目标类型数据中所占的比例;目标类型数据为车联网数据中的任意一种类型数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:若目标类型数据的质量等级达标,则对目标类型数据进行数据挖掘,目标类型数据为车联网数据中的任意一种类型数据。
上述存储介质,通过确定数据筛选条件,并获取满足数据筛选条件的车联网数据,可以利用数据筛选条件对车联网数据进行筛选,只有满足数据筛选条件的车联网数据才进行后续处理。这样,可以针对数据挖掘所关注的部分数据进行质量评估,从而提高质量评估结果的精准度,同时减少数据处理量,提高质量评估的速度。获取的车联网数据包括在不同时刻采集的至少一种类型数据,通过基于每一种类型数据确定每个质量评价指标未达标的异常数据,可以针对不同类型数据和不同质量评价指标分别进行处理,有利于提高质量评估结果的精准度。而且通过确定包括准确性、完整性和时效性的多个质量评价指标的权重,并基于每一种类型数据、每个质量评价指标未达标的异常数据和多个质量评价指标的权重,确定每一种类型数据的质量等级,可以利用权重的分配调整各种质量评价指标未达标的异常数据对数据质量等级的影响大小。这样,可以针对实际需求选取质量评价指标并设定其重要程度,得到适应实际需求的精准评价结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种车联网数据质量确定方法,其特征在于,所述方法包括:
确定数据筛选条件和多个质量评价指标的权重,所述多个质量评价指标包括准确性、完整性和时效性;
获取满足所述数据筛选条件的车联网数据,所述车联网数据包括在不同时刻采集的至少一种类型数据;
基于每一种类型数据确定每个所述质量评价指标未达标的异常数据;
基于每一种类型数据、每个所述质量评价指标未达标的异常数据和所述多个质量评价指标的权重,确定每一种类型数据的质量等级。
2.根据权利要求1所述的方法,其特征在于,基于每一种类型数据确定准确性未达标的异常数据,包括:
确定每一种类型数据是否满足正态分布;
若目标类型数据满足正态分布,则分别采用拉依达准则和高斯核函数在所述目标类型数据中识别异常数据,并将采用拉依达准则识别的异常数据和采用高斯核函数识别的异常数据的并集,作为所述目标类型数据中准确性未达标的异常数据;
若目标类型数据不满足正态分布,则采用高斯核函数在所述目标类型数据中识别异常数据,并将采用高斯核函数识别的异常数据,作为所述目标类型数据中准确性未达标的异常数据;
其中,所述目标类型数据为所述车联网数据中的任意一种类型数据。
3.根据权利要求2所述的方法,其特征在于,采用拉依达准则在所述目标类型数据中识别异常数据,包括:
确定所述目标类型数据的平均值和标准偏差;
确定所述目标类型数据中各个时刻采集数据和所述平均值的差值的绝对值;
若目标时刻采集数据和所述平均值的差值大于所述标准偏差的三倍,则确定所述目标时刻采集数据为异常数据;
若目标时刻采集数据和所述平均值的差值小于等于所述标准偏差的三倍,则确定所述目标时刻采集数据为正常数据;
其中,所述目标时刻采集数据为在任意时刻采集的目标类型数据。
4.根据权利要求2所述的方法,其特征在于,采用高斯核函数在所述目标类型数据中识别异常数据,包括:
将所述目标类型数据中各个时刻采集数据作为高斯核函数的核函数中心,得到所述各个时刻采集数据对应的概率密度函数;
将所述各个时刻采集数据对应的概率密度函数相加,得到所述目标类型数据的概率密度函数;
若基于所述目标类型数据的概率密度函数得到目标时刻采集数据的出现概率小于概率阈值,则确定所述目标时刻采集数据为异常数据;
若基于所述目标类型数据的概率密度函数得到目标时刻采集数据的出现概率大于等于概率阈值,则确定所述目标时刻采集数据为正常数据;
其中,所述目标时刻采集数据为在任意时刻采集的目标类型数据。
5.根据权利要求1至4任意一项所述的方法,其特征在于,基于每一种类型数据确定完整性未达标的异常数据,包括:
确定每一种类型数据中缺失数据的采集时刻;
基于每一种类型数据中缺失数据的采集时刻,统计多种数据缺失情况的缺失数据数量,作为完整性未达标的异常数据,所述多种数据缺失情况包括单独缺失、连续缺失少量数据、连续缺失大量数据。
6.根据权利要求5所述的方法,其特征在于,所述基于每一种类型数据、每个所述质量评价指标未达标的异常数据和所述多个质量评价指标的权重,确定每一种类型数据的质量等级,包括:
采用如下公式确定目标类型数据的质量评价结果:
q=w1*q1+w2*q2+w3*q3;
其中,q为目标类型数据的质量评价结果,w1为准确性的权重,q1为准确性未达标的异常数据在目标类型数据中所占的比例,w2为完整性的权重,q2为完整性未达标的异常数据在目标类型数据中所占的比例,w3为时效性的权重,q3为时效性未达标的异常数据在目标类型数据中所占的比例;
q2=W1*Q1+W2*Q2+W3*Q3,W1为单独缺失的权重,Q1为单独缺失的缺失数据数量在目标类型数据中所占的比例,W2为连续缺失少量数据的权重,Q2为连续缺失少量数据的缺失数据数量在目标类型数据中所占的比例,W3为连续缺失大量数据的权重,Q3为连续缺失大量数据的缺失数据数量在目标类型数据中所占的比例;
若所述目标类型数据的质量评价结果大于质量阈值,则确定所述目标类型数据的质量等级达标;
若所述目标类型数据的质量评价结果小于等于质量阈值,则确定所述目标类型数据的质量等级未达标;
其中,所述目标类型数据为所述车联网数据中的任意一种类型数据。
7.根据权利要求1至4任意一项所述的方法,其特征在于,所述方法还包括:
若目标类型数据的质量等级达标,则对所述目标类型数据进行数据挖掘,所述目标类型数据为所述车联网数据中的任意一种类型数据。
8.一种车联网数据质量确定装置,其特征在于,所述装置包括:
交互模块,用于确定数据筛选条件和多个质量评价指标的权重,所述多个质量评价指标包括准确性、完整性和时效性;
调度模块,用于获取满足所述数据筛选条件的车联网数据,所述车联网数据包括在不同时刻采集的至少一种类型数据;
识别模块,用于基于每一种类型数据确定每个所述质量评价指标未达标的异常数据;
确定模块,用于基于每一种类型数据、每个所述质量评价指标未达标的异常数据和所述多个质量评价指标的权重,确定每一种类型数据的质量等级。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110470047.4A CN113176986A (zh) | 2021-04-28 | 2021-04-28 | 车联网数据质量确定方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110470047.4A CN113176986A (zh) | 2021-04-28 | 2021-04-28 | 车联网数据质量确定方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113176986A true CN113176986A (zh) | 2021-07-27 |
Family
ID=76925701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110470047.4A Pending CN113176986A (zh) | 2021-04-28 | 2021-04-28 | 车联网数据质量确定方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113176986A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115001953A (zh) * | 2022-05-30 | 2022-09-02 | 中国第一汽车股份有限公司 | 一种电动汽车数据质量评估方法、装置、终端及存储介质 |
CN115130852A (zh) * | 2022-06-24 | 2022-09-30 | 重庆长安新能源汽车科技有限公司 | 车联网设备数据传输质量评估方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107958353A (zh) * | 2018-01-03 | 2018-04-24 | 交通运输部路网监测与应急处置中心 | 一种etc联网运营质量评价方法及计算机存储介质 |
CN110516923A (zh) * | 2019-08-06 | 2019-11-29 | 中交信息技术国家工程实验室有限公司 | 一种车联网信息综合评价方法 |
CN112328961A (zh) * | 2020-11-04 | 2021-02-05 | 江苏海拓润达科技发展有限公司 | 基于故障树与贝叶斯网络的在线监测装置质量评估体系 |
CN112700156A (zh) * | 2021-01-07 | 2021-04-23 | 武汉理工大学 | 一种新能源汽车运行安全性能评价体系构建方法 |
-
2021
- 2021-04-28 CN CN202110470047.4A patent/CN113176986A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107958353A (zh) * | 2018-01-03 | 2018-04-24 | 交通运输部路网监测与应急处置中心 | 一种etc联网运营质量评价方法及计算机存储介质 |
CN110516923A (zh) * | 2019-08-06 | 2019-11-29 | 中交信息技术国家工程实验室有限公司 | 一种车联网信息综合评价方法 |
CN112328961A (zh) * | 2020-11-04 | 2021-02-05 | 江苏海拓润达科技发展有限公司 | 基于故障树与贝叶斯网络的在线监测装置质量评估体系 |
CN112700156A (zh) * | 2021-01-07 | 2021-04-23 | 武汉理工大学 | 一种新能源汽车运行安全性能评价体系构建方法 |
Non-Patent Citations (3)
Title |
---|
庄广新;谷远利;马韵楠;赵莹;: "基于AHP灰色理论的道路交通流数据质量评价", 山东科学, no. 01, pages 69 - 75 * |
张敏, 袁辉: "拉依达(PauTa)准则与异常值剔除", 郑州工业大学学报, no. 01 * |
徐艺文;徐宁彬;庄重文;陈忠辉;: "面向群智感知车联网的异常数据检测算法", 湖南大学学报(自然科学版), no. 08, pages 150 - 156 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115001953A (zh) * | 2022-05-30 | 2022-09-02 | 中国第一汽车股份有限公司 | 一种电动汽车数据质量评估方法、装置、终端及存储介质 |
CN115001953B (zh) * | 2022-05-30 | 2023-11-14 | 中国第一汽车股份有限公司 | 一种电动汽车数据质量评估方法、装置、终端及存储介质 |
WO2023231733A1 (zh) * | 2022-05-30 | 2023-12-07 | 中国第一汽车股份有限公司 | 一种电动汽车数据质量评估方法、装置、终端及存储介质 |
CN115130852A (zh) * | 2022-06-24 | 2022-09-30 | 重庆长安新能源汽车科技有限公司 | 车联网设备数据传输质量评估方法、装置、设备及介质 |
CN115130852B (zh) * | 2022-06-24 | 2024-06-07 | 深蓝汽车科技有限公司 | 一种车联网设备数据传输质量评估方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110060144B (zh) | 额度模型训练方法、额度评估方法、装置、设备及介质 | |
WO2022142042A1 (zh) | 异常数据的检测方法、装置、计算机设备和存储介质 | |
CN104156524B (zh) | 交通数据流的聚集查询方法及系统 | |
CN113176986A (zh) | 车联网数据质量确定方法、装置、计算机设备和存储介质 | |
US6553354B1 (en) | Method of probabilistically modeling variables | |
EP3349126B1 (en) | Method, device, storage medium, and apparatus for automatically discovering fuel station poi | |
CN110398375B (zh) | 车辆冷却系统工作状态的监测方法、装置、设备和介质 | |
US10203410B2 (en) | Probabilistic weather severity estimation system | |
CN109523117A (zh) | 风险预测方法、装置、计算机设备和存储介质 | |
CN109979193B (zh) | 一种基于马尔科夫模型的数据异常诊断方法 | |
CN114274780A (zh) | 车辆续航里程预测方法、装置、设备和存储介质 | |
CN111259167B (zh) | 用户请求风险识别方法及装置 | |
CN108345662B (zh) | 一种考虑用户分布区域差异的签到微博数据加权统计方法 | |
CN113868279A (zh) | 轨迹数据处理方法、装置和系统 | |
CN110866682B (zh) | 基于历史数据的地下电缆预警方法和装置 | |
CN114679460B (zh) | 建筑运维监控报警系统 | |
CN115221218A (zh) | 车辆数据的质量评估方法、装置、计算机设备和存储介质 | |
CN117035563B (zh) | 产品质量安全风险监测方法、设备、监测系统及介质 | |
CN111145535B (zh) | 一种复杂场景下的行程时间可靠性分布预测方法 | |
CN116484468A (zh) | 一种水库大坝的风险评估方法、装置、设备及存储介质 | |
CN111582378A (zh) | 定位识别模型的训练生成方法、位置检测方法、装置 | |
CN115170304B (zh) | 风险特征描述的提取方法和装置 | |
US11876690B1 (en) | System and method for improving quality of telematics data | |
CN115033728A (zh) | 全球卫星影像搜索引擎数据爬取与归一化方法及系统 | |
CN110442780B (zh) | 基于智慧园区的车主画像生成方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |