CN113268476A - 应用于车联网的数据清洗方法、装置和计算机设备 - Google Patents
应用于车联网的数据清洗方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN113268476A CN113268476A CN202110630675.4A CN202110630675A CN113268476A CN 113268476 A CN113268476 A CN 113268476A CN 202110630675 A CN202110630675 A CN 202110630675A CN 113268476 A CN113268476 A CN 113268476A
- Authority
- CN
- China
- Prior art keywords
- data
- internet
- vehicles
- missing
- missing data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Y—INFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
- G16Y10/00—Economic sectors
- G16Y10/75—Information technology; Communication
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本申请涉及一种应用于车联网的数据清洗方法、装置、计算机设备和存储介质。所述方法包括:获取车联网数据使用者对于车联网数据的质量要求信息;所述质量要求信息包括准确性、完整性、连续性和唯一性中的至少一种;根据所述质量要求信息,对所述车联网数据进行清洗,获取清洗后的车联网数据。采用本方法能够灵活的根据数据使用者的质量要求有针对性的处理异常数据,提高了对于车联网数据清洗的准确度。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种应用于车联网的数据清洗方法、装置、计算机设备和存储介质。
背景技术
车联网系统中每天接收并存储海量的车辆行驶数据,这些数据包括车辆识别码、车速、发动机转速和发动机扭矩等。分析该数据可以更清楚了解车辆的运行状态,并能识别出潜在的车辆问题,对车企的产品改进和升级有较大的使用价值。数据从车端到使用者手中需经历收集、组包、传递和拆包过程,每个环节均会对数据质量产生影响,因此在进行数据挖掘前对数据进行清洗是非常有必要的。
目前,对于车联网系统的数据清洗方法是根据预设的数据清洗规则对不同类型的数据进行清洗,这些规则对异常数据的处理逻辑较为单一,一般采用删除数据方法处理,对原始数据的修改范围大,导致了数据清洗时准确度低的缺陷。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高数据清洗准确度的应用于车联网的数据清洗方法、装置、计算机设备和存储介质。
一种应用于车联网的数据清洗方法,所述方法包括:
获取车联网数据使用者对于车联网数据的质量要求信息;所述质量要求信息包括准确性、完整性、连续性和唯一性中的至少一种;
根据所述质量要求信息,对所述车联网数据进行清洗,获取清洗后的车联网数据。
在其中一个实施例中,还包括:对所述车联网数据进行异常数据识别处理,获取所述车联网数据中的异常数据和缺失数据;
根据所述质量要求信息,对所述车联网数据中的异常数据和缺失数据进行清洗处理,获取清洗后的车联网数据。
在其中一个实施例中,还包括:若所述质量要求信息为准确性,删除所述车联网数据中的异常数据和缺失数据获取清洗后的车联网数据。
在其中一个实施例中,还包括:若所述质量要求信息为准确性和连续性,将所述车联网数据中的异常数据视为缺失数据;
根据所述缺失数据的长度,对所述缺失数据进行对应的处理,获取清洗后的车联网数据。
在其中一个实施例中,还包括:根据所述缺失数据的长度,判断所述缺失数据是否为单个缺失数据;
若所述缺失数据为单个缺失数据,根据所述缺失数据的前后数据值进行插值补植,补植完成后获取清洗后的车联网数据;
若所述缺失数据为连续缺失数据,删除所述车联网数据中的缺失数据获取清洗后的车联网数据。
在其中一个实施例中,还包括:若所述缺失数据为单个缺失数据,计算所述缺失数据前一个数据和所述缺失数据后一个数据的平均值作为补植;
以所述补植作为所述缺失数据的值,获取清洗后的车联网数据。
在其中一个实施例中,还包括:若所述质量要求信息为准确性和完整性,将所述车联网数据中的异常数据视为缺失数据;
根据所述车联网数据的时间戳判断所述缺失数据的长度是否超过所述车联网数据长度的三分之一;
若所述缺失数据的长度超过所述车联网数据长度的三分之一,删除所述缺失数据;
若所述缺失数据的长度未超过所述车联网数据长度的三分之一,使用样条插值或线性插值的方法对所述缺失数据进行数据填充,获取清洗后的车联网数据。
一种应用于车联网的数据清洗装置,所述装置包括:
获取模块,用于获取车联网数据使用者对于车联网数据的质量要求信息;所述质量要求信息包括准确性、完整性、连续性和唯一性中的至少一种;
清洗模块,用于根据所述质量要求信息,对所述车联网数据进行清洗,获取清洗后的车联网数据。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取车联网数据使用者对于车联网数据的质量要求信息;所述质量要求信息包括准确性、完整性、连续性和唯一性中的至少一种;
根据所述质量要求信息,对所述车联网数据进行清洗,获取清洗后的车联网数据。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取车联网数据使用者对于车联网数据的质量要求信息;所述质量要求信息包括准确性、完整性、连续性和唯一性中的至少一种;
根据所述质量要求信息,对所述车联网数据进行清洗,获取清洗后的车联网数据。
上述应用于车联网的数据清洗方法、装置、计算机设备和存储介质,通过获取车联网数据使用者对于车联网数据的质量要求信息,其中质量要求信息包括准确性、完整性、连续性和唯一性中的至少一种;并根据所述质量要求信息,对所述车联网数据进行数据清洗,获取清洗后的车联网数据,能够灵活的根据数据使用者的质量要求有针对性的处理异常数据,提高了对于车联网数据清洗的准确度。
附图说明
图1为一个实施例中应用于车联网的数据清洗方法的应用环境图;
图2为一个实施例中应用于车联网的数据清洗方法的流程示意图;
图3为另一个实施例中应用于车联网的数据清洗步骤的流程示意图;
图4为一个实施例中应用于车联网的数据清洗装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的应用于车联网的数据清洗方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102和服务器104可分别单独用于执行本申请提供的应用于车联网的数据清洗方法。终端102和服务器104也可用于协同执行本申请提供的应用于车联网的数据清洗方法。例如,服务器104用于获取车联网数据使用者对于车联网数据的质量要求信息;所述质量要求信息包括准确性、完整性、连续性和唯一性中的至少一种;根据所述质量要求信息,对所述车联网数据进行数据清洗,获取清洗后的车联网数据。
其中,终端102可以但不限于能够获取车联网数据的设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种应用于车联网的数据清洗方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤202,获取车联网数据使用者对于车联网数据的质量要求信息;所述质量要求信息包括准确性、完整性、连续性和唯一性中的至少一种。
其中,质量要求信息是车联网数据的使用者根据对于车联网数据的使用需求所设立的标签,包括准确性、完整性、连续性和唯一性中的至少一种;车联网数据的使用者对于不同的车联网数据往往会有不同的质量要求信息,不同的质量要求信息通常会对应不同的数据清洗方法。
具体地,对车联网数据进行数据清洗之前,首先需要获取车联网数据;其中,车联网数据的数据类型包括:车辆识别码、车速、发动机转速和发动机扭矩等。获取车联网数据之后,进行数据清洗之前还需要获取车联网的数据使用者对于车联网数据的质量要求信息,质量要求信息包括准确性、完整性、连续性和唯一性中的至少一种。不同的质量要求信息通常对应不同的数据清洗方法,多项质量要求信息的数据清洗方法通常也不同于只要求单项质量要求信息的数据清洗方法。
步骤204,根据所述质量要求信息,对所述车联网数据进行数据清洗,获取清洗后的车联网数据。
具体地,获取待清洗的车联网数据的质量要求信息以后,需要对车联网数据中的异常数据进行识别,异常数据包括缺失数据和错误数据等。在进行异常数据识别时,对于数据质量要求包括准确度的车联网数据,通过拉依达、核密度等统计学方式进行识别;对于数据准确性要求较高的应用时,可以再次统计字段内数据变化率的分布情况,通过统计学方法对数据进行二次异常数据识别,提高异常数据识别的准确度。
对于只要求准确性数据质量要求的车联网数据,对异常数据和缺失数据均删除即可,并且对于异常数据的识别上更加严格。对于同时要求了准确性和其他维度的数据质量要求,则需要根据数据的缺失量以及数据的异常值量进行数据清洗。例如对于单个数据缺失的,可以根据缺失字段的前后数据进行差值补值;对于数据连续缺失的,则删除缺失数据。对于要求其他维度的数据质量要求的,在数据清洗过程中,尽量不删除数据,因为删除数据会影响数据间规律的传递,这时通常采取补值的策略进行数据清洗。
上述应用于车联网的数据清洗方法中,通过获取车联网数据使用者对于车联网数据的质量要求信息,其中质量要求信息包括准确性、完整性、连续性和唯一性中的至少一种,并根据所述质量要求信息,对所述车联网数据进行数据清洗,获取清洗后的车联网数据,能够灵活的根据数据使用者的质量要求有针对性的处理异常数据,提高了对于车联网数据清洗的准确度。
在一个实施例中,所述根据所述质量要求信息,对所述车联网数据进行清洗,获取清洗后的车联网数据包括:
对所述车联网数据进行异常数据识别处理,获取所述车联网数据中的异常数据和缺失数据;
根据所述质量要求信息,对所述车联网数据中的异常数据和缺失数据进行清洗处理,获取清洗后的车联网数据。
具体地,根据质量要求信息,对车联网数据进行清洗之前需要对待清洗车联网数据进行异常数据识别处理,识别出异常数据和缺失数据。其中,异常数据是车联网数据中明显错误的数据,缺失数据是车联网数据中缺失的数据。在识别异常数据时,对于数据质量要求包括准确度的车联网数据,通过拉依达、核密度等统计学方式进行识别;对于数据准确性要求较高的应用时,可以再次统计字段内数据变化率的分布情况,通过统计学方法对数据进行二次异常数据识别,提高异常数据识别的准确度。识别出异常数据和缺失数据后,根据数据使用者对于车联网数据的质量要求信息,对车联网数据中的异常数据和缺失数据进行清洗处理,获取清洗后的车联网数据。
本实施例中,通过对车联网数据进行异常数据识别处理,获取车联网数据中的异常数据和缺失数据,并根据质量要求信息对车联网数据中的异常数据和缺失数据进行清洗处理,实现了对于车联网数据的数据清洗,提高了对于车联网数据清洗的准确度。
在一个实施例中,所述根据所述质量要求信息,对所述车联网数据中的异常数据和缺失数据进行清洗处理,获取清洗后的车联网数据包括:
若所述质量要求信息为准确性,删除所述车联网数据中的异常数据和缺失数据获取清洗后的车联网数据。
具体地,若数据使用者对于车联网数据的质量要求信息仅为准确性时,根据质量要求信息,说明数据使用者对于车联网数据的准确性要求较高,此时需要放弃其他的质量要求维度;对车联网数据中的异常数据和缺失数据进行清洗处理时,删除车联网数据中所有的的异常数据和缺失数据,获取清洗后的车联网数据。
本实施例中,通过数据使用者在对车联网的质量要求信息为准确性时,删除车联网数据中的异常数据和缺失数据获取清洗后的车联网数据,实现了对于数据使用要求为准确性时的精准数据清洗,提高了数据清洗的精确度。
在一个实施例中,所述所述根据所述质量要求信息,对所述车联网数据中的异常数据和缺失数据进行清洗处理,获取清洗后的车联网数据还包括:
若所述质量要求信息为准确性和连续性,将所述车联网数据中的异常数据视为缺失数据;
根据所述缺失数据的长度,对所述缺失数据进行对应的处理,获取清洗后的车联网数据。
具体地,当车联网数据的数据使用者对于车联网数据的质量要求为准确性和连续性时,证明此时的数据使用者除了看重车联网数据的准确性以外,还看重数据的连续型,因此此时对于车联网数据的清洗要同时兼顾到车联网数据的准确性和连续型。此时,将车联网数据中的异常数据视为缺失数据进行处理,根据缺失数据的长度,对缺失数据进行对应的数据清洗处理,获取清洗后的车联网数据,实现对于车联网数据的清洗。
本实施例中,通过在数据使用者对车联网数据的质量要求信息为准确性和连续性时,将车联网数据中的异常数据视为缺失数据,并根据缺失数据的长度,对缺失数据进行对应的处理,获取清洗后的车联网数据,能够灵活的根据数据使用者的质量要求有针对性的处理异常数据,提高了对于车联网数据清洗的准确度。
在一个实施例中,所述根据所述缺失数据的长度,对所述缺失数据进行对应的处理,获取清洗后的车联网数据包括:
根据所述缺失数据的长度,判断所述缺失数据是否为单个缺失数据;
若所述缺失数据为单个缺失数据,根据所述缺失数据的前后数据值进行插值补植,补植完成后获取清洗后的车联网数据;
若所述缺失数据为连续缺失数据,删除所述车联网数据中的缺失数据获取清洗后的车联网数据。
具体地,当车联网数据的数据使用者对于车联网数据的质量要求为准确性和连续性时,证明此时的数据使用者除了看重车联网数据的准确性以外,还看重数据的连续型,因此此时对于车联网数据的清洗要同时兼顾到车联网数据的准确性和连续型。此时,对于车联网数据进行处理时,需要根据缺失数据的长度对缺失数据进行对应处理;具体包括:在缺失数据为单个缺失数据时,根据缺失数据的前后数据值进行插值补植,补植完成后获取清洗后的车联网数据;其中,差值补植的方法不作限制,例如可以采用前向插值、后向插值或线性插值等。当缺失数据为连续缺失数据时,删除车联网数据中的缺失数据获取清洗后的车联网数据,此时车联网数据中的缺失数据为连续缺失数据,为了兼顾到准确性要求,需要删除车联网数据中的缺失数据获取清洗后的车联网数据。
本实施例中,通过在车联网数据的数据使用者对于车联网数据的质量要求为准确性和连续性时,根据缺失数据的长度,判断缺失数据是否为单个缺失数据,在缺失数据为单个缺失数据和连续缺失数据时,进行不同的清洗处理,能够灵活的根据数据使用者的质量要求有针对性的处理异常数据,提高了对于车联网数据清洗的准确度。
在一个实施例中,所述若所述缺失数据为单个缺失数据,根据所述缺失数据的前后数据值进行插值补植,补植完成后获取清洗后的车联网数据包括:
若所述缺失数据为单个缺失数据,计算所述缺失数据前一个数据和所述缺失数据后一个数据的平均值作为补植;
以所述补植作为所述缺失数据的值,获取清洗后的车联网数据。
具体地,当缺失数据为单个缺失数据时,计算缺失数据前一个数据和所述缺失数据后一个数据的平均值作为补植,即通过缺失数据前一个数据点和缺失数据后一个数据点的值来估计中间点的值,假设缺失数据部分是一条直线,通过已知的缺失数据前一个数据点和缺失数据后一个数据点来计算两点之间的函数,即可以通过缺失数据前一个数据和缺失数据后一个数据的平均值作为补植,并以平均值作为缺失数据的值实现对车联网数据的清洗。
本实施例中,通过在缺失数据为单个缺失数据时,计算缺失数据前一个数据和缺失数据后一个数据的平均值作为缺失数据的补植,实现了对于缺失数据的修正,能够灵活的根据数据使用者的质量要求有针对性的处理异常数据,提高了对于车联网数据清洗的准确度。
在一个实施例中,所述所述根据所述质量要求信息,对所述车联网数据中的异常数据和缺失数据进行清洗处理,获取清洗后的车联网数据还包括:
若所述质量要求信息为准确性和完整性,将所述车联网数据中的异常数据视为缺失数据;
根据所述车联网数据的时间戳判断所述缺失数据的长度是否超过所述车联网数据长度的三分之一;
若所述缺失数据的长度超过所述车联网数据长度的三分之一,删除所述缺失数据;
若所述缺失数据的长度未超过所述车联网数据长度的三分之一,使用样条插值或线性插值的方法对所述缺失数据进行数据填充,获取清洗后的车联网数据。
具体地,在车联网数据的数据使用者对于车联网数据的质量要求为准确性和完整性时,首先将车联网数据中的异常数据视为缺失数据,然后根据车联网数据的时间戳判断所述缺失数据的长度是否超过车联网数据长度的三分之一。根据缺失数据的长度值的不同,对应进行不同的缺失数据处理操作。如果缺失数据的长度超过车联网数据长度的三分之一,直接删除缺失数据,以保证数据的准确性。如果若缺失数据的长度没有超过车联网数据长度的三分之一,使用样条插值或线性插值的方法对缺失数据进行数据填充,获取清洗后的车联网数据。例如,当缺失数据的长度没有超过车联网数据长度的三分之一,例如转速、温度类数据,使用样条插值对缺失数据进行数据填充,具体计算过程如下:
首先,把待处理的车联网数据的字段数据[a,b]分成n个区间,[(x0,x1),(x1,x2),(x2,x3),......(xn-1,xn)],共有n+1个点,其中两个端点x0=a,xn=b,每个小区间的曲线是一个三次方程,三次样条方程满足以下条件:
1、在每个分段小区间[xi,xi+1],S(x)=Si(x)都是一个三次方程;
2、满足插值条件,即S(xi)=yi(i=0,1,2......n);
3、曲线光滑,即S(x),S'(x),S”(x)连续;
进一步,将三次方程Si(x)构造成如下形式:y=ai+bix+cix2+dix3,每个区间函数满足上述条件加上边界点条件即可求出每个区间的样条函数,通过获取的y函数和时间序列的值,对缺失数据的值进行生成和填充。
图3为另一个实施例中应用于车联网的数据清洗步骤的流程示意图,如图3所示,对于已经清理完成的数据,将清洗处理好的数据重新存入数据库中。其中的数据库指用于数据清洗的库,例如Mysql、MongoDB等;对于清洗完的数据,在数据库中直接采用覆盖存储方式,并不单独建表,能够减少数据库进行数据存储时的冗余性,提高数据库的工作性能。
本实施例中,通过根据车联网数据的时间戳判断缺失数据的长度是否超过所述车联网数据长度的三分之一,在缺失数据的长度超过车联网数据长度的三分之一时,删除缺失数据;在缺失数据的长度未超过车联网数据长度的三分之一时,使用样条插值或线性插值的方法对缺失数据进行数据填充,获取清洗后的车联网数据,能够灵活的根据数据使用者的质量要求有针对性的处理异常数据,提高了对于车联网数据清洗的准确度。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种应用于车联网的数据清洗装置,包括:获取模块401和清洗模块402,其中:
获取模块401,用于获取车联网数据使用者对于车联网数据的质量要求信息;所述质量要求信息包括准确性、完整性、连续性和唯一性中的至少一种。
清洗模块402,用于根据所述质量要求信息,对所述车联网数据进行清洗,获取清洗后的车联网数据。
在一个实施例中,所述清洗模块402,还用于:对所述车联网数据进行异常数据识别处理,获取所述车联网数据中的异常数据和缺失数据;根据所述质量要求信息,对所述车联网数据中的异常数据和缺失数据进行清洗处理,获取清洗后的车联网数据。
在一个实施例中,所述清洗模块402,还用于:若所述质量要求信息为准确性,删除所述车联网数据中的异常数据和缺失数据获取清洗后的车联网数据。
在一个实施例中,所述清洗模块402,还用于:若所述质量要求信息为准确性和连续性,将所述车联网数据中的异常数据视为缺失数据;根据所述缺失数据的长度,对所述缺失数据进行对应的处理,获取清洗后的车联网数据。
在一个实施例中,所述清洗模块402,还用于:根据所述缺失数据的长度,判断所述缺失数据是否为单个缺失数据;若所述缺失数据为单个缺失数据,根据所述缺失数据的前后数据值进行插值补植,补植完成后获取清洗后的车联网数据;若所述缺失数据为连续缺失数据,删除所述车联网数据中的缺失数据获取清洗后的车联网数据。
在一个实施例中,所述清洗模块402,还用于:若所述缺失数据为单个缺失数据,计算所述缺失数据前一个数据和所述缺失数据后一个数据的平均值作为补植;以所述补植作为所述缺失数据的值,获取清洗后的车联网数据。
在一个实施例中,所述清洗模块402,还用于:若所述质量要求信息为准确性和完整性,将所述车联网数据中的异常数据视为缺失数据;根据所述车联网数据的时间戳判断所述缺失数据的长度是否超过所述车联网数据长度的三分之一;若所述缺失数据的长度超过所述车联网数据长度的三分之一,删除所述缺失数据;若所述缺失数据的长度未超过所述车联网数据长度的三分之一,使用样条插值或线性插值的方法对所述缺失数据进行数据填充,获取清洗后的车联网数据。
上述应用于车联网的数据清洗装置,通过获取车联网数据使用者对于车联网数据的质量要求信息,其中质量要求信息包括准确性、完整性、连续性和唯一性中的至少一种,并根据所述质量要求信息,对所述车联网数据进行数据清洗,获取清洗后的车联网数据,能够灵活的根据数据使用者的质量要求有针对性的处理异常数据,提高了对于车联网数据清洗的准确度。
关于应用于车联网的数据清洗装置的具体限定可以参见上文中对于应用于车联网的数据清洗方法的限定,在此不再赘述。上述应用于车联网的数据清洗装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种应用于车联网的数据清洗方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取车联网数据使用者对于车联网数据的质量要求信息;所述质量要求信息包括准确性、完整性、连续性和唯一性中的至少一种;
根据所述质量要求信息,对所述车联网数据进行清洗,获取清洗后的车联网数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:对所述车联网数据进行异常数据识别处理,获取所述车联网数据中的异常数据和缺失数据;根据所述质量要求信息,对所述车联网数据中的异常数据和缺失数据进行清洗处理,获取清洗后的车联网数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:若所述质量要求信息为准确性,删除所述车联网数据中的异常数据和缺失数据获取清洗后的车联网数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:若所述质量要求信息为准确性和连续性,将所述车联网数据中的异常数据视为缺失数据;根据所述缺失数据的长度,对所述缺失数据进行对应的处理,获取清洗后的车联网数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据所述缺失数据的长度,判断所述缺失数据是否为单个缺失数据;若所述缺失数据为单个缺失数据,根据所述缺失数据的前后数据值进行插值补植,补植完成后获取清洗后的车联网数据;若所述缺失数据为连续缺失数据,删除所述车联网数据中的缺失数据获取清洗后的车联网数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:若所述缺失数据为单个缺失数据,计算所述缺失数据前一个数据和所述缺失数据后一个数据的平均值作为补植;以所述补植作为所述缺失数据的值,获取清洗后的车联网数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:若所述质量要求信息为准确性和完整性,将所述车联网数据中的异常数据视为缺失数据;根据所述车联网数据的时间戳判断所述缺失数据的长度是否超过所述车联网数据长度的三分之一;若所述缺失数据的长度超过所述车联网数据长度的三分之一,删除所述缺失数据;若所述缺失数据的长度未超过所述车联网数据长度的三分之一,使用样条插值或线性插值的方法对所述缺失数据进行数据填充,获取清洗后的车联网数据。
上述计算机设备,通过获取车联网数据使用者对于车联网数据的质量要求信息,其中质量要求信息包括准确性、完整性、连续性和唯一性中的至少一种,并根据所述质量要求信息,对所述车联网数据进行数据清洗,获取清洗后的车联网数据,能够灵活的根据数据使用者的质量要求有针对性的处理异常数据,提高了对于车联网数据清洗的准确度。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取车联网数据使用者对于车联网数据的质量要求信息;所述质量要求信息包括准确性、完整性、连续性和唯一性中的至少一种;
根据所述质量要求信息,对所述车联网数据进行清洗,获取清洗后的车联网数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:对所述车联网数据进行异常数据识别处理,获取所述车联网数据中的异常数据和缺失数据;根据所述质量要求信息,对所述车联网数据中的异常数据和缺失数据进行清洗处理,获取清洗后的车联网数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:若所述质量要求信息为准确性,删除所述车联网数据中的异常数据和缺失数据获取清洗后的车联网数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:若所述质量要求信息为准确性和连续性,将所述车联网数据中的异常数据视为缺失数据;根据所述缺失数据的长度,对所述缺失数据进行对应的处理,获取清洗后的车联网数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据所述缺失数据的长度,判断所述缺失数据是否为单个缺失数据;若所述缺失数据为单个缺失数据,根据所述缺失数据的前后数据值进行插值补植,补植完成后获取清洗后的车联网数据;若所述缺失数据为连续缺失数据,删除所述车联网数据中的缺失数据获取清洗后的车联网数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:若所述缺失数据为单个缺失数据,计算所述缺失数据前一个数据和所述缺失数据后一个数据的平均值作为补植;以所述补植作为所述缺失数据的值,获取清洗后的车联网数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:若所述质量要求信息为准确性和完整性,将所述车联网数据中的异常数据视为缺失数据;根据所述车联网数据的时间戳判断所述缺失数据的长度是否超过所述车联网数据长度的三分之一;若所述缺失数据的长度超过所述车联网数据长度的三分之一,删除所述缺失数据;若所述缺失数据的长度未超过所述车联网数据长度的三分之一,使用样条插值或线性插值的方法对所述缺失数据进行数据填充,获取清洗后的车联网数据。
上述存储介质,通过获取车联网数据使用者对于车联网数据的质量要求信息,其中质量要求信息包括准确性、完整性、连续性和唯一性中的至少一种,并根据所述质量要求信息,对所述车联网数据进行数据清洗,获取清洗后的车联网数据,能够灵活的根据数据使用者的质量要求有针对性的处理异常数据,提高了对于车联网数据清洗的准确度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种应用于车联网的数据清洗方法,其特征在于,所述方法包括:
获取车联网数据使用者对于车联网数据的质量要求信息;所述质量要求信息包括准确性、完整性、连续性和唯一性中的至少一种;
根据所述质量要求信息,对所述车联网数据进行清洗,获取清洗后的车联网数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述质量要求信息,对所述车联网数据进行清洗,获取清洗后的车联网数据包括:
对所述车联网数据进行异常数据识别处理,获取所述车联网数据中的异常数据和缺失数据;
根据所述质量要求信息,对所述车联网数据中的异常数据和缺失数据进行清洗处理,获取清洗后的车联网数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述质量要求信息,对所述车联网数据中的异常数据和缺失数据进行清洗处理,获取清洗后的车联网数据包括:
若所述质量要求信息为准确性,删除所述车联网数据中的异常数据和缺失数据获取清洗后的车联网数据。
4.根据权利要求3所述的方法,其特征在于,所述根据所述质量要求信息,对所述车联网数据中的异常数据和缺失数据进行清洗处理,获取清洗后的车联网数据还包括:
若所述质量要求信息为准确性和连续性,将所述车联网数据中的异常数据视为缺失数据;
根据所述缺失数据的长度,对所述缺失数据进行对应的处理,获取清洗后的车联网数据。
5.根据权利要求4所述的方法,其特征在于,所述根据所述缺失数据的长度,对所述缺失数据进行对应的处理,获取清洗后的车联网数据包括:
根据所述缺失数据的长度,判断所述缺失数据是否为单个缺失数据;
若所述缺失数据为单个缺失数据,根据所述缺失数据的前后数据值进行插值补植,补植完成后获取清洗后的车联网数据;
若所述缺失数据为连续缺失数据,删除所述车联网数据中的缺失数据获取清洗后的车联网数据。
6.根据权利要求5所述的方法,其特征在于,所述若所述缺失数据为单个缺失数据,根据所述缺失数据的前后数据值进行插值补植,补植完成后获取清洗后的车联网数据包括:
若所述缺失数据为单个缺失数据,计算所述缺失数据前一个数据和所述缺失数据后一个数据的平均值作为补植;
以所述补植作为所述缺失数据的值,获取清洗后的车联网数据。
7.根据权利要求4所述的方法,其特征在于,所述根据所述质量要求信息,对所述车联网数据中的异常数据和缺失数据进行清洗处理,获取清洗后的车联网数据还包括:
若所述质量要求信息为准确性和完整性,将所述车联网数据中的异常数据视为缺失数据;
根据所述车联网数据的时间戳判断所述缺失数据的长度是否超过所述车联网数据长度的三分之一;
若所述缺失数据的长度超过所述车联网数据长度的三分之一,删除所述缺失数据;
若所述缺失数据的长度未超过所述车联网数据长度的三分之一,使用样条插值或线性插值的方法对所述缺失数据进行数据填充,获取清洗后的车联网数据。
8.一种应用于车联网的数据清洗装置,其特征在于,所述装置包括:
获取模块,用于获取车联网数据使用者对于车联网数据的质量要求信息;所述质量要求信息包括准确性、完整性、连续性和唯一性中的至少一种;
清洗模块,用于根据所述质量要求信息,对所述车联网数据进行清洗,获取清洗后的车联网数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110630675.4A CN113268476A (zh) | 2021-06-07 | 2021-06-07 | 应用于车联网的数据清洗方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110630675.4A CN113268476A (zh) | 2021-06-07 | 2021-06-07 | 应用于车联网的数据清洗方法、装置和计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113268476A true CN113268476A (zh) | 2021-08-17 |
Family
ID=77234339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110630675.4A Pending CN113268476A (zh) | 2021-06-07 | 2021-06-07 | 应用于车联网的数据清洗方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113268476A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114321360A (zh) * | 2022-01-04 | 2022-04-12 | 一汽解放汽车有限公司 | 手动挡变速箱挡位识别方法、装置和计算机设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255480A (zh) * | 2018-08-30 | 2019-01-22 | 中国平安人寿保险股份有限公司 | 间佣率预测方法、装置、计算机设备及存储介质 |
CN110162519A (zh) * | 2019-04-17 | 2019-08-23 | 苏宁易购集团股份有限公司 | 数据清理方法 |
CN110502509A (zh) * | 2019-08-27 | 2019-11-26 | 广东工业大学 | 一种基于Hadoop与Spark框架的交通大数据清洗方法及相关装置 |
CN111415683A (zh) * | 2020-02-13 | 2020-07-14 | 中国平安人寿保险股份有限公司 | 语音识别异常告警方法、装置、计算机设备和存储介质 |
CN111563071A (zh) * | 2020-04-03 | 2020-08-21 | 深圳价值在线信息科技股份有限公司 | 数据清洗方法、装置、终端设备及计算机可读存储介质 |
CN112214481A (zh) * | 2020-10-27 | 2021-01-12 | 深圳供电局有限公司 | 一种电能质量数据的数据清洗方法 |
CN112287178A (zh) * | 2020-10-30 | 2021-01-29 | 腾讯科技(深圳)有限公司 | 数据清洗方法、装置、电子设备及存储介质 |
-
2021
- 2021-06-07 CN CN202110630675.4A patent/CN113268476A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255480A (zh) * | 2018-08-30 | 2019-01-22 | 中国平安人寿保险股份有限公司 | 间佣率预测方法、装置、计算机设备及存储介质 |
CN110162519A (zh) * | 2019-04-17 | 2019-08-23 | 苏宁易购集团股份有限公司 | 数据清理方法 |
CN110502509A (zh) * | 2019-08-27 | 2019-11-26 | 广东工业大学 | 一种基于Hadoop与Spark框架的交通大数据清洗方法及相关装置 |
CN111415683A (zh) * | 2020-02-13 | 2020-07-14 | 中国平安人寿保险股份有限公司 | 语音识别异常告警方法、装置、计算机设备和存储介质 |
CN111563071A (zh) * | 2020-04-03 | 2020-08-21 | 深圳价值在线信息科技股份有限公司 | 数据清洗方法、装置、终端设备及计算机可读存储介质 |
CN112214481A (zh) * | 2020-10-27 | 2021-01-12 | 深圳供电局有限公司 | 一种电能质量数据的数据清洗方法 |
CN112287178A (zh) * | 2020-10-30 | 2021-01-29 | 腾讯科技(深圳)有限公司 | 数据清洗方法、装置、电子设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114321360A (zh) * | 2022-01-04 | 2022-04-12 | 一汽解放汽车有限公司 | 手动挡变速箱挡位识别方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Weber et al. | Embedded hybrid anomaly detection for automotive CAN communication | |
Bernstein et al. | On the correct use of the negation map in the Pollard rho method | |
CN109684328B (zh) | 一种高维时序数据压缩存储方法 | |
CN108809704B (zh) | 基于动态时间窗的数据去重统计方法及装置 | |
CN113268476A (zh) | 应用于车联网的数据清洗方法、装置和计算机设备 | |
Baer et al. | Legality and other properties of graph models of computations | |
CN116720551B (zh) | 脉冲神经网络的卷积加速方法及卷积加速器 | |
CN112632446A (zh) | 页面访问路径的构建方法及系统 | |
CN112131274A (zh) | 时间序列异常点的检测方法、装置、设备及可读存储介质 | |
CN110147289B (zh) | 异常消息筛选方法和装置以及计算机可读存储介质 | |
CN111324433A (zh) | 一种数据计算的方法及相关设备 | |
CN114546999A (zh) | 一种数据清理方法、装置、电子设备及存储介质 | |
Weaver et al. | Extending existential quantification in conjunctions of BDDs | |
CN115982224A (zh) | 为多变量时序数据异常检测提供解释性 | |
CN111061711A (zh) | 一种基于数据处理行为的大数据流卸载方法和装置 | |
Räth et al. | Interactive data cleaning for real-time streaming applications | |
CN110992129A (zh) | 车辆订单匹配方法、装置、计算机设备和存储介质 | |
Zhang et al. | Towards backbone computing: A Greedy-Whitening based approach | |
CN110991659A (zh) | 异常节点识别方法、装置、电子设备及存储介质 | |
CN111753949B (zh) | 一种数据块处理方法、装置及电子设备 | |
CN112015799B (zh) | Etl任务执行方法、装置、计算机设备及存储介质 | |
CN117273102B (zh) | 用于池化加速器的装置及方法和芯片电路及计算设备 | |
CN117289948A (zh) | 算子消除方法、装置、系统、电子设备和存储介质 | |
Savitskii | Eliminating Inequalities in Register Machines with Counters | |
CN112115127A (zh) | 一种基于python脚本的分布式大数据清洗方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210817 |
|
RJ01 | Rejection of invention patent application after publication |