CN112100497B - 一种数据处理方法、装置、电子设备及可读存储介质 - Google Patents
一种数据处理方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN112100497B CN112100497B CN202010963861.5A CN202010963861A CN112100497B CN 112100497 B CN112100497 B CN 112100497B CN 202010963861 A CN202010963861 A CN 202010963861A CN 112100497 B CN112100497 B CN 112100497B
- Authority
- CN
- China
- Prior art keywords
- data
- electric vehicles
- electric vehicle
- operating
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Electric Propulsion And Braking For Vehicles (AREA)
Abstract
本申请提供了一种数据处理方法、装置、电子设备及可读存储介质,其中,该方法包括:获取每个运营电动车辆的第一运行数据以及第一运行数据的数量;确定每个运营电动车辆的第一运行数据中出现目标错误类型的第二运行数据的数量;针对每种目标错误类型,计算每个运营电动车辆中第二运行数据的数量与第一运行数据的数量的占比;根据第二运行数据的数量与第一运行数据的数量的占比,对运营电动车辆进行数据质量聚类,得到针对运营电动车辆的数据质量聚类结果。本申请实施例提供不仅可以对大量的第一运行数据同时进行处理,也可以对大量的运营电动车辆同时进行处理,从而提供处理效率。
Description
技术领域
本申请涉及信息技术领域,尤其是涉及一种数据处理方法、装置、电子设备及可读存储介质。
背景技术
电动车,即电力驱动车,又名电驱车。电动车分为交流电动车和直流电动车。通常说的电动车是以电池作为能量来源,通过控制器、电机等部件,将电能转化为机械能运动,以控制电流大小改变速度的车辆。
随着电动车数量的日益增多,车辆运行数据也越来越多。电动车运营平台可以根据车辆运行数据监控车辆运行状态。但是经常由于车辆与服务器通讯中断、数据解析错误和数据存储失败等原因,导致获取到的车辆运行数据质量不高,因此需要对车辆运行数据进行处理。
目前对车辆运行数据进行处理的方式主要是通过人工的方式,但是这种处理车辆运行数据的方式占用了数据处理人员大量时间,处理效率低下。
发明内容
有鉴于此,本申请的目的在于提供一种数据处理方法、装置、电子设备及可读存储介质,以提高数据处理效率。
第一方面,本申请实施例提供了一种数据处理方法,包括:
获取每个运营电动车辆的第一运行数据以及所述第一运行数据的数量;
确定每个运营电动车辆的第一运行数据中出现目标错误类型的第二运行数据的数量;
针对每种目标错误类型,计算每个运营电动车辆中所述第二运行数据的数量与所述第一运行数据的数量的占比;
根据所述第二运行数据的数量与所述第一运行数据的数量的占比,对所述运营电动车辆进行数据质量聚类,得到针对所述运营电动车辆的数据质量聚类结果。
第二方面,本申请实施例还提供一种数据处理装置,包括:
获取模块,用于获取每个运营电动车辆的第一运行数据以及所述第一运行数据的数量;
第一确定模块,用于确定每个运营电动车辆的第一运行数据中出现目标错误类型的第二运行数据的数量;
第一计算模块,用于针对每种目标错误类型,计算每个运营电动车辆中所述第二运行数据的数量与所述第一运行数据的数量的占比;
聚类模块,用于根据所述第二运行数据的数量与所述第一运行数据的数量的占比,对所述运营电动车辆进行数据质量聚类,得到针对所述运营电动车辆的数据质量聚类结果。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面中任一种可能的实施方式中的步骤。
本申请实施例提供的一种数据处理方法,包括:首先获取每个运营电动车辆的第一运行数据以及第一运行数据的数量;然后确定每个运营电动车辆的第一运行数据中出现目标错误类型的第二运行数据的数量;然后针对每种目标错误类型,计算每个运营电动车辆中第二运行数据的数量与第一运行数据的数量的占比;最后根据第二运行数据的数量与第一运行数据的数量的占比,对运营电动车辆进行数据质量聚类,得到针对运营电动车辆的数据质量聚类结果。本申请实施例提供通过筛选出出现目标错误类型的第二运行数据的数量,然后根据每个运营电动车辆中出现每种目标错误类型的第二运行数据的数量与第一运行数据的数量的占比,进行数据质量聚类,不仅可以对大量的第一运行数据同时进行处理,也可以对大量的运营电动车辆同时进行处理,最终得到针对运营电动车辆的数据质量聚类结果,相比于现有技术中通过人工处理数据的方式,可以提高处理效率。
本申请实施例提供的一种数据处理方法,通过筛选出第三运行数据的数量之和最大的预设错误类型作为目标错误类型,然后确定运营电动车辆的第一运行数据中出现目标错误类型的第二运行数据的数量,本申请实施例可以针对目标错误类型对第二运行数据进行处理,可以针对性地对数据处理,不必对所有数据进行处理,从而可以提高处理效率。
本申请实施例提供的一种数据处理方法,通过使用欧几里得距离公式对第二运行数据的数量与第一运行数据的数量的占比进行数据质量聚类,可以简单快速地对数据进行处理,并且聚类效果好,从而可以提高处理效率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种数据处理方法的流程图;
图2示出了本申请实施例所提供的另一种数据处理方法的流程图;
图3示出了本申请实施例所提供的一种数据处理装置的结构示意图;
图4示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种数据处理方法、装置、电子设备及可读存储介质,下面通过实施例进行描述。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种数据处理方法进行详细介绍。如图1所示的一种数据处理方法的流程图中,包括以下步骤:
S101:获取每个运营电动车辆的第一运行数据以及第一运行数据的数量;
S102:确定每个运营电动车辆的第一运行数据中出现目标错误类型的第二运行数据的数量;
S103:针对每种目标错误类型,计算每个运营电动车辆中第二运行数据的数量与第一运行数据的数量的占比;
S104:根据第二运行数据的数量与第一运行数据的数量的占比,对运营电动车辆进行数据质量聚类,得到针对运营电动车辆的数据质量聚类结果。
步骤S101中,运营电动车辆指的是在运营状态时能够提供服务的电动车辆,可以包括电动汽车和电动自行车等。这里的运营电动车辆可以包括交流电动车和直流电动车。
运营电动车辆可以是共享服务平台下的或者租赁服务平台下的或者其他可能情况的运营车辆。
第一运行数据指的是运营电动车辆处于运行状态下的数据,可以包括运营状态的或者非运营状态下的数据。
执行本方法的执行主体可以从云数据库中下载预设时间段内运营电动车辆运行时的第一运行数据,也可以在预设时间段内实时获取运营电动车辆上传的第一运行数据。
获取预设时间段内的第一运行数据时可以是以月为单位进行获取,例如获取从2019.01.01到2019.06.31这6个月内的第一运行数据。
在本申请实施例中考虑到不同型号或者不同类型的运营电动车辆,其运行数据包含的内容不一定完全一样,因此为了实现对包含的内容相同的第一运行数据进行批量处理,这里的运营电动车辆可以为相同类型的运营电动车辆。针对相同类型的运营电动车辆,第一运行数据包含的内容均相同。
这里第一运行数据可以包括以下至少一种或多种:电池总电压、电池总电流、单体电池电压、电池电荷状态、电池温度、车辆平均运行速度和车辆运行总里程。
其中,电池总电压为运营电动车辆处于运行状态下的单体电池电压之和;电池总电流为运营电动车辆处于运行状态下的单体电池电流之和;电池电荷状态为运营电动车辆处于运行状态下的超级电容荷电状态(super capacitor state of charge,简称SOC);电池温度指的是运营电动车辆处于运行状态下的电池温度;车辆平均运行速度为一定时间段内运营电动车辆处于运行状态下的速度平均值;车辆运行总里程为运营电动车辆处于运行状态下的运行里程之和。
在一些实施方式中,第一运行数据除上述数据之外,还可以包括最小单体电池电压、最大单体电池电压、最小电池温度、最大电池温度、车辆运行时间等数据。
因此第一运行数据主要包括电池管理系统(bettery management system,简称BMS)国标数据(例如电池总电压、电池总电流、单体电池电压、电池电荷状态和电池温度等)以及车辆行驶信息(例如车辆平均运行速度和车辆运行总里程等)。
在步骤S101中除获取每个运营电动车辆的第一运行数据之外,还可以获取第一运行数据所对应的数量。
第一运行数据可以是以行进行保存的,因此这里分别获取第一运行数据的行数,可以记为mumtot。
在步骤S102中,由于获取的第一运行数据存在记录或者存储错误的情况,因此,第一运行数据中容易出现各种错误数据,根据对第一运行数据中错误数据的统计,通常容易出现以下几种类型的错误数据:数据重复、数据丢失、数据错误和数据空值。
其中,数据重复指的是相同的数据重复出现的情况。
数据丢失指的是数据丢包,由于运行电动车辆与服务器通信失败等原因,造成上传的数据丢包,在具体实施中,可以根据车辆运行时间和车辆运行里程数据确定是否发生数据丢包,以电动自行车为例,假设电动自行车平均车速为25km/h,设置里程每增加1km产生一条第一运行数据,计算10小时内产生的第一运行数据(这里指的是车辆运行总里程)的数量,正常情况下10小时后获取的第一运行数据的数量应该为250条,如果实际清苦下10小时后获取的第一运行数据的数量小于250条,显然发生了数据丢包,也就是数据丢失。
数据错误指的是第一运行数据超出预设阈值的情况,举例来说,通常包括以下几种情况:1、电池总电压超出单体电池电压正常值之和;2、单体电池电压低于3V或者高于4.25V;3、电池电荷状态低于零或者大于100;4、车辆平均运行速度小于零或者或者大于200;5、电池温度低于-10摄氏温度,或者高于60摄氏温度;6、当前车辆运行总里程小于上次车辆运行总里程等。
数据空值指的是第一运行数据对应的数据为空。
每个运营电动车辆的第一运行数据中可能出现多种错误类型,在具体实施过程中,可以确定每个运营电动车辆的第一运行数据中出现目标错误类型的第二运行数据的数量。
其中目标错误类型指的是上述错误类型中的一种或多种,即目标错位类型可以包括以下一种或多种:数据重复、数据丢失、数据错误和数据空值。
考虑到每个运营电动车辆的第一运行数据中出现的错误类型不一定相同,且出现相同错误类型的第二运行数据的数量也不一定相同,因此在一种可行的实施方式中可以根据出现相同错误类型的第二运行数据的数量之和确定目标错误类型,具体地步骤S102可以按照如图2所示的另一种数据处理方法中包含的步骤执行:
S1021:确定每个运营电动车辆的第一运行数据中出现每种预设错误类型的第三运行数据的数量;
S1022:针对每种错误类型,确定运营电动车辆出现该预设错误类型的第三运行数据的数量之和;
S1023:筛选出第三运行数据的数量之和最大的预设错误类型作为目标错误类型;
S1024:针对每个运营电动车辆,确定该运营电动车辆的第一运行数据中出现目标错误类型的第二运行数据的数量。
在步骤S1021中,预设错误类型可以是人为预先设置的错误类型。
针对每个运营电动车辆,分别计算出现每种预设错误类型的第三运行数据的数量。如表1所示,针对1-10号电动车,预设错误类型包括:数据重复、数据丢失、数据错误和数据空值。mumdouble表示出现数据重复的第三运行数据的数量;mumnull表示出现数据空值的第三运行数据的数量;mumerror表示出现数据错误的第三运行数据的数量;muminexistence表示出现数据丢失的第三运行数据的数量;mumtot表示第一运行数据的总数量。
表1
通过表1可知,针对每个运营电动车辆,可以确定出第一运行数据中出现每种错误类型的第三运行数据的数量,例如针对1号车辆,第一运行数据的总数量为57186,其中出现数据重复的第三运行数据的数量为零,出现数据空值的第三运行数据的数量为零,出现数据错误的第三运行数据的数量为96,出现数据丢失的第三运行数据的数量为2910。
在步骤S1022中,针对每种预设错误类型,可以分别计算所有运营电动车辆出现该预设错误类型的第三运行数据的数量之和。
以上述表1为例,10辆电动车中,可以分别计算出现数据重复的第三运行数据的数量之和、出现数据空值的第三运行数据的数量之和、出现数据错误的第三运行数据的数量之和以及表示出现数据丢失的第三运行数据的数量之和。
通过计算结果可知,出现数据丢失的第三运行数据的数量之和的数值是最大的,出现数据错误的第三运行数据的数量之和的数值次之,出现数据空值的第三运行数据的数量之和的数值最小。
因此在步骤S1023中,考虑到出现预设错误类型的第三运行数据的数量之和的数值最大时,对数据质量的影响可能是最大的,因此这里可以选择第三运行数据的数量之和最大的预设错误类型作为目标错误类型,以在步骤S1024中针对每个运营电动车辆,确定该运营电动车辆的第一运行数据中出现目标错误类型的第二运行数据的数量,从而对出现目标错误类型的第二运行数据进行处理。
在一种可行的实施方式中,也可以按照出现预设错误类型的第三运行数据的数量之和从小到大或者从大到小的顺序,筛选预设个数的预设错位类型作为目标错误类型。
在一种可行的实施方式中,也可以指定预设错误类型中的一个或者几个错误类型作为目标错误类型。
在步骤S103中,可以针对每种目标错误类型,对每个运营电动车辆进行数据的数量比例计算,即针对每种目标错误类型,计算每个运营电动车辆中第二运行数据的数量与第一运行数据的数量的占比。具体地可以按照以下公式进行计算:
其中,x可以为“double”、“null”、“error”、“inexistence”等。
在步骤S104中,数据质量聚类可以指的是按照数据距离聚类,即按照数据距离对数据质量进行评价。
具体的,可以分别以每个运营电动车辆中第二运行数据的数量与第一运行数据的数量的占比为中心点,计算该运营电动车辆与其他运营电动车辆的数据距离。
在一种可行的实施方式中,步骤S103可以按照以下步骤执行:
S1031:针对每个运营电动车辆,根据第二运行数据的数量与第一运行数据的数量的占比,计算该运营电动车辆与其他运营电动车辆的欧几里得距离;
S1032:根据每个运营电动车辆与其他运营电动车辆的欧几里得距离,得到针对运营电动车辆的数据质量聚类结果。
在步骤S1031中,可以采用欧几里得距离公式:计算每个运营电动车辆与其他运营电动车辆的数据距离,其中(x1,y1)可以为中心点坐标,(x2,y2)其他点的坐标,可以将第二运行数据的数量与第一运行数据的数量的占比作为点的坐标,每个点代表对应的运营电动车辆。
考虑到本申请实施例中是根据第二运行数据的数量与第一运行数据的数量的占比,计算该运营电动车辆与其他运营电动车辆的欧几里得距离的,而欧几里得距离公式中的点的坐标是二维坐标,因此可以根据每个运营电动车辆出现两种目标错误类型的第二运行数据的数量与第一运行数据的数量的占比,计算该运营电动车辆与其他运营电动车辆的欧几里得距离。
例如,可以根据出现数据丢失的第二运行数据的数量与第一运行数据的数量的占比以及出现数据错误的第二运行数据的数量与第一运行数据的数量的占比作为每个点的坐标值。
在步骤S1032中,根据每个运营电动车辆与其他运营电动车辆的欧几里得距离,即可得到针对运营电动车辆的数据质量聚类结果。
在具体实施过程中,可以对数据质量进行高低分类,也就是将数据质量结果分为两种。当然,根据实际情况还可以分成多种,例如高、中、低。
在一种可行的实施方式中,上述步骤S1031-1032的过程还可以通过数据质量聚类模型执行。具体地,可以将第三运行数据的数量与第二运行数据的数量的占比输入至已经训练完成的数据质量聚类模型中,得到针对运营电动车辆的数据质量聚类结果。
在具体实施过程中,得到针对运营电动车辆的数据质量聚类结果后,还可以执行S104的步骤:根据数据质量聚类结果,从运营电动车辆中筛选出数据质量符合预设要求的目标运营电动车辆。
在一种可行的实施方式中,具体可以按照以下步骤执行:
S201:判断目标运营电动车辆的数量是否达到预设数量;
S202:若目标运营电动车辆的数量未达到预设数量,则针对剩余运营电动车辆重复执行根据第二运行数据的数量与第一运行数据的数量的占比,对剩余运营电动车辆进行数据质量聚类,得到针对运营电动车辆的数据质量聚类结果,根据数据质量聚类结果,从剩余运营电动车辆中筛选出数据质量符合预设要求的目标运营电动车辆的步骤,直至目标运营电动车辆的数量达到预设数量。
在步骤S201-S202中,当目标运营电动车辆的数量未达到预设数量时,可以从剩余运营电动车辆中选择数据质量符合预设要求的目标运营电动车辆,具体的实施过程可以按照S103-S104的步骤重复执行,直至目标运营电动车辆的数量达到预设数量。
在一种可行的实施方式中,具体可以按照以下步骤执行:
S203:判断对运营电动车辆进行数据质量聚类的次数是否达到预设次数;
S204:若对运营电动车辆进行数据质量聚类的次数未达到预设次数,则针对剩余运营电动车辆重复执行根据第二运行数据的数量与第一运行数据的数量的占比,对剩余运营电动车辆进行数据质量聚类,得到针对运营电动车辆的数据质量聚类结果,根据数据质量聚类结果,从剩余运营电动车辆中筛选出数据质量符合预设要求的目标运营电动车辆的步骤,直至对运营电动车辆进行数据质量聚类的次数达到预设次数。
在步骤S203-S204中,当对运营电动车辆进行数据质量聚类的次数未达到预设次数时,可以从剩余运营电动车辆中选择数据质量符合预设要求的目标运营电动车辆,具体的实施过程也可以按照S103-S104的步骤重复执行,直至对运营电动车辆进行数据质量聚类的次数未达到预设次数。
通过本申请实施例的方法,可以对大量的运行数据进行同时处理,也可以对大量的运营电动车辆进行同时处理,最终得到针对运营电动车辆的数据质量聚类结果,相比于人工处理数据的方式,可以提高处理效率。
基于相同的技术构思,本申请实施例还提供一种数据处理装置、电子设备、以及计算机可读存储介质等,具体可参见以下实施例。
图3是示出本申请的一些实施例的数据处理装置的框图,该数据处理装置实现的功能对应上述在终端设备上执行数据处理方法的步骤。该装置可以理解为一个包括处理器的服务器的组件,该组件能够实现上述数据处理方法,如图3所示,该数据处理装置可以包括:
获取模块301,用于获取每个运营电动车辆的第一运行数据以及所述第一运行数据的数量;
第一确定模块302,用于确定每个运营电动车辆的第一运行数据中出现目标错误类型的第二运行数据的数量;
第一计算模块303,用于针对每种目标错误类型,计算每个运营电动车辆中所述第二运行数据的数量与所述第一运行数据的数量的占比;
聚类模块304,用于根据所述第二运行数据的数量与所述第一运行数据的数量的占比,对所述运营电动车辆进行数据质量聚类,得到针对所述运营电动车辆的数据质量聚类结果。
在一种可行的实施方式中,所述第一确定模块302,包括:
第二确定模块,用于确定每个运营电动车辆的第一运行数据中出现每种预设错误类型的第三运行数据的数量;
第三确定模块,用于针对每种预设错误类型,确定所述运营电动车辆出现该预设错误类型的第三运行数据的数量之和;
第一筛选模块,用于筛选出第三运行数据的数量之和最大的预设错误类型作为目标错误类型;
第四确定模块,用于针对每个运营电动车辆,确定该运营电动车辆的第一运行数据中出现所述目标错误类型的第二运行数据的数量。
在一种可行的实施方式中,所述聚类模块304,包括:
第二计算模块,用于针对每个运营电动车辆,根据所述第二运行数据的数量与所述第一运行数据的数量的占比,计算该运营电动车辆与其他运营电动车辆的欧几里得距离;
处理模块,用于根据每个运营电动车辆与其他运营电动车辆的欧几里得距离,得到针对所述运营电动车辆的数据质量聚类结果。
在一种可行的实施方式中,该数据处理装置还可以包括:第二筛选模块,用于根据所述数据质量聚类结果,从所述运营电动车辆中筛选出数据质量符合预设要求的目标运营电动车辆。
在一种可行的实施方式中,该数据处理装置还可以包括:第一判断模块,用于判断所述目标运营电动车辆的数量是否达到预设数量;
第一执行模块,用于若所述目标运营电动车辆的数量未达到预设数量,则针对剩余运营电动车辆重复执行根据所述第二运行数据的数量与所述第一运行数据的数量的占比,对所述剩余运营电动车辆进行数据质量聚类,得到针对所述运营电动车辆的数据质量聚类结果,根据所述数据质量聚类结果,从所述剩余运营电动车辆中筛选出数据质量符合预设要求的目标运营电动车辆的步骤,直至所述目标运营电动车辆的数量达到预设数量。
在一种可行的实施方式中,该数据处理装置还可以包括:第二判断模块,用于判断对所述运营电动车辆进行数据质量聚类的次数是否达到预设次数;
第二执行模块,用于若对运营电动车辆进行数据质量聚类的次数未达到预设次数,则针对剩余运营电动车辆重复执行根据所述第二运行数据的数量与所述第一运行数据的数量的占比,对所述剩余运营电动车辆进行数据质量聚类,得到针对所述运营电动车辆的数据质量聚类结果,根据所述数据质量聚类结果,从所述剩余运营电动车辆中筛选出数据质量符合预设要求的目标运营电动车辆的步骤,直至对运营电动车辆进行数据质量聚类的次数达到预设次数。
在一种可行的实施方式中,所述聚类模块304,包括:
输入模块,用于将所述第三运行数据的数量与所述第二运行数据的数量的占比输入至已经训练完成的数据质量聚类模型中,得到针对所述运营电动车辆的数据质量聚类结果。
在一种可行的实施方式中,所述第一运行数据包括以下至少一种或多种:
电池总电压、电池总电流、单体电池电压、电池电荷状态、电池温度、车辆平均运行速度和车辆运行总里程。
在一种可行的实施方式中,所述目标错误类型包括以下至少一种或多种:
数据重复、数据丢失、数据错误和数据空值。
如图4所示,为本申请实施例所提供的一种电子设备的结构示意图,该电子设备包括:处理器401、存储器402和总线403,存储器402存储有执行指令,当电子设备运行时,处理器401与存储器402之间通过总线403通信,处理器401执行存储器402中存储的如图1所示一种数据处理方法的步骤。
本申请实施例所提供的进行数据处理方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (20)
1.一种数据处理方法,其特征在于,包括:
获取每个运营电动车辆的第一运行数据以及所述第一运行数据的数量;
确定每个运营电动车辆的第一运行数据中出现目标错误类型的第二运行数据的数量;
针对每种目标错误类型,计算每个运营电动车辆中所述第二运行数据的数量与所述第一运行数据的数量的占比;
根据所述第二运行数据的数量与所述第一运行数据的数量的占比,对所述运营电动车辆进行数据质量聚类,得到针对所述运营电动车辆的数据质量聚类结果。
2.根据权利要求1所述的数据处理方法,其特征在于,所述确定每个运营电动车辆的第一运行数据中出现目标错误类型的第二运行数据的数量,包括:
确定每个运营电动车辆的第一运行数据中出现每种预设错误类型的第三运行数据的数量;
针对每种预设错误类型,确定所有所述运营电动车辆出现该预设错误类型的第三运行数据的数量之和;
筛选出第三运行数据的数量之和最大的预设错误类型作为目标错误类型;
针对每个运营电动车辆,确定该运营电动车辆的第一运行数据中出现所述目标错误类型的第二运行数据的数量。
3.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述第二运行数据的数量与所述第一运行数据的数量的占比,对所述运营电动车辆进行数据质量聚类,得到针对所述运营电动车辆的数据质量聚类结果,包括:
针对每个运营电动车辆,根据该运营电动车辆出现两种目标错误类型的所述第二运行数据的数量与所述第一运行数据的数量的占比,计算该运营电动车辆与其他运营电动车辆的欧几里得距离;
根据每个运营电动车辆与其他运营电动车辆的欧几里得距离,得到针对所述运营电动车辆的数据质量聚类结果。
4.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:
根据所述数据质量聚类结果,从所述运营电动车辆中筛选出数据质量符合预设要求的目标运营电动车辆。
5.根据权利要求4所述的数据处理方法,其特征在于,还包括:
判断所述目标运营电动车辆的数量是否达到预设数量;
若所述目标运营电动车辆的数量未达到预设数量,则针对剩余运营电动车辆重复执行根据所述第二运行数据的数量与所述第一运行数据的数量的占比,对所述剩余运营电动车辆进行数据质量聚类,得到针对所述运营电动车辆的数据质量聚类结果,根据所述数据质量聚类结果,从所述剩余运营电动车辆中筛选出数据质量符合预设要求的目标运营电动车辆的步骤,直至所述目标运营电动车辆的数量达到预设数量。
6.根据权利要求4所述的数据处理方法,其特征在于,还包括:
判断对所述运营电动车辆进行数据质量聚类的次数是否达到预设次数;
若对运营电动车辆进行数据质量聚类的次数未达到预设次数,则针对剩余运营电动车辆重复执行根据所述第二运行数据的数量与所述第一运行数据的数量的占比,对所述剩余运营电动车辆进行数据质量聚类,得到针对所述运营电动车辆的数据质量聚类结果,根据所述数据质量聚类结果,从所述剩余运营电动车辆中筛选出数据质量符合预设要求的目标运营电动车辆的步骤,直至对运营电动车辆进行数据质量聚类的次数达到预设次数。
7.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述第二运行数据的数量与所述第一运行数据的数量的占比,对所述运营电动车辆进行数据质量聚类,得到针对所述运营电动车辆的数据质量聚类结果,包括:
将所述第二运行数据的数量与所述第一运行数据的数量的占比输入至已经训练完成的数据质量聚类模型中,得到针对所述运营电动车辆的数据质量聚类结果。
8.根据权利要求1所述的数据处理方法,其特征在于,所述第一运行数据包括以下至少一种或多种:
电池总电压、电池总电流、单体电池电压、电池电荷状态、电池温度、车辆平均运行速度和车辆运行总里程。
9.根据权利要求1所述的数据处理方法,其特征在于,所述目标错误类型包括以下至少一种或多种:
数据重复、数据丢失、数据错误和数据空值。
10.一种数据处理装置,其特征在于,包括:
获取模块,用于获取每个运营电动车辆的第一运行数据以及所述第一运行数据的数量;
第一确定模块,用于确定每个运营电动车辆的第一运行数据中出现目标错误类型的第二运行数据的数量;
第一计算模块,用于针对每种目标错误类型,计算每个运营电动车辆中所述第二运行数据的数量与所述第一运行数据的数量的占比;
聚类模块,用于根据所述第二运行数据的数量与所述第一运行数据的数量的占比,对所述运营电动车辆进行数据质量聚类,得到针对所述运营电动车辆的数据质量聚类结果。
11.根据权利要求10所述的数据处理装置,其特征在于,所述第一确定模块,包括:
第二确定模块,用于确定每个运营电动车辆的第一运行数据中出现每种预设错误类型的第三运行数据的数量;
第三确定模块,用于针对每种预设错误类型,确定所有所述运营电动车辆出现该预设错误类型的第三运行数据的数量之和;
第一筛选模块,用于筛选出第三运行数据的数量之和最大的预设错误类型作为目标错误类型;
第四确定模块,用于针对每个运营电动车辆,确定该运营电动车辆的第一运行数据中出现所述目标错误类型的第二运行数据的数量。
12.根据权利要求10所述的数据处理装置,其特征在于,所述聚类模块,包括:
第二计算模块,用于针对每个运营电动车辆,根据该运营电动车辆出现两种目标错误类型的所述第二运行数据的数量与所述第一运行数据的数量的占比,计算该运营电动车辆与其他运营电动车辆的欧几里得距离;
处理模块,用于根据每个运营电动车辆与其他运营电动车辆的欧几里得距离,得到针对所述运营电动车辆的数据质量聚类结果。
13.根据权利要求10所述的数据处理装置,其特征在于,还包括:第二筛选模块,用于根据所述数据质量聚类结果,从所述运营电动车辆中筛选出数据质量符合预设要求的目标运营电动车辆。
14.根据权利要求13所述的数据处理装置,其特征在于,还包括:
第一判断模块,用于判断所述目标运营电动车辆的数量是否达到预设数量;
第一执行模块,用于若所述目标运营电动车辆的数量未达到预设数量,则针对剩余运营电动车辆重复执行根据所述第二运行数据的数量与所述第一运行数据的数量的占比,对所述剩余运营电动车辆进行数据质量聚类,得到针对所述运营电动车辆的数据质量聚类结果,根据所述数据质量聚类结果,从所述剩余运营电动车辆中筛选出数据质量符合预设要求的目标运营电动车辆的步骤,直至所述目标运营电动车辆的数量达到预设数量。
15.根据权利要求13所述的数据处理装置,其特征在于,还包括:
第二判断模块,用于判断对所述运营电动车辆进行数据质量聚类的次数是否达到预设次数;
第二执行模块,用于若对运营电动车辆进行数据质量聚类的次数未达到预设次数,则针对剩余运营电动车辆重复执行根据所述第二运行数据的数量与所述第一运行数据的数量的占比,对所述剩余运营电动车辆进行数据质量聚类,得到针对所述运营电动车辆的数据质量聚类结果,根据所述数据质量聚类结果,从所述剩余运营电动车辆中筛选出数据质量符合预设要求的目标运营电动车辆的步骤,直至对运营电动车辆进行数据质量聚类的次数达到预设次数。
16.根据权利要求10所述的数据处理装置,其特征在于,所述聚类模块,包括:
输入模块,用于将所述第二运行数据的数量与所述第一运行数据的数量的占比输入至已经训练完成的数据质量聚类模型中,得到针对所述运营电动车辆的数据质量聚类结果。
17.根据权利要求10所述的数据处理装置,其特征在于,所述第一运行数据包括以下至少一种或多种:
电池总电压、电池总电流、单体电池电压、电池电荷状态、电池温度、车辆平均运行速度和车辆运行总里程。
18.根据权利要求10所述的数据处理装置,其特征在于,所述目标错误类型包括以下至少一种或多种:
数据重复、数据丢失、数据错误和数据空值。
19.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至9任一所述的数据处理方法的步骤。
20.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至9任一所述的数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010963861.5A CN112100497B (zh) | 2020-09-14 | 2020-09-14 | 一种数据处理方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010963861.5A CN112100497B (zh) | 2020-09-14 | 2020-09-14 | 一种数据处理方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112100497A CN112100497A (zh) | 2020-12-18 |
CN112100497B true CN112100497B (zh) | 2021-10-19 |
Family
ID=73751576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010963861.5A Active CN112100497B (zh) | 2020-09-14 | 2020-09-14 | 一种数据处理方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100497B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010101005A1 (ja) * | 2009-03-05 | 2010-09-10 | 国立大学法人北見工業大学 | 文書自動分類システム |
CN104376057A (zh) * | 2014-11-06 | 2015-02-25 | 南京邮电大学 | 一种基于最大最小距离和K-means的自适应聚类方法 |
CN105825232A (zh) * | 2016-03-15 | 2016-08-03 | 国网北京市电力公司 | 对电动汽车用户进行分类的方法及装置 |
CN106932144A (zh) * | 2017-03-29 | 2017-07-07 | 中国铁道科学研究院 | 基于朴素贝叶斯的轮对残余动不平衡量评估方法及装置 |
CN107341205A (zh) * | 2017-06-23 | 2017-11-10 | 国网上海市电力公司 | 一种基于大数据平台的智能配用电系统 |
CN108573227A (zh) * | 2018-04-09 | 2018-09-25 | 深圳竹信科技有限公司 | 心电图数据质量评价方法及装置 |
CN108847682A (zh) * | 2018-06-15 | 2018-11-20 | 中国电力科学研究院有限公司 | 一种基于运行数据的光伏发电站并网性能评估方法及系统 |
CN109145968A (zh) * | 2018-08-03 | 2019-01-04 | 杭州电力设备制造有限公司 | 一种电能质量故障分类方法、系统、装置及可读存储介质 |
CN109359679A (zh) * | 2018-10-10 | 2019-02-19 | 洪月华 | 适用于广域网的分布式交通大数据并行聚类方法 |
CN109670687A (zh) * | 2018-12-06 | 2019-04-23 | 华中科技大学 | 一种基于粒子群优化支持向量机的质量分析方法 |
CN109902721A (zh) * | 2019-01-28 | 2019-06-18 | 平安科技(深圳)有限公司 | 异常点检测模型验证方法、装置、计算机设备及存储介质 |
CN109948684A (zh) * | 2019-03-12 | 2019-06-28 | 百度在线网络技术(北京)有限公司 | 点云数据标注质量的质检方法、装置及其相关设备 |
CN110489404A (zh) * | 2019-06-24 | 2019-11-22 | 广西电网有限责任公司电力科学研究院 | 一种基于三层架构的配电网领域的全面数据质量管理方法 |
CN111325485A (zh) * | 2020-03-22 | 2020-06-23 | 东北电力大学 | 计及物联带宽约束的轻量级梯度提升机电能质量扰动识别方法 |
CN111459702A (zh) * | 2020-04-14 | 2020-07-28 | 广东海格怡创科技有限公司 | 基于mdt数据的室内分布系统故障监控方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239893A (zh) * | 2017-05-26 | 2017-10-10 | 田贞全 | 一种货车检修内控质量标准的建立系统和建立方法 |
CN109818763B (zh) * | 2017-11-20 | 2022-04-15 | 北京绪水互联科技有限公司 | 设备故障的分析统计方法和系统及设备实时质控方法和系统 |
CN110751747A (zh) * | 2019-10-22 | 2020-02-04 | 东软睿驰汽车技术(沈阳)有限公司 | 一种数据处理方法及装置 |
-
2020
- 2020-09-14 CN CN202010963861.5A patent/CN112100497B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010101005A1 (ja) * | 2009-03-05 | 2010-09-10 | 国立大学法人北見工業大学 | 文書自動分類システム |
CN104376057A (zh) * | 2014-11-06 | 2015-02-25 | 南京邮电大学 | 一种基于最大最小距离和K-means的自适应聚类方法 |
CN105825232A (zh) * | 2016-03-15 | 2016-08-03 | 国网北京市电力公司 | 对电动汽车用户进行分类的方法及装置 |
CN106932144A (zh) * | 2017-03-29 | 2017-07-07 | 中国铁道科学研究院 | 基于朴素贝叶斯的轮对残余动不平衡量评估方法及装置 |
CN107341205A (zh) * | 2017-06-23 | 2017-11-10 | 国网上海市电力公司 | 一种基于大数据平台的智能配用电系统 |
CN108573227A (zh) * | 2018-04-09 | 2018-09-25 | 深圳竹信科技有限公司 | 心电图数据质量评价方法及装置 |
CN108847682A (zh) * | 2018-06-15 | 2018-11-20 | 中国电力科学研究院有限公司 | 一种基于运行数据的光伏发电站并网性能评估方法及系统 |
CN109145968A (zh) * | 2018-08-03 | 2019-01-04 | 杭州电力设备制造有限公司 | 一种电能质量故障分类方法、系统、装置及可读存储介质 |
CN109359679A (zh) * | 2018-10-10 | 2019-02-19 | 洪月华 | 适用于广域网的分布式交通大数据并行聚类方法 |
CN109670687A (zh) * | 2018-12-06 | 2019-04-23 | 华中科技大学 | 一种基于粒子群优化支持向量机的质量分析方法 |
CN109902721A (zh) * | 2019-01-28 | 2019-06-18 | 平安科技(深圳)有限公司 | 异常点检测模型验证方法、装置、计算机设备及存储介质 |
CN109948684A (zh) * | 2019-03-12 | 2019-06-28 | 百度在线网络技术(北京)有限公司 | 点云数据标注质量的质检方法、装置及其相关设备 |
CN110489404A (zh) * | 2019-06-24 | 2019-11-22 | 广西电网有限责任公司电力科学研究院 | 一种基于三层架构的配电网领域的全面数据质量管理方法 |
CN111325485A (zh) * | 2020-03-22 | 2020-06-23 | 东北电力大学 | 计及物联带宽约束的轻量级梯度提升机电能质量扰动识别方法 |
CN111459702A (zh) * | 2020-04-14 | 2020-07-28 | 广东海格怡创科技有限公司 | 基于mdt数据的室内分布系统故障监控方法和装置 |
Non-Patent Citations (2)
Title |
---|
"基于聚类集成的高铁故障诊断分析";陈云风 等;《计算机科学》;20150615;第42卷(第6期);第233-238页 * |
"聚类算法综述";伍育红;《计算机科学》;20150615;第42卷(第6A期);第491-499页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112100497A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7450741B2 (ja) | リチウム電池のsoc推定方法、装置及びコンピュータ読み取り可能な記憶媒体 | |
CN110290972B (zh) | 估计电池单体的充电状态的方法 | |
CN116610092A (zh) | 用于车辆分析的方法和系统 | |
CN115877238B (zh) | 电池容量的检测方法、装置、可读存储介质及电子设备 | |
CN112816885A (zh) | 一种电池异常检测方法、装置、电子设备及存储介质 | |
EP4050527A1 (en) | Estimation program, estimation method, information processing device, relearning program, and relearning method | |
CN113219336A (zh) | 电池劣化判断系统、方法及存储有程序的非临时性存储介质 | |
CN114879070A (zh) | 一种电池状态评估方法及相关设备 | |
CN117301949A (zh) | 车辆及其异常电芯的识别方法、存储介质以及电子设备 | |
CN112100497B (zh) | 一种数据处理方法、装置、电子设备及可读存储介质 | |
CN111002859A (zh) | 识别充电桩私接插排的方法、装置、终端设备及存储介质 | |
CN111736076B (zh) | 电池系统状态判断方法、装置、可读存储介质和电子设备 | |
CN114280485A (zh) | Soc估算及一致性评估方法、装置、计算机设备 | |
CN112782588B (zh) | 一种基于lssvm的soc在线监测方法及其储存介质 | |
CN115327380A (zh) | 电池故障诊断方法、存储介质和电子设备 | |
CN114928302A (zh) | 电机控制器的母线电压采样方法及装置 | |
CN114764600A (zh) | 新能源车电池包的寿命预测方法、装置和电子设备 | |
CN114676781A (zh) | 车辆故障诊断预测方法、装置、设备及车辆 | |
CN110826904B (zh) | 风机的数据处理方法、装置、处理设备及可读存储介质 | |
CN113782092A (zh) | 一种生存期预测模型的生成方法及装置、存储介质 | |
CN113219338A (zh) | 电池劣化判断系统、方法及存储有程序的非临时性存储介质 | |
CN114970648A (zh) | 一种新能源设备识别方法、装置及介质 | |
CN108072840B (zh) | 运行电蓄能系统的方法、电子控制单元和电蓄能系统 | |
CN111186333A (zh) | 电动车充电识别方法、装置、终端设备及存储介质 | |
CN112782584A (zh) | 电池电量的剩余使用额度的预测方法、系统、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |