CN117611420B

CN117611420B - 基于物联网的电动车还车数据处理方法及系统

Info

Publication number: CN117611420B
Application number: CN202410069584.1A
Authority: CN
Inventors: 吴爱华; 林志武
Original assignee: Fuzhirun Intelligent Technology Fujian Co ltd
Current assignee: Fuzhirun Intelligent Technology Fujian Co ltd
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-04-26
Anticipated expiration: 2044-01-18
Also published as: CN117611420A

Abstract

本发明涉及车辆运输管理技术领域，具体涉及一种基于物联网的电动车还车数据处理方法及系统，包括：获取各个历史还车数据序列和当前还车数据序列，基于每个还车数据序列的最佳近邻数量，确定第一可损失因子；分析每个还车数据序列的数据分布规律，获得第二可损失因子；结合当前还车数据序列的第一可损失因子、第二可损失因子以及熵值，获得可损失率，基于可损失率确定当前还车数据序列的压缩方式，对当前还车数据序列进行压缩处理。本发明通过可损失率为当前还车数据序列选取合适的压缩方式，其在保证压缩效果的同时确保了异常数据特征的保留，增强了电动车还车数据处理效果，主要应用于还车数据管理领域。

Description

基于物联网的电动车还车数据处理方法及系统

技术领域

本发明涉及车辆运输管理技术领域，具体涉及一种基于物联网的电动车还车数据处理方法及系统。

背景技术

电动车分为交流电动车和直流电动车。通常说的电动车是以电池作为能量来源，通过控制器、电机等部件，将电能转化为机械能运动，以控制电流大小改变速度的车辆。随着共享电动车的普及，为了便于工作人员跟踪存在异常状态的电动车，需要保留物联网下各个电动车的异常还车数据。但电动车还车数据的数据量较大，若对全部还车数据进行无损压缩处理，则数据处理设备的存储空间将会不足，也就是电动车还车数据的压缩率较高；若对全部还车数据进行有损压缩处理，则无法保留异常还车数据。因此，现有的电动车还车数据处理方法无法在保证还车数据压缩效果的同时避免异常还车数据的丢失，导致电动车还车数据处理效果较差。

发明内容

为了解决上述现有的电动车还车数据处理方法无法在保证还车数据压缩效果的同时避免异常还车数据的丢失，导致电动车还车数据处理效果较差的技术问题，本发明的目的在于提供一种基于物联网的电动车还车数据处理方法及系统，所采用的技术方案具体如下：

本发明一个实施例提供了一种基于物联网的电动车还车数据处理方法，该方法包括以下步骤：

获取电动车的各个历史时间段对应的历史还车数据序列和当前时间段对应的当前还车数据序列；

利用预设数目个近邻数量，对各个历史还车数据序列和当前还车数据序列进行异常检测评价分析，确定各个历史还车数据序列和当前还车数据序列的最佳近邻数量；

根据各个历史还车数据序列和当前还车数据序列的最佳近邻数量，对当前还车数据序列的整体特征变化进行分析，确定当前还车数据序列的第一可损失因子；

根据各个历史还车数据序列和当前还车数据序列，对当前还车数据序列的局部特征变化进行分析，确定当前还车数据序列的第二可损失因子；

根据当前还车数据序列的第一可损失因子、第二可损失因子以及熵值，确定当前还车数据序列对应的压缩方式；其中，所述压缩方式包括有损压缩和无损压缩；

根据当前还车数据序列对应的压缩方式，对当前还车数据序列进行压缩处理。

进一步地，所述利用预设数目个近邻数量，对各个历史还车数据序列和当前还车数据序列进行异常检测评价分析，确定各个历史还车数据序列和当前还车数据序列的最佳近邻数量，包括：

任选一个还车数据序列为选定还车数据序列，利用预设数目个近邻数量，对选定还车数据序列进行异常检测，确定选定还车数据序列对应的各个近邻数量的密度值和离群点数量；其中，所述还车数据序列为历史还车数据序列或当前还车数据序列；

对各个近邻数量按照预设顺序进行排序获得近邻数量序列，在近邻数量序列中任选一个近邻数量为候选近邻数量；将候选近邻数量与其相邻的下一个近邻数量的密度值之间的差值绝对值，确定为候选近邻数量的密度波动指标；

根据选定还车数据序列对应的各个近邻数量的密度值、离群点数量以及密度波动指标，确定选定还车数据序列对应的各个近邻数量的评价指标；

将最大评价指标对应的近邻数量确定为选定还车数据序列的最佳近邻数量。

进一步地，所述根据选定还车数据序列对应的各个近邻数量的密度值、离群点数量以及密度波动指标，确定选定还车数据序列对应的各个近邻数量的评价指标，包括：

对于候选近邻数量，确定候选近邻数量的第一评价因子，所述第一评价因子与候选近邻数量的密度值为正相关且与密度波动指标为负相关；确定候选近邻数量的第二评价因子，所述第二评价因子与候选近邻数量的离群点数量呈现反比例关系；将候选近邻数量的第一评价因子和第二评价因子的乘积确定为候选近邻数量的评价指标。

进一步地，所述根据各个历史还车数据序列和当前还车数据序列的最佳近邻数量，对当前还车数据序列的整体特征变化进行分析，确定当前还车数据序列的第一可损失因子，包括：

根据各个历史还车数据序列的最佳近邻数量，对各个历史还车数据序列进行异常检测，获得各个历史还车数据序列的离群点数量，计算所有历史还车数据序列的离群点数量的平均值；

根据各个历史还车数据序列的离群点数量和所有历史还车数据序列的离群点数量的平均值，确定各个历史还车数据序列的标准偏差；

将所有历史还车数据序列中标准偏差小于偏差阈值的历史还车数据序列对应的离群点数量，确定为可信任离群点数量；

根据当前还车数据序列的最佳近邻数量，获得当前还车数据序列的离群点数量；

根据当前还车数据序列的离群点数量和各个可信任离群点数量，确定当前还车数据序列的第一可损失因子。

进一步地，所述根据当前还车数据序列的离群点数量和各个可信任离群点数量，确定当前还车数据序列的第一可损失因子，包括：

计算所有可信任离群点数量的平均值；将当前还车数据序列的离群点数量与所有可信任离群点数量的平均值之间的差值绝对值，确定为当前还车数据序列的初始第一可损失因子；将反比例归一化处理后的初始第一可损失因子确定为当前还车数据序列的第一可损失因子。

进一步地，所述根据各个历史还车数据序列和当前还车数据序列，对当前还车数据序列的局部特征变化进行分析，确定当前还车数据序列的第二可损失因子，包括：

对于选定还车数据序列，根据选定还车数据序列中每个时间点的还车数据进行曲线拟合，获得选定还车数据曲线；确定选定还车数据曲线中的突变点，将所述突变点确定为选定还车数据曲线的数据分段点；利用各个数据分段点对选定还车数据序列进行分段处理，获得各个选定数据段；其中，所述选定数据段为历史数据段或当前数据段；

根据各个历史数据段和各个当前数据段，确定当前还车数据序列的第二可损失因子。

进一步地，所述根据各个历史数据段和各个当前数据段，确定当前还车数据序列的第二可损失因子，包括：

计算各个历史数据段和各个当前数据段的标准差；对于任意一个当前数据段，将当前数据段的标准差与所有数据段对应的标准差均值之间的差值绝对值，确定为当前数据段的初始标准差变化量；对所述初始标准差变化量进行归一化处理，将归一化处理后的初始标准差变化量确定为标准差变化量；其中，所述所有数据段包括各个历史数据段和各个当前数据段；

统计标准差变化量大于变化量阈值的当前数据段个数；将标准差变化量大于变化量阈值的当前数据段个数与所有当前数据段个数的比值，确定为当前还车数据序列的初始第二可损失因子；将反比例归一化处理后的初始第二可损失因子确定为当前还车数据序列的第二可损失因子。

进一步地，所述根据当前还车数据序列的第一可损失因子、第二可损失因子以及熵值，确定当前还车数据序列对应的压缩方式，包括：

根据当前还车数据序列的第一可损失因子、第二可损失因子以及熵值，确定当前还车数据序列的可损失率；

若当前还车数据序列的可损失率大于可损失率阈值，则判定当前还车数据序列对应的压缩方式为有损压缩，否则，判定当前还车数据序列对应的压缩方式为无损压缩。

进一步地，所述根据当前还车数据序列的第一可损失因子、第二可损失因子以及熵值，确定当前还车数据序列的可损失率，包括：

计算当前还车数据序列的熵值，将反比例归一化处理后的熵值确定为第三可损失因子；将当前还车数据序列的第一可损失因子、第二可损失因子以及第三可损失因子的乘积，确定为当前还车数据序列的可损失率。

本发明的一个实施例还提供了一种基于物联网的电动车还车数据处理系统，包括处理器和存储器，所述处理器用于处理存储在所述存储器中的指令，以实现如所述的一种基于物联网的电动车还车数据处理方法。

本发明具有如下有益效果：

本发明提供了一种基于物联网的电动车还车数据处理方法及系统，通过车辆运输管理技术，分析当前还车数据序列的可损失率，由可损失率确定当前还车数据序列的压缩方式，选取合适的压缩方式对当前还车数据序列进行处理，其在保证压缩效果的同时确保了异常数据特征的保留，增强了电动车还车数据处理效果，主要应用于还车数据管理领域。相比仅获取一个历史还车数据序列，获取电动车的多个历史还车数据序列，有助于提高后续在进行数据计算时的准确性；确定每个还车数据序列的最佳近邻数量，是为了减小或消除因为异常检测算法本身可变值选取不当造成的误差，其能够尽量准确地过滤噪声点和正常点，同时也是为了便于后续进行离群点数量变化的整体分析；基于最佳近邻数量确定的第一可损失因子的精确度较高，第一可损失因子可以被用于表征还车数据序列的整体数据特征的异常程度，对当前还车数据序列的局部特征变化进行分析，可以确定当前还车数据序列的第二可损失因子，第二可损失因子可以被用于表征还车数据序列的局部数据特征的异常程度；从三个角度确定的可损失率的参考价值更高，有助于为当前还车数据序列选择合适的压缩方式，避免出现异常特征还车数据的丢失或压缩率过高的情况，使得压缩后的结果能够有效地保留数据特征，方便电动车还车数据的进一步分析。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一种基于物联网的电动车还车数据处理方法的流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一个实施例。此外，一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

本发明所针对的具体应用场景为：在对电动车还车数据进行压缩处理时，需要保留还车数据的主要特征，如异常还车数据。工作人员将根据异常还车数据的情况，分析电动车各功能的运行状态。现有还车数据处理方法在对可能存在异常的还车数据进行压缩处理时，无法在保证压缩效果的同时避免异常还车数据的丢失，导致还车数据处理效果较差。

为了克服现有还车数据处理方法存在的缺陷，本实施例提供了一种基于物联网的电动车还车数据处理方法，如图1所示，包括以下步骤：

S1，获取电动车的各个历史时间段对应的历史还车数据序列和当前时间段对应的当前还车数据序列。

需要说明的是，还车数据的数据类型可以是电动车的移动距离、还车频率、电池电量或者还车时间等，还车数据随着时间点的变化而变化，或随着还车地点的变化而变化。时间段可以是24个小时，即一整天，如从0点到24点，各个历史时间段和当前时间段在采集数据时的开始时间点和结束节点相同。为了提高比对数据的准确性，将获取多个历史时间段对应的历史还车数据序列，历史时间段的个数可以取经验值为10。还车数据的类型、时间段以及历史时间段的个数均可以由实施者根据具体实际情况设置，这里不作具体限定。

因此，本实施例可以通过电动车上的数据采集设备，获得过去10天内每天对应的历史还车数据序列和当天对应的当前还车数据序列，即获得电动车的各个历史时间段对应的历史还车数据序列和当前时间段对应的当前还车数据序列，其为后续的数据处理做准备。

S2，利用预设数目个近邻数量，对各个历史还车数据序列和当前还车数据序列进行异常检测评价分析，确定各个历史还车数据序列和当前还车数据序列的最佳近邻数量。

需要说明的是，对获得的各个历史还车数据序列和当前还车数据序列进行分析，可以获得每个还车数据序列的最佳近邻数量，确定最佳近邻数量的目的是为了消除或减小因为局部离群因子检测方法（Local Outlier Factor，LOF）本身可变值选取不当引起的误差，进而影响后续计算的第一可损失因子的准确性；同时，关于确定最佳近邻数量的必要性：较小的近邻数量只考虑少量的最近邻数据点，数据序列中局部区域密度可能会被过度估计，整体的数据结构会变得复杂，容易发生过拟合；较大的近邻数量考虑了更多的最近邻数据点，相当于使用较大邻域中的训练数据进行预测，这时与输入实例较远的训练实例也会起到预测作用，使预测发生错误，导致整体的数据结构过于简单，故有必要对每个还车数据序列选取一个合适的近邻数量，即最佳近邻数量。其中，这里的可变值是指近邻数量k。

第一步，任选一个还车数据序列为选定还车数据序列，利用预设数目个近邻数量，对选定还车数据序列进行异常检测，确定选定还车数据序列对应的各个近邻数量的密度值和离群点数量。

在本实施例中，选定还车数据序列可以是历史还车数据序列，也可以是当前还车数据序列。近邻数量的数值选取范围可以为2到10之间，那么此时近邻数量的预设数目可以为9。初始近邻数量k等于2，通过LOF算子中的初始近邻数量，对选定还车数据序列进行异常检测，可以获得初始近邻数量对应的局部区域的密度值和离群点数量。LOF算子的实现过程为现有技术，不在本发明保护范围内，此处不再进行详细阐述。以初始近邻数量k等于2，逐步增加，每次近邻数量k的增加值为1，可以计算选定还车数据序列对应的各个近邻数量的密度值和离群点数量。

需要说明的是，近邻数量的数值选取范围以及每次近邻数量k的增加值可以由实施者根据具体实际情况设置，不同近邻数量将会影响离群点被识别的敏感度，这里不做具体限定。

第二步，任选一个近邻数量为候选近邻数量，根据选定还车数据序列对应的各个近邻数量的密度值和离群点数量，确定选定还车数据序列对应的各个近邻数量的评价指标；将最大评价指标对应的近邻数量确定为选定还车数据序列的最佳近邻数量。

对各个近邻数量按照预设顺序进行排序获得近邻数量序列，在近邻数量序列中任选一个近邻数量为候选近邻数量；将候选近邻数量与其相邻的下一个近邻数量的密度值之间的差值绝对值，确定为候选近邻数量的密度波动指标；对于候选近邻数量，确定候选近邻数量的第一评价因子，第一评价因子与候选近邻数量的密度值为正相关且与密度波动指标为负相关；确定候选近邻数量的第二评价因子，第二评价因子与候选近邻数量的离群点数量呈现反比例关系；将候选近邻数量的第一评价因子和第二评价因子的乘积确定为候选近邻数量的评价指标；将最大评价指标对应的近邻数量确定为选定还车数据序列的最佳近邻数量。

作为示例，候选近邻数量的评价指标的计算公式可以为：

式中，为候选近邻数量的评价指标，/>为候选近邻数量的密度值，/>为候选近邻数量的密度波动指标，/>为候选近邻数量的第一评价因子，/>为候选近邻数量的离群点数量，/>为候选近邻数量的第二评价因子，i为候选近邻数量的序号，/>为超参数。

在评价指标的计算公式中，密度值与评价指标/>为正相关关系，在一定的限制范围内，数据序列局部区域的密度值越大，近邻数量的评价指标就会越大，对应的近邻数量为最佳近邻数量的可能性越大；密度波动指标/>与评价指标/>为负相关关系，密度波动指标越大，说明密度值对应的局部区域内数据波动越大，越不稳定，密度值的可信度越低；离群点数量/>与评价指标/>为负相关关系，离群点数量越多，说明噪声点和正常点被识别为离群点的数量越多，近邻数量的评价指标就会越小，也就是最大评价指标对应的最佳近邻数量可能对应较少的离群点数量，能够尽快准确地过滤掉噪声点和正常点；超参数/>可以取经验值为0.01，其可以用于防止分数分母为0的特殊情况。

需要说明的是，由三个影响因素确定的候选近邻数量的评价指标的准确性更高，参考价值更强，便于后续获得更精准的第一可损失因子。参考任意选取的候选近邻数量的评价指标的计算过程，可以获得选定还车数据序列对应的各个近邻数量的评价指标，将最大评价指标对应的近邻数量确定为选定还车数据序列的最佳近邻数量，进而获得各个历史还车数据序列和当前还车数据序列的最佳近邻数量。其中，每个还车数据序列的数据环境不同，每个还车数据序列均有其对应的最佳近邻数量。

S3，根据各个历史还车数据序列和当前还车数据序列的最佳近邻数量，对当前还车数据序列的整体特征变化进行分析，确定当前还车数据序列的第一可损失因子。

需要说明的是，为了精确地分析出历史还车数据和当前还车数据之间的差异程度，对各个历史还车数据的最佳近邻数量对应的离群点数量进行分析。由于历史还车数据序列中可能存在数据变化异常的区域，故需要针对不同历史还车数据序列的离群点数量，确定离群点数量的可信度，基于可信度对当前还车数据序列进行整体分析，确定第一可损失因子。其中，这里的第一可损失因子是后续计算可损失率的计算因素之一，可以表征当前还车数据序列的可损失程度。

第一步，根据各个历史还车数据序列的最佳近邻数量，对各个历史还车数据序列进行异常检测，获得各个历史还车数据序列的离群点数量，计算所有历史还车数据序列的离群点数量的平均值。

在本实施例中，通过各个历史还车数据序列的最佳近邻数量，利用LOF算子，可以获得各个历史还车数据序列的离群点数量，离群点数量的确定过程为现有技术，此处不再进行详细阐述。在获得各个历史还车数据序列的离群点数量后，为了便于后续计算标准偏差，需要计算可以表征历史还车数据整体状态的离群点数量平均值。

第二步，根据各个历史还车数据序列的离群点数量和所有历史还车数据序列的离群点数量的平均值，确定各个历史还车数据序列的标准偏差。

在本实施例中，使用标准分数Z-score，计算各个历史还车数据序列的离群点数量到所有历史还车数据序列的离群点数量的平均值的标准偏差，从而获得各个历史还车数据序列的标准偏差。标准分数Z-score的实现过程为现有技术，不在本发明保护范围内，此处不再进行详细阐述。当然，实施者还可以采用其他标准偏差的计算方式，这里不做具体限定。

第三步，将所有历史还车数据序列中标准偏差小于偏差阈值的历史还车数据序列对应的离群点数量，确定为可信任离群点数量。

在本实施例中，偏差阈值取经验值设置为3，实施者可根据具体实际数据情况设置。将标准偏差小于偏差阈值3的历史还车数据序列对应的离群点数量，确定为可信任离群点数量；将标准偏差不小于偏差阈值3的历史还车数据序列对应的离群点数量，确定为异常离群点数量，将异常离群点数量进行删除处理，并且在后续的计算分析过程中，不对异常离群点数量对应的历史还车数据序列进行分析。

第四步，根据当前还车数据序列的最佳近邻数量，获得当前还车数据序列的离群点数量。

在本实施例中，通过当前还车数据序列的最佳近邻数量，利用LOF算子，再次计算当前还车数据序列的离群点数量。计算当前还车数据序列的离群点数量，是为了便于确定第一可损失因子，与可信任离群点数量进行比对分析。

第五步，根据当前还车数据序列的离群点数量和各个可信任离群点数量，确定当前还车数据序列的第一可损失因子。

作为示例，当前还车数据序列的第一可损失因子的计算公式可以为：

式中，为当前还车数据序列的第一可损失因子，/>为以自然常数e为底的指数函数，/>为当前还车数据序列的离群点数量，/>为第j个可信任离群点数量，j为可信任离群点数量的序号，m为可信任离群点数量的个数，/>为求绝对值函数，/>为所有可信任离群点数量的平均值，/>为当前还车数据序列的初始第一可损失因子。

在第一可损失因子的计算公式中，在剔除历史还车数据对应的非可信任离群点后，即异常离群点，将可信任离群点数量的均值作为整体历史还车数据的离群点数量，与当前还车数据的离群点数量作差并求绝对值，可以得到当前还车数据的离群点数量变化值，即初始第一可损失因子；初始第一可损失因子越小，即越接近于0时，说明当前还车数据与历史还车数据越相似，存在异常变化数据的概率越小，可损失率越高，可损失率是指还车数据序列中的还车数据可以被损失的程度；为了便于计算，使第一可损失因子与后续计算的可损失率为正相关关系，对初始第一可损失因子进行反比例的归一化处理，第一可损失因子的取值范围为0到1之间。

值得说明的是，通过标准偏差将存在异常离群点数量的历史还车数据序列进行剔除处理，后续步骤再使用到历史还车数据序列时，默认分析可信任离群数据点数量对应的历史还车数据序列，以减少计算量，提高后续第二可损失因子的计算效率和准确度。

S4，根据各个历史还车数据序列和当前还车数据序列，对当前还车数据序列的局部特征变化进行分析，确定当前还车数据序列的第二可损失因子。

需要说明的是，为了更加客观地获取并量化当前还车数据序列的可损失率，在对当前还车数据进行整体分析，得到当前还车数据与历史还车数据的整体相似情况后，对当前还车数据的局部特征进行分析，进一步地分析当前还车数据的基本分布规律，并将量化后的基本分布规律确定为第二可损失因子。

第一步，确定各个历史还车数据序列和当前还车数据序列对应的数据段。

对于选定还车数据序列，根据选定还车数据序列中每个时间点的还车数据进行曲线拟合，获得选定还车数据曲线；确定选定还车数据曲线中的突变点，将突变点确定为选定还车数据曲线的数据分段点；利用各个数据分段点对选定还车数据序列进行分段处理，获得各个选定数据段；其中，选定数据段为历史数据段或当前数据段，选定还车数据序列为历史还车数据序列或当前还车数据序列。

第一子步骤，根据选定还车数据序列中每个时间点的还车数据进行曲线拟合，获得选定还车数据曲线。

在本实施例中，利用最小二乘法，对选定还车数据序列中每个时间点的历史还车数据进行曲线拟合，可以获得随着时间、地点等自变量不断变化的还车数据曲线。最小二乘法进行曲线拟合的实现过程为现有技术，不在本发明保护范围内，此处不再进行详细阐述。

第二子步骤，确定选定还车数据曲线中的突变点，将突变点确定为选定还车数据曲线的数据分段点。

在本实施例中，将选定还车数据曲线中发生突变的数据点确定为数据分段点，例如，对选定还车数据曲线进行一阶求导和二阶求导，将一阶导数为0且二阶导数大于0的数据点确定为数据分段点。其中，数据分段点是指选定还车数据曲线上的凹陷区域或凸出曲线的极值点。一阶求导和二阶求导的实现过程为现有技术，此处不再进行详细阐述。

第三子步骤，利用各个数据分段点对选定还车数据序列进行分段处理，获得各个选定数据段。

在本实施例中，为了分析选定还车数据序列的局部特征，对选定还车数据曲线进行分段操作，可以获得各个选定数据段，即获得每个历史还车数据序列对应的各个历史数据段和当前还车数据序列对应的各个当前数据段。

需要说明的是，不同还车数据序列对应的数据段的确定过程相同，故此处以确定选定还车数据序列为例进行分段分析。

第二步，根据各个历史数据段和各个当前数据段，确定当前还车数据序列的第二可损失因子。

第一子步骤，计算各个历史数据段和各个当前数据段的标准差；对于任意一个当前数据段，将当前数据段的标准差与所有数据段对应的标准差均值之间的差值绝对值，确定为当前数据段的初始标准差变化量；对初始标准差变化量进行归一化处理，将归一化处理后的初始标准差变化量确定为标准差变化量；其中，所有数据段包括各个历史数据段和各个当前数据段。标准差的计算过程和归一化处理过程均为现有技术，此处不再进行详细阐述。

作为示例，当前数据段的标准差变化量的计算公式可以为：

式中，为当前数据段的标准差变化量，/>为当前数据段的标准差，/>为所有数据段的个数，/>为第l个数据段的标准差，l为数据段的序号，/>为所有数据段的标准差均值，/>为当前数据段的初始标准差变化量，/>为求绝对值函数，/>为归一化函数。

在标准差变化量的计算公式中，数据段的标准差可以表征每个数据段的分布分散程度，或分布集中程度，数据段的标准差越小，说明数据段的分布越集中；当前数据段的标准差与所有数据段的标准差均值之间的差异越小，说明当前数据段的数据变化特征越小，存在异常变化数据的可能性越小。

第二子步骤，统计标准差变化量大于变化量阈值的当前数据段个数；将标准差变化量大于变化量阈值的当前数据段个数与所有当前数据段个数的比值，确定为当前还车数据序列的初始第二可损失因子；将反比例归一化处理后的初始第二可损失因子确定为当前还车数据序列的第二可损失因子。

在本实施例中，变化量阈值取经验值为0.6，变化量阈值的数值大小可以由实施者根据具体实际应用情况设置，不做具体限定。若某个当前数据段的标准差变化量大于变化量阈值，则说明当前数据段存在异常特征变化，当前数据段的标准差变化量越大，认为当前数据段存在的异常程度越大，局部区域数据越不稳定，可损失率越低。为了衡量当前还车数据序列中存在异常特征变化的程度，计算标准差变化量大于变化量阈值的当前数据段个数在所有当前数据段个数中的占比情况，可以确定当前还车数据序列的初始第二可损失因子。将反比例归一化处理后的初始第二可损失因子确定为当前还车数据序列的第二可损失因子。反比例归一化处理的实现函数，如自然常数为底的指数函数。其中，第二可损失因子的取值范围为0到1之间。

S5，根据当前还车数据序列的第一可损失因子、第二可损失因子以及熵值，确定当前还车数据序列对应的压缩方式。

第一步，根据当前还车数据序列的第一可损失因子、第二可损失因子以及熵值，确定当前还车数据序列的可损失率。

在本实施例中，熵值可以表征当前还车数据序列的整体复杂度；第一可损失因子、第二可损失因子、第三可损失因子均与可损失率为正相关关系；当前还车数据序列的第一可损失因子可以被用于表征当前还车数据序列的整体数据异常变化程度，第一可损失因子越大，说明整体数据异常变化越小，可损失率越大；第二可损失因子可以被用于表征当前还车数据序列的局部数据异常变化程度，第二可损失因子越小，说明局部数据异常变化越大，可损失率越小；第三可损失因子可以被用于表征当前还车数据序列的整体复杂程度，第三可损失因子越大，即熵值越小，说明当前还车数据序列的整体复杂程度越小，可损失率就会越大。可损失率的取值范围为0到1之间。

第二步，若当前还车数据序列的可损失率大于可损失率阈值，则判定当前还车数据序列对应的压缩方式为有损压缩，否则，判定当前还车数据序列对应的压缩方式为无损压缩。

在本实施例中，可损失率阈值可以取经验值为0.8，可损失率阈值的数值大小可以由实施者根据具体实际情况设置，不做具体限定。若当前还车数据序列的可损失率大于可损失率阈值，说明当前还车数据序列可以被损失的概率较大，也就是存在异常变化特征数据的可能性较小，无需保留数据特征，判定当前还车数据序列对应的压缩方式为有损压缩。若当前还车数据序列的可损失率不大于可损失率阈值，说明当前还车数据序列可以被损失的概率较小，也就是存在异常变化特征数据的可能性较大，需要保留数据特征，判定当前还车数据序列对应的压缩方式为无损压缩。

S6，根据当前还车数据序列对应的压缩方式，对当前还车数据序列进行压缩处理。

为了提高压缩效果，若当前还车数据序列对应的压缩方式为有损压缩方式，则对当前还车数据序列采用有损压缩方式进行压缩处理，如脉冲编码调制、预测编码、变换编码等。为了保留当前还车数据序列的异常数据变化特征，若当前还车数据序列对应的压缩方式为无损压缩方式，则对当前还车数据序列采用无损压缩方式进行压缩处理，如串表压缩方式（Lempel-Ziv-Welch，LZW），Huffman（哈弗曼）编码，算术编码、游程编码等。

本发明还提供了一种基于物联网的电动车还车数据处理系统，包括处理器和存储器，所述处理器用于处理存储在所述存储器中的指令，以实现如上述一种基于物联网的电动车还车数据处理方法。

至此，本发明通过确定的每个还车数据序列的最佳近邻数量，有利于后续分析离群点规律；通过分析不同历史时间段的历史还车数据与当前时间段的当前还车数据之间的局部相似程度，确定当前还车数据的分布特征，结合多方面的可损失因素，计算当前还车数据序列的可损失率；确定可损失率，有利于进一步分析当前还车数据序列的数据环境，选取合适的压缩方式，以确保异常数据特征保留的同时，提高还车数据的压缩效果，增强电动车还车数据的处理效果。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于物联网的电动车还车数据处理方法，其特征在于，包括以下步骤：

根据当前还车数据序列对应的压缩方式，对当前还车数据序列进行压缩处理；

所述根据当前还车数据序列的第一可损失因子、第二可损失因子以及熵值，确定当前还车数据序列对应的压缩方式，包括：

若当前还车数据序列的可损失率大于可损失率阈值，则判定当前还车数据序列对应的压缩方式为有损压缩，否则，判定当前还车数据序列对应的压缩方式为无损压缩；

所述根据当前还车数据序列的第一可损失因子、第二可损失因子以及熵值，确定当前还车数据序列的可损失率，包括：

计算当前还车数据序列的熵值，将反比例归一化处理后的熵值确定为第三可损失因子；将当前还车数据序列的第一可损失因子、第二可损失因子以及第三可损失因子的乘积，确定为当前还车数据序列的可损失率；

所述根据各个历史还车数据序列和当前还车数据序列的最佳近邻数量，对当前还车数据序列的整体特征变化进行分析，确定当前还车数据序列的第一可损失因子，包括：

根据当前还车数据序列的离群点数量和各个可信任离群点数量，确定当前还车数据序列的第一可损失因子；

所述根据当前还车数据序列的离群点数量和各个可信任离群点数量，确定当前还车数据序列的第一可损失因子，包括：

计算所有可信任离群点数量的平均值；将当前还车数据序列的离群点数量与所有可信任离群点数量的平均值之间的差值绝对值，确定为当前还车数据序列的初始第一可损失因子；将反比例归一化处理后的初始第一可损失因子确定为当前还车数据序列的第一可损失因子；

所述根据各个历史还车数据序列和当前还车数据序列，对当前还车数据序列的局部特征变化进行分析，确定当前还车数据序列的第二可损失因子，包括：

根据各个历史数据段和各个当前数据段，确定当前还车数据序列的第二可损失因子；

所述根据各个历史数据段和各个当前数据段，确定当前还车数据序列的第二可损失因子，包括：

2.根据权利要求1所述的一种基于物联网的电动车还车数据处理方法，其特征在于，所述利用预设数目个近邻数量，对各个历史还车数据序列和当前还车数据序列进行异常检测评价分析，确定各个历史还车数据序列和当前还车数据序列的最佳近邻数量，包括：

3.根据权利要求2所述的一种基于物联网的电动车还车数据处理方法，其特征在于，所述根据选定还车数据序列对应的各个近邻数量的密度值、离群点数量以及密度波动指标，确定选定还车数据序列对应的各个近邻数量的评价指标，包括：

4.一种基于物联网的电动车还车数据处理系统，其特征在于，包括处理器和存储器，所述处理器用于处理存储在所述存储器中的指令，以实现如权利要求1-3中任一项所述的一种基于物联网的电动车还车数据处理方法。