CN1981297B

CN1981297B - 数据压缩设备和方法，数据分析设备和方法，以及数据管理系统

Info

Publication number: CN1981297B
Application number: CN2005800212019A
Authority: CN
Inventors: 甘乔·L·瓦琴高维; 小松孝二; 藤井敏; 室田功
Original assignee: Caterpillar Japan Ltd
Current assignee: Caterpillar Japan Ltd
Priority date: 2004-06-25
Filing date: 2005-04-28
Publication date: 2011-12-07
Anticipated expiration: 2025-04-28
Also published as: US7664715B2; US20070233623A1; CN1981297A; EP1764728A1; WO2006001121A1; JP4175296B2; JP2006011849A; EP1764728A4

Abstract

一种数据压缩设备和方法，一种数据分析设备和方法，以及一种数据管理系统，用于压缩大量数据，并且从压缩数据中更精确地再现原始数据的特性。该系统包括感测装置4，其用于检测多个数据集，每个数据集包括当目标运动时随目标运动而变化的n个参数值(n是一个自然数)；还包括压缩装置(6)，其用于通过把感测装置(4)检测到的数据集输入到一个n维空间中，设置预定数量的神经元，该数量少于n维空间内的数据集的数量，通过神经网络的无监督学习方法使神经元进行学习，把数据集转换成表示通过学习而得到的神经元模型的特征的神经元模型参数，从而对数据进行压缩。

Description

数据压缩设备和方法,数据分析设备和方法,以及数据管理系统

技术领域

本发明涉及一种数据压缩设备和方法，一种数据分析设备和方法，以及最好用于大量数据压缩的数据管理系统。

背景技术

近年来，地球的有限资源以及过度的环境负担导致了对机器维护的新方法的巨大需求，这种新方法着重于资源循环和降低环境影响，由此消耗型社会将转换成可持续型社会。

传统的机器维护采用了当机器损坏后对其修复的纠正性维护，或者以预定的间隔执行统一的预防性维护。纠正性维护需要大量的修复时间和成本。由于预防性维护的统一性，其产生了不必要的零件和原油浪费，从而把更高的成本强加到用户身上。另外，因为需要密集劳动，预防性维护十分昂贵。未来社会需要改变这种传统的维护方式，并转换成预测性维护。

预测性维护中，通过了解操作过程中的负载和环境数据、过去的维护历史数据库、物理缺陷以及其他损耗来诊断机器的完好程度，并预测剩余寿命，以在早期预测机器的缺陷，并且提供一个安全运行环境。

通常，在采用预测性维护的系统中，安装在目标机器中的传感器检测机器的运行状态，安装在机器内的数据采集器采集表示运行状态的原始数据，并把原始数据实时或以预定间隔发送到管理中心内的计算机(例如，负责机器维护的公司服务部门)。一旦接收到原始数据，计算机分析此原始数据，并诊断机器的完好程度。

但是，数据采集器采集到的原始数据量是巨大的，通过远程通信从机器发送到管理中心，这可能是不可靠的而且成本很高。一种解决方案是压缩原始数据，并把压缩后的数据发送到管理中心。例如，专利参考文献1公开了一种把传感器获得的时序操作信号压缩成直方图数据或者频率分布数据的方法。另外，专利参考文献2公开了一种根据故障概率(故障率曲线)来调整操作信号的发送间隔的方法，而且专利参考文献3公开了一种累计每单元时间的检测频率的方法，以便节省存储器容量，并根据直方图判断目标机器的状态。

专利参考文献1：日本专利申请公开No.2003-083848

专利参考文献2：日本专利申请公开No.2002-180502

专利参考文献3：日本专利申请公开No.HEI 10-273920

发明内容

本发明要解决的技术问题

即使上述三个专利参考文献1-3中的所述技术也很难精确地从压缩数据中再现出原先的数据(即原始数据)的特性。

可选地，也可以计算原始数据的动态平均值，从而将原始数据压缩成小容量数据，后者被发送到管理中心。但是，与上述专利参考文献类似，这种方法也不能精确再现原始数据的特性。

解决该问题的方案

考虑到前述问题，本发明的第一个目标是提供一种用于压缩大量数据的设备和方法，使得原始数据的特性能够精确地从压缩得到的数据中再现。

本发明的第二个目标是提供一种用于对上述数据压缩设备和方法压缩得到的数据进行分析的设备和方法，以及一种包括上述数据压缩设备和数据分析设备的数据管理系统。

为了获得上述目标，提供了一种数据压缩设备，其包括：用于检测多个数据集的检测装置，每个数据集包括根据目标的运行而变化的n个参数值，其中n是一个自然数；还包括压缩装置，其用于通过把检测装置检测到的多个数据集输入到一个n维空间中，设置预定数量的神经元，该数量小于n维空间内的多个数据集的数量，在神经元上执行神经网络的无监督学习以获得一个神经元模型，并利用多个数据集和神经元模型来计算神经元模型参数，从而对多个数据集进行压缩。

根据另一种替代方式，所述压缩装置为多个数据集中的每个数据集把多个神经元中到多个数据集中的每个数据集距离最短的那个神经元确定为获胜神经元；对于每个获胜神经元来说，神经元模型参数包括表示每个获胜神经元的坐标的坐标数据，表示每个获胜神经元到多个数据集的平均距离的平均距离数据，以及表示每个获胜神经元被确定为获胜神经元的次数的权值数据。

根据另一种替代方式，当无监督学习结束后，所述压缩装置删除从未被确定为获胜神经元的一个或多个神经元。

此外，所述的数据压缩设备还包括用于将神经元模型参数发送到一个外部单元的发送装置。

提供了一种数据分析设备，包括：接收装置，其位于外部单元内，用于接收上述数据压缩设备的发送装置所发送的神经元模型参数；以及分析装置，其用于根据由所述接收装置接收到的神经元模型参数对多个数据集进行分析。

根据另一种替代方式，所述分析装置通过根据包括在神经元模型参数内的坐标数据和权值数据来计算神经元的动态平均值，从而执行分析过程。

根据另一种替代方式，所述分析装置根据包括在神经元模型参数内的坐标数据、平均距离数据和权值数据来计算多个数据集的密度分布，从而执行分析过程。

提供了一种数据管理系统，包括：上述数据压缩设备；以及上述数据分析设备。

根据另一种替代方式，所述目标是一个施工机械，以及根据施工机械所执行的操作而变化的n个参数值。

提供了一种数据压缩方法包括如下步骤：检测多个数据集，每个数据集包括根据目标运行而变化的n个参数值，其中n是一个自然数；以及通过把检测步骤中的子步骤检测到的多个数据集输入到一个n维空间中，设置预定数量的神经元，该数量小于n维空间内的多个数据集的数量，在神经元上执行神经网络的无监督学习以获得一个神经元模型，并利用多个数据集和神经元模型来计算神经元模型参数，从而实现多个数据集的压缩。

根据另一种替代方式，压缩步骤包括一个子步骤，其中将多个神经元中到多个数据集中的每个数据集距离最短的那个神经元确定为获胜神经元；并且对于每个获胜神经元来说，神经元模型参数包括表示每个获胜神经元坐标的坐标数据、表示每个获胜神经元到多个数据集的平均距离的平均距离数据，以及表示每个获胜神经元被确定为获胜神经元的次数的权值数据。

根据另一种替代方式，压缩步骤还包括一个子步骤，其中删除从未被确定为获胜神经元的一个或多个神经元。

提供了一种数据分析方法，包括如下步骤：获取在上述数据压缩方法中得到的神经元模型参数；以及根据上述获取步骤中得到的神经元模型参数来分析多个数据集。

根据另一种替代方式，所述分析步骤通过根据包括在神经元模型参数内的坐标数据和权值数据计算神经元的动态平均值来执行。

根据另一种替代方式，所述分析步骤通过根据包括在神经元模型参数内的坐标数据、平均距离数据和权值数据计算多个数据集的密度分布来执行。

本发明的有益效果

根据本发明的数据压缩设备和方法，多个数据集(原始数据段)可以被压缩成一个神经元模型参数，其表明了由少于数据集数目的预定数目的神经元得到的一个神经元模型的特征，每个数据集包括n个参数值。由于作为压缩结果而得到的神经元模型参数(压缩数据)表明了神经元模型的特征，即多个数据集，其能够从压缩数据中精确地再现出原始数据的特征。

此外，根据本发明的数据分析设备和方法，通过使用神经元模型参数可以分析原始数据集(原始数据)。在这种情况下，分析每个神经元的动态平均值或者数据集的密度分布可以对目标做出诊断。

另外，本发明的数据管理系统能够同时保证上述数据压缩设备和数据分析设备的优点。

附图说明

[图1]示意性地示出了根据本发明的一个实施例的数据管理系统的框图；

[图2]示出了涉及特定操作表盘的引擎速度和进气压力的输入数据集的图表；

[图3]示出了将图2的引擎速度和进气压力的输入数据集组转换成一个神经元模型的图表(其中已经删除了闲置的神经元和弱神经元)；

[图4]阐释了考虑到神经元权值的神经元动态平均值的图表；

[图5]示出了通过考虑神经元权值的神经元动态平均值而获得的引擎速度和进气压力之间的关系图表；

[图6]直接从输入数据集获取的动态平均值的图表；

[图7]示出了输入数据集的密度分布的图表；

[图8]示出了根据本发明的一个实施例的数据压缩和数据分析流程步骤顺序的流程图；

[图9]示出了数据预处理的流程步骤顺序的流程图；

[图10]示出了数据压缩的流程步骤顺序的流程图；

[图11]示出了通过利用考虑神经元的权值而获取的动态平均值进行分析的流程步骤顺序的流程图；以及

[图12]示出了利用输入数据集的密度分布进行分析的流程步骤顺序的流程图。

附图标记说明

1数据管理系统

2水力挖掘机(目标)

3数据压缩设备

4传感器(检测装置)

5数据预处理部分(预处理装置)

6数据压缩部分(压缩装置)

7发送部分(发送装置)

8输入设备(输入装置)

10数据分析设备

11接收部分(接收装置)

12数据分析部分(分析装置)

13判断部分(判断装置)

20监视器(输出装置)

具体实施方式

现在参考附图来具体说明本发明的一个实施例。

本实施例中的数据管理系统用于诊断一个机器例如施工机械是否存在故障。下面关于数据管理系统的具体说明中将水力挖掘机作为施工机械。采用了本发明的数据管理系统的目标不应仅限于水力挖掘机，而且本发明可以根据操作或环境的变化而应用到任何目标上。

图1是示意性地示出了本实施例中的数据管理系统的一个框图。如图1所示，数据管理系统1把在操作地点所使用的水力挖掘机2的相关数据发送到管理中心10(例如水力挖掘机2的维护管理公司的服务部门)内远程控制水力挖掘机2的计算机，在管理中心10内，计算机根据从水力挖掘机2接收到的数据来估计并判断水力挖掘机2的状态。为此，本实施例中的数据管理系统1主要包括安装在水力挖掘机2内的一个机载数据压缩设备3以及放置在管理中心内的数据分析设备10。

数据压缩设备3的主要部分包括传感器4，一个数据预处理部分(预处理装置)5，一个数据压缩部分(压缩装置)6，一个发送部分(发送装置)7，以及输入设备(例如键盘或鼠标)8。传感器4和数据预处理部分5的组合起到检测装置的作用。为了实现数据预处理部分5和数据压缩部分6的功能，处理程序被安装在未示出的计算机的ECU(电子控制单元)内。ECU具有一个输入/输出设备，一个存储单元(一个存储器，例如RAM或ROM)，一个CPU(中央处理单元)以及其他设备。

传感器4对应了n个参数(变化因素)中的每个参数，并且在水力挖掘机2的操作期间，其检测(测量)随水力挖掘机2的操作而变化的参数值x₁，x₂，x₃，...，x_n。

每个传感器4可直接检测相应的参数值或者可以通过一种算法操作来处理检测到的值，以获得相应参数的计算值或估计值。其中，水力挖掘机2的相关参数例如是引擎速度、引擎油温、引擎油压、引擎冷却水温、进气压力(增压之后)、燃料消耗量、废气温度、动力改变压力、水力油压、水力油温、水力油粒子计数、以及引擎运行时间，这些参数根据水力挖掘机2的操作而变化。

数据预处理部分5通过上述处理程序(数据预处理程序)来实现，此程序执行图9中的流程步骤。也即，程序首先判断引擎是否在运行(步骤T10)，如果判断结果是肯定的，进一步判断引擎油温是否是预定值或者更高(步骤T20)。如果引擎油温达到了预定值或者更高，程序获取每个传感器4检测到的原始数据(步骤T30)，然后判断引擎是否停止(步骤T40)。换句话说，程序持续获取原始数据，直到引擎停止为止。当引擎停止时，程序对于每个操作表盘将原始数据分类(步骤T50)，为每个操作表盘创建一个文件，并存储原始数据(步骤T60)。操作表盘表示操作者根据操作过程(操作负载)设置引擎速度的表盘开关。

现在来详细说明数据预处理部分5。

如果水力挖掘机2的引擎开始运转，并且引擎油温变为设定值或更高(也即，当水力挖掘机2开始正常操作时)，数据预处理部分5获取(采集)由传感器4以预设周期(例如1秒)检测到的参数值构成的数据集，并把获取的数据集存储到一个存储单元中。根据来自检测引擎速度的传感器的数据可判断引擎是否正在运转，而根据来自检测引擎油温的传感器的数据可判断引擎机器油温是否变为设定值或更高值。本实施例中，获取来自传感器4的数据的周期设定为1秒，但通过输入设备8的输入可以设定为任意长度。

数据预处理部分5从水力挖掘机2的操作开始到结束(即当引擎停止时)持续地把由参数值构成的数据集存储到存储单元中。当水力挖掘机2的引擎停止后，数据预处理部分5把存储在存储单元内的多个数据集对于每个操作表盘进行分类，以创建关于每个操作表盘的文件，并把数据集存储在相应的文件内。

因此，存储在每个文件内的数据集的数量是从几千到上万的巨大数量。例如，图2是一个图表，其绘制出一个特定操作表盘的引擎速度和进气压力之间的关系的数据集(即原始数据)，如图所示，数据集的数量是非常巨大的。就此，图2中关于引擎速度的轴(横坐标)表示正常运行范围内的引擎速度，类似地，图3、5、6和7内的横坐标表示正常运行范围内的引擎速度。

如上所述，数据压缩部分6的功能由一个预设程序(数据压缩程序)来实现，并且数据压缩程序执行图10所示流程图中的流程步骤。具体地说，此程序读取一操作表盘的文件(步骤U10)，然后在n维空间内随机设置预定数量的神经元(步骤U20)，并执行神经元的学习(步骤U30)。学习过程重复执行预定的次数，在学习结束后删除空闲神经元和弱神经元(稍后详述)(步骤U40)。之后，该程序创建一个经过压缩的文件数据(下文简称为压缩文件)，其中包括神经元的n维坐标、平均距离和权值数据(步骤U50)。对于每个操作表盘均执行上述从步骤U10到U50的流程(步骤60)。

下面将详细描述数据压缩部分6。

数据压缩部分6将数量巨大的数据集压缩成数量非常少的数据段。本实施例的特征在于使用了自组织映射(SOM)作为数据压缩方法，这是神经网络的一种无监督学习方法。

如果没有明确的目标值(即答案)，无监督学习仅使用已输入的数据集(下文称为输入数据集)来执行，其根据下面阐释的一些原理来实现。自组织映射由输入阶段(输入数据，即一组输入数据集)以及竞争阶段(一组神经元)组成。自组织映射通过学习算法实现，通过把网络内相似的数据集组互相靠近设置，其自动提取隐含在输入数据集内的特征，换句话说，自动找到输入数据集内的相似性。

下文将说明数据压缩部分6内的数据压缩方法。这部分着重于存储在与一个特定操作表盘相关的文件内的输入数据集的压缩，该文件由数据预处理部分5所创建，但与其他操作表盘相关的文件内的数据集也用相同的方式进行压缩。

(1)学习条件的确定

首先，确定学习条件，包括神经元个数k，初始学习速率α₀，初始邻域半径N_c0，重复执行学习的总次数T，这些条件对于计算神经元所代表的输入数据集组的分布是必需的。这些学习条件的设置可以用输入设备8预先任意确定。输入数据集的配置如下面公式(1)所示。神经元的个数k远小于输入数据集的数量l(例如，k是几十，即k＜＜l)。

x₁＝(x₁₁，x₁₂，…，x_1n)

x₂＝(x₂₁，x₂₂，…，x_2n) (1)

x_l＝(x_l1，x_l2，…，x_ln)

其中，n表示参数的个数，l表示输入数据集的个数。

(2)确定输入阶段和竞争阶段的初始权值：

接下来，数据压缩部分6用随机数来对步骤(1)中n维空间内的所有神经元集进行设置(即随机地设置)，并相对于所有神经元用随机数来确定输入阶段(输入数据集组)和竞争阶段(神经元组)之间的初始连接权值m_i(即随机地确定)。初始连接权值m_i的配置用下列公式(2)表示：

m_i＝(m_i1，m_i2，…，m_in)，i＝1，2，…，k (2)

其中，m_i表示第i个神经元的权值向量，i表示神经元的序数，而k表示初始设置的神经元个数。

(3)确定输入数据集的向量：

随后，数据压缩部分6为每个输入数据集确定一个向量x_j。向量x_j的配置如下列公式(3)所示：

x_j＝(x_j1，x_j2，…，x_jn)，j＝1，2，…，l (3)

其中，x_j表示第j个数据集的向量，j表示数据集的序数，而l表示数据集的个数。

(4)计算神经元和输入数据集的相似性：

数据压缩部分6计算第i个神经元和第j个数据集之间的欧氏距离d_i。欧氏距离d_i可以用下列公式(4)来计算：

d_{i} = \sqrt{Σ_{p = 1}^{n} {(x_{jp} - m_{ip})}^{2}}, p = 1,2, . . ., n - - - (4)

其中，p表示参数的序数，n表示参数的个数。

(5)确定获胜神经元和邻域半径：

步骤(4)中欧氏距离d_i最小的神经元(即最相似的神经元)被确定为输入数据集的获胜神经元x_j。同时，获胜神经元周围的预设邻域半径N_ct内的一个或多个神经元被确定为相邻神经元。

邻域半径N_ct可以用下列公式(5)确定：

N_{ct} = N_{c 0} (1 - \frac{t}{T}) - - - (5)

其中，N_c0表示初始邻域半径，t表示当前的学习次数，而T表示重复执行学习的总次数。

(6)获胜神经元和邻域神经元的学习：

获胜神经元m_c的权值用学习速率α_t更新，获胜神经元靠近相应的输入数据集。每个被选择的邻域神经元也靠近相应的输入数据集，其更新量小于获胜神经元的更新量。更新量的大小取决于获胜神经元和邻域神经元之间的距离以及邻域函数。通过下列公式(6)来获得更新后的获胜神经元：

m_{c}^{new} = m_{c}^{old} + α_{t} (x_{j} - {m^{old}}_{c})

(6)

α_{t} = α_{0} (1 - \frac{t}{T})

其中，α_t表示学习次数为t时的学习速率，t表示初始学习速率，m_c ^new表示更新后的获胜神经元，m_c ^old表示更新前的获胜神经元，t表示当前的学习次数，而T表示重复执行学习的总次数。

(7)读出下一个输入数据集：

对于每个输入数据集x₁到x_l重复执行上述步骤(2)到(6)。

(8)开始下一次重复学习：

重复执行上述步骤(2)到(7)，直到被执行的学习次数达到预设的重复学习次数T。此时，邻域半径N_ct和学习速率α_t逐渐递减。

(9)删除空闲神经元和弱神经元：

上述学习过程完成后，删除从未成为获胜神经元的神经元(称为空闲神经元)以及仅有几次(小于一个预设次数，例如，仅表示一个或两个输入数据集的神经元)成为获胜神经元的神经元(称为弱神经元)。

如上所述，数据压缩部分6把每个输入数据集输入到一个n维空间内，随机设置预定数量为k的神经元，该数量远小于输入数据集的数量I，并在神经元上执行神经网络的无监督学习。当学习过程结束后，数据压缩部分6删除空闲神经元和弱神经元，使得数量巨大的输入数据集(即传感器4检测到的没有经过处理的原始数据)可以用一个神经元模型(神经元设置)表示，此模型由预定数量为k或更少的神经元构成。例如，图3示出了一个神经元模型(其中已经删除了空闲神经元和弱神经元)，此模型是作为图2所示的引擎速度和进气压力的输入数据集组的转换结果而生成的，如图3所示，数量巨大的输入数据集通过数量远小于输入数据集的神经元来表示。换句话说，通过把输入数据集转换为由表征神经元模型的神经元所拥有的参数(下文简称为神经元模型参数)，数量巨大的输入数据集被压缩。删除空闲神经元和弱神经元可以把输入数据集压缩成最集中表明输入数据集特征的神经元。

神经元模型参数包括了删除空闲神经元和弱神经元之后的神经元所拥有的不同信息段，这些信息段是n维空间内剩余神经元的坐标的数据、每个剩余神经元到输入数据集的平均距离、以及每个剩余神经元所表示的数据集个数的权值。其结果是数量巨大的输入数据集被压缩成少量的神经元模型参数，如下列公式(7)所示：

k₀×(2n+1)(7)

其中，k₀表示在删除了空闲神经元和弱神经元之后剩余神经元的个数，n表示参数的个数。

换句话说，数量巨大的输入数据集被压缩成“数量用k₀来表示的神经元模型参数(删除空闲神经元和弱神经元之后剩余神经元的个数，k₀≤k)X[n(代表每个神经元的坐标分量的数据段的个数，此个数与传感器4检测到的参数个数n相等)+n(平均距离的数据段的个数，此个数与传感器4检测到的参数个数n相对应)+1(权值数据段的个数)]”。

数据压缩部分6对每个文件(即对于每个操作表盘)的原始数据进行上述压缩过程，随后在存储单元内创建与每个文件相关的压缩文件，把神经元模型参数存储在该压缩文件内。

发送部分7把通过数据压缩部分6所创建的压缩文件发送到一个外部单元。本实施例使用了天线将此文件以无线方式发送，当然也可以通过通信电缆来发送此文件。

同时，管理中心内的数据分析设备10主要包括一个接收部分(接收装置)11，一个数据分析部分(分析装置)12，以及一个判断部分 13。数据分析部分12和判断部分13的功能通过安装在计算机或类似设备(未示出)内的ECU(电子控制单元)上的处理程序来实现。ECU包括一个输入/输出设备，一个存储单元(一个存储器例如RAM或ROM)，一个CPU(中央处理单元)以及其他单元。

接收部分11接收数据压缩部分6发送的压缩文件。接收到的压缩文件被存储到一个未示出的存储单元中。

数据分析部分12根据在接收单元11中接收到的压缩文件内包括的神经元模型参数来分析输入数据集。本实施例中，数据分析部分12通过一些处理程序(数据分析程序)来实现，其将在下列两种方法中的一种中描述。

(A)涉及权值的神经元的动态平均值：

数据分析部分12包括一个处理程序，其用于利用涉及权值的神经元的动态平均值进行分析。处理程序执行图11中的流程步骤。具体地说，首先该程序读取与特定操作表盘相关的压缩文件(步骤V10)，并选择两个任意的参数(例如，引擎速度和进气压力)(步骤V20)。因为每个神经元的数据包括每个参数的坐标(即每个测量项目)、权值、以及平均距离，由此可以很容易地获得这两个任意参数之间的关系。接下来，使用包括在神经元模型参数内的神经元坐标数据和权值数据，该程序确定该神经元的最大值RB和最小值LB，把该两个任意参数的平面划分成预定数量的区域(窗口)(步骤V30)，并考虑神经元的权值来计算每个窗口的重心(Cx，Cy)(步骤V40)，如图4所示。之后，该程序通过把窗口的重心连接起来，创建一个平均运动图(步骤V50)。上述步骤V20到V50的流程步骤对于所有n维参数执行(步骤V60)，然后对于与所有操作表盘相关的压缩文件执行上述从V20到V60的流程步骤(步骤V70)。每个重心用下列公式(8)计算：

C_{X}^{j} = \frac{Σ_{i - 1}^{N_{j}} x_{i}^{j} w_{i}^{j}}{N_{j}}, C_{Y}^{j} = \frac{Σ_{i - 1}^{N_{j}} y_{i}^{j} w_{i}^{j}}{N_{j}} - - - (8)

其中，C_X ^j表示第j个窗口内参数X的重心，C_Y ^j表示第j个窗口内参数Y的重心，j表示窗口的序号(j＝1，2，...，m)，x_i ^j和y_i ^j表示第j个窗口内神经元的坐标，w_i ^j表示第j个窗口内神经元所拥有的权值，N_j 表示第j个窗口内设置的神经元的个数。

数据分析部分12能够在监视器(输出装置)20上显示通过上述方式创建的图形。例如，图5是一个示出了引擎速度和进气压力之间关系的图形，其通过考虑了神经元权值的神经元动态平均值获得。另外，图5示出了输入数据集(即原始数据)的点和已经学习后的神经元的点。如图5所示，通过使用神经元的动态平均值获得的重心图的形状很类似于输入数据集组(输入数据集的分布)。作为比较，图6示出了直接从输入数据集获得的动态平均值的图形。如果仅有几个输入数据集较远偏离输入数据集组的区域，重心点会偏离输入数据集组。比较图5和6，通过考虑神经元权值的神经元的动态平均值获得的图形(图5)比起直接从输入数据集获取动态平均值所创建的图形(图6)能够更精确地再现输入数据集的特性。

(B)输入数据集的密度分布：

数据分析部分12内保存了一个处理程序，其用于通过输入数据集的密度分布来实现分析，该程序执行图12的流程步骤。具体地说，首先，该程序读取与特定操作程序相关的压缩文件(步骤W10)，并选择两个任意的参数(例如，引擎速度和进气压力)(步骤W20)。因为如上所述，每个神经元包括的数据有每个参数的坐标(即每个测量项目)、权值、以及平均距离，可以很容易地获得这两个任意参数之间的关系。接下来，使用包括在神经元模型参数内的坐标数据、平均距离数据和权值数据，该程序创建一个三维图形(其中涉及引擎速度、进气压力和输入数据密度)(步骤W30)。图7中，根据神经元的坐标数据获得的神经元位置与一个峰值位置(峰顶)相对应，根据神经元的权值数据获得的神经元权值与该峰值高度相对应。根据神经元的平均距离数据获得的神经元到输入数据集的平均距离与相应峰值倾斜面的梯度相对应。例如，较大的平均距离(即，密度相对较低的输入数据集靠近神经元设置)使得相应峰值的倾斜面的梯度较小 (缓坡)。反过来，较小的平均距离(密度相对较高的输入数据集靠近神经元设置)使得峰值的倾斜面的梯度较大(陡坡)。上述包括步骤W20和W30的流程对于所有n个参数执行(步骤W40)，上述包括步骤W20至W40的流程对于与所有操作表盘相关的压缩文件执行(步骤W50)。

数据分析部分12能够在监视器20上显示以上述方式创建的图形。

如上所述，数据分析部分12可采用上述两种方法中的任一种方法来分析神经元模型参数。上述说明中是对引擎速度和进气压力之间的关系进行分析，但是也可以对每个操作表盘的所有参数的相关数据进行分析。

判断部分13根据数据分析部分12所创建的每个图形(实际上根据所创建图形的神经元模型参数的每个数据段)对水力挖掘机2进行诊断。例如，判断部分13计算所创建的图形和表示正常运行特性的图形的相似性，如果计算得到的相似性小于预设值(换句话说，所创建的图形偏离正常运行图形较远)，就判定水力挖掘机2存在故障或缺陷。另外，如果水力挖掘机2存在故障，判断部分13在监视器20上向操作者显示出故障提示。

此外，除了了解先前的维护历史之外，引擎油和液压设备油基于判断标准的分析结果使得可以预测水力挖掘机2的故障出现、换油时机以及剩余寿命。

根据本实施例的数据管理系统1具有上述配置，并且数据压缩和数据分析以图8的流程图所示的方式实现。首先，传感器4检测水力挖掘机2的参数的原始数据(输入数据集)(步骤S10)，然后将原始数据进行预处理(步骤S20)。之后，利用神经元来压缩原始数据(步骤S30)，压缩文件形式的已压缩数据(即神经元模型参数)被发送到管理中心(步骤S40)。在管理中心内分析接收到的压缩数据(步骤S50)，并且对水力挖掘机2是否存在故障(步骤S60)做出判断。

如上所述，图8的步骤S20由数据预处理部分5按照图9的流程图执行；图8的步骤S30由数据压缩部分6按照图10的流程图执行；且图8的步骤S50由数据分析部分12按照图11和/或12的流程图执行。

如上所述，本实施例中的数据压缩设备和方法能够将多个输入数据集(即原始数据，见图2)压缩成参数，其中每个数据集包括n个参数值(神经元模型，见图3)，其表征了由个数少于输入数据集个数的神经元而得到的一个神经元模型，从而可降低通信成本。因为该压缩神经元模型参数(压缩数据)表明了一个神经元模型、即多个输入数据集的特征，压缩数据能够精确地再现原始输入数据集(即，原始数据)的特性(见图5和7)。

另外，本实施例中的数据压缩设备和方法可以利用神经元模型参数来分析原始的输入数据集。在这种情况下，通过分析神经元的动态平均值(见图5)或通过输入数据集的密度分布(见图7)，能够对水力挖掘机2做出诊断。

本发明的数据管理系统同时具有上述数据压缩设备和数据分析设备的优点。

本发明的一个实施例已如上所述，但本发明应不仅局限于上述实施例，各种变化和修正也没有偏离本发明的主旨。例如，本实施例中使用判断部分13进行诊断，但可选择地，也可参照监视器20上显示的图形的不同从视觉上做出诊断。而且，本实施例在监视器20上显示分析结果，但作为替换方式，分析结果可以由打印设备输出，例如未示出的打印机，再由操作者做出诊断。

工业实用性

由于能够压缩数量巨大的数据，并且已压缩的数据能够精确地再现原始数据的特性，本发明具有极高的实用性。

Claims

1.一种数据压缩设备，其包括：

用于检测多个数据集的检测装置，每个数据集包括根据目标运行而变化的n个参数值，其中n是一个自然数；以及

压缩装置，其用于通过把所述检测装置检测到的多个数据集输入到一个n维空间中，设置预定数量的神经元，该数量小于n维空间内的多个数据集的数量，在神经元上执行神经网络的无监督学习以获得一个神经元模型，并利用多个数据集和神经元模型来计算神经元模型参数，从而对多个数据集进行压缩，其中

所述压缩装置对于多个数据集中的每个数据集把到所述多个数据集中的每个数据集距离最短的那个神经元确定为获胜神经元；以及

对于每个获胜神经元，所述神经元模型参数包括表示每个获胜神经元坐标的坐标数据，表示每个所述获胜神经元到多个数据集的平均距离的平均距离数据，以及表示每个所述获胜神经元被确定为获胜神经元的次数的权值数据。

2.如权利要求1所述的数据压缩设备，其中当无监督学习结束后，所述压缩装置删除从未被确定为获胜神经元的一个或多个神经元。

3.如权利要求1-2中任一项所述的数据压缩设备，还包括用于将神经元模型参数发送到一个外部单元的发送装置。

4.一种数据分析设备，其包括：

接收装置，其位于外部单元内，用于接收从权利要求3所限定的数据压缩设备的发送装置所发送的神经元模型参数；以及

分析装置，其用于根据由所述接收装置接收到的神经元模型参数对多个数据集进行分析，其中所述分析装置通过根据包括在神经元模型参数内的坐标数据和权值数据计算神经元的动态平均值来执行分析过程。

5.如权利要求4所述的数据分析设备，其中所述分析装置通过根据在神经元模型参数内的坐标数据、平均距离数据和权值数据计算多个数据集的密度分布来执行分析过程。

6.一种数据管理系统，其包括：

权利要求3中所限定的数据压缩设备；以及

权利要求4或5中所限定的数据分析设备。

7.如权利要求6所述的数据管理系统，其中所述目标是一个施工机械，并且n个参数值根据施工机械所执行的操作而变化。

8.一种数据压缩方法，其包括如下步骤：

检测多个数据集，每个数据集包括根据目标运行而变化的n个参数值，其中n是一个自然数；以及

通过把所述检测步骤的子步骤中检测到的多个数据集输入到一个n维空间中，在n维空间内设置预定数量的神经元，该数量小于n维空间内的多个数据集的数量，在神经元上执行神经网络的无监督学习以获得一个神经元模型，并利用多个数据集和神经元模型来计算神经元模型参数，从而对多个数据集进行压缩，其中

所述压缩步骤包括一个子步骤，其中对于多个数据集中的每个数据集，将与所述多个数据集中的每个数据集距离最短的那个神经元确定为获胜神经元；以及

对于每个获胜神经元，神经元模型参数包括表示每个获胜神经元坐标的坐标数据、表示每个所述获胜神经元到多个数据集的平均距离的平均距离数据，以及表示每个所述获胜神经元被确定为获胜神经元的次数的权值数据。

9.如权利要求8所述的数据压缩方法，其中所述压缩步骤还包括一个子步骤，其中删除从未被确定为获胜神经元的一个或多个神经元。

10.一种数据分析方法，其包括如下步骤：

获取在权利要求9所限定的数据压缩方法中得到的神经元模型参数；以及

根据在上述获取步骤中得到的神经元模型参数来分析多个数据集。

11.如权利要求10所述的数据分析方法，其中所述分析步骤是通过根据包括在神经元模型参数内的坐标数据和权值数据计算神经元的动态平均值来执行的。

12.如权利要求10所述的数据分析方法，其中所述分析步骤是通过根据包括在神经元模型参数内的坐标数据、平均距离数据和权值数据计算神经元的密度分布来执行的。