CN102339303A

CN102339303A - 分布式系统

Info

Publication number: CN102339303A
Application number: CN2011102035868A
Authority: CN
Inventors: 克里斯托弗·格德斯
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2010-07-20
Filing date: 2011-07-20
Publication date: 2012-02-01
Anticipated expiration: 2031-07-20
Also published as: US20120078973A1; US8892567B2; EP2410440A1; CN102339303B; EP2410440B1

Abstract

本发明涉及一种分布式系统，包括多个节点(N)，系统包括：索引节点(IN)集，用于提供可搜索索引，其包括在该系统中用于定位数据的元数据，其中，该索引节点(IN)集被分为多个读取区，该读取区包括一组包含完整可搜索索引的索引节点，且其中该读取区被细分为多个写入区，每个写入区包括至少一个索引节点，该索引节点包含该可搜索索引的分区；以及主索引节点(MIN)，其根据各索引节点(IN)的当前负荷，通过从每个索引节点(IN)收集各索引节点(IN)的当前的读取和写入吞吐量的测量值，来维持该可搜索索引的索引结构，其中该主索引节点(MIN)响应测定的读取和写入吞吐量以及该索引节点(IN)的测定负荷，来重新配置读取区和相应的写入区。

Description

分布式系统

技术领域

本发明涉及一种包括多个节点的分布式系统，并且特别涉及一种具有自主数据库的大型工业系统。

背景技术

工业系统，诸如供电系统逐渐变得庞大和复杂。此外，当代的信息和通信技术允许进行高频数据采样，如通过计量装置采样。因而，大量数据通过数据生成节点生成。大型工业系统中的设施通常不是同质的，而是包括各种具有不同能力、优势和缺点的硬件和软件栈。完全利用可用的硬件复杂配置是很必要的。然而，此类大型分布式系统的尺寸和复杂性要求能通过最低配置和维持最低开销进行稳定操作。

发明内容

相应地，本发明的一个目的就是提供一种通过最低配置和维持最低开销进行有效操作的分布式系统。

通过具有根据权利要求1所述特征的分布式系统实现该目的。

本发明提供一种包括多个节点的分布式系统，该系统包括：

(a)索引节点集，用于提供可搜索索引，该可搜索索引包括在系统中用于定位数据的元数据，

其中，索引节点集被分为多个读取区，该读取区包括一组包含完整可搜索索引的索引节点，且其中读取区被细分为多个写入区，每个写入区包括至少一个索引节点，该索引节点包含可搜索索引的分区；以及

(b)主索引节点，该主索引节点根据各索引节点的当前负荷，通过从每个索引节点(IN)收集各索引节点的当前的读取和写入吞吐量的测量值，来维持该可搜索索引的索引结构，其中，该主索引节点响应测定的读取和写入吞吐量以及该索引节点的测定负荷重新配置读取区和相应的写入区。

在根据本发明的分布式系统的一个可行实施例中，该主索引节点计算读取区和写入区的最佳数量，并自动重新配置读取区和相应的写入区，从而实现预定的目标读取和写入吞吐量。

在一个可行的实施例中，该主索引节点响应测定的读取和写入吞吐量以及测定的写入读取比例自动重新配置读取区和相应的写入区，从而在每个索引节点中至少提供最低的读取和写入吞吐量。

在根据本发明的分布式系统的一个可行实施例中，该系统包括：

一个主索引节点，其维持可搜索索引的索引结构，

多个索引节点，用于提供可搜索索引，该可搜索索引包括在该系统中用于定位数据的元数据，以及

多个节点，该节点通过数据生成器节点和数据消费者节点来形成。

在根据本发明的分布式系统的一个可行实施例中，节点具有用于生成数据的数据源和/或用于消费数据的数据接收器。

在根据本发明的分布式系统的一个可行实施例中，该数据生成节点的数据源包括传感器、计数器和计量表。

在根据本发明的分布式系统的一个可行实施例中，节点通过网络相互连接，以便交换数据，且共享资源以便存储数据。

该网络可以是有线或无线网络。

在根据本发明的分布式系统的一个可行实施例中，提供了可搜索索引，用于响应通过节点发送到索引节点的查询来查找数据源和/或特定类型的数据。

在根据本发明的分布式系统的一个可行实施例中，

网络的所有节点包括节点标识符，

其中所有索引节点包括在预定的索引标识符范围内的节点标识符。该节点标识符可通过节点地址形成。

在根据本发明的分布式系统的一个可行实施例中，主索引节点包括存储器，用于存储索引节点表，该索引节点表表明当前读取和写入吞吐量以及每个索引节点的当前负荷。

在根据本发明的分布式系统的一个可行实施例中，索引节点的属性表明各索引节点是否为：

配置给读取区的读取区主索引节点，或者

配置给写入区的写入区主索引节点，或者

配置给读取和写入区的读取和写入区主索引节点，或者

未配置给任何区的索引节点。

在根据本发明的分布式系统的一个可行实施例中，节点的测定负荷包括，在通过各节点进行的写入操作和读取操作之间的当前比例。

在根据本发明的分布式系统的一个可行实施例中，该分布式系统是一种能量供给系统，包括多个计量装置作为节点，用于生成能量消耗数据和能量供给数据。

在根据本发明的分布式系统的一个可行实施例中，节点通过数据网络直接或间接连接到至少一个索引节点，该索引节点提供可搜索索引，用于在能量供给系统中查找数据源和/或特定类型的数据。

在根据本发明的分布式系统的一个可行实施例中，每个计量装置均包括说明各计量装置的特征的元数据。

本发明还涉及一种对包括多个节点的分布式系统进行重新配置的方法，其中该方法包括以下步骤：

提供可搜索索引，该可搜索索引包括通过索引节点集定位在该分布式系统中的数据的元数据，

其中该索引节点集被分为多个读取区，该读取区包含完整的可搜索索引，该读取区被细分为多个写入区，该写入区包括至少一个索引节点，该索引节点包含可搜索索引的分区；

根据各索引节点的当前负荷，通过主索引节点从每个索引节点收集各索引节点的当前的读取和写入吞吐量的测量值；以及

响应测定的读取和写入吞吐量以及索引节点的测定负荷，通过主索引节点重新配置读取区和相应的写入区。

附图说明

图1示出根据本发明的分布式系统的原理结构的示意图；

图2a、2b说明根据本发明的分布式系统内的重新配置图；

图3a、3b说明根据本发明的分布式系统内的进入读取和写入区的一个区段的示意图；

图4说明对根据本发明的分布式系统进行重新配置的方法的一个可行实施例的流程图；

图5，6说明根据本发明的系统和方法的功能性的示意图。

具体实施方式

工业系统、尤其是收费比例(charge scale)工业系统可包括多个节点。工业系统可包括一个或甚至数百万个生成大量数据的节点。

图1是说明根据本发明的分布式系统的一个可行实施例的结构的示意图。在所示实施例中，该分布式系统的结构为三级结构。在第一级I中，主索引节点(MIN)创建并维持可搜索索引的索引结构。在第二级II中，索引节点IN组建不同的节点区，节点区包括写入区和读取区。在第三级III中，提供常规节点N，其中这些节点包括数据生成器节点和/或数据消费者节点。节点N形成部分读取区和/或写入区。

节点N可具有用于生成数据的数据源和/或用于消费数据的数据接收器。数据源可包括传感器、计数器和计量表或计量装置。例如，数据源可以是能量供给系统的计量装置，生成消费者的能量消耗数据，消费者消费由供应商通过供电系统的电网提供的能量。多个数据生成器节点生成高容量实时数据集，且生成的原始数据通过数据消费者节点进行处理，以便从通过数据源、如计量装置提供的数据中得到有价值的信息。

分布式系统的节点N以及索引节点IN和主索引节点MIN通过有线或无线网络相互连接，该网络可包括不同的拓补结构。节点拓补结构可包括一维拓补结构，诸如母线、环形结构或星形结构；两维拓补结构，诸如树形、格栅形或数组；及甚至三维拓补结构，诸如超立方体形。

网络的每个节点N可包括描述各节点特征的元数据。例如，一个包括电压传感器的数据生成器节点可包括，作为节点元数据，即各节点是能测量给定范围内的电压的节点。而且，该节点的元数据可表明各数据生成器节点的定位或位置。该节点元数据使得在分布式系统内找到满足一定标准的节点N变为可能。

如图1所示的索引节点IN集提供了包括存储在分布式系统中的定位数据的元数据的可搜索索引。分布式系统内的索引节点IN的数量通常大大少于第三级III中的常规节点N的数量。索引节点IN的数量可以是，例如，十个索引节点IN。主索引节点MIN维持可搜索索引的索引结构。此外，添加到系统中的额外节点通过主索引节点MIN注册。而且，该主索引节点MIN探测故障且重新配置系统，以便优化分布式系统的性能。特别地，在读取和写入操作之间的关系对该性能有影响。假定存储在系统中的数据项通过复制的数量按比例增加读取性能。而对于复制数据项的交替使用就在于，维持一致性使得写入操作的资源需求更大。类似的，写入性能可通过向多个节点分配数据来增加。而其不利之处在于读取性能会降低，因为必须接触多个节点，以便执行节点查找各数据项的查询。而且，节点的写入-读取比例对查询执行的性能也有影响。该写入-读取比例就是在通过各节点N进行的写入操作和读取操作之间的比例。低写入-读取比例可通过缓存增加吞吐量，然而许多写入操作却不利于缓存的优点。使用该信息，根据写入-读取比例，如各节点的当前负荷，通过从各节点收集它们的读取和写入吞吐量的测量值，主索引节点MIN创建了索引云(index cloud)的结构模式。

索引节点IN集被分为读取区，包括一组包含完整可搜索索引的索引节点。读取区包括当前存储在可搜索索引中的完整数据集。读取区还被细分为写入区，其中每个写入区包括至少一个索引节点IN。主索引节点MIN响应测定的读取和写入吞吐量以及索引节点IN的测定负荷重新配置读取区以及相应的写入区。主索引节点MIN计算读取和写入区的最佳数量，并自动重新配置读取区和相应的写入区，从而实现预定的目标读取和写入吞吐量。在一个可行实施例中，主索引节点MIN响应测定的读取和写入吞吐量以及测定的写入-读取比例重新配置读取区和相应的写入区，从而为每个索引节点IN至少提供一个最低读取和写入吞吐量。该吞吐量表明每次执行的操作。在一个可行实施例中，主索引节点MIN包括一个存储器，用于存储索引节点表，该表表明当前读取和写入吞吐量以及每个索引节点IN的当前负荷。主索引节点MIN根据各索引节点IN的当前负荷，如写入-读取比例，从每个索引节点IN收集各索引节点的当前读取和写入吞吐量的测量值，以便维持可搜索索引的索引结构。存储在主索引节点MIN的存储器中的表可表明，对于每个索引节点IN，各索引节点IN在预定时间周期内执行了多少读取操作和多少写入操作。基于该数据，主索引节点MIN计算读取和写入区的最佳数量，并重新配置读取区和相应的写入区，从而优化吞吐量。每个索引节点IN可有一个属性，表明各索引节点是否为配置给读取区的读取区主索引节点，配置给写入区的写入区主索引节点，配置给读取和写入区的读取和写入区主索引节点或未配置给任何区的索引节点。

图2a、2b示出简单示意图，说明读取和写入区的概念。在该简单实例中，分布式系统仅包括三个节点N。

图2a、2b示出两种极端情况。

在图2a所示的第一种情况中，所有节点N形成部分单一读取区，其也形成一个写入区。该读取和写入区包括完整可搜索索引的一个完整复制。配置给该读取和写入区的索引节点IN形成一个读取和写入区主索引节点且包括分布式系统的完整可搜索索引。该分布式系统的区段，如图2a所示，具有一个单一的写入和读取区，其允许快速读取和高读取性能，然而，包含的一致性导致写入操作对资源的需求更大。

图2b说明另外一个极端情况。该读取区分成三个写入区，每个写入区仅包括一个单一节点。在这种情况下，写入性能通过向很多节点分配数据而提高，但读取性能却很低，因为很多节点必须接触以便执行查询。在图2b的实例中，可搜索索引完全分为不同分区，其中保持可搜索索引分区的每个节点在查询时必须接触。

查询可以是一条消息，由常规节点N发送给索引节点IN，搜索分布式系统内的数据源或查找存储在分布式系统内的特定类型的数据。例如，能量供给商诸如RWE的节点N可通过网络向分布式系统的索引节点IN发送查询，以获取系统内数据消费者节点或数据生成器节点的信息。能量供给商的节点N，例如，可向索引节点IN传送询问或查询，以便搜索能在200到300伏的范围内进行电压测量且位于给定区域、如慕尼黑的计量装置。通过索引节点IN组提供的该可搜索索引可用于响应能量供给商节点发送的查询来查找这些类型的数据源。网络的所有节点N可包括节点标识符ID，诸如节点地址。在一个可行实施例中，所有索引节点IN均包括预定索引标识符范围内的节点标识符。例如，索引节点IN可包括网络内地址空间预定范围内的节点地址。在一个简单实例中，如果网络的地址空间仅包括数百个地址，地址80到地址100的范围可预定为用于索引节点IN。在该实例中，查询节点N可发送查询到带有在预定索引标识符范围内的节点标识符的节点，如发送查询到一个带有80和100之间地址的节点，例如节点地址87。

图3a、3b说明这种开始于开始ID和结束ID的索引范围。

可从图3a和3b中看出，索引节点集分为读取区，该读取区包括包含完整可搜索索引的索引节点IN，其中读取区被细分为写入区。每个写入区包括至少一个包含可搜索索引分区的索引节点。

图3说明了写入操作。图3b说明了读取操作。

图4示出了对根据本发明的分布式系统进行重新配置的方法的一个可行实施例的流程图。

在第一步骤S1中，提供了一种可搜索索引，其包括用于在分布式系统中定位数据的元数据。该可搜索索引由索引节点IN集提供。该索引节点集被分为包含完整可搜索索引的读取区，其中该读取区被细分为写入区，写入区包括至少一个包含可搜索索引分区的索引节点IN。

在下一步骤S2中，主索引节点MIN根据各索引节点的当前负荷从每个索引节点收集各索引节点IN的当前读取和写入吞吐量的测量值。

在下一步骤S3中，主索引节点MIN响应测定的读取和写入吞吐量以及索引节点的测定负荷重新配置该读取区和相应的写入区。该主索引节点MIN可计算读取和写入区的最佳数量，并自动重新配置读取区和相应的写入区，从而实现系统中预定的目标读取和写入吞吐量。

根据本发明的方法允许在分布式和不同类型环境内的高可用数据管理。因为读取和写入区的重新配置是自动进行的，所以不需要额外的配置和管理。通过共享数据源资源和消费者资源，无需额外的硬件。例如，假如一个平均吞吐量为每秒钟1986次读取和14次写入操作的索引节点，负荷为0.007的写入-读取比例以及每秒钟1600次读取和115次写入操作的总共需要的吞吐量，带6个读取区和41个写入区的索引节点就能满足目标要求。

此外，对于标准查询处理，索引节点IN提供额外的功能，连续处理大量的数据集。分布式系统的索引节点结构对于系统性能有很大的影响。可针对读取或写入操作对该索引进行优化。如果该索引针对读取操作进行了优化，就能及时发送用于就地查询处理的信息。通过让系统变大，负荷曲线图从主要为读取转向主要为写入操作。每个索引节点IN均可首先用于为节点元数据提供索引。此外，鉴于故障情况，诸如系统故障或网络中断，节点重新注册时可能会发生写入操作。相应地，系统中的写入负荷取决于节点N的到故障MTTF的时间间隔。到故障MTTF的时间间隔可以取决于各分布式系统而变化。尽管以小时计的故障MTTF对于网络中的节点来说很平常，但年度范围内的到故障MTTF的时间间隔更可能出现在装置或工业环境中的节点上。除了系统或网络故障引发的写入操作外，软件状态数据项会定期更新，以防止将其删除。在一个可行实施例中，系统包括探测节点故障的监控和快速清除数据的机制。

索引云上的读取负荷取决于当前在分布式系统中起作用的装置或节点的类型。此外，读取负荷取决于使用该分布式系统的应用程序。

完全的或复制的索引云中的写入性能受到最低索引节点支持的写入操作的最大数量的限制，因为最终所有的更新都需要在任何索引节点写入。根据其配置，额外的索引云可在高写入负荷要求的环境中产生更佳性能。

在一个可行的实施例中，如果查询结果通过该查询缓存且一旦写入与该查询匹配的项即失效的情况下，索引节点IN实施缓存流。分区索引云的读取和写入性能可通过增加或减少写入或读取区控制。通过根据本发明的方法，为给定操作负荷，即读取-写入比例提供了最优配置。

图5示出根据写入/读取比例的操作吞吐量的示意图。在写入/读取比例为0的情况下，只进行读取操作。在写入/读取比例为1的情况下，只进行写入操作。所述性能曲线具体为示意性索引节点的实施、缓存方案，并且也取决于采用的操作系统以及硬件网络架构。

图形显示不同读取和写入区的所有配置就形成了图6所示的示意图。图6示出系统相对于分区云配置的吞吐量。可以从图6看出，系统吞吐量取决于写入和读取区的配置。该配置通过主索引节点MIN响应测定的读取和写入吞吐量以及索引节点IN的测定负荷来调整。在一个可行实施例中，定期如每小时进行一次重新配置。在一个选择性实施例中，该重新配置通过事件引发，如当不能为索引节点提供所需最低读取和写入吞吐量时就引发重新配置。主索引节点MIN允许索引云自动构成。监控模块可针对特征功能确定一个基础，主索引节点MIN适应该曲线，并计算读取和写入区的最佳数量。因此索引负荷可通过调整读取和写入区的数量适应不断变化的负荷曲线图。在如图2a所示的一个极端实例中，分区索引云可退化成全复制索引云，以便实现最高的读取性能。在如图2b所示的另一个极端实施例中，该写入性能达到最大。

响应查询，分布式系统的节点可接触找到的与该查询匹配的数据源或数据生成器节点，且可控制相应的执行机构。例如，能量供给商的节点N搜索特定的带有所需特征且位于所需位置的计量装置，可通过向分布式系统的索引节点IN发送或传送相应的元数据的查询来搜索这种装置。找到匹配节点或带有所需特征的装置后，查询节点N可接触找到的节点，以便控制执行机构如开关装置。例如，能量供给商的查询节点N可搜索在前一个小时内消费了大量能量的所有消费者，以接触各节点，表明过度的能量消耗或甚至发送控制信号关闭各消费者节点，以便保护能量供给系统使其稳定。

索引节点IN提供可搜索索引，该可搜索索引包括用于定位和查找存储在分布式系统节点中的数据的元数据。在一个可行实施例中，索引节点IN可通过服务器或计算机或嵌入式系统中的微处理器形成。通过该分布式系统，根据本发明，可在一个可行实施例中实时动态进行重新配置。在一个可行实施例中，节点N通过连接至有线网络的非移动节点形成。在一个可行实施例中，节点N通过移动设施形成。这些移动节点N可通过无线数据链与网络通信。

Claims

1.一种分布式系统，包括多个节点(N)，所述系统包括：

(a)索引节点(IN)集，用于提供可搜索索引，所述可搜索索引包括在所述系统中用于定位数据的元数据，其中，所述索引节点(IN)集被分为多个读取区，所述读取区包括一组包含完整可搜索索引的索引节点，且其中所述读取区被细分为多个写入区，每个写入区包括至少一个索引节点，所述索引节点包含所述可搜索索引的分区；以及

(b)主索引节点(MIN)，所述主索引节点根据各索引节点(IN)的当前负荷，通过从每个索引节点(IN)收集各索引节点(IN)的当前的读取和写入吞吐量的测量值，来维持所述可搜索索引的索引结构，

其中所述主索引节点(MIN)响应测定的所述读取和写入吞吐量以及所述索引节点(IN)的测定负荷，来重新配置所述读取区和相应的所述写入区。

2.根据权利要求1所述的分布式系统，其中所述主索引节点(MIN)计算所述读取区和所述写入区的最佳数量，并自动重新配置所述读取区和相应的所述写入区，从而实现预定的目标读取和写入吞吐量。

3.根据权利要求1或2所述的分布式系统，其中所述系统包括：

一个主索引节点(MIN)，所述主索引节点维持所述可搜索索引的所述索引结构，

多个索引节点(IN)，用于提供所述可搜索索引，所述可搜索索引表明多个节点的元数据的存储位置，以及

多个节点(N)，所述节点通过数据生成器节点和数据消费者节点来形成。

4.根据权利要求3所述的分布式系统，其中所述节点(N)具有用于生成数据的数据源和/或用于消费数据的数据接收器。

5.根据权利要求4所述的分布式系统，其中所述数据源包括传感器、计数器和计量表。

6.根据权利要求5所述的分布式系统，其中所述节点(N)通过有线或无线网络相互连接，并交换数据，且共享资源以便存储数据。

7.根据权利要求1到6所述的分布式系统，其中提供了所述可搜索索引，用于响应通过节点(N)发送到索引节点(IN)的查询来查找数据源和/或特定类型的数据。

8.根据权利要求1到7所述的分布式系统，

其中所述网络的所有节点(N)包括节点标识符，

其中所有索引节点(IN)包括在预定的索引标识符范围内的节点标识符。

9.根据权利要求1到8所述的分布式系统，其中所述主索引节点(MIN)包括存储器，用于存储索引节点表，所述索引节点表表明当前读取和写入吞吐量以及每个索引节点(IN)的当前负荷。

10.根据权利要求9所述的分布式系统，其中索引节点的属性表明各索引节点(IN)是否为：

配置给读取区的读取区主索引节点，或者

配置给写入区的写入区主索引节点，或者

配置给读取和写入区的读取和写入区主索引节点，或者未配置给任何区的索引节点。

11.根据权利要求1到10所述的分布式系统，其中节点的测定负荷包括，在通过各节点(N)进行的写入操作和读取操作之间的当前比例。

12.根据权利要求1到11所述的分布式系统，其中所述分布式系统是一种能量供给系统，包括多个计量装置作为节点(N)，用于生成能量消耗数据和能量供给数据。

13.根据权利要求12所述的分布式系统，其中所述节点通过数据网络直接或间接连接到至少一个索引节点，所述索引节点提供所述可搜索索引，用于在所述能量供给系统中查找数据源和/或特定类型的数据。

14.根据权利要求13所述的分布式系统，其中每个所述计量装置均包括说明各计量装置的特征的元数据。

15.一种对包括多个节点(N)的分布式系统进行重新配置的方法，其中所述方法包括以下步骤：

(a)提供可搜索索引，所述可搜索索引包括通过索引节点(IN)集定位存储在所述分布式系统中的数据的元数据，其中所述索引节点(IN)集被分为多个读取区，所述读取区包含完整的可搜索索引，所述读取区被细分为多个写入区，所述写入区包括至少一个索引节点，所述索引节点包含所述可搜索索引的分区；

(b)根据各索引节点(IN)的当前负荷，通过主索引节点(MIN)从每个索引节点(IN)收集各索引节点(IN)的当前的读取和写入吞吐量的测量值；以及

(c)响应测定的所述读取和写入吞吐量以及所述索引节点(IN)的测定负荷，通过所述主索引节点(MIN)重新配置所述读取区和相应的所述写入区。