CN106469225A

CN106469225A - 一种智能车间管理中海量制造数据访问的方法

Info

Publication number: CN106469225A
Application number: CN201610858236.8A
Authority: CN
Inventors: 王维龙; 谢少军
Original assignee: Xiamen Rong Extension Iot Technology Co Ltd
Current assignee: Xiamen Rong Extension Iot Technology Co Ltd
Priority date: 2016-09-28
Filing date: 2016-09-28
Publication date: 2017-03-01
Anticipated expiration: 2036-09-28
Also published as: CN106469225B

Abstract

本发明公开的一种智能车间管理中海量制造数据访问的方法，通过数据库分区技术来对数据源进行划小，为划小后的各个数据源指定相应的布隆过滤器；设计多路布隆过滤器，采用并发的方式进行过滤判断；通过布隆过滤结果锁定请求数据“可能存在”的数据片区，再通过检索技术，获取目标数据，为智能车间管理及其支撑应用提供准确、高效的海量制造数据访问服务。

Description

一种智能车间管理中海量制造数据访问的方法

技术领域

本发明涉及智能制造和数据检索领域，尤其涉及一种智能车间管理中海量制造数据访问的方法。

背景技术

随着工业智能化的发展，特别是智能设备的大量应用，在智能车间管理及其支撑应用中，快速增长的制造数据具有体量巨大(Volume)、类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)的特征。如何在海量制造数据中准确、高效地检索目标数据，已是亟待解决的关键问题。

在研究技术解决方案的过程中，我们分别从数据库表分区(Partition)、索引(Index)及缓存(Cache)等角度进行优化，但是当制造数据达到一定量级时，仍然不能满足性能需求，尤其是时间效率低、空间需求高。传统上，业内常用布隆过滤器解决该类问题。布隆过滤器(Bloom Filter,BF)是一种高效的过滤判断算法，在海量数据上处理判断请求具有时间效率高、空间需求低的特点；但在另一方面，布隆过滤器应用于制造信息检索时，存在误判率偏高的缺点，且功能仅限于过滤判断，并没有构成一个相对完整的海量制造数据检索的技术链。

发明内容

本发明的目的在于提供一种智能车间管理中海量制造数据访问的方法，通过采用数据库分区技术，并设计多路布隆过滤算法，能在海量制造数据中准确、高效地检索目标数据，并在智能车间管理及其支撑应用中构建一个相对完整的海量制造数据检索的技术链。

为达成上述技术目的，本发明的技术方案如下：

一种智能车间管理中海量制造数据访问的方法，包括以下步骤：

步骤1、接收请求数据，并获取访问的查询参数，使用数据库分区技术来对数据源进行划小，从多个维度对制造数据进行分区处理，得到划小后的多个数据片区；

步骤2、为各个数据片区分别指定相应的布隆过滤器；

步骤3、将每个数据片区的热点数据初始化到对应的布隆过滤器位向量上；

步骤4、分流过滤，锁定需要参与过滤的目标数据片区：采用分流过滤算法，根据查询参数锁定需要进行布隆过滤的目标数据片区的集合，记集合中数据片区的个数记为t，将目标数据片区集合记为R＝{B[y],y∈[1,t]}；

步骤5、为过滤目标数据片区并行启动多路布隆过滤器：通过步骤4的分流过滤，得到了t个目标数据片区集合R，并为该请求并行启动t路布隆过滤器，为每路布隆过滤器过滤判断请求数据{x}是否在位向量B[y]中；

步骤6、根据布隆过滤结果，锁定请求数据最终“可能存在”的数据片区，作为检索目标数据片区；

步骤7、在“可能存在”请求数据{x}的待检索目标数据片区中检索数据，锁定需要进行检索的最小数据片区，直接过滤了异常请求，且大幅降低正常请求的待检索目标数据源大小，在分布式数据库结构的数据检索中，使用全局查询树优化方法和半连接的数据检索方法，在划小后的检索目标数据片区中检索数据，实现海量制造数据的访问。

上述步骤1具体包括以下步骤：

步骤1.1、使用分布式数据库来管理海量制造数据，先使用垂直分片技术对制造数据进行业务上的分片，然后对制造数据进行站点和时间维度的水平分片；

根据垂直分片规则，对制造数据进行业务上及热点数据上的垂直分片，其中业务上划分为设备中心、产品中心；热点数据上以是否为访问热点来划分数据，热点数据表示该数据集为频繁访问的实体数据集；

步骤1.2、按站点维度水平分片，初步划小数据源：

对制造数据按设备所属的站点划分为r个数据片区，将每一个数据片区记为P_i，i∈[1,r]，采用物理分区机制为各个P_i指定不同的物理磁盘；

步骤1.3、对所述的数据片区P_i进行时间维度的水平分片：

对制造数据，在时间维度上以“月”为最低粒度进行水平分片，划分为s个数据片区，每个数据片区记为P_ij，j∈[1,s]，采用逻辑分区机制。

所述步骤2具体包括：将每个数据片区P_ij中的热点数据对应一个布隆过滤器位向量B_ij，并缓存每个数据片区P_ij与布隆过滤器位向量B_ij之间的配置关系。

所述步骤3具体包括以下步骤：

步骤3.1、设m为数据片区P_ij的数据量，n为布隆过滤器位向量B_ij的长度，通过Hash函数将m个数据元素初始化映射到长度为n的位向量B_ij中，先将位向量B_ij初始化为0，再把每个数据元素{x}在位向量B[x]投影位置上的值设置为1；

步骤3.2、计算数据元素{x}通过Hash函数投影后，位向量B[x]值为“1”的概率：当发起检索某个数据元素{x}是否在目标数据片区内时，通过Hash函数将数据元素{x}投影到位向量B[y]上，而位向量B[y]上值为“1”的概率为：

步骤3.3、计算发生冲突的概率：通过单个Hash函数投影的布隆过滤器，位向量B_ij中实际不存在某个数据元素{x}，而B[x]仍然为“1”的概率跟所述公式①中的概率相等；

步骤3.4、布隆过滤器自身引入多个Hash函数来初始化映射数据：将多个Hash函数的个数记为k，若某个数据元素{x}在k个Hash函数投影位置上值均为“1”，则表示该数据元素{x}在数据片区中“可能存在”，某个原本不在目标数据片区中的数据元素{x}被布隆过滤器误判为“可能存在”于该数据片区中的误判率为：

步骤3.5、计算布隆过滤器的Hash函数个数k：由公式②可知k可以通过以下公式来计算：且k≥1，当k取公式③中的值时，可以得到误判率最低的最优解；

步骤3.6、使用k个Hash函数来初始化数据：根据公式③得到k值，把每个数据片区P_ij中的热点数据，使用k个Hash函数进行映射，初始化到对应的各个布隆过滤器位向量B_ij中，并将映射位置上的值设置为“1”；

步骤3.7、重复步骤3.2-3.6，直到每个数据片区P_ij都初始化到对应的布隆过滤器位向量B_ij上。

所述步骤5具体包括以下步骤：

步骤5.1、启动t个线程执行布隆过滤；

步骤5.2、在每个布隆过滤器上，通过k个Hash函数对请求参数进行并行映射；

步骤5.3、收集k个Hash函数的映射结果；

步骤5.4、合并t路布隆过滤器的过滤结果。

所述步骤6具体包括以下步骤：

步骤6.1、判断每路布隆过滤器是否“可能存在”请求数据{x}：在每路布隆过滤器中，请求数据{x}被k个Hash函数映射到位向量B[y]的k个位置上，如果通过k个Hash函数映射，B[y]中k个Hash映射值均为“1”，则表示请求数据{x}在B[y]中“可能存在”，即判定该路布隆过滤结果为true；如果通过k个Hash函数映射，B[y]中k个Hash映射值有一个为“0”，则表示请求数据{x}在B[y]中“一定不存在”，即判定该路过滤结果为false；

步骤6.2、在t路布隆过滤器中锁定“可能存在”请求数据{x}的数据片区：

当t个布隆过滤器全部执行完成时，获取步骤6.1中“可能存在”请求数据{x}的布隆过滤器集合；获取该布隆过滤器集合中各个布隆过滤器对应的位向量集合；根据每个位向量与数据片区的对应关系，获取对应的数据片区集合，作为待检索的目标数据片区。

所述步骤7中采用全局查询树优化方法和半连接的数据检索方法具体包括：

步骤7.1、采用基于二次数据分片的全局查询树方法在“可能存在”请求数据{x}的数据片区p[x]中检索结果集；

步骤7.2、根据数据访问服务接口规范，组织业务数据并返回。

本发明通过数据库分区技术来对数据源进行划小，为划小后的各个数据源指定相应的布隆过滤器；设计多路布隆过滤器，采用并发的方式进行过滤判断；通过布隆过滤结果锁定请求数据“可能存在”的数据片区，再通过检索技术，获取目标数据，为智能车间管理及其支撑应用提供准确、高效的海量制造数据访问服务。与现有技术相比，本发明的积极效果在于：

1.对数据源从需求上进行合理的数据库分区，以划小数据源，提升检索的I/O效率；

2.使用布隆过滤器对分区后的数据片区进行二次划小，利用其时间效率高、空间需求低的特点来提升访问效率；

3.使用多路布隆过滤器，通过并行过滤的方式提升访问效率；

4.使用全局查询树优化方法、半连接的数据检索方法，提升在目标数据片区里的数据检索效率。

附图说明

图1为本发明的流程图；

图2为本发明经过分流过滤锁定的目标数据片区；

图3为本发明中并发个数为k的Hash函数对各路布隆过滤器的投影操作示意；

图4为本发明各路布隆过滤器过滤请求数据的示意图；

图5为本发明全局查询树优化方法的示意图；

图6为本发明半连接的数据检索方法的流程图。

以下结合附图和具体实施例对本发明作进一步详述。

具体实施方式

如图1所示，本发明一种智能车间管理中海量制造数据访问的方法，具体包括如下步骤：

步骤1、接收请求数据，并获取访问的查询参数。使用数据库分区技术来对数据源进行划小，从多个维度对制造数据进行分区处理，得到划小后的多个数据片区：

步骤1.1、在本实施例中，使用分布式数据库来管理海量制造数据，先使用垂直分片技术对制造数据进行业务上的分片，然后对制造数据进行站点和时间维度的水平分片；

根据上述分片规则，对制造数据进行业务上及热点数据上的垂直分片，其中业务上划分为设备中心、产品中心等；热点数据上以是否为访问热点来划分数据，热点数据表示该数据集为频繁访问的实体数据集；

步骤1.2、按站点维度水平分片，初步划小数据源：

对制造数据按设备所属的站点划分为r个数据片区，将每一个数据片区记为P_i，i∈[1,r]，采用物理分区机制为各个P_i指定不同的物理磁盘，以提升在本数据片区内的I/O效率和数据安全性；

步骤1.3、对上述数据片区P_i进行时间维度的水平分片，进一步划小数据源：

对制造数据，在时间维度上以“月”为最低粒度进行水平分片，划分为s个数据片区，每个数据片区记为P_ij，j∈[1,s]，采用逻辑分区机制，来降低数据维护的复杂性；

步骤2、为各个数据片区分别指定相应的布隆过滤器：

将每个数据片区P_ij中的热点数据对应一个布隆过滤器位向量B_ij，并缓存每个数据片区P_ij与布隆过滤器位向量B_ij之间的配置关系；

步骤3、将每个数据片区P_ij的热点数据初始化到对应的布隆过滤器位向量B_ij上，如图2所示：

步骤3.3、计算发生冲突的概率：通过单个Hash函数投影的布隆过滤器，位向量B_ij中实际不存在某个数据元素{x}，而B[x]仍然为“1”的概率跟上述公式①中的概率相等；

步骤3.4、被检索的数据元素在投影过程中的冲突会导致布隆过滤器产生误判，为了降低使用单个Hash函数带来的数据冲突，布隆过滤器自身引入多个Hash函数来初始化映射数据，将多个Hash函数的个数记为k，若某个数据元素{x}在k个Hash函数投影位置上值均为“1”，则表示该数据元素{x}在数据片区中“可能存在”，某个原本不在目标数据片区中的数据元素{x}被布隆过滤器误判为“可能存在”于该数据片区中的误判率为：

步骤3.7、重复上述步骤，直到每个数据片区P_ij都初始化到对应的布隆过滤器位向量B_ij上；

步骤4、分流过滤，锁定需要参与过滤的目标数据片区：采用分流过滤算法，根据查询参数锁定需要进行布隆过滤的目标数据片区P_ij的集合，记集合中数据片区的个数记为t，将目标数据片区集合记为R＝{B[y],y∈[1,t]}；

步骤5、为过滤目标数据片区并行启动多路布隆过滤器：通过步骤4的分流过滤，得到了t个目标数据片区集合R，并为该请求并行启动t路布隆过滤器，为每路布隆过滤器过滤判断请求数据{x}是否在位向量B[y]中，如图3所示具体步骤如下：

步骤5.1、启动t个线程执行布隆过滤；

步骤5.3、收集k个Hash函数的映射结果；

步骤5.4、合并t路布隆过滤器的过滤结果；

步骤6、根据布隆过滤结果，锁定请求数据最终“可能存在”的数据片区，作为检索目标数据片区：

步骤6.1、判断每路布隆过滤器是否“可能存在”请求数据{x}：在每路布隆过滤器中，请求数据{x}被k个Hash函数映射到位向量B[y]的k个位置上，如图4所示，如果通过k个Hash函数映射，B[y]中k个Hash映射值均为“1”，则表示请求数据{x}在B[y]中“可能存在”，即判定该路布隆过滤结果为true；如果通过k个Hash函数映射，B[y]中k个Hash映射值有一个为“0”，则表示请求数据{x}在B[y]中“一定不存在”，即判定该路过滤结果为false；

当t个布隆过滤器全部执行完成时，获取步骤6.1中“可能存在”请求数据{x}的布隆过滤器集合；获取该布隆过滤器集合中各个布隆过滤器对应的位向量集合；根据每个位向量与数据片区的对应关系，获取对应的数据片区集合，作为待检索的目标数据片区；

步骤7、在“可能存在”请求数据{x}的待检索目标数据片区中检索数据，锁定需要进行检索的最小数据片区，直接过滤了异常请求，且大幅降低正常请求的待检索目标数据源大小，在分布式数据库结构的数据检索中，使用全局查询树优化方法和半连接的数据检索方法，在划小后的检索目标数据片区中检索数据，能够降低通信开销并提升I/O效率，具体步骤如下，如图5所示：

步骤7.1、基于二次数据分片的全局查询树方法，在“可能存在”请求数据{x}的数据片区p[x]中检索结果集，通过以下方式优化查询：

1)未考虑分片的全局查询树代数关系表达式为：④

π检索目标(σ条件＝？(σ Device.id＝Product.did and Device.id＝Status.did(Device×Product×Status)))其中，Device、Product、Status分别代表设备信息、产品信息、运行状态信息三个实体集，经过优化的分片全局查询树，在做连接操作的查询中，将选择和映射的操作提前，使连接操作中的数据量大大减小，提高了连接效率，减少了I/O消耗；

2)使用半连接的查询方式提升垂直分片数据的检索效率：

使用请求数据{x}代替整个实体集的半连接方式提升I/O效率，在分布式数据库中，先以部分数据替代原始的完整数据发起查询请求，例如，如图6所示，查询基于设备中心与产品中心的相关数据，不以完整的设备信息实体与产品信息实体作为关联条件来检索数据，而先在设备信息实体中锁定指定设备元素{x}，再以请求数据{x}与产品信息实体相关联，以减少关联实体的源数据量，获取查询结果；在上述查询结果中可能缺少设备信息实体的其他属性数据，再在设备中心发起针对设备元素{x}的二次查询请求，获取缺少的属性数据，这样半连接的二次检索虽然增加了连接次数，但是大幅度减少了大量数据的连接实体在通信上的开销；

本发明的重点在于：通过数据库分区技术来对数据源进行划小，为划小后的各个数据源指定相应的布隆过滤器；设计多路布隆过滤器，采用并发的方式进行过滤判断；通过布隆过滤结果锁定请求数据“可能存在”的数据片区，再通过检索技术，获取目标数据，最大限度地发挥了布隆过滤器在空间和时间方面的优势，来提升智能车间管理中海量制造数据访问的效率，具有很强的操作性。

Claims

1.一种智能车间管理中海量制造数据访问的方法，其特征在于，包括以下步骤：

步骤2、为各个数据片区分别指定相应的布隆过滤器；

2.如权利要求1所述的一种智能车间管理中海量制造数据访问的方法，其特征在于，所述步骤1具体包括以下步骤：

步骤1.2、按站点维度水平分片，初步划小数据源：

步骤1.3、对所述的数据片区P_i进行时间维度的水平分片：

3.如权利要求1所述的一种智能车间管理中海量制造数据访问的方法，其特征在于，所述步骤2具体包括：将每个数据片区P_ij中的热点数据对应一个布隆过滤器位向量B_ij，并缓存每个数据片区P_ij与布隆过滤器位向量B_ij之间的配置关系。

4.如权利要求1所述的一种智能车间管理中海量制造数据访问的方法，其特征在于，所述步骤3具体包括以下步骤：

步骤3.2、计算数据元素{x}通过Hash函数投影后，位向量B[x]值为“1”的概率：当发起检索某个数据元素{x}是否在目标数据片区内时，通过Hash函数将数据元素{x}投影到位向量B[y]上，而位向量B[y]上值为“1”的概率为：①

步骤3.4、布隆过滤器自身引入多个Hash函数来初始化映射数据：将多个Hash函数的个数记为k，若某个数据元素{x}在k个Hash函数投影位置上值均为“1”，则表示该数据元素{x}在数据片区中“可能存在”，某个原本不在目标数据片区中的数据元素{x}被布隆过滤器误判为“可能存在”于该数据片区中的误判率为：②

步骤3.5、计算布隆过滤器的Hash函数个数k：由公式②可知k可以通过以下公式来计算：③且k≥1，当k取公式③中的值时，可以得到误判率最低的最优解；

5.如权利要求1所述的一种智能车间管理中海量制造数据访问的方法，其特征在于，所述步骤5具体包括以下步骤：

步骤5.1、启动t个线程执行布隆过滤；

步骤5.3、收集k个Hash函数的映射结果；

步骤5.4、合并t路布隆过滤器的过滤结果。

6.如权利要求1所述的一种智能车间管理中海量制造数据访问的方法，其特征在于，所述步骤6具体包括以下步骤：

7.如权利要求1所述的一种智能车间管理中海量制造数据访问的方法，其特征在于，所述步骤7中采用全局查询树优化方法和半连接的数据检索方法具体包括：