CN113868301B

CN113868301B - 一种工业设备数据抽取的方法、装置及设备

Info

Publication number: CN113868301B
Application number: CN202111456611.3A
Authority: CN
Inventors: 张硕; 张博晗; 关昕; 蒋绵; 孟越; 丛一鸣; 陈景帅
Original assignee: Kunlun Intellectual Exchange Data Technology Beijing Co ltd
Current assignee: Kunlun Intellectual Exchange Data Technology Beijing Co ltd
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-06-07
Anticipated expiration: 2041-12-02
Also published as: CN113868301A

Abstract

本发明的实施例提供一种工业设备数据抽取的方法、装置及设备，所述方法包括：接收数据抽取请求；根据所述数据抽取请求，获得基于弱数据模式的测点集合对应的测点类型字典和数据分区段；根据所述测点集合对应的测点类型字典和数据分区段，对目标数据进行抽取，得到抽取结果。本发明的实施例减少了数据模式预先定义和在线维护的负担，同时让数据处理和访问有规则可遵循，可支持原始数据和聚合数据的抽取，实现灵活的支撑高吞吐数据的抽取。

Description

一种工业设备数据抽取的方法、装置及设备

技术领域

本发明涉及工业设备数据处理技术领域，特别是指一种工业设备数据抽取的方法、装置及设备。

背景技术

工业大数据和工业互联网中的众多的数据离线分析任务（例如，风力发电机设备的健康分析和风力发电机桨距角对风优化分析等）需要对海量机器设备时间序列数据进行高吞吐抽取和离线计算，往往需要充分利用计算机集群的计算资源而高效进行；

一类基于关系数据模型的时序数据存储模型中，采用强模式，具体地，先定义表；然后，对于每个表，定义组成的测点集合；在这种强模式方式中，一旦测点集合确定后，非集合以内的测点的数据无法再写入到系统中；而且，对于集合中的每个测点而言，一旦其数据类型确定后，对于非兼容此数据类型的数据无法再写入到系统中，因此基于强模式的数据抽取无法适应于工业数据场景中测点集经常变化的需求；

另外一类的时序数据存储模型中，采用无模式，相对于强模式的数据抽取方式，不需要强制预先定义测点组成表结构；这种无模式的数据抽取方式对于测点而言，依然在其数据类型确定以后，非兼容此数据类型的数据无法再写入到系统中；而且无模式的方式降低了数据的规整度，增加了数据的混乱度，让基于无模式的海量数据高效的抽取、处理和管理难度大大增大。

发明内容

本发明提供了一种工业设备数据抽取的方法、装置及设备。减少了数据模式预先定义和在线维护的负担，同时让数据处理和访问有规则可遵循，可支持原始数据和聚合数据的抽取，实现灵活的支撑高吞吐数据的抽取。

为解决上述技术问题，本发明的实施例提供以下方案：

一种工业设备数据抽取的方法，包括：

接收数据抽取请求；

根据所述数据抽取请求，获得基于弱数据模式的测点集合对应的测点类型字典和数据分区段；

根据所述测点集合对应的测点类型字典和数据分区段，对目标数据进行抽取，得到抽取结果。

可选的，获得基于弱数据模式的测点集合对应的测点类型字典和数据分区段，包括：

获得测点集合的测点类型字典；

根据所述测点类型字典，通过底层存储器得到所述测点类型字典对应的数据分区段；

通过所述弱数据模式的访问服务，对所述测点类型字典和数据分区段进行缩减处理，得到所述测点类型字典和数据分区段。

可选的，通过所述弱数据模式的访问服务，对所述测点类型字典和数据分区段进行缩减处理，得到所述测点类型字典和数据分区段，包括：

若所述测点类型为第一数据类型，则将所述测点类型字典中与所述测点类型的测点关系为强兼容的测点类型的集合作为测点类型字典；

若所述测点类型为第二数据类型，则将所述测点类型字典中与所述测点类型的测点关系为弱兼容的测点类型的集合作为测点类型字典；

若所述测点类型为第三数据类型，则将所述测点类型字典中所有的测点类型转换为最大类型的集合作为测点类型字典；

根据所述测点类型字典，得到与所述测点类型字典对应的数据分区段。

可选的，若所述目标数据为聚合数据，根据所述测点集合对应的测点类型字典和数据分区段，对目标数据进行抽取，得到抽取结果，包括：

对所述数据分区段对应的所有测点集合进行合并集合处理，得到第一合并测点集；

基于所述第一合并测点集对所述数据分区段进行联合所有集合处理，得到第一数据分区段集合；

对所述第一数据分区段集合对应的测点进行分组聚合计算，得到聚合数据，将所述聚合数据作为抽取结果。

可选的，若所述目标数据为原始测点数据，根据所述测点集合对应的测点类型字典和数据分区段，对目标数据进行抽取，得到抽取结果，包括：

根据所述数据分区段，得到预设时间内的至少一组关联数据子分区段；

将所述至少一组关联数据子分区段对应的所有测点集合进行合并集合处理，得到第二合并测点集；

基于所述第二合并测点集对所述至少一组关联数据子分区段进行连接处理，得到第二数据分区段集合；

将预设时间单位内所有的关联数据子分区段的第二数据分区段集合进行合并集合处理，得到原始测点数据，将所述原始测点数据作为抽取结果。

可选的，根据所述数据分区段，得到预设时间内的至少一组关联数据子分区段，包括：

对预设时间单位的数据分区段进行分组处理，得到在预设时间单位内的至少一组数据子分区段；

将所述在预设时间单位内的至少一组数据子分区段进行关联处理，得到至少一组关联数据子分区段。

可选的，对所述至少一组关联数据子分区段进行连接处理，得到第二数据分区段集合，包括：

对所述至少一组关联数据子分区段进行跨组全连接处理，得到第二数据分区段集合；或者

对所述至少一组关联数据子分区段进行联合所有集合处理，得到第二数据分区段集合。

本发明还提供一种工业设备数据抽取的装置，所述装置包括：

接收模块，用于接收数据抽取请求；

处理模块，用于根据所述数据抽取请求，获得基于弱数据模式的测点集合对应的测点类型字典和数据分区段；根据所述测点集合对应的测点类型字典和数据分区段，对目标数据进行抽取，得到抽取结果。

本发明还提供一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如上述的工业设备数据抽取的方法的步骤。

本发明还提供一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如上述的工业设备数据抽取的方法的步骤。

本发明的上述方案至少包括以下有益效果：

本发明的上述方案，通过接收数据抽取请求；根据所述数据抽取请求，获得基于弱数据模式的测点集合对应的测点类型字典和数据分区段；根据所述测点集合对应的测点类型字典和数据分区段，对目标数据进行抽取，得到抽取结果。解决了强数据模式和无数据模式都无法很好地适应工业场景下测点和数据类型在数据源端发生变化的问题，减少了数据模式预先定义和在线维护的负担，同时让数据处理和访问有规则可遵循（弱数据模式），可支持原始数据和聚合数据的抽取，实现灵活的支撑高吞吐数据的抽取。

附图说明

图1为本发明实施例的工业设备数据抽取的方法的流程示意图；

图2为本发明提供的具体实施例4中测点类型之间的关系示意图；

图3为本发明实施例的工业设备数据抽取的系统的结构示意图；

图4为本发明提供的具体实施例7中基于数据抽取的系统的数据抽取的流程示意图；

图5为本发明实施例的工业设备数据抽取的装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

如图1所示，本发明提供一种工业设备数据抽取的方法，包括：

步骤11，接收数据抽取请求；

步骤12，根据所述数据抽取请求，获得基于弱数据模式的测点集合对应的测点类型字典和数据分区段；

步骤13，根据所述测点集合对应的测点类型字典和数据分区段，对目标数据进行抽取，得到抽取结果。

该实施例中，接收工业设备数据抽取请求，该数据抽取请求包括测点集合和测点的抽取起止时间，基于弱数据模式得到测点集合对应的测点类型字典和数据分区段，根据该测点类型字典和数据分区段对目标数据进行抽取，得到抽取结果，减少了数据模式预先定义和在线维护的负担，同时让数据处理和访问有规则可遵循，可支持原始数据和聚合数据的抽取，实现灵活的支撑高吞吐数据的抽取。

需要说明的是，数据优选为工业设备数据，工业设备数据是工业机器设备物理量的数字化记录，工业设备数据中蕴含丰富的工业语义，例如，机器设备运行状态和机器设备运行工况等；工业设备数据具有如下特点：

（1）海量规模：工业机器设备以周为周期，一周7天24小时在不断地产生数据，由于工业机器设备数量较大，且工业机器设备上感知的测点数量庞大，采集频率较高，因此，采集到的数据规模巨大，数据存储一般在计算机集群上进行；

（2）测点集经常变化：由于工业机器设备调试实验、设备技术迭代升级、设备按业务需求增减、工业互联化的持续进行等原因，使增加工业机器设备、在设备上加装传感器、由调试所需而临时增减设备和传感器、设备维修后更换部件、更换传感器等情况经常发生，随之造成数据存储和处理的数据模式并不固定并且经常变化。

其中，数据抽取请求的格式优选的为：

Q:{start:t1,end:t2,select:[{p_name:m_1},{p_name:m_2},{p_name:m_3},{p_name:m_4}],result:r_path,…}。

需要说明的是，测点是通过待检测的工业机器设备在实际场景中设置的检测装置，接收待检测的工业机器设备的测量信息，并将该测量信息按一定规律变换成电信号或其他所需形式的数据信息；具体的，测点在数据系统中所对应的数据优选的为二元组的多重集：<timestamp,value>；测点名称是测点的唯一标识，其伴随一组数据类型信息，数据类型字典可以是开关量、模拟量、整数值以及一般字串中的至少一个的集合，如{"模拟量","一般字串"}；

进一步地，为测点提供测点组，测点组是测点的逻辑集合，用于对测点在逻辑上起到近似于容器的作用，一个测点组中的各测点之间没有顺序关系，各测点之间相对独立，没有关联关系；

测点组优选的由用户指定，用户优选的可通过默认值Default建立测点组，而测点不需要用户进行指定，测点随着数据信息输入数据系统而自动产生的，这里，由于用户并未预设测点的数据类型，因此历史存入数据系统的测点的数据类型为任何数据类型，新输入的数据信息对应的测点的数据类型并不会因为非兼容类型的问题而导致无法写入到数据系统，以便于实现全量机器设备时间序列数据的无干预的全量接入。

一个具体的实施例1中，测点在数据系统中所对应的数据二元组的多重集<timestamp,value>为：

<1633672800000,0.10>,

<1633672801000,0.11>,

<1633672802000,0.10>,

<1633672805000,0.12>,

<1633672806000,0.12>,

…

其中，上述测点中的数据类型为模拟量，二元组的多重集中timestamp使用通行的Epoch表示方式，Epoch用于在所有的数据送入网络中，完成了一次前向计算和反向传播的过程。

一个具体的实施例2中，测点定义可以表示为：

名称:

W3.XX3.3RCP005WW

数据类型:

{"模拟量","一般字串"}

其中，该测点的名称为W3.XX3.3RCP005WW，测点对应的数据类型字典为，{"模拟量","一般字串"}；

进一步地，测点的数据类型字典可以表示为：

{

模拟量:[

{“start”:1633622400000,“end”:1633708800000},

{“start”:1633795200000,“end”:1633881600000}

],

一般字串:[

{"start":1633708800000,"end":1633795200000}

]

}

其中，该数据类型字典表示该测点在时间段[1633622400000,1633708800000)和[1633795200000,1633881600000)上的时序数据都是模拟量类型的；在时间段[1633708800000,1633795200000)上的时序数据是一般字串类型的。

另外，数据系统（data system）是按照不同的层次分布式存储而成的系统，如数据库或分布式数据存储；数据系统中的数据模式是基于数据系统的数据模型的对数据的结构和约束的描述，例如关系模型中表结构的定义，表结构描述了表、字段以及预期数据格式（预期数据类型），即表数据的“规则”；其中，数据模型除了关系模型，还可以是键值模型或者图模型等；

强数据模式：预先定义“表”和表规则，并强制执行严格定义的表规则，数据系统的所有读写都遵守表规则；这种数据模式使得执行更容易，产生的错误更少，系统更方便进行请求处理和执行优化，同时便于数据保持规整性，便于数据使用；但是强数据模式必须预先定义后才可以存入数据，在强数据模式下在线更改模式对系统持续运行有一些影响，尤其在数据规模大以后更改模式更为困难；

无数据模式：系统内没有模式约束，不需要预先定义模式即可存入数据，优选的可以直接以文档形式写入数据系统，也不需要预先定义“表”和表规则；这种数据模式没有了存储数据之前预先定义模式的负担，数据类型具有灵活性；但是当存储的数据结构多样且数据类型各异时，这种数据模式下的数据处理的难度较大，对数据治理和使用难度大；

而弱数据模式是基于数据系统的强数据模式和无数据模式，提出的没有典型数据系统中“表”的概念，也不需要用户预先创建“表”的数据模式；当给定输入数据中测点的测点名称时，可以返回测点的数据类型字典，也可以返回在一定时间范围内的测点的数据类型字典，本申请不以此为限制；这里，需要说明的是，字典是无序的对象集合；

一个具体的实施例3中，基于弱数据模式下，根据测点的测点名称，返回测点的数据类型字典，可以是如下形式：

（1）形式1：

输入:测点名称W3.XX3.3RCP005WW

输出:

测点名称:

W3.XX3.3RCP005WW

类型集合:

{"模拟量","一般字串"}

（2）形式2：

输入:测点名称:W3.XX3.3RCP005WW

输出:测点名称:W3.XX3.3RCP005WW

类型字典:

{

模拟量:[

{“start”:1633622400000,“end”:1633708800000},

{“start”:1633795200000,“end”:1633881600000}

],

一般字串:[

{"start":1633708800000,"end":1633795200000}

]

}

基于弱数据模式下，根据测点的测点名称，返回在一定时间范围内的测点的数据类型字典，可以是如下形式：

（3）形式3：

输入:测点名称: W3.XX3.3RCP005WW

时间范围:{“start”:1633795200000,“end”:1633881600000}

输出:测点名称: W3.XX3.3RCP005WW

类型字典:

{

模拟量:[

{“start”:1633795200000,“end”:1633881600000}

]

}

上述的形式3，将输入时间范围与测点数据类型字典中时间范围有交集的数据类型作为返回，返回的起止时间以测点本身的起止时间为准。

本发明一可选的实施例中，步骤11包括：

步骤111，获得测点集合的测点类型字典；

步骤112，根据所述测点类型字典，通过底层存储器得到所述测点类型字典对应的数据分区段；

步骤113，通过所述弱数据模式的访问服务，对所述测点类型字典和数据分区段进行缩减处理，得到所述测点类型字典和数据分区段。

本实施例中，获得测点集合的测点类型字典可根据测点集合中测点的测点名称，返回与测点名称对应的测点类型字典，通过底层存储器得到测点类型字典对应的数据分区段，该数据分区段具有如下特点：

（1）该数据分区段由多个测点对应的在底层存储器上的时序数据构成；

（2）每个测点的数据类型在此数据分区段中是唯一的；

（3）该数据分区段中所有时序数据的时间戳在的一个起止时间段内，该时间戳对应的起止时间段可称为时间窗；

（4）数据分区段还可以被分组，使得每数据分区段对应的至少一个组内所有分区段时间窗的并集与其他组的时间窗并集不交叠，其中，数据分区段优选按照自然时间单位（例如，天、星期或者月等）来分组的；

另外，当通过底层存储器得到测点类型字典对应的数据分区段之后，可选的，对测点集合和数据分区段进行第一次缩减处理，但本申请不以此为限制，是否进行第一次缩减处理需根据底层存储器的实际情况而定；

通过弱数据模式的访问服务，对测点类型字典和数据分区段进行缩减处理，得到测点类型字典和数据分区段，这里的缩减处理相对于根据底层存储器而进行的第一次缩减处理来说，是在第一次缩减处理之后第二次缩减处理。

本发明一可选的实施例中，进一步地，步骤113包括：

步骤1131-1，若所述测点类型为第一数据类型，则将所述测点类型字典中与所述测点类型的测点关系为强兼容的测点类型的集合作为测点类型字典；

步骤1131-2，若所述测点类型为第二数据类型，则将所述测点类型字典中与所述测点类型的测点关系为弱兼容的测点类型的集合作为测点类型字典；

步骤1131-3，若所述测点类型为第三数据类型，则将所述测点类型字典中所有的测点类型转换为最大类型的集合作为测点类型字典；

步骤1132，根据所述测点类型字典，得到与所述测点类型字典对应的数据分区段。

本实施例中，弱数据模式的访问服务根据测点类型的关系而定，具体地，不同的测点类型之间可以在不损失信息的情况下隐式转换或显式转换，对于第一测点类型，当第二测点类型通过隐式转换得到第一测点类型时，则第一测点类型和第二测点类型之间为强数据兼容的关系；当第三测点类型可通过隐式转换或显式转换得到第一测点类型时，则第三测点类型和第二测点类型之间为弱数据兼容的关系；另外，至少两个测点类型的结果类型为最大类型。

如图2所示，一个具体的实施例4中，给定测点类型为整数值、模拟量、一般字串以及开关量，可见，整数值可通过实线路径转换为模拟量，模拟量和开关量可通过虚线路径转换为一般字串，其中，实线路径表示源类型可在不损失信息的情况下隐式转换为目标类型，即整数值的测点数据可隐式转换为模拟量型；虚线路径表示源类型可在不损失信息的情况下显式转换为目标类型，即某开关量的测点数据开关量“on”可显式转换为一般字串“on”；进一步地，一个测点的测点类型为T，第一目标类型M仅通过实线路径达到测点类型T，则称第一目标类型M与测点类型T强兼容（包括T自身），如“整数值”的测点类型与“模拟量”的测点类型是强兼容的；另一个测点的测点类型为T，第二目标类型N通过实线路径或虚线路径达到测点类型T，则称第二目标类型N与测点类型T弱兼容（包括T自身），如“整数值”的测点类型、“模拟量”的测点类型以及“开关量”的测点类型都与“一般字串”的测点类型是弱兼容的；

当对整数值、模拟量、一般字串以及开关量的测点类型进行组合后，得到结果类型如下表所示：

表1

如表1所示，表1中的输入测点类型包括整数值、模拟量、开关量以及一般字串，除了整数值和模拟量的最大类型为模拟量，其他的至少两个输入测点类型的最大类型为一般字串。

一个具体的实施例5中，通过弱数据模式的访问服务，对测点类型字典和数据分区段进行缩减处理时，可根据不同的测点的形式而定：

形式5-1，当抽取一个时间段内的若干个测点的时序数据并严格指定测点类型时，测点的形式为：

（1）起止时间为：{start:…,end:…}；

（2）从一个测点组mg中选取的若干测点名称以及数据类型约束：

[{p_name:m_1,

p_type:“一般字串”,

p_kind:“exclusive”

},

{p_name:m_2,

p_type:“模拟量”,

p_kind:“exclusive”

}]；

（3）结果集存放位置为：{result:…}。

其中，上述将指定的测点在指定的起止时间段内的时序数据进行抽取，由于每个测点的数据存在多种数据类型，仅抽取与指定的数据类型强兼容的测定点类型的数据，然后将结果集存放到指定位置。

具体地，结合具体的实施例4中图2的内容，整数值和模拟量之间是强兼容的关系，对于形式5-1中测点名称m_2的测点，将抽取底层存储器中与m_2对应的返回为“整数值”类型和“模拟量”类型的数据。

形式5-2，当抽取一个时间段内的若干个测点的时序数据并指定测点类型时，测点的形式为：

（1）起止时间为：{start:…,end:…}；

[{p_name:m_1,

p_type:“一般字串”,

p_kind:“inclusive”

},

{p_name:m_2,

p_type:“一般字串”,

p_kind:“inclusive”

}]

（3）结果集存放位置为：{result:…}。

其中，上述将指定的测点在指定的起止时间段内的时序数据进行抽取，由于每个测点的数据存在多种数据类型，仅抽取与指定的数据类型弱兼容的测定点类型的数据，然后将结果集存放到指定位置。

具体地，结合具体的实施例4中图2的内容，整数值、模拟量以及开关量与一般字串之间是弱兼容的关系，对于形式5-2中测点名称m_2的测点，将抽取底层存储器中与m_2对应的返回为“整数值”类型、“模拟量”类型、“开关量”类型以及“一般字串”类型的数据；

形式5-3，当抽取一个时间段内的若干个测点的时序数据并不指定测点类型时，测点的形式为：

（1）起止时间为：{start:…,end:…}；

[{p_name:m_1

},

{p_name:m_2

}]；

（3）结果集存放位置为：{result:…}.

其中，上述将指定的测点在指定的起止时间段内的时序数据进行抽取，由于每个测点的数据存在多种数据类型，将测点的数据全部转换为最大类型，然后将结果集存放到指定位置。

具体地，结合具体的实施例4中表1的内容，对于形式5-3中测点名称m_2的测点，将抽取底层存储器中与m_2对应的返回为“整数值”类型、“模拟量”类型、“开关量”类型以及“一般字串”类型的数据。

需要说明的是，上述形式5-1至形式5-3还可以进一步的与其他语义维度结合，从而形成新的抽取形式，例如，添加或减少测定值的过滤条件、添加或减少在时间戳上的聚合分组条件或者添加或减少测点值上的聚合函数；这里的添加或减少在时间戳上的聚合分组条件可以是指定分组的时间条件，比如以10分钟作为分组的时间条件或以1小时作为分组的时间条件，添加或减少测点值上的聚合函数可以是利用计数的count函数、求和的sum函数、求解最大值的max函数或者求解最小值的min函数得到测点对应的聚合数据。

一个具体的实施例6中，通过弱数据模式的访问服务，对测点类型字典和数据分区段进行缩减处理，得到测点类型字典可以是：

{m_1:{模拟量:[{“start”:t_m1_s,“end”:t_m1_e}],pt_segment:“m_1_a”}，

m_2:{一般字串:[{“start”:t_m2_s,“end”:t_m2_e}],pt_segment:“m_2_b”}，

m_3:{模拟量:[{“start”:t_m3_s,“end”:t_m3_e}],pt_segment:“m_3_c”},

m_4:{开关量:[{“start”:t_m4_s,“end”:t_m4_e}],pt_segment:“m_4_d”}}。

本发明一可选的实施例中，若所述目标数据为聚合数据，步骤13包括：

步骤13a1，对所述数据分区段对应的所有测点集合进行合并集合处理，得到第一合并测点集；

步骤13a2，基于所述第一合并测点集对所述数据分区段进行联合所有集合处理，得到第一数据分区段集合；

步骤13a3，对所述第一数据分区段集合对应的测点进行分组聚合计算，得到聚合数据，将所述聚合数据作为抽取结果。

本实施例中，聚合数据表示通过聚合函数对一段起止时间段上的若干个子时间段的测点集合进行聚合处理得到是数据，其中，聚合处理具体依据聚合函数而定，聚合函数可以是计数的count函数、求和的sum函数、求解最大值的max函数或者求解最小值的min函数；例如，起止时间段为30天，若干个子时间段分别为第1天、第2天、第3天…第30天，通过求和的sum函数的聚合函数分别对第1天、第2天、第3天…第30天的数据进行处理，得到第1天的测点数据和、第2天的测点数据和、第3天的测点数据和…第30天的测点数据和，这里的第1天至第30天的测点数据和即为根据求和sun函数得到的聚合数据。

对数据分区段对应的所有测点集合进行合并集合处理，得到第一合并测点集，该第一合并测点集包括所有测点集合中的所有测点，基于第一合并测点集，以第一合并测点集作为输出结构，对所有数据分区段进行联合所有集合处理，这里的联合所有集合处理优选的为UnionAll，Unionall的处理是将至少两个结果集进行并集操作，需要注意的是，Unionall的处理可以对重复行进行处理，不进行排序，将联合所有集合处理后的第一数据分区段集合中的测点进行分组聚合计算，这一步的分组聚合计算即为上述通过聚合函数对一段起止时间段上的若干个子时间段的测点集合进行聚合处理，然后得到至少一个聚合数据，将聚合数据作为抽取结果，将该抽取结果优选的输出至数据系统中的指定数据位置。

本发明一可选的实施例中，若所述目标数据为原始测点数据，步骤13包括：

步骤13b1，根据所述数据分区段，得到预设时间内的至少一组关联数据子分区段；

步骤13b2，将所述至少一组关联数据子分区段对应的所有测点集合进行合并集合处理，得到第二合并测点集；

步骤13b3，基于所述第二合并测点集对所述至少一组关联数据子分区段进行连接处理，得到第二数据分区段集合；

步骤13b4，将预设时间单位内所有的关联数据子分区段的第二数据分区段集合进行合并集合处理，得到原始测点数据，将所述原始测点数据作为抽取结果。

本实施例中，对原始测点进行数据抽取，根据数据分区段得到预设时间内的至少一组关联数据，这里的预设时间是小于数据抽取请求对应的起止时间，例如数据抽取请求对应的起止时间为1月1日至1月31日，共31日，则预设时间可以是1天，也可以是2天，该预设时间可依据需求而定，但不可以超过31天；这里，预设时间对应的测点可以表示为：

测点m_1：pt_segment:“m_1_a”；

测点m_2：pt_segment:“m_2_b”；

测点m_3：pt_segment:“m_3_c”；

测点m_4：pt_segment:“m_4_c”；

其中，测点m_1、测点m_2和测点m_3在同一预设时间内，而测点m_4在另一预设时间内。

具体地，本发明一可选的实施例中，步骤13b1包括：

步骤13b11，对预设时间单位的数据分区段进行分组处理，得到在预设时间单位内的至少一组数据子分区段；

步骤13b12，将所述在预设时间单位内的至少一组数据子分区段进行关联处理，得到至少一组关联数据子分区段。

本实施例中，对预设时间段的数据分区段进行分组处理，进而将在预设时间单位内的至少一组数据子分区段进行关联处理，这里的关联处理优选的是将数组子分区段中对应的测点中存在至少一个相同的测点的数据子分区段进行合并，得到至少一组关联数据子分区段。

进一步地，将至少一组关联数据子分区段对应的所有测点集合进行合并集合处理，得到第二合并测点集，其中，第二合并测点集中每个测点的测点类型为此测点名称对应的最大类型；

例如，将上述的起止时间段31天，预设时间段1天的例子中的1天预设时间段对应的数据分区段进行分组，将其分组为{a,b}、{b,c}以及{x,y}三组数据子分区段，对这三组数据子分区段进行关联处理，可见{a,b}和{b,c}之间b测点相同，而{x,y}与{a,b}和{b,c}不存在相同的测点，因此，可将{a,b}和{b,c}经过关联处理，得到{a,b,c}，最后得到的至少一组关联数据子分区段为{a,b,c}和{x,y}。

本发明一可选的实施例中，步骤13b3包括：

步骤13b31，对所述至少一组关联数据子分区段进行跨组全连接处理，得到第二数据分区段集合；或者

步骤13b32，对所述至少一组关联数据子分区段进行联合所有集合处理，得到第二数据分区段集合。

本实施例中，若用户对数据的输出结果大小敏感，即用户偏好输出文件更紧凑，则以第二合并测点集作为输出结构，将至少一组关联数据子分区段进行跨组全连接处理，这里的跨组全连接处理优选的为FullJoin处理，Join键包括(TS,row_number() over(partition by TS))两列，其中，TS表示时间戳列；或者，若用户对执行效率敏感，即用户偏好执行效率更加高效，吞吐量更大，则对至少一组关联数据子分区段进行联合所有集合处理，这里的联合所有集合处理优选的为UnionAll，Unionall的处理是将至少两个结果集进行并集操作；

将得到的第二数据分区段集合进行合并集合处理，得到原始测点数据，将原始测点数据作为抽取结果，进一步地，可将该原始测点数据的抽取结果输出到指定的数据位置。

如图3所示，本发明还提供一种工业设备数据抽取的系统，该系统包括机器设备时序数据抽取接口服务、机器设备时序数据抽取请求分析器、机器设备时序数据抽取计划器、(弱)数据模式访问接口服务、(弱)数据模式访问服务的持久化数据、分布式数据处理运行模块以及数据存储模块；

机器设备时序数据抽取接口服务用于将用户发出的数据抽取请求接收至数据抽取的系统中；

机器设备时序数据抽取请求分析器用于将对数据抽取请求进行请求分析；

机器设备时序数据抽取计划器用于对请求分析后的数据抽取请求制定抽取计划；

(弱)数据模式访问接口服务模块用于为输入的测点提供弱数据模式的访问接口服务；

分布式数据处理运行模块用于为机器设备时序数据抽取计划器的计划提供支持，如上述步骤13b3对至少一组关联数据子分区段进行连接处理等；

数据存储模块用于为数据提供存储空间和/或为数据调用提供支持。

如图4所示，一个具体的实施例7中，工业设备数据抽取的系统中对海量机器设备时间序列数据的抽取方法包括：

（7-1）数据抽取的系统收到提交到系统的数据抽取请求，这里，优选的由机器设备时序数据抽取接口服务对数据抽取请求进行接收；

（7-2）对数据抽取请求进行解析和分析抽取请求，这里，优选的由机器设备时序数据抽取请求分析器对数据抽取请求进行处理；

（7-3）得到数据抽取请求中的抽取起止时间、测点集合等信息；

（7-4）获得测点集合中的测点对应的测点类型字典，该测点类型字典记作初始测点类型字典；

（7-5）获取测点集合中的测点的对应的数据分区段；

（7-6）根据数据抽取请求中指定的测点类型，对步骤7-4和步骤7-5的初始测点类型字典和数据分区段进行缩减和转换处理；

（7-7）在步骤7-6的基础上进一步的缩减测点类型字典和对应的数据分区段，并判断是否进行聚合数据抽取；

（7-8a）若是进行聚合数据抽取，则：

将所有的数据分区段对应的测点集合进行合并，得到合并测点集；

以合并测点集为输出结构，对所有数据分区段进行Union ALL处理；

在Union ALL处理后进行分组聚合计算，并将所有数据抽取结果输出到指定数据位置；

（7-8b）若不是进行聚合数据抽取，则：

结合数据存储引擎得到数据分区的时间单位（天）；

对于数据分区段相关的每一天，执行如下操作：

对于当前天内的所有数据分区段进行分组，分组原则为：两两分区段间有同名测点归为一组；

对于每一组，计算每一组的数据分区段的测点集的并集，记为此组的第一合成测点集；然后以第一合成测点集作为输出结构，以Union ALL作为操作符，将所有组内的数据分区段进行合并处理，得到第二合成测点集；

对第二合成测点集进行用户偏好的判断，若用户偏好为数据结果更紧凑，则跨组之间进行全连接Full Join处理，若用户偏好为执行效率更高，则合并所有组的合并测点集，然后跨组之间做联合所有Union ALL处理；

（7-9）最后，将所有天内的测点集求并集、将所有日期的并集数据结果输出到指定数据位置。

本发明的实施例中通过接收数据抽取请求；根据所述数据抽取请求，获得基于弱数据模式的测点集合对应的测点类型字典和数据分区段；根据所述测点集合对应的测点类型字典和数据分区段，对目标数据进行抽取，得到抽取结果；减少了数据模式预先定义和在线维护的负担，同时让数据处理和访问有规则可遵循，可支持原始数据和聚合数据的抽取，实现灵活的支撑高吞吐数据的抽取。

如图5所示，本发明还提供一种工业设备数据抽取的装置，所述装置50包括：

接收模块51，用于接收数据抽取请求；

处理模块52，用于根据所述数据抽取请求，获得基于弱数据模式的测点集合对应的测点类型字典和数据分区段；根据所述测点集合对应的测点类型字典和数据分区段，对目标数据进行抽取，得到抽取结果。

可选的，接收模块51包括：

第一接收子模块，用于获得测点集合的测点类型字典；

第二接收子模块，用于根据所述测点类型字典，通过底层存储器得到所述测点类型字典对应的数据分区段；

第三接收子模块，用于通过所述弱数据模式的访问服务，对所述测点类型字典和数据分区段进行缩减处理，得到所述测点类型字典和数据分区段。

可选的，第三接收子模块包括：

可选的，若所述目标数据为聚合数据，处理模块52中根据所述测点集合对应的测点类型字典和数据分区段，对目标数据进行抽取，得到抽取结果，包括：

可选的，若所述目标数据为原始测点数据，处理模块52中根据所述测点集合对应的测点类型字典和数据分区段，对目标数据进行抽取，得到抽取结果，包括：

可选的，处理模块52中根据所述数据分区段，得到预设时间内的至少一组关联数据子分区段，包括：

需要说明的是，该装置是与上述方法对应的装置，上述方法实施例中的所有实现方式均适用于该装置的实施例中，也能达到相同的技术效果。

本发明的实施例还提供一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如上述的工业设备数据抽取的方法的步骤。

本发明的实施例还提供一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如上述的工业设备数据抽取的方法的步骤。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

此外，需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行，某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种工业设备数据抽取的方法，其特征在于，包括：

接收数据抽取请求；

根据所述测点集合对应的测点类型字典和数据分区段，对目标数据进行抽取，得到抽取结果；

其中，获得基于弱数据模式的测点集合对应的测点类型字典和数据分区段，包括：

获得测点集合的测点类型字典；

2.根据权利要求1所述的工业设备数据抽取的方法，其特征在于，通过所述弱数据模式的访问服务，对所述测点类型字典和数据分区段进行缩减处理，得到所述测点类型字典和数据分区段，包括：

3.根据权利要求1所述的工业设备数据抽取的方法，其特征在于，若所述目标数据为聚合数据，根据所述测点集合对应的测点类型字典和数据分区段，对目标数据进行抽取，得到抽取结果，包括：

4.根据权利要求1所述的工业设备数据抽取的方法，其特征在于，若所述目标数据为原始测点数据，根据所述测点集合对应的测点类型字典和数据分区段，对目标数据进行抽取，得到抽取结果，包括：

5.根据权利要求4所述的工业设备数据抽取的方法，其特征在于，根据所述数据分区段，得到预设时间内的至少一组关联数据子分区段，包括：

6.根据权利要求4所述的工业设备数据抽取的方法，其特征在于，对所述至少一组关联数据子分区段进行连接处理，得到第二数据分区段集合，包括：

7.一种工业设备数据抽取的装置，其特征在于，所述装置包括：

接收模块，用于接收数据抽取请求；

处理模块，用于根据所述数据抽取请求，获得基于弱数据模式的测点集合对应的测点类型字典和数据分区段；根据所述测点集合对应的测点类型字典和数据分区段，对目标数据进行抽取，得到抽取结果；

获得测点集合的测点类型字典；

8.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-6任一项所述的工业设备数据抽取的方法的步骤。

9.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-6任一项所述的工业设备数据抽取的方法的步骤。