CN117112543B

CN117112543B - 一种大数据信息管理系统及方法

Info

Publication number: CN117112543B
Application number: CN202311020571.7A
Authority: CN
Inventors: 李惠泽
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2024-02-27
Anticipated expiration: 2043-08-14
Also published as: CN117112543A

Abstract

本发明提出了一种大数据信息管理系统及方法，通过引入数据规制层尤佳地将采集数据进行系统管理，形成结构化大数据传输单元，提升了大数据管理的标引性。其次，通过设置双数据头字段叠加数据跟随字段的系统数据结构，在数据有限分片过程中，仍然能够尽可能在多个数据结构体位置保留数据标引成分。再次，本申请采用独特的双传输限制层来规制大数据传输过程中的速率限制，在传输限制层一采用较为宽松的传输限制策略，而在传输限制层二引入与数据规制层联动的数据后端反馈，通过传输限制层二的参数回馈，为数据规制层提供定向重传机制，较现有技术实现优异的大数据传输信息管控，为大数据管理和多应用数据整合提供系统平台。

Description

一种大数据信息管理系统及方法

技术领域

本发明属于新一代信息技术领域，尤其涉及一种大数据信息管理系统及方法。

背景技术

随着信息产业的迅猛发展，数据信息，尤其是大数据信息的采集和使用延伸至越来越多的应用场景，如智慧城市、电子信息管理、数据采集、移动应用等等。

作为大数据信息处理的前端，大数据采集往往是大数据管理的基础。大数据采集，又称大数据获取，是利用一种装置或系统工具，从系统外部采集数据并输入到系统内部的一个接口。大数据采集是指从传感器和其它待测设备等被采单元中自动采集非电量或者电量信号,送到大数据管理平台中进行分析处理。数据采集系统是结合基于计算机或者其他专用测试平台的测量软硬件产品来实现灵活的信息交互和上传系统。数据采集一般是采样方式，即隔一定采样周期对采集对象执行数据采集。采集对象可以是不同的应用，采集的数据大多是瞬时值或某段时间内的持续值。准确的数据测量是数据采集的基础，不论采用何种哪种方法均以不影响被测对象状态和测量环境为前提，从而保证数据的正确性。

大数据信息管理系统通常存在一些在初始化过程中未被提前纳入系统的管理对象或数据产生装置，例如各类移动装置或应用APP，这些对象往往以域外对象的暂态存在，并基于特定的节点加入大数据信息管理系统，成为系统的数据采集或数据处理节点。但是，在此过程中，由于数据采集或数据处理节点的数据采集存在暂态性以及高峰期，导致数据处理和数据传输存在很大的不确定性。在此过程中，如何较佳处理大数据的传输，并对大数据采集进行适宜规制和恰然标引，从而提升大数据信息的系统管理能力，成为当前现有技术的重点难点之一。

本发明提出了一种大数据信息管理系统及方法，首先利用多个大数据采集频点执行应用大数据采集，并通过引入数据规制层尤佳地将采集数据进行系统管理，形成结构化大数据传输单元，从而引入了对大数据到采集源的有效追溯，提升了大数据管理的标引性。其次，通过精巧设置双数据头字段叠加数据跟随字段的大数据信息管理系统数据结构，在数据有限分片过程中，仍然能够尽可能在多个数据结构体位置保留数据标引成分，提升系统管理综合能力。再次，本申请采用独特地双传输限制层来规制大数据传输过程中的速率限制，在传输限制层一采用较为宽松的传输限制策略，而在传输限制层二引入与数据规制层联动的数据后端反馈，通过传输限制层二的参数回馈，为数据规制层提供定向重传机制，较现有技术实现优异的大数据传输信息管控，为大数据管理和多应用数据整合提供系统平台。

发明内容

本发明旨在提供一种优于现有技术的大数据信息管理系统。

为了实现上述目的，本发明的技术方案如下：

一种大数据信息管理系统，所述系统包括：

多个大数据采集频点，所述大数据采集频点从多个采集对象处采集应用大数据，并添加相应大数据采集频点标引信息，传输至数据规制层；

所述应用大数据为分离的多个数据单元；

所述大数据信息管理系统在系统初始化过程中为多个潜在的所述采集对象提供系统预定义标识；

所述大数据采集频点标引信息，具体包括：

采集对象数据清洗标识；以及，

域外豁免标识；

数据规制层，所述数据规制层接收所述大数据采集频点从多个采集对象处采集的应用大数据，并将其按照大数据信息管理系统数据结构进行数据规制，形成结构化大数据传输单元；

所述大数据信息管理系统数据结构至少包括：

第一数据头字段，所述第一数据头字段包括域外豁免标识；

第二数据头字段，所述第一数据头字段包括数据采集时刻信息、数据采集频点信息，以及采集对象数据清洗标识；

数据负载部，所述数据负载部包括相应应用大数据的采集数据部分；

数据跟随字段，所述数据跟随字段包括采集对象的对象信息；

所述采集对象的对象信息表征所述采集对象的系统预定义标识与位置信息；

传输限制层一，所述传输限制层一对上行方向的结构化大数据传输单元执行数据传输约束，所述约束至少包括：

建立第一发送门限，确定门限容量mesh1与门限更新值k1；

当上行方向的结构化大数据传输单元数量在门限容量mesh1内时，仅允许域外豁免标识为1或2的结构化大数据传输单元通过，每处理一个结构化大数据传输单元，所述传输限制层一的门限容量mesh1-1，并按照预定第一周期执行更新，将门限容量mesh1添加[0,K1]之内的任意随机值；若某一时刻所述门限容量mesh1为0且未及时更新，则在更新前不允许任何结构化大数据传输单元在上行方向上传输；

传输限制层二，所述传输限制层二对下行方向的结构化大数据传输单元执行数据传输约束，所述约束至少包括：

建立第二发送门限，确定门限容量mesh2与门限更新值k2；

当下行方向的结构化大数据传输单元数量在门限容量mesh2内时，仅允许域外豁免标识为1或2的结构化大数据传输单元通过，每处理一个结构化大数据传输单元，所述传输限制层一的门限容量mesh2-1，并按照预定第一周期执行更新，将门限容量mesh2添加[0,K2]之内的任意随机值；若某一时刻所述门限容量mesh2为0且未及时更新，则在更新前不允许任何结构化大数据传输单元在上行方向上传输；

所述mesh1、mesh2的最大值为系统预设限速阈值MESH；

所述传输限制层二还用于实时提供门限容量mesh2至数据规则层；

所述数据规则层接收门限容量mesh2，若其与MESH的比值stype大于特定比例，则在形成结构化大数据传输单元过程中，随机丢弃stype比例的结构化大数据传输单元，并基于所述丢弃单元的数据头字段要求对应的数据采集频点进行重新采集。

较佳地，所述采集对象为大数据信息管理系统的域外数据源。

较佳地，所述大数据采集频点标引信息，还包括：

大数据采集频点标识。

较佳地，所述采集对象数据清洗标识由采集对象设置，若所述采集对象在所述大数据采集频点从多个采集对象处采集系统数据过程中，对上送数据进行了清洗，则将采集对象数据清洗标识置1，否则置0。

与之同时，本发明还提出一种大数据信息管理方法，所述方法包括以下步骤：

步骤一：应用大数据采集频点从多个采集对象处采集应用大数据，并添加相应大数据采集频点标引信息，传输至数据规制层；

所述应用大数据为分离的多个数据单元；

所述大数据采集频点标引信息，具体包括：

采集对象数据清洗标识；以及，

域外豁免标识；

步骤二：应用数据规制层接收所述大数据采集频点从多个采集对象处采集的应用大数据，并将其按照大数据信息管理系统数据结构进行数据规制，形成结构化大数据传输单元；

所述大数据信息管理系统数据结构至少包括：

第一数据头字段，所述第一数据头字段包括域外豁免标识；

步骤三：应用传输限制层一对上行方向的结构化大数据传输单元执行数据传输约束，所述约束至少包括：

建立第一发送门限，确定门限容量mesh1与门限更新值k1；

步骤四：应用传输限制层二对下行方向的结构化大数据传输单元执行数据传输约束，所述约束至少包括：

建立第二发送门限，确定门限容量mesh2与门限更新值k2；

所述mesh1、mesh2的最大值为系统预设限速阈值MESH；

步骤五：传输限制层二实时提供门限容量mesh2至数据规则层；

步骤六：应用数据规则层接收门限容量mesh2，若其与MESH的比值stype大于特定比例，则在形成结构化大数据传输单元过程中，随机丢弃stype比例的结构化大数据传输单元，并基于所述丢弃单元的数据头字段要求对应的数据采集频点进行重新采集。

较佳地，所所述大数据采集频点标引信息，还包括：

大数据采集频点标识。

与之同时，本发明还提出一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

与之同时，本发明还提出一种信息化数据处理设备，其包含有处理器、存储器，其中存储器包括计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

附图说明

图1是本发明示出的大数据信息管理系统的一种基本系统结构图；

图2是本发明示出的大数据信息管理系统中层次结构样式的一种系统结构较佳实施例示意图；

图3是本发明示出的大数据信息管理系统中管理信息标识传递的一种系统结构较佳实施例示意图；

图4是本发明示出的大数据信息管理方法的一种较佳实施例示意图；

图5是本发明示出的大数据信息管理方法中预处理步骤的一种优选实施例示意图。

具体实施方式

以下具体描述本发明所请求保护的大数据信息管理系统和方法的若干实施例和有益效果，以有助于对本发明进行更细致的审查和分解。

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，尽管在本发明实施例中可能采用术语第一、第二等来描述方法和相应装置，但这些关键词不应限于这些术语。这些术语仅用来将关键词彼此区分开。例如，在不脱离本发明实施例范围的情况下，第一操作等也可以被称为第二操作，类似地，第二操作等也可以被称为第一操作。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

如说明书附图1-3所示，为本发明所请求保护的大数据信息管理系统及其具体内含模块实施例之一，所述大数据信息管理系统包括：

所述应用大数据为分离的多个数据单元；

所述大数据采集频点标引信息，具体包括：

采集对象数据清洗标识；以及，

域外豁免标识；

作为一种可叠加的优选实施例所述大数据采集频点标引信息包括采集对象数据清洗标识以及域外豁免标识，具体为：所述采集对象数据清洗标识由采集对象设置，若所述采集对象在所述大数据采集频点从多个采集对象处采集系统数据过程中，对上送数据进行了清洗，则将采集对象数据清洗标识置1，否则置0。以及，所述域外豁免标识由系统为所述采集对象预置，表征所述采集对象在系统域外的重要性与传输优先级。作为一种可叠加的优选实施例，所述域外豁免标识为1或2。当所述采集对象的域外豁免标识为1时，表征其为系统外接的一般级别采集对象，其数据传输较域外豁免标识为2的采集对象低；当所述采集对象的域外豁免标识为2时，表征其为系统外接的高级别采集对象，其数据传输较域外豁免标识为1的采集对象高，且无论何时均覆写采集对象数据清洗标识为1。

所述大数据信息管理系统数据结构至少包括：

第一数据头字段，所述第一数据头字段包括域外豁免标识；

建立第一发送门限，确定门限容量mesh1与门限更新值k1；

建立第二发送门限，确定门限容量mesh2与门限更新值k2；

所述mesh1、mesh2的最大值为系统预设限速阈值MESH；

作为一种可叠加的优选实施例，所述采集对象为大数据信息管理系统的域外数据源。

作为一种可叠加的优选实施例，所述大数据采集频点标引信息，还包括：

大数据采集频点标识。

作为一种可叠加的优选实施例，所述采集对象数据清洗标识由采集对象设置，若所述采集对象在所述大数据采集频点从多个采集对象处采集系统数据过程中，对上送数据进行了清洗，则将采集对象数据清洗标识置1，否则置0。

与之同时，如说明书附图4-5所示，本发明还提出一种大数据信息管理方法，所述方法包括以下步骤：

步骤S102：应用大数据采集频点从多个采集对象处采集应用大数据，并添加相应大数据采集频点标引信息，传输至数据规制层；

所述应用大数据为分离的多个数据单元；

所述大数据采集频点标引信息，具体包括：

采集对象数据清洗标识；以及，

域外豁免标识；

步骤S104：应用数据规制层接收所述大数据采集频点从多个采集对象处采集的应用大数据，并将其按照大数据信息管理系统数据结构进行数据规制，形成结构化大数据传输单元；

所述大数据信息管理系统数据结构至少包括：

第一数据头字段，所述第一数据头字段包括域外豁免标识；

步骤S106：应用传输限制层一对上行方向的结构化大数据传输单元执行数据传输约束，所述约束至少包括：

建立第一发送门限，确定门限容量mesh1与门限更新值k1；

步骤S108：应用传输限制层二对下行方向的结构化大数据传输单元执行数据传输约束，所述约束至少包括：

建立第二发送门限，确定门限容量mesh2与门限更新值k2；

所述mesh1、mesh2的最大值为系统预设限速阈值MESH；

步骤S110：传输限制层二实时提供门限容量mesh2至数据规则层；

步骤S112：应用数据规则层接收门限容量mesh2，若其与MESH的比值stype大于特定比例，则在形成结构化大数据传输单元过程中，随机丢弃stype比例的结构化大数据传输单元，并基于所述丢弃单元的数据头字段要求对应的数据采集频点进行重新采集。

作为另一种可叠加的优选实施例，所述大数据采集频点标引信息，还包括：

大数据采集频点标识。

作为另一种可叠加的优选实施例，所述采集对象数据清洗标识由采集对象设置，若所述采集对象在所述大数据采集频点从多个采集对象处采集系统数据过程中，对上送数据进行了清洗，则将采集对象数据清洗标识置1，否则置0。

与之同时，本发明还提出一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。与之同时，本发明还提出一种信息化数据处理设备，其包含有处理器、存储器，其中存储器包括计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

在所有上述实施方式中，为实现一些特殊的数据传输、读/写功能的要求，上述方法操作过程中及其相应装置可以增加装置、模块、器件、硬件、引脚连接或存储器、处理器差异来扩展功能。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的方法，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述方法步骤的划分，仅仅为一种逻辑或功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为方法的各个步骤、装置分离部件说明的单元可以是或者也可以不是逻辑或物理上分开的，也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各方法步骤及其实现、功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述方法和装置可以以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、NVRAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

应说明的是：以上实施例仅用以更清晰地解释、阐述本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种大数据信息管理系统，所述系统包括：

所述应用大数据为分离的多个数据单元；

所述大数据采集频点标引信息，具体包括：

采集对象数据清洗标识；以及，

域外豁免标识；

所述大数据采集频点标引信息包括采集对象数据清洗标识以及域外豁免标识，具体为：所述采集对象数据清洗标识由采集对象设置，若所述采集对象在所述大数据采集频点从多个采集对象处采集系统数据过程中，对上送数据进行了清洗，则将采集对象数据清洗标识置1，否则置0；以及，所述域外豁免标识由系统为所述采集对象预置，表征所述采集对象在系统域外的重要性与传输优先级；所述域外豁免标识为1或2；当所述采集对象的域外豁免标识为1时，表征其为系统外接的一般级别采集对象，其数据传输较域外豁免标识为2的采集对象低；当所述采集对象的域外豁免标识为2时，表征其为系统外接的高级别采集对象，其数据传输较域外豁免标识为1的采集对象高，且无论何时均覆写采集对象数据清洗标识为1；

所述大数据信息管理系统数据结构至少包括：

第一数据头字段，所述第一数据头字段包括域外豁免标识；

建立第一发送门限，确定门限容量mesh1与门限更新值k1；

建立第二发送门限，确定门限容量mesh2与门限更新值k2；

当下行方向的结构化大数据传输单元数量在门限容量mesh2内时，仅允许域外豁免标识为1或2的结构化大数据传输单元通过，每处理一个结构化大数据传输单元，所述传输限制层一的门限容量mesh2-1，并按照预定第一周期执行更新，将门限容量mesh2添加[0,K2]之内的任意随机值；若某一时刻所述门限容量mesh2为0且未及时更新，则在更新前不允许任何结构化大数据传输单元在下行方向上传输；

所述mesh1、mesh2的最大值为系统预设限速阈值MESH；

所述数据规则层接收门限容量mesh2，若其与MESH的比值stype大于特定比例，则在形成结构化大数据传输单元过程中，随机丢弃stype比例的结构化大数据传输单元，并基于丢弃单元的数据头字段要求对应的数据采集频点进行重新采集。

2.如权利要求1所述大数据信息管理系统，其特征在于，所述采集对象为大数据信息管理系统的域外数据源。

3.如权利要求2所述大数据信息管理系统，其特征在于，所述大数据采集频点标引信息，还包括：

大数据采集频点标识。

4.如权利要求2所述大数据信息管理系统，其特征在于，所述采集对象数据清洗标识由采集对象设置，若所述采集对象在所述大数据采集频点从多个采集对象处采集系统数据过程中，对上送数据进行了清洗，则将采集对象数据清洗标识置1，否则置0。

5.一种大数据信息管理方法，所述方法包括如下步骤：

所述应用大数据为分离的多个数据单元；

所述大数据采集频点标引信息，具体包括：

采集对象数据清洗标识；以及，

域外豁免标识；

所述大数据信息管理系统数据结构至少包括：

第一数据头字段，所述第一数据头字段包括域外豁免标识；

建立第一发送门限，确定门限容量mesh1与门限更新值k1；

建立第二发送门限，确定门限容量mesh2与门限更新值k2；

所述mesh1、mesh2的最大值为系统预设限速阈值MESH；

步骤六：应用数据规则层接收门限容量mesh2，若其与MESH的比值stype大于特定比例，则在形成结构化大数据传输单元过程中，随机丢弃stype比例的结构化大数据传输单元，并基于丢弃单元的数据头字段要求对应的数据采集频点进行重新采集。

6.如权利要求5所述大数据信息管理方法，其特征在于，所述采集对象为大数据信息管理系统的域外数据源。

7.如权利要求5所述大数据信息管理方法，其特征在于，所所述大数据采集频点标引信息，还包括：

大数据采集频点标识。

8.如权利要求6所述大数据信息管理方法，其特征在于，所述采集对象数据清洗标识由采集对象设置，若所述采集对象在所述大数据采集频点从多个采集对象处采集系统数据过程中，对上送数据进行了清洗，则将采集对象数据清洗标识置1，否则置0。

9.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求5-8任一项所述方法。

10.一种信息化数据处理设备，其包含有处理器、存储器，其中存储器包括计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如权利要求5-8任一项所述方法。