CN114996362A - 一种数据处理和存储方法 - Google Patents
一种数据处理和存储方法 Download PDFInfo
- Publication number
- CN114996362A CN114996362A CN202210929797.8A CN202210929797A CN114996362A CN 114996362 A CN114996362 A CN 114996362A CN 202210929797 A CN202210929797 A CN 202210929797A CN 114996362 A CN114996362 A CN 114996362A
- Authority
- CN
- China
- Prior art keywords
- data
- information
- representing
- data information
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2379—Updates performed during online database operations; commit processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24532—Query optimisation of parallel queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/5018—Thread allocation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种数据处理和存储方法,涉及数据处理技术领域,解决的技术问题是数据处理和存储,本发明采用以下技术方案,一种数据处理和存储方法,包括以下方法:步骤一、在控制器作用下从数据库中获取数据信息,对获取到的数据信息进行预处理;步骤二、将预处理后的数据信息存储起来,通过HBASE+HIVE+SPARK存储模块实现数据信息存储;步骤三、在数据存储过程中通过软聚类算法模型实现数据信息分类,提高数据信息处理能力;步骤四、对处理后的数据信息通过调度算法实现数据信息调度。本发明能够提高数据信息处理和存储能力,提高用户利用数据信息的能力。
Description
技术领域
本发明涉及数据处理技术领域,且更确切地涉及一种数据处理和存储方法。
背景技术
随着信息技术的飞速发展,互联网技术、多媒体技术、物联网技术以及云计算技术也迅速蓬勃发展,大量的数据信息被传递、存储和应用,由于物质载体和使用范围的不同,非均质性的海量复杂异构数据逐步渗透到各种应用中,这就给数据的处理和应用带来麻烦。非均质性的海量复杂异构数据繁多,如何对诸如图片、试听材料、音频材料等多种结构化、非结构化和半结构化的数据进行存储、应用就成为亟待解决的问题。 随着数据信息量的增加,如何实现数据信息计算、存储和应用是当前处理数据问题中的关键。
发明内容
针对上述技术的不足,本发明公开一种数据处理和存储方法,能够提高数据信息处理和存储能力,提高用户利用数据信息的能力。
为了实现上述技术效果,本发明采用以下技术方案:
一种数据处理和存储方法,其中包括以下方法:
步骤一、在控制器作用下从数据库中获取数据信息,对获取到的数据信息进行预处理,并控制数据库数据信息的持续性读入和读出,不断对数据库中的数据信息进行更新;
步骤二、将预处理后的数据信息存储起来,通过HBASE+HIVE+SPARK存储模块实现数据信息存储,其中HBASE+HIVE+SPARK存储模块内设置流量计算模块和并行计算模块;
步骤三、在数据存储过程中通过软聚类算法模型实现数据信息分类,提高数据信息处理能力;
步骤四、对处理后的数据信息通过调度算法实现数据信息调度,未调度的数据信息被存储起来,处理后的数据信息被传递。
作为本发明进一步的技术方案,控制器为ARM32位的CortexTM-M3 CPU处理器。
作为本发明进一步的技术方案,不断对数据库中的数据信息进行更新的方法为:设置数据输入间隔时间,通过数据协议识别数据传输过程中的数据信息,并通过数据过滤模块对数据库中的数据信息过滤。
作为本发明进一步的技术方案,HBASE+HIVE+SPARK存储模块包括HBASE模块、HIVE模块和SPARK模块。
作为本发明进一步的技术方案,HBASE+HIVE+SPARK存储模块实现数据存储的方法为:
(1)数据信息写入:首先通过文件信息进行数据信息写入,在不同数据库的客户端中,
通过调用函数实现数据信息的调用,将接收到的数据信息不同文件信息输出到HBASE、HIVE或者SPARK数据库中, FSData Output Stream 将接收到的文件信息分成若干个小包,在不同数据库的数据节点之间实现数据信息的交互;
(2)数据信息的读取,通过调用open函数,向与该数据函数互通的架构节点发出数据读取请求,通过各个数据库内设置的元数据节点,能够获取文件内部蕴含的数据块信息;
(3)数据存储,在进行数据存储时,调取区块的数据程序,当前的区块数据流断开后,通过选择数据节点获取数据块,然后调取close函数阻断当前的数据流,其中一种形式的数据存储代码如下所示:
通过上述方式完成数据存储。
作为本发明进一步的技术方案,流量计算模块为多数据流协同计算模块,实现方法为:
步骤一、建立数据流协同计算模型,分别在HBASE模块、HIVE模块和SPARK模块中计算多数据流量数据信息,如公式(1)所示:
在公式(1)中,表示多数据流量数据信息输出模型,表示数据更新
函数,表示计算次数,表示计算总数,表示数据更新函数有效角度,表示在时间下的数据通信协议更新参数;表示多数据流量数据信息库;表示
多数据流量数据信息库中的信息种类;
步骤二、构建全局函数;
步骤三、构建本地函数数据信息,如公式(3)所示。
作为本发明进一步的技术方案,并行计算模块包括数据特征提取模块、HBASE模块接口、HBASE模块接口、SPARK模块接口、时序匹配模块、缓冲器SN74LVTH16245、DSPTMS320C6713、CY7C1061 SRAM模块和AM29LV800B FLASH模块,其中时序匹配模块设置有相关系数。
作为本发明进一步的技术方案,相关系数函数为:
在公式(4)中,表示滑动窗口中数据的内积;表示相关系数方阵的空间转
换系数,将阵阶数抽象成到一个计算网格之中,配置相关系数,得到特定滑动窗口,设置
线程块索引方式,对这8条数据流相关系数方阵索引,在所有线程块中,使用个线程
并行计算方式,对应滑行窗口中的个数据位积,采用协议算法计算滑行窗口中的个位积之和,并分段累加,得到,由任意数据流中相关系数获取最终数值;当线程
块中行、列索引存在数值关系,即行索引≤列索引时,线程块将不在下三角数组中;通过公
式(4)中的直线表达式,精确计算数据流的多数据流相关系数。
作为本发明进一步的技术方案,软聚类算法模型的工作方法为:
软聚类算法模型如公式(5)所示:
公式(5)中,表示待处理数据信息位置的指标参数,表示处理数据效率指
标,表示数据信息存储的参数,表示数据处理路径,表示待处理数据信息类型系数,表示待处理数据信息系数,表示待处理数据信息的变化次数,表示的是处理周期;
数据在处理过程中的变化规律函数如公式(2)所示:
公式(6)中,表示待测数据信息在分析应用过程中的动态变化规律函数,表示所测不同数据类型变量组数,表示所测不同数据类型计算次数,表示处理不
同数据信息时的信息变化量,表示所测不同数据类型系数,表示所测数据信息在当前
环境中的影响量系数,表示数据处理周期;
将处理数据信息按照隶属矩阵函数进行转换,则处理不同数据时动态变化函数转换公式如公式(7)所示:
公式(7)中,表示动态变化函数,表示处理不同数据信息时的信息变化
量,表示数据信息受外界信息影响的系数,表示所测不同数据类型系数,表示所测
数据信息在当前环境中的影响量系数,表示数据处理周期,表示所测不同数据类型变
量组数,表示所测不同数据类型计算次数;
校验函数转换式如公式(8)所示:
公式(9)中,表示造成数据误差的未知变量,表示数据调整效率,表示在
数据调整期间误差的变量,表示所测不同数据类型系数,表示所测数据信息在当前环境
中的影响量系数,表示数据处理周期,表示所测不同数据类型计算次数。
作为本发明进一步的技术方案,调度算法模型包括以下方法:
假设多种存储器用以下数据集合来表示:
在这种情况下,存储器的权值不等于零,则该存储器的数据不被调度。因此,通过上述关系式能够实现数据调度和平衡。
本发明积极有益效果在于:
本发明在控制器作用下从数据库中获取数据信息,对获取到的数据信息进行预处理,并控制数据库数据信息的持续性读入和读出,不断对数据库中的数据信息进行更新;本发明将预处理后的数据信息存储起来,通过HBASE+HIVE+SPARK存储模块实现数据信息存储,其中HBASE+HIVE+SPARK存储模块内设置流量计算模块和并行计算模块;在数据存储过程中通过软聚类算法模型实现数据信息分类,提高数据信息处理能力;对处理后的数据信息通过调度算法实现数据信息调度,未调度的数据信息被存储起来,处理后的数据信息被传递。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术成年白鼠员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图,其中:
图1 为本发明总体方案示例图;
图2 为本发明中HBASE+HIVE+SPARK存储模块架构示意图;
图3为本发明中并行计算模块原理结构图;
图4为本发明中流量计算模块数据流示意图;
图5为本发明中HBASE存储模块数据存储量示意图;
图6为本发明中HIVE存储模块数据存储量示意图;
图7为本发明中SPARK存储模块数据存储量示意图;
图8为本发明中融合存储模块数据存储量示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,一种数据处理和存储方法,包括以下方法:
步骤一、在控制器作用下从数据库中获取数据信息,对获取到的数据信息进行预处理,并控制数据库数据信息的持续性读入和读出,不断对数据库中的数据信息进行更新;
步骤二、将预处理后的数据信息存储起来,通过HBASE+HIVE+SPARK存储模块实现数据信息存储,其中HBASE+HIVE+SPARK存储模块内设置流量计算模块和并行计算模块;
步骤三、在数据存储过程中通过软聚类算法模型实现数据信息分类,提高数据信息处理能力;
步骤四、对处理后的数据信息通过调度算法实现数据信息调度,未调度的数据信息被存储起来,处理后的数据信息被传递。
在上述实施例中,控制器为ARM32位的CortexTM-M3 CPU处理器。
该控制器设置有ARM32位的CortexTM-M3 CPU处理器,并设置多通道的控制信号,具有兼容多种数据接口的I/O数据接口。在数据通讯时,采用了物联数据网络,采用的串口接口能够兼容WIFI通讯接口,采用的芯片名称为ESP8266高集成芯片,通讯芯片内设置低功率Tensilica L106钻石系列处理器,处理器为32-bit,其片上集成为SRAM,设置的ROM容量有2MB,WIFI @2.4 GHz,该模块还能够兼容TCP/IP协议栈。
在上述实施例中,不断对数据库中的数据信息进行更新的方法为:设置数据输入间隔时间,通过数据协议识别数据传输过程中的数据信息,并通过数据过滤模块对数据库中的数据信息过滤。
如图2所示,在上述实施例中,HBASE+HIVE+SPARK存储模块包括HBASE模块、 HIVE模块和SPARK模块。
在上述实施例中,HBASE+HIVE+SPARK存储模块实现数据存储的方法为:
(1)数据信息写入:首先通过文件信息进行数据信息写入,在不同数据库的客户端中,通过调用函数实现数据信息的调用,比如调用 Distributed File System函数中的create()程序,在经过初始化之后,将接收到的数据信息不同文件信息输出到HBASE、HIVE或者SPARK数据库中,此时的网络架构节点会接收上述数据信息并根据数据内容通过搜索引擎查询数据信息,当数据接口接收数据信息时,根据接收数据之前用户设置的创建文件的权限,输出数据接收情况,当数据接收后, FSData Output Stream 能够将接收到的文件信息分成若干个小包,在不同数据库的数据节点之间实现数据信息的交互;借助于 writepacket方案将接收到的数据信息写到数据节点中。数据写入成功后,则表示数据局库信息能够接收该数据信息,通过调用 ack packet 程序员给客户端,人工操作指令,实现数据信息的关闭,然后可以将数据完成的信息返回给不同的架构节点。
(2)数据信息的读取,通过调用open函数,向与该数据函数互通的架构节点发出数据读取请求,通过各个数据库内设置的元数据节点,能够获取文件内部蕴含的数据块信息;在用户客户端处,通过调用read()函数,实现数据信息的获取,最终在DFSInputStream识别获取的数据信息;最后的数据信息返回到用户客户端。
(3)数据存储,在进行数据存储时,调取区块的数据程序,当前的区块数据流断开后,通过选择数据节点获取数据块,然后调取close函数阻断当前的数据流,其中一种形式的数据存储代码如下所示:
通过上述方式完成数据存储。
本发明中,为了提高数据存储的功能,采用了云存储技术,在云平台中融合了数据安全管理、云数据监控以及能源调度、云数据共享与交互、资源调度等多方面服务。
本发明还采用了数据查询引擎技术,该技术能够在不同的数据库之间或者数据节点进行特定属性的数据查询和检索。在索引数据信息时,充分考虑了元数据标准,该标准根据元数据模型和与该数据模型相关技术的发明进行的定义。在组织架构中,将搜索引擎划分为网络爬虫Crawler、索引器、检索器以及用户接口,通过这些部件实现数据的搜索。在进行数据检索时,网络爬虫Crawler通过Web网络实现数据检索。索引器的主要作用是通过下载的内容实现数据分析,在分析数据时,根据数据存储方法、检索词语、目标函数分类、文档匹配等情况进行。分析后的结果通过用户接口与用户进行数据交互。
如图4所示,在上述实施例中,流量计算模块为多数据流协同计算模块,实现方法为:
多数据流协同计算主要是借助体系及并行处理算法来完成的,任务分析和合并都是通过数据缓存层来实现的。分布在不同数据流中设备,通过分布式连接方式,将数据连接起来。通过交替方向承子法并行优化算法对目标函数进行优化计算,以实现多机信息交互,使不同设备能够实现信息共享,具体步骤为:
步骤一、建立数据流协同计算模型,分别在HBASE模块、 HIVE模块和SPARK模块中计算多数据流量数据信息,如公式(1)所示:
在公式(1)中,表示多数据流量数据信息输出模型,表示数据更新函
数,表示计算次数,表示计算总数,表示数据更新函数有效角度,
表示在时间下的数据通信协议更新参数;表示多数据流量数据信息库;表示多数据
流量数据信息库中的信息种类;
步骤二、构建全局函数;
步骤三、构建本地函数数据信息,如公式(3)所示:
通过全局更新,建立多数据流处理方案,把广域分布的多数据流分成若干数据块,每一块由一个数据库存储。HBASE模块、 HIVE模块和SPARK模块在操作过程中涉及的数据信息存储量比较多,其主要目的是负责数据信息存储,这些模型的参数存储在多个主服务器上,并且水平划分。由于模型被划分得很好,HBASE模块、 HIVE模块和SPARK模块中的每一个模块只需访问一小部分就可实现对所有模型参数划分,进而实现数据快速训练、模型参数并行处理,具有良好的扩展性。与此同时,为了提高数据信息存储能力,经过多次迭代处理后,实时更新参数服务器中的参数。在多数据流协同计算过程中,利用ADMM不断优化目标参数,实现不同HBASE模块、 HIVE模块和SPARK模块的信息写作,完成多数据流信息的处理。
如图3所示,在上述实施例中,并行计算模块包括数据特征提取模块、HBASE模块接口、HBASE模块接口、SPARK模块接口、时序匹配模块、缓冲器SN74LVTH16245、DSPTMS320C6713、CY7C1061 SRAM模块和AM29LV800B FLASH模块,其中时序匹配模块设置有相关系数。
在具体实施例中,为了提高芯片内部计算速度,本发明设计了并行计算架构的方式,在短时间内快速对数据存储环境下输出的数据信息实现输出和计算,本发明通过自定义设置内部总线(internalbus, IB )的方式构建数据传输网络,并设置DSP 计算芯片,实现不同存储区域数据之间的传输,进而实现数据的共享。其中该处理器的型号为TI 公 司的 浮 点 型 DSPTMS320C6713。
本发明设计的 DSP 并行计算节点的结构,以DSP 为处理核心,在该设备中,外部存储器访问接口( external memory interface , EMIF )设置有与其与无缝连接的外部设备,这种方式使得扩展的缓存数据存储装置(其集成有SRAM模块和FLASH模块)与外部的EMIF 总线进行对接,进而使用户能够快速访问并行计算节点结构的外部数据信息,这就大大提高了数据访问能力。本发明还使用FPGA (fieldprogram-mablegatearray )中的芯片资源存储功能,通过在设备外部设置外延双端口RAM ( ( dual-port RAM , DPRAM ),提高了数据扩展和应用能力。
在本发明的并行计算架构中,还在FPGA芯片内部设计了 DPRAM多端口的数据波长访问序列,DSP芯片借助于其与连接的EMIF 总线,实现DPRAM 片内数据的访问。并行计算架构内还设计了总线缓冲( buffer )部件,通过该部件实现了来访数据的高速/低速访问,使得数据访问通道的物理特性得到很大程度的改善,进而获取较宽的数据带宽,这样通过配置不同的EMIF 接口,不仅能够接收不同的数据信息,提高接收数据信息的速度,还提高了数据计算能力。
在本发明的方法中,为了避免多种数据冲突问题,专门设置了EMIF 接口,通过该接口,能够有效地避免不同数据信号之间的冲突问题,该数据接口配置了不同形式的优先级数据程序,根据接收到的数据信息以及接收到数据的优先等级,进而实现数据的优先计算,提高了数据接收能力。
在公式(4)中,表示滑动窗口中数据的内积;表示相关系数方阵的空间转
换系数,将阵阶数抽象成到一个计算网格之中,配置相关系数,得到特定滑动窗口,设置
线程块索引方式,对这8条数据流相关系数方阵索引,在所有线程块中,使用个线程
并行计算方式,对应滑行窗口中的个数据位积,采用协议算法计算滑行窗口中的个位积之和,并分段累加,得到,由任意数据流中相关系数获取最终数值;当线
程块中行、列索引存在数值关系,即行索引≤列索引时,线程块将不在下三角数组中;通过
公式(4)中的直线表达式,精确计算数据流的多数据流相关系数。
在上述实施例中,软聚类算法模型的工作方法为:
软聚类算法模型通过将大量的复杂的故障数据集合划分为微小单元,然后通过显示类型的坐标规律完成故障数据位置确认与调整,类型聚类算法划分程序依据多种矩阵组合的方式,利用矩阵的粒子函数完成划分,对数据系统中的不同情况下的数据进行分别构建,则构建的矩阵形式表示如公式(5)所示:
公式(5)中,表示待处理数据信息位置的指标参数,表示处理数据效率指标,表示数据信息存储的参数,表示数据处理路径,表示待处理数据信息类型系数,
表示待处理数据信息系数,表示待处理数据信息的变化次数,表示的是处理周期;
数据在处理过程中的变化规律函数如公式(2)所示:
公式(6)中,表示待测数据信息在分析应用过程中的动态变化规律函数,表示所测不同数据类型变量组数,表示所测不同数据类型计算次数,表示处理不
同数据信息时的信息变化量,表示所测不同数据类型系数,表示所测数据信息在当前
环境中的影响量系数,表示数据处理周期;
将处理数据信息按照隶属矩阵函数进行转换,则处理不同数据时动态变化函数转换公式如公式(7)所示:
公式(7)中,表示动态变化函数,表示处理不同数据信息时的信息变化
量,表示数据信息受外界信息影响的系数,表示所测不同数据类型系数,表示所测数
据信息在当前环境中的影响量系数,表示数据处理周期,表示所测不同数据类型变量
组数,表示所测不同数据类型计算次数;
下面就是对建立的隶属度矩阵进行优化校验改进,找到聚类之后的矩阵函数规律,从而形成可靠性调整方式,校验函数转换式如公式(8)所示:
公式(9)中,表示造成数据误差的未知变量,表示数据调整效率,表示在
数据调整期间误差的变量,表示所测不同数据类型系数,表示所测数据信息在当前环境
中的影响量系数,表示数据处理周期,表示所测不同数据类型计算次数。
通过该算法可以对于出局信息的处理形成完整的校验体系,利用算法程序的聚类处理提高对于不同情况下故障情况的处理速度,形成较为完备的数据调整结构,对解决减少数据处理误差问题具有重要作用。
在上述实施例中,调度算法模型包括以下方法:
本发明采用的调度算法为加权最少连接调度算法,该算法的技术原理是将接收到的数据请求分配到众多服务器中的最合适的服务器中。下面通过公式进行说明。
假设多种存储器用以下数据集合来表示:
在这种情况下,存储器的权值不等于零,则该存储器的数据不被调度。因此,通过上述关系式能够实现数据调度和平衡。其中加权最少连接调度算法的核心代码如下:
在进行数据调度时,客户端借助于多种数据接口实现数据的结构化导出,将非均质性的海量复杂异构数据以动态的方式加载到存储器,在负载均衡器的作用下,实现数据的导入,下面对上述实施例中方法进行以下。
如图5-图8所示,采用的服务器配置为hadoop01、 hadoop02、hadoop03系列,计算机内核为Inter Core i7-9700H,运行内存为3200MHz 8×2GB,试验时在Windows环境下安装Ubuntu双系统,然后分别安装HBASE、HIVE和SPARK软件。本试验分别对本发明的分布式存储方法和并行计算方法进行验证。在本发明的方案中,将本发明的HBASE+HIVE+SPARK等多种存储模块与传统技术的单一存储模块进行对比分析。分别采用HBASE存储模块、HIVE存储模块和SPARK存储模块与本发明的集成与HBASE+HIVE+SPARK等多种存储模块的存储功能进行对比。为了形象地表示本发明的数据,在试验过程中用数据点表示,假设在1个小时内,通过数据发射与接收,其中HBASE存储模块存储数据的示意图如图5所示。HIVE存储模块存储数据的示意图如图6所示。SPARK存储模块存储数据的示意图如图7所示。本发明方法融合HBASE存储模块、HIVE存储模块和SPARK存储模块的数据存储量如图8所示,通过上述数据对比,可以看到,本发明方法的数据存储量较大。能够恰当地兼容HBASE+HIVE+SPARK的数据接口,有力地提高多种数据的存储能力,实现不同数据库下的数据互通。本发明兼容HBASE+HIVE+SPARK等多种数据接口,有效地提高了多种数据的存储能力,提高了不同形式数据的互通能力。
虽然以上描述了本发明的具体实施方式,但是本领域的技术成年白鼠员应当理解,这些具体实施方式仅是举例说明,本领域的技术成年白鼠员在不脱离本发明的原理和实质的情况下,可以对上述方法和系统的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此,本发明的范围仅由所附权利要求书限定。
Claims (10)
1.一种数据处理和存储方法,其特征在于:包括以下方法:
步骤一、在控制器作用下从数据库中获取数据信息,对获取到的数据信息进行预处理,并控制数据库数据信息的持续性读入和读出,不断对数据库中的数据信息进行更新;
步骤二、将预处理后的数据信息存储起来,通过HBASE+HIVE+SPARK存储模块实现数据信息存储,其中HBASE+HIVE+SPARK存储模块内设置流量计算模块和并行计算模块;
步骤三、在数据存储过程中通过软聚类算法模型实现数据信息分类,提高数据信息处理能力;
步骤四、对处理后的数据信息通过调度算法实现数据信息调度,未调度的数据信息被存储起来,处理后的数据信息被传递。
2.根据权利要求1所述的一种数据处理和存储方法,其特征在于:控制器为ARM32位的CortexTM-M3 CPU处理器。
3.根据权利要求1所述的一种数据处理和存储方法,其特征在于:不断对数据库中的数据信息进行更新的方法为:设置数据输入间隔时间,通过数据协议识别数据传输过程中的数据信息,并通过数据过滤模块对数据库中的数据信息过滤。
4.根据权利要求1所述的一种数据处理和存储方法,其特征在于:HBASE+HIVE+SPARK存储模块包括HBASE模块、 HIVE模块和SPARK模块。
5.根据权利要求4所述的一种数据处理和存储方法,其特征在于:HBASE+HIVE+SPARK存储模块实现数据存储的方法为:
(1)数据信息写入:首先通过文件信息进行数据信息写入,在不同数据库的客户端中,
通过调用函数实现数据信息的调用,将接收到的数据信息不同文件信息输出到HBASE、HIVE或者SPARK数据库中, FSData Output Stream 将接收到的文件信息分成若干个小包,在不同数据库的数据节点之间实现数据信息的交互;
(2)数据信息的读取,通过调用open函数,向与该数据函数互通的架构节点发出数据读取请求,通过各个数据库内设置的元数据节点,能够获取文件内部蕴含的数据块信息;
(3)数据存储,在进行数据存储时,调取区块的数据程序,当前的区块数据流断开后,通过选择数据节点获取数据块,然后调取close函数阻断当前的数据流完成数据的存储。
6.根据权利要求1所述的一种数据处理和存储方法,其特征在于:流量计算模块为多数据流协同计算模块,实现方法为:
步骤一、建立数据流协同计算模型,分别在HBASE模块、 HIVE模块和SPARK模块中计算多数据流量数据信息,如公式(1)所示:
在公式(1)中,表示多数据流量数据信息输出模型,表示数据更新函数,表示计算次数,表示计算总数,表示数据更新函数有效角度,表
示在时间下的数据通信协议更新参数;表示多数据流量数据信息库;表示多数据流
量数据信息库中的信息种类;
步骤二、构建全局函数;
步骤三、构建本地函数数据信息,如公式(3)所示:
7.根据权利要求1所述的一种数据处理和存储方法,其特征在于:并行计算模块包括数据特征提取模块、HBASE模块接口、HBASE模块接口、SPARK模块接口、时序匹配模块、缓冲器SN74LVTH16245、DSP TMS320C6713、CY7C1061 SRAM模块和AM29LV800B FLASH模块,其中时序匹配模块设置有相关系数。
9.根据权利要求1所述的一种数据处理和存储方法,其特征在于:软聚类算法模型的工作方法为:
软聚类算法模型如公式(5)所示:
公式(5)中,表示待处理数据信息位置的指标参数,表示处理数据效率指标,
表示数据信息存储的参数,表示数据处理路径,表示待处理数据信息类型系数,表
示待处理数据信息系数,表示待处理数据信息的变化次数,表示的是处理周期;
数据在处理过程中的变化规律函数如公式(2)所示:
公式(6)中,表示待测数据信息在分析应用过程中的动态变化规律函数,表
示所测不同数据类型变量组数,表示所测不同数据类型计算次数,表示处理不同数
据信息时的信息变化量,表示所测不同数据类型系数,表示所测数据信息在当前环境
中的影响量系数,表示数据处理周期;
将处理数据信息按照隶属矩阵函数进行转换,则处理不同数据时动态变化函数转换公式如公式(7)所示:
公式(7)中,表示动态变化函数,表示处理不同数据信息时的信息变化量,表示数据信息受外界信息影响的系数,表示所测不同数据类型系数,表示所测数据
信息在当前环境中的影响量系数,表示数据处理周期,表示所测不同数据类型变量组
数,表示所测不同数据类型计算次数;
校验函数转换式如公式(8)所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210929797.8A CN114996362B (zh) | 2022-08-04 | 2022-08-04 | 一种数据处理和存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210929797.8A CN114996362B (zh) | 2022-08-04 | 2022-08-04 | 一种数据处理和存储方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114996362A true CN114996362A (zh) | 2022-09-02 |
CN114996362B CN114996362B (zh) | 2023-03-21 |
Family
ID=83023255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210929797.8A Active CN114996362B (zh) | 2022-08-04 | 2022-08-04 | 一种数据处理和存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114996362B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116561374A (zh) * | 2023-07-11 | 2023-08-08 | 腾讯科技(深圳)有限公司 | 基于半结构化存储的资源确定方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209745A (zh) * | 2019-05-29 | 2019-09-06 | 电子科技大学 | 基于Radviz的智能电网数据聚类可视化方法 |
CN113128781A (zh) * | 2021-04-30 | 2021-07-16 | 大连理工大学 | 一种自动构建智能化模型与算法的分布式工业能源运行优化平台 |
US20210303629A1 (en) * | 2018-07-26 | 2021-09-30 | Nippon Telegraph And Telephone Corporation | Clustering device, method and program |
WO2022105736A1 (zh) * | 2020-11-20 | 2022-05-27 | 深圳前海微众银行股份有限公司 | 数据处理方法、装置、设备、计算机存储介质和程序 |
CN114723567A (zh) * | 2022-06-10 | 2022-07-08 | 深圳市润璟元信息科技有限公司 | 一种基于区块链技术的金融数据化信息分布式交易系统 |
CN114756557A (zh) * | 2022-06-15 | 2022-07-15 | 广州晨安网络科技有限公司 | 一种改进型计算机算法模型的数据处理方法 |
-
2022
- 2022-08-04 CN CN202210929797.8A patent/CN114996362B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210303629A1 (en) * | 2018-07-26 | 2021-09-30 | Nippon Telegraph And Telephone Corporation | Clustering device, method and program |
CN110209745A (zh) * | 2019-05-29 | 2019-09-06 | 电子科技大学 | 基于Radviz的智能电网数据聚类可视化方法 |
WO2022105736A1 (zh) * | 2020-11-20 | 2022-05-27 | 深圳前海微众银行股份有限公司 | 数据处理方法、装置、设备、计算机存储介质和程序 |
CN113128781A (zh) * | 2021-04-30 | 2021-07-16 | 大连理工大学 | 一种自动构建智能化模型与算法的分布式工业能源运行优化平台 |
CN114723567A (zh) * | 2022-06-10 | 2022-07-08 | 深圳市润璟元信息科技有限公司 | 一种基于区块链技术的金融数据化信息分布式交易系统 |
CN114756557A (zh) * | 2022-06-15 | 2022-07-15 | 广州晨安网络科技有限公司 | 一种改进型计算机算法模型的数据处理方法 |
Non-Patent Citations (1)
Title |
---|
蔡冰: "电力大数据的多数据流实时处理技术分析", 《自动化与仪表》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116561374A (zh) * | 2023-07-11 | 2023-08-08 | 腾讯科技(深圳)有限公司 | 基于半结构化存储的资源确定方法、装置、设备及介质 |
CN116561374B (zh) * | 2023-07-11 | 2024-02-23 | 腾讯科技(深圳)有限公司 | 基于半结构化存储的资源确定方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114996362B (zh) | 2023-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | BEGIN: Big data enabled energy-efficient vehicular edge computing | |
CN106372114A (zh) | 一种基于大数据的联机分析处理系统和方法 | |
Sasaki | A survey on IoT big data analytic systems: Current and future | |
Savaglio et al. | Data mining at the IoT edge | |
CN110798517B (zh) | 去中心化集群负载均衡方法、系统、移动终端及存储介质 | |
CN103701635B (zh) | 一种在线配置Hadoop参数的方法和装置 | |
CN114996362B (zh) | 一种数据处理和存储方法 | |
CN113259469A (zh) | 智能制造中边缘服务器部署方法、系统及存储介质 | |
Filip et al. | Data capsule: Representation of heterogeneous data in cloud-edge computing | |
Yan et al. | Architectural design and evaluation of an efficient Web-crawling system | |
Awad et al. | A novel intelligent approach for dynamic data replication in cloud environment | |
Qayyum et al. | Mobility-aware hierarchical fog computing framework for Industrial Internet of Things (IIoT) | |
Kumar et al. | Comparison of IoT architectures using a smart city benchmark | |
Zhu et al. | Mobile edge computing offloading scheme based on improved multi-objective immune cloning algorithm | |
Heintz et al. | Towards optimizing wide-area streaming analytics | |
Ksentini et al. | Fog-enabled industrial IoT network slicing model based on ML-enabled multi-objective optimization | |
Lu et al. | Framework of industrial networking sensing system based on edge computing and artificial intelligence | |
Li et al. | An adaptive read/write optimized algorithm for Ceph heterogeneous systems via performance prediction and multi-attribute decision making | |
Liu et al. | SimNUMA: simulating NUMA-architecture multiprocessor systems efficiently | |
Yu et al. | A two steps method of resources utilization predication for large Hadoop data center | |
Sugumaran et al. | AMBA: Adaptive Monarch Butterfly Algorithm based Information of Transfer Scheduling in Cloud for Big Information Application | |
CN112579293A (zh) | 一种分布计算系统的综合验证方法 | |
Yan | News and public opinion multioutput IoT intelligent modeling and popularity big data analysis and prediction | |
Liu et al. | An open, flexible and multilevel data storing and processing platform for very large scale sensor network | |
Tokar et al. | The IoT Applications Productivity: Data Management Model and ELK Tool Based Monitoring and Research |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230306 Address after: 450000 Floor 4, Building 3, East Zhengshang Muhua Square, West Huxindao Road, Mingli Road, Zhengdong New District, Jinshui District, Zhengzhou City, Henan Province Applicant after: Henan Yunfan Electronic Technology Co.,Ltd. Address before: 518109 646-647, building g, Gangshen Chuangxin Park, No. 38, Huaning Road, Xinshi community, Dalang street, Longhua District, Shenzhen City, Guangdong Province Applicant before: Shenzhen win win Jingxian Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |