CN117131001B - 一种分布式大数据有序智能分管方法、系统及存储介质 - Google Patents
一种分布式大数据有序智能分管方法、系统及存储介质 Download PDFInfo
- Publication number
- CN117131001B CN117131001B CN202311384832.3A CN202311384832A CN117131001B CN 117131001 B CN117131001 B CN 117131001B CN 202311384832 A CN202311384832 A CN 202311384832A CN 117131001 B CN117131001 B CN 117131001B
- Authority
- CN
- China
- Prior art keywords
- data
- big data
- model
- distributed
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003860 storage Methods 0.000 title claims abstract description 69
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 69
- 238000007726 management method Methods 0.000 claims description 110
- 238000013500 data storage Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 13
- 238000013145 classification model Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 12
- 230000003044 adaptive effect Effects 0.000 abstract description 5
- 230000004044 response Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 9
- 239000010410 layer Substances 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 238000013523 data management Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 239000002346 layers by function Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/172—Caching, prefetching or hoarding of files
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种分布式大数据有序智能分管方法、系统及存储介质,本申请结合分布式计算、数据处理和AI分管策略技术,以实现数据的智能分管和有序处理。利用HDFS对所述大数据进行批处理并预先储存,再利用AI分管模型基于AI分管策略对大数据进行有序分管和调取,以此响应用户对目标数据的调取指令,让用户快速获取所需的大数据进行处理、应用。因此,利用AI分管模型可以快速对不同数据属性的文本数据、图像数据和时间序列数据,实现有序的逻辑管理,快速实现各种数据类型的任务调度,为不同大数据处理任务提供适配的数据,高效、有序实现各类大数据的分管,提高大处理数据的时效性。
Description
技术领域
本公开涉及大数据处理技术领域,尤其涉及一种分布式大数据有序智能分管方法、系统及存储介质和电子设备。
背景技术
大数据,即巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的大量非结构化和半结构化数据。因而一般大数据具有五个特性:数量Volume、种类Variety、价值Value、真实性Veracity、速度Velocity。
而在当今信息爆炸的时代,大数据处理成为了各个行业的重要需求,用户对于大数据的管理、处理和应用,也越来越要求数据上的处理和管理全面性以及及时性,尤其是大数据处理的时效性,要求对于数据的处理效率需要满足当下对数据信息的需求速度。
对于大数据的处理和应用,对大数据的有序管理,就成为大数据高效处理和应用中的重要一环,只有高效、有序实现大数据的分管,才能按照数据处理逻辑、时序,快速实现各种数据类型的任务调度,为不同大数据处理任务提供适配的数据。
因此,有必要提出一种智能分管和高效分管大数据的技术方案,以此来对接大数据处理和应用的任务调度需求。
发明内容
为了解决上述问题,本申请提出一种分布式大数据有序智能分管方法、系统及存储介质和电子设备。
本申请一方面,提出一种分布式大数据有序智能分管方法,包括如下步骤:
采集大数据并发送至分布式文件系统HDFS;
分布式文件系统HDFS对所述大数据进行批处理,并将批处理的所述大数据进行分布式储存;
大数据AI分管平台接收用户输入的大数据分管指令,并进行响应,通过大数据AI分管平台上预设的AI分管模型,基于AI分管策略对所述分布式文件系统HDFS中呈分布式储存的所述大数据进行有序分管和调取;
将调取的所述大数据缓存在分布式数据存储数据库中指定的Nosql模型中,等待用户从所述Nosql模型中查看所调取的所述大数据。
作为本申请的一可选实施方案,可选地,分布式文件系统HDFS对所述大数据进行批处理,并将批处理的所述大数据进行分布式储存,包括:
批量对所述大数据进行预处理和清洗;
对批量处理后的所述大数据,按照数据属性进行数据分类,得到由若干数据m组成的数据集M:
M={文本数据m1,图像数据m2,时间序列数据m3};
将所述数据集M中的若干数据m分布式储存于所述分布式文件系统HDFS的各个存储节点;
将各个所述数据m的数据属性,绑定在对应的所述存储节点的节点身份ID之下,用于分布式存储管理。
作为本申请的一可选实施方案,可选地,在大数据AI分管平台接收用户输入的大数据分管指令之前,还包括:
将所述分布式文件系统HDFS的各个存储节点的节点身份ID,发送至所述大数据AI分管平台;
所述大数据AI分管平台接收各个存储节点的节点身份ID,并对各个存储节点的节点身份ID进行身份ID登记。
作为本申请的一可选实施方案,可选地,所述AI分管模型的生成方法,包括:
获取对应各个所述数据m的历史数据,并根据所述历史数据选择对应的AI模型;
使用所述历史数据对所述AI模型进行模型训练,生成识别和分管所述历史数据的所述AI分管模型,包括:
用于识别并分管所述文本数据m1的第一AI分管模型,以及
用于识别并分管所述图像数据m2的第二AI分管模型,以及
用于识别并分管所述时间序列数据m3的第三AI分管模型;
将所述AI分管模型部署于所述大数据AI分管平台,并进行模型工作参数配置。
作为本申请的一可选实施方案,可选地,所述AI分管策略的配置方法,包括:
设置优先级排序规则,所述AI分管模型按照所述优先级排序规则,对所述数据m中的各项数据进行优先级排序,按照优先级排序进行有序分管;
设置节点属性匹配规则,所述AI分管模型按照所述节点属性匹配规则,将所述数据m中的各项数据,发送至对应的与各项数据的数据属性相一致的所述分管节点,进行节点管理;
将所述优先级排序规则和所述节点属性匹配规则,分别配置并保存在所述AI分管模型上。
作为本申请的一可选实施方案,可选地,大数据AI分管平台接收用户输入的大数据分管指令,并进行响应,通过大数据AI分管平台上预设的AI分管模型,基于AI分管策略对所述分布式文件系统HDFS中呈分布式储存的所述大数据进行有序分管和调取,包括:
接收并解析用户输入的所述大数据分管指令,获取用户需要分管的目标大数据的所述数据属性;
根据所述数据属性所绑定的所述节点身份ID,找到所述目标大数据在所述分布式文件系统HDFS中的对应所述存储节点,并从该所述存储节点中提取得到所述目标大数据;
所述大数据AI分管平台根据所述数据属性,激活对应属性的所述AI分管模型,由所述AI分管模型基于所配置的所述AI分管策略,对所述目标大数据进行有序分管;
调取分管后的各项目标数据,并发送与各项目标数据的数据属性相一致的所述分管节点,进行节点管理。
作为本申请的一可选实施方案,可选地,将调取的所述大数据缓存在分布式数据存储数据库中指定的Nosql模型中,等待用户从所述Nosql模型中查看所调取的所述大数据,包括:
当所述分管节点接收到所述AI分管模型发送的所述目标数据之后,将所述目标数据缓存在为当前所述分管节点指定的Nosql模型中,并向前端发出对所述大数据分管指令的反馈;
用户查看到该反馈之后,从所述Nosql模型中查看并处理所述目标数据。
本申请另一方面,提出一种实现所述分布式大数据有序智能分管方法的系统,包括:
大数据采集层,用于采集大数据并发送至分布式文件系统HDFS;
分布式文件系统HDFS,用于对所述大数据进行批处理,并将批处理的所述大数据进行分布式储存;
大数据AI分管平台,用于通过预设的AI分管模型,基于AI分管策略对所述分布式文件系统HDFS中呈分布式储存的所述大数据进行有序分管和调取,并将调取的所述大数据缓存在分布式数据存储数据库中;
分布式数据存储数据库,用于将所述大数据AI分管平台调取的所述大数据,保存在指定的Nosql模型中。
本申请另一方面,还提出一种存储介质,所述存储介质中存储有可执行的计算机程序,该程序被执行时,以实现所述的分布式大数据有序智能分管方法的步骤。
本申请另一方面,还提出一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令时实现所述的一种分布式大数据有序智能分管方法。
本发明的技术效果:
本申请结合分布式计算、数据处理和AI分管策略技术,以实现数据的智能分管和有序处理。利用HDFS对所述大数据进行批处理并预先储存,再利用AI分管模型基于AI分管策略对大数据进行有序分管和调取,以此响应用户对目标数据的调取指令,让用户快速获取所需的大数据进行处理、应用。因此,利用AI分管模型可以快速对不同数据属性的文本数据、图像数据和时间序列数据,实现有序的逻辑管理,快速实现各种数据类型的任务调度,为不同大数据处理任务提供适配的数据,高效、有序实现各类大数据的分管,提高大处理数据的时效性。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出为本发明的实施流程示意图;
图2示出为本发明的应用系统示意图;
图3示出为本发明HDFS中的节点存储机制示意图;
图4示出为本发明电子设备的应用示意图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
实施例1
如图1所示,本申请一方面,提出一种分布式大数据有序智能分管方法,包括如下步骤:
S1、采集大数据并发送至分布式文件系统HDFS;
S2、分布式文件系统HDFS对所述大数据进行批处理,并将批处理的所述大数据进行分布式储存;
S3、大数据AI分管平台接收用户输入的大数据分管指令,并进行响应,通过大数据AI分管平台上预设的AI分管模型,基于AI分管策略对所述分布式文件系统HDFS中呈分布式储存的所述大数据进行有序分管和调取;
S4、将调取的所述大数据缓存在分布式数据存储数据库中指定的Nosql模型中,等待用户从所述Nosql模型中查看所调取的所述大数据。
大数据的采集:数据源可以包括传感器、数据库、网络爬虫等。这些数据将被收集并传输到数据处理层(HDFS和大数据AI分管平台)。
分布式文件系统HDFS,能够将数据切分成块 (数据块m,按照数据块的数据属性进行分散储存) 并分散存储在多个计算节点(DataNode) 上,可将数据平衡地分布在集群中的多台机器上。
分布式文件系统HDFS,分布式储存各种数据块中的所述大数据。因此对于大数据的分管调用,采用一个大数据AI分管平台来进行对接。主要机制在于利用大数据AI分管平台上部署的AI分管模型来实现大数据的有序调取。为了实现智能分管,提高AI分管模型对各类数据块的分管效率,配置了AI分管策略,利用AI分管策略来调取分布式储存的所述大数据。
分布式数据存储数据库,主要用来缓存执行调取任务后获得的目标数据块,缓存的目标数据将被用户查看和处理。
分布式数据存储数据库主要采用了NOSQL数据库,是一种Nosql模型,适用于处理分布式的数据存储。
Nosql模型,适用于多种数据类型的存储,包括键值对存储、文档型数据库、列族数据库、图形数据库等。
因此,本申请利用HDFS对所述大数据进行批处理并预先储存,再利用AI分管模型基于AI分管策略对大数据进行有序分管和调取,以此响应用户对目标数据的调取指令,让用户快速获取所需的大数据进行处理、应用。因此,利用AI分管模型可以快速对不同数据属性的文本数据、图像数据和时间序列数据,实现有序的逻辑管理,快速实现各种数据类型的任务调度,为不同大数据处理任务提供适配的数据,高效、有序实现各类大数据的分管,提高大处理数据的时效性。
下面将结合附图2来进一步描述本方案的原理。
作为本申请的一可选实施方案,可选地,分布式文件系统HDFS对所述大数据进行批处理,并将批处理的所述大数据进行分布式储存,包括:
批量对所述大数据进行预处理和清洗;
对批量处理后的所述大数据,按照数据属性进行数据分类,得到由若干数据m组成的数据集M:
M={文本数据m1,图像数据m2,时间序列数据m3};
将所述数据集M中的若干数据m分布式储存于所述分布式文件系统HDFS的各个存储节点;
将各个所述数据m的数据属性,绑定在对应的所述存储节点的节点身份ID之下,用于分布式存储管理。
在进行数据存储之前,首先利用HDFS对所述大数据进行批处理。通过HDFS,对采集的大数据数据源,首先进行预处理、清洗和存储。分布式文件系统HDFS,可以利用其批处理功能如Apache Spark将数据源执行上述批处理的预操作,清洗后进行存储处理。
具体的数据清洗等,可以按照用户自行采用或者系统自带的清洗手段实现。
在HDFS对各类数据源的大数据进行分布式存储之时,可以对各类数据源的数据属性进行识别,比如识别出文本数据或者图像数据,按照数据属性将采集的大数据进行数据分类,得到不同属性的数据块,即得到若干不同属性的数据m,再由若干不同属性的数据m组成数据集M。
如图3所示,HDFS中部署有若干具有节点身份ID的存储节点。为了便于对分布式储存的大数据数据集M进行管理,本处HDFS中进行了一次存储时的有序分管机制。即首先为数据集M中的各个数据块(某一个数据属性的数据m),分配有一个存储节点,将数据m存储在该存储节点之后,为该存储节点打上对应存储性质,即将所储存的数据m的数据属性,绑定在对应的所述存储节点的节点身份ID之下,用于分布式存储管理。这样一来,每个存储节点具有了自己的存储属性,可以让HDFS(甚至大数据AI分管平台的管理员)知道每个存储节点所存储的数据类型,并可以按照存储节点的节点身份ID,来对应管理和调取对应的数据m,响应大数据AI分管平台的数据调取指令。
作为本申请的一可选实施方案,可选地,在大数据AI分管平台接收用户输入的大数据分管指令之前,还包括:
将所述分布式文件系统HDFS的各个存储节点的节点身份ID,发送至所述大数据AI分管平台;
所述大数据AI分管平台接收各个存储节点的节点身份ID,并对各个存储节点的节点身份ID进行身份ID登记。
同时,为了便于管理员/用户通过大数据AI分管平台,实现对HDFS中分布式存储数据的有序分管和调取,将HDFS中各个存储节点的节点身份ID备份在大数据AI分管平台上,在大数据AI分管平台上登记并保存各个存储节点的节点身份ID,以此后续建立大数据AI分管平台和HDFS之间的任务执行基础,大数据AI分管平台可以通过目标数据所在存储节点的节点身份ID,向HDFS的目标存储节点下发对应的数据块调取指令,调取该存储节点中所存储的目标数据。
结合附图2所示,大数据AI分管平台,也即是AI智能分管层,这一层是整个系统的核心。它将利用机器学习和深度学习技术,根据特定的策略智能地分管数据。
作为本申请的一可选实施方案,可选地,所述AI分管模型的生成方法,包括:
获取对应各个所述数据m的历史数据,并根据所述历史数据选择对应的AI模型;
使用所述历史数据对所述AI模型进行模型训练,生成识别和分管所述历史数据的所述AI分管模型,包括:
用于识别并分管所述文本数据m1的第一AI分管模型,以及
用于识别并分管所述图像数据m2的第二AI分管模型,以及
用于识别并分管所述时间序列数据m3的第三AI分管模型;
将所述AI分管模型部署于所述大数据AI分管平台,并进行模型工作参数配置。
AI分管模型,将采用不同数据属性的历史数据进行训练,采用深度学习技术,来训练生成能够识别和分管不同数据属性的数据块。
具体的,本方案主要对文本数据m1,图像数据m2,时间序列数据m3,进行识别和分管。
在AI智能分管层,将使用以下技术和AI模型:
自然语言处理(NLP):用于处理文本数据的模型,如BERT、GPT等,以实现文本内容的分管。
图像识别:用于处理图像数据的卷积神经网络(CNN)模型,以实现图像内容的分管。
时间序列分析:用于处理时间序列数据的循环神经网络(RNN)或长短时记忆网络(LSTM)模型,以实现时间序列数据的分管。
AI分管模型的生成过程,主要包括:
1、数据采集和预处理
数据采集:从各种数据源收集数据,包括文本、图像、时间序列等。
数据清洗:去除无效或重复的数据,并进行格式标准化。
数据转换:将数据转换为适合AI模型处理的格式,例如将文本转换为词嵌入向量。
2、AI分管模型的训练和部署
根据数据类型(文本、图像、时间序列等)选择相应的AI模型。
训练模型:使用历史数据对AI模型进行训练,使其能够理解和分管不同类型的数据,以此得到AI分管模型。
部署模型:将训练好的AI分管模型部署到智能分管层,实时对数据进行分管。
具体深度学习技术,可以具体参见所选择的AI模型,本实施例不作赘述。
AI分管模型,需要对各自所能够识别的数据块进行有序处理。为了提高AI分管模型的分管效率,为AI分管模型配置有AI分管策略。
作为本申请的一可选实施方案,可选地,所述AI分管策略的配置方法,包括:
设置优先级排序规则,所述AI分管模型按照所述优先级排序规则,对所述数据m中的各项数据进行优先级排序,按照优先级排序进行有序分管;
设置节点属性匹配规则,所述AI分管模型按照所述节点属性匹配规则,将所述数据m中的各项数据,发送至对应的与各项数据的数据属性相一致的所述分管节点,进行节点管理;
将所述优先级排序规则和所述节点属性匹配规则,分别配置并保存在所述AI分管模型上。
AI分管模型,可以按照上述设置的AI分管策略中的规则,对所匹配的数据块进行分管操作,利用规则对数据块处理,让数据块中的各项数据按照用户要求或者数据处理性能进行操作,以此提高数据的应用效率。
1、智能优先级排序:根据数据的重要性、紧急性等因素,对分管后的数据进行排序。
2、智能节点分发和处理:将排序后的数据分发给相应的处理节点(分管节点,也即是具体处理大数据“目标数据”的应用节点上,可以为用户所在的服务器或者终端),进行后续的数据处理操作,如分析、可视化、存储等。
为了实现智能分管,还可以采用以下AI分管策略:
数据类型识别:使用机器学习模型自动识别数据类型,以确定适当的处理方式;
内容分析:对文本进行情感分析、关键词提取,对图像进行物体识别、图像分类,对时间序列进行趋势分析等,以更好地理解数据内容;
优先级分配:根据业务需求和数据的特性,为不同数据分配不同的优先级,以确保重要数据优先处理;
实时性分析:对实时数据进行快速分管,以满足实时性要求。
为了确保系统的性能和可伸缩性,将采取以下措施:
使用分布式计算和存储技术,以处理大规模数据;
针对AI模型的训练和推理进行优化,以提高计算效率;
根据负载自动扩展计算资源,以满足高峰时期的需求。
为了提高数据的安全性和隐私保护,采取以下安全措施:
数据加密:对数据在传输和存储过程中进行加密保护;
访问控制:实施严格的访问控制策略,确保只有授权人员可以访问数据;
隐私合规:遵守相关隐私法规,对用户数据进行合法处理。
作为本申请的一可选实施方案,可选地,大数据AI分管平台接收用户输入的大数据分管指令,并进行响应,通过大数据AI分管平台上预设的AI分管模型,基于AI分管策略对所述分布式文件系统HDFS中呈分布式储存的所述大数据进行有序分管和调取,包括:
接收并解析用户输入的所述大数据分管指令,获取用户需要分管的目标大数据的所述数据属性;
根据所述数据属性所绑定的所述节点身份ID,找到所述目标大数据在所述分布式文件系统HDFS中的对应所述存储节点,并从该所述存储节点中提取得到所述目标大数据;
所述大数据AI分管平台根据所述数据属性,激活对应属性的所述AI分管模型,由所述AI分管模型基于所配置的所述AI分管策略,对所述目标大数据进行有序分管;
调取分管后的各项目标数据,并发送与各项目标数据的数据属性相一致的所述分管节点,进行节点管理。
用户可以登录大数据AI分管平台,向大数据AI分管平台输入并下达所需要的大数据分管指令。大数据分管指令中包含用户所需要的大数据(目标大数据)的属性信息,交付给平台处理。
平台将根据属性匹配对应找到对应的节点身份ID,并从HDFS中对应的所述存储节点中,调取得到与用户所需数据属性相匹配的所述目标大数据,比如调取得到某一商业属性的商业图像数据m2。
平台根据商业数据属性,激活能够识别并分管所述图像数据m2的第二AI分管模型,利用第二AI分管模型对商业图像数据m2进行分管处理。第二AI分管模型可以基于所配置的AI分管策略,对所述商业图像数据m2(目标大数据)进行有序分管,对商业图像数据m2中的各项商业图像进行优先级排序、节点分发等等,利用第二AI分管模型对商业图像数据m2中的各项商业图像进行分管,发给各个对应的商业管理用户(分管节点),分别进行商业图像的处理,以此实现分管节点对商业图像数据m2的分布式管理操作,实现智能分管,提高对商业图像数据m2的有序分布式计算效率,进行下一步的商业图像数据m2的大数据分析。
作为本申请的一可选实施方案,可选地,将调取的所述大数据缓存在分布式数据存储数据库中指定的Nosql模型中,等待用户从所述Nosql模型中查看所调取的所述大数据,包括:
当所述分管节点接收到所述AI分管模型发送的所述目标数据之后,将所述目标数据缓存在为当前所述分管节点指定的Nosql模型中,并向前端发出对所述大数据分管指令的反馈;
用户查看到该反馈之后,从所述Nosql模型中查看并处理所述目标数据。
Nosql模型,可以缓存AI分管模型发送的所述目标数据,便于用户临时处理所述目标数据。比如分管得到商业图像数据m2之后,将商业图像数据m2缓存在对应节点的Nosql模型中(可以为分管节点指定一个Nosql模型),便于用户临时查看和处理所述商业图像数据m2。
待用户处理完毕本次的目标数据之后,及时删除Nosql模型中缓存的目标数据,避免占用内存,为下一次的大数据分管提供空间。
因此,本申请结合分布式计算、数据处理和AI分管策略技术,以实现数据的智能分管和有序处理。利用HDFS对所述大数据进行批处理并预先储存,再利用AI分管模型基于AI分管策略对大数据进行有序分管和调取,以此响应用户对目标数据的调取指令,让用户快速获取所需的大数据进行处理、应用。因此,利用AI分管模型可以快速对不同数据属性的文本数据、图像数据和时间序列数据,实现有序的逻辑管理,快速实现各种数据类型的任务调度,为不同大数据处理任务提供适配的数据,高效、有序实现各类大数据的分管,提高大处理数据的时效性。
显然,本领域的技术人员应该明白,实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各控制的实施例的流程。本领域技术人员可以理解,实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各控制的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(FlashMemory)、硬盘(HardDiskDrive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
实施例2
基于实施例1的实施原理,本申请另一方面,提出一种实现所述分布式大数据有序智能分管方法的系统,包括:
大数据采集层,用于采集大数据并发送至分布式文件系统HDFS;
分布式文件系统HDFS,用于对所述大数据进行批处理,并将批处理的所述大数据进行分布式储存;
大数据AI分管平台,用于通过预设的AI分管模型,基于AI分管策略对所述分布式文件系统HDFS中呈分布式储存的所述大数据进行有序分管和调取,并将调取的所述大数据缓存在分布式数据存储数据库中;
分布式数据存储数据库,用于将所述大数据AI分管平台调取的所述大数据,保存在指定的Nosql模型中。
上述系统的各个功能层或者功能元件,请结合实施例1进行理解。
上述的本发明的各模或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储系统中由计算系统来执行,或者将它们分别制作成各个集成电路模,或者将它们中的多个模或步骤制作成单个集成电路模来实现。这样,本发明不限制于任何特定的硬件和软件结合。
实施例3
更进一步地,本申请另一方面,还提出一种存储介质,所述存储介质中存储有可执行的计算机程序,该程序被执行时,以实现所述的一种分布式大数据有序智能分管方法的步骤。
实施例4
如图4所示,更进一步地,本申请另一方面,还提出一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令时实现所述的一种分布式大数据有序智能分管方法。
本公开实施例来电子设备包括处理器以及用于存储处理器可执行指令的存储器。其中,处理器被配置为执行可执行指令时实现前面所述的一种分布式大数据有序智能分管方法。
此处,应当指出的是,处理器的个数可以为一个或多个。同时,在本公开实施例的电子设备中,还可以包括输入系统和输出系统。其中,处理器、存储器、输入系统和输出系统之间可以通过总线连接,也可以通过其他方式连接,此处不进行具体限定。
存储器作为一计算机可读存储介质,可用于存储软件程序、计算机可执行程序和各种模,如:本公开实施例的一种分布式大数据有序智能分管方法所对应的程序或模。处理器通过运行存储在存储器中的软件程序或模,从而执行电子设备的各种功能应用及数据处理。
输入系统可用于接收输入的数字或信号。其中,信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出系统可以包括显示屏等显示设备。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (7)
1.一种分布式大数据有序智能分管方法,其特征在于,包括如下步骤:
采集大数据并发送至分布式文件系统HDFS;
分布式文件系统HDFS对所述大数据进行批处理,并将批处理的所述大数据进行分布式储存;
将所述分布式文件系统HDFS的各个存储节点的节点身份ID,发送至所述大数据AI分管平台;
所述大数据AI分管平台接收各个存储节点的节点身份ID,并对各个存储节点的节点身份ID进行身份ID登记;
大数据AI分管平台接收用户输入的大数据分管指令,并进行响应,通过大数据AI分管平台上预设的AI分管模型,基于AI分管策略对所述分布式文件系统HDFS中呈分布式储存的所述大数据进行有序分管和调取,包括:
接收并解析用户输入的所述大数据分管指令,获取用户需要分管的目标大数据的数据属性;
根据所述数据属性所绑定的所述节点身份ID,找到所述目标大数据在所述分布式文件系统HDFS中的对应所述存储节点,并从该所述存储节点中提取得到所述目标大数据;
所述大数据AI分管平台根据所述数据属性,激活对应属性的所述AI分管模型,由所述AI分管模型基于所配置的所述AI分管策略,对所述目标大数据进行有序分管;
调取分管后的各项目标数据,并发送与各项目标数据的数据属性相一致的分管节点,进行节点管理;
所述AI分管策略的配置方法,包括:
设置优先级排序规则,所述AI分管模型按照所述优先级排序规则,对所述数据m中的各项数据进行优先级排序,按照优先级排序进行有序分管;
设置节点属性匹配规则,所述AI分管模型按照所述节点属性匹配规则,将所述数据m中的各项数据,发送至对应的与各项数据的数据属性相一致的所述分管节点,进行节点管理;
将所述优先级排序规则和节点属性匹配规则,分别配置并保存在所述AI分管模型上;
将调取的所述大数据缓存在分布式数据存储数据库中指定的Nosql模型中,等待用户从所述Nosql模型中查看所调取的所述大数据。
2.根据权利要求1所述的一种分布式大数据有序智能分管方法,其特征在于,分布式文件系统HDFS对所述大数据进行批处理,并将批处理的所述大数据进行分布式储存,包括:
批量对所述大数据进行预处理和清洗;
对批量处理后的所述大数据,按照数据属性进行数据分类,得到由若干数据m组成的数据集M:
M={文本数据m1,图像数据m2,时间序列数据m3};
将所述数据集M中的若干数据m分布式储存于所述分布式文件系统HDFS的各个存储节点;
将各个所述数据m的数据属性,绑定在对应的所述存储节点的节点身份ID之下,用于分布式存储管理。
3.根据权利要求2所述的一种分布式大数据有序智能分管方法,其特征在于,所述AI分管模型的生成方法,包括:
获取对应各个所述数据m的历史数据,并根据所述历史数据选择对应的AI模型;
使用所述历史数据对所述AI模型进行模型训练,生成识别和分管所述历史数据的所述AI分管模型,包括:
用于识别并分管所述文本数据m1的第一AI分管模型,以及
用于识别并分管所述图像数据m2的第二AI分管模型,以及
用于识别并分管所述时间序列数据m3的第三AI分管模型;
将所述AI分管模型部署于所述大数据AI分管平台,并进行模型工作参数配置。
4.根据权利要求1所述的一种分布式大数据有序智能分管方法,其特征在于,将调取的所述大数据缓存在分布式数据存储数据库中指定的Nosql模型中,等待用户从所述Nosql模型中查看所调取的所述大数据,包括:
当所述分管节点接收到所述AI分管模型发送的所述目标数据之后,将所述目标数据缓存在为当前所述分管节点指定的Nosql模型中,并向前端发出对所述大数据分管指令的反馈;
用户查看到该反馈之后,从所述Nosql模型中查看并处理所述目标数据。
5.一种实现权利要求1-4中任一项所述分布式大数据有序智能分管方法的系统,其特征在于,包括:
大数据采集层,用于采集大数据并发送至分布式文件系统HDFS;
分布式文件系统HDFS,用于对所述大数据进行批处理,并将批处理的所述大数据进行分布式储存;
大数据AI分管平台,用于通过预设的AI分管模型,基于AI分管策略对所述分布式文件系统HDFS中呈分布式储存的所述大数据进行有序分管和调取,并将调取的所述大数据缓存在分布式数据存储数据库中;
分布式数据存储数据库,用于将所述大数据AI分管平台调取的所述大数据,保存在指定的Nosql模型中。
6.一种存储介质,其特征在于,所述存储介质中存储有可执行的计算机程序,该程序被执行时,以实现权利要求1-4中任一项所述的分布式大数据有序智能分管方法的步骤。
7.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令时实现权利要求1-4中任一项所述的分布式大数据有序智能分管方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311384832.3A CN117131001B (zh) | 2023-10-25 | 2023-10-25 | 一种分布式大数据有序智能分管方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311384832.3A CN117131001B (zh) | 2023-10-25 | 2023-10-25 | 一种分布式大数据有序智能分管方法、系统及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117131001A CN117131001A (zh) | 2023-11-28 |
CN117131001B true CN117131001B (zh) | 2024-01-16 |
Family
ID=88856749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311384832.3A Active CN117131001B (zh) | 2023-10-25 | 2023-10-25 | 一种分布式大数据有序智能分管方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117131001B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678398A (zh) * | 2015-12-24 | 2016-06-15 | 国家电网公司 | 基于大数据技术的电力负荷预测方法及基于该方法的研究应用系统 |
CN108306962A (zh) * | 2018-01-30 | 2018-07-20 | 河海大学常州校区 | 一种商业大数据分析系统 |
CN108664331A (zh) * | 2018-05-22 | 2018-10-16 | 腾讯大地通途(北京)科技有限公司 | 分布式数据处理方法及装置、电子设备、存储介质 |
CN108959660A (zh) * | 2018-08-15 | 2018-12-07 | 东北大学 | 一种基于hdfs分布式文件系统的存储方法及使用方法 |
CN109739922A (zh) * | 2019-01-10 | 2019-05-10 | 江苏徐工信息技术股份有限公司 | 一种工业数据智能分析系统 |
CN111047190A (zh) * | 2019-12-12 | 2020-04-21 | 广西电网有限责任公司 | 一种基于交互式学习技术的多元化业务建模框架系统 |
CN112181960A (zh) * | 2020-09-18 | 2021-01-05 | 杭州优云软件有限公司 | 一种基于AIOps的智能运维框架系统 |
CN113378219A (zh) * | 2021-06-07 | 2021-09-10 | 北京许继电气有限公司 | 一种非结构化数据的处理方法和系统 |
WO2023004806A1 (zh) * | 2021-07-30 | 2023-02-02 | 西门子股份公司 | Ai模型的设备部署方法、系统及存储介质 |
CN116739186A (zh) * | 2023-08-10 | 2023-09-12 | 翌飞锐特电子商务(北京)有限公司 | 一种基于ai和大数据的业务管理方法 |
CN116776290A (zh) * | 2023-05-12 | 2023-09-19 | 普天通信有限责任公司 | 一种烟草大数据模型构建方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11514356B2 (en) * | 2019-01-30 | 2022-11-29 | Open Text Sa Ulc | Machine learning model publishing systems and methods |
-
2023
- 2023-10-25 CN CN202311384832.3A patent/CN117131001B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678398A (zh) * | 2015-12-24 | 2016-06-15 | 国家电网公司 | 基于大数据技术的电力负荷预测方法及基于该方法的研究应用系统 |
CN108306962A (zh) * | 2018-01-30 | 2018-07-20 | 河海大学常州校区 | 一种商业大数据分析系统 |
CN108664331A (zh) * | 2018-05-22 | 2018-10-16 | 腾讯大地通途(北京)科技有限公司 | 分布式数据处理方法及装置、电子设备、存储介质 |
CN108959660A (zh) * | 2018-08-15 | 2018-12-07 | 东北大学 | 一种基于hdfs分布式文件系统的存储方法及使用方法 |
CN109739922A (zh) * | 2019-01-10 | 2019-05-10 | 江苏徐工信息技术股份有限公司 | 一种工业数据智能分析系统 |
CN111047190A (zh) * | 2019-12-12 | 2020-04-21 | 广西电网有限责任公司 | 一种基于交互式学习技术的多元化业务建模框架系统 |
CN112181960A (zh) * | 2020-09-18 | 2021-01-05 | 杭州优云软件有限公司 | 一种基于AIOps的智能运维框架系统 |
CN113378219A (zh) * | 2021-06-07 | 2021-09-10 | 北京许继电气有限公司 | 一种非结构化数据的处理方法和系统 |
WO2023004806A1 (zh) * | 2021-07-30 | 2023-02-02 | 西门子股份公司 | Ai模型的设备部署方法、系统及存储介质 |
CN116776290A (zh) * | 2023-05-12 | 2023-09-19 | 普天通信有限责任公司 | 一种烟草大数据模型构建方法 |
CN116739186A (zh) * | 2023-08-10 | 2023-09-12 | 翌飞锐特电子商务(北京)有限公司 | 一种基于ai和大数据的业务管理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117131001A (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3958606A1 (en) | Methods and devices for pushing and requesting model, storage medium and electronic device | |
CN107590188B (zh) | 一种自动化垂直细分领域的爬虫爬取方法及其管理系统 | |
CN107317724A (zh) | 基于云计算技术的数据采集系统及方法 | |
CN111831636A (zh) | 一种数据处理方法、装置、计算机系统及可读存储介质 | |
KR101877828B1 (ko) | 인공지능 기반의 사용자 인터페이스 통합 플랫폼 시스템 | |
CN105786941B (zh) | 一种信息挖掘方法和装置 | |
CN110334119A (zh) | 一种数据关联处理方法、装置、设备及介质 | |
CN112507330A (zh) | 一种基于分布式沙箱的恶意软件检测系统 | |
CN109409780B (zh) | 变更处理方法、装置、计算机设备和存储介质 | |
CN105677745B (zh) | 一种通用高效自助数据查询系统及实现方法 | |
CN107871055A (zh) | 一种数据分析方法和装置 | |
CN117131001B (zh) | 一种分布式大数据有序智能分管方法、系统及存储介质 | |
CN106257447A (zh) | 云存储服务器的视频存储及检索方法、视频云存储系统 | |
US20140172874A1 (en) | Intelligent analysis queue construction | |
US20230056131A1 (en) | Server and method for classifying entities of a query | |
CN111026940A (zh) | 一种面向电网电磁环境的网络舆情及风险信息监测系统、电子设备 | |
CN106599244B (zh) | 通用的原始日志清洗装置及方法 | |
CN109033196A (zh) | 一种分布式数据调度系统及方法 | |
CN114282541A (zh) | 直播平台信息安全检测方法及其装置、设备、介质、产品 | |
CN107070987A (zh) | 用于分布式对象存储系统的数据获取方法及系统 | |
US11835989B1 (en) | FPGA search in a cloud compute node | |
CN112570287B (zh) | 一种垃圾分类方法和装置 | |
CN110795218B (zh) | 基于单元化的任务调度系统及方法 | |
CN113535594B (zh) | 业务场景测试用例的生成方法、装置、设备和存储介质 | |
CN117540237A (zh) | 一种基于人工智能的数据分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |