CN116893897A - 一种基于云计算的大数据信息分析系统 - Google Patents
一种基于云计算的大数据信息分析系统 Download PDFInfo
- Publication number
- CN116893897A CN116893897A CN202310764808.6A CN202310764808A CN116893897A CN 116893897 A CN116893897 A CN 116893897A CN 202310764808 A CN202310764808 A CN 202310764808A CN 116893897 A CN116893897 A CN 116893897A
- Authority
- CN
- China
- Prior art keywords
- module
- data
- big data
- cloud computing
- big
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 48
- 238000007418 data mining Methods 0.000 claims abstract description 32
- 238000007405 data analysis Methods 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 230000003993 interaction Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000003860 storage Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 14
- 230000000007 visual effect Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013479 data entry Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 4
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000007726 management method Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000010960 commercial process Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007431 microscopic evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002912 waste gas Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据分析技术领域,具体为一种基于云计算的大数据信息分析系统,包括大数据采集模块,所述大数据采集模块输出端连接有大数据录入模块,所述大数据录入模块输出端连接有数据预处理单元,所述数据预处理单元输出端连接有数据调用模块,所述数据调用模块输出端连接有数据挖掘单元;有益效果为:本发明提出的基于云计算的大数据信息分析系统,通过将数据挖掘单元算力与云计算平台进行交互,仅需支付云计算服务费用,降低计算服务器的硬件配置需要,减少服务器设置空间需要,同时通过对大数据录入时定义数据,并且通过数据预处理有效降低数据处理难度,显著提高处理效率,满足大数据分析与云计算配合交互需要。
Description
技术领域
本发明涉及大数据分析技术领域,具体为一种基于云计算的大数据信息分析系统。
背景技术
信息分析主要是根据事物、现象、数据和信息的属性、特征、本质、规律和相关性进行定性和定量分析,以发现新的知识,因此,信息分析是基于事物、现象、数据和信息之间的因果关系或相互关系,关系是指事物之间因时间、秩序、结构、运动等而产生的联系,包括时间、空间、发生和发展的逻辑,包括过程,如工业过程、商业过程等,规律,如生命的生命周期、自然运动规律等。
现有技术中,样本微观分析:信息分析取数据,信息和现象作为对象,一般从整体或整体中选取部分样本进行分析,称为样本分析或抽样分析,在大数据服务逐渐兴起的当下,大数据的信息分析是互联网服务至关重要的一环。
但是,大数据信息分析多通过机器学习算法进行分析学习,学习分析的速度及准确率主要由算力决定,而中小型公司无法满足大数据信息分析的计算学习算力要求的算力服务器配置,影响到对大数据信息分析的准确性和即时性,影响到大数据信息服务分析的发展,并且大数据中数据繁杂,重复的数据流也严重影响到数据分析的精度,不能很好的满足大数据信息分析需要。
发明内容
本发明的目的在于提供一种基于云计算的大数据信息分析系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于云计算的大数据信息分析系统,包括大数据采集模块,所述大数据采集模块输出端连接有大数据录入模块,所述大数据录入模块输出端连接有数据预处理单元,所述数据预处理单元输出端连接有数据调用模块,所述数据调用模块输出端连接有数据挖掘单元,所述数据挖掘单元输出端连接有云计算平台,所述数据调用模块输入端连接有交互模块和备份模块。
优选的,大数据采集模块用于对大数据进行端口采集,所述大数据录入模块用于将采集到的数据完全定义排序后进行录入,数据预处理单元用于将录入的数据进行处理,数据调用模块用于调用预处理后的大数据并发送至数据挖掘单元,交互模块用于对大数据分析重点进行概括,备份模块用于备份数据挖掘分析后的留存数据,数据挖掘单元用于对大数据通过云计算平台进行计算分析,云计算平台用于对数据挖掘单元提供算力支持。
优选的,所述数据预处理单元包括数据字段提取模块、数据字段筛重模块以及数据预存储模块,数据字段提取模块输入端与大数据录入模块输出端相连接,数据字段提取模块输出端连接有数据字段筛重模块,数据字段筛重模块输出端连接有数据预存储模块,数据预存储模块输出端与数据调用模块输入端相连接,数据字段提取模块将数据字段中重复段落提取,数据字段筛重模块将提取后的数据字段进行去重,数据预存储模块用于存储筛重后待分析的数据进行短时记忆,并且在处理完成后直接删除。
优选的,所述数据挖掘单元包括字段定位模块、数据分析模块、函数库模块以及可视化图形表现模块,数据分析模块输入端与云计算平台输出端相连接,数据分析模块输入端分别连接有函数库模块和字段定位模块,数据分析模块输出端还连接有可视化图形表现模块,其中,数据挖掘单元的字段定位模块用于定位搜索交互模块输入的分析重点字段,数据分析模块通过函数库模块提供的算法函数进行数据挖掘分析,可视化图形表现模块将分析后的数据做可视化图形表现。
优选的,所述云计算平台包括平台管理模块、云基础设施模块以及应用支撑服务模块,平台管理模块输入端连接有云基础设施模块,云基础设施模块输入端连接有应用支撑服务模块,平台管理模块输出端与数据分析模块输入端相连接,云平台管理模块用于平台算力管理分配,云基础设施模块用于云计算的基础服务器,应用支撑服务模块用于云平台管理人员交互。
优选的,所述大数据采集模块为互联网采集方式、爬虫采集和传感器采集中的一种。
优选的,所述大数据录入模块数据定义包括日期时间、大小和数据类型定义。
优选的,所述备份模块为云备份服务器。
优选的,所述数据分析模块算法为python算法、SQL算法和决策树算法中的一种。
优选的,所述述数据预存储模块为服务器随机存取存储器,且数据预存模块容量为12TB-24TB;字段定位模块搜索字段支持字端为20-50字节。
与现有技术相比,本发明的有益效果是:
本发明提出的基于云计算的大数据信息分析系统,通过将数据挖掘单元算力与云计算平台进行交互,仅需支付云计算服务费用,降低计算服务器的硬件配置需要,减少服务器设置空间需要,同时通过对大数据录入时定义数据,并且通过数据预处理有效降低数据处理难度,显著提高处理效率,满足大数据分析与云计算配合交互需要;
在大数据采集模块后,通过大数据录入模块录入数据预处理单元,数据预处理单元的数据字段提取模块能够对数据字段进行提取,方便提取后快速进行算法计算,方便数据挖掘单元进行分析,方便数据调用模块进行快速调用,提高分析调用效率,在调用后将数据进行废气,并且备份模块能够对分析后的回传数据进行备份,方便后续调用;
云计算平台的平台管理模块能够对平台算法调用进行处理,云基础设施模块为计算硬件服务器和对应云计算的信息传输硬件,应用支撑服务模块用于通过不同应用度计算算法进行适配,通过云技算平台降低信息分析系统配置的需要。
附图说明
图1为本发明大数据采集处理结构示意图;
图2为本发明处理单元结构示意图;
图3为本发明云计算平台结构示意图;
图4为本发明数据挖掘单元结构示意图。
具体实施方式
为了使本发明的目的、技术方案进行清楚、完整地描述,及优点更加清楚明白,以下结合附图对本发明实施例进行进一步详细说明。应当理解,此处所描述的具体实施例是本发明一部分实施例,而不是全部的实施例,仅仅用以解释本发明实施例,并不用于限定本发明实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1至图4,本发明提供一种技术方案:一种基于云计算的大数据信息分析系统,包括大数据采集模块,所述大数据采集模块输出端连接有大数据录入模块,所述大数据录入模块输出端连接有数据预处理单元,所述数据预处理单元输出端连接有数据调用模块,所述数据调用模块输出端连接有数据挖掘单元,所述数据挖掘单元输出端连接有云计算平台,所述数据调用模块输入端连接有交互模块和备份模块;
所述大数据采集模块用于对大数据进行端口采集,所述大数据录入模块用于将采集到的数据完全定义排序后进行录入,数据预处理单元用于将录入的数据进行处理,数据调用模块用于调用预处理后的大数据并发送至数据挖掘单元,交互模块用于对大数据分析重点进行概括,备份模块用于备份数据挖掘分析后的留存数据,数据挖掘单元用于对大数据通过云计算平台进行计算分析,云计算平台用于对数据挖掘单元提供算力支持。
作为上述技术方案的进一步描述:
所述数据预处理单元包括数据字段提取模块,所述数据字段提取模块输入端与大数据录入模块输出端相连接,所述数据字段提取模块输出端连接有数据字段筛重模块,所述数据字段筛重模块输出端连接有数据预存储模块,所述数据预存储模块输出端与数据调用模块输入端相连接,其中,数据字段提取模块是将数据字段中重复段落提取,数据字段筛重模块是将提取后的数据字段进行去重,数据预存储模块用于存储筛重后待分析的数据进行短时记忆,并且在处理完成后直接删除。
作为上述技术方案的进一步描述:
所述数据挖掘单元包括数据分析模块,所述数据分析模块输入端与云计算平台输出端相连接,所述数据分析模块输入端分别连接有函数库模块和字段定位模块,所述数据分析模块输出端还连接有可视化图形表现模块,其中,数据挖掘单元的字段定位模块用于定位搜索交互模块输入的分析重点字段,数据分析模块用于通过函数库模块提供的算法函数进行数据挖掘分析,可视化图形表现模块用于将分析后的数据做可视化图形表现。
作为上述技术方案的进一步描述:
所述云计算平台包括平台管理模块,所述平台管理模块输入端连接有云基础设施模块,所述云基础设施模块输入端连接有应用支撑服务模块,所述平台管理模块输出端与数据分析模块输入端相连接,其中,云平台管理模块用于平台算力管理分配,云基础设施模块用于云计算的基础服务器,应用支撑服务模块用于云平台管理人员交互。
作为上述技术方案的进一步描述:
所述大数据采集模块为互联网采集方式、爬虫采集和传感器采集中的一种。
作为上述技术方案的进一步描述:
所述大数据录入模块数据定义包括日期时间、大小和数据类型定义。
作为上述技术方案的进一步描述:
所述备份模块为云备份服务器。
作为上述技术方案的进一步描述:
所述数据分析模块算法为python算法、SQL算法和决策树算法中的一种。
作为上述技术方案的进一步描述:
所述数据预存储模块为服务器随机存取存储器,且数据预存模块容量为12TB-24TB。
作为上述技术方案的进一步描述:
所述字段定位模块搜索字段支持字端为20-50字节。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种基于云计算的大数据信息分析系统,包括大数据采集模块,其特征在于:所述大数据采集模块输出端连接有大数据录入模块,所述大数据录入模块输出端连接有数据预处理单元,所述数据预处理单元输出端连接有数据调用模块,所述数据调用模块输出端连接有数据挖掘单元,所述数据挖掘单元输出端连接有云计算平台,所述数据调用模块输入端连接有交互模块和备份模块。
2.根据权利要求1所述的一种基于云计算的大数据信息分析系统,其特征在于:大数据采集模块用于对大数据进行端口采集,所述大数据录入模块用于将采集到的数据完全定义排序后进行录入,数据预处理单元用于将录入的数据进行处理,数据调用模块用于调用预处理后的大数据并发送至数据挖掘单元,交互模块用于对大数据分析重点进行概括,备份模块用于备份数据挖掘分析后的留存数据,数据挖掘单元用于对大数据通过云计算平台进行计算分析,云计算平台用于对数据挖掘单元提供算力支持。
3.根据权利要求1所述的一种基于云计算的大数据信息分析系统,其特征在于:所述数据预处理单元包括数据字段提取模块、数据字段筛重模块以及数据预存储模块,数据字段提取模块输入端与大数据录入模块输出端相连接,数据字段提取模块输出端连接有数据字段筛重模块,数据字段筛重模块输出端连接有数据预存储模块,数据预存储模块输出端与数据调用模块输入端相连接,数据字段提取模块将数据字段中重复段落提取,数据字段筛重模块将提取后的数据字段进行去重,数据预存储模块用于存储筛重后待分析的数据进行短时记忆,并且在处理完成后直接删除。
4.根据权利要求1所述的一种基于云计算的大数据信息分析系统,其特征在于:所述数据挖掘单元包括字段定位模块、数据分析模块、函数库模块以及可视化图形表现模块,数据分析模块输入端与云计算平台输出端相连接,数据分析模块输入端分别连接有函数库模块和字段定位模块,数据分析模块输出端还连接有可视化图形表现模块,其中,数据挖掘单元的字段定位模块用于定位搜索交互模块输入的分析重点字段,数据分析模块通过函数库模块提供的算法函数进行数据挖掘分析,可视化图形表现模块将分析后的数据做可视化图形表现。
5.根据权利要求1所述的一种基于云计算的大数据信息分析系统,其特征在于:所述云计算平台包括平台管理模块、云基础设施模块以及应用支撑服务模块,平台管理模块输入端连接有云基础设施模块,云基础设施模块输入端连接有应用支撑服务模块,平台管理模块输出端与数据分析模块输入端相连接,云平台管理模块用于平台算力管理分配,云基础设施模块用于云计算的基础服务器,应用支撑服务模块用于云平台管理人员交互。
6.根据权利要求1所述的一种基于云计算的大数据信息分析系统,其特征在于:所述大数据采集模块为互联网采集方式、爬虫采集和传感器采集中的一种。
7.根据权利要求1所述的一种基于云计算的大数据信息分析系统,其特征在于:所述大数据录入模块数据定义包括日期时间、大小和数据类型定义。
8.根据权利要求1所述的一种基于云计算的大数据信息分析系统,其特征在于:所述备份模块为云备份服务器。
9.根据权利要求1所述的一种基于云计算的大数据信息分析系统,其特征在于:所述数据分析模块算法为python算法、SQL算法和决策树算法中的一种。
10.根据权利要求1所述的一种基于云计算的大数据信息分析系统,其特征在于:所述述数据预存储模块为服务器随机存取存储器,且数据预存模块容量为12TB-24TB;字段定位模块搜索字段支持字端为20-50字节。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310764808.6A CN116893897A (zh) | 2023-06-27 | 2023-06-27 | 一种基于云计算的大数据信息分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310764808.6A CN116893897A (zh) | 2023-06-27 | 2023-06-27 | 一种基于云计算的大数据信息分析系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116893897A true CN116893897A (zh) | 2023-10-17 |
Family
ID=88312913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310764808.6A Pending CN116893897A (zh) | 2023-06-27 | 2023-06-27 | 一种基于云计算的大数据信息分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116893897A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117290674A (zh) * | 2023-11-23 | 2023-12-26 | 浙江九州量子信息技术股份有限公司 | 一种大数据量随机比特序列重码统计和定位的方法和系统 |
-
2023
- 2023-06-27 CN CN202310764808.6A patent/CN116893897A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117290674A (zh) * | 2023-11-23 | 2023-12-26 | 浙江九州量子信息技术股份有限公司 | 一种大数据量随机比特序列重码统计和定位的方法和系统 |
CN117290674B (zh) * | 2023-11-23 | 2024-04-05 | 浙江九州量子信息技术股份有限公司 | 一种大数据量随机比特序列重码统计和定位的方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3910492A2 (en) | Event extraction method and apparatus, and storage medium | |
CN108984761B (zh) | 一种基于模型和领域知识驱动的信息处理系统 | |
CN114399006B (zh) | 基于超算的多源异构图数据融合方法及系统 | |
CN112541070B (zh) | 槽位更新语料的挖掘方法、装置、电子设备和存储介质 | |
CN111859969B (zh) | 数据分析方法及装置、电子设备、存储介质 | |
CN105022733A (zh) | Dinfo-oec文本分析挖掘方法与设备 | |
CN116893897A (zh) | 一种基于云计算的大数据信息分析系统 | |
CN114281968B (zh) | 一种模型训练及语料生成方法、装置、设备和存储介质 | |
CN112231391A (zh) | 一种基于云计算的大数据信息分析系统 | |
EP4141697A1 (en) | Method and apparatus of processing triple data, method and apparatus of training triple data processing model, device, and medium | |
AU2019200371A1 (en) | Utilizing artificial intelligence to integrate data from multiple diverse sources into a data structure | |
CN114495143A (zh) | 一种文本对象识别方法、装置、电子设备及存储介质 | |
CN116340606A (zh) | 重大突发事件的分析方法、装置、存储介质和设备 | |
CN114490723A (zh) | 一种统一检索方法、装置、电子设备及存储介质 | |
CN111178701A (zh) | 一种基于特征衍生技术的风险控制方法方法、装置和电子设备 | |
CN114970540A (zh) | 训练文本审核模型的方法和装置 | |
CN113011156A (zh) | 审核文本的质检方法、装置、介质以及电子设备 | |
CN112818072A (zh) | 旅游知识图谱更新方法、系统、设备及存储介质 | |
CN116955856A (zh) | 信息展示方法、装置、电子设备以及存储介质 | |
CN115719066A (zh) | 基于人工智能的搜索文本理解方法、装置、设备和介质 | |
CN115292506A (zh) | 应用于办公领域的知识图谱本体构建方法和装置 | |
Bhagat et al. | Sparx-Data Preprocessing Module | |
CN114312930A (zh) | 基于日志数据的列车运行异常诊断方法和装置 | |
CN113609848A (zh) | 一种工业产品质量安全监管方法及装置 | |
CN111813555A (zh) | 基于互联网技术的超融合基础架构分层资源管理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |