CN115080636A - 一种基于网络服务的大数据分析系统 - Google Patents

一种基于网络服务的大数据分析系统 Download PDF

Info

Publication number
CN115080636A
CN115080636A CN202210766604.1A CN202210766604A CN115080636A CN 115080636 A CN115080636 A CN 115080636A CN 202210766604 A CN202210766604 A CN 202210766604A CN 115080636 A CN115080636 A CN 115080636A
Authority
CN
China
Prior art keywords
data
module
analysis
system based
big
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210766604.1A
Other languages
English (en)
Inventor
许杨
赵亚东
时允玉
郝宁
王镇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xuzhou Guoyun Information Technology Co ltd
Original Assignee
Xuzhou Guoyun Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xuzhou Guoyun Information Technology Co ltd filed Critical Xuzhou Guoyun Information Technology Co ltd
Priority to CN202210766604.1A priority Critical patent/CN115080636A/zh
Publication of CN115080636A publication Critical patent/CN115080636A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据分析系统技术领域,且公开了一种基于网络服务的大数据分析系统,包括数据采集模块、数据仓库模块、数据治理模块、数据分析模块、数据智能模块和数据展示模块;所述数据采集模块用于覆盖数据接入;所述数据仓库模块用于对数据存储的过程中进行数据预处理、整合和筛选;所述数据治理模块用于对通过大数据量计算、跨源跨库告诉分析场景地告诉缓存引擎,数据查询与分析和管理;所述数据分析模块用于提供报表分析、自助式分析、报告应用、预测和挖掘多元化分析方法、全方位提升数据分析能力;所述数据智能模块用于对数据进行深度学习、通过AI和BI对数据进行挖掘和智能应用。

Description

一种基于网络服务的大数据分析系统
技术领域
本发明涉及大数据分析系统技术领域,具体为一种基于网络服务的大数据分析系统。
背景技术
大数据的重要性日益突出,对于大数据的应用也在逐步加深,对于很多科技公司而言,掌握大数据分析系统开发的前沿,就等于拥有了整个大数据分析市场,过往追求的是大数据分析最终的结果,现如今,分析得快慢,准确性作为了数据分析的重点。
由于现在大数据的数量相当巨大,互联网上的数据虽多,但大部分数据的呈现形式为非结构化或半结构化的。如何将不同的数据结构归结到统一的结构中是一个重要的问题,且数据是指目前大数据时代,数据越来越实时化,数据的产生与处理速度逐渐能够满足人们的需求价值,但是虽然真实世界中的数据量极大,但真正有价值的内容却较少。以监控视频为例,虽然监控视频的内容极其之大,但实际有价值的部分可能不过几分钟。如何分析从大量的数据中提取出最为关键、最有价值的部分,并将信息转换成知识是值得研究的内容。
发明内容
本发明提供了一种基于网络服务的大数据分析系统,具备是筛选数据、推送信息和饥饿和结构化和半结构化的数据用以建立模型的有益效果,解决了上述背景技术中所提到如何将不同数据归类和提取关键价值信息的问题。
本发明提供如下技术方案:一种基于网络服务的大数据分析系统,包括数据采集模块、数据仓库模块、数据治理模块、数据分析模块、数据智能模块和数据展示模块;
所述数据采集模块用于覆盖数据接入;
所述数据仓库模块用于对数据存储的过程中进行数据预处理、整合和筛选;
所述数据治理模块用于对通过大数据量计算、跨源跨库告诉分析场景地告诉缓存引擎,数据查询与分析和管理;
所述数据分析模块用于提供报表分析、自助式分析、报告应用、预测和挖掘多元化分析方法、全方位提升数据分析能力;
所述数据智能模块用于对数据进行深度学习、通过AI和BI对数据进行挖掘和智能应用;
所述数据展示模块用于将分析过的决策数据进行展现和推荐。
作为本发明所述一种基于网络服务的大数据分析系统的一种可选方案,其中:所述数据采集模块包括dbms模块、社交网络模块和实时采集模块;
所述dbms模块用于用户通过dbms访问数据库中的数据,即是离线数据;所述社交网络模块用于提取现有社交网络、媒体、网络中的大数据;所述实时采集模块用于采集实时流动的数据,用于后期对实时数据进行分析,进而计算时效性。
作为本发明所述一种基于网络服务的大数据分析系统的一种可选方案,其中:所述数据仓库模块包括数据预处理模块、数据审核模块、数据筛选模块和数据建模模块;
所述数据预处理模块用于对数据进行数仓实施工具预处理,通过丰富的处理转换组件对数据进行预处理;
所述数据审核模块用于审核数据的准确性、适用性、及时性和一致性;
所述数据筛选模块用于对审核过程中发现的错误进行纠正的过程,包括剔除不符合要求的数据、筛选出符合条件的数据两方面内容;
所述筛选模块包括视频筛选模块和关键词筛选模块;
所述数据排序模块用于按照规律的顺序把数据进行排列,以便于研究者进一步观察和分析;
所述数据建模模块用于数据建模是运用正式的数据建模技术,建立信息系统的数据模型的过程。
作为本发明所述一种基于网络服务的大数据分析系统的一种可选方案,其中:所述数据预处理模块包括数据清理单元、数据集成单元、数据变换单元和数据规约单元;
所述数据清理单元用于目的是格式标准化、清除异常数据、纠正错误;
所述数据集成单元用于将多个数据源中的数据结合起来统一存储;
所述数据变换单元利用规范化、平滑聚集、数据概化方式将数据转变成有利于数据挖掘的形式;
所述数据预约单元用于得到规约表,节省挖掘分析时间且仍然能保持数据的完整性。
作为本发明所述一种基于网络服务的大数据分析系统的一种可选方案,其中:所述数据治理模块包括元数据管理模块、数据质量管理模块、数据ETL清洗模块和实时ID-mapping模块。
作为本发明所述一种基于网络服务的大数据分析系统的一种可选方案,其中:所述数据分析模块包括大数据计算框架;
所述大数据计算框架包括批处理框架、流处理框架、交互式计算框架和图数据处理框架。
作为本发明所述一种基于网络服务的大数据分析系统的一种可选方案,其中:所述交互式计算框架包括搜索引擎单元、社交问答网络单元和互联网交互式平台。
作为本发明所述一种基于网络服务的大数据分析系统的一种可选方案,其中:所述数据智能模块包括深度学习模块、AI智能模块和BI模块;
所述深度学习模块用于利用层次化的架构学习出对象在不同层次上的表达,在语音、图像以及自然语言理解实用深度神经网络;
所述AI智能模块用于智能交互问答、科学解读和AI计算,用于提升效能;
所述BI用于商业智能进行辅助信息决策。
作为本发明所述一种基于网络服务的大数据分析系统的一种可选方案,其中:所述数据分析模块还包括可视化分析模块、数据挖掘算法、预测性分析能力算法和语义引擎算法。
作为本发明所述一种基于网络服务的大数据分析系统的一种可选方案,其中:所述数据展示模块包括可视化单元和报表展示单元。
本发明具备以下有益效果:
1、该一种基于网络服务的大数据分析系统,通过采集模块对数据进行采集后,进入数据仓库模块进行预处理整合筛选,在进行数据治理和分析,在预处理整合筛选环节通过关键字词对画面和文字的预处理,进而提取关键有价值得到部分,通过智能模块进行整合成智能内容进而在展示模块中展现,可以满足人们需求,减除因数据流量过大而使得用户得到无价值的数据。
2、该一种基于网络服务的大数据分析系统,通过数据仓库模块对数据进行预处理的过程中,将无用或者重复的数据过滤并去除,将大量的数据分类并进行管理,根据业务需要对相同类型的数据进行聚合,将非结构化或半结构化的数据结构化并存储到数据库中,将原结构化的数据从原有表现形式统一成另一种表示形式,从而使数据井井有条以便于数据分析工作的开展。并且通过新收集的数据重新估计参数更新模型,通过数据建模模块可以对用户行为数据,如商品购买记录,网页访问记录等进行分析,从而挖掘出用户和商品之间的关联性,进而为用户推荐喜爱的商品,为用户进行推送有价值的信息,加强用户体验感。
3、该一种基于网络服务的大数据分析系统,通过数据治理模块和数据分析模块和数据智能模块,将数据信息进行计算分析和智能处理,提高了是数据的质量。
3、该一种基于网络服务的大数据分析系统,通过是深度学习模块、AI智能模块和BI模块,方便用户智能交互问答、科学解读和AI计算,用于智能提升效能。
附图说明
图1为本发明大数据分析系统的结构示意图。
图2为本发明数据预处理模块的结构示意图。
图3为本发明大数据计算框架的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
由于现在大数据的数量相当巨大,互联网上的数据虽多,但大部分数据的呈现形式为非结构化或半结构化的。如何将不同的数据结构归结到统一的结构中是一个重要的问题,且数据是指目前大数据时代,数据越来越实时化,数据的产生与处理速度逐渐能够满足人们的需求价值,但是虽然真实世界中的数据量极大,但真正有价值的内容却较少。以监控视频为例,虽然监控视频的内容极其之大,但实际有价值的部分可能不过几分钟。如何分析从大量的数据中提取出最为关键、最有价值的部分,并将信息转换成知识是值得研究的内容。
本发明提供以下方案,请参阅图1-3,一种基于网络服务的大数据分析系统,包括数据采集模块、数据仓库模块、数据治理模块、数据分析模块、数据智能模块和数据展示模块;
所述数据采集模块用于覆盖数据接入;
所述数据仓库模块用于对数据存储的过程中进行数据预处理、整合和筛选;
所述数据治理模块用于对通过大数据量计算、跨源跨库告诉分析场景地告诉缓存引擎,数据查询与分析和管理;
所述数据分析模块用于提供报表分析、自助式分析、报告应用、预测和挖掘多元化分析方法、全方位提升数据分析能力;
所述数据智能模块用于对数据进行深度学习、通过AI和BI对数据进行挖掘和智能应用;
所述数据展示模块用于将分析过的决策数据进行展现和推荐。
通过采集模块对数据进行采集后,进入数据仓库模块进行预处理整合筛选,在进行数据治理和分析,在预处理整合筛选环节通过关键字词对画面和文字的预处理,进而提取关键有价值得到部分,通过智能模块进行整合成智能内容进而在展示模块中展现,可以满足人们需求,减除因数据流量过大而使得用户得到无价值的数据;
通过数据仓库模块对数据进行预处理的过程中,将无用或者重复的数据过滤并去除,将大量的数据分类并进行管理,根据业务需要对相同类型的数据进行聚合,将非结构化或半结构化的数据结构化并存储到数据库中,将原结构化的数据从原有表现形式统一成另一种表示形式,从而使数据井井有条以便于数据分析工作的开展。完成数据整合后,就可以使用统计建模方法建立模型,用数据集进行训练,估计出模型参数。模型建立完成后,在模型投入使用之前还需要对其进行数据检验。
最后,训练好的模型要接受新数据的检验,这一阶段也叫模型评估,它可以用于决策、推荐,也可以通过新收集的数据重新估计参数更新模型,通过数据建模模块可以对用户行为数据,如商品购买记录,网页访问记录等进行分析,从而挖掘出用户和商品之间的关联性,进而为用户推荐喜爱的商品,为用户进行推送有价值的信息,加强用户体验感。
实施例2
本实施例是在实施例1的基础上做出的解释说明,具体的,请参阅图1-3,其中:所述数据采集模块包括dbms模块、社交网络模块和实时采集模块;
所述dbms模块用于用户通过dbms访问数据库中的数据,即是离线数据;所述社交网络模块用于提取现有社交网络、媒体、网络中的大数据;所述实时采集模块用于采集实时流动的数据,用于后期对实时数据进行分析,进而计算时效性。
大数据来源多种多样,可以来自物联网、互联网、各类传感器等,同时数据的方式也是多种多样的如数字、文字、声音、图片、视频等,实时采集模块的数据,不仅包括机器与机器交互产生的数据,主要通过各类传感器采集数据,还包括生命和生物的大数据,主要是研究基因组学、蛋白组学、代谢组学等生物学数据;所述社交网络模块中的社交大数据要来源于人类社会活动,而互联网通常为其载体;
将这些数据进行生成和获取,方便为用户进行搜索比对。
实施例3
本实施例是在实施例1的基础上做出的解释说明,具体的,请参阅图1-3,其中:所述数据仓库模块包括数据预处理模块、数据审核模块、数据筛选模块和数据建模模块;
所述数据预处理模块用于对数据进行数仓实施工具预处理,通过丰富的处理转换组件对数据进行预处理;
现实中收集到的真实数据通常都是不完整的脏数据,没有办法直接进行数据挖掘和处理,为了提高数据的质量,需要对采集到的原始数据进行预处理;
所述数据审核模块用于审核数据的准确性、适用性、及时性和一致性;
所述数据筛选模块用于对审核过程中发现的错误进行纠正的过程,包括剔除不符合要求的数据、筛选出符合条件的数据两方面内容;
所述筛选模块包括视频筛选模块和关键词筛选模块;
筛选模块用于对视频中关键行为进行聚焦筛选,关键词筛选模块用于对关键词立意进行筛选整合的一个过程;
所述数据排序模块用于按照规律的顺序把数据进行排列,以便于研究者进一步观察和分析;
所述数据建模模块用于数据建模是运用正式的数据建模技术,建立信息系统的数据模型的过程。
在预处理整合筛选环节通过关键字词对画面和文字的预处理,进而提取关键有价值得到部分,通过智能模块进行整合成智能内容进而在展示模块中展现,可以满足人们需求,减除数据大量流无需得到数据;
通过数据建模模块完成数据整合后,就可以使用统计建模方法建立模型,用数据集进行训练,估计出模型参数,用于对客户的决策和推荐。
实施例4
本实施例是在实施例1的基础上做出的解释说明,具体的,请参阅图1-2,其中:所述数据预处理模块包括数据清理单元、数据集成单元、数据变换单元和数据规约单元;
所述数据清理单元用于目的是格式标准化、清除异常数据、纠正错误;
所述数据集成单元用于将多个数据源中的数据结合起来统一存储;
所述数据变换单元利用规范化、平滑聚集、数据概化方式将数据转变成有利于数据挖掘的形式;
所述数据预约单元用于得到规约表,节省挖掘分析时间且仍然能保持数据的完整性。
实施例5
本实施例是在实施例1的基础上做出的解释说明,具体的,请参阅图1,
其中:所述数据治理模块包括元数据管理模块、数据质量管理模块、数据ETL清洗模块和实时ID-mapping模块。
数据治理模块用于从海量数据中提取隐含其中的、具有潜在价值的信息,是统计学、人工智能、数据库技术的综合运用,其中元数据管理元数据是数据仓库中的一个重要组成部分,元数据管理系统则是构建,管理,维护和使用数据仓库系统的核心部件,元数据是指来自企业内外的所有物理数据和知识,包括物理数据的格式,技术和业务过程,数据的规则和约束以及企业所使用数据的结构;
元数据就是知识,包括系统,业务和市场的知识;元数据处于数据仓库的上层,记录数据仓库中对象的位置,是内部技术人员开发与维护数据仓库的蓝图,是内部技术人员开发与维护数据仓库的蓝图,是业务中用户导航数据仓库以及定位有用信息的路标;
数据质量管理模块用于在数据仓库中获取,共享和管理员数据;
ETL清洗模块通过数据抽取、数据的清洗转换和数据的加载将数据过滤掉,数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取;
实时ID-mapping模块用于识别在不同端、家里电脑、公司电脑登录的同一个用户。他们拿不到很多详细的数据,只能靠浏览器的Cookie数据来识别,所以DSP系统中的IDMapping是基于cookie来做的,同一个客户,在不同端登录的时候,相同的cookie在DMP数据管理平台识别成为同一个客户;
实时ID-mapping的核心价值是打通数据孤岛,把不同时期孤立建设的系统,用统一的ID串联起来。实时ID-mapping功能就像是在修桥梁,把各个数据孤岛贯通之后,这些孤岛就连成一片,进而将用户单一分类整合,此ID下的所有数据搜索时都能整合在一起,方便数据融会贯通。
实施例6
本实施例是在实施例1的基础上做出的解释说明,具体的,请参阅图1、图3,
其中:所述数据分析模块包括大数据计算框架;
所述大数据计算框架包括批处理框架、流处理框架、交互式计算框架和图数据处理框架。
实施例7
本实施例是在实施例1的基础上做出的解释说明,具体的,请参阅图1-3,
其中:所述交互式计算框架包括搜索引擎单元、社交问答网络单元和互联网交互式平台。
搜索引擎单元Google等大型互联网搜索引擎与Yahoo的专门广告分析系统,通过对广告相关数据的批量处理来改善广告的投放效果以提高用户的点击量;
社交问答新浪微博、微信等以人为核心的社交网络产生了大量的文本、图片、音视频等不同形式的数据,对这些数据的批量处理可以对社交网络进行分析,发现人与人之间隐含的关系或者他们中存在的社区,推荐朋友或者相关主体,提升用户体验;
互联网交互式平台通过互联网交互式问答数据,进而对这些数据实时反馈,方便用户实时提取数据。
实施例8
本实施例是在实施例1的基础上做出的解释说明,具体的,请参阅图1-3,其中:所述数据智能模块包括深度学习模块、AI智能模块和BI模块;
所述深度学习模块用于利用层次化的架构学习出对象在不同层次上的表达,在语音、图像以及自然语言理解实用深度神经网络;
所述AI智能模块用于智能交互问答、科学解读和AI计算,用于提升效能;
所述BI用于商业智能进行辅助信息决策。
深度学习模块利用层次化的架构学习出对象在不同层次上的表达,这种层次化的表达可以帮助解决更加抽象的问题,在层次化中,高层的概念通常是通过低层的概念来定义的,深度学习通常使用人工神经网络,常见的具有多个隐层的多层感知机MLP就是典型的深度架构。
实施例9
本实施例是在实施例1的基础上做出的解释说明,具体的,请参阅图1-3,其中:所述数据分析模块还包括可视化分析模块、数据挖掘算法、预测性分析能力算法和语义引擎算法;
数据分析模块中的此算法乃现有算法,再次不做赘述。
实施例10
本实施例是在实施例1的基础上做出的解释说明,具体的,请参阅图1-3,其中:所述数据展示模块包括可视化单元和报表展示单元。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于网络服务的大数据分析系统,其特征在于:包括数据采集模块、数据仓库模块、数据治理模块、数据分析模块、数据智能模块和数据展示模块;
所述数据采集模块用于覆盖数据接入;
所述数据仓库模块用于对数据存储的过程中进行数据预处理、整合和筛选;
所述数据治理模块用于对通过大数据量计算、跨源跨库告诉分析场景地告诉缓存引擎,数据查询与分析和管理;
所述数据分析模块用于提供报表分析、自助式分析、报告应用、预测和挖掘多元化分析方法、全方位提升数据分析能力;
所述数据智能模块用于对数据进行深度学习、通过AI和BI对数据进行挖掘和智能应用;
所述数据展示模块用于将分析过的决策数据进行展现和推荐。
2.根据权利要求1所述的一种基于网络服务的大数据分析系统,其特征在于:所述数据采集模块包括dbms模块、社交网络模块和实时采集模块;
所述dbms模块用于用户通过dbms访问数据库中的数据,即是离线数据;所述社交网络模块用于提取现有社交网络、媒体、网络中的大数据;所述实时采集模块用于采集实时流动的数据,用于后期对实时数据进行分析,进而计算时效性。
3.根据权利要求1所述的一种基于网络服务的大数据分析系统,其特征在于:所述数据仓库模块包括数据预处理模块、数据审核模块、数据筛选模块和数据建模模块;
所述数据预处理模块用于对数据进行数仓实施工具预处理,通过丰富的处理转换组件对数据进行预处理;
所述数据审核模块用于审核数据的准确性、适用性、及时性和一致性;
所述数据筛选模块用于对审核过程中发现的错误进行纠正的过程,包括剔除不符合要求的数据、筛选出符合条件的数据两方面内容;
所述筛选模块包括视频筛选模块和关键词筛选模块;
所述数据排序模块用于按照规律的顺序把数据进行排列,以便于研究者进一步观察和分析;
所述数据建模模块用于数据建模是运用正式的数据建模技术,建立信息系统的数据模型的过程。
4.根据权利要求1所述的一种基于网络服务的大数据分析系统,其特征在于:所述数据预处理模块包括数据清理单元、数据集成单元、数据变换单元和数据规约单元;
所述数据清理单元用于目的是格式标准化、清除异常数据、纠正错误;
所述数据集成单元用于将多个数据源中的数据结合起来统一存储;
所述数据变换单元利用规范化、平滑聚集、数据概化方式将数据转变成有利于数据挖掘的形式;
所述数据预约单元用于得到规约表,节省挖掘分析时间且仍然能保持数据的完整性。
5.根据权利要求1所述的一种基于网络服务的大数据分析系统,其特征在于:所述数据治理模块包括元数据管理模块、数据质量管理模块、数据ETL清洗模块和实时ID-mapping模块。
6.根据权利要求1所述的一种基于网络服务的大数据分析系统,其特征在于:所述数据分析模块包括大数据计算框架;
所述大数据计算框架包括批处理框架、流处理框架、交互式计算框架和图数据处理框架。
7.根据权利要求6所述的一种基于网络服务的大数据分析系统,其特征在于:所述交互式计算框架包括搜索引擎单元、社交问答网络单元和互联网交互式平台。
8.根据权利要求1所述的一种基于网络服务的大数据分析系统,其特征在于:所述数据智能模块包括深度学习模块、AI智能模块和BI模块;
所述深度学习模块用于利用层次化的架构学习出对象在不同层次上的表达,在语音、图像以及自然语言理解实用深度神经网络;
所述AI智能模块用于智能交互问答、科学解读和AI计算,用于提升效能;
所述BI用于商业智能进行辅助信息决策。
9.根据权利要求1所述的一种基于网络服务的大数据分析系统,其特征在于:所述数据分析模块还包括可视化分析模块、数据挖掘算法、预测性分析能力算法和语义引擎算法。
10.根据权利要求1所述的一种基于网络服务的大数据分析系统,其特征在于:所述数据展示模块包括可视化单元和报表展示单元。
CN202210766604.1A 2022-07-01 2022-07-01 一种基于网络服务的大数据分析系统 Pending CN115080636A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210766604.1A CN115080636A (zh) 2022-07-01 2022-07-01 一种基于网络服务的大数据分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210766604.1A CN115080636A (zh) 2022-07-01 2022-07-01 一种基于网络服务的大数据分析系统

Publications (1)

Publication Number Publication Date
CN115080636A true CN115080636A (zh) 2022-09-20

Family

ID=83257870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210766604.1A Pending CN115080636A (zh) 2022-07-01 2022-07-01 一种基于网络服务的大数据分析系统

Country Status (1)

Country Link
CN (1) CN115080636A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975042A (zh) * 2023-09-20 2023-10-31 北方健康医疗大数据科技有限公司 一种基于智能体的数据智能分析系统及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975042A (zh) * 2023-09-20 2023-10-31 北方健康医疗大数据科技有限公司 一种基于智能体的数据智能分析系统及方法

Similar Documents

Publication Publication Date Title
Wang et al. Industrial big data analytics: challenges, methodologies, and applications
CN110347719B (zh) 一种基于大数据的企业外贸风险预警方法及系统
Schulz et al. Crisis information management in the Web 3.0 age.
CN111709575A (zh) 基于c-lstm的学业成绩预测方法
CN112632405B (zh) 一种推荐方法、装置、设备及存储介质
CN109389423A (zh) 一种基于大数据融合商业的营销使用方法
CN116663664A (zh) 一种基于nlp算法的客户营销场景数据分析系统及方法
Kewsuwun et al. A sentiment analysis model of agritech startup on Facebook comments using naive Bayes classifier.
CN110489565B (zh) 基于领域知识图谱本体中的对象根类型设计方法及系统
US10579734B2 (en) Web-based influence system and method
CN117009524B (zh) 一种基于舆情情感分析的互联网大数据分析方法及系统
Zhang Application of data mining technology in digital library.
Baranowski et al. Social welfare in the light of topic modelling
Duan et al. Research on the service mode of the university library based on data mining
CN115080636A (zh) 一种基于网络服务的大数据分析系统
CN110889632B (zh) 一种公司形象提升系统的数据监测分析系统
Buranarach et al. An ontology-based approach to supporting knowledge management in government agencies: A case study of the Thai excise department
Rashid Access methods for Big Data: current status and future directions
Foote et al. A computational analysis of social media scholarship
Kaur et al. A Review on Sentimental Analysis on Facebook Comments by using Data Mining Technique
CN115759253A (zh) 电网运维知识图谱构建方法及系统
CN115187122A (zh) 一种企业政策推演方法、装置、设备及介质
KR20230059364A (ko) 언어 모델을 이용한 여론조사 시스템 및 운영 방법
Jarrett et al. Towards a service-oriented architecture for pre-processing crowd-sourced sentiment from Twitter
CN113111244A (zh) 基于中医药知识规模化普及的多源异构大数据融合系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination