CN106649773A - 一种大数据协同分析工具平台 - Google Patents
一种大数据协同分析工具平台 Download PDFInfo
- Publication number
- CN106649773A CN106649773A CN201611227962.6A CN201611227962A CN106649773A CN 106649773 A CN106649773 A CN 106649773A CN 201611227962 A CN201611227962 A CN 201611227962A CN 106649773 A CN106649773 A CN 106649773A
- Authority
- CN
- China
- Prior art keywords
- data
- index
- module
- analysis
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 65
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000011160 research Methods 0.000 claims abstract description 29
- 238000005516 engineering process Methods 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 claims abstract description 21
- 230000009193 crawling Effects 0.000 claims abstract description 10
- 238000012800 visualization Methods 0.000 claims abstract description 9
- 230000000007 visual effect Effects 0.000 claims description 39
- 238000007726 management method Methods 0.000 claims description 33
- 230000008676 import Effects 0.000 claims description 25
- 238000000034 method Methods 0.000 claims description 20
- 238000007405 data analysis Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 12
- 238000013079 data visualisation Methods 0.000 claims description 10
- 238000007619 statistical method Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 7
- 238000013515 script Methods 0.000 claims description 7
- 230000002195 synergetic effect Effects 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 238000002955 isolation Methods 0.000 claims description 3
- 241000270322 Lepidosauria Species 0.000 claims description 2
- 238000013500 data storage Methods 0.000 abstract description 6
- 238000009412 basement excavation Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000007547 defect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 239000000686 essence Substances 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种大数据协同分析平台,包括:多数据源配置模块,用于实现任意数据的配置导入和爬取;数据检索模块,用于对导入的数据建立全文分词索引;数据加工模块,用于实现团队协同协作的协同数据标引和协同分析功能;数据分析模块,用于定制算法模板,分析算法自由选择,量身定制数据建模和算法实现;数据可视化模块,用于实现分析结果的可视化展示和自动报表。本发明的有益效果:解决了行业信息研究工作在专业专、技术难、成本高和效率低的痛点,提供功能集成的信息研究大数据作业平台和大数据的多数据源可配置化数据导入和爬取,大数据存储,大数据搜索引擎,大数据在线协同分析,大数据在线实时统计分析挖掘和可视化等多维度大数据服务。
Description
技术领域
本发明涉及大数据分析技术领域,具体来说,涉及一种大数据协同分析工具平台。
背景技术
现有大数据分析技术,涉及数据的从数据导入、数据存储、数据检索、数据分析、数据可视化的全流程大数据处理分析技术领域。随着大数据技术近年不断发展,也涌现了许多基于大数据的分析工具和分析平台,但由于针对业务领域不同,各家产品专攻技术差异等因素,现有大数据分析工具、BI分析工具等,仍旧存在诸多问题和缺陷。
现有技术产品大多针对商企数据提供功能技术服务,面向行业研究、科研领域的数据分析产品匮乏,现有TDA(Thomson Data Analyzer)可以面向行研数据领域,但由于不是基于大数据技术的产品,在海量数据处理、大数据分析、大数据可视化等方面功能欠缺。且大多针对单一数据源或有限数据源作为处理对象进行处理,不能兼容所有数据格式。大多支持数据导入时的ETL数据清洗处理,缺乏对数据导入ETL处理完成后的,基于业务需求的数据定制化加工标引标注。且现有技术产品不支持团队协同协作的协同数据标引和协同分析功能。只支持有限的分析算法和可视化图表来进行数据分析计算和展现数据分析结果,不支持算法包的定制化扩展以及可视化图表的模板化和插件化。
且现有技术产品的分析模式更适用于专业技术人员,不适用于真正有分析需求的业务人员,使用门槛高。且大多针对全流程的一个或几个技术领域做数据服务,缺少针对全数据流程的工具产品和数据分析技术。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
本发明的目的是提供一种大数据协同分析工具平台,能够解决现有数据服务技术领域缺乏针对全数据流程的工具产品和数据分析技术的问题,填补了该领域缺乏一体化分析流程的空白。
本发明的目的通过以下技术方案来实现:
一种大数据协同分析平台,包括:
多数据源配置模块,用于实现任意数据的配置导入和爬取,建立容数据源配置XML脚本语言,或者通过容数据源配置XML脚本语言,实现各种数据源的编程配置和映射配置;
数据检索模块,用于对导入的数据建立全文分词索引,提供主题检索和条件检索,支持海量数据的高速搜索引擎;
数据加工模块,用于实现团队协同协作的协同数据标引和协同分析功能,通过标引树技术,实现标引内容的统一协同管理和数据定制化标引加工;
数据分析模块,用于定制算法模板,分析算法自由选择,量身定制数据建模和算法实现,通过算法包插件,提供专享专用算法包;
数据可视化模块,用于实现分析结果的可视化展示和自动报表,包括动态可视化插件、执行结果展示、执行结果导出和自动报告生成。
进一步的,所述多数据源配置模块包括:
网页爬取导入子模块,用于实现爬取配置、爬取规则和爬取导入的一体化处理流程,使用自主研发网络爬虫技术,对指定网站、网页进行规则化数据爬取,爬取数据根据爬虫导入配置器自动导入数据库;
数据源配置器编辑子模块,用于数据源配置器配置规则项的新建和编辑;
数据源配置器管理子模块,用于各个数据源配置器的查询和管理,包括配置器的摘要信息,详细编辑入口和删除功能;
数据导入历史管理子模块,用于针对当前任务下的数据导入历史信息列表查询,包括数据的导入名称、大小、时间、所用配置器和导入状态;
数据导入执行子模块,用于选择配置器和导入数据源执行数据导入。
进一步的,所述数据加工模块包括:
数据协同标引子模块,用于实现数据标引、加工和分析的多人团队协同
同步作业,提供在线、团队、实时、协作分析加工标引功能,各成员标引加工内容实时同步呈现,通过颜色区分不同成员的加工标引内容并相互可见,实现团队标引加工作业的操作实时协同、进度清晰可见、内容同步共享;
数据标引树管理子模块,用于提供协同标引加工时的标引数据字典功能,实现标引内容的统一协同管理和数据定制化标引加工;
标引加工执行子模块,用于数据标引、加工和分析的执行;
标引历史管理子模块,用于对标引树技术储进行管理,或者通过CSV(Comma-SeparatedValues,逗号分隔值)格式文件进行导入导出管理,使标引树字典信息实现线上线下的映射导出和集中管理。
进一步的,所述数据分析模块包括:
动态算法包插件,用于实现定制化扩展算法包的动态替换扩展和算法热插拔;实现算法包的模板化管理,通过参数模板,规范管理算法输入输出标准,前端通过参数模板解析,识别所需参数类型;
统计分析执行子模块,用于参数采集,通过人机交互采集参数后,将采集到的参数列表经过格式化统一传递给算法包,进行算法执行;
执行结果管理子模块,用于数据分析结果的管理。
进一步的,所述数据可视化模块包括:
动态可视化插件,用于实现可视化图表的组件化、模板化和插件化,提供可视化图表的动态组件化,通过后台管理可视化模板,并通过可视化模板的动态插拔实现前端可视化图表组件的动态替换和扩展;
执行结果展示,用于展示动态可视化的结果;
执行结果导出,用于导出动态可视化的结果;
自动报告生成,用于根据事先定义的报告模板,结合分析结果数据和图表,自动生成统计分析报告,支持Word、PDF多种输出格式,支持人工辅助评论补正,实现自动化报告制作和生成。
一种大数据协同分析方法,包括:
S1:建立研究主题:以研究主题为单位、创建研究任务组、管理研究数据和制定研究方向,线下科研团队直接平移至线上,团队成员协同共享研究成果,不同研究任务之间数据保密隔离;
S2:数据搜索引擎:导入数据建立全文分词索引,提供主题检索和条件检索,支持海量数据的高速搜索引擎;
S3:建模统计分析:定制算法模块,分析算法自由选择,量身定制数据建模和算法实现,通过算法包插件,提供专享专用算法包,让建模统计分析随需而用,快速高效;
S4:数据配置导入:海量数据批量并行导入和爬取,针对各种数据源定制专有数据解析配置器,通过配置器插件服务,实现所有格式文本文献的定向字段提取和定制化导入,实现数据源的自定义智能解析、数据项智能提取分离、数据字段智能映射存储;
S5:协同分析标引:实现研究团队内数据加工云协作,团队成员分析加工标引结果实时共享可见,实时在线沟通,支持基于标引树的统一标引数据字典,针对各种标引内容定制专有标引规则配置器,实现批量自动化标引;
S6:结果可视化:提供分析结果的可视化展示和自动报表,可视化图表根据需求量身定制,通过可视化插件,提供专享专用可视化模板,提供交互式可视化和自动报告。
本发明的有益效果:立足于信息计量分析和行业研究领域,并致力于打造提供面向大数据的全链条全领域全受众的整体数据服务及解决方案平台。解决了传统企业行业信息研究工作在专业专、技术难、成本高和效率低上的痛点,提供功能集成的信息研究大数据作业平台。提供大数据的多数据源可配置化数据导入,大数据存储,大数据搜索引擎,大数据在线协同分析,大数据在线实时统计分析挖掘和大数据可视化等多维度大数据服务。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的一种大数据协同分析平台整体结构示意图;
图2是根据本发明实施例所述的一种大数据协同分析平台操作流程示意图;
图3是根据本发明实施例所述的一种大数据协同分析平台技术架构示意图;
图4是根据本发明实施例所述的一种大数据协同分析平台基于Hadoop的分布式体系架构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
1.如图1-2所示,一种大数据协同分析平台,包括:
1.1多数据源配置模块,通过数据源配置技术,实现任意数据源的配置导入和爬取,支持各种格式的结构化、非结构化的文本数据源,包括数据库表、行研文献等,实现数据源的自定义智能解析、数据项智能提取分离、数据字段智能映射存储。
本发明首创性建立容数据数据源配置XML脚本语言,除了从图形交互界面进行数据源配置外,还支持通过容数据数据源配置XML脚本语言,实现各种数据源的编程配置和映射配置。
容数据数据源配置XML脚本,关键字设计如下所示:
1.2数据检索模块,用于对导入的数据建立全文分词索引,提供主题检索和条件检索,支持海量数据的高速搜索引擎。
1.3多数据源配置模块包括:
1.3.1网页爬取导入子模块,用于实现爬取配置、爬取规则和爬取导入的一体化处理流程,使用自主研发网络爬虫技术,对指定网站、网页进行规则化数据爬取,爬取数据根据爬虫导入配置器自动导入数据库;
1.3.2数据源配置器编辑子模块,用于数据源配置器配置规则项的新建和编辑;
1.3.3数据源配置器管理子模块,用于各个数据源配置器的查询和管理,包括配置器的摘要信息,详细编辑入口和删除功能;
1.3.4数据导入历史管理子模块,用于针对当前任务下的数据导入历史信息列表查询,包括数据的导入名称、大小、时间、所用配置器和导入状态;
1.3.5数据导入执行子模块,用于选择配置器和导入数据源执行数据导入。
1.4数据加工模块,用于实现团队协同协作的协同数据标引和协同分析功能,通过标引树技术,实现标引内容的统一协同管理和数据定制化标引加工。
所述数据加工模块包括:
1.4.1数据协同标引子模块,通过实时在线协同同步技术,实现针对数据标引、加工和分析的多人团队协同同步作业。提供在线、团队、实时、协作分析加工标引功能,各成员标引加工内容实时同步呈现,通过颜色区分不同成员的加工标引内容并相互可见,实现团队标引加工作业的操作实时协同、进度清晰可见、内容同步共享。每个人可以实时看到团队内成员的数据加工、标引内容,识别他人作业轨迹,同时可以实现加工、标引和分析结果的实时共享,实现团队在线协同分析。
从根本上解决,行业研究等数据分为业务需要多人小组协同分工,共同完成数据科研分析、数据挖掘分析的作业需求。
协同加工、标引、分析通过不同颜色识别不同用户,达到多用户同步协调作业。
1.4.2数据标引树管理子模块,通过使用标引树技术,提供协同标引加工时的标引数据字典功能,一方面满足团队作业时标引内容的统一管理规范和数据字典标准,另一方面为数据标引提供方便快捷的可选数据集。
标引树技术储通过人机交互界面进行管理外,还可以通过CSV格式文件进行导入导出管理,使标引树字典信息实现线上线下的映射导出和集中管理。
1.4.3标引加工执行子模块,用于数据标引、加工和分析的执行;
1.4.4标引历史管理子模块,用于对标引树技术储进行管理,或者通过CSV
格式文件进行导入导出管理,使标引树字典信息实现线上线下的映射导出和集中管理。
1.5数据分析模块,用于定制算法模板,分析算法自由选择,量身定制数据建模和算法实现,通过算法包插件,提供专享专用算法包。
所述数据分析模块包括:
1.5.1动态算法包插件,基于专业建模算法包的动态扩展,实现算法包的模板化管理,通过参数模板,规范管理算法输入输出标准,前端通过参数模板解析,识别所需参数类型,并通过人机交互进行参数采集,采集到的参数列表经过格式化统一传递给算法包,进行算法执行。
整个过程通过json模板进行管理编辑,实现对于定制化扩展算法包的动态替换扩展和算法热插拔。
具体模板json设计如下:
1.5.2统计分析执行子模块,用于参数采集,通过人机交互采集参数后,将采集到的参数列表经过格式化统一传递给算法包,进行算法执行;
1.5.3执行结果管理子模块,用于数据分析结果的管理。
1.6数据可视化模块,用于实现分析结果的可视化展示和自动报表,包括动态可视化插件、执行结果展示、执行结果导出和自动报告生成。
所述数据可视化模块包括:
1.6.1动态可视化插件,基于大数据可视化D3技术,实现可视化图表的组件化、模板化和插件化。提供可视化图表的动态组件化,通过后台管理可视化模板,并通过可视化模板的动态插拔实现前端可视化图表组件的动态替换和扩展。
基于动态可视化插件技术,可以为可视化图表的定制化扩展提供技术支撑。可视化插件模板基于H5构建,实现基于WEB端和移动端的动态图表热插拔扩展。
1.6.2执行结果展示,用于展示动态可视化的结果;
1.6.3执行结果导出,用于导出动态可视化的结果;
1.6.4自动报告生成,用于根据事先定义的报告模板,结合分析结果数据和图表,自动生成统计分析报告,支持Word、PDF多种输出格式,支持人工辅助评论补正,实现自动化报告制作和生成。
本大数据协同分析平台,首创性将大数据分析的全技术环节和处理流程进行梳理整合,形成从数据导入到数据存储、从数据检索到数据加工、从数据分析到数据可视化的全流程大数据处理引擎,为用户提供全套功能解决方案。
本大数据协同分析平台,首创性建立“容数据模式”的大数据分析服务模式,摒弃了传统大数据分析模式的高门槛、高成本、跨专业、难度高等的弊病,通过面向用户建立统一直接的容数据平台,实现大数据的无缝接入和分析作业的简单自如。
为了方便理解本发明的上述技术方案,以下通过具体使用方式对本发明的上述技术方案进行详细说明。
如图3所示,大数据协同分析平台基于Web3.0的数据网络体系架构,搭建大数据应用服务平台。整体技术架构基于主流B/S(Browser/Server,浏览器/服务器模式)架构,底层大数据分布式体系架构作为平台支撑,上层采用主流J2EE(Java 2Platform,EnterpriseEdition)企业级应用框架和基于H5的动态页面技术,实现从数据网络到服务应用的整体技术架构。
底层采用自主分布式混合持久化技术,构建大数据技术核心框架。架构采用主流Hadoop生态圈大数据技术,搭载HDFS分布存储文件系统,提供基于Yarn的大数据分布计算资源管理框架,配合Spark实时计算框架,提供大数据实时分析计算引擎能力。基于列式数据库的HBase数据库,稀疏矩阵存储和高性能吞吐量支撑,为后续警务异构大数据存储提供技术支撑。
如图4所示,另一方面,在大数据分布存储基础上,搭配关系型存储MySQL集群、非结构化媒体数据网络存储,通过高效缓存和索引技术实现混合类型数据的高效索引联动,提供高速搜索引擎和数据访问接口。
逻辑层采用J2EE企业级框架,搭配Spring、SpringMVC和MyBatis的SSM应用服务技术框架组合,提供业务逻辑层的精准构建和灵活应用扩展,通过使用丰富的前端技术组件,包括Ajax、JQuery、H5等,为前端浏览器和手机移动端扩展提供丰富人机界面和人性化交互体验。
整体架构采用面向服务体系架构(SOA),开放标准的RESTful API接口,以提供系统平台的对外WebService服务功能。
产品的应用服务流程如下:
建立研究主题,以研究主题为单位,创建研究任务组、管理研究数据和制定研究方向。线下科研团队直接平移至线上,团队成员协同共享研究成果,不同研究任务之间,数据保密隔离。
数据配置导入,海量数据批量并行导入和爬取,针对各种数据源定制专有数据解析配置器。通过配置器插件服务,实现所有格式文本文献的定向字段提取和定制化导入。
数据搜索引擎,导入数据建立全文分词索引,提供主题检索和条件检索。支持海量数据的告诉搜索引擎。
协同分析标引:实现研究团队内数据加工云协作,团队成员分析加工标引结果实时共享可见,实时在线沟通,支持基于标引树的统一标引数据字典,针对各种标引内容定制专有标引规则配置器,实现批量自动化标引。
建模统计分析,可定制化算法模板,分析算法自由选择,量身定制数据建模和算法实现,通过算法包插件,提供专享专用算法包。让建模统计分析随需而用,快速高效。
结果可视化:提供分析结果的可视化展示和自动报表,可视化图表根据需求量身定制,通过可视化插件,提供专享专用可视化模板,提供交互式可视化和自动报告。
本发明的有益效果:立足于信息计量分析和行业研究领域,并致力于打造提供面向大数据的全链条全领域全受众的整体数据服务及解决方案平台。解决了传统企业行业信息研究工作在专业专、技术难、成本高和效率低上的痛点,提供功能集成的信息研究大数据作业平台。提供大数据的多数据源可配置化数据导入,大数据存储,大数据搜索引擎,大数据在线协同分析,大数据在线实时统计分析挖掘和大数据可视化等多维度大数据服务。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种大数据协同分析平台,其特征在于,包括:
多数据源配置模块,用于实现任意数据的配置导入和爬取,建立容数据源配置XML脚本语言,或者通过容数据源配置XML脚本语言,实现各种数据源的编程配置和映射配置;
数据检索模块,用于对导入的数据建立全文分词索引,提供主题检索和条件检索,支持海量数据的高速搜索引擎;
数据加工模块,用于实现团队协同协作的协同数据标引和协同分析功能,通过标引树技术,实现标引内容的统一协同管理和数据定制化标引加工;
数据分析模块,用于定制算法模板,分析算法自由选择,量身定制数据建模和算法实现,通过算法包插件,提供专享专用算法包;
数据可视化模块,用于实现分析结果的可视化展示和自动报表,包括动态可视化插件、执行结果展示、执行结果导出和自动报告生成。
2.根据权利要求1所述的一种大数据协同分析平台,其特征在于,所述多数据源配置模块包括:
网页爬取导入子模块,用于实现爬取配置、爬取规则和爬取导入的一体化处理流程,使用自主研发网络爬虫技术,对指定网站、网页进行规则化数据爬取,爬取数据根据爬虫导入配置器自动导入数据库;
数据源配置器编辑子模块,用于数据源配置器配置规则项的新建和编辑;
数据源配置器管理子模块,用于各个数据源配置器的查询和管理,包括配置器的摘要信息,详细编辑入口和删除功能;
数据导入历史管理子模块,用于针对当前任务下的数据导入历史信息列表查询,包括数据的导入名称、大小、时间、所用配置器和导入状态;
数据导入执行子模块,用于选择配置器和导入数据源执行数据导入。
3.根据权利要求1所述的一种大数据协同分析平台,其特征在于,所述数据加工模块包括:
数据协同标引子模块,用于实现数据标引、加工和分析的多人团队协同同步作业,提供在线、团队、实时、协作分析加工标引功能,各成员标引加工内容实时同步呈现,通过颜色区分不同成员的加工标引内容并相互可见,实现团队标引加工作业的操作实时协同、进度清晰可见、内容同步共享;
数据标引树管理子模块,用于提供协同标引加工时的标引数据字典功能,实现标引内容的统一协同管理和数据定制化标引加工;
标引加工执行子模块,用于数据标引、加工和分析的执行;
标引历史管理子模块,用于对标引树技术储进行管理,或者通过CSV格式文件进行导入导出管理,使标引树字典信息实现线上线下的映射导出和集中管理。
4.根据权利要求1所述的一种大数据协同分析平台,其特征在于,所述数据分析模块包括:
动态算法包插件,用于实现定制化扩展算法包的动态替换扩展和算法热插拔;实现算法包的模板化管理,通过参数模板,规范管理算法输入输出标准,前端通过参数模板解析,识别所需参数类型;
统计分析执行子模块,用于参数采集,通过人机交互采集参数后,将采集到的参数列表经过格式化统一传递给算法包,进行算法执行;
执行结果管理子模块,用于数据分析结果的管理。
5.根据权利要求1所述的一种大数据协同分析平台,其特征在于,所述数据可视化模块包括:
动态可视化插件,用于实现可视化图表的组件化、模板化和插件化,提供可视化图表的动态组件化,通过后台管理可视化模板,并通过可视化模板的动态插拔实现前端可视化图表组件的动态替换和扩展;
执行结果展示,用于展示动态可视化的结果;
执行结果导出,用于导出动态可视化的结果;
自动报告生成,用于根据事先定义的报告模板,结合分析结果数据和图表,自动生成统计分析报告。
6.一种大数据协同分析方法,其特征在于,包括:
S1:建立研究主题:以研究主题为单位、创建研究任务组、管理研究数据和制定研究方向,线下科研团队直接平移至线上,团队成员协同共享研究成果,不同研究任务之间数据保密隔离;
S2:数据搜索引擎:导入数据建立全文分词索引,提供主题检索和条件检索,支持海量数据的高速搜索引擎;
S3:建模统计分析:定制算法模块,分析算法自由选择,量身定制数据建模和算法实现,通过算法包插件,提供专享专用算法包,让建模统计分析随需而用,快速高效;
S4:数据配置导入:海量数据批量并行导入和爬取,针对各种数据源定制专有数据解析配置器,通过配置器插件服务,实现所有格式文本文献的定向字段提取和定制化导入,实现数据源的自定义智能解析、数据项智能提取分离、数据字段智能映射存储;
S5:协同分析标引:实现研究团队内数据加工云协作,团队成员分析加工标引结果实时共享可见,实时在线沟通,支持基于标引树的统一标引数据字典,针对各种标引内容定制专有标引规则配置器,实现批量自动化标引;
S6:结果可视化:提供分析结果的可视化展示和自动报表,可视化图表根据需求量身定制,通过可视化插件,提供专享专用可视化模板,提供交互式可视化和自动报告。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611227962.6A CN106649773A (zh) | 2016-12-27 | 2016-12-27 | 一种大数据协同分析工具平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611227962.6A CN106649773A (zh) | 2016-12-27 | 2016-12-27 | 一种大数据协同分析工具平台 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106649773A true CN106649773A (zh) | 2017-05-10 |
Family
ID=58831454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611227962.6A Pending CN106649773A (zh) | 2016-12-27 | 2016-12-27 | 一种大数据协同分析工具平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106649773A (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291885A (zh) * | 2017-06-21 | 2017-10-24 | 南京邮电大学 | 一种基于人机交互的大数据可视化系统及其控制方法 |
CN107562825A (zh) * | 2017-08-21 | 2018-01-09 | 北京锐安科技有限公司 | 一种生成数据展示界面的系统及方法 |
CN107748800A (zh) * | 2017-11-15 | 2018-03-02 | 北京易讯通信息技术股份有限公司 | 一种分布式实时数据处理政务服务数据的融合与共享方法 |
CN107943913A (zh) * | 2017-11-20 | 2018-04-20 | 深圳市启明星电子商务有限公司 | 一种数据报表分析系统 |
CN108062384A (zh) * | 2017-12-13 | 2018-05-22 | 阿里巴巴集团控股有限公司 | 数据检索的方法和装置 |
CN108306801A (zh) * | 2018-05-09 | 2018-07-20 | 上海上实龙创智慧能源科技股份有限公司 | 一种基于蓝牙组网的智能家居系统 |
CN108388660A (zh) * | 2018-03-08 | 2018-08-10 | 中国计量大学 | 一种改进的电商产品痛点分析方法 |
CN108897821A (zh) * | 2018-06-21 | 2018-11-27 | 江苏赛睿信息科技股份有限公司 | 自动生成数据结论的方法及装置 |
CN109446390A (zh) * | 2018-11-09 | 2019-03-08 | 同方知网(北京)技术有限公司 | 一种基于配置式的大数据可视化系统及其配置方法 |
CN109947831A (zh) * | 2017-10-30 | 2019-06-28 | 宜兴八达流体技术有限公司 | 一种噪声和污染物排放指标的生成和可视化软件 |
CN110232164A (zh) * | 2019-04-23 | 2019-09-13 | 北京旷视科技有限公司 | 国际化处理的方法、装置及计算机存储介质 |
CN110309118A (zh) * | 2018-03-06 | 2019-10-08 | 北京询达数据科技有限公司 | 一种深度网络数据挖掘机器人的设计方法 |
CN110309467A (zh) * | 2018-03-25 | 2019-10-08 | 北京询达数据科技有限公司 | 一种全自动深度网络挖掘机的设计方法 |
CN110351608A (zh) * | 2019-07-18 | 2019-10-18 | 中国传媒大学 | 一种广电用户收视行为数据切片系统、架构及方法 |
CN110659790A (zh) * | 2018-06-28 | 2020-01-07 | 北京金风科创风电设备有限公司 | 实验管理与数据分析系统 |
CN111046306A (zh) * | 2019-12-30 | 2020-04-21 | 四川华迪信息技术有限公司 | 一种浏览器动态展示就业信息分析结果图表的方法 |
CN111078094A (zh) * | 2019-12-04 | 2020-04-28 | 北京邮电大学 | 分布式机器学习可视化装置 |
CN111506464A (zh) * | 2019-01-31 | 2020-08-07 | 杭州广立微电子有限公司 | 一种针对wat数据快速生成图表报告的系统 |
CN111600902A (zh) * | 2020-05-28 | 2020-08-28 | 广州万灵数据科技有限公司 | 自动数据处理与多协议接入的数据分析平台 |
CN111751788A (zh) * | 2020-06-29 | 2020-10-09 | 成都数之联科技有限公司 | 一种大数据智能探测设备辅助增强系统 |
CN112214473A (zh) * | 2020-09-23 | 2021-01-12 | 航天信息股份有限公司 | 一种数据库间的数据迁移方法及系统 |
CN112231388A (zh) * | 2020-10-14 | 2021-01-15 | 宁夏回族自治区教育信息化管理中心 | 一种多元化指标分析的动态图表构建方法 |
CN112632146A (zh) * | 2020-12-03 | 2021-04-09 | 成都大数据产业技术研究院有限公司 | 多人协作的可视化数据挖掘系统 |
CN113239081A (zh) * | 2021-05-21 | 2021-08-10 | 瀚云科技有限公司 | 一种流式数据计算方法 |
CN113761304A (zh) * | 2021-09-23 | 2021-12-07 | 北京航空航天大学青岛研究院 | 基于动态参数的大数据智慧展示配置方法 |
CN114070787A (zh) * | 2021-11-15 | 2022-02-18 | 南京航空航天大学 | 面向警务大数据的数据汇聚方法、装置、存储介质和电子设备 |
CN115114353A (zh) * | 2022-08-29 | 2022-09-27 | 湖南警云智慧信息科技有限公司 | 一种大数据的筛选方法和系统 |
CN116738157A (zh) * | 2023-08-09 | 2023-09-12 | 柏森智慧空间科技集团有限公司 | 物业管理平台中数据预处理的方法 |
CN117436054A (zh) * | 2023-12-21 | 2024-01-23 | 四川正基岩土工程有限公司 | 一种岩土工程大数据共享平台 |
CN118034672A (zh) * | 2024-04-10 | 2024-05-14 | 浪潮软件股份有限公司 | 一种基于Spark的可视化数据处理分析方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468744A (zh) * | 2015-11-25 | 2016-04-06 | 浪潮软件集团有限公司 | 一种实现税务舆情分析和全文检索的大数据平台 |
CN105787064A (zh) * | 2016-03-01 | 2016-07-20 | 广州铭诚计算机科技有限公司 | 一种基于大数据的挖掘平台构建方法 |
CN105930460A (zh) * | 2016-04-21 | 2016-09-07 | 重庆邮电大学 | 一种集成多算法的大数据分析中间件平台 |
CN106203828A (zh) * | 2016-07-11 | 2016-12-07 | 浪潮软件集团有限公司 | 一种基于数据全生命周期管理的数据管理平台 |
-
2016
- 2016-12-27 CN CN201611227962.6A patent/CN106649773A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105468744A (zh) * | 2015-11-25 | 2016-04-06 | 浪潮软件集团有限公司 | 一种实现税务舆情分析和全文检索的大数据平台 |
CN105787064A (zh) * | 2016-03-01 | 2016-07-20 | 广州铭诚计算机科技有限公司 | 一种基于大数据的挖掘平台构建方法 |
CN105930460A (zh) * | 2016-04-21 | 2016-09-07 | 重庆邮电大学 | 一种集成多算法的大数据分析中间件平台 |
CN106203828A (zh) * | 2016-07-11 | 2016-12-07 | 浪潮软件集团有限公司 | 一种基于数据全生命周期管理的数据管理平台 |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291885A (zh) * | 2017-06-21 | 2017-10-24 | 南京邮电大学 | 一种基于人机交互的大数据可视化系统及其控制方法 |
CN107562825A (zh) * | 2017-08-21 | 2018-01-09 | 北京锐安科技有限公司 | 一种生成数据展示界面的系统及方法 |
CN109947831A (zh) * | 2017-10-30 | 2019-06-28 | 宜兴八达流体技术有限公司 | 一种噪声和污染物排放指标的生成和可视化软件 |
CN107748800A (zh) * | 2017-11-15 | 2018-03-02 | 北京易讯通信息技术股份有限公司 | 一种分布式实时数据处理政务服务数据的融合与共享方法 |
CN107943913A (zh) * | 2017-11-20 | 2018-04-20 | 深圳市启明星电子商务有限公司 | 一种数据报表分析系统 |
CN108062384A (zh) * | 2017-12-13 | 2018-05-22 | 阿里巴巴集团控股有限公司 | 数据检索的方法和装置 |
CN110309118A (zh) * | 2018-03-06 | 2019-10-08 | 北京询达数据科技有限公司 | 一种深度网络数据挖掘机器人的设计方法 |
CN108388660B (zh) * | 2018-03-08 | 2021-10-01 | 中国计量大学 | 一种改进的电商产品痛点分析方法 |
CN108388660A (zh) * | 2018-03-08 | 2018-08-10 | 中国计量大学 | 一种改进的电商产品痛点分析方法 |
CN110309467A (zh) * | 2018-03-25 | 2019-10-08 | 北京询达数据科技有限公司 | 一种全自动深度网络挖掘机的设计方法 |
CN108306801A (zh) * | 2018-05-09 | 2018-07-20 | 上海上实龙创智慧能源科技股份有限公司 | 一种基于蓝牙组网的智能家居系统 |
CN108897821A (zh) * | 2018-06-21 | 2018-11-27 | 江苏赛睿信息科技股份有限公司 | 自动生成数据结论的方法及装置 |
CN108897821B (zh) * | 2018-06-21 | 2020-07-14 | 江苏赛睿信息科技股份有限公司 | 自动生成数据结论的方法及装置 |
CN110659790A (zh) * | 2018-06-28 | 2020-01-07 | 北京金风科创风电设备有限公司 | 实验管理与数据分析系统 |
CN110659790B (zh) * | 2018-06-28 | 2022-09-13 | 北京金风科创风电设备有限公司 | 实验管理与数据分析系统 |
CN109446390A (zh) * | 2018-11-09 | 2019-03-08 | 同方知网(北京)技术有限公司 | 一种基于配置式的大数据可视化系统及其配置方法 |
CN111506464A (zh) * | 2019-01-31 | 2020-08-07 | 杭州广立微电子有限公司 | 一种针对wat数据快速生成图表报告的系统 |
CN111506464B (zh) * | 2019-01-31 | 2023-09-15 | 杭州广立微电子股份有限公司 | 一种针对wat数据快速生成图表报告的系统 |
CN110232164A (zh) * | 2019-04-23 | 2019-09-13 | 北京旷视科技有限公司 | 国际化处理的方法、装置及计算机存储介质 |
CN110232164B (zh) * | 2019-04-23 | 2021-10-15 | 北京旷视科技有限公司 | 国际化处理的方法、装置及计算机存储介质 |
CN110351608A (zh) * | 2019-07-18 | 2019-10-18 | 中国传媒大学 | 一种广电用户收视行为数据切片系统、架构及方法 |
CN111078094B (zh) * | 2019-12-04 | 2021-12-07 | 北京邮电大学 | 分布式机器学习可视化装置 |
CN111078094A (zh) * | 2019-12-04 | 2020-04-28 | 北京邮电大学 | 分布式机器学习可视化装置 |
CN111046306A (zh) * | 2019-12-30 | 2020-04-21 | 四川华迪信息技术有限公司 | 一种浏览器动态展示就业信息分析结果图表的方法 |
CN111600902A (zh) * | 2020-05-28 | 2020-08-28 | 广州万灵数据科技有限公司 | 自动数据处理与多协议接入的数据分析平台 |
CN111751788A (zh) * | 2020-06-29 | 2020-10-09 | 成都数之联科技有限公司 | 一种大数据智能探测设备辅助增强系统 |
CN112214473A (zh) * | 2020-09-23 | 2021-01-12 | 航天信息股份有限公司 | 一种数据库间的数据迁移方法及系统 |
CN112231388A (zh) * | 2020-10-14 | 2021-01-15 | 宁夏回族自治区教育信息化管理中心 | 一种多元化指标分析的动态图表构建方法 |
CN112632146A (zh) * | 2020-12-03 | 2021-04-09 | 成都大数据产业技术研究院有限公司 | 多人协作的可视化数据挖掘系统 |
CN112632146B (zh) * | 2020-12-03 | 2023-04-07 | 成都大数据产业技术研究院有限公司 | 多人协作的可视化数据挖掘系统 |
CN113239081A (zh) * | 2021-05-21 | 2021-08-10 | 瀚云科技有限公司 | 一种流式数据计算方法 |
CN113761304A (zh) * | 2021-09-23 | 2021-12-07 | 北京航空航天大学青岛研究院 | 基于动态参数的大数据智慧展示配置方法 |
CN113761304B (zh) * | 2021-09-23 | 2023-11-24 | 北京航空航天大学青岛研究院 | 基于动态参数的大数据智慧展示配置方法 |
CN114070787A (zh) * | 2021-11-15 | 2022-02-18 | 南京航空航天大学 | 面向警务大数据的数据汇聚方法、装置、存储介质和电子设备 |
CN115114353B (zh) * | 2022-08-29 | 2022-12-13 | 湖南警云智慧信息科技有限公司 | 一种大数据的筛选方法和系统 |
CN115114353A (zh) * | 2022-08-29 | 2022-09-27 | 湖南警云智慧信息科技有限公司 | 一种大数据的筛选方法和系统 |
CN116738157A (zh) * | 2023-08-09 | 2023-09-12 | 柏森智慧空间科技集团有限公司 | 物业管理平台中数据预处理的方法 |
CN117436054A (zh) * | 2023-12-21 | 2024-01-23 | 四川正基岩土工程有限公司 | 一种岩土工程大数据共享平台 |
CN117436054B (zh) * | 2023-12-21 | 2024-03-12 | 四川正基岩土工程有限公司 | 一种岩土工程大数据共享平台 |
CN118034672A (zh) * | 2024-04-10 | 2024-05-14 | 浪潮软件股份有限公司 | 一种基于Spark的可视化数据处理分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649773A (zh) | 一种大数据协同分析工具平台 | |
CN104679248B (zh) | 一种多场景交互数据可视化系统及工作方法 | |
CN106354786A (zh) | 一种可视分析方法及系统 | |
CN106156350A (zh) | 一种可视化大数据分析方法及系统 | |
CN109035060A (zh) | 一种结构化工艺管理系统及管理方法 | |
CN106611246A (zh) | 一种国土资源综合管理系统 | |
CN104134121A (zh) | 一种电网信息系统业务数据可视化的实现方法 | |
CN102508980A (zh) | 一种零件工艺信息快速获取方法 | |
CN113642920B (zh) | 一种面向工业制造领域数字化应用的快速构建方法 | |
CN111080263B (zh) | 一种基于思维导图的可视化协同分析系统 | |
CN106777106A (zh) | 基于excel的财务报表的数据展示方法 | |
CN107209773A (zh) | 自动调用统一的可视化界面 | |
CN110110114B (zh) | 多源对地观测图像处理的可视化方法、装置及存储介质 | |
CN103927185A (zh) | 基于能源管理的网络拓扑建模装置及其引导方法 | |
CN104537131A (zh) | 一种面向卫星总装过程的数据采集方法 | |
CN103455498A (zh) | 一种基于超文本的表格关键字信息定位方法 | |
Di Sia | Industry 4.0 revolution: introduction | |
CN112766931A (zh) | 全流程的内外业一体化的勘察生产系统及方法 | |
CN115774946A (zh) | 基于slp的三维设施规划与物流分析方法、系统及应用 | |
Shangina | The introduction of CALS-Technologies in Russia | |
CN114118037A (zh) | 数据治理平台智能报表工具 | |
CN107451283A (zh) | 数据的分析方法及装置 | |
CN110019453A (zh) | 一种基于分布式系统基础架构平台对税务数据进行处理的方法及系统 | |
Le et al. | Building a support system for time study to calculate the standard time at production line | |
Büscher et al. | VPI-FP: an integrative information system for factory planning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200201 Address after: 100007 3 qianxiaojia Hutong, Dongcheng District, Beijing Applicant after: Liang Xuedong Address before: 100191 Beijing City, Haidian District Tayuan No. 8 autumn Lang Park No. 2 Building 4 layer chuangyin hotel room 8868 Applicant before: Beijing great capacity Technology Co., Ltd. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170510 |
|
RJ01 | Rejection of invention patent application after publication |