CN106446217A - 大数据高速整合系统 - Google Patents

大数据高速整合系统 Download PDF

Info

Publication number
CN106446217A
CN106446217A CN201610875239.2A CN201610875239A CN106446217A CN 106446217 A CN106446217 A CN 106446217A CN 201610875239 A CN201610875239 A CN 201610875239A CN 106446217 A CN106446217 A CN 106446217A
Authority
CN
China
Prior art keywords
data
module
information
unit
integration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610875239.2A
Other languages
English (en)
Inventor
晋彤
李永康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Special Road Mdt Infotech Ltd
Original Assignee
Guangzhou Special Road Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Special Road Mdt Infotech Ltd filed Critical Guangzhou Special Road Mdt Infotech Ltd
Priority to CN201610875239.2A priority Critical patent/CN106446217A/zh
Publication of CN106446217A publication Critical patent/CN106446217A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据高速整合系统,包括:信息采集模块、信息整合分析模块、数据整合模块和数据服务模块,所述信息采集模块用于从多个数据源采集数据;所述信息整合分析模块用于对采集的数据进行分析处理;所述数据整合模块用于对所述信息整合分析模块处理后的数据进行分类、整合;所述数据服务模块用于与用户对接。本发明通过信息聚合技术对衔接和采集的数据进行去重、语义分析、自动聚类、自动分类、中文分词、切成等格式化流程后,在通过系统信息整合中间平台对数据进行数据整合分类,用户可通过信息调取、查询、分析、监测、订阅等方式对数据进行应用。

Description

大数据高速整合系统
技术领域
本发明涉及互联网技术领域,尤其涉及一种大数据高速整合系统。
背景技术
我国信息化经过多年的发展,已开发了众多计算机信息系统和数据库系统,并积累了大量的基础数据。然而,丰富的数据资源由于建设时期不同,开发部门不同、使用设备不同、技术发展阶段不同和能力水平的不同等,数据存储管理极为分散,造成了过量的数据冗余和数据不一致性,使得数据资源难于查询访问,管理层无法获得有效的决策数据支持。往往管理者要了解所辖不同部门的信息,需要进入众多不同的系统,而且数据不能直接比较分析。
一些信息系统集成度低、互联性差、信息管理分散,数据的完整性、准确性、及时性等方面存在较大差距。有些单位已经建立了内部网和互联网,但多年来分散开发或引进的信息系统,形成了许多信息孤岛,缺乏共享的、网络化的可用度高的信息资源体系。
数据的共享度达不到单位对信息资源的整体开发利用的要求。简单的应用多,交叉重复也多,能支持管理和决策的应用少,能利用网络开展经营活动的应用更少。数据中蕴藏着巨大信息资源,但是没有通过有效工具充分挖掘利用,信息资源的增值作用还没有在管理决策过程中充分发挥。
综上所述,对于大量的数据不能提供一个统一的数据接口,不能采用一种通用的标准和规范,无法获得共享通用的数据源,于是不同的应用系统之间必然会形成彼此隔离的信息孤岛。信息孤岛是当前信息化建设中亟待解决的主要症结,因此如何彻底的消除信息孤岛,有效的整合现有及未来的业务应用系统的数据资源已成为当前信息化建设的重中之重。
同时,随着计算机业务数量的增加,管理人员的操作也越来越多,越来越复杂,许多日趋复杂的中间业务处理环节依然或多或少地依靠手工处理进行流转;信息加工分析手段差,无法直接从各级各类业务信息系统采集数据并加以综合利用,无法对外部信息进行及时、准确的收集反馈,业务系统产生的大量数据无法提炼升华为有用的信息,并及时提供给管理决策部门;已有的业务信息系统平台及开发工具互不兼容,无法在大范围内应用等。
发明内容
有鉴于此,本发明提供了一种大数据高速整合系统,包括:信息采集模块、信息整合分析模块、数据整合模块和数据服务模块,其中:
所述信息采集模块用于从多个数据源采集数据;
所述信息整合分析模块用于对采集的数据进行分析处理;
所述数据整合模块用于对所述信息整合分析模块处理后的数据进行分类、整合;
所述数据服务模块用于与用户对接。
进一步地,所述信息采集模块包括基于XML的WebService接口,基于JSON的RESTFul接口和标准输入输出接口。
进一步地,所述信息整合分析模块包括自动摘要单元、网页去重单元、语义分析单元、自动分类单元和自动聚类单元。
进一步地,所述信息整合分析模块包括正文提取单元、中文分词单元和中文切分单元。
进一步地,所述信息整合分析模块包括倾向性语料库、正反语料库和情感语料库。
进一步地,所述数据整合模块包括专题库、信息库和资料库。
进一步地,所述数据整合模块包括用户信息库和管理信息库。
进一步地,所述数据服务模块包括综合查阅单元、数据复用单元、信息搜索单元、数据交互单元和辅助决策单元。
进一步地,所述系统还包括安全加密模块,用于对整合后的数据进行加密。
进一步地,所述系统还包括权限管理模块,用于对待访问的数据进行权限设置。
实施本发明,具有如下有益效果:
本发明的大数据整合系统采用了标准异构的数据接口以及大数据采集挖掘技术,对互联网新闻网站、论坛、贴吧等信息进行挖掘。本发明采用先进BCE中间件信息技术能有效融合各类系统数据接口,并能与第三方系统数据进行对接整合。
同时通过信息聚合技术对衔接和采集的数据进行去重、语义分析、自动聚类、自动分类、中文分词、切成等格式化流程后,在通过系统信息整合中间平台对数据进行数据整合分类,用户可通过信息调取、查询、分析、监测、订阅等方式对数据进行应用。
本发明的优势在于:采用分布式架构,实现分布式运算;采用多种先进的抓取算法(深度优先、广度优先、数据挖掘技术);领先的相关性引擎;基于自主研发的BCE中间件平台;数据聚类技术;接口衔接技术;异构数据格式转换技术;
DTP参考模型:DTP是分布式事务处理(Distributed Transaction Process)的英文缩写。该参考模型由X/OPEN组织定义,它认为一个分布式应用系统由四个模块组成:应用、资源管理者、事务管理者、通讯管理者;标准接口衔接技术;多类数据整合技术。
集群技术:此处的集群是一种实现负载均衡的软件技术,用户可以利用低成本的服务器构造具有很高可用性和可伸缩性的高性能集群系统。此技术扩展了单个节点的处理能力,把有可能拥塞于一个节点的负载交给多个节点分担。在b/S应用结构中,通过使用集群功能,多个服务器联合起来作为一个整体,可支持成千上百的客户对系统的访问。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明的系统的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
如图1所示,本发明提供了一种大数据高速整合系统,包括:信息采集模块、信息整合分析模块、数据整合模块和数据服务模块,其中:
所述信息采集模块用于从多个数据源采集数据;
所述信息整合分析模块用于对采集的数据进行分析处理;
所述数据整合模块用于对所述信息整合分析模块处理后的数据进行分类、整合;
所述数据服务模块用于与用户对接。
进一步地,所述信息采集模块包括基于XML的WebService接口,基于JSON的RESTFul接口和标准输入输出接口。
进一步地,所述信息整合分析模块包括自动摘要单元、网页去重单元、语义分析单元、自动分类单元和自动聚类单元。
进一步地,所述信息整合分析模块包括正文提取单元、中文分词单元和中文切分单元。
进一步地,所述信息整合分析模块包括倾向性语料库、正反语料库和情感语料库。
进一步地,所述数据整合模块包括专题库、信息库和资料库。
进一步地,所述数据整合模块包括用户信息库和管理信息库。
进一步地,所述数据服务模块包括综合查阅单元、数据复用单元、信息搜索单元、数据交互单元和辅助决策单元。
进一步地,所述系统还包括安全加密模块,用于对整合后的数据进行加密。
进一步地,所述系统还包括权限管理模块,用于对待访问的数据进行权限设置。
实施本发明,具有如下有益效果:
本发明的大数据整合系统采用了标准异构的数据接口以及大数据采集挖掘技术,对互联网新闻网站、论坛、贴吧等信息进行挖掘。本发明采用先进BCE中间件信息技术能有效融合各类系统数据接口,并能与第三方系统数据进行对接整合。
同时通过信息聚合技术对衔接和采集的数据进行去重、语义分析、自动聚类、自动分类、中文分词、切成等格式化流程后,在通过系统信息整合中间平台对数据进行数据整合分类,用户可通过信息调取、查询、分析、监测、订阅等方式对数据进行应用。
本发明的优势在于:采用分布式架构,实现分布式运算;采用多种先进的抓取算法(深度优先、广度优先、数据挖掘技术);领先的相关性引擎;基于自主研发的BCE中间件平台;数据聚类技术;接口衔接技术;异构数据格式转换技术;
DTP参考模型:DTP是分布式事务处理(Distributed Transaction Process)的英文缩写。该参考模型由X/OPEN组织定义,它认为一个分布式应用系统由四个模块组成:应用、资源管理者、事务管理者、通讯管理者;标准接口衔接技术;多类数据整合技术。
集群技术:此处的集群是一种实现负载均衡的软件技术,用户可以利用低成本的服务器构造具有很高可用性和可伸缩性的高性能集群系统。此技术扩展了单个节点的处理能力,把有可能拥塞于一个节点的负载交给多个节点分担。在b/S应用结构中,通过使用集群功能,多个服务器联合起来作为一个整体,可支持成千上百的客户对系统的访问。
本发明可应用于大数据挖掘、多类数据整合,支持大数据挖掘、多格式数据整合分析。本发明的系统基于Java跨平台,支持多种数据库跨平台,数据互联流转,具有高性能,高扩展性,适合对互联网舆情和对大数据应用较高的行业。
本发明的系统通过互联网海量数据挖掘和其他信息数据进行整合,并进行分析,聚合海量数据以实现话题发现和整合。它可以聚合新闻和其他站点的关于某一主题内容的信息进行检测,并统一地推送给信息使用者,从而提高信息使用效率。信息分布式聚合可以对应用于用户对舆情的某一类舆情信息需求的订阅,信息使用者通过使用RSS聚合可以更快捷地获取有关舆情信息,并统一在用户端进行显示。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.大数据高速整合系统,其特征在于,包括:信息采集模块、信息整合分析模块、数据整合模块和数据服务模块,其中:
所述信息采集模块用于从多个数据源采集数据;
所述信息整合分析模块用于对采集的数据进行分析处理;
所述数据整合模块用于对所述信息整合分析模块处理后的数据进行分类、整合;
所述数据服务模块用于与用户对接。
2.根据权利要求1所述的系统,其特征在于,所述信息采集模块包括基于XML的WebService接口,基于JSON的RESTFul接口和标准输入输出接口。
3.根据权利要求1所述的系统,其特征在于,所述信息整合分析模块包括自动摘要单元、网页去重单元、语义分析单元、自动分类单元和自动聚类单元。
4.根据权利要求1所述的系统,其特征在于,所述信息整合分析模块包括正文提取单元、中文分词单元和中文切分单元。
5.根据权利要求1所述的系统,其特征在于,所述信息整合分析模块包括倾向性语料库、正反语料库和情感语料库。
6.根据权利要求1所述的系统,其特征在于,所述数据整合模块包括专题库、信息库和资料库。
7.根据权利要求1所述的系统,其特征在于,所述数据整合模块包括用户信息库和管理信息库。
8.根据权利要求1所述的系统,其特征在于,所述数据服务模块包括综合查阅单元、数据复用单元、信息搜索单元、数据交互单元和辅助决策单元。
9.根据权利要求1所述的系统,其特征在于,所述系统还包括安全加密模块,用于对整合后的数据进行加密。
10.根据权利要求1所述的系统,其特征在于,所述系统还包括权限管理模块,用于对待访问的数据进行权限设置。
CN201610875239.2A 2016-09-30 2016-09-30 大数据高速整合系统 Pending CN106446217A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610875239.2A CN106446217A (zh) 2016-09-30 2016-09-30 大数据高速整合系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610875239.2A CN106446217A (zh) 2016-09-30 2016-09-30 大数据高速整合系统

Publications (1)

Publication Number Publication Date
CN106446217A true CN106446217A (zh) 2017-02-22

Family

ID=58172904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610875239.2A Pending CN106446217A (zh) 2016-09-30 2016-09-30 大数据高速整合系统

Country Status (1)

Country Link
CN (1) CN106446217A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108900580A (zh) * 2018-06-12 2018-11-27 海南省火蓝数据有限公司 一种基于融媒体服务平台的互动信息处理方法
CN109446251A (zh) * 2018-09-04 2019-03-08 北京睿企信息科技有限公司 分布式人工智能应用开发的系统及方法
CN110598072A (zh) * 2019-09-24 2019-12-20 恩亿科(北京)数据科技有限公司 一种特征数据聚合方法及装置
CN110910276A (zh) * 2019-11-04 2020-03-24 杭州众工电力科技有限公司 一种电力调度数据整合系统
CN111737272A (zh) * 2020-06-02 2020-10-02 脑谷人工智能研究院(南京)有限公司 一种可交互展示各类指标的大数据自动化管理平台
CN112069215A (zh) * 2020-09-17 2020-12-11 国电龙源电气有限公司 一种基于整合数据的数据查询方法及装置
CN113095540A (zh) * 2019-12-23 2021-07-09 财团法人工业技术研究院 数据整合方法及数据整合系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054025A (zh) * 2010-12-01 2011-05-11 北京中交通信科技有限公司 交通信息资源整合处理方法及系统
CN102129646A (zh) * 2011-03-09 2011-07-20 华东电网有限公司 多维度电力市场交易数据交互统一监控方法
US20150006596A1 (en) * 2012-06-27 2015-01-01 International Business Machines Corporation Method for selecting storage cloud for storage of entity files from plurality of storage clouds, and computer and computer program therefor
CN104408157A (zh) * 2014-12-05 2015-03-11 四川诚品电子商务有限公司 一种网络舆情漏斗式数据采集分析推送系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054025A (zh) * 2010-12-01 2011-05-11 北京中交通信科技有限公司 交通信息资源整合处理方法及系统
CN102129646A (zh) * 2011-03-09 2011-07-20 华东电网有限公司 多维度电力市场交易数据交互统一监控方法
US20150006596A1 (en) * 2012-06-27 2015-01-01 International Business Machines Corporation Method for selecting storage cloud for storage of entity files from plurality of storage clouds, and computer and computer program therefor
CN104408157A (zh) * 2014-12-05 2015-03-11 四川诚品电子商务有限公司 一种网络舆情漏斗式数据采集分析推送系统及方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108900580A (zh) * 2018-06-12 2018-11-27 海南省火蓝数据有限公司 一种基于融媒体服务平台的互动信息处理方法
CN109446251A (zh) * 2018-09-04 2019-03-08 北京睿企信息科技有限公司 分布式人工智能应用开发的系统及方法
CN110598072A (zh) * 2019-09-24 2019-12-20 恩亿科(北京)数据科技有限公司 一种特征数据聚合方法及装置
CN110598072B (zh) * 2019-09-24 2022-03-01 恩亿科(北京)数据科技有限公司 一种特征数据聚合方法及装置
CN110910276A (zh) * 2019-11-04 2020-03-24 杭州众工电力科技有限公司 一种电力调度数据整合系统
CN113095540A (zh) * 2019-12-23 2021-07-09 财团法人工业技术研究院 数据整合方法及数据整合系统
CN111737272A (zh) * 2020-06-02 2020-10-02 脑谷人工智能研究院(南京)有限公司 一种可交互展示各类指标的大数据自动化管理平台
CN112069215A (zh) * 2020-09-17 2020-12-11 国电龙源电气有限公司 一种基于整合数据的数据查询方法及装置

Similar Documents

Publication Publication Date Title
CN106446217A (zh) 大数据高速整合系统
CN106228340A (zh) 施工图数字化审查系统
CN104993957A (zh) 一种为使用Log4j的分布式应用提供云端日志服务的方法
CN107577724A (zh) 一种大数据处理方法
CN107103063B (zh) 基于大数据的科技信息资源检索查询系统
CN113626447B (zh) 一种民航数据管理平台及方法
CN111404932A (zh) 一种医疗机构系统接入智慧医疗云服务平台的方法
CN107085579A (zh) 一种数据采集分发方法及装置
Sahni et al. Topic modeling on online news extraction
Zhong et al. An improved clustering algorithm of tunnel monitoring data for cloud computing
Kaur et al. Image processing on multinode hadoop cluster
CN108399257B (zh) 基于智能文稿分析的个性化新闻线索推荐方法
CN111813542A (zh) 一种并行处理大规模图分析任务的负载均衡方法及其装置
KR101865317B1 (ko) 데이터 분산처리 시스템을 위한 빅 데이터의 전처리 장치 및 방법
Liu et al. Data Acquisition, Hot Issues and System of Microblog Mining
CN115114495B (zh) 基于深度学习的适航数据治理辅助方法及其系统
CN106656965A (zh) 基于分布式云计算的通用客户端管理系统
CN115766289B (zh) 一种面向虚拟机集群的分布式网络安全方法
CN116932511A (zh) 一种集群装备跨区作业数据库构建方法、装置及存储介质
Srikantaiah et al. Identify important users in online social network
Jing et al. Construction and Implementation of Big Data Framework for Crop Germplasm Resources
Yi Key Technology Research for Unstructured Data Cloud Storage: New Exploring
Abbas Design of AI/ML based resource management solutions for beyond-5G networks
Zhang et al. Design and Implementation of Telecom Offline Data Integrated Processing Based on Hadoop Architecture
CN207150641U (zh) 一种蜂窝集群管理设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170222