CN105389378A - 一种分离式数据整合系统 - Google Patents

一种分离式数据整合系统 Download PDF

Info

Publication number
CN105389378A
CN105389378A CN201510802874.3A CN201510802874A CN105389378A CN 105389378 A CN105389378 A CN 105389378A CN 201510802874 A CN201510802874 A CN 201510802874A CN 105389378 A CN105389378 A CN 105389378A
Authority
CN
China
Prior art keywords
data
external
information
platform
transfer platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510802874.3A
Other languages
English (en)
Inventor
吴德佳
吴德伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Jingbiao Information Technology Co Ltd
Original Assignee
Guangzhou Jingbiao Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Jingbiao Information Technology Co Ltd filed Critical Guangzhou Jingbiao Information Technology Co Ltd
Priority to CN201510802874.3A priority Critical patent/CN105389378A/zh
Publication of CN105389378A publication Critical patent/CN105389378A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分离式数据整合系统,包括外部系统、数据传输平台、Quartz自动作业平台、适配器和外部数据库,外部系统将请求信号传递给数据传输平台,数据传输平台再将请求传递给Quartz自动作业平台,Quartz自动作业平台经适配器连接到外部数据库;用户通过外部系统,将数据请求传递到外部数据库,外部数据库将数据信息传递到数据传输平台,外部系统通过数据传输平台获得信息。本发明使用分布式、负载均衡架构实现数据整合工具,使数据整合软件能够长期、稳定运行,接近零维护成本,避免信息孤岛的出现。

Description

一种分离式数据整合系统
技术领域
本发明涉及数据处理应用设备技术领域,具体是一种分离式数据整合系统。
背景技术
信息孤岛是指相互之间在功能上不关联互助、信息不共享互换以及信息与业务流程和应用相互脱节的计算机应用系统。应当看到,在整个信息技术产业飞速发展过程中,企业的IT应用也伴随着技术的发展而前进。但与企业的其它变革明显不同的是,IT应用的变化速度更快,也就是说,企业进行的每一次局部的IT应用都可能与以前的应用不配套,也可能与以后的“更高级”的应用不兼容。因此,从产业发展的角度来看,信息孤岛的产生有着一定的必然性。
就大型企业和政府部门的信息化而言,信息系统建设通常具有阶段性和分布性的特点,这就导致“信息孤岛”现象的存在。“信息孤岛”是指不同数据库间,尤其是不同部门间的数据信息不能共享,造成系统中存在大量冗余数据、垃圾数据,无法保证数据的一致性,严重地阻碍了企业和政府部门信息化建设的整体进程。现有技术在对信息孤岛进行处理时存在成本高、效率低、耗时间等类似问题。
发明内容
本发明的目的在于提供一种分离式数据整合系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种分离式数据整合系统,包括外部系统、数据传输平台、Quartz自动作业平台、适配器和外部数据库,外部系统将请求信号传递给数据传输平台,数据传输平台再将请求传递给Quartz自动作业平台,Quartz自动作业平台经适配器连接到外部数据库;用户通过外部系统,将数据请求传递到外部数据库,外部数据库将数据信息传递到数据传输平台,外部系统通过数据传输平台获得信息。
作为本发明进一步的方案:所述外部系统与用户界面连接,外部系统输入的信息经抽取后进入数据传输平台。
作为本发明进一步的方案:所述适配器通过服务接口和配置数据接口将信息传送到数据传输平台。
作为本发明进一步的方案:外部数据库与数据平台并行连接,数据传输平台将要查询的信息传递给外部数据库,经过数据传输平台上的执行操作机构进行查询并将查询到的数据信息传输到数据传输平台,通过数据传输平台传递信息。
作为本发明进一步的方案:所述外部数据库包括数据采集、数据开放、数据处理、数据挖掘和数据管理。
作为本发明再进一步的方案:所述数据采集包括数据资源登记、数据资源管理、结构理解、数据同步和数据资源入库;数据开放包括数据资源目录、数据资源发现和数据资源获取;所述数据处理包括分布式计算框架、要素提取、查询执行、数据转换和内容分析;所述数据挖掘包括文档自动分类、文档自动聚类、文档主体评估、议案建议关联分析和文档近似分析;所述数据管理包括数据备份、数据恢复、数据错误检测、数据错误恢复和执行日志。
与现有技术相比,本发明使用分布式、负载均衡架构实现数据整合工具,使数据整合软件能够长期、稳定运行,接近零维护成本,避免信息孤岛的出现。
附图说明
图1为分离式数据整合系统的结构示意图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
请参阅图1,一种分离式数据整合系统,包括外部系统、数据传输平台、Quartz自动作业平台、适配器和外部数据库,外部系统将请求信号传递给数据传输平台,数据传输平台再将请求传递给Quartz自动作业平台,Quartz自动作业平台经适配器连接到外部数据库;用户通过外部系统,将数据请求传递到外部数据库,外部数据库将数据信息传递到数据传输平台,外部系统通过数据传输平台获得信息。
作为本发明进一步的优选:所述外部系统与用户界面连接,外部系统输入的信息经抽取后进入数据传输平台。
作为本发明进一步的优选:所述适配器通过服务接口和配置数据接口将信息传送到数据传输平台。
作为本发明进一步的优选:外部数据库与数据平台并行连接,数据传输平台将要查询的信息传递给外部数据库,经过数据传输平台上的执行操作机构进行查询并将查询到的数据信息传输到数据传输平台,通过数据传输平台传递信息。
作为本发明进一步的优选:所述外部数据库包括数据采集、数据开放、数据处理、数据挖掘和数据管理。
作为本发明再进一步的优选:所述数据采集包括数据资源登记、数据资源管理、结构理解、数据同步和数据资源入库;数据开放包括数据资源目录、数据资源发现和数据资源获取;所述数据处理包括分布式计算框架、要素提取、查询执行、数据转换和内容分析;所述数据挖掘包括文档自动分类、文档自动聚类、文档主体评估、议案建议关联分析和文档近似分析;所述数据管理包括数据备份、数据恢复、数据错误检测、数据错误恢复和执行日志。
数据采集模块负责采集外部数据源的数据,对采集来的数据进行清洗、结构提取与转换等预处理,然后将数据以及对应的元数据存入大数据存储层,具体功能如下:外部数据采集系统或者数据源头提交数据后,数据资源登记模块将该数据资源的元数据信息保存到相应的数据资源元数据库;对数据资源登记模块中以保存的记录进行查看、修改、和删除等大数据资源元数据维护操作;对提交的数据进行结构理解,即对用户提交数据中的文本及其他相关资料进行信息提取,如果提交的数据是文档,则对文档中的文本进行解析以及信息提取,将非结构化或半结构化的文本转换为结构化数据进行存储;与其他已建系统的对接接口,对接相应的系统后,将相应系统的数据提取出来,然后通过数据资源登记接口提交数据到本系统;将用户提交的数据资源持久化到相应的结构化存储、半结构化存储或者非结构化存储中。
数据开放数据开放模块提供外部应用访问数据的接口,包括:列出当前资源库中存在的所有数据资源类别、根据指定条件,在数据资源库中查找匹配的数据记录、根据指定条件,在数据资源库中获取特定的数据资源。
数据处理包括:利用Hadoop或Spark等分布式计算框架对海量数据进行处理分析,例如使用分布式机器学习算法对海量文本数据进行大规模分析挖掘;在数据采集模块中的结构理解功能产生的数据的基础上,对该数据进行要素提取,例如,对于文本数据,则对文本内容进行语法和语义分析,提取文本的关键字和相关实体,如时间、组织名、地名等;对大数据采集模块中的数据进行智能分析,实现对文档数据的解析,并产生具备语义表征能力的数据和分析结果;对大数据采集模块中的数据进行智能分析,实现大数据采集模块中的结构转换,生成具有代表性的信息;根据指定的条件,在数据资源库的指定范围内对数据进行检索和查询,并返回对应结果。
数据挖掘包括:根据预定义的类别信息,对大量的样本文档运行大规模分类器学习算法进行分类器学习,然后利用学习到的分类器对海量文档进行自动分类;对所有文档进行大规模聚类分析,发现海量文档潜在的分布特性,并根据实际需求将文档集合划分为若干个可以理解的类别;将指定的原始文档与文档数据资源库进行快速比对,利用文本近似分析模型检索出与当前原始文档近似的文档,该技术可进一步应用于文档查重;通过对大量文档进行语义分析提取潜藏在文档集里的实体和实体间的关系,从而发现文档之间共同提及的事件、人物、机构和地点等关键信息,并根据不同的关系进行对应的关联和分析操作;基于语义对文档集合进行主题评估,计算每个文档在每个指定主题上的分布情况,从而检测重要程度,进而发现不同文档之间的潜在主题。
数据管理包括:定期对现有数据资源进行统一编号、命名、备份和归档,并提供数据导出接口,确保现有数据的完整性和安全性,避免未知意外;对已备份数据进行完整性和正确定校验,在确定备份文件的真实性后,根据指定的要求对历史数据进行按时间节点或事件节点恢复;系统对所有数据操作(包括人为操作和机器操作)进行自动记录,形成日志文件,为数据资源库进行维护的时提供有价值的信息,在异常操作检测方面尤其重要;在数据传输和计算机处理过程中提供错误检测功能,例如可以为数据生成校验码,在数据传输或处理后通过校验码检测数据的正确性;当大数据错误检测模块检测出错误后,为出错的数据提供错误恢复机制,例如数据传输过程中由非人为因素(信道噪声等)造成数据出错,在检测出错误后能对出错的数据进行恢复。
本发明使用分布式、负载均衡架构实现数据整合工具,使数据整合软件能够长期、稳定运行,接近零维护成本,避免信息孤岛的出现。
上面对本专利的较佳实施方式作了详细说明,但是本专利并不限于上述实施方式,在本领域的普通技术人员所具备的知识范围内,还可以在不脱离本专利宗旨的前提下做出各种变化。

Claims (6)

1.一种分离式数据整合系统,其特征在于,包括外部系统、数据传输平台、Quartz自动作业平台、适配器和外部数据库,外部系统将请求信号传递给数据传输平台,数据传输平台再将请求传递给Quartz自动作业平台,Quartz自动作业平台经适配器连接到外部数据库;用户通过外部系统,将数据请求传递到外部数据库,外部数据库将数据信息传递到数据传输平台,外部系统通过数据传输平台获得信息。
2.根据权利要求1所述的分离式数据整合系统,其特征在于,所述外部系统与用户界面连接,外部系统输入的信息经抽取后进入数据传输平台。
3.根据权利要求1所述的分离式数据整合系统,其特征在于,所述适配器通过服务接口和配置数据接口将信息传送到数据传输平台。
4.根据权利要求1所述的分离式数据整合系统,其特征在于,外部数据库与数据平台并行连接,数据传输平台将要查询的信息传递给外部数据库,经过数据传输平台上的执行操作机构进行查询并将查询到的数据信息传输到数据传输平台,通过数据传输平台传递信息。
5.根据权利要求1所述的分离式数据整合系统,其特征在于,所述外部数据库包括数据采集、数据开放、数据处理、数据挖掘和数据管理。
6.根据权利要求5所述的分离式数据整合系统,其特征在于,所述数据采集包括数据资源登记、数据资源管理、结构理解、数据同步和数据资源入库;数据开放包括数据资源目录、数据资源发现和数据资源获取;所述数据处理包括分布式计算框架、要素提取、查询执行、数据转换和内容分析;所述数据挖掘包括文档自动分类、文档自动聚类、文档主体评估、议案建议关联分析和文档近似分析;所述数据管理包括数据备份、数据恢复、数据错误检测、数据错误恢复和执行日志。
CN201510802874.3A 2015-11-19 2015-11-19 一种分离式数据整合系统 Pending CN105389378A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510802874.3A CN105389378A (zh) 2015-11-19 2015-11-19 一种分离式数据整合系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510802874.3A CN105389378A (zh) 2015-11-19 2015-11-19 一种分离式数据整合系统

Publications (1)

Publication Number Publication Date
CN105389378A true CN105389378A (zh) 2016-03-09

Family

ID=55421668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510802874.3A Pending CN105389378A (zh) 2015-11-19 2015-11-19 一种分离式数据整合系统

Country Status (1)

Country Link
CN (1) CN105389378A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330080A (zh) * 2017-07-03 2017-11-07 北京希嘉创智教育科技有限公司 一种数据处理方法、装置及应用其的计算机设备
CN107908642A (zh) * 2017-09-29 2018-04-13 江苏华通晟云科技有限公司 基于分布式平台的行业文本实体提取方法
US11256709B2 (en) 2019-08-15 2022-02-22 Clinicomp International, Inc. Method and system for adapting programs for interoperability and adapters therefor

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101165683A (zh) * 2006-10-19 2008-04-23 维豪信息技术有限公司 异构异源异平台数据的整合方法及交换方法
CN101201842A (zh) * 2007-10-30 2008-06-18 北京航空航天大学 数字博物馆网格及其构造方法
CN102043836A (zh) * 2010-12-01 2011-05-04 北京迅捷英翔网络科技有限公司 数据适配装置和方法
CN102882969A (zh) * 2012-09-25 2013-01-16 浙江图讯科技有限公司 一种工矿企业的安全生产云服务平台
CN103440129A (zh) * 2013-08-26 2013-12-11 苏州市吴江区人民政府国有资产监督管理办公室 一种多信息管理系统的万向接口平台

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101165683A (zh) * 2006-10-19 2008-04-23 维豪信息技术有限公司 异构异源异平台数据的整合方法及交换方法
CN101201842A (zh) * 2007-10-30 2008-06-18 北京航空航天大学 数字博物馆网格及其构造方法
CN102043836A (zh) * 2010-12-01 2011-05-04 北京迅捷英翔网络科技有限公司 数据适配装置和方法
CN102882969A (zh) * 2012-09-25 2013-01-16 浙江图讯科技有限公司 一种工矿企业的安全生产云服务平台
CN103440129A (zh) * 2013-08-26 2013-12-11 苏州市吴江区人民政府国有资产监督管理办公室 一种多信息管理系统的万向接口平台

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330080A (zh) * 2017-07-03 2017-11-07 北京希嘉创智教育科技有限公司 一种数据处理方法、装置及应用其的计算机设备
CN107330080B (zh) * 2017-07-03 2020-05-22 北京希嘉创智教育科技有限公司 一种数据处理方法、装置及应用其的计算机设备
CN107908642A (zh) * 2017-09-29 2018-04-13 江苏华通晟云科技有限公司 基于分布式平台的行业文本实体提取方法
US11256709B2 (en) 2019-08-15 2022-02-22 Clinicomp International, Inc. Method and system for adapting programs for interoperability and adapters therefor
US11714822B2 (en) 2019-08-15 2023-08-01 Clinicomp International, Inc. Method and system for adapting programs for interoperability and adapters therefor

Similar Documents

Publication Publication Date Title
US11182366B2 (en) Comparing data stores using hash sums on disparate parallel systems
CN111708773B (zh) 一种多源科创资源数据融合方法
US20210319179A1 (en) Method, machine learning engines and file management platform systems for content and context aware data classification and security anomaly detection
CN109902297B (zh) 一种威胁情报生成方法及装置
CN104657402B (zh) 用于语言标签管理的方法和系统
US20130097134A1 (en) System and method for subject identification from free format data sources
WO2019196226A1 (zh) 制度信息查询方法、装置、计算机设备和存储介质
CN106164865A (zh) 用于数据复制的依赖性感知的事务批处理
CN102054022A (zh) 用于处理并管理与对象相关的数据以供多个应用程序使用的系统及方法
US9053112B2 (en) Automated data validation
US10706030B2 (en) Utilizing artificial intelligence to integrate data from multiple diverse sources into a data structure
CN105389378A (zh) 一种分离式数据整合系统
US20180225314A1 (en) Managing a single database management system
KR101019627B1 (ko) 패턴 기반 참고문헌 자동 구축 시스템 및 방법과 이를 위한기록매체
US9507814B2 (en) Bit level comparator systems and methods
CN111984797A (zh) 客户身份识别装置及方法
CN110399485B (zh) 基于词向量和机器学习的数据溯源方法和系统
US20190278568A1 (en) Recording medium recording generation program, information processing apparatus, and generation method
CN114443783B (zh) 一种供应链数据分析和增强处理方法及装置
CN107491530B (zh) 一种基于文件自动标记信息的社会关系挖掘分析方法
US11586662B2 (en) Extracting and surfacing topic descriptions from regionally separated data stores
CN113656466B (zh) 保单数据查询方法、装置、设备及存储介质
Eberle et al. Record linkage of the linked employer-employee survey of the socio-economic panel study (SOEP-LEE) and the establishment history panel (BHP)
KR101415528B1 (ko) 분산된 시스템을 위한 데이터 오류 처리 장치 및 방법
US20150066947A1 (en) Indexing apparatus and method for search of security monitoring data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160309

RJ01 Rejection of invention patent application after publication