CN107239499A - 基于多维异构数据源集成与整合模型的分析方法及系统 - Google Patents
基于多维异构数据源集成与整合模型的分析方法及系统 Download PDFInfo
- Publication number
- CN107239499A CN107239499A CN201710304036.2A CN201710304036A CN107239499A CN 107239499 A CN107239499 A CN 107239499A CN 201710304036 A CN201710304036 A CN 201710304036A CN 107239499 A CN107239499 A CN 107239499A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- unified
- data sources
- expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 27
- 230000010354 integration Effects 0.000 title claims abstract description 24
- 238000006243 chemical reaction Methods 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims description 7
- 238000013075 data extraction Methods 0.000 claims description 6
- 230000009897 systematic effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000007418 data mining Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多维异构数据源集成与整合模型的分析方法及系统,基于多维异构数据源集成与整合模型的分析方法,其特征在于,包括以下步骤:数据源采集、使用统一的知识表达;协议转换;动态加载算法和数据备份存储;基于多维异构数据源集成与整合模型的分析系统,它包括:数据采集模块、表达方法统一模块、协议转换模块、算法加载模块和数据存储模块。本发明实现对各种异构的数据源进行综合、集成,可以动态调用恰当的数据挖掘算法,提高分析的效率。
Description
技术领域
本发明涉及数据源集成与整合领域,尤其是一种基于多维异构数据源集成与整合模型的分析方法及系统。
背景技术
在信息化时代和全球经济竞争的新环境下,企业领导要做出一项决策,往往需要查询多个基于各种异构数据源的业务系统和外部系统,要在进行大量数据分析后才能做出此决策。这种方法工作量大,且容易出现人为差错,因而在一定程度上影响了决策的质量。同时,随着企业的发展和信息化建设的推进,企业信息系统中的异构数据源已经不再能够满足用户的要求,并且还会出现很多的问题,己经成为制约企业信息化进程的障碍。这种信息系统中异构数据源主要存在以下几个方面的问题:(1)对于大量的数据不能提供一个统一的数据接口,不能采用一种通用的标准和规范(如目前的企业大都使用不同的指标代码体系和编码体系等),同时也不能共享通用的数据源。(2)随着业务的增加,对于管理人员来讲,操作越来越复杂,这就带来了用户分散、相互联系程度低、信息相对封闭以及共享程度低等一系列的问题。(3)大量的办公业务日趋复杂,但是依然或多或少地要靠手工处理进行流转。(4)信息加工和处理的手段差,从而严重地影响了信息的质量,导致用户无法直接从各级各类业务信息系统当中采集数据并加以综合利用。同时,系统也无法对外部信息进行及时、准确地采集和利用。业务系统产生的大量数据也无法提炼升华为信息,并及时提供给决策部门。(5)已有的业务信息系统平台及开发工具互不兼容,无法在大范围内应用。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于多维异构数据源集成与整合模型的分析方法及系统,实现对各种异构的数据源进行综合、集成,可以动态调用恰当的数据挖掘算法,提高分析的效率。
本发明的目的是通过以下技术方案来实现的: 基于多维异构数据源集成与整合模型的分析方法,包括以下步骤:
使用统一的知识表达:将数据的表达进行统一;
协议转换:对数据协议类型进行识别、转换和汇聚;
动态加载算法:从数据源提取规则数据。
优选的,所述的使用统一的知识表达,是将数据的基本存储形式,包括数据格式、知识模型和语义元数据的表达进行统一。
优选的,所述的使用统一的知识表达是基于XML数据表达。
优选的,所述的XML数据表达可以跨Internet和Intranet集成多个异构数据源。
优选的,所述的协议转换对自身系统采集的数据进行实时转换,并识别数据的协议类型,然后保存到数据库。
优选的,所述的协议转换对非自身系统收集到的数据,以实时或非实时的方式实现数据的转换和汇聚。
优选的,所述的动态加载算法根据规则的数据提取时间定期从数据源获取数据,将数据存入案件数据库中。
基于多维异构数据源集成与整合模型的分析系统,它包括:数据采集模块、表达方法统一模块、协议转换模块、算法加载模块和数据存储模块;数据采集模块与表达方法统一模块相连,表达方法统一模块与协议转换模块相连,协议转换模块与算法加载模块相连,算法加载模块与数据存储模块相连。
所述的数据采集模块对数据进行采集;
表达方法统一模块将数据的基本存储形式,包括数据格式、知识模型和语义元数据的表达进行统一;
协议转换模块对自身系统采集的数据进行实时转换,并识别数据的协议类型,对非自身系统收集到的数据,以实时或非实时的方式实现数据的转换和汇聚;
算法加载模块根据规则的数据提取时间定期从数据源获取。
优选的,所述的数据存储模块将协议转换模块识别数据的协议类型进行存储;将算法加载模块提取的规则数据进行存储。
本发明的有益效果是:本发明实现对各种异构的数据源进行综合、集成,可以动态调用恰当的数据挖掘算法,提高分析的效率。
附图说明
图1为基于多维异构数据源集成与整合模型的分析方法流程图;
图2为基于多维异构数据源集成与整合模型的分析系统框架图;
图3为基于多维异构数据源集成与整合模型的分析系统结构图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,基于多维异构数据源集成与整合模型的分析方法,包括以下步骤:
数据源采集:通过系统自身收集设备如信息收集器,对数据源进行采集或者由其他监控设备,如入侵检测、防火墙、内容审计等收集到的数据。
使用统一的知识表达:互联网的数据的形式包括结构化的数据、半结构化的数据和非结构化的数据。结构化的只占到10%,其余90%都是半结构化和非结构化的数据。如果要进行集中的关联分析,首先就要解决日志格式的规范化表示问题。
目前,基于XML的数据表示技术开始引起人们的注意,现已成为一个非常重要的发展方向。利用XML技术可以很方便地进行底层异构数据源的集成。
使用XML,在一个协同的平台上,可以跨Internet和Intranet集成多个异构数据源。以XML作为数据的基本存储形式,包括数据格式、知识模型和语义元数据的表达。
协议转换:对系统自身收集设备采集的数据进行实时转换,并根据协议类别库,识别数据的协议类型,然后保存到数据库。对由其他监控设备如入侵检测、防火墙、内容审计等收集到的数据,以实时或非实时的方式实现数据的转换和汇聚。
动态加载算法:每一规则都可以动态地与多个特定分析对象相关联。动态加载算法根据规则的数据提取时间定期从数据源获取数据,将数据存入案件数据库中。而对于已经存在的数据则不做任何提取。
数据备份存储:将协议转换模块识别数据的协议类型进行存储;将算法加载模块提取的规则数据进行存储。
如图2、图3所示,基于多维异构数据源集成与整合模型的分析系统,包括:
数据采集模块、表达方法统一模块、协议转换模块、算法加载模块和数据存储模块;数据采集模块与表达方法统一模块相连,表达方法统一模块与协议转换模块相连,协议转换模块与算法加载模块相连,算法加载模块与数据存储模块相连。
所述的数据采集模块对数据进行采集;
表达方法统一模块将数据采集模块所采集数据的基本存储形式,包括数据格式、知识模型和语义元数据的表达进行统一;
协议转换模块对自身系统采集的数据进行实时转换,并识别数据的协议类型,对非自身系统收集到的数据,以实时或非实时的方式实现数据的转换和汇聚;
算法加载模块根据规则的数据提取时间定期从数据源获取,而对于已经存在的数据则不做任何提取。
优选的,所述的数据存储模块将协议转换模块识别数据的协议类型进行存储;将算法加载模块提取的规则数据进行存储。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (10)
1.基于多维异构数据源集成与整合模型的分析方法,其特征在于,包括以下步骤:
使用统一的知识表达:将数据的表达进行统一;
协议转换:对数据协议类型进行识别、转换和汇聚;
动态加载算法:从数据源提取规则数据。
2.根据权利要求1所述的基于多维异构数据源集成与整合模型的分析方法,其特征在于:所述的使用统一的知识表达,是将数据的基本存储形式,包括数据格式、知识模型和语义元数据的表达进行统一。
3.根据权利要求1-2任意一项所述的基于多维异构数据源集成与整合模型的分析方法,其特征在于:所述的使用统一的知识表达是基于XML数据表达。
4.根据权利要求3所述的基于多维异构数据源集成与整合模型的分析方法,其特征在于:所述的XML数据表达可以跨Internet和Intranet集成多个异构数据源。
5.根据权利要求1所述的基于多维异构数据源集成与整合模型的分析方法,其特征在于:所述的协议转换,是对自身系统采集的数据进行实时转换,并识别数据的协议类型,然后保存到数据库。
6.根据权利要求1所述的基于多维异构数据源集成与整合模型的分析方法,其特征在于:所述的协议转换对非自身系统收集到的数据,以实时或非实时的方式实现数据的转换和汇聚。
7.根据权利要求1所述的基于多维异构数据源集成与整合模型的分析方法,其特征在于:所述的动态加载算法根据规则的数据提取时间定期从数据源获取数据,将数据存入案件数据库中。
8.基于多维异构数据源集成与整合模型的分析系统,其特征在于,它包括:数据采集模块、表达方法统一模块、协议转换模块、算法加载模块和数据存储模块;数据采集模块与表达方法统一模块相连,表达方法统一模块与协议转换模块相连,协议转换模块与算法加载模块相连,算法加载模块与数据存储模块相连。
9.根据权利要求8所述的基于多维异构数据源集成与整合模型的分析系统,其特征在于:所述的数据采集模块对数据进行采集;
表达方法统一模块将数据的基本存储形式,包括数据格式、知识模型和语义元数据的表达进行统一;
协议转换模块对自身系统采集的数据进行实时转换,并识别数据的协议类型,对非自身系统收集到的数据,以实时或非实时的方式实现数据的转换和汇聚;
算法加载模块根据规则的数据提取时间定期从数据源获取。
10.根据权利要求8所述的基于多维异构数据源集成与整合模型的分析系统,其特征在于:所述的数据存储模块将协议转换模块识别数据的协议类型进行存储;将算法加载模块提取的规则数据进行存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710304036.2A CN107239499A (zh) | 2017-05-03 | 2017-05-03 | 基于多维异构数据源集成与整合模型的分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710304036.2A CN107239499A (zh) | 2017-05-03 | 2017-05-03 | 基于多维异构数据源集成与整合模型的分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107239499A true CN107239499A (zh) | 2017-10-10 |
Family
ID=59984142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710304036.2A Pending CN107239499A (zh) | 2017-05-03 | 2017-05-03 | 基于多维异构数据源集成与整合模型的分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107239499A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197238A (zh) * | 2017-12-29 | 2018-06-22 | 金陵科技学院 | 一种复杂多源异构数据同化方法 |
CN109587125A (zh) * | 2018-11-23 | 2019-04-05 | 南方电网科学研究院有限责任公司 | 一种网络安全大数据分析方法、系统及相关装置 |
CN109670015A (zh) * | 2018-12-12 | 2019-04-23 | 中科恒运股份有限公司 | 数据分析方法、计算机可读存储介质及终端设备 |
CN109782722A (zh) * | 2019-01-31 | 2019-05-21 | 吕梁市军民融合协同创新研究院 | 一种面向工业场景规模化生产线多维数据快速处理系统 |
CN110673817A (zh) * | 2019-10-09 | 2020-01-10 | 四川博文讯通科技有限公司 | 一种可视化综合展陈平台 |
CN111010390A (zh) * | 2019-12-12 | 2020-04-14 | 重庆工商大学 | 一种基于多协议异构物联网的自适应呼叫方法与系统 |
CN112307012A (zh) * | 2019-07-30 | 2021-02-02 | 中科云谷科技有限公司 | 海量工业数据存储和读取方法 |
CN112364000A (zh) * | 2020-10-29 | 2021-02-12 | 广西电网有限责任公司南宁供电局 | 一种电力行业多源异构数据融合的系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010126731A2 (en) * | 2009-04-30 | 2010-11-04 | Research Foundation Of City University Of New York | Patient monitoring and alarm system |
CN102231869A (zh) * | 2011-06-27 | 2011-11-02 | 北京邮电大学 | 一种增值服务精细化运营系统架构的实现方法 |
CN102479182A (zh) * | 2010-11-23 | 2012-05-30 | 大连兆阳软件科技有限公司 | 一种异构、异种数据库间的数据交换方法及其装置 |
CN102567330A (zh) * | 2010-12-15 | 2012-07-11 | 上海杉达学院 | 异构数据库集成系统 |
CN104008135A (zh) * | 2014-05-07 | 2014-08-27 | 南京邮电大学 | 一种多源异构数据库融合系统及其数据查询方法 |
US20140310425A1 (en) * | 2006-03-15 | 2014-10-16 | Apple Inc. | Methods and apparatus for harmonization of interface profiles |
-
2017
- 2017-05-03 CN CN201710304036.2A patent/CN107239499A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140310425A1 (en) * | 2006-03-15 | 2014-10-16 | Apple Inc. | Methods and apparatus for harmonization of interface profiles |
WO2010126731A2 (en) * | 2009-04-30 | 2010-11-04 | Research Foundation Of City University Of New York | Patient monitoring and alarm system |
CN102479182A (zh) * | 2010-11-23 | 2012-05-30 | 大连兆阳软件科技有限公司 | 一种异构、异种数据库间的数据交换方法及其装置 |
CN102567330A (zh) * | 2010-12-15 | 2012-07-11 | 上海杉达学院 | 异构数据库集成系统 |
CN102231869A (zh) * | 2011-06-27 | 2011-11-02 | 北京邮电大学 | 一种增值服务精细化运营系统架构的实现方法 |
CN104008135A (zh) * | 2014-05-07 | 2014-08-27 | 南京邮电大学 | 一种多源异构数据库融合系统及其数据查询方法 |
Non-Patent Citations (1)
Title |
---|
庞引明: "《基于XML的知识管理系统》", 《HTTP://WWW.360DOC.COM/CONTENT/06/1228/22/2311_311212.SHTML》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197238A (zh) * | 2017-12-29 | 2018-06-22 | 金陵科技学院 | 一种复杂多源异构数据同化方法 |
CN109587125A (zh) * | 2018-11-23 | 2019-04-05 | 南方电网科学研究院有限责任公司 | 一种网络安全大数据分析方法、系统及相关装置 |
CN109670015A (zh) * | 2018-12-12 | 2019-04-23 | 中科恒运股份有限公司 | 数据分析方法、计算机可读存储介质及终端设备 |
CN109782722A (zh) * | 2019-01-31 | 2019-05-21 | 吕梁市军民融合协同创新研究院 | 一种面向工业场景规模化生产线多维数据快速处理系统 |
CN112307012A (zh) * | 2019-07-30 | 2021-02-02 | 中科云谷科技有限公司 | 海量工业数据存储和读取方法 |
CN110673817A (zh) * | 2019-10-09 | 2020-01-10 | 四川博文讯通科技有限公司 | 一种可视化综合展陈平台 |
CN111010390A (zh) * | 2019-12-12 | 2020-04-14 | 重庆工商大学 | 一种基于多协议异构物联网的自适应呼叫方法与系统 |
CN112364000A (zh) * | 2020-10-29 | 2021-02-12 | 广西电网有限责任公司南宁供电局 | 一种电力行业多源异构数据融合的系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107239499A (zh) | 基于多维异构数据源集成与整合模型的分析方法及系统 | |
CA3055823C (en) | Selectively generating word vector and paragraph vector representations of fields for machine learning | |
US10922358B2 (en) | System and method for analysis of structured and unstructured data | |
Globerson et al. | Collective entity resolution with multi-focal attention | |
Yang et al. | A system architecture for manufacturing process analysis based on big data and process mining techniques | |
CN110275898A (zh) | 使用基于知识图的解释性设备管理的集成监控与通信系统 | |
WO2006076398B1 (en) | Predictive analytic method and apparatus | |
Shi et al. | An accident prediction approach based on XGBoost | |
CN103246963B (zh) | 基于物联网的员工培训系统 | |
lvaro Cuesta et al. | A Framework for massive Twitter data extraction and analysis | |
CN103871402A (zh) | 语言模型训练系统、语音识别系统及相应方法 | |
CN106407071A (zh) | 一种基于linux的内容服务后台日志自动分析工具 | |
Collier | Towards cross-lingual alerting for bursty epidemic events | |
CN109344394A (zh) | 一种文本类数据质量监控方法与系统 | |
Ahmed et al. | Sentiment analysis for smart cities: state of the art and opportunities | |
Korala et al. | Managing time-sensitive iot applications via dynamic application task distribution and adaptation | |
CN104298671B (zh) | 数据统计分析方法及装置 | |
Lachhab et al. | Performance evaluation of linked stream data processing engines for situational awareness applications | |
Kaur et al. | Big Data Analytics on IOT: Challenges, Open Research Issues and Tools | |
Besbeas et al. | Methods for joint inference from panel survey and demographic data | |
Liu et al. | Research on environmental monitoring system based on microservices and data mining | |
Zhao et al. | Collecting, managing and analyzing social networking data effectively | |
Ediger et al. | Real-time streaming intelligence: Integrating graph and nlp analytics | |
Shi et al. | Knowledge push system based on business process and knowledge need | |
Zhang et al. | Application of big data technology in marketing decisions for railway freight |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171010 |