CN104111998A - 一种企业异构数据分类编码集成交换与管理的方法及装置 - Google Patents
一种企业异构数据分类编码集成交换与管理的方法及装置 Download PDFInfo
- Publication number
- CN104111998A CN104111998A CN201410325216.5A CN201410325216A CN104111998A CN 104111998 A CN104111998 A CN 104111998A CN 201410325216 A CN201410325216 A CN 201410325216A CN 104111998 A CN104111998 A CN 104111998A
- Authority
- CN
- China
- Prior art keywords
- data
- isomeric data
- module
- isomeric
- enterprise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种企业异构数据分类编码集成交换与管理的方法及装置,通过统一异构数据标准格式的表现形式以及编写异构数据采集中间件,采集企业的远程和本地异构数据;将采集的异构数据按照不同模式、不同主题属性子进行聚类,通过聚类形成可供分类的主题属性子以及模式,根据分类约束对聚类形成的可供分类的主题属性子以及模式进行模式重组,选择一种带约束的模式对聚类形成的主题数据进行分类,导出智能化异构数据的分类规则;在企业原有信息系统上,采用接口转换的方式将原有编码转换成新编码,逐步过渡到新的编码体系;构建基于统一服务接口的异构数据共享和交换机制。本发明解决了数据不一致、数据语义冲突、数据大量冗余等问题。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种企业异构数据分类编码集成交换与管理的方法及装置。
背景技术
随着计算机技术和网络技术的迅猛发展,大部分企业在信息化进程中,在不同时期,由不同的公司针对企业各部门不同的业务需求建设有大量的各种各样的应用信息系统,同时积累了大量数据资源。这些资源被视作与人力资源、物资资源和资金资源同等重要的战略资源,然而这些资源没能得到很好地利用和开发,企业之间甚至企业内部的数据资源无法共享、交换。
其主要原因是由于企业内部各部门的职能和业务多种多样,信息化水平参差不齐,开始的信息化建设常常只考虑本身的业务需求而进行系统开发,导致了这些数据资源具有明显的分布性、自治性和异构性等特点,并以不同形式存储的、依赖于不同数据库管理系统。因此,如何解决企业内部及企业之间的信息共享、交换及对分布、异构的数据进行统一集中管理成为企业提升自身综合竞争力的一个急需解决的问题。
异构数据集成技术通过解决企业多平台、多应用、多结构、多语义数据的集成,不仅可以把企业内部的各种相关数据资源进行整合,而且可以收集企业外部相关信息,为企业的决策提供支持。针对上述问题,国内外提出了各种各样的异构数据集成解决方案,概括起来主要有多数据库系统集成方法、联邦数据库集成方法、中间件集成方法、数据仓库集成方法、基于XML技术集成方法、基于网格的异构集成方法这六种集成方法。然而这些解决方案中均没有从根源上(统一企业异构数据分类编码)来考虑,从而严重制约企业异构数据集成与交换效果,企业数据不一致、数据语义冲突、数据大量冗余、无法集中管理和实时共享等现象依然存在。导致这一现象的主要原因是在现有异构数据集成方法中,没有一种方式是从出现异构数据根源着手(即企业异构数据缺乏统一分类编码),现有方法基本上是围绕如何实现异构数据的访问这一问题展开研究,因此集成企业很难做到集中管理所有异构数据资源,真正做到一个入口。另一方面,随着企业信息化进程的不断加快,企业对信息的需求也呈现越来越具有高效性、灵活性、广泛性、综合性和通用性等特点。
因此,一种从根源上彻底解决企业数据不一致、数据语义冲突、数据大量冗余、无法集中管理和实时共享等问题的自动化程度高、投资成本低的企业异构数据共享和交换技术亟待开发。
发明内容
本发明的目的在于提供一种企业异构数据分类编码集成交换与管理的方法及装置,旨在解决企业数据不一致、数据语义冲突、数据大量冗余、无法集中管理和实时共享等问题。
本发明是这样实现的,一种企业异构数据分类编码集成交换与管理的方法,包括以下步骤:
统一异构数据标准格式的表现形式以及编写异构数据采集中间件,采集企业的远程和本地异构数据;
将采集的异构数据按照不同模式、不同主题属性子进行聚类,通过聚类形成可供分类的主题属性子以及模式,根据分类约束对聚类形成的可供分类的主题属性子以及模式进行模式重组,选择一种带约束的模式对聚类形成的主题数据进行分类,导出智能化异构数据的分类规则;
在企业原有信息系统上,采用接口转换的方式将原有编码转换成新编码,逐步过渡到新的编码体系;
构建基于统一服务接口的异构数据共享和交换机制。
优选地,所述统一异构数据标准格式的表现形式以及编写异构数据采集中间件,采集企业的远程和本地异构数据包括以下步骤:
建立主题树模型,通过主题树模型采集结构化、半结构化以及非结构化的异构数据,并将采集的异构数据的结构模式上的异构性进行消除和屏蔽,统一异构数据集成的格式;
基于主题树模型将异构数据映射到最终的统一标准格式XML scheme上;
建立异构数据采集中间件模型,通过异构数据采集中间件模型,采集企业异构数据,其具体做法为:按结构化、半结构化以及非结构化三种类型异构数据分别建立结构化、半结构化以及非结构化异构数据采集中间件,从本地和远程异构数据进行采集:对于结构化异构数据,采用JDBC数据连接到各种不同环境、不同类型的数据库中,通过数据库操作,提取相关数据,再通过主题树模型进行表示;对于半结构化异构数据,若是存放在数据库中的则按照结构化数据采集方式,若是XML文档,转换成XML DOM,并在其中封装各种数据操作,然后再通过主题树模型进行表示;对于非结构化异构数据,通过封装对文件的各种属性操作,将非结构化数据结构化表示成主题树,再映射为XMLScheme文档。
优选地,所述在企业原有信息系统上,采用接口转换的方式将原有编码转换成新编码,逐步过渡到新的编码体系包括以下步骤:
通过扩展数据库字段,将统一编码引入到系统中,原有系统按照原来的方式继续运行,待条件成熟时,再行淘汰,启用新编码;
能批量转换成新编码的数据一次性批量转换,若新老编码差别太大的,暂时不转换,继续保留使用。
优选地,所述能批量转换成新编码的数据一次性批量转换,若新老编码差别太大的,暂时不转换,继续保留使用之后还包括步骤:
在不破坏原有系统编码的情况下,在原有系统的数据库表中添加一个字段用于存放新编码,供该系统与其它系统进行共享和交换使用。
优选地,所述构建基于统一服务接口的异构数据共享和交换机制包括以下步骤:
针对不同的异构环境,通过Web Service提供统一标准服务接口;
针对不同的应用需求,在相关SQL操作语言环境下,通过数据源驱动访问相关资源并获取数据。
本发明进一步提供了一种企业异构数据分类编码集成交换与管理的装置,包括:
异构数据采集处理模块,用于统一异构数据标准格式的表现形式以及编写异构数据采集中间件,采集企业的远程和本地异构数据;
异构数据分类模块,用于将采集的异构数据按照不同模式、不同主题属性子进行聚类,通过聚类形成可供分类的主题属性子以及模式,根据分类约束对聚类形成的可供分类的主题属性子以及模式进行模式重组,选择一种带约束的模式对聚类形成的主题数据进行分类,导出智能化异构数据的分类规则;
编码更换模块,用于在企业原有信息系统上,采用接口转换的方式将原有编码转换成新编码,逐步过渡到新的编码体系;
异构数据共享交换模块,用于构建基于统一服务接口的异构数据共享和交换机制;其中,
所述异构数据采集处理模块、异构数据分类模块、编码更换模块以及异构数据共享交换模块依次连接。
优选地,所述异构数据采集处理模块包括:
主题树模型建立模块,用于建立主题树模型,通过主题树模型采集结构化、半结构化以及非结构化的异构数据,并将采集的异构数据的结构模式上的异构性进行消除和屏蔽,统一异构数据集成的格式;
异构数据映射模块,用于基于主题树模型将异构数据映射到最终的统一标准格式XML scheme上;
以及采集中间件模型建立模块,用于企业异构数据的采集,具体做法为:按结构化、半结构化以及非结构化三种类型异构数据分别建立结构化、半结构化以及非结构化异构数据采集中间件,从本地和远程异构数据进行采集:对于结构化异构数据,采用JDBC数据连接到各种不同环境、不同类型的数据库中,通过数据库操作,提取相关数据,再通过主题树模型进行表示;对于半结构化异构数据,若是存放在数据库中的则按照结构化数据采集方式,若是XML文档,转换成XML DOM,并在其中封装各种数据操作,然后再通过主题树模型进行表示;对于非结构化异构数据,通过封装对文件的各种属性操作,将非结构化数据结构化表示成主题树,再映射为XML Scheme文档。
所述主题树模型建立模块、异构数据映射模块、采集中间件模型建立模块以及异构数据分类模块依次连接。
优选地,所述编码更换模块包括:
新编码更新模块,用于通过扩展数据库字段,将统一编码引入到系统中,原有系统按照原来的方式继续运行,待条件成熟时,再行淘汰,启用新编码;
旧编码保留模块,用于批量转换成新编码的数据一次性批量转换,若新老编码差别太大的,暂时不转换,继续保留使用;其中,
所述异构数据分类模块分别与新编码更新模块以及旧编码保留模块连接,所述新编码更新模块以及旧编码保留模块分别与异构数据共享交换模块连接。
优选地,所述编码更换模块还包括特别编码处理模块,用于在不破坏原有系统编码的情况下,在原有系统的数据库表中添加一个字段用于存放新编码,供该系统与其它系统进行共享和交换使用;其中,
所述异构数据分类模块、特别编码处理模块以及异构数据共享交换模块依次连接。
优选地,所述异构数据共享交换模块包括:
接口统一标准模块,用于针对不同的异构环境,通过Web Service提供统一标准服务接口;
以及数据交换共享模块,用于针对不同的应用需求,在相关SQL操作语言环境下,通过数据源驱动访问相关资源并获取数据;其中,
所述数据交换共享模块与接口统一标准模块连接,所述接口统一标准模块与新编码更新模块、旧编码保留模块以及特别编码处理模块分别连接。
本发明克服现有技术的不足,提供一种企业异构数据分类编码集成交换与管理的方法及装置,通过统一异构数据标准格式的表现形式以及编写异构数据采集中间件,采集企业的远程和本地异构数据;将采集的异构数据按照不同模式、不同主题属性子进行聚类,通过聚类形成可供分类的主题属性子以及模式,根据分类约束对聚类形成的可供分类的主题属性子以及模式进行模式重组,选择一种带约束的模式对聚类形成的主题数据进行分类,导出智能化异构数据的分类规则;在企业原有信息系统上,采用接口转换的方式将原有编码转换成新编码,逐步过渡到新的编码体系;构建基于统一服务接口的异构数据共享和交换机制。
本发明针对现有异构数据集成方法还存在数据不一致、数据语义冲突、数据大量冗余、无法集中管理和实时共享等问题,创新性的研究着重从语法和语义异构,兼顾系统异构和结构异构,真正意义上实现企业异构数据集成共享和交换。研究结果表明,语法和语义异构的出现,主要是不同数据源的设计者对于现实世界的事物的看待角度不会完全一样,为了达到企业级的统一,项目以统一企业异构数据语法和语义表示(企业异构数据分类编码)来解决企业异构数据集成与交换依然的企业数据不一致、数据语义冲突、数据大量冗余、无法集中管理和实时共享等问题。
本发明针对现有数据分类编码理论缺乏实施流程,通过研究,形成了企业异构数据分类编码工作流,明确了异构数据分类编码的每个步骤的工作方法和流程,经过实际应用,验证了工作流的有效性。
本发明针对异构语法、语义和数据结构上的差异导致集成难的问题,创新地对异构数据统一用“主题树”表示,实现了异构数据的自动采集。
本发明针对海量异构数据分类难的问题,基于机器学习、图像识别技术、“主题树”的表达模型和中间件技术,创新性地开发出了企业异构数据分类器,实现了企业异构数据的自动分类。
本发明针对数据编码难于动态唯一性控制问题,创新性将分类规则、编码规则和审核机制固化进编码器,开发出了企业异构数据编码器,实现了企业异构数据的智能化编码。
本发明集成XML、Web Service和SSH等多种技术,建立基于统一服务接口的异构数据共享和交换机制,实现了异构数据的共享和交换。
附图说明
图1是本发明企业异构数据分类编码集成交换与管理的方法一实施例的步骤流程图;
图2是本发明企业异构数据分类编码集成交换与管理的方法一实施例中结构化异构数据主题树的表示形式示意图;
图3是本发明企业异构数据分类编码集成交换与管理的方法一实施例中半结构化异构数据主题树的表示形式示意图;
图4是本发明企业异构数据分类编码集成交换与管理的方法一实施例中非结构化异构数据主题树的表示形式示意图;
图5是本发明企业异构数据分类编码集成交换与管理的方法一实施例中结构化异构数据采集中间件模型示意图;
图6是本发明企业异构数据分类编码集成交换与管理的方法一实施例中半结构化异构数据采集中间件模型示意图;
图7是本发明企业异构数据分类编码集成交换与管理的方法一实施例中非结构化异构数据采集中间件模型示意图;
图8是本发明企业异构数据分类编码集成交换与管理的方法一实施例中异构数据分类器模型示意图;
图9是本发明企业异构数据分类编码集成交换与管理的方法一实施例中异构数据编码器模型示意图;
图10是本发明企业异构数据分类编码集成交换与管理的方法一实施例中对照表处理新旧编码图;
图11是本发明企业异构数据分类编码集成交换与管理的方法一实施例中基于统一服务接口的异构数据交换共享和交换机制示意图;
图12是本发明企业异构数据分类编码集成交换与管理的装置的结构示意图;
图13是图12更具体的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一种企业异构数据分类编码集成交换与管理的方法,如图1所示,包括以下步骤:
S1、统一异构数据标准格式的表现形式以及编写异构数据采集中间件,采集企业的远程和本地异构数据。
在步骤S1中,更具体,包括以下步骤:
建立主题树模型,通过主题树模型采集结构化、半结构化以及非结构化的异构数据,并将采集的异构数据的结构模式上的异构性进行消除和屏蔽,统一异构数据集成的格式。
异构数据集成、分类编码其主要目的是实现异构数据共享、交换,提高企业精细化管理程度。异构数据集成是信息化环境下深层次的异构数据集成,即集成的数据不再只是结构化的、单一的数据,而是包含了半结构化、非结构化的多元数据及其属性、特征。本发明在现有集成技术、主题数据库建设等理论分析和总结的基础上,提出了“主题树”模型来统一异构数据集成的格式。
主题树模型的定义:主题树模型STM(Subject-Oriented Tree Model)的建立,主要目的是为了深层次的采集和集成,不仅需要将结构化和半结构化异构数据采集进来,而且还需要将非结构化的异构数据也采集到这个模型中来。采用主题树模型集成采集得到的异构数据可以消除和屏蔽数据在结构模式上的异构性。下面介绍主题树的相关概念和操作:
(1)相关定义
①主题的定义
定义1:主题是一个抽象的概念,是在信息化建设较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。面向主题的数据组织方式,就是在信息化建设较高层次上对分析实体数据的一个完整、一致的描述,能完整、统一地刻画各个分析实体数据所涉及企业的各项子数据及其属性和特征,以及数据之间的联系。
企业典型抽象出的主题一般有:组织机构、物料、产品、客户、零部件、供应商、订货、员工、文件资料、工程规范等。
②主题树的定义
定义2:主题树T是一个二元组<stid,s>,标记为T(stid,s)。其中,stid是主题树标识符,唯一标识主题树所描述的一类实体,s是主题子树的集合,是由stid所标识的同类实体描述。
③主题子树的定义
定义3:主题子树ST是一个二元组<sstid,sa>,标记为ST(sstid,ss)。其中,sstid是主题子树标识符,唯一标识主题子树所抽象的主题,ss是主题子树所有主题属性子集合。
④主题属性子的定义
定义4:主题属性子是关于主题的某个属性的所有描述,用一个三元组<a,u,v>表示,称之为主题属性子。其中,a是表示属性名,u标识属性域,v标识属性值。
(2)相关操作
为了实现对异构数据的集成,在此定义7种主题树的运算操作:主题树并、主题树差、主题树交、主题树选择、主题树投影、主题树反投影和主题树连接。
主题树并
定义5:主题树T1、T2,其并运算符定义为并运算定义如下:设T1=<stid1,s1>,T2=<stid2,s2>,则其中,∪为类似集合并运算符。
主题树差
定义6:主题树T1、T2,其差运算符定义为-,并运算定义如下:设T1=<stid1,s1>,T2=<stid2,s2>,则T1-T2=<stid,s1-s2>。其中,-为类似集合差运算符。
主题树交
定义7:主题树T1、T2,其交运算符定义为交运算定义如下:设T1=<stid1,s1>,T2=<stid2,s2>,则其中,∩为类似集合交运算符。
以上三种运算与集合中的并、差、交不同的是主题树并不要求集合并运算的对参与运算的关系必须要有相同的度以及值必须来源于相同的属性域,而在此的并运算对每个主题属性子所包含属性名域、和值数目和内容不做限定。
主题树选择
定义8:主题树选择是指在按照给定的条件f,从给定的主题树T中选择若干子树的一种操作,其选择运算符定义为▽f,选择运算定义如下:设T=<stid,s>,则▽f(T)=<stid',s'>。其中,f为布尔函数;表示选择的条件,s'是s的子集,表示s中能使布尔函数f为真的那些主题子树的集合。主题树选择运算不同于关系运算的选择,选择条件中出现的属性名不一定存在于它的所有主题子树中。在这种情况下关系代数无法运算或返回空集,但主题树运算仍可选择满足条件的主题子树。
主题树投影
定义9:主题树投影运算是从给定主题树的所有主题子树中选取给定的主题属性构成的主题属性子。给定T=<stid,s>和主题属性子集A,定义主题树T在A上的投影运算如下:
其中s'={ST'|ST∈s∧ST[A]=ST'∨ST'≠Φ}。
主题树投影不同于关系代数的投影运算只要主题树中至少存在一棵主题子树它的主题属性子集与A有交集,主题树投影的结果就不为空。
主题树反投影
定义10:主题树反投影运算是从给定主题树的所有主题子树中选取给定的主题属性之外构成的主题属性子。给定T=<stid,s>和主题属性子集A,定义主题树T在A上的反投影运算如下:
对于没有预知模式的数据源,用户并不知道其了解其全部数据内容,此时,主题树反投影运算使用户可以利用已知部分查询到未知部分,这对异构数据集成非常有用。
主题树连接
定义11:主题树T1、T2,其连接运算符定义为连接运算定义如下:设T1=<stid1,s1>,T2=<stid2,s2>,则其中f为连接条件,是布尔函数。
主题树之间的联系主要是通过这种连接运算来实现。
基于主题树模型将异构数据映射到最终的统一标准格式XML scheme上,更具体的包括:
(1)结构化异构数据的应用
对于结构化的异构数据,只需将不同环境下的主题数据表中的每一个元组表示成如下一棵主题树,如图2所示,再做进一步的运算,这里数据的集成基本类似于集合的各种运算操作,因为所表示的主题树的结构是完全一致的。
(2)半结构化化异构数据的应用
对于半结构化的异构数据,同样将不同环境下的主题数据表中的每一个元组表示成如下一棵主题树,如图3所示。这颗半结构化主题树与结构化异构数据主题树不同的是各个主题子树的主题属性子可能不同,在运算上就必须采用上述定义的主题树的各种运算才能把非结构化异构数据集成起来。
如果半结构化异构数据是XML形式的,可以用后面的反映射方法把半结构化异构数据表示成一棵主题树。
(3)非结构化化异构数据的应用
对于非结构化的异构数据,同样将不同环境下的非结构化数据着重从数据的大小、类型、描述等方面表示成如下一棵主题树,如图4所示。对非结构化异构数据集成时,事先可以预定常见的如视频、图像等不同主题的结构化模式,进而把非结构化的异构数据表示成结构化的数据,从而实现非结构化异构数据的集成。
主题树与XML Scheme文档的映射
要实现这种映射,显然比较简单,类似对主题树先根遍历,即把主题树的树根映射到XML Scheme文档中的根元素root中,后面的子树是父树的子节点(子元素)node,采用递归映射的方式。
建立异构数据采集中间件模型,通过异构数据采集中间件模型(限于专业技术问题,具体如何作用烦请发明人说明下),更具体的包括:
(1)结构化异构数据采集中间件
结构化异构数据主要是指存储在各种不同类型数据库中的数据,对于这种异构数据,可以采用JDBC数据连接到各种不同环境、不同类型的数据库中,通过数据库操作,提取相关数据,整个结构化异构数据采集中间件模型,如图5所示。
(2)半结构化异构数据采集中间件
半结构化异构数据若是存储在数据库中,则可以采用结构化数据采集中间件采集;若是半结构化异构数据且为XML文件形式的,则可以按照如下半结构化异构数据采集中间件采集,其模型如下图6所示:
(3)非结构化异构数据采集中间件
非结构化异构数据主要是指各种视频、图片等文件,为此,通过封装对文件的各种属性操作,将非结构化数据结构化表示成主题树,再映射为XMLScheme文档,其模型如下图7所示。
S2、将采集的异构数据按照不同模式、不同主题属性子进行聚类,通过聚类形成可供分类的主题属性子以及模式,根据分类约束对聚类形成的可供分类的主题属性子以及模式进行模式重组,选择一种带约束的模式对聚类形成的主题数据进行分类,导出智能化异构数据的分类规则;
在步骤S2中,更具体的包括:
异构数据的分类是根据主题数据的属性来划分,从人工智能的角度来说就是对异构数据的各种模式进行集成,然后按照一种新的受约束的模式进行分类。
本发明将数据挖掘、人工智能等多种理论应用到分类器设计中,其主要思想是:将预先规范化集成的数据按照不同模式、不同主题属性子进行聚类,通过聚类形成可供分类的主题属性子以及模式,然后根据分类约束对聚类形成的可供分类的主题属性子以及模式进行模式重组,选择一种带约束的模式对聚类形成的主题数据进行分类,从而导出智能化异构数据的分类规则。
需要指出的是聚类主要目的是形成不同主题的主题名称模式和空间、相应的主题属性子名称模式和空间,为下一步进行分类做准备。
分类器模型如图8所示,模型中,分类规则固化是指某种数据分类规则中共有多少层级(码段);编码规则固化是指每个层级(码段)的编码值域以及在新增数据时自动根据规则产生新的编码;审核机制固化是在整个模型框架之外,待用户申请生成了编码后,编码自动跳转到专业审核口,通过专业审核后转到总审核口,待总审核通过后,编码自动发布。
S3、在企业原有信息系统上,采用接口转换的方式将原有编码转换成新编码,逐步过渡到新的编码体系;
在步骤S3中,为了统一企业数据编码,在企业原有信息系统上,采用接口转换(即对照表)的方式将原有编码转换成新编码,逐步过渡到新的编码体系,以满足数据共享和交换的需要。能批量转换成新编码的数据一次性批量转换,若新老编码差别太大的,暂时不转换,继续保留使用,可以通过扩展数据库字段,将统一编码引入到系统中,原有系统按照原来的方式继续运行,待条件成熟时,再行淘汰,启用新编码。若新上信息系统则必须采用统一编码。对照表方式如图9所示。如:在已有的人事和工资两个管理系统中,都有员工张华的信息,人事系统中员工张华的编号是“1122”,而工资系统中张华的编号是“0104”,因此,如果这两个系统要进行数据交换,则必须采用统一编码2020来建立两个不同码之间的联系。
部分系统应用通过对照表方式,将旧编码全部转换成新编码后,由于部分系统设计对编码结构存在一定依赖性,导致系统不一定能全部自动转换,需要手工解决。对此,课题组又进行了改进,即在不破坏原有系统编码的情况下,在原有系统的数据库表中添加一个字段用于存放新编码,供该系统与其它系统进行共享和交换使用,从而达到编码的统一。
S4、构建基于统一服务接口的异构数据共享和交换机制。
在步骤S4中,采用对照表方式更新旧编码,显然工作量较大,而且随着接入系统的增加,接口数量急剧增加,在实际应用过程中将会遇到诸如对老系统数据结构不熟悉等各种各样的困难。为此,本发明尝试在新增数据编码时,直接将新增数据自动传送到需要交换共享数据的系统中。经过研究和试验,实现了紫金矿业企业级数据分类编码实时传输至ERP、HR等系统中。提出的基于统一服务接口的异构数据共享和交换机制,主要思想是在集成平台添加标准的交换服务接口,可将新增数据自动传送到需要交换共享数据的系统中。统一服务接口的异构数据共享和交换机制如图10所示,针对不同的异构环境,WebService提供了标准服务接口,无需繁杂的编程,只需相应的数据源驱动就可以访问到相关资源;针对不同的应用需求,用户只需提供相关SQL操作语言,就能按需取到数据。
在本发明中,针对现有异构数据集成方法还存在数据不一致、数据语义冲突、数据大量冗余、无法集中管理和实时共享等问题,创新性的研究着重从语法和语义异构,兼顾系统异构和结构异构,真正意义上实现企业异构数据集成共享和交换。研究结果表明,语法和语义异构的出现,主要是不同数据源的设计者对于现实世界的事物的看待角度不会完全一样,为了达到企业级的统一,项目以统一企业异构数据语法和语义表示(企业异构数据分类编码)来解决企业异构数据集成与交换依然的企业数据不一致、数据语义冲突、数据大量冗余、无法集中管理和实时共享等问题。
针对现有数据分类编码理论缺乏实施流程,通过研究,形成了企业异构数据分类编码工作流,明确了异构数据分类编码的每个步骤的工作方法和流程,经过实际应用,验证了工作流的有效性。
针对异构语法、语义和数据结构上的差异导致集成难的问题,创新地对异构数据统一用“主题树”表示,实现了异构数据的自动采集。
针对海量异构数据分类难的问题,基于机器学习、图像识别技术、“主题树”的表达模型和中间件技术,创新性地开发出了企业异构数据分类器,实现了企业异构数据的自动分类。
针对数据编码难于动态唯一性控制问题,创新性将分类规则、编码规则和审核机制固化进编码器,开发出了企业异构数据编码器,实现了企业异构数据的智能化编码。
集成XML、Web Service和SSH等多种技术,建立基于统一服务接口的异构数据共享和交换机制,实现了异构数据的共享和交换。
本发明进一步提供了一种企业异构数据分类编码集成交换与管理的装置,如图11和图12所示,包括:
异构数据采集处理模块1,用于统一异构数据标准格式的表现形式以及编写异构数据采集中间件,采集企业的远程和本地异构数据;
异构数据分类模块2,用于将采集的异构数据按照不同模式、不同主题属性子进行聚类,通过聚类形成可供分类的主题属性子以及模式,根据分类约束对聚类形成的可供分类的主题属性子以及模式进行模式重组,选择一种带约束的模式对聚类形成的主题数据进行分类,导出智能化异构数据的分类规则;
编码更换模块3,用于在企业原有信息系统上,采用接口转换的方式将原有编码转换成新编码,逐步过渡到新的编码体系;
异构数据共享交换模块4,用于构建基于统一服务接口的异构数据共享和交换机制;其中,
所述异构数据采集处理模块1、异构数据分类模块2、编码更换模块3以及异构数据共享交换模块4依次连接。
更具体的,所述异构数据采集处理模块1包括:
主题树模型建立模块11,用于建立主题树模型,通过主题树模型采集结构化、半结构化以及非结构化的异构数据,并将采集的异构数据的结构模式上的异构性进行消除和屏蔽,统一异构数据集成的格式;
异构数据映射模块12,用于基于主题树模型将异构数据映射到最终的统一标准格式XML scheme上;
以及采集中间件模型建立模块13,用于(此处与权利要求2相对应,由代理人后续修改);其中,
所述主题树模型建立模块11、异构数据映射模块12、采集中间件模型建立模块13以及异构数据分类模块2依次连接。
更具体的,所述编码更换模块3包括:
新编码更新模块31,用于通过扩展数据库字段,将统一编码引入到系统中,原有系统按照原来的方式继续运行,待条件成熟时,再行淘汰,启用新编码;
旧编码保留模块32,用于批量转换成新编码的数据一次性批量转换,若新老编码差别太大的,暂时不转换,继续保留使用;其中,
所述异构数据分类模块2分别与新编码更新模块31以及旧编码保留模块32连接,所述新编码更新模块31以及旧编码保留模块32分别与异构数据共享交换模块4连接。
更具体的,所述编码更换模块3还包括特别编码处理模块33,用于在不破坏原有系统编码的情况下,在原有系统的数据库表中添加一个字段用于存放新编码,供该系统与其它系统进行共享和交换使用;其中,
所述异构数据分类模块2、特别编码处理模块33以及异构数据共享交换模块4依次连接。
更具体的,所述异构数据共享交换模块4包括:
接口统一标准模块41,用于针对不同的异构环境,通过Web Service提供统一标准服务接口;
以及数据交换共享模块42,用于针对不同的应用需求,在相关SQL操作语言环境下,通过数据源驱动访问相关资源并获取数据;其中,
所述数据交换共享模块42与接口统一标准模块41连接,所述接口统一标准模块41与新编码更新模块31、旧编码保留模块32以及特别编码处理模块33分别连接。
本发明的企业异构数据分类编码集成交换与管理的装置与上述企业异构数据分类编码集成交换与管理的方法相对应,用上述企业异构数据分类编码集成交换与管理的方法中实施例描述内容、原理以及有益效果解释本装置,在此不再赘述。
相比与现有技术的缺点和不足,本发明具有以下有益效果:
(1)本发明针对现有异构数据集成方法还存在数据不一致、数据语义冲突、数据大量冗余、无法集中管理和实时共享等问题,创新性的研究着重从语法和语义异构,兼顾系统异构和结构异构,真正意义上实现企业异构数据集成共享和交换。研究结果表明,语法和语义异构的出现,主要是不同数据源的设计者对于现实世界的事物的看待角度不会完全一样,为了达到企业级的统一,项目以统一企业异构数据语法和语义表示(企业异构数据分类编码)来解决企业异构数据集成与交换依然的企业数据不一致、数据语义冲突、数据大量冗余、无法集中管理和实时共享等问题。
(2)本发明针对现有数据分类编码理论缺乏实施流程,通过研究,形成了企业异构数据分类编码工作流,明确了异构数据分类编码的每个步骤的工作方法和流程,经过实际应用,验证了工作流的有效性。
(3)本发明针对异构语法、语义和数据结构上的差异导致集成难的问题,创新地对异构数据统一用“主题树”表示,实现了异构数据的自动采集。
(4)本发明针对海量异构数据分类难的问题,基于机器学习、图像识别技术、“主题树”的表达模型和中间件技术,创新性地开发出了企业异构数据分类器,实现了企业异构数据的自动分类。
(5)本发明针对数据编码难于动态唯一性控制问题,创新性将分类规则、编码规则和审核机制固化进编码器,开发出了企业异构数据编码器,实现了企业异构数据的智能化编码。
(6)本发明集成XML、Web Service和SSH等多种技术,建立基于统一服务接口的异构数据共享和交换机制,实现了异构数据的共享和交换。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种企业异构数据分类编码集成交换与管理的方法,其特征在于包括以下步骤:
统一异构数据标准格式的表现形式以及编写异构数据采集中间件,采集企业的远程和本地异构数据;
将采集的异构数据按照不同模式、不同主题属性子进行聚类,通过聚类形成可供分类的主题属性子以及模式,根据分类约束对聚类形成的可供分类的主题属性子以及模式进行模式重组,选择一种带约束的模式对聚类形成的主题数据进行分类,导出智能化异构数据的分类规则;
在企业原有信息系统上,采用接口转换的方式将原有编码转换成新编码,逐步过渡到新的编码体系;
构建基于统一服务接口的异构数据共享和交换机制。
2.如权利要求1所述的企业异构数据分类编码集成交换与管理的方法,其特征在于,所述统一异构数据标准格式的表现形式以及编写异构数据采集中间件,采集企业的远程和本地异构数据包括以下步骤:
建立主题树模型,通过主题树模型将结构化、半结构化以及非结构化的异构数据映射到最终的统一标准格式XML scheme上,消除和屏蔽异构数据结构模式上的差异,从而统一异构数据集成的格式;
按结构化、半结构化以及非结构化三种类型异构数据分别建立结构化、半结构化以及非结构化异构数据采集中间件,从本地和远程异构数据进行采集:对于结构化异构数据,采用JDBC数据连接到各种不同环境、不同类型的数据库中,通过数据库操作,提取相关数据,再通过主题树模型进行表示;对于半结构化异构数据,若是存放在数据库中的则按照结构化数据采集方式,若是XML文档,转换成XMLDOM,并在其中封装各种数据操作,然后再通过主题树模型进行表示;对于非结构化异构数据,通过封装对文件的各种属性操作,将非结构化数据结构化表示成主题树,再映射为XML Scheme文档。
3.如权利要求1所述的企业异构数据分类编码集成交换与管理的方法,其特征在于,所述在企业原有信息系统上,采用接口转换的方式将原有编码转换成新编码,逐步过渡到新的编码体系包括以下步骤:
通过扩展数据库字段,将统一编码引入到系统中,原有系统按照原来的方式继续运行,待条件成熟时,再行淘汰,启用新编码;
能批量转换成新编码的数据一次性批量转换,若新老编码差别太大的,暂时不转换,继续保留使用。
4.如权利要求3所述的企业异构数据分类编码集成交换与管理的方法,其特征在于,所述能批量转换成新编码的数据一次性批量转换,若新老编码差别太大的,暂时不转换,继续保留使用之后还包括步骤:
在不破坏原有系统编码的情况下,在原有系统的数据库表中添加一个字段用于存放新编码,供该系统与其它系统进行共享和交换使用。
5.如权利要求1所述的企业异构数据分类编码集成交换与管理的方法,其特征在于,所述构建基于统一服务接口的异构数据共享和交换机制包括以下步骤:
针对不同的异构环境,通过Web Service提供统一标准服务接口;
针对不同的应用需求,在相关SQL操作语言环境下,通过数据源驱动访问相关资源并获取数据。
6.一种企业异构数据分类编码集成交换与管理的装置,其特征在于,包括:
异构数据采集处理模块,用于统一异构数据标准格式的表现形式以及编写异构数据采集中间件,采集企业的远程和本地异构数据;
异构数据分类模块,用于将采集的异构数据按照不同模式、不同主题属性子进行聚类,通过聚类形成可供分类的主题属性子以及模式,根据分类约束对聚类形成的可供分类的主题属性子以及模式进行模式重组,选择一种带约束的模式对聚类形成的主题数据进行分类,导出智能化异构数据的分类规则;
编码更换模块,用于在企业原有信息系统上,采用接口转换的方式将原有编码转换成新编码,逐步过渡到新的编码体系;
异构数据共享交换模块,用于构建基于统一服务接口的异构数据共享和交换机制;其中,
所述异构数据采集处理模块、异构数据分类模块、编码更换模块以及异构数据共享交换模块依次连接。
7.如权利要求6所述的企业异构数据分类编码集成交换与管理方法,其特征在于,所述异构数据采集处理模块包括:
主题树模型建立模块,用于建立主题树模型,通过主题树模型采集结构化、半结构化以及非结构化的异构数据,并将采集的异构数据的结构模式上的异构性进行消除和屏蔽,统一异构数据集成的格式;
异构数据映射模块,用于基于主题树模型将异构数据映射到最终的统一标准格式XML scheme上;
以及采集中间件模型建立模块,用于异构数据的采集(分结构化、半结构化、非结构化三种不同的采集中间件,如权利2所阐述);
所述主题树模型建立模块、异构数据映射模块、采集中间件模型建立模块以及异构数据分类模块依次连接。
8.如权利要求6所述的企业异构数据分类编码集成交换与管理方法,其特征在于,所述编码更换模块包括:
新编码更新模块,用于通过扩展数据库字段,将统一编码引入到系统中,原有系统按照原来的方式继续运行,待条件成熟时,再行淘汰,启用新编码;
旧编码保留模块,用于批量转换成新编码的数据一次性批量转换,若新老编码差别太大的,暂时不转换,继续保留使用;其中,
所述异构数据分类模块分别与新编码更新模块以及旧编码保留模块连接,所述新编码更新模块以及旧编码保留模块分别与异构数据共享交换模块连接。
9.如权利要求8所述的企业异构数据分类编码集成交换与管理方法,其特征在于,所述编码更换模块还包括特别编码处理模块,用于在不破坏原有系统编码的情况下,在原有系统的数据库表中添加一个字段用于存放新编码,供该系统与其它系统进行共享和交换使用;其中,
所述异构数据分类模块、特别编码处理模块以及异构数据共享交换模块依次连接。
10.如权利要求6所述的企业异构数据分类编码集成交换与管理方法,其特征在于,所述异构数据共享交换模块包括:
接口统一标准模块,用于针对不同的异构环境,通过Web Service提供统一标准服务接口;
以及数据交换共享模块,用于针对不同的应用需求,在相关SQL操作语言环境下,通过数据源驱动访问相关资源并获取数据;其中,
所述数据交换共享模块与接口统一标准模块连接,所述接口统一标准模块与新编码更新模块、旧编码保留模块以及特别编码处理模块分别连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410325216.5A CN104111998A (zh) | 2014-07-09 | 2014-07-09 | 一种企业异构数据分类编码集成交换与管理的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410325216.5A CN104111998A (zh) | 2014-07-09 | 2014-07-09 | 一种企业异构数据分类编码集成交换与管理的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104111998A true CN104111998A (zh) | 2014-10-22 |
Family
ID=51708789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410325216.5A Pending CN104111998A (zh) | 2014-07-09 | 2014-07-09 | 一种企业异构数据分类编码集成交换与管理的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104111998A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361140A (zh) * | 2014-12-10 | 2015-02-18 | 用友软件股份有限公司 | 动态生成数据模型配置装置和方法 |
CN104599042A (zh) * | 2014-12-26 | 2015-05-06 | 国家电网公司 | 一种基于协约的数据管理和服务体系管理方法 |
CN105824844A (zh) * | 2015-01-08 | 2016-08-03 | 北京四维图新科技股份有限公司 | 一种数据分类的映射方法及装置 |
CN106528641A (zh) * | 2016-10-13 | 2017-03-22 | 许继集团有限公司 | 一种数据存储方法、装置及通信网关机 |
CN107194013A (zh) * | 2017-07-03 | 2017-09-22 | 杭州排列科技有限公司 | 基于分布式消息队列中间件的处理方法和处理系统 |
CN107808001A (zh) * | 2017-11-13 | 2018-03-16 | 哈尔滨工业大学 | 面向海量异构数据的模式集成方法及装置 |
CN109460912A (zh) * | 2018-10-31 | 2019-03-12 | 泰康保险集团股份有限公司 | 数据处理方法、装置、存储介质及电子设备 |
CN110532760A (zh) * | 2019-08-12 | 2019-12-03 | 广州海颐信息安全技术有限公司 | 兼容结构化和非结构化特权威胁行为数据的方法及装置 |
CN110543762A (zh) * | 2019-08-12 | 2019-12-06 | 广州海颐信息安全技术有限公司 | 特权账号威胁分析系统 |
CN112288904A (zh) * | 2020-11-23 | 2021-01-29 | 武汉大学 | 车载终端、分布式车载终端集成管理方法和系统 |
CN112988358A (zh) * | 2021-04-18 | 2021-06-18 | 上海丽人丽妆网络科技有限公司 | 一种用于电商平台的数据中间件 |
CN113794770A (zh) * | 2021-09-14 | 2021-12-14 | 中国银行股份有限公司 | 数据服务发布系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1877523A (zh) * | 2006-06-23 | 2006-12-13 | 清华大学 | 一种支持异构构件的构件库统一管理方法 |
CN101361063A (zh) * | 2006-04-12 | 2009-02-04 | 龙搜(北京)科技有限公司 | 支持基于规则的文档内容挖掘的系统与方法 |
US20090276446A1 (en) * | 2008-05-02 | 2009-11-05 | International Business Machines Corporation. | Process and method for classifying structured data |
-
2014
- 2014-07-09 CN CN201410325216.5A patent/CN104111998A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101361063A (zh) * | 2006-04-12 | 2009-02-04 | 龙搜(北京)科技有限公司 | 支持基于规则的文档内容挖掘的系统与方法 |
CN1877523A (zh) * | 2006-06-23 | 2006-12-13 | 清华大学 | 一种支持异构构件的构件库统一管理方法 |
US20090276446A1 (en) * | 2008-05-02 | 2009-11-05 | International Business Machines Corporation. | Process and method for classifying structured data |
Non-Patent Citations (1)
Title |
---|
古发辉: "面向信息共享的信息分类编码及其管理系统的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361140A (zh) * | 2014-12-10 | 2015-02-18 | 用友软件股份有限公司 | 动态生成数据模型配置装置和方法 |
CN104361140B (zh) * | 2014-12-10 | 2018-11-16 | 用友网络科技股份有限公司 | 动态生成数据模型配置装置和方法 |
CN104599042A (zh) * | 2014-12-26 | 2015-05-06 | 国家电网公司 | 一种基于协约的数据管理和服务体系管理方法 |
CN105824844B (zh) * | 2015-01-08 | 2019-06-18 | 北京四维图新科技股份有限公司 | 一种数据分类的映射方法及装置 |
CN105824844A (zh) * | 2015-01-08 | 2016-08-03 | 北京四维图新科技股份有限公司 | 一种数据分类的映射方法及装置 |
CN106528641A (zh) * | 2016-10-13 | 2017-03-22 | 许继集团有限公司 | 一种数据存储方法、装置及通信网关机 |
CN106528641B (zh) * | 2016-10-13 | 2020-01-10 | 许继集团有限公司 | 一种数据存储方法、装置及通信网关机 |
CN107194013A (zh) * | 2017-07-03 | 2017-09-22 | 杭州排列科技有限公司 | 基于分布式消息队列中间件的处理方法和处理系统 |
CN107194013B (zh) * | 2017-07-03 | 2019-10-29 | 杭州排列科技有限公司 | 基于分布式消息队列中间件的处理方法和处理系统 |
CN107808001B (zh) * | 2017-11-13 | 2019-12-06 | 哈尔滨工业大学 | 面向海量异构数据的模式集成方法及装置 |
CN107808001A (zh) * | 2017-11-13 | 2018-03-16 | 哈尔滨工业大学 | 面向海量异构数据的模式集成方法及装置 |
CN109460912A (zh) * | 2018-10-31 | 2019-03-12 | 泰康保险集团股份有限公司 | 数据处理方法、装置、存储介质及电子设备 |
CN110532760A (zh) * | 2019-08-12 | 2019-12-03 | 广州海颐信息安全技术有限公司 | 兼容结构化和非结构化特权威胁行为数据的方法及装置 |
CN110543762A (zh) * | 2019-08-12 | 2019-12-06 | 广州海颐信息安全技术有限公司 | 特权账号威胁分析系统 |
CN112288904A (zh) * | 2020-11-23 | 2021-01-29 | 武汉大学 | 车载终端、分布式车载终端集成管理方法和系统 |
CN112288904B (zh) * | 2020-11-23 | 2022-04-01 | 武汉大学 | 车载终端、分布式车载终端集成管理方法和系统 |
CN112988358A (zh) * | 2021-04-18 | 2021-06-18 | 上海丽人丽妆网络科技有限公司 | 一种用于电商平台的数据中间件 |
CN113794770A (zh) * | 2021-09-14 | 2021-12-14 | 中国银行股份有限公司 | 数据服务发布系统及方法 |
CN113794770B (zh) * | 2021-09-14 | 2022-10-18 | 中国银行股份有限公司 | 数据服务发布系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104111998A (zh) | 一种企业异构数据分类编码集成交换与管理的方法及装置 | |
Berthold et al. | An architecture for ad-hoc and collaborative business intelligence | |
US8949291B2 (en) | Automatic conversion of multidimentional schema entities | |
CN113392227B (zh) | 面向轨道交通领域的元数据知识图谱引擎系统 | |
WO2018039241A1 (en) | System and method for automated mapping of data types for use with dataflow environments | |
CN104767813A (zh) | 基于openstack的公众行大数据服务平台 | |
CN114357088B (zh) | 核电工业数据仓库系统 | |
CN101539855A (zh) | 一种业务基础软件平台 | |
US10303690B1 (en) | Automated identification and classification of critical data elements | |
US9123006B2 (en) | Techniques for parallel business intelligence evaluation and management | |
CN114638160A (zh) | 一种面向复杂装备数字孪生模型的知识服务方法 | |
CN102722368B (zh) | 一种基于文档树和消息泵的插件式软件设计方法 | |
CN1924913A (zh) | 一种构建统一企业信息资源模型的方法 | |
CN112084177B (zh) | 基于数据采集治理及挖掘分析的数据池应用方法及装置 | |
Abrahiem | A new generation of middleware solutions for a near-real-time data warehousing architecture | |
CN116450620A (zh) | 面向多源多域时空基准数据的数据库设计方法及系统 | |
Ledford et al. | Implementing a Complete Digital Thread: The Need for Data Element Mapping and Analysis | |
CN115496337A (zh) | 一种支撑企业大脑的数据系统 | |
Rezende et al. | Proposed application of data mining techniques for clustering software projects | |
CN110263185B (zh) | 一种新型干法水泥熟料生产热耗知识图谱的构建方法 | |
Hoare et al. | Development of a National Scale Digital Twin for Domestic Building Stock | |
CN112732672B (zh) | 一种基于对象及模型的工艺知识管理方法 | |
Zgolli et al. | Metadata in data lake ecosystems | |
Zasadzinski et al. | The trip to the enterprise gourmet data product marketplace through a self-service data platform | |
Salikhova et al. | OPTIMIZATION OF TAX SYSTEM BUSINESS PROCESSES |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20141022 |