CN111581299A - 基于大数据的多源数据仓库的库间数据转换系统及方法 - Google Patents

基于大数据的多源数据仓库的库间数据转换系统及方法 Download PDF

Info

Publication number
CN111581299A
CN111581299A CN202010369409.6A CN202010369409A CN111581299A CN 111581299 A CN111581299 A CN 111581299A CN 202010369409 A CN202010369409 A CN 202010369409A CN 111581299 A CN111581299 A CN 111581299A
Authority
CN
China
Prior art keywords
data
different
types
category
standards
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010369409.6A
Other languages
English (en)
Inventor
杨明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Institute of Aerospace Engineering
Original Assignee
North China Institute of Aerospace Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Institute of Aerospace Engineering filed Critical North China Institute of Aerospace Engineering
Priority to CN202010369409.6A priority Critical patent/CN111581299A/zh
Publication of CN111581299A publication Critical patent/CN111581299A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于大数据技术领域,具体基于大数据的多源数据仓库的库间数据转换系统及方法,所述系统包括:语法语义解析引擎模块,解析不同数据仓库中的语法语义,自适应对接不同语法类型,完成不同数据库标准和数据库协议之间的对接;数据标准转换模块,用于获取不同数据库中各自所需的数据格式标准和数据结构,根据获取的数据格式标准和数据结构对数据标准进行转换;数据类型转换模块,用于对不同数据类型之间的衔接,把不同的数据类型进行转换后符合各个数据仓库的数据结构。能够有效将多个不同数据类型、不同数据标准和不同数据协议的数据仓库中的数据进行融合和转换,提升了数据利用的效率,同时,实现了不同数据仓库的。

Description

基于大数据的多源数据仓库的库间数据转换系统及方法
技术领域
本发明属于大数据技术领域,具体涉及基于大数据的多源数据仓库的库间数据转换系统及方法。
背景技术
数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。
数据仓库的解决方法包括:将决策支持型数据处理从事务型数据处理中分离出来。数据按照一定的周期(通常在每晚或者每周末),从事务型数据库中导入决策支持型数据库——既“数据仓库”。数据仓库是按回答企业某方面的问题来分“主题”组织数据的,这是最有效的数据组织方式。
源数据融合技术应用于地质矿产调查中时不仅能实现数据最优选择还能对数据进行预处理然后再进行数据融合综合分析得出结果。这是多源数据融合技术的特性也使其具体的应用操作流程。数据选择是多源数据融合的第一步必须保证数据选择的正确性尽量优选出合适的数据对象来进行数据融合若数据对象选择错误将直接影响到多源数据的后期融合效果。数据选择时首先要根据用途来判定需要选择的数据类型,可供选择的数据类型有两种分别遥感数据、非遥感数据。国内地质矿产工作中获取到航天遥感数据以及航空遥感数据均可作为选择对象,为区域地质矿产调查提供参考。
数据合理选择之后要先对其进行预处理以免未经处理的数据在多源融合时影响到融合效果,使融合后得到的数据无法满足地质矿产调查要求。数据预处理的方法主要包括首先对选择出的各种数据信、遥感影像进行几何校准然后转换数据格式将所有数据全部转换成图像格式。预处理必须保证所有数据都能实现互相沟通保证数据融合能够在同一平台上实现。
发明内容
本发明的主要目的在于基于大数据的多源数据仓库的库间数据转换系统及方法,能够有效将多个不同数据类型、不同数据标准和不同数据协议的数据仓库中的数据进行融合和转换,提升了数据利用的效率,同时,实现了不同数据仓库的。
为达到上述目的,本发明的技术方案是这样实现的:
基于大数据的多源数据仓库的库间数据转换系统,所述系统包括:语法语义解析引擎模块,解析不同数据仓库中的语法语义,自适应对接不同语法类型,完成不同数据库标准和数据库协议之间的对接;数据标准转换模块,用于获取不同数据库中各自所需的数据格式标准和数据结构,根据获取的数据格式标准和数据结构对数据标准进行转换;数据类型转换模块,用于对不同数据类型之间的衔接,把不同的数据类型进行转换后符合各个数据仓库的数据结构;调度引擎模块,用于协调各个数据仓库进行转换接口,分配资源,按照预先设计的流程,执行相关接口引擎操作;监控引擎模块,用于对所述的调度引擎模块和各个数据仓库的接口程序进行监控预警,对各个数据仓库的各类日志管理,保障正常运行;及校验引擎模块,用于校验接口语法语义解析引擎模块、数据标准转换引擎模块和数据类型转换引擎模块的执行动作的合法性、准确性以及数据格式的合法性。
进一步的,所述语法语义解析引擎模块,解析不同数据仓库中的语法语义,自适应对接不同语法类型,完成不同数据库标准和数据库协议之间的对接的方法执行以下步骤:步骤1:从不同数据库中随机抽取数据,针对随机抽取的数据,进行训练,得到数据训练集,使用分层方法分解训练后数据,得到每一类数据的多尺度特征;步骤2:基于多尺度特征,应用支持向量机对所述训练集进行分类,得到分类结果;针对每一个分类结果,使用一致的数据标准化方法进行数据标准化。
进一步的,所述使用分层方法分解训练后的数据,得到每一类数据的多尺度特征的方法执行以下步骤:将原始数据中心作为高斯金字塔的第0层,高斯金字塔的第1层数据通过窗口函数W(m,η)卷积获得,并将获得的结果隔行隔列降采样,即:
Figure BDA0002475722170000021
Figure BDA0002475722170000022
其中,Ν表示高斯金字塔顶层的层数,Q表示高斯金字塔第数据的列数,j表示高斯金字塔第1数据的行数,w(m,η)为5X5的窗口函数。
进一步的,所述数据类型转换模块,对不同数据类型之间的衔接,把不同的数据类型进行转换后符合各个数据仓库的数据结构的方法执行以下步骤:从不同数据库中随机抽取数据,输入抽取的数据,数据的类别集合表示为:S={S1,S2,S3,…,Sn},数据的属性特征集合表示为:O={O1,O2,O3,…,On};使用如下步骤,计算并保存所有数据类别为Sj的概率分布,j=1,2,3,…,n:步骤S1:使用如下公式计算具有特征O的数据所属类别Si的概率分布为:
Figure BDA0002475722170000023
Figure BDA0002475722170000024
其中,p(Sj|Oj)表示某个数据类别为Sj具有属性特征O的概率,λ位调整系数,取值范围为:0.3~0.9;步骤S2:通过步骤S1计算得到的概率,使用如下公式,计算每个数据类别具有属性特征O的概率为:
Figure BDA0002475722170000031
Figure BDA0002475722170000032
其中,y为定义的类别参数,其可以是任何值,但每一个数据类别对应的y之间均互不相同;根据计算得到的p(Sj),进行分类,具体执行以下步骤:设定一个阈值,将所有计算得到的p(Sj)两两之间进行差值运算,将计算得到的差值在设定的阈值范围内的两个数据归为同一类别,对应为同一y值,使用同一数据结构进行表示。
进一步的,所述校验引擎模块,校验接口语法语义解析引擎模块、数据标准转换引擎模块和数据类型转换引擎模块的执行动作的合法性、准确性以及数据格式的合法性的方法执行以下步骤:进行数据特征提取,输出提取到的数据特征;根据提取到的数据特征,进行数据匹配校验,得到数据校验的结果。
一种基于大数据的多源数据仓库的库间数据转换方法,所述方法执行以下步骤:解析不同数据仓库中的语法语义,自适应对接不同语法类型,完成不同数据库标准和数据库协议之间的对接;获取不同数据库中各自所需的数据格式标准和数据结构,根据获取的数据格式标准和数据结构对数据标准进行转换;对不同数据类型之间的衔接,把不同的数据类型进行转换后符合各个数据仓库的数据结构;协调各个数据仓库进行转换接口,分配资源,按照预先设计的流程,执行相关接口引擎操作;对所述的调度引擎模块和各个数据仓库的接口程序进行监控预警,对各个数据仓库的各类日志管理,保障正常运行;校验前述步骤执行动作的合法性、准确性以及数据格式的合法性。
进一步的,所述解析不同数据仓库中的语法语义,自适应对接不同语法类型,完成不同数据库标准和数据库协议之间的对接的方法执行以下步骤:步骤1:从不同数据库中随机抽取数据,针对随机抽取的数据,进行训练,得到数据训练集,使用分层方法分解训练后数据,得到每一类数据的多尺度特征;步骤2:基于多尺度特征,应用支持向量机对所述训练集进行分类,得到分类结果;针对每一个分类结果,使用一致的数据标准化方法进行数据标准化。
进一步的,所述使用分层方法分解训练后的数据,得到每一类数据的多尺度特征的方法执行以下步骤:将原始数据中心作为高斯金字塔的第0层,高斯金字塔的第1层数据通过窗口函数W(m,η)卷积获得,并将获得的结果隔行隔列降采样,即:
Figure BDA0002475722170000033
Figure BDA0002475722170000034
其中,Ν表示高斯金字塔顶层的层数,Q表示高斯金字塔第数据的列数,j表示高斯金字塔第1数据的行数,w(m,η)为5X5的窗口函数。
进一步的,所述对不同数据类型之间的衔接,把不同的数据类型进行转换后符合各个数据仓库的数据结构的方法执行以下步骤:从不同数据库中随机抽取数据,输入抽取的数据,数据的类别集合表示为:S={S1,S2,S3,…,Sn},数据的属性特征集合表示为:O={O1,O2,O3,…,On};使用如下步骤,计算并保存所有数据类别为Sj的概率分布,j=1,2,3,…,n:步骤S1:使用如下公式计算具有特征O的数据所属类别Si的概率分布为:
Figure BDA0002475722170000041
Figure BDA0002475722170000042
其中,p(Sj|Oj)表示某个数据类别为Sj具有属性特征O的概率,λ位调整系数,取值范围为:0.3~0.9;步骤S2:通过步骤S1计算得到的概率,使用如下公式,计算每个数据类别具有属性特征O的概率为:
Figure BDA0002475722170000043
Figure BDA0002475722170000044
其中,y为定义的类别参数,其可以是任何值,但每一个数据类别对应的y之间均互不相同;根据计算得到的p(Sj),进行分类,具体执行以下步骤:设定一个阈值,将所有计算得到的p(Sj)两两之间进行差值运算,将计算得到的差值在设定的阈值范围内的两个数据归为同一类别,对应为同一y值,使用同一数据结构进行表示。
进一步的,所述校验前述步骤执行动作的合法性、准确性以及数据格式的合法性的方法执行以下步骤:进行数据特征提取,输出提取到的数据特征;根据提取到的数据特征,进行数据匹配校验,得到数据校验的结果。
本发明的基于大数据的多源数据仓库的库间数据转换系统及方法,具有如下有益效果:本发明通过语法语义解析,针对不同数据库使用的不同语法和语义,自动识别,解析不同数据仓库中的语法语义,完成多源数据仓库的数据对接,使得多源数据的大数据分析变为可能;同时,数据标准转换模块,获取不同数据库中各自所需的数据格式标准和数据结构,根据获取的数据格式标准和数据结构对数据标准进行转换;数据类型转换模块,用于对不同数据类型之间的衔接,把不同的数据类型进行转换后符合各个数据仓库的数据结构;针对不同数据结构的数据也能进行转换和融合;且在进行数据转换和融合过程中,使用高斯金字塔的数据特征提取融合方式,利用改进的算法,能够更好适应大数据的数据融合,进一步提升了系统的运行效率。
附图说明
图1为本发明的实施例提供的基于大数据的多源数据仓库的库间数据转换系统的系统结构示意图;
图2为本发明的实施例提供的基于大数据的多源数据仓库的库间数据转换方法的方法流程示意图;
图3为本发明的实施例提供的基于大数据的多源数据仓库的库间数据转换系统及方法进行数据融合时数据冗余度的实验曲线示意图与现有技术的实验曲线示意图的对比示意图;
图4为本发明的实施例提供的基于大数据的多源数据仓库的库间数据转换系统及方法的数据转换效率的实验曲线示意图与现有技术的实验曲线示意图;
图5为本发明的实施例提供的基于大数据的多源数据仓库的库间数据转换系统及方法的数据转换出错率实验效果示意图与现有技术的实验曲线示意图。
其中,1-现有技术贝叶斯数据融合的实验曲线,2-现有技术泊松数据融合的实验曲线,3-本发明的数据融合的数据曲线,4-本发明数据转换差错率曲线,5-现有技术数据转换差错率曲线。
具体实施方式
以下结合具体实施方式和附图对本发明的技术方案作进一步详细描述:
实施例1
如图1、图3、图4和图5所示,基于大数据的多源数据仓库的库间数据转换系统,,系统包括:语法语义解析引擎模块,解析不同数据仓库中的语法语义,自适应对接不同语法类型,完成不同数据库标准和数据库协议之间的对接;数据标准转换模块,用于获取不同数据库中各自所需的数据格式标准和数据结构,根据获取的数据格式标准和数据结构对数据标准进行转换;数据类型转换模块,用于对不同数据类型之间的衔接,把不同的数据类型进行转换后符合各个数据仓库的数据结构;调度引擎模块,用于协调各个数据仓库进行转换接口,分配资源,按照预先设计的流程,执行相关接口引擎操作;监控引擎模块,用于对的调度引擎模块和各个数据仓库的接口程序进行监控预警,对各个数据仓库的各类日志管理,保障正常运行;及校验引擎模块,用于校验接口语法语义解析引擎模块、数据标准转换引擎模块和数据类型转换引擎模块的执行动作的合法性、准确性以及数据格式的合法性。
具体的,本发明通过语法语义解析,针对不同数据库使用的不同语法和语义,自动识别,解析不同数据仓库中的语法语义,完成多源数据仓库的数据对接,使得多源数据的大数据分析变为可能;同时,数据标准转换模块,获取不同数据库中各自所需的数据格式标准和数据结构,根据获取的数据格式标准和数据结构对数据标准进行转换;数据类型转换模块,用于对不同数据类型之间的衔接,把不同的数据类型进行转换后符合各个数据仓库的数据结构;针对不同数据结构的数据也能进行转换和融合;且在进行数据转换和融合过程中,使用高斯金字塔的数据特征提取融合方式,利用改进的算法,能够更好适应大数据的数据融合,进一步提升了系统的运行效率。
实施例2
在上一实施例的基础上,语法语义解析引擎模块,解析不同数据仓库中的语法语义,自适应对接不同语法类型,完成不同数据库标准和数据库协议之间的对接的方法执行以下步骤:步骤1:从不同数据库中随机抽取数据,针对随机抽取的数据,进行训练,得到数据训练集,使用分层方法分解训练后数据,得到每一类数据的多尺度特征;步骤2:基于多尺度特征,应用支持向量机对训练集进行分类,得到分类结果;针对每一个分类结果,使用一致的数据标准化方法进行数据标准化。
采用上述技术方案,本发明的语法语义解析引模块,在进行语法语义解析时,通过随机抽取数据进行训练,得到多尺度特征后,再基于该多尺度特征进行分类,最终针对分类结果,进行数据标准化。因为语义分析是编译过程的一个逻辑阶段,语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。
实施例3
在上一实施例的基础上,使用分层方法分解训练后的数据,得到每一类数据的多尺度特征的方法执行以下步骤:将原始数据中心作为高斯金字塔的第0层,高斯金字塔的第1层数据通过窗口函数W(m,η)卷积获得,并将获得的结果隔行隔列降采样,即:
Figure BDA0002475722170000061
Figure BDA0002475722170000062
其中,Ν表示高斯金字塔顶层的层数,Q表示高斯金字塔第数据的列数,j表示高斯金字塔第1数据的行数,w(m,η)为5X5的窗口函数。
采用上述技术方案,现有技术中的高斯金字塔是在图像处理、计算机视觉、信号处理上所使用的一项技术。高斯金字塔本质上为信号的多尺度表示法,亦即将同一信号或图片多次的进行高斯模糊,并且向下取样,藉以产生不同尺度下的多组信号或图片以进行后续的处理,例如在影像辨识上,可以借由比对不同尺度下的图片,以防止要寻找的内容可能在图片上有不同的大小。高斯金字塔的理论基础为尺度空间理论,而后续也衍生出了多分辨率分析。
而本发使用高斯金字塔对每一类数据进行多尺度特征求解。该过程的求解相较于传统的多尺度特征求解,其效率更高,且求解后的准确率更高。将高斯金字塔应用于这样的过程,将大大提升了多尺度特征的求解效率和准确率。
实施例4
在上一实施例的基础上,数据类型转换模块,对不同数据类型之间的衔接,把不同的数据类型进行转换后符合各个数据仓库的数据结构的方法执行以下步骤:从不同数据库中随机抽取数据,输入抽取的数据,数据的类别集合表示为:S={S1,S2,S3,…,Sn},数据的属性特征集合表示为:O={O1,O2,O3,…,On};使用如下步骤,计算并保存所有数据类别为Sj的概率分布,j=1,2,3,…,n:步骤S1:使用如下公式计算具有特征O的数据所属类别Si的概率分布为:
Figure BDA0002475722170000071
其中,p(Sj|Oj)表示某个数据类别为Sj具有属性特征O的概率,λ位调整系数,取值范围为:0.3~0.9;步骤S2:通过步骤S1计算得到的概率,使用如下公式,计算每个数据类别具有属性特征O的概率为:
Figure BDA0002475722170000072
Figure BDA0002475722170000073
其中,y为定义的类别参数,其可以是任何值,但每一个数据类别对应的y之间均互不相同;根据计算得到的p(Sj),进行分类,具体执行以下步骤:设定一个阈值,将所有计算得到的p(Sj)两两之间进行差值运算,将计算得到的差值在设定的阈值范围内的两个数据归为同一类别,对应为同一y值,使用同一数据结构进行表示。
具体的,本发明通过语法语义解析,针对不同数据库使用的不同语法和语义,自动识别,解析不同数据仓库中的语法语义,完成多源数据仓库的数据对接,使得多源数据的大数据分析变为可能;同时,数据标准转换模块,获取不同数据库中各自所需的数据格式标准和数据结构,根据获取的数据格式标准和数据结构对数据标准进行转换;数据类型转换模块,用于对不同数据类型之间的衔接,把不同的数据类型进行转换后符合各个数据仓库的数据结构;针对不同数据结构的数据也能进行转换和融合;且在进行数据转换和融合过程中,使用高斯金字塔的数据特征提取融合方式,利用改进的算法,能够更好适应大数据的数据融合,进一步提升了系统的运行效率。
实施例5
在上一实施例的基础上,校验引擎模块,校验接口语法语义解析引擎模块、数据标准转换引擎模块和数据类型转换引擎模块的执行动作的合法性、准确性以及数据格式的合法性的方法执行以下步骤:进行数据特征提取,输出提取到的数据特征;根据提取到的数据特征,进行数据匹配校验,得到数据校验的结果。
实施例6
一种基于大数据的多源数据仓库的库间数据转换方法,方法执行以下步骤:解析不同数据仓库中的语法语义,自适应对接不同语法类型,完成不同数据库标准和数据库协议之间的对接;获取不同数据库中各自所需的数据格式标准和数据结构,根据获取的数据格式标准和数据结构对数据标准进行转换;对不同数据类型之间的衔接,把不同的数据类型进行转换后符合各个数据仓库的数据结构;协调各个数据仓库进行转换接口,分配资源,按照预先设计的流程,执行相关接口引擎操作;对的调度引擎模块和各个数据仓库的接口程序进行监控预警,对各个数据仓库的各类日志管理,保障正常运行;校验前述步骤执行动作的合法性、准确性以及数据格式的合法性。
具体的,数据结构(data structure)是带有结构特性的数据元素的集合,它研究的是数据的逻辑结构和数据的物理结构以及它们之间的相互关系,并对这种结构定义相适应的运算,设计出相应的算法,并确保经过这些运算以后所得到的新结构仍保持原来的结构类型。简而言之,数据结构是相互之间存在一种或多种特定关系的数据元素的集合,即带“结构”的数据元素的集合。“结构”就是指数据元素之间存在的关系,分为逻辑结构和存储结构。
而由于不同数据仓库采用的数据结构往往不同,在需要获取不同数据仓库的数据时,往往会因为数据结构的不同造成很多的数据误差。因此,本发明将不同数据库中获取的数据都进行数据标准化,可以保证最终得到的数据满足需求。
实施例7
在上一实施例的基础上,解析不同数据仓库中的语法语义,自适应对接不同语法类型,完成不同数据库标准和数据库协议之间的对接的方法执行以下步骤:步骤1:从不同数据库中随机抽取数据,针对随机抽取的数据,进行训练,得到数据训练集,使用分层方法分解训练后数据,得到每一类数据的多尺度特征;步骤2:基于多尺度特征,应用支持向量机对训练集进行分类,得到分类结果;针对每一个分类结果,使用一致的数据标准化方法进行数据标准化。
实施例8
在上一实施例的基础上,使用分层方法分解训练后的数据,得到每一类数据的多尺度特征的方法执行以下步骤:将原始数据中心作为高斯金字塔的第0层,高斯金字塔的第1层数据通过窗口函数W(m,η)卷积获得,并将获得的结果隔行隔列降采样,即:
Figure BDA0002475722170000081
Figure BDA0002475722170000091
其中,Ν表示高斯金字塔顶层的层数,Q表示高斯金字塔第数据的列数,j表示高斯金字塔第1数据的行数,w(m,η)为5X5的窗口函数。
具体的,随着大数据时代的来临,数据的使用和分析越来越受到人们的关注,但是关于数据的使用有一个不可规避的问题,即数据的来源很多,导致各种来源的数据形式、格式是不同的,难以统一,所以也就难以直接拿来使用,以免给程序带来过多的负面影响,造成不必要的麻烦,但是如果舍弃这部分数据还会导致数据浪费,降低分析的准确性,所以如何能够在造成较小系统影响的情况下合理利用这些多源数据就显得极为重要和困难,目前,关于如车辆牌号、品牌、排量等属性的与汽车相关的数据还没用良好的数据筛查处理方法,面对较大的身份属性数据时,往往难以顺利地分选出其中的可用数据,所以据此所做的数据分析的准确性仍然有待提高。
实施例9
在上一实施例的基础上,对不同数据类型之间的衔接,把不同的数据类型进行转换后符合各个数据仓库的数据结构的方法执行以下步骤:从不同数据库中随机抽取数据,输入抽取的数据,数据的类别集合表示为:S={S1,S2,S3,…,Sn},数据的属性特征集合表示为:O={O1,O2,O3,…,On};使用如下步骤,计算并保存所有数据类别为Sj的概率分布,j=1,2,3,…,n:步骤S1:使用如下公式计算具有特征O的数据所属类别Si的概率分布为:
Figure BDA0002475722170000092
Figure BDA0002475722170000093
其中,p(Sj|Oj)表示某个数据类别为Sj具有属性特征O的概率,λ位调整系数,取值范围为:0.3~0.9;步骤S2:通过步骤S1计算得到的概率,使用如下公式,计算每个数据类别具有属性特征O的概率为:
Figure BDA0002475722170000094
Figure BDA0002475722170000095
其中,y为定义的类别参数,其可以是任何值,但每一个数据类别对应的y之间均互不相同;根据计算得到的p(Sj),进行分类,具体执行以下步骤:设定一个阈值,将所有计算得到的p(Sj)两两之间进行差值运算,将计算得到的差值在设定的阈值范围内的两个数据归为同一类别,对应为同一y值,使用同一数据结构进行表示。
实施例10
在上一实施例的基础上,校验前述步骤执行动作的合法性、准确性以及数据格式的合法性的方法执行以下步骤:进行数据特征提取,输出提取到的数据特征;根据提取到的数据特征,进行数据匹配校验,得到数据校验的结果。
以上所述仅为本发明的一个实施例子,但不能以此限制本发明的范围,凡依据本发明所做的结构上的变化,只要不失本发明的要义所在,都应视为落入本发明保护范围之内受到制约。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.基于大数据的多源数据仓库的库间数据转换系统,其特征在于,所述系统包括:语法语义解析引擎模块,解析不同数据仓库中的语法语义,自适应对接不同语法类型,完成不同数据库标准和数据库协议之间的对接;数据标准转换模块,用于获取不同数据库中各自所需的数据格式标准和数据结构,根据获取的数据格式标准和数据结构对数据标准进行转换;数据类型转换模块,用于对不同数据类型之间的衔接,把不同的数据类型进行转换后符合各个数据仓库的数据结构;调度引擎模块,用于协调各个数据仓库进行转换接口,分配资源,按照预先设计的流程,执行相关接口引擎操作;监控引擎模块,用于对所述的调度引擎模块和各个数据仓库的接口程序进行监控预警,对各个数据仓库的各类日志管理,保障正常运行;及校验引擎模块,用于校验接口语法语义解析引擎模块、数据标准转换引擎模块和数据类型转换引擎模块的执行动作的合法性、准确性以及数据格式的合法性。
2.如权利要求1所述的系统,其特征在于,所述语法语义解析引擎模块,解析不同数据仓库中的语法语义,自适应对接不同语法类型,完成不同数据库标准和数据库协议之间的对接的方法执行以下步骤:步骤1:从不同数据库中随机抽取数据,针对随机抽取的数据,进行训练,得到数据训练集,使用分层方法分解训练后数据,得到每一类数据的多尺度特征;步骤2:基于多尺度特征,应用支持向量机对所述训练集进行分类,得到分类结果;针对每一个分类结果,使用一致的数据标准化方法进行数据标准化。
3.如权利要求3所述的系统,其特征在于,所述使用分层方法分解训练后的数据,得到每一类数据的多尺度特征的方法执行以下步骤:将原始数据中心作为高斯金字塔的第0层,高斯金字塔的第1层数据通过窗口函数W(m,η)卷积获得,并将获得的结果隔行隔列降采样,即:
Figure FDA0002475722160000011
Figure FDA0002475722160000012
其中,Ν表示高斯金字塔顶层的层数,Q表示高斯金字塔第数据的列数,j表示高斯金字塔第1数据的行数,w(m,η)为5X5的窗口函数。
4.如权利要求2所述的系统,其特征在于,所述数据类型转换模块,对不同数据类型之间的衔接,把不同的数据类型进行转换后符合各个数据仓库的数据结构的方法执行以下步骤:从不同数据库中随机抽取数据,输入抽取的数据,数据的类别集合表示为:S={S1,S2,S3,…,Sn},数据的属性特征集合表示为:O={O1,O2,O3,…,On};使用如下步骤,计算并保存所有数据类别为Sj的概率分布,j=1,2,3,…,n:步骤S1:使用如下公式计算具有特征O的数据所属类别Si的概率分布为:
Figure FDA0002475722160000013
其中,p(Sj|Oj)表示某个数据类别为Sj具有属性特征O的概率,λ位调整系数,取值范围为:0.3~0.9;步骤S2:通过步骤S1计算得到的概率,使用如下公式,计算每个数据类别具有属性特征O的概率为:
Figure FDA0002475722160000014
Figure FDA0002475722160000015
其中,y为定义的类别参数,其可以是任何值,但每一个数据类别对应的y之间均互不相同;根据计算得到的p(Sj),进行分类,具体执行以下步骤:设定一个阈值,将所有计算得到的p(Sj)两两之间进行差值运算,将计算得到的差值在设定的阈值范围内的两个数据归为同一类别,对应为同一y值,使用同一数据结构进行表示。
5.如权利要求3所述的系统,其特征在于,所述校验引擎模块,校验接口语法语义解析引擎模块、数据标准转换引擎模块和数据类型转换引擎模块的执行动作的合法性、准确性以及数据格式的合法性的方法执行以下步骤:进行数据特征提取,输出提取到的数据特征;根据提取到的数据特征,进行数据匹配校验,得到数据校验的结果。
6.一种基于权利要求1至5之一所述系统的基于大数据的多源数据仓库的库间数据转换方法,其特征在于,所述方法执行以下步骤:解析不同数据仓库中的语法语义,自适应对接不同语法类型,完成不同数据库标准和数据库协议之间的对接;获取不同数据库中各自所需的数据格式标准和数据结构,根据获取的数据格式标准和数据结构对数据标准进行转换;对不同数据类型之间的衔接,把不同的数据类型进行转换后符合各个数据仓库的数据结构;协调各个数据仓库进行转换接口,分配资源,按照预先设计的流程,执行相关接口引擎操作;对所述的调度引擎模块和各个数据仓库的接口程序进行监控预警,对各个数据仓库的各类日志管理,保障正常运行;校验前述步骤执行动作的合法性、准确性以及数据格式的合法性。
7.如权利要求6所述的方法,其特征在于,所述解析不同数据仓库中的语法语义,自适应对接不同语法类型,完成不同数据库标准和数据库协议之间的对接的方法执行以下步骤:步骤1:从不同数据库中随机抽取数据,针对随机抽取的数据,进行训练,得到数据训练集,使用分层方法分解训练后数据,得到每一类数据的多尺度特征;步骤2:基于多尺度特征,应用支持向量机对所述训练集进行分类,得到分类结果;针对每一个分类结果,使用一致的数据标准化方法进行数据标准化。
8.如权利要求7所述的方法,其特征在于,所述使用分层方法分解训练后的数据,得到每一类数据的多尺度特征的方法执行以下步骤:将原始数据中心作为高斯金字塔的第0层,高斯金字塔的第1层数据通过窗口函数W(m,η)卷积获得,并将获得的结果隔行隔列降采样,即:
Figure FDA0002475722160000021
Figure FDA0002475722160000022
其中,Ν表示高斯金字塔顶层的层数,Q表示高斯金字塔第数据的列数,j表示高斯金字塔第1数据的行数,w(m,η)为5X5的窗口函数。
9.如权利要求8所述的方法,其特征在于,所述对不同数据类型之间的衔接,把不同的数据类型进行转换后符合各个数据仓库的数据结构的方法执行以下步骤:从不同数据库中随机抽取数据,输入抽取的数据,数据的类别集合表示为:S={S1,S2,S3,…,Sn},数据的属性特征集合表示为:O={O1,O2,O3,…,On};使用如下步骤,计算并保存所有数据类别为Sj的概率分布,j=1,2,3,…,n:步骤S1:使用如下公式计算具有特征O的数据所属类别Si的概率分布为:
Figure FDA0002475722160000023
其中,p(Sj|Oj)表示某个数据类别为Sj具有属性特征O的概率,λ位调整系数,取值范围为:0.3~0.9;步骤S2:通过步骤S1计算得到的概率,使用如下公式,计算每个数据类别具有属性特征O的概率为:
Figure FDA0002475722160000031
其中,y为定义的类别参数,其可以是任何值,但每一个数据类别对应的y之间均互不相同;根据计算得到的p(Sj),进行分类,具体执行以下步骤:设定一个阈值,将所有计算得到的p(Sj)两两之间进行差值运算,将计算得到的差值在设定的阈值范围内的两个数据归为同一类别,对应为同一y值,使用同一数据结构进行表示。
10.如权利要求9所述的方法,其特征在于,所述校验前述步骤执行动作的合法性、准确性以及数据格式的合法性的方法执行以下步骤:进行数据特征提取,输出提取到的数据特征;根据提取到的数据特征,进行数据匹配校验,得到数据校验的结果。
CN202010369409.6A 2020-04-30 2020-04-30 基于大数据的多源数据仓库的库间数据转换系统及方法 Pending CN111581299A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010369409.6A CN111581299A (zh) 2020-04-30 2020-04-30 基于大数据的多源数据仓库的库间数据转换系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010369409.6A CN111581299A (zh) 2020-04-30 2020-04-30 基于大数据的多源数据仓库的库间数据转换系统及方法

Publications (1)

Publication Number Publication Date
CN111581299A true CN111581299A (zh) 2020-08-25

Family

ID=72122848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010369409.6A Pending CN111581299A (zh) 2020-04-30 2020-04-30 基于大数据的多源数据仓库的库间数据转换系统及方法

Country Status (1)

Country Link
CN (1) CN111581299A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486332A (zh) * 2021-07-22 2021-10-08 华控清交信息科技(北京)有限公司 一种计算节点、隐私计算系统及算法引擎的加载方法
US11940962B2 (en) 2021-12-09 2024-03-26 International Business Machines Corporation Preparing a database for a domain specific application using a centralized data repository

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN104156733A (zh) * 2014-08-12 2014-11-19 中国人民解放军理工大学 一种基于多尺度结构特征的地基云状识别方法
US20170220613A1 (en) * 2016-02-01 2017-08-03 Smartshift Technologies, Inc. Systems and methods for database orientation transformation
CN109697062A (zh) * 2019-01-14 2019-04-30 深圳孟德尔软件工程有限公司 一种多源数据交换系统及融合方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN104156733A (zh) * 2014-08-12 2014-11-19 中国人民解放军理工大学 一种基于多尺度结构特征的地基云状识别方法
US20170220613A1 (en) * 2016-02-01 2017-08-03 Smartshift Technologies, Inc. Systems and methods for database orientation transformation
CN109697062A (zh) * 2019-01-14 2019-04-30 深圳孟德尔软件工程有限公司 一种多源数据交换系统及融合方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486332A (zh) * 2021-07-22 2021-10-08 华控清交信息科技(北京)有限公司 一种计算节点、隐私计算系统及算法引擎的加载方法
US11940962B2 (en) 2021-12-09 2024-03-26 International Business Machines Corporation Preparing a database for a domain specific application using a centralized data repository

Similar Documents

Publication Publication Date Title
US8898092B2 (en) Leveraging user-to-tool interactions to automatically analyze defects in it services delivery
US9390176B2 (en) System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data
US20210366055A1 (en) Systems and methods for generating accurate transaction data and manipulation
US20220342921A1 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
US9606984B2 (en) Unsupervised clustering of dialogs extracted from released application logs
CN116629275B (zh) 一种基于大数据的智能决策支持系统及方法
US9773252B1 (en) Discovery of new business openings using web content analysis
US9836520B2 (en) System and method for automatically validating classified data objects
US11544943B1 (en) Entity extraction with encoder decoder machine learning model
CN111581193A (zh) 数据处理方法、设备、计算机系统及存储介质
CN111581299A (zh) 基于大数据的多源数据仓库的库间数据转换系统及方法
CN117648093A (zh) 基于大模型和自定制需求模板的rpa流程自动化生成方法
CN113780365A (zh) 样本生成方法和装置
CN108549672A (zh) 一种数据智能分析方法及系统
CN116881971A (zh) 一种敏感信息泄露检测方法、设备及存储介质
CN111680082A (zh) 基于数据整合的政府财政数据采集系统及数据采集方法
CN107368464B (zh) 一种获取招标产品信息的方法及装置
US11335108B2 (en) System and method to recognise characters from an image
CN115294593A (zh) 一种图像信息抽取方法、装置、计算机设备及存储介质
CN112182413B (zh) 一种基于教学大数据的智能推荐方法及服务器
CN111695117B (zh) 一种webshell脚本检测方法及装置
CN111046934B (zh) 一种swift报文软条款识别方法及装置
CN114443834A (zh) 一种证照信息提取的方法、装置及存储介质
CN112307195A (zh) 一种专利信息展示方法、装置、设备及存储介质
US12026458B2 (en) Systems and methods for generating document templates from a mixed set of document types

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200825

RJ01 Rejection of invention patent application after publication