CN111046113B - 用于不同类型数据仓库的数据检索装置及方法 - Google Patents

用于不同类型数据仓库的数据检索装置及方法 Download PDF

Info

Publication number
CN111046113B
CN111046113B CN201911274020.7A CN201911274020A CN111046113B CN 111046113 B CN111046113 B CN 111046113B CN 201911274020 A CN201911274020 A CN 201911274020A CN 111046113 B CN111046113 B CN 111046113B
Authority
CN
China
Prior art keywords
data
retrieval
module
warehouse
warehouses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911274020.7A
Other languages
English (en)
Other versions
CN111046113A (zh
Inventor
杨燊
谢赟
葛兵
韩欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Datatom Information Technology Co ltd
Original Assignee
Shanghai Datatom Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Datatom Information Technology Co ltd filed Critical Shanghai Datatom Information Technology Co ltd
Priority to CN201911274020.7A priority Critical patent/CN111046113B/zh
Publication of CN111046113A publication Critical patent/CN111046113A/zh
Application granted granted Critical
Publication of CN111046113B publication Critical patent/CN111046113B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种用于不同类型数据仓库的数据检索装置,包括:对不同类型数据仓库的数据配置定时检索或实时检索的检索方式选择模块;根据选定的检索方式以及需要检索的数据仓库的配置信息,提供相应数据检索接口的查询下载模块;利用数据检索接口对相应数据仓库中的大数据量进行分段,建立并发任务的分段并发任务模块;在进行并发任务下载数据的过程中,对数据进行轮询,并判断数据是否完整的轮询模块;根据相应数据仓库中大数据的种类和大数据的分区层次进行数据分类的分类模块;用于对分类后的数据中预设类型的特殊业务字段进行数据清洗和规则匹配的清洗匹配模块。可以灵活、高效且可扩展地对不同数据仓库的数据进行检索和下载。

Description

用于不同类型数据仓库的数据检索装置及方法
技术领域
本发明涉及数据检索技术领域,尤其涉及不同类型数据仓库的数据检索装置及方法。
背景技术
当前许多大数据公司都使用一些数据仓库来进行大数据计算相关业务。例如利用阿里云的大数据计算服务MaxCompute,并在其可视化平台DataWorks上进行一站式的数据同步、业务流程设计、数据开发、管理和运维功能。其中许多任务会对数据进行分区存储,比如按天分区存储数据,但是由于数据仓库的种类和数据来源的不同等原因导致存储的数据表字段类型、格式等都存在许多差异,且在这个过程中还伴随着脏数据的产生,从数据仓库检索和下载数据过程中往往没有一个通用型和可扩展的模型可以解决这个问题。
发明内容
本发明的目的在于提供用于不同类型数据仓库的数据检索装置及方法,可以灵活、高效且可扩展地对不同数据仓库的数据进行检索和下载。
实现上述目的的技术方案是:
一种用于不同类型数据仓库的数据检索装置,包括:
用于对不同类型数据仓库的数据配置定时检索或实时检索的检索方式选择模块;
根据选定的检索方式以及需要检索的数据仓库的配置信息,提供相应数据仓库的数据检索接口的查询下载模块;
利用数据检索接口对相应数据仓库中的大数据量进行分段,建立并发任务的分段并发任务模块;
在所述分段并发任务模块进行并发任务下载数据的过程中,对数据进行轮询,并判断数据是否完整的轮询模块;
根据相应数据仓库中大数据的种类和大数据的分区层次进行数据分类的分类模块;以及
用于对分类后的数据中预设类型的特殊业务字段进行数据清洗和规则匹配的清洗匹配模块。
优选的,将需要检索的数据仓库的相关连接配置信息以数据字典表的形式配置,或在配置文件中进行配置,所述查询下载模块提供数据检索的统一API接口。
优选的,所述分段并发任务模块利用java线程池对大数据量进行批量并发下载。
优选的,所述轮询模块在轮询过程中若部分数据超过约定的最大时长时还未查询完毕,则终止对这部分数据的查询,并将这些未查询到的数据记录下来生成异常数据记录。
优选的,所述实时检索指:在加载配置信息进行指定数据仓库的连接后,通过时间频率对数据仓库项目下的所有数据进行实时更新处理;
所述定时检索指:在加载配置信息进行指定数据仓库的连接后,通过定时对数据仓库项目下的所有数据进行定时更新处理。
一种基于上述数据检索装置的数据检索方法,包括:
针对需要检索的数据仓库,通过所述检索方式选择模块选择定时检索方式或实时检索方式;
所述查询下载模块根据定时检索方式或实时检索方式,以及需要检索的数据仓库的配置信息,提供相应数据仓库的数据检索接口;
所述分段并发任务模块根据数据检索接口对相应数据仓库中的大数据量进行分段,建立并发任务;
在所述分段并发任务模块进行并发任务下载数据的过程中,所述轮询模块对数据进行轮询,并判断数据是否完整;
所述分类模块根据相应数据仓库中大数据的种类和大数据的分区层次进行数据分类;
所述清洗匹配模块对分类后的数据中预设类型的特殊业务字段进行数据清洗和规则匹配。
本发明的有益效果是:本发明通过配置定时检索或实时检索的检索方式、大数据量进行分段和建立并发任务、对数据进行轮询、分类,以及数据清洗和规则匹配等手段,可以灵活、高效的查询和获取不同数据仓库的数据信息,具有一定地扩展性和便捷性。
附图说明
图1是本发明的数据检索装置的结构图;
图2是本发明的数据检索方法的流程图。
具体实施方式
下面将结合附图对本发明作进一步说明。
请参阅图1,本发明的用于不同类型数据仓库的数据检索装置,包括:检索方式选择模块1、查询下载模块2、分段并发任务模块3、轮询模块4、分类模块5和清洗匹配模块6。
检索方式选择模块1用于对不同类型数据仓库的数据配置定时检索或实时检索的检索方式。实时检索:在灵活加载配置信息(视图中的字典表或者外部配置文件)进行指定数据仓库的连接后,可以通过时间频率(3min,1h等在视图中的字典表或者外部配置文件中配置)对数据仓库项目下的所有数据进行实时更新处理。
定时检索:在灵活加载配置信息(视图中的字典表或者外部配置文件)进行指定数据仓库的连接后,可以通过定时(每天的9点或者10点等在视图中的字典表或者外部配置文件中配置)对数据仓库项目下的所有数据进行定时更新处理。
查询下载模块2根据选定的检索方式以及需要检索的数据仓库的配置信息,提供相应数据仓库的数据检索接口。主要针对不同数据仓库类型各平台运行的兼容性和检索数据内容的多样性提供了灵活的检索和下载数据仓库数据的方法。
数据仓库类型各平台运行的兼容性体现在:数据仓库类型的相关连接配置信息以数据字典表的形式配置到视图中,或者在项目外部配置文件中进行相关的属性配置,依据不同数据仓库的连接特性在本发明的基础上进行扩展,提供数据检索的统一RESTful(RESTFUL是一种网络应用程序的设计风格和开发方式,基于HTTP,可以使用XML格式定义或JSON格式定义)API(应用程序接口)接口,对于不同的平台调用检索接口的差异性仅仅需要进行调用数据检索的API接口即可,然后在配置文件中配置需要检索的数据仓库信息,如阿里云的大数据计算服务MaxCompute。解决了不同数据仓库类型的兼容性后,可以在下一步解决数据仓库中项目下数据内容查询的多样性,可以对数据表中的表的全量和增量进行统计,对数据内容的更新状态和是否是空的记录进行统一检索。
分段并发任务模块3利用数据检索接口对相应数据仓库中的大数据量进行分段,建立并发任务,利用java线程池对大数据量进行批量并发下载。
分段并发任务模块3主要针对大数据量进行的分段并发任务,由于数据仓库的数据量一般较大,且在调用不同数据仓库提供的数据接口下载数据时往往比较耗时,分段并发任务模块3中对查询下载模块2中的数据源提供大数据量的分段,然后为这些分段的数据建立并发任务,利用java线程池对大数据量进行批量并发下载,提高数据检索和下载效率;线程池数量可根据服务器和数据量大小灵活配置到数据字典或外部配置文件中。例如数据量为7435,根据服务器所能承受的最大线程数,若可保证200以上线程同时并发,则可在配置文件中自定义每条线程的数据量为30,则本发明中的分段并发任务会通过计算并发为248条线程进行数据查询和下载。
轮询模块4在分段并发任务模块3进行并发任务下载数据的过程中,对数据进行轮询,并判断数据是否完整。提供了保证数据的一致性、完性的轮询机制,在分段并发任务模块3进行并发任务下载数据的过程中,会因为一些不可控因素造成部分数据无法正常获取造成部分数据丢失,如某个时间段网络问题导致数据连接中断、数据表信息错误等,轮询模块4中通过轮询机制结合业务封装一套简单的算法,对数据进行检索的效率和性能进行了处理。例如该模块封装的轮询算法:每轮查询方法结束后会检查数据量是否缺失,若缺失会继续查询缺失的数据直到数据量全部查询完毕为止;特殊情况造成的数据缺失异常处理和其他业务的处理方案。轮询模块4还对数据下载过程中的异常进行了处理,即在在轮询过程中若部分数据超过约定的最大时长时还未查询完毕,则终止对这部分数据的查询,以保证已经查询到的数据的后续处理的正常进行,并且将这些未查询到的数据记录下来生成异常数据记录以供排查所需。约定的数据查询最大时长的添加和更改均可在配置文件中或视图字典表中进行配置。
分类模块5根据相应数据仓库中大数据的种类和大数据的分区层次进行数据分类。在通过分段并发任务模块3和轮询模块4对数据仓库的数据检索时,可根据数据的不同存储状态进行一下分类处理,比如对数据表的最大分区的最新更新时间进行检索和下载可分类采取以下方案:
无数据表,这种情况不需要查询;
有数据表无分区,这种情况需要全表查询最大更新时间;
表中分区为“0”,这种情况需要全表查询最大更新时间;
有表有分区且分区不为“0”,这种情况需要查询最大分区的最新更新时间。
清洗匹配模块6用于对分类后的数据中预设类型的特殊业务字段进行数据清洗和规则匹配。例如在分类模块5中对数据表的最大分区的最新更新时间进行检索和下载后,还需要对下载的数据进一步处理,比如对日期字段的不规则化的处理:
在数据仓库中有的项目数据格式根据要求有“20191113”、“2019-11-1300:00:00”、“20191113000000”各种不同格式类型,可根据用户需要在外部配置文件中统一配置时间格式或者从数据视图中的字典表对这些时间数据格式进行转化。日期为null处理,该类数据无法转换,记为异常并在异常数据中标明该类型;时间含字母或汉字处理,该类型无法转换,记为异常并在异常数据中标明该类型。
请参阅图2,本发明的基于上述数据检索装置的数据检索方法,包括下列步骤:
1)针对需要检索的数据仓库,通过检索方式选择模块1选择定时检索方式或实时检索方式。
2)查询下载模块2根据定时检索方式或实时检索方式,以及需要检索的数据仓库的配置信息,提供相应数据仓库的数据检索接口。
3)分段并发任务模块3根据数据检索接口对相应数据仓库中的大数据量进行分段,建立并发任务。
4)在分段并发任务模块3进行并发任务下载数据的过程中,轮询模块4对数据进行轮询,并判断数据是否完整。
5)分类模块5根据相应数据仓库中大数据的种类和大数据的分区层次进行数据分类。
6)清洗匹配模块6对分类后的数据中预设类型的特殊业务字段进行数据清洗和规则匹配。
以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案也应该属于本发明的范畴,应由各权利要求所限定。

Claims (6)

1.一种用于不同类型数据仓库的数据检索装置,其特征在于,包括:
用于对不同类型数据仓库的数据配置定时检索或实时检索的检索方式选择模块;
根据选定的检索方式以及需要检索的数据仓库的配置信息,提供相应数据仓库的数据检索接口的查询下载模块;
利用数据检索接口对相应数据仓库中的大数据量进行分段,建立并发任务的分段并发任务模块;
在所述分段并发任务模块进行并发任务下载数据的过程中,对数据进行轮询,并判断数据是否完整的轮询模块;
根据相应数据仓库中大数据的种类和大数据的分区层次进行数据分类的分类模块;以及
用于对分类后的数据中预设类型的特殊业务字段进行数据清洗和规则匹配的清洗匹配模块。
2.根据权利要求1所述的用于不同类型数据仓库的数据检索装置,其特征在于,将需要检索的数据仓库的相关连接配置信息以数据字典表的形式配置,或在配置文件中进行配置,所述查询下载模块提供数据检索的统一API接口。
3.根据权利要求1所述的用于不同类型数据仓库的数据检索装置,其特征在于,所述分段并发任务模块利用java线程池对大数据量进行批量并发下载。
4.根据权利要求1所述的用于不同类型数据仓库的数据检索装置,其特征在于,所述轮询模块在轮询过程中若部分数据超过约定的最大时长时还未查询完毕,则终止对这部分数据的查询,并将这些未查询到的数据记录下来生成异常数据记录。
5.根据权利要求1所述的用于不同类型数据仓库的数据检索装置,其特征在于,所述实时检索指:在加载配置信息进行指定数据仓库的连接后,通过时间频率对数据仓库项目下的所有数据进行实时更新处理;
所述定时检索指:在加载配置信息进行指定数据仓库的连接后,通过定时对数据仓库项目下的所有数据进行定时更新处理。
6.一种基于权利要求1所述数据检索装置的数据检索方法,其特征在于,包括:
针对需要检索的数据仓库,通过所述检索方式选择模块选择定时检索方式或实时检索方式;
所述查询下载模块根据定时检索方式或实时检索方式,以及需要检索的数据仓库的配置信息,提供相应数据仓库的数据检索接口;
所述分段并发任务模块根据数据检索接口对相应数据仓库中的大数据量进行分段,建立并发任务;
在所述分段并发任务模块进行并发任务下载数据的过程中,所述轮询模块对数据进行轮询,并判断数据是否完整;
所述分类模块根据相应数据仓库中大数据的种类和大数据的分区层次进行数据分类;
所述清洗匹配模块对分类后的数据中预设类型的特殊业务字段进行数据清洗和规则匹配。
CN201911274020.7A 2019-12-12 2019-12-12 用于不同类型数据仓库的数据检索装置及方法 Active CN111046113B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911274020.7A CN111046113B (zh) 2019-12-12 2019-12-12 用于不同类型数据仓库的数据检索装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911274020.7A CN111046113B (zh) 2019-12-12 2019-12-12 用于不同类型数据仓库的数据检索装置及方法

Publications (2)

Publication Number Publication Date
CN111046113A CN111046113A (zh) 2020-04-21
CN111046113B true CN111046113B (zh) 2023-04-18

Family

ID=70236370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911274020.7A Active CN111046113B (zh) 2019-12-12 2019-12-12 用于不同类型数据仓库的数据检索装置及方法

Country Status (1)

Country Link
CN (1) CN111046113B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328705B (zh) * 2020-11-03 2023-10-24 成都中科大旗软件股份有限公司 支持任意配置周期的任务调度方法
CN113422786B (zh) * 2021-08-24 2021-11-30 机械科学研究总院江苏分院有限公司 基于物联网设备的通信系统、通信方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477568A (zh) * 2009-02-12 2009-07-08 清华大学 一种结构化数据和非结构化数据综合检索的方法
CN107622094A (zh) * 2017-08-30 2018-01-23 苏州朗动网络科技有限公司 一种基于搜索引擎的大批量数据导出系统和方法
CN108804863A (zh) * 2018-05-04 2018-11-13 深圳晶泰科技有限公司 通用力场数据库及其更新方法和检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630986B1 (en) * 1999-10-27 2009-12-08 Pinpoint, Incorporated Secure data interchange

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477568A (zh) * 2009-02-12 2009-07-08 清华大学 一种结构化数据和非结构化数据综合检索的方法
CN107622094A (zh) * 2017-08-30 2018-01-23 苏州朗动网络科技有限公司 一种基于搜索引擎的大批量数据导出系统和方法
CN108804863A (zh) * 2018-05-04 2018-11-13 深圳晶泰科技有限公司 通用力场数据库及其更新方法和检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
屈志坚 ; 赵亮 ; 陈鼎龙 ; .配电网SCADA时序数据集群的RWI快速查询技术.中国电机工程学报.2018,(17),全文. *
赵德波 ; .基于数据仓库技术的QHSE报告系统的设计与实现.数字石油和化工.2008,(04),全文. *

Also Published As

Publication number Publication date
CN111046113A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
US10853124B2 (en) Managing user data in a multitenant deployment
CN104620239B (zh) 自适应查询优化
CN111459985B (zh) 标识信息处理方法及装置
CN104067216B (zh) 用于实施可扩展数据存储服务的系统和方法
WO2020087082A1 (en) Trace and span sampling and analysis for instrumented software
CN111046113B (zh) 用于不同类型数据仓库的数据检索装置及方法
CN109271435A (zh) 一种支持断点续传的数据抽取方法及系统
CN111881221A (zh) 物流服务里客户画像的方法、装置和设备
CN110134681B (zh) 数据存储与查询方法、装置、计算机设备及存储介质
US11308066B1 (en) Optimized database partitioning
CN109669925A (zh) 非结构化数据的管理方法及装置
US20190362016A1 (en) Frequent pattern analysis for distributed systems
CN111061802B (zh) 一种电力数据管理处理方法、装置及存储介质
CN108520052A (zh) 慢查询信息检索方法、装置、服务器及可读存储介质
CN106844497A (zh) 一种数据库代码的检查装置和方法
CN112527824B (zh) 分页查询方法、装置、电子设备和计算机可读存储介质
US7409380B1 (en) Facilitated reuse of K locations in a knowledge store
CN107291938A (zh) 订单查询系统及方法
CN115329150A (zh) 生成搜索条件树的方法、装置、电子设备及存储介质
CN112486409B (zh) 一种自动回收集群云硬盘的方法、系统、终端及存储介质
CN110688355A (zh) 变更容器状态的方法和装置
CN111343269B (zh) 一种数据下载方法、装置、计算机设备和存储介质
CN110990643B (zh) 一种基于GoJS的复杂任务可视化方法、终端设备及存储介质
CN113986948A (zh) 即时消息的查询方法、装置、服务器及存储介质
CN112527917A (zh) 一种数据处理的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant