CN110019109B - 用于处理数据仓库数据的方法及装置 - Google Patents

用于处理数据仓库数据的方法及装置 Download PDF

Info

Publication number
CN110019109B
CN110019109B CN201710566079.8A CN201710566079A CN110019109B CN 110019109 B CN110019109 B CN 110019109B CN 201710566079 A CN201710566079 A CN 201710566079A CN 110019109 B CN110019109 B CN 110019109B
Authority
CN
China
Prior art keywords
data
processing
query
warehouse
generate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710566079.8A
Other languages
English (en)
Other versions
CN110019109A (zh
Inventor
钟媛媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710566079.8A priority Critical patent/CN110019109B/zh
Publication of CN110019109A publication Critical patent/CN110019109A/zh
Application granted granted Critical
Publication of CN110019109B publication Critical patent/CN110019109B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种用于处理数据仓库数据的方法及装置。该方法包括:获取查询数据;根据所述查询数据,获取其对应的底层数据库中的基础数据;将所述基础数据进行自动处理以生成通用模型;以及通过所述通用模型处理数据仓库中的数据。本申请公开的用于处理数据仓库数据的方法及装置,能够在一定范围内自动形成通用数据需求与数据模型的“无缝沟通”,缩短响应时间。

Description

用于处理数据仓库数据的方法及装置
技术领域
本发明涉及数据仓库信息处理领域,具体而言,涉及一种用于处理数据仓库数据的方法及装置。
背景技术
在数据仓库模型体系中,有缓冲层、基础层、通用层、聚合层等。数据的清洗及简单的解析等是在缓冲层与基础层进行的,这两层的数据与生产系统数据基本一致。聚合层是根据具体业务及维度加工的强应用性指标汇总模型。而通用层则是根据业务主题通过聚合将抽象的、相关的业务聚合在一起的主题业务画像模型,具有一定的通用性、集成性、随时间变化性。
现有数据仓库通用模型的设计是通过全程人工手动编写的过程。具体实现过程可例如:1.调研业务需求、线上生产系统数据库各表间关系及字段用法。2.在1的基础上根据需求进行通用模型设计文档的编写,其中主要包含了以下几点:1)通用模型主键的确认;2)通用模型的加工方式;3)不同字段数据源、业务条件及数据处理加工的确认;4)通用模型业务需求覆盖度的确认(一般通用模型的覆盖度能达到80%-90%即可)。3.根据2提供的需求与数据源的映射关系开发程序、提交测试、上线。
现有技术方案的缺点如下:1.线上生产系统数据库各表间关系及字段用法的纯人工调研人工成本较高而且准确率对被调研者的依赖度较大。2.通用模型设计文档的编写耗时较大,且在编程时还得将数据加工逻辑用编程语言再写一遍。
因此,需要一种新的用于处理数据仓库数据的方法及装置。
在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种用于处理数据仓库数据的方法及装置,能够在一定范围内自动形成通用数据需求与数据模型的“无缝沟通”,缩短响应时间。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明的一方面,提出一种用于处理数据仓库数据的方法,该方法包括:获取查询数据;根据查询数据,获取其对应的底层数据库中的基础数据;将基础数据进行自动处理以生成通用模型;以及通过通用模型处理数据仓库中的数据。
在本公开的一种示例性实施例中,获取查询数据,包括:根据预定人员在预定时间内的操作,获取查询数据。
在本公开的一种示例性实施例中,根据查询数据,获取其对应的底层数据库中的基础数据,包括:根据查询数据,通过后端采集的方式获取其对应的底层数据库中的基础数据。
在本公开的一种示例性实施例中,根据查询数据,获取其对应的底层数据库中的基础数据,包括:获取查询数据对应的底层数据库中的数据库表与字段数据。
在本公开的一种示例性实施例中,将基础数据进行自动处理以生成通用模型,包括:将基础数据进行自动分类处理以生成第一数据表;以及将第一数据表中的信息进行分组处理以生成通用模型。
在本公开的一种示例性实施例中,将基础数据进行自动分类处理以生成第一数据表,包括:解析可扩展标记语言文件中的各个元素及元素值;通过元素及元素值将基础数据进行自动分类处理;以及将自动分类处理之后的数据按照第一预定字段整理以生成第一数据表。
在本公开的一种示例性实施例中,将自动分类处理之后的数据按照第一预定字段整理以生成第一数据表,包括:记录自动分类处理后的数据中数据库表与字段间的映射关系;记录自动分类处理后的数据中字段加工逻辑;以及将映射关系与字段加工逻辑按照第一预定字段整理以生成第一数据表。
在本公开的一种示例性实施例中,还包括:将自动分类处理之后的数据按照第二预定字段整理以生成第二数据表。
在本公开的一种示例性实施例中,还包括:比对第二数据表与数据仓库中缓冲层的表清单;将数据仓库中不存在的表进行数据抽取。
在本公开的一种示例性实施例中,还包括:比对第二数据表中的字段与数据仓库中缓冲层的表中的字段;将数据仓库中不存在的字段进行数据抽取。
在本公开的一种示例性实施例中,获取查询数据,包括:在预定的时间间隔获取查询数据。
在本公开的一种示例性实施例中,还包括:在查询数据有变化时,生成提醒信息。
根据本发明的一方面,提出一种用于处理数据仓库数据的装置,该装置包括:查询数据模块,用于获取查询数据;数据抽取模块,用于根据查询数据,获取其对应的底层数据库中的基础数据;模型生成模块,用于将基础数据进行自动处理以生成通用模型;以及数据处理模块,用于通过通用模型处理数据仓库中的数据。
在本公开的一种示例性实施例中,模型生成模块,包括:分类处理子模块,用于将基础数据进行自动分类处理以生成第一数据表;以及分组处理子模块,用于将第一数据表中的信息进行分组处理以生成通用模型。
根据本发明的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本发明的一方面,提出一种计算机可读介质,其上存储有计算机程序,其特征在于,程序被处理器执行时实现如上文中的方法。
根据本发明的用于处理数据仓库数据的方法及装置,能够在一定范围内自动形成通用数据需求与数据模型的“无缝沟通”,缩短响应时间。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
通过参照附图详细描述其示例实施例,本发明的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种用于处理数据仓库数据的方法的流程图。
图2是根据另一示例性实施例示出的一种用于处理数据仓库数据的方法的示意图。
图3是根据另一示例性实施例示出的一种用于处理数据仓库数据的方法的流程图。
图4是根据一示例性实施例示出的一种用于处理数据仓库数据的装置的框图。
图5是根据另一示例性实施例示出的一种用于处理数据仓库数据的装置的框图。
图6是根据一示例性实施例示出的一种电子设备的框图。
具体实施例
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本发明将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的,因此不能用于限制本发明的保护范围。
下面结合附图对本公开示例实施方式进行详细说明。
图1是根据一示例性实施例示出的一种用于处理数据仓库数据的方法的流程图。
如图1所示,在S102中,获取查询数据。查询数据可例如为用户提出的需求点数据,可例如,根据预定人员在预定时间内的操作,获取查询数据。还可例如,可根据每个部门专职数据人员特定时间段内对线上生产系统鼠标的点击或停留点抓取需求点,然后根据需求点的点击率从高到低排列,这个排列就能看出业务方需求点的强烈与否。数据需求点采集也可通过一套系统人工录入表名、表间关系、字段加工逻辑、编程语言,然后自动生成简单的脚本。本发明不以此为限。
在S104中,根据查询数据,获取其对应的底层数据库中的基础数据。可例如,通过后端采集数据手段获取到业务方在线上生产系统各查询页面模块的一些列行为(查询数据),并且通过上述查询数据获取到这些页面模块中显示的且能对应到底层数据库的所有数据信息。
在S106中,将基础数据进行自动处理以生成通用模型。将基础数据进行自动处理,可例如,将基础数据进行自动分类处理以生成第一数据表;以及将第一数据表中的信息进行分组处理以生成通用模型。在本发明实施例中,可例如,基础数据进行自动分类,将信息分类产生的数据表清单在数据仓库中落地为一张实体数据表(第一数据表)。第一数据表可例如用来记录字段间的映射关系以及字段加工逻辑等数据。还可例如,将第一数据表按照表名进行分组处理,以生成数据仓库通用模型。
在S108中,通过通用模型处理数据仓库中的数据。数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。可例如,将用户的查询数据输入通用模型中,数据仓库的通用模型根据表中的映射关系以及字段的加工逻辑等,对数据进行自动处理,根据用户需求生成报表等数据。
根据本发明的用于处理数据仓库数据的方法,通过将基础数据进行自动分类处理生成通用模型,然后利用通用模型响应用户需求处理数据仓库数据的方式,能够在一定范围内自动形成通用数据需求与数据模型的“无缝沟通”,缩短响应时间。
应清楚地理解,本发明描述了如何形成和使用特定示例,但本发明的原理不限于这些示例的任何细节。相反,基于本发明公开的内容的教导,这些原理能够应用于许多其它实施例。
在本公开的一种示例性实施例中,获取查询数据,包括:根据预定人员在预定时间内的操作,获取查询数据。
图2是根据另一示例性实施例示出的一种用于处理数据仓库数据的方法的示意图。该方法通过线上生产系统202、信息采集系统204、直通车数据抽取模块206、通用模型自动创建模块208、脚本开发模块210共同执行。根据查询数据,获取其对应的底层数据库中的基础数据,包括:根据查询数据,通过后端采集的方式获取其对应的底层数据库中的基础数据。在本公开的一种示例性实施例中,根据查询数据,获取其对应的底层数据库中的基础数据,包括:获取查询数据对应的底层数据库中的数据库表与字段数据。可例如,在业务系统中,每个线上生产系统都会有一些可供业务人员查询的界面模块。在原线上生产系统的基础上采用后端采集数据的方案。采集到的数据可例如,不只需要需求方在页面上点击的控件相关的数据信息,还需要这个页面上以及后端其他的相关信息(如图2所示),在本发明实施例中,获取页面上填写的信息,还获取比如“入库单号”标签对应到后台数据库中的表、字段以及有什么样的加工处理逻辑。通过上述数据组成本实施例中的基础数据。
图3是根据另一示例性实施例示出的一种用于处理数据仓库数据的方法的流程图。如图3所示,在S302中,解析可扩展标记语言文件中的各个元素及元素值。可例如,可扩展标记语言(XML),标准通用标记语言的子集,是一种用于标记电子文件。由于其具有结构性的标记语言现在已经成为一种通用的数据交换格式,它平台无关,语言无关,系统无关,给数据集成与交互带来极大方便。XML在不同的语言里解析方式都是一样的,只不过实现的语法不同。基本的解析方式有两种,一种叫SAX,另一种叫DOM。SAX是基于事件流的解析,DOM是基于XML文档树结构的解析。DOM生成和解析XML文档为XML文档的已解析版本定义了一组接口。解析器读入整个文档,然后构建一个驻留内存的树结构,然后代码就可以使用DOM接口来操作这个树结构。优点:整个文档树在内存中,便于操作;支持删除、修改、重新排列等多种功能;缺点:将整个文档调入内存,浪费时间和空间;使用场合:一旦解析了文档还需多次访问这些数据;硬件资源充足。XML的解析方式还有其他几种,然而本发明不以此为限。
在S304中,通过元素及元素值将基础数据进行自动分类处理。通过元素及元素值与基础数据中的表以及字段相互对应,将基础数据进行自动分类处理,分类的目标是将数据库表与字段分开,同时还要整理记录出字段与表间的映射关系,以及表间的关系。
在S306中,将自动分类处理之后的数据按照第一预定字段整理以生成第一数据表。在刚才信息分类产生的数据库表清单,此清单需要再数据仓库中落地为一张实体数据表,可例如为第一数据表。第一数据表可例如包含5个字段:自增长序号、表名、字段名、字段加工逻辑、表间关系等信息,还可例如包含是否已经由数据库提取出数据等相关信息,本发明不以此为限。
根据本发明的用于处理数据仓库数据的方法,通过XML语言解析文件中的元素与元素值,进而将基础数据中数据库表与字段分开的方式,能够自动生成数据仓库中通用模型的雏形、及自动维护本业务系统的数据源关系。
在本公开的一种示例性实施例中,将自动分类处理之后的数据按照第一预定字段整理以生成第一数据表,包括:记录自动分类处理后的数据中数据库表与字段间的映射关系;记录自动分类处理后的数据中字段加工逻辑;以及将映射关系与字段加工逻辑按照第一预定字段整理以生成第一数据表。在本公开的一种示例性实施例中,还包括:将自动分类处理之后的数据按照第二预定字段整理以生成第二数据表。在本发明实施例中,可例如,基础数据进行自动分类,将信息分类产生的数据表清单在数据仓库中落地为一张实体数据表,此实体数据表可以作为第二数据表。第二数据表可例如用来记录数据抽取的结果。在本公开的一种示例性实施例中,还包括:比对第二数据表与数据仓库中缓冲层的表清单;将数据仓库中不存在的表进行数据抽取。在本公开的一种示例性实施例中,还包括:比对第二数据表中的字段与数据仓库中缓冲层的表中的字段;将数据仓库中不存在的字段进行数据抽取。
可例如,将采集到的数据落地到数据仓库中,进行物理落地。待采集到的目标数据在数据仓库中落地后,对其进行信息分类。分类的目标是将数据库表与字段分开,同时还要整理记录出字段与表间的映射关系,以及表间的关系;分类的依据是解析XML(可扩展标记语言)文件中的各个元素及元素值。在刚才信息分类产生的数据库表清单,此清单需要在数据仓库中落地为一张实体数据表,此处记作第二数据表,第二数据表中可例如有3个字段:自增长序号,表名,是否已抽取(默认只为未抽取))以及表与字段映射关系及字段加工逻辑。
还可例如,在数据仓库中落地为一张实体数据表,此数据表进行常用的数据整理后,建立第一数据表,第一数据表中可例如包含有5个字段:自增长序号、表名、字段名、字段加工逻辑、表间关系。可例如,将其中的数据库表清单与数据仓库中数据缓冲层的表清单进行比对,判断出这批清单中哪些数据仓库存在,哪些不存在;不存在的需要将信息转发给数据仓库中的再次进行数据抽取。如果存在则需要进一步判断表中所需字段是否已经存在于数据仓库中,存在就不用转发至数据仓库再次抽取,不存在则需要转发至数据仓库进行重新抽取。需要对第一数据表相关信息,按照表名分组,将同表名的所有信息放一起,也就是一个字段是一行记录,可例如将处理后的结果记录在第三数据表中。第三数据表即为数据仓库通用模型。
在本实施例中,部分表间关系没有获取到时,还可例如进行人工添加;还可例如,通用模型还有个别需求不能满足或者信息采集时没有获取到,此时也可例如通过人为调研并添加处理。
在本公开的一种示例性实施例中,获取查询数据,包括:在预定的时间间隔获取查询数据。因为需求是不断变化的,因此模型是不断变化的。可例如,定期对通用模型中的需求进行重新调研整理。还可例如,就可以在“信息采集系统”中设置信息采集的周期,没必要每天都扫描线上生产系统,这样也能在降低线上生产系统压力的情况下,实现数据仓库通用模型需求的自学习过程。
根据本发明的用于处理数据仓库数据的方法,通过在预定时间时间获取查询数据的方式,能够定期自动监控业务方对数据的需求,及通用模型中现存需求的生命周期。
在本公开的一种示例性实施例中,还包括:在查询数据有变化时,生成提醒信息。当然,根据上文的内容,还可例如,可以在增加一个短信或邮件报警装置。如果发现本周期采集到的信息较上一周期的有变化,就通知相关模型负责人。
根据本发明的用于处理数据仓库数据的方法,收集业务方对于数据通用需求的工作及需求点的生命期的掌控从原来的线下被动告知转为主动监控收集进而及时响应处理。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图4是根据一示例性实施例示出的一种用于处理数据仓库数据的装置的框图。
其中,查询数据模块402用于获取查询数据。
数据抽取模块404用于根据查询数据,获取其对应的底层数据库中的基础数据。
模型生成模块406用于将基础数据进行自动处理以生成通用模型。
数据处理模块408用于通过通用模型处理数据仓库中的数据。
根据本发明的用于处理数据仓库数据的装置,通过将基础数据进行自动分类处理生成通用模型,再利用通用模型响应用户需求处理数据仓库数据的方式,能够在一定范围内自动形成通用数据需求与数据模型的“无缝沟通”,缩短响应时间。
图5是根据另一示例性实施例示出的一种用于处理数据仓库数据的装置的框图。
在本公开的一种示例性实施例中,模型生成模块406,包括:分类处理子模块4062用于将基础数据进行自动分类处理以生成第一数据表。
分组处理子模块4064用于将第一数据表中的信息进行分组处理以生成通用模型。
图6是根据另一示例性实施例示出的一种电子设备的框图。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备60的结构示意图。图6示出的电子设设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统60包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统60操作所需的各种程序和数据。CPU601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,发送单元还可以被描述为“向所连接的服务端发送图片获取请求的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取查询数据;根据查询数据,获取其对应的底层数据库中的基础数据;将基础数据进行自动处理以生成通用模型;以及通过通用模型处理数据仓库中的数据。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的详细描述,本领域的技术人员易于理解,根据本发明实施例的用于处理数据仓库数据的方法及装置具有以下优点中的一个或多个。
根据一些实施例,本发明的用于处理数据仓库数据的方法,通过将基础数据进行自动分类处理生成通用模型,再利用通用模型响应用户需求处理数据仓库数据的方式,能够在一定范围内自动形成通用数据需求与数据模型的“无缝沟通”,缩短响应时间。
根据另一些实施例,本发明的用于处理数据仓库数据的方法,通过在预定时间时间获取查询数据的方式,能够定期自动监控业务方对数据的需求,及通用模型中现存需求的生命周期。
根据另一些实施例,本发明的用于处理数据仓库数据的方法,通过在预定时间时间获取查询数据的方式,能够定期自动监控业务方对数据的需求,及通用模型中现存需求的生命周期。
根据再一些实施例,本发明的用于处理数据仓库数据的方法,收集业务方对于数据通用需求的工作及需求点的生命期的掌控从原来的线下被动告知转为主动监控收集进而及时响应处理。
以上具体地示出和描述了本发明的示例性实施例。应可理解的是,本发明不限于这里描述的详细结构、设置方式或实现方法;相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
此外,本说明书说明书附图所示出的结构、比例、大小等,均仅用以配合说明书所公开的内容,以供本领域技术人员了解与阅读,并非用以限定本公开可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本公开所能产生的技术效果及所能实现的目的下,均应仍落在本公开所公开的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“第一”、“第二”及“一”等的用语,也仅为便于叙述的明了,而非用以限定本公开可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当也视为本发明可实施的范畴。

Claims (12)

1.一种用于处理数据仓库数据的方法,其特征在于,包括:
获取查询数据;
根据所述查询数据,获取其对应的底层数据库中的基础数据;
解析可扩展标记语言文件中的各个元素及元素值;通过所述元素及元素值将所述基础数据进行自动分类处理;将自动分类处理之后的数据按照第一预定字段整理以生成第一数据表;将所述第一数据表中的信息进行分组处理以生成通用模型;
通过所述通用模型处理数据仓库中的数据;
其中,所述将自动分类处理之后的数据按照第一预定字段整理以生成第一数据表,包括:
记录所述自动分类处理后的所述数据中所述数据库表与所述字段间的映射关系;
记录所述自动分类处理后的所述数据中所述字段加工逻辑;以及将所述映射关系与所述字段加工逻辑按照第一预定字段整理以生成所述第一数据表。
2.如权利要求1所述的方法,其特征在于,所述获取查询数据,包括:
根据预定人员在预定时间内的操作,获取所述查询数据。
3.如权利要求1所述的方法,其特征在于,所述根据所述查询数据,获取其对应的底层数据库中的基础数据,包括:
根据所述查询数据,通过后端采集的方式获取其对应的底层数据库中的基础数据。
4.如权利要求1所述的方法,其特征在于,所述根据所述查询数据,获取其对应的底层数据库中的基础数据,包括:
获取所述查询数据对应的底层数据库中的数据库表与字段数据。
5.如权利要求1所述的方法,其特征在于,还包括:
将自动分类处理之后的所述数据按照第二预定字段整理以生成第二数据表。
6.如权利要求5所述的方法,其特征在于,还包括:
比对所述第二数据表与数据仓库中缓冲层的表清单;
将所述数据仓库中不存在的表进行数据抽取。
7.如权利要求6所述的方法,其特征在于,还包括:
比对所述第二数据表中的字段与数据仓库中缓冲层的表中的字段;
将所述数据仓库中不存在的所述字段进行数据抽取。
8.如权利要求1所述的方法,其特征在于,所述获取查询数据,包括:
在预定的时间间隔获取所述查询数据。
9.如权利要求1所述的方法,其特征在于,还包括:
在所述查询数据有变化时,生成提醒信息。
10.一种用于处理数据仓库数据的装置,其特征在于,包括:
查询数据模块,用于获取查询数据;
数据抽取模块,用于根据所述查询数据,获取其对应的底层数据库中的基础数据;
模型生成模块,用于将所述基础数据进行自动处理以生成通用模型;以及
数据处理模块,用于通过所述通用模型处理数据仓库中的数据;
其中,所述模型生成模块,包括:
分类处理子模块,用于解析可扩展标记语言文件中的各个元素及元素值;通过所述元素及元素值将所述基础数据进行自动分类处理;将自动分类处理之后的数据按照第一预定字段整理以生成第一数据表;以及
分组处理子模块,用于将所述第一数据表中的信息进行分组处理以生成通用模型;
其中,所述分类处理子模块还用于记录所述自动分类处理后的所述数据中所述数据库表与所述字段间的映射关系;记录所述自动分类处理后的所述数据中所述字段加工逻辑;以及将所述映射关系与所述字段加工逻辑按照第一预定字段整理以生成所述第一数据表。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实
现如权利要求1-9中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执
行时实现如权利要求1-9中任一所述的方法。
CN201710566079.8A 2017-07-12 2017-07-12 用于处理数据仓库数据的方法及装置 Active CN110019109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710566079.8A CN110019109B (zh) 2017-07-12 2017-07-12 用于处理数据仓库数据的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710566079.8A CN110019109B (zh) 2017-07-12 2017-07-12 用于处理数据仓库数据的方法及装置

Publications (2)

Publication Number Publication Date
CN110019109A CN110019109A (zh) 2019-07-16
CN110019109B true CN110019109B (zh) 2021-05-25

Family

ID=67185834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710566079.8A Active CN110019109B (zh) 2017-07-12 2017-07-12 用于处理数据仓库数据的方法及装置

Country Status (1)

Country Link
CN (1) CN110019109B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216817A (zh) * 2007-12-29 2008-07-09 中国建设银行股份有限公司 一种异构报表整合及集中管理的装置和系统
CN102467570A (zh) * 2010-11-17 2012-05-23 日电(中国)有限公司 用于分布式数据仓库的连接查询系统和方法
CN103218415A (zh) * 2013-03-27 2013-07-24 互爱互动(北京)科技有限公司 基于数据仓库的数据处理系统和方法
CN103678665A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和系统
CN104899199A (zh) * 2014-03-04 2015-09-09 阿里巴巴集团控股有限公司 一种数据仓库数据处理方法和系统
CN105224658A (zh) * 2015-09-30 2016-01-06 北京京东尚科信息技术有限公司 一种大数据的实时查询方法和系统
CN105740365A (zh) * 2016-01-27 2016-07-06 北京掌阔移动传媒科技有限公司 一种数据仓库快速查询方法和装置
CN105824892A (zh) * 2016-03-11 2016-08-03 广东电网有限责任公司电力科学研究院 一种数据池对数据同步和处理的方法
CN106095862A (zh) * 2016-06-02 2016-11-09 四川大学 集中式可扩展融合型多维复杂结构关系数据的存储方法
CN106326248A (zh) * 2015-06-23 2017-01-11 阿里巴巴集团控股有限公司 数据库数据的存储方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11061964B2 (en) * 2012-03-26 2021-07-13 Teradata Us, Inc. Techniques for processing relational data with a user-defined function (UDF)
US20170011640A1 (en) * 2015-07-08 2017-01-12 Genaro Rebolledo-Mendez System For Monitoring, Processing, Analyses And Storage Of Physiological Signals For Emotion Recognition

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216817A (zh) * 2007-12-29 2008-07-09 中国建设银行股份有限公司 一种异构报表整合及集中管理的装置和系统
CN102467570A (zh) * 2010-11-17 2012-05-23 日电(中国)有限公司 用于分布式数据仓库的连接查询系统和方法
CN103218415A (zh) * 2013-03-27 2013-07-24 互爱互动(北京)科技有限公司 基于数据仓库的数据处理系统和方法
CN103678665A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和系统
CN104899199A (zh) * 2014-03-04 2015-09-09 阿里巴巴集团控股有限公司 一种数据仓库数据处理方法和系统
CN106326248A (zh) * 2015-06-23 2017-01-11 阿里巴巴集团控股有限公司 数据库数据的存储方法和装置
CN105224658A (zh) * 2015-09-30 2016-01-06 北京京东尚科信息技术有限公司 一种大数据的实时查询方法和系统
CN105740365A (zh) * 2016-01-27 2016-07-06 北京掌阔移动传媒科技有限公司 一种数据仓库快速查询方法和装置
CN105824892A (zh) * 2016-03-11 2016-08-03 广东电网有限责任公司电力科学研究院 一种数据池对数据同步和处理的方法
CN106095862A (zh) * 2016-06-02 2016-11-09 四川大学 集中式可扩展融合型多维复杂结构关系数据的存储方法

Also Published As

Publication number Publication date
CN110019109A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
US11429600B2 (en) Loading queries using search points
US11977544B2 (en) Pipelined search query, leveraging reference values of an inverted index to access a set of event data and performing further queries on associated raw data
US11132111B2 (en) Assigning workflow network security investigation actions to investigation timelines
KR102033971B1 (ko) 데이터 품질 분석
CN107506451B (zh) 用于数据交互的异常信息监控方法及装置
US11803548B1 (en) Automated generation of metrics from log data
US10282197B2 (en) Open application lifecycle management framework
US20190166145A1 (en) Selecting Network Security Event Investigation Timelines in a Workflow Environment
CN111240662A (zh) 一种基于任务可视化拖拽的spark机器学习系统及学习方法
CN113312191B (zh) 数据分析方法、装置、设备及存储介质
CN111339071A (zh) 一种多源异构数据的处理方法及装置
CN109840298B (zh) 大规模网络数据的多信息来源采集方法和系统
CN109815382B (zh) 大规模网络数据的感知与获取方法和系统
CN109753596B (zh) 用于大规模网络数据采集的信源管理与配置方法和系统
Baumgartner et al. Web data extraction for business intelligence: the lixto approach
US8260772B2 (en) Apparatus and method for displaying documents relevant to the content of a website
US8615733B2 (en) Building a component to display documents relevant to the content of a website
CN113962597A (zh) 一种数据分析方法、装置、电子设备及存储介质
US7844601B2 (en) Quality of service feedback for technology-neutral data reporting
US11676345B1 (en) Automated adaptive workflows in an extended reality environment
CN113010208A (zh) 一种版本信息的生成方法、装置、设备及存储介质
CN111858236A (zh) 知识图谱监控方法、装置、计算机设备及存储介质
CN110019109B (zh) 用于处理数据仓库数据的方法及装置
CN117009371A (zh) 数据血缘分析方法、装置、设备、存储介质及程序产品
CN113138974B (zh) 数据库合规检测的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant