CN110928903A - 数据提取方法及装置、设备和存储介质 - Google Patents

数据提取方法及装置、设备和存储介质 Download PDF

Info

Publication number
CN110928903A
CN110928903A CN201811014968.4A CN201811014968A CN110928903A CN 110928903 A CN110928903 A CN 110928903A CN 201811014968 A CN201811014968 A CN 201811014968A CN 110928903 A CN110928903 A CN 110928903A
Authority
CN
China
Prior art keywords
data
dimension
derivative
indexes
dimension attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811014968.4A
Other languages
English (en)
Other versions
CN110928903B (zh
Inventor
王明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811014968.4A priority Critical patent/CN110928903B/zh
Publication of CN110928903A publication Critical patent/CN110928903A/zh
Application granted granted Critical
Publication of CN110928903B publication Critical patent/CN110928903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据提取方法及装置、设备和存储介质,所述方法包括:根据数据查询信息,确定对应的维度属性和派生指标;根据所述维度属性和派生指标,在数据仓库中搜索对应的数据表;提取所述数据表中的数据。利用本发明实施例可实现数据仓库数据的自动提取。

Description

数据提取方法及装置、设备和存储介质
技术领域
本发明涉及数据处理,尤其是涉及一种数据提取方法及装置、设备和存储介质。
背景技术
大数据通常是指那些无法在短时间内利用常规软件工具实现数据提取、管理和处理等的数据的集合。当今,随着移动互联网技术的快速发展,如何实现对海量数据的维护和应用,是摆在各行业企业管理者面前的一个重要课题,提高大数据在业务决策过程中的比重是提高企业市场竞争力的重要手段之一。
在针对大数据的处理中,“数据提取”对于企业的日常运营活动分析、相关数据分析、数据预测等,有着非常重要的作用。但是,由于受到技术水平发展的限制,目前的数据提取业务主要还是依赖大量的技术人员做开发工作,而非技术人员获取数据的成本偏高,时效性差。
举例来讲,目前常用的数据提取方案主要采取以下方式实现:
一种是基于查询query的数据查询方式,首先人工梳理好相应的计算逻辑,然后根据要提取的指标,写出对应的结构化查询语言(Structured Query Language,SQL),提交到目标数据服务器中进行查询,等待查询结果的返回。
另一种数据提取方式是需要提前算好一些固定指标结果,并存储到类似存储引擎的系统中,当需要数据提取时,根据对应的筛选条件选择结果并返回。
前者的缺陷是,需要查询人员具备相关的技术知识背景和数据处理能力,因此是一种严重依赖人工的操作方式,并且从数据提取需求的提出到数据结果的返回需要一定时间,时效性不高。
后者的缺陷是,指标的计算结果需要提前进行计算,因而需要占用大量的存储和计算空间,且由于提前进行的计算并不能覆盖所有的计算逻辑,导致指标数据更新无法做到及时。
发明内容
有鉴于此,本发明提出一种方法及其装置、设备和计算机存储介质,用以解决目前数据提取方式严重依赖人工操作的问题。
第一方面,本发明提供一种数据提取方法,所述方法包括:
根据数据查询信息,确定对应的维度属性和派生指标;
根据所述维度属性和派生指标,在数据仓库中搜索对应的数据表;
提取所述数据表中的数据。
第二方面,本发明还提供一种数据提取装置,所述装置包括:
查询信息处理模块,用于根据数据查询信息,确定对应的维度属性和派生指标;
数据表搜索模块,用于根据所述维度属性和派生指标,在数据仓库中搜索对应的数据表;
数据提取模块,用于提取所述数据表中的数据。
第三方面,本发明还提供一种数据提取设备,其包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如上所述的方法。
第四方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现如上所述的方法。
利用本发明的实施例,用户只需要输入查询信息,后台将根据查询信息生成符合查询格式的维度属性和派生指标,并自动完成后续的生成取数SQL等一系列处理,可替代现有的人工ETL取数的日常工作,解放现有开发人员的生产力,提高获取数据的效率。
附图说明
图1为本发明一个实施例的数据提取方法的流程示意图。
图2为本发明另一实施例的数据提取方法的流程示意图。
图3为本发明实施例的装置的结构示意图。
图4为本发明实施例的设备的硬件结构示意图。
具体实施方式
以下结合附图及实施例,对本发明进行详细描述。应理解,所描述的具体实施例仅用于解释本发明,而并不用于限定本发明。文中的诸如第一、第二等用语仅用来对一个实体(或操作)与另一个实体(或操作)进行区分,而不表示这些实体(或操作)之间存在任何关系或顺序;另外,文中的诸如上、下、左、右、前、后等表示方向或方位的用语,仅表示相对的方向或方位,而非绝对的方向或方位。
本发明的核心思想是针对具有固定体系的数据仓库,设计一种相适应的数据提取方案,在执行数据提取时不依赖于人工参与,时效性好。以下对本发明的各个方面进行详细描述。
<数据仓库>
一般认为,数据仓库(Data Warehouse,DW或DWH,也可简称数仓)指的是面向主题的、集成的、随时间变化但信息本身相对稳定的数据集合。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,而没有传统数据库的增删改操作,因此一旦某个数据进入数据仓库后,通常将会长期保留。
需要指出,数据仓库大多基于明确的主题,仅需要与该主题相关的数据,其他无关的细节数据将被排除在外。可以理解,建设数据仓库的目的之一就在于整合不同数据源的历史数据,通过对这些数据进行整合分析,帮助业务分析人员做出商业报表或帮助企业管理者做出商业决策。
<数据仓库的架构体系>
企业可以根据实际需求设定数据仓库的架构体系,常见的数据仓库架构体系包括例如:数据采集层、数据存储与分析层、数据共享层和数据应用层等。通过数据采集层把数据从各种数据源中采集并存储到数据存储上,所述的数据源有例如日志、网络、业务数据库等。数据采集过程通常会涉及到数据的抽取-转换-加载(Extract-Transform-Load,ETL)操作。每个数据仓库都包含大量事实数据表,事实数据表可包含各种业务数据,例如销售数据即销售商品所产生的数据。通常,事实数据表与一个或多个纬度表相关联,纬度表(有时也称维表)中包含事实数据表中事实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据表中的数据。
目前,随着各种云端服务的涌现,可为数据仓库的建设和管理提供很多便利,例如,可以以简单的部署和投入获得较高的性能,强大的可扩展性和便捷的管理方式等等。因此,已有一些企业将其数据仓库从内部迁移到云端,去实现从数据的采集、存储到处理的整个数据仓库工作流程。
在此背景下,存在一种数据仓库的架构体系,该数据仓库架构体系基于统一的大数据建设理论,涵盖数据规范定义体系、数据模型规范设计、ETL规范研发以及相关的工具体系等方面。
在这种统一的数据仓库架构体系下,对所有的数据源均按照指定的格式去组织数据的维度和指标,目的是增强数仓的可管理性、可追溯性以及避免重复建设。
关于数据的维度和指标,其是数据分析中的重要概念,绝大多数的数据分析方法都是采用数据的维度和指标对数据进行描述和评价。其中,
●维度是指事物或现象的属性或特征,也可称为实体对象,例如地理维度(包括国家、地区、省以及城市等级别的内容)、时间维度(包括年、季、月、周、日等级别的内容)。更具体地,地理位置的维度可包括“纬度”、“经度”、“城市名称”;“城市名称”的维度可包括“旧金山”、“柏林”、“新加坡”。
●指标是可以按数量或比值衡量事物发展程度的数据,例如,维度“城市”可以关联指标“人口”,该指标的值为具体城市的居民总数。特别地,在信息技术领域,指标大多数时候被称为度量,是指对某个业务时间的衡量,通常为数字。
维度和指标虽然可以独立使用,但更多时候二者是结合使用的,维度和指标的值以及这些值之间的关系使数据被赋予了意义。并且一个维度可与一个或多个指标关联使用,挖掘更深入的信息,例如维度“城市”可以与两个指标“人口”和“面积”关联使用,基于这些数据可以创建“人口密度”等比值指标,从而对相关城市的更深层次的信息进行分析。
在此基础上,前述的按照指定的格式去组织数据的维度和指标,也就是将数据的维度和指标做进一步的规范化和标准化,将规范化标准化处理后的维度和指标分别称为维度属性和派生指标。
●所述的维度属性隶属于一个维度,如地理维度中的国家名称、省份名称等都属于维度属性。
●所述的派生指标包括三个要素:原子指标、时间周期和修饰词,三者共同衡量对象的值或数据;其中,
A.原子指标是基于某个业务事件行为下的度量,是业务定义中不可再拆分的指标,应为具有明确业务含义的名词。
B.时间周期用来明确数据统计的时间范围或时间点,如最近30天、自然周、截至当日等。
C.修饰词指除了统计维度以外指标的业务场景限定,修饰词隶属于一个修饰类型,修饰类型从属于某个业务域,如日志域的访问终端类型对应的修饰词有无线端、电脑PC端等。
在所述的统一的数据仓库架构体系下,当需要提取具有某维度属性和派生指标的数据时,可通过以下处理实现数据提取。
<搜索信息处理>
在本发明中,系统可通过硬件设备接收用户输入的数据查询、提取等指令,例如通过键盘或手写板输入文本、图案信息,通过麦克风输入语音信息,还可以通过摄像头录入照片、视频信息,等等。在接收到指令后,可对指令进行一些必要的数据转换处理,例如对语音指令进行识别并转换为搜索文本信息,或者抓取识别照片、视频中的文字、图案等作为搜索信息。对于搜索信息的录入和获取方式,可以采用已知或未知的任何方式,也可为多种方式的组合,对此本发明并无特殊限定。
确定搜索信息后,通过对搜索信息进行必要的处理,可得到所查询数据的维度属性和派生指标。以下给出多种实现方式。
在本发明的一种实施方式中,通过对搜索信息做分解(或称拆解)处理,先获得数据的粗粒度的维度和指标,再对粗粒度的维度和指标做细化,必要时可与用户交互确认,从而获得数据的所述维度属性和派生指标。
这里,所述的粗粒度的维度和指标指的是对搜索信息做拆解而得到的维度和指标,例如,搜索信息为“中国移动最近一天的成交金额”,对其进行拆解可得到:
●粗粒度维度(粗维度):店铺维度;
粗维度对应的过滤条件:中国移动;
●粗粒度指标(粗指标):最近一天的成交金额。
本发明采取这样处理的原因在于,绝大多数情况下,用户搜索的目标数据都是包含维度和指标的数据,这也是根据传统数据库或数据仓库的体系而形成的定势,因此先拆解出粗维度和粗指标的处理能够与用户已有的数据查询习惯形成良好对接,更重要的是,为后续细化出维度属性和派生指标做好准备。
接着,对粗维度和粗指标进行细化,得到本发明期望的维度属性和派生指标,目的是细化数据口径和消除歧义。
具体地,一方面,对于已经存在的、与所述粗维度一致的维度属性,不需再做细化,可直接将粗维度的内容作为对应的维度属性,例如“店铺维度”本身,是统一数据仓库架构体系中存在的维度属性,则不需再做细化;对于粗维度的过滤条件,例如对于“中国移动”,数仓中相关的数据有例如中国移动天猫官方旗舰店、中国移动浙江天猫官方旗舰店、中国移动淘宝店等大量数据,需要进行细化,目的是根据查询需求来确定唯一的过滤条件。
实际中,可通过与用户交互确认的方式明确细化结果,例如可向用户返回对话框、提供勾选选项等方式,假如用户需要的是中国移动天猫官方旗舰店的数据,则细化后,店铺维度的过滤条件是“中国移动天猫官方旗舰店”。
因此,细化后得到维度属性为:店铺维度;其过滤条件为:中国移动天猫官方旗舰店。
另一方面,对于粗指标“最近一天的成交金额”,由于统一数据仓库架构体系中不存在该指标,因此需要细化,细化的目标是得到所述的派生指标的三要素,即原子指标、时间周期和修饰词。分别来看:
1.原子指标:可确定,为“成交金额”,(在其他实施例中还可能为订单数、退货单数,等等);
2.时间周期:可确定,为“最近一天”,(在其他实施例中还可能为最近10天、最近30天或最近6个月,等等);
3.修饰词:不可确定,需与用户交互进行二次确认,获取修饰词(例如可为手机端、PC端、全网、电商平台,等等);假如经用户确认是最近一天手机端的成交金额,即修饰词为“手机端”。
因此,细化后得到派生指标为:最近一天手机端的成交金额。
在本发明的另一种实施方式中,系统可向用户推荐可查询的数据,推荐的形式即是所述的维度属性和派生指标。例如,对于用户期望查询的“中国移动最近一天的成交金额”,可提供的推荐查询可为:
a)“中国移动天猫官方旗舰店最近一天手机端的成交金额”;
b)“中国移动浙江天猫官方旗舰店最近一天手机端的成交金额”;
c)“中国移动淘宝店最近一天手机端的成交金额”;
d)“中国移动天猫官方旗舰店最近一天PC端的成交金额”;
e)“中国移动浙江天猫官方旗舰店最近一天PC端的成交金额”;
f)“中国移动淘宝店最近一天PC端的成交金额”;
g)“中国移动天猫官方旗舰店最近一天全网的成交金额”;
h)“中国移动浙江天猫官方旗舰店最近一天全网成交金额”;或者
i)“中国移动淘宝店最近一天全网的成交金额”。
以上仅示例性地列举了若干推荐查询数据,实际中可以根据需求预设推荐查询数据库,例如可对不同的维度属性和不同的派生指标进行排列组合,还可以根据是否常用设置推荐顺序。
可以理解,如果用户接受了自动推荐的查询方式,则不需要再执行搜索信息的拆分和细化处理,而是能直接确定查询数据的维度属性和派生指标,这在一定程度上能够缩短等待时间。
<数据提取>
在确定查询数据的维度属性和派生指标之后,基于自动ETL技术,取数逻辑会将派生指标进行归并,并以维度属性为限制条件;对应地,在数据仓库中存储有一个元数据表,用于记录每个维度属性和派生指标的产出中间层表,基于所述的维度属性和派生指标查询该产出中间层表,可匹配到对应的数据表,至此可生成相应的取数SQL,执行SQL运算即可返回对应的结果,完成数据提取过程。
在本发明的某些实施方式中,根据需求,还可对提取的数据集进行加工,例如对于返回结果为数值型的情况(例如返回的是单个数值),可进行上下文语义的渲染,使返回结果语义完整,便于读取完整信息;对于返回结果为报表型的情况(例如返回的是二维的报表图形),可对二维报表结果进行数据渲染,可直接返回二维表格,也可根据用户要求生成对应的饼图、柱状图、折线图等形式。此外,还可对返回的结果采取语音播报等多媒体播放方式。通过这样的处理,可为用户提供更多便利,缩短用户在处理返回结果上消耗的时间。
基于上述内容,本发明实施例可提供一种数据提取方法,参考图1,所述方法包括:
S101,根据数据查询信息,确定对应的维度属性和派生指标;
S102,根据所述维度属性和派生指标,在数据仓库中搜索对应的数据表;
S103,提取所述数据表中的数据。
利用本发明的实施例能够方便快捷地完成用户数据提取过程。
以下通过具体的实例,描述本发明实施例的可选的具体处理过程。需要说明的是,本发明的方案并不依赖于具体的算法,在实际应用中,可选用任何已知或未知的硬件、软件、算法、程序或其任意组合等来实现本发明的方案,只要是采用了本发明方案的实质思想,均落入本发明的保护范围。
实施例1
图2所示为本发明一个实施例的数据提取方法流程图,具体处理过程详细描述如下。
步骤1,利用智能语音设备获得用户输入;
步骤2,对用户输入进行处理得到搜索文本,根据语义将搜索文本初步拆解为用户查询的维度和指标,获得粗粒度维度和指标的拆解结果;
比如,用户输入查找的是“小米店铺最近一天的手淘端的支付金额”,则初步分解出:
维度为“店铺维度”,过滤条件为“小米店铺”,
指标为“最近一天手淘端的支付金额”;
步骤3,通过机器智能交互,产出用户确认的细化的维度属性和派生指标;
例如,维度属性方面,小米店铺可细化为:“小米官方自营店”(为描述方便,下文以x表示小米官方自营店);
派生指标方面,
原子指标为“支付金额”,
时间周期为“最近一天”,
修饰词为“电脑端”;
也就是,产出的维度属性为店铺名称为shop_name=x;对应的时间周期为最近1天--1d,原子指标为支付金额--pay_ord_amt,修饰词为电脑端--pc,那么合起来的派生指标就为最近1天电脑端支付金额--pay_ord_amt_1d_002;
步骤4,确定维度属性和派生指标后,基于自动ETL技术,取数逻辑会归并成取pay_ord_amt_1d_002,且限制条件为shop_name=x,这时,根据维度属性及派生指标可以从数仓系统中找到对应的元数据表,记录了每个维度属性和派生指标的产出中间层表,这时候能匹配到对应的数据表为dws_tb_trd_slr_ord_1d,那么相应的取数为select pay_ord_amt_1d_002from dws_tb_trd_slr_ord_1d where shop_name=x;
步骤5,SQL运算及数据加速,步骤4中已经产出了可以运行的SQL,提交后等待系统返回对应的结果(根据运行SQL的逻辑单指标或多指标,返回的结果可为对应单数值或二维报表)。针对不同的结果,可选择不同的渲染方式来进行结果渲染。此外,由于某些指标是经常被提取的,所以可把相同运行SQL的结果进行缓存,加快第二次提取速度并节省系统的计算资源。
步骤6,数值语境加工,针对步骤5中返回的单数值结果进行上下文语义的渲染,比如用户要提取的是小米官方旗舰店最近1天PC端成交金额,步骤5返回的结果为Y元,那么根据上下文语义返回“小米官方旗舰店最近1天PC端成交金额为Y元”,而不单单只是返回“Y元”,便于用户一目了然地理解该数据的信息。
实施例2
本实施例提供一种数据提取方法,本实施例与实施例1的主要区别在于:本实施例采用直接向用户推荐查询指标的方式确定维度属性和派生指标,而不再执行实施例1中的步骤1-3的处理。
本实施例中其余步骤与实施例1中步骤相同或相似。
利用本实施例可在一定程度上减少系统处理时间,从而缩短用户的等待时间。
实施例3
本实施例提供一种数据提取方法,本实施例与实施例1的主要区别在于:实施例1的步骤4中,取数逻辑只是针对“单维度单指标”的情况,生成的SQL较为简单;本实施例是针对“多维度多指标”的情况进行处理,以下做详细描述。
首先,对于“单维度多指标”的情况,比如取数的维度属性为shop_name=x,派生指标方面,除了获取最近1天PC端支付金额--pay_ord_amt_1d_002外,还需要获取最近1天PC端支付买家数--pay_ord_byr_cnt_1d_002(对应的原子指标为支付买家数--pay_ord_byr_cnt,时间周期为最近1天--1d,修饰词为PC端--pc),那么,还是通过元数据表找到对应的表为dws_tb_trd_slr_ord_1d,相应的取数SQL为select pay_ord_amt_1d_002,pay_ord_byr_cnt_1d_002from dws_tb_trd_slr_ord_1d where shop_name=x。
其次,对于“多维度多指标”的情况,本实施例中,将维度值过滤用in语句来实现,比如,取数逻辑为获取店铺名称为x和y这两个店铺的最近1天PC端支付买家数以及最近1天PC端支付金额这两个指标,那么对应的取数SQL为select pay_ord_amt_1d_002,pay_ord_byr_cnt_1d_002from dws_tb_trd_slr_ord_1d where shop_name in(x,y)。
本实施例中其余步骤与实施例1中步骤相同或相似。
利用本实施例可以快速处理用户的多元化数据查询提取需求,为用户提供便利,提升用户使用体验。
实施例4
本实施例提供一种数据提取方法,本实施例与实施例1的不同之处主要在于:实施例1中步骤5返回结果为单数值结果,而本实施例中返回的是二维报表,则本实施例不再执行实施例1的步骤6,而是采用如下方式对返回的结果进行加工:
对返回的二维报表结果进行报表图形渲染,可以返回二维表格,也可以根据用户选择渲染成对应的图表形式,例如饼图、柱状图、折线图等模式后返回。
本实施例中其余步骤与实施例1中步骤相同或相似。
利用本实施例可以根据用户需求对报表型数据结果进行加工渲染,易于展示,可为用户提供便利。
实施例5
本实施例提供一种数据提取方法,本实施例与实施例1的不同之处主要在于:对于步骤6的返回结果,进行语音播报,也就是通过多媒体语音技术将步骤6中的结果播报出去,供用户听取。
本实施例中其余步骤与实施例1中步骤相同或相似。
利用本实施例可以进一步为用户提供便利。
与本发明实施例的方法相对应地,本发明还提供一种数据提取装置、设备和计算机存储介质。
其中,参考图3,所述装置包括:
询信息处理模块10,用于根据数据查询信息,确定对应的维度属性和派生指标;
数据表搜索模块20,用于根据所述维度属性和派生指标,在数据仓库中搜索对应的数据表;
数据提取模块30,用于提取所述数据表中的数据。
其中,所述数据提取设备包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行本发明实施例所述的数据提取方法中的各步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现本发明实施例所述的数据提取方法中的各步骤。
应当指出,在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机程序指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机程序指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
图4示出了能够实现根据本发明实施例的方法和设备的示例性硬件架构的结构图,例如本发明实施例的设备。其中,计算设备1000包括输入设备1001、输入接口1002、处理器1003、存储器1004、输出接口1005、以及输出设备1006。
其中,输入接口1002、处理器1003、存储器1004、以及输出接口1005通过总线1010相互连接,输入设备1001和输出设备1006分别通过输入接口1002和输出接口1005与总线1010连接,进而与计算设备1000的其他组件连接。
具体地,输入设备1001接收来自外部的输入信息,并通过输入接口1002将输入信息传送到处理器1003;处理器1003基于存储器1004中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器1004中,然后通过输出接口1005将输出信息传送到输出设备1006;输出设备1006将输出信息输出到计算设备1000的外部供用户使用。
计算设备1000可以执行本发明上述的方法中的各步骤。
处理器1003可以是一个或多个中央处理器(英文:Central Processing Unit,CPU)。在处理器601或处理器701是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
存储器1004可以是但不限于随机存储存储器(RAM)、只读存储器(ROM),可擦除可编程只读存储器(EPROM)、光盘只读存储器(CD-ROM)、硬盘等中的一种或多种。存储器1004用于存储程序代码。可以理解,本发明实施例提供的任一模块或全部模块的功能可以用央处理器1003实现。
本说明书的各个部分均采用递进的方式进行描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点介绍的都是与其他实施例不同之处。尤其,对于装置和系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处可参见方法实施例部分的说明。

Claims (14)

1.一种数据提取方法,其特征在于,所述方法包括:
根据数据查询信息,确定对应的维度属性和派生指标;
根据所述维度属性和派生指标,在数据仓库中搜索对应的数据表;
提取所述数据表中的数据。
2.根据权利要求1所述的方法,其特征在于,所述维度属性包括数据的至少一个维度。
3.根据权利要求2所述的方法,其特征在于,所述派生指标包括原子指标、时间周期和修饰词,其中所述原子指标包括业务行为下的度量,所述时间周期包括时间范围或时刻,所述修饰词包括数据的业务域。
4.根据权利要求1所述的方法,其特征在于,所述根据数据查询信息,确定对应的维度属性和派生指标,包括:
对数据查询信息进行拆分处理,得到对应的维度和指标;
根据所述维度和指标,确定对应的维度属性和派生指标。
5.根据权利要求4所述的方法,其特征在于,所述根据所述维度和指标,确定对应的维度属性和派生指标,包括:
根据所述维度和指标进行二次交互,以确定对应的维度属性和派生指标。
6.根据权利要求1所述的方法,其特征在于,所述根据数据查询信息,确定对应的维度属性和派生指标,包括:
根据数据查询信息,推荐对应的维度属性和派生指标。
7.根据权利要求1所述的方法,其特征在于,所述根据所述维度属性和派生指标,在数据仓库中搜索对应的数据表,包括:
根据所述维度属性和派生指标,在所述数据仓库中的元数据表中寻找匹配的产出中间层表;其中
所述元数据表用于记录所有维度属性和派生指标对应的产出中间层表;所述产出中间层表用于记录维度属性和派生指标所指示的数据表。
8.根据权利要求7所述的方法,其特征在于,所述提取所述数据表中的数据,包括:
基于所述数据表,生成结构化查询语言SQL;
运行所述SQL,并返回运行结果。
9.根据权利要求1所述的方法,其特征在于,所述数据查询信息包括用户输入的语音信息,所述方法还包括:
将所述语音信息转换为文本信息。
10.根据权利要求1-9中任一项所述的方法,其特征在于,所述维度属性和派生指标包括一个维度属性和多个派生指标。
11.根据权利要求1-9中任一项所述的方法,其特征在于,所述维度属性和派生指标包括多个维度属性和一个派生指标。
12.根据权利要求1-9中任一项所述的方法,其特征在于,所述维度属性和派生指标包括多个维度属性和多个派生指标。一种数据提取装置,其特征在于,所述装置包括:
查询信息处理模块,用于根据数据查询信息,确定对应的维度属性和派生指标;
数据表搜索模块,用于根据所述维度属性和派生指标,在数据仓库中搜索对应的数据表;
数据提取模块,用于提取所述数据表中的数据。
13.一种数据提取设备,其特征在于,其包括:
存储器,用于存储程序;
处理器,用于运行所述存储器中存储的所述程序,以执行如权利要求1至12中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求1至12中任一项所述的方法。
CN201811014968.4A 2018-08-31 2018-08-31 数据提取方法及装置、设备和存储介质 Active CN110928903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811014968.4A CN110928903B (zh) 2018-08-31 2018-08-31 数据提取方法及装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811014968.4A CN110928903B (zh) 2018-08-31 2018-08-31 数据提取方法及装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN110928903A true CN110928903A (zh) 2020-03-27
CN110928903B CN110928903B (zh) 2024-03-15

Family

ID=69854921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811014968.4A Active CN110928903B (zh) 2018-08-31 2018-08-31 数据提取方法及装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN110928903B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523990A (zh) * 2020-04-03 2020-08-11 远光软件股份有限公司 一种账务数据的多维核算处理系统及方法
CN111966692A (zh) * 2020-09-04 2020-11-20 网易(杭州)网络有限公司 针对数据仓库的数据处理方法、介质、装置和计算设备
CN112199393A (zh) * 2020-09-18 2021-01-08 深圳希施玛数据科技有限公司 基于跨表查询的数据表生成方法、装置、设备及存储介质
CN112732740A (zh) * 2020-12-30 2021-04-30 航天信息股份有限公司 调查对象数据处理方法、装置、存储介质及电子设备
CN113590579A (zh) * 2021-06-22 2021-11-02 微梦创科网络科技(中国)有限公司 一种基于数据仓库的根因分析方法、装置及系统
CN113783909A (zh) * 2020-06-10 2021-12-10 腾讯科技(深圳)有限公司 数据需求的生成方法、装置、终端、服务器及存储介质
CN114490571A (zh) * 2021-12-28 2022-05-13 阿里云计算有限公司 一种建模方法、服务器及存储介质
CN114819727A (zh) * 2022-05-23 2022-07-29 杭州指令集智能科技有限公司 一种智能化的数据指标管理方法

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5519859A (en) * 1993-11-15 1996-05-21 Grace; John A. Method and apparatus for automatic table selection and generation of structured query language instructions
CN1508728A (zh) * 2002-12-18 2004-06-30 �Ҵ���˾ 使用元数据在关系数据库中创建多维数据集的方法和系统
US7143107B1 (en) * 2003-06-26 2006-11-28 Microsoft Corporation Reporting engine for data warehouse
US20090157447A1 (en) * 2007-12-17 2009-06-18 Sap Ag Derived and Automated Key Performance Indicator Reports
US20100223244A1 (en) * 2009-02-13 2010-09-02 Ayon Sinha Targeted multi-dimension data extraction for real-time analysis
CN102194164A (zh) * 2011-04-18 2011-09-21 上海实时数据软件有限公司 基于指标体系模型的敏捷商业智能数据构建方法
CN102460431A (zh) * 2009-05-08 2012-05-16 佐科姆有限公司 行为和情境数据分析的系统和方法
CN103488700A (zh) * 2013-09-04 2014-01-01 用友软件股份有限公司 数据提取系统和数据提取方法
CN103853820A (zh) * 2014-02-20 2014-06-11 北京用友政务软件有限公司 一种数据处理方法及系统
CN104820715A (zh) * 2015-05-19 2015-08-05 杭州迅涵科技有限公司 基于多维度关联的数据共享和分析方法及系统
CN106776822A (zh) * 2016-11-25 2017-05-31 远光软件股份有限公司 集团企业报表数据提取方法及系统
CN107239539A (zh) * 2017-06-02 2017-10-10 山东浪潮商用系统有限公司 一种基于关系型数据库的自定义建模方法
CN107357812A (zh) * 2017-05-31 2017-11-17 阿里巴巴集团控股有限公司 一种数据查询方法及装置
CN107729330A (zh) * 2016-08-10 2018-02-23 阿里巴巴集团控股有限公司 获取数据集的方法和装置
CN107729336A (zh) * 2016-08-11 2018-02-23 阿里巴巴集团控股有限公司 数据处理方法、设备及系统
CN108241653A (zh) * 2016-12-23 2018-07-03 阿里巴巴集团控股有限公司 数据处理方法及装置
US20180210883A1 (en) * 2017-01-25 2018-07-26 Dony Ang System for converting natural language questions into sql-semantic queries based on a dimensional model
CN108415964A (zh) * 2018-02-07 2018-08-17 平安科技(深圳)有限公司 数据表查询方法、装置、终端设备及存储介质

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5519859A (en) * 1993-11-15 1996-05-21 Grace; John A. Method and apparatus for automatic table selection and generation of structured query language instructions
CN1508728A (zh) * 2002-12-18 2004-06-30 �Ҵ���˾ 使用元数据在关系数据库中创建多维数据集的方法和系统
US7143107B1 (en) * 2003-06-26 2006-11-28 Microsoft Corporation Reporting engine for data warehouse
US20090157447A1 (en) * 2007-12-17 2009-06-18 Sap Ag Derived and Automated Key Performance Indicator Reports
US20100223244A1 (en) * 2009-02-13 2010-09-02 Ayon Sinha Targeted multi-dimension data extraction for real-time analysis
CN102460431A (zh) * 2009-05-08 2012-05-16 佐科姆有限公司 行为和情境数据分析的系统和方法
CN102194164A (zh) * 2011-04-18 2011-09-21 上海实时数据软件有限公司 基于指标体系模型的敏捷商业智能数据构建方法
CN103488700A (zh) * 2013-09-04 2014-01-01 用友软件股份有限公司 数据提取系统和数据提取方法
CN103853820A (zh) * 2014-02-20 2014-06-11 北京用友政务软件有限公司 一种数据处理方法及系统
CN104820715A (zh) * 2015-05-19 2015-08-05 杭州迅涵科技有限公司 基于多维度关联的数据共享和分析方法及系统
CN107729330A (zh) * 2016-08-10 2018-02-23 阿里巴巴集团控股有限公司 获取数据集的方法和装置
CN107729336A (zh) * 2016-08-11 2018-02-23 阿里巴巴集团控股有限公司 数据处理方法、设备及系统
CN106776822A (zh) * 2016-11-25 2017-05-31 远光软件股份有限公司 集团企业报表数据提取方法及系统
CN108241653A (zh) * 2016-12-23 2018-07-03 阿里巴巴集团控股有限公司 数据处理方法及装置
US20180210883A1 (en) * 2017-01-25 2018-07-26 Dony Ang System for converting natural language questions into sql-semantic queries based on a dimensional model
CN107357812A (zh) * 2017-05-31 2017-11-17 阿里巴巴集团控股有限公司 一种数据查询方法及装置
CN107239539A (zh) * 2017-06-02 2017-10-10 山东浪潮商用系统有限公司 一种基于关系型数据库的自定义建模方法
CN108415964A (zh) * 2018-02-07 2018-08-17 平安科技(深圳)有限公司 数据表查询方法、装置、终端设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
戴浩;: "基于业务元数据的多维建模系统设计与实现", no. 24, pages 94 - 98 *
罗会兰: "数据提取、转换和装载技术研究", 计算机工程与设计, no. 05, pages 107 - 111 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111523990A (zh) * 2020-04-03 2020-08-11 远光软件股份有限公司 一种账务数据的多维核算处理系统及方法
CN111523990B (zh) * 2020-04-03 2023-04-07 远光软件股份有限公司 一种账务数据的多维核算处理系统及方法
CN113783909A (zh) * 2020-06-10 2021-12-10 腾讯科技(深圳)有限公司 数据需求的生成方法、装置、终端、服务器及存储介质
CN113783909B (zh) * 2020-06-10 2024-01-02 腾讯科技(深圳)有限公司 数据需求的生成方法、装置、终端、服务器及存储介质
CN111966692A (zh) * 2020-09-04 2020-11-20 网易(杭州)网络有限公司 针对数据仓库的数据处理方法、介质、装置和计算设备
CN112199393A (zh) * 2020-09-18 2021-01-08 深圳希施玛数据科技有限公司 基于跨表查询的数据表生成方法、装置、设备及存储介质
CN112199393B (zh) * 2020-09-18 2024-05-10 深圳希施玛数据科技有限公司 基于跨表查询的数据表生成方法、装置、设备及存储介质
CN112732740A (zh) * 2020-12-30 2021-04-30 航天信息股份有限公司 调查对象数据处理方法、装置、存储介质及电子设备
CN113590579A (zh) * 2021-06-22 2021-11-02 微梦创科网络科技(中国)有限公司 一种基于数据仓库的根因分析方法、装置及系统
CN113590579B (zh) * 2021-06-22 2024-05-31 微梦创科网络科技(中国)有限公司 一种基于数据仓库的根因分析方法、装置及系统
CN114490571A (zh) * 2021-12-28 2022-05-13 阿里云计算有限公司 一种建模方法、服务器及存储介质
CN114819727A (zh) * 2022-05-23 2022-07-29 杭州指令集智能科技有限公司 一种智能化的数据指标管理方法

Also Published As

Publication number Publication date
CN110928903B (zh) 2024-03-15

Similar Documents

Publication Publication Date Title
CN110928903B (zh) 数据提取方法及装置、设备和存储介质
CN108829858A (zh) 数据查询方法、装置及计算机可读存储介质
CN103425687A (zh) 一种基于关键词的检索方法和系统
CN111444304B (zh) 搜索排序的方法和装置
CN111708774B (zh) 一种基于大数据的产业分析系统
CN113760891B (zh) 一种数据表的生成方法、装置、设备和存储介质
US20180129708A1 (en) Query processing management in a database management system
TWI453608B (zh) System and method for managing a large number of multiple data
US10628421B2 (en) Managing a single database management system
CN102541912A (zh) 一种网络文章传播影响力的评价系统及方法
CN103365915A (zh) 基于搜索引擎和数据库查询系统的搜索结果排名方法
CN110544035A (zh) 一种内控检测方法、系统和计算机可读存储介质
CN112131203A (zh) 一种数据仓库搭建的方法和系统
CN112148760B (zh) 大数据的筛选方法及装置
CN111414410A (zh) 数据处理方法、装置、设备和存储介质
CN109636303B (zh) 一种半自动提取和结构化文档信息的存储方法及系统
CN117094743B (zh) 一种自动化卷烟零售市场数据统计分析系统及方法
KR20140026796A (ko) 맞춤형 특허분석 서비스 시스템 및 그 방법
CN111159213A (zh) 一种数据查询方法、装置、系统和存储介质
CN113360517A (zh) 数据处理方法、装置、电子设备及存储介质
CN112100216A (zh) 创意关键词的处理方法和装置
US20140201193A1 (en) Intellectual property asset information retrieval system
CN116933130A (zh) 一种基于大数据的企业行业分类方法、系统、设备及介质
CN116541578A (zh) 资产数字化多维度管理方法及系统
CN111159230A (zh) 数据资源地图的构建方法及装置、存储介质、终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant