CN110019397A - 用于进行数据处理的方法及装置 - Google Patents

用于进行数据处理的方法及装置 Download PDF

Info

Publication number
CN110019397A
CN110019397A CN201711275212.0A CN201711275212A CN110019397A CN 110019397 A CN110019397 A CN 110019397A CN 201711275212 A CN201711275212 A CN 201711275212A CN 110019397 A CN110019397 A CN 110019397A
Authority
CN
China
Prior art keywords
data
dimension
wide table
metadata
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711275212.0A
Other languages
English (en)
Other versions
CN110019397B (zh
Inventor
郭雪茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201711275212.0A priority Critical patent/CN110019397B/zh
Publication of CN110019397A publication Critical patent/CN110019397A/zh
Application granted granted Critical
Publication of CN110019397B publication Critical patent/CN110019397B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Abstract

本申请公开一种用于进行数据处理的方法及装置。涉及计算机信息处理领域,该方法包括:根据业务需求指标获取基础数据;通过梯度建模法对所述基础数据进行加工,生成宽表数据,所述宽表数据包括多维度数据;为所述宽表数据配置指标与维度属性生成元数据;以及将所述元数据进行发布处理,生成发布数据。本申请公开的用于进行数据处理的方法及装置,能够缩短数据分析的周期,提供数据分析效率,并为数据需求人员提供灵活可变的数据展示方式。

Description

用于进行数据处理的方法及装置
技术领域
本发明涉及计算机信息处理领域,具体而言,涉及一种用于进行数据处理的方法及装置。
背景技术
在大数据日益盛行的时代,所有的商业决策都希望建立在大数据的快速统计分析之上,现有技术中的数据分析工具能够提供非常方便且速度很快的获取统计数据的解决方案。但是在电商行业,有些非常重要而特殊的通用指标如:独立访客数,下单用户数,下单量以及由这些指标衍生的其他重要指标,这些指标需要根据需求的维度动态剔重统计分析。当需求人员需要查看某对象的全方位视图(流量,订单,库存等所有信息一起查看并需要按照需求维度动态剔重)时,现有技术中的数据分析工具不能支撑,导致需求人员的每次提出不同的视图展示需求时,都要依赖需要BI(数据库管理)工程师开发,并且需求实现周期很长,效率低下。
现有技术中,此类问题的实现方式是需求人员向BI工程师提出需求,BI工程师进行需求分析,程序开发,再利用大数据平台提取数据推送到需求人员处。需求人员改变分析维度又提出新需求,BI工程师再次进行需求分析,程序开发,这个过程是一个周而复始的循环过程。现有技术中的方式,使得每次需求变更时都需要需求人员重新提出新需求;每个需求变更都依赖BI工程师开发程序,工作量大,且需求实现周期长,整个流程效率极低。
因此,需要一种新的用于进行数据处理的方法及装置。
在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本发明提供一种用于进行数据处理的方法及装置,能够缩短数据分析的周期,提供数据分析效率,并为数据需求人员提供灵活可变的数据展示方式。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明的一方面,提出一种用于进行数据处理的方法,该方法包括:根据业务需求指标获取基础数据;通过梯度建模法对所述基础数据进行加工,生成宽表数据,所述宽表数据包括多维度数据;为所述宽表数据配置指标与维度属性生成元数据;以及将所述元数据进行发布处理,生成发布数据。
在本公开的一种示例性实施例中,还包括:根据待分析的展示维度与所述发布数据,实时生成即席查询报表数据。
在本公开的一种示例性实施例中,所述通过梯度建模法对所述基础数据进行加工,生成宽表数据,包括:根据业务主题分别获取基础数据中的细粒度数据,所述细粒度数据包括流量数据,订单数据,库存数据;以及将所述细粒度数据以梯度形式储存在宽表中生成所述宽表数据。
在本公开的一种示例性实施例中,根据业务主题将所述基础数据进行轻量级的数据加工。
在本公开的一种示例性实施例中,还包括:为每一个业务主题分别创建共同维度,所述共同维度包括库存量单位维度;以及通过所述共同维度与维度扩展信息生成维度数据,所述维度扩展信息包括品类标识与品类名称。
在本公开的一种示例性实施例中,还包括:将所述宽表数据推送到Presto集群进行数据储存;以及将所述宽表数据的结构字典信息储存到MYSQL数据库。
在本公开的一种示例性实施例中,所述为所述宽表数据配置指标与维度属性生成元数据,包括:将所述宽表数据按照预设指标进行剔重处理,生成筛选数据;以及为所述筛选数据配置指标与维度属性生成所述元数据。
在本公开的一种示例性实施例中,所述根据指定维度与所述发布数据,实时生成即席查询报表数据,包括:接收来自用户的展示维度;根据所述展示维度对所述元数据的字段信息进行筛选处理;以及通过筛选处理结果生成即席查询报表数据。
在本公开的一种示例性实施例中,所述通过筛选处理结果生成即席查询报表数据,包括:根据所述展示维度实时构造查询数据的SQL语句;在Presto集群中执行SQL查询;以及通过SQL查询的结果生成所述即席查询报表数据。
在本公开的一种示例性实施例中,所述在Presto集群中执行SQL查询,包括:通过JAVA数据库连接链接到Presto集群;以及在所述Presto集群中执行SQL查询。
根据本发明的一方面,提出一种用于进行数据处理的装置,该装置包括:数据模块,用于根据业务需求指标获取基础数据;宽表模块,用于通过梯度建模法对所述基础数据进行加工,生成宽表数据,所述宽表数据包括多维度数据;配置模块,用于为所述宽表数据配置指标与维度属性生成元数据;以及发布模块,用于将所述元数据进行发布处理,生成发布数据。
在本公开的一种示例性实施例中,还包括:查询模块,用于根据待分析的展示维度与所述发布数据,实时生成即席查询报表数据。
根据本发明的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本发明的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
根据本发明的用于进行数据处理的方法及装置,能够缩短数据分析的周期,提供数据分析效率,并为数据需求人员提供灵活可变的数据展示方式。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
通过参照附图详细描述其示例实施例,本发明的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种用于进行数据处理的方法的系统框图。
图2是根据一示例性实施例示出的一种用于进行数据处理的方法的流程图。
图3是根据一示例性实施例示出的一种用于进行数据处理的方法的示意图。
图4是根据另一示例性实施例示出的一种用于进行数据处理的方法的流程图。
图5是根据另一示例性实施例示出的一种用于进行数据处理的方法的流程图。
图6是根据另一示例性实施例示出的一种用于进行数据处理的方法的流程图。
图7是根据一示例性实施例示出的一种用于进行数据处理的装置的框图。
图8是根据另一示例性实施例示出的一种用于进行数据处理的装置的框图。
图9是根据一示例性实施例示出的一种电子设备的框图。
图10示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本发明将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的,因此不能用于限制本发明的保护范围。
图1是根据一示例性实施例示出的一种用于进行数据处理的方法的系统框图。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的购物类网站提供支持的后台数据管理的服务器。后台数据管理服务器可以对接收到的产品信息,产品购买信息等数据进行分析等处理,可例如为本申请中提到的对数据进行分析进而生成全方位的报表数据,服务器105还可例如将处理结果(例如报表数据)反馈给终端设备。
需要说明的是,本申请实施例所提供的用于进行数据处理的方法一般由服务器105执行,相应地,报表显示装置或者商品浏览装置一般设置于客户端101中。
图2是根据一示例性实施例示出的一种用于进行数据处理的方法的流程图。
如图1所示,在S102中,根据业务需求指标获取基础数据。基础数据可例如来源于大数据平台中的数据,大数据平台是公共的海量数据存储和加工平台,包含流量、订单、库存、商品等各个业务主题的海量日志。根据待分析的业务中的指标数据从大数据平台中提取基础数据,业务指标数据可例如为该业务关注的关键点,可例如为SKU(Stock KeepingUnit,库存量单位,电商网站上可以单独售卖的商品)标识,该业务的流量数据,订单数据,库存数据等等。
在S104中,通过梯度建模法对所述基础数据进行加工,生成宽表数据,所述宽表数据包括多维度数据。
在本公开的一种示例性实施例中,根据业务主题将所述基础数据进行轻量级的数据加工。各分析主题数据需要根据需求进行轻量级加工(比如上图3中的流量数据,并非日志,而是以浏览器标识+sku维度进行的轻量级汇总),这样最大限度的减少宽表记录条数保证宽表使用性能。
在本公开的一种示例性实施例中,组织业务数据时,要根据业务数据支持的分析维度聚合,尽量减少分析主题的个数(如图3所示,存在流量,订单,库存3个主题)。比如说采购数据,可以支撑sku+分公司维度的汇总分析,所以不用增加采购分析主题了,而直接跟库存主题融合成1个分析主题,这样处理能够最大限度的减少宽表分区数保证宽表使用性能。
在本公开的一种示例性实施例中,根据业务主题分别获取基础数据中的细粒度数据,所述细粒度数据包括流量数据,订单数据,库存数据;以及将所述细粒度数据以梯度形式储存在宽表中生成所述宽表数据。还包括:为每一个业务主题分别创建共同维度,所述共同维度包括库存量单位维度;以及通过所述共同维度与维度扩展信息生成维度数据,所述维度扩展信息包括品类标识与品类名称。
可例如,以SKU全方位视图为例来描述如何使用梯度建模法创建宽表如图3所示。SKU全方位视图是以需求驱动建模,它弱化主键的概念,将需求中各个业务主题的细粒度数据(流量数据,订单数据,库存数据)以梯度存储的形式放到一张宽表中,创建这些业务主题数据共同的分析维度(sku维度),并扩展该分析维度的扩展信息(品类标识,品类名称等),生成该分析维度细粒度的全方位视图,本申请中的梯度建模之后的模型有三个要素:1,共同的分析维度;2,数据区分(分区字段);3,各分析主题数据。
在本公开的一种示例性实施例中,还包括:将所述宽表数据推送到Presto集群进行数据储存;以及将所述宽表数据的结构字典信息储存到MYSQL数据库。Mysql是一种关系型数据库,Presto是一个开源的分布式SQL查询引擎。
在S106中,为所述宽表数据配置指标与维度属性生成元数据。包括:将所述宽表数据按照预设指标进行剔重处理,生成筛选数据;以及为所述筛选数据配置指标与维度属性生成所述元数据。
需求人员需要同时统计分析sku的流量订单库存等信息。BI开发人员提前根据用户需求增加自定义指标。自定义指标一般为汇总分析时需要剔重汇总的指标,如独立访客数,下单用户数,下单量等以及由这些指标衍生的其他重要指标。这些自定义的指标都能通过业务建模层创建的SKU全方位视图表中的字段简单加工而成。
配置可例如如下:
1,独立访客数,业务规则配置为“count(distinct浏览器标识)”,每个浏览器标识只能算1个访客。
2,下单用户数,业务规则配置为“count(distinct下单用户pin)”,每个用户多次下单只能算1个下单用户。
3,下单量,业务规则配置为“count(disitnct订单号)”,每个订单算1个下单量。
在S108中,将所述元数据进行发布处理,生成发布数据。元数据,在本申请中为宽表的数据结构,包含表明,字段名,数据类型等信息。从mysql数据库获取到原始的数据字段信息后,可进行一些列的操作,包含设置字段命名,设置指标和维度,设置备注,根据业务规则增加自定义维度和指标字段等。可例如将元数据进行简单的封装处理,生成发布数据。
根据本发明的用于进行数据处理的方法,通过将基础数据进行维度上的扩展与处理,并为处理之后的数据分配自定义的指标与维度,然后在输入数据分析工具中的方式,能够缩短数据分析的周期,提供数据分析效率,并为数据需求人员提供灵活可变的数据展示方式。
应清楚地理解,本发明描述了如何形成和使用特定示例,但本发明的原理不限于这些示例的任何细节。相反,基于本发明公开的内容的教导,这些原理能够应用于许多其它实施例。
在本公开的一种示例性实施例中,还包括:根据待分析的展示维度与所述发布数据,实时生成即席查询报表数据。即席查询是指用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。图4是根据另一示例性实施例示出的一种用于进行数据处理的方法的流程图。图4中的方法是对利用发布数据与元数据生成即席报表数据的示例性描述,但本发明不限于此。
在S402中,从MYSQL获取最原始的数据字典信息。如上文所述,宽表数据结构字典信息存储到MYSQL数据库。由MYSQL数据库提取字典信息。
在S404中,字段设置(设置维度和指标\修改命名,设置时间字段等)。BI开发人员提前根据用户需求增加自定义指标。自定义指标一般为汇总分析时需要剔重汇总的指标,如独立访客数,下单用户数,下单量等以及由这些指标衍生的其他重要指标
在S406中,新增自定义维度。
在S408中,新增自定义指标。
在S410中,生成最终的可供数据选择器筛选的元数据信息。并分配给数据选择器和SQL构造器进行后续处理。
在S412中,数据选择器进行相应的处理,数据选择器可例如为常见的数据分析工具中的数据选择器,本申请不以此为限。
在S414中,SQL构造器进行相应的处理,SQL构造器可例如为常见的数据分析工具中的SQL构造器,本申请不以此为限。SQL是一种用于数据库的结构化查询语言(StructuredQuery Language)。数据需求人员通过数据选择器选择需要分析的字段信息(从元数据管理模块选取,如SKU,品类,品牌等既有信息和独立访客数等一系列自定义的指标信息),然后SQL构造器根据选择的维度信息,实时构造查询数据的SQL语句,再通过JDBC链接到presto集群,执行SQL查询并返回数据结果。JDBC,是指JAVA数据库连接(Java Data BaseConnectivity),是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问。
根据本发明的用于进行数据处理的方法,通过设定自定义的指标与自定义维度的方式进行数据的剔重处理,能够根据需求维度动态剔重统计分析的方法和思路,为数据需求人员提供灵活可变的数据处理方式。
图5是根据另一示例性实施例示出的一种用于进行数据处理的方法的流程图。图5中的方法是对处理基础数据与常用数据分析软件生成即席报表数据的示例性描述,但本发明不限于此。
在S500中,判断报表是否已经发布,如果报表已经发布,则进入步骤S516,如果报表未发布,则进入S502。
在S502中,提出待分析的需求数据。
在S504中,对需求进行分析。
在S506中,根据分析结果,通过梯度建模的生成数据。
在S508中,将数据推送到MYSQL元数据存储模块。
在S510中,将数据推送到Presto集群业务数据存储。
在S512中,元数据管理配置自定义指标维度等。
在S514中,生成报表数据并发布报表。
在S516中,筛选需要统计分析的字段信息。
在S518中,系统自动构造SQL语句。
在S520中,Presto集群数据查询。
在S522中,返回查询结果。
在S524中,报表数据导出。
根据本发明的用于进行数据处理的方法,通过改造元数据管理模块来支持各种自定义字段的配置等,并结合梯度建模法创建数据,再依托现有数据处理工具中的即席查询功能,实现整个流程。能够解决运营分析人员对BI工程师的反复依赖问题,解决频繁需求变更导致的BI工程师工作量大和需求实现周期长的问题。
图6是根据另一示例性实施例示出的一种用于进行数据处理的方法的流程图。图6中的流程是利用本申请中的方法生成即席报表数据的示例性描述,但本发明不限于此。
在S602中,需求人员提出需求。
在S602中,进行需求分析。
在S602中,梯度建模法进行业务建模。
在S602中,配置自定义维度和指标。
在S602中,发布报表。
在S602中,筛选需要统计分析的字段。
在S602中,实时查询并导出报表数据。
根据本发明的用于进行数据处理的方法,能够解决需求变更时需求人员对BI工程师的反复依赖问题,能够解决需求变更时BI工程师多次开发工作量大的问题,内容能够解决需求变更实现周期长的问题。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图7是根据一示例性实施例示出的一种用于进行数据处理的装置的框图。用于进行数据处理的装置70包括数据模块702,宽表模块704,配置模块706,发布模块708。
数据模块702用于根据业务需求指标获取基础数据;
宽表模块704用于通过梯度建模法对所述基础数据进行加工,生成宽表数据,所述宽表数据包括多维度数据;
配置模块706用于为所述宽表数据配置指标与维度属性生成元数据;
发布模块708用于将所述元数据进行发布处理,生成发布数据。
查询模块(图中未示出)用于根据待分析的展示维度与所述发布数据,实时生成即席查询报表数据。
根据本发明的用于进行数据处理的装置,通过将基础数据进行维度上的扩展与处理,并为处理之后的数据分配自定义的指标与维度,然后在输入数据分析工具中的方式,能够缩短数据分析的周期,提供数据分析效率,并为数据需求人员提供灵活可变的数据展示方式。
图8是根据另一示例性实施例示出的一种用于进行数据处理的装置的框图。用于进行数据处理的装置80包括
大数据平台802,是公共的海量数据存储和加工平台,包含流量、订单、库存、商品等各个业务主题的海量日志。
业务建模层804是依托需求人员的分析场景,结合现有即席查询工具的功能,设计出的适合需求人员自助分析并保证查询性能的宽表的加工存储层。业务建模层804通过大数据平台获取数据源,进行加工存储,目前数据仓库建模采用的都是维度建模法,其核心是事实表和维度表的模式。维度建模讲究的是业务主题(例如流量主题,订单主题,库存主题等)解耦,每个业务主题单独创建不同汇总粒度(比如SKU粒度,品类粒度,分公司粒度)的宽表。这种模式使用户如果要查看某对象(比如SKU)的全方位视图(包含该SKU的基本信息,库存信息,流量信息,订单信息等),需要BI开发人员每次根据需求和分析维度重新开发程序。
为解决上述的问题,在业务模型层804中建模创造并使用一种新的数据仓库的建模法,梯度建模法。它弱化主键的概念,将需求中各个业务主题的细粒度数据(流量数据,订单数据,库存数据)以梯度存储的形式放到一张宽表中,创建这些业务主题数据共同的分析维度(sku维度),并扩展该分析维度的扩展信息(品类标识,品类名称等),生成该分析维度细粒度的全方位视图。
MYSQL元数据存储806将业务建模层804的宽表数据结构字典信息存储到mysql数据库。
Presto业务数据存储808业务建模层804的宽表业务数据推送到presto集群进行数据存储。
元数据管理810,元数据,在本申请中为宽表的数据结构,包含表明,字段名,数据类型等信息。从mysql数据库获取到原始的数据字段信息后,可进行一些列的操作,包含设置字段命名,设置指标和维度,设置备注,根据业务规则增加自定义维度和指标字段等。
即席查询812,用于将数据进行实时的展示,即席查询812中包括数据选择器8122与SQL构造器8124。通过数据选择器8122选择需要分析的字段信息(从元数据管理模块选取,如SKU,品类,品牌等既有信息和独立访客数等一系列自定义的指标信息),然后SQL构造器8124根据选择的维度信息,实时构造查询数据的SQL语句,再通过JDBC链接到presto集群,执行SQL查询并返回数据结果。
图9根据一示例性实施例示出的一种电子设备的框图。
下面参照图9描述根据本发明的这种实施方式的电子设备200。图9示的电子设备200仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9示,电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于:至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元210执行,使得所述处理单元210执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元210可以执行如图2,图4,图5中所示的步骤。
所述存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(ROM)2203。
所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备200交互的设备通信,和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且,电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述电子处方流转处理方法。
图10示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。
参考图10所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品400,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:根据业务需求指标获取基础数据;通过梯度建模法对所述基础数据进行加工,生成宽表数据,所述宽表数据包括多维度数据;为所述宽表数据配置指标与维度属性生成元数据;以及将所述元数据进行发布处理,生成发布数据。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施例的方法。
以上具体地示出和描述了本发明的示例性实施例。应可理解的是,本发明不限于这里描述的详细结构、设置方式或实现方法;相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
此外,本说明书说明书附图所示出的结构、比例、大小等,均仅用以配合说明书所公开的内容,以供本领域技术人员了解与阅读,并非用以限定本公开可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本公开所能产生的技术效果及所能实现的目的下,均应仍落在本公开所公开的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“第一”、“第二”及“一”等的用语,也仅为便于叙述的明了,而非用以限定本公开可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当也视为本发明可实施的范畴。

Claims (14)

1.一种用于进行数据处理的方法,其特征在于,包括:
根据业务需求指标获取基础数据;
通过梯度建模法对所述基础数据进行加工,生成宽表数据,所述宽表数据包括多维度数据;
为所述宽表数据配置指标与维度属性生成元数据;以及
将所述元数据进行发布处理,生成发布数据。
2.如权利要求1所述的方法,其特征在于,还包括:
根据待分析的展示维度与所述发布数据,实时生成即席查询报表数据。
3.如权利要求1所述的方法,其特征在于,所述通过梯度建模法对所述基础数据进行加工,生成宽表数据,包括:
根据业务主题分别获取基础数据中的细粒度数据,所述细粒度数据包括流量数据,订单数据,库存数据;以及
将所述细粒度数据以梯度形式储存在宽表中生成所述宽表数据。
4.如权利要求3所述的方法,其特征在于,根据业务主题将所述基础数据进行轻量级的数据加工。
5.如权利要求3所述的方法,其特征在于,还包括:
为每一个业务主题分别创建共同维度,所述共同维度包括库存量单位维度;以及
通过所述共同维度与维度扩展信息生成维度数据,所述维度扩展信息包括品类标识与品类名称。
6.如权利要求3所述的方法,其特征在于,还包括:
将所述宽表数据推送到Presto集群进行数据储存;以及
将所述宽表数据的结构字典信息储存到MYSQL数据库。
7.如权利要求1所述的方法,其特征在于,所述为所述宽表数据配置指标与维度属性生成元数据,包括:
将所述宽表数据按照预设指标进行剔重处理,生成筛选数据;以及
为所述筛选数据配置指标与维度属性生成所述元数据。
8.如权利要求2所述的方法,其特征在于,所述根据指定维度与所述发布数据,实时生成即席查询报表数据,包括:
接收来自用户的展示维度;
根据所述展示维度对所述元数据的字段信息进行筛选处理;以及
通过筛选处理结果生成即席查询报表数据。
9.如权利要求8所述的方法,其特征在于,所述通过筛选处理结果生成即席查询报表数据,包括:
根据所述展示维度实时构造查询数据的SQL语句;
在Presto集群中执行SQL查询;以及
通过SQL查询的结果生成所述即席查询报表数据。
10.如权利要求9所述的方法,其特征在于,所述在Presto集群中执行SQL查询,包括:
通过JAVA数据库连接链接到Presto集群;以及
在所述Presto集群中执行SQL查询。
11.一种用于进行数据处理的装置,其特征在于,包括:
数据模块,用于根据业务需求指标获取基础数据;
宽表模块,用于通过梯度建模法对所述基础数据进行加工,生成宽表数据,所述宽表数据包括多维度数据;
配置模块,用于为所述宽表数据配置指标与维度属性生成元数据;以及
发布模块,用于将所述元数据进行发布处理,生成发布数据。
12.如权利要求11所述的装置,其特征在于,还包括:
查询模块,用于根据待分析的展示维度与所述发布数据,实时生成即席查询报表数据。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-10中任一所述的方法。
CN201711275212.0A 2017-12-06 2017-12-06 用于进行数据处理的方法及装置 Active CN110019397B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711275212.0A CN110019397B (zh) 2017-12-06 2017-12-06 用于进行数据处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711275212.0A CN110019397B (zh) 2017-12-06 2017-12-06 用于进行数据处理的方法及装置

Publications (2)

Publication Number Publication Date
CN110019397A true CN110019397A (zh) 2019-07-16
CN110019397B CN110019397B (zh) 2021-06-29

Family

ID=67186863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711275212.0A Active CN110019397B (zh) 2017-12-06 2017-12-06 用于进行数据处理的方法及装置

Country Status (1)

Country Link
CN (1) CN110019397B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909017A (zh) * 2019-11-11 2020-03-24 苏宁金融科技(南京)有限公司 数据分析方法和系统
CN110928879A (zh) * 2019-11-20 2020-03-27 贵州电网有限责任公司电力科学研究院 宽表生成方法及装置
CN111008521A (zh) * 2019-12-06 2020-04-14 北京三快在线科技有限公司 生成宽表的方法、装置及计算机存储介质
CN111339073A (zh) * 2020-02-24 2020-06-26 天津满运软件科技有限公司 实时数据处理方法、装置、电子设备及可读存储介质
CN111459944A (zh) * 2020-04-07 2020-07-28 北京红山信息科技研究院有限公司 一种mr数据存储方法、装置、服务器及存储介质
CN112100159A (zh) * 2020-09-27 2020-12-18 北京有竹居网络技术有限公司 数据处理方法、装置、电子设备和计算机可读介质
CN112364090A (zh) * 2020-11-03 2021-02-12 杭州数梦工场科技有限公司 数据属性展示方法、装置、电子设备
CN112651594A (zh) * 2020-11-30 2021-04-13 望海康信(北京)科技股份公司 指标管理系统、方法及相应设备和存储介质
CN113254544A (zh) * 2021-04-29 2021-08-13 西安交通大学 一种基于维度建模的数据处理装置及方法
CN113672671A (zh) * 2020-05-15 2021-11-19 西安京迅递供应链科技有限公司 一种实现数据加工的方法和装置
WO2022237764A1 (zh) * 2021-05-10 2022-11-17 北京京东振世信息技术有限公司 一种数据加工方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075304A (zh) * 2006-05-18 2007-11-21 河北全通通信有限公司 电信行业基于数据仓库的决策支持系统的构造方法
CN105930446A (zh) * 2016-04-20 2016-09-07 重庆重邮汇测通信技术有限公司 一种基于Hadoop分布式技术的电信客户标签生成方法
CN107016501A (zh) * 2017-03-28 2017-08-04 浙江力太科技有限公司 一种高效的工业大数据多维分析方法
CN107145532A (zh) * 2017-04-18 2017-09-08 北京思特奇信息技术股份有限公司 一种流数据的实时分析处理方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075304A (zh) * 2006-05-18 2007-11-21 河北全通通信有限公司 电信行业基于数据仓库的决策支持系统的构造方法
CN105930446A (zh) * 2016-04-20 2016-09-07 重庆重邮汇测通信技术有限公司 一种基于Hadoop分布式技术的电信客户标签生成方法
CN107016501A (zh) * 2017-03-28 2017-08-04 浙江力太科技有限公司 一种高效的工业大数据多维分析方法
CN107145532A (zh) * 2017-04-18 2017-09-08 北京思特奇信息技术股份有限公司 一种流数据的实时分析处理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周豪: "大数据量下的实时数据报表系统的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909017A (zh) * 2019-11-11 2020-03-24 苏宁金融科技(南京)有限公司 数据分析方法和系统
CN110909017B (zh) * 2019-11-11 2023-05-02 苏宁金融科技(南京)有限公司 数据分析方法和系统
CN110928879A (zh) * 2019-11-20 2020-03-27 贵州电网有限责任公司电力科学研究院 宽表生成方法及装置
CN111008521B (zh) * 2019-12-06 2023-04-28 北京三快在线科技有限公司 生成宽表的方法、装置及计算机存储介质
CN111008521A (zh) * 2019-12-06 2020-04-14 北京三快在线科技有限公司 生成宽表的方法、装置及计算机存储介质
CN111339073A (zh) * 2020-02-24 2020-06-26 天津满运软件科技有限公司 实时数据处理方法、装置、电子设备及可读存储介质
CN111459944A (zh) * 2020-04-07 2020-07-28 北京红山信息科技研究院有限公司 一种mr数据存储方法、装置、服务器及存储介质
CN111459944B (zh) * 2020-04-07 2023-09-01 北京红山信息科技研究院有限公司 一种mr数据存储方法、装置、服务器及存储介质
CN113672671A (zh) * 2020-05-15 2021-11-19 西安京迅递供应链科技有限公司 一种实现数据加工的方法和装置
CN113672671B (zh) * 2020-05-15 2024-04-19 西安京迅递供应链科技有限公司 一种实现数据加工的方法和装置
CN112100159A (zh) * 2020-09-27 2020-12-18 北京有竹居网络技术有限公司 数据处理方法、装置、电子设备和计算机可读介质
CN112364090A (zh) * 2020-11-03 2021-02-12 杭州数梦工场科技有限公司 数据属性展示方法、装置、电子设备
CN112651594A (zh) * 2020-11-30 2021-04-13 望海康信(北京)科技股份公司 指标管理系统、方法及相应设备和存储介质
CN113254544A (zh) * 2021-04-29 2021-08-13 西安交通大学 一种基于维度建模的数据处理装置及方法
CN113254544B (zh) * 2021-04-29 2023-01-03 西安交通大学 一种基于维度建模的数据处理装置及方法
WO2022237764A1 (zh) * 2021-05-10 2022-11-17 北京京东振世信息技术有限公司 一种数据加工方法和系统

Also Published As

Publication number Publication date
CN110019397B (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN110019397A (zh) 用于进行数据处理的方法及装置
Bhadani et al. Big data: challenges, opportunities, and realities
Wang et al. Industrial big data analytics: challenges, methodologies, and applications
Chong et al. Big data analytics: a literature review
Li et al. Big data in product lifecycle management
Bi et al. Big data analytics with applications
CN103970527B (zh) 为报表生成提供辅助覆盖的方法和系统
US9285960B2 (en) Business intelligence dashboard assembly tool with indications of relationships among content elements
CN109690524A (zh) 分布式事件处理系统中的数据序列化
CN109997126A (zh) 事件驱动提取、变换、加载(etl)处理
CN109785034A (zh) 用户画像生成方法、装置、电子设备及计算机可读介质
CN107451109A (zh) 报表生成方法及系统
CN104750771B (zh) 利用域信息进行上下文数据分析的方法和系统
CN109388637A (zh) 数据仓库信息处理方法、装置、系统、介质
WO2012160381A2 (en) Platform for the delivery of content and services to networked connected computing devices
Blazewicz et al. Handbook on data management in information systems
CN108121742A (zh) 用户分类模型的生成方法及装置
US11386264B2 (en) Configuring complex tables in a client experience framework
Li et al. Step-based data sharing and exchange in one-of-a-kind product collaborative design for cloud manufacturing
CN103605528A (zh) 一种业务开发方法及装置
Yan et al. Big data-based E-commerce transaction information collection method
CN110601866B (zh) 一种流量分析系统、数据采集装置、数据处理装置及方法
Subramanian et al. Systems dynamics-based modeling of data warehouse quality
Bailo et al. EPOS: a novel use of CERIF for data-intensive science
CN110020360A (zh) 用户行为特征提取的方法,系统及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant