CN107291749B - 一种数据指标关联关系的确定方法及装置 - Google Patents

一种数据指标关联关系的确定方法及装置 Download PDF

Info

Publication number
CN107291749B
CN107291749B CN201610202872.5A CN201610202872A CN107291749B CN 107291749 B CN107291749 B CN 107291749B CN 201610202872 A CN201610202872 A CN 201610202872A CN 107291749 B CN107291749 B CN 107291749B
Authority
CN
China
Prior art keywords
data
data node
node
adjusted
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610202872.5A
Other languages
English (en)
Other versions
CN107291749A (zh
Inventor
赵宁
宋科峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cainiao Smart Logistics Holding Ltd
Original Assignee
Cainiao Smart Logistics Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cainiao Smart Logistics Holding Ltd filed Critical Cainiao Smart Logistics Holding Ltd
Priority to CN201610202872.5A priority Critical patent/CN107291749B/zh
Publication of CN107291749A publication Critical patent/CN107291749A/zh
Application granted granted Critical
Publication of CN107291749B publication Critical patent/CN107291749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2425Iterative querying; Query formulation based on the results of a preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)

Abstract

本申请涉及计算机技术,公开了一种数据指标关联关系的确定方法及装置,用于实现数据指标的准确优化。该方法为:本申请实施例中,是基于目标数据指标的待调整属性,从目标数据指标的关联关系树的底层的数据节点进行层层洄溯,筛选出生成脚本中的计算过程涉及到目标数据指标的待调整属性的所有数据节点,再将筛选出的数据节点及相应的生成脚本进行输出,这样,便可以获得所有会影响目标数据指标的待调整属性的数据节点的生成脚本,从而可以在后续操作中有针对性地对这些生成脚本进行优化,将待调整属性调整至理想状态,进而有效地实现了目标数据指标的准确优化。

Description

一种数据指标关联关系的确定方法及装置
技术领域
本申请涉及计算机技术,特别涉及一种数据指标关联关系的确定方法及装置。
背景技术
随着信息时代的到来,目前,各行各业的数据规模不断增长,在过去几年里产生的数据量比以往四五年的数据量都要大。大数据可以来自方方面面,从日常生活购物到社交网络,从地理位置定位到在线视频都会产生大量的数据。
而通过这些大数据可以提炼出所需的数据指标,而这些数据指标正是进行各种决策的关键,跟我们的生活都是息息相关,因此,大数据的准确率越高,相应决策就越实用,就会使生活越有效率。
实际应用中,基于大数据提炼数据指标时,数据指标是基于多层数据表进行层层计算获得的,这种计算过程就好像是将最原始的大数据通过多层沙漏进行过滤一样,只不过是每层沙漏过滤的规则都是不一样的,而每层的计算都会影响数据指标的准确性。
目前,针对如何提高数据指标的准确性还没有具体的实现方案,仅仅是针对数据指标给出相关属性值,以描述数据指标的准确程序。
例如,以现有数据计算过程中,在对数据指标的取值(value数值)进行计算时,会计算出某个数据指标下有多少条数据是空值,进而得到该数据指标的空值率。某个数据指标的空值率过高时,这个数据指标的意义就会大打折扣,所以面临一个很严峻的问题是如何降低空值率,这个问题在现有工具中是没有得到解决的。
如,空值率30%,平均值是500。但是如果希望将空值率,从30%到20%,却不知如何下手实现。
上述过程仅以数据指标的空值率为例进行介绍,对于数据指标的其他属性而言,同时存在无法进行准确优化的问题。
发明内容
本申请实施例提供一种数据指标关联关系的确定方法及装置,用于实现数据指标的准确优化。
本申请实施例提供的具体技术方案如下:
一种数据指标关联关系的确定方法,包括:
确定待分析的目标数据指标及待调整属性;
确定所述目标数据指标对应的底层的数据节点以及与所述底层数据节点存在关联关系的数据节点;
对所述底层的数据节点以及与所述底层的数据节点存在关联关系的数据节点进行解析,以筛选出与所述待调整属性相关联的数据节点;
对筛选出的数据节点的生成脚本进行输出。
可选的,所述底层的数据节点表示用于记录所述目标数据指标的数据表。
可选的,确定与所述底层的数据节点存在关联关系的数据节点,包括:
从所述底层的数据节点开始确定,在所述底层的数据节点和源数据节点之间,逐级确定出与所述底层的数据节点存在关联关系的数据节点,其中,每确定一个数据节点,执行以下操作:
基于当前确定的一个数据节点对应的生成脚本中记录的关联数据节点的标识信息,提取出与当前确定的一个数据节点存在关联关系的下一个数据节点。
可选的,对所述底层数据节点以及与所述底层数据节点存在关联关系的数据节点进行的解析,包括:
每确定一个数据节点,对当前确定的一个数据节点对应的生成脚本进行词法分析,确定所述生成脚本中计算所述目标数据指标采用的计算语句;
将获得的计算语句与预设的规则库进行匹配,根据匹配结果从当前确定的一个数据节点的上一级的数据节点中筛选出与所述待调整属性相关联的数据节点;其中,所述规则库中记录的规则用于指示不同的计算语句下,当前确定的一个数据节点中记录的目标数据指标的待调整属性来源于哪一个上一级的数据节点;
将针对当前确定的一个数据节点筛选出的上一级的数据节点作为下一个进行词法分析的对象,直至确定与所述目标数据指标的目标调优属性关联的最终的数据节点为止。
可选的,对一个数据节点的生成脚本进行词法分析,确定所述生成脚本中计算所述目标数据指标时采用的计算语句,包括:
获取所述生成脚本对应的源程序;
按照构词规则将源程序分解为一系列的单词符号;
按照预设的语法规则对获得的单词符号进行处理,输出计算语句,并从中筛选出与所述目标数据指标相关的计算语句。
可选的,确定与所述目标数据指标的待调整属性关联的最终的数据节点,包括:
判定当前确定的一个数据节点对应的生成脚本中不包括涉及所述目标数据指标的待调整属性的计算语句时,将上一次确定的一个数据节点作为最终的数据节点;或者,
判定当前确定的一个数据节点对应的生成脚本中包括涉及所述目标数据指标的待调整属性的计算语句,且所述当前确定的一个数据节点为源数据节点时,将所述当前确定的一个数据节点为最终的数据节点。
一种数据指标关联关系的确定装置,包括:
第一处理单元,用于确定待分析的目标数据指标及待调整属性;
第二处理单元,用于确定所述目标数据指标对应的底层的数据节点以及与所述底层数据节点存在关联关系的数据节点;
第三处理单元,用于对所述底层的数据节点以及与所述底层的数据节点存在关联关系的数据节点进行解析,以筛选出与所述待调整属性相关联的数据节点;
输出单元,用于对筛选出的数据节点的生成脚本进行输出。
可选的,所述底层的数据节点表示用于记录所述目标数据指标的数据表。
可选的,确定与所述底层的数据节点存在关联关系的数据节点时,所述第二处理单元用于:
从所述底层的数据节点开始确定,在所述底层的数据节点和源数据节点之间,逐级确定出与所述底层的数据节点存在关联关系的数据节点,其中,每确定一个数据节点,执行以下操作:
基于当前确定的一个数据节点对应的生成脚本中记录的关联数据节点的标识信息,提取出与当前确定的一个数据节点存在关联关系的下一个数据节点。
可选的,对所述底层数据节点以及与所述底层数据节点存在关联关系的数据节点进行的解析时,所述第三处理单元用于:
每确定一个数据节点,对当前确定的一个数据节点对应的生成脚本进行词法分析,确定所述生成脚本中计算所述目标数据指标采用的计算语句;
将获得的计算语句与预设的规则库进行匹配,根据匹配结果从当前确定的一个数据节点的上一级的数据节点中筛选出与所述待调整属性相关联的数据节点;其中,所述规则库中记录的规则用于指示不同的计算语句下,当前确定的一个数据节点中记录的目标数据指标的待调整属性来源于哪一个上一级的数据节点;
将针对当前确定的一个数据节点筛选出的上一级的数据节点作为下一个进行词法分析的对象,直至确定与所述目标数据指标的目标调优属性关联的最终的数据节点为止。
可选的,对一个数据节点的生成脚本进行词法分析,确定所述生成脚本中计算所述目标数据指标时采用的计算语句时,所述第三处理单元用于:
获取所述生成脚本对应的源程序;
按照构词规则将源程序分解为一系列的单词符号;
按照预设的语法规则对获得的单词符号进行处理,输出计算语句,并从中筛选出与所述目标数据指标相关的计算语句。
可选的,确定与所述目标数据指标的待调整属性关联的最终的数据节点时,所述第三处理单元用于:
判定当前确定的一个数据节点对应的生成脚本中不包括涉及所述目标数据指标的待调整属性的计算语句时,将上一次确定的一个数据节点作为最终的数据节点;或者,
判定当前确定的一个数据节点对应的生成脚本中包括涉及所述目标数据指标的待调整属性的计算语句,且所述当前确定的一个数据节点为源数据节点时,将所述当前确定的一个数据节点为最终的数据节点。
本申请实施例中,是基于目标数据指标的待调整属性,从目标数据指标的关联关系树的底层的数据节点进行层层洄溯,筛选出生成脚本中的计算过程涉及到目标数据指标的待调整属性的所有数据节点,再将筛选出的数据节点及相应的生成脚本进行输出,这样,便可以获得所有会影响目标数据指标的待调整属性的数据节点的生成脚本,从而可以在后续操作中有针对性地对这些生成脚本进行优化,将待调整属性调整至理想状态,进而有效地实现了目标数据指标的准确优化。
附图说明
图1为本申请实施例中数据指标关联关系确定流程图;
图2和图3为本申请实施例中数据指标关联关系树示意图;
图4为本申请实施例中优化装置功能结构示意图。
具体实施方式
为了能够对数据指标进行准确优化,本申请实施例中,通过分析目标数据指标的计算过程,得出目标数据指标的关联关系树,通过分析该关联关系树中的每个节点,便可以得知计算目标数据指标的过程中所需要使用的所有实现方法,最后,再将这些实现方法进行输出。这样,管理人员可以通过关联关系树中每个节点的实现方法,对数据指标的数据进行准确优化。
下面结合附图对本申请优选的实施方式进行详细说明。
首先,先对本申请例中需要使用到的技术名称进行简单介绍。
本申请实施例中,数据表(Table)是最基本的数据存储单元,类似于关系数据库中的表。在逻辑上是由行和列组成的二维结构,一行代表一条记录,一条记录中的不同字段,表示在这条记录中记载的各个数据指标,而一列则表示一种各个数据指标的取值。例如,假设一条记录包含以下字段:
user_id BIGINT,标识唯一用户ID;
view_time BIGINT,页面访问时间,时间戳格式;
page_url STRING,页面URL;
referrer_url STRING,来源URL;
IP STRING,请求访问的机器IP。
数据指标是具体含义的字段,例如,上面提到的page_url;
具体的,记录有数据指标的数据表如表1所示:
表1
Figure GDA0002509933580000061
Figure GDA0002509933580000071
不同字段表示的数据指标在不同阶段可以有不同的取值,而同一数据指标的不同取值的状态也表示了这一数据指标的属性,如,参阅表1所示,对于“view_time”这一数据指标而言,其不同的取值可以反映“view_time”的空值率,或者,也反映了“view_time”的中位数(即用于表示取值是否为理想值)。
参阅图1所示,本申请实施例中,确定数据指标关联关系的方法如下:
步骤100:确定待分析的目标数据指标及待调整属性。
步骤110:确定所述目标数据指标对应的底层的数据节点,以及与所述底层的数据节点存在关联关系的数据节点。
本实施例中,底层的数据节点表示用于记录生成目标数据指标的数据表。
在步骤110中,目标数据指标表示某一数据表中需要进行优化的数据指标,如,“view_time”、“page_url”,而待调整属性则表示需要对目标数据指标进行优化的属性类型,如,空值率,中位数等等。
为了便于描述,本申请实施例中,均以目标数据指标是“Is_count”、待调整属性是“空值率”为例进行说明。
例如,参阅图2所示,在数据节点的关联关系树中,每一个数据节点均代表了一张数据表,而数据表之间的连线则表示生成数据节点时所采用的生成脚本,如,假设目标数据指标“Is_count”对应的底层的数据节点是节点G,而节点G对应的生成脚本中记录了节点D和节点E的标识信息,即D+E=>G,则表示节点G中记录的数据表是由节点D中的数据表和节点E中记录的数据表通过一个生成脚本计算获得的。
步骤120:对所述底层的数据节点以及与所述底层的数据节点存在关联关系的数据节点进行解析,以筛选出与所述待调整属性相关联的数据节点。
参阅图2所示的关联关系树,由于底层的数据节点是由各层的数据节点经过层层计算获得的,因此,由底层的数据节点层层洄溯,即可以获知与底层的数据节点存在关联关系的数据节点。具体的,可以采用以下方式:
从底层的数据节点开始确定,在底层的数据节点和源数据节点之间,逐级确定与底层的数据节点存在关联关系的数据节点,其中,每确定一个数据节点,执行以下操作:基于当前确定的一个数据节点对应的生成脚本中记录的关联数据节点的标识信息,确定与当前确定的一个数据节点存在关联关系的下一个数据节点。
例如,首先,基于底层的数据节点对应的生成脚本中记录的关联数据节点的标识信息,确定底层的数据节点存在直接关联关系的数据节点;其次,再基于与底层的数据节点存在直接关联关系的数据节点对应的生成脚本中记录的关联数据节点的标识信息,确定与底层的数据节点存在间接关联关系的数据节点;如此层层洄溯,直至确定出与底层的目标数据指标存在直接关联关系或间接关联关系的所有数据节点为止。
换言之,即首先确定底层的数据节点,再从底层的数据节点开始逐级获得各层上级的数据节点。由于各个数据节点是以标准的应用程序接口(API:Application ProgramInterface,API)的形式对外提供服务的,因此,在调用数据节点时,要调用数据库对外封装的接口来辅助获取每个数据节点以及对应的生成脚本。
例如,参阅图2所示,假设目标数据指标“Is_count”对应的底层的数据节点是节点G,而节点G的生成脚本中记录了节点D和节点E的标识信息,则节点D和节点E是与节点G存在直接关联关系的数据节点,则节点D的生成脚本中记录了节点B的标识信息,节点E的生成脚本中记录了节点C的标识信息,节点C和节点B的生成脚本中均记录了节点A(源数据节点)的标识信息,则节点B、节点C和节点A是与节点G存在间接关联关系的数据节点,因此,可见,在图2所示的关联关系树中,节点A、节点B、节点C、节点C均是与节点G存在关联关系的上一级的数据节点。
虽然与底层的数据节点存在关联关系的上一级的数据节点有很多,但是,这些数据节点中并不是所有数据节点均和底层的数据节点中记录的目标数据指标的待调整属性相关联,因此,需要对提取出的数据节点的生成脚本进行词法分析,解析出这些数据节点内哪些数据节点对应的生成脚本中针对目标数据指标均采用了相关的计算语句,从而造成目标数据指标的待调整属性处于不理想状态。
可选的,本申请实施例中,是一边确定数据节点,一边进行生成脚本词法分析及数据节点筛选的,具体过程如下:
每确定一个数据节点,对当前确定的一个数据节点对应的生成脚本进行词法分析,确定该生成脚本中计算上述目标数据指标采用的计算语句;
将获得的计算语句与预设的规则库进行匹配,根据匹配结果从当前确定的一个数据节点的上一级的数据节点中筛选出与待调整属性相关联的数据节点;其中,上述预设的规则库中记录的规则用于指示不同的计算语句下,当前提取的一个数据节点中记录的目标数据指标的待调整属性来源于哪一个上一级的数据节点;
最后,将针对当前确定的一个数据节点筛选出的上一级的数据节点作为下一个进行词法分析的对象。
这样,直至确定与上述目标数据指标的目标调优属性关联的最终的数据节点为止。
词法分析:即是根据生成数据节点中记录的数据表时所采用的编程语言的语法特点进行词法分析,目前,通常采用词法分析器来实现词法分析。
而词法分析器的运行的原理是,输入源程序,按照构词规则将源程序分解为一系列的单词符号,再按照预设的语法规则将获得的单词符号进行处理,输出计算语句,并从中筛选出与目标数据指标相关的计算语句。
其中,单词是编程语言中具有独立意义的最小单位,包括关键字、标识符、运算符、界符和常量等。
关键字:是由程序语言定义的具有固定意义的标识符。例如,insert\select\from\case等都是保留字。这些字通常不用作一般标识符。
标识符:用来表示各种名字,如表名、字段名、变量名等等。
常数:常数的类型一般有整型、实型、布尔型、文字型等。
运算符:如sum\count等等常用的运算符。
界符:如逗号、分号、括号、等等。
单词符号的识别过程通常是逐个地读取,每读入一个单词符号就进行判断,假如说读取到的单词符号是“/”,就说明后面的部分有可能是注释,所以继续读取下一个单词符号,如果读取到的单词符号是“*”,就说明后面的部分就是注释,那么,这个时候只需要找到下一个“*\”就可以查找到完全的注释内容了,因此,采用这种方法对数据节点的生成脚本进行解析,即可以获知在数据指标的计算过程中都采用了何种计算语句。
通常情况下,词法分析器的以二元式的形式输出解析获得的计算语句。例如,计算语句常常表示为如下的二元式:单词种别,单词符号的属性值,如:“left outer join,uv”,意思是uv这个数据指标经过了left outer join这一计算语句获得的。
进一步的,经解析获得了数据节点的生成脚本中针对目标数据指标采用的计算语句后,即可以与预设的规则库进行匹配,从而筛选出与目标数据指标的待调整属性相关联的上一级的数据节点。
例如,假设预设的规则库的内容如表2所示:
表2
Figure GDA0002509933580000101
Figure GDA0002509933580000111
在上述表2中,使用join on语句时,所谓的母表即是指生成某一数据节点时所参考的上一级的一个数据节点,例如,参阅图2所示,节点B是节点D的母表。
而使用left outer join语句、right outer join语句和full outer join语句这三种计算语句时,所谓的左表,即是指运行计算语句时,读取位置位于计算语句左边的数据表,所谓的右表,即是指运行计算语句时,读取位置位于计算语句右边的数据表。以leftouter join语句为例,在计算语句D left outer join E中,节点D是左表,节点E是右表。
假设当前提取的是图2所示的节点G的生成脚本,经解析,节点G中针对目标数据指标“Is_count”采用的计算语句是“left outer join”,即是将左面的数据表(即节点D记录的数据表)关联至右边的数据表(即节点E记录的数据表)后获得的,通过与表2所示的规则库匹配后,确定“left outer join”计算语句是以右边的数据表为主,即当关联不到右边的数据表时,计算获得的目标数据指标就会为null。那么,可以确定,虽然节点D和节点E均与节点G相关联,但由于计算语句是“left outer join”,因此,节点G中“Is_count“的空值率是由节点E造成的,节点E中用于计算”Is_count“的字段空值率升高,就会导致节点G中的记录的“Is_count”的空值率升高,那么,筛选出的数据节点即是节点E,即需要对节点E及生成脚本进行优化。
进一步地,节点E中记录的数据表也是经过计算语句计算获得的,对节点E的生成脚本进行词法分析后,发现节点E的生成脚本中针对“Is_count”的计算语句是“join on”,经过与表2所示的规则库进行匹配后,确定采用“join on”语句表示节点E中记录的数据表的空值率与母表(即节点C中记录的数据表)相同,因此,可确定是节点C中记录的用于计算”Is_count“的字段空值率升高,导致了节点E中记录的用于计算“Is_count”的字段空值率升高,进而造成节点E中记录的“Is_count”的空值率升高,因此,再次筛选出的数据节点即是节点C,即也需要对节点C及生成脚本进行优化。
同理,还可以进一步筛选出节点A及生成脚本作为待优化的对象,其词法分析及语法匹配过程与节点C相同,在此不再赘述。
从上述过程可以看出,每次针对当前确定的一个数据节点筛选出一个上一级的数据节点后,均可以将筛选出的上一级的数据节点作为下一个进行词法分析的对象,以此类推,直至确定与目标数据指标的待调整属性关联的最终的数据节点为止。
当然,所谓的最终的数据节点可以是关联关系树的源数据节点(如,节点A),也可以是中间的数据节点(如,节点C),这主要取决于词法分析结果,需要确定哪些数据节点与目标数据指标的待调整属性的计算过程相关联。具体的,分为以下两种情况:
第一种情况为:判定当前确定的数据节点对应的生成脚本中不包括涉及目标数据指标的待调整属性的计算语句时,将上一次确定的数据节点作为最终的数据节点。
例如,筛选出节点C后,进一步解析节点A的生成脚本时,发现其中并不涉及与“Is_count”关联的计算语句,则确定节点C即是最终的数据节点。
第二种情况为:判定当前确定的数据节点对应的生成脚本中包括涉及目标数据指标的待调整属性的计算语句,且当前确定的数据节点为源数据节点时,将当前确定的数据节点作为最终的数据节点。
例如,筛选出节点C后,进一步解析节点A的生成脚本时,发现其中涉及与“Is_count”关联的计算语句,且节点A为源数据节点,则确定节点A即是最终的数据节点。
步骤130:对筛选出的数据节点及对应的生成脚本进行输出。
例如,参阅图2和图3所示,在经过步骤110后,假设从节点G开始,逐级筛选出与目标数据指标的待调整属性(即“Is_count的空值率”)相关联的数据节点为:节点G、节点E、节点B和节点A,则说明在这些数据节点的计算环节出现了问题,从而导致节点G中记录的目标数据指标“Is_count”的空值率过高,因此,需要对这些数据节点记录的生成脚本进行优化,从而将筛选出的数据节点及相应的生成脚本输出至指定的服务端,由管理人员针对输出内容进行相关优化。
采用优化后的生成脚本生成的新的关联关系树后,可以有效地优化目标数据指标的待调整属性,如,空值率,中位值等等
基于上述实施例,参阅图4所示,数据指标关联关系的确定装置(又可称为优化装置)至少包括第一处理单元41、第二处理单元42、第三处理单元43和输出单元44:
第一处理单元41,用于确定待分析的目标数据指标及待调整属性;
第二处理单元42,用于确定所述目标数据指标对应的底层的数据节点以及与所述底层数据节点存在关联关系的数据节点;
第三处理单元43,用于对所述底层的数据节点以及与所述底层的数据节点存在关联关系的数据节点进行解析,以筛选出与所述待调整属性相关联的数据节点;
输出单元44,用于对筛选出的数据节点的生成脚本进行输出。
可选的,所述底层的数据节点表示用于记录所述目标数据指标的数据表。
可选的,确定与所述底层的数据节点存在关联关系的数据节点时,第二处理单元42用于:
从所述底层的数据节点开始确定,在所述底层的数据节点和源数据节点之间,逐级确定出与所述底层的数据节点存在关联关系的数据节点,其中,每确定一个数据节点,执行以下操作:
基于当前确定的一个数据节点对应的生成脚本中记录的关联数据节点的标识信息,提取出与当前确定的一个数据节点存在关联关系的下一个数据节点。
可选的,对所述底层数据节点以及与所述底层数据节点存在关联关系的数据节点进行的解析时,第三处理单元43用于:
每确定一个数据节点,对当前确定的一个数据节点对应的生成脚本进行词法分析,确定所述生成脚本中计算所述目标数据指标采用的计算语句;
将获得的计算语句与预设的规则库进行匹配,根据匹配结果从当前确定的一个数据节点的上一级的数据节点中筛选出与所述待调整属性相关联的数据节点;其中,所述规则库中记录的规则用于指示不同的计算语句下,当前确定的一个数据节点中记录的目标数据指标的待调整属性来源于哪一个上一级的数据节点;
将针对当前确定的一个数据节点筛选出的上一级的数据节点作为下一个进行词法分析的对象,直至确定与所述目标数据指标的目标调优属性关联的最终的数据节点为止。
可选的,对一个数据节点的生成脚本进行词法分析,确定所述生成脚本中计算所述目标数据指标时采用的计算语句时,第三处理单元43用于:
获取所述生成脚本对应的源程序;
按照构词规则将源程序分解为一系列的单词符号;
按照预设的语法规则对获得的单词符号进行处理,输出计算语句,并从中筛选出与所述目标数据指标相关的计算语句。
可选的,确定与所述目标数据指标的待调整属性关联的最终的数据节点时,第三处理单元43用于:
判定当前确定的一个数据节点对应的生成脚本中不包括涉及所述目标数据指标的待调整属性的计算语句时,将上一次确定的一个数据节点作为最终的数据节点;或者,
判定当前确定的一个数据节点对应的生成脚本中包括涉及所述目标数据指标的待调整属性的计算语句,且所述当前确定的一个数据节点为源数据节点时,将所述当前确定的一个数据节点为最终的数据节点。
综上所述,本申请实施例中,通过调整目标数据指标的计算生命周期中的各个数据节点来实现调整待调整属性的目的,具体的,即是基于目标数据指标的待调整属性,从目标数据指标的关联关系树的底层的数据节点进行层层洄溯,筛选出生成脚本中的计算过程涉及到目标数据指标的待调整属性的所有数据节点,再将筛选出的数据节点及相应的生成脚本进行输出,这样,便可以获得所有会影响目标数据指标的待调整属性的数据节点的生成脚本,从而可以在后续操作中有针对性地对这些生成脚本进行优化,将待调整属性调整至理想状态,进而有效地实现了目标数据指标的准确优化。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (12)

1.一种数据指标关联关系的确定方法,其特征在于,包括:
确定待分析的目标数据指标及待调整属性;
确定所述目标数据指标对应的底层的数据节点以及与所述底层的数据节点存在关联关系的数据节点;
对所述底层的数据节点以及与所述底层的数据节点存在关联关系的数据节点进行解析,以筛选出与所述待调整属性相关联的数据节点;
对筛选出的数据节点的生成脚本进行输出。
2.如权利要求1所述的方法,其特征在于,所述底层的数据节点表示用于记录所述目标数据指标的数据表。
3.如权利要求1所述的方法,其特征在于,确定与所述底层的数据节点存在关联关系的数据节点,包括:
从所述底层的数据节点开始确定,在所述底层的数据节点和源数据节点之间,逐级确定出与所述底层的数据节点存在关联关系的数据节点,其中,每确定一个数据节点,执行以下操作:
基于当前确定的一个数据节点对应的生成脚本中记录的关联数据节点的标识信息,提取出与当前确定的一个数据节点存在关联关系的下一个数据节点。
4.如权利要求1、2或3所述的方法,其特征在于,对所述底层的数据节点以及与所述底层的数据节点存在关联关系的数据节点进行的解析,包括:
每确定一个数据节点,执行以下操作,直至确定与所述目标数据指标的待调整属性关联的最终的数据节点为止:
对当前确定的一个数据节点对应的生成脚本进行词法分析,确定所述生成脚本中计算所述目标数据指标采用的计算语句;
将获得的计算语句与预设的规则库进行匹配,根据匹配结果从当前确定的一个数据节点的上一级的数据节点中筛选出与所述待调整属性相关联的数据节点;其中,所述规则库中记录的规则用于指示不同的计算语句下,当前确定的一个数据节点中记录的目标数据指标的待调整属性来源于哪一个上一级的数据节点;
将针对当前确定的一个数据节点筛选出的上一级的数据节点作为下一个进行词法分析的对象。
5.如权利要求4所述的方法,其特征在于,对一个数据节点的生成脚本进行词法分析,确定所述生成脚本中计算所述目标数据指标时采用的计算语句,包括:
获取所述生成脚本对应的源程序;
按照构词规则将源程序分解为一系列的单词符号;
按照预设的语法规则对获得的单词符号进行处理,输出计算语句,并从中筛选出与所述目标数据指标相关的计算语句。
6.如权利要求4所述的方法,其特征在于,确定与所述目标数据指标的待调整属性关联的最终的数据节点,包括:
判定当前确定的一个数据节点对应的生成脚本中不包括涉及所述目标数据指标的待调整属性的计算语句时,将上一次确定的一个数据节点作为最终的数据节点;或者,
判定当前确定的一个数据节点对应的生成脚本中包括涉及所述目标数据指标的待调整属性的计算语句,且所述当前确定的一个数据节点为源数据节点时,将所述当前确定的一个数据节点为最终的数据节点。
7.一种数据指标关联关系的确定装置,其特征在于,包括:
第一处理单元,用于确定待分析的目标数据指标及待调整属性;
第二处理单元,用于确定所述目标数据指标对应的底层的数据节点以及与所述底层的数据节点存在关联关系的数据节点;
第三处理单元,用于对所述底层的数据节点以及与所述底层的数据节点存在关联关系的数据节点进行解析,以筛选出与所述待调整属性相关联的数据节点;
输出单元,用于对筛选出的数据节点的生成脚本进行输出。
8.如权利要求7所述的装置,其特征在于,所述底层的数据节点表示用于记录所述目标数据指标的数据表。
9.如权利要求7所述的装置,其特征在于,确定与所述底层的数据节点存在关联关系的数据节点时,所述第二处理单元用于:
从所述底层的数据节点开始确定,在所述底层的数据节点和源数据节点之间,逐级确定出与所述底层的数据节点存在关联关系的数据节点,其中,每确定一个数据节点,执行以下操作:
基于当前确定的一个数据节点对应的生成脚本中记录的关联数据节点的标识信息,提取出与当前确定的一个数据节点存在关联关系的下一个数据节点。
10.如权利要求7、8或9所述的装置,其特征在于,对所述底层的数据节点以及与所述底层的数据节点存在关联关系的数据节点进行的解析时,所述第三处理单元用于:
每确定一个数据节点,执行以下操作,直至确定与所述目标数据指标的待调整属性关联的最终的数据节点为止:
对当前确定的一个数据节点对应的生成脚本进行词法分析,确定所述生成脚本中计算所述目标数据指标采用的计算语句;
将获得的计算语句与预设的规则库进行匹配,根据匹配结果从当前确定的一个数据节点的上一级的数据节点中筛选出与所述待调整属性相关联的数据节点;其中,所述规则库中记录的规则用于指示不同的计算语句下,当前确定的一个数据节点中记录的目标数据指标的待调整属性来源于哪一个上一级的数据节点;
将针对当前确定的一个数据节点筛选出的上一级的数据节点作为下一个进行词法分析的对象。
11.如权利要求10所述的装置,其特征在于,对一个数据节点的生成脚本进行词法分析,确定所述生成脚本中计算所述目标数据指标时采用的计算语句时,所述第三处理单元用于:
获取所述生成脚本对应的源程序;
按照构词规则将源程序分解为一系列的单词符号;
按照预设的语法规则对获得的单词符号进行处理,输出计算语句,并从中筛选出与所述目标数据指标相关的计算语句。
12.如权利要求10所述的装置,其特征在于,确定与所述目标数据指标的待调整属性关联的最终的数据节点时,所述第三处理单元用于:
判定当前确定的一个数据节点对应的生成脚本中不包括涉及所述目标数据指标的待调整属性的计算语句时,将上一次确定的一个数据节点作为最终的数据节点;或者,
判定当前确定的一个数据节点对应的生成脚本中包括涉及所述目标数据指标的待调整属性的计算语句,且所述当前确定的一个数据节点为源数据节点时,将所述当前确定的一个数据节点为最终的数据节点。
CN201610202872.5A 2016-03-31 2016-03-31 一种数据指标关联关系的确定方法及装置 Active CN107291749B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610202872.5A CN107291749B (zh) 2016-03-31 2016-03-31 一种数据指标关联关系的确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610202872.5A CN107291749B (zh) 2016-03-31 2016-03-31 一种数据指标关联关系的确定方法及装置

Publications (2)

Publication Number Publication Date
CN107291749A CN107291749A (zh) 2017-10-24
CN107291749B true CN107291749B (zh) 2020-11-10

Family

ID=60087474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610202872.5A Active CN107291749B (zh) 2016-03-31 2016-03-31 一种数据指标关联关系的确定方法及装置

Country Status (1)

Country Link
CN (1) CN107291749B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688371B (zh) * 2019-08-08 2023-06-06 平安科技(深圳)有限公司 数据调整方法、装置、电子设备及存储介质
CN111782691A (zh) * 2020-05-13 2020-10-16 北京三快在线科技有限公司 指标关联性确定方法、装置、电子设备及存储介质
CN111970168A (zh) * 2020-08-11 2020-11-20 北京点众科技股份有限公司 全链路服务节点的监控方法、装置和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645409B1 (en) * 2008-04-02 2014-02-04 Google Inc. Contextual search term evaluation
CN103793388B (zh) * 2012-10-29 2017-08-25 阿里巴巴集团控股有限公司 搜索结果的排序方法和装置
JP6158623B2 (ja) * 2013-07-25 2017-07-05 株式会社日立製作所 データベース分析装置及び方法
CN105320690B (zh) * 2014-07-30 2018-09-25 北京中海纪元数字技术发展股份有限公司 一种基于元数据的统计表单快速生成方法及系统

Also Published As

Publication number Publication date
CN107291749A (zh) 2017-10-24

Similar Documents

Publication Publication Date Title
US10430469B2 (en) Enhanced document input parsing
US9104720B2 (en) Generation of technical description of report from functional description of report
EP3832488A2 (en) Method and apparatus for generating event theme, device and storage medium
CN113760891B (zh) 一种数据表的生成方法、装置、设备和存储介质
US9037552B2 (en) Methods for analyzing a database and devices thereof
US8601367B1 (en) Systems and methods for generating filing documents in a visual presentation context with XBRL barcode authentication
US10387805B2 (en) System and method for ranking news feeds
US9940380B2 (en) Automatic modeling of column and pivot table layout tabular data
US10127292B2 (en) Knowledge catalysts
CN107291749B (zh) 一种数据指标关联关系的确定方法及装置
CN109558166A (zh) 一种面向缺陷定位的代码搜索方法
US20190258629A1 (en) Data mining method based on mixed-type data
CN114398394A (zh) 数据血缘解析方法、装置、设备及存储介质
US9785404B2 (en) Method and system for analyzing data in artifacts and creating a modifiable data network
CN112131296B (zh) 一种数据探查方法、装置、电子设备和存储介质
CN110874366A (zh) 数据处理、查询方法和装置
CN110781211B (zh) 一种数据的解析方法及装置
CN106844218B (zh) 一种基于演化切片的演化影响集预测方法
CN114896269A (zh) 结构化查询语句检测方法、装置、电子设备及存储介质
CN114841155A (zh) 主题内容智能聚合方法、装置、电子设备及存储介质
CN114547231A (zh) 一种数据溯源的方法和系统
CN117076515B (zh) 医疗管理系统中元数据的溯源方法、装置、服务器及存储介质
CN114610791B (zh) 数据血缘关系的分析方法、装置、计算机设备及存储介质
TWI524191B (zh) Data analysis methods, systems and servers
Mazilu et al. Schema Mapping Generation in the Wild: A Demonstration with Open Government Data.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180418

Address after: Four story 847 mailbox of the capital mansion of Cayman Islands, Cayman Islands, Cayman

Applicant after: CAINIAO SMART LOGISTICS HOLDING Ltd.

Address before: Cayman Islands Grand Cayman capital building, a four storey No. 847 mailbox

Applicant before: ALIBABA GROUP HOLDING Ltd.

GR01 Patent grant
GR01 Patent grant