CN113495906B - 数据处理方法与装置、计算机可读存储介质、电子设备 - Google Patents
数据处理方法与装置、计算机可读存储介质、电子设备 Download PDFInfo
- Publication number
- CN113495906B CN113495906B CN202010199830.7A CN202010199830A CN113495906B CN 113495906 B CN113495906 B CN 113495906B CN 202010199830 A CN202010199830 A CN 202010199830A CN 113495906 B CN113495906 B CN 113495906B
- Authority
- CN
- China
- Prior art keywords
- data
- target
- link
- dimension
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Mathematical Physics (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开属于数据处理技术领域,涉及一种数据处理方法与装置、计算机可读存储介质、电子设备。该方法包括:确定原始数据的目标维度,并根据目标维度确定原始数据的数据链路;配置原始数据的缓慢变化维,以得到原始数据的数据指标;根据数据指标对数据链路进行排序,并根据链路排序结果得到目标数据。本公开通过原始数据的数据指标对数据链路的排序,实现从原始数据中得到目标数据的功能。一方面,自动化的数据处理流程减少了人力物力成本的投入,便捷了数据的分析流程,加快了数据的挖掘速度,提高了数据的挖掘准确度;另一方面,筛选出的目标数据在原始数据中的价值更高,进而通过目标数据协助业务人员作出更为准确的决策,降低了决策成本。
Description
技术领域
本公开涉及数据处理技术领域,尤其涉及一种数据处理方法与数据处理装置、计算机可读存储介质及电子设备。
背景技术
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。
目前的数据分析方法是基于人工经验判断分析的,不仅工作量大,浪费人力物力成本,还无法精准定位数据中存在的亮点或异常,不能协助业务人员完成后续决策。
鉴于此,本领域亟需开发一种新的数据处理方法及装置。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种数据处理方法、数据处理装置、计算机可读存储介质及电子设备,进而至少在一定程度上克服由于相关技术的限制而导致的数据分析不精确的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本发明实施例的第一个方面,提供一种数据处理方法,所述方法包括:确定原始数据的目标维度,并根据所述目标维度确定所述原始数据的数据链路;配置所述原始数据的缓慢变化维,以得到所述原始数据的数据指标;根据所述数据指标对所述数据链路进行排序,并根据链路排序结果得到目标数据。
在本发明的一种示例性实施例中,所述根据所述数据指标对所述数据链路进行排序,并根据链路排序结果得到目标数据,包括:对所述数据指标进行归一化处理,并对归一化处理后的所述数据指标进行评分;根据所述评分对所述数据链路进行排序,并根据链路排序结果得到目标数据。
在本发明的一种示例性实施例中,所述根据所述评分对所述数据链路进行排序,并根据链路排序结果得到目标数据,包括:确定所述数据链路中的节点,并根据所述评分在所述节点中进行排序;根据链路排序结果确定所述评分的极值,并确定与所述极值对应的所述原始数据为目标数据。
在本发明的一种示例性实施例中,所述根据所述评分对所述数据链路进行排序,并根据链路排序结果得到目标数据,包括:确定所述数据链路中的节点,并根据所述评分在所述节点中进行排序;获取链路排序结果,并利用聚类算法对所述链路排序结果进行聚类得到目标数据。
在本发明的一种示例性实施例中,所述根据所述数据指标对所述数据链路进行排序,并根据链路排序结果得到目标数据,包括:确定与所述数据指标对应的权重,并对所述数据指标和所述权重进行计算,得到所述原始数据的评分;根据所述评分对所述数据链路进行排序,并根据链路排序结果得到目标数据。
在本发明的一种示例性实施例中,所述配置所述原始数据的缓慢变化维,以得到所述原始数据的数据指标,包括:获取配置的与所述原始数据的缓慢变化维对应的参考参数,并确定所述原始数据的目标参数;对所述目标参数和所述参考参数进行计算,得到所述原始数据的数据指标。
在本发明的一种示例性实施例中,所述确定原始数据的目标维度,并根据所述目标维度确定所述原始数据的数据链路,包括:获取所述原始数据的原始维度,并对所述原始维度进行降维处理,得到目标维度;获取与所述目标维度对应的特征数据,并确定所述特征数据的数量;根据所述数量对所述目标维度进行排序,并根据维度排序结果生成所述原始数据的数据链路。
根据本发明实施例的第二个方面,提供一种数据处理装置,所述装置包括:链路确定模块,被配置为确定原始数据的目标维度,并根据所述目标维度确定所述原始数据的数据链路;指标获得模块,被配置为配置所述原始数据的缓慢变化维,以得到所述原始数据的数据指标;数据返回模块,被配置为根据所述数据指标对所述数据链路进行排序,并根据链路排序结果得到目标数据。
在本发明的一种示例性实施例中,基于以上技术方案,所述数据返回模块,包括:数据评分单元,被配置为对所述数据指标进行归一化处理,并对归一化处理后的所述数据指标进行评分;数据排序单元,被配置为根据所述评分对所述数据链路进行排序,并根据链路排序结果得到目标数据。
根据本发明实施例的第三个方面,提供一种电子设备,包括:处理器和存储器;其中,存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现上述任意示例性实施例的数据处理方法。
根据本发明实施例的第四个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意示例性实施例中的数据处理方法。
由上述技术方案可知,本发明示例性实施例中的数据处理方法、数据处理装置、计算机存储介质及电子设备至少具备以下优点和积极效果:
在本公开的示例性实施例提供的方法及装置中,通过原始数据的数据指标对数据链路的排序,实现从原始数据中得到目标数据的功能。一方面,自动化的数据处理流程减少了人力物力成本的投入,便捷了数据的分析流程,加快了数据的挖掘速度,提高了数据的挖掘准确度;另一方面,筛选出的目标数据在原始数据中的价值更高,进而通过目标数据协助业务人员作出更为准确的决策,降低了决策成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出本公开示例性实施例中一种数据处理方法的流程图;
图2示意性示出本公开示例性实施例中确定目标链路的方法的流程示意图;
图3示意性示出本公开示例性实施例中得到数据指标的方法的流程示意图;
图4示意性示出本公开示例性实施例中一种对数据链路进行排序的方法的流程示意图;
图5示意性示出本公开示例性实施例中一种得到目标数据的方法的流程示意图;
图6示意性示出本公开示例性实施例中另一种得到目标数据的方法的流程示意图;
图7示意性示出本公开示例性实施例中另一种对数据链路进行排序的方法的流程示意图;
图8示意性示出本公开示例性实施例中在应用场景下的数据处理方法的流程示意图;
图9示意性示出本公开示例性实施例中基础数据的组成结构的结构示意图;
图10示意性示出本公开示例性实施例中原始数据的组成结构的结构示意图;
图11示意性示出本公开示例性实施例中目标维度的组成结构的结构示意图;
图12示意性示出本公开示例性实施例中对缓慢变化维进行对比的方法的流程示意图;
图13示意性示出本公开示例性实施例中数据指标的组成结构的结构示意图;
图14示意性示出本公开示例性实施例中人工配置的数据链路的结构示意图;
图15示意性示出本公开示例性实施例中选定链路3的结构的结构示意图;
图16示意性示出本公开示例性实施例中指标加工后的结构示意图;
图17示意性示出本公开示例性实施例中数据路径选择的方法的流程示意图;
图18示意性示出本公开示例性实施例中显示筛选出目标数据的结构的结构示意图;
图19示意性示出本公开示例性实施例中一种数据处理装置的结构示意图;
图20示意性示出本公开示例性实施例中一种用于实现数据处理方法的电子设备;
图21示意性示出本公开示例性实施例中一种用于实现数据处理方法的计算机可读存储介质。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等;用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”和“第二”等仅作为标记使用,不是对其对象的数量限制。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
针对相关技术中存在的问题,本公开提出了一种数据处理方法,应用于大数据库。图1示出了数据处理方法的流程图,如图1所示,数据处理方法至少包括以下步骤:
步骤S110.确定原始数据的目标维度,并根据目标维度确定原始数据的数据链路。
步骤S120.配置原始数据的缓慢变化维,以得到原始数据的数据指标。
步骤S130.根据数据指标对数据链路进行排序,并根据链路排序结果得到目标数据。
在本公开的示例性实施例中,通过原始数据的数据指标对数据链路的排序,实现从原始数据中得到目标数据的功能。一方面,自动化的数据处理流程减少了人力物力成本的投入,便捷了数据的分析流程,加快了数据的挖掘速度,提高了数据的挖掘准确度;另一方面,筛选出的目标数据在原始数据中的价值更高,进而通过目标数据协助业务人员作出更为准确的决策,降低了决策成本。
下面对数据处理方法的各个步骤进行详细说明。
在步骤S110中,确定原始数据的目标维度,并根据目标维度确定原始数据的数据链路。
在本公开的示例性实施例中,任何数据都是由缓慢变化维、维度和值组成的。其中,维度就是数据划分的粒度,具有向上汇总、向下拆解的特点。举例而言,若统计全国的100个指标,可以向下划分成各个省份的100个指标,也可以向下划分成各个城市的100个指标,并且将省份或者城市的100个指标汇总起来依然是全国的100个指标。但是,数据的细粒度过大,会使得这部分数据不可分析,因此需要对原始数据的原始维度进行降维处理,以进一步的确定数据链路。
图2示出了确定目标链路的方法的流程示意图,如图2所示,该方法至少包括以下步骤:在步骤S210中,获取原始数据的原始维度,并对原始维度进行降维处理,得到目标维度。值得说明的是,为保证数据的唯一性,原始数据是根据业务逻辑汇总得到的。举例而言,在业务中统计到2020年1月15日全国的100个指标,但此次统计或规划有遗漏,应该是统计2020年1月15日全国的120个指标,因此,需要对未统计的其余20个指标进行再次统计,并与之前的100个指标进行汇总,汇总得到的数据才可以确定为原始数据。
进一步的,对原始数据的原始维度的降维处理方式可以有两种。一方面,可以人为从原始维度中选择目标个数的最有价值的维度作为目标维度。举例而言,若原始数据有20个原始维度,人为选择最有价值的其中8个原始维度作为目标维度。另一方面,参考原始数据中的各项指标,例如方差、均值、最大值、最小值和数量等,对这些指标进行组合,以通过机器学习算法或深度学习算法等从原始维度中选择目标维度。
在步骤S220中,获取与目标维度对应的特征数据,并确定特征数据的数量。其中,特征数据用于反映目标维度的枚举情况。举例而言,当目标维度对二级产品线时,特征数据可以是二级产品线下面的供应链、快递和速运。假设二级产品线下面仅有这三种特征数据,那么该目标维度的特征数据的数量为3。进一步的,还可以根据特征数据的数量绘制目标维度的直方图,以反映各目标维度对原始数据的影响情况。
在步骤S230中,根据数量对目标维度进行排序,并根据维度排序结果生成原始数据的数据链路。其中,数据链路反映可以根据数据的管理和业务人员的等多种影响因素生成,并且比较原始数据的状态,将重要性更大的目标维度排在前面,更能反映数据对决策的影响。举例而言,当二级产品线的特征数据的数量为3,始发区域的特征数据的数量为7时,可以按照由小到大的顺序对这两个目标维度进行排序,并将更小的目标维度排在前面,更大的目标维度排在后面以根据该先后顺序生成数据链路。
在本示例性实施例中,通过确定的目标维度可以生成原始数据的数据链路,目标维度的筛选更为智能化且更能反映原始数据的价值,数据链路更加具有参考性,保证了目标数据的准确性。
除了该种确定目标链路的方式之外,为更加人性化地满足业务人员的需求,还可以采用人工配置的方式,具体配置方法可以根据业务要求实现,本示例性实施例对此不作特殊限定。
在步骤S120中,配置原始数据的缓慢变化维,以得到原始数据的数据指标。
在本公开的一种示例性实施例中,同一笔业务随着时间变化,可能接收到用于变更该笔业务状态的业务信息,进而根据该业务信息对数据表中保存的该笔业务的某些维度的数据进行变更,以实现对该笔业务的状态的变更。这种随着时间变化可能发生变更的维度称为缓慢变化维(Slowly Changing Dimensions,简称SCD)。缓慢变化维反映数据的增量,其中的数据更新速度慢,可能每天更新一次,也可能半个月更新一次。缓慢变化维除了可以通过时间反映,也可以通过序列反映,例如采集装置采集数据的批次。
图3示出了得到数据指标的方法的流程示意图,如图3所示,该方法至少包括以下步骤:在步骤S310中,获取配置的与原始数据的缓慢变化维对应的参考参数,并确定原始数据的目标参数。由于缓慢变化维的更新速度较慢,因此只有在对比下才能体现该原始数据的缓慢变化维的分析价值。
参考参数可以是标准分析方法中的参数,也可以是制定的缓慢变化维的目标,还可以是与财务相关的,对该缓慢变化维预测的预测值。其中,标准分析方法中的参数可以包括同环比、增长率、同比增长率和环比增长率等;制定的缓慢变化维的目标可以是配置出的每一缓慢变化维的目标,例如目标单量;财务对缓慢变化维的预测值可以是根据历史缓慢变化维内数据求出的当前预测值,例如预测单量。
原始数据的目标参数可以是原始数据的值,指的是原始数据的指标,可以是单量、人口等可计算的值,也可以是身高、体重等不可累加的值。
在步骤S320中,对目标参数和参考参数进行计算,得到原始数据的数据指标。举例而言,当参考参数,即今日的目标单量为100件,目标参数,即今日的实际销售单量为80件时,可以用参考参数100件减去目标参数80件得到原始数据的数据指标为20件。当目标参数和参考参数选定其他时,也可以有其他计算方式,本示例性实施例对此不作特殊限定。
在本示例性实施例中,通过缓慢变化维对应的参数可以计算得到原始数据的数据指标,计算方式简单,对原始数据的评价更加科学且具有参考性。
在步骤S130中,根据数据指标对数据链路进行排序,并根据链路排序结果得到目标数据。
在本公开的一种示例性实施例中,图4和图7分别示出了两种对数据链路进行排序的方法的流程图。其中,图4通过对归一化处理后的数据进行评分得到数据链路的排序结果,图7通过对数据指标和权重进行计算对数据链路进行排序。
在可选的实施例中,图4示出了一种对数据链路进行排序的方法的流程示意图,如图4所示,该方法至少包括以下步骤:在步骤S410中,对数据指标进行归一化处理,并对归一化处理后的数据指标进行评分。若数据指标包括同比、环比和单量时,可以发现,同比和环比均是比例值,而单量是成千上万的有量纲的大数值,因此,三者之间无法直接进行计算。为解决该问题,可以对数据指标进行归一化处理。归一化处理是一种简化计算的方式,可以将有量纲的表达式经过变化化为无量纲的表达式称为标量。
在对数据指标进行归一化处理之后,可以对数据指标建立综合纲量。建立综合纲量的方式可以有多种,优选的是根据各数据指标的预设权重进行加权平均计算得到数据指标的评分。除此之外,也可以采用其他方式计算数据指标的评分,本示例性实施例对此不作特殊限定。值得说明的是,根据目标维度的特征数量的不同,可以对应有多个评分,以进行后续的排序处理。
在步骤S420中,根据评分对数据链路进行排序,并根据链路排序结果得到目标数据。
在可选的实施例中,图5示出了一种得到目标数据的方法的流程示意图,如图5所示,该方法至少包括以下步骤:在步骤S510中,确定数据链路中的节点,并根据评分在节点中进行排序。由于根据目标维度生成数据链路,因此数据链路中的各个节点处是已经排列好的目标维度,也因此,计算出的评分应该与数据链路的节点一一对应。进一步的,根据多个数据指标对应的多个评分,可以在该节点处进行排序。具体的,排序的方式可以是从小到大,也可以是从大到小,本示例性实施例对此不作特殊限定。
值得说明的是,由于数据链路是根据节点逐层排布的,因此,在每一层的节点中都可以进行排序,以在后续得到每一层的目标数据进行汇总。鉴于此,目标数据可以是在单层中得到的,也可以是逐层汇总得到的。
在步骤S520中,根据链路排序结果确定评分的极值,并确定与极值对应的原始数据为目标数据。获取评分的排序结果,并确定为链路排序结果。在该链路排序结果中可以得到评分的极大值和极小值。并且,根据之前的数据逻辑,极大值可以对应最优数据,极小值对应最差数据,也可能极大值对应最差数据,极小值对应最优数据。按照既定的数据逻辑关系,可以选定极大值和/或极小值对应的原始数据作为目标数据。值得说明的是,也可以根据业务人员的不同需求选择原始数据中的某一范围内的数据作为目标数据。
与数据链路的逐层排布的结构对应,可以在每一层数据链路中选择出目标数据,并进行汇总,以作为更具参考价值的目标数据。除此之外,对目标数据的确定可以是离线的,也可以是实时的。亦即该数据处理过程可以在得到原始数据后进行使用,也可以是在原始数据不断进行更新的过程中使用。
在本示例性实施例中,通过极值法可以从原始数据中筛选出目标数据,筛选方式简单且准确,可以挖掘出更具价值的数据,以协助业务人员完成业务决策。
在可选的实施例中,图6示出了另一种得到目标数据的方法的流程示意图,如图6所示,该方法至少包括以下步骤:在步骤S610中,确定数据链路中的节点,并根据评分在节点中进行排序。由于根据目标维度生成数据链路,因此数据链路中的各个节点处是已经排列好的目标维度,也因此,计算出的评分应该与数据链路的节点一一对应。进一步的,根据多个数据指标对应的多个评分,可以在该节点处进行排序。具体的,排序的方式可以是从小到大,也可以是从大到小,本示例性实施例对此不作特殊限定。
值得说明的是,由于数据链路是根据节点逐层排布的,因此,在每一层的节点中都可以进行排序,以在后续得到每一层的目标数据进行汇总。鉴于此,目标数据可以是在单层中得到的,也可以是逐层汇总得到的。
在步骤S620中,获取链路排序结果,并利用聚类算法对链路排序结果进行聚类得到目标数据。举例而言,当某一节点中对7个始发区域的评分分别是区域1到区域4的评分在0.1-0.3分的区间内,区域5为6分,区域6为10.3分,区域7为20。若根据极值法仅可以确定最优区域为区域7,但倘若要求知道表现最差区域,则无法获悉是区域1到区域4中的哪一区域。在这种情况下,可以针对链路排序结果使用聚类算法。
聚类算法是聚类分析,亦即群分析的算法,是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。其中,K均值(K-means)算法是最为经典的基于划分的聚类算法。K均值算法的基础思想是以空间中K个点位中心进行聚类,将最靠近这K个点的对象分别进行归类,通过迭代的方法主次更新各聚类中的值,直至得到最好的聚类结果。
因此,可以利用K均值算法对7个始发区域的评分进行聚类处理,得到评分最低区域为区域1到区域4。除此之外,还可以使用其他聚类算法,本示例性实施例对此不作特殊限定。
与数据链路的逐层排布的结构对应,可以在每一层数据链路中选择出目标数据,并进行汇总,以作为更具参考价值的目标数据。除此之外,对目标数据的确定可以是离线的,也可以是实时的。亦即该数据处理过程可以在得到原始数据后进行使用,也可以是在原始数据不断进行更新的过程中使用。
在本示例性实施例中,通过极值法可以从原始数据中筛选出目标数据,筛选方式简单且准确,可以挖掘出更具价值的数据,以协助业务人员完成业务决策。
在可选的实施例中,图7示出了另一种对数据链路进行排序的方法的流程示意图,如图7所示,该方法至少包括以下步骤:在步骤S710中,确定与数据指标对应的权重,并对数据指标和权重进行计算,得到原始数据的评分。其中,该权重可以是人为指定的,举例而言,根据经验指定达到目标单量的权重为0.3,达到预测单量的权重为0.2,达到去年同期单量的权重为0.2,达到昨天单量的权重为0.3。
在确定之后,可以对数据指标和权重进行加权计算,并将加权计算的结果确定为评分。
在步骤S720中,根据评分对数据链路进行排序,并根据链路排序结果得到目标数据。本步骤中对数据链路的排序方式和得到目标数据的方式与步骤S420的排序方式相同,在此不再赘述。
在本示例性实施例中,给出了一种根据权重计算结果对数据链路排序,并得到目标数据的方式,计算方式简单,可用性强,适用于多种目标数据筛选的场景中。
下面结合一应用场景对本公开实施例中的数据处理方法做出详细说明。
图8示出了在应用场景下的数据处理方法的流程示意图,如图8所示,在步骤S810中,获取基础数据,亦即业务的原始数据。
图9示出了基础数据的组成结构的结构示意图,如图9所示,该基础数据包括缓慢变化维、原始维度和值,亦即目标参数三部分。对基础数据进行汇总处理可以使最细粒度对应到每一个原始维度,确保数据的唯一性。汇总之后可以得到与基础数据对应的原始数据。
图10示出了原始数据的组成结构的结构示意图,如图10所示,该原始数据包括一列缓慢变化维和维1到维N的N列原始维度,还包括值1到值N的N个值。
在步骤S820中,对基础数据进行选择,亦即确定原始数据的目标维度。为从多个原始维度中选取出最具价值的目标维度,可以用过人为选定和/或自动化选定两种方式。
图11示出了目标维度的组成结构的结构示意图,如图11所示,对于值为单量的原始数据,可以从多个原始维度中选取出三个目标维度,分别是维1:二级产品线、维2:始发区域和维3:重要客户(Key Acco unt,简称KA)类型。
在步骤S830中,对缓慢变化维进行对比,亦即根据配置的缓慢变化维进行计算和分析。
图12示出了对缓慢变化维进行对比的方法的流程示意图,如图12所示,在步骤S1210中,分析缓慢变化维的配制方法。配置缓慢变化维中的目标参数的变化范围,该变化范围是可以选定的,选定的数据基础可以是步骤S1220中指定的计算规则中的数据。
在步骤S1220中,根据分析方法配置计算规则。该计算规则可以包括对标准分析方法中的参数的计算,也可以是对制定的缓慢变化维的目标的计算,还可以是对财务预测出的预测值的计算。
在步骤S1230中,对计算结果进行汇总和分析。得到目标参数和参考参数的计算结果,并确定该计算结果为数据指标。图13示出了数据指标的组成结构的结构示意图,如图13所示,基期1、基期2和基期N表示N个数据指标。其中,基期1是计算出的环比,基期2是计算出的同比,基期N中也可以存储其他数据指标。
在步骤S840中,数据链路的选择。对数据链路的选择可以是人工配置的,也可以是自动配置的。图14示出了人工配置的数据链路的结构示意图,如图14所示,该数据链路是人工以此指定配置的。具体的,目标维度1(Dimension 1,简称DIM 1)下面指定目标维度2(Dimension 2,简称DIM 2)和目标维度3(Dimension 3,简称DIM 3,并在DIM 2下面指定目标维度4(Dimension 4,简称DIM 4),在DIM 3下面指定目标维度5(Dimension 5,简称DIM5)和目标维度6(Dimension 6,简称DIM 6)。
在单量的业务场景中,目标维度包括二级产品线、始发区域和KA类型三个维度。一般的,可以规划三个数据链路分别是链路1:二级产品线>始发区域>KA类型,链路2:二级产品线>KA类型>始发区域和链路3:始发区域>KA类型>二级产品线。当物流负责人需要以始发区域的形式进行管理,因此,可以在3条数据链路中选择链路3。图15示出了选定链路3的结构的结构示意图,如图15所示,链路3中的结构分别按照维3、维2和维1的结构显示,其中,维3对应始发区域,维2对应KA类型,维1对应二级产品线,并且显示完成链路选择。
在步骤S850中,对数据指标进行综合加工。综合加工方式可以是对数据指标进行融合处理,具体的,可以是指标加权计算,也可以是对指标进行归一化处理,并建立综合纲量的智能计算方法,计算结果均对应该指标的评分。
图16示出了指标加工后的结构示意图,如图16所示,在对指标加工之后,为使业务人员直观查看有效内容,可以将之前的数据处理结果进行省略。因此,仅显示数据链路的选择结果,并增加指标加工列。指标加工列中线的内容是对对应的基期指标进行评分计算得到的一组评分值。鉴于后续对数据链路的评价可以采用综合评分的方式,也可以采用单个数据指标的方式,因此该指标加工的步骤是可选的,可以根据实际情况进行显示,本示例性实施例对此不作特殊限定。
在步骤S860中,对数据路径进行选择。图17示出了数据路径选择的方法的流程示意图,如图17所示,在步骤S1710中,得到步骤S850中的数据指标的综合评分。
在步骤S1720中,得到步骤S840中的数据链路。
在步骤S1730中,根据评分对数据链路进行排序,并根据极值法或者聚类算法选择数据链路中每一节点中的目标数据。
在步骤S1740中,输出目标数据。
图18示出了显示筛选出目标数据的结构的结构示意图,如图18所示,最终仅显示6列即可,第一列显示对应的缓慢变化维,第二到四列对应显示维3、维2和维1,亦即表明选择的数据链路,第五列显示指标加工后的评分,并且,此列为可选项,第六列显示最终选择的所有目标数据。经过该数据处理方法,可以从数以百万计或数以千万亿级的原始数据中选择出几千条或者几万条等最有价值的目标数据。
在本公开的示例性实施例中,通过原始数据的数据指标对数据链路的排序,实现从原始数据中得到目标数据的功能。一方面,自动化的数据处理流程减少了人力物力成本的投入,便捷了数据的分析流程,加快了数据的挖掘速度,提高了数据的挖掘准确度;另一方面,筛选出的目标数据在原始数据中的价值更高,进而通过目标数据协助业务人员作出更为准确的决策,降低了决策成本。
此外,在本公开的示例性实施例中,还提供一种数据处理装置。图19示出了数据处理装置的结构示意图,如图19所示,数据处理装置1900可以包括:链路确定模块1910、指标获得模块1920、数据返回模块1930。
其中:
链路确定模块1910,被配置为确定原始数据的目标维度,并根据目标维度确定原始数据的数据链路;指标获得模块1920,被配置为配置原始数据的缓慢变化维,以得到原始数据的数据指标;数据返回模块1930,被配置为根据数据指标对数据链路进行排序,并根据链路排序结果得到目标数据。
在本发明的一种示例性实施例中,数据返回模块,包括:数据评分单元,被配置为对数据指标进行归一化处理,并对归一化处理后的数据指标进行评分;数据排序单元,被配置为根据评分对数据链路进行排序,并根据链路排序结果得到目标数据。
本公开各实施例中提供的数据处理装置的具体细节已经在对应的数据处理方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及数据处理装置1900的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
下面参照图20来描述根据本发明的这种实施例的电子设备2000。图20显示的电子设备2000仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图20所示,电子设备2000以通用计算设备的形式表现。电子设备2000的组件可以包括但不限于:上述至少一个处理单元2010、上述至少一个存储单元2020、连接不同系统组件(包括存储单元2020和处理单元2010)的总线2030、显示单元2040。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元2010执行,使得所述处理单元2010执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
存储单元2020可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)2021和/或高速缓存存储单元2022,还可以进一步包括只读存储单元(ROM)2023。
存储单元2020还可以包括具有一组(至少一个)程序模块2025的程序/实用工具2024,这样的程序模块2025包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线2030可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备2000也可以与一个或多个外部设备2200(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备2000交互的设备通信,和/或与使得该电子设备2000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口2050进行。并且,电子设备2000还可以通过网络适配器2060与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器2040通过总线2030与电子设备2000的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备2000使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
参考图21所示,描述了根据本发明的实施例的用于实现上述方法的程序产品2100,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
确定原始数据的目标维度,并根据所述目标维度确定所述原始数据的数据链路;
获取配置的与所述原始数据的缓慢变化维对应的参考参数,并确定所述原始数据的目标参数;
对所述目标参数和所述参考参数进行计算,得到所述原始数据的数据指标;其中,所述参考参数包括同环比、增长率、同比增长率、环比增长率、目标单量和预测单量中的一项或多项;
根据所述数据指标对所述数据链路进行排序,并根据链路排序结果得到目标数据。
2.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述数据指标对所述数据链路进行排序,并根据链路排序结果得到目标数据,包括:
对所述数据指标进行归一化处理,并对归一化处理后的所述数据指标进行评分;
根据所述评分对所述数据链路进行排序,并根据链路排序结果得到目标数据。
3.根据权利要求2所述的数据处理方法,其特征在于,所述根据所述评分对所述数据链路进行排序,并根据链路排序结果得到目标数据,包括:
确定所述数据链路中的节点,并根据所述评分在所述节点中进行排序;
根据链路排序结果确定所述评分的极值,并确定与所述极值对应的所述原始数据为目标数据。
4.根据权利要求2所述的数据处理方法,其特征在于,所述根据所述评分对所述数据链路进行排序,并根据链路排序结果得到目标数据,包括:
确定所述数据链路中的节点,并根据所述评分在所述节点中进行排序;
获取链路排序结果,并利用聚类算法对所述链路排序结果进行聚类得到目标数据。
5.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述数据指标对所述数据链路进行排序,并根据链路排序结果得到目标数据,包括:
确定与所述数据指标对应的权重,并对所述数据指标和所述权重进行计算,得到所述原始数据的评分;
根据所述评分对所述数据链路进行排序,并根据链路排序结果得到目标数据。
6.根据权利要求1所述的数据处理方法,其特征在于,所述确定原始数据的目标维度,并根据所述目标维度确定所述原始数据的数据链路,包括:
获取所述原始数据的原始维度,并对所述原始维度进行降维处理,得到目标维度;
获取与所述目标维度对应的特征数据,并确定所述特征数据的数量;
根据所述数量对所述目标维度进行排序,并根据维度排序结果生成所述原始数据的数据链路。
7.一种数据处理装置,其特征在于,包括:
链路确定模块,被配置为确定原始数据的目标维度,并根据所述目标维度确定所述原始数据的数据链路;
指标获得模块,被配置为获取配置的与所述原始数据的缓慢变化维对应的参考参数,并确定所述原始数据的目标参数;对所述目标参数和所述参考参数进行计算,得到所述原始数据的数据指标;其中,所述参考参数包括同环比、增长率、同比增长率、环比增长率、目标单量和预测单量中的一项或多项;
数据返回模块,被配置为根据所述数据指标对所述数据链路进行排序,并根据链路排序结果得到目标数据。
8.根据权利要求7所述的数据处理装置,其特征在于,所述数据返回模块,包括:
数据评分单元,被配置为对所述数据指标进行归一化处理,并对归一化处理后的所述数据指标进行评分;
数据排序单元,被配置为根据所述评分对所述数据链路进行排序,并根据链路排序结果得到目标数据。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6中任意一项所述的数据处理方法。
10.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器被配置为经由执行所述可执行指令来执行权利要求1-6中任意一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010199830.7A CN113495906B (zh) | 2020-03-20 | 2020-03-20 | 数据处理方法与装置、计算机可读存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010199830.7A CN113495906B (zh) | 2020-03-20 | 2020-03-20 | 数据处理方法与装置、计算机可读存储介质、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113495906A CN113495906A (zh) | 2021-10-12 |
CN113495906B true CN113495906B (zh) | 2023-09-26 |
Family
ID=77993983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010199830.7A Active CN113495906B (zh) | 2020-03-20 | 2020-03-20 | 数据处理方法与装置、计算机可读存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113495906B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115392799B (zh) * | 2022-10-27 | 2023-04-11 | 平安科技(深圳)有限公司 | 归因分析方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101149829A (zh) * | 2006-09-22 | 2008-03-26 | 阿里巴巴公司 | 一种客户数据集中处理的方法和系统 |
CN102141963A (zh) * | 2010-01-28 | 2011-08-03 | 阿里巴巴集团控股有限公司 | 一种数据分析方法和设备 |
US8260822B1 (en) * | 2008-08-12 | 2012-09-04 | United Services Automobile Association (Usaa) | Systems and methods for storing and querying slowly changing dimensions |
CN104731791A (zh) * | 2013-12-18 | 2015-06-24 | 东阳艾维德广告传媒有限公司 | 一种市场销售分析数据集市系统 |
CN109408583A (zh) * | 2018-09-25 | 2019-03-01 | 平安科技(深圳)有限公司 | 数据处理方法及装置、计算机可读存储介质、电子设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9031902B2 (en) * | 2011-11-10 | 2015-05-12 | International Business Machines Corporation | Slowly changing dimension attributes in extract, transform, load processes |
WO2016167991A1 (en) * | 2015-04-11 | 2016-10-20 | Hewlett Packard Enterprise Development Lp | Dimension data insertion into dimension table |
CN109492772B (zh) * | 2018-11-28 | 2020-06-23 | 北京百度网讯科技有限公司 | 生成信息的方法和装置 |
-
2020
- 2020-03-20 CN CN202010199830.7A patent/CN113495906B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101149829A (zh) * | 2006-09-22 | 2008-03-26 | 阿里巴巴公司 | 一种客户数据集中处理的方法和系统 |
US8260822B1 (en) * | 2008-08-12 | 2012-09-04 | United Services Automobile Association (Usaa) | Systems and methods for storing and querying slowly changing dimensions |
CN102141963A (zh) * | 2010-01-28 | 2011-08-03 | 阿里巴巴集团控股有限公司 | 一种数据分析方法和设备 |
CN104731791A (zh) * | 2013-12-18 | 2015-06-24 | 东阳艾维德广告传媒有限公司 | 一种市场销售分析数据集市系统 |
CN109408583A (zh) * | 2018-09-25 | 2019-03-01 | 平安科技(深圳)有限公司 | 数据处理方法及装置、计算机可读存储介质、电子设备 |
Non-Patent Citations (2)
Title |
---|
关于大型企业数据仓库建设中的几个关键问题的研究;马慧麟, 吴晓洁;制造技术与机床(05);全文 * |
基于大数据技术的水电行业企业级数据中心建设的研究;黄文思;毛学工;熊开智;罗戎;徐勇刚;叶马力;;工业仪表与自动化装置(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113495906A (zh) | 2021-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10956665B1 (en) | Systems and user interfaces for dynamic and interactive table generation and editing based on automatic traversal of complex data structures in a distributed system architecture | |
US10083263B2 (en) | Automatic modeling farmer | |
US11443204B2 (en) | Computer system and method of presenting information on basis of prediction result for input data | |
CN110659985A (zh) | 一种捞回误拒潜在用户的方法、装置和电子设备 | |
CN110706096A (zh) | 基于捞回用户管理授信额度的方法、装置和电子设备 | |
CN110795478A (zh) | 一种应用于金融业务的数据仓库更新方法、装置和电子设备 | |
CN112508723B (zh) | 基于自动择优建模的金融风险预测方法、装置和电子设备 | |
CN112017042A (zh) | 基于tweedie分布的资源配额确定方法、装置和电子设备 | |
CN112183916A (zh) | 土地储备生命周期管理系统 | |
CN112862182A (zh) | 一种投资预测方法、装置、电子设备及存储介质 | |
CN113495906B (zh) | 数据处理方法与装置、计算机可读存储介质、电子设备 | |
US20220374401A1 (en) | Determining domain and matching algorithms for data systems | |
CN114444782A (zh) | 企业资产的管理方法、装置、存储介质及计算机设备 | |
CN117764631A (zh) | 基于源端静态数据建模的数据治理优化方法及系统 | |
CN111861004B (zh) | 日收入产量的自动佣金预测方法、系统、设备及存储介质 | |
Rodenkova et al. | Integration of effectiveness and efficiency indicators of state support for projects and programmes for the development of higher education in Russia | |
CN113361959A (zh) | 一种银行业务集中运营成熟度的计算方法和装置 | |
CN116862658A (zh) | 信用评估方法、装置、电子设备、介质和程序产品 | |
US20230281212A1 (en) | Generating smart automated data movement workflows | |
CN113570114B (zh) | 一种资源服务智能匹配方法、系统和计算机设备 | |
KR20230103025A (ko) | 기업 신용 분석 및 평가 정보 제공 방법, 장치 및 시스템 | |
CN108197740A (zh) | 企业倒闭预测方法、电子设备和计算机存储介质 | |
KR102475294B1 (ko) | 양방향 서비스 및 사용자 참여 기능을 높인 로보 어드바이저 자산배분 비중 산출 방법 | |
CN111563178A (zh) | 规则逻辑图对比方法、装置、介质及电子设备 | |
CN117873677A (zh) | 作业节点处理方法、装置、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |