CN105787052A

CN105787052A - 数据处理模型建立方法及基于数据处理模型数据筛选方法

Info

Publication number: CN105787052A
Application number: CN201610109628.4A
Authority: CN
Inventors: 孙健; 陈泽军; 方晓东; 江文颖; 彭钰芹; 王成; 谢麟炯; 徐琴; 许丹; 杨炎; 张学伟
Original assignee: Guangzhou Pinwei Software Co Ltd
Current assignee: Vipshop Guangzhou Software Co Ltd
Priority date: 2016-02-26
Filing date: 2016-02-26
Publication date: 2016-07-20
Anticipated expiration: 2036-02-26
Also published as: CN105787052B

Abstract

本发明实施例公开了一种数据处理模型建立方法及基于数据处理模型数据筛选方法，解决了目前的电子商务在贸易过程中，在电子商务平台端需要做大型营销时，需要有针对性的提取用户数据，便于精准营销，然而现有的数据量太大，容易导致在用户数据的提取过程中产生错误，而导致的效率低下的技术问题。本发明实施例数据处理模型建立方法包括：建立事实表和至少一个维表，事实表包括事实主表和事实辅表；将维表与事实表进行关联形成星型模式结构；将事实表通过维表中的多维空间数据关联结构进行关系形成多层星型模型结构。

Description

数据处理模型建立方法及基于数据处理模型数据筛选方法

技术领域

本发明涉及大数据技术领域，尤其涉及一种数据处理模型建立方法及基于数据处理模型数据筛选方法。

背景技术

大数据就是互联网发展到现今阶段的一种表象或特征而已，没有必要神话它或对它保持敬畏之心，在以云计算为代表的技术创新大幕的衬托下，这些原本很难收集和使用的数据开始容易被利用起来了，通过各行各业的不断创新，大数据会逐步为人类创造更多的价值。

电子商务是以信息网络技术为手段，以商品交换为中心的商务活动；也可理解为在互联网(Internet)、企业内部网(Intranet)和增值网(VAN，ValueAddedNetwork)上以电子交易方式进行交易活动和相关服务的活动，是传统商业活动各环节的电子化、网络化、信息化。电子商务通常是指在全球各地广泛的商业贸易活动中，在因特网开放的网络环境下，基于浏览器/服务器应用方式，买卖双方不谋面地进行各种商贸活动，实现消费者的网上购物、商户之间的网上交易和在线电子支付以及各种商务活动、交易活动、金融活动和相关的综合服务活动的一种新型的商业运营模式。各国政府、学者、企业界人士根据自己所处的地位和对电子商务参与的角度和程度的不同，给出了许多不同的定义。电子商务分为：ABC、B2B、B2C、C2C、B2M、M2C、B2A(即B2G)、C2A(即C2G)、O2O等。同时网络营销也是电子商务的一种产物，而且对于网络营销来说，在做之前要先做好网络营销方案，那样才有便于计划的实施。

目前的电子商务在贸易过程中，在电子商务平台端需要做大型营销时，需要有针对性的提取用户数据，便于精准营销，然而现有的数据量太大，容易导致在用户数据的提取过程中产生错误，从而导致了效率低下的技术问题。

发明内容

本发明实施例提供的一种数据处理模型建立方法及基于数据处理模型数据筛选方法，解决了目前的电子商务在贸易过程中，在电子商务平台端需要做大型营销时，需要有针对性的提取用户数据，便于精准营销，然而现有的数据量太大，容易导致在用户数据的提取过程中产生错误，而导致的效率低下的技术问题。

本发明实施例提供的一种数据处理模型建立方法，包括：

建立事实表和至少一个维表，所述事实表包括事实主表和事实辅表；

将所述维表与所述事实表进行关联形成星型模式结构；

将所述事实表通过所述维表中的多维空间数据关联结构进行关系形成多层星型模型结构。

可选地，所述维表与所述事实表与用于对相关表的群集进行归纳和聚集的多个主题建立关联关系。

可选地，所述多层星型模型结构为两层星型模型结构。

可选地，每个主题包含至少一个事实主表。

可选地，每个主题设置有至少一个关联键，用于将当前所述主题下的除所述事实主表外的所有表进行join处理。

可选地，所述维表为4个。

本发明实施例提供的一种基于数据处理模型的数据筛选方法，包括：

将每个主题进行按照自身的关联键的join处理，获取到所述主题所属父主题的所述关联键对应的结果集合；

对所述结果集合进行有where过滤条件又有having过滤条件的SQL子查询处理；

对所述结果集合进行union分组上移归并到所述SQL子查询的处理；

对所述结果集合进行所述SQL子查询的条件下移到所述union分组处理；

对所述结果集合进行完全下移判定，从所述SQL子查询中移除SQL语句处理。

可选地，对所述结果集合进行有where过滤条件又有having过滤条件的SQL子查询处理具体包括：

对所述结果集合进行所有所述union分组中所有的where过滤条件的非聚合条件合并为一个where非聚合子查询；

将剩下的与所述非聚合条件相对应的所有聚合条件按照同属一表的SQL语句或不同属一表的SQL语句归类处理，并将同属一表的SQL语句合并为一个子查询。

可选地，对所述结果集合进行所述SQL子查询的条件下移到所述union分组处理具体包括：

将所述SQL子查询中的过滤条件以是否同属一个表为集合单位；

将对应的限制条件整体下移到所述union分组里有相同表的子查询中。

可选地，对所述结果集合进行完全下移判定，从所述SQL子查询中移除SQL语句处理具体包括：

将当所述SQL子查询中一个表单位的所有条件在一个所述union分组中被完全下移到union中的每个子查询中时，则进行完全下移处理。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例提供的一种数据处理模型建立方法及基于数据处理模型数据筛选方法，其中，数据处理模型建立方法包括：建立事实表和至少一个维表，事实表包括事实主表和事实辅表；将维表与事实表进行关联形成星型模式结构；将事实表通过维表中的多维空间数据关联结构进行关系形成多层星型模型结构。本实施例中，通过建立事实表和至少一个维表，事实表包括事实主表和事实辅表；将维表与事实表进行关联形成星型模式结构；将事实表通过维表中的多维空间数据关联结构进行关系形成多层星型模型结构，解决了目前的电子商务在贸易过程中，在电子商务平台端需要做大型营销时，需要有针对性的提取用户数据，便于精准营销，然而现有的数据量太大，容易导致在用户数据的提取过程中产生错误，而导致的效率低下的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种数据处理模型建立方法的一个实施例的流程示意图；

图2为本发明实施例提供的一种数据处理模型建立方法的另一个实施例的流程示意图；

图3为本发明实施例提供的一种基于数据处理模型的数据筛选方法的一个实施例的流程示意图；

图4为本发明实施例提供的一种基于数据处理模型的数据筛选方法的另一个实施例的流程示意图。

具体实施方式

本发明实施例提供的一种用于自助取数的处理架构及其取数方法，解决了目前的电子商务在贸易过程中，在电子商务平台端需要做大型营销时，需要有针对性的提取用户数据，便于精准营销，然而现有的数据量太大，容易导致在用户数据的提取过程中产生错误，而导致的效率低下的技术问题。

join方法用于把数组中的所有元素放入一个字符串，元素是通过指定的分隔符进行分隔的。

事实是各个维度的的交点，是对某个特定事件的度量。若干个一致的事实能够被组合到一个公共的结构中就是事实表。

关于事实的描述性属性能够被组合到一个或多个公共的结构中就是维表。维表的本质是多维分析空间在某个角度的投影，多个维表共同建立一个多维的分析空间。

维表是用户分析决策的角度，事实表是分析主体的量化体现。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例提供的一种数据处理模型建立方法的一个实施例包括：

101、建立事实表和至少一个维表；

本实施例中，当需要对SQL引擎中建立数据处理模型时，首先需要建立事实表和至少一个维表，事实表包括事实主表和事实辅表。

102、将维表与事实表进行关联形成星型模式结构；

当建立事实表和至少一个维表之后，需要将维表与事实表进行关联形成星型模式结构。

103、将事实表通过维表中的多维空间数据关联结构进行关系形成多层星型模型结构。

当将维表与事实表进行关联形成星型模式结构之后，需要将事实表通过维表中的多维空间数据关联结构进行关系形成多层星型模型结构。

需要说明的是，如图2所示，进一步地，维表与事实表与用于对相关表的群集进行归纳和聚集的多个主题建立关联关系。

进一步地，多层星型模型结构为两层星型模型结构。

进一步地，每个主题包含至少一个事实主表。

进一步地，每个主题设置有至少一个关联键，用于将当前主题下的除事实主表外的所有表进行join处理。

进一步地，维表为4个。

本实施例中，通过建立事实表和至少一个维表，事实表包括事实主表和事实辅表；将维表与事实表进行关联形成星型模式结构；将事实表通过维表中的多维空间数据关联结构进行关系形成多层星型模型结构，解决了目前的电子商务在贸易过程中，在电子商务平台端需要做大型营销时，需要有针对性的提取用户数据，便于精准营销，然而现有的数据量太大，容易导致在用户数据的提取过程中产生错误，而导致的效率低下的技术问题。

请参阅图3，本发明实施例中提供的一种基于数据处理模型的数据筛选方法一个实施例包括：

301、将每个主题进行按照自身的关联键的join处理，获取到主题所属父主题的关联键对应的结果集合；

本实施例中，当需要对通过图1和图2所示的数据处理模型建立方法建立的数据模型进行数据筛选时，首先需要将每个主题进行按照自身的关联键的join处理，获取到主题所属父主题的关联键对应的结果集合。

302、对结果集合进行有where过滤条件又有having过滤条件的SQL子查询处理；

当将每个主题进行按照自身的关联键的join处理，获取到主题所属父主题的关联键对应的结果集合之后，需要对结果集合进行有where过滤条件又有having过滤条件的SQL子查询处理。

303、对结果集合进行union分组上移归并到SQL子查询的处理；

当对结果集合进行有where过滤条件又有having过滤条件的SQL子查询处理之后，需要对结果集合进行union分组上移归并到SQL子查询的处理。

304、对结果集合进行SQL子查询的条件下移到union分组处理；

当对结果集合进行union分组上移归并到SQL子查询的处理之后，需要对结果集合进行SQL子查询的条件下移到union分组处理。

305、对结果集合进行完全下移判定，从SQL子查询中移除SQL语句处理。

当对结果集合进行SQL子查询的条件下移到union分组处理之后，需要对结果集合进行完全下移判定，从SQL子查询中移除SQL语句处理。

本实施例中，通过将每个主题进行按照自身的关联键的join处理，获取到主题所属父主题的关联键对应的结果集合；对结果集合进行有where过滤条件又有having过滤条件的SQL子查询处理；对结果集合进行union分组上移归并到SQL子查询的处理；对结果集合进行SQL子查询的条件下移到union分组处理；对结果集合进行完全下移判定，从SQL子查询中移除SQL语句处理，解决了目前的电子商务在贸易过程中，在电子商务平台端需要做大型营销时，需要有针对性的提取用户数据，便于精准营销，然而现有的数据量太大，容易导致在用户数据的提取过程中产生错误，而导致的效率低下的技术问题。

请参阅图4，本发明实施例中提供的一种基于数据处理模型的数据筛选方法另一个实施例包括：

401、将每个主题进行按照自身的关联键的join处理，获取到主题所属父主题的关联键对应的结果集合；

402、对结果集合进行所有union分组中所有的where过滤条件的非聚合条件合并为一个where非聚合子查询；

当将每个主题进行按照自身的关联键的join处理，获取到主题所属父主题的关联键对应的结果集合之后，需要对结果集合进行所有union分组中所有的where过滤条件的非聚合条件合并为一个where非聚合子查询。

403、将剩下的与非聚合条件相对应的所有聚合条件按照同属一表的SQL语句或不同属一表的SQL语句归类处理，并将同属一表的SQL语句合并为一个子查询；

当对结果集合进行所有union分组中所有的where过滤条件的非聚合条件合并为一个where非聚合子查询之后，需要将剩下的与非聚合条件相对应的所有聚合条件按照同属一表的SQL语句或不同属一表的SQL语句归类处理，并将同属一表的SQL语句合并为一个子查询。

404、将SQL子查询中的过滤条件以是否同属一个表为集合单位；

当将剩下的与非聚合条件相对应的所有聚合条件按照同属一表的SQL语句或不同属一表的SQL语句归类处理，并将同属一表的SQL语句合并为一个子查询之后，需要将SQL子查询中的过滤条件以是否同属一个表为集合单位。

405、将对应的限制条件整体下移到union分组里有相同表的子查询中；

当将SQL子查询中的过滤条件以是否同属一个表为集合单位之后，需要将对应的限制条件整体下移到union分组里有相同表的子查询中。

406、将当所述SQL子查询中一个表单位的所有条件在一个所述union分组中被完全下移到union中的每个子查询中时，则进行完全下移处理。

当将对应的限制条件整体下移到union分组里有相同表的子查询中之后，需要将当SQL子查询中一个表单位的所有条件在一个union分组中被完全下移到union中的每个子查询中时，则进行完全下移处理。

本实施例中，通过将每个主题进行按照自身的关联键的join处理，获取到主题所属父主题的关联键对应的结果集合；对结果集合进行有where过滤条件又有having过滤条件的SQL子查询处理；对结果集合进行union分组上移归并到SQL子查询的处理；对结果集合进行SQL子查询的条件下移到union分组处理；对结果集合进行完全下移判定，从SQL子查询中移除SQL语句处理，解决了目前的电子商务在贸易过程中，在电子商务平台端需要做大型营销时，需要有针对性的提取用户数据，便于精准营销，然而现有的数据量太大，容易导致在用户数据的提取过程中产生错误，而导致的效率低下的技术问题，不仅符合预期可用SQL语句，还进行了性能优化处理。

需要说明的是，图4实施例的通过案例实现过程如下：

名词解释

主题是对一群相关表的归纳、聚集。一个主题下包含了若干个表，一个主题规定了一个关联键，此关联键是该主题下所有表都必须包含的,每个主题都有指定的一个主表,该主题下其它表用主题的关联键和该表join。一个表可以属于多个主题。主题之前也存在包含关系，一个主题可以是其父主题的原子组成部分。

多批次导出字段，引擎解析条件后转化为若干个sql任务(针对不同类型的数据源,对应的sql任务也会不同),其中间结果为请求中的顶级主题的去重关联键作为唯一字段的临时表。比如:用户基本信息作为顶级主题，那么对应的结果表就是user_id数据集合。而多批次导出字段可以拆分为多个导出任务,每个导出任务包含若干个导出字段,产生和中间结果表join后生成其它若干字段的结果表。

且，表明相邻的两个筛选条件必须都满足

或，表明相邻的两个筛选条件满足一个即可

过滤器，代表了某个主题下的一系列条件过滤组合，一个过滤器必指定一个主题，一个过滤器可以标记为包含或者不包含，其中不包含的意思是在最后结果中要排除该过滤器下所有符合情况的数据。

交集，过滤器之间以且关联

并集，过滤器之间以或关联

补集，排除某个过滤器的筛选结果

该引擎对数据的筛选就好像是2层星型模型

每个主题按照自己的关联键进行join，得到该主题所属的父主题关联键对应的结果集合，然后继续作为整体的一个单元再向上降纬重复循环直到顶级。

自助取数生成的zip文件提供最长半年的保存时间，之后将过期。

实际引擎代码的实现预设了两个前提:1逻辑嵌套最多两层、2或优先级高于且。例:AandBand(CorD)and(EorForG)。

名词说明:w带有非聚合过滤条件相当于sql中的where的一部分的子查询、h带有聚合性质的过滤条件相当于sql中having中的一部分的子查询(h1h2...分别代指多个having子查询)、wh指既有where又有having过滤条件的sql子查询(子查询内部可能也有join)、join子查询之间的自然关联、union子查询之间的union操作。

1.初步条件分类whjoin(w1unionh1unionh2)join(w2unionh3)。所有union分组中所有的w非聚合条件合并为一个w非聚合子查询,剩下的所有聚合条件按照是否同属一表进行归类，同属一表的合并为一个子查询即:wunionh1unionh2，h1h2分属不同的表。

2.union分组上移归并到wh。以下几种情况的union分组不再视为union分组而合并至wh中，如(w)只有一个非聚合子查询、(h)只有一个聚合子查询。

3.wh条件下移到union分组。wh中的filter条件以是否同属一个表为集合单位，将对应的限制条件整体下移到union分组里有相同表的子查询中，原则上不在子查询中增加新的join。

4.完全下移判定，从wh中移除。如果wh中一个表单位的所有条件在某一个union分组中被完全下移到union中的每个子查询中则视为完全下移，这样在wh中就不再保留该表相关的所有字段限制条件，即wh中将减少该表的join，从而达到了减少join次数的目的。

PS:在以上4个步骤中第一第二步完成了符合预期的可用sql。第三第四步提供了对sql的性能优化，优化遵循的原则是：减少可能的join次数、减少每个待join的子查询的数据集大小(通过增加更多的where或having限制达到)。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种数据处理模型建立方法，其特征在于，包括：

将所述维表与所述事实表进行关联形成星型模式结构；

2.根据权利要求1所述的数据处理模型建立方法，其特征在于，所述维表与所述事实表与用于对相关表的群集进行归纳和聚集的多个主题建立关联关系。

3.根据权利要求1所述的数据处理模型建立方法，其特征在于，所述多层星型模型结构为两层星型模型结构。

4.根据权利要求2所述的数据处理模型建立方法，其特征在于，每个主题包含至少一个事实主表。

5.根据权利要求4所述的数据处理模型建立方法，其特征在于，每个主题设置有至少一个关联键，用于将当前所述主题下的除所述事实主表外的所有表进行join处理。

6.根据权利要求1至5中任意一项所述的数据处理模型建立方法，其特征在于，所述维表为4个。

7.一种通过采用如权利要求1至6中任意一项所述的基于数据处理模型的数据筛选方法建立的数据处理模型的数据筛选方法，其特征在于，包括：

8.根据权利要求7所述的基于数据处理模型的数据筛选方法，其特征在于，对所述结果集合进行有where过滤条件又有having过滤条件的SQL子查询处理具体包括：

9.根据权利要求7所述的基于数据处理模型的数据筛选方法，其特征在于，对所述结果集合进行所述SQL子查询的条件下移到所述union分组处理具体包括：

10.根据权利要求7所述的基于数据处理模型的数据筛选方法，其特征在于，对所述结果集合进行完全下移判定，从所述SQL子查询中移除SQL语句处理具体包括：