CN107908660B

CN107908660B - 面向数据开放共享的数据划分与组织方法

Info

Publication number: CN107908660B
Application number: CN201710967658.3A
Authority: CN
Inventors: 王梅; 乐嘉锦; 朱扬勇; 陈德华; 潘乔; 郝茜
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2017-10-17
Filing date: 2017-10-17
Publication date: 2021-07-09
Anticipated expiration: 2037-10-17
Also published as: CN107908660A

Abstract

本发明提供了一种面向数据开放共享的数据划分与组织方法。本发明提供了一种在面向大数据的数据开放共享应用中通过分析数据分布的广度和深度模式，估计数据分布模式满足不同应用需求的价值关系，以此为基础对原始数据划分，生成新的用于共享的数据库逻辑表结构。本发明的特点在于：1、从用户的需求出发，进行数据重组和划分，生成面向数据使用者的数据库逻辑模式，从而更加友好的支持可变的上层应用需求；2、分析数据分布的广度和深度模式，按照不同模式进行数据划分，按需向用户分配所需的数据，对原始数据进行过滤精简，能极大地提高用户的查询分析性能。

Description

面向数据开放共享的数据划分与组织方法

技术领域

本发明涉及一种面向大数据开放共享的数据划分与组织方法。

背景技术

数据开放共享是挖掘大数据深层价值的基础。在数据开放环境中，首先应建立用户友好的数据逻辑组织。

对于传统OLTP应用，数据库设计由应用驱动，首先进行概念模型设计，进而进行逻辑表组织和数据表创建。支持OLAP的多维数据模型，一般也是建立在多维分析需求已知的前提下。上述由需求驱动的模式保证了数据逻辑组织与应用需求的一致性。然而，在数据开放共享环境下，数据使用者和数据提供者相分离，其使用任务存在较大的不可预知性和可变性。与此同时，庞大的开放数据规模也为数据使用者高效的使用数据带来一定的挑战。

发明内容

本发明的目的是：对开放大数据进行合理的数据划分，按需覆盖、满足可变的外部应用。

为了达到上述目的，本发明的技术方案是提供了一种面向数据开放共享的数据划分与组织方法，其特征在于，包括以下步骤：

步骤1、建立数据划分的启发式准则，包括如下步骤：

步骤1.1、建立准则一：在指定的表中同时出现的数据对象，价值较高，划分为同一组。

步骤1.2、建立准则二：在准则一划分的基础上，同一数据对象出现的频率不同，价值不同，根据出现频率进行划分；

步骤2、在需求未知的情况下，利用原始数据中的表结构，穷举准则一中所述指定的表的候选集，包括如下步骤：

步骤2.1、使用数据库自带的DDL语句查询出原始数据库中包含的表结构信息，建立数据集结构图G；

步骤2.2、读取步骤2.1生成的数据集结构图G，定义如下几个概念：

概念1：中心表，数据集结构图G中出度大于等于1的节点作为中心表；

概念2：起始中心表，数据集结构图G中入度为0的节点为一个起始中心表；

概念3：扩展表，中心表指向的表称为扩展表，扩展表也可能是中心表；

步骤2.3、根据数据集结构图G，将原始数据库O从逻辑上划分为多个不同子集，包括以下步骤：

步骤2.3.1、从数据集结构图G的指定中心表CT开始，找出此指定中心表直接连接的所有扩展表，构成集合E，第一次执行此步骤时，指定中心表为起始中心表，并将起始中心表标记为‘+’；

步骤2.3.2、对集合E中每个扩展表进行标记，每个表标记为‘+’或‘-’，列出所有标记的可能情况，每种标记的组合用‘()’括起来，放于指定中心表CT之后；

步骤2.3.3、对于每一个标记组合，如果存在标记为‘+’且其后没有‘()’标记的中心表，则将此中心表作为指定中心表CT，重复步骤2.3.1；

步骤2.3.4、如果所有组合中都不存在还未被划分过的中心表，则横向划分完成；

步骤3、为每一种不同标记的组合新建一个数据库NewBase，数据库NewBase的数据表结构与原数据集相同；

步骤4、对基于准则一划分的数据，计算数据对象的出现次数，进一步进行划分，包括如下步骤：

步骤4.1、每个非中心表的扩展表中每条记录的出现次数记为1；

步骤4.2、计算中心表中每个数据对象的出现次数；

步骤5、根据中心表数据对象的出现次数，对数据集再次进行划分，包括以下步骤：

步骤5.1、将起始中心表中出现次数相近的数据划分到同一个子集；

步骤5.2、扩展表中的数据由预先定义的SQL模版确定。

步骤6、根据不同查询语句query或分析需求，选择相应的数据，使得提供一个较小的数据集便能完成需要的查询分析，包括两类：

类型一、解析查询语句query，找出查询语句query中需要同时用到的表的集合，选取步骤3生成的数据库NewBase中对这些表的标记同时为‘+’的划分，如果查询语句query对某个表是否定查询，则选择标记为‘-’的划分，求取并集；

类型二、如果是与次数相关的分析需求，则首先根据类型一找出覆盖查询分析的数据集，同时根据需求中的次数相关值选取步骤5生成的划分中对应的数据子集。

优选地，所述步骤2.1包括：

步骤2.1.1、连接数据库，获取数据库中所有数据表的名称以及主外键约束信息；

步骤2.1.2、根据数据表之间的主外键约束信息，构建数据表与数据表之间的外键引用关系结构图，即所述数据集结构图G，将每个数据表作为一个结点，生成数据集结构图G中的结点集合，为相互之间含有外键引用关系的数据表所表示的结点之间添加连接边，连接边箭头从外键被引用表指向引用表。

优选地，在所述步骤3中，数据库NewBase中每个数据表中的数据由以下步骤生成：

步骤3.1、当前数据库NewBase中起始中心表中的数据由预先定义的SQL模版在原始数据库O中查询得出；

步骤3.2、按照所述数据集结构图G的顺序从上往下依次填充每个扩展表中的数据。

优选地，所述步骤4.2包括：

步骤4.2.1、对于中心表中的一条记录r，记录r的主键记为r.a，统计主键r.a在每个扩展表中出现的次数；

步骤4.2.2、中心表中数据对象的出现次数等于其在各扩展表中出现次数值的最小值。

本发明提供了一种在面向大数据的数据开放共享应用中通过分析数据分布的广度和深度模式，估计数据分布模式满足不同应用需求的价值关系，以此为基础对原始数据划分，生成新的用于共享的数据库逻辑表结构。

本发明的特点在于：1、从用户的需求出发，进行数据重组和划分，生成面向数据使用者的数据库逻辑模式，从而更加友好的支持可变的上层应用需求；2、分析数据分布的广度和深度模式，按照不同模式进行数据划分，按需向用户分配所需的数据，对原始数据进行过滤精简，能极大地提高用户的查询分析性能。

附图说明

图1为某医疗数据集结构图示意。

具体实施方式

为使本发明更明显易懂，兹以优选实施例作详细说明如下。

本发明的技术方案是首先建立基于价值的数据划分基本准则，通过分析数据在数据表中的出现模式和出现频率，估计数据对于不同应用需求的价值指数，以此为基础对原始数据进行广度扩展和深度扩展，生成新的用于共享的数据库逻辑表结构。总体步骤如下：

步骤1、建立数据划分的启发式准则，具体如下：

步骤1.1、建立准则1：在指定的表中同时出现的数据对象，价值较高，可划分为同一组。

步骤1.2、建立准则2：在准则1划分的基础上，同一数据对象出现的频率不同，价值不同，可根据出现频率进行划分。

表1某医疗数据检验结果数据分布(从表中数据可见，同时存在所有检验指标数据的患者记录为27809条，该子集对于分析给定疾病具有更大意义，从而说明划分准则1的合理性。)

表1某医疗数据给定疾病检查统计数据分布(所做检查次数较多的患者对于分析给定疾病的治疗进程更有意义，从而说明划分准则2的合理性。)

疾病名称	患者人数	检验报告数	做过1次检查的患者数	2次检查	3次检查	大于3次
							***	8348	5802	4687	391	72	28

步骤2、在需求未知的情况下，利用原始数据中的表结构，穷举准则1中“指定的表”候选集。

步骤2.1、建立数据集结构图G。使用数据库自带的DDL语句查询出原始数据库中包含的表结构信息，建立数据集结构图G。该步骤包括：

步骤2.1.1、连接数据库，获取数据库中所有表的名称以及主外键约束信息

步骤2.1.2、根据数据表之间的主外键约束信息，构建表与表之间的外键引用关系结构图，即数据集结构图G。将每个表作为一个结点，生成图中的结点集合。为相互之间含有外键引用关系的表所表示的结点之间添加连接边，连接边箭头从外键被引用表指向引用表。

步骤2.2、读取步骤1生成的数据集结构图G，定义如下几个概念：

概念1：中心表。出度大于等于1的节点可以作为中心表。图1中中心表有：患者基本信息表、就诊表、检验报告表。

概念2：起始中心表。入度为0的节点称为一个起始中心表。图1中起始中心表为：患者基本信息表。

概念3：扩展表。中心表指向的表称为其扩展表。扩展表也可能是中心表。图1中患者基本信息表的扩展表为：就诊表；就诊表的扩展表为：检验报告表、手术表、用药表；检验报告表的扩展表为：手术表、检验指标表。

步骤2.3、根据结构图G，将原始数据库O从逻辑上划分为多个不同子集。该步骤具体包括：

步骤2.3.1、从中心表CT开始，找出此中心表直接连接的所有扩展表，构成集合E。第一次执行此步骤从起始中心表开始，并将起始中心表标记为‘+’，即{+患者基本信息}。

步骤2.3.2、对集合E中每个扩展表进行标记，每个表可以标记为‘+’或‘-’，列出所有标记的可能情况，每种标记的组合用‘()’括起来，放于中心表CT之后。以患者基本信息表为中心表生成的组合为{+患者基本信息(+就诊)，+患者基本信息(-就诊)}

步骤2.3.3、对于每一个标记组合，如果存在标记为‘+’且其后没有‘()’标记的中心表，则将此中心表作为指定中心表CT重复步骤2.3.1。例如标记“+患者基本信息(+就诊)”因为“就诊”是一个中心表，并且其标记为“+”，其后不存在“()”，因此将其做为中心表CT重复步骤2.3.1，生成的其中一个新的标记为“+患者基本信息(+就诊(+检验报告+手术+用药))”。

步骤2.3.4、如果所有组合中都不存在还未被划分过的中心表，则横向划分完成。其中一个标记组合的完整形式如下：

“+患者基本信息(+就诊(+检验报告(-穿刺+检验指标)+手术-用药))”

其表示“所有至少存在1次就诊，在这次就诊中既存在[检验指标数据]也存在[手术数据]但是不存在[穿刺数据]和[用药数据]的患者相关数据”。

步骤3、为每一种不同标记的组合新建一个数据库NewBase，NewBase的数据结构与原数据集相同，其中每个表中的数据由以下步骤生成。

步骤3.1当前NewBase中起始中心表中的数据由如下SQL模版在原始数据库O中查询得出。数据查询SQL模版为：

其中ct和a表示连接键，对于标记为‘+’的扩展表在其中心表的查询where条件中生成一个EXISTS子句，标记为‘-’的扩展表在其中心表的查询where条件中生成一个NOTEXISTS子句。

例如对于标记为“+患者基本信息(+就诊(+检验报告(-穿刺+检验指标)+手术-用药))”的划分来说，其起始中心表中数据提出的SQL为：

步骤3.3.2按照结构图的顺序从上往下依次填充每个扩展表中的数据。数据查询SQL模版为：

其中O表示原始数据库，ET表示当前扩展表，CT表示扩展表ET所属的中心表，a表示连接键。

以NewBase中的“就诊表”为例，提取其数据的SQL为：

步骤4、对基于准则1划分的数据，计算数据对象的出现频率，进一步进行划分。具体步骤包括：

步骤4.1、每个非中心表的扩展表中每条记录的出现次数记为1。

步骤4.2、计算中心表中每个数据对象的出现次数。该步骤包括：

步骤4.2.1、对于中心表中的一条记录r，r的主键记为r.a，统计该主键在每个扩展表中出现的次数。

步骤5、根据中心表数据对象的出现次数，对数据集再次进行划分。该步骤包括：

步骤5.1、将起始中心表中出现次数相近的数据划分到同一个子集。

步骤5.2、扩展表中的数据由步骤3.3.2的SQL模版确定。

步骤6、根据不同query或分析需求，选择相应的数据，使得提供一个较小的数据集便能完成需要的查询分析。该步骤包括两类：

步骤6.1、解析查询语句query，找出query中需要同时用到的表的集合，选取步骤3生成的数据子集中对这些表的标记同时为‘+’的划分(如果query对某个表是否定查询，则选择标记为‘-’的划分)，求取并集。例如：查询双甲次全切手术需要用到哪些药品，对应SQL为：

选择的数据子集为所有+手术+用药的划分的并集即{+患者基本信息(+就诊(+检验报告(+穿刺+检验指标)+手术+用药))，+患者基本信息(+就诊(+检验报告(-穿刺+检验指标)+手术+用药))，+患者基本信息(+就诊(+检验报告(+穿刺-检验指标)+手术+用药))，+患者基本信息(+就诊(-检验报告+手术+用药))}，这些数据子集求取并集之后的数据相较原始整个数据集来说，数据量相对较小。

步骤6.2、如果是与次数相关的分析需求，则首先根据步骤6.1找出覆盖查询分析的数据集，同时根据需求中的次数相关值选取步骤5生成的划分中对应的数据子集。例如：需要统计分析做过3次甲状腺肿手术的病人的相关信息，则可以选择所有手术表标记为‘+’的划分中出现频次为3的子集即可。另外如果需要分析患某一疾病的人群的分布特征，则可以选择出现次数较低的相关数据子集，如果需要分析某种疾病在多次就诊中的治疗效果，则需要选择出现次数较高的相关数据子集。

Claims

1.一种面向数据开放共享的数据划分与组织方法，其特征在于，包括以下步骤：

步骤1、建立数据划分的启发式准则，包括如下步骤：

步骤1.1、建立准则一：在指定的表中同时出现的数据对象，价值较高，划分为同一组；

步骤4.2、计算中心表中每个数据对象的出现次数；

步骤5.2、扩展表中的数据由预先定义的SQL模版确定；

2.如权利要求1所述的一种面向数据开放共享的数据划分与组织方法，其特征在于，所述步骤2.1包括：

3.如权利要求1所述的一种面向数据开放共享的数据划分与组织方法，其特征在于，在所述步骤3中，数据库NewBase中每个数据表中的数据由以下步骤生成：

4.如权利要求1所述的一种面向数据开放共享的数据划分与组织方法，其特征在于，所述步骤4.2包括：