CN107908660B - 面向数据开放共享的数据划分与组织方法 - Google Patents

面向数据开放共享的数据划分与组织方法 Download PDF

Info

Publication number
CN107908660B
CN107908660B CN201710967658.3A CN201710967658A CN107908660B CN 107908660 B CN107908660 B CN 107908660B CN 201710967658 A CN201710967658 A CN 201710967658A CN 107908660 B CN107908660 B CN 107908660B
Authority
CN
China
Prior art keywords
data
central
division
query
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710967658.3A
Other languages
English (en)
Other versions
CN107908660A (zh
Inventor
王梅
乐嘉锦
朱扬勇
陈德华
潘乔
郝茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Donghua University
Original Assignee
Donghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Donghua University filed Critical Donghua University
Priority to CN201710967658.3A priority Critical patent/CN107908660B/zh
Publication of CN107908660A publication Critical patent/CN107908660A/zh
Application granted granted Critical
Publication of CN107908660B publication Critical patent/CN107908660B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种面向数据开放共享的数据划分与组织方法。本发明提供了一种在面向大数据的数据开放共享应用中通过分析数据分布的广度和深度模式,估计数据分布模式满足不同应用需求的价值关系,以此为基础对原始数据划分,生成新的用于共享的数据库逻辑表结构。本发明的特点在于:1、从用户的需求出发,进行数据重组和划分,生成面向数据使用者的数据库逻辑模式,从而更加友好的支持可变的上层应用需求;2、分析数据分布的广度和深度模式,按照不同模式进行数据划分,按需向用户分配所需的数据,对原始数据进行过滤精简,能极大地提高用户的查询分析性能。

Description

面向数据开放共享的数据划分与组织方法
技术领域
本发明涉及一种面向大数据开放共享的数据划分与组织方法。
背景技术
数据开放共享是挖掘大数据深层价值的基础。在数据开放环境中,首先应建立用户友好的数据逻辑组织。
对于传统OLTP应用,数据库设计由应用驱动,首先进行概念模型设计,进而进行逻辑表组织和数据表创建。支持OLAP的多维数据模型,一般也是建立在多维分析需求已知的前提下。上述由需求驱动的模式保证了数据逻辑组织与应用需求的一致性。然而,在数据开放共享环境下,数据使用者和数据提供者相分离,其使用任务存在较大的不可预知性和可变性。与此同时,庞大的开放数据规模也为数据使用者高效的使用数据带来一定的挑战。
发明内容
本发明的目的是:对开放大数据进行合理的数据划分,按需覆盖、满足可变的外部应用。
为了达到上述目的,本发明的技术方案是提供了一种面向数据开放共享的数据划分与组织方法,其特征在于,包括以下步骤:
步骤1、建立数据划分的启发式准则,包括如下步骤:
步骤1.1、建立准则一:在指定的表中同时出现的数据对象,价值较高,划分为同一组。
步骤1.2、建立准则二:在准则一划分的基础上,同一数据对象出现的频率不同,价值不同,根据出现频率进行划分;
步骤2、在需求未知的情况下,利用原始数据中的表结构,穷举准则一中所述指定的表的候选集,包括如下步骤:
步骤2.1、使用数据库自带的DDL语句查询出原始数据库中包含的表结构信息,建立数据集结构图G;
步骤2.2、读取步骤2.1生成的数据集结构图G,定义如下几个概念:
概念1:中心表,数据集结构图G中出度大于等于1的节点作为中心表;
概念2:起始中心表,数据集结构图G中入度为0的节点为一个起始中心表;
概念3:扩展表,中心表指向的表称为扩展表,扩展表也可能是中心表;
步骤2.3、根据数据集结构图G,将原始数据库O从逻辑上划分为多个不同子集,包括以下步骤:
步骤2.3.1、从数据集结构图G的指定中心表CT开始,找出此指定中心表直接连接的所有扩展表,构成集合E,第一次执行此步骤时,指定中心表为起始中心表,并将起始中心表标记为‘+’;
步骤2.3.2、对集合E中每个扩展表进行标记,每个表标记为‘+’或‘-’,列出所有标记的可能情况,每种标记的组合用‘()’括起来,放于指定中心表CT之后;
步骤2.3.3、对于每一个标记组合,如果存在标记为‘+’且其后没有‘()’标记的中心表,则将此中心表作为指定中心表CT,重复步骤2.3.1;
步骤2.3.4、如果所有组合中都不存在还未被划分过的中心表,则横向划分完成;
步骤3、为每一种不同标记的组合新建一个数据库NewBase,数据库NewBase的数据表结构与原数据集相同;
步骤4、对基于准则一划分的数据,计算数据对象的出现次数,进一步进行划分,包括如下步骤:
步骤4.1、每个非中心表的扩展表中每条记录的出现次数记为1;
步骤4.2、计算中心表中每个数据对象的出现次数;
步骤5、根据中心表数据对象的出现次数,对数据集再次进行划分,包括以下步骤:
步骤5.1、将起始中心表中出现次数相近的数据划分到同一个子集;
步骤5.2、扩展表中的数据由预先定义的SQL模版确定。
步骤6、根据不同查询语句query或分析需求,选择相应的数据,使得提供一个较小的数据集便能完成需要的查询分析,包括两类:
类型一、解析查询语句query,找出查询语句query中需要同时用到的表的集合,选取步骤3生成的数据库NewBase中对这些表的标记同时为‘+’的划分,如果查询语句query对某个表是否定查询,则选择标记为‘-’的划分,求取并集;
类型二、如果是与次数相关的分析需求,则首先根据类型一找出覆盖查询分析的数据集,同时根据需求中的次数相关值选取步骤5生成的划分中对应的数据子集。
优选地,所述步骤2.1包括:
步骤2.1.1、连接数据库,获取数据库中所有数据表的名称以及主外键约束信息;
步骤2.1.2、根据数据表之间的主外键约束信息,构建数据表与数据表之间的外键引用关系结构图,即所述数据集结构图G,将每个数据表作为一个结点,生成数据集结构图G中的结点集合,为相互之间含有外键引用关系的数据表所表示的结点之间添加连接边,连接边箭头从外键被引用表指向引用表。
优选地,在所述步骤3中,数据库NewBase中每个数据表中的数据由以下步骤生成:
步骤3.1、当前数据库NewBase中起始中心表中的数据由预先定义的SQL模版在原始数据库O中查询得出;
步骤3.2、按照所述数据集结构图G的顺序从上往下依次填充每个扩展表中的数据。
优选地,所述步骤4.2包括:
步骤4.2.1、对于中心表中的一条记录r,记录r的主键记为r.a,统计主键r.a在每个扩展表中出现的次数;
步骤4.2.2、中心表中数据对象的出现次数等于其在各扩展表中出现次数值的最小值。
本发明提供了一种在面向大数据的数据开放共享应用中通过分析数据分布的广度和深度模式,估计数据分布模式满足不同应用需求的价值关系,以此为基础对原始数据划分,生成新的用于共享的数据库逻辑表结构。
本发明的特点在于:1、从用户的需求出发,进行数据重组和划分,生成面向数据使用者的数据库逻辑模式,从而更加友好的支持可变的上层应用需求;2、分析数据分布的广度和深度模式,按照不同模式进行数据划分,按需向用户分配所需的数据,对原始数据进行过滤精简,能极大地提高用户的查询分析性能。
附图说明
图1为某医疗数据集结构图示意。
具体实施方式
为使本发明更明显易懂,兹以优选实施例作详细说明如下。
本发明的技术方案是首先建立基于价值的数据划分基本准则,通过分析数据在数据表中的出现模式和出现频率,估计数据对于不同应用需求的价值指数,以此为基础对原始数据进行广度扩展和深度扩展,生成新的用于共享的数据库逻辑表结构。总体步骤如下:
步骤1、建立数据划分的启发式准则,具体如下:
步骤1.1、建立准则1:在指定的表中同时出现的数据对象,价值较高,可划分为同一组。
步骤1.2、建立准则2:在准则1划分的基础上,同一数据对象出现的频率不同,价值不同,可根据出现频率进行划分。
表1某医疗数据检验结果数据分布(从表中数据可见,同时存在所有检验指标数据的患者记录为27809条,该子集对于分析给定疾病具有更大意义,从而说明划分准则1的合理性。)
Figure BDA0001435799360000041
表1某医疗数据给定疾病检查统计数据分布(所做检查次数较多的患者对于分析给定疾病的治疗进程更有意义,从而说明划分准则2的合理性。)
疾病名称 患者人数 检验报告数 做过1次检查的患者数 2次检查 3次检查 大于3次
*** 8348 5802 4687 391 72 28
步骤2、在需求未知的情况下,利用原始数据中的表结构,穷举准则1中“指定的表”候选集。
步骤2.1、建立数据集结构图G。使用数据库自带的DDL语句查询出原始数据库中包含的表结构信息,建立数据集结构图G。该步骤包括:
步骤2.1.1、连接数据库,获取数据库中所有表的名称以及主外键约束信息
步骤2.1.2、根据数据表之间的主外键约束信息,构建表与表之间的外键引用关系结构图,即数据集结构图G。将每个表作为一个结点,生成图中的结点集合。为相互之间含有外键引用关系的表所表示的结点之间添加连接边,连接边箭头从外键被引用表指向引用表。
步骤2.2、读取步骤1生成的数据集结构图G,定义如下几个概念:
概念1:中心表。出度大于等于1的节点可以作为中心表。图1中中心表有:患者基本信息表、就诊表、检验报告表。
概念2:起始中心表。入度为0的节点称为一个起始中心表。图1中起始中心表为:患者基本信息表。
概念3:扩展表。中心表指向的表称为其扩展表。扩展表也可能是中心表。图1中患者基本信息表的扩展表为:就诊表;就诊表的扩展表为:检验报告表、手术表、用药表;检验报告表的扩展表为:手术表、检验指标表。
步骤2.3、根据结构图G,将原始数据库O从逻辑上划分为多个不同子集。该步骤具体包括:
步骤2.3.1、从中心表CT开始,找出此中心表直接连接的所有扩展表,构成集合E。第一次执行此步骤从起始中心表开始,并将起始中心表标记为‘+’,即{+患者基本信息}。
步骤2.3.2、对集合E中每个扩展表进行标记,每个表可以标记为‘+’或‘-’,列出所有标记的可能情况,每种标记的组合用‘()’括起来,放于中心表CT之后。以患者基本信息表为中心表生成的组合为{+患者基本信息(+就诊),+患者基本信息(-就诊)}
步骤2.3.3、对于每一个标记组合,如果存在标记为‘+’且其后没有‘()’标记的中心表,则将此中心表作为指定中心表CT重复步骤2.3.1。例如标记“+患者基本信息(+就诊)”因为“就诊”是一个中心表,并且其标记为“+”,其后不存在“()”,因此将其做为中心表CT重复步骤2.3.1,生成的其中一个新的标记为“+患者基本信息(+就诊(+检验报告+手术+用药))”。
步骤2.3.4、如果所有组合中都不存在还未被划分过的中心表,则横向划分完成。其中一个标记组合的完整形式如下:
“+患者基本信息(+就诊(+检验报告(-穿刺+检验指标)+手术-用药))”
其表示“所有至少存在1次就诊,在这次就诊中既存在[检验指标数据]也存在[手术数据]但是不存在[穿刺数据]和[用药数据]的患者相关数据”。
步骤3、为每一种不同标记的组合新建一个数据库NewBase,NewBase的数据结构与原数据集相同,其中每个表中的数据由以下步骤生成。
步骤3.1当前NewBase中起始中心表中的数据由如下SQL模版在原始数据库O中查询得出。数据查询SQL模版为:
Figure BDA0001435799360000061
其中ct和a表示连接键,对于标记为‘+’的扩展表在其中心表的查询where条件中生成一个EXISTS子句,标记为‘-’的扩展表在其中心表的查询where条件中生成一个NOTEXISTS子句。
例如对于标记为“+患者基本信息(+就诊(+检验报告(-穿刺+检验指标)+手术-用药))”的划分来说,其起始中心表中数据提出的SQL为:
Figure BDA0001435799360000062
Figure BDA0001435799360000071
步骤3.3.2按照结构图的顺序从上往下依次填充每个扩展表中的数据。数据查询SQL模版为:
Figure BDA0001435799360000072
其中O表示原始数据库,ET表示当前扩展表,CT表示扩展表ET所属的中心表,a表示连接键。
以NewBase中的“就诊表”为例,提取其数据的SQL为:
Figure BDA0001435799360000073
步骤4、对基于准则1划分的数据,计算数据对象的出现频率,进一步进行划分。具体步骤包括:
步骤4.1、每个非中心表的扩展表中每条记录的出现次数记为1。
步骤4.2、计算中心表中每个数据对象的出现次数。该步骤包括:
步骤4.2.1、对于中心表中的一条记录r,r的主键记为r.a,统计该主键在每个扩展表中出现的次数。
步骤4.2.2、中心表中数据对象的出现次数等于其在各扩展表中出现次数值的最小值。
步骤5、根据中心表数据对象的出现次数,对数据集再次进行划分。该步骤包括:
步骤5.1、将起始中心表中出现次数相近的数据划分到同一个子集。
步骤5.2、扩展表中的数据由步骤3.3.2的SQL模版确定。
步骤6、根据不同query或分析需求,选择相应的数据,使得提供一个较小的数据集便能完成需要的查询分析。该步骤包括两类:
步骤6.1、解析查询语句query,找出query中需要同时用到的表的集合,选取步骤3生成的数据子集中对这些表的标记同时为‘+’的划分(如果query对某个表是否定查询,则选择标记为‘-’的划分),求取并集。例如:查询双甲次全切手术需要用到哪些药品,对应SQL为:
Figure BDA0001435799360000081
选择的数据子集为所有+手术+用药的划分的并集即{+患者基本信息(+就诊(+检验报告(+穿刺+检验指标)+手术+用药)),+患者基本信息(+就诊(+检验报告(-穿刺+检验指标)+手术+用药)),+患者基本信息(+就诊(+检验报告(+穿刺-检验指标)+手术+用药)),+患者基本信息(+就诊(-检验报告+手术+用药))},这些数据子集求取并集之后的数据相较原始整个数据集来说,数据量相对较小。
步骤6.2、如果是与次数相关的分析需求,则首先根据步骤6.1找出覆盖查询分析的数据集,同时根据需求中的次数相关值选取步骤5生成的划分中对应的数据子集。例如:需要统计分析做过3次甲状腺肿手术的病人的相关信息,则可以选择所有手术表标记为‘+’的划分中出现频次为3的子集即可。另外如果需要分析患某一疾病的人群的分布特征,则可以选择出现次数较低的相关数据子集,如果需要分析某种疾病在多次就诊中的治疗效果,则需要选择出现次数较高的相关数据子集。

Claims (4)

1.一种面向数据开放共享的数据划分与组织方法,其特征在于,包括以下步骤:
步骤1、建立数据划分的启发式准则,包括如下步骤:
步骤1.1、建立准则一:在指定的表中同时出现的数据对象,价值较高,划分为同一组;
步骤1.2、建立准则二:在准则一划分的基础上,同一数据对象出现的频率不同,价值不同,根据出现频率进行划分;
步骤2、在需求未知的情况下,利用原始数据中的表结构,穷举准则一中所述指定的表的候选集,包括如下步骤:
步骤2.1、使用数据库自带的DDL语句查询出原始数据库中包含的表结构信息,建立数据集结构图G;
步骤2.2、读取步骤2.1生成的数据集结构图G,定义如下几个概念:
概念1:中心表,数据集结构图G中出度大于等于1的节点作为中心表;
概念2:起始中心表,数据集结构图G中入度为0的节点为一个起始中心表;
概念3:扩展表,中心表指向的表称为扩展表,扩展表也可能是中心表;
步骤2.3、根据数据集结构图G,将原始数据库O从逻辑上划分为多个不同子集,包括以下步骤:
步骤2.3.1、从数据集结构图G的指定中心表CT开始,找出此指定中心表直接连接的所有扩展表,构成集合E,第一次执行此步骤时,指定中心表为起始中心表,并将起始中心表标记为‘+’;
步骤2.3.2、对集合E中每个扩展表进行标记,每个表标记为‘+’或‘-’,列出所有标记的可能情况,每种标记的组合用‘()’括起来,放于指定中心表CT之后;
步骤2.3.3、对于每一个标记组合,如果存在标记为‘+’且其后没有‘()’标记的中心表,则将此中心表作为指定中心表CT,重复步骤2.3.1;
步骤2.3.4、如果所有组合中都不存在还未被划分过的中心表,则横向划分完成;
步骤3、为每一种不同标记的组合新建一个数据库NewBase,数据库NewBase的数据表结构与原数据集相同;
步骤4、对基于准则一划分的数据,计算数据对象的出现次数,进一步进行划分,包括如下步骤:
步骤4.1、每个非中心表的扩展表中每条记录的出现次数记为1;
步骤4.2、计算中心表中每个数据对象的出现次数;
步骤5、根据中心表数据对象的出现次数,对数据集再次进行划分,包括以下步骤:
步骤5.1、将起始中心表中出现次数相近的数据划分到同一个子集;
步骤5.2、扩展表中的数据由预先定义的SQL模版确定;
步骤6、根据不同查询语句query或分析需求,选择相应的数据,使得提供一个较小的数据集便能完成需要的查询分析,包括两类:
类型一、解析查询语句query,找出查询语句query中需要同时用到的表的集合,选取步骤3生成的数据库NewBase中对这些表的标记同时为‘+’的划分,如果查询语句query对某个表是否定查询,则选择标记为‘-’的划分,求取并集;
类型二、如果是与次数相关的分析需求,则首先根据类型一找出覆盖查询分析的数据集,同时根据需求中的次数相关值选取步骤5生成的划分中对应的数据子集。
2.如权利要求1所述的一种面向数据开放共享的数据划分与组织方法,其特征在于,所述步骤2.1包括:
步骤2.1.1、连接数据库,获取数据库中所有数据表的名称以及主外键约束信息;
步骤2.1.2、根据数据表之间的主外键约束信息,构建数据表与数据表之间的外键引用关系结构图,即所述数据集结构图G,将每个数据表作为一个结点,生成数据集结构图G中的结点集合,为相互之间含有外键引用关系的数据表所表示的结点之间添加连接边,连接边箭头从外键被引用表指向引用表。
3.如权利要求1所述的一种面向数据开放共享的数据划分与组织方法,其特征在于,在所述步骤3中,数据库NewBase中每个数据表中的数据由以下步骤生成:
步骤3.1、当前数据库NewBase中起始中心表中的数据由预先定义的SQL模版在原始数据库O中查询得出;
步骤3.2、按照所述数据集结构图G的顺序从上往下依次填充每个扩展表中的数据。
4.如权利要求1所述的一种面向数据开放共享的数据划分与组织方法,其特征在于,所述步骤4.2包括:
步骤4.2.1、对于中心表中的一条记录r,记录r的主键记为r.a,统计主键r.a在每个扩展表中出现的次数;
步骤4.2.2、中心表中数据对象的出现次数等于其在各扩展表中出现次数值的最小值。
CN201710967658.3A 2017-10-17 2017-10-17 面向数据开放共享的数据划分与组织方法 Active CN107908660B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710967658.3A CN107908660B (zh) 2017-10-17 2017-10-17 面向数据开放共享的数据划分与组织方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710967658.3A CN107908660B (zh) 2017-10-17 2017-10-17 面向数据开放共享的数据划分与组织方法

Publications (2)

Publication Number Publication Date
CN107908660A CN107908660A (zh) 2018-04-13
CN107908660B true CN107908660B (zh) 2021-07-09

Family

ID=61840541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710967658.3A Active CN107908660B (zh) 2017-10-17 2017-10-17 面向数据开放共享的数据划分与组织方法

Country Status (1)

Country Link
CN (1) CN107908660B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110176226B (zh) * 2018-10-25 2024-02-02 腾讯科技(深圳)有限公司 一种语音识别、及语音识别模型训练方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8433620B2 (en) * 2010-11-04 2013-04-30 Microsoft Corporation Application store tastemaker recommendations
CN105488231A (zh) * 2016-01-22 2016-04-13 杭州电子科技大学 一种基于自适应表维度划分的大数据处理方法
CN106294739A (zh) * 2016-08-10 2017-01-04 桂林电子科技大学 一种基于k2树和多值决策图的大规模图数据处理方法
CN106878241A (zh) * 2015-12-18 2017-06-20 北京奇虎科技有限公司 恶意热点检测方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8433620B2 (en) * 2010-11-04 2013-04-30 Microsoft Corporation Application store tastemaker recommendations
CN106878241A (zh) * 2015-12-18 2017-06-20 北京奇虎科技有限公司 恶意热点检测方法和系统
CN105488231A (zh) * 2016-01-22 2016-04-13 杭州电子科技大学 一种基于自适应表维度划分的大数据处理方法
CN106294739A (zh) * 2016-08-10 2017-01-04 桂林电子科技大学 一种基于k2树和多值决策图的大规模图数据处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"适用于范围查询的列存储数据桶划分算法";李晔锋等;《计算机研究与发展》;20130315;全文 *

Also Published As

Publication number Publication date
CN107908660A (zh) 2018-04-13

Similar Documents

Publication Publication Date Title
Batagelj et al. The emergence of a field: a network analysis of research on peer review
US8112440B2 (en) Relational pattern discovery across multiple databases
US20090043733A1 (en) Systems and methods for efficiently storing, retrieving and querying data structures in a relational database system
US10409798B2 (en) Method of providing an index structure in a database
CN106933859B (zh) 一种医疗数据的迁移方法和装置
Steer et al. Cytosm: Declarative property graph queries without data migration
He et al. Stylus: a strongly-typed store for serving massive RDF data
CN107908660B (zh) 面向数据开放共享的数据划分与组织方法
Cheng et al. Managing uncertainty of XML schema matching
CN112269785A (zh) Edc系统中受试者状态明细动态填充字段方法和系统
Sheta et al. Evaluating a healthcare data warehouse for cancer diseases
CN114510491B (zh) 一种动态随访量表设计方法和系统
CN100403308C (zh) 基于sql负载挖掘的物理数据库自动设计方法
Jusoh et al. Development of breast cancer ontology based on hybrid approach
CN111816273B (zh) 一种海量电子病历的大规模医学知识图谱构建方法
Isa et al. Business Intelligence for Analyzing Department Unit Performance in eProcurement System
Wah et al. Development of a data warehouse for lymphoma cancer diagnosis and treatment decision support
Rivero et al. On isomorphic matching of large disk-resident graphs using an XQuery engine
Wang et al. Probabilistic object deputy model for uncertain data and lineage management
Hasan et al. A knowledge graph approach for the secondary use of cancer registry data
Xie et al. Cohort analysis with ease
Auge et al. Testing provenance systems
CN114741393B (zh) 一种材料基因工程数据转换及检索方法
KR102215529B1 (ko) 유전체 정보 공통데이터 모델 변환방법
Ivanova Approaches for efficient data extraction from data cube structure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant