CN107832389B

CN107832389B - 数据管理方法及装置

Info

Publication number: CN107832389B
Application number: CN201711046153.XA
Authority: CN
Inventors: 黄晓
Original assignee: New H3C Big Data Technologies Co Ltd
Current assignee: New H3C Big Data Technologies Co Ltd
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2020-12-25
Anticipated expiration: 2037-10-31
Also published as: CN107832389A

Abstract

本公开涉及一种数据管理方法及装置，包括采集指定对象的数据，并存储到不同的数据源中，不同的数据源中存储的所述指定对象的数据中均包括所述指定对象的唯一标识；针对任一数据源存储的所述指定对象的数据，将该指定对象的数据存储到Hbase表的一行，其中，根据所述指定对象的唯一标识生成该行的行键，将该指定对象的数据存储在该行的列中。通过将不同数据源的指定对象的数据存储在指定对象的唯一标识对应的行键的列中，根据本公开实施例的数据管理方法及装置能够从不同的数据源中一次性提取出完整的内容。

Description

数据管理方法及装置

技术领域

本公开涉及数据库技术领域，尤其涉及一种数据管理方法及装置。

背景技术

医疗机构通过对医疗大数据进行分析，可以有针对性的进行研究，进而提高工作效率和诊疗质量。

相关技术中，在对数据源进行非结构化到结构化提取的过程中，可以针对不同类型的数据源、以及同类型数据源的不同提取方向，采用不同的方式分别进行提取，之后将提取结果分别存入MPP(Massively Parallel Processing，海量并行架构)数据仓库中进行汇总。例如，对于XML(Extensible Markup Language，可扩展标记语言)类型的数据(例如入院表、手术表、出院表和病程记录等)，可以采用Python程序解析后导入Hbase数据库中进行处理；对于CSV格式的数据(例如病案表、病历表等)，可以直接导入Hbase数据库中进行处理；对于SQL Server类型的数据，(例如彩超表、医嘱表等)可以通过Kettle存放到Hbase数据库中进行处理。从Hbase取出的数据经过解析可以得到的结构化数据，这些结构化数据可以分别存入MPP数据仓库中进行汇总。

然而，上述的提取方式得到的数据是分散的，没有连接起来，可能出现数据提取不完整的问题，且在对于提取错误的记录人工核实起来也比较困难。例如，在分开进行提取的过程中，提取到了一个病人的入院表，但未提取到该病人的出院表，造成数据的提取质量有问题。

发明内容

有鉴于此，本公开提出了一种数据管理方法及装置，能够从不同的数据源中一次性提取出完整的内容。

根据本公开的一方面，提供了一种数据管理方法，包括：采集指定对象的数据，并存储到不同的数据源中，不同的数据源中存储的所述指定对象的数据中均包括所述指定对象的唯一标识；针对任一数据源存储的所述指定对象的数据，将该指定对象的数据存储到Hbase表的一行，其中，根据所述指定对象的唯一标识生成该行的行键，将该指定对象的数据存储在该行的列中。

根据本公开的另一方面，提供了一种数据管理装置，采集模块，用于采集指定对象的数据，并存储到不同的数据源中，不同的数据源中存储的所述指定对象的数据中均包括所述指定对象的唯一标识；存储模块，用于针对任一数据源存储的所述指定对象的数据，将该指定对象的数据存储到Hbase表的一行，其中，根据所述指定对象的唯一标识生成该行的行键，将该指定对象的数据存储在该行的列中。

通过采用指定对象的唯一标识将指定对象的数据存储到不同的数据源中；针对任一数据源存储的所述指定对象的数据，将该指定对象的数据存储到Hbase表的一行，且该行的行键为根据所述唯一标识生成的行键，根据本公开的各方面实施例的数据管理方法及装置通过指定对象的唯一标识关联来自不同数据源的指定对象的数据，使来自不同数据源的指定对象的数据成为具有相同标识的数据，从而使这些指定对象的数据都能够根据该唯一标识在一次处理中全部提取出来，而不是一部分一部分的分开提取，保证了数据提取的完整性。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出根据本公开一实施例的数据管理方法的流程图；

图2示出根据本公开一实施例的数据管理方法的流程图；

图3示出根据本公开一实施例的数据管理方法的流程图；

图4示出根据本公开一实施例的数据管理方法的流程图；

图5示出根据本公开一实施例的数据管理装置的框图；

图6示出根据本公开一实施例的数据管理装置的框图；

图7示出根据本公开一实施例的数据管理装置的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

图1示出根据本公开一实施例的数据管理方法的流程图。该方法可以应用于大数据集群的服务器中，如图1所示，该数据管理方法包括：

步骤S11，采集指定对象的数据，并存储到不同的数据源中，不同的数据源中存储的所述指定对象的数据中均包括所述指定对象的唯一标识。

其中，指定对象与唯一标识是一一对应的，一个指定对象对应一个唯一标识，一个唯一标识可以表示唯一的指定对象。该唯一标识可以由数字、字母、符号中的一者或多者组成，本公开对此不做限制。

指定对象的数据可以从不同的设备、通过不同的技术手段进行采集，对此本公开不做限制。

指定对象的数据可以存储在不同的数据源中，例如，病人的医疗数据可以存储在入院系统、出院系统、病理系统中。这里入院系统、出院系统、病理系统属于不同的数据源。不同的数据源中除了存储病人的相关医疗数据外，还可以存储病人的唯一标识(例如住院流水号)，以便于识别出医疗数据对应于哪个病人、哪次住院记录。

步骤S12，针对任一数据源存储的所述指定对象的数据，将该指定对象的数据存储到Hbase表的一行，其中，根据所述指定对象的唯一标识生成该行的行键，将该指定对象的数据存储在该行的列中。

Hbase数据库是一个高可靠性、高性能、面向列的分布式存储系统，可以进行大数据的存储。从Hbase取出的数据，通过解析程序能够得到结构化的数据，因此根据本公开实施例的数据管理方法可以采用Hbase数据库存储来自不同数据源的指定对象的数据。Hbase数据库的结构包括表、行、列簇和列。Hbase数据库的最基本单位是列。行键是唯一的，在一个Hbase表里仅出现一次。Hbase表的行与行之间是有序的，按照行键的字典序进行排列。

如前所述，指定对象的数据可以存储在不同的数据源中，且存储在不同数据源中的数据均包括指定对象的唯一标识。这样，来自不同数据源的指定对象的数据，均可以根据指定对象的唯一标识生成统一的行键，指定对象的数据可以存储在Hbase表中该行键对应的行的列中。

以指定对象为病人、指定对象的数据为医疗数据、指定对象的唯一标识为住院流水号为例进行说明。其中，住院流水号可以识别一个病人的一次住院记录。一个病人一次住院过程中产生的医疗数据对应的住院流水号相同。通过住院流水号，可以将一个病人一次住院过程中产生的医疗数据关联起来。通过在存储医疗数据时，使用医疗数据对应的住院流水号生成Habse表的行键，使服务器可以根据住院流水号在Hbase表中找到对应的医疗数据。

在一种可能的实现方式中，所述行键可以由散列前缀、时间和所述唯一标识组成。其中，散列前缀可以用于表示存储位置，例如该行键对应的列中的数据存储在集群的哪个服务器中。散列前缀可以使用0、1、2、3、4、5等数字表示。根据Hbase数据库中散列前缀的分布，可以均衡集群的负载。时间可以表示存储医疗数据的时间，用于区分医疗数据的版本。在一个示例中，散列前缀为0，时间为2016年07月08日，住院流水号(唯一标识)为050001586083，对应的行键为020160708050001586083。

通过采用指定对象的唯一标识将指定对象的数据存储到不同的数据源中；针对任一数据源存储的所述指定对象的数据，将该指定对象的数据存储到Hbase表的一行，且该行的行键为根据所述唯一标识生成的行键，根据本公开实施例的数据管理方法通过指定对象的唯一标识关联来自不同数据源的指定对象的数据，使来自不同数据源的指定对象的数据成为具有相同标识的数据，从而使这些指定对象的数据都能够根据该唯一标识在一次处理中全部提取出来，而不是一部分一部分的分来提取，保证了数据提取的完整性。

在一种可能的实现方式中，如图2根据本公开一实施例的数据管理方法的流程图所示，针对任一数据源存储的所述指定对象的数据，将该指定对象的数据存储到Hbase表的一行，可以实现为步骤S121和步骤S122。

在步骤S121中，按照该数据源存储的所述指定对象的数据的分类，针对任一分类，查找该分类对应的Hbase表，将该分类中存储的指定对象的数据存储到所述查找到的Hbase表的一行。

在步骤S122中，若未查找到该分类对应的Hbase表，则创建对应的Hbase表，将该分类中存储的指定对象的数据存储到所述创建的Hbase表的一行。

指定对象的数据的来源可能较多，且来自不同数据源的医疗数据的数据属于不同的分类。以医疗数据为例，医疗数据的可以分为入院记录、出院记录、手术记录、病程记录、病案首页、入院医嘱、检验数据、病理表、彩超表等。

在Hbase数据库中，不同分类的数据可以存储在不同的Hbase表中。服务器可以首先确定指定对象的数据的分类，再查找该分类对应的Hbase表。在一种可能的实现方式中，服务器可以首先确定指定对象的数据的分类，再确定该分类对应的Hbase表的表名，并在Hbase数据库中查找与该表名对应的Hbase表。

若Hbase数据库中存在与所述指定对象的数据的分类对应的Hbase表，则服务器可以将指定对象的数据存储到查找到的Hbase表的一行。

若Hbase数据库中不存在与所述指定对象的数据的分类对应的Hbase表，则服务器可以首先在所述Hbase数据库中创建该分类对应的Hbase表，再将指定对象的数据存储在所创建的Hbase表的一行。其中，服务器所创建的Hbase表的表名可以由所述指定对象的数据的分类确定。在一种可能的实现方式中，Hbase表的表名可以为任何能够区分数据分类的标识，例如名称、编号等，本公开对Hbase表的表名不做限制。在一个示例中，为入院记录创建的Hbase表的表名可以为入院表、表1等，为手术记录创建的Hbase表的表名可以为手术表、表2等。

在一种可能的实现方式中，如图3根据本公开一实施例的数据管理方法的流程图所示，所述将该指定对象的数据存储在该行的列中，可以实现为步骤S123和步骤S124。

在步骤S123中，若所述指定对象的数据为非结构化数据，则将所述指定对象的数据存储在该行的一列中。

非结构化数据是指数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑来表现的数据。例如XML、文本、HTML等类型的数据。

对于非结构化数据，服务器可以将其存储在对应的Hbase表中一行的一列中。

在一个示例中，医疗数据为XML类型的入院记录，该医疗数据包括：版本号为1.0，编码方式为GB2313，数据源为CDR，姓名杨某，该医疗数据对应的行键为020160708050001586083，该医疗数据对应的Hbase表的表名为入院。表1示出了非结构化数据的存储情况的一个示例。如表1所示，在表名为入院的Hbase表中，该医疗数据作为整体存储在020160708050001586083对应的列1中。

表1

在步骤S124中，若所述指定对象的数据为结构化数据，则将所述指定对象的数据的字段与该行的列一一对应，并将各个字段的数据存储到对应的列中。

结构化数据是可以由二维表结构来逻辑表达和实现的数据，主要通过关系型数据库进行存储和管理。例如，CSV、SQLServer等类型的数据。

在一个示例中，医疗数据为CSV类型的病理表，该医疗数据包括的字段名为诊断结果、病理诊断编码和组织学类型，且各字段对应的值为肺恶性肿瘤、肺部和M81400/3，该医疗数据对应的行键为020160708050001586083，该医疗数据对应的Hbase表的名称为病理。表2示出了结构化数据存储的一个示例。如表2所示，在表名为病历的Hbase表中，各列的列名与该医疗数据各个字段名称相同，该医疗数据中各个字段的数据映射到020160708050001586083对应的列中。

表2

在一个示例中，医疗数据为SQLServer类型的彩超表，该医疗数据包括的字段名为住院科室、彩超类型和部位，且各字段对应的值为住院呼吸内科一、R50.900和腹部，该医疗数据对应的行键为020160708050001586083，该医疗数据对应的Hbase表的名称为彩超。表3示出了结构化数据的存储的一个示例。如表3所示，在表名为彩超的Hbase表中，各列的列名与该医疗数据各个字段名称相同，该医疗数据中各个字段的数据映射到020160708050001586083对应的列中。

表3

需要说明的是，步骤S123和步骤S124还可以在步骤S122后执行，本公开对此不做限制。

图4示出根据本公开一实施例的数据管理方法的流程图，如图4所示，该数据管理方法还包括：

步骤S13，确定满足条件的对象及该对象的唯一标识。

步骤S14，在所有Hbase表中查询包括所述唯一标识的行键，并提取所查询到的行键对应的数据。

其中，筛选对象的条件可以根据不同的课题、不同的研究目标进行确定。例如，需要对肺结节病人的医疗数据进行研究。此时，可以将包括肺、结节、Ca、阴影等字符的病案首页表筛选出来，将这些病案首页表对应的病人作为满足条件的对象。

确定满足条件的对象后，需要确定这些对象的唯一标识，以便于进行数据提取。例如，可以获取满足条件的病人对应的住院流水号，作为唯一标识。

在一个示例中，住院流水号为050001586083，服务器在所有Hbase表中查询包括050001586083的行键，并提取所查询到的行键对应的数据。例如，在入院表查询到行键020160708050001586083，提取该行键对应的数据，如表1所示，在病历表中查询到行键020160708050001586083，提取该行键对应列中的数据，如表2所示，在彩超表中查询到行键020160708050001586083，提取该行键对应的数据，如表3所示。此时，根据住院流水号(唯一标识)050001586083可以一次性将上述三张Hbase表中的数据提取出来，并进行解析处理。

图5是根据本公开一实施例的数据管理装置50的框图。该装置50可以应用于大数据集群的服务器中，如图5所示，该装置50包括：

采集模块51，用于采集指定对象的数据，并存储到不同的数据源中，不同的数据源中存储的所述指定对象的数据中均包括所述指定对象的唯一标识。

存储模块52，用于针对任一数据源存储的所述指定对象的数据，将该指定对象的数据存储到Hbase表的一行，其中，根据所述指定对象的唯一标识生成该行的行键，将该指定对象的数据存储在该行的列中。

图6示出根据本公开一实施例的数据管理装置50的框图。如图6所示，在一种可能的实现方式中，所述存储模块52包括：

查找单元521，用于按照该数据源存储的所述指定对象的数据的分类，针对任一分类，查找该分类对应的Hbase表，将该分类中存储的指定对象的数据存储到所述查找到的Hbase表的一行。

创建单元522，用于若未查找到该分类对应的Hbase表，则创建对应的Hbase表，将该分类中存储的指定对象的数据存储到所述创建的Hbase表的一行。

在一种可能的实现方式中，存储模块52还包括：

第一存储单元523，用于若所述指定对象的数据为非结构化数据，则将所述指定对象的数据存储在该行的一列中。

第二存储单元524，用于若所述指定对象的数据为结构化数据，则将所述指定对象的数据的字段与该行的列一一对应，并将各个字段的数据存储到对应的列中。

在一种可能的实现方式中，所述行键由散列前缀、时间和所述唯一标识组成，所述散列前缀用于表示存储位置，所述时间用于表示存储时间。

在一种可能的存在方式中，所述装置50还包括：

确定模块53，用于确定满足条件的对象及该对象的唯一标识。

查询模块54，在所有Hbase表中查询包括所述唯一标识的行键，并提取所查询到的行键对应的数据。

图7是根据一示例性实施例示出的一种用于数据管理装置900的框图。参照图7，该装置900可包括处理器901、存储有机器可执行指令的机器可读存储介质902。处理器901与机器可读存储介质902可经由系统总线903通信。并且，处理器901通过读取机器可读存储介质902中与数据管理逻辑对应的机器可执行指令以执行上文所述的数据管理方法。

本文中提到的机器可读存储介质902可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种数据管理方法，其特征在于，包括：

采集指定对象的数据，并存储到不同的数据源中，不同的数据源中存储的所述指定对象的数据中均包括所述指定对象的唯一标识，不同数据源的数据属于不同的分类；

针对任一数据源存储的所述指定对象的数据，将该指定对象的数据存储到Hbase表的一行，其中，根据所述指定对象的唯一标识生成该行的行键，将该指定对象的数据存储在该行的列中；

其中，所述针对任一数据源存储的所述指定对象的数据，将该指定对象的数据存储到Hbase表的一行，包括：

针对任一数据源存储的所述指定对象的数据，确定该数据源存储的所述指定对象的数据的分类，查找该分类对应的Hbase表，将该指定对象的数据存储到查找到的Hbase表的一行；

所述将该指定对象的数据存储在该行的列中，包括：

若所述指定对象的数据为非结构化数据，则将所述指定对象的数据存储在该行的一列中。

2.根据权利要求1所述的数据管理方法，其特征在于，所述针对任一数据源存储的所述指定对象的数据，将该指定对象的数据存储到Hbase表的一行，包括：

若未查找到该分类对应的Hbase表，则创建对应的Hbase表，将该分类中存储的指定对象的数据存储到所述创建的Hbase表的一行。

3.根据权利要求2所述的数据管理方法，其特征在于，所述将该指定对象的数据存储在该行的列中，还包括：

若所述指定对象的数据为结构化数据，则将所述指定对象的数据的字段与该行的列一一对应，并将各个字段的数据存储到对应的列中。

4.根据权利要求1所述的数据管理方法，其特征在于，所述行键由散列前缀、时间和所述唯一标识组成，所述散列前缀用于表示存储位置，所述时间用于表示存储时间。

5.根据权利要求1至4任一项所述的数据管理方法，其特征在于，所述方法还包括：

确定满足条件的对象及该对象的唯一标识；

在所有Hbase表中查询包括所述唯一标识的行键，并提取所查询到的行键对应的数据。

6.一种数据管理装置，其特征在于，包括：

采集模块，用于采集指定对象的数据，并存储到不同的数据源中，不同的数据源中存储的所述指定对象的数据中均包括所述指定对象的唯一标识，不同数据源的数据属于不同的分类；

存储模块，用于针对任一数据源存储的所述指定对象的数据，将该指定对象的数据存储到Hbase表的一行，其中，根据所述指定对象的唯一标识生成该行的行键，将该指定对象的数据存储在该行的列中；

其中，存储模块包括：

查找单元，用于针对任一数据源存储的所述指定对象的数据，确定该数据源存储的所述指定对象的数据的分类，查找该分类对应的Hbase表，将该指定对象的数据存储到查找到的Hbase表的一行；

第一存储单元，用于若所述指定对象的数据为非结构化数据，则将所述指定对象的数据存储在该行的一列中。

7.根据权利要求6所述的数据管理装置，其特征在于，所述存储模块包括：

创建单元，用于若未查找到该分类对应的Hbase表，则创建对应的Hbase表，将该分类中存储的指定对象的数据存储到所述创建的Hbase表的一行。

8.根据权利要求7所述的数据管理装置，其特征在于，存储模块还包括：

第二存储单元，用于若所述指定对象的数据为结构化数据，则将所述指定对象的数据的字段与该行的列一一对应，并将各个字段的数据存储到对应的列中。

9.根据权利要求6所述的数据管理装置，其特征在于，所述行键由散列前缀、时间和所述唯一标识组成，所述散列前缀用于表示存储位置，所述时间用于表示存储时间。

10.根据权利要求6至9任一项所述的数据管理装置，其特征在于，所述装置还包括：

确定模块，用于确定满足条件的对象及该对象的唯一标识；

查询模块，在所有Hbase表中查询包括所述唯一标识的行键，并提取所查询到的行键对应的数据。