CN109524070B

CN109524070B - 数据处理方法及装置、电子设备、存储介质

Info

Publication number: CN109524070B
Application number: CN201811338804.7A
Authority: CN
Inventors: 杜飞
Original assignee: Beijing Yiyiyun Technology Co ltd
Current assignee: Beijing Yiyiyun Technology Co ltd
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2021-03-23
Anticipated expiration: 2038-11-12
Also published as: CN109524070A

Abstract

本公开是关于一种数据处理方法及装置、电子设备、存储介质，涉及大数据技术领域，该方法包括：对原始数据集进行简化处理得到目标数据集；通过预设规则确定所述目标数据集中的数据对应的类别标签，并对所述类别标签进行粒度划分得到多个粒度模型；通过对所述粒度模型进行统计分析，以根据统计分析结果进行数据质控。本公开可以提高类别标签确定效率和数据质控效率。

Description

数据处理方法及装置、电子设备、存储介质

技术领域

本公开涉及大数据技术领域，具体而言，涉及一种数据处理方法、数据处理装置、电子设备以及计算机可读存储介质。

背景技术

随着大数据技术的广泛应用，对数据质量的要求也越来越高。虽然通过数据清洗、数据归一、结构化、数据补全等技术可以在一定程度上弥补原始数据的不足，但是例如数据不自洽等关键的数据质量问题确很难得到修正。

为了解决上述问题，可以通过标签技术对数据做标签化说明，让用户可以知道数据问题，进而根据需求来决定在后续数据使用环节是否使用数据。比如病人籍贯数据不自洽问题，如果数据上做了数据不自洽的标签，用户看到此标签即可根据其业务场景决定是否使用该条数据。相关技术中基本都是先通过map-reduce或者SQL来对数据进行各种数据问题规则验证。最后再把数据抽取出来，添加标签后再写入。

在上述方式中，由于map-reduce技术会将中间结果写入磁盘，每次迭代都包括数据写入磁盘、数据磁盘读取步骤，步骤较繁琐，因此严重减慢确定数据标签的速度；除此之外，由于每条数据均对应一个类别标签，而每个用户可能包括多条数据，进而使得每个用户包括多个类别标签，在通过类别标签确定每个用户的数据是否可用时，需要多次统计标签分布，从而判定数据质量，该过程中可能造成遗漏标签等误操作，影响对数据进行分析统计。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种数据处理方法及装置、电子设备、存储介质，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的数据标签确定速度慢的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种数据处理方法，包括：对原始数据集进行简化处理得到目标数据集；通过预设规则确定所述目标数据集中的数据对应的类别标签，并对所述类别标签进行粒度划分得到多个粒度模型；通过对所述粒度模型进行统计分析，以根据统计分析结果进行数据质控。

在本公开的一种示例性实施例中，对原始数据集进行简化处理得到目标数据集包括：对所述原始数据集进行拆分，得到二维结构的所述目标数据集。

在本公开的一种示例性实施例中，通过预设规则确定所述目标数据集中的数据对应的类别标签包括：通过DSL语言确定所述目标数据集中每一条数据对应的所述类别标签。

在本公开的一种示例性实施例中，对所述类别标签进行粒度划分得到多个粒度模型包括：按照预设粒度对所述类别标签进行粒度划分，得到与所述预设粒度对应的粒度模型。

在本公开的一种示例性实施例中，所述粒度模型包括第一粒度模型以及第二粒度模型，且所述第一粒度模型包括至少一个所述第二粒度模型。

在本公开的一种示例性实施例中，所述第一粒度模型包括用户粒度，所述第二粒度模型包括就诊粒度、诊断粒度、检验粒度、检查粒度中的至少一种。

在本公开的一种示例性实施例中，所述方法还包括：通过所述第一粒度模型或所述第二粒度模型对应的预设标识，对所述目标数据集中的目标数据的类别标签进行同步查询或异步查询。

根据本公开的一个方面，提供一种数据处理装置，包括：数据集处理模块，用于对原始数据集进行简化处理得到目标数据集；粒度划分模块，用于确定所述目标数据集中的数据对应的类别标签，并对所述类别标签进行粒度划分得到多个粒度模型；标签统计模块，用于通过对所述粒度模型进行统计分析，以根据统计分析结果进行数据质控。

根据本公开的一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的数据处理方法。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的数据处理方法。

本公开示例性实施例中提供的一种数据处理方法、数据处理装置、电子设备以及计算机可读存储介质中，对原始数据集进行简化处理得到目标数据集；通过预设规则确定所述目标数据集中的数据对应的类别标签，并对所述类别标签进行粒度划分得到多个粒度模型；通过对所述粒度模型进行统计分析，以根据统计分析结果进行数据质控。一方面，通过预设规则确定所述目标数据集中的数据对应的类别标签，减少了操作步骤，能够提高确定类别标签的速度和效率；另一方面，通过粒度模型进行统计分析，由于粒度模型中包括多个类别标签，因此可一次性获得所有类别标签，提高了操作统一性，避免了误操作，可得到全面准确的类别标签，避免对数据分析统计过程的影响，能够提高数据质控的准确性、覆盖率、时效性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中一种数据处理方法示意图；

图2示意性示出本公开示例性实施例中原始数据集的结构示意图；

图3示意性示出本公开示例性实施例中目标数据集的结构示意图；

图4示意性示出本公开示例性实施例中一种用于执行数据处理方法的系统架构图；

图5示意性示出本公开示例性实施例中一种数据处理装置的框图；

图6示意性示出本公开示例性实施例中一种电子设备的框图；

图7示意性示出本公开示例性实施例中一种程序产品。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本示例实施方式中首先提供了一种数据处理方法，可以应用于各个领域中，例如医疗场景、电子商务场景中对数据进行质控的数据处理场景。参考图1所示，该数据处理方法可以包括以下步骤：

在步骤S110中，对原始数据集进行简化处理得到目标数据集；

在步骤S120中，通过预设规则确定所述目标数据集中的数据对应的类别标签，并对所述类别标签进行粒度划分得到多个粒度模型；

在步骤S130中，通过对所述粒度模型进行统计分析，以根据统计分析结果进行数据质控。

在本示例性实施例中提供的数据处理方法中，一方面，通过预设规则确定所述目标数据集中的数据对应的类别标签，减少了操作步骤，能够提高确定类别标签的速度和效率；另一方面，通过对粒度模型进行统计分析，由于粒度模型中包括多个类别标签，因此可一次性获得所有类别标签，提高了操作统一性，避免了误操作，可得到全面准确的类别标签，避免对数据分析统计过程的影响，能够提高数据质控的准确性、覆盖率、时效性。

接下来，结合附图对本示例性实施例中的数据处理方法进行进一步解释说明。

在步骤S110中，对原始数据集进行简化处理得到目标数据集。

本示例性实施例中，原始数据集可以为各个领域的数据，例如电子商务领域的购物数据、点击数据、浏览数据等等；医疗领域的医疗数据等等；还可以为其他领域的数据，本示例性实施例中以医疗领域的医疗数据为例进行说明。

原始数据集指的是服务器直接从某一医院的医疗数据库中获得的数据，其中可以包含但不限于患者年龄、性别、籍贯、姓名、患者编号、诊断、手术操作、住院天数、医疗费用等信息。对于不同的患者群体，其对应的医疗数据可能存在差异。服务器可以响应外部的触发事件获取原始数据集，触发事件可以包括开发人员人为确定要进行数据获取而发出的命令。另外，触发事件还可以包括其他事件，本示例性实施方式中对此不做特殊限定。

原始数据集中的数据格式各不相同，一般上可为如图2中所示的复杂的树形结构。例如，患者数据中包括性别、姓名、籍贯、患者编号以及就诊数据，其中，就诊数据中包括患者多次就诊数据，例如图2中所示的第一次就诊数据和第二次就诊数据，每次就诊数据均包括就诊日期、就诊科室以及就诊号。当每个患者存在多次就诊数据时，树形结构的原始数据集则不便于进行统计分型，因此本示例中可对原始数据集进行简化处理得到目标数据集。

参考图3所示，目标数据集可以为二维结构的数据集。具体而言，可以将原始数据集展开，并将就诊数据从患者数据中拆分出来，同时将数据暂时分开，以将患者编号合并至就诊数据中，从而将原始数据集格式化、简单化。如此一来，一份就诊数据就可以拆分为与就诊次数对应的多份数据，且每一次就诊数据中均包括就诊日期、就诊科室就诊号以及患者编号等数据，通过数据拆分的方式，可将原始数据集中复杂的树形结构的就诊数据简化为目标数据集中多个二维结构的就诊数据，从而可以更方便地对患者数据和就诊数据进行统计，同时减小了单次处理的数据量，从而提高了数据处理效率。

在步骤S120中，通过预设规则确定所述目标数据集中的数据对应的类别标签，并对所述类别标签进行粒度划分得到多个粒度模型。

本示例中实施例中，类别标签指的是用于标识数据类型的数字或文字，例如可以用0或1表示数据是否可用，也可以用“数据不自洽”，“数据有误”等表示某一条数据的类型。在从目标数据集中获取到多条数据时，可以依次自动为目标数据集中的每一条数据贴上对应的类别标签。本示例性实施例中可通过预设规则确定类别标签，预设规则中包括每一条数据的类别标签的映射关系。例如可以通过DSL(Domain Specified Language，领域专用语言)确定和描述所述目标数据集中每一条数据对应的所述类别标签。例如患者病案首页中的性别和患者基本信息中的性别不同，通过map描述类别标签与数据的映射关系，通过type描述数据类型，从而为每一条数据贴上对应的类别标签。通过DSL语言自动为数据贴类别标签“与患者院内基本信息表中患者性别不同”的程序代码可例如：

“patien_basic_info_gender_name_003”：{

“map”:[

{“field”:”concat(‘患者院内基本信息表中患者性别:’,p_gender_name,‘病案首页性别:’f_gender_name)”,

“table”:“patient_local_basic_information_ext”,

“filter_condition”:“p_gender_name！＝f_gender_name”}

],

“type”:“string”,

“value_type”:“string”,

“child”:

}

通过DSL语言自动为每一条数据贴类别标签，减少了操作步骤，可提高为每一条数据贴类别标签的速度、效率和准确率。

由于类别标签根据实际需求复杂多变，例如有对于单个数据属性的类别标签(比如年龄200岁或者超出阈值)，有多个属性的关联问题的类别标签(比如籍贯在各个数据中不自洽)，还有统计类的数据问题的类别标签(比如某个患者1个月内有1000次就诊数据)。为了加快运算效率和管理规则，本示例中在确定类别标签后，可以按照事先设置的预设粒度对所有的类别标签进行粒度划分，得到与预设粒度对应的粒度模型。其中，不同的预设粒度的类别标签作用于本类别标签对应的数据。

对于医疗数据而言，预设粒度例如可以包括用户粒度，也可以称为患者粒度或病人粒度。除此之外，还可包括就诊粒度、诊断粒度、检验粒度、检查粒度或者其它粒度。其中，每一个预设粒度可能包括多个类别标签，例如病人信息中没有籍贯信息和病人的一个月的就诊次数大于100次都属于用户粒度。病人籍贯不自洽属于病人的数据问题，即属于用户粒度，跟就诊粒度和诊断粒度等没有关系。也即是说，当获取到目标数据集时，可以通过DSL为每条数据贴类别标签，进而可根据预设粒度将多条数据划分为多份数据，即将所有属于预设粒度的类别标签汇总在一起，以得到与预设粒度对应的粒度模型，其中，每一份数据对应的预设粒度相同。

具体而言，得到的粒度模型可以包括第一粒度模型以及第二粒度模型，且所述第一粒度模型包括至少一个所述第二粒度模型。第一粒度模型指的是总粒度，例如用户粒度；第二粒度模型指的是与第一粒度模型对应的子粒度，例如就诊粒度、诊断粒度、检验粒度、检查粒度中的至少一种。需要说明的是，对于不同患者而言，其用户粒度不同，对应的第二粒度模型可以相同，也可以不同。

接下来，在步骤S130中，通过对所述粒度模型进行统计分析，以根据统计分析结果进行数据质控。

本示例性实施例中，在将相同粒度对应的类别标签进行汇总得到粒度模型之后，可对目标数据集中的数据对应的所有粒度模型进行统计分析，以得到统计分析结果。该统计分析结果可以为粒度模型的统计分析结果。本示例性实施例中，通过对类别标签进行粒度划分，再对粒度模型进行统计分析，能够将大量的类别标签统计为少量的粒度模型。由于每个粒度模型中均包括多个类别标签，因此可一次性获得每个粒度模型对应的所有类别标签，提高了操作统一性，避免了漏掉类别标签等误操作，可得到目标数据集中的数据关联的全面准确的类别标签，避免对数据分析统计过程的影响，能够准确地从整体上分析目标数据集中的所有数据的数据质量和标签分布，以确定哪些数据可用，哪些数据不可用，进而提高数据质控的准确性、覆盖率、时效性。

除此之外，在得到粒度模型之后，还可以基于粒度模型对目标数据的类别标签进行查询。具体包括：通过所述第一粒度模型或所述第二粒度模型对应的预设标识，对所述目标数据集中的目标数据的所述类别标签进行同步查询或异步查询。

本示例性实施例中，目标数据指的是简化处理后得到的目标数据集中的全部数据或者是部分数据，例如可以为患者A、患者B以及患者C对应的所有数据，或者也可以为某一个子粒度，例如就诊粒度以及诊断粒度对应的所有数据。

通过粒度模型对目标数据的类别标签进行查询时，只需要输入对应的粒度模型即可查询到所有目标数据的类别标签，而不需要对每一条数据的类别标签进行依次查询，从而提高了查询效率。

具体而言，在得到数据的类别标签后，会将粒度模型相同的所有数据组织在一起，进而根据第一粒度模型或者第二粒度模型对目标数据的类别标签进行查询。举例而言，患者A的病人信息中没有籍贯信息对应的类别标签1属于用户粒度，患者A一个月的就诊次数大于100次的类别标签2也属于用户粒度，则可以将这两种类别标签对应的数据组织在一起，为患者A贴上类别标签1和类别标签2。按照同样的方法，可以将所有患者的数据按照用户粒度进行统计。如此一来，在查询患者A的目标数据的类别标签或诊断粒度的目标数据的类别标签时，可以直接输入预设标识在数据库中查询到患者A或诊断粒度对应的所有目标数据的类别标签。预设标识用于唯一表示第一粒度模型或第二粒度模型。当预设标识表示第一粒度模型时，其可以为患者ID，需要说明的是，每个患者对应的患者ID均不同，患者ID可以用数字表示，也可以用字母表示，还可以用数字和字母结合表示，此处不作特殊限定。当预设标识表示第二粒度模型时，其可以为粒度ID，且每个第二粒度模型对应的粒度ID均不同。

在查询患者A的目标数据的类别标签时，可以直接输入预设标识即患者ID即可在数据库中查询到患者A对应的所有目标数据的类别标签。在查询某一个第二粒度模型对应的目标数据的类别标签时，可以直接输入第二粒度模型对应的预设标识，例如粒度ID，即可查询到属于该粒度模型的所有数据的类别标签。通过粒度模型可以对目标数据的类别标签进行批量查询，而不需要对每条数据进行一一查询，提高了查询效率以及数据处理效率。需要说明的是，可以对类别标签进行同步查询或异步查询，本示例性实施例中不作特殊限定。

需要说明的是，本示例中的所有步骤都可以基于Spark计算框架或energon计算框架进行。进一步地，还可以通过粒度模型对目标数据的类别标签进行统计，以从宏观上分析整体的数据质量和标签分布，从而更利于数据质控和数据标签的迭代。

除此之外，本示例性实施例中还提供了一种用于实现数据处理方法的系统架构图。参考图4所示，该系统架构图包括公有云、通信模块以及私有云三部分，其中，公有云41主要用于接收查询请求并响应查询请求对目标数据的类别标签进行查询；私有云42主要用于生成每一条数据的类别标签并对类别标签进行粒度划分以及存储类别标签和粒度模型；通信模块43用于在公有云41和私有云42之间传送信息。具体而言：

公有云41包括管理平台以及开放API接口，其中管理平台分为元数据管理4111、DSL解析模块4112、抽取器管理模块4113、合并器管理模块4114、任务管理与任务调度模块4115；开放接口412包括元数据查询模块4121以及数据分析模块4122。

元数据管理模块用于管理平台接入的各个版本元数据，可执行录入、查询、导出等功能。任务管理与任务调度模块根据任务属性和依赖性完成任务调度分发，实现任务持久化，任务查询、状态更细、任务可视化、任务容错等功能。DSL解析模块为平台使用方设计统一的查询DSL语法规则，其中支持多维度切分过滤，多维度展现，查询集合运算。数据抽取管理与数据合并器管理模块中，抽取器是从基础数据层(如schema层、pp层)抽取数据供数据分析平台进行OLAP映射，合并器用来合并不同医院的查询结果。抽取器工作于离线端，合并且工作于在线端。平台定义抽取器与合并器接口，业务方可以实现该接口，插件化接入平台。

私有云42也称为离线端，从底端到顶端依次包括基础数据层421、目标数据层422、OLAP数据层423、kylin数据立方体424。其中数据抽取器例如通用数据抽取器、大禹抽取器或其他自定义抽取器从基础数据层抽取数据作为目标数据层例如大禹数模型数据，目标数据层由OLAP映射模块、DSL解析模块、SPARK/UDF/UIDF转化为OLAP数据层，OLAP数据层通过配置转化模块、集群分发模块得到预计数，最终以kylin数据立方体的形式存入Hbase。

OLAP数据层可以通过Spark进行离线异步查询，kylin数据立方体主要支持在线同步查询。当数据查询模块发出同步查询请求时，从kylin数据立方体获取查询结果；当数据查询模块发出同步查询请求时，从OLAP数据层获取查询结果。

通信模块43主要包括开放API接口以及批量工作流任务调度器azkaban，用于传输查询指令。

通过该系统架构，提升了数据类别标签的处理效率，并且与类别标签录入、迭代、修正形成回路，同时会极大推动的数据质控的准确性、覆盖率、时效性、误伤率、可感知度。

本公开还提供了一种数据处理装置。参考图5所示，该数据处理装置500可以包括：

数据集处理模块501，可以用于对原始数据集进行简化处理得到目标数据集；

粒度划分模块502，可以用于通过预设规则确定所述目标数据集中的数据对应的类别标签，并对所述类别标签进行粒度划分得到多个粒度模型；

标签统计模块503，可以用于通过对所述粒度模型进行统计分析，以根据统计分析结果进行数据质控。

在本公开的一种示例性实施例中，数据集处理模块包括：简化模块，用于对所述原始数据集进行拆分简化，得到二维结构的所述目标数据集。

在本公开的一种示例性实施例中，粒度划分模块包括：标签确定模块，用于通过DSL语言确定所述目标数据集中每一条数据对应的所述类别标签。

在本公开的一种示例性实施例中，粒度划分模块包括：模型生成模块，用于按照预设粒度对所述类别标签进行粒度划分，得到与所述预设粒度对应的粒度模型。

在本公开的一种示例性实施例中，所述装置还包括：查询控制模块，用于通过所述第一粒度模型或所述第二粒度模型对应的预设标识，对所述目标数据集中的目标数据的类别标签进行同步查询或异步查询。

需要说明的是，上述数据处理装置中各模块的具体细节已经在对应的数据处理方法中进行了详细描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元610可以执行如图1中所示的步骤。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备800(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器660通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图7所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品700，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种数据处理方法，其特征在于，包括：

服务器响应触发事件获取从医疗数据库得到的原始数据集，对所述原始数据集进行简化处理得到二维结构的目标数据集；所述原始数据集为包括患者编号以及多次就诊数据的患者数据，所述目标数据集包括拆分的多次就诊数据和患者数据；

基于私有云，通过包括每一条数据的类别标签的映射关系的预设规则，采用DSL语言确定所述目标数据集中的数据对应的类别标签，并对所述类别标签进行粒度划分得到多个粒度模型；所述数据为每一条患者数据和多次就诊数据，所述类别标签用于标识所述数据的类型；

通过对目标数据集中的数据对应的所有粒度模型进行统计分析，以根据统计分析结果分析目标数据集中所有数据的数据质量和标签分布，并确定数据是否可用，以进行数据质控，所述粒度模型根据对相同粒度的类别标签进行汇总得到。

2.根据权利要求1所述的数据处理方法，其特征在于，对原始数据集进行简化处理得到目标数据集包括：

对所述原始数据集的患者数据进行拆分，将多次就诊数据从所述患者数据中拆分出来，并将患者编号合并至多次就诊数据中，将多次就诊数据拆分为与就诊次数对应的多份数据，以得到二维结构的所述目标数据集。

3.根据权利要求1所述的数据处理方法，其特征在于，通过预设规则确定所述目标数据集中的数据对应的类别标签包括：

通过DSL语言确定所述目标数据集中每一条数据对应的所述类别标签。

4.根据权利要求1所述的数据处理方法，其特征在于，对所述类别标签进行粒度划分得到多个粒度模型包括：

按照预设粒度对所述类别标签进行粒度划分，得到与所述预设粒度对应的粒度模型。

5.根据权利要求4所述的数据处理方法，其特征在于，所述粒度模型包括第一粒度模型以及第二粒度模型，且所述第一粒度模型包括至少一个所述第二粒度模型。

6.根据权利要求5所述的数据处理方法，其特征在于，所述第一粒度模型包括用户粒度，所述第二粒度模型包括就诊粒度、诊断粒度、检验粒度、检查粒度中的至少一种。

7.根据权利要求5或6所述的数据处理方法，其特征在于，所述方法还包括：

接收数据查询模块发出的查询请求，响应于所述查询请求，通过所述第一粒度模型或所述第二粒度模型对应的预设标识，对所述目标数据集中的目标数据的类别标签进行同步查询或异步查询；其中，所述异步查询通过OLAP数据层执行，所述同步查询通过kylin数据立方体执行。

8.一种数据处理装置，其特征在于，包括：

数据集处理模块，用于服务器响应触发事件获取从医疗数据库得到的原始数据集，对所述原始数据集进行简化处理得到二维结构的目标数据集；所述原始数据集为包括患者编号以及多次就诊数据的患者数据，所述目标数据集包括拆分的多次就诊数据和患者数据；

粒度划分模块，用于基于私有云，通过包括每一条数据的类别标签的映射关系的预设规则，采用DSL语言确定所述目标数据集中的数据对应的类别标签，并对所述类别标签进行粒度划分得到多个粒度模型；所述数据为每一条患者数据和多次就诊数据，所述类别标签用于标识所述数据的类型；

标签统计模块，用于通过对目标数据集中的数据对应的所有粒度模型进行统计分析，以根据统计分析结果分析目标数据集中所有数据的数据质量和标签分布，并确定数据是否可用，以进行数据质控，所述粒度模型根据对相同粒度的类型标签进行汇总得到。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任意一项所述的数据处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任意一项所述的数据处理方法。