CN113641659A

CN113641659A - 医疗特征数据库构建方法、装置、设备及存储介质

Info

Publication number: CN113641659A
Application number: CN202111005644.6A
Authority: CN
Inventors: 满天龙
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-11-12
Anticipated expiration: 2041-08-30

Abstract

本发明涉及大数据领域，公开了一种医疗特征数据库构建方法、装置、设备及存储介质。该方法包括：获取原始医疗数据，并对原始医疗数据进行规范化处理，得到规范化原始医疗数据；对所述规范化原始医疗数据进行补全，得到补全原始医疗数据，并对补全原始医疗数据进行分类存储，得到多张类别数据表；采用预置逻辑加工方法，对各类别数据表中的数据进行拼接，得到多张数据宽表，并按照预置特征维度信息，分别对各数据宽表的数据进行层次划分；按照预置医疗场景，从层次划分后的各数据宽表中依次提取基础特征，并采用基础特征构建基础医疗特征数据库。本发明实现了标准化的医疗特征数据库的自动化构建，按照应用场景构建衍生特征库。

Description

医疗特征数据库构建方法、装置、设备及存储介质

技术领域

本发明涉及大数据领域，尤其涉及一种医疗特征数据库构建方法、装置、设备及存储介质。

背景技术

大数据风控是人工智能领域重要的领域。随着大数据风控技术的兴起，可以支持自医疗大数据管理，并应用于医疗领域风控的功能。日常生活中无时无刻都在产生数以亿计的数据，基于海量的数据，构建特征库，能够更加真实的描述世界特征。丰富的特征库，对于机器学习模型有着重要意义，是能否训练出好模型的关键。

而一套完整的、高质量的特征构建方法可以训练出更精准的模型，固化逻辑脚本后，重复执行，可减少数据质量检查人力，节省大量的时间与人力。而传统的特征生成方法分散、不成体系，且多依赖于人工业务经验，耗时耗力，即无法提供标准化的医疗特征数据库的构建。

发明内容

本发明的主要目的在于解决无法提供标准化的医疗特征数据库构建的技术问题。

本发明第一方面提供了一种医疗特征数据库构建方法，包括：获取原始医疗数据，并对所述原始医疗数据进行规范化处理，得到规范化原始医疗数据；对所述规范化原始医疗数据进行补全，得到补全原始医疗数据，并对所述补全原始医疗数据进行分类存储，得到多张类别数据表；采用预置逻辑加工方法，对各所述类别数据表中的数据进行拼接，得到多张数据宽表，并按照预置特征维度信息，分别对各所述数据宽表的数据进行层次划分；按照预置医疗场景，从层次划分后的各数据宽表中依次提取基础特征，并采用所述基础特征构建基础医疗特征数据库。

可选的，在本发明第一方面的第一种实现方式中，在所述按照预置医疗场景，从层次划分后的各数据宽表中依次提取基础特征，并采用所述基础特征构建基础医疗特征数据库之后，还包括：获取特征衍生需求信息，并根据所述特征衍生需求信息，对所述基础特征库中的基础特征进行特征类型分类，得到多个特征类型变量；采用预置特征学习模型，对各所述特征类别变量进行特征转换，得到特征衍生需求信息对应的衍生特征，并采用所述衍生特征更新所述基础医疗特征数据库。

可选的，在本发明第一方面的第二种实现方式中，所述对所述原始医疗数据进行规范化处理，得到规范化原始医疗数据包括：对所述原始医疗数据进行数据质量检测，并根据数据质量检测的结果，对所述原始医疗数据进行类别统计，得到数据类别统计表；按照所述数据类别统计表对应的数据类别，分别对所述数据类别统计表中的数据进行数据清洗，并将清洗后的数据作为规范化原始医疗数据。

可选的，在本发明第一方面的第三种实现方式中，所述对所述规范化原始医疗数据进行补全，得到补全原始医疗数据包括：确定清洗后的数据类别统计表中的缺失值，并确定所述缺失值的数据类型；根据所述缺失值的数据类型，通过预置业务逻辑公式，采用所述规范化原始医疗数据计算所述缺失值对应的补全值；将所述补全值写入所述缺失值对应的位置，并将写入补全值后的数据类别统计表中的数据作为补全原始医疗数据。

可选的，在本发明第一方面的第四种实现方式中，所述采用预置逻辑加工方法，对各所述类别数据表中的数据进行拼接，得到多张数据宽表包括：采用预置逻辑加工方法，识别各所述类别数据表中数据的声明信息和明细数据；按照所述逻辑加工方法中的结构逻辑，分别对所述声明信息和所述明细数据进行拼接，对应得到声明数据宽表和明细数据宽表，其中，所述数据宽表包括所述声明数据宽表和所述逻辑数据宽表。

可选的，在本发明第一方面的第五种实现方式中，所述按照预置特征维度信息，分别对各所述数据宽表的数据进行层次划分包括：确定预置特征维度信息中的多个特征维度以及各所述特征维度对应的特征优先级；识别所述数据宽表中数据的特征维度，以及根据所述特征优先级，确定所述数据宽表中各特征维度对应的数据的划分层次；按照所述划分层次，将所述数据宽表中各特征维度对应的数据进行划分。

本发明第二方面提供了一种医疗特征数据库构建装置，包括：规范化处理模块，用于获取原始医疗数据，并对所述原始医疗数据进行规范化处理，得到规范化原始医疗数据；补全存储模块，用于对所述规范化原始医疗数据进行补全，得到补全原始医疗数据，并对所述补全原始医疗数据进行分类存储，得到多张类别数据表；层次划分模块，用于采用预置逻辑加工方法，对各所述类别数据表中的数据进行拼接，得到多张数据宽表，并按照预置特征维度信息，分别对各所述数据宽表的数据进行层次划分；第一构建模块，用于按照预置医疗场景，从层次划分后的各数据宽表中依次提取基础特征，并采用所述基础特征构建基础医疗特征数据库。

可选的，在本发明第二方面的第一种实现方式中，所述医疗特征数据库构建装置还包括第二构建模块，用于：获取特征衍生需求信息，并根据所述特征衍生需求信息，对所述基础特征库中的基础特征进行特征类型分类，得到多个特征类型变量；采用预置特征学习模型，对各所述特征类别变量进行特征转换，得到特征衍生需求信息对应的衍生特征，并采用所述衍生特征更新所述基础医疗特征数据库。

可选的，在本发明第二方面的第二种实现方式中，所述规范化处理模块包括：检测单元，用于对所述原始医疗数据进行数据质量检测，并根据数据质量检测的结果，对所述原始医疗数据进行类别统计，得到数据类别统计表；清洗单元，用于按照所述数据类别统计表对应的数据类别，分别对所述数据类别统计表中的数据进行数据清洗，并将清洗后的数据作为规范化原始医疗数据。

可选的，在本发明第二方面的第三种实现方式中，所述补全存储模块包括：确定单元，用于确定清洗后的数据类别统计表中的缺失值，并确定所述缺失值的数据类型；计算单元，用于根据所述缺失值的数据类型，通过预置业务逻辑公式，采用所述规范化原始医疗数据计算所述缺失值对应的补全值；补全单元，用于将所述补全值写入所述缺失值对应的位置，并将写入补全值后的数据类别统计表中的数据作为补全原始医疗数据。

可选的，在本发明第二方面的第四种实现方式中，所述层次划分模块包括拼接单元，用于：采用预置逻辑加工方法，识别各所述类别数据表中数据的声明信息和明细数据；按照所述逻辑加工方法中的结构逻辑，分别对所述声明信息和所述明细数据进行拼接，对应得到声明数据宽表和明细数据宽表，其中，所述数据宽表包括所述声明数据宽表和所述逻辑数据宽表。

可选的，在本发明第二方面的第五种实现方式中，所述层次划分模块还包括层次划分单元，用于：确定预置特征维度信息中的多个特征维度以及各所述特征维度对应的特征优先级；识别所述数据宽表中数据的特征维度，以及根据所述特征优先级，确定所述数据宽表中各特征维度对应的数据的划分层次；按照所述划分层次，将所述数据宽表中各特征维度对应的数据进行划分。

本发明第三方面提供了一种医疗特征数据库构建设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述医疗特征数据库构建设备执行上述的医疗特征数据库构建方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的医疗特征数据库构建方法。

本发明提供的技术方案中，通过先对原始医疗数据进行规范化处理，提升原始医疗数据的质量，然后对原始医疗数据进行缺失值补全，并分类存储为多张类别数据表，接着通过预置逻辑加工方法，将各张类别数据表中的数据拼接成数据宽表以及按层次划分，后续直接从该划分层次后的数据宽表中提取基础特征，以构建基础医疗特征数据库，实现从多个维度进行展开，生成大量的基础特征，最后生成基础医疗特征数据库，并适用于各应用场景基础医疗特征数据库的快速标准化构建，节省时间并人力成本。

附图说明

图1为本发明实施例中医疗特征数据库构建方法的第一个实施例示意图；

图2为本发明实施例中医疗特征数据库构建方法的第二个实施例示意图；

图3为本发明实施例中医疗特征数据库构建方法的第三个实施例示意图；

图4为本发明实施例中医疗特征数据库构建装置的一个实施例示意图；

图5为本发明实施例中医疗特征数据库构建装置的另一个实施例示意图；

图6为本发明实施例中医疗特征数据库构建设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种医疗特征数据库构建方法、装置、设备及存储介质，获取原始医疗数据，并对原始医疗数据进行规范化处理，得到规范化原始医疗数据；对所述规范化原始医疗数据进行补全，得到补全原始医疗数据，并对补全原始医疗数据进行分类存储，得到多张类别数据表；采用预置逻辑加工方法，对各类别数据表中的数据进行拼接，得到多张数据宽表，并按照预置特征维度信息，分别对各数据宽表的数据进行层次划分；按照预置医疗场景，从层次划分后的各数据宽表中依次提取基础特征，并采用基础特征构建基础医疗特征数据库。本发明实现了标准化的医疗特征数据库的自动化构建，按照应用场景构建衍生特征库。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中医疗特征数据库构建方法的第一个实施例包括：

101、获取原始医疗数据，并对原始医疗数据进行规范化处理，得到规范化原始医疗数据；

可以理解的是，本发明的执行主体可以为医疗特征数据库构建装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

医疗云(Medical cloud)，是指在云计算、移动技术、多媒体、4G通信、大数据、以及物联网等新技术基础上，结合医疗技术，使用“云计算”来创建医疗健康服务云平台，实现了医疗资源的共享和医疗范围的扩大。因为云计算技术的运用于结合，医疗云提高医疗机构的效率，方便居民就医。像现在医院的预约挂号、电子病历、医保等都是云计算与医疗领域结合的产物，医疗云还具有数据安全、信息共享、动态扩展、布局全局的优势。

本实施例中，此处原始医疗数据指的是各大医院临床就诊的原始数据，可以包括文本、表格、图片等格式，此处不作具体限定。先对获取的原始医疗数据进行规范化处理，对原始医疗数据中的重复数据、错误数据、缺失数据按照预先设置的规则进行标准化处理，使得后续用于医疗特征数据库构建的原始医疗数据更加规整，提高原始医疗数据的质量。

具体的，可以制定数据质量检查规范：基于通用业务数据进行统计描述分析，从完整性、一致性、准确性、及时性等角度进行数据质量控制，形成数据质量检查规范。根据《数据质量检查规范》对字段缺失值、异常值等进行统计，并填充列表进行输出。

102、对规范化原始医疗数据进行补全，得到补全原始医疗数据，并对补全原始医疗数据进行分类存储，得到多张类别数据表；

本实施例中，规范化原始医疗数据中可能缺少部分的原始医疗数据，此处则需要对缺少的原始医疗数据进行补全，以用于后续构建完整的医疗特征数据库。首选，需要对规范化原始医疗数据进行检查，确定规范化原始医疗数据中的缺失内容，然后根据确定的缺失内容，按照预先设置的规则进行填充或者剔除，最后根据不同原始医疗数据的类别进行分类写入，得到多种类别数据表。

具体的，当进行缺失值检查时，包括三种出现缺失值的情况，第一种是获取原始医疗数据时解析率较低，第二种是原始医疗数据缺失部分数据，第三种是数据准备脚本开发中出现问题；可以包括三种处理方法，第一种是对缺失值进行过滤，即删除含有缺失值的记录，第二种是缺失值的填充，即根据同一条原始医疗数据的记录，按照一定的关系函数进行计算补全，第三种是将缺失值独立作为一个分组，采用预设值进行填充。

103、采用预置逻辑加工方法，对各类别数据表中的数据进行拼接，得到多张数据宽表，并按照预置特征维度信息，分别对各数据宽表的数据进行层次划分；

本实施例中，类别数据表中包括不同类别的原始医疗数据，通过多张detail维度的类别数据表统计原始医疗数据中的明细信息，并通过一张claim维度的类别数据表统计各项明细信息对应的声明信息。将多张detail维度的类别数据表顺序拼接到空白表格中的每一列中，空白表格中一列拼接一张detail维度的类别数据表中的数据，得到一张detail维度的数据宽表，然后将一张claim维度的类别数据表拼接到另一张空白表格中，即可得到一张claim维度的数据宽表，即本实施例中的数据宽表至少包括一张detail维度的数据宽表和一张claim维度的数据宽表。

本实施例中，按照实际业务需求预先设置特征维度信息，以多张数据宽表为基础，从多个维度展开，对数据宽表中存储的数据进行层次划分。其中，特征维度信息可以包括就诊号维度、人员编号ID维度、医院维度、参保单位维度、科室维度、医师维度、项目维度、城市维度等特征维度。同时需要设置特征维度信息中每个特征维度的优先级，以用于数据宽表中对应数据的层次划分，在后续构建医疗数据宽表时，按照优先级的高低选取对应的特征维度对应的数据主体。

104、按照预置医疗场景，从层次划分后的各数据宽表中依次提取基础特征，并采用基础特征构建基础医疗特征数据库。

本实施例中，在不同的医疗场景，可以规范设置不同的基础医疗特征数据库的结构，比如，在某一预置医疗场景中，对应基础医疗数据库的层次结构为：{1数据域：1.1修饰类型，1.11修饰词，1.111派生指标；1.2业务过程，1.21原子指标和1.22度量；1.3维度，1.31维度属性}，其中，数据域面向业务分析，将业务过程、修饰类型或者维度进行抽象集合，概况为多个行为事件，可以由声明数据宽表进行定义。在业务过程之下，可以定义原子指标和度量指标。按照基础医疗特征数据库的层次结构，分别将数据宽表中对应的诊号维度、人员编号ID维度、医院维度、参保单位维度、科室维度、医师维度、项目维度、城市维度等类型的基础特征存储为基础医疗特征数据库。

在一种可能的实现方式中，所述数据是医疗数据，如个人健康档案、处方、检查报告等数据。

在一种可能的实现方式中，所述自然语言文本为医疗文本，所述医疗文本可以是医疗电子记录(Electronic Healthcare Record)，电子化的个人健康记录，包括病历、心电图、医学影像等一系列具备保存备查价值的电子化记录。

信息查询成为很多场景中用户快速获取所需信息的渠道。例如在医疗领域中，可以基于人工智能模型从海量的电子病历中查询用户所需的病历信息，有助于为用户提供病历参考。

本发明实施例中，通过先对原始医疗数据进行规范化处理，提升原始医疗数据的质量，然后对原始医疗数据进行缺失值补全，并分类存储为多张类别数据表，接着通过预置逻辑加工方法，将各张类别数据表中的数据拼接成数据宽表以及按层次划分，后续直接从该划分层次后的数据宽表中提取基础特征，以构建基础医疗特征数据库，实现从多个维度进行展开，生成大量的基础特征，最后生成基础医疗特征数据库，并适用于各应用场景基础医疗特征数据库的快速标准化构建，节省时间并人力成本。

请参阅图2，本发明实施例中医疗特征数据库构建方法的第二个实施例包括：

201、获取原始医疗数据，并对原始医疗数据进行规范化处理，得到规范化原始医疗数据；

202、确定清洗后的数据类别统计表中的缺失值，并确定缺失值的数据类型；

203、根据缺失值的数据类型，通过预置业务逻辑公式，采用规范化原始医疗数据计算缺失值对应的补全值；

204、将补全值写入缺失值对应的位置，并将写入补全值后的数据类别统计表中的数据作为补全原始医疗数据；

本实施例中，数据类别统计表中的空白位置即为缺失值，根据其所属的数据类型，采用同一条原始医疗数据的其他类别数据，通过业务逻辑公式，补全缺失值，其中，将缺失值字段作为因变量，将没有缺失值字段作为自变量，使用决策树、随机森林、KNN(K-NearestNeighbor，K最邻近算法)、回归等预测算法进行缺失值的预测，用预测结果进行填充。比如：诊疗天数＝出院日期-住院日期。基本医疗保险范围内个人自付金额＝医疗费总额-基本医疗保险统筹基金支付金额-本次就诊政策范围内个人自付现金-补充医疗基金支付金额等。

具体的，在对补全原始医疗数据进行分类写入时，即对补全原始医疗数据进行加工，加工后得到两个维度的类别数据表，claim维度的类别数据表(声明表)和detail维度的类别数据表(明细表)，其中，claim维度的类别数据表可以包括命名为etl_fwa_claim_gui类别数据表，detail维度的类别数据表可以包括命名为etl_fwa_insured_population_gui、fwa_hosp_info、gui_hosp_category、etl_fwa_diagnose_gui、fwa_kc40k2、fwa_kc40k4、fwa_os_diag_rn、ftl_fwa_claim_detail_gui的类别数据表。

205、对补全原始医疗数据进行分类存储，得到多张类别数据表；

206、采用预置逻辑加工方法，识别各类别数据表中数据的声明信息和明细数据；

207、按照逻辑加工方法中的结构逻辑，分别对声明信息和明细数据进行拼接，对应得到声明数据宽表和明细数据宽表，其中，数据宽表包括声明数据宽表和逻辑数据宽表；

本实施例中，claim维度的类别数据表中存储有声明信息，而detail维度的多张类别数据表中存储有明细数据，且claim维度的类别数据表中的声明信息与detail维度的多张类别数据表中的明细数据一一对应，识别出声明信息和明细数据后，根据预先设置的逻辑加工方法的结构逻辑，确定空白表格中每一行数据拼接的声明信息和明细数据。其中，claim维度的类别数据表中的声明信息拼接得到声明数据宽表，detail维度的多张类别数据表中的明细数据拼接得到明细数据宽表，且根据声明信息和明细数据的对应关系，声明数据宽表和明细数据宽表对应的数据亦共享该对应关系。

具体的，比如detail维度的类别数据表包括投保人群、医院信息、医院类别、疾病诊断等类别数据表，记录索引字段和明细信息，claim维度的类别数据表可以包括一张记录各detail维度类别数据表中的索引字段的类别数据表，将claim维度的类别数据表和detail维度的类别数据表进行关联。在将类别数据表拼接到数据宽表后，声明数据宽表和明细数据宽表中的数据依旧通过索引字段一一对应。

208、确定预置特征维度信息中的多个特征维度以及各特征维度对应的特征优先级；

209、识别数据宽表中数据的特征维度，以及根据特征优先级，确定数据宽表中各特征维度对应的数据的划分层次；

210、按照划分层次，将数据宽表中各特征维度对应的数据进行划分；

本实施例中，以维度建模为理论基础，规范定义特征维度信息中各特征维度的特征优先级，并按照特征维度的优先级对数据宽表中的数据进行层次划分。

具体的，比如构建的医疗基础特征数据库以两张宽表为基础，从八个维度进行展开，包括诊号维度、人员编号ID维度、医院维度、参保单位维度、科室维度、医师维度、项目维度、城市维度；若维度特征信息中特征维度的优先级由高到低分别为：就诊号维度>人员编号ID维度>医院维度>参保单位维度>科室维度>医师维度>项目维度>城市维度，则根据该优先级对相对应的数据进行划分，依次作为数据域、业务过程、原子指标、派生指标、度量等层次。

211、按照预置医疗场景，从层次划分后的各数据宽表中依次提取基础特征，并采用基础特征构建基础医疗特征数据库。

本发明实施例中，根据预先制定的数据质量检查规范，可以从完整性、一致性、准确性、及时性四个角度进行数据规范化处理，提升初始医疗数据的质量，规范化存储初始医疗数据。同时可以通过《数据质量检查规范》对字段缺失值、异常值等进行统计并补全、修正，进一步提升初始医疗数据的质量，对于医院等级，医疗类别、收费项目等级等类别数据进行清洗，输出相应类别的类别数据表，通过前期对初始医疗数据的处理，提升后续自动化构建基础医疗特征数据库的准确度和规范化程度。

请参阅图3，本发明实施例中医疗特征数据库构建方法的第三个实施例包括：

301、获取原始医疗数据；

302、对原始医疗数据进行数据质量检测，并根据数据质量检测的结果，对原始医疗数据进行类别统计，得到数据类别统计表；

303、按照数据类别统计表对应的数据类别，分别对数据类别统计表中的数据进行数据清洗，并将清洗后的数据作为规范化原始医疗数据；

本实施例中，在对原始医疗数据进行数据质量检测时，主要进行重复值、数据倾斜和异常值的检测，并将检测结果汇集成数据类别统计表，最后对数据类别统计表中的原始医疗数据，针对医院等级，医疗类别、收费项目等级等类别数据进行清洗，得到相应类别。数据质量检测具体如下所示：

当进行重复值检查时，包括两种出现重复值的情况，第一种是关键字段出现相同的记录，比如主索引字段出现重复，在一张表中，一个用户应该只会有一条记录，如果某个用户出现了超过一条的记录，则为重复值；第二种是所有字段出现相同的记录，比如明细内容出现重复，在一张表中，同一纬度的一条记录对应多个用户，则为重复值；该方面的处理方法为直接删除重复值。

当进行数据倾斜检查时，包括两种出现数据倾斜的情况，第一种是原始医疗数据本身分布倾斜，第二种是数据准备脚本的问题；可以采用频数平息方法进行检查，在针对连续型字段时，首先采用等宽分箱方式进行离散化，然后计算各分箱的记录数分布；在针对离散型字段时，直接计算各类别的记录数分布，一般来说，如果某个字段存在90％以上的记录数，主要集中在某个特定类别或者特定区间，则这个字段就存在严重的数据倾斜问题。

当进行异常值检查时，包括两种出现异常值的情况，第一种是数据采集、生成或者传递过程中发生的错误，第二种是业务运营过程中出现的特殊情况；可以采用极值检测的方法进行异常值检查，检查明细字段是否超出合理的预设值域范围，具体通过最大值+最小值的方式，或者通过正态分布的方式或者通过箱线图分析的方式进行检查；对于异常值的处理，主要采取两种方式：剔除或者替换，其中，剔除是指直接将异常值的记录从数据集中删除掉，替换是指将异常值用一个非异常值进行替换，比如边界值。

304、对规范化原始医疗数据进行补全，得到补全原始医疗数据，并对补全原始医疗数据进行分类存储，得到多张类别数据表；

305、采用预置逻辑加工方法，对各类别数据表中的数据进行拼接，得到多张数据宽表，并按照预置特征维度信息，分别对各数据宽表的数据进行层次划分；

306、按照预置医疗场景，从层次划分后的各数据宽表中依次提取基础特征，并采用基础特征构建基础医疗特征数据库；

307、获取特征衍生需求信息，并根据特征衍生需求信息，对基础特征库中的基础特征进行特征类型分类，得到多个特征类型变量；

308、采用预置特征学习模型，对各特征类别变量进行特征转换，得到特征衍生需求信息对应的衍生特征，并采用衍生特征更新基础医疗特征数据库；

本实施例中，根据特征衍生需求信息，进一步对基础医疗特征数据库进行整理，基于特征衍生需求信息，对基础医疗特征数据库中的基础特征进行特征类型分类，可以划分成数值变量、分类变量、时间变量、名义变量、等级变量等类别，并分别对以上数据类型进行数值计算、逻辑运算、证据权重等操作，以对基础医疗特征数据库进行更新，得到衍生的基础医疗特征数据库，。

具体的，可以根据时间周期，明确医疗数据统计的时间范用或者时间点，比如最近30天、自然周、截至当日等；度量(原子指标)：也可以为原子指标和度量的含义相同，比如支付金额、就诊号、项目等；也可以为地理维度(城市、医院)、时间维度等；还可以为派生指标，派生指标同时包含时间周期、原子指标、地理纬度、时间维度等中多项的组合，比如派生指标指定患者(就诊号)在城市A的医院B，由科室C的医师D的相关数据。

本实施例中，在生成基础医疗特征数据库和衍生医疗特征数据库后，还可以进一步生成对应的数据库脚本，在有新的原始医疗数据存储时，直接采用对应的数据库脚本即可完成新的基础医疗特征数据库和衍生医疗特征数据库的构建，或者直接将新的原始医疗数据存储到对应的基础医疗特征数据库和衍生医疗特征数据库。具体的，可以采用Python、SQL或Spark语言开发数据库脚本。

本发明实施例中，基础特征医疗数据库以两张数据宽表为基础，从多个维度进行展开，并按照维度优先级进行排列；另外，还可以进一步基于基础医疗特征数据库进行特征分类，分别对不同数据类型进行数值计算、逻辑运算、权重计算等操作以构建不同业务场景下的衍生特征库；最后还基于不同的医疗业务场景，构建基础医疗特征数据库及衍生医疗特征数据库的自动化构建脚本。

上面对本发明实施例中医疗特征数据库构建方法进行了描述，下面对本发明实施例中医疗特征数据库构建装置进行描述，请参阅图4，本发明实施例中医疗特征数据库构建装置一个实施例包括：

规范化处理模块401，用于获取原始医疗数据，并对所述原始医疗数据进行规范化处理，得到规范化原始医疗数据；

补全存储模块402，用于对所述规范化原始医疗数据进行补全，得到补全原始医疗数据，并对所述补全原始医疗数据进行分类存储，得到多张类别数据表；

层次划分模块403，用于采用预置逻辑加工方法，对各所述类别数据表中的数据进行拼接，得到多张数据宽表，并按照预置特征维度信息，分别对各所述数据宽表的数据进行层次划分；

第一构建模块404，用于按照预置医疗场景，从层次划分后的各数据宽表中依次提取基础特征，并采用所述基础特征构建基础医疗特征数据库。

请参阅图5，本发明实施例中医疗特征数据库构建装置的另一个实施例包括：

具体的，所述医疗特征数据库构建装置还包括第二构建模块405，用于：

获取特征衍生需求信息，并根据所述特征衍生需求信息，对所述基础特征库中的基础特征进行特征类型分类，得到多个特征类型变量；

采用预置特征学习模型，对各所述特征类别变量进行特征转换，得到特征衍生需求信息对应的衍生特征，并采用所述衍生特征更新所述基础医疗特征数据库。

具体的，所述规范化处理模块401包括：

检测单元4011，用于对所述原始医疗数据进行数据质量检测，并根据数据质量检测的结果，对所述原始医疗数据进行类别统计，得到数据类别统计表；

清洗单元4012，用于按照所述数据类别统计表对应的数据类别，分别对所述数据类别统计表中的数据进行数据清洗，并将清洗后的数据作为规范化原始医疗数据。

具体的，所述补全存储模块402包括：

确定单元4021，用于确定清洗后的数据类别统计表中的缺失值，并确定所述缺失值的数据类型；

计算单元4022，用于根据所述缺失值的数据类型，通过预置业务逻辑公式，采用所述规范化原始医疗数据计算所述缺失值对应的补全值；

补全单元4023，用于将所述补全值写入所述缺失值对应的位置，并将写入补全值后的数据类别统计表中的数据作为补全原始医疗数据。

具体的，所述层次划分模块403包括拼接单元4031，用于：

采用预置逻辑加工方法，识别各所述类别数据表中数据的声明信息和明细数据；

按照所述逻辑加工方法中的结构逻辑，分别对所述声明信息和所述明细数据进行拼接，对应得到声明数据宽表和明细数据宽表，其中，所述数据宽表包括所述声明数据宽表和所述逻辑数据宽表。

具体的，所述层次划分模块403还包括层次划分单元4032，用于：

确定预置特征维度信息中的多个特征维度以及各所述特征维度对应的特征优先级；

识别所述数据宽表中数据的特征维度，以及根据所述特征优先级，确定所述数据宽表中各特征维度对应的数据的划分层次；

按照所述划分层次，将所述数据宽表中各特征维度对应的数据进行划分。

本发明实施例中，根据预先制定的数据质量检查规范，可以从完整性、一致性、准确性、及时性四个角度进行数据规范化处理，提升初始医疗数据的质量，规范化存储初始医疗数据。同时可以通过《数据质量检查规范》对字段缺失值、异常值等进行统计并补全、修正，进一步提升初始医疗数据的质量，对于医院等级，医疗类别、收费项目等级等类别数据进行清洗，输出相应类别的类别数据表，通过前期对初始医疗数据的处理，提升后续自动化构建基础医疗特征数据库的准确度和规范化程度；另外，基础特征医疗数据库以两张数据宽表为基础，从多个维度进行展开，并按照维度优先级进行排列；另外，还可以进一步基于基础医疗特征数据库进行特征分类，分别对不同数据类型进行数值计算、逻辑运算、权重计算等操作以构建不同业务场景下的衍生特征库；最后还基于不同的医疗业务场景，构建基础医疗特征数据库及衍生医疗特征数据库的自动化构建脚本。

上面图4和图5从模块化功能实体的角度对本发明实施例中的医疗特征数据库构建装置进行详细描述，下面从硬件处理的角度对本发明实施例中医疗特征数据库构建设备进行详细描述。

图6是本发明实施例提供的一种医疗特征数据库构建设备的结构示意图，该医疗特征数据库构建设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)610(例如，一个或一个以上处理器)和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对医疗特征数据库构建设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在医疗特征数据库构建设备600上执行存储介质630中的一系列指令操作。

医疗特征数据库构建设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和/或，一个或一个以上操作系统631，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的医疗特征数据库构建设备结构并不构成对医疗特征数据库构建设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种医疗特征数据库构建设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述医疗特征数据库构建方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述医疗特征数据库构建方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种医疗特征数据库构建方法，其特征在于，所述医疗特征数据库构建方法包括：

获取原始医疗数据，并对所述原始医疗数据进行规范化处理，得到规范化原始医疗数据；

对所述规范化原始医疗数据进行补全，得到补全原始医疗数据，并对所述补全原始医疗数据进行分类存储，得到多张类别数据表；

采用预置逻辑加工方法，对各所述类别数据表中的数据进行拼接，得到多张数据宽表，并按照预置特征维度信息，分别对各所述数据宽表的数据进行层次划分；

按照预置医疗场景，从层次划分后的各数据宽表中依次提取基础特征，并采用所述基础特征构建基础医疗特征数据库。

2.根据权利要求1所述的医疗特征数据库构建方法，其特征在于，在所述按照预置医疗场景，从层次划分后的各数据宽表中依次提取基础特征，并采用所述基础特征构建基础医疗特征数据库之后，还包括：

3.根据权利要求1所述的医疗特征数据库构建方法，其特征在于，所述对所述原始医疗数据进行规范化处理，得到规范化原始医疗数据包括：

对所述原始医疗数据进行数据质量检测，并根据数据质量检测的结果，对所述原始医疗数据进行类别统计，得到数据类别统计表；

按照所述数据类别统计表对应的数据类别，分别对所述数据类别统计表中的数据进行数据清洗，并将清洗后的数据作为规范化原始医疗数据。

4.根据权利要求3所述的医疗特征数据库构建方法，其特征在于，所述对所述规范化原始医疗数据进行补全，得到补全原始医疗数据包括：

确定清洗后的数据类别统计表中的缺失值，并确定所述缺失值的数据类型；

根据所述缺失值的数据类型，通过预置业务逻辑公式，采用所述规范化原始医疗数据计算所述缺失值对应的补全值；

将所述补全值写入所述缺失值对应的位置，并将写入补全值后的数据类别统计表中的数据作为补全原始医疗数据。

5.根据权利要求1所述的医疗特征数据库构建方法，其特征在于，所述采用预置逻辑加工方法，对各所述类别数据表中的数据进行拼接，得到多张数据宽表包括：

6.根据权利要求1-5中任一项所述的医疗特征数据库构建方法，其特征在于，所述按照预置特征维度信息，分别对各所述数据宽表的数据进行层次划分包括：

7.一种医疗特征数据库构建装置，其特征在于，所述医疗特征数据库构建装置包括：

规范化处理模块，用于获取原始医疗数据，并对所述原始医疗数据进行规范化处理，得到规范化原始医疗数据；

补全存储模块，用于对所述规范化原始医疗数据进行补全，得到补全原始医疗数据，并对所述补全原始医疗数据进行分类存储，得到多张类别数据表；

层次划分模块，用于采用预置逻辑加工方法，对各所述类别数据表中的数据进行拼接，得到多张数据宽表，并按照预置特征维度信息，分别对各所述数据宽表的数据进行层次划分；

第一构建模块，用于按照预置医疗场景，从层次划分后的各数据宽表中依次提取基础特征，并采用所述基础特征构建基础医疗特征数据库。

8.根据权利要求7所述的医疗特征数据库构建装置，其特征在于，所述医疗特征数据库构建装置还包括第二构建模块，用于：

9.一种医疗特征数据库构建设备，其特征在于，所述医疗特征数据库构建设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述医疗特征数据库构建设备执行如权利要求1-6中任意一项所述的医疗特征数据库构建方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-6中任一项所述医疗特征数据库构建方法。