CN111339126B

CN111339126B - 医疗数据筛选方法、装置、计算机设备和存储介质

Info

Publication number: CN111339126B
Application number: CN202010123496.7A
Authority: CN
Inventors: 李何言; 王玉婷
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Ping An Medical and Healthcare Management Co Ltd
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2023-02-07
Anticipated expiration: 2040-02-27
Also published as: CN111339126A

Abstract

本申请涉及数据处理技术领域，提供了一种医疗数据筛选方法、装置、计算机设备和存储介质。方法包括：获取待筛选医疗数据，确定待筛选医疗数据中包含的病案，获取病历数据编码规则，校验各病案中的初始编码数据，将校验结果为不符合病历数据编码规则的病案标记为第一类编码可疑病案，获取未标记病案的诊断数据、以及诊断数据对应的初始诊断编码，对诊断数据进行编码预测，得到各未标记病案的预测诊断编码，标记初始诊断编码与预测诊断编码不同的第二类编码可疑病案，通过归集两类编码可疑病案，筛选出目标病案。通过二次校验的方式，扩大数据校验得信息覆盖范围，筛选出存在编码不符合规则以及编码错误的目标病案，实现了医疗数据的准确筛选。

Description

医疗数据筛选方法、装置、计算机设备和存储介质

技术领域

本申请涉及数据处理技术领域，特别是涉及一种医疗数据筛选方法、装置、计算机设备和存储介质。

背景技术

随着医疗制度改革的逐步推行，越来越多地方开始采用按病组(DRGs，DiagnosisRelated Groups，疾病诊断相关分类等)或病种进行管理的新型医保模式。相较于传统的按项目管理，这类管理方式可以更好地管理诊疗行为、降低医疗费用。但与此同时，也容易诱发一些在传统监管模式下监管者不会或较少关注的风险，因此需要对医疗数据进行审核。

由于医疗数据数量庞大，无法实现对所有医疗数据中每一个病案的审核，传统方式中，通过先筛选出部分可能存在问题的病案然后进行仔细审核，对于病案的筛选，一般是基于病案中的关键字段，通过对关键字段进行识别，确定关键字段对应内容是否存在问题，从而确定是否需要将该病案标记为需要进一步仔细审核目标病案。

但传统的基于关键字段的查找以及对应数据的判断来进行病案筛选的方式，对于病案的数据信息覆盖面较小，存在筛选结果不够准确的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高筛选结果准确性的医疗数据筛选方法、装置、计算机设备和存储介质。

一种医疗数据筛选方法，方法包括：

获取待筛选医疗数据，确定待筛选医疗数据中包含的病案；

获取病历数据编码规则，校验各病案中的初始编码数据，将校验结果为不符合病历数据编码规则的病案标记为第一类编码可疑病案；

获取未标记病案的诊断数据、以及诊断数据对应的初始诊断编码，对诊断数据进行编码预测，得到各未标记病案的预测诊断编码；

标记初始诊断编码与预测诊断编码不同的第二类编码可疑病案；

通过归集第一类编码可疑病案以及第二类编码可疑病案，筛选出目标病案。

在其中一个实施例中，对诊断数据进行编码预测，得到各未标记病案的预测诊断编码包括：

识别各未标记病案的诊断数据中的关键字；

根据关键字，将诊断数据由非结构化数据转换为半结构化数据；

根据预设的关键字优先级，标记半结构化数据中的主要特征和次要特征；

根据主要特征和次要特征，对半结构化数据进行编码预测处理，得到预测诊断编码。

在其中一个实施例中，标记初始诊断编码与预测诊断编码不同的第二类编码可疑病案包括：

获取预测诊断编码对应的置信概率；

筛选置信概率满足预设概率要求的预测诊断编码，确定待标记病案；

当待标记病案的预测诊断编码数据与初始编码数据不相同时，将待标记病案标记为第二类编码可疑病案。

在其中一个实施例中，在获取病历数据编码规则，校验病案中的初始编码数据，将校验结果为不符合病历数据编码规则的病案标记为第一类编码可疑病案之前，还包括：

获取校验流程；

当校验流程为编码校验流程时，进入获取病历数据编码规则，校验病案中的初始编码数据，将校验结果为不符合病历数据编码规则的病案标记为第一类编码可疑病案的步骤。

在其中一个实施例中，在获取校验流程之后，还包括：

当校验流程为服务不足医疗行为检测流程时，获取未标记病案的病种信息和诊疗项目数据；

查找病种信息对应的必需诊疗项目；

确定诊疗项目数据中与必需诊疗项目相同的项目数量，并计算相同的项目数量占必需诊疗项目数量的比值；

筛选出比值不满足预设比值阈值要求的目标病案。

在其中一个实施例中，在获取校验流程之后，还包括：

当校验流程为分解住院医疗行为检测流程时，获取未标记病案的就诊时间、就诊科室编码以及初始诊断编码；

根据就诊科室编码，确定病案对应患者在相同就诊科室的历史住院病案和历史住院时间；

查找与历史住院病案对应的排除疾病编码集合；

筛选出历史住院时间与就诊时间的时间间隔小于预设时间要求的目标病案，以及初始诊断编码不在排除疾病编码集合的目标病案。

在其中一个实施例中，在获取校验流程之后，还包括：

当校验流程为离群病案识别流程时，获取未标记病案的诊疗项目数据；

对诊疗项目数据进行数据清洗和缺失值处理，得到标准化的诊疗项目数据；

根据各个未标记病案中标准化的诊疗项目数据的相似度，将诊疗项目数据进行聚类合并；

识别聚类合并处理后的诊疗项目数据中的异常点，筛选出存在异常点的目标病案。

一种医疗数据筛选装置，装置包括：

数据获取模块，用于获取待筛选医疗数据，确定待筛选医疗数据中包含的病案；

第一标记模块，用于获取病历数据编码规则，校验病案中的初始编码数据，将校验结果为不符合病历数据编码规则的病案标记为第一类编码可疑病案；

编码预测模块，用于获取未标记病案的诊断数据、以及诊断数据对应的初始诊断编码，对诊断数据进行编码预测，得到各未标记病案的预测诊断编码；

第二标记模块，用于标记初始诊断编码与预测诊断编码不同的第二类编码可疑病案；

目标病案筛选模块，用于通过归集第一类编码可疑病案以及第二类编码可疑病案，筛选出目标病案。

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现以下步骤：

获取待筛选医疗数据，确定待筛选医疗数据中包含的病案；

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待筛选医疗数据，确定待筛选医疗数据中包含的病案；

上述医疗数据筛选方法、装置、计算机设备和存储介质，通过确定待筛选医疗数据中包含的各病案，一方面，通过病历数据编码规则，对各病案的初始编码数据进行校验，确定不符合病历数据编码规则的病案，实现了对病案编码信息的全面校验，另一方面，对于未被标记的病案，进一步对其诊断数据进行编码预测，将预测得到的编码与初始的编码进行对比，确定诊断数据编码错误的病案。通过二次校验，扩大数据校验得信息覆盖范围，筛选出存在编码不符合规则以及编码错误的目标病案，实现了医疗数据的准确筛选。

附图说明

图1为一个实施例中医疗数据筛选方法的应用场景图；

图2为一个实施例中医疗数据筛选方法的流程示意图；

图3为一个实施例中医疗数据筛选方法中编码预测过程的流程示意图；

图4为一个实施例中医疗数据筛选方法中编码预测处理的流程示意图；

图5为一个实施例中医疗数据筛选方法中服务不足医疗行为检测流程的流程示意图；

图6为一个实施例中医疗数据筛选方法中分解住院医疗行为检测流程的流程示意图；

图7为一个实施例中医疗数据筛选装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的医疗数据筛选方法，可以应用于如图1所示的应用环境中。其中，终端102与服务器104通过网络进行通信。用户通过终端102确定待筛选的医疗数据和校验流程配置数据，并发送至服务器104，服务器104接收待筛选医疗数据，获取待筛选医疗数据，确定待筛选医疗数据中包含的病案，获取病历数据编码规则，校验各病案中的初始编码数据，将校验结果为不符合病历数据编码规则的病案标记为第一类编码可疑病案，获取未标记病案的诊断数据、以及诊断数据对应的初始诊断编码，对诊断数据进行编码预测，得到各未标记病案的预测诊断编码，标记初始诊断编码与预测诊断编码不同的第二类编码可疑病案，通过归集第一类编码可疑病案以及第二类编码可疑病案，筛选出目标病案，最后将筛选出的病案反馈至终端102，以使用户通过终端102对筛选出的目标病案进行审核。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种医疗数据筛选方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤S210至S230。

S210，获取待筛选医疗数据，确定待筛选医疗数据中包含的病案。

待筛选的医疗数据是指在新型的医疗保险模式下，需要进行监管的医疗数据。待筛选的医疗数据可以由审核人员通过终端进行选择，并发送至服务器。例如审核人员可以按时间范围设定医疗数据的批次，并按批次确定待筛选的医疗数据。医疗数据包括每个医疗机构的每一个患者的所有医疗数据信息。病案是指每一个患者的每一次诊疗记录。每个病案具有对应的病案标识，根据病案标识，确定待筛选医疗数据中包含的病案

在一个实施例中，医疗数据是以病案为单位进行划分的。每个病案中的病案数据包括病案首页数据、诊断数据和收费明细数据。

其中，病案首页数据为结构化数据，其字段包括但不限于住院流水号、医院病案号、医院编码、病人医保卡号、性别、出生日期、年龄、住院日期、出院日期、入院科别、入院病室、转科科别、转科病室、出院科别、出院病室、出院小结数据中的主要诊断编码、主要出院诊断名称、其他出院诊断编码、其他出院诊断名称、手术编码、手术名称。

诊断数据可以是出院小结数据，出院小结数据多为非结构化自由文本，其中信息包含且不限于病人主诉、入院诊断、出院诊断、住院经过、查体、主要检查结果、治疗情况和治疗结果。

项目明细数据多为结构化数据，包括但不限于住院流水号、项目编号、项目名称、项目规格、项目单位、项目单价、项目数量、发票项目编号即项目类别、是否医保项目和个人自付比例等。

S220，获取病历数据编码规则，校验各病案中的初始编码数据，将校验结果为不符合病历数据编码规则的病案标记为第一类编码可疑病案。

在一个实施例中，编码校验流程基于规则的编码校验模块来实现，该模块通过病历数据编码规则判断编码是否存在错误。病历数据编码规则事先由专业病案人员归纳，并整理成库。通过病历数据编码规则校验各病案中的初始编码数据，将筛出第一批编码不符合要求的病案，即为第一类编码可疑病案。

在其中一个实施例中，病历数据编码规则可以是编码违规规则，编码违规规则的大类包括但不限于：一般项目分类错误、疾病主诊断选择错误、疾病编码冲突、疾病少编码、疾病合并编码分离、疾病与科室冲突、疾病与年龄冲突、疾病与性别冲突、疾病其他错误、主手术/操作选择错误、手术编码冲突、手术合并编码分离、手术与科室冲突、手术与年龄冲突、手术与性别冲突、手术少编码、手术过度编码、手术未特指错误、疾病主诊断部位未特指、疾病主诊断与肿瘤形态编码冲突、主诊断与主手术/操作冲突、非国标编码和主诊断与出院小结冲突。

S230，获取未标记病案的诊断数据、以及诊断数据对应的初始诊断编码，对诊断数据进行编码预测，得到各未标记病案的预测诊断编码。

未标记病案是指没有被标记为第一类编码可疑病案，即未发现存在编码不符合规则情况的病案。诊断数据包含且不限于病人主诉、入院诊断、出院诊断、住院经过、查体、主要检查结果、治疗情况和治疗结果，其中诊断数据多为非结构化自由文本。编码预测通过编码预测模型来实现。编码预测模型的训练过程为：将样本诊断数据中的各个字段作为特征，样本诊断数据的编码作为标签，通过大量的历史数据对编码预测模型进行训练。其中，对编码预测模型进行训练之前，需要对样本诊断数据的进行预处理，即利用深度学习的词嵌入(word embedding)对非结构化的病案数据进行处理，具体地，通过大量文本的训练，将非结构化的病案数据中的文本映射到多维实数长向量，且保留文本寓意。编码预测模型包括但不限于CNN(Convolutional Neural Network,卷积神经网络)模型、LSTM(Long Short-TermMemory,长短期记忆网络)模型以及其他神经网络模型。其中，深度学习的词嵌入模型包括但不限于Word2Vec模型和GloVe模型。

S240，标记初始诊断编码与预测诊断编码不同的第二类编码可疑病案。

初始诊断编码是病案中的信息，预测诊断编码是对诊断数据进而二次分析后，得到的编码信息，对比初始诊断编码与预测诊断编码，当初始诊断编码与预测诊断编码相同时，即为诊断数据编码无误病案，当初始诊断编码与预测诊断编码相同时，即为诊断数据编码可疑病案，即第二类编码可疑病案。

S250，通过归集第一类编码可疑病案以及第二类编码可疑病案，筛选出目标病案。

归集不符合编码规则的第一类编码可疑病案以及编码错误的第二类编码可疑病案，得到各病案中存在编码问题的目标病案。

上述医疗数据筛选方法，通过确定待筛选医疗数据中包含的各病案，一方面，通过病历数据编码规则，对各病案的初始编码数据进行校验，确定不符合病历数据编码规则的病案，实现了对病案编码信息的全面校验，另一方面，对于未被标记的病案，进一步对其诊断数据进行编码预测，将预测得到的编码与初始的编码进行对比，确定诊断数据编码错误的病案。通过二次校验，扩大数据校验得信息覆盖范围，筛选出存在编码不符合规则以及编码错误的目标病案，实现了医疗数据的准确筛选。

在其中一个实施例中，如图3所示，对诊断数据进行编码预测，得到各未标记病案的预测诊断编码，即编码预测过程包括步骤S310至S340。

S310，识别各未标记病案的诊断数据中的关键字。

S320，根据关键字，将诊断数据由非结构化数据转换为半结构化数据。

S330，根据预设的关键字优先级，标记半结构化数据中的主要特征和次要特征。

S340，根据主要特征和次要特征，对半结构化数据进行编码预测处理，得到预测诊断编码。

具体来说，如图4所示，首先，通过识别“入院情况”、“专科情况”、“入院诊断”、“出院诊断”、“主要治疗经过”、“诊疗经过”、“查体”、“检查结果”和“出院医嘱”等关键字，非结构化的出院小结可以转换为半结构化的出院小结。半结构化的出院小结包括且不限于以下字段：主诉、入院诊断、出院诊断、诊疗经过、查体、检查结果、出院医嘱。编码预测通过编码预测模型来实现。在使用编码预测模型进行编码预测的具体实施过程中，将半结构化的出院小结数据输入至编码预测模型之后，模型会以出院小结数据中的“出院诊断”数据作为主要特征，以出院小结数据中的其他字段、病案首页数据、项目明细数据和住院收费数据等作为次要特征，对该病案的编码进行预测，编码预测模型输出的结果包括预测诊断编码。

获取预测诊断编码对应的置信概率；

编码预测模型输出的结果还包括该预测诊断编码的置信概率。其中该病案的编码包括主要诊断编码和其他诊断编码。预测的置信概率越大代表预测的结果越为可靠，反之亦然。预设一个预测置信概率的阈值(例如50％或其他阈值，在此不作限定)，置信概率大于等于这个数值的预测将被保留，置信概率小于这个数值的预测将被剔除。基于保留下来的预测编码，将预测得到主要诊断编码与实际的初始诊断编码相比较，确定是否存在诊断数据编码不符的情况。

在其他实施例中，还可以基于保留下来的预测编码，根据实际业务得到该病案在病种或病组支付模式下的预测支付金额，通过将预测支付金额和该病案的实际支付金额比较，判断该病案是否因编码错误导致支付金额发生变化，即因编码错误存在不合理支付风险，存在不合理支付的病案即为编码错误的病案。

在其中一个实施例中，在获取病历数据编码规则，校验病案中的初始编码数据，将校验结果为不符合病历数据编码规则的病案标记为第一类编码可疑病案之前，还包括：获取校验流程。

在实施例中，校验流程包括编码校验流程、医疗行为检测流程以及离群病案识别流程中至少一项。

其中，编码校验流程是指通过校验病历数据中的编码信息，确定该病历数据的对应的病案是否为编码可疑的目标病案。医疗行为检测流程是指通过检测病历数据中的医疗行为，例如检测诊疗项目数据是否包含必需诊疗项目，每一次诊断治疗是否解决了必要问题等，从而确定该病案是否为医疗行为可疑的目标病案。其中，医疗行为检测流程又分为分解住院医疗行为检测流程、服务不足医疗行为检测流程。离群病案识别流程是指通过对病案进行聚类分析，根据聚类类别中是否存在异常点，来确定是否存在离群的目标病案。

在一个实施例中，校验流程可以由用户通过终端进行配置，并发送至服务器。校验流程包括编码校验流程、医疗行为检测流程以及离群病案识别流程中的一项或多项校验流程。

在其中一个实施例中，校验流程可以包括编码校验流程、医疗行为检测流程以及离群病案识别流程中至少两项，当前项校验流程的数据处理对象为上一校验流程中未被筛选的病案。

其中，各项校验流程可作为独立的模块，也可作为串联的模块对可疑的目标病案进行筛选，串联的顺序和模块选择都可自主配置。当校验流程包括多项时，将上一项校验流程中未筛选为目标病案作为下一项校验流程的数据处理对象，进行进一步地分析处理，提高对医疗数据中的目标病案筛选的准确度。不同的校验流程对应有不同的校验要求，当待校验数据符合校验要求时，在该校验流程中，该病历数据为正常病案，当待校验数据不符合校验要求时，该病历数据为可疑的目标病案，即需要进行进一步审核处理的对象。

在其中一个实施例中，服务器还可以将目标病案反馈至终端，以使终端的审核人员对可疑的目标病案进行审核，从而提高审核效率。通过校验流程配置出包括编码校验流程、医疗行为检测流程以及离群病案识别流程中的一项或多项的校验流程，依次进行校验，确定出与校验未通过数据对应的目标病案，通过合理有效地配置校验流程，对医疗数据中的病案进行针对性的筛选，避免在审核过程中在无问题病案上浪费时间太多，且根据配置的校验流程，可以基于校验未通过数据明确病案中的风险点，准确筛选出医疗数据中的目标病案，从而通过目标病案的有效筛选实现对医疗数据的高效审核。

在一个实施例中，如图5所示，在获取校验流程之后，还包括服务不足医疗行为检测流程，具体包括步骤S510至S540。

S510，当校验流程为服务不足医疗行为检测流程时，获取未标记病案的病种信息和诊疗项目数据。

S520，查找病种信息对应的必需诊疗项目。

S530，确定诊疗项目数据中与必需诊疗项目相同的项目数量，并计算相同的项目数量占必需诊疗项目数量的比值。

S540，筛选出比值不满足预设比值阈值要求的目标病案。

其中，服务不足行为识别借助病种服务包进行筛查。病种服务包为预先梳理出的针对不同疾病可能会用到的诊疗项目。这些项目类别包括但不限于检查检验、药品、治疗等；项目的属性为必需和非必需。通过该病案的病种所对应的服务包和该病案实际诊疗项目进行比对，可以对预测出的编码的合理性进行校验。

项目比对的具体逻辑为：假设病种所对应病种服务包的必需项目有N个，这些必需项目存在于实际诊疗项目中的有n个，则计算必需项目使用率U＝n/N。预设一个必需项目使用率的合格阈值，例如60％，则若U>＝60％，该病案无服务不足风险；若U<60％,该病案存在服务不足风险，为医疗行为可疑的目标病案，需要经办人员进一步核实。

在一个实施例中，如图6所示，在获取校验流程之后，还包括分解住院医疗行为检测流程，具体包括步骤S610至S640。

S610，当校验流程为分解住院医疗行为检测流程时，获取未标记病案的就诊时间、就诊科室编码以及初始诊断编码。

S620，根据就诊科室编码，确定病案对应患者在相同就诊科室的历史住院病案和历史住院时间。

S630，查找与历史住院病案对应的排除疾病编码集合。

S640，筛选出历史住院时间与就诊时间的时间间隔小于预设时间要求的目标病案，以及初始诊断编码不在排除疾病编码集合的目标病案。

在一个具体的实施例中，分解住院的验证需要根据预先制定两个参数：住院间隔D，排除疾病编码集合S。分解住院规则设定如下：相同医院相同科室下同一个患者两次住院的间隔小于D，且主要出院诊断对应的编码不在排除疾病编码集合S中。相同医院相同科室具有相同的就诊科室编码，根据就诊科室编码，可以获取到病案对应患者在相同医院相同科室的历史住院病案和历史住院时间。只有当历史住院时间与当前病案时间的时间间隔大于预设时间要求，且出院小结数据中的主要诊断编码在排除疾病编码集合这两个条件时，该病案在该校验流程中为正常病案。即历史住院时间与就诊时间的时间间隔小于预设时间要求的病案，为存在分解住院医疗行为的目标病案，初始诊断编码不在排除疾病编码集合的病案，也为存在分解住院医疗行为的目标病案。

在其中一个实施例中，在获取校验流程之后，还包括：当校验流程为离群病案识别流程时，获取未标记病案的诊疗项目数据。对诊疗项目数据进行数据清洗和缺失值处理，得到标准化的诊疗项目数据。根据各个未标记病案中标准化的诊疗项目数据的相似度，将诊疗项目数据进行聚类合并。识别聚类合并处理后的诊疗项目数据中的异常点，筛选出存在异常点的目标病案。

新型医保支付模式下的病组或病种实际上就是通过既定规则将病案分为组内临床行为、医疗费用同质的若干组。因此通过异常值检验的办法，就可以将同病组/病种下的离群病案筛选出来。异常值检验需要用到的输入包含但不限于收费项目数据和病案首页数据。首先对收费项目数据进行清洗，对诊疗项目数据中的缺失值进行处理，对类别型字段和连续值字段进行离散化处理，对连续型变量进行标准化处理，并根据诊疗项目相似度将诊疗项目进行合并，最后进行异常值识别。其中，异常值识别方法包含但不限于以下几种方式来实现：第一种是基于k-means的近邻分析；第二种中基于PCA(principal componentsanalysis，主成分分析技术)或者SOM(Self-Organizing Map，自组织映射)等方法的投影降维后进行异常点识别；第三种是基于孤立森林(Isolation Forest)的异常点识别法。

应该理解的是，虽然图2-3、5-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3、5-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种医疗数据筛选装置，包括：数据获取模块710、第一标记模块720、编码预测模块730、第二标记模块740以及目标病案筛选模块750，其中：

数据获取模块710，用于获取待筛选医疗数据，确定待筛选医疗数据中包含的病案；

第一标记模块720，用于获取病历数据编码规则，校验病案中的初始编码数据，将校验结果为不符合病历数据编码规则的病案标记为第一类编码可疑病案；

编码预测模块730，用于获取未标记病案的诊断数据、以及诊断数据对应的初始诊断编码，对诊断数据进行编码预测，得到各未标记病案的预测诊断编码；

第二标记模块740，用于标记初始诊断编码与预测诊断编码不同的第二类编码可疑病案；

目标病案筛选模块750，用于通过归集第一类编码可疑病案以及第二类编码可疑病案，筛选出目标病案。

在一个实施例中，编码预测模块还用于识别各未标记病案的诊断数据中的关键字；根据关键字，将诊断数据由非结构化数据转换为半结构化数据；根据预设的关键字优先级，标记半结构化数据中的主要特征和次要特征；根据主要特征和次要特征，对半结构化数据进行编码预测处理，得到预测诊断编码。

在一个实施例中，第二标记模块还用于获取预测诊断编码对应的置信概率；筛选置信概率满足预设概率要求的预测诊断编码，确定待标记病案；当待标记病案的预测诊断编码数据与初始编码数据不相同时，将待标记病案标记为第二类编码可疑病案。

在一个实施例中，医疗数据筛选装置还包括：校验流程获取模块，校验流程获取模块用于获取校验流程；当校验流程为编码校验流程时，进入获取病历数据编码规则，校验病案中的初始编码数据，将校验结果为不符合病历数据编码规则的病案标记为第一类编码可疑病案的步骤。

在一个实施例中，医疗数据筛选装置还包括：服务不足医疗行为检测模块，服务不足医疗行为检测模块用于当校验流程为服务不足医疗行为检测流程时，获取未标记病案的病种信息和诊疗项目数据；查找病种信息对应的必需诊疗项目；确定诊疗项目数据中与必需诊疗项目相同的项目数量，并计算相同的项目数量占必需诊疗项目数量的比值；筛选出比值不满足预设比值阈值要求的目标病案。

在一个实施例中，医疗数据筛选装置还包括：分解住院医疗行为检测模块，分解住院医疗行为检测模块用于当校验流程为分解住院医疗行为检测流程时，获取未标记病案的就诊时间、就诊科室编码以及初始诊断编码；根据就诊科室编码，确定病案对应患者在相同就诊科室的历史住院病案和历史住院时间；查找与历史住院病案对应的排除疾病编码集合；筛选出历史住院时间与就诊时间的时间间隔小于预设时间要求的目标病案，以及初始诊断编码不在排除疾病编码集合的目标病案。

在一个实施例中，医疗数据筛选装置还包括：离群病案识别模块，离群病案识别模块用于当校验流程为离群病案识别流程时，获取未标记病案的诊疗项目数据；对诊疗项目数据进行数据清洗和缺失值处理，得到标准化的诊疗项目数据；根据各个未标记病案中标准化的诊疗项目数据的相似度，将诊疗项目数据进行聚类合并；识别聚类合并处理后的诊疗项目数据中的异常点，筛选出存在异常点的目标病案。

上述医疗数据筛选装置，通过确定待筛选医疗数据中包含的各病案，一方面，通过病历数据编码规则，对各病案的初始编码数据进行校验，确定不符合病历数据编码规则的病案，实现了对病案编码信息的全面校验，另一方面，对于未被标记的病案，进一步对其诊断数据进行编码预测，将预测得到的编码与初始的编码进行对比，确定诊断数据编码错误的病案。通过二次校验，扩大数据校验得信息覆盖范围，筛选出存在编码不符合规则以及编码错误的目标病案，实现了医疗数据的准确筛选。

关于医疗数据筛选装置的具体限定可以参见上文中对于医疗数据筛选方法的限定，在此不再赘述。上述医疗数据筛选装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储医疗数据筛选数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种医疗数据筛选方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待筛选医疗数据，确定待筛选医疗数据中包含的病案；

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

识别各未标记病案的诊断数据中的关键字；

获取预测诊断编码对应的置信概率；

获取校验流程；

查找病种信息对应的必需诊疗项目；

筛选出比值不满足预设比值阈值要求的目标病案。

查找与历史住院病案对应的排除疾病编码集合；

上述用于实现医疗数据筛选方法的计算机设备，通过确定待筛选医疗数据中包含的各病案，一方面，通过病历数据编码规则，对各病案的初始编码数据进行校验，确定不符合病历数据编码规则的病案，实现了对病案编码信息的全面校验，另一方面，对于未被标记的病案，进一步对其诊断数据进行编码预测，将预测得到的编码与初始的编码进行对比，确定诊断数据编码错误的病案。通过二次校验，扩大数据校验得信息覆盖范围，筛选出存在编码不符合规则以及编码错误的目标病案，实现了医疗数据的准确筛选。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待筛选医疗数据，确定待筛选医疗数据中包含的病案；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

识别各未标记病案的诊断数据中的关键字；

获取预测诊断编码对应的置信概率；

获取校验流程；

查找病种信息对应的必需诊疗项目；

筛选出比值不满足预设比值阈值要求的目标病案。

查找与历史住院病案对应的排除疾病编码集合；

上述用于实现医疗数据筛选方法的计算机可读存储介质，通过确定待筛选医疗数据中包含的各病案，一方面，通过病历数据编码规则，对各病案的初始编码数据进行校验，确定不符合病历数据编码规则的病案，实现了对病案编码信息的全面校验，另一方面，对于未被标记的病案，进一步对其诊断数据进行编码预测，将预测得到的编码与初始的编码进行对比，确定诊断数据编码错误的病案。通过二次校验，扩大数据校验得信息覆盖范围，筛选出存在编码不符合规则以及编码错误的目标病案，实现了医疗数据的准确筛选。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种医疗数据筛选方法，其特征在于，所述方法包括：

获取待筛选医疗数据，确定所述待筛选医疗数据包含的病案；

获取病历数据编码规则，校验各所述病案中的初始编码数据，将校验结果为不符合所述病历数据编码规则的病案标记为第一类编码可疑病案；

获取未标记病案的诊断数据、以及所述诊断数据对应的初始诊断编码，识别各所述诊断数据中的关键字；

根据所述关键字，将所述诊断数据由非结构化数据转换为半结构化数据；

将半结构化数据输入至编码预测模型，所述编码预测模型根据预设的关键字优先级，标记所述半结构化数据中的主要特征和次要特征；

根据所述主要特征和所述次要特征，对所述半结构化数据进行编码预测处理，得到预测诊断编码；

标记所述初始诊断编码与所述预测诊断编码不同的第二类编码可疑病案；

通过归集所述第一类编码可疑病案以及所述第二类编码可疑病案，筛选出目标病案。

2.根据权利要求1所述的方法，其特征在于，所述标记所述初始诊断编码与所述预测诊断编码不同的第二类编码可疑病案包括：

获取所述预测诊断编码对应的置信概率；

筛选所述置信概率满足预设概率要求的预测诊断编码，确定待标记病案；

当所述待标记病案的预测诊断编码数据与初始编码数据不相同时，将所述待标记病案标记为第二类编码可疑病案。

3.根据权利要求1所述的方法，其特征在于，所述获取病历数据编码规则，校验所述病案中的初始编码数据，将校验结果为不符合所述病历数据编码规则的病案标记为第一类编码可疑病案包括：

获取校验流程；

当所述校验流程为编码校验流程时，进入所述获取病历数据编码规则，校验所述病案中的初始编码数据，将校验结果为不符合所述病历数据编码规则的病案标记为第一类编码可疑病案的步骤。

4.根据权利要求3所述的方法，其特征在于，在所述获取校验流程之后，还包括：

当所述校验流程为服务不足医疗行为检测流程时，获取未标记病案的病种信息和诊疗项目数据；

查找所述病种信息对应的必需诊疗项目；

确定所述诊疗项目数据中与所述必需诊疗项目相同的项目数量，并计算所述相同的项目数量占必需诊疗项目数量的比值；

筛选出所述比值不满足预设比值阈值要求的目标病案。

5.根据权利要求3所述的方法，其特征在于，在所述获取校验流程之后，还包括：

当所述校验流程为分解住院医疗行为检测流程时，获取未标记病案的就诊时间、就诊科室编码以及初始诊断编码；

根据所述就诊科室编码，确定所述病案对应患者在相同就诊科室的历史住院病案和历史住院时间；

查找与所述历史住院病案对应的排除疾病编码集合；

筛选出历史住院时间与就诊时间的时间间隔小于预设时间要求的目标病案，以及所述初始诊断编码不在所述排除疾病编码集合的目标病案。

6.根据权利要求3所述的方法，其特征在于，在所述获取校验流程之后，还包括：

当所述校验流程为离群病案识别流程时，获取未标记病案的诊疗项目数据；

对所述诊疗项目数据进行数据清洗和缺失值处理，得到标准化的诊疗项目数据；

根据各个所述未标记病案中标准化的诊疗项目数据的相似度，将诊疗项目数据进行聚类合并；

识别聚类合并处理后的诊疗项目数据中的异常点，筛选出存在所述异常点的目标病案。

7.一种医疗数据筛选装置，其特征在于，所述装置包括：

数据获取模块，用于获取待筛选医疗数据，确定所述待筛选医疗数据中包含的病案；

第一标记模块，用于获取病历数据编码规则，校验所述病案中的初始编码数据，将校验结果为不符合所述病历数据编码规则的病案标记为第一类编码可疑病案；

编码预测模块，用于获取未标记病案的诊断数据、以及所述诊断数据对应的初始诊断编码，识别各所述诊断数据中的关键字；根据所述关键字，将所述诊断数据由非结构化数据转换为半结构化数据；将半结构化数据输入至编码预测模型，所述编码预测模型根据预设的关键字优先级，标记所述半结构化数据中的主要特征和次要特征；根据所述主要特征和所述次要特征，对所述半结构化数据进行编码预测处理，得到预测诊断编码；

第二标记模块，用于标记所述初始诊断编码与所述预测诊断编码不同的第二类编码可疑病案；

目标病案筛选模块，用于通过归集所述第一类编码可疑病案以及所述第二类编码可疑病案，筛选出目标病案。

8.根据权利要求7所述的装置，其特征在于，所述第二标记模块，还用于获取所述预测诊断编码对应的置信概率；筛选所述置信概率满足预设概率要求的预测诊断编码，确定待标记病案；当所述待标记病案的预测诊断编码数据与初始编码数据不相同时，将所述待标记病案标记为第二类编码可疑病案。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。