CN108399182A

CN108399182A - 医疗数据清洗方法、电子装置及存储介质

Info

Publication number: CN108399182A
Application number: CN201711023112.9A
Authority: CN
Inventors: 常河; 韦邕; 徐亮; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2018-08-14
Anticipated expiration: 2037-10-27
Also published as: CN108399182B; WO2019080427A1

Abstract

本发明提供了一种医疗数据清洗方法，包括：搭建步骤：搭建指定种类的医疗词典；提取步骤：从待清洗的原始数据中提取待匹配项；匹配步骤：将所述待匹配项与所述医疗词典进行匹配，得到最终匹配结果；输出步骤：根据所述最终匹配结果输出清洗结果。本发明还提供一种电子装置及一种计算机可读存储介质。利用本发明可以使海量杂乱的医疗数据实现统一规范化，为后续医疗数据的使用提供有力可靠的支持。

Description

医疗数据清洗方法、电子装置及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种医疗数据清洗方法、电子装置及存储介质。

背景技术

随着互联网技术发展到当今的阶段，大数据时代的到来已经不可避免。海量繁杂的数据以电子化的方式被便捷地收集在各类数据库中，从而为各行各业提供查询、分析等功能强大的数据服务。例如在医疗系统中通常会存储海量的医疗数据，包括体检数据、诊疗数据、病史数据等。然而，这些医疗数据可能由于来源广泛、输入个性化和标准不统一等原因，通常具有海量、杂乱、多源、异构等特征，这样的医疗数据难以被可靠地运用。

发明内容

鉴于以上原因，有必要提供一种医疗数据清洗方法、电子装置及存储介质，可以使海量杂乱的医疗数据实现统一规范化，为后续医疗数据的使用提供有力可靠的支持。

为实现上述目的，本发明提供一种医疗数据清洗方法，该方法包括：搭建步骤：搭建指定种类的医疗词典；提取步骤：从待清洗的原始数据中提取待匹配项；匹配步骤：将所述待匹配项与所述医疗词典进行匹配，得到最终匹配结果；输出步骤：根据所述最终匹配结果输出清洗结果。

优选地，所述搭建步骤包括：通过对至少两份基础医疗文件进行处理，得到所述指定种类的医疗词典。

优选地，所述通过对至少两份基础医疗文件进行处理包括：以其中一份基础医疗文件作为基准文件对另一份基础医疗文件进行直接匹配，得到第一匹配失败结果；根据所述第一匹配失败结果分析匹配失败原因，根据所述匹配失败原因将所述第一匹配失败结果对所述基准文件进行正则匹配，得到第二匹配失败结果；根据预设的编辑距离将所述第二匹配失败结果对所述基准文件进行匹配，得到第三匹配失败结果；将所述第三匹配失败结果与基准文件中相应的数据进行合并，得到所述医疗词典。

可选地，所述匹配步骤包括：将所述待匹配项与所述医疗词典进行初次匹配，得到初次匹配结果；对所述医疗词典和待匹配项进行预处理；将经过预处理后的所述待匹配项与医疗词典进行二次匹配，得到二次匹配结果；将所述初次匹配结果与二次匹配结果整合为所述最终匹配结果。

可选地，所述初次匹配结果为所述待匹配项在初次匹配时匹配成功的结果，所述二次匹配结果为所述待匹配项在二次匹配时匹配成功的结果。

为实现上述目的，本发明还提供一种电子装置，该电子装置包括存储器和处理器，所述存储器中包括医疗数据清洗程序，该医疗数据清洗程序被所述处理器执行时实现如下步骤：搭建步骤：搭建指定种类的医疗词典；提取步骤：从待清洗的原始数据中提取待匹配项；匹配步骤：将所述待匹配项与所述医疗词典进行匹配，得到最终匹配结果；输出步骤：根据所述最终匹配结果输出清洗结果。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括医疗数据清洗程序，该医疗数据清洗程序被处理器执行时，实现如上所述的医疗数据清洗方法的任意步骤。

本发明提出的医疗数据清洗方法、电子装置及计算机可读存储介质，利用基础医疗文件搭建医疗词典，再利用所述医疗词典清洗海量杂乱的医疗数据，可以使不同数据来源、不同录入标准、不同类别的医疗数据实现统一规范化，为后续医疗数据的使用，例如通过医疗数据对医疗费用进行层次分析寻求费用驱动因素，准确地将疾病诊断与医疗费用关联，支持风险预测、精算定价、产品设计等提供可靠的支持。

附图说明

图1为本发明电子装置较佳实施例的运行环境示意图；

图2为图1中医疗数据清洗程序的程序模块图；

图3为医疗词典的一个示例图；

图4为本发明医疗数据清洗方法较佳实施例的流程图。

图5为搭建指定种类的医疗词典的方法流程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将参考若干具体实施例来描述本发明的原理和精神。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本领域的技术人员知道，本发明的实施方式可以实现为一种方法、装置、设备、系统或计算机程序产品。因此，本发明可以具体实现为完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施例，提出了一种医疗数据清洗方法、电子装置及存储介质。所述对医疗数据进行清洗，是指对在线获取或已存入数据库中的海量、多源、异构、杂乱的医疗数据，例如来自于多家医院的体检数据、病例数据等，进行系统化的清理，统一医疗数据中的各类信息，例如药品名称、检查项目、症状、疾病、身体部位等，消息数据中的歧义性，从而输出规范统一的医疗数据，以便后续应用。

参照图1所示，为本发明电子装置较佳实施例的运行环境示意图。

该电子装置1可以是服务器、便携式计算机、桌上型计算机等具有存储和运算功能的终端设备。

该电子装置1包括存储器11、处理器12、网络接口13及通信总线14。所述网络接口13可选地可以包括标准的有线接口和无线接口(如WI-FI接口)。通信总线14用于实现上述组件之间的连接通信。

存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中，所述可读存储介质可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。在另一些实施例中，所述可读存储介质也可以是所述电子装置1的外部存储器11，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。

在本实施例中，所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的医疗数据清洗程序10及基础医疗文件、数据库等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行医疗数据清洗程序10等。

图1仅示出了具有组件11-14以及医疗数据清洗程序10的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子装置1还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等。可选地，用户接口还可以包括标准的有线接口、无线接口。

可选地，该电子装置1还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)显示器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

可选地，该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，所述触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，所述触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。用户可以通过触摸所述触控区域启动医疗数据清洗程序10。

此外，该电子装置1的显示器的面积可以与所述触摸传感器的面积相同，也可以不同。可选地，将显示器与所述触摸传感器层叠设置，以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。

该电子装置1还可以包括射频(Radio Frequency，RF)电路、传感器和音频电路等等，在此不再赘述。

在图1所示的电子装置1较佳实施例的运行环境示意图中，包含可读存储介质的存储器11中可以包括操作系统、医疗数据清洗程序10、基础医疗文件及数据库。处理器12执行存储器11中存储的医疗数据清洗程序10时实现如下步骤：

搭建步骤：搭建指定种类的医疗词典；

提取步骤：从待清洗的原始数据中提取待匹配项；

匹配步骤：将所述待匹配项与所述医疗词典进行匹配，得到最终匹配结果；

输出步骤：根据所述最终匹配结果输出清洗结果。

其中，所述搭建步骤包括：

通过对至少两份基础医疗文件进行处理，得到所述指定种类的医疗词典。

具体而言，所述通过对至少两份基础医疗文件进行处理包括：

以其中一份基础医疗文件作为基准文件对另一份基础医疗文件进行直接匹配，得到第一匹配失败结果；

根据所述第一匹配失败结果分析匹配失败原因，根据所述匹配失败原因将所述第一匹配失败结果对所述基准文件进行正则匹配，得到第二匹配失败结果；

根据预设的编辑距离将所述第二匹配失败结果对所述基准文件进行匹配，得到第三匹配失败结果；

将所述第三匹配失败结果与基准文件中相应的数据进行合并，得到所述医疗词典。

所述匹配步骤包括：

将所述待匹配项与所述医疗词典进行初次匹配，得到初次匹配结果；

对所述医疗词典和待匹配项进行预处理；

将经过预处理后的所述待匹配项与医疗词典进行二次匹配，得到二次匹配结果；

将所述初次匹配结果与二次匹配结果整合为所述最终匹配结果。

具体原理请参照下述图2关于医疗数据清洗程序10的程序模块图及图4关于医疗数据清洗方法较佳实施例的流程图的介绍。

参照图2所示，为图1中医疗数据清洗程序10的程序模块图。在本实施例中，医疗数据清洗程序10被分割为多个模块，该多个模块被存储于存储器11中，并由处理器12执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。

所述医疗数据清洗程序10可以被分割为：搭建模块110、提取模块120、匹配模块130及输出模块140。

搭建模块110，用于搭建指定种类的医疗词典。所述医疗词典为收集了各类医学专用名词且所述医学专用名词被统一规范化的词典。所述医疗词典可以包括多种类型，例如针对检查项目的检查词典，针对药品信息的药品词典，针对疾病信息的疾病词典等，如图3所示。

在本实施例中，搭建模块110需要先获取与所述指定种类对应的至少两份基础医疗文件，所述基础医疗文件包含比较完备的医疗项目信息，例如可以以国家级、地方级的医疗文件作为所述基础医疗文件。然后，对所述至少两份基础医疗文件进行处理，最终得到所述指定种类的医疗词典。

具体而言，搭建模块110先以其中一份基础医疗文件作为基准文件对另一份基础医疗文件进行直接匹配，得到第一匹配失败结果。所述第一匹配失败结果为所述另一份基础医疗文件的各项目中，在基准文件中找不到匹配项的结果。

其次，搭建模块110根据所述第一匹配失败结果分析匹配失败原因，根据所述匹配失败原因将所述第一匹配失败结果对所述基准文件进行正则匹配，得到第二匹配失败结果。所述第二匹配失败结果为第一匹配失败结果的各项目中，在基准文件中找不到匹配项的结果。

然后，搭建模块110根据预设的编辑距离将所述第二匹配失败结果对所述基准文件进行匹配，得到第三匹配失败结果。所述编辑距离为两个项目在匹配时允许有差异的字符数。所述第三匹配失败结果为第二匹配失败结果的各项目中，在基准文件中找不到匹配项的结果。

最后，搭建模块110将所述第三匹配失败结果与基准文件中相应的数据进行合并，得到所述医疗词典。第三匹配失败结果即为基准文件中没有相应匹配项的结果，将第三匹配失败结果合并到基准文件中，可以进一步补充完善基准文件的数据全面性。

以下以两份基础医疗文件为例介绍搭建模块110搭建所述指定种类的医疗词典的过程，若有两份以上基础医疗文件，则依照同理，对所述两份以上的基础医疗文件进行两两处理，最终合并得到所述指定种类的医疗词典。

在本实施例中，搭建模块110根据用户的指令需搭建针对检查项目的检查词典。具体地：

搭建模块110获取与检查项目对应的两份基础医疗文件，分别为《2012年版全国医疗服务价格项目规范》(简称：《服务》)和《医疗机构临床检查项目目录(2013)》(简称：《检查》)。

搭建模块110以《服务》文件为基准文件，将《检查》文件中的检查项目名逐个与《服务》文件中的检查项目名进行匹配，以《检查》文件中与《服务》文件匹配不成功的检查项目名作为第一匹配失败结果。在本实施例中，所述匹配成功要求匹配的两个检查项目名须完全一致。

搭建模块110针对所述第一匹配失败结果，分析匹配失败的检查项目名之间的差异，从而汇总匹配失败原因。所述匹配失败原因例如包括检查项目名之间括号位置不一致((例如“血红蛋白测定(Hb)”和“血红蛋白(Hb)测定”)、对同一对象的说法不一致(例如“血液微丝蚴镜检”和“血液微丝蚴检查”)、有无“检查”字样(例如“过氧化物酶染色”和“过氧化物酶染色检查”)、符号或数字的全角或半角不一致等。

搭建模块110根据所汇总的匹配失败原因，制定正则规则，并使用所述正则规则对所述基础医疗文件进行处理后，再以《服务》文件为基准文件，将《检查》文件中的检查项目名逐个与《服务》文件中的检查项目名进行匹配，以《检查》文件中与《服务》文件匹配不成功的检查项目名作为第二匹配失败结果。

搭建模块110针对所述第二匹配失败结果，以预设的编辑距离，再次以《服务》文件为基准文件，将《检查》文件中的检查项目名逐个与《服务》文件中的检查项目名进行匹配，以《检查》文件中与《服务》文件匹配不成功的检查项目名作为第三匹配失败结果。

搭建模块110将所述第三匹配失败结果与《服务》文件中的检查项目名进行合并，从而得到针对检查项目的检查词典。

提取模块120用于从待清洗的原始数据中提取待匹配项。所述原始数据为已存入数据库中的海量、多源、异构、杂乱的医疗数据，例如来自于多家医院的体检数据、病例数据等。具体地，提取模块120可以对所述原始数据以去重、以“、”分隔提取等方式进行处理，从而获得待匹配项。

匹配模块130用于将所述待匹配项与所述医疗词典进行匹配，得到最终匹配结果。具体而言，匹配模块130先将所述待匹配项与所述医疗词典进行初次匹配，得到初次匹配结果。所述初次匹配结果为所述待匹配项在初次匹配时匹配成功的结果，即匹配成功的待匹配项。

其次，匹配模块130对所述医疗词典和待匹配项进行预处理，所述预处理例如可以包括(1)去除无关符号、数字、干扰词，例如“[0-9]”、“-”、“\”、“+”、“/”、“γ”、“β”、“α”、“测定”、“试验”、“检查”、“检测”、“分析”、“实验”、“镜检查”、“镜检”、“诊断”、“筛查”、“鉴定”、“叩诊”、“各种”、“单个”、“快速”、“抗”、“或”等；(2)对括号中内容进行抽取，分别生成原项(例如“胃肠镜检查(A)”)、去括号后项(例如“胃肠镜检查”)、补充项(例如“A”)。

然后，匹配模块130将经过预处理后的所述待匹配项与医疗词典进行二次匹配，得到二次匹配结果。所述二次匹配结果为所述待匹配项在二次匹配时匹配成功的结果。此外，匹配模块130还可以根据预设的编辑距离进行所述二次匹配。

最后，匹配模块130将所述初次匹配结果与二次匹配结果整合为所述最终匹配结果。

输出模块140用于根据所述最终匹配结果输出清洗结果，例如在客户端的用户界面上展示所述清洗结果。

参照图4所示，为本发明医疗数据清洗方法的较佳实施例的流程图。电子装置1的处理器12执行存储器11中存储的医疗数据清洗程序10时实现医疗数据清洗方法的如下步骤：

步骤S1，搭建模块110搭建指定种类的医疗词典。搭建模块110通过对至少两份基础医疗文件进行处理，得到所述指定种类的医疗词典。参阅图5所示，步骤S1具体可以包括以下步骤：

步骤S11，搭建模块110以其中一份基础医疗文件作为基准文件对另一份基础医疗文件进行直接匹配，得到第一匹配失败结果；

步骤S12，搭建模块110根据所述第一匹配失败结果分析匹配失败原因，根据所述匹配失败原因将所述第一匹配失败结果对所述基准文件进行正则匹配，得到第二匹配失败结果；

步骤S13，搭建模块110根据预设的编辑距离将所述第二匹配失败结果对所述基准文件进行匹配，得到第三匹配失败结果；

步骤S14，搭建模块110将所述第三匹配失败结果与基准文件中相应的数据进行合并，得到所述医疗词典。

步骤S2，提取模块120从待清洗的原始数据中提取待匹配项。

步骤S3，匹配模块130将所述待匹配项与所述医疗词典进行匹配，得到最终匹配结果。具体而言，步骤S3可以包括将所述待匹配项与所述医疗词典进行初次匹配，得到初次匹配结果；对所述医疗词典和待匹配项进行预处理；将经过预处理后的所述待匹配项与医疗词典进行二次匹配，得到二次匹配结果；将所述初次匹配结果与二次匹配结果整合为所述最终匹配结果。所述初次匹配结果为所述待匹配项在初次匹配时匹配成功的结果，所述二次匹配结果为所述待匹配项在二次匹配时匹配成功的结果。

步骤S4，输出模块140根据所述最终匹配结果输出清洗结果。

本实施例提出的医疗数据清洗方法，利用基础医疗文件搭建医疗词典，再利用所述医疗词典清洗海量杂乱的医疗数据，可以使不同数据来源、不同录入标准、不同类别的医疗数据实现统一规范化，为后续医疗数据的使用，例如通过医疗数据对医疗费用进行层次分析寻求费用驱动因素，准确地将疾病诊断与医疗费用关联，支持风险预测、精算定价、产品设计等提供可靠的支持。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括基础医疗文件、数据库及医疗数据清洗程序10等，所述医疗数据清洗程序10被所述处理器12执行时实现如下操作：

搭建步骤：搭建指定种类的医疗词典；

提取步骤：从待清洗的原始数据中提取待匹配项；

输出步骤：根据所述最终匹配结果输出清洗结果。

其中，所述搭建步骤包括：

所述匹配步骤包括：

对所述医疗词典和待匹配项进行预处理；

本发明之计算机可读存储介质的具体实施方式与上述医疗数据清洗方法以及电子装置1的具体实施方式大致相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种医疗数据清洗方法，应用于计算装置，其特征在于，该方法包括：

搭建步骤：搭建指定种类的医疗词典；

提取步骤：从待清洗的原始数据中提取待匹配项；

输出步骤：根据所述最终匹配结果输出清洗结果。

2.如权利要求1所述的医疗数据清洗方法，其特征在于，所述搭建步骤包括：

3.如权利要求2所述的医疗数据清洗方法，其特征在于，所述通过对至少两份基础医疗文件进行处理包括：

4.如权利要求1所述的医疗数据清洗方法，其特征在于，所述匹配步骤包括：

对所述医疗词典和待匹配项进行预处理；

5.如权利要求4所述的医疗数据清洗方法，其特征在于，所述初次匹配结果为所述待匹配项在初次匹配时匹配成功的结果，所述二次匹配结果为所述待匹配项在二次匹配时匹配成功的结果。

6.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中包括医疗数据清洗程序，该医疗数据清洗程序被所述处理器执行时实现如下步骤：

搭建步骤：搭建指定种类的医疗词典；

提取步骤：从待清洗的原始数据中提取待匹配项；

输出步骤：根据所述最终匹配结果输出清洗结果。

7.如权利要求6所述的电子装置，其特征在于，所述搭建步骤包括：

8.如权利要求7所述的电子装置，其特征在于，所述通过对至少两份基础医疗文件进行处理包括：

9.如权利要求6所述的电子装置，其特征在于，所述匹配步骤包括：

对所述医疗词典和待匹配项进行预处理；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括医疗数据清洗程序，所述医疗数据清洗程序被处理器执行时，实现如权利要求1至5中任一项所述的医疗数据清洗方法的步骤。