一种实现医院诊断数据标准化的方法
技术领域
本发明涉及数据处理技术领域,具体地说是一种实现医院诊断数据标准化的方法。
背景技术
数据治理是按照平台既有标准对采集数据合理化处理,对数据的获取、处理以及使用进行监管。在医院数据治理过程中,数据标准化是一份重要又繁琐的工作,其中包括对医院诊断数据的标准化进行映射。通常情况下,各个医院的疾病编码、名称等都会存在各个差异,需要人工进行标准化处理,工作量大,同时每个人对医疗数据的认识不同,手工匹配的过程也会存在差异或错误,具有一定的局限性。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实现医院诊断数据标准化的方法,能够辅助人工快速、正确的匹配码值,实现减轻人工工作量的同时提高匹配的准确率。
本发明解决其技术问题所采用的技术方案是:
一种实现医院诊断数据标准化的方法,包括数据收集、创建索引、智能匹配和人工匹配,
所述数据收集,对医院数据和标准数据形式进行限定;
所述创建索引,对疾病国家标准数据创建索引;
智能匹配用于根据医院疾病数据和标准疾病数据的特点制定智能匹配规则;
人工匹配用于审核机器匹配的数据以及判断通过智能匹配意思模糊或错误的数据。
本方法通过智能匹配+人工匹配的匹配模式,将各个医院汇聚的疾病数据映射到国家标准值域代码中。智能匹配是辅助人工匹配的重要方式,智能匹配基于全文检索引擎、分词等技术,根据手工匹配的经验,制定智能匹配规则,人工匹配基于智能匹配出来的结果进行参考,主观判断是否映射成功并形成经验值。智能匹配实现经验值进行码值映射,并随着经验值的不断提高,智能匹配结果会更加精细,打造智能匹配辅助、解放人力的映射工具。
优选的,数据收集对数据要求包括对医院数据的要求和对标准数据的要求,所述医院数据必须具有疾病编码和疾病名称;所述标准数据要具有明确的标准数据版本。
进一步的,若医院疾病编码不存在,则将附加码补充到编码部分。
优选的,对疾病国家标准数据创建索引,首先确定映射过程中对照的版本,然后对字段建立主索引,所述字段包括疾病编码、预处理后的疾病编码、预处理后截取前四位编码、预处理后截取前三位编码、疾病名称和预处理后的疾病名称,所述预处理为去掉疾病编码中的特殊字符。
预处理后的疾病编码用于医院疾病编码与标准疾病编码精准匹配;预处理后截取前四位编码用于医院疾病前四位编码和标准疾病前四位编码精准匹配;预处理后截取前三位编码用于医院疾病前三位编码与标准疾病前三位编码精准匹配(诊断大类比较);预处理后的疾病名称用于医院疾病名称与标准疾病名称精准匹配。
优选的,根据医院疾病数据和标准疾病数据的特点以及考虑到方便人工匹配,将疾病医院数据与标准数据的匹配规则细化分为九级,
一级:将医院疾病编码、疾病名称与标准进行精准匹配;
二级:将医院疾病编码“+”之前、疾病名称与标准进行精准匹配;
三级:疾病编码、疾病名称和版本停用并入的数据做精准匹配;
四级:医院疾病编码、疾病名称与疾病编码升级码做精准匹配;
五级:疾病编码前三位与疾病名称精准匹配;
六级:疾病名称精准匹配;
七级:疾病名称和已人工匹配的数据进行精准匹配;
八级:疾病名称前四位精准匹配、疾病名称进行相似度匹配;
九级:疾病编码精准匹配,疾病名称模糊匹配;
九级匹配都不符合的数据疾病名称进行相似度匹配后放入匹配错误项。
进一步的,匹配过程为:先通过分词算法对医院数据进行分词,然后依次执行所述匹配规则查找创建的索引,将得分最高的一项作为参考项;
将经过所述匹配规则匹配出来的医院数据和相应的标准数据通过页面展示,提供“匹配查询数据”和“匹配选择数据”按钮方便人工操作。
通过上述匹配规则匹配出来的数据,一、二、三、四级分析出的数据符合医院与标准匹配准确度为100%。
优选的,所述人工匹配方式包括在智能匹配分析进行匹配和在映射页面进行匹配。人工匹配的目的,一是为了审核机器匹配出来的数据,二是通过主观意识判断通过智能匹配意思模糊或错误的数据。在智能匹配分析进行匹配,主要是审核通过“智能分析”匹配出来的数据;在映射页面进行匹配,双击某条数据,映射工具会自动推荐匹配度最高的标准数据。
进一步的,人工匹配的实现过程为:医院数据中疾病编码和疾病名称通过Lucene分词和检索,医院疾病编码和疾病名称先通过检索对标准索引进行精准匹配,若匹配成功则返回数据,若匹配不成功则通过Analyzer分词算法,对医院疾病编码进行分词再检索索引中是否有匹配标准名称的词汇,取得得分最高的一项返回给用户。
本发明还要求保护一种实现医院诊断数据标准化的装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行上述的方法。
本发明还要求保护一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行上述的方法。
本发明的一种实现医院诊断数据标准化的方法与现有技术相比,具有以下有益效果:
该方法有完整的匹配流程和匹配规则,支持机器智能匹配,从而使匹配结果更加准确、快速,起到解放人力的作用;
支持待匹配数据可以跟人工已匹配的数据进行匹配,大大提高人工匹配工时;提供推荐标准数据,人工在匹配时可做参考,提高准确率;在数据治理过程中医院诊断数据标准化映射起到巨大的作用,在数据治理过程中能够快速的对诊断数据标准化进行映射,在节省人力的同时提高匹配正确率。
附图说明
图1是本发明一个实施例提供的智能匹配过程示意图;
图2是本发明一个实施例提供的人工匹配过程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
本发明实施例提供了一种实现医院诊断数据标准化的方法,包括数据收集、创建索引、智能匹配和人工匹配。
如下表所示,这里的标准集是指国家制定的标准:
而某家医院的诊断数据如下:
疾病编码 |
疾病名称 |
附加码 |
H44.502 |
眼球萎缩 |
|
A17.900x001+G99.8* |
中枢神经系统结核 |
|
A18.0+ |
骨和关节的结核 |
|
M71.161 |
髌骨前感染性滑囊炎(左侧) |
|
以上表为例,医院码值主要分为以上几种情况:
1)、疾病编码、名称与标准疾病编码、名称完全一致;
2)、疾病编码“+”前、名称与标准疾病编码、名称完全一致;
3)、疾病编码与标准疾病编码不一致、名称完全一致;
4)、疾病编码、名称与标准疾病编码、名称都不相同。
综合以上几种情况,各个医院的疾病编码、名称都会存在各个差异,需要人工进行标准化处理的工作量大,同时,每个人对医疗数据的认识不同,手工匹配的过程也会存在差异或错误等各种局限。
本方法提供“智能匹配+人工匹配”、智能匹配辅助人工匹配的匹配模式,减轻工作量的同时提高匹配准确率。
1、所述数据收集对数据要求包括对医院数据的要求和对标准数据的要求:
(1)、对医院数据要求:
必须有疾病编码和疾病名称;
若医院疾病编码不存在,可将附加码补充到编码部分;
(2)、对标准数据的要求:
明确标准数据版本。
2、对疾病国家标准数据创建索引;
(1)、确定映射过程中对照的版本;
准备好映射过程中需要对照的疾病国家版本号标准数据(例如:疾病分类与代码国家临床版2.0);
(2)、利用Lucene(用于全文检索和搜寻的开源程序库,由Apache软件基金会支持和提供)对以下字段创建主索引:
a、疾病编码;
b、预处理后的疾病编码;用于医院疾病编码与标准疾病编码精准匹配;
预处理是指:疾病编码会存在很多特殊字符,在Lucene创建索引的时候产生影响,所以在创建主索引时先去掉疾病编码中的特殊字符。去掉的特殊字符如下:
|“*”|“:”|“:”|“”|“&”|“[”|“]”|“,”|“,”|“、”|“.”|“。”|“;”|“;”|“(”|“)”|“(”|“)”|“%”|“~”|“\\”|“?”|“{”|“}”
c、预处理后截取前四位编码;用于医院疾病前四位编码和标准疾病前四位编码精准匹配;
d、预处理后截取前三位编码;用于医院疾病前三位编码和标准疾病前三位编码精准匹配(诊断大类比较);
e、疾病名称;
f、预处理后的疾病名称,预处理方式与b所述一致,用于医院疾病名称与标准疾病名称精准匹配。
3、智能匹配:
(1)、智能匹配规则:
根据医院疾病数据和标准疾病数据的特点以及考虑到方便人工匹配,将疾病医院数据与标准数据的匹配规则细化分为九级,规则如下:
一级:将医院疾病编码、疾病名称与标准进行精准匹配。匹配过程中忽略b中所述的特殊字符;
例如:
二级:将医院疾病编码“+”之前、疾病名称与标准进行精准匹配,匹配过程中忽略b中所述的特殊字符;
例如:
三级:疾病编码、疾病名称和版本停用并入的数据做精准匹配;
例如:
四级:医院疾病编码、疾病名称与疾病编码升级码(ICD-10四位代码与国标2.0六位对应数据)做精准匹配;
例如:
五级:疾病编码前三位、疾病名称精准匹配;
例如:
六级:疾病名称精准匹配;
例如:
医院疾病编码 |
医院疾病名称 |
国标2.0疾病编码 |
国标2.0名疾病称 |
S00.202 |
眼眶挫伤 |
S05.101 |
眼眶挫伤 |
七级:疾病名称和已人工匹配的数据进行精准匹配;
八级:疾病名称前四位精准匹配、疾病名称进行相似度匹配;
例如:
九级:疾病编码精准匹配,疾病名称模糊匹配。
错误:九级匹配都不符合的数据疾病名称进行相似度匹配后放入匹配错误项。
(2)、匹配过程,参考附图1所示,
先通过Analyzer分词算法对医院数据进行分词,然后依次执行(1)中的智能匹配规则查找对疾病国家标准数据创建索引中(2)创建的标准数据索引,将得分最高的一项作为参考项。
(3)、将经过(1)智能匹配规则匹配出来的医院数据和相应的标准数据通过页面展示,提供“匹配查询数据”、“匹配选择数据”两个按钮方便人工操作。
(4)、通过(1)智能匹配规则匹配出来的数据,一、二、三、四级分析出的数据符合医院与标准匹配准确度为100%。
4、人工匹配,参考图2所示,
人工匹配的目的,一是为了审核机器匹配出来的数据,二是通过主观意识判断通过智能匹配意思模糊或者错误的数据。人工匹配提供两种方式,如下:
(1)、在智能匹配分析进行匹配,主要是审核通过“智能分析”匹配出来的数据;
(2)、在映射页面进行匹配,双击某条数据,映射工具会自动推荐匹配度最高的标准数据。
实现过程:医院数据中疾病编码和疾病名称通过Lucene分词和检索,医院疾病编码和疾病名称先通过检索对标准索引进行精准匹配,若匹配成功则返回数据,若匹配不成功则通过Analyzer分词算法,对医院疾病编码进行分词再检索索引中是否有匹配标准名称的词汇,取得得分最高的一项返回给用户。
该方法在数据治理过程中能够快速的对诊断数据标准化进行映射,在节省人力的同时提高匹配正确率;
支持“智能分析+人工匹配”、智能分析辅助人工匹配的方式实现医院码值与标准码值映射;
智能匹配方式是基于分词和Lucene检索的基础上,对医院数据进行九级规则判断、归类,提高准确率;
在人工匹配过程中,会推荐Lucene检索得分最高一项标准数据,辅助人工做出决策;
该方法支持智能匹配参考人工审核过的数据,人工审核正确的数据越多,匹配率越高。提高匹配的速度和准确率。
本发明实施例还提供一种实现医院诊断数据标准化的装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行本发明上述实施例中所述的一种实现医院诊断数据标准化的方法。
本发明实施例还提供了一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行本发明实施例中的实现医院诊断数据标准化的方法。具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。