CN106845058A

CN106845058A - 疾病数据的标准化方法及标准化装置

Info

Publication number: CN106845058A
Application number: CN201510886148.4A
Authority: CN
Inventors: 王宏波
Original assignee: Medical Information Technology Co Ltd Of Beijing University
Current assignee: Medical Information Technology Co Ltd Of Beijing University
Priority date: 2015-12-04
Filing date: 2015-12-04
Publication date: 2017-06-13

Abstract

本发明提供了一种疾病数据的标准化方法及标准化装置，其中，疾病数据的标准化方法，包括：获取非标准疾病数据；确定与所述非标准疾病数据匹配的目标标准疾病数据；将所述非标准疾病数据与所述目标标准疾病数据进行关联。通过本发明的技术方案，能够根据任一标准疾病数据规范，对非标准疾病数据进行整合，从而实现疾病数据的标准化及一致化。

Description

疾病数据的标准化方法及标准化装置

技术领域

本发明涉及医疗数据分析技术领域，具体而言，涉及一种疾病数据的标准化方法和一种疾病数据的标准化装置。

背景技术

随着我国医疗信息化的不断完善，大部分医院已经积累了大量的EMR(Electronic Medical Record,电子病历)数据；同时随着大数据技术的兴起，对海量数据的挖掘技术逐渐成熟，将数据挖掘技术应用于EMR数据，挖掘其中蕴含的诊疗知识，为医生的诊疗提供决策辅助，将能够在医疗健康领域产生极大价值。

数据一致性是目前EMR数据挖掘领域面临的一大问题。由于医院内部医疗相关数据的隐私敏感性，各大医院的信息化系统需要对外进行物理隔离，因此医院大都选择在内部单独建立信息系统，各个医院系统独立引发了医疗数据的“数据孤岛”问题。而医疗数据相关的专业术语都有对应的国际编码标准，由于标准的不断变化，同一个标准可能出现多个版本。由于建立医院信息系统时并不考虑数据互通的问题，各家医院可能使用不一样的数据标准(如诊断编码的两种标准ICD-9和ICD-10)，甚至在同一家医院内部，由于科室及医生的习惯不同，编码标准和术语名称都可能发生不一致的现象。以疾病名称标准ICD-10为例，对于糖尿病诊断，可能使用标准编码“E14.9”，也可能使用细化的内部编码“E14.901”，而诊断名称可能只使用全称“糖尿病”，也可能在名称后加上限定词“糖尿病，高危”。综上，医疗信息化系统内的EMR数据存在大量的数据标准不一致问题。而数据清洗是数据挖掘的重要步骤，用于解决数据中的重复，不一致等问题。在针对EMR的数据挖掘任务中，针对术语标准不一致的数据清理工作显得格外重要。

目前，针对数据中术语标准不一致主要解决方案是：根据领域知识由领域专家确立标准并推广，该方案在医疗信息化领域已经得到了广泛应用。以疾病名称为例，现有以WHO(World Health Organization，世界卫生组织)为主导定制的ICD(International Classification of Disease，国际疾病分类)作为疾病编码标准，该标准在全世界已经得到了广泛推广应用。

但该方案在实施时存在多个问题：

一、术语标准的版本演化问题。以疾病编码ICD为例，目前其已经推出第10个版本。新版本出现时，对于是否升级系统中的术语表不同机构会有不同的选择。例如，部分美国和欧洲医院仍然使用ICD-9编码，而中国的国家标准中推行的是ICD-10编码，使用不用版本的编码仍然能够导致术语不一致的问题。

二、标准执行力度问题。尽管术语标准按规范需严格执行，但由于不同医院，不同科室，不同医师的个人经验，诊疗习惯并不一致，严格的执行标准并不能很好的满足所有人的记录需求，所以在录入疾病编码和名称时，系统往往会给予医师一定的自由度，如疾病名称后面可以加限定词等。另一方面，目前诊疗信息大多仍由医生手工录入，难免发生错误，出现编码和名称不匹配的情况。

三、医院内部编码问题。由于前述原因，严格的术语标准并不能很好的满足所有医生的记录需求，而目前普适标准一般由西方国家针对现代医学制定，对于中国医疗机构中特有的中医诊疗更是存在标准不适用问题，所以医院大多存在一套内部编码标准，而内部编码更加无法互通，使得术语不一致问题更加严重。

因此，如何实现疾病数据的标准化成为亟待解决的技术问题。

发明内容

本发明正是基于上述技术问题至少之一，提出了一种新的疾病数据的标准化方案，能够根据任一标准疾病数据规范，对非标准疾病数据进行整合，从而实现疾病数据的标准化及一致化。

有鉴于此，本发明提出了一种疾病数据的标准化方法，包括：获取非标准疾病数据；确定与所述非标准疾病数据匹配的目标标准疾病数据；将所述非标准疾病数据与所述目标标准疾病数据进行关联。

在该技术方案中，由于不同医院、不同科室、及不同医师在记录疾病数据时，通常会按照各自的需求进行记录，从而导致同一疾病可能存在多种不同的术语，严重影响疾病数据的统一，所以通过获取非标准疾病数据，确定与非标准疾病数据匹配的目标标准疾病数据，并将非标准疾病数据与目标标准疾病数据进行关联，使得能够根据任一标准疾病数据规范，对非标准疾病数据进行整合，从而实现疾病数据的标准化及一致化。其中，非标准的疾病数据是相对于目标标准疾病数据而言的，目标标准疾病数据是唯一确定的公认标准。

具体地，以对于“糖尿病”的记录为例，目标标准疾病数据为“E14.9，未特指的糖尿病”，此时，任何不同于该目标标准疾病数据的术语均为非标准疾病数据(如“E14.901，糖尿病，高危”)，通过获取“E14.901，糖尿病，高危”这一非标准疾病数据，确定与其匹配的目标标准疾病数据“E14.9，未特指的糖尿病”，并将“E14.901，糖尿病，高危”与“E14.9，未特指的糖尿病”进行关联，从而实现将“糖尿病”这一疾病数据标准化。

在上述技术方案中，优选地，在确定与所述非标准疾病数据匹配的目标标准疾病数据的步骤之前，还包括：建立用于规范所述非标准疾病数据的标准疾病数据库；确定与所述非标准疾病数据匹配的目标标准疾病数据的步骤具体包括：根据所述非标准疾病数据中的疾病编码和疾病名称，在所述标准疾病数据库中，查找与所述非标准疾病数据匹配的所述目标标准疾病数据。

在该技术方案中，通过建立用于规范非标准数据的标准疾病数据库，为实现疾病数据的标准化提供必要的前提保障；同时，由于一般疾病数据包含疾病编码和疾病名称两部分，通过根据非标准疾病数据中的疾病编码和疾病名称，在包含各类不同标准疾病数据的标准疾病数据库中，查找与其匹配的目标标准疾病数据，确保了查找结果的有效性和准确性。

在上述任一项技术方案中，优选地，根据所述非标准疾病数据中的疾病编码和疾病名称，在所述标准疾病数据库中，查找与所述非标准疾病数据匹配的所述目标标准疾病数据的步骤具体包括：查找与所述非标准疾病数据中的疾病编码相匹配的至少一个预设标准疾病数据；计算每个预设标准疾病数据中的疾病名称与所述非标准疾病数据中的疾病名称之间的相似度值；判断是否有相似度值大于预设阀值的预设标准疾病数据；在判定有所述相似度值大于预设阀值的预设标准疾病数据时，将所述相似度值大于预设阀值的预设标准疾病数据设置为所述目标标准疾病数据；在判定没有所述相似度值大于预设阀值的预设标准疾病数据时，提示用户指定任一相似度值不大于预设阀值的预设标准疾病数据，以将其设置为所述目标标准疾病数据。

在该技术方案中，由于每一类疾病编码代表一类疾病，所以通过查找与非标准疾病数据中的疾病编码相匹配的至少一个预设标准疾病数据，从各类不同预设标准疾病数据中筛选出可能匹配的单个或多个预设标准疾病数据，从而缩小查找范围，降低了后续过程中的运算负荷；同时通过在判定有相似度值大于预设阀值的预设标准疾病数据时，将相似度值大于预设阀值的预设标准疾病数据设置为目标标准疾病数据，在疾病编码类似的前提下，疾病名称的相似度值越高，则证明两者描述的是同一种疾病的概率越大，无需人为加以干预，提高了对疾病数据进行标准化的效率；通过在判定没有相似度值大于预设阀值的预设标准疾病数据时，提示用户指定任一相似度值不大于预设阀值的预设标准疾病数据，当仅凭相似度值无法准确进行确认时，可以通过人为加以干预，比如，根据预设标准疾病数据的相似度值的大小进行排列，生成相似度值列表并推送给用户，用户可根据相似度值的大小在该相似度值列表中指定任一预设标准疾病数据作为目标标准数据疾病，从而提高了对疾病数据进行标准化的准确性。其中，在查找与非标准疾病数据中的疾病编码相匹配的预设标准疾病数据时，可以仅根据部分疾病编码(前几位编码)进行查找，当然，也可以根据完整的疾病编码进行查找。

在上述任一项技术方案中，优选地，在将所述相似度值大于预设阀值的预设标准疾病数据设置为所述目标标准疾病数据的步骤之前，还包括：判断所述相似度值大于预设阀值的预设标准疾病数据的个数是否唯一存在；在判定所述相似度值大于预设阀值的预设标准疾病数据的个数唯一存在时，执行将所述相似度值大于预设阀值的预设标准疾病数据设置为所述目标标准疾病数据的步骤；在判定所述相似度值大于预设阀值的预设标准疾病数据的个数不唯一存在时，提示所述用户指定任一所述相似度值大于预设阀值的预设标准疾病数据，以将其设置为所述目标标准疾病数据。

在该技术方案中，通过判断相似度值大于预设阀值的预设标准疾病数据的个数是否唯一存在，并在判定相似度值大于预设阀值的预设标准疾病数据的个数唯一存在时，执行将相似度值大于预设阀值的预设标准疾病数据设置为目标标准疾病数据，无需人为干预，提高了对疾病数据进行标准化的效率，同时因目标标准疾病数据的唯一性，提高了对疾病数据进行标准化的准确性；以及在判定相似度值大于预设阀值的预设标准疾病数据的个数不唯一存在时，提示用户指定任一相似度值大于预设阀值的预设标准疾病数据，以将其设置为目标标准疾病数据，在出现多个预设标准疾病数据待匹配时，通过人为进行干预匹配，避免预设标准疾病数据与标准疾病数据之间出现漏配、错配等问题，进一步提高了查找结果的准确性。

在上述任一项技术方案中，优选地，其特征在于，根据以下公式计算每个预设标准疾病数据中的疾病名称与所述非标准疾病数据中的疾病名称之间的相似度值：

其中，d_u，d_s分别表示所述非标准数据中的疾病名称和所述预设标准疾病数据中的疾病名称，d_u∩d_s表示两者疾病名称中相同字符的个数，d_u∪d_s表示两者疾病名称中不重复的字符的总个数。

根据本发明的第二方面，提出了一种疾病数据的标准化装置，包括：获取单元，用于获取非标准疾病数据；确定单元，用于确定与所述非标准疾病数据匹配的目标标准疾病数据；关联单元，用于将所述非标准疾病数据与所述目标标准疾病数据进行关联。

在该技术方案中，由于不同医院、不同科室、及不同医师在记录疾病数据时，通常会按照各自的需求进行记录，从而导致同一疾病可能存在多种不同的术语，严重影响疾病数据的统一，所以通过获取非标准疾病数据，确定与非标准疾病数据匹配的目标标准疾病数据，并将非标准疾病数据与目标标准疾病数据进行关联，使得能够根据任一标准疾病数据规范，对非标准的疾病数据进行整合，从而实现疾病数据的标准化及一致化。其中，非标准的疾病数据是相对于目标标准疾病数据而言的，目标标准疾病数据是唯一确定的公认标准。

在上述技术方案中，优选地，还包括：建立单元，用于建立用于规范所述非标准疾病数据的标准疾病数据库；所述确定单元具体用于：根据所述非标准疾病数据中的疾病编码和疾病名称，在所述标准疾病数据库中，查找与所述非标准疾病数据匹配的所述目标标准疾病数据。

在上述任一项技术方案中，优选地，所述确定单元包括：查找单元，用于查找与所述非标准疾病数据中的疾病编码相匹配的至少一个预设标准疾病数据；计算单元，用于计算每个预设标准疾病数据中的疾病名称与所述非标准疾病数据中的疾病名称的相似度值；第一判断单元，用于判断是否有相似度值大于预设阀值的预设标准疾病数据；设置单元，用于在所述第一判断单元判定有所述相似度值大于预设阀值的预设标准疾病数据时，将所述相似度值大于预设阀值的预设标准疾病数据设置为所述目标标准疾病数据，以及在所述第一判断单元判定没有所述相似度值大于预设阀值的预设标准疾病数据时，提示用户指定任一相似度值不大于预设阀值的预设标准疾病数据，以将其设置为所述目标标准疾病数据。

在上述任一项技术方案中，优选地，所述确定单元还包括：第二判断单元，用于在所述第一判断单元判定有所述相似度值大于预设阀值的预设标准疾病数据之后，判断所述相似度值大于预设阀值的预设标准疾病数据的个数是否唯一存在；所述设置单元具体用于，在所述第二判断单元判定所述相似度值大于预设阀值的预设标准疾病数据的个数唯一存在时，执行将所述相似度值大于预设阀值的预设标准疾病数据设置为所述目标标准疾病数据，以及在所述第二判断单元判定所述相似度值大于预设阀值的预设标准疾病数据的个数不唯一存在时，提示所述用户指定任一所述相似度值大于预设阀值的预设标准疾病数据，以将其设置为所述目标标准疾病数据。

在上述任一项技术方案中，优选地，所述计算单元具体用于，根据以下公式确定每个预设标准疾病数据中的疾病名称与所述非标准疾病数据中的疾病名称之间的相似度值：

通过以上技术方案，能够根据任一标准疾病数据规范，对非标准的疾病数据进行整合，从而实现疾病数据的标准化及一致化。

附图说明

图1示出了根据本发明的实施例的疾病数据的标准化方法的示意流程图；

图2示出了根据本发明的实施例的疾病数据的标准化装置的示意框图；

图3示出了根据本发明的实施例的疾病数据的标准化系统的原理示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了根据本发明的实施例的疾病数据的标准化方法的示意流程图。

如图1所示，根据本发明的实施例的疾病数据的标准化方法，包括：

步骤102，获取非标准疾病数据；

步骤104，确定与所述非标准疾病数据匹配的目标标准疾病数据；

步骤106，将所述非标准疾病数据与所述目标标准疾病数据进行关联。

在上述技术方案中，优选地，在步骤104之前，还包括：建立用于规范所述非标准疾病数据的标准疾病数据库；确定与所述非标准疾病数据匹配的目标标准疾病数据的步骤具体包括：根据所述非标准疾病数据中的疾病编码和疾病名称，在所述标准疾病数据库中，查找与所述非标准疾病数据匹配的所述目标标准疾病数据。

图2示出了根据本发明的实施例的疾病数据的标准化装置的示意框图。

如图2所示，根据本发明的实施例的疾病数据的标准化装置200，包括：获取单元202、确定单元204和关联单元206。

其中，获取单元202，用于获取非标准疾病数据；确定单元204，用于确定与所述非标准疾病数据匹配的目标标准疾病数据；关联单元206，用于将所述非标准疾病数据与所述目标标准疾病数据进行关联。

在上述技术方案中，优选地，还包括：建立单元208，用于建立用于规范所述非标准疾病数据的标准疾病数据库；所述确定单元204具体用于：根据所述非标准疾病数据中的疾病编码和疾病名称，在所述标准疾病数据库中，查找与所述非标准疾病数据匹配的所述目标标准疾病数据。

在上述任一项技术方案中，优选地，所述确定单元204包括：查找单元204A，用于查找与所述非标准疾病数据中的疾病编码相匹配的至少一个预设标准疾病数据；计算单元204B，用于计算每个预设标准疾病数据中的疾病名称与所述非标准疾病数据中的疾病名称的相似度值；第一判断单元204C，用于判断是否有相似度值大于预设阀值的预设标准疾病数据；设置单元204D，用于在所述第一判断单元204C判定有所述相似度值大于预设阀值的预设标准疾病数据时，将所述相似度值大于预设阀值的预设标准疾病数据设置为所述目标标准疾病数据，以及在所述第一判断单元204C判定没有所述相似度值大于预设阀值的预设标准疾病数据时，提示用户指定任一相似度值不大于预设阀值的预设标准疾病数据，以将其设置为所述目标标准疾病数据。

在上述任一项技术方案中，优选地，所述确定单元204还包括：第二判断单元204E，用于在所述第一判断单元204C判定有所述相似度值大于预设阀值的预设标准疾病数据之后，判断所述相似度值大于预设阀值的预设标准疾病数据的个数是否唯一存在；所述设置单元204D具体用于，在所述第二判断单元204E判定所述相似度值大于预设阀值的预设标准疾病数据的个数唯一存在时，执行将所述相似度值大于预设阀值的预设标准疾病数据设置为所述目标标准疾病数据，以及在所述第二判断单元204E判定所述相似度值大于预设阀值的预设标准疾病数据的个数不唯一存在时，提示所述用户指定任一所述相似度值大于预设阀值的预设标准疾病数据，以将其设置为所述目标标准疾病数据。

在上述任一项技术方案中，优选地，所述计算单元204B具体用于，根据以下公式确定每个预设标准疾病数据中的疾病名称与所述非标准疾病数据中的疾病名称之间的相似度值：

以下结合图3对本发明的技术方案作进一步说明。

如图3所示，在本实施例中，包括以下主要步骤：

第一步，建立统一的疾病编码和名称标准，称为融合标准1，标准中的每一个条目都包含两项，一是疾病编码，二是疾病中文名称。融合标准是数据融合的最终目标，所有非标准数据都需要映射到唯一的一个融合标准数据。可以依照广泛使用的疾病编码，如ICD-10建立融合标准，并作适应性修改，如加入中医诊疗过程的标准术语。

第二步，对于待匹配的非标准疾病记录2，利用编码前缀匹配在融合标准中找出该记录可能匹配的候选集3。具体的，由于标准术语编码一般为层次结构，其前缀表示更广泛的同类疾病，故可以取待匹配记录的编码前缀，匹配所有融合标准中有相同前缀的疾病作为候选集。

第三步，对第二步中候选集3的每一个标准进行相似度计算，得到相似度排序列表4。具体的，取待匹配记录的疾病名称，与所有候选集中的标准疾病名称进行相似度计算，相似度计算依据杰卡德相似系数(Jaccardsimilarity coefficient)的公式：

其中，d_u,d_s分别表示非标准数据的疾病名称和融合标准中的疾病名称，d_u∩d_s表示名称中相同字符的个数，d_u∪d_s表示两者名称中不重复的字符的总个数。对于每个候选的标准名称计算相似度后，则可排序形成一个相似度排序列表4。

第四步，根据相似度排序列表4中的相似度数值将非标准数据融合为标准数据，可根据列表中相似度值数值的大小选择自动融合或者人工筛选融合5。具体地，如果排在最高的相似度结果J(d_u,d_s)大于某个阈值k，则由计算机自动将项目映射为d_s代表的疾病名称和编码项；否则，说明相似度不足以明确该项目的映射关系，则将排序列表展示给领域专家，由其决定映射结果。

具体地，假定现有非标准疾病数据：“E14.901，糖尿病，高危”，需要通过本算法找到其对应的标准疾病编码和名称。实施例包含以下步骤。

第一步，建立统一的融合标准。假设以ICD-10国际标准编码作为融合标准，其中包含标准疾病数据：“E14.9，未特指的糖尿病”。

第二步，利用编码前缀匹配在融合标准1中找出该记录可能匹配的候选集。取非标准数据中疾病编码的前三位作为前缀“E14”，匹配具有同样前缀的标准编码形成候选列表，此时标准数据“E14.9,未特指的糖尿病”因为有相同的编码前缀，亦在列表当中。

第三步，对第二步中候选集的每一个标准进行相似度计算，得到相似度排序列表。其中标准数据“E14.9,未特指的糖尿病”和非标准疾病数据“E14.901，糖尿病，高危”的相似度为3/10＝0.3，其中，3代表共有的字符个数(“糖尿病”3字)，10代表不重复的字符的总个数(“糖尿病未特指的高危，”共10个字符)。

第四步，根据上述列表中的相似度数值将非标准数据融合为标准数据，假设标准数据“E14.9，未特指的糖尿病”的相似度0.3在列表中排名第一，且大于阈值k(假设为0.2)，则可自动将“E14.901，糖尿病，高危”映射为标准数据“E14.9,未特指的糖尿病”，这样即完成了一次标准融合。

通过上述实施例的技术方案，能够利用任意已有的疾病术语标准，利用相似度算法自动融合非标准疾病名称和编码，克服术语标准执行时产生的数据不一致问题，并集合了计算机自动化方法和人工筛选方法，兼顾了融合效率和准确性。

以上结合附图详细说明了本发明的技术方案，本发明提出了一种新的疾病数据的标准化方案，能够根据任一标准疾病数据规范，对非标准疾病数据进行整合，从而实现疾病数据的标准化及一致化。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种疾病数据的标准化方法，其特征在于，包括：

获取非标准疾病数据；

确定与所述非标准疾病数据匹配的目标标准疾病数据；

将所述非标准疾病数据与所述目标标准疾病数据进行关联。

2.根据权利要求1所述的疾病数据的标准化方法，其特征在于，在确定与所述非标准疾病数据匹配的目标标准疾病数据的步骤之前，还包括：

建立用于规范所述非标准疾病数据的标准疾病数据库；

确定与所述非标准疾病数据匹配的目标标准疾病数据的步骤具体包括：

根据所述非标准疾病数据中的疾病编码和疾病名称，在所述标准疾病数据库中，查找与所述非标准疾病数据匹配的所述目标标准疾病数据。

3.根据权利要求2所述的疾病数据的标准化方法，其特征在于，根据所述非标准疾病数据中的疾病编码和疾病名称，在所述标准疾病数据库中，查找与所述非标准疾病数据匹配的所述目标标准疾病数据的步骤具体包括：

查找与所述非标准疾病数据中的疾病编码相匹配的至少一个预设标准疾病数据；

计算每个预设标准疾病数据中的疾病名称与所述非标准疾病数据中的疾病名称之间的相似度值；

判断是否有相似度值大于预设阀值的预设标准疾病数据；

在判定有所述相似度值大于预设阀值的预设标准疾病数据时，将所述相似度值大于预设阀值的预设标准疾病数据设置为所述目标标准疾病数据；

在判定没有所述相似度值大于预设阀值的预设标准疾病数据时，提示用户指定任一相似度值不大于预设阀值的预设标准疾病数据，以将其设置为所述目标标准疾病数据。

4.根据权利要求3所述的疾病数据的标准化方法，其特征在于，在将所述相似度值大于预设阀值的预设标准疾病数据设置为所述目标标准疾病数据的步骤之前，还包括：

判断所述相似度值大于预设阀值的预设标准疾病数据的个数是否唯一存在；

在判定所述相似度值大于预设阀值的预设标准疾病数据的个数唯一存在时，执行将所述相似度值大于预设阀值的预设标准疾病数据设置为所述目标标准疾病数据的步骤；

在判定所述相似度值大于预设阀值的预设标准疾病数据的个数不唯一存在时，提示所述用户指定任一所述相似度值大于预设阀值的预设标准疾病数据，以将其设置为所述目标标准疾病数据。

5.根据权利要求3或4所述的疾病数据的标准化方法，其特征在于，

根据以下公式计算每个所述预设标准疾病数据中的疾病名称与所述非标准疾病数据中的疾病名称之间的相似度值：

J (d_{u}, d_{s}) = \frac{d_{u} \cap d_{s}}{d_{u} \cup d_{s}}

6.一种疾病数据的标准化装置，其特征在于，包括：

获取单元，用于获取非标准疾病数据；

确定单元，用于确定与所述非标准疾病数据匹配的目标标准疾病数据；

关联单元，用于将所述非标准疾病数据与所述目标标准疾病数据进行关联。

7.根据权利要求6所述的疾病数据的标准化装置，其特征在于，还包括：

建立单元，用于建立用于规范所述非标准疾病数据的标准疾病数据库；

所述确定单元具体用于：

8.根据权利要求7所述的疾病数据的标准化装置，其特征在于，所述确定单元包括：

查找单元，用于查找与所述非标准疾病数据中的疾病编码相匹配的至少一个预设标准疾病数据；

计算单元，用于计算每个预设标准疾病数据中的疾病名称与所述非标准疾病数据中的疾病名称的相似度值；

第一判断单元，用于判断是否有相似度值大于预设阀值的预设标准疾病数据；

设置单元，用于在所述第一判断单元判定有所述相似度值大于预设阀值的预设标准疾病数据时，将所述相似度值大于预设阀值的预设标准疾病数据设置为所述目标标准疾病数据，以及

在所述第一判断单元判定没有所述相似度值大于预设阀值的预设标准疾病数据时，提示用户指定任一相似度值不大于预设阀值的预设标准疾病数据，以将其设置为所述目标标准疾病数据。

9.根据权利要求8所述的疾病数据的标准化装置，其特征在于，所述确定单元还包括：

第二判断单元，用于在所述第一判断单元判定有所述相似度值大于预设阀值的预设标准疾病数据之后，判断所述相似度值大于预设阀值的预设标准疾病数据的个数是否唯一存在；

所述设置单元具体用于，在所述第二判断单元判定所述相似度值大于预设阀值的预设标准疾病数据的个数唯一存在时，执行将所述相似度值大于预设阀值的预设标准疾病数据设置为所述目标标准疾病数据，以及

在所述第二判断单元判定所述相似度值大于预设阀值的预设标准疾病数据的个数不唯一存在时，提示所述用户指定任一所述相似度值大于预设阀值的预设标准疾病数据，以将其设置为所述目标标准疾病数据。

10.根据权利要求8或9所述的疾病数据的标准化装置，其特征在于，

所述计算单元具体用于，根据以下公式确定每个预设标准疾病数据中的疾病名称与所述非标准疾病数据中的疾病名称之间的相似度值：

J (d_{u}, d_{s}) = \frac{d_{u} \cap d_{s}}{d_{u} \cup d_{s}}