CN109754854B

CN109754854B - 一种诊断编码和诊断名称匹配的方法和系统

Info

Publication number: CN109754854B
Application number: CN201910032719.6A
Authority: CN
Inventors: 宁光; 何萍; 崔斌; 姚华彦; 赵蓉; 马成龙; 李燕; 宋若刚; 张鑫金
Original assignee: SHANGHAI SHENKANG HOSPITAL DEVELOPMENT CENTER; SHANGHAI INSTITUTE OF ENDOCRINE AND METABOLIC DISEASES
Current assignee: SHANGHAI SHENKANG HOSPITAL DEVELOPMENT CENTER; SHANGHAI INSTITUTE OF ENDOCRINE AND METABOLIC DISEASES
Priority date: 2019-01-14
Filing date: 2019-01-14
Publication date: 2023-07-18
Anticipated expiration: 2039-01-14
Also published as: CN109754854A

Abstract

本发明公开了一种诊断编码和诊断名称匹配的方法和系统，使诊断编码和诊断名称的数据治理自动化，提高治理的效率，避免人工处理因个人经验造成的不确定性，提高了数据分析利用的价值。其技术方案为：获取医院的诊断记录，包括医院编码、诊断编码以及诊断名称；将医院编码、诊断编码以及诊断名称与预置的五元组匹配表相匹配，其中五元组匹配表按照预设规则生成，包括医院编码、原始诊断编码、原始诊断名称、标准诊断编码、标准诊断名称；若医院编码、诊断编码以及诊断名称分别等于五元组匹配表中的医院编码、原始诊断编码、原始诊断名称，则将诊断编码和诊断名称分别替换为标准诊断编码和标准诊断名称。

Description

一种诊断编码和诊断名称匹配的方法和系统

技术领域

本发明涉及医疗大数据处理领域，具体涉及一种将诊断编码和诊断名称进行匹配的方法和系统。

背景技术

随着医疗健康大数据中心或医院临床数据中心的建设，原始的电子病历系统存储的疾病诊断数据最多保证了本次就诊数据的完备性，而当数据融合在一起时，疾病诊断编码对应的诊断名称或将不再唯一，造成诊断名称不再唯一的原因包括了各电子病历系统厂商设计差异、诊断编码系统院内差异、诊断名称书写习惯差异等。另一方面，现有的医院信息系统中，其诊断编码普遍以世界卫生组织发布的疾病和有关健康问题的国际统计分类(ICD-10)为标准，但其规定的ICD-10编码系统只保证亚目(四位码)的标准性，五位及以上的编码可以根据国家、地区、医院进行内部编码，这对诊断编码和诊断名称的唯一性提出了挑战。

随着数据的进一步整合，对医疗数据的利用的诉求日益增长，靠人工经验核对诊断编码和诊断名称已无法适应增长过快的数据治理需求，因此构建逻辑匹配技术迫在眉睫。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

本发明的目的在于解决上述问题，提供了一种诊断编码和诊断名称匹配的方法和系统，使诊断编码和诊断名称的数据治理自动化，提高治理的效率，避免人工处理因个人经验造成的不确定性，提高了数据分析利用的价值。

本发明的技术方案为：本发明揭示了一种诊断编码和诊断名称匹配的方法，包括：

获取医院的诊断记录，所述诊断记录包括医院编码、诊断编码以及诊断名称；

将所述医院编码、诊断编码以及诊断名称与预置的五元组匹配表相匹配，其中，所述五元组匹配表按照预设规则生成，所述五元组匹配表的内容包括医院编码、原始诊断编码、原始诊断名称、标准诊断编码、标准诊断名称；

若所述医院编码、诊断编码以及诊断名称分别等于所述五元组匹配表中的医院编码、原始诊断编码、原始诊断名称，则将所述诊断编码和所述诊断名称分别替换为所述标准诊断编码和所述标准诊断名称。

根据本发明的诊断编码和诊断名称匹配的方法的一实施例，所述五元组匹配表按照预设规则的生成步骤包括：

获取医院各年份的历年数据，判断历年数据与基准年份的编码版本是否发生变更，若没有发生变更，则基于各年份的历年数据中的诊断编码、对应诊断名称的所有组合及其组合对应的就诊量构造决策矩阵；

计算每个诊断编码对应的不同诊断名称的组内占比，记为G_ratio属性，判断所述诊断名称的G_ratio属性是否不小于预设阈值T₃，若是，则标记对应的诊断编码为1，其余为0，并记为属性Rule₁；

在所述决策矩阵中，剔除满足Rule₁＝1的诊断编码对应的数据之后，对剩余的每个诊断编码按照G_ratio属性从大到小排序，记为G_rank属性，如果满足

{G_ratio|G_rank＝2}×T≤{G_ratio|G_rank＝1}

则G_rank＝1所对应的诊断名称为排序最优诊断名称，标记满足G_rank＝1所对应的诊断名称为1，其余为0，并记为属性Rule₂，其中，{G_ratio|G_rank＝1}表示G_rank＝1所对应的G_ratio属性，{G_ratio|G_rank＝2}表示G_rank＝2所对应的G_ratio属性，T为采用统计经验确定的倍数；

在所述决策矩阵中，剔除满足Rule₂＝1的诊断编码对应的数据之后，提取G_ratio属性大于预设阈值T₅的诊断编码和诊断名称，并将每一个诊断编码提取诊断名称相似度超过预设阈值T₆的所有诊断名称中就诊量最多的诊断名称作为相似度最优诊断名称，标记选择的相似度最优诊断名称为1，其余为0，并记为属性Rule₃；

在所述决策矩阵中，剔除满足Rule₃＝1的诊断编码对应的数据之后，获取专家经验规则Rule₄，提取决策矩阵中所有Rule₁＝1或Rule₂＝1或Rule₃＝1时所有的诊断编码和诊断名称，合并专家经验规则Rule₄的诊断编码和诊断名称形成标准诊断编码和诊断名称对应表，并将所述决策矩阵中Rule₁＝1或Rule₂＝1或Rule₃＝1对应编码其他的诊断名称作为标准诊断名称，形成所述五元组匹配表。

根据本发明的诊断编码和诊断名称匹配的方法的一实施例，所述判断历年数据与基准年份的编码版本是否发生变更包括：

基于历年数据中每个年份的每个诊断编码的就诊量与基准年份相同诊断编码的就诊量获取同比变化量；

将所述每年的同比变化量与预设的变化截点值相比较，如果所述同比变化量不大于所述预设的变化截点值，则获取该年份诊断编码不大于预设的变化截点值的唯一诊断编码的数量和该年份所有唯一诊断编码数量之比V_ratio；

如果V_ratio大于预设阈值T₂，则该年份的编码版本与基准年份的编码版本未发生变更。

根据本发明的诊断编码和诊断名称匹配的方法的一实施例，所述预设的变化截点值为预设年份所有诊断编码的就诊量从大到小排列下的累积和在当年所有就诊量中的占比达到预设阈值T₁情况下的最小的同比变化量。

根据本发明的诊断编码和诊断名称匹配的方法的一实施例，所述预设阈值T₁为(0.5，1)，所述预设阈值T₂的范围为(0.5，1)，所述预设阈值T₃的范围为(0.5，1)，所述预设阈值T₅的范围为[0.1，0.5)，所述预设阈值T₆的范围为(0.5，1)。

根据本发明的诊断编码和诊断名称匹配的方法的一实施例，所述T为采用统计经验确定的倍数包括：

在按照{G_ratio|G_rank＝1}/{G_ratio|G_rank＝2}从大到小的排列下，将G_rank＝1，2对应的就诊量之和占所有就诊量之比大于预设阈值T₄的情况下的最小的{G_ratio|G_rank＝1}/{G_ratio|G_rank＝2}比值作为倍数T的统计经验值。

根据本发明的诊断编码和诊断名称匹配的方法的一实施例，所述预设阈值T₄的范围为(0.5，1)。

根据本发明的诊断编码和诊断名称匹配的方法的一实施例，判断相似度超过预设阈值T₆中的相似系数为Jaro Winkler相似性sim_jw∈[0，1]，0表示没有任何字符是相匹配的，1表示完全匹配。

本发明还揭示了一种诊断编码和诊断名称匹配的系统，包括：

诊断记录获取模块，获取医院的诊断记录，所述诊断记录包括医院编码、诊断编码以及诊断名称；

匹配模块，将所述医院编码、诊断编码以及诊断名称与预置的五元组匹配表相匹配，其中，所述五元组匹配表按照预设规则生成，所述五元组匹配表的内容包括医院编码、原始诊断编码、原始诊断名称、标准诊断编码、标准诊断名称；

替换模块，若所述医院编码、诊断编码以及诊断名称分别等于所述五元组匹配表中的医院编码、原始诊断编码、原始诊断名称，则将所述诊断编码和所述诊断名称分别替换为所述标准诊断编码和所述标准诊断名称。

本发明还揭示了一种诊断编码和诊断名称匹配的系统，包括一计算设备以及运行于该计算设备上的一计算机程序，所述算机程序在计算设备上运行后执行如上所述的方法。

本发明对比现有技术有如下的有益效果：本发明利用诊断编码版本检测技术，探查现有诊断编码系统是否发生过重大版本变更，其次，在保证未发生版本变更的情况下，利用逻辑匹配逻辑来寻找诊断编码对应的最优诊断名称，使得诊断编码与诊断名称在所处理的数据中达到自洽性。使诊断编码和诊断名称的数据治理自动化，提高治理的效率，避免人工处理因个人经验造成的不确定性，提高了数据分析利用的价值。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1示出了本发明的诊断编码和诊断名称匹配的方法的一实施例的流程图。

图2示出了本发明的诊断编码和诊断名称匹配的系统的一实施例的结构图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

图1示出了本发明的诊断编码和诊断名称匹配的方法的一实施例的流程，请参见图1，本实施例的方法的实施步骤详述如下。

步骤S101：获取医院的诊断记录。

诊断记录包括但不限于医院编码、诊断编码以及诊断名称。

优选地，获取医院的诊断记录的数据来源为医疗健康大数据中心或医院临床数据中心。

步骤S103：将医院编码、诊断编码以及诊断名称与预置的五元组匹配表相匹配。

本步骤中的五元组匹配表按照预设规则生成，五元组匹配表的内容如下：

(医院编码、原始诊断编码、原始诊断名称、标准诊断编码、标准诊断名称)。

在本实施例中，五元组匹配表按照预设规则的生成过程包括如下步骤。

获取医院各年份的历年数据，判断历年数据与基准年份的编码版本是否发生变更，若没有发生变更，则基于各年份的历年数据中的诊断编码、对应诊断名称的所有组合及其组合对应的就诊量构造决策矩阵。

计算每个诊断编码对应的不同诊断名称的组内占比，记为G_ratio属性，判断诊断名称的G_ratio属性是否不小于预设阈值T₃，若是，则标记诊断编码为1，其余为0，并记为属性Rule₁。

在决策矩阵中，剔除满足Rule₁＝1的诊断编码对应的数据之后，对剩余的每个诊断编码按照G_ratio属性从大到小排序，记为G_rank属性，如果满足

{G_ratio|G_rank＝2}×T≤{G_ratio|G_rank＝1}

则G_rank＝1所对应的诊断名称为排序最优诊断名称，标记满足G_rank＝1所对应的诊断名称为1，其余为0，并记为属性Rule₂，其中，{G_ratio|G_rank＝1}表示G_rank＝1所对应的G_ratio属性，{G_ratio|G_rank＝2}表示G_rank＝2所对应的G_ratio属性，T为采用统计经验确定的倍数。

在决策矩阵中，剔除满足Rule₂＝1的诊断编码对应的数据之后，提取G_ratio属性大于预设阈值T₅的诊断编码和诊断名称，并将每一个诊断编码提取诊断名称相似度超过预设阈值T₆的所有诊断名称中就诊量最多的诊断名称作为相似度最优诊断名称，标记选择的相似度最优诊断名称为1，其余为0，并记为属性Rule₃。

在决策矩阵中，剔除满足Rule₃＝1的诊断编码对应的数据之后，获取专家经验规则Rule₄，提取决策矩阵中所有Rule₁＝1或Rule₂＝1或Rule₃＝1时所有的诊断编码和诊断名称，合并专家经验规则Rule₄的诊断编码和诊断名称形成标准诊断编码和诊断名称对应表，并将决策矩阵中Rule₁＝1或Rule₂＝1或Rule₃＝1对应编码其他的诊断名称作为标准诊断名称，形成如下五元组的匹配表：

优选地，上述的判断历年数据与基准年份的编码版本是否发生变更的判断过程包括如下步骤。

基于历年数据中每个年份的每个诊断编码的就诊量与基准年份相同诊断编码的就诊量获取同比变化量。

将每年的同比变化量与预设的变化截点值相比较，如果同比变化量不大于预设的变化截点值，则获取该年份诊断编码不大于预设的变化截点值的唯一诊断编码的数量和该年份所有唯一诊断编码数量之比V_ratio。

在本实施例中，预设的变化截点值为预设年份所有诊断编码的就诊量从大到小排列下的累积和在当年所有就诊量中的占比达到预设阈值T₁情况下的最小的同比变化量。

优选地，预设阈值T₁的范围为(0.5，1)，预设阈值T₂的范围为(0.5，1)，预设阈值T₃的范围为(0.5，1)，预设阈值T₅的范围为[0.1，0.5)，预设阈值T₆的范围为(0.5，1)。

在本实施例中，T为采用统计经验确定的倍数包括如下步骤。

在按照{G_ratio|G_rank＝1}/{G_ratio|G_rank＝2}从大到小的排列下，将G_rank＝1，2对应的就诊量之和占所有就诊量之比大于预设阈值T₄的情况下的最小的{G_ratio|G_rank＝1}/{G_ratio|G_rank＝2}比值作为倍数T的统计经验值，其中预设阈值T₄的范围为(0.5，1)。

为了提高所选排序最优诊断名称的可信度，优选将{G_ratio|G_rank＝2}设置为大于预设阈值的值。

在本实施例中，判断相似度超过预设阈值T₆中的相似系数为Jaro Winkler相似性sim_jw∈[0，1]，0表示没有任何字符是相匹配的，1表示完全匹配。其计算方式如下：

对于任意两个诊断名称s₁和s₂，其Jaro相似性定义为

这里，|s₁|与|s₂|分布是字符串s₁与s₂的长度。m是匹配字符的个数，t是换位数目的一半。

匹配窗口的计算公式为：

当两个字符串做匹配计算时，当两个字符的距离不大于匹配窗口时认为是匹配的。当两个字符串相匹配但字符位置不一样时发生换位操作时，t为发生换位匹配字符数目的一半。

Jaro Winkler相似性是Jaro相似性的扩展，其予了起始部分就相同的字符串更高的分数，其定义一个字符串前缀范围p，对于要匹配的两个字符串，如果前缀部分有长度为l的部分字符串相同，则Jaro Winkler相似性为sim_jw＝sim_j+(l×p×(1-sim_j))

这里sim_j为两个字符串的Jaro距离，l为前缀部分匹配的长度，p为一个范围因子常量，用来调整前缀匹配的权值，但p的值不能超过0.25，否则使得sim_jw＞1，Winkler的标准默认设置值为p＝0.1。

优选地，诊断编码名称的匹配效果采用修正比例来度量，修正比例定义为逻辑匹配后的匹配比例与原始数据中诊断编码和诊断名称匹配的比例之差。

值得一提的是，专家经验规则Rule₄首先选定需要采用经验处理的诊断编码，即就诊量超过预设阈值T₇、诊断名称种类超过预设阈值T₈，可对治理效果有明显提升的诊断编码纳入经验规则的处理范畴，引入专家经验，形成诊断编码和诊断名称匹配的经验规则Rule₄，其中，选定预设阈值T₇、预设阈值T₈的确定是采用累积分布函数来确定。

步骤S105：若医院编码、诊断编码以及诊断名称分别等于五元组匹配表中的医院编码、原始诊断编码、原始诊断名称，则将诊断编码和诊断名称分布替换为标准诊断编码和标准诊断名称。

图2示出了本发明的诊断编码和诊断名称匹配的系统的一实施例的结构，请参见图2，本实施例的系统包括：诊断记录获取模块、匹配模块、替换模块。

诊断记录获取模块用于获取医院的诊断记录，所述诊断记录包括医院编码、诊断编码以及诊断名称。

匹配模块用于将所述医院编码、诊断编码以及诊断名称与预置的五元组匹配表相匹配，其中，所述五元组匹配表按照预设规则生成，所述五元组匹配表的内容包括医院编码、原始诊断编码、原始诊断名称、标准诊断编码、标准诊断名称。

匹配模块中还包括五元组匹配表生成单元，五元组匹配表生成单元被配置为执行以下的步骤。

第一步，获取医院各年份的历年数据，判断历年数据与基准年份的编码版本是否发生变更，若没有发生变更，则基于各年份的历年数据中的诊断编码、对应诊断名称的所有组合及其组合对应的就诊量构造决策矩阵。

在本步骤中，判断历年数据与基准年份的编码版本是否发生变更需要执行以下的步骤：

将每年的同比变化量与预设的变化截点值(预设的变化截点值为预设年份所有诊断编码的就诊量从大到小排列下的累积和在当年所有就诊量中的占比达到预设阈值T₁情况下的最小的同比变化量)相比较，如果同比变化量不大于预设的变化截点值，则获取该年份诊断编码不大于预设的变化截点值的唯一诊断编码的数量和该年份所有唯一诊断编码数量之比V_ratio；

第二步，计算每个诊断编码对应的不同诊断名称的组内占比，记为G_ratio属性，判断诊断名称的G_ratio属性是否不小于预设阈值T₃，若是，则标记对应的诊断编码为1，其余为0，并记为属性Rule₁。

第三步，在决策矩阵中，剔除满足Rule₁＝1的诊断编码对应的数据之后，对剩余的每个诊断编码按照G_ratio属性从大到小排序，记为G_rank属性，如果满足

{G_ratio|G_rank＝2}×T≤{G_ratio|G_rank＝1}

在本步骤中，T为采用统计经验确定的倍数包括：在按照{G_ratio|G_rank＝1}/{G_ratio|G_rank＝2}从大到小的排列下，将G_rank＝1，2对应的就诊量之和占所有就诊量之比大于预设阈值T₄的情况下的最小的{G_ratio|G_rank＝1}/{G_ratio|G_rank＝2}比值作为倍数T的统计经验值。

第四步，在决策矩阵中，剔除满足Rule₂＝1的诊断编码对应的数据之后，提取G_ratio属性大于预设阈值T₅的诊断编码和诊断名称，并将每一个诊断编码提取诊断名称相似度超过预设阈值T₆的所有诊断名称中就诊量最多的诊断名称作为相似度最优诊断名称，标记选择的相似度最优诊断名称为1，其余为0，并记为属性Rule₃。

其中判断相似度超过预设阈值T₆中的相似系数为Jaro Winkler相似性sim_jw∈[0，1]，0表示没有任何字符是相匹配的，1表示完全匹配。

第五步，在决策矩阵中，剔除满足Rule₃＝1的诊断编码对应的数据之后，获取专家经验规则Rule₄，提取决策矩阵中所有Rule₁＝1或Rule₂＝1或Rule₃＝1时所有的诊断编码和诊断名称，合并专家经验规则Rule₄的诊断编码和诊断名称形成标准诊断编码和诊断名称对应表，并将决策矩阵中Rule₁＝1或Rule₂＝1或Rule₃＝1对应编码其他的诊断名称作为标准诊断名称，形成五元组匹配表。

在上述的处理中，预设阈值T₁为(0.5，1)，预设阈值T₂的范围为(0.5，1)，预设阈值T₃的范围为(0.5，1)，预设阈值T₄的范围为(0.5，1)，预设阈值T₅的范围为[0.1，0.5)，预设阈值T₆的范围为(0.5，1)。

替换模块中，若医院编码、诊断编码以及诊断名称分别等于五元组匹配表中的医院编码、原始诊断编码、原始诊断名称，则将诊断编码和诊断名称分别替换为标准诊断编码和标准诊断名称。

此外，本发明还揭示了诊断编码和诊断名称匹配的系统的一实施例的结构，本实施例的系统包括一计算设备以及运行于该计算设备上的一计算机程序，计算机程序在该计算设备上运行后执行如图1所示实施例的方法。由于图1所示实施例在前述内容中已经详细描述，在此不再赘述。

为了进一步理解本发明的诊断编码和诊断名称匹配的方法，下面以以糖尿病大数据中心中2013年至2017年的就诊诊断数据为例，说明本发明中一些阈值、倍数等常量的设定以及说明本发明所提的逻辑匹配技术对糖尿病大数据中心诊断疾病和诊断名称的提升效果。

1、诊断编码版本检测的实施过程包括：

首先按医院提取诊断数据中所有的诊断编码按年的就诊量数据，形成诊断编码版本判别矩阵D，对于任意一家医院H_i，诊断编码版本判别矩阵D_i举例如下：

这里，诊断编码版本判别矩阵D_i的行表示医院H_i的所有唯一诊断编码各年的就诊量，列表示2013年至2017年各年所有唯一诊断编码的就诊量。n为医院H_i所有唯一的诊断编码数量，C_i，j表示编码i在第j年的就诊量，C_i，j∈[0，V]，i∈[1，n]，j∈[2013，2014，2015，2016，2017]，意味着某年某个编码的就诊量可能为0或不存在此编码，但小于该医院所有就诊量和V。

其次，以2017年的为基准年份，计算历年各个诊断编码就诊量与相同编码的基准值的同比变化量，即计算P_i，y＝C_i，y/C_i，2017的值，y∈[2013，2014，2015，2016]。

接着，将各年份诊断编码对应的就诊量根据P_i，y从大到小的顺序排序，计算各年的编码就诊量累积和，当累积和占当年所有就诊量之比达到阈值T₁＝0.95时选择最小的同比变化量为预设的变化截点值，意味着某个诊断编码的同比变化量大于该预设的变化截点值时，该年份该诊断编码出现了断崖式下跌，即超过了诊断编码对应就诊量的下跌范围。

最后，以预设的变化截点值为基准，计算各年份所有编码的P_i，y不大于预设的变化截点值的唯一诊断编码数量与该年份所有唯一诊断编码数量之比V_ratio，如果V_ratio＞T₂，则认为该年份的编码相较于基准年份未发生版本变更。在本次具体实施中，阈值T₂设定为0.9，则各医院各年份V_ratio值版本检测结果如下：

表1各医院各年份V_ratio值

医院编码	2013	2014	2015	2016
					RUI	96.0％	98.5％	98.9％	99.5％
OFT	96.7％	97.9％	98.5％	99.2％
					ICE	95.2％	97.7％	98.3％	98.9％
CHI	98.0％	97.8％	95.8％	97.3％
					BUT	92.9％	92.4％	97.6％	98.7％
MET	96.1％	95.6％	94.0％	94.4％
					ORL	99.0％	98.5％	99.1％	99.2％
ERC	93.9％	91.2％	96.3％	97.1％
					WOR	96.3％	98.2％	99.1％	98.7％

可以看出各医院各年份V_ratio值均小于0.9，因此各医院诊断编码各年无版本变更。

2、逻辑匹配的实施，逻辑匹配用于对版本恒定的历年数据进行诊断编码和诊断名称的逻辑匹配，其包含具体步骤如下：

首先，整合各医院各年诊断编码和对应诊断名称的所有组合及其组合对应的就诊量构造决策矩阵其中A_h表示第h家医院的决策矩阵，H为医院数目。

这里N表示第h家医院所有不同诊断编码数，G_i表示的是第i个诊断编码对应所有组合的就诊量和组内占比矩阵，即：

这里V_j表示第j个诊断编码组合对应的就诊量，R_j表示第j个诊断编码组合对应的就诊量组内占比，M是一个诊断编码对应的所有不同组合数，且M≥1。对于任意第h家医院，记录所有诊断编码组合对应的组内占比为G_ratio属性，即G_ratio为所有N×M个组内占比R_j组成的列向量。

其次，在随机现象的大量重复中往往出现几乎必然的规律，因此认为在同一家医院里，某个诊断编码对应的诊断名称出现的几率达到预设阈值T₃后，该诊断名称就是必然的规律，即排序最优诊断名称。基于此，对每一个诊断编码，标记G_ratio不小于预设阈值T₃的诊断编码说明为1，其余为0，并记为属性Rule₁。在本次具体实施时，选取的预设阈值T₃＝0.8，那么则将第i个诊断编码对应的组内占比矩阵G_i中任意一个R_j≥0.8的诊断编码说明标记为1，其余为0，示例如下，值得注意的是，为便于描述，本发明实施例在此将其自定义为大数规则：

表2大数规则实施举例

再次，在决策矩阵中，剔除满足Rule₁＝1的诊断编码对应的数据，即如果G_i中任意一个R_j≥T₃，则将G_i从矩阵A_h中剔除，进而对每个诊断编码组内按照G_ratio从大到小排序，记为G_rank属性。在本次具体实施中，在选取预设阈值T₄＝0.9的情况下，根据统计经验，倍数T取下整后等于3，取下整的目的是减少对G_ratio本身精度的影响，避免了因精度计算而引起的无法识别倍数规则的问题，同时也一定程度上提高了倍数规则的识别效率，优选地，{G_ratio|G_rank＝2}设定的最小阈值为0.1，防止倍数原则发现的诊断名称出现的比例过低。

基于此，对每一个诊断编码，标记满足倍数规则下G_rank＝1所对应的诊断名称为1，其余为0，并记为属性Rule₂，为便于描述，本发明实施例在此将其自定义为倍数规则，示例如下：

表3倍数规则实施举例

从次，在决策矩阵中，剔除满足Rule₁＝1或Rule₂＝1的诊断编码对应的数据，在提取G_ratio大于预设阈值T₅的诊断编码和诊断名称，对每一个编码提取诊断名称相似度超过阈值T₆的所有诊断名称中就诊量最多的诊断名称作为相似度最优诊断名称，标记选择的相似度最优诊断名称为1，其余为0，并记为属性Rule₃。

在本次具体实施中，选定的T₅＝0.2，T₆＝0.8。采用的诊断名称相似度度量算法为Jaro Winkler相似性，为便于描述，本发明实施例在此将其自定义为字符串相似度规则，字符串相似度规则是指一个诊断编码的诊断名称要符合当前诊断编码所对应的疾病系统，意味着所选择的最优诊断名称不能超出该编码所对应的疾病系统范围，示例如下：

表4字符串相似度规则实施举例

再次，在决策矩阵中，剔除满足Rule₁＝1或Rule₂＝1或Rule₃＝1的诊断编码对应的数据，利用专家经验规则Rule₄进一步匹配，也即选定需要采用经验处理的编码，即就诊量超过预设阈值T₇、诊断名称种类超过预设阈值T₈，可对治理效果有明显提升的编码纳入经验规则的处理范畴，引入专家经验，形成诊断编码和诊断名称匹配的经验规则Rule₄。

在本次具体实施中，经就诊量累积分布函数在达到95％的情况下，最小的就诊量为预设阈值T₇，经编码对应的诊断名称种类数的累积分布函数在达到95％的情况下，最小的诊断名称种类数为预设阈值T₈，此条件下共计获得48条经验规则，如下所示：

表5 48条经验规则

最后，提取决策矩阵中所有Rule₁＝1或Rule₂＝1或Rule₃＝1时所有的诊断编码和诊断名称，合并Rule₄的诊断编码和诊断名称形成标准诊断编码和诊断名称对应表，并将决策矩阵中Rule₁＝1或Rule₂＝1或Rule₃＝1对应编码其他的诊断名称作为标准诊断名称，形成五元组匹配表。

在实际匹配时，当医疗健康大数据中心或医院临床数据中心中的诊断记录中，当医院编码、诊断编码、诊断名称分别等于五元组的匹配表的医院编码、原始诊断编码、原始诊断名称时，将原始诊断编码、原始诊断名称分布替换为标准诊断编码、标准诊断名称。在本次具体实施中，以修正比例为度量标准，逻辑匹配的效果如下：

表6实施例诊断编码和诊断名称逻辑匹配效果

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中，处理器和存储介质可作为分立组件驻留在用户终端中。

在一个或多个示例性实施例中，所描述的功能可在硬件、软件、固件或其任何组合中实现。如果在软件中实现为计算机程序产品，则各功能可以作为一条或更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限定，这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来，则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟(DVD)、软盘和蓝光碟，其中盘(disk)往往以磁的方式再现数据，而碟(disc)用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种诊断编码和诊断名称匹配的方法，其特征在于，包括：

若所述医院编码、诊断编码以及诊断名称分别等于所述五元组匹配表中的医院编码、原始诊断编码、原始诊断名称，则将所述诊断编码和所述诊断名称分别替换为所述标准诊断编码和所述标准诊断名称；

其中，所述五元组匹配表按照预设规则的生成步骤包括：

{G_ratio|G_rank＝2}×T≤{G_ratio|G_rank＝1}

2.根据权利要求1所述的诊断编码和诊断名称匹配的方法，其特征在于，所述判断历年数据与基准年份的编码版本是否发生变更包括：

3.根据权利要求2所述的诊断编码和诊断名称匹配的方法，其特征在于，所述预设的变化截点值为预设年份所有诊断编码的就诊量从大到小排列下的累积和在当年所有就诊量中的占比达到预设阈值T₁情况下的最小的同比变化量。

4.根据权利要求3所述的诊断编码和诊断名称匹配的方法，其特征在于，所述预设阈值T₁为(0.5,1)，所述预设阈值T₂的范围为(0.5,1)，所述预设阈值T₃的范围为(0.5,1)，所述预设阈值T₅的范围为[0.1,0.5)，所述预设阈值T₆的范围为(0.5,1)。

5.根据权利要求1所述的诊断编码和诊断名称匹配的方法，其特征在于，所述T为采用统计经验确定的倍数包括：

在按照{G_ratio|G_rank＝1}/{G_ratio|G_rank＝2}从大到小的排列下，将G_rank＝1,2对应的就诊量之和占所有就诊量之比大于预设阈值T₄的情况下的最小的{G_ratio|G_rank＝1}/{G_ratio|G_rank＝2}比值作为倍数T的统计经验值。

6.根据权利要求5所述的诊断编码和诊断名称匹配的方法，其特征在于，所述预设阈值T₄的范围为(0.5,1)。

7.根据权利要求1所述的诊断编码和诊断名称匹配的方法，其特征在于，判断相似度超过预设阈值T₆中的相似系数为Jaro Winkler相似性sim_jw∈[0,1]，0表示没有任何字符是相匹配的，1表示完全匹配。

8.一种诊断编码和诊断名称匹配的系统，其特征在于，包括：

替换模块，若所述医院编码、诊断编码以及诊断名称分别等于所述五元组匹配表中的医院编码、原始诊断编码、原始诊断名称，则将所述诊断编码和所述诊断名称分别替换为所述标准诊断编码和所述标准诊断名称；

其中，所述五元组匹配表按照预设规则的生成步骤包括：

{G_ratio|G_rank＝2}×T≤{G_ratio|G_rank＝1}

则G_rank＝1所对应的诊断名称为排序最优诊断名称，标记满足G_rank＝1所对应的诊断名称为1，其余为0，并记为属性Rule₂，其中，{G_ratio|G_rank＝1}表示G_rank＝1所对应的G_ratio属性，{G_ratio|G_ramk＝2}表示G_ramk＝2所对应的G_ratio属性，T为采用统计经验确定的倍数；

9.一种诊断编码和诊断名称匹配的系统，其特征在于，包括一计算设备以及运行于该计算设备上的一计算机程序，所述计算机程序在该计算设备上运行后执行如权利要求1至7中任一项所述的方法。