CN111046882A

CN111046882A - 基于剖面隐式马尔科夫模型的疾病名称标准化方法和系统

Info

Publication number: CN111046882A
Application number: CN201911232361.8A
Authority: CN
Inventors: 邓柯; 李祺; 刘军
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-04-21
Anticipated expiration: 2039-12-05
Also published as: CN111046882B

Abstract

本发明提供一种基于剖面隐式马尔科夫模型的疾病名称标准化方法和系统，所述方法包括：获取电子病历，从电子病历中提取待处理的疾病名称；将待处理的疾病名称输入多个剖面隐式马尔科夫模型，分别计算待处理的疾病名称在不同标准疾病编码下的条件概率，其中每一个剖面隐式马尔科夫模型对应一个标准疾病编码；根据所述疾病名称在不同标准疾病编码下的条件概率与不同标准疾病编码的先验概率，利用贝叶斯公式计算所述疾病名称属于所述不同标准疾病编码的后验概率；根据所述后验概率得到所述疾病名称对应的概率最大的标准疾病编码。通过所述方法，当医生输入的疾病名称不是标准化的疾病名称时，本方法能够智能地识别出疾病名称对应的标准疾病编码。

Description

基于剖面隐式马尔科夫模型的疾病名称标准化方法和系统

技术领域

本发明涉及疾病名称标准化领域，具体涉及一种基于剖面隐式马尔科夫模型的疾病名称标准化方法和一种基于剖面隐式马尔科夫模型的疾病名称标准化系统。

背景技术

对于电子病历的系统研究有助于我们更加系统的了解各种疾病在人群中的发生和传播情况，从而为公共卫生环境的改善提供帮助。在电子病历的研究中，对于疾病名称的识别是十分重要的一环。为了便于世界各地区人民之间医疗技术的沟通与交流，世界卫生组织根据各种疾病的病因、病理、临床表现和解剖位置等特性，将疾病名称分门别类，制定了一套国际统一的疾病分类编码方法和疾病分类编码系统，目前使用的是第10次修订本《疾病和有关健康问题的国际统计分类》(International Classification of Diseases)简称ICD-10，所述疾病分类编码系统是用字母加数字的方法对疾病进行编码。然而在实际电子病历的录入时，由于不同国家不同地区医生的命名习惯不同以及录入时间有限等原因，医生在系统中输入的疾病名称常常与标准名称并不一致，这种名称使用上的不统一虽然不会给医务工作者之间的交流带来太多困难，但是却会给电子病历的研究人员带来了很大困扰，由于医生录入病例的时间紧张，难免会发生多字，少字或者错别字的情况，这些疾病名称的录入的多样性及错误的疾病名称会给标准疾病编码的识别带来额外的困难，如何智能的识别出非标准的疾病名称对应的标准疾病编码是急需解决的技术问题。

发明内容

鉴于以上内容，有必要提出一种基于剖面隐式马尔科夫模型的疾病名称标准化方法及一种基于剖面隐式马尔科夫模型的疾病名称标准化系统，在将疾病名称转化成标准疾病编码的过程中，当疾病名称为非标准化疾病名称时，能智能地识别出对应的标准疾病编码。

本申请的第一方面提供一种基于剖面隐式马尔科夫模型的疾病名称标准化方法，所述方法包括：

获取电子病历，从所述电子病历中提取待处理的疾病名称；

将所述待处理的疾病名称输入多个剖面隐式马尔科夫模型，分别计算所述待处理的疾病名称在不同标准疾病编码下的条件概率，其中每一个剖面隐式马尔科夫模型对应一个标准疾病编码；

根据所述疾病名称在不同标准疾病编码下的条件概率与不同标准疾病编码的先验概率，利用贝叶斯公式计算所述疾病名称属于所述不同标准疾病编码的后验概率；及

根据所述后验概率得到所述疾病名称对应的概率最大的标准疾病编码。

优选地，所述不同标准疾病编码位于疾病分类编码树下，所述疾病分类编码树包括多层结构，每层结构包括多个节点，每一个节点对应一个标准疾病编码，每一个标准疾病编码对应一个剖面隐式马尔科夫模型。

优选地，所述剖面隐式马尔科夫模型的训练方法包括：

获取多组历史电子病历，从所述历史电子病历中提取多组历史疾病名称、与所述历史疾病名称对应的疾病编码、以及所述每个历史疾病名称出现的频数；

根据所述历史疾病名称、与所述历史疾病名称对应的疾病编码，以及所述疾病名称出现的频数构建疾病编码到疾病名称的映射列表；

对所述映射列表中的数据进行预设次数的交叉验证，在每次交叉验证中将所述数据分为训练集和验证集；

建立剖面隐式马尔科夫模型，并利用所述训练集中的数据对所述剖面隐式马尔科夫模型中的参数进行训练；

利用训练后的所述剖面隐式马尔科夫模型对所述验证集中的疾病名称对应的标准疾病编码进行预测，并将所述预测的疾病名称对应的标准疾病编码与验证集中疾病名称对应的疾病编码进行比对；

若经过比对，所述预测的疾病名称的标准疾病编码与验证集中疾病名称对应的疾病编码不一致，则需要接收用户输入的指令对所述不一致的数据中的疾病名称或所述疾病名称对应的疾病编码进行修正，将修正后的疾病名称或所述疾病名称对应的疾病编码重新代入所述剖面隐式马尔科夫模型进行预测，其中所述修正的内容包括：更正疾病名称的描述方式、更正与疾病名称不匹配的疾病编码中的一项或多项。

优选地，利用所述训练集中的数据对所述剖面隐式马尔科夫模型进行训练的步骤包括：

将同一标准疾病编码下的多个不同的疾病名称按照所述疾病名称出现的频数进行排序，所述不同的疾病名称包括标准疾病名称和非标准疾病名称；

按照排序顺序依次将疾病名称输入所述剖面隐式马尔科夫模型，训练出所述剖面隐式马尔科夫模型中不同状态之间的转移概率及不同状态下各个字符的生成概率，并得到所述标准疾病编码下的多个不同的疾病名称对应的状态转移关系，其中，所述状态包括替换、插入、删除中的任意一种，替换表示所述疾病名称与所述标准疾病名称对应位置都存在相同或者不同的字符；插入表示与标准疾病名称相比，所述疾病名称的对应位置添加了其他字符；删除表示所述疾病名称相比标准疾病名称在对应位置缺少字符；

根据所述转移概率和生成概率得到剖面隐式马尔科夫模型中产生不同字符串的生成概率。

优选地，将所述待处理的疾病名称输入多个剖面隐式马尔科夫模型，分别计算所述待处理的疾病名称在不同标准疾病编码下的条件概率的方法包括：

将所述待处理的疾病名称分别输入到多个剖面隐式马尔科夫模型；

根据每一剖面隐式马尔科夫模型中产生所述待处理的疾病名称的生成概率，计算所述待处理疾病名称在不同标准疾病编码的条件概率。

优选地，根据所述疾病名称在不同标准疾病编码下的条件概率与不同标准疾病编码的先验概率，利用贝叶斯公式计算所述疾病名称属于所述不同标准疾病编码的后验概率的步骤包括：

获取通过多个剖面隐式马尔科夫模型计算的所述疾病名称在不同标准疾病编码下的条件概率P(string|code)；

统计电子病历中所述疾病名称的先验概率P(code)；

通过如下贝叶斯公式计算所述疾病名称属于所述不同标准疾病编码的后验概率P(code|string)：

P(code|string)∝P(code)×P(string|code)。

优选地，所述方法还包括：

将所述疾病名称在所述标准疾病编码下的后验概率与一预设的概率阈值进行比较；

若所述疾病名称在所述标准疾病编码下的条件概率大于所述预设的概率阈值，则将从电子病历中获取的疾病名称与疾病编码的映射关系存储于高置信度列表中；若所述疾病名称在所述标准疾病编码框架下的条件概率的概率小于所述预设的概率，则将从电子病历中获取的疾病名称与疾病编码的映射关系存储于低置信度列表中；

接收用户输入的指令对低置信度列表中的疾病名称与疾病编码的映射关系进行更正后，将所述整理后的疾病名称与疾病编码的映射关系存储于高置信度列表中，其中更正的内容包括：更正疾病名称的描述方式、更正与疾病名称不匹配的疾病编码中的一项或多项。

本申请的第二方面提供一种基于剖面隐式马尔科夫模型的疾病名称标准化系统，所述系统包括：

获取模块，用于获取电子病历，从所述电子病历中提取待处理的疾病名称；

第一计算模块，用于将所述待处理的疾病名称输入多个剖面隐式马尔科夫模型，分别计算所述待处理的疾病名称在不同标准疾病编码下的条件概率，其中每一个剖面隐式马尔科夫模型对应一个标准疾病编码；

第二计算模块，用于根据所述疾病名称在不同标准疾病编码下的条件概率与不同标准疾病编码的先验概率，利用贝叶斯公式计算所述疾病名称属于所述不同标准疾病编码的后验概率；

预测模块，用于根据所述后验概率得到所述疾病名称对应的概率最大的标准疾病编码。

本发明基于剖面隐式马尔科夫模型的疾病名称标准化方法通过剖面隐式马尔科夫模型计算出疾病名称在不同标准疾病编码下的条件概率与所述疾病名称的先验概率，利用贝叶斯公式计算所述疾病名称属于所述不同标准疾病编码的后验概率；根据所述后验概率预测出所述疾病名称对应的标准疾病编码，可以在出现非标准疾病名称的情况下，例如医生在输入病历时输入的疾病名称出现多字、少字、错字等情况下，也智能地识别出所述非标准疾病名称对应的标准疾病编码。

附图说明

图1是本发明一实施方式提供的基于剖面隐式马尔科夫模型的疾病名称标准化方法的应用环境图。

图2是本发明实施例二提供的基于剖面隐式马尔科夫模型的疾病名称标准化方法流程图。

图3是本发明实施例二提供的疾病分类编码树下的剖面隐式马尔科夫模型架构图。

图4是本发明实施例二提供的剖面隐式马尔科夫模型状态转移结构示意图。

图5是本发明实施例三提供的基于剖面隐式马尔科夫模型的疾病名称标准化系统的结构示意图。

图6是本发明实施例四提供的用户终端示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例一

参阅图1所示，是本发明一实施方式提供的基于剖面隐式马尔科夫模型的疾病名称标准化方法的应用环境图。

本发明中的基于剖面隐式马尔科夫模型的疾病名称标准化方法应用在用户终端1中，所述用户终端1和一个计算机装置2通过网络建立通信连接。所述网络可以是有线网络，也可以是无线网络，例如无线电、无线保真(Wireless Fidelity,WIFI)、蜂窝、卫星、广播等。

所述用户终端1可以为安装有基于剖面隐式马尔科夫模型的疾病名称标准化方法的电子设备，包括但不限于智能手机、平板电脑、膝上型便捷计算机、台式计算机等。

所述计算机装置2可以为存储有电子病历的电子设备，例如个人电脑、服务器等，其中，所述服务器可以是单一的服务器、服务器集群或云服务器等。

实施例二

请参阅图2所示，是本发明实施例二提供的基于剖面隐式马尔科夫模型的疾病名称标准化方法流程图。根据不同的需求，所述流程图中步骤的顺序可以改变，某些步骤可以省略。

步骤S1、获取电子病历，从所述电子病历中提取待处理的疾病名称。

在本发明一实施方式中，获取电子病历的方法可以通过调取医院病历库中的病历信息，所述病历信息包含门诊病历信息和住院病历信息。提取所述病历信息中的疾病名称，对所述提取的疾病名称进行预处理，预处理的内容包括去除疾病名称中的空格、标点、符号信息。

步骤S2、将所述待处理的疾病名称输入多个剖面隐式马尔科夫模型，分别计算所述待处理的疾病名称在不同标准疾病编码下的条件概率，其中每一个剖面隐式马尔科夫模型对应一个标准疾病编码。

在本发明一实施方式中，所述剖面隐式马尔科夫模型的训练步骤可以包括：

获取多组历史电子病历，从所述历史电子病历中提取多组历史疾病名称、与所述历史疾病名称对应的疾病编码、以及所述每个历史疾病名称出现的频数；对所述提取的疾病名称和所述疾病名称对应的疾病编码进行预处理，预处理的内容可以包括去除疾病名称和疾病编码中多余的空格、标点、字符信息等多余字符信息。将经过预处理的疾病名称、所述疾病名称对应的疾病编码以及所述疾病名称出现的频数对应存储，根据所述历史疾病名称、与所述历史疾病名称对应的疾病编码，以及所述疾病名称出现的频数构建疾病编码到疾病名称的映射列表。

对所述映射列表中的数据进行预设次数的交叉验证，在每次交叉验证中将所述数据分为训练集和验证集，在一实施方式中，所述预设次数可以是5次，在又一实施方式中，所述预设次数可以是10次。建立剖面隐式马尔科夫模型，并利用所述训练集中的数据对所述剖面隐式马尔科夫模型中的参数进行训练。请参阅图3是疾病分类编码树下的剖面隐式马尔科夫模型架构图，图中PHMM为剖面隐式马尔科夫模型Profile Hidden Markov Model的简称。所述疾病分类编码树包括多层结构，每层结构包括多个节点，每一个节点对应一个标准疾病编码，每一个底层叶节点上的标准疾病编码对应一个剖面隐式马尔科夫模型。例如，在所述剖面隐式马尔科夫模型下，按照所述疾病分类编码树的结构将从电子病历中获取的疾病编码到疾病名称的映射列表中获取的训练集数据进行重新组织：将对应于同一标准疾病编码的不同疾病名称进行枚举，并按照在所述标准疾病编码下出现的频率进行排序。其中，排在首位的为标准疾病名称N₀，所述标准疾病名称为在ICD-10中文版中有明确规范的疾病名称，例如甲型副伤寒，标准疾病名称后面的数字F₀对应于在电子病历数据中所述标准疾病名称N₀与所述标准疾病名称对应的标准疾病编码发生关联的频数；其余(N_i,F_i)分别对应于该疾病编码的其他非标准疾病名称及其关联频数，例如在标准疾病编码A01.101下的标准疾病编码为甲型副伤寒，其他非标准疾病名称包括副伤寒甲、副伤寒(甲)等。

例如图3中，按照疾病名称出现的频数进行排序，排在第一位的是甲型副伤寒，频数为105，排在第二位的是副伤寒甲，频数为72，排在第三位的是副伤寒(甲)，频数是6。

按照排序顺序依次将疾病名称输入所述剖面隐式马尔科夫模型，训练出所述剖面隐式马尔科夫模型中不同状态之间的转移概率及不同状态下各个字符的生成概率，并得到所述标准疾病编码下的多个不同的疾病名称对应的状态转移关系，其中，所述状态关系包括替换、插入、删除中的任意一种。替换状态表示所述疾病名称与所述标准疾病名称对应位置都存在相同或者不同的字符，对应着医生遵循了标准疾病名称的规范进行了书写或者出现错别字的情况；插入表示在字符串生成过程中插入了额外的字符，所述额外的字符按照插入状态下各个字符的生成概率随机抽取得到，对应着医生对病人情况进行了额外的说明；而删除状态表示所述疾病名称相比标准疾病名称中缺少字符，对应着医生使用了某种疾病名称的缩写。其中替换状态和插入状态均会发射出一个实际看到的字符，而删除状态以概率1发射出一个空字符，所述空字符在实际数据的字符串中是不存在的。通过这三种状态交替出现可以组合出任意的字符序列。如图4所示是剖面隐式马尔科夫模型状态转移结构示意图，图中的每一条有向边上都对应着设定的转移概率权重，决定了一种状态到另外一种状态的生成动作序列过程的每一步进行不同选择的可能性；而每一个替换和插入状态上都对应着一定的生成概率权重，所述生成概率是指是在所述状态下选取不同字符的概率，所述不同字符是指所有汉字字符。根据所述转移概率和生成概率得到剖面隐式马尔科夫模型中产生不同字符串的生成概率。所述转移概率和生成概率基于每个标准疾病编码下的训练集数据进行估计得到。剖面隐式马尔科夫模型中相关的参数估计问题可以使用向前算法、向后算法以及Baum-Welch算法解决。在得到剖面隐式马尔科夫模型参数后，可以使用Viterbi算法得到每一个字符串从模型中产生的生成概率及其对应的状态序列。

利用训练后的所述剖面隐式马尔科夫模型对所述验证集中的疾病名称对应的标准疾病编码进行预测，并将所述预测的疾病名称对应的标准疾病编码与验证集中疾病名称对应的疾病编码进行比对；若经过比对，所述预测的疾病名称的标准疾病编码与验证集中疾病名称对应的疾病编码不一致，则需要接收用户输入的指令对所述不一致的数据中的疾病名称或所述疾病名称对应的疾病编码进行修正，将修正后的疾病名称或所述疾病名称对应的疾病编码重新代入所述剖面隐式马尔科夫模型进行预测，其中所述修正的内容包括：更正疾病名称的描述方式、更正与疾病名称不匹配的疾病编码中的一项或多项。例如将疾病名称甲型副伤寒错成了甲型副商函，将甲型副伤寒的标准疾病编码A01.101错写成了A01.100。

以上是剖面隐式马尔科夫模型的训练步骤，所述模型的创建过程可以离线完成。

将所述待处理的疾病名称输入多个剖面隐式马尔科夫模型，分别计算所述待处理的疾病名称在不同标准疾病编码下的条件概率的方法包括：

举例而言，将待处理的疾病名称副伤寒甲依次输入标准疾病编码A01.101对应的第一剖面隐式马尔科夫模型、A01.102对应的第二剖面隐式马尔科夫模型、A01.201对应的第三剖面隐式马尔科夫模型，依次类推，将所述待处理的疾病名称副伤寒甲输入到第N个剖面隐式马尔科夫模型，并依次计算并输出副伤寒甲在各个标准疾病编码下的条件概率。

步骤S3、根据所述疾病名称在不同标准疾病编码下的条件概率与不同标准疾病编码的先验概率，利用贝叶斯公式计算所述疾病名称属于所述不同标准疾病编码的后验概率。

在本发明一实施方式中，根据所述疾病名称在不同标准疾病编码下的条件概率与不同标准疾病编码的先验概率，利用贝叶斯公式计算所述疾病名称属于所述不同标准疾病编码的后验概率的步骤可以包括：

统计电子病历中所述疾病名称的先验概率P(code)；

P(code|string)∝P(code)×P(string|code)。

举例而言，通过步骤S3计算出副伤寒甲代入标准疾病编码A01.101对应的第一剖面隐式马尔科夫模型计算的生成概率为99％，副伤寒甲代入A01.102对应的第二剖面隐式马尔科夫模型计算的生成概率为0.1％，副伤寒甲代入A01.201对应的第三剖面隐式马尔科夫模型计算的生成概率为0.05％，在电子病历中统计所述疾病名称副伤寒甲的先验概率，所述先验概率可以从大量的实际数据以及经验总结中统计出所述疾病名称的发病概率，所述发病概率即为所述先验概率。将所述条件概率和先验概率依次代入上述贝叶斯公式，计算出所述疾病名称副伤寒甲在不同标准疾病编码下的后验概率。

所述步骤还包括，将所述疾病名称在所述标准疾病编码下的条件概率与一预设的概率阈值进行比较；

举例而言，通过剖面隐式马尔科夫模型计算的疾病名称为副伤寒甲在标准疾病编码A01.101的后验概率为87％，将所述后验概率与一预设的概率阈值进行比较，若所述疾病名称在所述标准疾病编码框架下的后验概率的概率大于预设的概率阈值，则将从电子病历中获取的疾病名称与疾病编码的映射关系存储于高置信度列表中；若所述疾病名称在所述标准疾病编码框架下的后验概率的概率小于预设的概率阈值，将从电子病历中获取的疾病名称与疾病编码的映射关系存储于低置信度列表中；接收用户输入的指令对低置信度列表中的疾病名称与疾病编码的映射关系进行更正后，将所述整理后的疾病名称与疾病编码的映射关系存储于高置信度列表中，其中更正的内容包括：更正疾病名称的描述方式、更正与疾病名称不匹配的疾病编码中的一项或多项。例如将疾病名称甲型副伤寒错成了甲型副商函，将甲型副伤寒的标准疾病编码A01.101错写成了A01.100。

步骤S4、根据所述后验概率得到所述疾病名称对应的概率最大的标准疾病编码。

根据所述后验概率预测出所述疾病名称所属的标准疾病编码，并将所述标准疾病编码对应的标准疾病名称进行输出。

上述图2-3详细介绍了本发明的基于剖面隐式马尔科夫模型的疾病名称标准化方法，下面结合第5-6图，对实现所述基于剖面隐式马尔科夫模型的疾病名称标准化方法的软件系统的功能模块以及实现所述基于剖面隐式马尔科夫模型的疾病名称标准化方法的硬件系统架构进行介绍。

应所述了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

实施例三

图5为本发明基于剖面隐式马尔科夫模型的疾病名称标准化系统较佳实施例的结构图。

在一些实施例中，基于剖面隐式马尔科夫模型的疾病名称标准化系统10运行于计算机系统中。所述计算机系统通过网络连接了多个用户终端。所述基于剖面隐式马尔科夫模型的疾病名称标准化系统10可以包括多个由程序代码段所组成的功能模块。所述基于剖面隐式马尔科夫模型的疾病名称标准化系统10中的各个程序段的程序代码可以存储于计算机系统的存储器中，并由所述至少一个处理器所执行，以实现基于剖面隐式马尔科夫模型的疾病名称标准化功能。

本实施例中，所述基于剖面隐式马尔科夫模型的疾病名称标准化系统10根据其所执行的功能，可以被划分为多个功能模块。参阅图5所示，所述功能模块可以包括：获取模块101、第一计算模块102、第二计算模块103、预测模块104。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

获取模块101，用于获取电子病历，并从所述电子病历中提取待处理的疾病名称。

第一计算模块102，用于将所述待处理的疾病名称输入多个剖面隐式马尔科夫模型，分别计算所述待处理的疾病名称在不同标准疾病编码下的条件概率，其中每一个剖面隐式马尔科夫模型对应一个标准疾病编码。

对所述映射列表中的数据进行预设次数的交叉验证，在每次交叉验证中将所述数据分为训练集和验证集，在一实施方式中，所述预设次数可以是5次，在又一实施方式中，所述预设次数可以是10次。建立剖面隐式马尔科夫模型，并利用所述训练集中的数据对所述剖面隐式马尔科夫模型中的参数进行训练。请参阅图3是疾病分类编码树下的剖面隐式马尔科夫模型架构图，图中PHMM为剖面隐式马尔科夫模型Profile Hidden Markov Model的简称。所述疾病分类编码树包括多层结构，每层结构包括多个节点，每一个节点对应一个标准疾病编码，每一个底层叶节点上的标准疾病编码对应一个剖面隐式马尔科夫模型。例如，在所述剖面隐式马尔科夫模型下，按照所述疾病分类编码树的结构将从电子病历中获取的疾病编码到疾病名称的映射列表中获取的训练集数据进行重新组织：将对应于同一标准疾病编码的不同疾病名称进行枚举，并按照在所述标准疾病编码下出现的频率进行排序。其中，排在首位的为标准疾病名称N_0，所述标准疾病名称为在ICD-10中文版中有明确规范的疾病名称，例如甲型副伤寒，标准疾病名称后面的数字F_0对应于在电子病历数据中所述标准疾病名称N_0与所述标准疾病名称对应的标准疾病编码发生关联的频数；其余(N_i,F_i)分别对应于该疾病编码的其他非标准疾病名称及其关联频数，例如在标准疾病编码A01.101下的标准疾病编码为甲型副伤寒，其他非标准疾病名称包括副伤寒甲、副伤寒(甲)等。

按照排序顺序依次将疾病名称输入所述剖面隐式马尔科夫模型，训练出所述剖面隐式马尔科夫模型中不同状态之间的转移概率及不同状态下各个字符的生成概率，并得到所述标准疾病编码下的多个不同的疾病名称对应的状态转移关系，其中，所述状态关系包括替换、插入、删除中的任意一种。替换状态表示所述疾病名称与所述标准疾病名称对应位置都存在相同或者不同的字符，对应着医生遵循了标准疾病名称的规范进行了书写或者出现错别字的情况；插入表示在字符串生成过程中插入了额外的字符，所述额外的字符按照插入状态下各个字符的生成概率随机抽取得到，对应着医生对病人情况进行了额外的说明；而删除状态表示所述疾病名称相比标准疾病名称中缺少字符，对应着医生使用了某种疾病名称的缩写。其中替换状态和插入状态均会发射出一个实际看到的字符，而删除状态以概率1发射出一个空字符，所述空字符在实际数据的字符串中是不存在的。通过这三种状态交替出现可以组合出任意的字符序列。如图4所示是剖面隐式马尔科夫模型状态转移结构示意图，图中的每一条有向边上都对应着设定的转移概率权重，决定了一种状态到另外一种状态的生成动作序列过程的每一步进行不同选择的可能性；而每一个替换和插入状态上都对应着一定的生成概率权重，决定了在所述状态下选取不同字符的偏好。根据所述转移概率和生成概率得到剖面隐式马尔科夫模型中产生不同字符串的生成概率。所述转移概率和生成概率基于每个标准疾病编码下的训练集数据进行估计得到。剖面隐式马尔科夫模型中相关的参数估计问题可以使用向前算法、向后算法以及Baum-Welch算法解决。在得到剖面隐式马尔科夫模型参数后，可以使用Viterbi算法得到每一个字符串从模型中产生的生成概率及其对应的状态序列。

第二计算模块103，用于根据所述疾病名称在不同标准疾病编码下的条件概率与不同标准疾病编码的先验概率，利用贝叶斯公式计算所述疾病名称属于所述不同标准疾病编码的后验概率。

统计电子病历中所述疾病名称的先验概率P(code)；

P(code|string)∝P(code)×P(string|code)。

预测模块104，用于根据所述后验概率得到所述疾病名称对应的概率最大的标准疾病编码。

在本发明所提供的几个实施例中，应所述理解到，所揭露的计算机系统和方法，可以通过其它的方式实现。例如，以上所描述的计算机系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

另外，在本发明各个实施例中的各功能单元可以集成在相同处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

实施例四

图6是本发明实施例四提供的用户终端示意图。

所述用户终端1包括存储器20、处理器30以及存储在所述存储器20中并可在所述处理器30上运行的计算机程序40，例如基于剖面隐式马尔科夫模型的疾病名称标准化程序。所述处理器30执行所述计算机程序40时实现上述基于剖面隐式马尔科夫模型的疾病名称标准化方法实施例中的步骤，例如图2所示的步骤S1～S4。或者，所述处理器30执行所述计算机程序40时实现上述基于剖面隐式马尔科夫模型的疾病名称标准化系统实施例中各模块的功能，例如图5中的模块单元101-104。

示例性的，所述计算机程序40可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器20中，并由所述处理器30执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，所述指令段用于描述所述计算机程序40在所述用户终端1中的执行过程。例如，所述计算机程序40可以被分割成图5中的获取模块101、第一计算模块102、第二计算模块103、预测模块104。所述功能模块的功能详见实施例三。

所述用户终端1可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解，所述示意图仅仅是用户终端1的示例，并不构成对用户终端1的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述用户终端1还可以包括输入输出设备、网络接入设备、总线等。

所称处理器30可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者所述处理器30也可以是任何常规的处理器等，所述处理器30是所述用户终端1的控制中心，利用各种接口和线路连接整个用户终端1的各个部分。

所述存储器20可用于存储所述计算机程序40和/或模块/单元，所述处理器30通过运行或执行存储在所述存储器20内的计算机程序和/或模块/单元，以及调用存储在存储器20内的数据，实现所述用户终端1的各种功能。所述存储器20可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据用户终端1的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器20可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述用户终端1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，所述计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序编码，所述计算机程序编码可以为源编码形式、对象编码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序编码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。计算机系统权利要求中陈述的多个单元或计算机系统也可以由同一个单元或计算机系统通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于剖面隐式马尔科夫模型的疾病名称标准化方法，其特征在于，所述方法包括：

获取电子病历，从所述电子病历中提取待处理的疾病名称；

2.如权利要求1所述的基于剖面隐式马尔科夫模型的疾病名称标准化方法，其特征在于，所述不同标准疾病编码位于疾病分类编码树下，所述疾病分类编码树包括多层结构，每层结构包括多个节点，每一个节点对应一个标准疾病编码，每一个标准疾病编码对应一个剖面隐式马尔科夫模型。

3.如权利要求2所述的基于剖面隐式马尔科夫模型的疾病名称标准化方法，其特征在于，所述剖面隐式马尔科夫模型的训练方法包括：

4.如权利要求3所述的基于剖面隐式马尔科夫模型的疾病名称标准化方法，其特征在于，利用所述训练集中的数据对所述剖面隐式马尔科夫模型进行训练的步骤包括：

5.如权利要求4所述的基于剖面隐式马尔科夫模型的疾病名称标准化方法，其特征在于，将所述待处理的疾病名称输入多个剖面隐式马尔科夫模型，分别计算所述待处理的疾病名称在不同标准疾病编码下的条件概率的方法包括：

6.如权利要求5所述的基于剖面隐式马尔科夫模型的疾病名称标准化方法，其特征在于，根据所述疾病名称在不同标准疾病编码下的条件概率与不同标准疾病编码的先验概率，利用贝叶斯公式计算所述疾病名称属于所述不同标准疾病编码的后验概率的步骤包括：

统计电子病历中所述疾病名称的先验概率P(code)；

P(code|string)∝P(code)×P(string|code)。

7.如权利要求1所述的基于剖面隐式马尔科夫模型的疾病名称标准化方法，其特征在于，所述方法还包括：

8.一种基于剖面隐式马尔科夫模型的疾病名称标准化系统，其特征在于，所述系统包括：

9.如权利要求8所述的基于剖面隐式马尔科夫模型的疾病名称标准化系统，其特征在于，所述剖面隐式马尔科夫模型的训练方法包括：

10.如权利要求8所述的基于剖面隐式马尔科夫模型的疾病名称标准化系统，其特征在于，根据所述疾病名称在不同标准疾病编码下的条件概率与不同标准疾病编码的先验概率，利用贝叶斯公式计算所述疾病名称属于所述不同标准疾病编码的后验概率的步骤包括：

统计电子病历中所述疾病名称的先验概率P(code)；

通过如下贝叶斯公式计算所述疾病名称属于所述不同标准疾病编码的后验概率P(code│string)：

P(code|string)∝P(code)×P(string|code)。