CN110911015A - 基于剖面隐式马氏模型的疾病名称标准化快速计算方法 - Google Patents

基于剖面隐式马氏模型的疾病名称标准化快速计算方法 Download PDF

Info

Publication number
CN110911015A
CN110911015A CN201911232179.2A CN201911232179A CN110911015A CN 110911015 A CN110911015 A CN 110911015A CN 201911232179 A CN201911232179 A CN 201911232179A CN 110911015 A CN110911015 A CN 110911015A
Authority
CN
China
Prior art keywords
disease
implicit
probability
characters
profile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911232179.2A
Other languages
English (en)
Other versions
CN110911015B (zh
Inventor
邓柯
李祺
刘军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201911232179.2A priority Critical patent/CN110911015B/zh
Publication of CN110911015A publication Critical patent/CN110911015A/zh
Application granted granted Critical
Publication of CN110911015B publication Critical patent/CN110911015B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明提供一种基于剖面隐式马氏模型的疾病名称标准化快速计算方法,所述方法包括:获取电子病历,识别所述电子病历中的待处理疾病名称;将所述待处理疾病名称同时输入到多个剖面隐式马氏模型中,得到所述待处理疾病名称在每一个剖面隐式马氏模型对应的标准疾病编码下的条件概率,根据所述条件概率及预设算法得到所述疾病名称对应的标准疾病编码。通过所述方法能够快速使用剖面隐式马氏模型识别出疾病名称对应的标准疾病编码,其中所述剖面隐式马氏模型中不同隐式状态下字符的发射概率由混合分布算法计算得到。通过所述方法能够快速训练剖面隐式马氏模型,并使用剖面隐式马氏模型识别出疾病名称对应的标准疾病编码。

Description

基于剖面隐式马氏模型的疾病名称标准化快速计算方法
技术领域
本发明涉及疾病名称标准化领域,具体涉及一种基于剖面隐式马氏模型的疾病名称标准化快速计算方法。
背景技术
对于电子病历的系统研究有助于我们更加系统的了解各种疾病在人群中的发生和传播情况,从而为公共卫生环境的改善提供帮助。在电子病历的研究中,对于疾病名称的识别是十分重要的一环。为了便于世界各地区人民之间医疗技术的沟通与交流,世界卫生组织根据各种疾病的病因、病理、临床表现和解剖位置等特性,将疾病名称分门别类,制定了一套国际统一的疾病分类编码方法和疾病分类编码系统,目前使用的是第10次修订本《疾病和有关健康问题的国际统计分类》(International Classification of Diseases)简称ICD-10。在ICD-10中,所有的疾病名称都有一个标准疾病编码。但是,由于不同国家不同地区医生的命名习惯不同以及录入时间有限等原因,医生对于同一个标准疾病编码对应的疾病名称有不同的命名方式,这种名称使用上的不统一虽然不会给医务工作者之间的交流带来太多困难,但是对电子病历的分析研究带来很大的困扰。同时,由于现存电子病历的数据量很大,如何快速的将电子病历中的疾病名称转化为对应的标准疾病编码,是病历研究工作人员急需解决的问题。
发明内容
鉴于以上内容,有必要提出一种疾病名称标准化的快速计算方法,可以快速查找出电子病历中的非标准化疾病名称对应的标准疾病编码。
本申请提供了一种基于剖面隐式马氏模型的疾病名称标准化快速计算方法,所述方法包括:
获取电子病历,识别所述电子病历中的待处理疾病名称;
将所述待处理疾病名称同时输入到多个剖面隐式马氏模型中,得到所述待处理疾病名称在每一个剖面隐式马氏模型对应的标准疾病编码下的条件概率,根据所述条件概率及预设算法得到所述疾病名称对应的标准疾病编码,其中,所述每一个剖面隐式马氏模型对应一标准疾病编码,所述任一剖面隐式马氏模型的生成方法包括:
获取多份历史电子病历,从所述历史电子病历中提取疾病名称以及与所述疾病名称对应的疾病编码;
提取与同一疾病编码对应的多个疾病名称,将所述多个疾病名称带入到所述剖面隐式马氏模型中,训练所述剖面隐式马氏模型的参数,所述剖面隐式马氏模型的参数包括不同隐式状态之间的转移概率和每一个隐式状态下所有字符的发射概率,所述发射概率由混合分布算法计算得出,所述混合分布算法为:
Figure BDA0002303860260000021
所述πl为所述剖面隐式马氏模型中的任一隐式状态下所有字符发射概率,所述所有字符的发射概率由一维向量表示,所述一维向量中的每一个元素对应着一个字符的发射概率,所述所有字符的发射概率之和等于1;
所述
Figure BDA0002303860260000022
为所述剖面隐式马氏模型对应的特殊字符库中的字符发射概率,其中,所述特殊字符库包含于预设字库,所述特殊字符库中的字符发射概率是一个一维向量,其中所述一维向量中元素的个数与预设字库中的字符个数相同,所述一维向量中不属于特殊字符库中的字符对应的元素为零;
所述π*对所述预设字库中除所述特殊字符库的字符以外的其他字符设置背景概率,所述背景概率即为预设字库中除所述特殊字符库的字符以外的其他字符的发射概率,所述发射概率是一个一维向量,其中所述一维向量中元素的个数与预设字库中的字符个数相同,所述一维向量中的元素为所述背景概率;
所述ρ为所述特殊字符库中字符的概率分布的权重,1-ρ为除特殊字符库中字符以外的其他字符的概率分布的权重。
优选地,所述预设字库包括全中文字库、数字、字母中的一项或多项。
优选地,所述根据所述条件概率及预设算法得到所述疾病名称对应的标准疾病编码的方法包括:
获取不同标准疾病编码的先验概率,以及所述疾病名称在每一个剖面隐式马氏模型对应的标准疾病编码下的条件概率,根据贝叶斯公式计算所述疾病名称属于所述不同标准疾病编码的后验概率,根据所述后验概率得到所述疾病名称对应的概率最大的标准疾病编码。
优选地,所述隐式状态包括如下状态关系中的一种:插入状态、替换状态、删除状态;
当所述隐式状态关系为插入状态或替换状态下,利用所述混合分布算法计算所述插入状态或替换状态下对应的不同字符的发射概率;
当所述转移状态关系为删除状态时,以发射概率1发射出一个空字符。
优选地,所述将所述待处理疾病名称同时输入到多个剖面隐式马氏模型中之前,所述方法还包括:
将所述待处理疾病名称中的字符分别与所述多个剖面隐式马氏模型对应的多个特殊字符库中的字符相比较,判断所述待处理疾病名称中是否有至少一个字符与任一所述特殊字符库中的字符相一致;
若一致,则将所述待处理疾病名称输入到所述特殊字符库对应的剖面隐式马氏模型中计算所述待处理疾病名称在所述剖面隐式马氏模型对应的标准疾病编码下的条件概率;
若不一致,则直接输出所述待处理疾病名称在所述特殊字符库对应的剖面隐式马氏模型下的条件概率为0。
优选地,所述每一剖面隐式马氏模型接收到待处理疾病名称之后,执行如下操作:
确定所述待处理疾病名称在所述剖面隐式马氏模型中概率最大的隐式状态路径以及每个隐式状态对应的发射字符;
根据所述隐式状态对应的转移概率及所述隐式状态下发射的字符对应的发射概率通过条件概率计算公式计算条件概率;
所述条件概率等于所有所述隐式状态之间的转移概率乘以所有所述隐式状态下字符的发射概率。
优选地,所述特殊字符库中字符的概率分布的权重为预先设置的预设值。
优选地,所述预设值为95%。
本发明基于剖面隐式马氏模型的疾病名称标准化快速计算方法,通过混合分布算法可以快速训练出剖面隐式马氏模型不同隐式状态下字符的发射概率,同时通过输入剖面隐式马氏模型之前的预判断过程,可以实现当待处理的疾病名称为非标准疾病名称时,通过所述方法可以快速的识别出所述非标准疾病名称对应的标准疾病编码。
附图说明
图1是本发明一实施方式提供的基于剖面隐式马氏模型的疾病名称标准化快速计算方法的应用环境示意图。
图2是本发明实施例二提供的基于剖面隐式马氏模型的疾病名称标准化快速计算方法流程图。
图3是本发明实施例二提供的疾病分类编码树下的剖面隐式马氏模型架构图。
图4是提高剖面隐式马氏模型计算效率的关键原理图。
图5是提高剖面隐式马氏模型参数配置示意图。
图6是剖面隐式马氏模型参数汇总表
图7是本发明实施例三提供的基于剖面隐式马氏模型的疾病名称标准化快速计算系统的结构示意图。
图8是本发明实施例四提供的用户终端示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例一
参阅图1所示,是本发明一实施方式提供的基于剖面隐式马氏模型的疾病名称标准化快速计算方法的应用环境图。
本发明中的基于剖面隐式马氏模型的疾病名称标准化快速计算方法应用在用户终端1中,所述用户终端1和一个计算机装置2通过网络建立通信连接。所述网络可以是有线网络,也可以是无线网络,例如无线电、无线保真(Wireless Fidelity,WIFI)、蜂窝、卫星、广播等。所述用户终端1用于查询待处理的疾病名称,所述计算机装置2用于存储电子病历及标准疾病名称和标准疾病编码之间的对应关系。
在又一实施方式中,所述电子病历及所述标准疾病名称和标准疾病编码之间的对应关系也可以存储与用户终端1中。
所述用户终端1可以为安装有基于剖面隐式马氏模型的疾病名称标准化快速计算方法的电子设备,包括但不限于智能手机、平板电脑、膝上型便捷计算机、台式计算机等。
所述计算机装置2可以为存储有电子病历的电子设备,例如个人电脑、服务器等,其中,所述服务器可以是单一的服务器、服务器集群或云服务器等。
实施例二
请参阅图2所示,是本发明实施例二提供的基于剖面隐式马氏模型的疾病名称标准化快速计算方法流程图。根据不同的需求,所述流程图中步骤的顺序可以改变,某些步骤可以省略。
步骤S11、获取电子病历,识别所述电子病历中的待处理疾病名称。
在本发明一实施方式中,获取电子病历的方法可以通过调取医院病历库中的病历信息的方式实现,所述病历信息包含门诊病历信息和住院病历信息。提取所述病历信息中的疾病名称后,所述方法还包括对所述提取的疾病名称进行预处理操作,其中所述预处理操作包括去除所述疾病名称中的空格、标点、符号信息。
步骤S12、判断所述待处理疾病名称是否与标准疾病名称一致。
所述判断所述待处理疾病名称是否与标准疾病名称一致的步骤可以具体包括:
查找所述电子病历中预设位置的字符;
将所述字符与预设数据库中的标准化疾病名称相比对,判断所述字符是否与标准疾病名称是否一致;
步骤S13、若一致,则根据预设标准疾病名称与标准疾病编码对应关系表确定所述待处理疾病名称对应的标准疾病编码。
在本发明一实施方式中,若所述待处理的疾病名称与标准疾病名称一致,则在ICD-10中,查找与所述标准疾病名称对应的标准疾病编码。
具体地,在所述电子病历中查找用于存储疾病名称的固定栏位地址,在所述地址中获取描述疾病名称的字符。将所述描述疾病名称的字符与预设数据库中预存的标准疾病名称的字符进行字符比对,若所述描述疾病名称的字符与所述预设数据库中标准疾病名称的字符一致,且字符的出现顺序也一致,则判断所述疾病名称与标准疾病名称一致。在本发明一实施方式中,所述标准疾病名称和标准疾病名称编码的描述方式与《疾病和有关健康问题的国际统计分类》(International Classification of Diseases)第10次修订本简称ICD-10中描述的方式一致。
步骤S14、若不一致,将所述待处理疾病名称同时输入到多个剖面隐式马氏模型(Profile Hidden Markov Model,PHMM)中,得到所述待处理疾病名称在每一个剖面隐式马氏模型对应的标准疾病编码下的条件概率,根据所述条件概率及预设算法得到所述疾病名称对应的标准疾病编码。
在本发明一实施方式中,所述剖面隐式马氏模型与标准化疾病名称存在一一对应关系,其中一个剖面隐式马氏模型对应一个标准疾病名称,且因为所述多个剖面隐式马氏模型之间符合统计学上多个事件相互独立的关系,所以可以将所述待处理疾病名称同时输入到多个剖面隐式马氏模型中。请参阅图3是疾病分类编码树下的剖面隐式马氏模型架构图。所述疾病分类编码树包括多层结构,每层结构包括多个节点,每一个底层叶节点对应一个标准疾病编码,每一个标准疾病编码对应一个标准疾病名称以及一个剖面隐式马氏模型。
在本实施方式中,以待处理疾病名称输入到任意一个剖面隐式马氏模型中为例说明将所述待处理疾病名称同时输入到剖面隐式马氏模型中,输出所述待处理疾病名称对应的标准疾病名称的步骤,其余多个剖面隐式马氏模型的处理方式相同。
每一剖面隐式马氏模型接收到待处理疾病名称之后,执行的操作包括:确定所述待处理疾病名称在所述剖面隐式马氏模型中概率最大的隐式状态路径以及每个隐式状态对应的字符的发射状态,其中所述隐式状态为如下状态关系中的一种:插入状态、替换状态、删除状态。根据所述隐式状态对应的转移概率及所述隐式状态下字符的发射状态对应的发射概率通过条件概率计算公式计算条件概率;所述条件概率等于所有所述隐式状态之间的转移概率乘以所有所述隐式状态下字符的发射概率。
所述替换状态表示所述疾病名称与所述标准疾病名称在对应位置产生了相同或者不同的字符,对应着医生遵循了标准疾病名称的规范进行了书写或者出现错别字的情况。所述插入状态表示待处理疾病名称字符串在生成标准疾病名称字符串过程中插入了额外的字符,所述额外的字符按照插入状态下各个字符的生成概率随机抽取得到,对应着疾病名称中多字的情况,例如医生在疾病名称中对病人情况进行了额外的说明。所述删除状态表示所述待处理疾病名称相比标准疾病名称中缺少字符,对应着医生使用了某种疾病名称的缩写或者漏写疾病名称中的字符等。所述替换状态和所述插入状态均会发射出一个实际看到的字符,而所述删除状态以概率1发射出一个空字符,所述空字符在实际数据的字符串中是不存在的。通过这三种转移状态的交替出现可以组合出任意的字符序列。
在本发明又一实施方式中,所述步骤S14还可以包括:将所述待处理疾病名称中的字符分别与所述多个剖面隐式马氏模型对应的多个特殊字符库中的字符相比较,判断所述待处理疾病名称中是否有至少一个字符与任一所述特殊字符库中的字符相一致;
若一致,则将所述待处理疾病名称输入到所述特殊字符库对应的剖面隐式马氏模型中计算所述待处理疾病名称在所述剖面隐式马氏模型对应的标准疾病编码下的条件概率;
若不一致,则直接输出所述待处理疾病名称在所述特殊字符库对应的剖面隐式马氏模型下的条件概率为0。
举例而言,识别电子病历中待处理的疾病名称为甲型负伤寒,但是正确的疾病名称应该是甲型副伤寒,那么将所述电子病历中的疾病名称甲型负伤寒与标准疾病名称与标准疾病编码对应关系表中标准疾病名称相比对时,所述关系表中不存在与所述甲型负伤寒一致的标准疾病名称,则将所述疾病名称甲型负伤寒与多个剖面隐式马氏模型中的特殊字符库中的字符相比较,例如甲型负伤寒与乙型副伤寒中的字符有相同的字符,则将甲型负伤寒导入乙型副伤寒对应的剖面隐式马氏模型中。甲型副伤寒与多发性脑梗塞中的字符完全不同,则不需要将甲型负伤寒导入多发性脑梗塞对应的剖面隐式马氏模型中。依次类推,可以将甲型负伤寒同时导入到甲型副伤寒、乙型副伤寒、甲型流感等多个剖面隐式马氏模型中,计算出甲型负伤寒在甲型副伤寒、乙型副伤寒、甲型流感等的标准疾病编码对应的多个剖面隐式马氏模型下的条件概率。
所述每一剖面隐式马氏模型接收到待处理疾病名称之后,首先使用维特比(Viterbi)算法找到该疾病名称对应的隐式状态转移路径,然后在每个隐式状态下找到对应的发射概率,例如“甲”字对应所述剖面隐式马氏模型中第一个位置的替换状态,该状态对应“甲”的发射概率是96.2%,其次,“型”字对应所述剖面隐式马氏模型中第二个位置的替换状态,该状态对应“型”的发射概率是95.3%,从第一个替换状态到第二个替换状态的转移概率是96.4%;再次,“负”字对应述剖面隐式马氏模型中第三个位置的替换状态,该状态对应“负”的发射概率是10.1%,从第二个替换状态到第三个替换状态的转移概率是93.4%;依次类推判断“伤”、“寒”字对应所述剖面隐式马氏模型中的状态,并记录对应状态发射出这些字符的发射概率以及这些状态之间的转移概率;最后,将所述多个转移概率和字符的发射概率相乘,得到所述疾病名称“甲型负伤寒”在标准疾病名称甲型副伤寒的标准疾病编码对应的剖面隐式马氏模型下的生成概率。同时比较所述疾病名称“甲型负伤寒”在其他剖面隐式马氏模型下的生成概率,确定所述生成概率最大的剖面隐式马氏模型对应的标准疾病编码作为所述待处理疾病名称对应的标准疾病编码。
获取不同标准疾病编码的先验概率,以及所述疾病名称在每一个剖面隐式马氏模型对应的标准疾病编码下的条件概率,根据贝叶斯公式计算所述疾病名称属于所述不同标准疾病编码的后验概率,根据所述后验概率得到所述疾病名称对应的概率最大的标准疾病编码。
根据所述疾病名称在不同标准疾病编码下的条件概率与不同标准疾病编码的先验概率,利用贝叶斯公式计算所述疾病名称属于所述不同标准疾病编码的后验概率的步骤可以包括:
获取所述疾病名称在每一个剖面隐式马氏模型对应的标准疾病编码下的条件概率P(string|code);
统计电子病历中所述疾病名称的先验概率P(code);
通过如下贝叶斯公式计算所述疾病名称属于所述不同标准疾病编码的后验概率P(code|string):
P(code|string)∝P(code)×P(string|code)。
举例而言,计算出副伤寒甲代入标准疾病编码A01.101对应的第一剖面隐式马尔科夫模型计算的生成概率为99%,副伤寒甲代入A01.102对应的第二剖面隐式马尔科夫模型计算的生成概率为0.1%,副伤寒甲代入A01.201对应的第三剖面隐式马尔科夫模型计算的生成概率为0.05%,在电子病历中统计所述疾病名称副伤寒甲的先验概率,所述先验概率可以从大量的实际数据以及经验总结中统计出所述疾病名称的发病概率,所述发病概率即为所述先验概率。将所述条件概率和先验概率依次代入上述贝叶斯公式,计算出所述疾病名称副伤寒甲在不同标准疾病编码下的后验概率。根据所述后验概率得到所述疾病名称对应的概率最大的标准疾病编码。
请参阅图4是本发明一实施例提供的任一剖面隐式马氏模型的生成方法流程图。根据不同的需求,所述流程图中步骤的顺序可以改变,某些步骤可以省略。
步骤S21、获取多份历史电子病历,从所述历史电子病历中提取疾病名称以及与所述疾病名称对应的疾病编码。
在本发明一实施方式中,获取电子病历的方法可以通过调取医院病历库中的病历信息,所述病历信息包含门诊病历信息和住院病历信息。
提取所述病历信息中的疾病名称和所述疾病名称对应的疾病编码后,还对所述提取的疾病名称和所述疾病名称对应的疾病编码进行预处理,所述预处理的内容包括去除疾病名称和疾病编码中多余的空格、标点、字符信息。将经过预处理的疾病名称和所述疾病名称对应的疾病编码对应存储,得到所述疾病名称与疾病编码的映射列表。
步骤S22、提取与同一疾病编码对应的多个疾病名称,将所述多个疾病名称带入到所述剖面隐式马氏模型中,训练所述剖面隐式马氏模型的参数。
所述剖面隐式马氏模型的参数包括不同隐式状态之间的转移概率和每一个隐式状态下所有字符的发射概率,所述发射概率由混合分布算法计算得出,所述混合分布算法为:
Figure BDA0002303860260000111
所述πl为所述剖面隐式马氏模型中的任一隐式状态下所有字符发射概率,所述所有字符的发射概率由一维向量表示,所述一维向量中的每一个元素对应着一个字符的发射概率,所述所有字符的发射概率之和等于1;
所述
Figure BDA0002303860260000112
为所述剖面隐式马氏模型对应的特殊字符库中的字符发射概率,其中,所述特殊字符库包含于预设字库,所述特殊字符库中的字符发射概率是一个一维向量,其中所述一维向量中元素的个数与预设字库中的字符个数相同,所述一维向量中不属于特殊字符库中的字符对应的元素为零;
所述π*对所述预设字库中除所述特殊字符库中的字符以外的其他字符设置背景概率,所述背景概率即为预设字库中除所述特殊字符库的字符以外的其他字符的发射概率,所述发射概率是一个一维向量,其中所述一维向量中元素的个数与预设字库中的字符个数相同,所述一维向量中的元素为所述背景概率;
所述ρ为所述特殊字符库中字符的概率分布的权重,1-ρ为除特殊字符库中字符以外的其他字符的概率分布的权重。
所述预设字库包括全中文字库、数字、字母中的一项或多项。
所述特殊字符库中字符的概率分布的权重为预先设置的预设值。例如,所述预设值可以为95%。
当所述隐式状态关系为删除状态时,以发射概率1发射出一个空字符;当所述隐式状态关系为插入状态或替换状态下,利用所述混合分布算法计算所述插入状态或替换状态下对应的不同字符的发射概率。
如图5中所示是提高剖面隐式马氏模型参数配置示意图所示,图中B代表剖面隐式马氏模型中的开始状态,E代表剖面隐式马氏模型中的终止状态,M1、M2、M3代表剖面隐式马氏模型中不同位置的替换状态,I0、I1、I2、I3代表剖面隐式马氏模型中不同位置的插入状态,D1、D2、D3代表剖面隐式马氏模型中不同位置的删除状态。如图中位置0中所示,计算输入所述剖面隐式马氏模型中的从开始状态转移到第一个位置的替换状态的概率为
Figure BDA0002303860260000121
从开始状态转移到位置0的插入状态的概率为
Figure BDA0002303860260000122
从开始状态转移到第一个位置的删除状态的概率为
Figure BDA0002303860260000123
其中在插入状态I0位置字符的发射概率为
Figure BDA0002303860260000124
在位置0中显示,在替换状态下M1位置字符的发射概率为
Figure BDA0002303860260000125
在删除状态下D1位置以概率1发射出一个空字符。其中发射概率
Figure BDA0002303860260000126
由一维向量表示,所述一维向量中的每一个元素对应着一个字符的发射概率,所述所有字符包括全中文汉字、字母、数字,所述所有字符的发射概率之和等于1,所述
Figure BDA0002303860260000127
由混合分布算法计算得出。图5中不同位置的隐式状态转移概率及在所述隐式状态下字符的发射概率在图6剖面隐式马氏模型参数汇总表中所示。
所述剖面隐式马氏模型参数的训练方法如下所述:将从多份历史电子病历中提取疾病名称以及与所述疾病名称对应的疾病编码进行整理,提取与同一疾病编码对应的多个疾病名称,将所述多个疾病名称带入到所述剖面隐式马氏模型中,训练所述剖面隐式马氏模型的参数,所述剖面隐式马氏模型的参数包括不同隐式状态之间的转移概率和每一个隐式状态下所有字符的发射概率,其中所述剖面隐式马氏模型对应的特殊字符库中的字符为用来训练的多个疾病名称中字符的并集。举例而言,将标准疾病编码A01.101对应的多个疾病名称,例如甲型副伤寒、甲型负伤寒、副甲型伤寒、假性副伤寒等导入剖面隐式马氏模型中计算在不同隐式状态下生成字符的发射概率,例如所述剖面隐式马氏模型中第一个位置的替换状态下,生成特殊字符库中字符“甲”的发射概率为95.5%,生成字符“假”的发射概率为3.6%,此外由特殊字符库中的其他字符的发射概率组成了一维向量,所述一维向量中元素的个数与预设字库中所有字符的个数相同,向量中的元素中除特殊字符发射概率以外其他位置的元素为零。生成特殊字符库以外其他字符的发射概率由一维向量存储,一维向量中元素的个数与预设字库中所有字符的个数相同,向量中的元素为除了特殊字符库中字符以外的其他字符的发射概率,对于没有发射概率的元素用零补齐,其中所述特殊字符库以外其他字符可以是脑、肺、喘等字;由混合分布算法计算每一个隐式状态下所有中文字符的发射概率,所述所有中文字符的发射概率由一维向量表示,所述一维向量中的每一个元素对应着一个字符的发射概率,所述所有字符包括全中文字库、数字、字母中的一项或多项,所述所有字符的发射概率之和等于1,由此可以得到所述剖面隐式马氏模型中替换状态下预设字库中所有字符的发射概率,由所述发射概率和转移概率组成所述剖面隐式马氏模型的参数。依次类推可以计算出所述剖面隐式马氏模型中其他转移状态之间的转移概率,以及在所述转移状态下对应的字符的发射概率。
上述图2-6详细介绍了本发明的基于剖面隐式马氏模型的疾病名称标准化快速计算方法,下面结合第7-8图,对实现所述基于剖面隐式马氏模型的疾病名称标准化快速计算方法的软件系统的功能模块以及实现所述基于剖面隐式马氏模型的疾病名称标准化快速计算方法的硬件系统架构进行介绍。
应所述了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
实施例三
图7为本发明基于剖面隐式马氏模型的疾病名称标准化快速计算系统较佳实施例的结构图。
在一些实施例中,基于剖面隐式马氏模型的疾病名称标准化快速计算系统10运行于计算机系统中。所述计算机系统通过网络连接了多个用户终端。所述基于剖面隐式马氏模型的疾病名称标准化快速计算系统10可以包括多个由程序代码段所组成的功能模块。所述基于剖面隐式马氏模型的疾病名称标准化快速计算系统10中的各个程序段的程序代码可以存储于计算机系统的存储器中,并由所述至少一个处理器进行执行,以实现基于剖面隐式马氏模型的疾病名称标准化的功能。
本实施例中,所述基于剖面隐式马氏模型的疾病名称标准化快速计算系统10根据其所执行的功能,可以被划分为多个功能模块。参阅图7所示,所述功能模块可以包括:获取模块101、判断模块102、第一执行模块103、第二执行模块104。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述获取模块101,用于获取电子病历,识别所述电子病历中的待处理疾病名称。
在本发明一实施方式中,获取电子病历的方法可以通过调取医院病历库中的病历信息的方式实现,所述病历信息包含门诊病历信息和住院病历信息。提取所述病历信息中的疾病名称后,所述方法还包括对所述提取的疾病名称进行预处理操作,其中所述预处理操作包括去除所述疾病名称中的空格、标点、符号信息。
所述判断模块102,用于判断所述待处理疾病名称是否与标准疾病名称一致。
所述判断所述待处理疾病名称是否与标准疾病名称一致的步骤可以具体包括:
查找所述电子病历中预设位置的字符;
将所述字符与预设数据库中的标准化疾病名称相比对,判断所述字符是否与标准疾病名称是否一致;
所述第一执行模块103,若所述待处理疾病名称与标准疾病名称一致,则根据预设标准疾病名称与标准疾病编码对应关系表确定所述待处理疾病名称对应的标准疾病编码。
在本发明一实施方式中,若所述待处理的疾病名称与标准疾病名称一致,则在ICD-10中,查找与所述标准疾病名称对应的标准疾病编码。
具体地,在所述电子病历中查找用于存储疾病名称的固定栏位地址,在所述地址中获取描述疾病名称的字符。将所述描述疾病名称的字符与预设数据库中预存的标准疾病名称的字符进行字符比对,若所述描述疾病名称的字符与所述预设数据库中标准疾病名称的字符一致,且字符的出现顺序也一致,则判断所述疾病名称与标准疾病名称一致。在本发明一实施方式中,所述标准疾病名称和标准疾病名称编码的描述方式与《疾病和有关健康问题的国际统计分类》(International Classification of Diseases)第10次修订本简称ICD-10中描述的方式一致。
所述第二执行模块104,若所述待处理疾病名称与标准疾病名称不一致,将所述待处理疾病名称同时输入到多个剖面隐式马氏模型(Profile Hidden Markov Model,PHMM)中,得到所述待处理疾病名称在每一个剖面隐式马氏模型对应的标准疾病编码下的条件概率,根据所述条件概率及预设算法得到所述疾病名称对应的标准疾病编码。
在本发明一实施方式中,所述剖面隐式马氏模型与标准化疾病名称存在一一对应关系,其中一个剖面隐式马氏模型对应一个标准疾病名称,且因为所述多个剖面隐式马氏模型之间符合统计学上多个事件相互独立的关系,所以可以将所述待处理疾病名称同时输入到多个剖面隐式马氏模型中。请参阅图3是疾病分类编码树下的剖面隐式马氏模型架构图。所述疾病分类编码树包括多层结构,每层结构包括多个节点,每一个底层叶节点对应一个标准疾病编码,每一个标准疾病编码对应一个标准疾病名称以及一个剖面隐式马氏模型。
在本实施方式中,以待处理疾病名称输入到任意一个剖面隐式马氏模型中为例说明将所述待处理疾病名称同时输入到剖面隐式马氏模型中,输出所述待处理疾病名称对应的标准疾病名称的步骤,其余多个剖面隐式马氏模型的处理方式相同。
每一剖面隐式马氏模型接收到待处理疾病名称之后,执行的操作包括:确定所述待处理疾病名称在所述剖面隐式马氏模型中概率最大的隐式状态路径以及每个隐式状态对应的字符的发射状态,其中所述隐式状态为如下状态关系中的一种:插入状态、替换状态、删除状态。根据所述隐式状态对应的转移概率及所述隐式状态下字符的发射状态对应的发射概率通过条件概率计算公式计算条件概率;所述条件概率等于所有所述隐式状态之间的转移概率乘以所有所述隐式状态下字符的发射概率。
所述替换状态表示所述疾病名称与所述标准疾病名称在对应位置产生了相同或者不同的字符,对应着医生遵循了标准疾病名称的规范进行了书写或者出现错别字的情况。所述插入状态表示待处理疾病名称字符串在生成标准疾病名称字符串过程中插入了额外的字符,所述额外的字符按照插入状态下各个字符的生成概率随机抽取得到,对应着疾病名称中多字的情况,例如医生在疾病名称中对病人情况进行了额外的说明。所述删除状态表示所述待处理疾病名称相比标准疾病名称中缺少字符,对应着医生使用了某种疾病名称的缩写或者漏写疾病名称中的字符等。所述替换状态和所述插入状态均会发射出一个实际看到的字符,而所述删除状态以概率1发射出一个空字符,所述空字符在实际数据的字符串中是不存在的。通过这三种转移状态的交替出现可以组合出任意的字符序列。
在本发明又一实施方式中,所述第二执行模块还可以包括:将所述待处理疾病名称中的字符分别与所述多个剖面隐式马氏模型对应的多个特殊字符库中的字符相比较,判断所述待处理疾病名称中是否有至少一个字符与任一所述特殊字符库中的字符相一致;
若一致,则将所述待处理疾病名称输入到所述特殊字符库对应的剖面隐式马氏模型中计算所述待处理疾病名称在所述剖面隐式马氏模型对应的标准疾病编码下的条件概率;
若不一致,则直接输出所述待处理疾病名称在所述特殊字符库对应的剖面隐式马氏模型下的条件概率为0。
举例而言,识别电子病历中待处理的疾病名称为甲型负伤寒,但是正确的疾病名称应该是甲型副伤寒,那么将所述电子病历中的疾病名称甲型负伤寒与标准疾病名称与标准疾病编码对应关系表中标准疾病名称相比对时,所述关系表中不存在与所述甲型负伤寒一致的标准疾病名称,则将所述疾病名称甲型负伤寒与多个剖面隐式马氏模型中的特殊字符库中的字符相比较,例如甲型负伤寒与乙型副伤寒中的字符有相同的字符,则将甲型负伤寒导入乙型副伤寒对应的剖面隐式马氏模型中。甲型副伤寒与多发性脑梗塞中的字符完全不同,则不需要将甲型负伤寒导入多发性脑梗塞对应的剖面隐式马氏模型中。依次类推,可以将甲型负伤寒同时导入到甲型副伤寒、乙型副伤寒、甲型流感等多个剖面隐式马氏模型中,计算出甲型负伤寒在甲型副伤寒、乙型副伤寒、甲型流感等的标准疾病编码对应的多个剖面隐式马氏模型下的条件概率。
所述每一剖面隐式马氏模型接收到待处理疾病名称之后,首先使用维特比(Viterbi)算法找到该疾病名称对应的隐式状态转移路径,然后在每个隐式状态下找到对应的发射概率,例如“甲”字对应所述剖面隐式马氏模型中第一个位置的替换状态,该状态对应“甲”的发射概率是96.2%,其次,“型”字对应所述剖面隐式马氏模型中第二个位置的替换状态,该状态对应“型”的发射概率是95.3%,从第一个替换状态到第二个替换状态的转移概率是96.4%;再次,“负”字对应述剖面隐式马氏模型中第三个位置的替换状态,该状态对应“负”的发射概率是10.1%,从第二个替换状态到第三个替换状态的转移概率是93.4%;依次类推判断“伤”、“寒”字对应所述剖面隐式马氏模型中的状态,并记录对应状态发射出这些字符的发射概率以及这些状态之间的转移概率;最后,将所述多个转移概率和字符的发射概率相乘,得到所述疾病名称“甲型负伤寒”在标准疾病名称甲型副伤寒的标准疾病编码对应的剖面隐式马氏模型下的生成概率。同时比较所述疾病名称“甲型负伤寒”在其他剖面隐式马氏模型下的生成概率,确定所述生成概率最大的剖面隐式马氏模型对应的标准疾病编码作为所述待处理疾病名称对应的标准疾病编码。
获取不同标准疾病编码的先验概率,以及所述疾病名称在每一个剖面隐式马氏模型对应的标准疾病编码下的条件概率,根据贝叶斯公式计算所述疾病名称属于所述不同标准疾病编码的后验概率,根据所述后验概率得到所述疾病名称对应的概率最大的标准疾病编码。
根据所述疾病名称在不同标准疾病编码下的条件概率与不同标准疾病编码的先验概率,利用贝叶斯公式计算所述疾病名称属于所述不同标准疾病编码的后验概率的步骤可以包括:
获取所述疾病名称在每一个剖面隐式马氏模型对应的标准疾病编码下的条件概率P(string|code);
统计电子病历中所述疾病名称的先验概率P(code);
通过如下贝叶斯公式计算所述疾病名称属于所述不同标准疾病编码的后验概率P(code|string):
P(code|string)∝P(code)×P(string|code)。
举例而言,计算出副伤寒甲代入标准疾病编码A01.101对应的第一剖面隐式马尔科夫模型计算的生成概率为99%,副伤寒甲代入A01.102对应的第二剖面隐式马尔科夫模型计算的生成概率为0.1%,副伤寒甲代入A01.201对应的第三剖面隐式马尔科夫模型计算的生成概率为0.05%,在电子病历中统计所述疾病名称副伤寒甲的先验概率,所述先验概率可以从大量的实际数据以及经验总结中统计出所述疾病名称的发病概率,所述发病概率即为所述先验概率。将所述条件概率和先验概率依次代入上述贝叶斯公式,计算出所述疾病名称副伤寒甲在不同标准疾病编码下的后验概率。根据所述后验概率得到所述疾病名称对应的概率最大的标准疾病编码。
请参阅图4是本发明一实施例提供的任一剖面隐式马氏模型的生成方法流程图。根据不同的需求,所述流程图中步骤的顺序可以改变,某些步骤可以省略。
获取多份历史电子病历,从所述历史电子病历中提取疾病名称以及与所述疾病名称对应的疾病编码。
在本发明一实施方式中,获取电子病历的方法可以通过调取医院病历库中的病历信息,所述病历信息包含门诊病历信息和住院病历信息。
提取所述病历信息中的疾病名称和所述疾病名称对应的疾病编码后,还对所述提取的疾病名称和所述疾病名称对应的疾病编码进行预处理,所述预处理的内容包括去除疾病名称和疾病编码中多余的空格、标点、字符信息。将经过预处理的疾病名称和所述疾病名称对应的疾病编码对应存储,得到所述疾病名称与疾病编码的映射列表。
提取与同一疾病编码对应的多个疾病名称,将所述多个疾病名称带入到所述剖面隐式马氏模型中,训练所述剖面隐式马氏模型的参数。
所述剖面隐式马氏模型的参数包括不同隐式状态之间的转移概率和每一个隐式状态下所有字符的发射概率,所述发射概率由混合分布算法计算得出,所述混合分布算法为:
Figure BDA0002303860260000191
所述πl为所述剖面隐式马氏模型中的任一隐式状态下所有字符发射概率,所述所有字符的发射概率由一维向量表示,所述一维向量中的每一个元素对应着一个字符的发射概率,所述所有字符的发射概率之和等于1;
所述
Figure BDA0002303860260000192
为所述剖面隐式马氏模型对应的特殊字符库中的字符发射概率,其中,所述特殊字符库包含于预设字库,所述特殊字符库中的字符发射概率是一个一维向量,其中所述一维向量中元素的个数与预设字库中的字符个数相同,所述一维向量中不属于特殊字符库中的字符对应的元素为零;
所述π*对所述预设字库中除所述特殊字符库中的字符以外的其他字符设置背景概率,所述背景概率即为预设字库中除所述特殊字符库的字符以外的其他字符的发射概率,所述发射概率是一个一维向量,其中所述一维向量中元素的个数与预设字库中的字符个数相同,所述一维向量中的元素为所述背景概率;
所述ρ为所述特殊字符库中字符的概率分布的权重,1-ρ为除特殊字符库中字符以外的其他字符的概率分布的权重。
所述预设字库包括全中文字库、数字、字母中的一项或多项。
所述特殊字符库中字符的概率分布的权重为预先设置的预设值。例如,所述预设值可以为95%。
当所述隐式状态关系为删除状态时,以发射概率1发射出一个空字符;当所述隐式状态关系为插入状态或替换状态下,利用所述混合分布算法计算所述插入状态或替换状态下对应的不同字符的发射概率。
如图5中所示是提高剖面隐式马氏模型参数配置示意图所示,图中B代表剖面隐式马氏模型中的开始状态,E代表剖面隐式马氏模型中的终止状态,M1、M2、M3代表剖面隐式马氏模型中不同位置的替换状态,I0、I1、I2、I3代表剖面隐式马氏模型中不同位置的插入状态,D1、D2、D3代表剖面隐式马氏模型中不同位置的删除状态。如图中位置0中所示,计算输入所述剖面隐式马氏模型中的从开始状态转移到第一个位置的替换状态的概率为
Figure BDA0002303860260000201
从开始状态转移到位置0的插入状态的概率为
Figure BDA0002303860260000202
从开始状态转移到第一个位置的删除状态的概率为
Figure BDA0002303860260000203
其中在插入状态I0位置字符的发射概率为
Figure BDA0002303860260000204
在位置0中显示,在替换状态下M1位置字符的发射概率为
Figure BDA0002303860260000205
在删除状态下D1位置以概率1发射出一个空字符。其中发射概率
Figure BDA0002303860260000206
由一维向量表示,所述一维向量中的每一个元素对应着一个字符的发射概率,所述所有字符包括全中文汉字、字母、数字,所述所有字符的发射概率之和等于1,所述
Figure BDA0002303860260000207
由混合分布算法计算得出。图5中不同位置的隐式状态转移概率及在所述隐式状态下字符的发射概率在图6剖面隐式马氏模型参数汇总表中所示。
所述剖面隐式马氏模型参数的训练方法如下所述:将从多份历史电子病历中提取疾病名称以及与所述疾病名称对应的疾病编码进行整理,提取与同一疾病编码对应的多个疾病名称,将所述多个疾病名称带入到所述剖面隐式马氏模型中,训练所述剖面隐式马氏模型的参数,所述剖面隐式马氏模型的参数包括不同隐式状态之间的转移概率和每一个隐式状态下所有字符的发射概率,其中所述剖面隐式马氏模型对应的特殊字符库中的字符为用来训练的多个疾病名称中字符的并集。举例而言,将标准疾病编码A01.101对应的多个疾病名称,例如甲型副伤寒、甲型负伤寒、副甲型伤寒、假性副伤寒等导入剖面隐式马氏模型中计算在不同隐式状态下生成字符的发射概率,例如所述剖面隐式马氏模型中第一个位置的替换状态下,生成特殊字符库中字符“甲”的发射概率为95.5%,生成字符“假”的发射概率为3.6%,此外由特殊字符库中的其他字符的发射概率组成了一维向量,所述一维向量中元素的个数与预设字库中所有字符的个数相同,向量中的元素中除特殊字符发射概率以外其他位置的元素为零。生成特殊字符库以外其他字符的发射概率由一维向量存储,一维向量中元素的个数与预设字库中所有字符的个数相同,向量中的元素为除了特殊字符库中字符以外的其他字符的发射概率,对于没有发射概率的元素用零补齐,其中所述特殊字符库以外其他字符可以是脑、肺、喘等字;由混合分布算法计算每一个隐式状态下所有中文字符的发射概率,所述所有中文字符的发射概率由一维向量表示,所述一维向量中的每一个元素对应着一个字符的发射概率,所述所有字符包括全中文字库、数字、字母中的一项或多项,所述所有字符的发射概率之和等于1,由此可以得到所述剖面隐式马氏模型中替换状态下预设字库中所有字符的发射概率,由所述发射概率和转移概率组成所述剖面隐式马氏模型的参数。依次类推可以计算出所述剖面隐式马氏模型中其他转移状态之间的转移概率,以及在所述转移状态下对应的字符的发射概率。
实施例四
图8是本发明实施例四提供的用户终端示意图。
所述用户终端1包括存储器20、处理器30以及存储在所述存储器20中并可在所述处理器30上运行的计算机程序40,例如基于剖面隐式马氏模型的疾病名称标准化快速计算程序。所述处理器30执行所述计算机程序40时实现上述基于剖面隐式马氏模型的疾病名称标准化快速计算方法实施例中的步骤,例如图2所示的步骤S11~S14。或者,所述处理器30执行所述计算机程序40时实现上述基于剖面隐式马氏模型的疾病名称标准化快速计算系统实施例中各模块的功能,例如图7中的模块单元101-104。
示例性的,所述计算机程序40可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器20中,并由所述处理器30执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,所述指令段用于描述所述计算机程序40在所述用户终端1中的执行过程。例如,所述计算机程序40可以被分割成图7中的获取模块101、判断模块102、第一执行模块103、第二执行模块104。所述功能模块的功能详见实施例三。
所述用户终端1可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解,所述示意图仅仅是用户终端1的示例,并不构成对用户终端1的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述用户终端1还可以包括输入输出设备、网络接入设备、总线等。
所称处理器30可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者所述处理器30也可以是任何常规的处理器等,所述处理器30是所述用户终端1的控制中心,利用各种接口和线路连接整个用户终端1的各个部分。
所述存储器20可用于存储所述计算机程序40和/或模块/单元,所述处理器30通过运行或执行存储在所述存储器20内的计算机程序和/或模块/单元,以及调用存储在存储器20内的数据,实现所述用户终端1的各种功能。所述存储器20可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据用户终端1的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器20可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述用户终端1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,所述计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序编码,所述计算机程序编码可以为源编码形式、对象编码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序编码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。计算机系统权利要求中陈述的多个单元或计算机系统也可以由同一个单元或计算机系统通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (8)

1.一种基于剖面隐式马氏模型的疾病名称标准化快速计算方法,其特征在于,所述方法包括:
获取电子病历,识别所述电子病历中的待处理疾病名称;
将所述待处理疾病名称同时输入到多个剖面隐式马氏模型中,得到所述待处理疾病名称在每一个剖面隐式马氏模型对应的标准疾病编码下的条件概率,根据所述条件概率及预设算法得到所述疾病名称对应的标准疾病编码,其中,所述每一个剖面隐式马氏模型对应一标准疾病编码,所述任一剖面隐式马氏模型的生成方法包括:
获取多份历史电子病历,从所述历史电子病历中提取疾病名称以及与所述疾病名称对应的疾病编码;
提取与同一疾病编码对应的多个疾病名称,将所述多个疾病名称带入到所述剖面隐式马氏模型中,训练所述剖面隐式马氏模型的参数,所述剖面隐式马氏模型的参数包括不同隐式状态之间的转移概率和每一个隐式状态下所有字符的发射概率,所述发射概率由混合分布算法计算得出,所述混合分布算法为:
Figure FDA0002303860250000011
所述πl为所述剖面隐式马氏模型中的任一隐式状态下所有字符发射概率,所述所有字符的发射概率由一维向量表示,所述一维向量中的每一个元素对应着一个字符的发射概率,所述所有字符的发射概率之和等于1;
所述
Figure FDA0002303860250000012
为所述剖面隐式马氏模型对应的特殊字符库中的字符发射概率,其中,所述特殊字符库包含于预设字库,所述特殊字符库中的字符发射概率是一个一维向量,其中所述一维向量中元素的个数与预设字库中的字符个数相同,所述一维向量中不属于特殊字符库中的字符对应的元素为零;
所述π*对所述预设字库中除所述特殊字符库中的字符以外的其他字符设置背景概率,所述背景概率即为预设字库中除所述特殊字符库的字符以外的其他字符的发射概率,所述发射概率是一个一维向量,其中所述一维向量中元素的个数与预设字库中的字符个数相同,所述一维向量中的元素为所述背景概率;
所述ρ为所述特殊字符库中字符的概率分布的权重,1-ρ为除特殊字符库中字符以外的其他字符的概率分布的权重。
2.如权利要求1所述的剖面隐式马氏模型的疾病名称标准化快速计算方法,其特征在于,所述预设字库包括全中文字库、数字、字母中的一项或多项。
3.如权利要求1所述的剖面隐式马氏模型的疾病名称标准化快速计算方法,其特征在于,所述根据所述条件概率及预设算法得到所述疾病名称对应的标准疾病编码的方法包括:
获取不同标准疾病编码的先验概率,以及所述疾病名称在每一个剖面隐式马氏模型对应的标准疾病编码下的条件概率,根据贝叶斯公式计算所述疾病名称属于所述不同标准疾病编码的后验概率,根据所述后验概率得到所述疾病名称对应的概率最大的标准疾病编码。
4.如权利要求1所述的剖面隐式马氏模型的疾病名称标准化快速计算方法,其特征在于,所述隐式状态包括如下状态关系中的一种:插入状态、替换状态、删除状态;
当所述隐式状态关系为插入状态或替换状态下,利用所述混合分布算法计算所述插入状态或替换状态下对应的不同字符的发射概率;
当所述转移状态关系为删除状态时,以发射概率1发射出一个空字符。
5.如权利要求1所述的基于剖面隐式马氏模型的疾病名称标准化快速计算方法,其特征在于,所述将所述待处理疾病名称同时输入到多个剖面隐式马氏模型中之前,所述方法还包括:
将所述待处理疾病名称中的字符分别与所述多个剖面隐式马氏模型对应的多个特殊字符库中的字符相比较,判断所述待处理疾病名称中是否有至少一个字符与任一所述特殊字符库中的字符相一致;
若一致,则将所述待处理疾病名称输入到所述特殊字符库对应的剖面隐式马氏模型中计算所述待处理疾病名称在所述剖面隐式马氏模型对应的标准疾病编码下的条件概率;
若不一致,则直接输出所述待处理疾病名称在所述特殊字符库对应的剖面隐式马氏模型下的条件概率为0。
6.如权利要求1所述的剖面隐式马氏模型的疾病名称标准化快速计算方法,其特征在于,所述每一剖面隐式马氏模型接收到待处理疾病名称之后,执行如下操作:
确定所述待处理疾病名称在所述剖面隐式马氏模型中概率最大的隐式状态路径以及每个隐式状态对应的发射字符;
根据所述隐式状态对应的转移概率及所述隐式状态下发射的字符对应的发射概率通过条件概率计算公式计算条件概率;
所述条件概率等于所有所述隐式状态之间的转移概率乘以所有所述隐式状态下字符的发射概率。
7.如权利要求1所述的剖面隐式马氏模型的疾病名称标准化快速计算方法,其特征在于,所述特殊字符库中字符的概率分布的权重为预先设置的预设值。
8.如权利要求7所述的剖面隐式马氏模型的疾病名称标准化快速计算方法,其特征在于,所述预设值为95%。
CN201911232179.2A 2019-12-05 2019-12-05 基于剖面隐式马氏模型的疾病名称标准化快速计算方法 Active CN110911015B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911232179.2A CN110911015B (zh) 2019-12-05 2019-12-05 基于剖面隐式马氏模型的疾病名称标准化快速计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911232179.2A CN110911015B (zh) 2019-12-05 2019-12-05 基于剖面隐式马氏模型的疾病名称标准化快速计算方法

Publications (2)

Publication Number Publication Date
CN110911015A true CN110911015A (zh) 2020-03-24
CN110911015B CN110911015B (zh) 2022-12-02

Family

ID=69822407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911232179.2A Active CN110911015B (zh) 2019-12-05 2019-12-05 基于剖面隐式马氏模型的疾病名称标准化快速计算方法

Country Status (1)

Country Link
CN (1) CN110911015B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839211A (zh) * 2014-03-23 2014-06-04 合肥新涛信息科技有限公司 一种基于语音识别的病历转写系统
CN109065157A (zh) * 2018-08-01 2018-12-21 中国人民解放军第二军医大学 一种疾病诊断标准化编码推荐列表确定方法及系统
CN110491465A (zh) * 2019-08-20 2019-11-22 山东众阳健康科技集团有限公司 基于深度学习的疾病分类编码方法、系统、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839211A (zh) * 2014-03-23 2014-06-04 合肥新涛信息科技有限公司 一种基于语音识别的病历转写系统
CN109065157A (zh) * 2018-08-01 2018-12-21 中国人民解放军第二军医大学 一种疾病诊断标准化编码推荐列表确定方法及系统
CN110491465A (zh) * 2019-08-20 2019-11-22 山东众阳健康科技集团有限公司 基于深度学习的疾病分类编码方法、系统、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MARIANA FONSECA ROSSI 等: "Performance of Hidden Markov Models in Recovering the Standard Classification of Glycoside Hydrolases", 《EVOLUTIONARY BIOINFORMATICS》 *

Also Published As

Publication number Publication date
CN110911015B (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
CN107704625B (zh) 字段匹配方法和装置
CN110991170B (zh) 基于电子病历信息的中文疾病名称智能标准化方法与系统
CN111612041B (zh) 异常用户识别方法及装置、存储介质、电子设备
WO2022142011A1 (zh) 一种地址识别方法、装置、计算机设备及存储介质
US20150254308A1 (en) Record linkage algorithm for multi-structured data
WO2014126657A1 (en) Latent semantic analysis for application in a question answer system
US11210350B2 (en) Automated assistance for generating relevant and valuable search results for an entity of interest
CN110209809B (zh) 文本聚类方法和装置、存储介质及电子装置
WO2022222943A1 (zh) 科室推荐方法、装置、电子设备及存储介质
CN109299227B (zh) 基于语音识别的信息查询方法和装置
CN111046882B (zh) 基于剖面隐式马尔科夫模型的疾病名称标准化方法和系统
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN111785383B (zh) 数据处理方法及相关设备
TW202123026A (zh) 資料歸檔方法、裝置、電腦裝置及存儲介質
CN113254673B (zh) 一种基于知识图谱的数据管理方法、系统、设备和介质
US10192031B1 (en) System for extracting information from DICOM structured reports
WO2022227171A1 (zh) 关键信息提取方法、装置、电子设备及介质
CN111640517B (zh) 病历编码方法、装置、存储介质及电子设备
CN111984745B (zh) 数据库字段动态扩展方法、装置、设备及存储介质
CN110911015B (zh) 基于剖面隐式马氏模型的疾病名称标准化快速计算方法
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN108536666A (zh) 一种短文本信息提取方法和装置
CN115878864A (zh) 一种数据检索方法、装置、设备及可读存储介质
CN115620886A (zh) 一种数据审核方法和装置
CN113741864B (zh) 基于自然语言处理的语义化服务接口自动设计方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant