基于原始诊断数据和病历文件数据的疾病编码方法及系统
技术领域
本发明涉及医疗信息化技术领域及人工智能技术领域,尤其涉及一种基于原始诊断数据 和病历文件数据的疾病编码方法及系统。
背景技术
随着国家对公共医疗的布局和医疗改革的不断深入和深化,医疗服务全方位的提升对医 疗信息化提出了迫切的要求。在医保、公共卫生服务,医院信息化管理等方面,医疗信息化 从完成全过程记录的流程自动化管理发展到互联网+健康医疗;在现在大数据及人工智能背景 下,医疗信息化逐步触及医疗的核心业务,对诊疗过程提供辅助决策及指导参考。在医疗业 务以及医学教学、学术交流、数据分析乃至医学人工智能辅助决策中,标准化的信息(诊断, 病历,检查,药品等)记录及交换是必不可少甚至是重中之重,其中首要的就是诊断的标准 化:标准诊断编码(ICD)。
(1)编码人员对于标准编码的理解和把握不恒定不统一,导致编码结果存在差异。
病案首页中的诊断在病历归档、病案上报、医保报销前,由医院病案室的编码员依照《疾 病和有关健康问题的国际统计分类》(俗称手册),及卫计委发布的标准诊断编码字典,对病 案首页上的医生诊断进行编码。这个工作是人工完成的,因此受制于人力,编码人员素质, 对标准的解读和对编码字典庞大内容的把握程度,以及工作年限和经验,从而每天人工对码 的数量有限,且存在误判的情况,并且编码粗细程度及判断标准也因人而异,在不同医院数 据对比和交流中,这些问题就会凸显并被放大,甚至同一所医院不同编码员之间、同一编码 员不同时期,编码也存在差异。
(2)医生个性化、自定义输入的实际诊断与标准诊断编码库不完全兼容。
由于诊断编码库中包含的诊断不能完全覆盖医生日常工作中实际使用的诊断,并且对于 同一个诊断,由于汉语的特殊性,同一疾病概念表述方式的极端多样性且行业内并不存在统 一标准医疗术语这种规范,不同的医生使用的诊断的名称写法以及结构也不尽相同,五花八 门,使用的别名有很大差异;加上标准诊断字典的更新需要很长时间(国标ICD10,上次更 新2009年距离本次更新2017年就过去8年之久),并不能及时覆盖最新出现的疾病和其名称; 且对于特定诊断的分型,标准编码的详细程度达不到医生的临床实际要求;又或者医生在书 写诊断时,在书写诊断时候会附加一些额外详细信息,而标准诊断编码库对于额外信息的带 来的区别分类是无法体现的;再者,医生在书写诊断时,也会使用一些只有业内熟悉的简写 简称或者缩写,而这些也不是标准诊断编码库所收录的。从根本上来说,医生是从诊疗业务 角度出发的详细记录疾病信息,而不是为了分类编码,所以不兼容的情况根深蒂固的不可避 免,上述各种原因导致了在医院实际业务中绝大多数医生在填写诊断的时候使用程序选择或 者手写的编码都存在不少的错误。
(3)标准诊断编码库版本不统一。
目前市面上各个医院使用的编码库主要是在国家标准诊断编码库09年版结合各个医院 自己的需求修改和扩展衍伸出来,修改和扩展的部分并没有专门的组织和机构统一的管理和 分发,医院与医院之间的版本无法完全兼容,甚至有医院使用的是更早的国家标准版本更改 衍伸出来的,所以造成即使同一个疾病,在不同医院中使用的编码也不能保证完全统一,而 各医院由国家标准版本衍伸出来的部分就更不能保证一致了。
(4)在病案统计资料的准确性,医疗、教学、科研资料检索的准确性、疾病分组DRGS医疗保险预付费(DRGS-PPS)健康发展等方面,正确而标准统一的诊断编码是这一切的基础。
(5)现有编码数据源仅仅考虑单一数据源,没有考虑多个数据源;单一数据源造成的结 果是编码不完整,有漏编现象,对后期科研数据的使用不利。
不论是在构建统一权威的人口健康信息平台、健康医疗数据标准,还是在此基础上完善 人口健康信息各类基础业务应用上,以及在医疗信息平台、医疗信息仓库搭建后的高层次应 用,包括但不局限于医疗动态监测、疾控、医学研究、医疗人工智能、辅助决策等,诊断信 息在跨机构,跨平台交流以及汇总后需要能够保持稳定和一致,而基于前面所述四个原因, 诊断信息在收集、交互、汇总、分析过程中需要经过大量的编码标准化工作。
发明内容
本发明的目的就是为了解决上述问题,提供一种基于原始诊断数据和病历文件数据的疾 病编码方法及系统,根据医生输入诊断,结合对病历的解析分词和语义理解,自动对照标准 诊断库ICD-10进行编码;能够对编码结果评估其正确可能性。
为了实现上述目的,本发明采用如下技术方案:
基于原始诊断数据和病历文件数据的疾病编码方法,包括如下步骤:
步骤(1):接收输入数据:所述输入数据包括:原始诊断数据和病历文件数据;
步骤(2):对输入的原始诊断数据和病历文件数据进行预处理;
步骤(3):以步骤(2)得到的预处理结果在GB/T 14396-2016《疾病分类与代码》及国 际疾病标准分类编码ICD-10中检索,判断是否得到结果,如果得到结果,则直接输出编码结 果;若否,进入步骤(4);
步骤(4):对预处理过的原始诊断数据进行分词处理、联想转化处理和搜索匹配树处理, 然后从匹配树的处理结果中筛选出最优结果,判断是否是最优结果,若是,则进入步骤(6); 若不是最优结果,进入步骤(5);
步骤(5):对步骤(1)输入的病历文件数据进行分词处理、非结构化数据转换为结构化 数据、联想转化处理和搜索匹配树处理,然后从匹配树的处理结果中筛选出最优结果,进入 步骤(6);
步骤(6):评估结果的编码准确性,输出编码结果及准确性评估结果。
所述步骤(2)的预处理包括:去除标点符号,将异体字转换成正体字,将全角字符转换 为半角字符。
所述分词处理,是指:将待分词语句切分为若干个诊断关键词,所述诊断关键词,包括 表示限定修饰的修饰词和表示疾病的主关键词;所述修饰词是指描述性质、部位或程度类型 的词语;所述主关键词是指描述疾病、异常组织、异常机体或异常症状的词语;
所述联想转化处理,是指:将分词得到的修饰词和主关键词标记在医疗语义网络上,利 用医疗语义网络对修饰词和主关键词分别进行联想转化,将原主关键词和原主关键词联想转 化后得到的新主关键词与原修饰词和原修饰词联想转化后得到的新修饰词进行排列组合,最 终得到原始诊断数据中主关键词与修饰词之间的所有组合;
例如:基底节梗死,分词处理后为基底节和梗死,经过语义网络转化,基底节联想转化 为基底节、脑干和脑,梗死联想转化为梗死和梗塞,那么这个两个关键词和转化后的结果组 合的结果包括:组合1:基底节_梗塞,组合2:基底节_梗死,组合3:脑干_梗塞,组合4: 脑干_梗死,组合5:脑_梗塞,组合6:脑_梗死。组合1到6就是所有组合。
所述搜索匹配树处理,是指:根据联想转化处理得到的主关键词与修饰词之间所有组合, 从匹配森林中搜索出每个组合对应的完全覆盖树叶的匹配树,结果是一个匹配树、若干个匹 配树或无结果;
所述从匹配树的处理结果中筛选出最优结果,是指:
步骤(a1):将匹配到的匹配树上的关键词数量分别进行降序排列比较,如果排名第一的 与第二相同或者与排名第一的相同的有多个,
则将得到拆分的关键词数量与匹配树的关键词数量之比进行升序排列比较;如果得到的 排名第一的与第二相同或者与排名第一的相同的有多个,则进入步骤(a2);
步骤(a2):将修饰词和主关键词在医疗语义网络的转化距离进行叠加,对叠加结果进行 降序排列比较,如果排名第一的与第二相同或者与排名第一的相同的有多个,则进入步骤(a3);
步骤(a3):计算匹配树的匹配程度,所述匹配树的匹配程度等于分词得到的主关键词的 数量与匹配树的主关键词数量之比,对数量之比进行降序排列比较;如果排名第一的与第二 相同或者与排名第一的相同的有多个,则结束;
在步骤(a1)-步骤(a3)中,如果最优结果只有一项,即排名第一的结果只有一个(第 二名及后续都与第一名不同),则表示当前匹配树为最优匹配树。
所述步骤(5)中,病历文本是非结构化的文本,对病历文件数据进行分词处理后,将分 词处理后的非结构化数据转换为结构化数据,对结构化数据依照所属类别分类存放,所属类 别包括:人员、器官、时间、地点、频率、症状、手术、药品、病史,从结构化数据对应分类中抽取与诊断相关的信息作为补充关键词;再对补充关键词进行联想转化处理和搜索匹配 树处理,然后从匹配树的处理结果中筛选出最优结果,进入步骤(6);所述与诊断相关的信 息包括:家族史、遗传史、疾病性质和孕期时间;
所述评估结果的编码准确性,从结果与原始诊断数据的匹配程度、诊断关键词在医疗语 义网络的转化距离、原始诊断数据中诊断关键词与标准诊断中诊断关键词的顺序的差异性三 个角度进行评估;
所述结果与原始诊断数据的匹配程度,为:在所有匹配到的匹配树结果中,首先计算每组 切分出的修饰词和主关键词总数量与匹配树包含的修饰词和主关键词总数量之比值,即为第 一比值;其次计算切分出的主关键词数量与匹配树的主关键词的数量之比,即为第二比值; 第二比值和第一比值,即为结果与原始诊断数据的匹配程度。
所述诊断关键词在医疗语义网络的转化距离,为:将每个诊断关键词在医疗语义网络转 化到匹配树对应的诊断关键词经过的路径长度记做一个转化系数,计算所有匹配到的诊断关 键词的转化系数自然对数之和,即为诊断关键词在医疗语义网络的转化距离。
以基底节梗死为例,对应到脑梗死上,基底节转化到脑,转化权重为0.3,梗死转化到梗 死,转化权重为1,那么以自然对数之和的形式计算权重叠加结果为ln(0.3)+ln(1)=-1.204。
所述原始诊断数据中诊断关键词与ICD-10中诊断关键词的顺序的差异性,为:首先计算 同一个诊断关键词在原始诊断数据中的位置和在ICD-10中位置的顺序差,然后计算所有诊断 关键词的顺序差的绝对值之和。
结果的编码准确性评估公式:
y=wTX+b;
其中,y为估算正确率,X为向量(x1,x2,x3),其中x1表示结果与原始诊断数据的匹配程 度,x2表示诊断关键词在医疗语义网络的转化距离,x3表示原始诊断数据中诊断关键词与 ICD-10中诊断关键词的顺序的差异性。
代表匹配过程中三个过程数据,wT为向量w的转置,w向量为(w1,w2,w3),其中, w1,w2,w3,b为常数。
所述步骤(1)中,
原始诊断数据,包括:病历文件中的诊断、病案首页的出院诊断、病理诊断以及损伤中 毒的外因诊断;
病历文件数据,包括:从病案首页、入出院记录、病程记录、手术记录、病理报告或检 验检查报告、补充信息。
所述补充信息,包括:年龄、性别,发病部位、疾病性质、围手术期、医院感染疾病、本次诊疗目的、主诊断信息、检验、病理、影像诊断信息、家族性、遗传性、陈旧性、后遗 症、先天性疾病、手术或生产方式。
修饰词,包括:部位,疾病性质,方位,疾病分型,程度等,例如左侧、右侧、急性、 先天性、黄疸型、肺上叶等。
诊断关键词,包括:疾病,异常组织成分等,例如肺炎、畸形、游走肾等。
疾病与疾病之间构成的切分结构,例如A疾病伴B疾病(并列结构)、A疾病导致B疾病 (修饰限定结构)、A疾病(B疾病)、(递进结构)等。
所述分词处理,是指依照GB/T 14396-2016《疾病分类与代码》及国际疾病标准分类编码 ICD-10对数据清洗后的原始诊断数据进行全切分,切分结果中每个词语作为诊断关键词;诊 断关键词,包括:表示限定修饰的修饰词和表示疾病的主关键词;
语义网络是一种用图来表示知识的结构化方式;在一个语义网络中,信息被表达为一组 结点,结点通过一组带标记的有向直线彼此相连,用于表示结点间的关系。
所述医疗语义网络是医疗领域的语义网络,医疗语义网络的节点主体为医学领域概念, 所述医学领域概念节点与其他的医学领域概念节点连接,每个医学领域概念节点又与自身的 病种概念表现形式节点连接;每个医学领域概念节点还与性质概念节点、程度概念节点、部 位概念节点或机体概念节点连接;所述医疗语义网络的节点间的关系即为医疗领域概念之间 的关系。
所述医疗领域概念,包括:生理解剖部位、机体组织、成分、疾病异常、细菌病毒、病理、疾病性质;
医学领域概念之间的关系,包括:相互关系、转化关系、相互关系权重、转化关系权重 和概念到具体表现的关系。
医学领域概念与概念之间的相互关系,包括:概念的包含、所属、抽象或具体表现;
医学领域概念与概念之间的转化关系,包括:概念的相近或相同;
依靠医疗语义网络,实现概念的关联和转化,从而扩大概念的搜索范围和联想范围;而 每个概念与之对应的具体表现形式多样,且不仅包括书面规范的名称,也覆盖了实际使用的 口语化的名称,因而消弭了官方标准诊断的规范术语与实际应用的不兼容和冲突问题。
对于原始诊断数据中疾病数量多于一个的,诊断切分结果会分成两个或多个部分,每个 部分包含一个主关键词及对应的修饰词。匹配时,各个部分作为一个组输入进行搜索匹配树。 某些标准诊断包含多个疾病,所以其匹配树叶是由多个部分组成,每个部分都有修饰词和关 键词,并且包含各部分之间的关系。所述的各部分之间关系包括伴随并发,导致,不伴排除 等。
匹配森林包括若干个匹配树,每个匹配树,包括:树根、树干、树枝和树叶;所述匹配 树的树根表示诊断概念,表现为ICD编码;所述匹配树的树干表示诊断概念的表现诊断名称; 所述匹配树的树枝表示诊断概念表现诊断名称的具体组成部分(通常标准诊断只有一个疾病 的,树干为一个;档标准诊断包含多个疾病时,树干为对应数量的);所述匹配树的树叶表示 诊断概念表现诊断名称的具体组成部分的修饰词和主关键词。
匹配森林的形成过程:单个标准诊断是一个概念,而概念包括若干个表现形式;每种表 现形式具有自己的结构、包含的概念实体以及包含的各概念实体间的相互关系;每个标准诊 断表示的概念、结构、包含的概念实体以及包含的各概念实体间的相互关系用树的结构来表 示,定义为匹配树,而所有标准诊断的匹配树形成匹配森林,并且,根据ICD标准指南,在 匹配森林中,匹配树之间存在优先级及包含关系。
表现形式,例如:名称。
每种表现形式具有自己的结构:并列,递进说明,因果等;
每种表现形式具有自己的包含的概念实体:症状,疾病,操作等;
每种表现形式具有自己的包含的各概念实体间的相互关系:关键词与修饰词,限定修饰 等;
所述匹配树的根表示诊断概念,其概念表现为ICD编码;例如:梅尼埃病所表述的概念 是一种病理改变为膜迷路积水,临床表现是反复发作的旋转性眩晕、波动性听力下降、耳鸣 和耳闷胀感的特发性内耳疾病。
由于概念是抽象的事物,需要一个唯一的标志来对应标识,名称只是概念的一种表现而 已,而标准诊断编码ICD恰恰是每个疾病的对应标识,也就自然成为每个概念的唯一标识, 也就是疾病概念的表现。
例如上面表述的梅尼埃病的概念,在标准诊断中,梅尼埃病的ICD编码为H81.000,那么 这个ICD编码H81.000就是梅尼埃病的概念的表现,同时,作为梅尼埃病的匹配树的根。
所述匹配树的树干表示诊断概念表现诊断名称;例如:梅尼埃病概念的表现名称有梅尼 埃病,内耳性眩晕和膜迷路积水。
所述匹配树的树枝表示诊断概念表现诊断名称的具体组成部分,例如二尖瓣狭窄伴三尖 瓣关闭不全,有两个树枝,分别为二尖瓣狭窄和三尖瓣关闭不全;
所述匹配树的树叶表示诊断概念表现诊断名称的具体组成部分的修饰词和主关键词;例 如:内耳性眩晕,主关键词为眩晕,修饰词为内耳性。
使用自然语言处理程序ansj_seg对病历数据文件进行分词处理,处理后的结果为结构化 的数据;对分出的词语依照所属类别分类存放,例如分类为人员,器官,时间,地点,频率, 症状,手术,药品,病史等分类存放即为结构化的数据;从结构化的数据中,抽取与诊断相 关的信息,例如:妊娠、分娩、产褥等围产期,细菌、真菌等病因,家族疾病、遗传性疾病或者先天性、后天性等疾病性质,损伤、中毒的外因,癌症的细胞形态学分类。
所述搜索匹配树处理,有三种情况,
第一种是无结果,输出的结果为空,那么提示无匹配结果的原因为原始诊断信息不足。
第二种是有结果,最后排序选出的最优结果只有一个,那么将这个最优结果作为最终匹 配结果输出。
第三种是有结果,选出的最优结果有多个,那么输出结果为空,并提示无匹配结果的原 因是有多个匹配程度相同的结果,并将多个最优结果作为提示信息的一部分输出;需要重新 输入诊断且在原基础上提供更详细的信息。
基于原始诊断数据和病历文件数据的疾病编码系统,包括:存储器、处理器和存储在存 储器上并在处理器上运行的计算机指令,所述计算机指令被处理器执行时,完成以下步骤:
步骤(1):接收输入数据:所述输入数据包括:原始诊断数据和病历文件数据;
步骤(2):对输入的原始诊断数据和病历文件数据进行预处理;
步骤(3):以步骤(2)得到的预处理结果在GB/T 14396-2016《疾病分类与代码》及国 际疾病标准分类编码ICD-10中检索,判断是否得到结果,如果得到结果,则直接输出编码结 果;若否,进入步骤(4);
步骤(4):对预处理过的原始诊断数据进行分词处理、联想转化处理和搜索匹配树处理, 然后从匹配树的处理结果中筛选出最优结果,判断是否是最优结果,若是,则进入步骤(6); 若不是最优结果,进入步骤(5);
步骤(5):对步骤(1)输入的病历文件数据进行分词处理、非结构化数据转换为结构化 数据、联想转化处理和搜索匹配树处理,然后从匹配树的处理结果中筛选出最优结果,进入 步骤(6);
步骤(6):评估结果的编码准确性,输出编码结果及准确性评估结果。
一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时, 完成以下步骤:
步骤(1):接收输入数据:所述输入数据包括:原始诊断数据和病历文件数据;
步骤(2):对输入的原始诊断数据和病历文件数据进行预处理;
步骤(3):以步骤(2)得到的预处理结果在GB/T 14396-2016《疾病分类与代码》及国 际疾病标准分类编码ICD-10中检索,判断是否得到结果,如果得到结果,则直接输出编码结 果;若否,进入步骤(4);
步骤(4):对预处理过的原始诊断数据进行分词处理、联想转化处理和搜索匹配树处理, 然后从匹配树的处理结果中筛选出最优结果,判断是否是最优结果,若是,则进入步骤(6); 若不是最优结果,进入步骤(5);
步骤(5):对步骤(1)输入的病历文件数据进行分词处理、非结构化数据转换为结构化 数据、联想转化处理和搜索匹配树处理,然后从匹配树的处理结果中筛选出最优结果,进入 步骤(6);
步骤(6):评估结果的编码准确性,输出编码结果及准确性评估结果。
本发明的有益效果:
1.解决了医生原始诊断对应到标准诊断只能通过人工完成,主要是借助编码人员借助自 身了解的医学知识和编码分类知识,才能完成这项工作的问题。部分性突破了需要通过语言 理解,借助医学知识思考的困难。解决了医生输入诊断的用语不受约束限制,无医学词汇标 准可参照导致的同一诊断概念却有数种诊断名称以及大量的不同具体写法,从而与标准诊断 对照困难的问题。
2.有效解决了各个医疗机构使用的标准诊断编码不统一的问题。使用了自动编码后,原 始诊断对应到同一套标准诊断编码上,分类标准统一,在医疗机构数据交流过程中保证标准 统一。
3.分类标准稳定,解决了编码员因受到原始诊断的描述用词导致的分类标准不稳定,同 一诊断前后几次对应编码不一致的问题。
4.采用计算机程序自动编码,不但节省了巨量的人力资源,而且效率极大幅度提高,正 确率相较人工编码提高且分类标准统一。理论上一个省(例如山东省)产生的诊断数量在几 个小时内即可完成编码。
5.自动诊断编码有利于保证医疗,教学,科研的资料检索准确性,以及疾病分组DRGS 的发展。构建统一权威的人口健康信息平台、健康医疗数据标准,自动编码将发挥助力作用。
6.由于自动编码快速且分类稳定,可实现在短时间内大批量对原始病历进行编码分类, 可以为医疗领域的大数据应用及人工智能快速准备和整理数据,在该领域作为基础功能有着 不可替代的作用。
7.不仅考虑原始诊断数据还考虑若原始诊断数据不全,导致疾病编码不全,本发明采用 病历文件数据的分析处理,来保证编码结果的完整性,保证后期科研数据的使用的严谨性。
附图说明
图1为标准诊断自动匹配流程图;
图2为语义网络结构示意图;
图3为匹配树结构示意图;
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
如图1所示,基于原始诊断数据和病历文件数据的疾病编码方法,包括如下步骤:
步骤(1):接收输入数据:所述输入数据包括:原始诊断数据和病历文件数据;
步骤(2):对输入的原始诊断数据和病历文件数据进行预处理;
步骤(3):以步骤(2)得到的预处理结果在GB/T 14396-2016《疾病分类与代码》及国 际疾病标准分类编码ICD-10中检索,判断是否得到结果,如果得到结果,则直接输出编码结 果;若否,进入步骤(4);
步骤(4):对预处理过的原始诊断数据进行分词处理、联想转化处理和搜索匹配树处理, 然后从匹配树的处理结果中筛选出最优结果,判断是否是最优结果,若是,则进入步骤(6); 若不是最优结果,进入步骤(5);
步骤(5):对步骤(1)输入的病历文件数据进行分词处理、非结构化数据转换为结构化 数据、联想转化处理和搜索匹配树处理,然后从匹配树的处理结果中筛选出最优结果,进入 步骤(6);
步骤(6):评估结果的编码准确性,输出编码结果及准确性评估结果。
如图2所示,医疗语义网络由节点及节点之间的有向关系组成,节点包括概念实体及具 体表现之分,概念实体在医疗领域的分类包括疾病、解剖部位、机体组织、成分、疾病性质 等。节点之间的有向关系包括包含、属于、具体表现、抽象、近义等。例如图中:葡萄膜炎 是一个概念实体,与后葡萄膜炎、前葡萄膜炎等概念实体是包含关系;与色素膜眼及血管膜 炎是近义/同义关系;同时葡萄膜炎属于眼病。
如图3所示,每个标准诊断匹配树结构包括:诊断概念,具体表现形式为标准诊断编码, 可以形象描述为树根;诊断概念具体的表现名称,可以是一个也可能是多个,可以形象描述 为树干;对于每个名称,可能其中包含多个疾病或者称为多个部分,每个疾病或部分可以形 象描述为树干,疾病与疾病之间或者说部分与部分之间关系描述为树枝之间的关系;而每个 疾病或者部分所具有的关键词可以描述为树叶。当某些关键词组合可以完全覆盖疾病(树枝) 的关键词(树叶),那么就表示匹配中了这个疾病;同时匹配中各个疾病之间的关系符合标准 诊断中各个疾病或部分的关系,那么表示匹配中这个疾病的名称,进而表达的是这个疾病概 念表述的内容或者一个细分的子类。
本系统和方法包括以下模块及算法:
1.标准诊断库的特征匹配网络:
单个标准诊断本质是一个概念,而概念有多种表现形式,每种表现形式下又细分概念实 体,以及细分的概念实体之间的相互联系和结构,细分的概念实体在医疗语义网络中又有相 同或者相近的概念实体与之联系和转化,所以,每个标准诊断表示的概念及其结构和包含的 概念可以用树的结构来表示,构成一个匹配树,而所有标准诊断的匹配树形成匹配森林。
匹配森林与医疗语义网络相结合,构成了新的特征匹配网络:依靠语义网络,实现了关 联和转化,从而扩大了搜索和联想范围,又能依靠特征匹配完成标准诊断的匹配。
2.诊断拆分及概念实体识别模块:
对原始诊断进行自然语言处理,对字符预处理后,识别出医学概念实体,交给标准诊断 特征匹配网络用于在匹配网络上进行标记。
在识别过程中,医学概念词典均从实际业务数据中提炼而来,因而在医疗领域比一般的 词典涉及的更专业和深入。在识别医疗概念实体过程中解析出诊断的结构,判断诊断的合理 和规范性,用于提升在匹配过程中的准确性。
3.诊断的匹配算法:
将诊断拆分后的关键词及结构,投射到匹配网络上,经过语义网络的联想和转化,将可 能表达的概念实体标记到匹配网络中语义网络上,然后这些标记的概念实体通过匹配树寻找 满足条件的标准诊断。对满足条件的标准诊断,依据标准诊断对原始诊断信息及结构覆盖的 程度,在语义网络上联想转化路径长短,以及标准诊断的优先级和所属关系,甄选出最合适 的匹配诊断。
4.病历补充信息提取模块:
从病历文件抽取诊断对码需要的关键信息和补充信息。例如,年龄段,性别,疾病性质, 围手术期等,以及本次诊疗目的、主诊断信息,检验、病理、影像诊断信息息等,还有手术、 生产方式等信息。这些信息都在原始诊断模糊或者缺失的情况下,作为补充信息进一步明确 诊断用。
5.编码准确性评估模块:
在匹配诊断的过程中,将最优的匹配结果,经过匹配路径,和原始诊断与匹配的标准诊 断的信息覆盖程度及相似程度记录下来。将上述各因素以不同权重汇总计算一个可信值,作 为评估此次匹配的正确性的依据。
6.诊断和病历输入及结果输出模块:
诊断输入模块,从交互界面或者电子病历病案或入出院病历中直接获取原始诊断。
从病历获取诊断补充信息,需要将非结构化的病历文件进行分词,转化为结构化的病历 文件,提取其中必要的信息。
结果输出模块,输出到交互界面或者指定文件中或数据库中。
本发明自动编码的步骤如下:
1a从界面获取输入的诊断。
1b从数据库获取诊断,以及对应的诊疗记录,病历文件。如果存在病历文件,则交由分 词程序进行处理,
2由诊断分析及概念实体识别模块,将原始诊断进行自然语言处理,以医学语义网络为 基础,将所有可能的切分及识别概念实体方式列出,并将切分和识别结果不合理或者不完全 的结果进行剪枝,然后对合理的切分和识别结果分析出的各个概念实体,并在概念实体组成 的结构上判断诊断的语法结构是否是合理的结构,反过来验证切分识别概念实体的合理性。
根据切分后的结构交由后面的标准诊断匹配模块选用不同的匹配方案进行匹配。
3标准诊断匹配模块将原始诊断的切分识别结果及结构信息,在标准诊断的匹配网络上, 依照匹配算法进行搜索。每个诊断概念及修饰限定概念在搜索过程中,依次经过具体表现到 概念,概念到联想和近似、包含概念,概念与概念组合到标准诊断具体表现,标准诊断具体 表现到标准诊断概念的搜索和转化路径。
同时,搜索转化过程中会记录概念转化的包含程度,搜索路径长短,原始诊断拆分出的 概念与最后结果包含的概念的符合和覆盖程度。
4如果由于原始诊断里必要信息缺失导致的匹配模块得不出结果,或者得出多个覆盖程 度相同却在概念上相差较多的诊断的话,此时就需要从病历文件中抽取补充信息。由分词程 序对病历文件进行分词并转化为结构化的文档,从中抽取与诊断相关的必要信息,补充进原 始诊断拆分的概念中,重新在匹配网络中进行搜索。
5准确性评估模块将搜索匹配过程中,联想转化的路径,搜索匹配的路径,原始诊断拆 分概念与标准诊断的概念匹配程度,原始诊断结构的合理性及与标准诊断结构相似程度,按 不同的权重汇总计算,根据计算结果评估对码的准确性。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限 制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付 出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。