CN109065157B

CN109065157B - 一种疾病诊断标准化编码推荐列表确定方法及系统

Info

Publication number: CN109065157B
Application number: CN201810860437.0A
Authority: CN
Inventors: 吴骋; 秦宇辰; 贺佳; 王志勇; 何倩; 秦婴逸; 郭威; 郭轶斌; 阮一鸣; 叶小飞; 郭晓晶; 陈琪; 许金芳; 韩贺东; 王蒙; 金志超; 赵艳芳; 王睿; 张新佶
Original assignee: Second Military Medical University SMMU
Current assignee: Second Military Medical University SMMU
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2020-11-03
Anticipated expiration: 2038-08-01
Also published as: CN109065157A

Abstract

本发明公开了一种疾病诊断标准化编码推荐列表确定方法及系统。所述方法包括：获取国际疾病分类库、电子记录以及疾病原始诊断描述，对疾病原始诊断描述进行预处理，并将预处理后的疾病原始诊断描述输入到疾病诊断分类预测模型，输出预处理后的疾病原始诊断描述在国际疾病分类库中的各章节的概率值集合；根据概率值集合建立一级候选疾病标准名称库；根据一级候选疾病标准名称库建立二级候选疾病标准名称库；计算二级候选疾病标准名称库中的疾病标准名称以及疾病原始诊断描述的语义相似度；根据语义相似度确定疾病原始诊断描述所对应的疾病标准名称编码推荐列表并提供给编码主体参考。采用本发明提供的方法及系统能够提高编码主体的工作效率。

Description

一种疾病诊断标准化编码推荐列表确定方法及系统

技术领域

本发明涉及疾病名称标准化领域，特别是涉及一种疾病诊断标准化编码推荐列表确定方法及系统。

背景技术

在当今卫生信息化迅猛发展，医疗卫生数据海量积累，信息标准化需求空前膨胀的大背景下，医学编码使得医生诊断给出的疾病原始名称转换为疾病标准名称，即疾病名称标准化。因此，医学编码日渐转变为一项专业性强、标准化程度高、工作负荷大、更新变化速度快、容错性低的重要工作，挑战着现有传统人工编码模式和方法。国际疾病分类库(international Classification of diseases，ICD)ICD-9仅包含约4000多条操作编码和14000多条疾病编码，而ICD-10则包含了约72000多条操作编码和68000多条疾病编码，而且仍在不断更新完善，这无疑极大地提升了疾病名称标准化编码的工作量和工作难度。因此，在实际编码工作中广泛采用智能化的辅助编码工作十分必要，然而，就我国现状来说，相关工作方法的研究及应用还很少。

现有的疾病诊断编码器(相当于编码员纯手工编码)，由编码员先理解疾病原始诊断描述并判定出所需的检索词并手动输入该工具，该工具能帮其检索ICD库，但是该疾病诊断编码器过于简单，仅具有检索功能，需人工几乎参与全编码过程，导致疾病编码效率低、问题多。例如：由于不同人编码倾向性可能不同，因此，人工全过程参与会引起编码一致性差；对于长时间编码，若编码人员疲惫，编码准确率随编码工作时间累积而下降；并且由于原始方法没有智能语义分析和结果预判功能，无法快速提供给编码员一系列具有较高可信度的候选疾病标准名称。

虽然无人工参与的自动化编码方法早已提出，但仍未发展成熟，现有方法均无法在实际工作中实现符合限定准确率的自动编码效果；美国卫生信息学会建议在自动化编码方法完全发展成熟之前，需让编码员百分之百审核自动化编码工作输出的编码结果，以弥补系统不足、纠正可能存在的错误，与无人工参的自动化编码方法的初衷相违背。由此可知，目前技术条件下，疾病诊断编码流程仍然离不开专业编码人员的人工参与，但目前普遍使用的疾病诊断编码辅助方法智能性过低，需要人工参与的步骤流程过多，对编码效率及质量的提升效果很有限，存在着人工参与程度过高，编码一致性差，出错风险高，编码工作效率低下，疾病名称标准化难度高的问题。

发明内容

本发明的目的是提供一种疾病诊断标准化编码推荐列表确定方法及系统，以解决现有的疾病诊断编码方法人工参与程度过高，编码一致性差，出错风险高，编码工作效率低下，疾病名称标准化难度高的问题。

为实现上述目的，本发明提供了如下方案：

一种疾病诊断标准化编码推荐列表确定方法，包括：

获取国际疾病分类库以及历史疾病诊断编码的电子记录；所述电子记录包括多个已标准化编码的疾病原始诊断描述；

获取疾病原始诊断描述并对所述疾病原始诊断描述进行预处理，得到预处理后的疾病诊断描述；所述疾病原始诊断描述包括多个字符以及由多个字符组成的关键字；

根据所述电子记录建立疾病诊断分类预测模型；

将所述预处理后的疾病原始诊断描述输入到所述疾病诊断分类预测模型，输出所述预处理后的疾病原始诊断描述在所述国际疾病分类库中的各章节的概率值集合；

根据所述概率值集合建立一级候选疾病标准名称库；

根据所述一级候选疾病标准名称库建立二级候选疾病标准名称库；

获取所述二级候选疾病标准名称库中的疾病标准名称；

计算所述疾病标准名称与所述预处理后的疾病原始诊断描述间的语义相似度；

根据所述语义相似度确定所述疾病原始诊断描述所对应的疾病标准名称编码推荐列表并提供给编码主体参考；所述编码主体包括专业医学编码人员以及非专业的编码从业人员。

可选的，所述根据所述电子记录建立疾病诊断分类预测模型，具体包括：

根据所述电子记录确定记录分类标签向量；所述记录分类标签向量为所述电子记录对应的所述国际疾病分类库的首位大写字符序号；

根据所述电子记录建立以单个字符为基本单元的空间向量模型；

根据所述记录分类标签向量以及所述空间向量模型建立疾病诊断分类预测模型。

可选的，所述根据所述概率值集合建立一级候选疾病标准名称库，具体包括：

获取所述概率值集合中的最大概率值；

判断所述最大概率值是否小于概率值阈值，得到第一判断结果；

若所述第一判断结果表示为所述最大概率值小于所述概率值阈值，将所述国际疾病分类库确定为一级候选疾病标准名称库；

若所述第一判断结果表示为所述最大概率值不小于所述概率值阈值，提取所述最大概率值所对应的章节中所有疾病标准名称，并组成一级候选疾病标准名称库。

可选的，所述根据所述一级候选疾病标准名称库建立二级候选疾病标准名称库，具体包括：

获取所述一级候选疾病标准名称库中所有候选疾病标准名称；

逐一判断所述一级候选疾病标准名称库中任一条候选疾病标准名称是否含有与所述预处理后的疾病原始诊断描述相同的字符，得到第二判断结果；

若所述第二判断结果表示为所述候选疾病标准名称含有与所述预处理后的疾病原始诊断描述相同的字符，则将所述候选疾病标准名称纳入二级候选疾病标准名称库；

若所述第二判断结果表示为所述候选疾病标准名称未含有与所述预处理后的疾病原始诊断描述相同的字符，则不将所述候选疾病标准名称纳入二级候选疾病标准名称库；若所述建立的二级候选疾病标准名称库中不含任何候选疾病标准名称则转入完全人工编码流程。

可选的，所述计算所述疾病标准名称与所述预处理后的疾病原始诊断描述间的语义相似度，具体包括：

根据公式

计算所述疾病标准名称与所述预处理后的疾病原始诊断描述间的语义相似度；其中，S(A,C)表示所述疾病原始诊断A与所述二级候选疾病标准名称库中任一条候选疾病标准名称C间的语义相似度；A∩C表示A与C间的共有字符集合；A∪C表示A与C中所包含的所有不重复字符集合；|A∪C|为不重复字符集合的字符长度；|A∩C|为共有字符集合的字符长度；δi为第i个校正条件下，所述共有字符集合的字符长度校正因子，ε_i为第i个校正条件下，所述不重复字符集合的字符长度校正因子，i≥0。

一种疾病诊断标准化编码推荐列表确定系统，包括：

获取模块，用于获取国际疾病分类库以及历史疾病诊断编码的电子记录；所述电子记录包括多个已标准化编码的疾病原始诊断描述；

预处理模块，用于获取疾病原始诊断描述并对所述疾病原始诊断描述进行预处理，得到预处理后的疾病诊断描述；所述疾病原始诊断描述包括多个字符以及由多个字符组成的关键字；

疾病诊断分类预测模型建立模块，用于根据所述电子记录建立疾病诊断分类预测模型；

概率值集合输出模块，用于将所述预处理后的疾病原始诊断描述输入到所述疾病诊断分类预测模型，输出所述预处理后的疾病原始诊断描述在所述国际疾病分类库中的各章节的概率值集合；

一级候选疾病标准名称库建立模块，用于根据所述概率值集合建立一级候选疾病标准名称库；

二级候选疾病标准名称库建立模块，用于根据所述一级候选疾病标准名称库建立二级候选疾病标准名称库；

疾病标准名称获取模块，用于获取所述二级候选疾病标准名称库中的疾病标准名称；

语义相似度计算模块，用于计算所述疾病标准名称与所述预处理后的疾病原始诊断描述间的语义相似度；

疾病标准名称编码推荐列表确定模块，用于根据所述语义相似度确定所述疾病原始诊断描述所对应的疾病标准名称编码推荐列表并提供给编码主体参考；所述编码主体包括专业医学编码人员以及非专业的编码从业人员。

可选的，所述疾病诊断分类预测模型建立模块具体包括：

记录分类标签向量确定单元，用于根据所述电子记录确定记录分类标签向量；所述记录分类标签向量为所述电子记录对应的所述国际疾病分类库的首位大写字符序号；

空间向量模型建立单元，用于根据所述电子记录建立以单个字符为基本单元的空间向量模型；

疾病诊断分类预测模块建立单元，用于根据所述记录分类标签向量以及所述空间向量模型建立疾病诊断分类预测模型。

可选的，所述一级候选疾病标准名称库建立模块具体包括：

最大概率值获取单元，用于获取所述概率值集合中的最大概率值；

第一判断单元，用于判断所述最大概率值是否小于概率值阈值，得到第一判断结果；

第一一级候选疾病标准名称库建立单元，用于若所述第一判断结果表示为所述最大概率值小于所述概率值阈值，将所述国际疾病分类库确定为一级候选疾病标准名称库；

第二一级候选疾病标准名称库建立单元，用于若所述第一判断结果表示为所述最大概率值不小于所述概率值阈值，提取所述最大概率值所对应的章节中所有疾病标准名称，并组成一级候选疾病标准名称库。

可选的，所述二级候选疾病标准名称库建立模块具体包括：

候选疾病标准名称获取单元，用于获取所述一级候选疾病标准名称库中所有候选疾病标准名称；

第二判断单元，用于逐一判断所述一级候选疾病标准名称库中任一条候选疾病标准名称是否含有与所述预处理后的疾病原始诊断描述相同的字符，得到第二判断结果；

二级候选疾病标准名称库建立单元，用于若所述第二判断结果表示为所述候选疾病标准名称含有与所述预处理后的疾病原始诊断描述相同的字符，则将所述候选疾病标准名称纳入二级候选疾病标准名称库；

删除单元，用于若所述第二判断结果表示为所述候选疾病标准名称未含有与所述预处理后的疾病原始诊断描述相同的字符，则不将所述候选疾病标准名称纳入二级候选疾病标准名称库；若所述建立的二级候选疾病标准名称库中不含任何候选疾病标准名称则转入完全人工编码流程。

可选的，所述语义相似度计算模块具体包括：

语义相似度计算单元，用于根据公式

计算所述疾病标准名称与所述预处理后的疾病原始诊断描述间的语义相似度；其中，S(A,C)表示所述疾病原始诊断A与所述二级候选疾病标准名称库中任一条候选疾病标准名称C间的语义相似度；A∩C表示A与C间的共有字符集合；A∪C表示A与C中所包含的所有不重复字符集合；|A∪C|为不重复字符集合的字符长度；|A∩C|为共有字符集合的字符长度；δ_i为第i个校正条件下，所述共有字符集合的字符长度校正因子，ε_i为第i个校正条件下，所述不重复字符集合的字符长度校正因子，i≥0。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供了一种疾病诊断标准化编码推荐列表确定方法及系统，基于国际疾病分类库以及历史疾病诊断编码的电子记录建立一级候选疾病标准名称库以及二级候选疾病标准名称库，通过计算二级候选疾病标准名称库中的疾病标准名称以及疾病原始诊断描述的语义相似度，确定所述疾病原始诊断描述所对应的疾病标准名称编码推荐列表并提供给编码主体参考；在确定疾病标准名称的过程中，降低人工参与的环节，按相似度大小降序输出可能的标准疾病名称及其相应编码(推荐列表)供人工选择参考，提高了编码效率、准确性以及编码工作的一致性，帮助实现疾病诊断名称标准化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的疾病诊断标准化编码推荐列表确定方法流程图；

图2为本发明所提供的疾病诊断标准化编码推荐列表确定系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种疾病诊断标准化编码推荐列表确定方法及系统，能够提高效率以及编码工作的统一性，实现疾病名称标准化。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明所提供的疾病诊断标准化编码推荐列表确定方法流程图，如图1所示，一种疾病诊断标准化编码推荐列表确定方法，包括：

步骤101：获取国际疾病分类库以及历史疾病诊断编码的电子记录；所述电子记录包括多个已标准化编码的疾病原始诊断描述。

将已有的疾病标准名称及各疾病标准名称所对应的编码集合输入系统，确定为疾病标准名称集合，疾病标准名称集合一般为常用或现用国际疾病分类编码，如目前我国各级医疗机构基本都采用国际疾病分类库作为标准疾病编码方法，现通用版本为ICD10，但不同地区及医疗单位所采用的版本不一，用户依据实际采用的标准编码库进行设定以及版本更新。

步骤102：逐一获取单条疾病原始诊断描述并对所述疾病原始诊断描述进行预处理，得到预处理后的疾病诊断描述；所述疾病原始诊断描述包括多个字符以及由多个字符组成的关键字；

所述预处理包括：

1.全角字符替换为半角字符；

2.去除特殊字符；

3.罗马数字转为阿拉伯数字，大写英语字母转换为小写英文字母；

4.去除停用词(即对工作没有帮助的无用字词，如“的”、“地”等)。

步骤103：根据所述电子记录建立疾病诊断分类预测模型。

ICD数值编码为六位英文字符数字混编编码，依据其首位的大写英文字母可以划分为26个部分(A，B，C，D，E，F，G，H，I,，J，K，L，M，N，O，P，Q，R，S，T，U，V，W，X，Y，Z)，预测输出的即为每个疾病原始诊断描述最可能所属的章节编号(大写英文字母)。

疾病诊断分类预测模型建立方法如下所示：

1、将既往医疗机构的疾病诊断编码的电子记录转换为以单个字符为基本单元的空间向量模型(Vector space model，VSM)，各单元格取值为词频-逆文档频率(termfrequency–inverse document frequency，TF-IDF)权值，得到VSM矩阵，每条记录为一个已标准化编码的疾病原始诊断，其所对应标准ICD10编码的首位大写字符序号作为记录分类标签向量Y；

所述TF-IDF权值用来评估一字或者词对于一个文件集或一个语料库中的其中一份文件的重要程度，词频(TF)表示特定字或者词组W在文档d中出现的频率，用于表示特定字或者词组W对于当前文档含义的表示能力，值越大说明表示能力越强；逆文档频率(IDF)可以由总文件数目除以包含字或者词组W之文档的数目，再将得到的商取对数，用于表示特定字或者词组W对于文档的区分能力，值越大说明区分能力越大。其具体计算方法如下：

TF-IDF_i,j＝TF_i,j×IDF_i

假设基于既往编码记录构建的空间向量模型VSM是一个R_j×C_i的矩阵X，j表示所有既往编码记录中的第j条记录，k_j表示第j条编码记录的总字数，i表示所有编码记录中第i个不重复独立字符(汉字、英文单词或者数字),n_i,j表示在第j条记录中，第i个不重复独立汉字出现的频次；D表示既往编码记录的总条数，D_i表示所有编码记录中含有第i个不重复独立字符的文档个数；TF_i,j则表示第i个不重复独立字符在第j条记录中出现的频率；IDF_i表示第i个不重复独立字符在该VSM中的逆文档概率；TF-IDF_i,j表示第i个不重复独立字符在第j条记录中多具有的TF-IDF权值。

2、将上部产生的矩阵X及向量Y输入基于神经网络模型，其输出层激活函数为softmax函数，训练得到疾病诊断分类预测模型。

步骤104：将所述预处理后的疾病原始诊断描述输入到所述疾病诊断分类预测模型，输出所述预处理后的疾病原始诊断描述在所述国际疾病分类库中的各章节的概率值集合。

步骤105：根据所述概率值集合建立一级候选疾病标准名称库。

将预处理后的疾病诊断描述(n＝1,2,3…1)逐个输入已构建的疾病诊断分类预测模型，输出得到该条诊断信息可能编码在ICD中的各章节位置的概率值集合P_m(m＝1，2，3…26，对应于A～Z)，并设定归类阈值α；如果P_m集合中的最大值大于等于α，则将该概率值所对应的ICD章节中所有的标准疾病诊断名称提取出来，组成一级候选疾病标准名称库，记为B。如果P_m集合中最大值小于α，则将整个指定版本的ICD标准库作为一级候选疾病标准名称库。

步骤106：根据所述一级候选疾病标准名称库建立二级候选疾病标准名称库。

逐一将一级候选疾病标准名称库中每个候选疾病标准名称与该库所对应的预处理后的疾病诊断描述相匹配，若两者含有公共字符则保留该条标准疾病名称到二级候选疾病标准名称库，若两者不含有任何公共字符删除该条候选标准疾病名称，不将其保留到二级候选疾病标准名称库。如此遍历一级候选疾病标准库后，若二级候选疾病标准名称库中无任何标准疾病名称，则将该原始疾病诊断描述标记为无法辅助推荐状态记录进log并转入完全人工编码流程。

步骤107：获取所述二级候选疾病标准名称库中的疾病标准名称。

步骤108：计算所述疾病标准名称以及所述预处理后的疾病诊断描述的语义相似度。

逐一计算二级候选疾病标准名称库中各个候选标准疾病诊断名称和该库所对应预处理后的疾病诊断描述间的语义相似度，，得到由疾病标准名称、其对应ICD编码、语义相似度数值组成的集合然后，对该集合以相似度数值为主关键字降序排列得到编码推荐列表，排序越靠前、相似度值越大的疾病标准名称及其相应的ICD编码为该疾病原始诊断的标准化编码的概率也越大。

科学合理地建立模型，从而计量预处理后的疾病诊断描述与二级候选疾病库中候选疾病标准名称间的语义相似度，本发明提出使用条件校正的杰卡德相似度指数进行语义相似度的计量；传统的杰卡德相似度指数赋予待比较字段中每个字符以相同的权重，认为每个字符对语义相似度的影响相同，这明显不符合疾病诊断名称中不同词义单元对总体语义贡献程度不同的现实；由此，本发明将疾病诊断名称的语言学特征通过引入条件校正因子的方式将其科学建模纳入语义相似度计量过程，以实现更准确地计量预处理后的疾病诊断描述与二级候选疾病库中候选疾病标准名称间的语义相似度，从而更好地提升系统输出编码推荐列表的参考价值和辅助编码的效能。

相似度计算公式如下：

式中，S(A,C)表示预处理后的疾病诊断描述A与二级候选疾病库中任一条候选疾病标准名称C间的语义相似度；A∩C表示A与C间的共有字符集合；A∪C表示A与C中所包含的所有不重复字符集合；|A∪C|,|A∩C|分别表示两个字符集合各自的字符长度数值；δ_i,ε_i分别表示在第i个校正条件下，两个字符集合各自的字符长度校正因子。

表达同一疾病名称概念的疾病原始诊断A与候选疾病标准名称C间应具有较大的共有字符比例，且具有不同性质满足不同条件的语义字符应依据其对整体语义的贡献能力被给予不同权重。

若第i个校正条件满足，则δ_i,ε_i分别取一个非零数值；若不满足，则δ_i,ε_i均为零，若|A∪C|＝|A∩C|，则所有δ_i,ε_i取值均为零。

其中，校正条件设定的依据及方法：

依据ICD疾病分类轴心，标准疾病诊断命名一般范式如下所示：分类层级+情况属性+病因+解剖部位+病理改变+临床表现。

如上几个部分大致涵盖了疾病标准名称的组成，当然，这几个部分并不一定同时存在于一条标准疾病诊断中。依据各部分词性及意义可将该范式进一步总结为：形容词+解剖部位+主义词，该三部分对词义贡献的大小从左到右依次递增，尤其最后的解剖部位及主义词基本决定了疾病诊断名称的基本含义，形容词对疾病诊断语义贡献较小且大多数时需完全字符相同才能表达类似的医学专业意义；例如开放性+股骨+骨折，其中主义词一般位于疾病诊断名称的末尾。开放性和闭合性虽仍有共有字符“性”，却表达了完全不同的属性概念。

结合上述疾病诊断名称语言学特征，本发明通过引入校正因子调整不同属性字词语义权重的方法将如下几条语义条件建模表达进入疾病原始诊断A与二级候选疾病库中候选疾病标准名称C间的语义相似度计量方法中：

条件1：若A和C均包含形容词性词义单元字符则降低这些词义单元字符对总体相似度的贡献权重。

条件2：若A和C含有相同的解剖部位则应增加该部分词义单元字符对总体相似度的贡献权重。

条件3：若A和C含有相同的主义词则该应增加部分词义单元字符对总体相似度的贡献权重。

条件1，2通过基于内置的疾病诊断医学术语专用分词器实现；条件3通过疾病诊断医学术语专用分词器及A和C末尾字段(一般情况下为主义词)是否匹配实现。

编码主体查阅推荐编码列表，若有其认为最合适的标准疾病编码则点选完成本轮编码工作；若无，则可点选“手工编码按钮”，进入手工编码模块，由编码主体手工检索、浏览指定的ICD标准库，选定其认为最合适的疾病标准名称及相应编码，完成编码工作。

步骤109：根据所述语义相似度确定所述疾病原始诊断描述所对应的疾病标准名称编码推荐列表并提供给编码主体参考；所述编码主体包括专业医学编码人员以及非专业的编码从业人员，例如病案管理人员、临床医生等。

其中，所述疾病标准名称编码推荐列表是指计算机分析推荐的该单条原始疾病诊断描述可能对应的疾病标准名称及其相应国际疾病分类编码的集合，按其对应可能性降序排列，用于帮助编码主体进行编码决策。

采用本发明所提供的疾病诊断标准化编码推荐列表确定方法能够提高效率以及编码工作的统一性，高度实现疾病名称标准化。

图2为本发明所提供的疾病诊断标准化编码推荐列表确定系统结构图，如图2所示，一种疾病诊断标准化编码推荐列表确定系统，包括：

获取模块201，用于获取国际疾病分类库以及历史疾病诊断编码的电子记录；所述电子记录包括多个已标准化编码的疾病原始诊断描述。

预处理模块202，用于获取疾病原始诊断描述并对所述疾病原始诊断描述进行预处理，得到预处理后的疾病诊断描述；所述疾病原始诊断描述包括多个字符以及由多个字符组成的关键字；所述预处理后的疾病诊断描述包括预处理后的疾病原始诊断描述以及拆分后的n条疾病诊断信息。

疾病诊断分类预测模型建立模块203，用于根据所述电子记录建立疾病诊断分类预测模型。

所述疾病诊断分类预测模型建立模块203具体包括：记录分类标签向量确定单元，用于根据所述电子记录确定记录分类标签向量；所述记录分类标签向量为所述电子记录对应的所述国际疾病分类库的首位大写字符序号；空间向量模型建立单元，用于根据所述电子记录建立以单个字符为基本单元的空间向量模型；疾病诊断分类预测模块建立单元，用于根据所述记录分类标签向量以及所述空间向量模型建立疾病诊断分类预测模型。

概率值集合输出模块204，用于将所述预处理后的疾病原始诊断描述输入到所述疾病诊断分类预测模型，输出所述预处理后的疾病原始诊断描述在所述国际疾病分类库中的各章节的概率值集合。

一级候选疾病标准名称库建立模块205，用于根据所述概率值集合建立一级候选疾病标准名称库。

所述一级候选疾病标准名称库建立模块205具体包括：最大概率值获取单元，用于获取所述概率值集合中的最大概率值；第一判断单元，用于判断所述最大概率值是否小于概率值阈值，得到第一判断结果；第一一级候选疾病标准名称库建立单元，用于若所述第一判断结果表示为所述最大概率值小于所述概率值阈值，将所述国际疾病分类库确定为一级候选疾病标准名称库；第二一级候选疾病标准名称库建立单元，用于若所述第一判断结果表示为所述最大概率值不小于所述概率值阈值，提取所述最大概率值所对应的章节中所有疾病标准名称，并组成一级候选疾病标准名称库。

二级候选疾病标准名称库建立模块206，用于根据所述一级候选疾病标准名称库建立二级候选疾病标准名称库；

所述二级候选疾病标准名称库建立模块206具体包括：候选疾病标准名称获取单元，用于获取所述一级候选疾病标准名称库中所有候选疾病标准名称；第二判断单元，用于逐一判断所述一级候选疾病标准名称库中任一条候选疾病标准名称是否含有与所述预处理后的疾病原始诊断描述相同的字符，得到第二判断结果；二级候选疾病标准名称库建立单元，用于若所述第二判断结果表示为所述候选疾病标准名称含有与所述预处理后的疾病原始诊断描述相同的字符，则将所述候选疾病标准名称纳入二级候选疾病标准名称库；删除单元，用于若所述第二判断结果表示为所述候选疾病标准名称未含有与所述预处理后的疾病原始诊断描述相同的字符，则不将所述候选疾病标准名称纳入二级候选疾病标准名称库；若所述建立的二级候选疾病标准名称库中不含任何候选疾病标准名称则转入完全人工编码流程。

疾病标准名称获取模块207，用于获取所述二级候选疾病标准名称库中的疾病标准名称。

语义相似度计算模块208，用于计算所述疾病标准名称与所述预处理后的疾病原始诊断描述间的语义相似度。

所述语义相似度计算模块具体包括：语义相似度计算单元，用于根据公式

疾病标准名称编码推荐列表确定模块209，用于根据所述语义相似度确定所述疾病原始诊断描述所对应的疾病标准名称编码推荐列表并提供给编码主体参考；所述编码主体包括专业医学编码人员以及非专业的编码从业人员，例如病案管理人员、临床医生等。

本发明减少了人工参与的环节，最后仍需人工审核推荐列表确定最终最合适的标准疾病诊断名称，如果编码员最终未能在系统输出的推荐列表中找到最合适的标准疾病名称，则进入纯手工编码环节，如此可有效克服自动化的编码方式的诸多现有缺点，例如本地映射规则库记录有限且构建、维护成本高，无监督计算机自动判定模型表现不稳定出错概率达不到工业标准要求等，将编码员并不太擅长的诸多编码决策前的大多数繁重工作(如人工拆分原始疾病诊断描述中的关键词、全手工检索标准库、大批量地逐个寻找合适标准名称)尽可能多得交给更擅长此工作的计算机，赋予其一定的语义理解能力同时充分利用其不知疲倦、快速的特性，让编码员只集中精力于最后一步的决策，辅助编码人员工作，从而提高了编码人员的工作效率，促进疾病名称标准化。

采用本发明所提供的疾病诊断标准化编码推荐列表确定方法及系统能够达到如下效果：

①实用性：本发明着力于辅助改善疾病诊断编码工作中现存的人工编码工作量大、效率低、编码统一性差等问题，提出了一种计算机辅助编码主体编码决策的解决方法。可以提高人工编码效率、提高编码准确性以及统一性。对于不熟悉ICD疾病分类体系的编码主体(例如临床医生或非专业编码员等)，可通过本发明帮其降低编码门槛，帮其快速、准确找到最符合其原意的疾病标准名称及相应编码；对于专职编码员来说，本发明帮助快速高效完成简单及中等复杂度的编码工作，帮助其将精力集中在少数复杂编码情况之上。

②科学性：本发明首先结合日常疾病诊断编码工作中最常用的ICD分类体系章节构成特点并充分利用既往已完成的编码历史记录，提出了一种快速、准确确定潜在候选标准疾病诊断名称库的方法，有效减少可检索范围，提升工作率，帮助快速锁定最合适疾病标准名称及其编码；其次，充分考虑疾病诊断名称语义构成特点对其语义相似度的重要意义，提出了一种专用的疾病术语语义相似度计量模型并开发出相应的实现工具及方法，获得了较好疾病诊断医学术语语义相似度计量效果及辅助推荐效果，实现了更好帮助编码主体高效、准确、统一地完成疾病编码工作的初衷。

③易用性：本发明方法基本原理简单、易行、有效，无额外特殊硬件、软件要求，具有较好的兼容移植性，可在各类平台上方便嵌套、开发和维护。方法操作实现方法简单，结果输出直观易读，学习使用门槛低，适用各类专业、非专业的从事编码工作的人员，对非专业的编码主体更具实用意义。

④可推广性高：本发明方法可适用于多种疾病诊断标准化编码工作的实际情境，服务于多种不同类型的编码主体，具有较好的技术应用推广性。本发明除了可有效应用于经典的专职编码员事后编码情境外还可应用到疾病原始诊断产生环节，可帮助描述信息产生源注意到可能缺失的关键信息以及模糊不规范的表述，从推荐列表中选择出在当下实际情景下最全面、准确反应实际诊疗信息的标准疾病诊断名称。例如:医生书写完住院病历信息后据此病历中填写的临床诊断在填写病案首页的疾病标准名称时可根据推荐列表中推荐的疾病标准名称发现可能遗漏的病历细节帮助其更准确下疾病诊断)；此外，本发明方法的辅助编码功能也可应用于帮助专家建立可靠的金标准映射规则库，帮助专家基于原始的疾病诊断描述寻找潜在的最准确、最可靠的标准疾病诊断名称，同时结合候选推荐列表的其他可选疾病标准名称选项二次检验确定是否存在更准确、更合适的标准疾病诊断名称；而本发明中根据疾病原始诊断信息利用预测分类模型预判其所属ICD章节位置缩小了潜在可能的疾病标准名称范围也可应用于基于金标准映射规则库方案中的检索阶段，帮助其提升检索效率，减少不必要的运行开销。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种疾病诊断标准化编码推荐列表确定方法，其特征在于，包括：

获取疾病原始诊断描述并对所述疾病原始诊断描述进行预处理，得到预处理后的疾病原始诊断描述；所述疾病原始诊断描述包括多个字符以及由多个字符组成的关键字；

根据所述电子记录建立疾病诊断分类预测模型；

根据所述概率值集合建立一级候选疾病标准名称库；

将预处理后的疾病原始诊断描述逐个输入已构建的疾病诊断分类预测模型，输出得到该条诊断描述可能编码在ICD中的各章节位置的概率值集合P_m，m＝1，2，3…26，对应于A～Z，并设定归类阈值α；如果P_m集合中的最大值大于等于α，则将该概率值所对应的ICD章节中所有的标准疾病诊断名称提取出来，组成一级候选疾病标准名称库，记为B；如果P_m集合中最大值小于α，则将整个指定版本的ICD标准库作为一级候选疾病标准名称库；

根据所述一级候选疾病标准名称库建立二级候选疾病标准名称库；逐一将一级候选疾病标准名称库中每个候选疾病标准名称与该库所对应的预处理后的疾病原始诊断描述相匹配，若两者含有公共字符则保留该条标准疾病名称到二级候选疾病标准名称库，若两者不含有任何公共字符删除该条候选标准疾病名称，不将其保留到二级候选疾病标准名称库；如此遍历一级候选疾病标准库后，若二级候选疾病标准名称库中无任何标准疾病名称，则将该疾病原始诊断描述标记为无法辅助推荐状态记录进log并转入完全人工编码流程；

获取所述二级候选疾病标准名称库中的疾病标准名称；

计算所述疾病标准名称与所述预处理后的疾病原始诊断描述间的语义相似度；所述计算所述疾病标准名称与所述预处理后的疾病原始诊断描述间的语义相似度，具体包括：

根据公式

计算所述疾病标准名称与所述预处理后的疾病原始诊断描述间的语义相似度；其中，S(A,C)表示所述疾病原始诊断A与所述二级候选疾病标准名称库中任一条候选疾病标准名称C间的语义相似度；A∩C表示A与C间的共有字符集合；A∪C表示A与C中所包含的所有不重复字符集合；|A∪C|为不重复字符集合的字符长度；|A∩C|为共有字符集合的字符长度；δ_i为第i个校正条件下，所述共有字符集合的字符长度校正因子，ε_i为第i个校正条件下，所述不重复字符集合的字符长度校正因子，i≥0；

2.根据权利要求1所述的疾病诊断标准化编码推荐列表确定方法，其特征在于，所述根据所述电子记录建立疾病诊断分类预测模型，具体包括：

3.一种疾病诊断标准化编码推荐列表确定系统，其特征在于，包括：

预处理模块，用于获取疾病原始诊断描述并对所述疾病原始诊断描述进行预处理，得到预处理后的疾病原始诊断描述；所述疾病原始诊断描述包括多个字符以及由多个字符组成的关键字；

二级候选疾病标准名称库建立模块，用于根据所述一级候选疾病标准名称库建立二级候选疾病标准名称库；逐一将一级候选疾病标准名称库中每个候选疾病标准名称与该库所对应的预处理后的疾病原始诊断描述相匹配，若两者含有公共字符则保留该条标准疾病名称到二级候选疾病标准名称库，若两者不含有任何公共字符删除该条候选标准疾病名称，不将其保留到二级候选疾病标准名称库；如此遍历一级候选疾病标准库后，若二级候选疾病标准名称库中无任何标准疾病名称，则将该疾病原始诊断描述标记为无法辅助推荐状态记录进log并转入完全人工编码流程；

语义相似度计算模块，用于计算所述疾病标准名称与所述预处理后的疾病原始诊断描述间的语义相似度；所述语义相似度计算模块具体包括：

语义相似度计算单元，用于根据公式

4.根据权利要求3所述的疾病诊断标准化编码推荐列表确定系统，其特征在于，所述疾病诊断分类预测模型建立模块具体包括：