CN112148882B - 病历文本处理方法、装置、电子设备及存储介质 - Google Patents

病历文本处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112148882B
CN112148882B CN202011350938.8A CN202011350938A CN112148882B CN 112148882 B CN112148882 B CN 112148882B CN 202011350938 A CN202011350938 A CN 202011350938A CN 112148882 B CN112148882 B CN 112148882B
Authority
CN
China
Prior art keywords
diagnosis
medical record
candidate
type
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011350938.8A
Other languages
English (en)
Other versions
CN112148882A (zh
Inventor
刘少辉
刘喜恩
尤心心
吴及
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huiji Zhiyi Technology Co ltd
Original Assignee
Beijing Huiji Zhiyi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huiji Zhiyi Technology Co ltd filed Critical Beijing Huiji Zhiyi Technology Co ltd
Priority to CN202011350938.8A priority Critical patent/CN112148882B/zh
Publication of CN112148882A publication Critical patent/CN112148882A/zh
Application granted granted Critical
Publication of CN112148882B publication Critical patent/CN112148882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明实施例提供一种病历文本处理方法、装置、电子设备及存储介质,其中方法包括:确定待处理的病历文本的多个候选诊断类型;基于任一候选诊断类型与所述病历文本中的病历诊疗信息之间的相关性,以及所述任一候选诊断类型的通用诊疗属性,确定所述任一候选诊断类型的得分;基于每一候选诊断类型的得分,从所有候选诊断类型中选取出所述病历文本的主要诊断类型。本发明实施例提供的方法、装置、电子设备及存储介质,提高了疾病诊断分组的准确性,提高了病历文本的处理效率。

Description

病历文本处理方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,具体涉及一种病历文本处理方法、装置、电子设备及存储介质。
背景技术
DRG(Diagnosis Related Group,疾病诊断相关分组),即将疾病分为若干诊断组,从而确定各诊断组付费标准。
现有技术中,通常是由临床医生在填写病案首页时根据患者病历文本以及实际治疗过程确定主要诊断,并由质检员对主要诊断的选择是否合理进行检查,进而对患者病历进行疾病诊断分组。由于依靠人工的方式处理病历文本,使得疾病诊断分组的准确性差,处理效率低。
发明内容
本发明实施例提供一种病历文本处理方法、装置、电子设备及存储介质,用以解决现有技术中的病历文本处理方法进行疾病诊断分组的准确性差,处理效率低的问题。
本发明实施例提供一种病历文本处理方法,包括:
确定待处理的病历文本的多个候选诊断类型;
基于任一候选诊断类型与所述病历文本中的病历诊疗信息之间的相关性,以及所述任一候选诊断类型的通用诊疗属性,确定所述任一候选诊断类型的得分;
基于每一候选诊断类型的得分,从所有候选诊断类型中选取出所述病历文本的主要诊断类型。
根据本发明一个实施例的病历文本处理方法,所述任一候选诊断类型与所述病历文本中的病历诊疗信息之间的相关性包括:
所述任一候选诊断类型与所述病历诊疗信息中入院信息之间的相关性、所述任一候选诊断类型与所述病历诊疗信息中治疗信息之间的相关性,以及所述任一候选诊断类型与所述病历诊疗信息中科室信息之间的相关性中的至少一种。
根据本发明一个实施例的病历文本处理方法,所述任一候选诊断类型与所述病历诊疗信息中入院信息之间的相关性是基于如下步骤确定的:
将所述病历文本中的主诉文本作为所述入院信息;
将所述任一候选诊断类型和所述主诉文本输入至语义关系模型,得到所述语义关系模型输出的语义相关概率,所述语义相关概率用于表征所述任一候选诊断类型与所述入院信息之间的相关性;
其中,所述语义关系模型是基于样本病历文本中的样本主要诊断类型、样本非主要诊断类型和样本主诉文本训练的。
根据本发明一个实施例的病历文本处理方法,所述任一候选诊断类型与所述病历诊疗信息中治疗信息之间的相关性是基于如下步骤确定的:
基于所述任一候选诊断类型分别与所述治疗信息中的每一手术操作、每一药物和每一治疗方式之间的关系概率,确定所述任一候选诊断类型与所述治疗信息之间的相关性;
所述任一候选诊断类型与所述治疗信息中的每一手术操作、每一药物和每一治疗方式之间的关系概率是统计病历数据集中所述任一候选诊断类型作为主要诊断类型时采用的手术操作、药物和治疗方式得到的。
根据本发明一个实施例的病历文本处理方法,所述任一候选诊断类型与所述病历诊疗信息中科室信息之间的相关性是基于如下步骤确定的:
确定所述任一候选诊断类型与所述科室信息之间的关系概率,用于表征所述任一候选诊断类型与所述科室信息之间的相关性;
其中,所述任一候选诊断类型与所述科室信息之间的关系概率是对所述任一候选诊断类型作为主要诊断类型时每一科室在病历数据集中的出现次数进行统计后得到的。
根据本发明一个实施例的病历文本处理方法,所述通用诊疗属性包括疾病危重程度、资源消耗程度和主要诊断出现概率中的至少一种。
根据本发明一个实施例的病历文本处理方法,所述任一候选诊断类型的疾病危重程度是对所述任一候选诊断类型作为主要诊断类型时病历数据集中患者出现危重情况的次数进行统计后确定的;
所述任一候选诊断类型的资源消耗程度是对所述任一候选诊断类型作为主要诊断类型时患者的住院时间和医疗费用进行统计后确定的;
所述任一候选诊断类型的主要诊断出现概率是在病历数据集中对所述任一候选诊断类型作为主要诊断类型的次数进行统计后确定的。
根据本发明一个实施例的病历文本处理方法,所述基于任一候选诊断类型与所述病历文本中的病历诊疗信息之间的相关性,以及所述任一候选诊断类型的通用诊疗属性,确定所述任一候选诊断类型的得分,包括:
基于任一候选诊断类型与所述病历文本中的病历诊疗信息之间的相关性,以及所述任一候选诊断类型的通用诊疗属性,确定所述任一候选诊断类型的特征表示;
将所述任一候选诊断类型的特征表示输入至诊断预测模型,得到所述诊断预测模型输出的所述任一候选诊断类型的得分;
其中,所述诊断预测模型是基于样本病历中的样本主要诊断类型和样本非主要诊断类型的特征表示,以及所述样本病历中样本主要诊断类型的标签训练得到的。
本发明实施例还提供一种病历文本处理装置,包括:
确定单元,用于确定待处理的病历文本的多个候选诊断类型;
评分单元,用于基于任一候选诊断类型与所述病历文本中的病历诊疗信息之间的相关性,以及所述任一候选诊断类型的通用诊疗属性,确定所述任一候选诊断类型的得分;
选取单元,用于基于每一候选诊断类型的得分,从所有候选诊断类型中选取出所述病历文本的主要诊断类型。
本发明实施例还提供一种电子设备,包括处理器、通信接口、存储器和总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信,处理器可以调用存储器中的逻辑命令,以执行如上述任一种所述病历文本处理方法的步骤。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述病历文本处理方法的步骤。
本发明实施例提供的病历文本处理方法、装置、电子设备及存储介质,根据候选诊断类型与病历文本中的病历诊疗信息之间的相关性,以及候选诊断类型的通用诊疗属性,确定每一候选诊断类型的得分,从所有候选诊断类型中选取出病历文本的主要诊断类型,由于主要诊断类型的确定过程是从病历文本和候选诊断类型本身出发,不依赖于医生的临床经验和质检员的疾病知识,所选取的主要诊断类型符合主要诊断类型选择原则,提高了疾病诊断分组的准确性,提高了病历文本的处理效率。同时,综合考虑了病历文本中患者治疗的实际情况和候选诊断类型本身的特性,能够灵活适用于复杂病历的处理。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的病历文本处理方法的流程示意图;
图2为本发明实施例提供的候选诊断类型与入院信息之间的相关性确定的流程示意图;
图3为本发明实施例提供的语义关系模型的流程示意图;
图4为本发明实施例提供的候选诊断类型得分方法的流程示意图;
图5为本发明实施例提供的诊断预测模型的流程示意图;
图6为本发明实施例提供的病历文本处理装置的结构示意图;
图7为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
DRG为评估医院服务水平的重要手段,通过计算DRG数量(代表该医疗机构收治病例的覆盖类型范围)、总权重数(代表住院服务总产出)、CMI值(收治病例的技术难度)可以衡量医院服务水平。
对病历进行处理,即根据病历确定患者的疾病诊断相关分组。首先将病历按照其主要诊断类型进行分类,形成以解剖和生理系统为主要分类特征的MDC(Major DiagnosticCategory,主要诊断分类);在同一解剖系统下,根据疾病的主要诊断类型和主要操作将病例细分为ADRG(Adjacent-DRG,基干DRG);通过考虑病例的其他个体特征、合并症和并发症,利用统计分析方法将ADRG细分为DRG。由此可知,正确选择主要诊断类型对于病历成功入组有非常重要的意义。
主要诊断类型为导致患者住院就医主要原因的疾病类型。患者一次住院只能有一个主要诊断类型。现有技术中,主要诊断类型由临床医生根据个人经验进行选择,质检员对临床医生的选择结果进行复核,使得疾病诊断分组的准确性差,处理效率低。
图1为本发明实施例提供的病历文本处理方法的流程示意图,如图1所示,该方法包括:
步骤110,确定待处理的病历文本的多个候选诊断类型。
具体地,候选诊断类型为医生对入院患者进行诊断和治疗后确定的疾病种类。同一个患者可能有多个候选诊断类型。例如,老年患者往往存在多种慢性疾病,包括糖尿病、高血压、高血脂等。
患者的候选诊断类型以及患者住院治疗的过程信息通常由临床医生记载在患者的病历文本中。此处,病历文本可以为电子病历形式,也可以为纸质病历经文本识别后得到的文本形式,本发明实施例对此不作具体限定。
步骤120,基于任一候选诊断类型与病历文本中的病历诊疗信息之间的相关性,以及该候选诊断类型的通用诊疗属性,确定该候选诊断类型的得分。
具体地,从多个候选诊断类型确定主要诊断类型,可以根据主要诊断类型选择原则对每一候选诊断类型进行打分。任一候选诊断类型的得分用于衡量该候选诊断类型作为主要诊断类型的可能性大小。
主要诊断类型选择原则包括两个方面,一方面是主要诊断类型和病历文本中的患者的治疗全过程信息相一致,另一方面是主要诊断类型自身具有的诊疗属性相对于病历文本中其他的诊断类型更加重要。
根据上述主要诊断类型选择原则,对病历文本中的病历诊疗信息进行分析,得到任一候选诊断类型与病历诊疗信息之间的相关性。
此外,任一候选诊断类型能否被确定为主要诊断类型不仅取决于病历文本中的病历诊疗信息,还取决于该候选诊断类型本身的通用诊疗属性。任一候选诊断类型的通用诊疗属性,可以为疾病本身具有的疾病危重程度和医疗资源消耗程度。例如,糖尿病比起感冒,疾病危重程度重,医疗资源消耗多,更有可能作为患者的主要诊断类型。
例如,病历文本中的候选诊断类型包括肠梗阻、腹壁疝、乳腺肿瘤和高血压。病历文本中病历诊疗信息表明该患者的入院症状为腹痛、腹胀和呕吐。患者被消化内科收治,治疗过程中采用了禁食水、灌肠和补液,再根据各个候选诊断类型的通用诊疗属性,确定肠梗阻、腹壁疝、乳腺肿瘤和高血压的得分分别为8分、6分、5分和1分。
步骤130,基于每一候选诊断类型的得分,从所有候选诊断类型中选取出病历文本的主要诊断类型。
具体地,在确定每一候选诊断类型的得分后,可以对多个候选诊断类型进行排序,选取得分最大值对应的候选诊断类型作为病历文本的主要诊断类型,从而确定该病历的疾病诊断分组结果。或者,也可以从所有候选诊断类型中筛选出得分高于预先设定的得分阈值的候选诊断类型,并从中选取得分最大值对应的候选诊断类型作为病历文本的主要诊断类型。
本发明实施例提供的病历文本处理方法,根据候选诊断类型与病历文本中的病历诊疗信息之间的相关性,以及候选诊断类型的通用诊疗属性,确定每一候选诊断类型的得分,从所有候选诊断类型中选取出病历文本的主要诊断类型,由于主要诊断类型的确定过程是从病历文本和候选诊断类型本身出发,不依赖于医生的临床经验和质检员的疾病知识,所选取的主要诊断类型符合主要诊断类型选择原则,提高了疾病诊断分组的准确性,提高了病历文本的处理效率。同时,综合考虑了病历文本中患者治疗的实际情况和候选诊断类型本身的特性,能够灵活适用于复杂病历的处理。
基于上述实施例,任一候选诊断类型与病历文本中的病历诊疗信息之间的相关性包括:
该候选诊断类型与病历诊疗信息中入院信息之间的相关性、该候选诊断类型与病历诊疗信息中治疗信息之间的相关性,以及该候选诊断类型与病历诊疗信息中科室信息之间的相关性中的至少一种。
具体地,病历诊疗信息包括患者的入院信息、治疗信息和科室信息。
其中,入院信息为患者的入院目的等信息,反映了患者入院治疗的个人意愿,即期望得到治疗的疾病类型,能够在一定程度上影响主要诊断类型的选择。治疗信息为患者在整个住院治疗过程中所采用的手术操作、药物和治疗方式等信息,反映了患者经医生诊断后在医院的真实治疗过程,通过真实治疗过程与各个候选诊断类型之间的相关性可以推导出主要诊断类型。科室信息为负责对患者进行治疗的主管科室,通常主管科室负责治疗主要诊断类型,因此与主管科室相关联的候选诊断类型为主要诊断类型的概率更高。
本发明实施例提供的病历文本处理方法,综合考虑了病历诊疗信息中入院信息、治疗信息和科室信息,对患者的候选诊断类型进行了多维度的评估,提高了疾病诊断分组的准确性。
基于上述任一实施例,图2为本发明实施例提供的候选诊断类型与入院信息之间的相关性确定的流程示意图,如图2所示,任一候选诊断类型与病历诊疗信息中入院信息之间的相关性是基于如下步骤确定的:
步骤210,将病历文本中的主诉文本作为入院信息。
具体地,病历文本中的主诉文本为患者对自身的症状、体征、持续时间等内容的描述文本,表明了患者住院的主要目的。本发明实施例中将主诉文本作为入院信息。
步骤220,将该候选诊断类型和入院信息输入至语义关系模型,得到语义关系模型输出的语义相关概率,语义相关概率用于表征该候选诊断类型与入院信息之间的相关性;
其中,语义关系模型是基于样本病历文本中的样本主要诊断类型、样本非主要诊断类型和样本主诉文本训练的。
具体地,可以分别将候选诊断类型和主诉文本进行分词处理,得到诊断词序列和主诉词序列,将诊断词序列和主诉词序列输入至语义关系模型,由语义关系模型基于皮尔森相关系数算法或者注意力机制算法对诊断词序列和主诉词序列进行语义分析,得到用于表征该候选诊断类型与入院信息之间的相关性的语义相关概率。语义相关概率以概率形式体现语义相关性的强弱。语义相关概率越大,表示候选诊断类型和主诉文本存在强一致性关系,也表示该候选诊断类型与入院信息之间的相关性越强。
在执行步骤220之前,可以预先训练得到语义关系模型,具体可以通过如下训练方式得到语义关系模型:首先,收集大量的样本病历文本,样本病历文本中包括样本主要诊断类型、样本非主要诊断类型和样本主诉文本。随即将大量的样本主要诊断类型、样本非主要诊断类型和样本主诉文本输入至初始模型进行训练,以提高样本主要诊断类型和样本主诉文本之间的语义相关概率,降低样本非主要诊断类型和样本主诉文本之间的语义相关概率为目的,从而得到能够关注样本主要诊断类型和样本主诉文本之间的语义特征的语义关系模型。
基于上述任一实施例,语义关系模型包括编码层、注意力交互层和结果输出层。
相应地,步骤220包括:
将该候选诊断类型和入院信息输入至语义关系模型的编码层,得到编码层输出的语义表示向量;
将语义表示向量输入至语义关系模型的编码层的注意力交互层,得到注意力交互层输出的注意力特征向量;
将注意力特征向量输入至语义关系模型的结果输出层,得到结果输出层输出的语义相关概率。
具体地,下面以采用双向注意力机制算法的语义关系模型为例进行说明。图3为本发明实施例提供的语义关系模型的流程示意图,如图3所示,语义关系模型包括词嵌入层、BiLSTM(Bi-directional Long Short Term Memory Network,双向长短时记忆网络)层、语义分析层和概率表示层。其中,词嵌入层和BiLSTM层相当于编码层,语义分析层相当于注意力交互层,概率表示层相当于结果输出层。
首先,将病历文本中的主诉文本和候选诊断类型进行分词处理后得到的主诉词 序列和诊断词序列输入至词嵌入层,由词嵌入层将输入的词序列转换为向量表示,得到主 诉词表示
Figure 622879DEST_PATH_IMAGE001
和诊断词表示
Figure 722422DEST_PATH_IMAGE002
,其中,
Figure 407482DEST_PATH_IMAGE003
Figure 634195DEST_PATH_IMAGE004
,m是主诉长度,n为 诊断名长度,e为词嵌入维度。
其次,将主诉词表示
Figure 721100DEST_PATH_IMAGE001
和诊断词表示
Figure 257123DEST_PATH_IMAGE002
输入BiLSTM层,得到主诉词语义表示
Figure 163899DEST_PATH_IMAGE005
与诊断词语义表示
Figure 427259DEST_PATH_IMAGE006
,其中,
Figure 634250DEST_PATH_IMAGE007
Figure 950961DEST_PATH_IMAGE008
。此处,主诉词语义表示
Figure 469667DEST_PATH_IMAGE005
与诊断词语义表示
Figure 162817DEST_PATH_IMAGE006
相当于语义表示向量。
再次,将主诉词语义表示
Figure 99680DEST_PATH_IMAGE005
与诊断词语义表示
Figure 852872DEST_PATH_IMAGE006
输入至语义分析层,语义分析 层采用双向注意力机制算法,得到主诉词语义最终表示
Figure 858875DEST_PATH_IMAGE009
与诊断词语义最终表示
Figure 90136DEST_PATH_IMAGE010
,其 中,
Figure 6139DEST_PATH_IMAGE011
Figure 298275DEST_PATH_IMAGE012
。双向注意力机制算法可以表示为:
Figure 666939DEST_PATH_IMAGE013
Figure 826525DEST_PATH_IMAGE014
式中,A为注意力值,W为转换矩阵。
此处,主诉词语义最终表示
Figure 597035DEST_PATH_IMAGE009
与诊断词语义最终表示
Figure 567396DEST_PATH_IMAGE010
相当于注意力特征向 量。
最后,将主诉词语义最终表示
Figure 688936DEST_PATH_IMAGE009
与诊断词语义最终表示
Figure 262000DEST_PATH_IMAGE010
输入至概率表示层, 概率表示层为全连接层,对主诉词语义最终表示
Figure 11650DEST_PATH_IMAGE009
与诊断词语义最终表示
Figure 277546DEST_PATH_IMAGE010
进行拼接后使 用sigmoid函数输出语义相关概率。语义相关概率可以表示为
Figure 994704DEST_PATH_IMAGE015
, 其中,d为候选诊断类型,
Figure 637038DEST_PATH_IMAGE016
为主诉文本。
语义相关概率
Figure 241195DEST_PATH_IMAGE015
越大,表示该候选诊断类型和主诉文 本存在强一致性关系,即该候选诊断类型可能为导致患者出现主诉文本中症状的主要原 因。
该语义关系模型的训练数据集可以采用大量的住院病历作为样本。在对住院病历进行人工标注时,可以采用病历中主诉文本和主要诊断类型作为一条正例,随机选择一个其他诊断类型作为负例。
本发明实施例提供的病历文本处理方法,将病历文本中的主诉文本作为入院信息,对主诉文本和候选诊断类型进行语义分析,考虑了患者的入院目的,提高了疾病诊断分组的准确性。
基于上述任一实施例,任一候选诊断类型与病历诊疗信息中治疗信息之间的相关性是基于如下步骤确定的:
基于该候选诊断类型分别与治疗信息中的每一手术操作、每一药物和每一治疗方式之间的关系概率,确定该候选诊断类型与治疗信息之间的相关性;
该候选诊断类型与治疗信息中的每一手术操作、每一药物和每一治疗方式之间的关系概率是统计病历数据集中该候选诊断类型作为主要诊断类型时采用的手术操作、药物和治疗方式得到的。
具体地,手术操作包括手术名及其各种操作,如“冠脉造影术”等。药物为治疗过程中使用的常用药物。治疗方式为治疗过程中医生采用的主要治疗手段概括,如“抗感染”、“改善循环”、“护脑”等,以上信息均可以从病历文本中提取得到。
任一候选诊断类型与任一手术操作之间的关系概率表示病历数据集中当该候选诊断类型作为主要诊断类型时该手术操作出现的概率,具体可以表示为:
Figure 677992DEST_PATH_IMAGE017
式中,
Figure 118332DEST_PATH_IMAGE018
为候选诊断类型d与手术操作o之间的关系概率,
Figure 298778DEST_PATH_IMAGE019
为候选 诊断类型d作为主要诊断类型的次数,
Figure 898386DEST_PATH_IMAGE020
为候选诊断类型d作为主要诊断类型时 手术操作o出现的次数。
任一候选诊断类型与任一药物之间的关系概率表示病历数据集中当该候选诊断类型作为主要诊断类型时该药物出现的概率,具体可以表示为:
Figure 630719DEST_PATH_IMAGE021
式中,
Figure 682989DEST_PATH_IMAGE022
为候选诊断类型d与药物m之间的关系概率,
Figure 775447DEST_PATH_IMAGE023
为候选诊断 类型d作为主要诊断类型的次数,
Figure 495142DEST_PATH_IMAGE024
为候选诊断类型d作为主要诊断类型时药物 m出现的次数。
任一候选诊断类型与任一治疗方式之间的关系概率表示病历数据集中当该候选诊断类型作为主要诊断类型时该治疗方式出现的概率,具体可以表示为:
Figure 398376DEST_PATH_IMAGE025
式中,
Figure 937941DEST_PATH_IMAGE026
为候选诊断类型d与治疗方式t之间的关系概率,
Figure 725769DEST_PATH_IMAGE023
为候选 诊断类型d作为主要诊断类型的次数,
Figure 909757DEST_PATH_IMAGE027
为候选诊断类型d作为主要诊断类型时 治疗方式t出现的次数。
需要说明的是,在病历文本处理过程中,任一候选诊断类型与治疗信息中的每一手术操作、每一药物和每一治疗方式之间的关系概率,均可以从预先统计得到的关系概率中直接提取得到。进一步地,预先统计上述三种关系概率的具体方法可以为:
1、获取病历数据集,通过统计病历数据集中各个病历文本中包含的手术操作、药物和治疗方式,建立标准的手术操作列表、药物列表和治疗方式列表;
2、对病历数据集中每一候选诊断类型作为主要诊断类型的次数,以及每一候选诊断类型作为主要诊断类型时每一手术操作、每一药物和每一治疗方式出现的次数进行统计;
3、基于统计得到的数据,按照上述计算公式得到三种关系概率。
对于病历文本,其病历诊疗信息中治疗信息可以具体包括手术操作集合、药物集合和治疗方式集合。其中,手术操作集合包括了病历文本中记载的患者在入院治疗的过程中的所有手术操作,药物集合包括了病历文本中记载的患者在入院治疗的过程中使用的所有药物,治疗方式集合包括了病历文本中记载的医生对患者在入院治疗的过程中使采用的所有治疗方式。
因此,任一候选诊断类型与病历诊疗信息中治疗信息之间的相关性,可以分别表示为该候选诊断类型与病历诊疗信息中手术操作集合、药物集合和治疗方式集合之间的相关性。
该候选诊断类型d与病历诊疗信息中手术操作集合
Figure 859258DEST_PATH_IMAGE028
的相关性
Figure 745174DEST_PATH_IMAGE029
表示为:
Figure 71114DEST_PATH_IMAGE030
该候选诊断类型d与病历诊疗信息中药物集合
Figure 873722DEST_PATH_IMAGE031
的相关性
Figure 994125DEST_PATH_IMAGE032
表示为:
Figure 632917DEST_PATH_IMAGE033
该候选诊断类型d与病历诊疗信息中治疗方式集合
Figure 496968DEST_PATH_IMAGE034
的相关性
Figure 389968DEST_PATH_IMAGE035
表示为:
Figure 946852DEST_PATH_IMAGE036
进一步地,病历文本中的病历诊疗信息中手术操作集合、药物集合和治疗方式集合的获取方式可以为:将标准的手术操作列表、药物列表和治疗方式列表,与患者的病历首页中手术及病程记录中手术操作、药物、治疗方式以及医嘱中药物进行匹配,根据匹配一致的手术操作、药物和治疗方式分别建立手术操作集合、药物集合和治疗方式集合。
本发明实施例提供的病历文本处理方法,根据病历数据集,确定候选诊断类型分别与治疗信息中的每一手术操作、每一药物和每一治疗方式之间的关系概率,得到候选诊断类型与治疗信息之间的相关性,提高了疾病诊断分组的准确性。
基于上述任一实施例,任一候选诊断类型与病历诊疗信息中科室信息之间的相关性是基于如下步骤确定的:
确定该候选诊断类型与科室信息之间的关系概率,用于表征该候选诊断类型与科室信息之间的相关性;
其中,该候选诊断类型与科室信息之间的关系概率是对该候选诊断类型作为主要诊断类型时每一科室在病历数据集中的出现次数进行统计后得到的。
具体地,任一候选诊断类型与任一科室信息之间的关系概率表示病历数据集中当该候选诊断类型作为主要诊断类型时该科室出现的概率,可以用公式表示为:
Figure 948306DEST_PATH_IMAGE037
式中,
Figure 475102DEST_PATH_IMAGE038
为候选诊断类型d与科室de之间的关系概率,
Figure 612822DEST_PATH_IMAGE039
为候选诊断类型d作为主要诊断类型的次数,
Figure 720368DEST_PATH_IMAGE040
为候选诊断类型d作为主要诊 断类型时科室de出现的次数。
需要说明的是,在病历文本处理过程中,任一候选诊断类型与任一科室信息之间的关系概率,均可以从预先统计得到的关系概率中直接提取得到。根据病历数据集统计上述关系概率的具体方法可以为:
1、获取病历数据集,建立标准的科室列表;
2、对病历数据集中每一候选诊断类型作为主要诊断类型的次数,以及每一候选诊断类型作为主要诊断类型时每一科室出现的次数进行统计;
3、基于统计得到的数据,按照上述计算公式得到候选诊断类型与科室信息之间的关系概率。
本发明实施例提供的病历文本处理方法,根据病历数据集,确定候选诊断类型与科室信息之间的关系概率,得到候选诊断类型与科室信息之间的相关性,提高了疾病诊断分组的准确性。
基于上述任一实施例,通用诊疗属性包括疾病危重程度、资源消耗程度和主要诊断出现概率中的至少一种。
具体地,候选诊断类型本身具有的通用诊疗属性,用来衡量该候选诊断类型在疾病危重程度和医疗资源消耗程度上的共性特征。其中,疾病危重程度表示候选诊断类型对患者的生命安全的威胁程度。例如,疾病危重程度可以为病危、病重和存在死亡风险等。医疗资源消耗程度表示候选诊断类型在患者治疗过程中对于医疗资源的消耗情况。例如,医疗资源消耗程度可以用手术操作数量和药物数量等表示。
通用诊疗属性强的候选诊断类型相比于其他候选诊断类型更有可能作为主要诊断类型。例如,冠心病比起慢性胃炎,对于患者的生命健康有严重威胁,同时,治疗冠心病需要手术治疗和长期服药。患有冠心病和慢性胃炎的患者入院治疗过程中,冠心病被作为主要诊断类型的可能性更大。
基于上述任一实施例,任一候选诊断类型的疾病危重程度是对该候选诊断类型作为主要诊断类型时病历数据集中患者出现危重情况的次数进行统计后确定的;
任一候选诊断类型的资源消耗程度是对该候选诊断类型作为主要诊断类型时患者的住院时间和医疗费用进行统计后确定的;
任一候选诊断类型的主要诊断出现概率是在病历数据集中对该候选诊断类型作为主要诊断类型的次数进行统计后确定的。
具体地,任一候选诊断类型的疾病危重程度可以用公式表示为:
Figure 677959DEST_PATH_IMAGE041
式中,
Figure 274026DEST_PATH_IMAGE042
为候选诊断类型的疾病危重程度,
Figure 531832DEST_PATH_IMAGE043
为候选诊断类型d 作为主要诊断类型的次数,
Figure 40305DEST_PATH_IMAGE044
为候选诊断类型d作为主要诊断类型时病 历数据集中出现危重标识的病历数量。危重标识包括“有死亡风险”、“死亡”或者“极其危 重”等。
任一候选诊断类型的资源消耗程度包括住院时间消耗和住院费用消耗,可以分别用公式表示为:
Figure 750772DEST_PATH_IMAGE045
式中,
Figure 884950DEST_PATH_IMAGE046
为该候选诊断类型的住院时间消耗程度,
Figure 997262DEST_PATH_IMAGE047
为该候选诊断类型的住院费用消耗程度,
Figure 66849DEST_PATH_IMAGE043
为候选诊断类型d作为主要诊断类型的次 数,
Figure 372935DEST_PATH_IMAGE048
为候选诊断类型d作为主要诊断类型时患者的住院时间,
Figure 451749DEST_PATH_IMAGE049
为候选诊断类型d作为主要诊断类型时患者的住院费用。
此处,患者的住院时间和住院费用可以为病历数据集所有患者住院时间和住院费用的平均值、最大值、最小值或中位数。
任一候选诊断类型的主要诊断出现概率可以用公式表示为:
Figure 543202DEST_PATH_IMAGE050
式中,
Figure 518111DEST_PATH_IMAGE051
为候选诊断类型d的主要诊断出现概率,
Figure 78537DEST_PATH_IMAGE052
为病历 数据集中候选诊断类型d作为的主要诊断出现次数,
Figure 695463DEST_PATH_IMAGE053
为病历数据集的数量。
本发明实施例提供的病历文本处理方法,考虑了候选诊断类型本身的共性特征对主要诊断类型选择的影响,提高了疾病诊断分组的准确性。
基于上述任一实施例,图4为本发明实施例提供的候选诊断类型得分方法的流程示意图,如图4所示,步骤120包括:
步骤121,基于任一候选诊断类型与病历文本中的病历诊疗信息之间的相关性,以及该候选诊断类型的通用诊疗属性,确定该候选诊断类型的特征表示。
具体地,任一候选诊断类型
Figure 516788DEST_PATH_IMAGE054
与病历诊疗信息中入院信息之间的相关性表示为
Figure 787233DEST_PATH_IMAGE055
,与病历诊疗信息中手术操作集合之间的相关性表示为
Figure 694009DEST_PATH_IMAGE056
,与病历诊疗信息中药物集合之间的相关性表示为
Figure 222948DEST_PATH_IMAGE057
, 与病历诊疗信息中治疗方式集合之间的相关性表示为
Figure 164359DEST_PATH_IMAGE058
,与科室信息 之间的相关性表示为
Figure 871284DEST_PATH_IMAGE059
。任一候选诊断类型
Figure 265356DEST_PATH_IMAGE060
的疾病危重程度表示为
Figure 224085DEST_PATH_IMAGE061
,住院时间消耗程度表示为
Figure 895369DEST_PATH_IMAGE062
,住院费用消耗程度表示为
Figure 648561DEST_PATH_IMAGE063
,主要诊断出现概率表示为
Figure 388984DEST_PATH_IMAGE064
。其中,i为患者病历文本中 候选诊断类型的标号。
对上述相关性、程度和概率进行拼接后,得到该候选诊断类型的特征表示 X。例如,可以采用向量拼接的方法得到:
Figure 151404DEST_PATH_IMAGE065
步骤122,将该候选诊断类型的特征表示输入至诊断预测模型,得到诊断预测模型输出的该候选诊断类型的得分;
其中,诊断预测模型是基于样本病历中的样本主要诊断类型和样本非主要诊断类型的特征表示,以及样本病历中样本主要诊断类型的标签训练得到的。
具体地,可以将该候选诊断类型的特征表示 X,由诊断预测模型以交叉熵作为损失函数,对该候选诊断类型进行评分,得到该候选诊断类型的得分。得分越高,该候选诊断类型作为主要诊断的可能性越大。
在执行步骤122之前,可以预先训练得到诊断预测模型,具体可以通过如下训练方式得到诊断预测模型:首先,收集大量的样本病历,样本病历中包括样本主要诊断类型和样本非主要诊断类型的特征表示。采用人工方式对样本病历中样本主要诊断类型进行标注,得到样本病历中样本主要诊断类型的标签。随即将大量的样本病历中样本主要诊断类型和样本非主要诊断类型的特征表示,以及样本病历中样本主要诊断类型的标签输入至初始模型进行训练,以提高作为主要诊断类型的候选诊断类型的特征表示对应得分,降低非主要诊断类型的的候选诊断类型的特征表示对应得分的候选诊断类型的特征表示对应得分为目标进行训练,从而得到诊断预测模型。
在将候选诊断类型的特征表示X输入至诊断预测模型之前,可以对特征表示X中任一相关性、程度或者概率进行归一化,可以用公式表示为:
Figure 175729DEST_PATH_IMAGE066
式中, P 为特征表示X中任一相关性、程度或者概率,
Figure 99823DEST_PATH_IMAGE067
为归一化后的相关性、程 度或者概率,
Figure 593121DEST_PATH_IMAGE068
为病历文本中 P所有取值的最大值,
Figure 628073DEST_PATH_IMAGE069
为病历文本中P所 有取值的最小值。
下面以采用深度学习算法的诊断预测模型为例进行说明。图5为本发明实施例提供的诊断预测模型的流程示意图,如图5所示,诊断预测模型包括m个全连接层和预测分类层,m为正整数。全连接层采用深度学习算法,预测分类层采用softmax函数进行分类。
将n个候选诊断类型的特征表示输入至诊断预测模型的m个全连接层,n为正整数。由m个全连接层对n个候选诊断类型的特征表示进行学习,最后通过预测分类层中softmax函数进行排序,输出排序后的n个候选诊断类型的得分。
本发明实施例提供的病历文本处理方法,采用诊断预测模型对多个候选诊断类型进行评分,避免了人工经验判断的主观性,提高了疾病诊断分组的准确性,提高了病历文本的处理效率。
基于上述任一实施例,本发明实施例提供一种病历文本处理方法,包括:
首先,获取患者的病历文本。
其次,基于以下主要诊断类型选择原则对每一候选诊断类型与病历文本中的病历诊疗信息之间的相关性进行分析:
1、主要诊断类型应与本次患者入院目的一致;
2、若患者采用手术治疗,则主要诊断类型应与手术操作保持一致;
3、主要诊断类型应与治疗过程保持一致。。
同时,基于以下主要诊断类型选择原则对每一候选诊断类型的通用诊疗属性进行分析:
1、主要诊断类型应选择最危重的疾病;
2、主要诊断类型应选择住院治疗费用最高和消耗医疗资源最多的疾病。
接着,基于分析所得的每一候选诊断类型与病历文本中的病历诊疗信息之间的相关性,以及每一候选诊断类型的通用诊疗属性,确定每一候选诊断类型的得分。
最后,基于每一候选诊断类型的得分,从所有候选诊断类型中选取出病历文本的主要诊断类型。
基于上述任一实施例,图6为本发明实施例提供的病历文本处理装置的结构示意图,如图6所示,该装置包括:
确定单元610,用于确定待处理的病历文本的多个候选诊断类型;
评分单元620,用于基于任一候选诊断类型与病历文本中的病历诊疗信息之间的相关性,以及该候选诊断类型的通用诊疗属性,确定该候选诊断类型的得分;
选取单元630,用于基于每一候选诊断类型的得分,从所有候选诊断类型中选取出病历文本的主要诊断类型。
具体地,确定单元610用于根据患者的病历文本确定多个候选诊断类型。评分单元620用于根据每一候选诊断类型与病历文本中的病历诊疗信息之间的相关性,以及每一候选诊断类型的通用诊疗属性,确定每一候选诊断类型的得分。选取单元630用于根据评分单元620确定的每一候选诊断类型的得分,从所有候选诊断类型中选取出病历文本的主要诊断类型。
本发明实施例提供的病历文本处理装置,根据候选诊断类型与病历文本中的病历诊疗信息之间的相关性,以及候选诊断类型的通用诊疗属性,确定每一候选诊断类型的得分,从所有候选诊断类型中选取出病历文本的主要诊断类型,由于主要诊断类型的确定过程是从病历文本和候选诊断类型本身出发,不依赖于医生的临床经验和质检员的疾病知识,所选取的主要诊断类型符合主要诊断类型选择原则,提高了疾病诊断分组的准确性,提高了病历文本的处理效率。同时,综合考虑了病历文本中患者治疗的实际情况和候选诊断类型本身的特性,能够灵活适用于复杂病历的处理。
基于上述任一实施例,评分单元620包括第一相关性确定子单元、第二相关性确定子单元和第三相关性子确定单元;
第一相关性确定子单元用于确定任一候选诊断类型与病历诊疗信息中入院信息之间的相关性,第二相关性确定子单元用于确定任一候选诊断类型与病历诊疗信息中治疗信息之间的相关性,第三相关性子确定单元用于确定任一候选诊断类型与病历诊疗信息中科室信息之间的相关性。
基于上述任一实施例,第一相关性确定子单元具体用于:
将病历文本中的主诉文本作为入院信息;
将该候选诊断类型和主诉文本输入至语义关系模型,得到语义关系模型输出的语义相关概率,语义相关概率用于表征该候选诊断类型与入院信息之间的相关性;
其中,语义关系模型是基于样本病历文本中的样本主要诊断类型、样本非主要诊断类型和样本主诉文本训练的。
基于上述任一实施例,第二相关性确定子单元具体用于:
基于该候选诊断类型分别与治疗信息中的每一手术操作、每一药物和每一治疗方式之间的关系概率,确定该候选诊断类型与治疗信息之间的相关性;
该候选诊断类型与治疗信息中的每一手术操作、每一药物和每一治疗方式之间的关系概率是统计病历数据集中该候选诊断类型作为主要诊断类型时采用的手术操作、药物和治疗方式得到的。
基于上述任一实施例,第三相关性确定子单元具体用于:
确定任一候选诊断类型与科室信息之间的关系概率,用于表征任一候选诊断类型与科室信息之间的相关性;
其中,任一候选诊断类型与科室信息之间的关系概率是对任一候选诊断类型作为主要诊断类型时每一科室在病历数据集中的出现次数进行统计后得到的。
基于上述任一实施例,通用诊疗属性包括疾病危重程度、资源消耗程度和主要诊断出现概率中的至少一种。
基于上述任一实施例,评分单元620还包括:
通用诊疗属性确定子单元,用于对任一候选诊断类型作为主要诊断类型时病历数据集中患者出现危重情况的次数进行统计后确定该候选诊断类型的疾病危重程度;
或,用于对任一候选诊断类型作为主要诊断类型时患者的住院时间和医疗费用进行统计后确定该候选诊断类型的资源消耗程度;
或,用于在病历数据集中对任一候选诊断类型作为主要诊断类型的次数进行统计后确定该候选诊断类型的主要诊断出现概率。
基于上述任一实施例,选取单元630包括:
特征表示子单元,用于基于任一候选诊断类型与病历文本中的病历诊疗信息之间的相关性,以及任一候选诊断类型的通用诊疗属性,确定任一候选诊断类型的特征表示;
诊断预测子单元,用于将任一候选诊断类型的特征表示输入至诊断预测模型,得到诊断预测模型输出的任一候选诊断类型的得分;
其中,诊断预测模型是基于样本病历中的样本主要诊断类型和样本非主要诊断类型的特征表示,以及样本病历中样本主要诊断类型的标签训练得到的。
基于上述任一实施例,图7为本发明实施例提供的电子设备的结构示意图,如图7所示,该电子设备可以包括:处理器(Processor)710、通信接口(CommunicationsInterface)720、存储器(Memory)730和通信总线(Communications Bus)740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑命令,以执行如下方法:
确定待处理的病历文本的多个候选诊断类型;基于任一候选诊断类型与病历文本中的病历诊疗信息之间的相关性,以及任一候选诊断类型的通用诊疗属性,确定任一候选诊断类型的得分;基于每一候选诊断类型的得分,从所有候选诊断类型中选取出病历文本的主要诊断类型。
此外,上述的存储器730中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:
确定待处理的病历文本的多个候选诊断类型;基于任一候选诊断类型与病历文本中的病历诊疗信息之间的相关性,以及任一候选诊断类型的通用诊疗属性,确定任一候选诊断类型的得分;基于每一候选诊断类型的得分,从所有候选诊断类型中选取出病历文本的主要诊断类型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种病历文本处理方法,其特征在于,包括:
确定待处理的病历文本的多个候选诊断类型;
基于任一候选诊断类型与所述病历文本中的病历诊疗信息之间的相关性,以及所述任一候选诊断类型的通用诊疗属性,确定所述任一候选诊断类型的得分;
基于每一候选诊断类型的得分,从所有候选诊断类型中选取出所述病历文本的主要诊断类型;
所述病历诊疗信息包括患者的入院信息、治疗信息和科室信息中的至少一种;所述通用诊疗属性包括疾病危重程度、资源消耗程度和主要诊断出现概率中的至少一种;
所述病历文本对应一个主要诊断类型;
所述任一候选诊断类型与所述病历文本中的病历诊疗信息之间的相关性包括:
所述任一候选诊断类型与所述病历诊疗信息中入院信息之间的相关性、所述任一候选诊断类型与所述病历诊疗信息中治疗信息之间的相关性,以及所述任一候选诊断类型与所述病历诊疗信息中科室信息之间的相关性中的至少一种;
所述任一候选诊断类型与所述病历诊疗信息中入院信息之间的相关性是所述任一候选诊断类型与所述病历诊疗信息中入院信息之间的语义相关概率,所述任一候选诊断类型与所述病历诊疗信息中治疗信息之间的相关性是基于所述任一候选诊断类型分别与所述治疗信息中的每一手术操作、每一药物和每一治疗方式之间的关系概率确定的,所述任一候选诊断类型与所述病历诊疗信息中科室信息之间的相关性是所述任一候选诊断类型与所述科室信息之间的关系概率。
2.根据权利要求1所述的病历文本处理方法,其特征在于,所述任一候选诊断类型与所述病历诊疗信息中入院信息之间的相关性是基于如下步骤确定的:
将所述病历文本中的主诉文本作为所述入院信息;
将所述任一候选诊断类型和所述主诉文本输入至语义关系模型,得到所述语义关系模型输出的语义相关概率;
其中,所述语义关系模型是基于样本病历文本中的样本主要诊断类型、样本非主要诊断类型和样本主诉文本训练的。
3.根据权利要求1所述的病历文本处理方法,其特征在于,所述任一候选诊断类型与所述治疗信息中的每一手术操作、每一药物和每一治疗方式之间的关系概率是统计病历数据集中所述任一候选诊断类型作为主要诊断类型时采用的手术操作、药物和治疗方式得到的。
4.根据权利要求1所述的病历文本处理方法,其特征在于,所述任一候选诊断类型与所述科室信息之间的关系概率是对所述任一候选诊断类型作为主要诊断类型时每一科室在病历数据集中的出现次数进行统计后得到的。
5.根据权利要求1所述的病历文本处理方法,其特征在于,所述任一候选诊断类型的疾病危重程度是对所述任一候选诊断类型作为主要诊断类型时病历数据集中患者出现危重情况的次数进行统计后确定的;
所述任一候选诊断类型的资源消耗程度是对所述任一候选诊断类型作为主要诊断类型时患者的住院时间和医疗费用进行统计后确定的;
所述任一候选诊断类型的主要诊断出现概率是在病历数据集中对所述任一候选诊断类型作为主要诊断类型的次数进行统计后确定的。
6.根据权利要求1至5任一项所述的病历文本处理方法,其特征在于,所述基于任一候选诊断类型与所述病历文本中的病历诊疗信息之间的相关性,以及所述任一候选诊断类型的通用诊疗属性,确定所述任一候选诊断类型的得分,包括:
基于任一候选诊断类型与所述病历文本中的病历诊疗信息之间的相关性,以及所述任一候选诊断类型的通用诊疗属性,确定所述任一候选诊断类型的特征表示;
将所述任一候选诊断类型的特征表示输入至诊断预测模型,得到所述诊断预测模型输出的所述任一候选诊断类型的得分;
其中,所述诊断预测模型是基于样本病历中的样本主要诊断类型和样本非主要诊断类型的特征表示,以及所述样本病历中样本主要诊断类型的标签训练得到的。
7.一种病历文本处理装置,其特征在于,包括:
确定单元,用于确定待处理的病历文本的多个候选诊断类型;
评分单元,用于基于任一候选诊断类型与所述病历文本中的病历诊疗信息之间的相关性,以及所述任一候选诊断类型的通用诊疗属性,确定所述任一候选诊断类型的得分;
选取单元,用于基于每一候选诊断类型的得分,从所有候选诊断类型中选取出所述病历文本的主要诊断类型;
所述病历诊疗信息包括患者的入院信息、治疗信息和科室信息中的至少一种;所述通用诊疗属性包括疾病危重程度、资源消耗程度和主要诊断出现概率中的至少一种;
所述病历文本对应一个主要诊断类型;
所述任一候选诊断类型与所述病历文本中的病历诊疗信息之间的相关性包括:
所述任一候选诊断类型与所述病历诊疗信息中入院信息之间的相关性、所述任一候选诊断类型与所述病历诊疗信息中治疗信息之间的相关性,以及所述任一候选诊断类型与所述病历诊疗信息中科室信息之间的相关性中的至少一种;
所述任一候选诊断类型与所述病历诊疗信息中入院信息之间的相关性是所述任一候选诊断类型与所述病历诊疗信息中入院信息之间的语义相关概率,所述任一候选诊断类型与所述病历诊疗信息中治疗信息之间的相关性是基于所述任一候选诊断类型分别与所述治疗信息中的每一手术操作、每一药物和每一治疗方式之间的关系概率确定的,所述任一候选诊断类型与所述病历诊疗信息中科室信息之间的相关性是所述任一候选诊断类型与所述科室信息之间的关系概率。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的病历文本处理方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的病历文本处理方法的步骤。
CN202011350938.8A 2020-11-27 2020-11-27 病历文本处理方法、装置、电子设备及存储介质 Active CN112148882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011350938.8A CN112148882B (zh) 2020-11-27 2020-11-27 病历文本处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011350938.8A CN112148882B (zh) 2020-11-27 2020-11-27 病历文本处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112148882A CN112148882A (zh) 2020-12-29
CN112148882B true CN112148882B (zh) 2021-09-10

Family

ID=73887428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011350938.8A Active CN112148882B (zh) 2020-11-27 2020-11-27 病历文本处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112148882B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560400B (zh) * 2020-12-30 2024-06-14 杭州依图医疗技术有限公司 医学数据的处理方法、装置及存储介质
CN112820367B (zh) * 2021-01-11 2023-06-30 平安科技(深圳)有限公司 病历信息校验方法、装置、计算机设备及存储介质
CN114822857A (zh) * 2021-01-18 2022-07-29 阿里巴巴集团控股有限公司 重复入院的预测方法、计算设备及存储介质
CN112750046A (zh) * 2021-01-31 2021-05-04 云知声智能科技股份有限公司 一种基于异常检测算法的医保控费方法和系统
CN112786198B (zh) * 2021-02-08 2024-05-31 科大讯飞股份有限公司 诊疗信息推荐模型构建方法、诊疗信息推荐方法及装置
CN112863673B (zh) * 2021-03-12 2022-03-29 山东勤成健康科技股份有限公司 一种合并症和并发症的病历统计分析系统
CN114334052B (zh) * 2021-11-19 2022-09-13 望海康信(北京)科技股份公司 病案首页生成系统、方法及相应设备和存储介质
CN114579626B (zh) * 2022-03-09 2023-08-11 北京百度网讯科技有限公司 数据处理方法、数据处理装置、电子设备和介质
CN114741508B (zh) * 2022-03-29 2023-05-30 北京三快在线科技有限公司 概念挖掘方法及装置、电子设备及可读存储介质
CN117093920B (zh) * 2023-10-20 2024-01-23 四川互慧软件有限公司 一种用户DRGs分组方法
CN117235582B (zh) * 2023-10-31 2024-10-01 中国人民解放军总医院 基于电子病历的多粒度信息处理方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705839A (zh) * 2017-10-25 2018-02-16 山东众阳软件有限公司 疾病自动编码方法及系统
CN108461110A (zh) * 2017-02-21 2018-08-28 阿里巴巴集团控股有限公司 医疗信息处理方法、装置及设备
CN109215754A (zh) * 2018-09-10 2019-01-15 平安科技(深圳)有限公司 病历数据处理方法、装置、计算机设备和存储介质
CN110032739A (zh) * 2019-04-18 2019-07-19 清华大学 中文电子病历命名实体抽取方法及系统
KR20190139722A (ko) * 2018-06-08 2019-12-18 연세대학교 산학협력단 진단명 레이블링을 위한 딥러닝을 이용한 판독기록문으로부터 최종 진단명 추출 방법 및 장치
CN111581969A (zh) * 2020-05-08 2020-08-25 医渡云(北京)技术有限公司 医疗术语向量表示方法、装置、存储介质及电子设备
US20200350072A1 (en) * 2018-08-06 2020-11-05 Mirr Llc Diagnositic and treatmetnt tool and method for electronic recording and indexing patient encounters for allowing instant search of patient history

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111028934B (zh) * 2019-12-23 2022-02-18 安徽科大讯飞医疗信息技术有限公司 诊断质检方法、装置、电子设备和存储介质
CN111402979B (zh) * 2020-03-24 2024-05-31 清华大学 病情描述与诊断一致性检测方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108461110A (zh) * 2017-02-21 2018-08-28 阿里巴巴集团控股有限公司 医疗信息处理方法、装置及设备
CN107705839A (zh) * 2017-10-25 2018-02-16 山东众阳软件有限公司 疾病自动编码方法及系统
KR20190139722A (ko) * 2018-06-08 2019-12-18 연세대학교 산학협력단 진단명 레이블링을 위한 딥러닝을 이용한 판독기록문으로부터 최종 진단명 추출 방법 및 장치
US20200350072A1 (en) * 2018-08-06 2020-11-05 Mirr Llc Diagnositic and treatmetnt tool and method for electronic recording and indexing patient encounters for allowing instant search of patient history
CN109215754A (zh) * 2018-09-10 2019-01-15 平安科技(深圳)有限公司 病历数据处理方法、装置、计算机设备和存储介质
CN110032739A (zh) * 2019-04-18 2019-07-19 清华大学 中文电子病历命名实体抽取方法及系统
CN111581969A (zh) * 2020-05-08 2020-08-25 医渡云(北京)技术有限公司 医疗术语向量表示方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN112148882A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN112148882B (zh) 病历文本处理方法、装置、电子设备及存储介质
US10929420B2 (en) Structured report data from a medical text report
US11922348B2 (en) Generating final abnormality data for medical scans based on utilizing a set of sub-models
Dai et al. Clinical report guided retinal microaneurysm detection with multi-sieving deep learning
CN110705293A (zh) 基于预训练语言模型的电子病历文本命名实体识别方法
US11449793B2 (en) Methods and systems for medical record searching with transmittable machine learning
CN111710420B (zh) 一种基于电子病历大数据的并发症发病风险预测方法、系统、终端以及存储介质
Huddar et al. Predicting complications in critical care using heterogeneous clinical data
US20200380339A1 (en) Integrated neural networks for determining protocol configurations
US11984199B2 (en) Methods and systems for generating compatible substance instruction sets using artificial intelligence
US20150149215A1 (en) System and method to detect and visualize finding-specific suggestions and pertinent patient information in radiology workflow
CN113094476A (zh) 基于自然语言处理风险预警方法、系统、设备及介质
Ghassemi et al. How is the doctor feeling? ICU provider sentiment is associated with diagnostic imaging utilization
Ito et al. Development of a novel scar screening system with machine learning
JP2019522274A (ja) 共参照解析、情報抽出および類似文書検索のための装置および方法
CN110491519A (zh) 一种医学数据的检验方法
Gordon et al. Natural language processing of head CT reports to identify intracranial mass effect: CTIME algorithm
Mathew et al. ExpACVO-Hybrid Deep learning: Exponential Anti Corona Virus Optimization enabled Hybrid Deep learning for tongue image segmentation towards diabetes mellitus detection
CN114201613B (zh) 试题生成方法、试题生成装置、电子设备以及存储介质
JP2021524097A (ja) 異種医用データの優先順位付け及び提示のためのシステム及び方法
CN115456069A (zh) 医嘱分类模型的训练方法、装置、电子设备及存储介质
Weissenbacher et al. Detecting goals of care conversations in clinical notes with active learning
CN114238558A (zh) 一种电子病历的质检方法、装置、存储介质及设备
US20210133611A1 (en) Methods and systems for providing dynamic constitutional guidance
Hsu et al. A comprehensive study of age-related macular degeneration detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant