CN111402979B - 病情描述与诊断一致性检测方法及装置 - Google Patents
病情描述与诊断一致性检测方法及装置 Download PDFInfo
- Publication number
- CN111402979B CN111402979B CN202010213728.8A CN202010213728A CN111402979B CN 111402979 B CN111402979 B CN 111402979B CN 202010213728 A CN202010213728 A CN 202010213728A CN 111402979 B CN111402979 B CN 111402979B
- Authority
- CN
- China
- Prior art keywords
- disease
- diagnosis
- code
- description
- consistency detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 573
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 573
- 238000003745 diagnosis Methods 0.000 title claims abstract description 401
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000001514 detection method Methods 0.000 claims abstract description 210
- 239000013598 vector Substances 0.000 claims description 78
- 238000003748 differential diagnosis Methods 0.000 claims description 34
- 230000008447 perception Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 4
- 208000024891 symptom Diseases 0.000 description 21
- 239000011159 matrix material Substances 0.000 description 18
- 238000012549 training Methods 0.000 description 16
- 230000007246 mechanism Effects 0.000 description 11
- 201000000297 Erysipelas Diseases 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 8
- 239000013604 expression vector Substances 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 230000008961 swelling Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 210000003141 lower extremity Anatomy 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 210000001364 upper extremity Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明实施例提供一种病情描述与诊断一致性检测方法及装置,其中方法包括:确定待检测的病历中的病情描述文本和诊断结果;将病情描述文本和诊断结果输入至一致性检测模型,得到一致性检测模型输出的病历的一致性检测结果;其中,一致性检测模型是基于样本病历中的样本病情描述文本、样本诊断结果,以及样本病历的样本一致性检测结果训练得到的;一致性检测模型用于基于病情描述文本的病情描述编码,以及诊断结果的诊断疾病编码,多维度分析病情描述编码和诊断疾病编码的相关性,进行一致性检测。本发明实施例提供的方法及装置,提高了一致性检测方法的普适性及准确性。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种病情描述与诊断一致性检测方法及装置。
背景技术
随着医疗行业规范化水平的快速提高,病历的质量问题受到了广泛的关注。其中,病历中的病情描述与诊断结果的一致性问题,会影响患者转诊和医疗报销,因此尤其应当受到重视。
目前的病情描述与诊断一致性检测方法主要包括基于规则的一致性检测方法,以及基于知识图谱等外部知识的一致性检测方法。其中,基于规则的一致性检测方法由于规则的制定存在不完善性,导致该检测方法普适性及检测准确性欠佳;而基于知识图谱等外部知识的一致性检测方法则因为知识图谱等外部知识代价高昂且知识涵盖范围有限,导致该方法难以实施且性能严重受限。
发明内容
本发明实施例提供一种病情描述与诊断一致性检测方法、装置、电子设备和存储介质,用以解决现有的一致性检测方法检测准确性不高的问题。
第一方面,本发明实施例提供一种病情描述与诊断一致性检测方法,包括:
确定待检测的病历中的病情描述文本和诊断结果;
将所述病情描述文本和诊断结果输入至一致性检测模型,得到所述一致性检测模型输出的所述病历的一致性检测结果;
其中,所述一致性检测模型是基于样本病历中的样本病情描述文本、样本诊断结果,以及所述样本病历的样本一致性检测结果训练得到的;
所述一致性检测模型用于基于所述病情描述文本的病情描述编码,以及所述诊断结果的诊断疾病编码,多维度分析所述病情描述编码和所述诊断疾病编码的相关性,进行一致性检测。
可选地,所述将所述病情描述文本和诊断结果输入至一致性检测模型,得到所述一致性检测模型输出的所述病历的一致性检测结果,具体包括:
将所述病情描述文本输入至所述一致性检测模型的病情描述编码层,得到所述病情描述编码层输出的病情描述编码;
将所述诊断结果输入至所述一致性检测模型的诊断疾病编码层,得到所述诊断疾病编码层输出的诊断疾病编码;
将所述病情描述编码和所述诊断疾病编码分别输入至所述一致性检测模型的多维度感知层,得到所述多维度感知层输出的所述病情描述编码对应的多个维度的病情描述感知编码,以及所述诊断疾病编码对应的多个维度的诊断疾病感知编码;
将所述诊断疾病编码、所述多个维度的病情描述感知编码和所述多个维度的诊断疾病感知编码输入至所述一致性检测模型的一致性判决层,得到所述一致性判决层输出的所述一致性检测结果。
可选地,所述将所述病情描述文本输入至所述一致性检测模型的病情描述编码层,得到所述病情描述编码层输出的病情描述编码,具体包括:
将所述病情描述文本中的主诉文本和现病史文本分别输入至所述病情描述编码层的病情描述表示层,得到所述病情描述表示层输出的所述主诉文本的主诉表示和所述现病史文本的现病史表示;
将所述主诉表示和所述现病史表示输入至所述病情描述编码层的病情描述注意力层,得到所述病情描述注意力层输出的所述病情描述编码。
可选地,所述将所述诊断结果输入至所述一致性检测模型的诊断疾病编码层,得到所述诊断疾病编码层输出的诊断疾病编码,具体包括:
将所述诊断结果和所述诊断结果对应的疾病知识描述文本分别输入至所述诊断疾病编码层的疾病表示层,得到所述疾病表示层输出的所述诊断结果的诊断疾病表示和所述疾病知识描述文本的疾病知识表示;
将所述诊断疾病表示和所述疾病知识表示输入至所述诊断疾病编码层的诊断疾病注意力层,得到所述诊断疾病注意力层输出的所述诊断疾病编码。
可选地,所述将所述诊断疾病编码、所述多个维度的病情描述感知编码和所述多个维度的诊断疾病感知编码输入至所述一致性检测模型的一致性判决层,得到所述一致性判决层输出的所述一致性检测结果,具体包括:
将每一维度的病情描述感知编码、每一维度的诊断疾病感知编码以及所述诊断疾病编码输入至所述一致性判决层的多维度注意力层,得到所述多维度注意力层输出的所述病情描述编码和所述诊断疾病编码之间的相关性表示;
将所述病情描述编码和所述诊断疾病编码之间的相关性表示输入至所述一致性判决层的结果输出层,得到所述结果输出层输出的所述一致性检测结果。
可选地,所述将每一维度的病情描述感知编码、每一维度的诊断疾病感知编码以及所述诊断疾病编码输入至所述一致性判决层的多维度注意力层,得到所述多维度注意力层输出的所述病情描述编码和所述诊断疾病编码之间的相关性表示,具体包括:
将任一维度的病情描述感知编码和诊断疾病感知编码输入至所述多维度注意力层的单维度注意力层,得到所述单维度注意力层输出的所述任一维度的病情描述注意力表示;
将所述诊断疾病编码,以及每一维度的病情描述注意力表示输入至所述多维度注意力层的混合相关性表示层,得到所述混合相关性表示层输出的所述病情描述编码和所述诊断疾病编码之间的相关性表示。
可选地,任一样本病历中的样本诊断结果包括多个候选诊断结果和若干个鉴别诊断结果,其中所述任一样本病历中的样本病情描述文本及其对应的每一候选诊断结果所对应的样本一致性检测结果为一致,所述任一样本病历中的样本病情描述文本及其对应的每一鉴别诊断结果所对应的样本一致性检测结果为不一致。
可选地,所述候选诊断结果是基于所述任一样本病历中的病历诊断结果对应的疾病类簇确定的;所述疾病类簇是对多个样本病历中的病历诊断结果进行聚类后得到的。
可选地,所述疾病类簇是通过如下步骤得到的:
确定任一病历诊断结果的若干个重点词;
基于所述任一病历诊断结果的若干个重点词,确定所述任一病历诊断结果的疾病向量;
对每一病历诊断结果的疾病向量进行聚类,得到所述疾病类簇。
可选地,所述鉴别诊断结果是基于所述任一样本病历中的病历诊断结果与其余多个样本病历中的病历诊断结果的疾病向量之间的距离确定的,或基于所述任一样本病历中的病历诊断结果与其余多个样本病历中的病历诊断结果的疾病向量之间的距离以及编辑距离确定的。
第二方面,本发明实施例提供一种病情描述与诊断一致性检测装置,包括:
确定单元,用于确定待检测的病历中的病情描述文本和诊断结果;
一致性检测单元,用于将所述病情描述文本和诊断结果输入至一致性检测模型,得到所述一致性检测模型输出的所述病历的一致性检测结果;
其中,所述一致性检测模型是基于样本病历中的样本病情描述文本、样本诊断结果,以及所述样本病历的样本一致性检测结果训练得到的;
所述一致性检测模型用于基于所述病情描述文本的病情描述编码,以及所述诊断结果的诊断疾病编码,多维度分析所述病情描述编码和所述诊断疾病编码的相关性,进行一致性检测。
第三方面,本发明实施例提供一种电子设备,包括处理器、通信接口、存储器和总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信,处理器可以调用存储器中的逻辑命令,以执行如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的一种病情描述与诊断一致性检测方法、装置、电子设备和存储介质,通过一致性检测模型多维度分析病情描述文本的病情描述编码和诊断结果的诊断疾病编码之间的相关性,充分挖掘病情描述编码与诊断疾病编码在不同维度上存在的潜在关联,提高了一致性检测方法的普适性及准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的病情描述与诊断一致性检测方法的流程示意图;
图2为本发明实施例提供的一致性检测模型的运行流程示意图;
图3为本发明实施例提供的病情描述编码方法的流程示意图;
图4为本发明实施例提供的诊断疾病编码方法的流程示意图;
图5为本发明实施例提供的一致性检测方法的流程示意图;
图6为本发明实施例提供的多维度相关性表示方法的流程示意图;
图7为本发明实施例提供的疾病类簇获取方法的流程示意图;
图8为本发明实施例提供的病情描述与诊断一致性检测装置的结构示意图;
图9为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着医疗行业规范化水平的快速提高,病历的质量问题逐渐受到重视。特别是病历中的病情描述与诊断结果一致与否,由于会影响患者的转诊、医疗报销等问题,成为医院及上级医疗机构的重要考核内容。医院进行一致性检测的主要方法是进行人工抽查。然而,抽查需要耗费大量的人力物力,且存在滞后性和漏检情况,故人工抽查方式只能作为事后的评价指标。因此,需要一个高效的病情描述与诊断一致性检查方法,实时提醒医生病历中存在的病情描述与诊断结果不一致的问题。
目前的病情描述与诊断一致性检测方法主要包括基于规则的一致性检测方法,以及基于知识图谱等外部知识的一致性检测方法。其中,基于规则的一致性检测方法利用医生整理的疾病诊断规则对病历进行一致性检测。但是,由于规则的制定存在不完善性和主观差异性,导致该检测方法普适性不足,检测准确性欠佳。基于知识图谱等外部知识的一致性检测方法,利用知识图谱等外部结构化知识进行一致性检测,受限于知识图谱等外部知识的完备性和准确性,而知识图谱等外部知识的构建代价高昂,且知识涵盖范围有限,导致该方法难以实施且性能严重受限。
对此,本发明实施例提供了一种病情描述与诊断一致性检测方法。图1为本发明实施例提供的病情描述与诊断一致性检测方法的流程示意图,如图1所示,该方法包括:
步骤110,确定待检测的病历中的病情描述文本和诊断结果。
此处,待检测的病历即需要进行病情描述与诊断一致性检测的病历。待检测的病历可以是电子病历,也可以是纸质病历,可以通过对纸质病历进行光学字符识别OCR得到病历的文本。根据待检测的病历中的各个字段信息,提取病历中的病情描述文本和诊断结果。其中,病情描述文本是指病历中的描述患者病情信息的文本,例如主诉字段的文本和现病史字段的文本,主诉字段的文本描述了病人诉述的主要病情或症状,现病史字段的文本描述了病人的病情发展与演变;诊断结果是指病历中的诊断字段中的文本,反映了医生针对患者病情做出的患者所患疾病的诊断。
步骤120,将病情描述文本和诊断结果输入至一致性检测模型,得到一致性检测模型输出的病历的一致性检测结果;
其中,一致性检测模型是基于样本病历中的样本病情描述文本、样本诊断结果,以及所述样本病历的样本一致性检测结果训练得到的;
一致性检测模型用于基于病情描述文本的病情描述编码,以及诊断结果的诊断疾病编码,多维度分析病情描述编码和诊断疾病编码的相关性,进行一致性检测。
具体地,一致性检测模型首先基于输入的病情描述文本和诊断结果,确定病情描述文本的病情描述编码和诊断结果的诊断疾病编码。此处,病情描述编码用于表征病情描述文本中的病情信息,例如疾病起因、症状等,而诊断疾病编码用于表征诊断结果对应的疾病信息。随即,一致性检测模型从不同维度分析病情描述编码和诊断疾病编码之间的相关性,充分挖掘病情描述编码与诊断疾病编码在不同维度上存在的潜在关联。进而在此基础上进行一致性检测,判断病情描述文本所反映出的病情信息是否与诊断结果相吻合,得到一致性检测结果,此处一致性检测结果用于表示待检测病历中的病情描述文本与诊断结果是否一致。
不同于基于规则或者知识图谱等外部知识的一致性检测方法完全依赖于规则或者知识图谱等外部知识的完备性和准确性,一致性检测模型不引入外部知识,仅对病历中的病情描述文本和诊断结果本身的特征进行挖掘,多维度分析病情描述文本与诊断结果间的相关性,以进行一致性检测,提高了该方法的普适性和准确性。
在执行步骤120之前,还可以预先训练得到一致性检测模型,具体可以通过如下方式训练得到一致性检测模型:首先,收集大量样本病历,确定样本病历中的样本病情描述文本、样本诊断结果,以及样本病历的样本一致性检测结果。随即,基于样本病情描述文本及其对应的样本诊断结果,以及样本一致性检测结果训练初始模型,从而得到一致性检测模型。
本发明实施例提供的方法,通过一致性检测模型多维度分析病情描述文本的病情描述编码和诊断结果的诊断疾病编码之间的相关性,充分挖掘病情描述编码与诊断疾病编码在不同维度上存在的潜在关联,提高了一致性检测方法的普适性及准确性。
基于上述任一实施例,一致性检测模型包括病情描述编码层、诊断疾病编码层和一致性判决层。对应地,图2为本发明实施例提供的一致性检测模型的运行流程示意图,如图2所示,步骤120具体包括:
步骤121,将病情描述文本输入至一致性检测模型的病情描述编码层,得到病情描述编码层输出的病情描述编码。
步骤122,将诊断结果输入至一致性检测模型的诊断疾病编码层,得到诊断疾病编码层输出的诊断疾病编码。
步骤123,将病情描述编码和诊断疾病编码分别输入至一致性检测模型的多维度感知层,得到多维度感知层输出的病情描述编码对应的多个维度的病情描述感知编码,以及诊断疾病编码对应的多个维度的诊断疾病感知编码;
步骤124,将诊断疾病编码、多个维度的病情描述感知编码和多个维度的诊断疾病感知编码输入至一致性检测模型的一致性判决层,得到一致性判决层输出的一致性检测结果。
具体地,病情描述编码层用于基于病情描述文本,确定病情描述文本对应的病情描述编码,诊断疾病编码层用于基于诊断结果,确定诊断结果对应的诊断疾病编码。
多维度感知层用于基于病情描述编码,确定病情描述编码对应的多个维度的病情描述感知编码,并基于诊断疾病编码,确定诊断疾病编码对应的多个维度的诊断疾病感知编码。其中,多维度感知层可以包括多个串联的感知层,不同的感知层用于构建不同维度的信息。多个维度具体可以体现为字符、语法以及语义等维度。任一维度的病情描述感知编码,是病情描述编码在该维度上的矩阵表示;任一维度的诊断疾病感知编码,是诊断疾病编码在该维度上的矩阵表示。
进一步地,可以采用多层CNN(Convolutional Neural Networks,卷积神经网络)模型作为多维度感知层,每一个CNN层相当于一个感知层,本发明实施例对此不作具体限定。
一致性判决层用于基于诊断疾病编码、多个维度的病情描述感知编码和多个维度的诊断疾病感知编码,从不同维度分析病情描述编码和诊断疾病编码之间的相关性,并基于病情描述编码和诊断疾病编码之间的相关性,确定待检测病历的一致性检测结果,并将一致性检测结果输出。
需要说明的是,本发明实施例不对步骤121和步骤122的执行顺序做具体限定,步骤121可以在步骤122之前或之后执行,也可以与步骤122同步执行。
本发明实施例提供的方法,通过多维度感知层获取多个维度的病情描述感知编码和多个维度的诊断疾病感知编码,以供一致性判决层从多个维度分析病情描述文本的病情描述编码和诊断结果的诊断疾病编码之间的相关性,充分挖掘病情描述编码与诊断疾病编码在不同维度上存在的潜在关联,提高了一致性检测方法的普适性及准确性。
基于上述任一实施例,图3为本发明实施例提供的病情描述编码方法的流程示意图,如图3所示,步骤121具体包括:
步骤1211,将病情描述文本中的主诉文本和现病史文本分别输入至病情描述编码层的病情描述表示层,得到病情描述表示层输出的主诉文本的主诉表示和现病史文本的现病史表示。
具体地,病情描述文本中包含主诉字段对应的主诉文本,以及现病史字段对应的现病史文本。病情描述表示层用于基于主诉文本,确定主诉文本的主诉表示,以及基于现病史文本,确定现病史文本的现病史表示。此处,主诉表示是主诉文本中每一个字的表示向量构成的矩阵表示,可以描述主诉文本中包含的病情信息,现病史表示是现病史文本中每一个字的表示向量构成的矩阵表示,可以描述现病史文本中包含的病情信息。其中,任意一个字的表示向量可以是该字的字向量或者该字的上下文表示向量,本发明实施例对此不作具体限定。
可选地,病情描述表示层利用预训练的字向量模型确定主诉文本中每个字的字向量,进而将每个字的字向量组合成矩阵,作为主诉文本的主诉表示,其中,预训练的字向量模型可以是Word2vec模型。病情描述表示层还可以在得到主诉文本中每个字的字向量之后,还获取每个字的上下文信息,得到每个字的上下文表示向量,进而将每个字的上下文表示向量组合成矩阵,作为主诉文本的主诉表示,其中,可以使用BiLSTM模型获取每个字的上下文表示向量。现病史表示的确定方法,与主诉表示的确定方法相同,在此不再赘述。
步骤1212,将主诉表示和现病史表示输入至病情描述编码层的病情描述注意力层,得到病情描述注意力层输出的病情描述编码。
考虑到现病史文本中包含了患者患病前后的全过程,包括病情的起因、发展、演变和治疗等,使得现病史表示中包含的信息多且庞杂,无法定位到其中与患者当前病情相关的关键信息。因此,在病情描述编码层中设置病情描述注意力层,用于基于注意力机制,利用主诉表示筛选出现病史表示中与当前病情相关的关键信息,提高一致性检测模型的性能。
具体地,病情描述注意力层用于将包含患者当前病情信息的主诉表示和现病史表示进行注意力交互,得到主诉表示中任意一个字的表示向量与现病史表示中任意一个字的表示向量之间的相关性,并基于主诉表示中任意一个字的表示向量与现病史表示中任意一个字的表示向量之间的相关性,以及现病史表示,确定病情描述编码。
本发明实施例提供的方法,基于注意力机制,将主诉表示与现病史表示进行注意力交互,筛选出与当前病情相关的关键信息,提高了一致性检测模型的性能。
基于上述任一实施例,图4为本发明实施例提供的诊断疾病编码方法的流程示意图,如图4所示,步骤122具体包括:
步骤1221,将诊断结果和诊断结果对应的疾病知识描述文本分别输入至诊断疾病编码层的疾病表示层,得到疾病表示层输出的诊断结果的诊断疾病表示和疾病知识描述文本的疾病知识表示。
具体地,由于诊断结果中包含的信息十分有限,因此,在诊断结果的基础上,还采用了诊断结果对应的疾病知识描述文本,以扩充诊断结果对应的疾病信息,提高一致性检测模型的性能。此处,疾病知识描述文本中可以包含疾病的主要症状。可选地,可以根据百度百科或医学百科中对应疾病的“临床表现”章节,获取疾病知识描述文本,本发明实施例对此不作具体限定。
疾病表示层用于基于诊断结果,确定诊断结果的诊断疾病表示,同时基于诊断结果对应的疾病知识描述文本,确定疾病知识描述文本的疾病知识表示。此处,诊断疾病表示是诊断结果中每一个字的表示向量构成的矩阵表示,可以描述诊断结果中包含的疾病信息;疾病知识表示是疾病知识描述文本中每一个字的表示向量构成的矩阵表示,可以描述疾病知识描述文本中包含的疾病信息。其中,任意一个字的表示向量可以是该字的字向量或者该字的上下文表示向量,本发明实施例对此不作具体限定。
可选地,利用预训练的字向量模型确定诊断结果中每个字的字向量,进而将每个字的字向量组合成矩阵,作为诊断结果的诊断疾病表示,其中,预训练的字向量模型可以是Word2vec模型。还可以在得到诊断结果中每个字的字向量之后,还获取每个字的上下文信息,得到每个字的上下文表示向量,进而将每个字的上下文表示向量组合成矩阵,作为诊断结果的诊断疾病表示,其中,可以使用BiLSTM模型获取每个字的上下文表示向量。疾病知识表示的确定方法,与诊断疾病表示的确定方法相同,在此不再赘述。
步骤1222,将诊断疾病表示和疾病知识表示输入至诊断疾病编码层的诊断疾病注意力层,得到诊断疾病注意力层输出的诊断疾病编码。
为了将疾病知识描述文本中的疾病信息与诊断结果中的疾病信息相融合,本发明实施例在诊断疾病编码层中设置了诊断疾病注意力层,基于注意力机制,从疾病知识表示中筛选出与诊断疾病表示相关的信息,并与诊断疾病表示相融合,以扩充诊断结果对应的疾病信息。
具体地,诊断疾病注意力层用于对诊断疾病表示和疾病知识表示进行注意力交互,得到诊断疾病表示中任意一个字的表示向量与疾病知识表示中任意一个字的表示向量之间的相关性,并据此从疾病知识表示中筛选出与诊断疾病表示相关的信息,然后将其与诊断疾病表示融合,得到诊断疾病编码。
需要说明的是,疾病知识描述文本在此处仅起辅助作用,通过疾病知识描述文本的应用,可以提高一致性检测模型的性能。一致性检测模型的运行的可实现性并不依赖于疾病知识描述文本。根据实际情况,也可以直接将诊断疾病表示作为诊断疾病编码输出,本发明实施例对此不作具体限定。
本发明实施例提供的方法,通过引入疾病知识描述文本,并基于注意力机制,将诊断结果中的疾病信息以及疾病知识描述文本中与诊断结果相关的疾病信息融合,扩充诊断结果对应的疾病信息,提高了一致性检测模型的性能。
基于上述任一实施例,图5为本发明实施例提供的一致性检测方法的流程示意图,如图5所示,步骤124具体包括:
步骤1241,将每一维度的病情描述感知编码、每一维度的诊断疾病感知编码以及诊断疾病编码输入至一致性判决层的多维度注意力层,得到多维度注意力层输出的病情描述编码和诊断疾病编码之间的相关性表示。
具体地,多维度注意力层用于基于注意力机制,确定在任一维度下,病情描述感知编码和诊断疾病感知编码之间的相关性,并将多个维度下的病情描述感知编码和诊断疾病感知编码之间的相关性融合,得到病情描述编码和诊断疾病编码之间的相关性表示。此处,病情描述编码和诊断疾病编码之间的相关性表示是多个维度下病情描述感知编码和诊断疾病感知编码之间的相关性的矩阵表示。
步骤1242,将病情描述编码和诊断疾病编码之间的相关性表示输入至一致性判决层的结果输出层,得到结果输出层输出的一致性检测结果。
具体地,结果输出层用于基于病情描述编码和诊断疾病编码之间的相关性表示,判断病情描述与诊断是否一致,确定并输出对应的一致性检测结果。
本发明实施例提供的方法,基于注意力机制,多维度分析病情描述编码和诊断疾病编码之间的相关性,并得到病情描述编码和诊断疾病编码之间的相关性表示,进而得到一致性检测结果,充分挖掘了病情描述编码与诊断疾病编码在不同维度上存在的潜在关联,进一步提高了一致性检测方法的准确性。
基于上述任一实施例,图6为本发明实施例提供的多维度相关性表示方法的流程示意图,如图6所示,步骤1241具体包括:
步骤1241-1,将任一维度的病情描述感知编码和诊断疾病感知编码输入至多维度注意力层的单维度注意力层,得到单维度注意力层输出的任一维度的病情描述注意力表示。
具体地,单维度注意力层用于对任一维度的病情描述感知编码和诊断疾病感知编码进行注意力交互,得到反映该维度的病情描述感知编码与诊断疾病感知编码之间相关性的注意力矩阵;然后,基于该维度的注意力矩阵,将该维度的病情描述感知编码,转换成该维度的病情描述注意力表示。
步骤1241-2,将诊断疾病编码,以及每一维度的病情描述注意力表示输入至多维度注意力层的混合相关性表示层,得到混合相关性表示层输出的病情描述编码和诊断疾病编码之间的相关性表示。
具体地,混合相关性表示层用于确定诊断疾病编码与每一维度的病情描述注意力表示之间的相关性,并将其与每一维度的病情描述注意力表示进行融合,得到病情描述编码和诊断疾病编码之间的相关性表示。可选地,可以采用BiLSTM模型将诊断疾病编码与每一维度的病情描述注意力表示之间的相关性,以及每一维度的病情描述注意力表示进行融合。
另外,还可以在将诊断疾病编码与每一维度的病情描述注意力表示之间的相关性,以及每一维度的病情描述注意力表示进行融合后,进行最大值池化和均值池化,将池化后的结果作为病情描述编码和诊断疾病编码之间的相关性表示,以避免融合结果中的某些特异值影响模型性能。
本发明实施例提供的方法,基于注意力机制确定每一维度的病情描述注意力表示,并基于诊断疾病编码与每一维度的病情描述注意力表示之间的相关性,以及每一维度的病情描述注意力表示,得到病情描述编码和诊断疾病编码之间的相关性表示,融合了病情描述编码与诊断疾病编码在不同维度的相关性,提高了一致性检测方法的准确性。
由于存在多种疾病对应的症状非常相似的情况,一个病历中的病情描述对应有多种可能的诊断结果,该病情描述与多种可能的诊断结果之间的一致性检测结果都应当被判定为一致。然而,目前的一致性检测方法,在模型训练时,直接将病历中给出的诊断结果作为样本病情描述文本对应的样本诊断结果,这种训练方式会给模型一个错误信号:除了给出的样本诊断结果以外的其它诊断结果均为错误诊断结果。这个错误信号会使模型出现严重的过拟合问题,导致一致性检测方法的准确性欠佳。
对此,基于上述任一实施例,该方法中,任一样本病历中的样本诊断结果包括多个候选诊断结果和若干个鉴别诊断结果,其中该样本病历中的样本病情描述文本及其对应的每一候选诊断结果所对应的样本一致性检测结果为一致,该样本病历中的样本病情描述文本及其对应的每一鉴别诊断结果所对应的样本一致性检测结果为不一致。
具体地,在训练一致性检测模型时,任意一个样本病历中,样本病情描述文本对应的样本诊断结果包括多个候选诊断结果。此处,该样本病历中的样本病情描述文本及其对应的每一候选诊断结果所对应的样本一致性检测结果为一致。多个候选诊断结果的设置,使整个训练过程更充分,一致性检测模型因而能够充分学习到候选诊断结果之间的共同点,提高一致性检测结果的准确性。
进一步地,为了使一致性检测模型能够更准确地区分正确的诊断结果和错误的诊断结果,以进一步提高一致性检测结果的准确性,该样本病历中的样本诊断结果中还可以包括若干个鉴别诊断结果。此处,该样本病历中的样本病情描述文本及其对应的每一鉴别诊断结果所对应的样本一致性检测结果为不一致。
本发明实施例提供的方法,基于样本病情描述文本及其对应的多个候选诊断结果和若干个鉴别诊断结果对一致性检测模型进行训练,使一致性检测模型能够充分学习到候选诊断结果之间的共同点,以及候选诊断结果与鉴别诊断结果之间的区别,进一步提高了一致性检测方法的准确性。
基于上述任一实施例,该方法中,候选诊断结果是基于该样本病历中的病历诊断结果对应的疾病类簇确定的;疾病类簇是对多个样本病历中的病历诊断结果进行聚类后得到的。
具体地,预先将训练集中的多个样本病历中的病历诊断结果进行聚类,得到多个疾病类簇。此处,病历诊断结果为样本病历中,医生针对患者病情做出的诊断结果。在任一疾病类簇中,任一病历诊断结果对应的症状均与其它的病历诊断结果对应的症状相似。在获取任一样本病历中的样本病情描述文本对应的多个候选诊断结果时,首先获取该样本病历中的病历诊断结果,进而确定该病历诊断结果对应的疾病类簇。该疾病类簇中的每个病历诊断结果都可以作为候选诊断结果,因此可以依据实际需求,从该疾病类簇中选择合适数量的病历诊断结果作为候选诊断结果。
本发明实施例提供的方法,基于聚类得到的各个疾病类簇,得到样本病历中的病历诊断结果对应的疾病类簇,从而获得多个候选诊断结果,为一致性模型的训练过程提供了丰富的训练样本。
基于上述任一实施例,图7为本发明实施例提供的疾病类簇获取方法的流程示意图,如图7所示,疾病类簇是通过如下步骤得到的:
步骤710,确定任一病历诊断结果的若干个重点词。
此处,任一病历诊断结果的若干个重点词是表明该病历诊断结果对应的症状的词。为了获取任一病历诊断结果的重点词,可以首先确定该病历诊断结果对应的样本病情描述文本中每个词的TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆文档频率)值。然后,基于上述每个词的TF-IDF值,筛选TF-IDF值大于预设阈值的词作为该病历诊断结果的重点词;或者可以按TF-IDF值由大到小排列后,选取预设数量个TF-IDF值最大的词作为该病历诊断结果的重点词,本发明对此不作具体限定。
以病历诊断结果“丹毒”为例,对于其对应的样本病情描述文本中的词“红肿”,可以采用如下方式计算“红肿”的TF-IDF值:
其中,#(红肿|丹毒)表示在病历诊断结果为“丹毒”的病历中,“红肿”出现的次数;#(丹毒)表示病历诊断结果为“丹毒”的病历中所有词出现的总次数;N(丹毒)表示病历诊断结果为“丹毒”的病历数量,N(红肿|丹毒)表示病历诊断结果为“丹毒”的病历中,出现“红肿”的病历数量。
步骤720,基于任一病历诊断结果的若干个重点词,确定任一病历诊断结果的疾病向量。
具体地,可以基于该病历诊断结果的所有重点词的TF-IDF值,按照预先构建的词表中的词序,组合成该病历诊断结果的疾病向量。此处,病历诊断结果的疾病向量,可以表征该病历诊断结果对应的症状及其出现的概率。需要说明的是,针对预先构建的词表中不属于该病历诊断结果的重点词的词,疾病向量中的对应位置处为0。预先构建的词表可以是对多个样本病历进行分词、去停用词等预处理后得到的。
步骤730,对每一病历诊断结果的疾病向量进行聚类,得到疾病类簇。
具体地,基于聚类算法对每一病历诊断结果的疾病向量进行聚类,得到疾病类簇。其中,聚类算法可以为K-Means算法、均值漂移聚类算法或基于密度的聚类算法等,本发明实施例对此不作具体限定。聚类完成后,可以加入少量的人工干扰,确保疾病类簇中的各个病历诊断结果的症状是相似的。
本发明实施例提供的方法,基于任一病历诊断结果的重点词,得到该病历诊断结果的疾病向量,并对每一病历诊断结果的疾病向量进行聚类,得到疾病类簇,为候选诊断结果的获取提供了依据。
基于上述任一实施例,鉴别诊断结果是基于该样本病历中的病历诊断结果与其余多个样本病历中的病历诊断结果的疾病向量之间的距离确定的,或基于该样本病历中的病历诊断结果与其余多个样本病历中的病历诊断结果的疾病向量之间的距离以及编辑距离确定的。
具体地,针对于任一样本病历,可以从其余多个样本病历的病历诊断结果中筛选出与该样本病历中的病历诊断结果症状相差较大的病历诊断结果,作为鉴别诊断结果。由于病历诊断结果的疾病向量可以表征该病历诊断结果对应的症状及其出现的概率,因此,基于该样本病历中的病历诊断结果与其余多个样本病历的病历诊断结果的疾病向量之间的距离,筛选出距离大于第一预设阈值的病历诊断结果,或者按照距离从大到小的顺序选取预设数量个距离最大的病历诊断结果,作为鉴别诊断结果。
除此之外,疾病名相似、症状相差较大的病历诊断结果,也可以作为鉴别诊断结果。因此,可以基于该样本病历中的病历诊断结果与其余多个样本病历的病历诊断结果的疾病向量之间的距离,以及该样本病历中的病历诊断结果与其余多个样本病历的病历诊断结果之间的编辑距离,筛选出编辑距离小于第二预设阈值且疾病向量的距离大于第三预设阈值的病历诊断结果,作为鉴别诊断结果。
对于症状表现相似、症状出现的部位不同的病历诊断结果,也可以作为鉴别诊断结果,例如病历诊断结果“上肢烧伤”可以作为病历诊断结果“下肢烧伤”的鉴别诊断结果。因此,可以将病历诊断结果的疾病向量,分割成对应症状表现的症状表现向量,以及对应症状出现部位的部位向量。然后,基于样本病历中的病历诊断结果的症状表现向量和部位向量,与其余每一病历诊断结果的症状表现向量和部位向量,分别计算症状表现向量的距离和部位向量的距离,筛选出症状表现向量的距离小于第四预设阈值且部位向量的距离大于第五预设阈值的病历诊断结果,作为鉴别诊断结果。
此外,还可以根据实际需要人工设计鉴别诊断结果,例如将易于混淆的病历诊断结果作为鉴别诊断结果;或者从样本病历中的病历诊断结果以外的其余多个样本病历的病历诊断结果中随机选择预设数量个病历诊断结果,作为鉴别诊断结果,本发明实施例对此不作具体限定。
本发明实施例提供的方法,通过计算病历诊断结果的疾病向量间的距离,或者病历诊断结果的疾病向量间的距离以及编辑距离,确定鉴别诊断结果,为一致性模型的训练过程提供了丰富的训练样本。
基于上述任一实施例,本发明又一实施例提供了一种病情描述与诊断一致性检测方法,该方法包括:
首先,将病情描述文本中的主诉文本和现病史文本分别输入至病情描述表示层,得到病情描述表示层输出的主诉文本的主诉表示和现病史文本的现病史表示。
此处,利用预训练的字向量模型确定主诉文本和现病史文本中每个字的字向量,得到主诉文本中每个字的字向量组合而成的矩阵和现病史文本中每个字的字向量组合而成的矩阵/>且/>其中s为主诉文本中的字数,h为现病史文本中的字数,e为字向量的长度。然后利用BiLSTM模型获取主诉文本和现病史文本中每个字的上下文表示向量,得到主诉文本的主诉表示和现病史文本的现病史表示:
其中,Es是主诉表示,Eh是现病史表示,且Es∈Rs×e,Eh∈Rh×e。
然后将主诉表示和现病史表示输入至病情描述注意力层,得到病情描述注意力层输出的病情描述编码。
可以采用如下方式得到病情描述编码:
其中,是一致性检测模型中的参数,且/>softmaxrow()指行进行softmax函数变换,计算得到的Em是病情描述编码,且Em∈Rs×e。
与此同时,将诊断结果和诊断结果对应的疾病知识描述文本分别输入至疾病表示层,得到疾病表示层输出的诊断结果的诊断疾病表示和疾病知识描述文本的疾病知识表示。
此处,利用预训练的字向量模型确定诊断结果和疾病知识描述文本中每个字的字向量,得到诊断结果中每个字的字向量组合而成的矩阵和疾病知识描述文本中每个字的字向量组合而成的矩阵/>且/>其中n为诊断结果中的字数,k为疾病知识描述文本中的字数,e为字向量的长度。再利用BiLSTM模型获取诊断结果和疾病知识描述文本中每个字的上下文表示向量,得到诊断结果的诊断疾病表示和疾病知识描述文本的疾病知识表示:
其中,En是诊断疾病表示,Ek是疾病知识表示,且En∈Rn×e,Ek∈Rk×e。
然后,将诊断疾病表示和疾病知识表示输入至诊断疾病注意力层,得到诊断疾病注意力层输出的诊断疾病编码。
可以采用如下方式得到诊断疾病编码:
其中,是一致性检测模型中的参数,且/>计算得到的Ed是诊断疾病编码,且Ed∈Rn×e。
得到病情描述编码和诊断疾病编码后,将病情描述编码和诊断疾病编码分别输入至多维度感知层,得到多维度感知层输出的病情描述编码对应的多个维度的病情描述感知编码,以及诊断疾病编码对应的多个维度的诊断疾病感知编码。
可以采用多层CNN(Convolutional Neural Networks,卷积神经网络)模型作为多维度感知层,每一个CNN层相当于一个感知层,本发明实施例对此不作具体限定。例如,可以采用如下方式得到每一维度的病情描述感知编码和诊断疾病感知编码:
其中,0≤l≤p,p为多维度感知层包含的感知层个数; 是第l个感知层输出的第l个维度的病情描述感知编码,/>是第l个感知层输出的第l个维度的诊断疾病感知编码,且/>
随即,将任一维度的病情描述感知编码和诊断疾病感知编码输入至单维度注意力层,得到单维度注意力层输出的任一维度的病情描述注意力表示。
可以采用如下方式获得任一维度的病情描述注意力表示:
其中,Al为第l个维度的注意力矩阵,且Al∈Rh×n;softmaxcol()指按列进行softmax函数变换,Wa是一致性检测模型中的参数,且Wa∈Re×e;为第l个维度的病情描述注意力表示,且/>
然后,将诊断疾病编码,以及每一维度的病情描述注意力表示输入至混合相关性表示层,得到混合相关性表示层输出的病情描述编码和诊断疾病编码之间的相关性表示。
可以利用BiLSTM模型将诊断疾病编码与每一维度的病情描述注意力表示之间的相关性,以及每一维度的病情描述注意力表示进行融合:
其中,为融合后的结果;运算符*为按元素相乘。
在此基础上,对进行最大值池化和均值池化,得到病情描述编码和诊断疾病编码之间的相关性表示:
其中,H为病情描述编码和诊断疾病编码之间的相关性表示,且H∈R1×2e;meancol()指按列取平均值,maxcol()指按列取最大值。
最后,将病情描述编码和诊断疾病编码之间的相关性表示输入至结果输出层,得到结果输出层输出的一致性检测结果。
可以采用如下方式获得病情描述编码和诊断疾病编码之间的一致性得分:
X=Relu(HW1+b1)
其中,为病情描述编码和诊断疾病编码之间的一致性得分,W1、b1、W2和b2均为一致性检测模型的参数,且W1∈R2e×e,b1∈R1×e,W2∈Re×1,b2∈R1。
基于病情描述编码和诊断疾病编码之间的一致性得分,确定一致性检测结果。
进一步地,一致性检测模型在训练时,可以采用如下损失函数:
其中,n为训练的样本总数,表示一致性检测模型确定的样本病情描述文本与其对应的候选诊断结果之间的一致性得分,/>表示一致性检测模型确定的该样本病情描述文本与其对应的鉴别诊断结果之间的一致性得分。margin是边界值,/>表示L2正则化损失函数,λ为一个系数。
训练过程中,一致性检测模型确定的样本病情描述文本与其对应的候选诊断结果之间的一致性得分,始终高于该样本病情描述文本与其对应的鉴别诊断结果之间的一致性得分,且得分之间的差值逐渐拉大到margin对应的值。因此,训练完成后的一致性检测模型,可以更好地区分鉴别诊断结果和候选诊断结果,提高了一致性检测模型的性能。
基于上述任一实施例,图8为本发明实施例提供的病情描述与诊断一致性检测装置的结构示意图,如图8所示,该装置包括确定单元810和一致性检测单元820。
其中,确定单元810用于确定待检测的病历中的病情描述文本和诊断结果;
一致性检测单元820用于将病情描述文本和诊断结果输入至一致性检测模型,得到一致性检测模型输出的病历的一致性检测结果;
其中,一致性检测模型是基于样本病历中的样本病情描述文本、样本诊断结果,以及所述样本病历的样本一致性检测结果训练得到的;
一致性检测模型用于基于病情描述文本的病情描述编码,以及诊断结果的诊断疾病编码,多维度分析病情描述编码和诊断疾病编码的相关性,进行一致性检测。
本发明实施例提供的装置,通过一致性检测模型多维度分析病情描述文本的病情描述编码和诊断结果的诊断疾病编码之间的相关性,充分挖掘病情描述编码与诊断疾病编码在不同维度上存在的潜在关联,提高了一致性检测方法的普适性及准确性。
基于上述任一实施例,一致性检测单元820具体包括:
病情描述编码单元,用于将病情描述文本输入至一致性检测模型的病情描述编码层,得到病情描述编码层输出的病情描述编码;
诊断疾病编码单元,用于将诊断结果输入至一致性检测模型的诊断疾病编码层,得到诊断疾病编码层输出的诊断疾病编码;
多维度感知单元,用于将病情描述编码和诊断疾病编码分别输入至一致性检测模型的多维度感知层,得到多维度感知层输出的病情描述编码对应的多个维度的病情描述感知编码,以及诊断疾病编码对应的多个维度的诊断疾病感知编码;
一致性判决单元,用于将诊断疾病编码、多个维度的病情描述感知编码和多个维度的诊断疾病感知编码输入至一致性检测模型的一致性判决层,得到一致性判决层输出的一致性检测结果。
本发明实施例提供的装置,通过多维度感知层获取多个维度的病情描述感知编码和多个维度的诊断疾病感知编码,以供一致性判决层从多个维度分析病情描述文本的病情描述编码和诊断结果的诊断疾病编码之间的相关性,充分挖掘病情描述编码与诊断疾病编码在不同维度上存在的潜在关联,提高了一致性检测方法的普适性及准确性。
基于上述任一实施例,病情描述编码单元具体用于:
将病情描述文本中的主诉文本和现病史文本分别输入至病情描述编码层的病情描述表示层,得到病情描述表示层输出的主诉文本的主诉表示和现病史文本的现病史表示;
将主诉表示和现病史表示输入至病情描述编码层的病情描述注意力层,得到病情描述注意力层输出的病情描述编码。
本发明实施例提供的装置,基于注意力机制,将主诉表示与现病史表示进行注意力交互,筛选出与当前病情相关的关键信息,提高了一致性检测模型的性能。
基于上述任一实施例,诊断疾病编码单元具体用于:
将诊断结果和诊断结果对应的疾病知识描述文本分别输入至诊断疾病编码层的疾病表示层,得到疾病表示层输出的诊断结果的诊断疾病表示和疾病知识描述文本的疾病知识表示;
将诊断疾病表示和疾病知识表示输入至诊断疾病编码层的诊断疾病注意力层,得到诊断疾病注意力层输出的诊断疾病编码。
本发明实施例提供的装置,通过引入疾病知识描述文本,并基于注意力机制,将诊断结果中的疾病信息以及疾病知识描述文本中与诊断结果相关的疾病信息融合,扩充诊断结果对应的疾病信息,提高了一致性检测模型的性能。
基于上述任一实施例,一致性判决单元具体包括:
相关性表示单元,用于将每一维度的病情描述感知编码、每一维度的诊断疾病感知编码以及诊断疾病编码输入至一致性判决层的多维度注意力层,得到多维度注意力层输出的病情描述编码和诊断疾病编码之间的相关性表示;
结果输出单元,用于将病情描述编码和诊断疾病编码之间的相关性表示输入至一致性判决层的结果输出层,得到结果输出层输出的一致性检测结果。
本发明实施例提供的装置,基于多维度感知层提取多维度的病情描述感知编码和诊断疾病感知编码,并基于注意力机制得到病情描述编码和诊断疾病编码之间的相关性表示,进而得到一致性检测结果,充分挖掘了病情描述编码与诊断疾病编码在不同维度上存在的潜在关联,进一步提高了一致性检测方法的准确性。
基于上述任一实施例,相关性表示单元具体用于:
将任一维度的病情描述感知编码和诊断疾病感知编码输入至多维度注意力层的单维度注意力层,得到单维度注意力层输出的任一维度的病情描述注意力表示;
将诊断疾病编码,以及每一维度的病情描述注意力表示输入至多维度注意力层的混合相关性表示层,得到混合相关性表示层输出的病情描述编码和诊断疾病编码之间的相关性表示。
本发明实施例提供的装置,基于注意力机制确定每一维度的病情描述注意力表示,并基于诊断疾病编码与每一维度的病情描述注意力表示之间的相关性,以及每一维度的病情描述注意力表示,得到病情描述编码和诊断疾病编码之间的相关性表示,融合了病情描述编码与诊断疾病编码在不同维度的相关性,提高了一致性检测方法的准确性。
基于上述任一实施例,该装置中,任一样本病历中的样本诊断结果包括多个候选诊断结果和若干个鉴别诊断结果,其中该样本病历中的样本病情描述文本及其对应的每一候选诊断结果所对应的样本一致性检测结果为一致,该样本病历中的样本病情描述文本及其对应的每一鉴别诊断结果所对应的样本一致性检测结果为不一致。
本发明实施例提供的装置,基于样本病情描述文本及其对应的多个候选诊断结果和若干个鉴别诊断结果对一致性检测模型进行训练,使一致性检测模型能够充分学习到候选诊断结果之间的共同点,以及候选诊断结果与鉴别诊断结果之间的区别,进一步提高了一致性检测方法的准确性。
基于上述任一实施例,该装置中,候选诊断结果是基于该样本病历中的病历诊断结果对应的疾病类簇确定的;疾病类簇是对多个样本病历中的病历诊断结果进行聚类后得到的。
本发明实施例提供的装置,基于聚类得到的各个疾病类簇,得到样本病历中的病历诊断结果对应的疾病类簇,从而获得多个候选诊断结果,为一致性模型的训练过程提供了丰富的训练样本。
基于上述任一实施例,该装置中,疾病类簇是通过如下步骤得到的:
确定任一病历诊断结果的若干个重点词;
基于任一病历诊断结果的若干个重点词,确定任一病历诊断结果的疾病向量;
对每一病历诊断结果的疾病向量进行聚类,得到疾病类簇。
本发明实施例提供的装置,基于任一病历诊断结果的重点词,得到该病历诊断结果的疾病向量,并对每一病历诊断结果的疾病向量进行聚类,得到疾病类簇,为候选诊断结果的获取提供了依据。
基于上述任一实施例,该装置中,鉴别诊断结果是基于该样本病历中的病历诊断结果与其余多个样本病历中的病历诊断结果的疾病向量之间的距离确定的,或基于该样本病历中的病历诊断结果与其余多个样本病历中的病历诊断结果的疾病向量之间的距离以及编辑距离确定的。
本发明实施例提供的装置,通过计算病历诊断结果的疾病向量间的距离,或者病历诊断结果的疾病向量间的距离以及编辑距离,确定鉴别诊断结果,为一致性模型的训练过程提供了丰富的训练样本。
图9为本发明实施例提供的电子设备的结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑命令,以执行如下方法:确定待检测的病历中的病情描述文本和诊断结果;将所述病情描述文本和诊断结果输入至一致性检测模型,得到所述一致性检测模型输出的所述病历的一致性检测结果;其中,所述一致性检测模型是基于样本病历中的样本病情描述文本、样本诊断结果,以及所述样本病历的样本一致性检测结果训练得到的;所述一致性检测模型用于基于病情描述文本的病情描述编码,以及诊断结果的诊断疾病编码,多维度分析病情描述编码和诊断疾病编码的相关性,进行一致性检测。
此外,上述的存储器930中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:确定待检测的病历中的病情描述文本和诊断结果;将所述病情描述文本和诊断结果输入至一致性检测模型,得到所述一致性检测模型输出的所述病历的一致性检测结果;其中,所述一致性检测模型是基于样本病历中的样本病情描述文本、样本诊断结果以及所述样本病历的样本一致性检测结果训练得到的;所述一致性检测模型用于基于病情描述文本的病情描述编码,以及诊断结果的诊断疾病编码,多维度分析病情描述编码和诊断疾病编码的相关性,进行一致性检测。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (12)
1.一种病情描述与诊断一致性检测方法,其特征在于,包括:
确定待检测的病历中的病情描述文本和诊断结果;
将所述病情描述文本和诊断结果输入至一致性检测模型,得到所述一致性检测模型输出的所述病历的一致性检测结果;
其中,所述一致性检测模型是基于样本病历中的样本病情描述文本、样本诊断结果,以及所述样本病历的样本一致性检测结果训练得到的;
所述一致性检测模型用于基于所述病情描述文本的病情描述编码,以及所述诊断结果的诊断疾病编码,多维度分析所述病情描述编码和所述诊断疾病编码的相关性,进行一致性检测;
任一样本病历中的样本诊断结果包括多个候选诊断结果和若干个鉴别诊断结果,其中所述任一样本病历中的样本病情描述文本及其对应的每一候选诊断结果所对应的样本一致性检测结果为一致,所述任一样本病历中的样本病情描述文本及其对应的每一鉴别诊断结果所对应的样本一致性检测结果为不一致。
2.根据权利要求1所述的病情描述与诊断一致性检测方法,其特征在于,所述将所述病情描述文本和诊断结果输入至一致性检测模型,得到所述一致性检测模型输出的所述病历的一致性检测结果,具体包括:
将所述病情描述文本输入至所述一致性检测模型的病情描述编码层,得到所述病情描述编码层输出的病情描述编码;
将所述诊断结果输入至所述一致性检测模型的诊断疾病编码层,得到所述诊断疾病编码层输出的诊断疾病编码;
将所述病情描述编码和所述诊断疾病编码分别输入至所述一致性检测模型的多维度感知层,得到所述多维度感知层输出的所述病情描述编码对应的多个维度的病情描述感知编码,以及所述诊断疾病编码对应的多个维度的诊断疾病感知编码;
将所述诊断疾病编码、所述多个维度的病情描述感知编码和所述多个维度的诊断疾病感知编码输入至所述一致性检测模型的一致性判决层,得到所述一致性判决层输出的所述一致性检测结果。
3.根据权利要求2所述的病情描述与诊断一致性检测方法,其特征在于,所述将所述病情描述文本输入至所述一致性检测模型的病情描述编码层,得到所述病情描述编码层输出的病情描述编码,具体包括:
将所述病情描述文本中的主诉文本和现病史文本分别输入至所述病情描述编码层的病情描述表示层,得到所述病情描述表示层输出的所述主诉文本的主诉表示和所述现病史文本的现病史表示;
将所述主诉表示和所述现病史表示输入至所述病情描述编码层的病情描述注意力层,得到所述病情描述注意力层输出的所述病情描述编码。
4.根据权利要求2所述的病情描述与诊断一致性检测方法,其特征在于,所述将所述诊断结果输入至所述一致性检测模型的诊断疾病编码层,得到所述诊断疾病编码层输出的诊断疾病编码,具体包括:
将所述诊断结果和所述诊断结果对应的疾病知识描述文本分别输入至所述诊断疾病编码层的疾病表示层,得到所述疾病表示层输出的所述诊断结果的诊断疾病表示和所述疾病知识描述文本的疾病知识表示;
将所述诊断疾病表示和所述疾病知识表示输入至所述诊断疾病编码层的诊断疾病注意力层,得到所述诊断疾病注意力层输出的所述诊断疾病编码。
5.根据权利要求2所述的病情描述与诊断一致性检测方法,其特征在于,所述将所述诊断疾病编码、所述多个维度的病情描述感知编码和所述多个维度的诊断疾病感知编码输入至所述一致性检测模型的一致性判决层,得到所述一致性判决层输出的所述一致性检测结果,具体包括:
将每一维度的病情描述感知编码、每一维度的诊断疾病感知编码以及所述诊断疾病编码输入至所述一致性判决层的多维度注意力层,得到所述多维度注意力层输出的所述病情描述编码和所述诊断疾病编码之间的相关性表示;
将所述病情描述编码和所述诊断疾病编码之间的相关性表示输入至所述一致性判决层的结果输出层,得到所述结果输出层输出的所述一致性检测结果。
6.根据权利要求5所述的病情描述与诊断一致性检测方法,其特征在于,所述将每一维度的病情描述感知编码、每一维度的诊断疾病感知编码以及所述诊断疾病编码输入至所述一致性判决层的多维度注意力层,得到所述多维度注意力层输出的所述病情描述编码和所述诊断疾病编码之间的相关性表示,具体包括:
将任一维度的病情描述感知编码和诊断疾病感知编码输入至所述多维度注意力层的单维度注意力层,得到所述单维度注意力层输出的所述任一维度的病情描述注意力表示;
将所述诊断疾病编码,以及每一维度的病情描述注意力表示输入至所述多维度注意力层的混合相关性表示层,得到所述混合相关性表示层输出的所述病情描述编码和所述诊断疾病编码之间的相关性表示。
7.根据权利要求1所述的病情描述与诊断一致性检测方法,其特征在于,所述候选诊断结果是基于所述任一样本病历中的病历诊断结果对应的疾病类簇确定的;所述疾病类簇是对多个样本病历中的病历诊断结果进行聚类后得到的。
8.根据权利要求7所述的病情描述与诊断一致性检测方法,其特征在于,所述疾病类簇是通过如下步骤得到的:
确定任一病历诊断结果的若干个重点词;
基于所述任一病历诊断结果的若干个重点词,确定所述任一病历诊断结果的疾病向量;
对每一病历诊断结果的疾病向量进行聚类,得到所述疾病类簇。
9.根据权利要求8所述的病情描述与诊断一致性检测方法,其特征在于,所述鉴别诊断结果是基于所述任一样本病历中的病历诊断结果与其余多个样本病历中的病历诊断结果的疾病向量之间的距离确定的,或基于所述任一样本病历中的病历诊断结果与其余多个样本病历中的病历诊断结果的疾病向量之间的距离以及编辑距离确定的。
10.一种病情描述与诊断一致性检测装置,其特征在于,包括:
确定单元,用于确定待检测的病历中的病情描述文本和诊断结果;
一致性检测单元,用于将所述病情描述文本和诊断结果输入至一致性检测模型,得到所述一致性检测模型输出的所述病历的一致性检测结果;
其中,所述一致性检测模型是基于样本病历中的样本病情描述文本、样本诊断结果,以及所述样本病历的样本一致性检测结果训练得到的;
所述一致性检测模型用于基于所述病情描述文本的病情描述编码,以及所述诊断结果的诊断疾病编码,多维度分析所述病情描述编码和所述诊断疾病编码的相关性,进行一致性检测;
任一样本病历中的样本诊断结果包括多个候选诊断结果和若干个鉴别诊断结果,其中所述任一样本病历中的样本病情描述文本及其对应的每一候选诊断结果所对应的样本一致性检测结果为一致,所述任一样本病历中的样本病情描述文本及其对应的每一鉴别诊断结果所对应的样本一致性检测结果为不一致。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至9中任一项所述的病情描述与诊断一致性检测方法的步骤。
12.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至9中任一项所述的病情描述与诊断一致性检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010213728.8A CN111402979B (zh) | 2020-03-24 | 2020-03-24 | 病情描述与诊断一致性检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010213728.8A CN111402979B (zh) | 2020-03-24 | 2020-03-24 | 病情描述与诊断一致性检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111402979A CN111402979A (zh) | 2020-07-10 |
CN111402979B true CN111402979B (zh) | 2024-05-31 |
Family
ID=71429061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010213728.8A Active CN111402979B (zh) | 2020-03-24 | 2020-03-24 | 病情描述与诊断一致性检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111402979B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832298B (zh) * | 2020-07-14 | 2024-03-01 | 北京百度网讯科技有限公司 | 病历的质检方法、装置、设备以及存储介质 |
CN111883251A (zh) * | 2020-07-28 | 2020-11-03 | 平安科技(深圳)有限公司 | 医疗误诊检测方法、装置、电子设备及存储介质 |
CN112037909B (zh) * | 2020-08-31 | 2023-08-01 | 康键信息技术(深圳)有限公司 | 诊断信息复核系统 |
CN111883222B (zh) * | 2020-09-28 | 2020-12-22 | 平安科技(深圳)有限公司 | 文本数据的错误检测方法、装置、终端设备及存储介质 |
CN112148882B (zh) * | 2020-11-27 | 2021-09-10 | 北京惠及智医科技有限公司 | 病历文本处理方法、装置、电子设备及存储介质 |
CN112542244B (zh) * | 2020-12-09 | 2023-07-18 | 北京百度网讯科技有限公司 | 辅助信息的生成方法、相关装置及计算机程序产品 |
CN112489740B (zh) * | 2020-12-17 | 2024-08-20 | 北京惠及智医科技有限公司 | 病历检测方法及相关模型的训练方法和相关设备、装置 |
CN112820367B (zh) * | 2021-01-11 | 2023-06-30 | 平安科技(深圳)有限公司 | 病历信息校验方法、装置、计算机设备及存储介质 |
CN113096756B (zh) * | 2021-04-26 | 2023-12-22 | 讯飞医疗科技股份有限公司 | 病情演变分类方法、装置、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103637795A (zh) * | 2013-12-30 | 2014-03-19 | 中国人民解放军总医院 | 心电图机自动诊断功能检测方法 |
CN109003677A (zh) * | 2018-06-11 | 2018-12-14 | 清华大学 | 病历数据结构化分析处理方法 |
CN109065157A (zh) * | 2018-08-01 | 2018-12-21 | 中国人民解放军第二军医大学 | 一种疾病诊断标准化编码推荐列表确定方法及系统 |
CN109214002A (zh) * | 2018-08-27 | 2019-01-15 | 成都四方伟业软件股份有限公司 | 一种文本对比方法、装置及其计算机存储介质 |
CN110019820A (zh) * | 2019-03-28 | 2019-07-16 | 云知声(上海)智能科技有限公司 | 一种病历中主诉与现病史症状时间一致性检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190221310A1 (en) * | 2018-01-16 | 2019-07-18 | James Stewart Bates | System and method for automated diagnosis and treatment |
-
2020
- 2020-03-24 CN CN202010213728.8A patent/CN111402979B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103637795A (zh) * | 2013-12-30 | 2014-03-19 | 中国人民解放军总医院 | 心电图机自动诊断功能检测方法 |
CN109003677A (zh) * | 2018-06-11 | 2018-12-14 | 清华大学 | 病历数据结构化分析处理方法 |
CN109065157A (zh) * | 2018-08-01 | 2018-12-21 | 中国人民解放军第二军医大学 | 一种疾病诊断标准化编码推荐列表确定方法及系统 |
CN109214002A (zh) * | 2018-08-27 | 2019-01-15 | 成都四方伟业软件股份有限公司 | 一种文本对比方法、装置及其计算机存储介质 |
CN110019820A (zh) * | 2019-03-28 | 2019-07-16 | 云知声(上海)智能科技有限公司 | 一种病历中主诉与现病史症状时间一致性检测方法 |
Non-Patent Citations (1)
Title |
---|
基于电子病历数据处理方法研究;余艳霞 等;数字技术与应用;第36卷(第08期);第35-38页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111402979A (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111402979B (zh) | 病情描述与诊断一致性检测方法及装置 | |
CN111613339B (zh) | 一种基于深度学习的相似病历查找方法与系统 | |
KR102153920B1 (ko) | 정제된 인공지능 강화학습 데이터 생성을 통한 의료영상 판독 시스템 및 그 방법 | |
CN107516110B (zh) | 一种基于集成卷积编码的医疗问答语义聚类方法 | |
CN110109835B (zh) | 一种基于深度神经网络的软件缺陷定位方法 | |
CN112256828B (zh) | 医学实体关系抽取方法、装置、计算机设备及可读存储介质 | |
CN112635011A (zh) | 疾病诊断方法、疾病诊断系统和可读存储介质 | |
CN113886716B (zh) | 食品安全突发事件的应急处置推荐方法及系统 | |
CN111028934A (zh) | 诊断质检方法、装置、电子设备和存储介质 | |
CN110277167A (zh) | 基于知识图谱的慢性非传染性疾病风险预测系统 | |
CN112541066B (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
WO2022227203A1 (zh) | 基于对话表征的分诊方法、装置、设备及存储介质 | |
WO2023160264A1 (zh) | 医疗数据处理方法、装置及存储介质 | |
CN113764112A (zh) | 一种在线医疗问答方法 | |
WO2021008601A1 (zh) | 一种医学数据的检验方法 | |
CN108595432B (zh) | 医疗文书纠错方法 | |
CN113779996A (zh) | 基于BiLSTM模型的标准实体文本确定方法、装置及存储介质 | |
CN113836321B (zh) | 一种医学知识表示的生成方法和装置 | |
CN111540470A (zh) | 一种基于bert迁移学习的社交网络抑郁倾向检测模型及其训练方法 | |
CN113096756B (zh) | 病情演变分类方法、装置、电子设备和存储介质 | |
CN111627561B (zh) | 标准症状抽取方法、装置、电子设备和存储介质 | |
CN116403706A (zh) | 一种融合知识扩展和卷积神经网络的糖尿病预测方法 | |
CN116994689A (zh) | 医疗数据的特征化处理方法、装置、设备、介质及产品 | |
CN114970727A (zh) | 多标签文本分类方法、系统及计算机设备 | |
CN114429822A (zh) | 病历质检方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |