CN117995392B - 鉴别诊断生成方法、装置、电子设备及存储介质 - Google Patents
鉴别诊断生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117995392B CN117995392B CN202410407074.0A CN202410407074A CN117995392B CN 117995392 B CN117995392 B CN 117995392B CN 202410407074 A CN202410407074 A CN 202410407074A CN 117995392 B CN117995392 B CN 117995392B
- Authority
- CN
- China
- Prior art keywords
- differential diagnosis
- record information
- diagnosis
- knowledge base
- course record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003748 differential diagnosis Methods 0.000 title claims abstract description 416
- 238000000034 method Methods 0.000 title claims abstract description 103
- 238000003745 diagnosis Methods 0.000 claims abstract description 138
- 238000004364 calculation method Methods 0.000 claims abstract description 40
- 238000007781 pre-processing Methods 0.000 claims abstract description 24
- 201000010099 disease Diseases 0.000 claims description 51
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 51
- 238000012549 training Methods 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 37
- 238000004590 computer program Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000009411 base construction Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 8
- 206010008479 Chest Pain Diseases 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 208000024891 symptom Diseases 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 4
- 208000004998 Abdominal Pain Diseases 0.000 description 3
- 208000000059 Dyspnea Diseases 0.000 description 3
- 206010013975 Dyspnoeas Diseases 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 206010000060 Abdominal distension Diseases 0.000 description 2
- 206010047700 Vomiting Diseases 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000008673 vomiting Effects 0.000 description 2
- 208000004476 Acute Coronary Syndrome Diseases 0.000 description 1
- 206010002383 Angina Pectoris Diseases 0.000 description 1
- 208000035143 Bacterial infection Diseases 0.000 description 1
- 206010011224 Cough Diseases 0.000 description 1
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 1
- 206010015137 Eructation Diseases 0.000 description 1
- 208000005577 Gastroenteritis Diseases 0.000 description 1
- 208000000616 Hemoptysis Diseases 0.000 description 1
- 208000008454 Hyperhidrosis Diseases 0.000 description 1
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 1
- 206010033557 Palpitations Diseases 0.000 description 1
- 208000010378 Pulmonary Embolism Diseases 0.000 description 1
- 208000036142 Viral infection Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 208000012873 acute gastroenteritis Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 208000022362 bacterial infectious disease Diseases 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000013872 defecation Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 201000006549 dyspepsia Diseases 0.000 description 1
- 238000002565 electrocardiography Methods 0.000 description 1
- 230000002255 enzymatic effect Effects 0.000 description 1
- 230000005713 exacerbation Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 208000021302 gastroesophageal reflux disease Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002107 myocardial effect Effects 0.000 description 1
- 208000031225 myocardial ischemia Diseases 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035900 sweating Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及鉴别诊断生成方法、装置、电子设备及存储介质,包括:对首次病程记录信息进行预处理,构建基于首次病程记录信息的第一鉴别诊断知识库。对当前病程记录信息进行相似度匹配计算,获取与当前病程记录信息之间相似度超过第一阈值的第一鉴别诊断结果。调用BERT模型将第一鉴别诊断结果标准化至标准诊断中,调用BERT模型将第二鉴别诊断结果映射至标准诊断中。对ChatGLM‑6B大模型进行预训练,并通过医疗知识图谱对ChatGLM‑6B大模型进行微调,得到医疗大模型。将当前病程记录信息作为医疗大模型输入,基于模型输出数据构建提示对话框,以根据提示对话框中的prompt模板生成第三鉴别诊断结果。
Description
技术领域
本发明涉及医疗辅助技术领域,特别是涉及一种鉴别诊断生成方法、装置、电子设备及存储介质。
背景技术
在临床医学上,疾病类型是千变万化的,症状表现也是错综复杂的,只有对病情进行综合分析和比较,才能对不同病症出现的相同症状加以鉴别,以探求疾病的本质,确定疾病的诊断结果。因此,鉴别诊断对于正确诊断疾病、制定合理的治疗方案以及预测疾病的预后具有重要意义。
目前,针对疾病鉴别自动生成的方法主要基于深度学习的seq2seq实现,seq2seq是编码器-解码器架构,通常编码器采用BiLSTM,解码器采用LSTM,二者均可以使用多层架构,通过构建文本上下文-鉴别诊断对的训练集,训练seq2seq的模型完成鉴别诊断的自动生成。一方面,该方法只能通过文本生成的方式得到鉴别诊断会使得生成的质量难以有效控制。实际上,临床病历文书书写过程中会积累大量的诊断-鉴别诊断库,现有的方法没有很好地利用这些静态知识库,且难以兼顾相似的病历通常具有相似的鉴别诊断这一情况,导致鉴别诊断的生成方式较为单一。另一方面,该方法由于编码器和解码器的模型容量较小,模型对训练数据的理解能力不到位,导致在文本生成的时候,较容易出现生成的文本不连贯、语义重复,进而出现逻辑性错误以及关键信息丢失,导致鉴别诊断的生成效果不符合预期。此外,该方法给定对话流程,在预测时,输入端要经过编码器的编码以及解码器的解码,由于是逐字的生成方式,导致实际应用时的推理效率较低,降低了实用性。
综上所述,现有的疾病鉴别自动生成方法鉴别诊断的生成方式较为单一,易导致鉴别诊断的生成效果不符合预期,且鉴别诊断的生成效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够保证鉴别诊断生成的多样性以及鉴别诊断的生成效果,且生成效率较高的鉴别诊断生成方法、装置、电子设备及存储介质。
本发明提供了一种鉴别诊断生成方法,所述方法包括:
获取历史病程记录信息中的首次病程记录信息,并对所述首次病程记录信息进行预处理,以构建基于所述首次病程记录信息的第一鉴别诊断知识库;
基于所述第一鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取所述第一鉴别诊断知识库中与所述当前病程记录信息之间的相似度超过第一阈值的第一鉴别诊断结果;
调用BERT模型将所述第一鉴别诊断结果标准化至标准诊断中,以构建第二鉴别诊断知识库,并调用所述BERT模型将所述第二鉴别诊断知识库中第二鉴别诊断结果映射至所述标准诊断中;
以所述历史病程记录信息作为ChatGLM-6B大模型的输入,以所述第一鉴别诊断结果和第二鉴别诊断结果作为ChatGLM-6B大模型的输出,对所述ChatGLM-6B大模型进行预训练,并通过医疗知识图谱构建训练数据集对预训练后的所述ChatGLM-6B大模型进行微调,得到医疗大模型;
将所述当前病程记录信息作为所述医疗大模型输入,以获取所述医疗大模型的模型输出数据,基于所述模型输出数据构建提示对话框,以根据所述提示对话框中的prompt模板生成第三鉴别诊断结果。
在其中一个实施例中,所述获取历史病程记录信息中的首次病程记录信息,并对所述首次病程记录信息进行预处理,以构建基于所述首次病程记录信息的第一鉴别诊断知识库,包括:
基于对所述首次病程记录信息进行预处理,将所述首次病程记录信息中的全部字符转化为半角字符;
去除所述首次病程记录信息中的无用字符,并将所述首次病程记录信息中的字母信息全部转为符合所述第一鉴别诊断知识库格式要求的字母信息。
在其中一个实施例中,所述基于所述第一鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取所述第一鉴别诊断知识库中与所述当前病程记录信息之间的相似度超过第一阈值的第一鉴别诊断结果,之前包括:
调用TF-IDF算法计算所述第一鉴别诊断知识库中的每条鉴别诊断数据与所述当前病程记录信息之间的TF-IDF值,其中,所述第一鉴别诊断知识库中的每条鉴别诊断数据中包括多个鉴别诊断结果;
按照所述TF-IDF值对所述每条鉴别诊断数据中的多个鉴别诊断结果进行排序,以获取多个排名不低于第二阈值的鉴别诊断结果;
将所述TF-IDF值赋予每个所述排名不低于第二阈值的鉴别诊断结果,并将所述多个排名不低于第二阈值的鉴别诊断结果合并为多个鉴别诊断词,得到候选鉴别诊断结果。
在其中一个实施例中,所述基于所述第一鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取所述第一鉴别诊断知识库中与所述当前病程记录信息之间的相似度超过第一阈值的第一鉴别诊断结果,包括:
分别对所述当前病程记录信息和第一鉴别诊断知识库中的鉴别诊断数据进行向量化处理,得到第一高维向量化表征和第二高维向量化表征;
分别计算所述第一高维向量化表征和第二高维向量化表征对应的第一余弦相似度值和第二余弦相似度值,以表征所述当前病程记录信息和第一鉴别诊断知识库中的鉴别诊断数据之间的相似度。
在其中一个实施例中,所述基于所述第一鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取所述第一鉴别诊断知识库中与所述当前病程记录信息之间的相似度超过第一阈值的第一鉴别诊断结果,还包括:
按照所述当前病程记录信息和第一鉴别诊断知识库中的鉴别诊断数据之间的相似度对所述第一鉴别诊断知识库中的鉴别诊断数据进行排序,以获取多个相似度排序不低于第一阈值的鉴别诊断数据;
将所述多个相似度排序不低于第一阈值的鉴别诊断数据进行加权计算,得到所述第一鉴别诊断结果,所述第一鉴别诊断结果为所述多个相似度排序不低于第一阈值的鉴别诊断数据对应的鉴别诊断词。
在其中一个实施例中,所述以所述历史病程记录信息作为ChatGLM-6B大模型的输入,以所述第一鉴别诊断结果和第二鉴别诊断结果作为ChatGLM-6B大模型的输出,对所述ChatGLM-6B大模型进行预训练,并通过医疗知识图谱构建训练数据集对预训练后的所述ChatGLM-6B大模型进行微调,得到医疗大模型,包括:
获取医疗文本数据,并通过自回归的方式对所述ChatGLM-6B大模型进行预训练,所述医疗文本数据至少包括所述历史病程记录信息以及临床指南文本;
基于所述历史病程记录信息以及临床指南文本构建所述医疗知识图谱,并根据所述医疗知识图谱构建指令数据集,所述指令数据集用于生成所述训练数据集对预训练后的所述ChatGLM-6B大模型进行微调。
在其中一个实施例中,所述方法还包括:
基于多个所述第一鉴别诊断结果和第二鉴别诊断结果,构建鉴别诊断候选集,并对所述鉴别诊断候选集中的鉴别诊断数据进行排名,以获取排名不低于第三阈值的鉴别诊断数据;
调用所述医疗大模型对所述排名不低于第三阈值的鉴别诊断数据进行处理,以输出所述医疗大模型对所述排名不低于第三阈值的鉴别诊断数据的打分结果,得到所述打分结果不低于第四阈值的鉴别诊断数据。
本发明还提供了一种鉴别诊断生成装置,所述装置包括:
诊断知识库构建模块,用于获取历史病程记录信息中的首次病程记录信息,并对所述首次病程记录信息进行预处理,以构建基于所述首次病程记录信息的第一鉴别诊断知识库;
相似度计算模块,用于基于所述第一鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取所述第一鉴别诊断知识库中与所述当前病程记录信息之间的相似度超过第一阈值的第一鉴别诊断结果;
诊断标准化模块,用于调用BERT模型将所述第一鉴别诊断结果标准化至标准诊断中,以构建第二鉴别诊断知识库,并调用所述BERT模型将所述第二鉴别诊断知识库中第二鉴别诊断结果映射至所述标准诊断中;
大模型微调模块,用于以所述历史病程记录信息作为ChatGLM-6B大模型的输入,以所述第一鉴别诊断结果和第二鉴别诊断结果作为ChatGLM-6B大模型的输出,对所述ChatGLM-6B大模型进行预训练,并通过医疗知识图谱构建训练数据集对预训练后的所述ChatGLM-6B大模型进行微调,得到医疗大模型;
鉴别诊断生成模块,用于将所述当前病程记录信息作为所述医疗大模型输入,以获取所述医疗大模型的模型输出数据,基于所述模型输出数据构建提示对话框,以根据所述提示对话框中的prompt模板生成第三鉴别诊断结果。
本发明还提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述的鉴别诊断生成方法。
本发明还提供了一种计算机存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的鉴别诊断生成方法。
本发明还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的鉴别诊断生成方法。
上述鉴别诊断生成方法、装置、电子设备及存储介质,通过获取历史病程记录信息中的首次病程记录信息,并对首次病程记录信息进行预处理,以构建基于首次病程记录信息的首次病程记录信息-鉴别诊断知识库。其次,基于首次病程记录信息-鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取首次病程记录信息-鉴别诊断知识库中与当前病程记录信息之间的相似度超过设定阈值的鉴别诊断结果。随后,调用BERT模型将得到的鉴别诊断结果标准化至标准诊断中,以构建诊断-鉴别诊断知识库,并调用BERT模型将诊断-鉴别诊断知识库中鉴别诊断结果映射至标准诊断中。然后,以历史病程记录信息作为ChatGLM-6B大模型的输入,以先前得到的鉴别诊断结果作为ChatGLM-6B大模型的输出,对ChatGLM-6B大模型进行预训练,并通过医疗知识图谱构建训练数据集对预训练后的ChatGLM-6B大模型进行微调,得到医疗大模型。最后,将当前病程记录信息作为医疗大模型输入,以获取医疗大模型的模型输出数据,基于该模型输出数据构建提示对话框,以根据提示对话框中的prompt模板生成最终的鉴别诊断结果。该方法通过海量历史医疗数据对ChatGLM-6B大模型进行微调,由于大模型的容量较大,因此可以通过海量训练数据的学习提升大模型的表征能力,保证了鉴别诊断生成的多样性以及鉴别诊断的生成效果,且生成效率较高。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的鉴别诊断生成方法流程示意图之一;
图2为本发明提供的具体实施例中鉴别诊断生成方法的鉴别诊断整体流程示意图;
图3为本发明提供的具体实施例中鉴别诊断生成方法的基于病历匹配流程示意图;
图4为本发明提供的具体实施例中鉴别诊断生成方法的基于诊断匹配流程示意图;
图5为本发明提供的鉴别诊断生成方法流程示意图之二;
图6为本发明提供的鉴别诊断生成方法流程示意图之三;
图7为本发明提供的鉴别诊断生成方法流程示意图之四;
图8为本发明提供的鉴别诊断生成方法流程示意图之五;
图9为本发明提供的鉴别诊断生成方法流程示意图之六;
图10为本发明提供的鉴别诊断生成方法流程示意图之七;
图11为本发明提供的鉴别诊断生成装置结构示意图;
图12为本发明提供的计算机设备的内部结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图12描述本发明的鉴别诊断生成方法、装置、电子设备及存储介质。
如图1所示,在一个实施例中,一种鉴别诊断生成方法,包括以下步骤:
步骤S110,获取历史病程记录信息中的首次病程记录信息,并对首次病程记录信息进行预处理,以构建基于首次病程记录信息的第一鉴别诊断知识库。
具体的,服务器获取历史病程记录信息中的首次病程记录信息,并对首次病程记录信息进行预处理,以构建基于首次病程记录信息的鉴别诊断知识库,即第一鉴别诊断知识库。
结合图2所示,在具体的实施例中,本发明提供的鉴别诊断生成方法,整体流程主要分为四个阶段,分别是首次病程记录信息预处理作为输入阶段、基于三条技术链路的结果聚合阶段、基于大模型的打分排序阶段和人工确认排序输出阶段,其中的中文医疗大模型分别用于结果聚合和打分排序。
在本实施例中,首次病程记录包括主诉、病历特点、初步诊断、诊断依据、鉴别诊断和诊疗计划。在鉴别诊断生成中,可以使用的信息有主诉、病历特点、初步诊断以及诊断依据。分别对其进行预处理,预处理过程包括去除无用字符、全部转为半角字符、字母全部转大写字母以及结巴分词等,预处理的作用是为后面机器学习和深度学习模型的输入做准备。
步骤S120,基于第一鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取第一鉴别诊断知识库中与当前病程记录信息之间的相似度超过第一阈值的第一鉴别诊断结果。
具体的,服务器基于步骤S110中得到的第一鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取第一鉴别诊断知识库中与当前病程记录信息之间相似度超过设定阈值的多个鉴别诊断结果,即第一鉴别诊断结果。
结合图2和图3所示,在具体的实施例中,本发明提供的鉴别诊断生成方法,在基于病历匹配使用首次病程记录-鉴别诊断知识库进行病历匹配的过程中,主要针对当前待生成鉴别诊断的病历,首先通过与知识库中的病历进行相似度匹配计算,将最相似的病历对应的鉴别诊断结果作为当前病历的鉴别诊断结果。
在本实施例中,相似度匹配计算采用TF-IDF和向量相似度融合的方式实现,首先,使用历史病历的首次病程记录构建首次病程记录-鉴别诊断知识库,知识库的结构是“key:value”的字典结构,一份病历可以构建四条数据,即主诉:鉴别诊断、病历特点:鉴别诊断、初步诊断:鉴别诊断以及诊断依据:鉴别诊断。其次,使用TF-IDF算法,计算首次病程记录-鉴别诊断知识库中每条数据与当前病历的TF-IDF值的大小。由于首次病程记录-鉴别诊断知识库中每条数据“key”的“value”中可能包含多个鉴别诊断结果,不同的“key”的“value”的多个鉴别诊断可能有交叉。因此,可以先取排名前N,即topN的“key”,将该“key”的TF-IDF值作为“value”中每个鉴别诊断的值,合并多个鉴别诊断词,取topN作为候选鉴别诊断输出。
然后,使用doc2vec得到段落向量/句向量的表征,进行向量相似度计算,分别对当前病历和首次病程记录-鉴别诊断知识库中数据进行向量化,得到高维向量化表征,进而计算余弦相似度值,以表示句子的相似度,计算得到的相似度值同TF-IDF算法,取topN作为候选鉴别诊断输出。最后,将TF-IDF算法和向量相似度方法得到的topN的候选鉴别诊断进行加权计算,得到topN的诊断词作为病历匹配方案输出的鉴别诊断。
步骤S130,调用BERT模型将第一鉴别诊断结果标准化至标准诊断中,以构建第二鉴别诊断知识库,并调用BERT模型将第二鉴别诊断知识库中第二鉴别诊断结果映射至标准诊断中。
具体的,服务器调用BERT模型将步骤S120中得到的第一鉴别诊断结果标准化至标准诊断中,以构建基于标准诊断的诊断-鉴别诊断知识库,即第二鉴别诊断知识库,并调用BERT模型将第二鉴别诊断知识库中的第二鉴别诊断结果映射至标准诊断中。
结合图2和图4所示,在具体的实施例中,本发明提供的鉴别诊断生成方法,通过使用BERT模型将当前待生成鉴别诊断的病历首次病程记录的初步诊断进行标准化到国际疾病分类第十一次修订本(ICD-11)的标准诊断中。随后,构建诊断-鉴别诊断知识库,使用历史病历中首次病程记录的初步诊断、鉴别诊断构建初步诊断(key):鉴别诊断(value),将知识库中key(初步诊断)利用BERT模型映射到国际疾病分类第十一次修订本(ICD-11)的标准诊断中。最后,检索诊断-鉴别诊断知识库中与当前标准化后的初步诊断相同的诊断对应的鉴别诊断输出。
步骤S140,以历史病程记录信息作为ChatGLM-6B大模型的输入,以第一鉴别诊断结果和第二鉴别诊断结果作为ChatGLM-6B大模型的输出,对ChatGLM-6B大模型进行预训练,并通过医疗知识图谱构建训练数据集对预训练后的ChatGLM-6B大模型进行微调,得到医疗大模型。
具体的,服务器以历史病程记录信息作为ChatGLM-6B大模型的输入,以步骤S120中得到的第一鉴别诊断结果和步骤S130中得到的第二鉴别诊断结果作为ChatGLM-6B大模型的输出,对ChatGLM-6B大模型进行预训练,并通过医疗知识图谱构建训练数据集对预训练后的ChatGLM-6B大模型进行微调,得到医疗大模型。
结合图2所示,在具体的实施例中,本发明提供的鉴别诊断生成方法,由于在候选鉴别诊断生成和鉴别诊断打分排序两个阶段都使用到中文医疗大模型,首先fine-tuning(微调)一个中文医疗大模型,候选鉴别诊断生成和鉴别诊断打分排序中都可以复用该中文医疗大模型。其次,在候选鉴别诊断生成和鉴别诊断打分排序阶段为了能够得到更优的结果以及复用中文医疗大模型,两个阶段都使用prompt模型参数不微调方式。
在本实施例中,中文医疗大模型为采用ChatGLM-6B作为基础的中文大模型,整体训练过程分为三个阶段,分别是预训练阶段、指令微调阶段和强化学习阶段。在预训练阶段,基于海量的中文医疗文本数据,主要包括病历文书以及临床指南等,通过自回归的方式完成模型的领域适配。在指令微调阶段,利用医疗知识图谱,例如在线问诊和医疗NLP方向的Benchmark等,构建指令数据集作为该阶段的训练数据集,使得大模型具备指令理解的能力。在强化学习阶段,通过人工对模型的输出答案进行排序,首先训练一个Reward模型,之后利用Reward模型作为打分模型,通过强化学习的方式训练中文医疗大模型,该过程可以经过多次迭代,直到模型的效果满足预期,该阶段的主要目的是提升大模型答案输出的质量,使得大模型的输出结果满足预期。
步骤S150,将当前病程记录信息作为医疗大模型输入,以获取医疗大模型的模型输出数据,基于模型输出数据构建提示对话框,以根据提示对话框中的prompt模板生成第三鉴别诊断结果。
具体的,服务器将当前病程记录信息作为医疗大模型的输入,以获取大模型的模型输出数据,基于该模型输出数据构建提示对话框prompt,以根据提示对话框中的prompt模板生成最终的鉴别诊断结果,即第三鉴别诊断结果。
结合图2所示,在具体的实施例中,本发明提供的鉴别诊断生成方法,在prompt构建的过程中,使用在上下文中学习的方法(ICL,In-Context Learning)中Few shot技法,只要透过prompt注入范例,让大模型能够基于范例学习,就能创造更多的鉴别诊断生成回应,该方法不需要更新模型参数或者重新训练模型,便可以赋予模型即时学习和适应的能力。
例如,一个prompt的模板为:
“主诉:患者出现胸痛,呼吸困难。
病历特点:胸痛发作时伴有呼吸困难,可能有心悸和出汗。
初步诊断:心绞痛。
诊断依据:胸痛的特点和伴随症状,心电图检查可能显示心肌缺血。
鉴别诊断提示:
急性冠状动脉综合征:胸痛可能伴有进行性加重,可能有心电图和心肌酶的变化。
肺栓塞:胸痛伴有呼吸困难,可能有咳嗽和咯血。
胃食管反流病:胸痛常常与进食有关,可能伴有酸味嗳气和消化不良。
主诉:患者突然出现剧烈腹痛,伴有呕吐和腹胀。
病历特点:腹痛发作突然,伴有呕吐和腹胀,可能有排便异常。
初步诊断:急性胃肠炎。
诊断依据:腹痛的特点和伴随症状,可能有病毒或细菌感染的证据。
鉴别诊断提示:”。
上述鉴别诊断生成方法,通过获取历史病程记录信息中的首次病程记录信息,并对首次病程记录信息进行预处理,以构建基于首次病程记录信息的首次病程记录信息-鉴别诊断知识库。其次,基于首次病程记录信息-鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取首次病程记录信息-鉴别诊断知识库中与当前病程记录信息之间的相似度超过设定阈值的鉴别诊断结果。随后,调用BERT模型将得到的鉴别诊断结果标准化至标准诊断中,以构建诊断-鉴别诊断知识库,并调用BERT模型将诊断-鉴别诊断知识库中鉴别诊断结果映射至标准诊断中。然后,以历史病程记录信息作为ChatGLM-6B大模型的输入,以先前得到的鉴别诊断结果作为ChatGLM-6B大模型的输出,对ChatGLM-6B大模型进行预训练,并通过医疗知识图谱构建训练数据集对预训练后的ChatGLM-6B大模型进行微调,得到医疗大模型。最后,将当前病程记录信息作为医疗大模型输入,以获取医疗大模型的模型输出数据,基于该模型输出数据构建提示对话框,以根据提示对话框中的prompt模板生成最终的鉴别诊断结果。该方法通过海量历史医疗数据对ChatGLM-6B大模型进行微调,由于大模型的容量较大,因此可以通过海量训练数据的学习提升大模型的表征能力,保证了鉴别诊断生成的多样性以及鉴别诊断的生成效果,且生成效率较高。
如图5所示,在一个实施例中,本发明提供的鉴别诊断生成方法,获取历史病程记录信息中的首次病程记录信息,并对首次病程记录信息进行预处理,以构建基于首次病程记录信息的第一鉴别诊断知识库,具体包括以下步骤:
步骤S112,基于对首次病程记录信息进行预处理,将首次病程记录信息中的全部字符转化为半角字符。
具体的,服务器基于对首次病程记录信息进行预处理,将首次病程记录信息中的全部字符转化为半角字符。
步骤S114,去除首次病程记录信息中的无用字符,并将首次病程记录信息中的字母信息全部转为符合第一鉴别诊断知识库格式要求的字母信息。
具体的,服务器在对首次病程记录信息进行预处理的过程中,会去除首次病程记录信息中的无用字符,并将首次病程记录信息中的字母信息全部转为符合第一鉴别诊断知识库格式要求的字母信息,例如将字母全部转为大写字母。
如图6所示,在一个实施例中,本发明提供的鉴别诊断生成方法,第一鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取第一鉴别诊断知识库中与当前病程记录信息之间的相似度超过第一阈值的第一鉴别诊断结果,之前还包括以下步骤:
步骤S610,调用TF-IDF算法计算第一鉴别诊断知识库中的每条鉴别诊断数据与当前病程记录信息之间的TF-IDF值,其中,第一鉴别诊断知识库中的每条鉴别诊断数据中包括多个鉴别诊断结果。
具体的,服务器在进行相似度匹配计算之前,会调用TF-IDF算法计算第一鉴别诊断知识库中包括多个鉴别诊断结果的每条鉴别诊断数据与当前病程记录信息之间的TF-IDF值。
步骤S620,按照TF-IDF值对每条鉴别诊断数据中的多个鉴别诊断结果进行排序,以获取多个排名不低于第二阈值的鉴别诊断结果。
具体的,服务器按照步骤S610中得到的TF-IDF值对每条鉴别诊断数据中的多个鉴别诊断结果进行排序,以获取多个排名不低于设定阈值的鉴别诊断结果。
步骤S630,将TF-IDF值赋予每个排名不低于第二阈值的鉴别诊断结果,并将多个排名不低于第二阈值的鉴别诊断结果合并为多个鉴别诊断词,得到候选鉴别诊断结果。
具体的,服务器将步骤S620中得到的TF-IDF值赋予每个排名不低于设定阈值的鉴别诊断结果,并将该多个排名不低于设定阈值的鉴别诊断结果合并为多个鉴别诊断词,得到候选鉴别诊断结果。
如图7所示,在一个实施例中,本发明提供的鉴别诊断生成方法,第一鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取第一鉴别诊断知识库中与当前病程记录信息之间的相似度超过第一阈值的第一鉴别诊断结果,具体包括以下步骤:
步骤S122,分别对当前病程记录信息和第一鉴别诊断知识库中的鉴别诊断数据进行向量化处理,得到第一高维向量化表征和第二高维向量化表征。
具体的,服务器在进行相似度匹配计算的过程中,首先分别对当前病程记录信息和第一鉴别诊断知识库中的鉴别诊断数据进行向量化处理,得到分别对应的第一高维向量化表征和第二高维向量化表征。
步骤S124,分别计算第一高维向量化表征和第二高维向量化表征对应的第一余弦相似度值和第二余弦相似度值,以表征当前病程记录信息和第一鉴别诊断知识库中的鉴别诊断数据之间的相似度。
具体的,服务器分别计算步骤S122中得到的第一高维向量化表征和第二高维向量化表征分别对应的第一余弦相似度值和第二余弦相似度值,以表征当前病程记录信息和第一鉴别诊断知识库中的鉴别诊断数据之间的相似度。
如图8所示,在一个实施例中,本发明提供的鉴别诊断生成方法,第一鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取第一鉴别诊断知识库中与当前病程记录信息之间的相似度超过第一阈值的第一鉴别诊断结果,具体还包括以下步骤:
步骤S126,按照当前病程记录信息和第一鉴别诊断知识库中的鉴别诊断数据之间的相似度对第一鉴别诊断知识库中的鉴别诊断数据进行排序,以获取多个相似度排序不低于第一阈值的鉴别诊断数据。
具体的,服务器在进行相似度匹配计算的过程中,会按照当前病程记录信息和第一鉴别诊断知识库中的鉴别诊断数据之间的相似度对第一鉴别诊断知识库中的鉴别诊断数据进行排序,以获取多个相似度排序不低于设定阈值的鉴别诊断数据。
步骤S128,将多个相似度排序不低于第一阈值的鉴别诊断数据进行加权计算,得到第一鉴别诊断结果,第一鉴别诊断结果为多个相似度排序不低于第一阈值的鉴别诊断数据对应的鉴别诊断词。
具体的,服务器将步骤S126中得到的多个相似度排序不低于第一阈值的鉴别诊断数据进行加权计算,得到多个相似度排序不低于第一阈值的鉴别诊断数据对应的鉴别诊断词,即第一鉴别诊断结果。
如图9所示,在一个实施例中,本发明提供的鉴别诊断生成方法,以历史病程记录信息作为ChatGLM-6B大模型的输入,以第一鉴别诊断结果和第二鉴别诊断结果作为ChatGLM-6B大模型的输出,对ChatGLM-6B大模型进行预训练,并通过医疗知识图谱构建训练数据集对预训练后的ChatGLM-6B大模型进行微调,得到医疗大模型,具体包括以下步骤:
步骤S142,获取医疗文本数据,并通过自回归的方式对ChatGLM-6B大模型进行预训练,医疗文本数据至少包括历史病程记录信息以及临床指南文本。
具体的,服务器在对大模型进行微调的过程中,首先获取海量的医疗文本数据,该医疗文本数据至少包括历史病程记录信息以及临床指南文本,并通过自回归的方式对ChatGLM-6B大模型进行预训练,以完成ChatGLM-6B大模型的适配领域。
步骤S144,基于历史病程记录信息以及临床指南文本构建医疗知识图谱,并根据医疗知识图谱构建指令数据集,指令数据集用于生成训练数据集对预训练后的ChatGLM-6B大模型进行微调。
具体的,服务器基于历史病程记录信息以及临床指南文本构建医疗知识图谱,并根据该医疗知识图谱构建指令数据集,以生成训练数据集对训练后的ChatGLM-6B大模型进行微调,得到最终医疗大模型。
如图10所示,在一个实施例中,本发明提供的鉴别诊断生成方法,还包括以下步骤:
步骤S1010,基于多个第一鉴别诊断结果和第二鉴别诊断结果,构建鉴别诊断候选集,并对鉴别诊断候选集中的鉴别诊断数据进行排名,以获取排名不低于第三阈值的鉴别诊断数据。
具体的,服务器基于先前得到的多个鉴别诊断结果,构建鉴别诊断候选集,并对鉴别诊断候选集中的鉴别诊断数据进行排名,以获取排名不低于设定阈值的鉴别诊断数据。
在具体的实施例中,本发明提供的鉴别诊断生成方法,通过将先前得到的鉴别诊断候选集进行打分排序来输出排名前k,即topk的鉴别诊断。
步骤S1020,调用医疗大模型对排名不低于第三阈值的鉴别诊断数据进行处理,以输出医疗大模型对排名不低于第三阈值的鉴别诊断数据的打分结果,得到打分结果不低于第四阈值的鉴别诊断数据。
具体的,服务器调用医疗大模型对排名不低于设定阈值的鉴别诊断结果进行处理,以输出医疗大模型对排名不低于设定阈值的鉴别诊断数据的打分结果,进而得到打分结果不低于设定预期的鉴别诊断数据。
在具体的实施例中,通过使用先前构建好的中文医疗大模型,可将prompt的提示词设置为“假设你是一个写病历的专家,给定下述自动生成的鉴别诊断文本,给每个文本打分。其中分数范围为0-10,10分的鉴别诊断文本要求包含疾病的常见症状等标准内容,患者自身的特异性症状和推理分析,同时文本表达流畅,没有口语化的特点。候选鉴别诊断列表如下:”最后,基于医疗大模型的打分结果进行排序,选择分数最高的前3个鉴别诊断作为模型输出的结果。
在本实施例中,由于鉴别诊断是极其重要的诊断信息,因此最后可以人工完成筛选和决策,即人工基于医疗大模型排序得到的鉴别诊断结果中选择最优的鉴别诊断。
下面对本发明提供的鉴别诊断生成装置进行描述,下文描述的鉴别诊断生成装置与上文描述的鉴别诊断生成方法可相互对应参照。
如图11所示,在一个实施例中,一种鉴别诊断生成装置,包括诊断知识库构建模块1110、相似度计算模块1120、诊断标准化模块1130、大模型微调模块1140以及鉴别诊断生成模块1150。
诊断知识库构建模块1110用于获取历史病程记录信息中的首次病程记录信息,并对首次病程记录信息进行预处理,以构建基于首次病程记录信息的第一鉴别诊断知识库。
相似度计算模块1120用于基于第一鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取第一鉴别诊断知识库中与当前病程记录信息之间的相似度超过第一阈值的第一鉴别诊断结果。
诊断标准化模块1130用于调用BERT模型将第一鉴别诊断结果标准化至标准诊断中,以构建第二鉴别诊断知识库,并调用BERT模型将第二鉴别诊断知识库中第二鉴别诊断结果映射至标准诊断中。
大模型微调模块1140用于以历史病程记录信息作为ChatGLM-6B大模型的输入,以第一鉴别诊断结果和第二鉴别诊断结果作为ChatGLM-6B大模型的输出,对ChatGLM-6B大模型进行预训练,并通过医疗知识图谱构建训练数据集对预训练后的ChatGLM-6B大模型进行微调,得到医疗大模型。
鉴别诊断生成模块1150用于将当前病程记录信息作为医疗大模型输入,以获取医疗大模型的模型输出数据,基于模型输出数据构建提示对话框,以根据提示对话框中的prompt模板生成第三鉴别诊断结果。
在本实施例中,本发明提供的鉴别诊断生成装置,诊断知识库构建模块具体用于:
基于对首次病程记录信息进行预处理,将首次病程记录信息中的全部字符转化为半角字符。
去除首次病程记录信息中的无用字符,并将首次病程记录信息中的字母信息全部转为符合第一鉴别诊断知识库格式要求的字母信息。
在本实施例中,本发明提供的鉴别诊断生成装置,还包括候选鉴别诊断获取模块,用于:
调用TF-IDF算法计算第一鉴别诊断知识库中的每条鉴别诊断数据与当前病程记录信息之间的TF-IDF值,其中,第一鉴别诊断知识库中的每条鉴别诊断数据中包括多个鉴别诊断结果。
按照TF-IDF值对每条鉴别诊断数据中的多个鉴别诊断结果进行排序,以获取多个排名不低于第二阈值的鉴别诊断结果。
将TF-IDF值赋予每个排名不低于第二阈值的鉴别诊断结果,并将多个排名不低于第二阈值的鉴别诊断结果合并为多个鉴别诊断词,得到候选鉴别诊断结果。
在本实施例中,本发明提供的鉴别诊断生成装置,相似度计算模块具体用于:
分别对当前病程记录信息和第一鉴别诊断知识库中的鉴别诊断数据进行向量化处理,得到第一高维向量化表征和第二高维向量化表征。
分别计算第一高维向量化表征和第二高维向量化表征对应的第一余弦相似度值和第二余弦相似度值,以表征当前病程记录信息和第一鉴别诊断知识库中的鉴别诊断数据之间的相似度。
在本实施例中,本发明提供的鉴别诊断生成装置,相似度计算模块具体还用于:
按照当前病程记录信息和第一鉴别诊断知识库中的鉴别诊断数据之间的相似度对第一鉴别诊断知识库中的鉴别诊断数据进行排序,以获取多个相似度排序不低于第一阈值的鉴别诊断数据。
将多个相似度排序不低于第一阈值的鉴别诊断数据进行加权计算,得到第一鉴别诊断结果,第一鉴别诊断结果为多个相似度排序不低于第一阈值的鉴别诊断数据对应的鉴别诊断词。
在本实施例中,本发明提供的鉴别诊断生成装置,大模型微调模块具体用于:
获取医疗文本数据,并通过自回归的方式对ChatGLM-6B大模型进行预训练,医疗文本数据至少包括历史病程记录信息以及临床指南文本。
基于历史病程记录信息以及临床指南文本构建医疗知识图谱,并根据医疗知识图谱构建指令数据集,指令数据集用于生成训练数据集对预训练后的ChatGLM-6B大模型进行微调。
在本实施例中,本发明提供的鉴别诊断生成装置,还包括结果筛选模块,用于:
基于多个第一鉴别诊断结果和第二鉴别诊断结果,构建鉴别诊断候选集,并对鉴别诊断候选集中的鉴别诊断数据进行排名,以获取排名不低于第三阈值的鉴别诊断数据。
调用医疗大模型对排名不低于第三阈值的鉴别诊断数据进行处理,以输出医疗大模型对排名不低于第三阈值的鉴别诊断数据的打分结果,得到打分结果不低于第四阈值的鉴别诊断数据。
图12示例了一种电子设备的实体结构示意图,该电子设备可以是智能终端,其内部结构图可以如图12所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现鉴别诊断生成方法,该方法包括:
获取历史病程记录信息中的首次病程记录信息,并对首次病程记录信息进行预处理,以构建基于首次病程记录信息的第一鉴别诊断知识库;
基于第一鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取第一鉴别诊断知识库中与当前病程记录信息之间的相似度超过第一阈值的第一鉴别诊断结果;
调用BERT模型将第一鉴别诊断结果标准化至标准诊断中,以构建第二鉴别诊断知识库,并调用BERT模型将第二鉴别诊断知识库中第二鉴别诊断结果映射至标准诊断中;
以历史病程记录信息作为ChatGLM-6B大模型的输入,以第一鉴别诊断结果和第二鉴别诊断结果作为ChatGLM-6B大模型的输出,对ChatGLM-6B大模型进行预训练,并通过医疗知识图谱构建训练数据集对预训练后的ChatGLM-6B大模型进行微调,得到医疗大模型;
将当前病程记录信息作为医疗大模型输入,以获取医疗大模型的模型输出数据,基于模型输出数据构建提示对话框,以根据提示对话框中的prompt模板生成第三鉴别诊断结果。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
另一方面,本发明还提供了一种计算机存储介质,存储有计算机程序,计算机程序被处理器执行时实现鉴别诊断生成方法,该方法包括:
获取历史病程记录信息中的首次病程记录信息,并对首次病程记录信息进行预处理,以构建基于首次病程记录信息的第一鉴别诊断知识库;
基于第一鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取第一鉴别诊断知识库中与当前病程记录信息之间的相似度超过第一阈值的第一鉴别诊断结果;
调用BERT模型将第一鉴别诊断结果标准化至标准诊断中,以构建第二鉴别诊断知识库,并调用BERT模型将第二鉴别诊断知识库中第二鉴别诊断结果映射至标准诊断中;
以历史病程记录信息作为ChatGLM-6B大模型的输入,以第一鉴别诊断结果和第二鉴别诊断结果作为ChatGLM-6B大模型的输出,对ChatGLM-6B大模型进行预训练,并通过医疗知识图谱构建训练数据集对预训练后的ChatGLM-6B大模型进行微调,得到医疗大模型;
将当前病程记录信息作为医疗大模型输入,以获取医疗大模型的模型输出数据,基于模型输出数据构建提示对话框,以根据提示对话框中的prompt模板生成第三鉴别诊断结果。
又一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令时实现鉴别诊断生成方法,该方法包括:
获取历史病程记录信息中的首次病程记录信息,并对首次病程记录信息进行预处理,以构建基于首次病程记录信息的第一鉴别诊断知识库;
基于第一鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取第一鉴别诊断知识库中与当前病程记录信息之间的相似度超过第一阈值的第一鉴别诊断结果;
调用BERT模型将第一鉴别诊断结果标准化至标准诊断中,以构建第二鉴别诊断知识库,并调用BERT模型将第二鉴别诊断知识库中第二鉴别诊断结果映射至标准诊断中;
以历史病程记录信息作为ChatGLM-6B大模型的输入,以第一鉴别诊断结果和第二鉴别诊断结果作为ChatGLM-6B大模型的输出,对ChatGLM-6B大模型进行预训练,并通过医疗知识图谱构建训练数据集对预训练后的ChatGLM-6B大模型进行微调,得到医疗大模型;
将当前病程记录信息作为医疗大模型输入,以获取医疗大模型的模型输出数据,基于模型输出数据构建提示对话框,以根据提示对话框中的prompt模板生成第三鉴别诊断结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。
作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种鉴别诊断生成方法,其特征在于,所述方法包括:
获取历史病程记录信息中的首次病程记录信息,并对所述首次病程记录信息进行预处理,以构建基于所述首次病程记录信息的第一鉴别诊断知识库;
基于所述第一鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取所述第一鉴别诊断知识库中与所述当前病程记录信息之间的相似度超过第一阈值的第一鉴别诊断结果;
调用BERT模型将所述第一鉴别诊断结果标准化至标准诊断中,以构建第二鉴别诊断知识库,并调用所述BERT模型将所述第二鉴别诊断知识库中第二鉴别诊断结果映射至所述标准诊断中;
以所述历史病程记录信息作为ChatGLM-6B大模型的输入,以所述第一鉴别诊断结果和第二鉴别诊断结果作为ChatGLM-6B大模型的输出,对所述ChatGLM-6B大模型进行预训练,并通过医疗知识图谱构建训练数据集对预训练后的所述ChatGLM-6B大模型进行微调,得到医疗大模型;
将所述当前病程记录信息作为所述医疗大模型输入,以获取所述医疗大模型的模型输出数据,基于所述模型输出数据构建提示对话框,以根据所述提示对话框中的prompt模板生成第三鉴别诊断结果;
其中,所述获取历史病程记录信息中的首次病程记录信息,并对所述首次病程记录信息进行预处理,以构建基于所述首次病程记录信息的第一鉴别诊断知识库,包括:
基于对所述首次病程记录信息进行预处理,将所述首次病程记录信息中的全部字符转化为半角字符;
去除所述首次病程记录信息中的无用字符,并将所述首次病程记录信息中的字母信息全部转为符合所述第一鉴别诊断知识库格式要求的字母信息;
所述基于所述第一鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取所述第一鉴别诊断知识库中与所述当前病程记录信息之间的相似度超过第一阈值的第一鉴别诊断结果,之前包括:
调用TF-IDF算法计算所述第一鉴别诊断知识库中的每条鉴别诊断数据与所述当前病程记录信息之间的TF-IDF值,其中,所述第一鉴别诊断知识库中的每条鉴别诊断数据中包括多个鉴别诊断结果;
按照所述TF-IDF值对所述每条鉴别诊断数据中的多个鉴别诊断结果进行排序,以获取多个排名不低于第二阈值的鉴别诊断结果;
将所述TF-IDF值赋予每个所述排名不低于第二阈值的鉴别诊断结果,并将所述多个排名不低于第二阈值的鉴别诊断结果合并为多个鉴别诊断词,得到候选鉴别诊断结果;
所述基于所述第一鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取所述第一鉴别诊断知识库中与所述当前病程记录信息之间的相似度超过第一阈值的第一鉴别诊断结果,包括:
分别对所述当前病程记录信息和第一鉴别诊断知识库中的鉴别诊断数据进行向量化处理,得到第一高维向量化表征和第二高维向量化表征;
分别计算所述第一高维向量化表征和第二高维向量化表征对应的第一余弦相似度值和第二余弦相似度值,以表征所述当前病程记录信息和第一鉴别诊断知识库中的鉴别诊断数据之间的相似度。
2.根据权利要求1所述的鉴别诊断生成方法,其特征在于,所述基于所述第一鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取所述第一鉴别诊断知识库中与所述当前病程记录信息之间的相似度超过第一阈值的第一鉴别诊断结果,还包括:
按照所述当前病程记录信息和第一鉴别诊断知识库中的鉴别诊断数据之间的相似度对所述第一鉴别诊断知识库中的鉴别诊断数据进行排序,以获取多个相似度排序不低于第一阈值的鉴别诊断数据;
将所述多个相似度排序不低于第一阈值的鉴别诊断数据进行加权计算,得到所述第一鉴别诊断结果,所述第一鉴别诊断结果为所述多个相似度排序不低于第一阈值的鉴别诊断数据对应的鉴别诊断词。
3.根据权利要求2所述的鉴别诊断生成方法,其特征在于,所述以所述历史病程记录信息作为ChatGLM-6B大模型的输入,以所述第一鉴别诊断结果和第二鉴别诊断结果作为ChatGLM-6B大模型的输出,对所述ChatGLM-6B大模型进行预训练,并通过医疗知识图谱构建训练数据集对预训练后的所述ChatGLM-6B大模型进行微调,得到医疗大模型,包括:
获取医疗文本数据,并通过自回归的方式对所述ChatGLM-6B大模型进行预训练,所述医疗文本数据至少包括所述历史病程记录信息以及临床指南文本;
基于所述历史病程记录信息以及临床指南文本构建所述医疗知识图谱,并根据所述医疗知识图谱构建指令数据集,所述指令数据集用于生成所述训练数据集对预训练后的所述ChatGLM-6B大模型进行微调。
4.根据权利要求1至3任一项所述的鉴别诊断生成方法,其特征在于,所述方法还包括:
基于多个所述第一鉴别诊断结果和第二鉴别诊断结果,构建鉴别诊断候选集,并对所述鉴别诊断候选集中的鉴别诊断数据进行排名,以获取排名不低于第三阈值的鉴别诊断数据;
调用所述医疗大模型对所述排名不低于第三阈值的鉴别诊断数据进行处理,以输出所述医疗大模型对所述排名不低于第三阈值的鉴别诊断数据的打分结果,得到所述打分结果不低于第四阈值的鉴别诊断数据。
5.一种鉴别诊断生成装置,其特征在于,所述装置包括:
诊断知识库构建模块,用于获取历史病程记录信息中的首次病程记录信息,并对所述首次病程记录信息进行预处理,以构建基于所述首次病程记录信息的第一鉴别诊断知识库;
相似度计算模块,用于基于所述第一鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取所述第一鉴别诊断知识库中与所述当前病程记录信息之间的相似度超过第一阈值的第一鉴别诊断结果;
诊断标准化模块,用于调用BERT模型将所述第一鉴别诊断结果标准化至标准诊断中,以构建第二鉴别诊断知识库,并调用所述BERT模型将所述第二鉴别诊断知识库中第二鉴别诊断结果映射至所述标准诊断中;
大模型微调模块,用于以所述历史病程记录信息作为ChatGLM-6B大模型的输入,以所述第一鉴别诊断结果和第二鉴别诊断结果作为ChatGLM-6B大模型的输出,对所述ChatGLM-6B大模型进行预训练,并通过医疗知识图谱构建训练数据集对预训练后的所述ChatGLM-6B大模型进行微调,得到医疗大模型;
鉴别诊断生成模块,用于将所述当前病程记录信息作为所述医疗大模型输入,以获取所述医疗大模型的模型输出数据,基于所述模型输出数据构建提示对话框,以根据所述提示对话框中的prompt模板生成第三鉴别诊断结果;
其中,所述获取历史病程记录信息中的首次病程记录信息,并对所述首次病程记录信息进行预处理,以构建基于所述首次病程记录信息的第一鉴别诊断知识库,包括:
基于对所述首次病程记录信息进行预处理,将所述首次病程记录信息中的全部字符转化为半角字符;
去除所述首次病程记录信息中的无用字符,并将所述首次病程记录信息中的字母信息全部转为符合所述第一鉴别诊断知识库格式要求的字母信息;
所述基于所述第一鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取所述第一鉴别诊断知识库中与所述当前病程记录信息之间的相似度超过第一阈值的第一鉴别诊断结果,之前包括:
调用TF-IDF算法计算所述第一鉴别诊断知识库中的每条鉴别诊断数据与所述当前病程记录信息之间的TF-IDF值,其中,所述第一鉴别诊断知识库中的每条鉴别诊断数据中包括多个鉴别诊断结果;
按照所述TF-IDF值对所述每条鉴别诊断数据中的多个鉴别诊断结果进行排序,以获取多个排名不低于第二阈值的鉴别诊断结果;
将所述TF-IDF值赋予每个所述排名不低于第二阈值的鉴别诊断结果,并将所述多个排名不低于第二阈值的鉴别诊断结果合并为多个鉴别诊断词,得到候选鉴别诊断结果;
所述基于所述第一鉴别诊断知识库,对当前病程记录信息进行相似度匹配计算,以获取所述第一鉴别诊断知识库中与所述当前病程记录信息之间的相似度超过第一阈值的第一鉴别诊断结果,包括:
分别对所述当前病程记录信息和第一鉴别诊断知识库中的鉴别诊断数据进行向量化处理,得到第一高维向量化表征和第二高维向量化表征;
分别计算所述第一高维向量化表征和第二高维向量化表征对应的第一余弦相似度值和第二余弦相似度值,以表征所述当前病程记录信息和第一鉴别诊断知识库中的鉴别诊断数据之间的相似度。
6.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。
7.一种计算机存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410407074.0A CN117995392B (zh) | 2024-04-07 | 2024-04-07 | 鉴别诊断生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410407074.0A CN117995392B (zh) | 2024-04-07 | 2024-04-07 | 鉴别诊断生成方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117995392A CN117995392A (zh) | 2024-05-07 |
CN117995392B true CN117995392B (zh) | 2024-06-25 |
Family
ID=90889511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410407074.0A Active CN117995392B (zh) | 2024-04-07 | 2024-04-07 | 鉴别诊断生成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117995392B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118098475A (zh) * | 2024-04-22 | 2024-05-28 | 来未来科技(浙江)有限公司 | 一种鉴别诊断文书生成方法、装置、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1759804A (zh) * | 2005-11-02 | 2006-04-19 | 浙江大学 | 中医四诊合参智能辨证方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004026109A2 (en) * | 2002-09-20 | 2004-04-01 | Wayne State University | Molecular targets of cancer and aging |
EP3018214B1 (en) * | 2014-11-05 | 2017-12-13 | Fundacion de Investigacion Hospital 12 de Octubre | Method for quantifying the level of minimal residual disease in a subject |
US10781489B2 (en) * | 2015-03-04 | 2020-09-22 | Wayne State University | Systems and methods to diagnose sarcoidosis and identify markers of the condition |
CN113871003B (zh) * | 2021-12-01 | 2022-04-08 | 浙江大学 | 一种基于含因果性医学知识图谱的疾病辅助鉴别诊断系统 |
CN117352159A (zh) * | 2023-09-28 | 2024-01-05 | 中南大学 | 一种基于电子病历的疑难疾病循证方法、系统及存储介质 |
-
2024
- 2024-04-07 CN CN202410407074.0A patent/CN117995392B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1759804A (zh) * | 2005-11-02 | 2006-04-19 | 浙江大学 | 中医四诊合参智能辨证方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117995392A (zh) | 2024-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117995392B (zh) | 鉴别诊断生成方法、装置、电子设备及存储介质 | |
US11182568B2 (en) | Sentence evaluation apparatus and sentence evaluation method | |
US20170365252A1 (en) | Meaning generation method, meaning generation apparatus, and storage medium | |
US11328125B2 (en) | Method and server for text classification using multi-task learning | |
US20220147838A1 (en) | Self-supervised visual-relationship probing | |
US20210125516A1 (en) | Answer training device, answer training method, answer generation device, answer generation method, and program | |
US20210056127A1 (en) | Method for multi-modal retrieval and clustering using deep cca and active pairwise queries | |
US20220092441A1 (en) | Training method and apparatus, dialogue processing method and system, and medium | |
CN115599901B (zh) | 基于语义提示的机器问答方法、装置、设备及存储介质 | |
Sifa et al. | Towards contradiction detection in german: a translation-driven approach | |
Chou et al. | Exploiting annotators’ typed description of emotion perception to maximize utilization of ratings for speech emotion recognition | |
CN116992007B (zh) | 基于问题意图理解的限定问答系统 | |
CN115204143A (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN116822633B (zh) | 基于自我认知的模型推理方法、装置及电子设备 | |
CN110909174B (zh) | 一种基于知识图谱的简单问答中实体链接的改进方法 | |
CN111680132A (zh) | 一种用于互联网文本信息的噪声过滤和自动分类方法 | |
CN110929006A (zh) | 一种数据型问答系统 | |
Celikkan et al. | A consolidated approach for design pattern recommendation | |
Jelinek et al. | Diagnostic with incomplete nominal/discrete data | |
CN113889281B (zh) | 一种中文医疗智能实体识别方法、装置及计算机设备 | |
Mulang et al. | Fine-tuning bert with focus words for explanation regeneration | |
CN112465054A (zh) | 一种基于fcn的多变量时间序列数据分类方法 | |
CN114722802B (zh) | 词向量的生成方法、装置、计算机设备及存储介质 | |
CN117993391B (zh) | 医学命名实体识别和临床术语标准化方法及装置 | |
CN116821289A (zh) | 医疗意图的识别方法及装置、存储介质、计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |