CN115631868B

CN115631868B - 一种基于提示学习模型的传染病预警直报方法和系统

Info

Publication number: CN115631868B
Application number: CN202211461585.8A
Authority: CN
Inventors: 刘硕; 杨雅婷; 白焜太; 宋佳祥; 许娟; 史文钊
Original assignee: Digital Health China Technologies Co Ltd
Current assignee: Digital Health China Technologies Co Ltd
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2023-04-21
Anticipated expiration: 2042-11-17
Also published as: CN115631868A

Abstract

本发明提供了一种基于提示学习模型的传染病预警直报方法和系统，涉及医疗信息化技术领域，包括如下步骤：获取不同医院的原始诊断疾病数据，提取所述原始诊断疾病数据中的诊断描述；基于所述诊断描述构建诊断描述的集合；获取不同传染病的规范名称，基于所述规范名称构建传染病名称集合；基于语言模型对诊断描述的集合中的每个诊断描述与传染病名称集合中的每个规范名称进行比对，判断是否匹配，当任一诊断描述与任一规范名称判断为匹配时上报预警。避免了碍于各个地区的医生的诊断业务能力不同，对传染病进行个性化的诊断描述或自定义的诊断描述，导致传染病不能够被及时发现，提高了识别传染病的准确度。

Description

一种基于提示学习模型的传染病预警直报方法和系统

技术领域

本申请涉及医疗信息化技术领域，具体涉及一种基于提示学习模型的传染病预警直报方法和系统。

背景技术

近年来，各种传染性疾病对人类的生活造成了困难和生产经营造成严重的损失，因此国家投入资金建立了传染病直报系统，用于获取各个地区的传染病上报情况来监控传染病。各个地区当第一时间发现传染病时可通过传染病直报系统向相关部门上报预警。

现有技术中，发现传染病的手段主要通过医疗化验或医生经验诊断进行判断，当通过医疗化验或医生经验诊断判断病情为传染病时通过传染病直报系统上报预警，而碍于各个地区的医生的诊断业务能力不同，对传染病进行个性化的诊断描述或自定义的诊断描述，导致传染病不能够被及时发现并通过直报系统上报预警。

发明内容

（一）申请目的

有鉴于此，本申请的目的在于提供一种基于提示学习模型的传染病预警直报方法和系统，用于解决现有技术中如何避免碍于各个地区的医生的诊断业务能力不同，对传染病进行个性化的诊断描述或自定义的诊断描述，导致传染病不能够被及时发现并通过直报系统上报预警的技术问题。

（二）技术方案

本申请提供了一种基于提示学习模型的传染病预警直报方法，包括如下步骤：S1、获取不同医院的原始诊断疾病数据，提取所述原始诊断疾病数据中的诊断描述；基于所述诊断描述构建诊断描述的集合； S2、获取不同传染病的规范名称，基于所述规范名称构建传染病名称集合； S3、基于语言模型对诊断描述的集合中的每个诊断描述与传染病名称集合中的每个规范名称进行比对，判断是否匹配，当任一诊断描述与任一规范名称判断为匹配时上报预警。

在一种可能的实施方式中，所述基于语言模型对诊断描述的集合中的每个诊断描述与传染病名称集合中的每个规范名称进行比对，判断是否匹配包括： S31、训练用于构建匹配诊断描述与规范名称的语言环境的语言模型； S32、将诊断描述的集合中的任一诊断描述和传染病名称集合中任一规范名称进行两两组合构成多个样本组集合，多个样本组集合中的每个样本组包括一个诊断描述和一个规范名称； S33、基于所述语言模型对每个样本组中的诊断描述和规范名称判断是否匹配。

在一种可能的实施方式中，所述将诊断描述的集合中的任一诊断描述和传染病名称集合中任一规范名称进行两两组合构成多个样本组集合，多个样本组集合中的每个样本组包括一个诊断描述和一个规范名称包括:记诊断描述的集合为集合A，记每个诊断描述为，集合A=，；记传染病名称集合为集合B，记每个规范名称为，集合B=，；记多个样本组构成的集合为集合C,记样本组为，集合C=。

在一种可能的实施方式中，所述判断是否匹配包括：诊断描述使语言环境表达的意思与规范名称使语言环境表达的意思一致时，该诊断描述与规范名称被判断为匹配，若意思不一致，该诊断描述与规范名称被判断为不匹配。

在一种可能的实施方式中，所述语言模型包括通过提示学习范式利用gpt预训练模型。

作为本申请的第二方面，提供了一种基于提示学习模型的传染病预警直报系统，包括诊断描述集合构建模块、传染病名称集合构建模块和匹配模块；其中所述诊断描述集合构建模块用于获取不同医院的原始诊断疾病数据，提取所述原始诊断疾病数据中的诊断描述；基于所述诊断描述构建诊断描述的集合；所述传染病名称集合构建模块用于获取不同传染病的规范名称，基于所述规范名称构建传染病名称集合；所述匹配模块用于基于语言模型对诊断描述的集合中的每个诊断描述与传染病名称集合中的每个规范名称进行比对，判断是否匹配，当任一诊断描述与任一规范名称判断为匹配时上报预警。

在一种可能的实施方式中，所述匹配模块包括模型训练单元、样本组合单元和判断单元；所以模型训练单元用于训练用于构建匹配诊断描述与规范名称的语言环境的语言模型；所述样本组合单元用于将诊断描述的集合中的任一诊断描述和传染病名称集合中任一规范名称进行两两组合构成多个样本组集合，多个样本组集合中的每个样本组包括一个诊断描述和一个规范名称；判断单元用于基于所述语言模型对每个样本组中的诊断描述和规范名称判断是否匹配。

在一种可能的实施方式中，诊断描述使语言环境表达的意思与规范名称使语言环境表达的意思一致时，该诊断描述与规范名称被判断为匹配，若意思不一致，该诊断描述与规范名称被判断为不匹配。

作为本申请的第三方面，本申请提供了一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的方法。

作为本申请的第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述任一项所述的方法。

（三）有益效果

通过提取所述原始诊断疾病数据中的诊断描述，基于所述诊断描述构建诊断描述的集合，获取不同传染病的规范名称，基于所述规范名称构建传染病名称集合，对诊断描述的集合中的每个诊断描述与传染病名称集合中的每个规范名称进行比对，判断是否匹配；避免了碍于各个地区的医生的诊断业务能力不同，对传染病进行个性化的诊断描述或自定义的诊断描述，导致传染病不能够被及时发现，提高了识别传染病的准确度。

本申请的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本申请的实践中得到教导。本申请的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

以下参考附图描述的实施例是示例性的，旨在用于解释和说明本申请，而不能理解为对本申请的保护范围的限制。

图1是本申请系统流程图；

图2是本申请系统结构图；

其中：1、诊断描述集合构建模块；2、传染病名称集合构建模块；3、匹配模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的分配来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的上述描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

如图1所示，本实施例提供了本申请提供了一种基于提示学习模型的传染病预警直报方法，包括如下步骤：S1、获取不同医院的原始诊断疾病数据，提取所述原始诊断疾病数据中的诊断描述；基于所述诊断描述构建诊断描述的集合。诊断描述是诊断时医生得出的诊断疾病名称。S2、获取不同传染病的规范名称，基于所述规范名称构建传染病名称集合。S3、基于语言模型对诊断描述的集合中的每个诊断描述与传染病名称集合中的每个规范名称进行比对，判断是否匹配，当任一诊断描述与任一规范名称判断为匹配时上报预警。

在一种实施例中，所述基于语言模型对诊断描述的集合中的每个诊断描述与传染病名称集合中的每个规范名称进行比对，判断是否匹配包括：S31、训练用于构建匹配诊断描述与规范名称的语言环境的语言模型，语言环境可以为一句话，而这一句话中具有一个空格，将诊断描述和规范名称分别送入空格处，判断这句话在填入诊断描述时和在填入规范名称表达的意思是否相同。S32、将诊断描述的集合中的任一诊断描述和传染病名称集合中任一规范名称进行两两组合构成多个样本组集合，多个样本组集合中的每个样本组包括一个诊断描述和一个规范名称；所述将诊断描述的集合中的任一诊断描述和传染病名称集合中任一规范名称进行两两组合构成多个样本组集合，多个样本组集合中的每个样本组包括一个诊断描述和一个规范名称包括:记诊断描述的集合为集合A，记每个诊断描述为，集合A=，；记传染病名称集合为集合B，记每个规范名称为，集合B=，；记多个样本组构成的集合为集合C,记样本组为，集合C=。S33、基于所述语言模型对每个样本组中的诊断描述和规范名称判断是否匹配。所述判断是否匹配包括：诊断描述使语言环境表达的意思与规范名称使语言环境表达的意思一致时，该诊断描述与规范名称被判断为匹配；若意思不一致，该诊断描述与规范名称被判断为不匹配，若匹配，将匹配的样本组上报预警。

在一种实施例中，所述语言模型包括通过提示学习（prompt learning）范式利用gpt预训练模型，其中gpt预训练模型为语言模型，GPT是OpenAI在论文《ImprovingLanguage Understanding by Generative Pre-Training》中提出的生成式预训练语言模型。gpt预训练模型获取诊断描述的集合并构建诊断描述和规范名称的样本组，在通过提示学习（prompt learning）范式利用gpt预训练模型中经过prompt learning 任务判断诊断描述与传染病名称集合中的哪一个规范名称对应，并输出判断结果，其中，诊断描述为文本形式。获取诊断描述的集合并构建诊断描述和规范名称的样本组包括:记诊断描述的集合为集合A，记每个诊断描述为，集合A=，；记传染病名称集合为集合B，记每个规范名称为，集合B=，；记多个样本组构成的集合为集合C,记样本组为，集合C=。gpt预训练模型的输出结果为判断是否匹配，记输出结果为L,L包括是或否，其中是代表匹配，否代表不匹配。在通过提示学习（promptlearning）范式利用gpt预训练模型中，通过基于语言模型处理P(x)得到的logits（每个诊断描述隶属于传染病名称集合中的每个规范名称的概率值）并计算样本属于label类（诊断描述和传染病名称集合中的每个规范名称是否相似的二分类）的概率分布，基于概率分布输出结果L，并不需要计算诊断描述和输出结果的条件概率。上述，可以获取诊断描述的集合中的诊断描述在传染病名称集合中对应的规范名称，把输出的所有为是的结果过滤出来就是我们需要的链接结果。通过提示学习（prompt learning）范式，可以使我们一定程度上摆脱对标注数据的依赖，通过直接调用已经在大数据上训练好并发布的预训练模型，并通过给予模型提示信息的范式，把任务方式修改为通过标准模板的提示信息和输入直接使用现有模型来得出任务结果。

通过提取所述原始诊断疾病数据中的诊断描述，基于所述诊断描述构建诊断描述的集合，获取不同传染病的规范名称，基于所述规范名称构建传染病名称集合，对诊断描述的集合中的每个诊断描述与传染病名称集合中的每个规范名称进行比对，判断是否匹配；避免了碍于各个地区的医生的诊断业务能力不同，在不能诊断出为传染病的情况下还对病情进行个性化的诊断描述或自定义的诊断描述，导致传染病不能够被及时发现，提高了识别传染病的准确度。

作为本申请的第二方面，提供了一种基于提示学习模型的传染病预警直报系统，包括诊断描述集合构建模块1、传染病名称集合构建模块2和匹配模块3；其中所述诊断描述集合构建模块1用于获取不同医院的原始诊断疾病数据，提取所述原始诊断疾病数据中的诊断描述；基于所述诊断描述构建诊断描述的集合；所述传染病名称集合构建模块2用于获取不同传染病的规范名称，基于所述规范名称构建传染病名称集合；所述匹配模块3用于基于语言模型对诊断描述的集合中的每个诊断描述与传染病名称集合中的每个规范名称进行比对，判断是否匹配，当任一诊断描述与任一规范名称判断为匹配时上报预警。

在一种实施例中，所述匹配模块3包括模型训练单元、样本组合单元和判断单元；所以模型训练单元用于训练用于构建匹配诊断描述与规范名称的语言环境的语言模型；所述样本组合单元用于将诊断描述的集合中的任一诊断描述和传染病名称集合中任一规范名称进行两两组合构成多个样本组集合，多个样本组集合中的每个样本组包括一个诊断描述和一个规范名称；判断单元用于基于所述语言模型对每个样本组中的诊断描述和规范名称判断是否匹配。

本实施例中，所述将诊断描述的集合中的任一诊断描述和传染病名称集合中任一规范名称进行两两组合构成多个样本组集合，多个样本组集合中的每个样本组包括一个诊断描述和一个规范名称包括:记诊断描述的集合为集合A，记每个诊断描述为，集合A=，；记传染病名称集合为集合B，记每个规范名称为，集合B=，；记多个样本组构成的集合为集合C,记样本组为，集合C=。

本实施例中，诊断描述使语言环境表达的意思与规范名称使语言环境表达的意思一致时，该诊断描述与规范名称被判断为匹配，若意思不一致，该诊断描述与规范名称被判断为不匹配。

在一种实施例中，所述语言模型包括通过提示学习（prompt learning）范式利用gpt预训练模型，其中gpt预训练模型为语言模型，GPT是OpenAI在论文《ImprovingLanguage Understanding by Generative Pre-Training》中提出的生成式预训练语言模型。在通过提示学习（prompt learning）范式利用gpt预训练模型中经过prompt learning任务判断诊断描述与传染病名称集合中的哪一个规范名称对应，并输出判断结果，其中，诊断描述为文本形式。获取诊断描述的集合并构建诊断描述和规范名称的样本组包括:记诊断描述的集合为集合A，记每个诊断描述为，集合A=，；记传染病名称集合为集合B，记每个规范名称为，集合B=，；记多个样本组构成的集合为集合C,记样本组为，集合C=。gpt预训练模型的输出结果为判断是否匹配，记输出结果为L,L包括是或否，其中是代表匹配，否代表不匹配。在通过提示学习（prompt learning）范式利用gpt预训练模型中，通过基于语言模型处理P(x)得到的logits（每个诊断描述隶属于传染病名称集合中的每个规范名称的概率值）并计算样本属于label类（诊断描述和传染病名称集合中的每个规范名称是否相似的二分类）的概率分布，基于概率分布输出结果L，并不需要计算诊断描述和输出结果的条件概率。上述，可以获取诊断描述的集合中的诊断描述在传染病名称集合中对应的规范名称，把输出的所有为是的结果过滤出来就是我们需要的链接结果。通过提示学习（promptlearning）范式，可以使我们一定程度上摆脱对标注数据的依赖，通过直接调用已经在大数据上训练好并发布的预训练模型，并通过给予模型提示信息的范式，把任务方式修改为通过标准模板的提示信息和输入直接使用现有模型来得出任务结果。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本申请的实施方式，但是本领域技术人员可以在不脱离本申请的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于提示学习模型的传染病预警直报方法，其特征在于，包括如下步骤：

S1、获取不同医院的原始诊断疾病数据，提取所述原始诊断疾病数据中的诊断描述；基于所述诊断描述构建诊断描述的集合；所述诊断描述为医生通过诊断得出的疾病名称；

S2、获取不同传染病的规范名称，基于所述规范名称构建传染病名称集合；

S3、基于语言模型对诊断描述的集合中的每个诊断描述与传染病名称集合中的每个规范名称进行比对，判断是否匹配，当任一诊断描述与任一规范名称判断为匹配时上报预警；

所述基于语言模型对诊断描述的集合中的每个诊断描述与传染病名称集合中的每个规范名称进行比对，判断是否匹配包括：

S31、训练用于构建匹配诊断描述与规范名称的语言环境的语言模型；

S32、将诊断描述的集合中的任一诊断描述和传染病名称集合中任一规范名称进行两两组合构成多个样本组集合，多个样本组集合中的每个样本组包括一个诊断描述和一个规范名称；

S33、基于所述语言模型对每个样本组中的诊断描述和规范名称判断是否匹配；

其中，所述语言模型包括通过提示学习范式利用gpt预训练模型，gpt预训练模型将诊断描述的集合中的任一诊断描述和传染病名称集合中任一规范名称进行两两组合构成多个样本组集合，多个样本组集合中的每个样本组包括一个诊断描述和一个规范名称，经过提示学习任务判断诊断描述与传染病名称集合中的任一规范名称是否匹配，并输出判断结果；判断结果包括是或否，其中是代表匹配，否代表不匹配；

在通过提示学习范式利用gpt预训练模型中，基于gpt预训练模型获取每个诊断描述隶属于传染病名称集合中的每个规范名称的概率值，并计算诊断描述和传染病名称集合中的每个规范名称是否相似的二分类的概率分布，基于概率分布输出判断结果。

2.根据权利要求1所述的一种基于提示学习模型的传染病预警直报方法，其特征在于，所述将诊断描述的集合中的任一诊断描述和传染病名称集合中任一规范名称进行两两组合构成多个样本组集合，多个样本组集合中的每个样本组包括一个诊断描述和一个规范名称包括：记诊断描述的集合为集合A，记每个诊断描述为，集合；记传染病名称集合为集合B，记每个规范名称为，集合；记多个样本组构成的集合为集合C，记样本组为，集合。

3.一种基于提示学习模型的传染病预警直报系统，其特征在于，包括诊断描述集合构建模块、传染病名称集合构建模块和匹配模块；

所述诊断描述集合构建模块用于获取不同医院的原始诊断疾病数据，提取所述原始诊断疾病数据中的诊断描述；基于所述诊断描述构建诊断描述的集合；所述诊断描述为医生通过诊断得出的疾病名称；

所述传染病名称集合构建模块用于获取不同传染病的规范名称，基于所述规范名称构建传染病名称集合；

所述匹配模块用于基于语言模型对诊断描述的集合中的每个诊断描述与传染病名称集合中的每个规范名称进行比对，判断是否匹配，当任一诊断描述与任一规范名称判断为匹配时上报预警；

所述匹配模块包括模型训练单元、样本组合单元和判断单元；

所述模型训练单元用于训练用于构建匹配诊断描述与规范名称的语言环境的语言模型；

所述样本组合单元用于将诊断描述的集合中的任一诊断描述和传染病名称集合中任一规范名称进行两两组合构成多个样本组集合，多个样本组集合中的每个样本组包括一个诊断描述和一个规范名称；

所述判断单元用于基于所述语言模型对每个样本组中的诊断描述和规范名称判断是否匹配；

4.根据权利要求3所述的一种基于提示学习模型的传染病预警直报系统，其特征在于，所述将诊断描述的集合中的任一诊断描述和传染病名称集合中任一规范名称进行两两组合构成多个样本组集合，多个样本组集合中的每个样本组包括一个诊断描述和一个规范名称包括：记诊断描述的集合为集合A，记每个诊断描述为，集合；记传染病名称集合为集合B，记每个规范名称为，集合；记多个样本组构成的集合为集合C，记样本组为，集合。

5.一种计算机设备，包括存储器，处理器及存储在存储器上并在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-2任一项所述的方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-2任一项所述的方法。