CN117708306A

CN117708306A - 基于层进式问答结构的医学问答架构生成方法及系统

Info

Publication number: CN117708306A
Application number: CN202410168381.8A
Authority: CN
Inventors: 白焜太; 杨雅婷; 宋佳祥; 刘硕; 许娟; 史文钊
Original assignee: Digital Health China Technologies Co Ltd
Current assignee: Digital Health China Technologies Co Ltd
Priority date: 2024-02-06
Filing date: 2024-02-06
Publication date: 2024-03-15
Anticipated expiration: 2044-02-06
Also published as: CN117708306B

Abstract

本发明公开了基于层进式问答结构的医学问答架构生成方法及系统，本方案利用电子病历文本结合层进式问答结构来进行医学问题和答案生成的技术框架，通过模仿医生层层递进式的提问方式，构建了一套完整的问题生成及问题回答框架，通过本方案提出的问答架构可以稳定准确的提取电子病历中的关键信息，并做出判断，然后送入后续的疾病诊断框架，提高医生获取患者关键信息的效率和准确率，降低误诊风险。

Description

基于层进式问答结构的医学问答架构生成方法及系统

技术领域

本发明属于医学文本数据处理技术领域，具体涉及基于层进式问答结构的医学问答架构生成方法及系统。

背景技术

基于人工智能技术的医学研究正在快速增长。医疗会话问答(CQA)任务旨在通过为患者提供一系列专业医疗服务来提高医疗保健的效率。CQA系统可以通过快速响应患者的需求并提供相关的医疗信息来改善患者在临床治疗过程中的体验。

一般情况下，在医生在接诊病人时，会有针对性的，循序渐进的问一些针对性的问题，通过病人的逐步回答来确认可能患有的疾病。

如：为确诊病人是否患有上呼吸道感染，医生可能会询问：有哪些症状(是否有喉咙痛、咳嗽、鼻塞、流鼻涕、打喷嚏、头痛、发热等)；这些症状出现了多长时间；是否有其它不适；是否有吃过感冒药或采取其他治疗措施等。

而在通过临床电子病历进行疾病诊断时，需要通过对已有的患者电子病历文本进行分析，通过模拟医生获取患者关键信息的方式来抽取我们需要的关键性信息作为最后疾病预测的依据。

综上，当前针对医疗问答生成的问题有：

1.对于问题的生成，前期需要人工构建规则模板，后期通过人工对问题进行填充生成，这种方式需要专家进行规则模板制定，后期也需要投入较多的人力进行手工填充。虽然问题生成的准确率较高，但是过于耗时耗力。

2.对于问题的回答，目前主流采取的都是利用RNN/LSTM/transformer进行语义理解，通过分析问题和原文本的关系，给出答案区间，但是这种语义理解的方式比较通用，无法保证答案的准确率。

发明内容

针对上述现有技术的不足，本申请提供基于层进式问答结构的医学问答架构生成方法及系统。

第一方面本申请提出了基于层进式问答结构的医学问答架构生成方法，包括以下步骤：

获取目标患者的电子病历文本；

从所述电子病历文本中提取出待训练文本，根据所述待训练文本构造出第一类训练数据，将所述第一类训练数据输入到预设的主题词识别模型中进行处理，识别出关键实体；

以所述关键实体为问题构建基础，结合预定义的第一提问模板生成一级问题，根据所述一级问题选取对应的第一答案模型；

选取包括所述关键实体的待训练文本构造出第二类训练数据，将所述第二类训练数据输入到预设的判断模型中对所述关键实体进行二级问题构建判断，如果所述关键实体符合二级问题构建，则结合预定义的第二提问模板生成二级问题，根据所述二级问题选取对应的第二答案模型，如果所述关键实体不符合二级问题构建，则判断所述关键实体为三类实体。

选取包含所述三类实体的待训练文本构造出第三类训练数据，将所述第三类训练数据输入到预设的三级问题生成模型中生成对应的三级问题，根据所述三级问题选取对应的第三答案模型；

根据所述一级问题、二级问题、三级问题、第一答案模型、第二答案模型和第三答案模型完成层进式医学问答架构的构建。

在一些实施例中，所述根据所述待训练文本构造出第一类训练数据，将所述第一类训练数据输入到预设的主题词识别模型中进行处理，识别出关键实体，包括：

根据所述待训练文本构造出第一类训练数据，所述第一类训练数据包括第一类文本和实体；

将所述第一类训练数据输入主题词识别模型中，通过主题词识别模型的bert结构生成所述实体的字符的向量表征，经过所述主题词识别模型中自定义的区间向量表征对所述第一类文本进行实体索引区间处理，最后通过全连接层输出预测的关键实体。

在一些实施例中，所述以所述关键实体为问题构建基础，结合预定义的第一提问模板生成一级问题，根据所述一级问题选取对应的第一答案模型，包括：

根据第一类是否型提问模板生成第一类是否型问题；

根据所述第一类是否型问题选取对应的第一答案模型，所述第一答案模型由bert和单层全连接层构成；

从所述第一类是否型问题中选取对应格式的一级问题训练数据，将所述一级问题训练数据输入所述第一答案模型中，完成对所述第一答案模型的训练。

在一些实施例中，所述选取包括所述关键实体的待训练文本构造出第二类训练数据，将所述第二类训练数据输入到预设的判断模型中对所述关键实体进行二级问题构建判断，如果所述关键实体符合二级问题构建，则结合预定义的第二提问模板生成二级问题，根据所述二级问题选取对应的第二答案模型，如果所述关键实体不符合二级问题构建，则判断所述关键实体为三类实体，包括：

根据包含所述关键实体的待训练文本构造出第二类训练数据，所述第二类训练数据包括第二类文本和关键实体；

将所述第二类训练数据输入双塔模型中，通过双塔模型的bert分别对所述第二类文本和所述关键实体进行预处理，通过双塔模型不同的池化层对bert输出的句向量和词向量分别进行特征提取和压缩，得到第二类文本的句向量和关键实体的词向量，将第二类文本的句向量和关键实体的词向量进行拼接后输入到全连接层，最后经过softmax分类输出判断结果；

所述判断结果包括：

如果所述关键实体出现在第二类文本的关键判断词的对应位置，说明所述关键实体符合二级问题构建，则结合预定义的第二提问模板生成二级问题；

如果所述关键实体出现在第二类文本的关键判断词的非对应位置，则说明所述关键实体不符合二级问题构建，此时判断所述关键实体为三类实体。

在一些实施例中，所述说明所述关键实体符合二级问题构建，则结合预定义的第二提问模板生成二级问题，包括：

根据第二类是否型提问模板生成第二类是否型问题；

根据所述第二类是否型问题选取对应的第一答案模型，所述第二答案模型由bert和单层全连接层构成；

从所述第二类是否型问题中选取对应格式的二级问题训练数据，将所述二级问题训练数据输入所述第二答案模型中，完成对所述第二答案模型的训练。

在一些实施例中，所述选取包含所述三类实体的待训练文本构造出第三类训练数据，将所述第三类训练数据输入到预设的三级问题生成模型中生成对应的三级问题，包括：

根据包括所述三类实体的待训练文本构造出第三类训练数据，所述第三类训练数据包括：包含标识符和三级实体的第三类文本以及待训练问题文本；

将所述第三类文本以及待训练问题文本输入到transformer模型中进行训练得到对应的三级问题。

在一些实施例中，所述根据所述三级问题选取对应的第三答案模型，包括：

根据包括所述三类实体的待训练文本和所述三级问题构造出三级问题训练数据；

将所述三级问题训练数据输入答案区间预测模型，通过答案区间预测模型的bert进行编码，通过答案区间预测模型的bert输出每个字符编码后对应的空间向量，经过全连接层之后，分别为每一个字符计算作为答案开头和结尾的logit值，最后经过Softmax预测相应的概率值，根据概率值得到预测答案区间。

第二方面本申请提出基于层进式问答结构的医学问答架构生成系统，包括文本获取模块、关键实体识别模块、第一问答模块、第二问答模块、第三问答模块和框架构建模块；

所述文本获取模块，用于获取目标患者的电子病历文本；

所述关键实体识别模块，用于从所述电子病历文本中提取出待训练文本，根据所述待训练文本构造出第一类训练数据，将所述第一类训练数据输入到预设的主题词识别模型中进行处理，识别出关键实体；

所述第一问答模块，用于以所述关键实体为问题构建基础，结合预定义的第一提问模板生成一级问题，根据所述一级问题选取对应的第一答案模型；

所述第二问答模块，用于选取包括所述关键实体的待训练文本构造出第二类训练数据，将所述第二类训练数据输入到预设的判断模型中对所述关键实体进行二级问题构建判断，如果所述关键实体符合二级问题构建，则结合预定义的第二提问模板生成二级问题，根据所述二级问题选取对应的第二答案模型，如果所述关键实体不符合二级问题构建，则判断所述关键实体为三类实体。

所述第三问答模块，用于选取包含所述三类实体的待训练文本构造出第三类训练数据，将所述第三类训练数据输入到预设的三级问题生成模型中生成对应的三级问题，根据所述三级问题选取对应的第三答案模型；

所述框架构建模块，用于根据所述一级问题、二级问题、三级问题、第一答案模型、第二答案模型和第三答案模型完成层进式医学问答架构的构建。

第三方面本申请提出一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

第四方面本申请提出一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述方法步骤。

本发明的有益效果：

本方案利用电子病历文本结合层进式问答结构来进行医学问题和答案生成的技术框架，通过模仿医生层层递进式的提问方式，构建了一套完整的问题生成及问题回答框架，通过本方案提出的问答架构可以稳定准确的提取电子病历中的关键信息，并做出判断，然后送入后续的疾病诊断框架，提高医生获取患者关键信息的效率和准确率，降低误诊风险。

附图说明

图1为本发明的总体流程图。

图2为SOTA模型的处理流程图。

图3为双塔模型处理流程图。

图4为答案区间预测模型处理流程图。

图5为本发明的系统原理框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制；相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

S100：获取目标患者的电子病历文本；

S200：从所述电子病历文本中提取出待训练文本，根据所述待训练文本构造出第一类训练数据，将所述第一类训练数据输入到预设的主题词识别模型中进行处理，识别出关键实体；

其中，采用最新的SOTA模型—PURE作为主题词识别模型进行实体识别，其实体识别部分的模型结构如图2所示，该模型功能为：通过bert生成token（字符）的向量表征，再加入模型自定义的区间向量表征，最后通过两层全连接层输出预测的关键实体及标签。

进一步的，主题词识别模型的训练数据（第一类训练数据）的格式为：

如：

第一类文本：“sentences”：[["咽","喉","痛","3","天","。","咳", "嗽", "发", "热", "1", "天"]]；

实体：“ans” ：[["咽","喉"],["咳","嗽"], ["痛"], ["发", "热"]]；

区间和标签：“ner”[[0,1,"part"][6,7,"symptom"],[8,9, "symptom"]]；

具体为：

第一类文本：咽喉痛3天, 咳嗽发热1天；

实体：咽喉、咳嗽、发热；

实体索引区间：【0，1】，【6，7】，【8，9】；

标签：part、symptom、symptom。

S300：以所述关键实体为问题构建基础，结合预定义的第一提问模板生成一级问题，根据所述一级问题选取对应的第一答案模型；

根据第一类是否型提问模板生成第一类是否型问题；

其中，第一类是否型提问模板为：“是否X？”，X指关键实体；从而生成第一类是否型问题；因为是否型问题，所以定义为二分类问题，采用的第一答案模型为bert+单层全连接层，训练第一答案模型用的数据格式（一级问题训练数据）如下表1所示:

表1

文本	问题	是/否（1/0）
			咳嗽3天，咽喉痛2天，无气喘.	是否咳嗽	1
咳嗽3天，咽喉痛2天, 无气喘.	是否气喘	0

上表为一级问题训练数据的格式表，其中，1代表是，0代表否。

S400：选取包括所述关键实体的待训练文本构造出第二类训练数据，将所述第二类训练数据输入到预设的判断模型中对所述关键实体进行二级问题构建判断，如果所述关键实体符合二级问题构建，则结合预定义的第二提问模板生成二级问题，根据所述二级问题选取对应的第二答案模型，如果所述关键实体不符合二级问题构建，则判断所述关键实体为三类实体。

所述判断结果包括：

其中，我们需要增加一个判断模型，来判断第一步识别出的关键实体X是否可以按“是否有X”的方式进行提问，如X为“咳嗽”，则可以正常生成问题，如X为“咽喉”，则判断所述关键实体为三类实体，需要进行三级问题生成，例如：“咽喉是否……”。

进一步的，如图3所示，我们采用的判断模型为sentencebert双塔模型，在bert（原始结构）的输出基础上使用两个不同的池化方式，然后再对两个池化后的结果进行了相似度计算再送入一个全连接层，通过softmax函数输出结果；

双塔模型的输入部分用同一个bert来处理，通过不同的池化方式（Avg-Pooling、Mean-Pooling），对Bert输出的句向量进一步特征提取、压缩，得到u、v ，针对当前的分类任务，我们将处理后的第二类文本（u）和关键实体（v）拼接后接入全连接网络，经softmax分类输出预测结果。

构造出的第二类训练数据如下表2所示:

表2

第二类文本	关键实体	关键实体出现在对应位置/关键实体出现在非对应位置（1/0）
			咳嗽3天，咽喉痛2天，无气喘。	咳嗽	1
咳嗽3天，咽喉痛2天，无气喘。	咽喉	0

上表为第二类训练数据的格式表，其中，1代表关键实体出现在对应位置，0代表出现关键实体在非对应位置；

例如：针对“咳嗽3天，咽喉痛2天，无气喘。”这句话，能够以“是否咳嗽？”进行提问，但是不能以“是否咽喉？”进行提问，所以双塔模型就是在训练识别出来的关键实体出现在关键词“是否“的位置，出现在非对应位置记为0，出现在对应位置记为1，如果是1就判断所述关键实体符合二级问题构建，则结合预定义的第二提问模板生成二级问题，否则判断所述关键实体为三类实体，本实施例中判断“咽喉”为第三类实体，进行三级问题生成，例如：“咽喉是否……”。

根据第二类是否型提问模板生成第二类是否型问题；

进一步的，在该步骤中的答案生成部分，因为与第一类是否型问题一致，都属于是否型问题，故与步骤S300中采用的答案生成模型类似，即bert+单层全连接层。

S500：选取包含所述三类实体的待训练文本构造出第三类训练数据，将所述第三类训练数据输入到预设的三级问题生成模型中生成对应的三级问题，根据所述三级问题选取对应的第三答案模型；

其中，在三级问题的问题生成部分，训练数据格式如表3所示：

构造出的第三类训练数据如下表3所示:

表3

第三类文本	待训练问题文本
		[BOS]咳嗽3天，咽喉痛2天，无气喘。[SEP]咽喉[EOS]	咽喉是否痛
[BOS]咳嗽3天，咽喉痛2天，无气喘。[SEP]痛[EOS]	疼痛/触痛的部位

上表为第三类训练数据表，其中，[BOS]表示begining of sequence，代表序列开始，序列开始标识符；[EOS]表示End of sequence，代表序列结束，序列结束标识符；[SEP]表示分隔两个输入句子；将所述第三类文本以及待训练问题文本输入到transformer模型中进行训练得到对应的三级问题。

其中，针对“疼痛/触痛的部位”的抽取型问题，没有采用传统的RNN/LSTM/transformer，而是采用了升级且经典的bert模型，具体模型结构

如图4所示，按照“[cls]问句[sep]文本”格式构造三级问题训练数据，其中，[cls]：放在句子的首位，表示句子的开始，就是classification的意思，通常会在bert等模型中出现；

将构造好的三级问题训练数据送入Bert 进行编码,Bert Encoder的输出为每个token所对应的空间向量。因为答案由文本中连续的token组成，所以预测答案的过程本质上是确定答案开头和结尾token所在的位置的过程，因此，经过全连接层之后，为每一个token（字符）分别作为答案开头和结尾的logit值，再经过Softmax层之后就得到了相应的概率值，经过数据后处理之后，便可得到预测答案区间Start/End Spa；

进一步的，数据后处理指的是：根据前面的logits值（分数区间0~1），设定一个阈值（如0.5），找到在起始情况下各个字符的分值以及结束情况下的分值，进行组合，保证结束区间的位置不在起始区间的前面（即起止字符可以重合，即只有一个字），一般来说答案区间大部分都是一个。

而针对“咽喉是否痛”的是否型问题，我们可以沿用前面步骤的第一答案模型/第二答案模型结构进行答案生成，即针对是否型问题的第三答案模型同样由bert+单层全连接层生成。

S600：根据所述一级问题、二级问题、三级问题、第一答案模型、第二答案模型和第三答案模型完成层进式医学问答架构的构建。

至此，针对电子病历的进行关键性且针对性的问题生成和问题回答都已完成，后续根据各个问题及其答案送入疾病诊断框架，这里不需赘述，通过试验，我们的问题生成部分与人工标注的问题对比，rouge_l：f达到了0.8512，在问题回答的二分类模型，准确率为99.63%，bert抽取式模型的f1值为0.9325。

所述文本获取模块，用于获取目标患者的电子病历文本；

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

在本公开所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上仅是本发明优选的实施方式，需指出的是，对于本领域技术人员在不脱离本技术方案的前提下，作出的若干变形和改进的技术方案应同样视为落入本权利要求书要求保护的范围。

Claims

1.基于层进式问答结构的医学问答架构生成方法，其特征在于：包括以下步骤：

获取目标患者的电子病历文本；

选取包括所述关键实体的待训练文本构造出第二类训练数据，将所述第二类训练数据输入到预设的判断模型中对所述关键实体进行二级问题构建判断，如果所述关键实体符合二级问题构建，则结合预定义的第二提问模板生成二级问题，根据所述二级问题选取对应的第二答案模型，如果所述关键实体不符合二级问题构建，则判断所述关键实体为三类实体；

2.根据权利要求1所述的方法，其特征在于：所述根据所述待训练文本构造出第一类训练数据，将所述第一类训练数据输入到预设的主题词识别模型中进行处理，识别出关键实体，包括：

3.根据权利要求2所述的方法，其特征在于：所述以所述关键实体为问题构建基础，结合预定义的第一提问模板生成一级问题，根据所述一级问题选取对应的第一答案模型，包括：

根据第一类是否型提问模板生成第一类是否型问题；

4.根据权利要求3所述的方法，其特征在于：所述选取包括所述关键实体的待训练文本构造出第二类训练数据，将所述第二类训练数据输入到预设的判断模型中对所述关键实体进行二级问题构建判断，如果所述关键实体符合二级问题构建，则结合预定义的第二提问模板生成二级问题，根据所述二级问题选取对应的第二答案模型，如果所述关键实体不符合二级问题构建，则判断所述关键实体为三类实体，包括：

所述判断结果包括：

5.根据权利要求4所述的方法，其特征在于：所述说明所述关键实体符合二级问题构建，则结合预定义的第二提问模板生成二级问题，包括：

根据第二类是否型提问模板生成第二类是否型问题；

6.根据权利要求5所述的方法，其特征在于：所述选取包含所述三类实体的待训练文本构造出第三类训练数据，将所述第三类训练数据输入到预设的三级问题生成模型中生成对应的三级问题，包括：

7.根据权利要求6所述的方法，其特征在于：所述根据所述三级问题选取对应的第三答案模型，包括：

8.基于层进式问答结构的医学问答架构生成系统，其特征在于：包括文本获取模块、关键实体识别模块、第一问答模块、第二问答模块、第三问答模块和框架构建模块；

所述文本获取模块，用于获取目标患者的电子病历文本；

所述第二问答模块，用于选取包括所述关键实体的待训练文本构造出第二类训练数据，将所述第二类训练数据输入到预设的判断模型中对所述关键实体进行二级问题构建判断，如果所述关键实体符合二级问题构建，则结合预定义的第二提问模板生成二级问题，根据所述二级问题选取对应的第二答案模型，如果所述关键实体不符合二级问题构建，则判断所述关键实体为三类实体；

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。