CN115171870A

CN115171870A - 一种基于m-BERT预训练模型的就诊引导提示方法及系统

Info

Publication number: CN115171870A
Application number: CN202110370898.1A
Authority: CN
Inventors: 吴俊宏; 马仕强
Original assignee: Zhejiang Yuantu Interconnection Technology Co ltd
Current assignee: Zhejiang Yuantu Interconnection Technology Co ltd
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2022-10-11

Abstract

本发明涉及就诊引导提示系统技术领域，且公开了一种基于m‑BERT预训练模型的就诊引导提示方法及系统，所述系统包括显示模块、数据采集模块、数据存储模块、后台计算模块。该一种基于m‑BERT预训练模型的就诊引导提示方法及系统，在大数据分析和人工智能技术的基础上，通过患者初步提高的数据分析和深度计算给患者提供高可用性的病症候选项，辅助并引导患者在就诊时可以更加科学、合理、准确地描述自身的症状，提高就诊效率，缓解线下诊疗压力，为疫情防控和改善人民群众就医体验创造有利条件。

Description

一种基于m-BERT预训练模型的就诊引导提示方法及系统

技术领域

本发明涉及就诊引导提示系统技术领域，具体为一种基于m-BERT预训练模型的就诊引导提示方法及系统。

背景技术

近年来，为改善人民群众就医体验，互联网技术在医疗领域得到越来越广泛的应用，形式多样，其中比较成熟的应用有：线上问诊、导诊、预约挂号等。使用这些技术的前提，就是在缺少医生引导下，患者需要能够以非口语化的语言准确地表诉自身的症状，导诊系统会以这些作为科室推荐的依据，医生也是以之作为诊断依据。而这对医学术语不太熟悉的患者，尤其对年纪较大的患者是比较困难的。从而会出现表达不准确，不完整的问题，导致误导甚至误诊。

现在有一些用于采集患者病症的系统，有一些较为简单的引导提示，例如按患病发病部位进行划分，也有可根据拼音直接在病症库中搜索。这些系统还是会对患者的使用造成困扰，首先这些系统存储的病症集数据量大且繁杂，有些病症不适于直接按部位进行归类，其次还是比较考验对患者的医学知识储备，因为一些医学表诉方式较之日常表诉方式是相对生僻的。

面对这些问题若是有一套更加智能化的专家引导系统，根据患者初步的描述，辅之人工智能的一些自然语言处理的算法，提示可能的并发症以供患者选择，将更好地避免以上这类问题。

发明内容

针对现有技术的不足，本发明提出了一种基于m-BERT预训练模型的就诊引导提示系统，在大数据分析和人工智能技术的基础上，通过患者初步提高的数据分析和深度计算给患者提供高可用性的病症候选项，辅助并引导患者在就诊时可以更加科学、合理、准确地描述自身的症状，提高就诊效率，缓解线下诊疗压力，为疫情防控和改善人民群众就医体验创造有利条件。

为实现上述的一种基于m-BERT预训练模型的就诊引导提示方法及系统辅助并引导患者在就诊时可以更加科学、合理、准确地描述自身的症状，提高就诊效率，缓解线下诊疗压力目的，本发明提供如下技术方案：一种基于m-BERT预训练模型的就诊引导提示系统，所述系统包括显示模块、数据采集模块、数据存储模块、后台计算模块。

所述显示模块和数据采集模块采用的数据采集模型可以有多种不同形式，包括手机移动端的各种APP、小程序，电脑网页，也可以是医院自助终端。

所述数据存储模块，即数据库，用于存储各类数据，包括患者病历、病历库、疾病库等。

所述后台计算模块，用于计算推理预测候选病症，对应的硬件是计算服务器，对应的算法模块，会以多路并发的形式，在全量的病症库中从不同的角度，筛选出患者可能匹配的病症作为候选数据集，再由通过排序对候选集进行精准排序，推荐给患者。

进一步地，所述基于m-BERT预训练模型的就诊引导提示方法包括以下步骤，

步骤一，在一个患者的一轮操作中，同一个患者选择一系列病症的行为看作一个序列，这个序列看作一条数据，这样的数据组成的数据集被用来作为待训练的算法模型；

步骤二，使用医学领域的语料对算法模型进行迁移学习；

步骤三，将患者选择病症的序列作为训练数据集进行训练；

步骤四，当完成训练后，根据模型的评估指标选出训练成功的模型，用于进行推理，生成预测模型。

其中，所述迁移学习具体包括以下内容，

训练过程一、对常规的MLM和NSP两种方式的使用作出改进，将某一种疾病可能的病症作为训练集，并从3个维度进行类似MLM的学习过程，首先是字层面的mask，即随机mask掉中文中的一字，然后去预测这个词，然后采用词语级别的mask让模型预测这些词组，在这个阶段，词组的信息被编码到词向量中，最后是病症的mask处理，模型训练完成后，就学习到了这些实体的信息。

训练过程二、对常规的MLM和NSP两种方式的使用作出改进，将不同疾病的病症输入，由模型去判断这两个疾病是否属于用一个科室的病症，这一过程视为在科室层面上的归属信息编码到word embedding中，这里得到一个分类loss。

进一步地，以上所述训练过程一、所述训练过程二两个训练过程共享模型参数，4个loss加权后得到总的Loss，再根据这个Loss进行模型参数调节。

进一步地，以上所述训练过程一、所述训练过程二两个训练过程迁移学习完成后的m-BERT模型，嵌入到算法模块中使用时，取最后四层transformer Encoder的隐层CLS输出，作最大池化处理，得到的向量包含这组训练数据的所有信息，考虑到不同的人由于性别、年龄、身高、体重以及过往病史存在差异，最后将其他辅助特征合并到这个向量输入全连接层，辅助特征的加入可理解为加入更多规则，对推荐结果可以进一步修正，全连接层有10个输出，作为候选病症集，通过softmax层得到不同病症的推荐概率。

进一步地，以上所述训练过程一、所述训练过程二两个训练过程迁移学习完成后的m-BERT模型内部由12层transformer Encoder层组成，每个transformer Encoder层先经过多头自注意力模块，再进行残差连接，残差连接后的结果作归一化处理后作为最后的输出，即一层transformer Encoder的输出，

其中多头自注意力模块是利用多个不同的自注意力模块获得文本中每个字在不同语义空间下的增强语义向量，并将每个字的多个增强语义向量进行线性组合，从而获得一个最终的与原始字向量长度相同的增强语义向量。

其中，所述自注意力模块，目标字及其上下文的字都有各自的原始Value，Attention机制将目标字作为Query、其上下文的各个字作为Key，并将Query与各个Key的相似性作为权重，把上下文各个字的Value融入目标字的原始Value中，Attention机制将目标字和上下文各个字的语义向量表示作为输入，首先通过线性变换获得目标字的Query向量表示、上下文各个字的Key向量表示以及目标字与上下文各个字的原始Value表示，然后计算Query向量与各个Key向量的相似度作为权重，加权融合目标字的Value向量和各个上下文字的Value向量，作为Attention的输出，即目标字的增强语义向量表示，同理对于输入文本，对其中的每个字分别增强语义向量表示，分别将每个字作为Query，加权融合文本中所有字的语义信息，得到各个字的增强语义向量。

进一步地，所述训练的过程包括以下内容，

a)患者的点击病症序列数据作为输入，这些病症依照点击顺序形成成对的输入格式；

B)患者的数据被输入到m-BERT层进行处理，m-BERT层选择性的保留数据中重要信息，忽略不重要的信息，并输出两次推理的深层表达信息A2′和A3′；

c)深层表达信息A2′和A3′以及对应的辅助特征一起输入到前向反馈层中，并由其中的损失函数处理计算出损失。

d)在不断训练过程中，模型会根据loss不断反向调整模型参数，当完成训练后，用户可以根据模型的评估指标选出训练成功的模型，用于推理。

进一步地，所述推理过程与训练过程基本相似，主要差异在于训练过程中病症逐个预测，即有一个由前n个病症预测第n+1个病症的过程，而推理时直接输入所有已知病症，从而生成所有病症成为患者下一次点击对象的概率，概率最高的前10名的病症里如果包含真实结果，则表示推理成功

与现有技术相比，本发明提供了一种基于m-BERT预训练模型的就诊引导提示方法及系统，具备以下有益效果：

本一种基于m-BERT预训练模型的就诊引导提示方法及系统，结合人工智能技术中的NLP技术针对医疗这一垂直领域，提出了一种基于m-BERT预训练模型的就诊引导提示系统，可辅助患者应用的交互系统，增强智能性。就病症分析这类特殊的语料，针对性地改进了基础BERT的使用，区别于传统推荐方法的相似度衡量(数学统计)，本发明提出的方法从自然语言的角度出发，深度挖掘语言背后的逻辑关联。本发明的算法模块可嵌入不同的应用场景，有很好的移植性、适用性。

附图说明

图1为本发明系统框架图；

图2为本发明训练过程数据流示意图；

图3为本发明推理过程数据流示意图；

图4为本发明m-BERT迁移学习模型架构图；

图5为本发明模型整体网络结构图；

图6为本发明自注意力机制示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-6，下面将结合附图对本发明具体方案作进一步说明。

一种基于m-BERT预训练模型的就诊引导提示系统，系统包括显示模块、数据采集模块、数据存储模块、后台计算模块，结合图1进一步说明。

显示模块和数据采集模型可以有多种不同的形式，例如手机移动端的各种APP、小程序，电脑网页也可以是医院自助终端；

数据存储模块即数据库，主要用于存储各类数据，例如患者病历、病历库、疾病库等；

后台计算模块，主要用于计算推理预测候选病症，对应的硬件是计算服务器，对应的算法模块，会以多路并发的形式，在全量的病症库中从不同的角度(标签匹配、深度模型、热门等)筛选出患者可能匹配的病症作为候选数据集，然后再由通过排序对候选集进行精准排序，推荐给患者。

模型的核心思想是在一个Session(患者的一轮操作)中，同一个患者选择一系列病症的行为看作一个序列，这个序列可以看作一条数据，这样的数据组成的数据集将被用来训练算法模型，训练过程的数据流如图2所示，将患者选择病症的序列作为训练数据集进行训练，如图中的患者A、患者B、患者C点击的数据。模型使用这些数据进行训练的过程如下所示：

患者的点击病症序列数据作为输入，这些病症将会依照点击顺序形成成对的输入格式，以患者A的数据为例，鼻塞对应的词向量A1是第一时刻的输入，其对应的推理输出就是鼻塞对应的词向量A2，依次类推。

患者A的数据将被输入到m-BERT层进行处理，m-BERT层会选择性的保留数据中重要信息，忽略不重要的信息，并输出两次推理的深层表达信息A2′和A3′。m-BERT的具体实现过程可参考后面的解释说明。

深层表达信息A2′和A3′以及对应的辅助特征一起输入到前向反馈层中，并由其中的损失函数处理计算出损失(LOSS)。

在不断训练过程中，模型会根据LOSS不断反向调整模型参数。当完成训练后，用户可以根据模型的评估指标选出训练成功的模型，用于推理。

结合图3，推理过程与训练过程基本相似，主要差异在于训练过程中病症逐个预测，即有一个由前n个病症预测第n+1个病症的过程，而推理时直接输入所有已知病症，从而生成所有病症成为患者下一次点击对象的概率。概率最高的前10名的病症里如果包含真实结果，则表示推理成功。

对m-BERT中的数据处理过程进一步说明，近年来BERT是一个被越来越广泛应用的预训练模型，尤其是在NLP领域。BERT的具体的使用方式有两种，一种是作为特征转化工具，直接输入自然语言，取对应的词向量作为下游模型的输入，另一种是使用迁移学习或改进模型原有结构，获得不同于原模型的输出，再对其进行应用，本发明采用的则是后一种方式，

本发明提出的m-BERT由BERT-base改进得到，改进过程分两步进行，首先使用医学领域的语料对模型进行迁移学习，然后再将学习得到的模型用于上诉的训练、推理过程。

结合图4对迁移学习的进一步说明。由于本发明研究领域相比传统的NLP长语段有一定的差异，后者一般是单个或多个具有主谓宾结构的语段组成的，而前者研究的是一堆名词(病症)，并分析其相互间的关联性。因此，对常规的Masked Language Model(MLM，掩码语言模型)和Next Sentence Prediction(NSP，下一句预测模型)两种方式的使用也提出了改进。

不同于BERT原模型的MLM，在一句话中随机选择15％的词用于预测。对于在原句中被抹去的词，80％情况下采用一个特殊符号[MASK]替换，10％情况下采用一个任意词替换，剩余10％情况下保持原词不变。本发明提出将某一种疾病可能的病症作为训练集，并从3个维度进行类似上诉MLM的学习过程，首先是字层面的mask(遮掩)，即随机mask掉中文中的一字，然后去预测这个词，然后是采用词语级别的mask让模型预测这些词组，如：“肝区”、“痛胀”，在这个阶段，词组的信息就被编码到word embedding(词向量)中了，最后是病症(实体级)的mask处理，如：“腰胀乏力”，“恶心呕吐”，“肝区痛胀”等，模型在训练完成后，就学习到了这些实体的信息。图4的输入部分的虚线框表示将对应的字符进行mask处理，之后对其进行预测，3个级别的mask处理得到3个不同的loss(损失)。

不同于BERT原模型的NSP，输入两个句子并判断是否为连续的两个句子。本发明提出将不同疾病的病症输入，由模型去判断这两个疾病是否属于用一个科室的病症。这一过程可视为在科室层面上的归属信息编码到word embedding中。这里可以得到一个分类loss。

补充说明，以上两个训练过程共享模型参数，4个loss加权后得到总的Loss，再根据这个Loss进行模型参数调节。

补充说明，迁移学习完成后的m-BERT模型，嵌入到算法模块中使用时，如图5所示，取最后四层transformer Encoder的隐层CLS输出，作maxpool(最大池化)处理，得到的向量会包含这组训练数据的所有信息。考虑到不同的人由于性别、年龄、身高、体重以及过往病史存在差异，最后将其他辅助特征合并到这个向量输入全连接层。辅助特征的加入可理解为加入更多规则，对推荐结果可以进一步修正(已知有限病症相同的情况下，由于性别年龄的不同，推荐结果应当有差异)，例如男性不应该被推荐妇科病症。全连接层有10个输出，作为候选病症集，通过softmax层(使得概率和为1)可得到不同病症的推荐概率。

补充说明，m-BERT模型内部由12层transformer Encoder层组成。每个transformer Encoder层又是先经过多头自注意力模块，再进行残差连接(将多头自注意力模块的输入与输出直接相加)，残差连接后的结果作归一化处理后作为最后的输出，即一层transformer Encoder的输出。其中多头自注意力模块是利用多个不同的自注意力模块(Attention)获得文本中每个字在不同语义空间下的增强语义向量，并将每个字的多个增强语义向量进行线性组合，从而获得一个最终的与原始字向量长度相同的增强语义向量。

补充说明，自注意力模块，如图6所示，目标字及其上下文的字都有各自的原始Value，Attention机制将目标字作为Query、其上下文的各个字作为Key，并将Query与各个Key的相似性作为权重，把上下文各个字的Value融入目标字的原始Value中。Attention机制将目标字和上下文各个字的语义向量表示作为输入，首先通过线性变换获得目标字的Query向量表示、上下文各个字的Key向量表示以及目标字与上下文各个字的原始Value表示，(query，要去查询的；key，等着被查的；value，实质的特征信息)，然后计算Query向量与各个Key向量的相似度作为权重，加权融合目标字的Value向量和各个上下文字的Value向量，作为Attention的输出，即：目标字的增强语义向量表示。同理，对于输入文本，我们需要对其中的每个字分别增强语义向量表示，因此，我们分别将每个字作为Query，加权融合文本中所有字的语义信息，得到各个字的增强语义向量。

本发明结合人工智能技术中的NLP技术针对医疗这一垂直领域，提出了一种基于m-BERT预训练模型的就诊引导提示系统，可辅助患者应用的交互系统，增强智能性。就病症分析这类特殊的语料，针对性地改进了基础BERT的使用。区别于传统推荐方法的相似度衡量(数学统计)，本发明提出的方法从自然语言的角度出发，深度挖掘语言背后的逻辑关联。本发明的算法模块可嵌入不同的应用场景，有很好的移植性、适用性。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于m-BERT预训练模型的就诊引导提示系统，其特征在于：所述系统包括显示模块、数据采集模块、数据存储模块、后台计算模块。

2.一种基于m-BERT预训练模型的就诊引导提示方法，其特征在于：根据权利要求1所述的一种基于m-BERT预训练模型的就诊引导系统，所述基于m-BERT预训练模型的就诊引导提示方法包括以下步骤，

步骤二，使用医学领域的语料对算法模型进行迁移学习；

步骤三，将患者选择病症的序列作为训练数据集进行训练；

3.根据权利要求2步骤二所述的一种基于m-BERT预训练模型的就诊引导提示方法，其特征在于：所述迁移学习具体包括以下内容，

4.根据权利要求3所述的一种基于m-BERT预训练模型的就诊引导提示方法，其特征在于：

以上所述训练过程一、所述训练过程二两个训练过程共享模型参数，4个loss加权后得到总的Loss，再根据这个Loss进行模型参数调节。

5.根据权利要求3所述的一种基于m-BERT预训练模型的就诊引导提示方法，其特征在于：

以上所述训练过程一、所述训练过程二两个训练过程迁移学习完成后的m-BERT模型，嵌入到算法模块中使用时，取最后四层transformer Encoder的隐层CLS输出，作最大池化处理，得到的向量包含这组训练数据的所有信息，考虑到不同的人由于性别、年龄、身高、体重以及过往病史存在差异，最后将其他辅助特征合并到这个向量输入全连接层，辅助特征的加入可理解为加入更多规则，对推荐结果可以进一步修正，全连接层有10个输出，作为候选病症集，通过softmax层得到不同病症的推荐概率。

6.根据权利要求3所述的一种基于m-BERT预训练模型的就诊引导提示方法，其特征在于：

以上所述训练过程一、所述训练过程二两个训练过程迁移学习完成后的m-BERT模型内部由12层transformer Encoder层组成，每个transformer Encoder层先经过多头自注意力模块，再进行残差连接，残差连接后的结果作归一化处理后作为最后的输出，即一层transformer Encoder的输出，

7.根据权利要求6所述的一种基于m-BERT预训练模型的就诊引导提示方法，其特征在于：

所述自注意力模块，目标字及其上下文的字都有各自的原始Value，Attention机制将目标字作为Query、其上下文的各个字作为Key，并将Query与各个Key的相似性作为权重，把上下文各个字的Value融入目标字的原始Value中，Attention机制将目标字和上下文各个字的语义向量表示作为输入，首先通过线性变换获得目标字的Query向量表示、上下文各个字的Key向量表示以及目标字与上下文各个字的原始Value表示，然后计算Query向量与各个Key向量的相似度作为权重，加权融合目标字的Value向量和各个上下文字的Value向量，作为Attention的输出，即目标字的增强语义向量表示，同理对于输入文本，对其中的每个字分别增强语义向量表示，分别将每个字作为Query，加权融合文本中所有字的语义信息，得到各个字的增强语义向量。

8.根据权利要求2步骤三所述的一种基于m-BERT预训练模型的就诊引导提示方法，其特征在于：所述训练的过程包括以下内容，

9.根据权利要求2步骤四所述的一种基于m-BERT预训练模型的就诊引导提示方法，其特征在于：所述推理过程与训练过程基本相似，主要差异在于训练过程中病症逐个预测，即有一个由前n个病症预测第n+1个病症的过程，而推理时直接输入所有已知病症，从而生成所有病症成为患者下一次点击对象的概率，概率最高的前10名的病症里如果包含真实结果，则表示推理成功。