CN116052858A

CN116052858A - 一种基于bert和特征融合的智能导诊方法

Info

Publication number: CN116052858A
Application number: CN202310021037.1A
Authority: CN
Inventors: 张庆; 沈正飞; 张威; 张少华; 黄文胜; 王永安
Original assignee: Jiangsu Ruibo Information Technology Co ltd
Current assignee: Jiangsu Ruibo Information Technology Co ltd
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-05-02

Abstract

本发明提供一种基于BERT和特征融合的智能导诊方法，涉及自然语言处理领域。该基于BERT和特征融合的智能导诊方法，所述方法包括以下步骤：S1、以历史问诊数据集作为训练数据，采用Pytorch训练得到导诊模型；S2、导诊系统管理员根据医院科室就医规定，在导诊管理后台配置各科室导诊规则；S3、用户通过导诊前端应用发送导诊请求到导诊应用服务进行处理。基于本发明的智能导诊系统在四川口腔医院等医院投入使用，导诊的准确率患者比较满意；以及可以根据各个医院和科室不同实际情况灵活配置前置导诊规则的和导诊模型可以根据用户反馈持续进行优化的特点也受到了医院各科室人员的好评。

Description

一种基于BERT和特征融合的智能导诊方法

技术领域

本发明涉及自然语言处理领域中的文本多分类技术领域，具体为一种基于BERT和特征融合的智能导诊方法。

背景技术

传统的人工导诊很难在短时间内为大量的患者推荐准确的就诊科室，也难以达到医疗资源的高效利用。随着互联网技术的发展以及“互联网+医疗健康”服务体系的完善，智能导诊正在逐步取代传统的线下人工导诊服务，已经成为医疗领域未来发展的新方向。

目前常见的智能导诊系统使用方式有以下几种：一种是人体部位和症状列表相结合，患者需要点击人体图中不舒服的部位并选择身体出现的症状，如尉建锋等人申请了“一种智能导诊系统和方法”；第二种是疾病搜索，即患者在设定的疾病名称目录里找到自己所患有的疾病从而为其推荐相应的科室；第三种就是通过文本分类算法来实现，包括人工制定规则、基于机器学习和深度学习等算法，如周杨等人申请了“一种基于卷积神经网络的诊疗科室推荐方法与系统”；第四种为构建标准的医疗知识图谱，在构建好的医疗知识图谱中查找从患者主诉中识别到的症状、疾病等医疗实体，从而得到相应的科室，如张莹莹申请了“一种基于多模态知识图谱的智能导诊方法”。

上述智能导诊系统在一定程度上缓解了线下导诊人员的工作压力，缓解了患者“挂号难”的问题。但是，其设计模式仍有以下几点不足：首先是人体部位与症状列表相结合的方式能够提供的症状范围很有限；其次通过疾病搜索方式对患者的学习要求太高，因为存在大量的专业术语然而绝大多数患者自身所储备的医疗知识较少；基于医疗知识图谱的导诊方式需要投入大量的人力和物力，开发成本大幅增加；基于文本分类算法的智能导诊难点在于如何高效准确的表征患者主诉文本信息，患者主诉文本的口语化、多样化和稀疏化给科室分类效果带来了较大的影响。

2018年Googl e团队推出的BERT模型在许多自然语言处理任务中取得了领先的结果，随后国内外的许多研究开始将该模型应用到实际生活中的文本多分类任务中。

应用于中文的BERT模型采用了基于字符级别的分词机制，而现代汉语表达的语素单位是词语而不是字。因此，BERT原始的分词机制强行将医疗术语拆开会导致医疗术语信息的缺失，影响患者主诉文本的表征效果。比如“发烧”这个词语拆成字的话就变成了“发”和“烧”，将这两个字单独用字向量表示很难表征出“发烧”这个词语原有的语义。另外，科室分诊问题的研究对象是患者主诉文本，而患者主诉文本存在稀疏性问题。因此。解决BERT分词机制和患者主诉文本稀疏问题变得非常重要。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于BERT和特征融合的智能导诊方法，解决了现有技术中存在的缺陷与不足。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：一种基于BERT和特征融合的智能导诊方法，所述方法包括以下步骤：

S1、以历史问诊数据集作为训练数据，采用Pytorch训练得到导诊模型；

S2、导诊系统管理员根据医院科室就医规定，在导诊管理后台配置各科室导诊规则；

S3、用户通过导诊前端应用发送导诊请求到导诊应用服务进行处理；

S4、导诊应用服务将用户主诉文本发送到导诊模型，导诊模型执行文本分类任务并返回建议科室列表；

S5、导诊应用服务根据用户请求关键字和导诊规则，对科室列表进行过滤和排序，如果导诊科室列表不够明确，使用患者主诉问题和追问规则进行进一步追问，得出准确度较高的导诊科室列表，将处理后的科室列表返回给导诊前端应用并展示给用户。

优选的，所述步骤1中采用大量历史问诊数据作为训练/测试数据集和FCW-BERT模型进行训练，得到的导诊模型，可以准确地对比较口语化的用户输入的主诉文本(含症状类别、症状时长、严重程度描述和就医意图)进行识别，并结合患者人口学信息和导诊前置规则配置向患者推荐对应的就医科室，如果模型推荐的科室不够明确和准确，导诊服务可以基于患者主诉文本关联相关症状和规则进行进一步向患者追问，以进一步确定和推荐准确的就诊科室列表。

优选的，所述导诊系统包含三个部分：即应用层、服务层和模型层；

1)应用层是以微信小程序/公众号、web浏览器和导诊机器人等应用形式为用户提供主诉文本录入，导诊结果反馈等功能使用；

2)服务层是接收用户请求，调用导诊模型对用户输入的主诉文本进行预测分类得到候选科室列表，并根据患者人口学信息(如性别、年龄等)和预先配置的导诊规则对候选科室列表进行过滤，以及在导诊科室不明确情况下进行进一步追问；将最终导诊结果返回给应用层；

3)导诊模型层是对训练数据集进行整理、清洗等预处理，采用Pytorch框架训练得到导诊模型，并持久化供系统调用。

优选的，所述FCW-BERT模型由两部分组成：第一部分是通过改进的BERT从患者主诉文本信息中提取丰富的上下文语义信息，另一部分是基于注意力机制和多尺度CNN从人工特征中挖掘局部特征来缓解患者主诉文本稀疏问题，将上述两部分的输出向量进行拼接实现特征融合，随后将融合后的特征向量送到全连接层中并选取Softmax作为激活函数来获得样本属于各个科室的概率分布。

优选的，还包括多头注意力的工作原理。

计算自注意力时一般分为三步，首先是将query与每个key进行相似度计算来得到权重，最常用的计算相似度的方法是缩放的点积；然后使用Softmax函数对求得的权重进行归一化；最后将归一化后的权重与相应的value进行加权求和即可，为了提高计算效率，往往会把所有查询queries压缩成一个大的矩阵Q，同理可以得到矩阵K和V，目前矩阵Q、K和V常常是由输入矩阵A通过三个不同的线性变换W^Q、W^K和W^V得到，如式(1)所示，注意力函数的计算表达式如式(2)所示，其中，缩放系数d_m为词向量的维度。

(Q,K,V)＝(AW^Q,AW^K,AW^V) (1)

多头注意力是由多个自注意力堆叠而成，即将输入向量A平均分为多个部分然后分别使用缩放的自注意力计算并将计算结果进行拼接，最后通过线性变换W^O将词向量维度转换到原始大小，假设将输入词向量A平均划分成n个部分，则计算方式如式(3)和式(4)所示：

head_i＝Attention(A_iW_i ^Q,A_iW_i ^K,A_iW_i ^V) (3)

MultiHead(Q,K,V)＝Concat(head₁,...,head_n)W^O (4)

优选的，还包括在BERT原始分词机制的基础上融合词语级别的分词机制，具体流程如下：

1)从互联网在线医疗网站上抓取疾病名称、疾病别名、症状名称等医疗术语并去重，然后将上述词语扩充到Jieba字典和BERT原始字典中，Jieba字典扩充以后，Jieba分词模块会更加适用于医疗文本；

2)使用Jieba分词模块对输入的患者主诉文本进行分词，这里假设分词后的结果为word₁,word₂,...,word_n，接下来循环遍历每个词语word_i，如果word_i能够在BERT字典中匹配到，则保留word_i，否则将其拆分成每个字符char₁,char₂,...,char_m；

3)修改BERT预训练模型中的相关参数和权重，由于对BERT词典进行了扩充，因此需要修改词向量层中的词向量数量以及权重，其中字向量部分保持不变，词向量部分用词语中每个字符的原始向量的平均值来初始化。

(三)有益效果

本发明提供了一种基于BERT和特征融合的智能导诊方法。具备以下有益效果：

1、本发明中所提出的结合BERT、字词联合嵌入以及特征融合的患者主诉文本分类模型FCW-BERT与原始BERT相比，其科室分诊效果得到了显著性的提升，测试集上的整体准确率提升了0.96％，并且在之前预测比较差的几个科室上的分类准确率得到了显著的提升,如图5所示，这表明FCW-BERT在医疗术语上有着更好的表征效果并且特征融合操作捕捉到了交叉性比较高的科室间诸如疾病名称、症状之间的相关性和依赖性，提高了模型在交叉性较高科室上的泛化能力。

2、基于本发明的智能导诊系统在四川口腔医院等医院投入使用，导诊的准确率患者比较满意；以及可以根据各个医院和科室不同实际情况灵活配置前置导诊规则的和导诊模型可以根据用户反馈持续进行优化的特点也受到了医院各科室人员的好评。

附图说明

图1为本发明FCW-BERT模型框架结构示意图；

图2为本发明Transformer编码器结构示意图；

图3为本发明改进前后BERT的差异情况示意图；

图4为本发明FCW-BERT中使用的特征融合操作示意图；

图5为本发明两种模型在各个科室上的准确率示意图；

图6为本发明系统结构图示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：

如图1-6所示，本发明实施例提供一种基于BERT和特征融合的智能导诊方法，方法包括以下步骤：

S1、以历史问诊数据集作为训练数据，采用Pytorch训练得到导诊模型，采用大量历史问诊数据作为训练/测试数据集和FCW-BERT模型进行训练，得到的导诊模型，可以准确地对比较口语化的用户输入的主诉文本(含症状类别、症状时长、严重程度描述和就医意图)进行识别，并结合患者人口学信息和导诊前置规则配置向患者推荐对应的就医科室，如果模型推荐的科室不够明确和准确，导诊服务可以基于患者主诉文本关联相关症状和规则进行进一步向患者追问，以进一步确定和推荐准确的就诊科室列表；

导诊系统包含三个部分：即应用层、服务层和模型层；

FCW-BERT模型的整体框架如图1所示，从图1中可以看出该模型主要由两部分组成：第一部分是通过改进的BERT从患者主诉文本信息中提取丰富的上下文语义信息，另一部分是基于注意力机制和多尺度CNN从人工特征中挖掘局部特征来缓解患者主诉文本稀疏问题。在第一部分中，本发明对BERT的嵌入方式进行改进，即在原始分词方式的基础上融入词嵌入方式，这样可以在利用字嵌入分词的优势，又可以避免医疗术语被强行拆开而带来的语义丢失问题。在第二部分中，我们从各个科室中选取了共计243个常见疾病和症状作为人工特征，利用注意力机制、多尺度CNN以及最大池化操作来挖掘患者主诉文本与人工特征之间潜在的相关性和依赖性，从而缓解患者表述文本过短带来的稀疏问题。将上述两部分的输出向量进行拼接实现特征融合，随后将融合后的特征向量送到全连接层中并选取Softmax作为激活函数来获得样本属于各个科室的概率分布。接下来将详细阐述FCW-BERT中的主要模块。

1、BERT模型

BERT模型作为一个全新的端到端的深度学习模型，能够得到语义信息更加充分的动态词向量，这受益于带有注意力机制的Transformer结构，该结构将多头注意力与前馈网络结合从而使得注意力机制捕获到的重要信息更好的前向传播，该结构还融入了残差思想，避免了梯度消失问题，Transformer的编码器结构如图2所示，从图2中可以看到，Transformer结构形成了数据从下往上的流转，首先是输入层，输入部分包含了字向量和句子对向量，另外为了能够捕获句子中字的位置信息引入了位置向量，然后将上述三种向量进行加和操作。

接着将加和操作后的向量输入到多头注意力层中，多头注意力能够从多个子空间学习到每个字向量的权重，更好的捕捉到输入向量的上下文信息，经过多头注意力层的操作后，紧接着对向量采取了归一化操作，归一化操作不会导致文本信息的改变，只是为了便于计算对向量进行了缩放，归一化后的结果与多头注意力层的输入向量进行加和操作然后送入到两层神经网络中，然后对最后一层神经网络的输出进行归一化操作，多头注意力层是Transformer网络中核心部分，图2中右侧部分是多头注意力层的详细结构，接下来具体介绍多头注意力的工作原理。

(Q,K,V)＝(AW^Q,AW^K,AW^V)(1)

多头注意力是由多个自注意力堆叠而成，即将输入向量A平均分为多个部分然后分别使用缩放的自注意力计算并将计算结果进行拼接，最后通过线性变换W^O将词向量维度转换到原始大小。假设将输入词向量A平均划分成n个部分，则计算方式如式(3)和式(4)所示：

head_i＝Attention(A_iW_i ^Q,A_iW_i ^K,A_iW_i ^V) (3)

MultiHead(Q,K,V)＝Concat(head₁,...,head_n)W^O (4)

2、改进的BERT中文分词机制

本发明在BERT原始分词机制的基础上融合词语级别的分词机制，具体流程如下：

为了能够更好的理解改进前后BERT的差异，接下来以“胃一直不舒服嗳气”为例并且对比结果如图3所示，基于原始BERT分词机制会得到以下分词结果：

[‘[CLS]’,‘胃’,‘一’,‘直’,‘不’,‘舒’,‘服’,‘嗳’,‘气’,‘[SEP]’]。

而由于医疗术语“嗳气”存在于扩充后的BERT字典中，所以基于改进后的分词会得到以下分词结果：

[‘[CLS]’,‘胃’,‘一’,‘直’,‘不’,‘舒’,‘服’,‘嗳气’,‘[SEP]’]。

首先，该方法为了尽可能保留医疗术语中的语义信息，在BERT原始分词机制的基础上融入了词嵌入方法。另外，针对患者主诉文本稀疏问题，通过构建人工特征并利用注意力机制和多尺度卷积神经网络来挖掘患者主诉文本与各科室疾病名称以及症状之间的相关性和依赖性。

3、特征融合

FCW-BERT中采用的特征融合操作可见图4，由于BERT模型中特殊标记[‘CLS’]融合了非常丰富的上下文信息，因此选择它作为BERT的输出，并记作Out1,在使用注意力函数计算向量之间权重时，需要保持每个向量的维度一致，本章对训练的不同维度的词向量进行了多次测试，测试结果显示维度为300的词向量效果最好，因此词向量维度设置为300，而BERT的输出维度为768，所以先通过线性变换将其降至300，变换后的向量记作Out2，Out2与Out3进行注意力操作，这样做可以根据患者主诉文本信息与人工特征的各个特征间的依赖性和相关性对人工特征中的向量赋予不同的权重，然后将加权后的向量送入到多尺度CNN中来捕捉局部特征并采用最大池化操作进行降维，只保留显著特征，输出结果标记为Out5,最后将表征着患者主诉文本信息的向量Out2与从人工特征中额外捕捉到的关联性特征向量Out5进行拼接，完成最终的特征融合任务，将融合后的特征依次送入到全连接层和分类器中，得到最终的科室概率分布。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于BERT和特征融合的智能导诊方法，其特征在于：所述方法包括以下步骤：

2.根据权利要求1所述的一种基于BERT和特征融合的智能导诊方法，其特征在于：所述步骤1中采用大量历史问诊数据作为训练/测试数据集和FCW-BERT模型进行训练，得到的导诊模型，可以准确地对比较口语化的用户输入的主诉文本(含症状类别、症状时长、严重程度描述和就医意图)进行识别，并结合患者人口学信息和导诊前置规则配置向患者推荐对应的就医科室，如果模型推荐的科室不够明确和准确，导诊服务可以基于患者主诉文本关联相关症状和规则进行进一步向患者追问，以进一步确定和推荐准确的就诊科室列表。

3.根据权利要求2所述的一种基于BERT和特征融合的智能导诊方法，其特征在于：所述导诊系统包含三个部分：即应用层、服务层和模型层；

4.根据权利要求3所述的一种基于BERT和特征融合的智能导诊方法，其特征在于：所述FCW-BERT模型由两部分组成：第一部分是通过改进的BERT从患者主诉文本信息中提取丰富的上下文语义信息，另一部分是基于注意力机制和多尺度CNN从人工特征中挖掘局部特征来缓解患者主诉文本稀疏问题，将上述两部分的输出向量进行拼接实现特征融合，随后将融合后的特征向量送到全连接层中并选取Softmax作为激活函数来获得样本属于各个科室的概率分布。

5.根据权利要求4所述的一种基于BERT和特征融合的智能导诊方法，其特征在于：还包括多头注意力的工作原理。

(Q,K,V)＝(AW^Q,AW^K,AW^V)(1)

head_i＝Attention(A_iW_i ^Q,A_iW_i ^K,A_iW_i ^V) (3)

MultiHead(Q,K,V)＝Concat(head₁,...,head_n)W^O (4)

6.根据权利要求5所述的一种基于BERT和特征融合的智能导诊方法，其特征在于：还包括在BERT原始分词机制的基础上融合词语级别的分词机制，具体流程如下：