CN115588486A

CN115588486A - 一种基于Transformer的中医诊断生成装置及其应用

Info

Publication number: CN115588486A
Application number: CN202211407826.0A
Authority: CN
Inventors: 杨涛; 胡孔法; 王欣宇; 姜荣荣; 董海艳; 高晓苑; 李娉婷
Original assignee: Nanjing University of Chinese Medicine
Current assignee: Nanjing University of Chinese Medicine
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-01-10

Abstract

本发明公开了一种基于Transformer的中医诊断生成装置及其应用。本发明装置核心为KGET模型，该KGET模型包括Encoder层和Decoder层；Encoder层用于对临床表现文本进行编码，生成充分表达文本语义信息的特征向量，Decoder层针对输入的特征向量进行处理，预测最符合输入文本特征的中医诊断文本；KGET模型的构建过程提供使用知识图谱微调以及使用临床文本微调得到最终的中医诊断KGET模型，该模型可应用于基于自然语言处理文本生成技术模拟中医诊断中，能有效提高中医诊断信息的生成效果，并可用于可视化展示，直观观察临床信息与诊断之间的关系。

Description

一种基于Transformer的中医诊断生成装置及其应用

技术领域

本发明属于信息处理技术领域，尤其涉及一种基于Transformer的中医诊断生成装置及其应用。

背景技术

中医诊断是中医学的核心内容之一，其根据中医理论进行疾病诊察，判断疾病、辨别证候等，是中医临床制定治疗方案的前提和基础。中医诊断理论的分支体系较多，不同的中医专家在临床诊断中使用的诊断方法也不尽相同，导致临床诊断结果不一致。特别是中医“证”的诊断，需要中医专家根据个人认知对患者当前的疾病情况进行归纳总结，因而极具中医专家的个性思维特点，主观性较强，难以规范和统一。

从信息学角度而言，中医诊断可以转化为分类问题。由于中医诊断结果没有统一的规范和标准，如果将原始诊断作为分类标签，那么最终的分类标签会非常多，对分类模型而言无疑是一种灾难。为了解决这一问题，常规的做法是将意思相近的诊断进行合并，从而减少标签的类别。然而，人工规范的过程一定程度上会抹杀部分原始诊断表述的内涵，使得模型无法充分学习到原汁原味的专家诊断思维。如何解决这一问题，成为困扰中医诊断智能化发展的重要问题。

传统中医诊断模型通常将中医诊断问题转化为分类问题，按照分类任务可以分为单标签诊断和多标签诊断任务。常见的方法有SVM、KNN、CNN、RNN和LSTM等。针对单标签诊断任务，Xia C等利用SVM有效解决了心脏病患者诊断的二元分类问题。Zhou H等利用CNN模型提取舌象特征并利用分类器对不同体质进行分类。针对多标签诊断任务，Liu G P等利用ML-KNN来解决冠心病患者同时患多种证候诊断的问题。Liu Z等利用Transformer双向编码器和CRF模型利用多标签分类问题解决中医肺癌辨证问题。上述方法直接将中医诊断问题转化为分类问题，在标签种类过多或诊断结果较长时可能会存在着无法准确预测的问题，可能难以适应中医临床诊断复杂多变的情况。

发明内容

为解决现有技术的不足与缺陷之处，本发明的目的在于提供一种基于Transformer的中医诊断生成装置及其应用。

本发明是这样实现的，一种基于Transformer的中医诊断生成装置，该生成装置的核心为KGET模型，该KGET模型包括Encoder层和Decoder层；其中，Encoder层用于对临床表现文本进行编码，生成充分表达文本语义信息的特征向量，Decoder层针对输入的特征向量进行处理，预测最符合输入文本特征的中医诊断文本；

所述KGET模型的构建过程包括以下步骤：

(1)使用知识图谱微调

在步骤(1)中，将医疗文本利用BERT-BILSTM-CRF模型进行命名实体识别，抽取症状和诊断实体，同时对症状与诊断的关系进行相关性分析，构造“症状-诊断”图，利用模板的方式将图中的知识生成相应“症状-诊断”文本对，将其作为输入对KGET模型进行微调，提升模型根据症状推理出相应诊断的能力；

(2)使用临床文本微调

在步骤(2)中，提取医疗文本中的原始的临床表现与诊断结果，将其作为输入，并对KEGT模型进行二次微调，提升模型对原始医疗文本的语义学习能力，将两次微调后的模型作为最终的中医诊断KGET模型。

优选地，所述Encoder层由六个Transformer Encoder Layer和一个BILSTM Layer组成，其输入为文本进行Input Embedding并添加Positional Encoding生成文本的词向量，以保证在各Transformer Encoder Layer中在进行并行运算的同时能在一定程度上考虑到文本的相对位置信息；其中，Transformer Encoder Layer由多头注意力机制和全连接层组成，多头注意力机制由多个自注意力机制组成，自注意力机制通过W^Q、W^K和W^V三个预设矩阵，将文本的词向量转变为Self-Attention机制所需要的Q、K、V向量，进而计算出文本的Attention值，其计算公式如下所示：

其中，d_k为K向量的维度，Q、K、V分别为输入通过线性变阵矩阵W^Q、W^K和W^V计算得到的Q(查询)、K(键值)、V(值)矩阵。

优选地，在多头注意力机制中，将各字符的注意力值进行拼接后，多次进行Add&Norm即残差连接和LayerNorm操作，进而得到初步的隐藏层向量。

优选地，使用基于Transformer模型的BART预训练模型的Encoder端的参数，对Transformer Encoder进行初始化。

优选地，所述Encoder层中：

A、将ReLU激活函数转变为GeLU，且参数初始化服从正态分布N(0，0.2)；

B、BART的Encoder端最终隐藏层向量与Decoder端各层输出额外进行cross-attention操作，进而在预训练时以自回归的方式复原原始文本；同时，为防止模型中参数量过多而导致的过拟合问题，对各层Transformer Encoder Layer采取基于结构化的Dropout方式，即LayerDrop，通过在训练期间随机丢弃模型权重的方式从深层模型中采样子网络，进而提升模型的鲁棒性；

C、在Transformer Encoder端接入BILSTM，进一步增强模型学习上下文时序特征的能力。

优选地，所述Decoder端由6个Transformer Decoder Layer组成，使用BARTDecoder端的参数进行初始化，其结构与Encoder Layer类似，增加了Mask Self-Attention机制，进而在每个时间步上从左至右对中医诊断文本进行生成；其中，在进行生成任务时，模型的输出是依据时间步依次生成。

本发明进一步公开了上述中医诊断生成装置在基于自然语言处理文本生成技术模拟中医诊断中的应用。

本发明克服现有技术的不足，提供一种基于Transformer的中医诊断生成装置及其应用，本发明装置的核心KGET模型使用Transformer作为骨干网络，利用BILSTM模型增强模型的前后文语义理解能力，同时，利用从原始文本中抽取的症状和诊断实体，建立知识图谱，将其引入模型，提升文本生成的性能。此外，本发明对模型的encoder端和decoder端输出的隐藏层向量进行cross-attention计算并进行可视化，以加强模型的可解释性。

相比于现有技术的缺点和不足，本发明具有以下有益效果：

(1)将中医诊断问题转化为文本生成问题，作为一种信息转换和处理方式，利用自然语言处理文本生成技术模拟中医诊断过程；

(2)在大规模预训练模型BART的基础上进行fine-tuning，并引入先验知识，提高中医诊断生成效果；

(3)解析encoder端和decoder端隐藏层特征向量的交叉注意力权重，并将其映射到不同的字符上，并进行可视化展示，直观观察临床信息与诊断之间的关系。

附图说明

图1是本发明KEGT模型的结构和阶段流程图；

图2是交叉注意力权重(颜色越浅，注意力权重越大)。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

一、中医诊断生成装置介绍

本发明中医诊断生成装置核心和本质为KEGT模型，如图1所示，KEGT模型包括Stage1：使用知识图谱微调(fine-tuning by KG)和Stage 2：使用临床文本微调(Fine-tuning by Text)两阶段流程。在Stage1中，首先将医疗文本利用BERT-BILSTM-CRF模型进行命名实体识别，抽取症状和诊断实体，同时对症状与诊断的关系进行相关性分析，构造“症状-诊断”图，利用模板的方式将图中的知识生成相应“症状-诊断”文本对，将其作为输入对KGET模型进行微调，提升模型根据症状推理出相应诊断的能力。在Stage2中，提取医疗文本中的原始的临床表现与诊断结果，将其作为输入，并对KEGT进行二次微调，提升模型对原始医疗文本的语义学习能力。将两次微调后的模型作为最终的中医诊断模型。

KEGT模型的核心为Encoder层和Decoder层。Encoder层的作用是对临床表现文本进行编码，生成充分表达文本语义信息的特征向量。Decoder层针对输入的特征向量进行处理，预测最符合输入文本特征的中医诊断文本。

二、Encoder层

本发明Encoder层由六个Transformer Encoder Layer和一个BILSTM Layer组成，其输入为文本进行Input Embedding并添加Positional Encoding生成文本的词向量，以保证在各Transformer Encoder Layer中在进行并行运算的同时能在一定程度上考虑到文本的相对位置信息。其中，Transformer Encoder Layer由多头注意力机制和全连接层组成。其中多头注意力机制由多个自注意力机制组成，自注意力机制通过W^Q、W^K和W^V三个预设矩阵，将文本的词向量转变为Self-Attention机制所需要的Q、K、V向量，进而计算出文本的Attention值，其计算公式如下所示：

其中，d_k为K向量的维度，Q、K、V分别为输入通过线性变阵矩阵W^Q、W^K和W^V计算得到的Q(查询)、K(键值)、V(值)矩阵。为了避免模型网络层数过多对性能的影响，模型将各字符的注意力值进行拼接后并未直接送入全连接层，而是多次进行Add&Norm即残差连接和Layer Norm操作，进而得到初步的隐藏层向量。

为提升模型的训练效率，本发明选择使用基于Transformer模型的BART预训练模型的Encoder端的参数对本发明Transformer Encoder进行初始化。此外，在本发明Encoder层中，还有以下改进：

1)将ReLU激活函数转变为GeLU，且参数初始化服从正态分布N(0，0.2)；

2)BART的Encoder端最终隐藏层向量与Decoder端各层输出额外进行cross-attention操作，进而在预训练时以自回归的方式复原原始文本。同时，为防止模型中参数量过多而导致的过拟合问题，本发明对各层Transformer Encoder Layer采取了一种基于结构化的Dropout方式，即LayerDrop，通过在训练期间随机丢弃模型权重的方式从深层模型中采样子网络，进而提升模型的鲁棒性；

3)基于注意力机制的Transformer Encoder端虽然使用了Positional Encoding但无法捕获文本序列顺序信息，由于医案文本常是根据时间进行患者症状描述，模型需要准确理解患者的历史及最新症状，且文本中常存在一些否定词或后缀，如“无头痛”，“咳嗽缓解”等。因此，文本的时序信息至关重要。因此，本发明在Transformer Encoder端接入BILSTM，进一步增强模型学习上下文时序特征的能力。

BILSTM模型由前向LSTM和后向LSTM组成，其中LSTM是一种典型的循环神经网络，其中包含了记忆单元和门控制结构，解决了RNN结构无法长期记忆以及梯度爆炸和梯度消失等问题，可以充分利用文本上下文信息特征。

三、Decoder端

本发明Decoder端由6个Transformer Decoder Layer组成，使用BART Decoder端的参数进行初始化，其结构与Encoder Layer类似，增加了Mask Self-Attention机制，进而在每个时间步上从左至右对中医诊断文本进行生成。

在进行生成任务时，模型的输出是依据时间步依次生成。传统解码器使用的贪婪搜索方式在生成时只考虑将当前最大概率的结果作为输出，进而可能丢失可能潜在的最优序列，然而如果考虑全部的生成概率结果，则需要消耗较大的内存空间，需要的计算量极大。为避免相关问题，本发明采取了Beam Search Output的生成方式。Beam Search方式在每个时间步上都保持了最可能的几个假设，并选取具有总体最高概率的假设作为最终的生成句。本发明选择Beams数为3，即在每个时间步上保存概率最高的三个输出，进而达到约束搜索空间的目的。

四、知识训练

本发明基于由医案文本中抽取出的症状实体和中医诊断实体，并计算两两实体之间的皮尔逊相关性，变量X和Y为各症状和诊断分别根据医案构建的0、1矩阵，皮尔逊相关系数为两变量间协方差和两者标准差乘积的比值，其计算公式如下所示：

其中，Cov(X，Y)代表计算样本X、Y的协方差，σ_X、σ_Y分别代表X、Y的标准差，μ_X、μ_Y代表X、Y的均值。

以相关系数0.1为阈值，筛选“症状-诊断”关系，构造“症状-诊断”知识图谱。利用模板方法将相关知识转换为“症状-诊断”语句对，将其输入模型进行训练，实现将结构化的知识集成到预训练模型中，以加强模型根据症状推理诊断的能力。在此之后利用真实医案中临床表现与中医诊断进行二次微调，从而更好地实现中医诊断生成任务。

五、模型评估

1、基线模型

为了更加全面地评估本发明提出的中医诊断生成模型，本发明将本发明模型与state-of-the-art模型BART和CPT进行比较，并在消融实验中与BART+BILSTM、BART+KG进行比较。模型介绍如下：

(1)BART模型：一种用于预训练序列到序列模型的去噪自动编码器，为本发明模型预训练参数来源；

(2)CPT模型：一种中文预训练Transformer，其encoder与decoder端采取非平衡的结构；

(3)BART+BILSTM模型：在Transformer模型中加载BART模型的参数，并在其encoder端最后一层隐藏层向量后连接BILSTM；

(4)BART+KG模型：在BART模型的基础上在训练前将其通过知识进行微调。

2、实验参数设置

在本发明实验中，本发明使用python3.7.4、pytorch1.10和transformers 4.18.0作为实验框架，选取为以中文语料进行预训练的BART-BASE-CHINESE作为Transformer层的预训练参数，各包含6层Transformer encoder和6层Transformer decoder，其余各实验参数如下表1所示：

表1实验参数设置

3、评价指标

为更客观地对实验进行评价，本发明选择了BLEU、ROGUE和编辑距离三个指标对模型进行评估。

(1)BLEU是目前业界公认的文本生成模型评价指标，偏向于文本生成的精确率，其实质是指计算模型生成句与原句的相似度。首先，统计两者同时出现n-gram的次数，并取其中较小值作为最终匹配个数，再除以文本的总n-gram数，从而得到其n-gram下的精度得分P_n，其计算公式如下所示：

其中，Count为n元词在生成结果中出现的次数，

为参考文档中n元词的最大出现个数。在此基础上，对P_n求对数的算术平均数并加入长度惩罚因子BP，得到其评价BLEU值，其计算公式如下所示：

其中，c为机器生成文档的实际长度，r为参考文档的长度，W_n＝1/n,exp表示指数函数。

(2)ROGUE是计算模型生产句与原句的相似度，但更偏向于模型的召回率，本发明使用ROGUE1和ROGUE2指标对模型的生成性能进行评估。ROGUE-N的计算公式如下所示：

其中，

代表在参考文档中N-gram的个数，

代表参考文档和生成文档中共有的N-gram个数。

(3)编辑距离，即莱温斯坦距离，为针对衡量两个字符串差异程度的量化指标，即反映了至少需要经过多少次处理才能将一个字符串转化为另一个字符串，许可的操作包括插入、删除和替换一个字符，进而在总体上衡量两个字符串的相似程度。其计算公式如下所示：

其中，min运算中第一、第二和第三个公式分别表示删除、插入和替换操作，min表示取各步骤中的最小值。

表示当a_i＝b_j时其值为0，其他时候为1。

4、结果及讨论

本发明从以下方面对模型进行比较：

(1)首先将本发明模型与BART、CPT相关基线模型进行比较，其结果如表2所示：

表2模型结果对比

注：加粗的为表现最佳的结果，其中Edit Dict的值越低表现越好。

由上述结果可知，KGET模型在BLEU、ROGUR1、ROGUE2和Edit Dict分别为45.85、73.93、54.59、7.12，相较于相较于BART模型，在BLEU、ROGUR1、ROGUE2分别提升了5.0、1.99、3.29，在Edit Dict上降低了0.47；相较于CPT模型，在BLEU、ROGUR1、ROGUE2分别提升了5.43、1.65和0.51，在Edit Dict上降低了1.25。在所有指标上的表现均优于基线模型。

为查看知识和长短时记忆网络的引入对模型的潜在影响，本发明分别计算了KEGT和BART模型在encoder端和decoder端隐藏层特征向量的交叉注意力值，并将其映射到不同的字符上，并进行可视化展示，其结果分别如图2所示。

从图2中可以看出，KGET模型所生成的“风痰淤阻上蒙”与“头晕昏胀疼痛，视物模糊，动则恶心呕吐”字符相关性较高、“清阳失用”与“视物模糊”字符的相关性较高。BART模型所生成的“风痰上扰”这一诊断与“自觉头晕”、“，”字符的相关性较高，“清阳失用”与“头晕昏胀疼痛”、“，”字符的相关性较高。由此可知，KGET模型所产生的注意力分布能能够较好地捕捉中医诊断与临床表现之间的相关性，相较于BART模型，且注意力分布更为合理。

5、消融实验

KEGT在BART基础上引了BILSTM和知识图谱KG，为了证明引入BILSTM和知识图谱KG的有效性，本发明分别就引入KEGT与BART、BART+BILSTM、BART+KG进行比较。结果见表3。

表3模型结果对比

注：(a)代表引入BILSTM前后模型对比，(b)代表引入知识前后模型对比，加粗部分为最优结果。

从上表3可以看出：

(1)对比BART+BILSTM与BART模型，结果显示：引入BISLTM后，模型在BLEU、ROGUE1、ROGUE2分别提升了4.89、2.40、3.01，Edit Dict降低了0.39，证明在encoder端隐藏层后引入BILSTM层有助于模型加强对文本前后文语义的理解。

(2)对比BART+KG与BART模型，结果显示，引入KG后，在BLEU、ROGUE1、ROGUE2分别提升了4.41、1.89、1.74，Edit Dict降低了0.34，证明知识引入对模型性能有显著提升。

6、人工评估

为评价中医诊断文本生成的有效性，本发明使用KGET模型对测试集中选取的五十个案例进行中医诊断生成，并通过调查问卷的方式，邀请了在肺癌诊疗上拥有丰富经验的四位中医师进行人工评估。对每个生成的中医诊断文本有“不相关”、“比较不相关”、“一般相关”、“比较相关”和“非常相关”五个选项可供选择，每个选线分别赋值0.2、0.4、0.6、0.8和1。邀请四位中医师对50条案例进行评估，将评估结果得分进行加权平权，最终结果为0.7879，总体接近于“比较相关”的结果，证明KGET模型在中医诊断文本生成任务上较为接近原始诊断结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Transformer的中医诊断生成装置，其特征在于，该生成装置的核心为KGET模型，该KGET模型包括Encoder层和Decoder层；其中，Encoder层用于对临床表现文本进行编码，生成充分表达文本语义信息的特征向量，Decoder层针对输入的特征向量进行处理，预测最符合输入文本特征的中医诊断文本；

所述KGET模型的构建过程包括以下步骤：

(1)使用知识图谱微调

(2)使用临床文本微调

2.如权利要求1所述的中医诊断生成装置，其特征在于，所述Encoder层由六个Transformer Encoder Layer和一个BILSTM Layer组成，其输入为文本进行InputEmbedding并添加Positional Encoding生成文本的词向量，以保证在各TransformerEncoder Layer中在进行并行运算的同时能在一定程度上考虑到文本的相对位置信息；其中，Transformer Encoder Layer由多头注意力机制和全连接层组成，多头注意力机制由多个自注意力机制组成，自注意力机制通过W^Q、W^K和W^V三个预设矩阵，将文本的词向量转变为Self-Attention机制所需要的Q、K、V向量，进而计算出文本的Attention值，其计算公式如下所示：

3.如权利要求2所述的中医诊断生成装置，其特征在于，在多头注意力机制中，将各字符的注意力值进行拼接后，多次进行Add&Norm即残差连接和Layer Norm操作，进而得到初步的隐藏层向量。

4.如权利要求2所述的中医诊断生成装置，其特征在于，使用基于Transformer模型的BART预训练模型的Encoder端的参数，对Transformer Encoder进行初始化。

5.如权利要求2所述的中医诊断生成装置，其特征在于，所述Encoder层中：

6.如权利要求1所述的中医诊断生成装置，其特征在于，所述Decoder端由6个Transformer Decoder Layer组成，使用BART Decoder端的参数进行初始化，其结构与Encoder Layer类似，增加了Mask Self-Attention机制，进而在每个时间步上从左至右对中医诊断文本进行生成；其中，在进行生成任务时，模型的输出是依据时间步依次生成。

7.权利要求1～6任一项所述中医诊断生成装置在基于自然语言处理文本生成技术模拟中医诊断中的应用。