CN112002409A

CN112002409A - 一种中医辅助诊断系统

Info

Publication number: CN112002409A
Application number: CN202010732178.0A
Authority: CN
Inventors: 袁锋; 徐传杰; 郑向伟; 于凤洋
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2020-11-27

Abstract

本发明公开了一种中医辅助诊断系统，包括：数据获取模块，用于获取中医诊断文本与对应疾病，构建训练集；模型构建模块，用于根据训练集分别对双向LSTM网络和BERT网络进行训练，以训练后的双向LSTM网络和BERT网络构建得到中医辅助诊断模型；疾病预测模块，用于根据中医辅助诊断模型对待测中医诊断文本进行预测，输出预测疾病。结合双向LSTM网络和BERT网络构建中医辅助诊断模型，解决中医诊断数据中存在的中医专业词汇表达有限的问题以及中医文本中上下文信息不能够被充分利用的问题，实现根据中医临床症状预测诊断相应疾病。

Description

一种中医辅助诊断系统

技术领域

本发明涉及医药技术领域，特别是涉及一种中医辅助诊断系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

中医TCM可用作现代医学的补充疗法，在中医诊断中，中医执业医师对患者的相应证候进行分析，根据中医四种诊断方法获得的信息进行鉴别诊断，但是由于中医诊断存在模糊性和主观性，在诊断推理的过程中，容易发生误诊的情况，影响中医人工诊断的准确性；为此，可以通过建立中医临床诊治的智能辅助模型，帮助从业人员利用复杂的医学知识，在临床诊断决策中更有效，更快速地处理各种医学问题，避免遗漏以及重要信息和线索的丢失，从而为疑难杂症找到更多解决方案。

传统的中医辅助诊断模型采用综合分析法，结合数据挖掘技术，提出一种个人理解方法和统计分析方法，以探索中医疾病治疗的辩证法和治疗规律，但是由于个人水平和研究目的不同，结论相对主观且费时，结论推广相对较差；近年来，机器学习尤其是深度学习为中医临床诊断的辅助模型提供新方法，以从海量的医学数据中快速发现医生的学术思想和临床经验，如卷积神经网络、递归神经网络(RNN)以及fasttext，为了提高准确性，不少学者将attention机制引入到相关的模型中来；张诗如等人基于卷积神经网络提出了一种辅助诊断的模型，此模型可以通过人们的手腕脉搏诊断来对病人的病情进行诊断；Kale等人将现代LSTM应用于多元临床时间序列的大型数据集的工作并取得了不错的效果；胡秦安、于彤等人基于fasttext提出一种可以通过计算阴阳辩证法来进行辅助诊断的模型；以及使用神经网络和随机森林进行建模，在多类别分类的临床诊断中显示出很高的准确性，这些模型的输入可以是单词或字符，虽然避免传统方法存在的问题，但是在进行预测的时候不能够很好的表达中医文本中的上下文信息，相关学者指出中医医案分为望闻问切四个部分，这四个部分之间相互联系，相互依赖，所以在进行编码和训练时要充分利用上下文的信息，对上下文的信息要求较高；但是目前的模型缺乏对中医文本上下文信息的理解，不能充分利用中医文本的上下文信息。

Devlin等人提出的文本表示的预训练模型Bidirectional EncoderRepresentations from Transformers(BERT)包括两个阶段：首先，对BERT进行大量文本的预训练，其目标是屏蔽语言建模和下一句预测；其次，该预训练网络根据特定的任务，对标记的数据进行微调。该模型的第一步可以充分的利用上下文的信息，能够很好的解决在编码和训练时对中医上下文信息利用不充分的问题。

另外，虽然BERT模型已在中文维基百科文本上进行预训练，可以捕获中文的一般句法和语义信息；但是中医临床医案与一般领域文本有很大不同，中医临床医案包含许多中医领域特定的症状，综合症；且许多中医临床医案都以古代中文书写，其中的汉字在句子中可以具有不同的含义和顺序；而目前BERT模型仍然无法充分利用TCM临床注释文本中的四诊信息。

发明内容

为了解决上述问题，本发明提出了一种中医辅助诊断系统，结合双向LSTM网络和BERT网络构建中医辅助诊断模型，解决中医诊断文本中存在的中医专业词汇表达有限的问题以及中医文本中上下文信息不能够被充分利用的问题，实现根据中医临床症状预测诊断相应疾病。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种中医辅助诊断系统，包括：

数据获取模块，用于获取中医诊断文本与对应疾病，构建训练集；

模型构建模块，用于根据训练集分别对双向LSTM网络和BERT网络进行训练，以训练后的双向LSTM网络和BERT网络构建得到中医辅助诊断模型；

疾病预测模块，用于根据中医辅助诊断模型对待测中医诊断文本进行预测，输出预测疾病。

第二方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成以下步骤：

获取中医诊断文本与对应疾病，构建训练集；

根据训练集分别对双向LSTM网络和BERT网络进行训练，以训练后的双向LSTM网络和BERT网络构建得到中医辅助诊断模型；

根据中医辅助诊断模型对待测中医诊断文本进行预测，输出预测疾病。

第三方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成以下步骤：

获取中医诊断文本与对应疾病，构建训练集；

与现有技术相比，本发明的有益效果为：

本发明的中医辅助诊断模型包括两部分，双向LSTM网络作为模型第一部分解决了BERT模型对于中医诊断数据中存在的中医专业词汇表达有限的问题；BERT模型作为第二部分解决中医文本中上下文信息不能够被充分利用的问题，将BERT的输出与LSTM的输出点乘操作后进行预测，实现根据中医临床症状预测诊断相应疾病。

本发明对获取的中医诊断文本进行去除停用词的预处理，采用字符级输入的方式，避免由于中医文本的特征性无法对中医文本进行分词的问题。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的一种中医辅助诊断系统结构图；

图2为本发明实施例1提供的LSTM网络结构图。

具体实施方式：

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

如图1所示，本实施例提供一种中医辅助诊断系统，包括：

中医辅助诊断是指利用计算机建模技术辅助中医医师记录病情，及时诊断，辅助处方，进行一些远程医疗和教学的计算机辅助系统。具体任务是根据输入的一段中医诊断描述文本，预测最终的疾病诊断结果，例如，当输入“胸闷痛缓解，仍感神疲乏力，少气懒言”的症状时，预测此疾病是胸痹。本实施例提出一种基于BERT的中医辅助诊断模型，而中医医案文本语言与日常中所使用的语言有一定的差别，中医术语的四种独有的特点如下：

①模糊性。在中医理论中，许多概念无法进行明确定义，在表述上具有一定的模糊性，中医文本的模糊性在中医医案的表述中也是普遍存在的，如词语“胃火”、“肝火”、“肝阳”、“肾水”、“脾湿”，短语“痰湿困脾”、“水饮凌心”、“肝火上炎”、“湿热下注”等等。

②文言性。中医学成形于几千年前，具有鲜明的历史性，名词术语多为古代汉语，即使是现代的中医术语，也具有明显的古汉语特点；因此，中医医案文本也具有鲜明的文言性，诸如“从表达邪”即是利用药物使邪气自肌表而出，“培土生金”即是利用五行相生的理论用补益脾气的方法滋补肺气等，这些术语都是文言性，现代中医医案也依然在使用。

③固定性。中医医案文本的固定性是指组成和词序是固定的，比如在医案的望诊部分，舌诊是每个医师都要重点观察的部分，也是中医医案不可缺少的部分，而在中医医案的表述里，舌诊具有固定的格式；对于舌质，一般要描述舌色、质地，表述为“舌××或舌质××”，如“舌红”、“舌淡红”、“舌暗”、“舌质淡”、“舌质淡胖”等；对于舌苔，则要描述舌苔的颜色、润燥、厚薄，表述为“苔××”，如“苔薄白”、“苔腻”、“苔黄”等。

④非结构化。中医的诊疗流程是首先通过望、闻、问、切四种诊法获得病患的临床信息(即症状、体征)，判断人体内部气血阴阳、脏腑经络的改变、正邪的进退，进而得出病名，归纳出证型；然后根据辨出的证型进行辨证论治，确立治则治法，最后落脚到具体的治疗措施如中药、针灸、推拿等，从而达到治疗目的，这是一个连续的过程，被记录到医案中，所使用的都是中医专业术语，都是非结构化数据，难以被采集利用。

由于中医文本的特殊性，现有的切词工具不能很好的对中医文本进行分词，所以为了保证所用文本的质量，在本实施例中，对获取的中医诊断文本进行去除停用词操作，采用字符级输入方式。

由于原始BERT模型(中文版)已在中文维基百科文本上进行了预训练，因此可以捕获中文的一般句法和语义信息；但是中医临床医案与一般领域文本有很大不同，包含许多中医领域特定的症状、综合症等，许多中医临床记录都以古代中文书写，其中的汉字在句子中可以具有不同的含义和顺序，所以传统方法无法保证中医四诊信息文本中的上下文信息被充分利用；

为了解决预训练的BERT模型和TCM临床注释之间的空白与解决中医文本中的四诊信息不能够被充分利用的问题，本实施例提出中医辅助诊断模型，包括双向LSTM网络和Bert网络；

LSTM网络能够学习长期依赖关系，其中包括一组存储单元，单个存储单元的结构如图2所示，LSTM网络以两种方式传输先前的信息：输出或隐藏向量(由h表示)和状态向量(由c表示)使用三个门的组合，用于存储和传播长期依赖关系。门i称为输入门，其值将在状态向量中更新；门f称为“忘记门”，可以从以前可以丢弃的状态中学习信息，利用这两个门的输出，存储单元创建一个新的状态向量；门o称为输出门，可以生成存储单元的输出向量，在每个存储单元中使用以下方程式分别生成时刻t的输出向量和状态向量：

i_t＝σ(W_xi·x_t+W_hi·h_t-1+W_ci·c_t-1+b_i)，

f_t＝σ(W_xf·x_t+W_hf·h_t-1+W_cf·c_t-1+b_f)，

c_t＝f_t·c_t-1+i_t·tanh(W_xc·x_t+W_hc·h_t-1+b_c)，

o_t＝σ(W_xo·x_t+W_ho·h_t-1+W_co·c_t+b_o)，

h_t＝o_t·tanh(c_t)，

其中，W(例如W_xi)和b(例如b_i)是可训练的参数，r是符号函数，i、f、o、c和h是输入门、忘记门、输出门、状态向量和输出向量，本实施例的BiLSTM模型包含一个正向LSTM和一个反向LSTM，每个LSTM包含64个存储单元。

在本实施例中，第一部分双向LSTM层，本实施例只取得最后一个隐藏层状态，解决Bert对于中医诊断数据中存在很多专业词汇的表达有限的问题；

对双向LSTM进行训练包括：使用glove模型对预处理后的训练集进行训练，将其输入到双向LSTM网络中，双向LSTM分别从两个方向对其进行编码，最终输出300维的向量表示；

第二部分是从Bert模型中获得输出，解决中医文本中的上下文信息不能够充分被利用的问题；

对Bert进行训练包括：BERT根据输入的训练集生成向量表示、语义信息和位置信息，利用Transformer模型以及其独特的mask机制来进行训练获取上下文的信息，训练完成后输出一个300维的向量；

最后将Bert的输出经过avgpolling后，将其与从LSTM所获得的向量做点乘，经过softmax进行预测。

本实施例方法具有更高的准确性，首次将Bert用于中医领域，在一定程度上解决了运用Bert模型在解决中医领域的问题时，对于专业词汇不能充分表达的问题；改进后的模型不仅可以用于中医药领域，而且可以通过微调应用于其他特殊领域。

本实施例将TextCNN，TextRNN，FastText的些模型与本实施例所提出的模型进行比较，所有实验均在Nvidia GTX 1080和RTX2080 TiGPU上执行。

以收集的10000份心系疾病的中医医案为数据集，该数据集包含20000条记录，通过人工从这20000条数据中挑选出2333条可用于本次实验的数据，涉及5种疾病类别，即胸痹、痞证、眩晕、心悸和消渴，各种疾病的详细数据如表1所示，训练集包含1633条记录，测试集包含600条记录，平均字符数为316；

表1现代医案数据集语料规模

本实施例实验在文本预处理阶段使用NLTK工具对数据集中每一个问句及其对应的答案进行处理，处理过程包括大小写转换、词干还原、去停用词等，对于处理完的数据集合采用GloVe模型进行训练，训练得到300维的初始化词向量，不在词典中词的词向量初始化为300维的零向量；在优化器选择方面采用Adam，第一动量系数为0.9，第二动量系数为0.999，学习率采用[1×10^-9,4×10^-5,1×10^-7]，L2参数采用[1×10^-6,4×10^-7,1×10^-7]，batch_size大小为[64,128,256]，在校验集上选择最佳的参数，然后在测试数据集上评估性能。

为了评价本实施例提出模型的性能，本实施例采用F1、准确率(Acc)及MAP(MeanAverage of Precision)三个指标对实验进行评价，同时与7种不同的分类模型进行对比实验，包括：FastText、TextCNN、TextRN、TextRCNN、DPCNN、TextRNN_Att、Transformer；

实验结果：(1)采用基于n-grams的fasttext模型比TextCNN与TextRNN模型在MAP、F1及Accs三个评价指标要好，是因为在实验数据集中有大量的中医专有名词，因此n-grams特征能够发挥更好的效果，同时证明在特殊领域词向量训练十分有必要。

(2)采用基于TextRCNN方法在优于TextCNN、TextRNN及FastText三个模型，主要是TextRCNN结合了TextCNN及TextRNN两个模型的优点，使得两个模型互补，也证明虽然N-grams特征在中医诊断过程中有比较重要的作用，但随着深度学习网络模型的架构变的复杂，效果将低于深度学习模型。

(3)采用基于DPCNN方法在前五种方法中表现出非常差的结果，主要是DPCNN模型相对较为复杂，同时采用的数据集大多是短文本，证明并不是所有的任务应用深度学习方法都能取得不错的效果，在针对具体任务时应该选择适合任务的模型。

(4)采用基于TextRNN_Att方法均高于TextCNN、TextRNN、FastText、DPCNN及TextRCNN，是因为TextRNN_Att将注意力机制引入TextRNN，注意力机制捕捉文本序列特征，证明引入注意力机制能更好的辅助中医辅助诊断。

(5)采用Transformer的方法仅比DPCNN方法好一点，相对于其他几个模型在MAP、F1及Accs三个评价指标上都要差，主要是因为采用的数据集大多数短文本，Transformer相对更加复杂，在捕捉短文本特征时候表现出比较差的能力，证明Transformer模型不适合中医辅助诊断任务。

(6)本实施例所采用的基于Bert的中医辅助诊断方法，比以上所有的模型在MAP、F1及Acc值都有所提高，精确度达到了73.56％，融合中医的知识特征，对Bert模型进行微调，从而也表明本实施例提出的方法是一个有效的中医辅助诊断方法。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成以下步骤：

获取中医诊断文本与对应疾病，构建训练集；

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成以下步骤：

获取中医诊断文本与对应疾病，构建训练集；

该方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种中医辅助诊断系统，其特征在于，包括：

2.如权利要求1所述的一种中医辅助诊断系统，其特征在于，对获取的中医诊断文本进行去除停用词操作，采用字符级输入方式。

3.如权利要求1所述的一种中医辅助诊断系统，其特征在于，根据训练集对双向LSTM网络进行训练包括：将训练集输入至双向LSTM网络中，在输出向量和状态向量两个方向分别对训练集进行编码，输出多维度向量表示。

4.如权利要求3所述的一种中医辅助诊断系统，其特征在于，在对双向LSTM网络进行训练时，采用glove模型进行训练。

5.如权利要求1所述的一种中医辅助诊断系统，其特征在于，根据训练集对BERT网络进行训练包括：所述BERT网络根据输入的训练集生成向量表示、语义信息和位置信息，利用Transformer模型和mask机制获取训练集上下文的信息，输出多维度向量表示。

6.如权利要求1所述的一种中医辅助诊断系统，其特征在于，将BERT网络的输出结果与双向LSTM网络的输出结果点乘操作后，经过softmax分类函数进行疾病预测。

7.如权利要求1所述的一种中医辅助诊断系统，其特征在于，所述双向LSTM网络中包括输入门、忘记门和输出门，输入门、忘记门和输出门组合后生成双向LSTM网络的输出向量和状态向量，双向LSTM网络在输出向量和状态向量两个方向分别对训练集进行编码。

8.如权利要求7所述的一种中医辅助诊断系统，其特征在于，所述输入门在状态向量中更新；忘记门在丢弃的状态向量中学习信息，根据输入门和忘记门的输出，创建新的状态向量，由输出门输出向量。

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成以下步骤：

获取中医诊断文本与对应疾病，构建训练集；

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成以下步骤：

获取中医诊断文本与对应疾病，构建训练集；