CN116206755B

CN116206755B - 一种基于神经主题模型的疾病检测与知识发现装置

Info

Publication number: CN116206755B
Application number: CN202310501896.0A
Authority: CN
Inventors: 孙周健; 罗城; 丁鼐
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-08-22
Anticipated expiration: 2043-05-06
Also published as: CN116206755A

Abstract

本发明公开了一种基于神经主题模型的疾病检测与知识发现装置，由预处理模块对数据进行预处理，将每个入院记录重建为半结构化文本数据集，并作为训练数据；然后将训练数据输入患者画像分析模块，优化参数，得到患者典型画像信息及可以提取患者画像分布表征的模型；再将患者画像分布表征作为训练数据训练分类模块，得到辅助诊断模型。本发明可基于患者入院记录文本提取可解释文本表征并完成高性能分类，同时完成辅助诊断任务与辅助知识发现任务，利用目前难以被充分使用的医疗文本信息辅助完成临床决策支持任务。

Description

一种基于神经主题模型的疾病检测与知识发现装置

技术领域

本发明属于数据处理领域，具体涉及一种基于神经主题模型的疾病检测与知识发现装置。

背景技术

患者入院时的信息，例如主诉、现病史、既往史，通常以文本形式被记录在病程录内，并存储在医院的电子病历系统中。这些信息是医务人员进行诊断与了解疾病特征的主要证据。因此，医疗数据挖掘与人工智能研究十分关注这些信息，用计算机模拟人类，基于患者病程录进行辅助诊断和知识发现的研究在国内外均有开展。

辅助诊断与知识发现并非两个独立的任务，而是同一个任务的两个侧面，需要被同时解决。如果一个模型可以达到较高的辅助诊断精度，但是不可解释，无法基于模型抽取出任何人类可以理解的知识，我们会担忧模型是否真的通过可靠的证据完成诊断；另一方面，如果一个模型可以从数据中发现知识（如识别出疾病风险因子），但是疾病预测精度较低，我们则可能质疑模型发现的知识是否足够可靠。通常，模型仅在可以达到较高预测精度，并能够被证明是基于可靠的知识开展决策的情况下，才可能获得人们的信任。

目前，主题模型和深度学习模型是常见的两种基于文本完成辅助诊断的方法。其中具备代表性的工作包括，Kim等人使用主题模型，结合结构化数据，分析医疗文本数据预测败血症（Nat. Comm.,2021. 12:711）；Yao等人使用BERT这一深度学习模型，对中医文本进行诊断（J. Am. Med. Inform. Assoc., 2019.26(12):1632-6）；Geraci等人使用深度神经网络，基于医疗文本数据进行抑郁障碍分型（Evid. based Ment. Health, 2017.20:83-7）。但均无法达成高效、可解释的辅助诊断。深度学习模型通常能够达到较高的性能，但是不具备可解释性，无法为医务人员提供任何知识。基于主题模型的方法则因为技术路线本身的特点，难以达到较高的预测性能。

发明内容

本发明的目的在于针对现有技术中的不足，提供了一种基于神经主题模型的疾病检测与知识发现装置；克服现有医疗文本分析方法性能与可解释性不能兼顾的缺陷，以医务人员可以理解的方式挖掘医疗文本信息并完成疾病检测，实现基于文本的辅助诊断和知识挖掘，从而利用目前难以被充分利用的医疗文本信息辅助完成临床决策支持任务。

为实现上述目，本发明提供了一种基于神经主题模型的疾病检测与知识发现装置，包括：

数据预处理模块：用于采集患者的电子病历数据，并提取电子病历中入院记录的文本数据，对文本数据进行预处理，基于出院诊断对患者所患疾病进行标注，得到训练样本；

患者画像分析模块：用于构建基于神经主题模型的疾病文本分析模型，以数据预处理模块得到的训练样本作为输入，以所述训练样本的文本内容所对应的疾病作为输出，在神经主题模型中引入辅助损失集，基于反向传播算法对神经主题模型进行训练，对神经主题模型的参数进行调节，直到收敛，得到训练完成后的疾病文本分析模型；所述疾病文本分析模型用于提取可解释的患者文本表征；

分类模块：用于实现线性分类器，以患者画像分析模块得到的患者文本表征作为输入，以所述患者文本表征对应的疾病作为输出，使用反向传播算法对线性分类器进行训练，对相关参数进行调节，直到收敛；得到训练完成的线性分类器，实现基于患者文本表征的疾病检测。

进一步地，所述数据预处理模块中，所述电子病历数据的入院记录包括以文本形式记录的“患者人口学信息”、“现病史”、“既往史”、“主诉”、“个人史”。

进一步地，所述数据预处理模块中，对文本数据进行预处理具体为：提取电子病历中的所需信息，将每个患者的电子病历数据中提取的信息整合为一个文本数据，并将每名患者的文本数据转换为词袋表达，随后基于TF-IDF算法，从患者词袋表达数据中提取出最重要的词汇集合，并丢弃剩余词汇，从而将患者的每份文本数据整理为一个向量。

进一步地，所述患者画像分析模块中，所述辅助损失集包括对比损失函数、知识蒸馏损失函数和主题多样性损失函数。

进一步地，所述对比损失函数、知识蒸馏损失函数和主题多样性损失函数加入神经主题模型的损失函数中共同训练。

进一步地，所述神经主题模型中的参数通过对比损失函数、知识蒸馏损失函数、主题多样性损失函数和神经主题模型损失函数的线性组合，基于反向传播算法进行联合优化。

进一步地，所述神经主题模型通过将文本的词袋表达转化为一个实数文本向量，完成文本中蕴含信息的抽取。

进一步地，所述分类模块中，所述线性分类器基于患者画像分析模块生成的患者文本表征使用softmax回归进行分类。

为实现上述目的，本发明还提供了一种电子设备，包括存储器和处理器，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述的基于神经主题模型的疾病检测与知识发现装置中各模块的功能。

为实现上述目的，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述的基于神经主题模型的疾病检测与知识发现装置中各模块的功能。

与现有技术相比，本发明的有益效果是：本发明在达到与目前领先模型类似的疾病检测性能的前提下，额外具备可解释优点；本发明提取的文本表征中每个元素均具备明确的语义信息，使用softmax回归完成预测；全流程可解释的疾病检测一方面有助于医务人员从相关参数中发现患者的典型特征画像，从而具备知识发现的潜力；另一方面使得疾病检测过程更为可信。

附图说明

图1为本发明神经主题模型的结构示意图；

图2为本发明装置在训练阶段与测试阶段的流程图；

图3为本发明装置在训练阶段与测试阶段的模块图；

图4为本发明装置与对比装置在疾病辅助诊断上的对比实验结果与消融实验结果图；

图5为本发明中HZSPH知识挖掘能力分析图；

图6是一种电子设备的示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

本发明利用经过修改的神经主题模型分析患者入院文本数据，提取患者高效、可解释的文本表征，基于可解释文本表征总结表征所反映出的患者典型画像，根据可解释文本表征进行疾病检测，克服现有文本分析方法可解释性与性能不可兼得的缺陷，使得文本分析方法可以同时应用于疾病辅助诊断与知识发现。

实施例1

参见图1，将预处理后的文本向量输入一个多层感知机得到两个向量，分别记为与/>（log指对数函数）；将/>作为多元正态分布的均值，/>作为多元正态分布的协方差矩阵的对角线元素（协方差矩阵中的其它元素均设为0），得到各元素相互独立多元正态分布/>；随后基于正态分布进行一次采样，并将采样结果输入到softmax函数（记为/>）中，可得到一个患者文本表征向量/>；向量/>将和主题-词汇分布参数/>相乘（结果记为/>），以尽可能重建出原始输入；使用交叉熵衡量/>和/>之间的差异，将这一差异记为文档损失；文档损失将和其余三种辅助损失相加，得到联合损失；通过优化联合损失以优化/>和多层感知机中的参数，使得模型可以提取出有效的可解释文本信息，用于疾病检测。

参见图2和图3，本发明提供了一种基于神经主题模型的疾病检测与知识发现装置，包括数据预处理模块、患者画像分析模块和分类模块：

数据预处理模块：采集一批疾病患者的电子病历数据，提取其入院记录中对疾病辅助诊断具备重要价值的信息。并基于出院诊断对患者所患疾病进行标注，得到训练样本。

患者画像分析模块：构建基于神经主题模型的疾病文本分析模型，以数据预处理模块得到的训练样本作为神经主题模型的输入，以所述训练样本的文本内容，对应疾病作为所述神经主题模型的输出，基于反向传播算法对所述模型进行训练，对所述神经主题模型的参数进行调节，直到收敛；得到训练完成后的疾病文本分析模型，训练完成后的疾病文本分析模型基于文本提取高效、可解释的患者文本表征。

分类模块：实现线性分类器，以患者画像分析模块得到的患者文本表征作为输入，以所述文本表征对应的疾病作为模型输出，使用反向传播算法对线性分类器进行训练，对神经主题模型的参数进行调节，直到收敛；得到训练完成的线性分类器，实现基于患者文本表征进行疾病检测。

在数据预处理模块中，电子病历数据的入院记录包括以文本形式记录的“患者人口学信息”、“现病史”、“既往史”、“主诉”、“个人史”等；数据预处理模块对数据的预处理方法为：通过正则表达式定位关键信息位置，从而提取电子病历中的所需信息；将每个患者数据中提取的信息整合为一个文本，将每名患者的文本数据转换为词袋表达（bag-of-wordsrepresentation）；随后，基于TF-IDF（term-frequency inverse-document-frequency）算法，从患者词袋表达数据中提取出最重要的词汇集合，并丢弃剩余词汇，从而将患者的每份文本数据整理为一个向量，使用代表文本向量，/>代表其对应的疾病，文本/>所对应的向量为/>，文本/>对应的疾病为/>。

在患者画像分析模块中，所述的神经主题模型是经过改进的主题模型，是一个参数化的函数，，通过输入文本向量/>，经由神经主题模型/>，输出可解释患者文本表征向量/>；所述神经主题模型采用贝叶斯视角看待/>，即/>是一个随机变量的采样；神经主题模型参数通常通过极大似然估计，进行参数优化。具体而言，根据神经主题模型的相关假设，对给定训练语料库/>，对其中的任意一个文档/>，有对数似然函数如下表达式：

其中，表示似然函数，/>表示文本表征向量/>的先验概率分布，/>为神经主题模型中每个文档对应的“主题-词频分布”，/>表示/>维实数向量，/>表示一个文档中的词的编号，/>表示文档/>中的词的数量，/>为文档/>中编号为/>的词在词袋表达中所对应的编号，/>为神经主题模型的主题-词汇分布；由于该函数中的积分式难以求解，在实践中通常通过引入变分分布/>的方式近似拟合/>。引入变分分布后，上述对数似然值可以重写为如下表达式：

其中，KL指代Kullback-Leibler散度，ELBO指代证据下界（evidence lowerbound）；表示变分分布，/>表示变分分布函数中的参数；KL散度是一个非负实数，用于衡量两个分布的相似度，值越小分布相似度越高，当且仅当两个分布完全一致时为0；在实践中，通常通过优化ELBO（忽视对数似然值式子中的KL散度项）间接优化对数似然函数中的参数。由于/>与/>无关，因此有如下表达式：

其中，表示某个与随机变量/>相关的函数在分布/>下的数学期望；假设/>和均服从为正态分布和softmax函数嵌套得到的分布，本发明使用未经过softmax函数归一化的标准正态分布作为代理（proxy）衡量两个分布的KL散度，则有KL的解析形式：

其中，表示均值为0，协方差为单位矩阵的标准多元正态分布，/>表示神经主题模型预设的主题数量，/>为/>所刻画的正态分布的均值与协方差矩阵参数，表示协方差矩阵的迹（trace）。综上，有优化神经主题模型的目标函数如下：

其中，表示训练过程的一个批次（batch），本发明中，模型的目标函数在包括证据下界的同时，额外加入了本发明提出“辅助损失集”部分，用于提升模型性能。“辅助损失集”包含对比损失、知识蒸馏损失和主题多样性损失，这三种损失函数计算方法分别为：

其中，分别指代对比损失、知识蒸馏损失和主题多样性损失，这三个损失将加入神经主题模型的损失函数中共同训练，提升模型性能；其中，/>表示训练过程的一个批次（batch），/>表示文本编号，/>表示文本/>对应的疾病标签，/>表示指示函数，/>表示神经主题模型生成的文本/>的表征，/>表示大规模预训练神经语言模型（如BERT，DeBerta）生成的文本/>的深度表征，/>表示神经主题模型预设的主题数量，/>表示主题编号，/>表示主题/>对应的主题-词频分布。

神经主题模型通过将文本的词袋表达转化为一个实数文本向量，完成文本中蕴含信息的抽取。

最终，神经主题模型中的参数通过四个损失函数的线性组合，基于反向传播算法进行联合优化，即有：

其中，为预先指定的权重超参数；可以通过反向传播算法优化模型，最终得到/>。

在分类模块中，锁定神经主题模型参数，所述的线性分类器基于患者画像分析模块生成的文本表征进行分类。

其中，代表预测各疾病发生的概率，/>指代softmax回归。

实施例2

本实施例采用了来自于国内某三甲医院的精神科入院记录（记为HZSPH数据集）和来自美国一个名为MIMIC-III的公开医疗数据集，对本发明装置在辅助诊断和知识发现的效果进行了验证；其中，HZSPH数据集包含1463份精神病患者的入院记录，这些精神病患者被诊断为抑郁症、焦虑症或双相情感障碍；MIMIC-III数据集包含8827名进入ICU患者的入院记录，这些患者的诊断为ICU中常见的十种疾病。

本实施例进行了对比实验；本实施例提供的预测装置（下称为ENTM）与6个对比预测装置进行了对比，计算机存储器中存有相应的6个预测模型；这6个模型分别为LDA模型，sLDA模型，MacBert模型，Deberta模型，Longformer模型和NVDM模型；其中，MacBert只能应用于HZSPH这一中文数据集，Longformer模型和Deberta模型只能应用于MIMIC-III这一英文数据集。本实施例选择LDA、sLDA和NVDM的原因是，这些模型是以往最具代表性的，具备可解释潜力的主题模型与神经主题模型；本实施例选择MacBert，Deberta与Longformer的原因是，这些模型代表当前基于文本的疾病辅助诊断任务的世界领先的性能。

为了更好地进行对比，本实施例还进行了消融实验；本实施例提供的预测装置与4种对比预测装置进行了比较，计算机存储器中存有相应的预测模型；这4种对比预测装置分别为：不使用辅助预测损失的原版神经主题模型NTM，仅额外使用对比损失的神经主题模型(NTM+CL)，仅使用知识蒸馏损失的神经主题模型(NTM+KL)，仅使用主题多样性损失的神经主题模型（NTM+TL）。

本实施例开展了主题连贯性（Topic Coherence）分析以定量比较模型可解释性；通过定性分析HZSPH的分析结果，验证了本发明设计具备知识发现的潜力。

参见图4的本发明装置与对比装置在疾病辅助诊断这一任务上的对比实验结果与消融实验结果图；为确保结果的稳定性，所有汇报结果均为5折交叉实验的平均结果；对比实验表明，本发明装置在模型规模较小的前提下，辅助诊断性能与目前的大规模预训练神经网络语言模型达到类似；由于大规模预训练神经网络语言模型被广泛视为代表目前基于文本的辅助诊断的最高性能，本发明装置的疾病辅助诊断性能达到了目前世界领先水平。消融实验结果表明，本发明装置在神经主题模型基础上额外添加的三项辅助损失均能独立有效提升模型性能，其中，知识蒸馏损失和主题多样化损失的性能提升能力相对微弱，而对比损失的效果则十分显著；三项辅助损失组合有助于模型进一步达到相较只额外使用一种损失更好的性能。因此，本发明可以有效基于文本完成疾病辅助诊断工作。

表1为本发明装置与对比装置所提取到的表征可解释性分析结果，本发明装置使用了NPMI（normalized pointwise mutual information）指标对表征可解释性能力进行定量评估；由预训练神经网络语言模型学习到的表征不具备可解释性，因此表1中没有Deberta，MacBert和Longformer的分析结果；结果表明，LDA，sLDA等模型难以学出高质量的可解释表征，导致NPMI指标计算失败；本发明的NPMI指标分数最高，所学习到的患者表征具备最好的可解释性。

表1 表征可解释性分析结果

	HZSPH	MIMIC-II
			LDA	NA	NA
sLDA	NA	NA
			NTM	0.104	0.093
NTM+CL	0.181	0.182
			NTM+KL	0.131	0.112
NTM+DL	0.135	0.109
			ENTM	0.197	0.192

图5为基于HZSPH数据集的分析结果，针对本发明知识发现的潜力开展的定性评估；如图5所示，本实施例所抽取的10个主题中，主题1、主题2、主题5、主题7、主题9的主题强度分别与焦虑、双相和抑郁强相关；这些主题的高频词汇分布可解释，且每个主题高频词汇所反映出的患者画像与临床对相关疾病的症状学一致。

实施例3

与前述基于神经主题模型的疾病检测与知识发现装置的实施例相对应，本申请实施例还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的基于神经主题模型的疾病检测与知识发现装置中各模块的功能。如图6所示，为本申请实施例提供的基于神经主题模型的疾病检测与知识发现装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图6所示的处理器、内存、DMA控制器、磁盘、以及非易失内存之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

实施例4

与前述基于神经主题模型的疾病检测与知识发现装置的实施例相对应，本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于神经主题模型的疾病检测与知识发现装置中各模块的功能。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于神经主题模型的疾病检测与知识发现装置，其特征在于，包括：

分类模块：用于实现线性分类器，以患者画像分析模块得到的患者文本表征作为输入，以所述患者文本表征对应的疾病作为输出，使用反向传播算法对线性分类器进行训练，对神经主题模型的参数进行调节，直到收敛；得到训练完成的线性分类器，实现基于患者文本表征的疾病检测；

所述数据预处理模块中，对文本数据进行预处理具体为：提取电子病历中的所需信息，将每个患者的电子病历数据中提取的信息整合为一个文本数据，并将每名患者的文本数据转换为词袋表达，随后基于TF-IDF算法，从患者词袋表达数据中提取出最重要的词汇集合，并丢弃剩余词汇，从而将患者的每份文本数据整理为一个向量；所述患者画像分析模块中，所述的神经主题模型是经过改进的主题模型，优化神经主题模型的目标函数如下表达式：/>其中，/>表示训练过程的一个批次，/>表示一个文档中的词的编号，/>表示文档/>中的词的数量，/>为文档/>中编号为/>的词在词袋表达中所对应的编号，/>为神经主题模型的主题-词汇分布，/>为变分分布/>所刻画的正态分布的均值与协方差矩阵参数，/>表示协方差矩阵的迹，/>表示神经主题模型预设的主题数量；

所述辅助损失集包含对比损失、知识蒸馏损失和主题多样性损失，这三种损失函数计算如下表达式：其中，/>分别指代对比损失、知识蒸馏损失和主题多样性损失，/>表示文本编号，/>表示文本/>对应的疾病标签，/>表示指示函数，/>表示神经主题模型生成的文本/>的表征，/>表示大规模预训练神经语言模型生成的文本/>的深度表征，/>表示主题编号，/>表示主题/>对应的主题-词频分布。

2.如权利要求1所述的基于神经主题模型的疾病检测与知识发现装置，其特征在于，所述数据预处理模块中，所述电子病历数据的入院记录包括以文本形式记录的“患者人口学信息”、“现病史”、“既往史”、“主诉”和“个人史”。

3.如权利要求1所述的基于神经主题模型的疾病检测与知识发现装置，其特征在于，所述对比损失函数、知识蒸馏损失函数和主题多样性损失函数加入神经主题模型的损失函数中共同训练。

4.如权利要求3所述的基于神经主题模型的疾病检测与知识发现装置，其特征在于，所述神经主题模型中的参数通过对比损失函数、知识蒸馏损失函数、主题多样性损失函数和神经主题模型损失函数的线性组合，基于反向传播算法进行联合优化。

5.如权利要求1所述的基于神经主题模型的疾病检测与知识发现装置，其特征在于，所述神经主题模型通过将文本的词袋表达转化为一个实数文本向量，完成文本中蕴含信息的抽取。

6.如权利要求1所述的基于神经主题模型的疾病检测与知识发现装置，其特征在于，所述分类模块中，所述线性分类器基于患者画像分析模块生成的患者文本表征使用softmax回归进行分类。

7.一种电子设备，包括存储器和处理器，其特征在于，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述权利要求1-6任一项所述的基于神经主题模型的疾病检测与知识发现装置中各模块的功能。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6中任一项所述的基于神经主题模型的疾病检测与知识发现装置中各模块的功能。