CN116543918A

CN116543918A - 多模态疾病特征的提取方法及装置

Info

Publication number: CN116543918A
Application number: CN202310812585.6A
Authority: CN
Inventors: 于红刚; 张晨霞; 姚理文
Original assignee: Renmin Hospital of Wuhan University
Current assignee: Renmin Hospital of Wuhan University
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2023-08-04
Anticipated expiration: 2043-07-04
Also published as: CN116543918B

Abstract

本申请实施例提供了一种多模态疾病特征的提取方法及装置，该方法通过采集目标疾病的历史患者的疾病数据，对病历文本进行词句拆分，对疾病描述词句集合的疾病描述词句进行标记，对标记后的疾病描述词句集合进行词句关联，得到目标疾病的疾病文本特征，对医学检查图像进行特征提取，对多模态补充数据进行特征提取，得到目标疾病的多模态补充特征，将疾病文本特征、辅助图像特征和多模态补充特征合并，得到目标疾病的疾病特征，使得目标疾病的疾病特征更加全面丰富，并且由于疾病文本特征是通过对病历文本进行不同疾病描述维度的词句拆分、标记和关联后进行提取得到的，使得疾病文本特征更加精准，大大提高了目标疾病的疾病特征丰富性和精准性。

Description

多模态疾病特征的提取方法及装置

技术领域

本申请涉及数据处理技术领域，具体涉及一种多模态疾病特征的提取方法及装置。

背景技术

人工智能技术在开展辅助诊疗、药物研发等问题的研究上，推动了医疗技术的进步，使得智能诊断能帮助医生对病人进行更全面的疾病预测，并且能够防止医生基于经验造成的漏诊问题。然而，对于同一疾病，不同患者往往具有不同的表现，某些不典型的疾病特征同样具有极大的临床参考意义，而当前基于机器学习仅仅提取某些疾病相关特征的方法标注工作耗时耗力、纳入特征十分局限，大大阻碍了模型性能及其临床应用能力的提升。因此，在辅助医生进行疾病预测上，如何进行医学数据处理，以实现精准的疾病预测，是目前亟需解决的问题。

发明内容

本申请实施例提供一种多模态疾病特征的提取方法及装置，以解决人工标注疾病特征导致的态疾病特征的提取效率较低的技术问题。

一方面，本申请提供一种多模态疾病特征的提取方法，包括：

采集目标疾病的历史患者的疾病数据，所述疾病数据包括所述患者在第一医院的病历文本、在第一医院的医学检查图像和多模态补充数据；

将所述病历文本按照不同疾病描述维度进行词句拆分，得到所述目标疾病的疾病描述词句集合；

按照不同疾病描述维度对所述疾病描述词句集合的疾病描述词句进行标记，得到标记后的疾病描述词句集合；

对所述标记后的疾病描述词句集合中不同疾病描述维度下的词句进行词句关联，得到所述目标疾病的疾病文本特征；

对所述医学检查图像进行特征提取，得到所述目标疾病的辅助图像特征；

对所述多模态补充数据进行特征提取，得到所述目标疾病的多模态补充特征；

将所述疾病文本特征、所述辅助图像特征和多模态补充特征合并，得到所述目标疾病的疾病特征。

一方面，本申请提供一种多模态疾病特征的提取装置，包括：

采集模块，用于采集目标疾病的历史患者的疾病数据，所述疾病数据包括所述患者在第一医院的病历文本、在第一医院的医学检查图像和多模态补充数据；

拆分模块，用于将所述病历文本按照不同疾病描述维度进行词句拆分，得到所述目标疾病的疾病描述词句集合；

标记模块，用于按照不同疾病描述维度对所述疾病描述词句集合的疾病描述词句进行标记，得到标记后的疾病描述词句集合；

关联模块，用于对所述标记后的疾病描述词句集合中不同疾病描述维度下的词句进行词句关联，得到所述目标疾病的疾病文本特征；

第一提取模块，用于对所述医学检查图像进行特征提取，得到所述目标疾病的辅助图像特征；

第二提取模块，用于对所述多模态补充数据进行特征提取，得到所述目标疾病的多模态补充特征；

融合模块，用于将所述疾病文本特征、所述辅助图像特征和多模态补充特征合并，得到所述目标疾病的疾病特征。

一方面，本申请提供一种计算机设备，计算机设备包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述多模态疾病特征的提取方法中的步骤。

一方面，本申请提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述多模态疾病特征的提取方法中的步骤。

本申请实施例提供了一种多模态疾病特征的提取方法及装置，该方法采集目标疾病的历史患者的疾病数据，所述疾病数据包括所述患者在第一医院的病历文本、在第一医院的医学检查图像和多模态补充数据；将所述病历文本按照不同疾病描述维度进行词句拆分，得到所述目标疾病的疾病描述词句集合；按照不同疾病描述维度对所述疾病描述词句集合的疾病描述词句进行标记，得到标记后的疾病描述词句集合；对所述标记后的疾病描述词句集合中不同疾病描述维度下的词句进行词句关联，得到所述目标疾病的疾病文本特征；对所述医学检查图像进行特征提取，得到所述目标疾病的辅助图像特征；对所述多模态补充数据进行特征提取，得到所述目标疾病的多模态补充特征；将所述疾病文本特征、所述辅助图像特征和多模态补充特征合并，得到所述目标疾病的疾病特征，使得目标疾病的疾病特征更加全面丰富，并且由于疾病文本特征是通过对病历文本进行不同疾病描述维度的词句拆分、标记和关联后进行提取得到的，使得疾病文本特征更加精准，大大提高了目标疾病的疾病特征丰富性和精准性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中多模态疾病特征的提取方法的流程图；

图2为一个实施例中多模态疾病特征的提取装置的结构框图；

图3为一个实施例中计算机设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，在一个实施例中，提供了一种多模态疾病特征的提取方法，该多模态疾病特征的提取方法可以应用于终端，也可以应用于服务器，本实施例以应用于服务器举例说明。该多模态疾病特征的提取方法具体包括以下步骤：

步骤102，采集目标疾病的历史患者的疾病数据，所述疾病数据包括所述患者在第一医院的病历文本、在第一医院的医学检查图像和多模态补充数据。

其中，目标疾病是指需要进行特征提取的疾病，例如腹痛疾病急性阑尾炎。

具体地，疾病数据可以通过授权登录EMR（Electronic Medical Record的简写，计算机化的病案系统）获取得到。疾病数据包括患者在第一医院的病历文本、在第一医院的医学检查图像和多模态补充数据，其中，病历文本为记录病历相关信息的自由文本，医学检查图像是指进行检查的图像，如CT图像、B超图像等，多模态补充数据是指不同模态且作为补充信息的数据，例如以语音、文本、图像等多模态形式存在的数据，更具体地，语音补充数据，例如医生查房时的语音数据，文本补充数据，例如在其它医院的病历文本数据，图像补充数据，例如排泄物图像数据。

步骤104，将所述病历文本按照不同疾病描述维度进行词句拆分，得到所述目标疾病的疾病描述词句集合。

其中，目标疾病的疾病描述词句集合是指由目标疾病的多个疾病描述词语组成的集合。

疾病描述维度是指能够表征疾病的描述维度，例如、“部位”、“症状”、“否定性修饰词”等疾病描述维度。

词句拆分是指对病历文本进行分词的处理方式。

具体可以根据预设的疾病词语字典，并按照疾病描述维度对病历文本进行词句拆分，得到目标疾病的疾病描述词句集合。例如病历文本内容为“患者半月前无明显诱因出现上腹部痛，呈阵发性绞痛，持续数分钟后，可自行缓解，无恶心呕吐，无黄疸发热，无头晕胸闷等不适。起病来，患者精神，食欲，睡眠差，大便如前所述，小便正常，体力体重无明显减轻“，按照不同疾病描述维度进行词句拆分进行词句拆分后，得到疾病描述词句，例如：腹部痛、恶心、呕吐、黄疸、发热、头晕、胸闷、上腹、数分钟、阵发性、绞痛、自行缓解、可、无等。

步骤106，按照不同疾病描述维度对所述疾病描述词句集合的疾病描述词句进行标记，得到标记后的疾病描述词句集合。

其中，标记是指对各个疾病描述词句分别进行标注。

具体地，按照疾病描述维度对疾病描述词句进行标记，更具体地，一个疾病描述维度对应一个标注。继续以步骤104中的病历文本为例，对该病历文本中的疾病描述词句集合进行标记，则腹部痛、恶心、呕吐、黄疸、发热、头晕、胸闷作为“症状”进行标注；上腹作为“部位”进行标注；数分钟作为“持续时间”进行标记；阵发性、绞痛作为“性质”进行标注；自行缓解作为“加重及缓解因素”进行标记；“可”作为肯定性修饰词进行标记；“无”作为否定性修饰词进行标记，实现了对各个疾病描述词句的标记，得到标记后的疾病描述词句集合。

步骤108，对所述标记后的疾病描述词句集合中不同疾病描述维度下的词句进行词句关联，得到所述目标疾病的疾病文本特征。

其中，词句关联是指将存在关联关系的至少两个疾病描述词句进行关联的处理方式。疾病文本特征是用于表征病历文本中目标疾病的特征。

具体地，可以根据疾病描述维度与疾病描述词句之间的关联度，对标记后的疾病描述词句集合中的疾病描述词句进行关联，例如，对于疾病描述词句“腹痛”，其涉及的其他疾病描述维度可能包括部位、诱因、持续时间、性质、加重及缓解因素、肯定性修饰词、否定性修饰词等，则将其他疾病描述维度下的标记关联至相应位置；又比如，疾病描述词句“黄疸”，其涉及的其他疾病描述维度可能包括否定词等，则将否定词“无”关联至“黄疸”，得到关联结果，然后以步骤106中的标记结果和本实施例的关联结果作为标签，基于Bert、Bi-LSTM-CRF的自然语言处理技术，训练病历文本特征提取模型，模型可自动提取病历自由文本中涉及的特征，使用增量预训练、句子对分类和数据提前截断等方法提高模型准确度，保留准确度最高的模型脚本，训练的病历文本特征提取模型，迭代数次，丰富各个维度的信息，自动学习新特征的提取。对于如下病历：

“患者于昨天下午3点出现腹痛，呈间持续性刺痛，改变体位无缓解，无他出放射痛，无恶心呕吐，无腹泻便秘，无咳嗽咳痰及发热等不适，未作特殊处理，腹胀症状未见明显改善。起病以来，患者精神可，食欲、睡眠尚可，大、小便正常，体力、体重未见明显改变”，“刺痛”作为模型训练未曾标注的性质描述，经过数次维度标注及关联迭代后，模型可准确识别“腹痛-刺痛”这一疾病特征，减轻标注成本并有效扩充特征库，大大提高了目标疾病的疾病文本特征的提取效率。

可以理解地，本实施例中通过对标记后的疾病描述词句集合进行关联，使得疾病描述词句更加详细精准，大大提高了目标疾病的疾病文本特征的精准度。

步骤110，对所述医学检查图像进行特征提取，得到所述目标疾病的辅助图像特征。

其中，辅助图像特征是指用于反映目标疾病特征的图像特征。

具体地，对医学检查图像进行特征提取，得到目标疾病的辅助图像特征，其中的特征提取方法可以是人工特征提取方法结合基于图像特征分析的算法如像素邻域均值计算、最大像素值提取等，也可以是深度学习的特征提取方法，如，卷积神经网络CNN、UNet++等，具体可根据医学检查图像进行选取，此处不作限制。

本实施例中，通过对医学检查图像进行特征提取，实现了对目标疾病的一个图像模态的特征的提取。

步骤112，对所述多模态补充数据进行特征提取，得到所述目标疾病的多模态补充特征。

具体地，针对不同模态的多模态补充数据，可以分别预先训练相应的特征提取模型，利用训练完成的模型对多模态补充数据分别进行特征提取，得到目标疾病的多模态补充特征。本实施例中，通过对多模态补充数据进行特征提取，大大提高了目标疾病的特征的丰富度和全面性。

步骤114，将所述疾病文本特征、所述辅助图像特征和多模态补充特征合并，得到所述目标疾病的疾病特征。

其中，合并是指将目标疾病的特征进行聚合处理，可以是对疾病文本特征、辅助图像特征和多模态补充特征进行加权求和，也可以是疾病文本特征、辅助图像特征和多模态补充特征进行融合，此处不做限制。

具体地，对疾病文本特征、所述辅助图像特征和多模态补充特征合并，得到目标疾病的疾病特征，使得目标疾病的疾病特征更加全面丰富，并且由于疾病文本特征是通过对病历文本进行不同疾病描述维度的词句拆分、标记和关联后进行提取得到的，使得疾病文本特征更加精准，并且对疾病文本特征、辅助图像特征和多模态补充特征合并，大大提高了目标疾病的疾病特征丰富性和精准性。

上述多模态疾病特征的提取方法中，通过对病历文本进行不同疾病描述维度的词句拆分、标记和关联后进行提取得到的，使得疾病文本特征更加精准，并且对疾病文本特征、辅助图像特征和多模态补充特征合并，大大提高了目标疾病的疾病特征丰富性和精准性。

在一个实施例中，每个所述疾病描述维度对应一个维度标注；所述对所述标记后的疾病描述词句集合中不同疾病描述维度下的词句进行词句关联，得到所述目标疾病的疾病文本特征，包括：分别以不同疾病描述维度下的词句作为目标词句，计算所述目标词句与各个疾病描述维度对应的维度标注的关联度，得到多个标注关联度；选取所述标注关联度大于预设阈值的所述维度标注作为目标维度标注；将所述目标维度标注对应的疾病描述维度下的词句与所述目标词句进行关联，得到所述目标疾病的疾病文本特征。

本实施例中，通过计算不同疾病描述维度下的词句与各个维度标注的语义相似度，将该语义相似度作为关联度，将关联度大于预设阈值的维度标注作为目标维度标注，将目标维度标注对应的疾病描述维度下的词句与目标词句进行关联，根据关联结果进行特征提取，得到目标疾病的疾病文本特征。

在一个实施例中，所述医学检查图像包括CT图像、MRI图像、B超图像、病理图像；所述对所述医学检查图像进行特征提取，得到所述目标疾病的辅助图像特征，包括：分别对所述CT图像、所述MRI图像、所述B超图像及所述病理图像进行特征提取，得到各自对应的CT图像特征、MRI图像特征、B超图像特征、病理图像特征；将所述CT图像特征、所述MRI图像特征、所述B超图像特征及所述病理图像特征合并，得到所述目标疾病的辅助图像特征。

具体地，分别采用预设的特征提取模型方法对CT图像、MRI图像、B超图像及病理图像进行特征提取，得到各自对应的CT图像特征、MRI图像特征、B超图像特征、病理图像特征。

本实施例中，医学检查图像的类型不仅丰富，且针对不同类型的医学检查图像分别进行特征提取，使得医学检查图像的特征更加凸显和具有细粒度，大大提高了医学检查图像的特征的丰富性和细粒度。

在一个实施例中，所述分别对所述CT图像、所述MRI图像、所述B超图像及所述病理图像进行特征提取，得到各自对应的CT图像特征、MRI图像特征、B超图像特征、病理图像特征，包括：采用预设的DarkNet-53网络模型对所述CT图像进行特征编码，得到所述CT图像特征；采用预设的金字塔模型对所述MRI图像进行特征提取，得到所述MRI图像特征；采用预设的Lasso回归模型对所述B超图像进行特征提取，得到所述B超图像特征；采用预设的CBAM-CNN网络模型对所述病理图像进行特征提取，得到所述病理图像特征。

具体地，预设的DarkNet-53网络模型包括53个卷积层，每个后面跟随BN层和LeakyReLU层是用步长为2的卷积层代替池化层进行下采样的过程，采用预设的DarkNet-53网络模型对CT图像进行特征编码，可以避免因为池化层导致的得到CT图像的低层级特征的损失，提高了CT图像特征的精准性。

预设的金字塔模型是指Contextual Transformer block的特征金字塔模型，特征金字塔模型在编码器和解码器部分引入注意力结构CoT Block，注意力结构CoT Block利用key上下文信息，指导动态注意力矩阵的学习，增强提取MRI图像中的特征，并且，由于特征金字塔模型在解码器部分引入混合膨胀卷积模块，混合膨胀卷积模块扩大感受野并且保留详细的空间信息，并有效提取MRI图像中的全局上下文信息，从而有效地提高了MRI图像特征的精准性。

采用预设的Lasso回归模型对B超图像进行特征提取，在实现了对于进行B超图像特征提取的前提下，还能够对B超图像特征进行有效筛选，使得B超图像特征更加简单和准确。

预设的CBAM-CNN网络模型是在卷积神经网络中加入通道空间注意力机制(CBAM)，这种机制会为重点区域带去更多的权重，对病理图像进行更有效的特征提取，并且还可以在CBAM-CNN网络模型中加入可分离卷积技术，在有效保证精度的情况下，大大减少了参数量，从而能够更完整地描述目标疾病的病理图像特征。

本实施例中，针对CT图像、MRI图像、B超图像及病理图像分别采用预设的DarkNet-53网络模型、预设的金字塔模型、采用预设的Lasso回归模型、预设的CBAM-CNN网络模型进行特征提取，使得对应的特征更加精准，且提高了医学检查图像的丰富性和完整性。

在一个实施例中，所述多模态补充数据包括来自所述历史患者的语音数据，所述多模态补充特征包括语音补充特征；所述对所述多模态补充数据进行特征提取，得到所述目标疾病的多模态补充特征，包括：将所述语音数据通过预设的语音识别模型转换为文本数据，得到文本补充数据；基于预设的文本识别方法，提取所述文本补充数据中的疾病特征，得到第一语音补充特征；采用预设的语音分类方式对所述语音数据进行疾病特征提取，得到第二语音补充特征；将所述第一语音补充特征和所述第二语音补充特征合并，得到所述目标疾病的语音补充特征。

其中，历史患者的语音数据包括但不限于患者在医生问诊或查房时的语音信息。预设的语音识别模型可以是训练好的ASR模型。预设的语音分类方式可以是基于卷积的神经网络模型。

具体地，对语音数据进行文本转换，得到文本补充数据，然后，对文本补充数据进行文本识别，例如，OCR文本识别方式，text_cnn+词向量、或者bert模型等，提取文本补充数据中的疾病特征，得到第一语音补充特征，接着，采用预设的语音分类方式如训练好的LSTM模型、训练好的RNN模型等，对语音数据进行疾病特征提取，得到第二语音补充特征，最后，将第一语音补充特征和第二语音补充特征合并，得到目标疾病的语音补充特征。可以理解地，本实施例中，通过对语音数据的文本信息和语音信息进行分析，得到两类特征，对该两类特征进行融合，进一步提高了目标疾病的语音补充特征的丰富性和准确性。

在一个实施例中，所述多模态补充数据包括来自所述历史患者的文本补充数据，所述多模态补充特征包括文本补充特征；所述采集目标疾病的历史患者的疾病数据，包括：扫描所述历史患者在第二医院的纸质疾病记录文本，得到所述文本补充数据，所述第一医院和第二医院为不同医院；所述对所述多模态补充数据进行特征提取，得到所述目标疾病的多模态补充特征，包括：将所述文本补充数据按照不同疾病描述维度进行词句拆分，得到所述目标疾病的补充疾病描述词句集合；按照不同疾病描述维度对所述补充疾病描述词句集合的疾病描述词句进行标记，得到标记后的补充疾病描述词句集合；对所述标记后的补充疾病描述词句集合中不同疾病描述维度下的词句进行词句关联，得到所述目标疾病的文本补充特征。

其中，文本补充数据包括但不限于患者既往外院就诊的纸质病历信息，多模态补充特征包括文本补充特征。

具体地，扫描历史患者在第二医院的纸质疾病记录文本，得到文本补充数据，第一医院和第二医院为不同医院，获取到了文本补充数据，使得疾病数据更加丰富。然后按照步骤104-步骤108中的方法对文本补充数据进行词句拆分、标记、关联，实现了对文本补充数据的特征提取，得到文本补充特征，进一步丰富了目标疾病的文本模态的特征。

在一个实施例中，所述多模态补充数据包括来自所述历史患者的图像补充数据，所述图像补充数据包括排泄物图像和疾病特征部位图像，所述疾病特征部位图像为疾病症状显示的特征部位的图像，所述多模态补充特征包括图像补充特征；所述对所述多模态补充数据进行特征提取，得到所述目标疾病的多模态补充特征，包括：对所述排泄物图像进行特征提取，得到所述目标疾病的排泄物图像特征；对所述疾病特征部位图像进行特征提取，得到所述目标疾病的疾病特征部位图像特征；将所述排泄物图像特征和所述疾病特征部位图像特征合并，得到所述目标疾病的图像补充特征。

其中，疾病特征部位图像包括但不限于是面部图像、伤口图像等。

具体地，对排泄物图像进行特征提取，得到目标疾病的排泄物图像特征，其中的特征提取方式可以是深度学习模型，也可以是人工特征提取方式，对疾病特征部位图像进行特征提取，得到目标疾病的疾病特征部位图像特征，该特征提取方式可以是深度学习模型，也可以是人工特征提取方式，将排泄物图像特征和疾病特征部位图像特征合并，得到目标疾病的图像补充特征，进一步丰富了图像模态的特征。

在一个实施例中，该多模态疾病特征的提取方法还包括：获取待诊断患者的多模态疾病数据；对所述多模态疾病数据进行特征提取，得到疾病特征集合；对所述疾病特征集合进行分类，分为影像学及病理学特征和其它特征；按照第一赋值方式对影像学及病理学特征进行权重赋值，得到每个影像学及病理学特征在目标疾病参数下的权重；按照第二赋值方式对其它特征进行权重赋值，得到每个其它特征在目标疾病参数下的权重，所述第一赋值方式和第二赋值方式不同；根据每个影像学及病理学特征在目标疾病参数下的权重和每个其它特征在目标疾病参数下的权重，计算目标疾病参数。

其中，疾病特征集合中疾病特征分类两类，分别是影像学及病理学特征和其它特征，其中的其它特征是指除影像学、病理学特征外的指南特征。目标疾病参数是用于反映疾病特征集合与目标疾病关联度的参数，可以是患目标疾病的概率。

具体地，针对影像学及病理学特征，按照第一赋值方式进行权重赋值，其中的第一赋值方式可以是根据经验值进行赋值，也可以是根据影像学及病理学特征在目标疾病中出现的次数进行确定。针对其它特征，按照第二赋值方式进行权重赋值，其中的第二赋值方式可以是根据经验值进行赋值，也可以是根据其它特征反映目标疾病的概率进行确定。最后，根据每个影像学及病理学特征在目标疾病参数下的权重和每个其它特征在目标疾病参数下的权重，确定目标疾病参数，例如可以将影像学及病理学特征在目标疾病参数下的权重的平均值与其它特征在目标疾病参数下的权重的和作为目标疾病参数。

在一个实施例中，所述按照第一赋值方式对影像学及病理学特征进行权重赋值，得到每个影像学及病理学特征在目标疾病参数下的权重，包括：将所述影像学及病理学特征输入训练好的目标疾病检测模型，输出检测结果，所述检测结果包括标签为存在目标疾病特征及对应的置信度；将所述置信度确定为所述影像学及病理学特征在目标疾病参数下的权重。

训练好的目标疾病检测模型用于对影像学及病理学特征进行标记，且其标记规则为存在目标疾病特征，标记为1，不存在目标疾病特征，标记为0，并输出标记为1的置信度。

具体地，可以利用训练好的目标疾病检测模型分别对各个影像学及病理学特征进行检测，输出检测结果，且检测结果包括标签为存在目标疾病特征及对应的置信度，将置信度确定为影像学及病理学特征在目标疾病参数下的权重，实现对影像学及病理学特征在目标疾病参数下的权重赋值。

在一个实施例中，所述按照第二赋值方式对其它特征进行权重赋值，得到每个其它特征在目标疾病参数下的权重，包括：分别统计各个所述其它特征在预设的疾病库中出现的次数，其中所述预设的疾病库记录了各个目标疾病及对应的至少一个其它特征；将所述出现的次数对应的数值的倒数确定为每个其它特征在目标疾病参数下的权重。

具体地，分别统计各个其它特征在预设的疾病库中出现的次数，例如为M次，将M的倒数1/M确定为其它特征在目标疾病参数下的权重。例如，确定M个疾病具有其它特征Fn，则其它特征Fn在目标疾病参数下的权重为1/M 。

在一个实施例中，所述根据每个影像学及病理学特征在目标疾病参数下的权重和每个其它特征在目标疾病参数下的权重，计算目标疾病参数，包括：计算影像学及病理学特征在目标疾病参数下的权重的平均值，得到第一概率；计算其它特征在目标疾病参数下的权重的平均值，得到第二概率；根据所述第一概率和第二概率确定所述目标疾病参数。

具体地，可以采用如下公式计算目标疾病参数PD：

：

其中，为第n个其它特征在目标疾病参数下的权重，其它特征的个数为n个，/>为第x个影像学及病理学特征在目标疾病参数下的权重，影像学及病理学特征的个数为x个，为第一概率，/>为第二概率，实现了对目标疾病参数的精准量化。

如图2所示，在一个实施例中，提出了一种多模态疾病特征的提取装置，包括：

采集模块202，用于采集目标疾病的历史患者的疾病数据，所述疾病数据包括所述患者在第一医院的病历文本、在第一医院的医学检查图像和多模态补充数据；

拆分模块204，用于将所述病历文本按照不同疾病描述维度进行词句拆分，得到所述目标疾病的疾病描述词句集合；

标记模块206，用于按照不同疾病描述维度对所述疾病描述词句集合的疾病描述词句进行标记，得到标记后的疾病描述词句集合；

关联模块208，用于对所述标记后的疾病描述词句集合中不同疾病描述维度下的词句进行词句关联，得到所述目标疾病的疾病文本特征；

第一提取模块210，用于对所述医学检查图像进行特征提取，得到所述目标疾病的辅助图像特征；

第二提取模块212，用于对所述多模态补充数据进行特征提取，得到所述目标疾病的多模态补充特征；

融合模块214，用于将所述疾病文本特征、所述辅助图像特征和多模态补充特征合并，得到所述目标疾病的疾病特征。

在一个实施例中，关联模块208具体用于：

分别以不同疾病描述维度下的词句作为目标词句，计算所述目标词句与各个疾病描述维度对应的维度标注的关联度，得到多个标注关联度；

选取所述标注关联度大于预设阈值的所述维度标注作为目标维度标注；

将所述目标维度标注对应的疾病描述维度下的词句与所述目标词句进行关联，得到所述目标疾病的疾病文本特征。

在一个实施例中，第一提取模块210具体用于：

分别对所述CT图像、所述MRI图像、所述B超图像及所述病理图像进行特征提取，得到各自对应的CT图像特征、MRI图像特征、B超图像特征、病理图像特征；

将所述CT图像特征、所述MRI图像特征、所述B超图像特征及所述病理图像特征合并，得到所述目标疾病的辅助图像特征。

在一个实施例中，第一提取模块210具体还用于：

采用预设的DarkNet-53网络模型对所述CT图像进行特征编码，得到所述CT图像特征；

采用预设的金字塔模型对所述MRI图像进行特征提取，得到所述MRI图像特征；

采用预设的Lasso回归模型对所述B超图像进行特征提取，得到所述B超图像特征；

采用预设的CBAM-CNN网络模型对所述病理图像进行特征提取，得到所述病理图像特征。

在一个实施例中，第二提取模块212具体用于：

将所述语音数据通过预设的语音识别模型转换为文本数据，得到文本补充数据；

基于预设的文本识别方法，提取所述文本补充数据中的疾病特征，得到第一语音补充特征；

采用预设的语音分类方式对所述语音数据进行疾病特征提取，得到第二语音补充特征；

将所述第一语音补充特征和所述第二语音补充特征合并，得到所述目标疾病的语音补充特征。

在一个实施例中，第二提取模块212具体还用于：

将所述文本补充数据按照不同疾病描述维度进行词句拆分，得到所述目标疾病的补充疾病描述词句集合；

按照不同疾病描述维度对所述补充疾病描述词句集合的疾病描述词句进行标记，得到标记后的补充疾病描述词句集合；

对所述标记后的补充疾病描述词句集合中不同疾病描述维度下的词句进行词句关联，得到所述目标疾病的文本补充特征。

在一个实施例中，第二提取模块212具体还用于：

对所述排泄物图像进行特征提取，得到所述目标疾病的排泄物图像特征；

对所述疾病特征部位图像进行特征提取，得到所述目标疾病的疾病特征部位图像特征；

将所述排泄物图像特征和所述疾病特征部位图像特征合并，得到所述目标疾病的图像补充特征。

在一个实施例中，该多模态疾病特征的提取装置还包括：

获取模块，用于获取待诊断患者的多模态疾病数据；

第三提取模块，用于对所述多模态疾病数据进行特征提取，得到疾病特征集合；

分类模块，用于对所述疾病特征集合进行分类，分为影像学及病理学特征和其它特征；

第一确定模块，用于按照第一赋值方式对影像学及病理学特征进行权重赋值，得到每个影像学及病理学特征在目标疾病参数下的权重；

第二确定模块，用于按照第二赋值方式对其它特征进行权重赋值，得到每个其它特征在目标疾病参数下的权重，所述第一赋值方式和第二赋值方式不同；

计算模块，用于根据每个影像学及病理学特征在目标疾病参数下的权重和每个其它特征在目标疾病参数下的权重，计算目标疾病参数。

图3示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是服务器，所述服务器包括但不限于高性能计算机和高性能计算机集群。如图3所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现多模态疾病特征的提取方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行多模态疾病特征的提取方法。本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的多模态疾病特征的提取方法可以实现为一种计算机程序的形式，计算机程序可在如图3所示的计算机设备上运行。计算机设备的存储器中可存储组成多模态疾病特征的提取装置的各个程序模板。比如，采集模块202，拆分模块204，标记模块206，关联模块208，第一提取模块210，第二提取模块212，融合模块214。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述多模态疾病特征的提取方法中的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述多模态疾病特征的提取方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种多模态疾病特征的提取方法，其特征在于，所述方法包括：

2.如权利要求1所述的多模态疾病特征的提取方法，其特征在于，每个所述疾病描述维度对应一个维度标注；所述对所述标记后的疾病描述词句集合中不同疾病描述维度下的词句进行词句关联，得到所述目标疾病的疾病文本特征，包括：分别以不同疾病描述维度下的词句作为目标词句，计算所述目标词句与各个疾病描述维度对应的维度标注的关联度，得到多个标注关联度；

3.如权利要求1所述的多模态疾病特征的提取方法，其特征在于，所述医学检查图像包括CT图像、MRI图像、B超图像、病理图像；

所述对所述医学检查图像进行特征提取，得到所述目标疾病的辅助图像特征，包括：

4.如权利要求3所述的多模态疾病特征的提取方法，其特征在于，所述分别对所述CT图像、所述MRI图像、所述B超图像及所述病理图像进行特征提取，得到各自对应的CT图像特征、MRI图像特征、B超图像特征、病理图像特征，包括：

5.如权利要求1所述的多模态疾病特征的提取方法，其特征在于，所述多模态补充数据包括来自所述历史患者的语音数据，所述多模态补充特征包括语音补充特征；

所述对所述多模态补充数据进行特征提取，得到所述目标疾病的多模态补充特征，包括：

6.如权利要求1所述的多模态疾病特征的提取方法，其特征在于，所述多模态补充数据包括来自所述历史患者的文本补充数据，所述多模态补充特征包括文本补充特征；

所述采集目标疾病的历史患者的疾病数据，包括：

扫描所述历史患者在第二医院的纸质疾病记录文本，得到所述文本补充数据，所述第一医院和第二医院为不同医院；

7.如权利要求1所述的多模态疾病特征的提取方法，其特征在于，所述多模态补充数据包括来自所述历史患者的图像补充数据，所述图像补充数据包括排泄物图像和疾病特征部位图像，所述疾病特征部位图像为疾病症状显示的特征部位的图像，所述多模态补充特征包括图像补充特征；

8.如权利要求1所述的多模态疾病特征的提取方法，其特征在于，所述方法还包括：

获取待诊断患者的多模态疾病数据；

对所述多模态疾病数据进行特征提取，得到疾病特征集合；

对所述疾病特征集合进行分类，分为影像学及病理学特征和其它特征；

按照第一赋值方式对影像学及病理学特征进行权重赋值，得到每个影像学及病理学特征在目标疾病参数下的权重；

按照第二赋值方式对其它特征进行权重赋值，得到每个其它特征在目标疾病参数下的权重，所述第一赋值方式和第二赋值方式不同；

根据每个影像学及病理学特征在目标疾病参数下的权重和每个其它特征在目标疾病参数下的权重，计算目标疾病参数。

9.如权利要求8所述的多模态疾病特征的提取方法，其特征在于，所述按照第一赋值方式对影像学及病理学特征进行权重赋值，得到每个影像学及病理学特征在目标疾病参数下的权重，包括：将所述影像学及病理学特征输入训练好的目标疾病检测模型，输出检测结果，所述检测结果包括标签为存在目标疾病特征及对应的置信度；

将所述置信度确定为所述影像学及病理学特征在目标疾病参数下的权重。

10.如权利要求8所述的多模态疾病特征的提取方法，其特征在于，所述按照第二赋值方式对其它特征进行权重赋值，得到每个其它特征在目标疾病参数下的权重，包括：

分别统计各个所述其它特征在预设的疾病库中出现的次数，其中所述预设的疾病库记录了各个目标疾病及对应的至少一个其它特征；

将所述出现的次数对应的数值的倒数确定为每个其它特征在目标疾病参数下的权重。

11.如权利要求8-10任一项所述的多模态疾病特征的提取方法，其特征在于，所述根据每个影像学及病理学特征在目标疾病参数下的权重和每个其它特征在目标疾病参数下的权重，计算目标疾病参数，包括：

计算影像学及病理学特征在目标疾病参数下的权重的平均值，得到第一概率；

计算其它特征在目标疾病参数下的权重的平均值，得到第二概率；

根据所述第一概率和第二概率确定所述目标疾病参数。

12.一种多模态疾病特征的提取装置，其特征在于，包括：