CN116344070A

CN116344070A - 一种病理特征与临床信息融合方法及系统

Info

Publication number: CN116344070A
Application number: CN202310253487.3A
Authority: CN
Inventors: 石怀银; 王书浩
Original assignee: Beijing Thorough Future Technology Co ltd
Current assignee: Beijing Thorough Future Technology Co ltd
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-06-27
Anticipated expiration: 2043-03-16
Also published as: CN116344070B

Abstract

本发明公开了一种病理特征与临床信息融合方法及系统，包括：分别对图像及文本数据进行特征提取操作，其中，图像通过卷积神经网络进行特征提取；对提取的特征进行加工处理，获取图像及文本数据的特征对应向量，再将图像及文本的特征对应向量进行拼接，获得融合后的特征；通过全连接神经网络对融合后的特征进行学习，获得全扫描图像的预测结果。结合病理特征和临床信息的深度学习方法，能够通过神经网络自动化融合两种不同信息源的数据，输出全扫描图像的预测概率，还通过临床特征辅助病理分析模型做出更好的预测。

Description

一种病理特征与临床信息融合方法及系统

技术领域

本发明涉及特征处理技术，尤其涉及一种病理特征与临床信息融合方法及系统。

背景技术

病理学是通过分析病人的组织、细胞或者体液样本来诊断疾病的过程，被称为医学的“金标准”，是所有肿瘤类疾病诊断最重要的依据。病理科的诊断水平是医院整体诊断和治疗水平的重要参考指标。随着远程诊断的不断发展，数字病理扫描仪开始进入病理科，越来越多的病理切片被数字化，存储为全扫描图像。伴随着人工智能病理的不断发展，医生通过全扫描图像能够获得机器的辅助诊断结果。

由于全扫描图像尺寸较大，深度学习模型通常在一定放大倍数下，截取图像块对其进行学习和预测。因此在预测过程中，需要对图像块/像素级别的预测结果和概率进行整合，输出整张全扫描图像的预测概率。

而现有技术方案是对于图像块分类模型，研究人员通常对图像块的预测概率进行倒排，取其中的前若干个(比如100个)图像块，并取其预测概率的平均值作为全扫描图像的预测概率。对于像素级预测模型，研究人员通常对所有像素的预测概率进行倒排，取其中的某个(比如第1000个)位置的概率作为全扫描图像的预测概率。对于图像块分类模型，也有研究人员通过其预测结果，构建图像特征集，进行通过这些特征训练支持向量机模型完成全扫描图像的预测模型的建立。但现有技术存在通过统计学的方法，将图像块/像素级的预测映射到全扫描图像级的预测没有病理学依据；仅使用了预测结果来构造病理特征，没有对照全扫描图像；仅考虑了病理的特征，没有考虑临床特征；现有的方法基于支持向量机这一传统机器学习算法，当数据量增加时，模型的预测能力将产生瓶颈。

发明内容

本发明提供了一种病理特征与临床信息融合方法及系统，以解决现有技术中存在的现有技术存在通过统计学的方法，将图像块/像素级的预测映射到全扫描图像级的预测没有病理学依据；仅使用了预测结果来构造病理特征，没有对照全扫描图像；仅考虑了病理的特征，没有考虑临床特征；现有的方法基于支持向量机这一传统机器学习算法，当数据量增加时，模型的预测能力将产生瓶颈的上述问题。

为了达到上述目的，本发明提供如下技术方案：

一种病理特征与临床信息融合方法，包括：

S101：分别对图像及文本数据进行特征提取操作，其中，图像通过卷积神经网络进行特征提取；

S102：对提取的特征进行加工处理，获取图像及文本数据的特征对应向量，再将图像及文本的特征对应向量进行拼接，获得融合后的特征；

S103：通过全连接神经网络对融合后的特征进行学习，获取全扫描图像的预测结果。

其中，所述S101步骤包括：

S1011：基于RGB三个通道构建全扫描图像缩略图，基于反映病变概率的灰阶图像构建预测结果缩略图，其中反映病变概率的灰阶图像有四个通道；

S1012：将全扫描图像缩略图与预测结果缩略图进行叠加处理，再分别对叠加处理后的图像及临床信息文本数据进行特征提取操作；

S1013：叠加处理后的图像作为卷积神经网络的输入，图像通过卷积神经网络进行特征提取，获取病理特征，临床信息文本通过特征加工的方式进行特征提取，获取临床特征。

其中，所述S102步骤包括：

S1021：基于病理特征和临床特征获取图像特征向量和临床特征向量；

S1022：将图像特征向量与临床特征向量进行拼接，形成设定长度的向量；

S1023：基于设定长度的向量，获取融合后的特征。

其中，所述S103步骤包括：

S1031：基于数据库中若干融合后的特征数据，训练全连接神经网络；

S1032：将全扫描图像的真实病变情况作为标签，构建成本函数；

S1033：对全连接神经网络参数进行优化，再基于优化后的全连接神经网络参数和成本函数，获取最终的全扫描图像的预测结果。

其中，所述S1013步骤中临床特征包括：化验数据、影像特征、临床病史数据，临床特征以文本的形式存储，通过对临床信息文本进行特征加工，以适应全连接神经网络的训练需要；在对临床信息文本进行特征加工过程中，将数值型数据作为特征，通过独热编码罗列类数据，构造对应的数学向量。

其中，临床特征以文本的形式存储包括：基于数据库对临床信息文本数据进行抽取与编码操作；

在对临床信息文本数据进行抽取与编码操作过程中，通过临床信息语料库确定待抽取的临床信息并制定语料库构建规范，然后通过数据标注构建临床信息语料库；构建临床信息抽取模型，先分析信息抽取现状，选定设定标准的信息抽取模型，通过设置不同的模型参数反复计算确定最优临床信息抽取模型；将需要抽取的临床信息的目标数据转换成模型输入的格式，利用构建好的临床信息抽取模型抽取信息，形成临床信息集；根据对应信息编码标准对临床信息进行编码，形成临床信息代码集。

其中，所述S1031步骤包括：

通过训练全连接神经网络构建全连接神经网络模型，全连接神经网络模型包括输入层、隐藏层、输出层，其中，通过输入层输入特征向量，输入层神经元选取病理特征和临床特征，隐藏层神经元根据经验公式获取初始节点数，再根据扩张法、删除法来确定最终全连接神经网络模型的隐藏层节点数，输出层由设定目标确定，输出为全扫描图像的预测结果。

其中，一种病理特征与临床信息融合系统，包括：

特征提取单元用于分别对图像及文本数据进行特征提取操作，其中，图像通过卷积神经网络进行特征提取；

特征融合单元用于对提取的特征进行加工处理，获取图像及文本数据的特征对应向量，再将图像及文本的特征对应向量进行拼接，获得融合后的特征；

全扫描图像预测单元用于通过全连接神经网络对融合后的特征进行学习，获取全扫描图像的预测结果。

其中，所述特征提取单元包括：

第一特征提取子单元用于基于RGB三个通道构建全扫描图像缩略图，基于反映病变概率的灰阶图像构建预测结果缩略图，其中反映病变概率的灰阶图像有四个通道；

第二特征提取子单元用于将全扫描图像缩略图与预测结果缩略图进行叠加处理，再分别对叠加处理后的图像及临床信息文本数据进行特征提取操作；

第三特征提取子单元用于叠加处理后的图像作为卷积神经网络的输入，图像通过卷积神经网络进行特征提取，获取病理特征，临床信息文本通过特征加工的方式进行特征提取，获取临床特征。

其中，所述特征融合单元包括：

第一特征融合子单元用于基于病理特征和临床特征获取图像特征向量和临床特征向量；

第二特征融合子单元用于将图像特征向量与临床特征向量进行拼接，形成设定长度的向量；

第三特征融合子单元用于基于设定长度的向量，获取融合后的特征。

与现有技术相比，本发明具有以下优点：

一种病理特征与临床信息融合方法，包括：分别对图像及文本数据进行特征提取操作，其中，图像通过卷积神经网络进行特征提取；对提取的特征进行加工处理，获取图像及文本数据的特征对应向量，再将图像及文本的特征对应向量进行拼接，获得融合后的特征；通过全连接神经网络对融合后的特征进行学习，获得全扫描图像的预测结果。结合病理特征和临床信息的深度学习方法，能够通过神经网络自动化融合两种不同信息源的数据，输出全扫描图像的预测概率，还通过临床特征辅助病理分析模型做出更好的预测。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种病理特征与临床信息融合方法的流程图；

图2为本发明实施例中分别对图像及文本数据进行特征提取操作的流程图；

图3为本发明实施例中获得融合后的特征的流程图；

图4为本发明实施例中一种病理特征与临床信息融合方法的系统架构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种病理特征与临床信息融合方法，请参见图1至图4，包括：

S103：通过全连接神经网络对融合后的特征进行学习，获得全扫描图像的预测结果。

上述技术方案的工作原理为：首先分别对图像及文本数据进行加工，图像通过卷积神经网络进行特征提取，文本通过特征加工获得其数学表达式(即向量)，然后将两部分的向量进行拼接，获得融合后的特征，最后通过全连接神经网络对融合特征进行学习，获得全扫描图像的预测结果。

上述技术方案的有益效果为：分别对图像及文本数据进行特征提取操作，其中，图像通过卷积神经网络进行特征提取；对提取的特征进行加工处理，获取图像及文本数据的特征对应向量，再将图像及文本的特征对应向量进行拼接，获得融合后的特征；通过全连接神经网络对融合后的特征进行学习，获得全扫描图像的预测结果。结合病理特征和临床信息的深度学习方法，能够通过神经网络自动化融合两种不同信息源的数据，输出全扫描图像的预测概率，还通过临床特征辅助病理分析模型做出更好的预测。

在另一实施例中，所述S101步骤包括：

S1013：叠加处理后的图像作为卷积神经网络的输入，图像通过卷积神经网络进行特征提取，临床信息文本通过特征加工的方式进行特征提取。

上述技术方案的工作原理为：卷积神经网络的输入为全扫描图像与预测结果的缩略图叠加后的图像，全扫描图像为RGB三个通道，预测结果为反映病变概率的灰阶图像(每个像素的值为概率乘以255)，输入图像共计四个通道。可采用任意的卷积神经网络结构，通过全扫描图像的真实病变情况作为标签(比如有病变为1，没有病变为0)，构造成本函数(比如交叉熵)，对网络参数进行优化。图像特征定义为倒数第二个全连接层，一般为1024维。

上述技术方案的有益效果为：基于RGB三个通道构建全扫描图像缩略图，基于反映病变概率的灰阶图像构建预测结果缩略图，其中反映病变概率的灰阶图像有四个通道；将全扫描图像缩略图与预测结果缩略图进行叠加处理，再分别对叠加处理后的图像及临床信息文本数据进行特征提取操作；叠加处理后的图像作为卷积神经网络的输入，图像通过卷积神经网络进行特征提取，获取病理特征，临床信息文本通过特征加工的方式进行特征提取，获取临床特征。在病理特征方面，模型能够同时输入全扫描图像与预测结果，通过卷积神经网络进行分析，得到整合后的病理特征。

在另一实施例中，所述S102步骤包括：

S1023：基于设定长度的向量，获取融合后的特征。

上述技术方案的工作原理为：基于病理特征和临床特征获取图像特征向量和临床特征向量，将图像特征向量与临床特征向量进行拼接，形成更长的向量，基于设定长度的向量，获取融合后的特征。

上述技术方案的有益效果为：基于病理特征和临床特征获取图像特征向量和临床特征向量；将图像特征向量与临床特征向量进行拼接，形成设定长度的向量；基于设定长度的向量，获取融合后的特征。在病理特征方面，模型能够同时输入全扫描图像与预测结果，通过卷积神经网络进行分析，得到整合后的病理特征。

在另一实施例中，所述S103步骤包括：

上述技术方案的工作原理为：通过大量数据，训练全连接神经网络，通过全扫描图像的真实病变情况作为标签(比如有病变为1，没有病变为0)，构造成本函数(比如交叉熵)，对网络参数进行优化，获得最终的预测模型。

其中，全扫描图像是指：通过全自动显微镜或光学放大系统扫描采集得到高分辨数字图像，通过计算机进行高精度多视野无缝隙拼接和处理，从而获得的多层级可视化的图像。

上述技术方案的有益效果为：基于数据库中若干融合后的特征数据，训练全连接神经网络；将全扫描图像的真实病变情况作为标签，构建成本函数；对全连接神经网络参数进行优化，再基于优化后的全连接神经网络参数和成本函数，获取最终的全扫描图像的预测结果。结合病理特征和临床信息的深度学习方法，能够通过神经网络自动化融合两种不同信息源的数据，输出全扫描图像的预测概率，还通过临床特征辅助病理分析模型做出更好的预测。

在另一实施例中，所述S1013步骤中临床特征包括：化验数据、影像特征、临床病史数据，临床特征以文本的形式存储，通过对临床信息文本进行特征加工，以适应全连接神经网络的训练需要；在对临床信息文本进行特征加工过程中，将数值型数据作为特征，通过独热编码罗列类数据，构造对应的数学向量。

上述技术方案的工作原理为：临床特征包括但不限于化验、影像特征、临床病史等，由于这些信息在系统中一般以文本的形式存储，需要对其进行特征加工，以适应模型训练的需要。一般地，将数值型数据直接作为特征，罗列类数据使用独热编码，构造出数学向量。

上述技术方案的有益效果为：临床特征包括：化验数据、影像特征、临床病史数据，临床特征以文本的形式存储，通过对临床信息文本进行特征加工，以适应全连接神经网络的训练需要；在对临床信息文本进行特征加工过程中，将数值型数据作为特征，通过独热编码罗列类数据，构造对应的数学向量。结合病理特征和临床信息的深度学习方法，能够通过神经网络自动化融合两种不同信息源的数据，输出全扫描图像的预测概率，还通过临床特征辅助病理分析模型做出更好的预测。

在另一实施例中，临床特征以文本的形式存储包括：基于数据库对临床信息文本数据进行抽取与编码操作；

上述技术方案的工作原理为：临床信息抽取与编码分为四个阶段：

(1)构建临床信息语料库

此阶段的主要任务是确定需要抽取的信息并制定语料库构建规范，然后进行数据标注完成语料库构建。

(2)构建临床信息抽取模型

首先分析信息抽取研究现状，选定几个较好的信息抽取模型，通过设置不同的模型参数反复实验，确定最优模型。

(3)临床信息抽取

将需要抽取信息的目标数据转换成模型输入的格式，利用构建好的模型抽取信息，形成临床信息集。

(4)中医临床症状信息编码

根据相关信息编码标准对临床信息进行编码，形成临床信息代码集。

上述技术方案的有益效果为：在对临床信息文本数据进行抽取与编码操作过程中，通过临床信息语料库确定待抽取的临床信息并制定语料库构建规范，然后通过数据标注构建临床信息语料库；构建临床信息抽取模型，先分析信息抽取现状，选定设定标准的信息抽取模型，通过设置不同的模型参数反复计算确定最优临床信息抽取模型；将需要抽取的临床信息的目标数据转换成模型输入的格式，利用构建好的临床信息抽取模型抽取信息，形成临床信息集；根据对应信息编码标准对临床信息进行编码，形成临床信息代码集。便于数据存储和分析。

在另一实施例中，所述S1031步骤包括：

上述技术方案的工作原理为：通过训练全连接神经网络构建全连接神经网络模型，全连接神经网络模型包括输入层、隐藏层、输出层，其中，通过输入层输入特征向量Si＝{QPF1,QIF1,QPF2,QIF2,QPF3,QIF3}，其中i＝1,2,...,n，输入层神经元选取病理特征和临床特征，隐藏层神经元根据经验公式获取初始节点数，再根据扩张法、删除法来确定最终全连接神经网络模型的隐藏层节点数，输出层由设定目标确定，输出为全扫描图像的预测结果。

其中，经验公式表示为：

H表示为初始节点数，F表示为输入层节点数，M表示为输出层节点数，α表示为隐藏层节点数。根据公式获取初始节点数。

通过输出的全扫描图像的预测结果对全连接神经网络模型进行评估，对模型预测的准确率公式表示为：

其中，P表示为预测值与真实值差值平方的期望，n表示有n个全扫描图像组合，p_i表示全连接神经网络模型预测出的全扫描图像i的预测值，y_i表示为全扫描图像i运行中的真实值。P值越接近于0，预测值与真实值之间的差异越小，预测值越逼近真实值。

上述技术方案的有益效果为：通过训练全连接神经网络构建全连接神经网络模型，全连接神经网络模型包括输入层、隐藏层、输出层，其中，通过输入层输入特征向量，输入层神经元选取病理特征和临床特征，隐藏层神经元根据经验公式获取初始节点数，再根据扩张法、删除法来确定最终全连接神经网络模型的隐藏层节点数，输出层由设定目标确定，输出为全扫描图像的预测结果。通过该方法提高全连接神经网络模型预测准确率，使输出的全扫描图像的预测结果更准确。

在另一实施例中，一种病理特征与临床信息融合系统，包括：

上述技术方案的工作原理为：特征提取单元用于分别对图像及文本数据进行特征提取操作，其中，图像通过卷积神经网络进行特征提取；特征融合单元用于对提取的特征进行加工处理，获取图像及文本数据的特征对应向量，再将图像及文本的特征对应向量进行拼接，获得融合后的特征；全扫描图像预测单元用于通过全连接神经网络对融合后的特征进行学习，获取全扫描图像的预测结果。

上述技术方案的有益效果为：特征提取单元用于分别对图像及文本数据进行特征提取操作，其中，图像通过卷积神经网络进行特征提取；特征融合单元用于对提取的特征进行加工处理，获取图像及文本数据的特征对应向量，再将图像及文本的特征对应向量进行拼接，获得融合后的特征；全扫描图像预测单元用于通过全连接神经网络对融合后的特征进行学习，获取全扫描图像的预测结果。结合病理特征和临床信息的深度学习方法，能够通过神经网络自动化融合两种不同信息源的数据，输出全扫描图像的预测概率，还通过临床特征辅助病理分析模型做出更好的预测。

在另一实施例中，所述特征提取单元包括：

上述技术方案的工作原理为：第一特征提取子单元用于基于RGB三个通道构建全扫描图像缩略图，基于反映病变概率的灰阶图像构建预测结果缩略图，其中反映病变概率的灰阶图像有四个通道；第二特征提取子单元用于将全扫描图像缩略图与预测结果缩略图进行叠加处理，再分别对叠加处理后的图像及临床信息文本数据进行特征提取操作；第三特征提取子单元用于叠加处理后的图像作为卷积神经网络的输入，图像通过卷积神经网络进行特征提取，获取病理特征，临床信息文本通过特征加工的方式进行特征提取，获取临床特征。

上述技术方案的有益效果为：第一特征提取子单元用于基于RGB三个通道构建全扫描图像缩略图，基于反映病变概率的灰阶图像构建预测结果缩略图，其中反映病变概率的灰阶图像有四个通道；第二特征提取子单元用于将全扫描图像缩略图与预测结果缩略图进行叠加处理，再分别对叠加处理后的图像及临床信息文本数据进行特征提取操作；第三特征提取子单元用于叠加处理后的图像作为卷积神经网络的输入，图像通过卷积神经网络进行特征提取，获取病理特征，临床信息文本通过特征加工的方式进行特征提取，获取临床特征。结合病理特征和临床信息的深度学习方法，能够通过神经网络自动化融合两种不同信息源的数据，输出全扫描图像的预测概率，还通过临床特征辅助病理分析模型做出更好的预测。

在另一实施例中，所述特征融合单元包括：

上述技术方案的工作原理为：第一特征融合子单元用于基于病理特征和临床特征获取图像特征向量和临床特征向量；第二特征融合子单元用于将图像特征向量与临床特征向量进行拼接，形成设定长度的向量；第三特征融合子单元用于基于设定长度的向量，获取融合后的特征。

上述技术方案的有益效果为：第一特征融合子单元用于基于病理特征和临床特征获取图像特征向量和临床特征向量；第二特征融合子单元用于将图像特征向量与临床特征向量进行拼接，形成设定长度的向量；第三特征融合子单元用于基于设定长度的向量，获取融合后的特征。在病理特征方面，模型能够同时输入全扫描图像与预测结果，通过卷积神经网络进行分析，得到整合后的病理特征。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种病理特征与临床信息融合方法，其特征在于，包括：

2.根据权利要求1所述的一种病理特征与临床信息融合方法，其特征在于，所述S101步骤包括：

3.根据权利要求1所述的一种病理特征与临床信息融合方法，其特征在于，所述S102步骤包括：

S1023：基于设定长度的向量，获取融合后的特征。

4.根据权利要求1所述的一种病理特征与临床信息融合方法，其特征在于，所述S103步骤包括：

5.根据权利要求2所述的一种病理特征与临床信息融合方法，其特征在于，所述S1013步骤中临床特征包括：化验数据、影像特征、临床病史数据，临床特征以文本的形式存储，通过对临床信息文本进行特征加工，以适应全连接神经网络的训练需要；在对临床信息文本进行特征加工过程中，将数值型数据作为特征，通过独热编码罗列类数据，构造对应的数学向量。

6.根据权利要求5所述的一种病理特征与临床信息融合方法及系统，其特征在于，临床特征以文本的形式存储包括：基于数据库对临床信息文本数据进行抽取与编码操作；

7.根据权利要求4所述的一种病理特征与临床信息融合方法及系统，其特征在于，所述S1031步骤包括：

8.一种病理特征与临床信息融合系统，其特征在于，包括：

9.根据权利要求8所述的一种病理特征与临床信息融合系统，其特征在于，所述特征提取单元包括：

10.根据权利要求8所述的一种病理特征与临床信息融合系统，其特征在于，所述特征融合单元包括：