CN116129298B

CN116129298B - 基于时空记忆网络的甲状腺视频流结节识别系统

Info

Publication number: CN116129298B
Application number: CN202211427699.0A
Authority: CN
Inventors: 张雷; 石一磊; 牟立超; 赵星
Original assignee: Maide Intelligent Technology Wuxi Co ltd
Current assignee: Maide Intelligent Technology Wuxi Co ltd
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2023-11-24
Anticipated expiration: 2042-11-15
Also published as: CN116129298A

Abstract

本发明公开了一种基于时空记忆网络的甲状腺视频流结节识别系统，包括图像获取模块、结节坐标获取模块、结节分类模块和结果匹配模块。该系统将甲状腺超声视频流数据输入到结节检测模型中，提取结节位置坐标，根据结节坐标从超声视频帧中截取结节ROI区域，将截取的ROI图像Resize到固定尺寸后输入到时空记忆网络中。该时空记忆网络对历史帧结节进行空间特征提取，然后对该特征进行编码存储；进行当前帧诊断时，该网络先将当前帧结节特征进行提取、编码，然后将存储的历史帧结节特征读取并与当前帧结节特征结合，判断当前帧结节的良恶性。本发明避免了单帧图像诊断造成的误差，有效提高视频诊断准确率及诊断结果一致性。

Description

基于时空记忆网络的甲状腺视频流结节识别系统

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于时空记忆网络的甲状腺视频流结节识别系统。

背景技术

甲状腺癌近年发病率不断提高，早发现与早治疗是提高甲状腺癌患者存活率的重要手段。超声检查具有无痛苦、无电离辐射、经济适用、实时成像等优点，适合甲状腺常规普查。临床上，超声灰阶图像能反映出结节形态、病变方向、病变界限及边缘等特征。同时也有成像质量差、差异性大等特有的缺点。近年来，深度学习已经成为最主要的机器学习工具，广泛应用于各个研究领域。在医学超声图像分析中，深度学习也展示了巨大的潜力，通过深度学习技术开发自动化超声图像分析方法来帮助医生进行超声诊断，一方面可以减轻医生的负担，另一方面可以降低诊断的主观性，从而使得诊断更加客观与准确。

目前已有很多运用深度学习方法在医疗图像上进行辅助诊断的技术，尤其在针对CT，核磁图像的应用，如肺结节筛查，血管分割等。现有技术方案中，大多方法基于静态图片进行分析，对于超声视频数据的应用很少，主要原因为超声检查视频数据质量较差，且图像内容、病灶大小、形态、纹理等特征会随着操作医师的手法变化而变化，不利于神经网络提取病灶显著特征，从而导致同一病灶，不同视频帧模型判断结果不一致的情况出现。

发明内容

本发明的目的是提供一种基于时空记忆网络的甲状腺视频流结节识别系统，以解决基于静态图片进行分析甲状腺结节时难以提取病灶显著特征、从而导致同一病灶，不同视频帧模型判断结果不一致的技术问题。

本发明的技术方案如下：

基于时空记忆网络的甲状腺视频流结节识别系统，包括：

图像获取模块，用于实时获取甲状腺临床超声检查中视频流，进行分帧处理；

结节坐标获取模块，用于将完成图像预处理的当前帧和历史帧图像输入到结节检测模型中，得到结节坐标；其中，取第k帧图像作为当前帧，当k>5时从k之前的图像帧中随机采样M帧作为历史帧；

结节分类模块，用于根据结节坐标从整图中截取结节ROI图像，将历史帧结节图像输入到时空记忆网络进行编码存储，将当前帧结节图像输入到时空记忆网络进行编码，并读取历史帧结节信息进行融合，然后进行结节性质分类，该时空记忆网络综合考虑历史帧结节信息与当前帧结节信息；

结果匹配模块，用于根据所述结节检测模型的输出确定所述待测超声图像帧的结节坐标，完成对所述待测超声图像帧中的结节的检测；根据所述时空记忆网络的输出确定所述待测超声图像帧的结节性质分类，得到当前帧的结节识别结果。

优选的，所述图像获取模块包括预处理子模块，该预处理步骤包括：

将待测超声图像帧调整到设定的尺寸；

裁掉待测超声图像中的无关区域，仅保留超声窗口区域；

对待测超声图像帧进行直方图均衡化；

对待测超声图像帧进行归一化，得到完成图像预处理的所述待测超声图像帧。

进一步的，本系统还包括：

样本数据集构建模块，所述样本数据集包括若干段甲状腺区域的超声检查视频流，每个样本超声图像帧中包括结节标注框，所述结节标注框用于标注样本超声图像中的结节位置以及类型，所述样本数据集的样本超声图像中包括多种不同位置和/或类型的结节；

模型训练模块，用于利用所述样本数据集训练结节检测模型和时空记忆网络，得到最终推理模型。

优选的，所述模型训练模块训练所述结节检测模型的步骤包括：

利用ImageNet数据集对结节检测模型backbone部分进行预训练；

使用预训练好的网络参数初始化结节检测模型backbone部分，并利用所述样本数据集进行迁移学习得到所述结节检测模型；

所述模型训练模块训练所述时空记忆网络的步骤包括：

利用ImageNet数据集对时空记忆网络backbone部分进行预训练；

使用预训练好的网络参数初始化时空记忆网络backbone部分，并利用所述样本数据集进行迁移学习得到所述时空记忆网络。

优选的，所述模型训练模块将所述样本数据集划分为训练集、验证集和测试集，利用所述训练集中的样本超声视频对结节检测模型和时空记忆网络进行训练，利用所述验证集中的样本超声视频对训练的超参数进行优化得到所述结节检测模型和时空记忆网络，并利用测试集中的样本超声视频对训练得到的结节检测模型和时空记忆网络进行测试。

优选的，所述样本数据集的样本超声视频中包括至少两种不同尺寸范围的结节，训练集中的样本超声视频包括的各种尺寸范围的结节的数量差在第二误差范围内。

优选的，所述结节检测模型使用YoLo-v5网络；所述时空记忆网络从输入到输出依次包括特征提取单元、记忆存储单元、记忆读取单元和分类单元；其中，

所述特征提取单元用于对完成图像预处理的结节图像进行特征提取并输出特征图；

所述记忆存储单元用于将M个历史帧结节特征图进行编码映射并保存；

所述记忆读取单元用于读取存储的M个历史帧结节信息，并与当前帧结节信息进行结合，得到结合后的特征；

所述分类单元用于使用分类器基于结合后的特征对结节进行良恶性分类。

优选的，所述特征提取单元基于ResNet50构建，通过五个阶段经过16倍下采样，进行特征提取得到特征图。

优选的，所述记忆存储单元包含key-value映射子单元和key-value聚合子单元；

所述key-value映射子单元用于将所述特征提取单元提取到的结节特征图通过可学习的参数进行线性映射得到key-value向量对，其中key用于评估当前帧和之前帧的相似性，用以判断Memory中那些特征应该被采样出来，Value用于保存结节更为细致的信息；

所述key-value聚合子单元用于将M个历史帧通过特征提取单元和key-value映射子单元得到的key-value向量对进行聚合，得到M个key-value向量对，并将其进行存储；

所述记忆读取单元包含Memory加权子单元和特征整合子单元；

所述Memory加权子单元用于通过计算当前帧结节key向量与存储的M个历史帧结节key向量的相似度，并进行sofmax归一化得到一组注意力权重，将注意力权重与M个历史帧结节value向量相乘得到加权后的value向量组；

所述特征整合子单元用于将历史结节加权后的value向量组与当前帧结节的value向量进行拼接融合，将融合后的特征送入分类器中进行结节良恶性判断。

进一步的，所述分类单元包含全局池化模块、全联接层以及softmax分类器。

本发明的另一个目的是提供一种计算机可读存储介质，所述计算机可读存储介质存储有基于时空记忆网络的甲状腺视频流结节识别指令，所述基于时空记忆网络的甲状腺视频流结节识别指令被处理器执行时实现上述基于时空记忆网络的甲状腺视频流结节识别系统中各模块的功能。

本发明的再一个目的是提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现上述基于时空记忆网络的甲状腺视频流结节识别系统中各模块的功能。

本发明的有益技术效果是：

本申请的甲状腺视频流结节识别系统在获取到甲状腺超声视频流数据后，将视频内每帧图像进行预处理，输入到结节检测网络中，通过结节检测网络提取结节位置坐标，根据结节坐标从超声视频帧中截取结节 ROI 区域，将截取的 ROI 图像调整到固定尺寸后输入到时空记忆网络中。该时空记忆网络首先通过特征提取模块对历史帧结节进行空间特征提取，然后将历史帧结节特征进行编码存储；在进行当前帧诊断时，该网络首先将当前帧结节特征进行提取、编码，然后通过读取模块将存储的历史帧结节特征进行读取并与当前帧结节特征进行结合，基于结合后的特征，使用分类模块判断当前帧结节的良恶性。

本申请的甲状腺视频流结节识别系统将视频历史帧特征与当前帧特征融合，通过编码存储/读取历史帧信息，将视频时间-空间信息进行融合，充分利用视频数据帧之间的时序特征，避免了基于单帧图像诊断造成的误差，可提高视频诊断准确率及诊断结果的一致性，避免了基于单帧诊断产生的结果跳动问题。

附图说明

图1是本发明的一个实施例中的甲状腺视频流结节识别系统的工作流程图。

图2是本发明的一个实例中对原始的待测超声视频帧进行图像预处理的示意图。

图3是本发明训练得到的时空记忆网络的模型架构图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步说明。

本申请公开了一种基于时空记忆网络的甲状腺视频流结节识别系统，包括图像获取模块、结节坐标获取模块、结节分类模块和结果匹配模块。

请参考图1所示的流程图，对各模块的工作步骤说明如下：

（1）图像获取模块实时获取甲状腺临床超声检查中视频流，通过视频采集卡实时获取超声机扫查视频流，进行分帧处理。

（2）如图2所示，图像获取模块还对超声视频流帧进行图像预处理，将超声图像帧调整到设定尺寸，例如但不限于512x512尺寸；裁掉超声图像中的无关区域，仅保留超声窗口区域；对超声图像帧进行直方图均衡化；对超声图像帧进行归一化。

（3）如图3所示，结节坐标获取模块将步骤(2)预处理后的超声视频流，取第k帧图像作为当前帧，从k之前的图像帧中随机采样M帧作为历史帧。将完成图像预处理的当前帧和历史帧图像输入到结节检测模型中，结节检测模型是预先基于YoLo-v5网络训练得到的，根据结节检测模型的输出确定待测超声视频帧的结节的位置，完成对待测超声图像中的结节的检测。

（4）结节分类模块根据步骤(3)获取的结节坐标从整图中截取结节ROI图像，即感兴趣区域图像，将历史帧结节数据图像输入到时空记忆网络，进行特征提取，并编码存储。

（5）结节分类模块根据步骤(3)获取的结节坐标从整图中截取结节ROI图像，将当前帧结节数据图像输入到时空记忆网络，进行特征提取，通过读取模块读取历史帧结节信息，与当前帧结节特征进行融合，使用分类模型进行结节良恶性分类。

（6）结果匹配模块根据结节检测模型的输出确定待测超声图像帧的结节坐标，完成对待测超声图像帧中的结节的检测；根据时空记忆网络的输出确定待测超声图像帧的结节性质分类，得到当前帧的结节识别结果。

具体的，图像获取模块包括预处理子模块，其预处理步骤包括：将待测超声图像帧调整到设定的尺寸；裁掉待测超声图像中的无关区域，仅保留超声窗口区域；对待测超声图像帧进行直方图均衡化；对待测超声图像帧进行归一化，得到完成图像预处理的待测超声图像帧。

结节坐标获取模块还包括样本数据集构建模块和模型训练模块，模型训练模块利用样本数据集训练结节检测模型和时空记忆网络，得到最终推理模型。

时空记忆网络从输入到输出依次包括特征提取单元、记忆存储单元、记忆读取单元和分类单元；其中：

特征提取单元用于对完成图像预处理的结节图像进行特征提取并输出特征图；特征提取单元基于ResNet50构建，通过五个阶段经过16倍下采样，进行特征提取得到特征图。

记忆存储单元用于将M个历史帧结节特征图进行编码映射并保存；记忆存储单元包含key-value映射子单元和key-value聚合子单元。

记忆读取单元用于读取存储的M个历史帧结节信息，并与当前帧结节信息进行结合，得到结合后的特征；记忆读取单元包含Memory加权子单元和特征整合子单元。

分类单元用于使用分类器基于结合后的特征对结节进行良恶性分类。分类单元包含全局池化模块、全联接层以及softmax分类器。

作为更进一步的实施方案，上述步骤(3)包含以下子步骤：

(3-1)构造结节检测模型，本发明中结节检测模型使用yolo-v5；

(3-2)使用ImageNet数据集对结节检测模型backbone部分进行预训练；

(3-3)使用超声视频数据集对结节检测模型进行迁移训练，具体步骤包括：

(3-3-1)构建样本数据集，样本数据集包括若干张由甲状腺区域的超声检查视频流分帧处理得到的超声图像帧，每个样本超声图像帧中包括结节标注框，结节标注框用于标注样本超声图像中的结节的位置以及类型，样本数据集的样本超声图像中包括多种不同位置和/或类型的结节；

(3-3-2)将样本数据集划分为训练集、验证集和测试集，利用训练集中的样本超声图像帧对结节检测模型进行训练，利用验证集中的样本超声图像帧对训练的超参数进行优化得到结节检测模型，并利用测试集中的样本超声图像帧对训练得到的结节检测模型进行测试，取精度最优模型得到最终结节检测模型；

(3-4) 将步骤(2)预处理后的超声视频帧图像输入到训练好的结节检测模型中，得到结节位置坐标。

作为更进一步的实施方案，步骤(4)包含以下子步骤：

(4-1) 构造时空记忆网络，时空记忆网络从输入到输出依次包括特征提取单元、记忆存储单元、记忆读取单元和分类单元。

特征提取单元基于ResNet50构建，通过5个阶段经过16倍下采样进行特征提取，得到特征图。式中各参数的定义分别为：

R: 表示特征图F所属的向量空间为R；

H: 为特征图F的高；

W: 为特征图F的宽；

C: 为特征图F的通道数。

记忆存储单元包含key-value映射子单元和key-value聚合子单元， key-value映射单元将特征提取单元提取到的结节特征图F通过可学习的参数进行线性映射得到key- value向量对，其中key向量用于评估当前帧和历史帧的相似性，用以判断Memory中哪些信息应该被采样出来，value向量主要保存结节特征信息，相比key中保存的信息更丰富细致。针对当前帧通过特征提取单元和key-value映射子单元得到的向量对称为Query向量对，记做和，其中，。针对历史帧通过特征提取单元和key- value映射子单元得到的向量对成为Memory向量对，记做和，其中，。key-value聚合子单元将M个历史帧通过特征提取单元和key-value映射子单元得到的key-value向量对进行聚合，得到M个key-value向量对，并将其进行存储。

记忆读取单元包含Memory加权子单元和整合子单元，Memory加权子单元用于将当前帧与历史帧进行关联，通过计算当前帧结节Query向量对中key向量与存储的M个历史帧结节Memory向量对中key向量的相似度，并进行归一化得到一组注意力权重，当前帧i与历史帧j相似度计算公式为：

= exp()

将注意力权重与M个历史帧结节value向量相乘得到加权后的value向量组：

其中Z为归一化参数，。

整合子单元将历史帧结节信息加权后的value向量组与当前帧结节的value向量进行拼接融合得到融合特征y。将融合后的特征y送入分类器中进行结节良恶性判断：

，[]表示特征拼接操作。

分类单元包含全局池化单元、全联接层以及softmax分类器。

(4-2) 使用ImageNet数据集对时空记忆网络的特征提取单元ResNet50部分进行预训练。

(4-3) 使用超声视频数据集对结节检测模型进行迁移训练，具体包括：

(4-3-1)构建样本数据集，样本数据集包括若干段甲状腺区域的超声检查视频流，每个样本超声图像帧中包括结节标注框，结节标注框用于标注样本超声图像中的结节的位置以及类型，样本数据集的样本超声图像中包括多种不同位置和/或类型的结节；

(4-3-2)将样本数据集划分为训练集、验证集和测试集，利用训练集中的样本超声视频流对时空记忆网络进行训练，利用验证集中的样本超声视频流对训练的超参数进行优化得到时空记忆网络，并利用测试集中的样本超声视频流对训练得到的时空记忆网络进行测试。选取测试集精度最高的模型得到最终时空记忆网络模型；

(4-4) 根据步骤(3)获取的结节坐标从整图中截取结节ROI图像，将历史帧结节图像输入到训练好的时空记忆网络中。该时空记忆网络通过特征提取单元、记忆存储单元对历史帧结节进行特征提取和特征信息编码存储。

具体的，步骤(5)包含以下子步骤：

(5-1)根据步骤(3)获取的结节坐标从整图中截取结节ROI图像，将当前帧结节图像输入到训练好的时空记忆网络中。该时空记忆网络通过特征提取单元、记忆读取单元对当前帧结节进行特征提取，并读取历史帧结节特征信息与当前帧结节特征进行融合，得到融合后的特征；

(5-2)该时空记忆网络通过分类单元，基于融合后的特征进行结节良恶性分类，得到最终诊断结果。

实施例2

本实施例提供一种计算机可读存储介质，计算机可读存储介质存储有基于时空记忆网络的甲状腺视频流结节识别指令，基于时空记忆网络的甲状腺视频流结节识别指令被处理器执行时实现上述基于时空记忆网络的甲状腺视频流结节识别系统中各模块的功能。

实施例3

本实施例提供一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，处理器执行计算机可读指令时实现上述基于时空记忆网络的甲状腺视频流结节识别系统中各模块的功能。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于时空记忆网络的甲状腺视频流结节识别系统，其特征在于，包括：

结果匹配模块，用于根据所述结节检测模型的输出确定待测超声图像帧的结节坐标，完成对所述待测超声图像帧中的结节的检测；根据所述时空记忆网络的输出确定所述待测超声图像帧的结节性质分类，得到当前帧的结节识别结果；

所述结节检测模型使用YoLo-v5网络；所述时空记忆网络从输入到输出依次包括特征提取单元、记忆存储单元、记忆读取单元和分类单元；其中，

所述分类单元用于使用分类器基于结合后的特征对结节进行良恶性分类；

所述特征提取单元基于ResNet50构建，通过五个阶段经过16倍下采样，进行特征提取得到特征图，式中各参数的定义分别为：

R: 表示特征图F所属的向量空间为R；

H: 为特征图F的高；

W: 为特征图F的宽；

C: 为特征图F的通道数；

所述记忆存储单元包含key-value映射子单元和key-value聚合子单元；

所述key-value映射子单元用于将所述特征提取单元提取到的结节特征图F通过可学习的参数进行线性映射得到key-value向量对，其中key向量用于评估当前帧和之前帧的相似性，用以判断Memory中哪些特征应该被采样出来，Value向量用于保存结节更为细致的信息；

针对当前帧通过所述特征提取单元和所述key-value映射子单元得到的向量对称为Query向量对，记做和/>，其中/>，/>；

针对历史帧通过所述特征提取单元和所述key-value映射子单元得到的向量对称为Memory向量对，记做和/>，其中/>，/>；

所述key-value聚合子单元将M个历史帧通过所述特征提取单元和所述key-value映射子单元得到的key-value向量对进行聚合，得到M个key-value向量对，并将其进行存储；

所述记忆读取单元包含Memory加权子单元和特征整合子单元；

其中，所述Memory加权子单元将当前帧与历史帧进行关联，通过计算当前帧结节Query向量对中key向量与存储的M个历史帧结节Memory向量对中key向量的相似度，并进行归一化得到一组注意力权重，当前帧i与历史帧j相似度计算公式为：

= exp(/>)

其中Z为归一化参数，；

所述特征整合子单元用于将历史结节加权后的value向量组与当前帧结节的value向量进行拼接融合得到特征y，将融合后的特征y送入分类器中进行结节良恶性判断；

，式中的[/>]表示特征拼接操作；

式中：

，

：/>。

2.根据权利要求1所述的甲状腺视频流结节识别系统，其特征在于，所述图像获取模块包括预处理子模块，该预处理步骤包括：

将待测超声图像帧调整到设定的尺寸；

裁掉待测超声图像中的无关区域，仅保留超声窗口区域；

对待测超声图像帧进行直方图均衡化；

3.根据权利要求1所述的甲状腺视频流结节识别系统，其特征在于，还包括：

样本数据集构建模块，样本数据集包括若干段甲状腺区域的超声检查视频流，每个样本超声图像帧中包括结节标注框，所述结节标注框用于标注样本超声图像中的结节位置以及类型，所述样本数据集的样本超声图像中包括多种不同位置和/或类型的结节；

4.根据权利要求3所述的甲状腺视频流结节识别系统，其特征在于，所述模型训练模块训练所述结节检测模型的步骤包括：

利用ImageNet数据集对结节检测模型backbone部分进行预训练；

所述模型训练模块训练所述时空记忆网络的步骤包括：

利用ImageNet数据集对时空记忆网络backbone部分进行预训练；

5.根据权利要求3所述的甲状腺视频流结节识别系统，其特征在于，所述模型训练模块将所述样本数据集划分为训练集、验证集和测试集，利用所述训练集中的样本超声视频对结节检测模型和时空记忆网络进行训练，利用所述验证集中的样本超声视频对训练的超参数进行优化得到所述结节检测模型和时空记忆网络，并利用测试集中的样本超声视频对训练得到的结节检测模型和时空记忆网络进行测试；

所述样本数据集的样本超声视频中包括至少两种不同尺寸范围的结节，训练集中的样本超声视频包括的各种尺寸范围的结节的数量差在设定误差范围内。

6.根据权利要求1所述的甲状腺视频流结节识别系统，其特征在于，所述分类单元包含全局池化模块、全连接层以及softmax分类器。