CN116129298B - 基于时空记忆网络的甲状腺视频流结节识别系统 - Google Patents
基于时空记忆网络的甲状腺视频流结节识别系统 Download PDFInfo
- Publication number
- CN116129298B CN116129298B CN202211427699.0A CN202211427699A CN116129298B CN 116129298 B CN116129298 B CN 116129298B CN 202211427699 A CN202211427699 A CN 202211427699A CN 116129298 B CN116129298 B CN 116129298B
- Authority
- CN
- China
- Prior art keywords
- nodule
- frame
- image
- space
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 210000001685 thyroid gland Anatomy 0.000 title claims abstract description 32
- 238000001514 detection method Methods 0.000 claims abstract description 46
- 230000003211 malignant effect Effects 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 52
- 238000012549 training Methods 0.000 claims description 43
- 238000000605 extraction Methods 0.000 claims description 33
- 206010054107 Nodule Diseases 0.000 claims description 21
- 238000013507 mapping Methods 0.000 claims description 19
- 238000007781 pre-processing Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 13
- 230000005055 memory storage Effects 0.000 claims description 12
- 238000002604 ultrasonography Methods 0.000 claims description 11
- 230000002776 aggregation Effects 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 238000013508 migration Methods 0.000 claims description 4
- 230000005012 migration Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000010200 validation analysis Methods 0.000 claims 2
- 238000007405 data analysis Methods 0.000 claims 1
- 238000003745 diagnosis Methods 0.000 abstract description 14
- 239000000284 extract Substances 0.000 abstract description 5
- 238000003704 image resize Methods 0.000 abstract 2
- 238000002372 labelling Methods 0.000 description 9
- 238000012795 verification Methods 0.000 description 6
- 238000000034 method Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 3
- 208000024770 Thyroid neoplasm Diseases 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 201000002510 thyroid cancer Diseases 0.000 description 2
- 206010056342 Pulmonary mass Diseases 0.000 description 1
- 208000009453 Thyroid Nodule Diseases 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003703 image analysis method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000005865 ionizing radiation Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10132—Ultrasound image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明公开了一种基于时空记忆网络的甲状腺视频流结节识别系统,包括图像获取模块、结节坐标获取模块、结节分类模块和结果匹配模块。该系统将甲状腺超声视频流数据输入到结节检测模型中,提取结节位置坐标,根据结节坐标从超声视频帧中截取结节ROI区域,将截取的ROI图像Resize到固定尺寸后输入到时空记忆网络中。该时空记忆网络对历史帧结节进行空间特征提取,然后对该特征进行编码存储;进行当前帧诊断时,该网络先将当前帧结节特征进行提取、编码,然后将存储的历史帧结节特征读取并与当前帧结节特征结合,判断当前帧结节的良恶性。本发明避免了单帧图像诊断造成的误差,有效提高视频诊断准确率及诊断结果一致性。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于时空记忆网络的甲状腺视频流结节识别系统。
背景技术
甲状腺癌近年发病率不断提高,早发现与早治疗是提高甲状腺癌患者存活率的重要手段。超声检查具有无痛苦、无电离辐射、经济适用、实时成像等优点,适合甲状腺常规普查。临床上,超声灰阶图像能反映出结节形态、病变方向、病变界限及边缘等特征。同时也有成像质量差、差异性大等特有的缺点。近年来,深度学习已经成为最主要的机器学习工具,广泛应用于各个研究领域。在医学超声图像分析中,深度学习也展示了巨大的潜力,通过深度学习技术开发自动化超声图像分析方法来帮助医生进行超声诊断,一方面可以减轻医生的负担,另一方面可以降低诊断的主观性,从而使得诊断更加客观与准确。
目前已有很多运用深度学习方法在医疗图像上进行辅助诊断的技术,尤其在针对CT,核磁图像的应用,如肺结节筛查,血管分割等。现有技术方案中,大多方法基于静态图片进行分析,对于超声视频数据的应用很少,主要原因为超声检查视频数据质量较差,且图像内容、病灶大小、形态、纹理等特征会随着操作医师的手法变化而变化,不利于神经网络提取病灶显著特征,从而导致同一病灶,不同视频帧模型判断结果不一致的情况出现。
发明内容
本发明的目的是提供一种基于时空记忆网络的甲状腺视频流结节识别系统,以解决基于静态图片进行分析甲状腺结节时难以提取病灶显著特征、从而导致同一病灶,不同视频帧模型判断结果不一致的技术问题。
本发明的技术方案如下:
基于时空记忆网络的甲状腺视频流结节识别系统,包括:
图像获取模块,用于实时获取甲状腺临床超声检查中视频流,进行分帧处理;
结节坐标获取模块,用于将完成图像预处理的当前帧和历史帧图像输入到结节检测模型中,得到结节坐标;其中,取第k帧图像作为当前帧,当k>5时从k之前的图像帧中随机采样M帧作为历史帧;
结节分类模块,用于根据结节坐标从整图中截取结节ROI图像,将历史帧结节图像输入到时空记忆网络进行编码存储,将当前帧结节图像输入到时空记忆网络进行编码,并读取历史帧结节信息进行融合,然后进行结节性质分类,该时空记忆网络综合考虑历史帧结节信息与当前帧结节信息;
结果匹配模块,用于根据所述结节检测模型的输出确定所述待测超声图像帧的结节坐标,完成对所述待测超声图像帧中的结节的检测;根据所述时空记忆网络的输出确定所述待测超声图像帧的结节性质分类,得到当前帧的结节识别结果。
优选的,所述图像获取模块包括预处理子模块,该预处理步骤包括:
将待测超声图像帧调整到设定的尺寸;
裁掉待测超声图像中的无关区域,仅保留超声窗口区域;
对待测超声图像帧进行直方图均衡化;
对待测超声图像帧进行归一化,得到完成图像预处理的所述待测超声图像帧。
进一步的,本系统还包括:
样本数据集构建模块,所述样本数据集包括若干段甲状腺区域的超声检查视频流,每个样本超声图像帧中包括结节标注框,所述结节标注框用于标注样本超声图像中的结节位置以及类型,所述样本数据集的样本超声图像中包括多种不同位置和/或类型的结节;
模型训练模块,用于利用所述样本数据集训练结节检测模型和时空记忆网络,得到最终推理模型。
优选的,所述模型训练模块训练所述结节检测模型的步骤包括:
利用ImageNet数据集对结节检测模型backbone部分进行预训练;
使用预训练好的网络参数初始化结节检测模型backbone部分,并利用所述样本数据集进行迁移学习得到所述结节检测模型;
所述模型训练模块训练所述时空记忆网络的步骤包括:
利用ImageNet数据集对时空记忆网络backbone部分进行预训练;
使用预训练好的网络参数初始化时空记忆网络backbone部分,并利用所述样本数据集进行迁移学习得到所述时空记忆网络。
优选的,所述模型训练模块将所述样本数据集划分为训练集、验证集和测试集,利用所述训练集中的样本超声视频对结节检测模型和时空记忆网络进行训练,利用所述验证集中的样本超声视频对训练的超参数进行优化得到所述结节检测模型和时空记忆网络,并利用测试集中的样本超声视频对训练得到的结节检测模型和时空记忆网络进行测试。
优选的,所述样本数据集的样本超声视频中包括至少两种不同尺寸范围的结节,训练集中的样本超声视频包括的各种尺寸范围的结节的数量差在第二误差范围内。
优选的,所述结节检测模型使用YoLo-v5网络;所述时空记忆网络从输入到输出依次包括特征提取单元、记忆存储单元、记忆读取单元和分类单元;其中,
所述特征提取单元用于对完成图像预处理的结节图像进行特征提取并输出特征图;
所述记忆存储单元用于将M个历史帧结节特征图进行编码映射并保存;
所述记忆读取单元用于读取存储的M个历史帧结节信息,并与当前帧结节信息进行结合,得到结合后的特征;
所述分类单元用于使用分类器基于结合后的特征对结节进行良恶性分类。
优选的,所述特征提取单元基于ResNet50构建,通过五个阶段经过16倍下采样,进行特征提取得到特征图。
优选的,所述记忆存储单元包含key-value映射子单元和key-value聚合子单元;
所述key-value映射子单元用于将所述特征提取单元提取到的结节特征图通过可学习的参数进行线性映射得到key-value向量对,其中key用于评估当前帧和之前帧的相似性,用以判断Memory中那些特征应该被采样出来,Value用于保存结节更为细致的信息;
所述key-value聚合子单元用于将M个历史帧通过特征提取单元和key-value映射子单元得到的key-value向量对进行聚合,得到M个key-value向量对,并将其进行存储;
所述记忆读取单元包含Memory加权子单元和特征整合子单元;
所述Memory加权子单元用于通过计算当前帧结节key向量与存储的M个历史帧结节key向量的相似度,并进行sofmax归一化得到一组注意力权重,将注意力权重与M个历史帧结节value向量相乘得到加权后的value向量组;
所述特征整合子单元用于将历史结节加权后的value向量组与当前帧结节的value向量进行拼接融合,将融合后的特征送入分类器中进行结节良恶性判断。
进一步的,所述分类单元包含全局池化模块、全联接层以及softmax分类器。
本发明的另一个目的是提供一种计算机可读存储介质,所述计算机可读存储介质存储有基于时空记忆网络的甲状腺视频流结节识别指令,所述基于时空记忆网络的甲状腺视频流结节识别指令被处理器执行时实现上述基于时空记忆网络的甲状腺视频流结节识别系统中各模块的功能。
本发明的再一个目的是提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现上述基于时空记忆网络的甲状腺视频流结节识别系统中各模块的功能。
本发明的有益技术效果是:
本申请的甲状腺视频流结节识别系统在获取到甲状腺超声视频流数据后,将视频内每帧图像进行预处理,输入到结节检测网络中,通过结节检测网络提取结节位置坐标,根据结节坐标从超声视频帧中截取结节 ROI 区域,将截取的 ROI 图像调整到固定尺寸后输入到时空记忆网络中。该时空记忆网络首先通过特征提 取模块对历史帧结节进行空间特征提取,然后将历史帧结节特征进行编码存储;在进行当前帧诊断时,该网络首先将当前帧结节特征进行提取、编码,然后通过读取模块将存储的历史帧结节特征进行读取并与当前帧结节特征进行结合,基于结合后的特征,使用分类模块判断当前帧结节的良恶性。
本申请的甲状腺视频流结节识别系统将视频历史帧特征与当前帧特征融合,通过编码存储/读取历史帧信息,将视频时间-空间信息进行融合,充分利用视频数据帧之间的时序特征,避免了基于单帧图像诊断造成的误差,可提高视频诊断准确率及诊断结果的一致性,避免了基于单帧诊断产生的结果跳动问题。
附图说明
图1是本发明的一个实施例中的甲状腺视频流结节识别系统的工作流程图。
图2是本发明的一个实例中对原始的待测超声视频帧进行图像预处理的示意图。
图3是本发明训练得到的时空记忆网络的模型架构图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步说明。
本申请公开了一种基于时空记忆网络的甲状腺视频流结节识别系统,包括图像获取模块、结节坐标获取模块、结节分类模块和结果匹配模块。
请参考图1所示的流程图,对各模块的工作步骤说明如下:
(1)图像获取模块实时获取甲状腺临床超声检查中视频流,通过视频采集卡实时获取超声机扫查视频流,进行分帧处理。
(2)如图2所示,图像获取模块还对超声视频流帧进行图像预处理,将超声图像帧调整到设定尺寸,例如但不限于512x512尺寸;裁掉超声图像中的无关区域,仅保留超声窗口区域;对超声图像帧进行直方图均衡化;对超声图像帧进行归一化。
(3)如图3所示,结节坐标获取模块将步骤(2)预处理后的超声视频流,取第k帧图像作为当前帧,从k之前的图像帧中随机采样M帧作为历史帧。将完成图像预处理的当前帧和历史帧图像输入到结节检测模型中,结节检测模型是预先基于YoLo-v5网络训练得到的,根据结节检测模型的输出确定待测超声视频帧的结节的位置,完成对待测超声图像中的结节的检测。
(4)结节分类模块根据步骤(3)获取的结节坐标从整图中截取结节ROI图像,即感兴趣区域图像,将历史帧结节数据图像输入到时空记忆网络,进行特征提取,并编码存储。
(5)结节分类模块根据步骤(3)获取的结节坐标从整图中截取结节ROI图像,将当前帧结节数据图像输入到时空记忆网络,进行特征提取,通过读取模块读取历史帧结节信息,与当前帧结节特征进行融合,使用分类模型进行结节良恶性分类。
(6)结果匹配模块根据结节检测模型的输出确定待测超声图像帧的结节坐标,完成对待测超声图像帧中的结节的检测;根据时空记忆网络的输出确定待测超声图像帧的结节性质分类,得到当前帧的结节识别结果。
具体的,图像获取模块包括预处理子模块,其预处理步骤包括:将待测超声图像帧调整到设定的尺寸;裁掉待测超声图像中的无关区域,仅保留超声窗口区域;对待测超声图像帧进行直方图均衡化;对待测超声图像帧进行归一化,得到完成图像预处理的待测超声图像帧。
结节坐标获取模块还包括样本数据集构建模块和模型训练模块,模型训练模块利用样本数据集训练结节检测模型和时空记忆网络,得到最终推理模型。
时空记忆网络从输入到输出依次包括特征提取单元、记忆存储单元、记忆读取单元和分类单元;其中:
特征提取单元用于对完成图像预处理的结节图像进行特征提取并输出特征图;特征提取单元基于ResNet50构建,通过五个阶段经过16倍下采样,进行特征提取得到特征图。
记忆存储单元用于将M个历史帧结节特征图进行编码映射并保存;记忆存储单元包含key-value映射子单元和key-value聚合子单元。
记忆读取单元用于读取存储的M个历史帧结节信息,并与当前帧结节信息进行结合,得到结合后的特征;记忆读取单元包含Memory加权子单元和特征整合子单元。
分类单元用于使用分类器基于结合后的特征对结节进行良恶性分类。分类单元包含全局池化模块、全联接层以及softmax分类器。
作为更进一步的实施方案,上述步骤(3)包含以下子步骤:
(3-1)构造结节检测模型,本发明中结节检测模型使用yolo-v5;
(3-2)使用ImageNet数据集对结节检测模型backbone部分进行预训练;
(3-3)使用超声视频数据集对结节检测模型进行迁移训练,具体步骤包括:
(3-3-1)构建样本数据集,样本数据集包括若干张由甲状腺区域的超声检查视频流分帧处理得到的超声图像帧,每个样本超声图像帧中包括结节标注框,结节标注框用于标注样本超声图像中的结节的位置以及类型,样本数据集的样本超声图像中包括多种不同位置和/或类型的结节;
(3-3-2)将样本数据集划分为训练集、验证集和测试集,利用训练集中的样本超声图像帧对结节检测模型进行训练,利用验证集中的样本超声图像帧对训练的超参数进行优化得到结节检测模型,并利用测试集中的样本超声图像帧对训练得到的结节检测模型进行测试,取精度最优模型得到最终结节检测模型;
(3-4) 将步骤(2)预处理后的超声视频帧图像输入到训练好的结节检测模型中,得到结节位置坐标。
作为更进一步的实施方案,步骤(4)包含以下子步骤:
(4-1) 构造时空记忆网络,时空记忆网络从输入到输出依次包括特征提取单元、记忆存储单元、记忆读取单元和分类单元。
特征提取单元基于ResNet50构建,通过5个阶段经过16倍下采样进行特征提取,得
到特征图。式中各参数的定义分别为:
R: 表示特征图F所属的向量空间为R;
H: 为特征图F的高;
W: 为特征图F的宽;
C: 为特征图F的通道数。
记忆存储单元包含key-value映射子单元和key-value聚合子单元, key-value映
射单元将特征提取单元提取到的结节特征图F通过可学习的参数进行线性映射得到key-
value向量对,其中key向量用于评估当前帧和历史帧的相似性,用以判断Memory中哪些信
息应该被采样出来,value向量主要保存结节特征信息,相比key中保存的信息更丰富细致。
针对当前帧通过特征提取单元和key-value映射子单元得到的向量对称为Query向量对,记
做和,其中,。针对历史帧通过特征提取单元和key-
value映射子单元得到的向量对成为Memory向量对,记做和,其中,。key-value聚合子单元将M个历史帧通过特征提取单元和key-value映射子
单元得到的key-value向量对进行聚合,得到M个key-value向量对,并将其进行存储。
记忆读取单元包含Memory加权子单元和整合子单元,Memory加权子单元用于将当前帧与历史帧进行关联,通过计算当前帧结节Query向量对中key向量与存储的M个历史帧结节Memory向量对中key向量的相似度,并进行归一化得到一组注意力权重,当前帧i与历史帧j相似度计算公式为:
= exp()
将注意力权重与M个历史帧结节value向量相乘得到加权后的value向量组:
其中Z为归一化参数,。
整合子单元将历史帧结节信息加权后的value向量组与当前帧结节的value向量进行拼接融合得到融合特征y。将融合后的特征y送入分类器中进行结节良恶性判断:
,[]表示特征拼接操作。
分类单元包含全局池化单元、全联接层以及softmax分类器。
(4-2) 使用ImageNet数据集对时空记忆网络的特征提取单元ResNet50部分进行预训练。
(4-3) 使用超声视频数据集对结节检测模型进行迁移训练,具体包括:
(4-3-1)构建样本数据集,样本数据集包括若干段甲状腺区域的超声检查视频流,每个样本超声图像帧中包括结节标注框,结节标注框用于标注样本超声图像中的结节的位置以及类型,样本数据集的样本超声图像中包括多种不同位置和/或类型的结节;
(4-3-2)将样本数据集划分为训练集、验证集和测试集,利用训练集中的样本超声视频流对时空记忆网络进行训练,利用验证集中的样本超声视频流对训练的超参数进行优化得到时空记忆网络,并利用测试集中的样本超声视频流对训练得到的时空记忆网络进行测试。选取测试集精度最高的模型得到最终时空记忆网络模型;
(4-4) 根据步骤(3)获取的结节坐标从整图中截取结节ROI图像,将历史帧结节图像输入到训练好的时空记忆网络中。该时空记忆网络通过特征提取单元、记忆存储单元对历史帧结节进行特征提取和特征信息编码存储。
具体的,步骤(5)包含以下子步骤:
(5-1)根据步骤(3)获取的结节坐标从整图中截取结节ROI图像,将当前帧结节图像输入到训练好的时空记忆网络中。该时空记忆网络通过特征提取单元、记忆读取单元对当前帧结节进行特征提取,并读取历史帧结节特征信息与当前帧结节特征进行融合,得到融合后的特征;
(5-2)该时空记忆网络通过分类单元,基于融合后的特征进行结节良恶性分类,得到最终诊断结果。
实施例2
本实施例提供一种计算机可读存储介质,计算机可读存储介质存储有基于时空记忆网络的甲状腺视频流结节识别指令,基于时空记忆网络的甲状腺视频流结节识别指令被处理器执行时实现上述基于时空记忆网络的甲状腺视频流结节识别系统中各模块的功能。
实施例3
本实施例提供一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,处理器执行计算机可读指令时实现上述基于时空记忆网络的甲状腺视频流结节识别系统中各模块的功能。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.基于时空记忆网络的甲状腺视频流结节识别系统,其特征在于,包括:
图像获取模块,用于实时获取甲状腺临床超声检查中视频流,进行分帧处理;
结节坐标获取模块,用于将完成图像预处理的当前帧和历史帧图像输入到结节检测模型中,得到结节坐标;其中,取第k帧图像作为当前帧,当k>5时从k之前的图像帧中随机采样M帧作为历史帧;
结节分类模块,用于根据结节坐标从整图中截取结节ROI图像,将历史帧结节图像输入到时空记忆网络进行编码存储,将当前帧结节图像输入到时空记忆网络进行编码,并读取历史帧结节信息进行融合,然后进行结节性质分类,该时空记忆网络综合考虑历史帧结节信息与当前帧结节信息;
结果匹配模块,用于根据所述结节检测模型的输出确定待测超声图像帧的结节坐标,完成对所述待测超声图像帧中的结节的检测;根据所述时空记忆网络的输出确定所述待测超声图像帧的结节性质分类,得到当前帧的结节识别结果;
所述结节检测模型使用YoLo-v5网络;所述时空记忆网络从输入到输出依次包括特征提取单元、记忆存储单元、记忆读取单元和分类单元;其中,
所述特征提取单元用于对完成图像预处理的结节图像进行特征提取并输出特征图;
所述记忆存储单元用于将M个历史帧结节特征图进行编码映射并保存;
所述记忆读取单元用于读取存储的M个历史帧结节信息,并与当前帧结节信息进行结合,得到结合后的特征;
所述分类单元用于使用分类器基于结合后的特征对结节进行良恶性分类;
所述特征提取单元基于ResNet50构建,通过五个阶段经过16倍下采样,进行特征提取得到特征图,式中各参数的定义分别为:
R: 表示特征图F所属的向量空间为R;
H: 为特征图F的高;
W: 为特征图F的宽;
C: 为特征图F的通道数;
所述记忆存储单元包含key-value映射子单元和key-value聚合子单元;
所述key-value映射子单元用于将所述特征提取单元提取到的结节特征图F通过可学习的参数进行线性映射得到key-value向量对,其中key向量用于评估当前帧和之前帧的相似性,用以判断Memory中哪些特征应该被采样出来,Value向量用于保存结节更为细致的信息;
针对当前帧通过所述特征提取单元和所述key-value映射子单元得到的向量对称为Query向量对,记做和/>,其中/>,/>;
针对历史帧通过所述特征提取单元和所述key-value映射子单元得到的向量对称为Memory向量对,记做和/>,其中/>,/>;
所述key-value聚合子单元将M个历史帧通过所述特征提取单元和所述key-value映射子单元得到的key-value向量对进行聚合,得到M个key-value向量对,并将其进行存储;
所述记忆读取单元包含Memory加权子单元和特征整合子单元;
所述Memory加权子单元用于通过计算当前帧结节key向量与存储的M个历史帧结节key向量的相似度,并进行sofmax归一化得到一组注意力权重,将注意力权重与M个历史帧结节value向量相乘得到加权后的value向量组;
其中,所述Memory加权子单元将当前帧与历史帧进行关联,通过计算当前帧结节Query向量对中key向量与存储的M个历史帧结节Memory向量对中key向量的相似度,并进行归一化得到一组注意力权重,当前帧i与历史帧j相似度计算公式为:
= exp(/>)
将注意力权重与M个历史帧结节value向量相乘得到加权后的value向量组:
其中Z为归一化参数,;
所述特征整合子单元用于将历史结节加权后的value向量组与当前帧结节的value向量进行拼接融合得到特征y,将融合后的特征y送入分类器中进行结节良恶性判断;
,式中的[/>]表示特征拼接操作;
式中:
,
:/>。
2.根据权利要求1所述的甲状腺视频流结节识别系统,其特征在于,所述图像获取模块包括预处理子模块,该预处理步骤包括:
将待测超声图像帧调整到设定的尺寸;
裁掉待测超声图像中的无关区域,仅保留超声窗口区域;
对待测超声图像帧进行直方图均衡化;
对待测超声图像帧进行归一化,得到完成图像预处理的所述待测超声图像帧。
3.根据权利要求1所述的甲状腺视频流结节识别系统,其特征在于,还包括:
样本数据集构建模块,样本数据集包括若干段甲状腺区域的超声检查视频流,每个样本超声图像帧中包括结节标注框,所述结节标注框用于标注样本超声图像中的结节位置以及类型,所述样本数据集的样本超声图像中包括多种不同位置和/或类型的结节;
模型训练模块,用于利用所述样本数据集训练结节检测模型和时空记忆网络,得到最终推理模型。
4.根据权利要求3所述的甲状腺视频流结节识别系统,其特征在于,所述模型训练模块训练所述结节检测模型的步骤包括:
利用ImageNet数据集对结节检测模型backbone部分进行预训练;
使用预训练好的网络参数初始化结节检测模型backbone部分,并利用所述样本数据集进行迁移学习得到所述结节检测模型;
所述模型训练模块训练所述时空记忆网络的步骤包括:
利用ImageNet数据集对时空记忆网络backbone部分进行预训练;
使用预训练好的网络参数初始化时空记忆网络backbone部分,并利用所述样本数据集进行迁移学习得到所述时空记忆网络。
5.根据权利要求3所述的甲状腺视频流结节识别系统,其特征在于,所述模型训练模块将所述样本数据集划分为训练集、验证集和测试集,利用所述训练集中的样本超声视频对结节检测模型和时空记忆网络进行训练,利用所述验证集中的样本超声视频对训练的超参数进行优化得到所述结节检测模型和时空记忆网络,并利用测试集中的样本超声视频对训练得到的结节检测模型和时空记忆网络进行测试;
所述样本数据集的样本超声视频中包括至少两种不同尺寸范围的结节,训练集中的样本超声视频包括的各种尺寸范围的结节的数量差在设定误差范围内。
6.根据权利要求1所述的甲状腺视频流结节识别系统,其特征在于,所述分类单元包含全局池化模块、全连接层以及softmax分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211427699.0A CN116129298B (zh) | 2022-11-15 | 2022-11-15 | 基于时空记忆网络的甲状腺视频流结节识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211427699.0A CN116129298B (zh) | 2022-11-15 | 2022-11-15 | 基于时空记忆网络的甲状腺视频流结节识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116129298A CN116129298A (zh) | 2023-05-16 |
CN116129298B true CN116129298B (zh) | 2023-11-24 |
Family
ID=86299731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211427699.0A Active CN116129298B (zh) | 2022-11-15 | 2022-11-15 | 基于时空记忆网络的甲状腺视频流结节识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116129298B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201911502D0 (en) * | 2018-10-12 | 2019-09-25 | Adobe Inc | Space-time memory network for locating target object in video content |
CN111050219A (zh) * | 2018-10-12 | 2020-04-21 | 奥多比公司 | 用于定位视频内容中的目标对象的空间-时间记忆网络 |
CN112581436A (zh) * | 2020-12-11 | 2021-03-30 | 佛山市普世医学科技有限责任公司 | 基于深度学习的肺结节识别与分割方法及系统 |
CN113344864A (zh) * | 2021-05-21 | 2021-09-03 | 江苏乾君坤君智能网络科技有限公司 | 一种基于深度学习的超声甲状腺结节良恶性预测方法 |
CN114676121A (zh) * | 2022-03-30 | 2022-06-28 | 重庆大学 | 基于多尺度时空记忆共享网络的缺失监测数据填补方法 |
CN115116137A (zh) * | 2022-06-29 | 2022-09-27 | 河北工业大学 | 基于轻量化YOLO v5网络模型与时空记忆机制的行人检测方法 |
-
2022
- 2022-11-15 CN CN202211427699.0A patent/CN116129298B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201911502D0 (en) * | 2018-10-12 | 2019-09-25 | Adobe Inc | Space-time memory network for locating target object in video content |
CN111050219A (zh) * | 2018-10-12 | 2020-04-21 | 奥多比公司 | 用于定位视频内容中的目标对象的空间-时间记忆网络 |
CN112581436A (zh) * | 2020-12-11 | 2021-03-30 | 佛山市普世医学科技有限责任公司 | 基于深度学习的肺结节识别与分割方法及系统 |
CN113344864A (zh) * | 2021-05-21 | 2021-09-03 | 江苏乾君坤君智能网络科技有限公司 | 一种基于深度学习的超声甲状腺结节良恶性预测方法 |
CN114676121A (zh) * | 2022-03-30 | 2022-06-28 | 重庆大学 | 基于多尺度时空记忆共享网络的缺失监测数据填补方法 |
CN115116137A (zh) * | 2022-06-29 | 2022-09-27 | 河北工业大学 | 基于轻量化YOLO v5网络模型与时空记忆机制的行人检测方法 |
Non-Patent Citations (3)
Title |
---|
STMTrack: Template-free Visual Tracking with Space-time Memory Networks;Zhihong Fu等;《arXiv:2104.00324v1》;第1-10页 * |
Video Object Segmentation using Space-Time Memory Networks;Seoung Wug Oh等;《arXiv:1904.00607v1》;第1-10页 * |
基于时空权重姿态运动特征的人体骨架行为识别研究;丁重阳;刘凯;李光;闫林;陈博洋;钟育民;;计算机学报(第01期);第31-42页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116129298A (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111598881B (zh) | 基于变分自编码器的图像异常检测方法 | |
US9959615B2 (en) | System and method for automatic pulmonary embolism detection | |
CN108464840B (zh) | 一种乳腺肿块自动检测方法及系统 | |
KR102108050B1 (ko) | 증강 컨볼루션 네트워크를 통한 유방암 조직학 이미지 분류 방법 및 그 장치 | |
Mahapatra et al. | Interpretability-driven sample selection using self supervised learning for disease classification and segmentation | |
Jafari et al. | A unified framework integrating recurrent fully-convolutional networks and optical flow for segmentation of the left ventricle in echocardiography data | |
CN110853011B (zh) | 用于肺结节检测的卷积神经网络模型的构建方法 | |
CN108334848A (zh) | 一种基于生成对抗网络的微小人脸识别方法 | |
CN108537751B (zh) | 一种基于径向基神经网络的甲状腺超声图像自动分割方法 | |
CN112102229A (zh) | 一种基于深度学习的工业ct检测缺陷的智能识别方法 | |
CN112862830B (zh) | 一种多模态图像分割方法、系统、终端及可读存储介质 | |
CN112085113B (zh) | 一种重症肿瘤影像识别系统及方法 | |
CN112215217B (zh) | 模拟医师阅片的数字图像识别方法及装置 | |
CN115546605A (zh) | 一种基于图像标注和分割模型的训练方法及装置 | |
CN110633711A (zh) | 训练特征点检测器的计算机装置、方法及特征点检测方法 | |
CN111127400A (zh) | 一种乳腺病变检测方法和装置 | |
CN114140437A (zh) | 一种基于深度学习的眼底硬渗出物分割方法 | |
CN117557859A (zh) | 基于目标追踪的超声影像目标多角度融合分析系统及方法 | |
CN111724356B (zh) | 一种用于ct影像肺炎识别的图像处理方法和系统 | |
CN116129298B (zh) | 基于时空记忆网络的甲状腺视频流结节识别系统 | |
CN116386902A (zh) | 基于深度学习的大肠癌人工智能辅助病理诊断系统 | |
Dai et al. | More reliable AI solution: Breast ultrasound diagnosis using multi-AI combination | |
CN115601535A (zh) | 联合Wasserstein距离与差异度量的胸片异常识别域自适应方法及系统 | |
Möller et al. | Analysis of Arabidopsis Root Images--Studies on CNNs and Skeleton-Based Root Topology | |
CN115762721A (zh) | 一种基于计算机视觉技术的医疗影像质控方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A thyroid video stream nodule recognition system based on spatiotemporal memory network Granted publication date: 20231124 Pledgee: Bank of Jiangsu Limited by Share Ltd. Wuxi branch Pledgor: Maide Intelligent Technology (Wuxi) Co.,Ltd. Registration number: Y2024980011600 |