CN117992927A - 一种基于控制噪声扩散网络的目标检测方法 - Google Patents
一种基于控制噪声扩散网络的目标检测方法 Download PDFInfo
- Publication number
- CN117992927A CN117992927A CN202410405242.2A CN202410405242A CN117992927A CN 117992927 A CN117992927 A CN 117992927A CN 202410405242 A CN202410405242 A CN 202410405242A CN 117992927 A CN117992927 A CN 117992927A
- Authority
- CN
- China
- Prior art keywords
- noise
- information
- target detection
- network
- noise signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 36
- 238000009792 diffusion process Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 238000010606 normalization Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000012512 characterization method Methods 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 9
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000015556 catabolic process Effects 0.000 claims description 3
- 238000006731 degradation reaction Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000002591 computed tomography Methods 0.000 description 6
- LJROKJGQSPMTKB-UHFFFAOYSA-N 4-[(4-hydroxyphenyl)-pyridin-2-ylmethyl]phenol Chemical compound C1=CC(O)=CC=C1C(C=1N=CC=CC=1)C1=CC=C(O)C=C1 LJROKJGQSPMTKB-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明涉及目标检测技术领域,公开了一种基于控制噪声扩散网络的目标检测方法,对输入信息进行目标检测,得到目标检测结果,包括:对数据集中的输入信息进行预处理,得到一系列无关信息,将无关信息记作输入信息的噪声信号;对数据集中的所有输入信息重复上述过程,得到噪声信号总集合;对噪声信号总集合进行随机采样,得到噪声信号;将噪声信号转换成噪声表征;对各噪声表征进行线性加权和归一化操作,得到综合噪声信号;利用目标检测网络提取输入信息的关键信息;将与无关信息相链接的综合噪声信号以及关键信息作为扩散网络的输入,计算得到强化的数字化表征;通过综合考虑噪声和目标检测,提高了模型在感兴趣目标物体的识别和定位能力。
Description
技术领域
本发明涉及目标检测技术领域,具体涉及一种基于控制噪声扩散网络的目标检测方法。
背景技术
目标检测任务的目标是在图像或视频中识别和定位一个或多个感兴趣的目标物体。
现有方法往往引入多尺度信息和金字塔结构,以便在不同尺度上检测目标;或者利用预训练模型参数进行迁移学习,通过在大规模数据上进行预训练,产生高质量特征,提高模型的泛化能力。
但是现有的方法忽略了数据中“噪声”的影响,这里的“噪声”指的是模型统计意义上的噪声,而非图像中的噪声干扰,使得模型对下游任务的表现还有待进一步提升;这里的下游任务指的是目标检测之后的其他任务,例如目标检测之后的机器人动作预测任务等。
发明内容
为解决上述技术问题,本发明提供一种基于控制噪声扩散网络的目标检测方法,使用扩散模型来控制目标检测网络生成特征中的噪声,从而得到优质的数字化表征,应对下游任务。
为解决上述技术问题,本发明采用如下技术方案:
一种基于控制噪声扩散网络的目标检测方法,对给定的输入信息进行目标检测,得到强化的数字化表征/>;/>能够表征目标的边界,得到/>即得到目标检测结果,具体包括以下步骤:
步骤一,对数据集中的某个输入信息进行预处理,得到一系列无关信息/>,其中/>表示输入信息的维度,/>表示各无关信息的向量维度,输入信息/>包括CT影像簇、报告、病人基本信息;将无关信息记作输入信息/>的噪声信号/>;
步骤二,对数据集中的所有输入信息重复步骤一,得到噪声信号总集合;
步骤三,对进行随机采样,得到/>个噪声信号/>;然后使用一个嵌入层矩阵W将/>个噪声信号转换成噪声表征:
其中,表示第/>个噪声信号,/>表示/>对应的噪声表征;
步骤四,对各噪声表征进行线性加权和归一化操作,得到综合噪声信号:
;
其中表示归一化操作;
步骤五,利用目标检测网络提取输入信息的关键信息/>:
;
其中表示目标检测网络,/>,/>表示关键信息中的关键信息向量个数,/>表示关键信息/>中的第/>个关键信息向量;
步骤六,将与无关信息相链接的综合噪声信号,以及关键信息/>作为扩散网络的输入,计算得到强化的数字化表征/>,即得到目标检测结果。
进一步地,步骤六具体包括以下步骤:
S61,基于标准的去噪扩散概率模型以及综合噪声信号对关键信息/>进行降质处理,得到扩散网络的输入/>:
;
其中为去噪扩散概率模型标准采样过程的超参数;
S62,将输入到扩散网络/>,从扩散网络的/>个不同网络层中抽取出一系列不同粒度的表征:
;
其中代表从扩散网络的/>个不同网络层中抽取出的/>个表征;
S63,通过上采样操作对在特征空间中进行上采样对齐,得到;/>表示/>的上采样结果;
S64,应用特征聚合网络处理各个上采样结果的集合/>,得到强化的数字化表征/>:
;
其中表示串联操作。
与现有技术相比,本发明的有益技术效果是:
1.本发明引入了扩散模型,通过对模型统计意义上的噪声进行噪声控制,有效减少了在目标检测网络生成特征中的噪声影响,提高生成特征的质量,从而增强模型在下游任务中的性能表现。
2.本发明不仅关注噪声的控制,还与目标检测机制结合,使得生成的数字化特征更加适用于目标检测任务,通过综合考虑噪声和目标检测,提高了模型在感兴趣目标物体的识别和定位能力。
附图说明
图1为本发明所采用的模型的结构示意图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
本发明所采用的模型结构如图1所示,任务是在给定输入信息(输入信息/>包括原始CT影像簇、报告、病人基本信息),得到强化的高质量数字化表征/>。对于该任务,本发明首先通过噪声控制对模型的统计意义上的噪声进行控制,然后在该噪声的指导下利用扩散网络对目标检测提取的特征进行降噪处理,最后,提升生成的数字化表征的质量。
CT(Computed Tomography),即电子计算机断层扫描。
本发明中的目标检测方法,具体包括以下步骤:
步骤一,对数据集中的某个输入信息进行预处理,得到一系列无关信息/>,其中,/>表示输入信息的维度,/>表示各无关信息的向量维度,输入信息/>包括CT影像簇、报告、病人基本信息;将无关信息记作输入信息/>的噪声信号/>。
步骤二,对数据集中的所有输入信息重复步骤一,得到噪声信号总集合。
步骤三,对进行随机采样,得到/>个噪声信号/>;然后使用一个嵌入层矩阵W将/>个噪声信号转换成噪声表征:
;
其中,表示第/>个噪声信号,/>表示/>对应的噪声表征。
步骤四,对各噪声表征进行线性加权和归一化操作,得到综合噪声信号:
;
其中表示归一化操作。
步骤五,利用目标检测网络提取输入信息的关键信息/>:
;
其中表示目标检测网络,本实施例中,目标检测网络采用Mask R-CNN网络,,/>表示关键信息中的关键信息向量个数,/>表示关键信息/>中的第/>个关键信息向量。
步骤六,将与无关信息相链接的综合噪声信号,以及关键信息/>作为扩散网络的输入,计算得到强化的数字化表征/>,即得到目标检测结果。
步骤六具体包括以下步骤:
S61,先基于标准的去噪扩散概率模型(Denoising Diffusion ProbabilisticModels,DDPM)以及综合噪声信号对关键信息/>进行降质处理,得到扩散网络的输入/>:
;
其中为去噪扩散概率模型标准采样过程的超参数。
S62,将输入到扩散网络/>,从扩散网络的/>个不同网络层中抽取出一系列不同粒度的表征:
;
其中,代表从扩散网络的/>个不同网络层中抽取出的/>个表征。本实施例中,扩散网络采用标准的高斯扩散网络。
S63,通过上采样操作对在特征空间中进行上采样对齐,得到;/>表示/>的上采样结果。
S64,应用特征聚合网络处理各个上采样结果的集合/>,得到强化的数字化表征/>:
;
其中表示串联操作。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (2)
1.一种基于控制噪声扩散网络的目标检测方法,对给定的输入信息进行目标检测,得到强化的数字化表征/>;/>能够表征目标的边界,得到/>即得到目标检测结果,具体包括以下步骤:
步骤一,对数据集中的某个输入信息进行预处理,得到一系列无关信息/>,其中表示输入信息的维度,/>表示各无关信息的向量维度,输入信息/>包括CT影像簇、报告、病人基本信息;将无关信息记作输入信息/>的噪声信号/>;
步骤二,对数据集中的所有输入信息重复步骤一,得到噪声信号总集合;
步骤三,对进行随机采样,得到/>个噪声信号/>;然后使用一个嵌入层矩阵W将/>个噪声信号转换成噪声表征:
;
其中,表示第/>个噪声信号,/>表示/>对应的噪声表征;
步骤四,对各噪声表征进行线性加权和归一化操作,得到综合噪声信号:
;
其中表示归一化操作;
步骤五,利用目标检测网络提取输入信息的关键信息/>:
;
其中表示目标检测网络,/>,/>表示关键信息中的关键信息向量个数,表示关键信息/>中的第/>个关键信息向量;
步骤六,将与无关信息相链接的综合噪声信号,以及关键信息/>作为扩散网络的输入,计算得到强化的数字化表征/>,即得到目标检测结果。
2.根据权利要求1所述的基于控制噪声扩散网络的目标检测方法,其特征在于,步骤六具体包括以下步骤:
S61,基于标准的去噪扩散概率模型以及综合噪声信号对关键信息/>进行降质处理,得到扩散网络的输入/>:
;
其中为去噪扩散概率模型标准采样过程的超参数;
S62,将输入到扩散网络/>,从扩散网络的/>个不同网络层中抽取出一系列不同粒度的表征:
;
其中代表从扩散网络的/>个不同网络层中抽取出的/>个表征;
S63,通过上采样操作对在特征空间中进行上采样对齐,得到/>;/>表示/>的上采样结果;
S64,应用特征聚合网络处理各个上采样结果的集合/>,得到强化的数字化表征/>:
;
其中表示串联操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410405242.2A CN117992927A (zh) | 2024-04-07 | 2024-04-07 | 一种基于控制噪声扩散网络的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410405242.2A CN117992927A (zh) | 2024-04-07 | 2024-04-07 | 一种基于控制噪声扩散网络的目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117992927A true CN117992927A (zh) | 2024-05-07 |
Family
ID=90889331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410405242.2A Pending CN117992927A (zh) | 2024-04-07 | 2024-04-07 | 一种基于控制噪声扩散网络的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117992927A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230067841A1 (en) * | 2021-08-02 | 2023-03-02 | Google Llc | Image Enhancement via Iterative Refinement based on Machine Learning Models |
CN116524307A (zh) * | 2023-04-04 | 2023-08-01 | 南京大学 | 一种基于扩散模型的自监督预训练方法 |
WO2023183504A1 (en) * | 2022-03-23 | 2023-09-28 | The Trustees Of The University Of Pennsylvania | Deep learning super resolution of medical images |
CN117115291A (zh) * | 2023-09-08 | 2023-11-24 | 深圳市深光粟科技有限公司 | 基于大模型的ct图像生成方法及装置 |
CN117474930A (zh) * | 2023-09-11 | 2024-01-30 | 上海交通大学 | 关于ct图像左心房和左心耳组织的联合分割方法和系统 |
CN117743768A (zh) * | 2024-02-21 | 2024-03-22 | 山东大学 | 基于去噪生成对抗网络和扩散模型的信号去噪方法及系统 |
CN117808702A (zh) * | 2024-01-31 | 2024-04-02 | 郑州大学 | 一种基于扩散模型和选通成像的图像去雾方法、系统和设备 |
-
2024
- 2024-04-07 CN CN202410405242.2A patent/CN117992927A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230067841A1 (en) * | 2021-08-02 | 2023-03-02 | Google Llc | Image Enhancement via Iterative Refinement based on Machine Learning Models |
WO2023183504A1 (en) * | 2022-03-23 | 2023-09-28 | The Trustees Of The University Of Pennsylvania | Deep learning super resolution of medical images |
CN116524307A (zh) * | 2023-04-04 | 2023-08-01 | 南京大学 | 一种基于扩散模型的自监督预训练方法 |
CN117115291A (zh) * | 2023-09-08 | 2023-11-24 | 深圳市深光粟科技有限公司 | 基于大模型的ct图像生成方法及装置 |
CN117474930A (zh) * | 2023-09-11 | 2024-01-30 | 上海交通大学 | 关于ct图像左心房和左心耳组织的联合分割方法和系统 |
CN117808702A (zh) * | 2024-01-31 | 2024-04-02 | 郑州大学 | 一种基于扩散模型和选通成像的图像去雾方法、系统和设备 |
CN117743768A (zh) * | 2024-02-21 | 2024-03-22 | 山东大学 | 基于去噪生成对抗网络和扩散模型的信号去噪方法及系统 |
Non-Patent Citations (3)
Title |
---|
JONATHAN HO 等: ""Denoising Diffusion Probabilistic Models"", ARXIV:2006.11239V2, 16 December 2020 (2020-12-16), pages 1 - 25 * |
SHOUFA CHEN 等: ""DiffusionDet: Diffusion Model for Object Detection"", ARXIV: 2211.09788V2, 19 August 2023 (2023-08-19), pages 1 - 16 * |
龚勋 等: ""甲状腺、乳腺超声影像自动分析技术综述"", 《软件学报》, vol. 31, no. 7, 31 July 2020 (2020-07-31), pages 1 - 38 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110211045B (zh) | 基于srgan网络的超分辨率人脸图像重建方法 | |
Yu et al. | ResNet-SCDA-50 for breast abnormality classification | |
WO2022105308A1 (zh) | 一种基于生成对抗级联网络增广图像的方法 | |
Dong et al. | Crowd counting by using top-k relations: A mixed ground-truth CNN framework | |
Huang et al. | Self-supervised transfer learning based on domain adaptation for benign-malignant lung nodule classification on thoracic CT | |
CN113205509B (zh) | 一种基于位置卷积注意力网络的血管斑块ct影像分割方法 | |
CN114581550B (zh) | 基于跨域网络的磁共振成像降采样和重建方法 | |
CN116682120A (zh) | 基于深度学习的多语种马赛克图像文本识别方法 | |
CN112950480A (zh) | 一种融合多感受野和密集残差注意的超分辨率重建方法 | |
Kollias et al. | Domain Adaptation Explainability & Fairness in AI for Medical Image Analysis: Diagnosis of COVID-19 based on 3-D Chest CT-scans | |
CN117078941A (zh) | 一种基于上下文级联注意力的心脏mri分割方法 | |
Shen et al. | Mutual information-driven triple interaction network for efficient image dehazing | |
Lai et al. | Generative focused feedback residual networks for image steganalysis and hidden information reconstruction | |
CN117992927A (zh) | 一种基于控制噪声扩散网络的目标检测方法 | |
Hu et al. | A noising-denoising framework for point cloud upsampling via normalizing flows | |
Li et al. | End-to-end instance-level human parsing by segmenting persons | |
CN116310569A (zh) | 一种基于鲁棒纹理特征的乳腺病变检测与分类装置 | |
CN116542924A (zh) | 一种前列腺病灶区域检测方法、装置及存储介质 | |
CN113537250B (zh) | 一种基于离散-连续特征耦合的图像异常检测方法 | |
CN115330600A (zh) | 一种基于改进srgan的肺部ct图像超分辨率方法 | |
CN113192076B (zh) | 联合分类预测和多尺度特征提取的mri脑肿瘤图像分割方法 | |
Wang et al. | A quantum segmentation algorithm based on local adaptive threshold for NEQR image | |
Liu et al. | Adaptive Texture and Spectrum Clue Mining for Generalizable Face Forgery Detection | |
Zheng et al. | Content-adaptive selective steganographer detection via embedding probability estimation deep networks | |
Singh et al. | Two-level combined classification technique using ranklet transformation for the detection of MRI brain tumor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |