CN114842394A - 基于Swin Transformer的手术视频流程自动识别方法 - Google Patents
基于Swin Transformer的手术视频流程自动识别方法 Download PDFInfo
- Publication number
- CN114842394A CN114842394A CN202210534650.9A CN202210534650A CN114842394A CN 114842394 A CN114842394 A CN 114842394A CN 202210534650 A CN202210534650 A CN 202210534650A CN 114842394 A CN114842394 A CN 114842394A
- Authority
- CN
- China
- Prior art keywords
- stage
- prior
- network
- swin
- current frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000001356 surgical procedure Methods 0.000 claims abstract description 13
- 230000000007 visual effect Effects 0.000 claims abstract description 12
- 238000012937 correction Methods 0.000 claims abstract description 6
- 238000012360 testing method Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 5
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 210000000232 gallbladder Anatomy 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 208000035475 disorder Diseases 0.000 description 2
- 238000002224 dissection Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000229175 Calotes Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000002192 cholecystectomy Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 238000007711 solidification Methods 0.000 description 1
- 230000008023 solidification Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明属于计算机视觉领域,特别提供一种基于Swin Transformer的手术视频流程自动识别方法。以克服对于长时间序列视频,现有技术存在的不足以表征手术视频中帧的复杂视觉特征、容易出现过拟合和不能对代表性特征进行有效抓取和利用的问题。本发明包括如下步骤:1)、准备Cholec80数据集;2)、视频数据预处理;3)、针对手术视频建立网络模型STMNet;4)、将生成的模型用于测试集中,得到手术视频流程分类结果;5)、采用基于先验知识的修正算法PCA,对步骤四提出的STMNet网络识别的结果进行修正。
Description
技术领域
本发明属于计算机视觉领域,特别提供一种基于Swin Transformer的手术视频流程自动识别方法。
背景技术
计算机辅助干预领域内诸多前沿技术的发展为解决医疗手术室中众多痛点提供了解决方案。以往的研究发现计算机辅助系统有助于提高手术安全性,减少术中不良事件的发生。为了进一步改善病人的治疗效果,医疗手术室需要上下文感知系统来监控、识别手术工作流,从而辅助系统实时优化手术过程,提供上下文感知的决策支持,并及时预警术中的潜在偏差和异常。
目前,单纯基于视觉的工作流识别非常困难。在视频拍摄过程中,常常出现镜头模糊,拍摄光线明暗变化无规律,烟雾和血液不可避免地遮挡视觉,镜头清洗过程中容易引入伪影,以及复杂的手术背景下存在手术流程间差异小,而手术流程内差异大等问题,从而增加了手术感知的难度。目前,大部分工作都选择CNN作为手术流程识别任务的基准网络,但对于长时间序列视频,浅层的CNN不足以表征手术视频中帧的复杂视觉特征,当CNN卷积层较多时,又容易出现过拟合。且在视频背景复杂的情况下,CNN缺乏对一些代表性特征有效的抓取和利用。
发明内容
本发明的目的在于提供一种基于Swin Transformer的手术视频流程自动识别方法,以克服对于长时间序列视频,现有技术存在的不足以表征手术视频中帧的复杂视觉特征、容易出现过拟合和不能对代表性特征进行有效抓取和利用的问题。
为了达到本发明的目的,本发明提供的技术方案是:
基于Swin Transformer的手术视频流程自动识别方法,其特征在于:包括如下步骤:
步骤一、准备Cholec80数据集;
步骤二、视频数据预处理:在Cholec80数据集中的每段视频数据上,以滑动窗口的形式,每次将滑动窗口向后移动一帧,顺序创建每个序列长度;在得到所需的m组序列后,在组间做随机打乱处理;
步骤三、针对手术视频建立网络模型STMNet:将预处理后的视频数据输入到此网络中以端到端的方式训练,将Swin Transformer获得的视觉特征顺序地输入到LSTM网络中,并利用LSTM网络的记忆细胞来维护过去帧的时间信息,充分编码视觉和时间特征的互补信息,共同优化两个模块的网络参数;
步骤四、将生成的模型用于测试集中,得到手术视频流程分类结果;
步骤五、采用基于先验知识的修正算法PCA,对步骤四提出的STMNet网络识别的结果进行修正。
滑动窗口大小为n帧,前一组序列删去第一帧、更新最后一帧得到新的序列,两个连续序列之间有n-1帧重叠。
窗口大小设置为10-30帧。
步骤五具体的方法是:
步骤1、用λt∈(0…L,L=6)表示网络对当前帧xt的阶段预测,其中L为阶段数,其次设置一个状态收集器(用S表示)用于记录先前帧的所有阶段预测,从而给当前帧xt提供先验知识;
步骤2、通过S收集的先验知识,推断出当前帧最有可能的先验阶段:为每个收集到的可能阶段设置一个累加器A,以分别计数分类到该阶段帧的数量,且每个可能阶段的累加器A只有当连续的序列帧都被预测到当前阶段时才生效,否则,A将被置0,同时开始该阶段的新一轮计数;
步骤3、当该阶段的计数达到设定的阈值时就可以确定阶段先验,使用获取的阶段先验来校准当前帧的阶段预测;
步骤4、对当前帧的三种处理分别为:(1)当前帧的预测结果与阶段先验一致时,认为预测正确,保持该预测;(2)当前帧的预测结果与下一可能阶段一致时,则判断可能进入到下一阶段;为了确保该先验阶段的准确性,启动累加器,当累加器达到阈值δ时,则确定进入了下一阶段;若未达到阈值,则认为先验阶段仍在当前阶段,并清空累加器;(3)当前帧的预测结果既与先验不一致也不属于的下一可能阶段,则将当前帧的预测直接修正为阶段先验。
与现有技术相比,本发明的有益效果为:
1、本发明引入以注意力机制为核心的Swin Transformer网络作为手术流程识别任务的骨干网络,首先使用迁移学习的方法,在Imagenet大型数据集上对Swintransformer模型进行预训练,再通过微调Fine-tuning的方式提取视觉特征,并且利用长短期记忆(LSTM)网络来进一步学习时间依赖关系。本发明中建立的网络模型STMNet无缝集成了Swin Transformer和LSTM网络,以端到端进行训练,生成视觉和时间信息互补的时空特征,可有效对代表性特征进行有效抓取和利用,最后,利用针对手术视频数据集获得的先验知识,进行结果修正。
2、视频数据预处理时,使数据保持局部有序全局无序的特点,从而解决了手术视频数据直接按顺序送入网络导致的过拟合现象;之后预处理后的数据顺序输入到SwinTransformer和LSTM网络中,以端到端的方式训练,共同优化两个模块的网络参数,因此视觉和时间信息都可以被充分利用,从而协同增强此网络的识别能力,以实现精确的手术流程识别。
3、与自然视频不同的是,大多数手术视频的内容都比较有规律性和条理性,这是因为外科医生须按照规定的工作流程和指令进行手术视频,因此,可通过跟踪工作流来获得有用的先验信息,判断所获手术阶段是否合理,这将极大地帮助修正手术流程内部帧的错误预测。数据在阶段转换期间(每个阶段开始时),由于关键动作的变化带来了更丰富的时空信息,这时就需要STMNet能够准确地识别手术流程之间的过渡序列。针对常见的手术视频数据集Cholec80数据集,我们提出的修正算法简单而有效,即利用有用的先验信息,提高了预测的一致性。
附图说明
图1数据处理策略;
图2网络架构图;
图3手术流程顺序。
具体实施方式
下面将结合附图和实施例对本发明进行详细地说明。
本发明提供的一种基于Swin Transformer的手术视频流程自动识别方法,包括以下步骤:
步骤一、准备Cholec80数据集,具体为:
Cholec80数据集由13位外科医生做的80个胆囊切除手术视频组成,并且由资深医生进行了手术阶段和手术器械标注,构建了手术阶段识别任务和手术工具检测任务,其中1-40个视频为训练集,40-48为验证集,48-80为测试集。Cholec80数据集的手术阶段标注采用了逐帧标注的方式,手术器械标注采用了逐秒标注,即每25帧标注一张图像。
步骤二、视频数据预处理:
以滑动窗口的形式,每次向后移动一帧,顺序创建每个序列长度,具体来说,若窗口大小为n帧,则前一组序列删去第一帧、更新最后一帧得到新的序列,两个连续序列之间有n-1帧重叠,如图1所示;为了实现更好的结果,并且根据硬件等实际因素限制,通常可以将窗口大小设置为10-30帧以满足要求,本实施例中设置为10帧;在得到所需的m组序列后,在组间做随机打乱处理,最终使数据保持局部序列内有序、全局序列间无序的特点,从而解决了手术视频数据按顺序直接送入网络导致的过拟合现象;
步骤三、针对手术视频建立网络模型:
将预处理后的数据输入到STMNet网络中以端到端的方式训练,如图2所示,在STMNet网络中将Swin Transformer获得的视觉特征顺序地输入到LSTM网络中,并利用LSTM网络的记忆细胞来维护过去帧的时间信息,共同优化两个模块的网络参数,因此视觉和时间信息都可以被充分利用,从而协同增强此网络的识别能力,以实现精确的手术流程识别。
具体地说:使用Swin transformer在Imagenet-22k大型数据集上预训练模型用于Cholec80数据集进行Fine-tuning微调,移除最后一层预测层,换为初始值为0的D×K全连接层,D是patch操作后经线性变换转为D维特征向量,K是目标数据集的类别个数。
在线模式下进行,对Swin transformer的输出采用单向LSTM。具体来说将Swintransformer输出的1024维特征作为输入连接一个单向LSTM网络,也就是在全连接层之前。LSTM网络有512个神经元,10倍步长。因此,Swin transformer网络的输入是由10个连续的关键帧组成的向量单元。LSTM模块完成后,通过全连接层输出预测的关键帧类别,为全连接层设置了7个神经元,以对应7个手术类别。
本发明中提出使用Swin Transformer网络作为STMNet的基准网络。SwinTransformer的多尺度注意力融合的网络结构,充分利用图像在多个尺度上的特征信息,在网络提取深层的语义信息的同时融合浅层语义信息,这有助于正确识别手术流程。
步骤四、将生成的模型用于测试集中,以准备、Calot三角解剖、裁剪、胆囊剥离术、胆囊包装、清洗和凝固、胆囊收缩为手术流程的七个阶段,得到手术视频流程分类结果。
步骤五、在充分理解手术视频自然特性的基础上,总结获得Cholec80数据集上的手术流程顺序作为先验知识,如图3所示,采用基于此先验知识的修正算法PCA,对STMNet网络识别的结果进行修正,进一步改善识别效果。
具体为:
步骤1、用λt∈(0…L,L=6)表示网络对当前帧xt的阶段预测,其中L为阶段数。其次设置一个状态收集器(用S表示)用于记录先前帧的所有阶段预测,从而给当前帧xt提供先验知识;
步骤2、通过S收集的先验知识,推断出当前帧最有可能的先验阶段:为每个收集到的可能阶段设置一个累加器A,以分别计数分类到该阶段帧的数量,且每个可能阶段的累加器A只有当连续的序列帧都被预测到当前阶段时才生效,否则,A将被置0,同时开始该阶段的新一轮计数;
步骤3、当该阶段的计数达到设定的阈值时就可以确定阶段先验,使用获取的阶段先验来校准当前帧的阶段预测;
步骤4、对当前帧的三种处理分别为:(1)当前帧的预测结果与阶段先验一致时,认为预测正确,保持该预测;(2)当前帧的预测结果与下一可能阶段一致时,则判断可能进入到下一阶段;为了确保该先验阶段的准确性,启动累加器,当累加器达到阈值δ时,则确定进入了下一阶段;若未达到阈值,则认为先验阶段仍在当前阶段,并清空累加器;(3)当前帧的预测结果既与先验不一致也不属于的下一可能阶段,则将当前帧的预测直接修正为阶段先验。
表1与经典网络进行对比实验
将本发明与经典网络进行对比,从表1可以看到:本发明提出的手术流程自动识别方法在Cholec80数据集上准确率可以达到93.5%,优于其他先进方法,进一步验证了本发明的有效性。
本发明未尽事宜为公知技术。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。
Claims (4)
1.基于Swin Transformer的手术视频流程自动识别方法,其特征在于:包括如下步骤:
步骤一、准备Cholec80数据集;
步骤二、视频数据预处理:在Cholec80数据集中的每段视频数据上,以滑动窗口的形式,每次将滑动窗口向后移动一帧,顺序创建每个序列长度;在得到所需的m组序列后,在组间做随机打乱处理;
步骤三、针对手术视频建立网络模型STMNet:将预处理后的视频数据输入到此网络中以端到端的方式训练,将Swin Transformer获得的视觉特征顺序地输入到LSTM网络中,并利用LSTM网络的记忆细胞来维护过去帧的时间信息,充分编码视觉和时间特征的互补信息,共同优化两个模块的网络参数;
步骤四、将生成的模型用于测试集中,得到手术视频流程分类结果;
步骤五、采用基于先验知识的修正算法PCA,对步骤四提出的STMNet网络识别的结果进行修正。
2.根据权利要求1所述的基于Swin Transformer的手术视频流程自动识别方法,其特征在于:滑动窗口大小为n帧,前一组序列删去第一帧、更新最后一帧得到新的序列,两个连续序列之间有n-1帧重叠。
3.根据权利要求2所述的基于Swin Transformer的手术视频流程自动识别方法,其特征在于:窗口大小设置为10-30帧。
4.根据权利要求3所述的基于Swin Transformer的手术视频流程自动识别方法,其特征在于:所述步骤五具体的方法是:
步骤1、用λt∈(0…L,L=6)表示网络对当前帧xt的阶段预测,其中L为阶段数,其次设置一个状态收集器(用S表示)用于记录先前帧的所有阶段预测,从而给当前帧xt提供先验知识;
步骤2、通过S收集的先验知识,推断出当前帧最有可能的先验阶段:为每个收集到的可能阶段设置一个累加器A,以分别计数分类到该阶段帧的数量,且每个可能阶段的累加器A只有当连续的序列帧都被预测到当前阶段时才生效,否则,A将被置0,同时开始该阶段的新一轮计数;
步骤3、当该阶段的计数达到设定的阈值时就可以确定阶段先验,使用获取的阶段先验来校准当前帧的阶段预测;
步骤4、对当前帧的三种处理分别为:(1)当前帧的预测结果与阶段先验一致时,认为预测正确,保持该预测;(2)当前帧的预测结果与下一可能阶段一致时,则判断可能进入到下一阶段;为了确保该先验阶段的准确性,启动累加器,当累加器达到阈值δ时,则确定进入了下一阶段;若未达到阈值,则认为先验阶段仍在当前阶段,并清空累加器;(3)当前帧的预测结果既与先验不一致也不属于的下一可能阶段,则将当前帧的预测直接修正为阶段先验。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210534650.9A CN114842394B (zh) | 2022-05-17 | 2022-05-17 | 基于Swin Transformer的手术视频流程自动识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210534650.9A CN114842394B (zh) | 2022-05-17 | 2022-05-17 | 基于Swin Transformer的手术视频流程自动识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114842394A true CN114842394A (zh) | 2022-08-02 |
CN114842394B CN114842394B (zh) | 2024-04-16 |
Family
ID=82569483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210534650.9A Active CN114842394B (zh) | 2022-05-17 | 2022-05-17 | 基于Swin Transformer的手术视频流程自动识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114842394B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115171029A (zh) * | 2022-09-09 | 2022-10-11 | 山东省凯麟环保设备股份有限公司 | 基于无人驾驶的城市场景下的实例分割方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783520A (zh) * | 2020-05-18 | 2020-10-16 | 北京理工大学 | 基于双流网络的腹腔镜手术阶段自动识别方法及装置 |
US20210089900A1 (en) * | 2019-09-20 | 2021-03-25 | Wuhan University | Transformer dga data prediction method based on multi-dimensional time sequence frame convolution lstm |
WO2021212883A1 (zh) * | 2020-04-20 | 2021-10-28 | 电子科技大学 | 一种基于智能移动终端的跌倒检测方法 |
CN114445808A (zh) * | 2022-01-21 | 2022-05-06 | 上海易康源医疗健康科技有限公司 | 基于Swin Transformer的手写文字识别方法及系统 |
-
2022
- 2022-05-17 CN CN202210534650.9A patent/CN114842394B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210089900A1 (en) * | 2019-09-20 | 2021-03-25 | Wuhan University | Transformer dga data prediction method based on multi-dimensional time sequence frame convolution lstm |
WO2021212883A1 (zh) * | 2020-04-20 | 2021-10-28 | 电子科技大学 | 一种基于智能移动终端的跌倒检测方法 |
CN111783520A (zh) * | 2020-05-18 | 2020-10-16 | 北京理工大学 | 基于双流网络的腹腔镜手术阶段自动识别方法及装置 |
CN114445808A (zh) * | 2022-01-21 | 2022-05-06 | 上海易康源医疗健康科技有限公司 | 基于Swin Transformer的手写文字识别方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115171029A (zh) * | 2022-09-09 | 2022-10-11 | 山东省凯麟环保设备股份有限公司 | 基于无人驾驶的城市场景下的实例分割方法及系统 |
CN115171029B (zh) * | 2022-09-09 | 2022-12-30 | 山东省凯麟环保设备股份有限公司 | 基于无人驾驶的城市场景下的实例分割方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114842394B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Exploiting unlabeled data in cnns by self-supervised learning to rank | |
Li et al. | Accurate retinal vessel segmentation in color fundus images via fully attention-based networks | |
CN109920501A (zh) | 基于卷积神经网络和主动学习的电子病历分类方法及系统 | |
CN110222592B (zh) | 一种基于互补时序行为提案生成的时序行为检测网络模型的构建方法 | |
CN112084911B (zh) | 一种基于全局注意力的人脸特征点定位方法及系统 | |
CN112330718B (zh) | 一种基于cnn的三级信息融合视觉目标跟踪方法 | |
CN113807318A (zh) | 一种基于双流卷积神经网络和双向gru的动作识别方法 | |
CN116740538A (zh) | 一种基于YOLOv8改进的轻量化目标检测方法及系统 | |
CN114842394A (zh) | 基于Swin Transformer的手术视频流程自动识别方法 | |
Wu et al. | Automatic cataract detection with multi-task learning | |
Zhao et al. | Robust online tracking with meta-updater | |
CN114372962A (zh) | 基于双粒度时间卷积的腹腔镜手术阶段识别方法与系统 | |
CN109003264B (zh) | 一种视网膜病变图像类型识别方法、装置和存储介质 | |
Li et al. | Automatic pulmonary vein and left atrium segmentation for TAPVC preoperative evaluation using V-net with grouped attention | |
CN115908947A (zh) | 一种基于反绎学习的多模态牙周图像识别方法和系统 | |
CN115311728A (zh) | 一种基于ViT网络的人脸关键点检测模型的多阶段训练方法 | |
CN115719333A (zh) | 基于神经网络的影像质控评价方法、装置、设备、介质 | |
Wen et al. | Streaming video temporal action segmentation in real time | |
CN113836980A (zh) | 人脸识别方法、电子设备以及存储介质 | |
Lin et al. | A meta-fusion RCNN network for endoscopic visual bladder lesions intelligent detection | |
Zheng et al. | Adaptive updating siamese network with like-hood estimation for surveillance video object tracking | |
CN112070023B (zh) | 一种邻域先验嵌入型协同表示模式识别方法 | |
Phueaksri et al. | Convolutional neural network using stacked frames for video classification | |
Xu et al. | Large Receptive Field Boundary Matching Networks for Generating Better Proposals | |
CN113191171B (zh) | 一种基于特征融合的疼痛强度评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |