JP2024502105A - 深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体 - Google Patents
深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体 Download PDFInfo
- Publication number
- JP2024502105A JP2024502105A JP2023540947A JP2023540947A JP2024502105A JP 2024502105 A JP2024502105 A JP 2024502105A JP 2023540947 A JP2023540947 A JP 2023540947A JP 2023540947 A JP2023540947 A JP 2023540947A JP 2024502105 A JP2024502105 A JP 2024502105A
- Authority
- JP
- Japan
- Prior art keywords
- rgb
- optical flow
- image
- image sequence
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000002775 capsule Substances 0.000 title claims abstract description 35
- 238000013135 deep learning Methods 0.000 title claims abstract description 23
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 36
- 230000003287 optical effect Effects 0.000 claims description 56
- 230000003902 lesion Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000000638 solvent extraction Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 abstract description 7
- 230000006872 improvement Effects 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 208000037062 Polyps Diseases 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 210000001035 gastrointestinal tract Anatomy 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 208000032843 Hemorrhage Diseases 0.000 description 1
- 208000025865 Ulcer Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001839 endoscopy Methods 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010339 medical test Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 210000000813 small intestine Anatomy 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 231100000397 ulcer Toxicity 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10068—Endoscopic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
- G06V2201/031—Recognition of patterns in medical or anatomical images of internal organs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
- G06V2201/032—Recognition of patterns in medical or anatomical images of protuberances, polyps nodules, etc.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
- Endoscopes (AREA)
- Image Processing (AREA)
Abstract
本発明は、深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体を提供し、連続して撮影されたマルチフレーム画像を特定形式の画像シーケンスに形成した後、3D畳み込みニューラルネットワークモデルによってマルチフレーム画像をマルチチャネル認識し、さらに、各チャネルの認識確率を組み合わせて認識結果を出力し、画像認識精度を向上させる。【選択図】図1
Description
(関連出願の相互参照)
本出願は、出願日2021年1月6日、出願番号202110010379.4、発明の名称「深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体」の中国特許出願の優先権を主張し、その全ては引用によって本出願に組み込まれる。
本出願は、出願日2021年1月6日、出願番号202110010379.4、発明の名称「深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体」の中国特許出願の優先権を主張し、その全ては引用によって本出願に組み込まれる。
本発明は、医療機器イメージングの分野に関し、特に、深層学習に基づくカプセル内視鏡画像認識方法、電子機器及び可読記憶媒体に関する。
カプセル内視鏡は、カメラや無線伝送アンテナ等のコアデバイスを統合し、体内の消化管内で画像を収集して体外に同期して伝送することで、得られた画像データに基づいて医療検査を行う医療機器である。カプセル内視鏡は検出過程で数万枚の画像が収集され、画像データの量が多いため、フィルムの読み取り作業が困難で時間がかかる。技術の発展に伴い、画像処理及びコンピュータビジョン技術を活用した病巣認識が広く注目されるようになった。
従来技術において、公開番号CN103984957Aの中国特許出願には、カプセル内視鏡画像の疑わしい病変領域の自動早期警告システムが開示されており、該システムは、画像強調モジュールを用いて画像を適応的に強調させてから、テクスチャ特徴抽出モジュールによって平坦病変のテクスチャ特徴を検出し、最後に分類早期警告モジュールを用いて分類し、小腸の平坦病変に対する検出及び早期警告機能を実現した。
公開番号CN111462082Aの中国特許出願には、トレーニングされた2Dターゲット深層学習モデルを用いて単一画像に対して病巣認識を行う病巣画像認識装置、方法、機器及び可読記憶媒体が開示されている。
従来技術に記載された解決手段は、いずれも単一画像を認識するものであり、認識過程では、単一画像に撮影された情報のみが利用可能であり、前後に撮影された画像情報を総合的に利用することができない。このように、単一の角度から撮影された画像は、病巣の全体的な状況を直観的に反映することができず、特に、特定の角度から撮影された消化管のひだ、胃壁等の画像は、ポリープや隆起等の病変と混同されやすい。また、従来技術では、撮影内容の空間情報と時間情報を同時に取得することができず、病巣認識の正確率が低い。
上記技術的課題を解決するために、本発明の目的は、深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体を提供することである。
上記の発明の目的の1つを実現するために、本発明の一実施形態は、
カプセル内視鏡によってN枚の原画像を時間生成順に収集するステップと、
スライディングウィンドウ分割法を使用して、前記N枚の原画像を同じ大きさのM組の原画像シーケンスに分割するステップと、
前記N枚の原画像を解析し、又はM組のRGB画像シーケンスを解析してM組のオプティカルフロー画像シーケンスを形成するステップであって、各前記RGB画像シーケンスは、RGB形式の画像データで構成され、各前記オプティカルフロー画像シーケンスは、隣接するRGB画像のオプティカルフローフィールドを計算して形成された画像データで構成されるステップと、
前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップであって、前記認識結果は、所定パラメータの発生確率値であり、前記3D畳み込みニューラルネットワークモデルは、RGB分岐及びオプティカルフロー分岐を含むステップと、を含み、
前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップは、
前記RGB画像シーケンスを前記RGB分岐に入力して計算し、第1分類確率を出力するステップと、
前記オプティカルフロー画像シーケンスを前記オプティカルフロー分岐に入力して計算し、第2分類確率を出力するステップと、
下記式に示すように、前記第1分類確率と前記第2分類確率を融合し、前記認識結果を形成するステップと、を含み、
p=w1*p1+w2*p2、
式中、pは前記認識結果、p1は前記第1分類確率、p2は前記第2分類確率、w1=T1/(T1+T2)、w2=T2/(T1+T2)であり、
また、T1,T2はそれぞれ、前記3D畳み込みニューラルネットワークモデルを構築する過程での、前記RGB分岐と前記オプティカルフロー分岐のそれぞれにおける検証セットの認識精度を表す、深層学習に基づくカプセル内視鏡画像認識方法を提供する。
カプセル内視鏡によってN枚の原画像を時間生成順に収集するステップと、
スライディングウィンドウ分割法を使用して、前記N枚の原画像を同じ大きさのM組の原画像シーケンスに分割するステップと、
前記N枚の原画像を解析し、又はM組のRGB画像シーケンスを解析してM組のオプティカルフロー画像シーケンスを形成するステップであって、各前記RGB画像シーケンスは、RGB形式の画像データで構成され、各前記オプティカルフロー画像シーケンスは、隣接するRGB画像のオプティカルフローフィールドを計算して形成された画像データで構成されるステップと、
前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップであって、前記認識結果は、所定パラメータの発生確率値であり、前記3D畳み込みニューラルネットワークモデルは、RGB分岐及びオプティカルフロー分岐を含むステップと、を含み、
前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップは、
前記RGB画像シーケンスを前記RGB分岐に入力して計算し、第1分類確率を出力するステップと、
前記オプティカルフロー画像シーケンスを前記オプティカルフロー分岐に入力して計算し、第2分類確率を出力するステップと、
下記式に示すように、前記第1分類確率と前記第2分類確率を融合し、前記認識結果を形成するステップと、を含み、
p=w1*p1+w2*p2、
式中、pは前記認識結果、p1は前記第1分類確率、p2は前記第2分類確率、w1=T1/(T1+T2)、w2=T2/(T1+T2)であり、
また、T1,T2はそれぞれ、前記3D畳み込みニューラルネットワークモデルを構築する過程での、前記RGB分岐と前記オプティカルフロー分岐のそれぞれにおける検証セットの認識精度を表す、深層学習に基づくカプセル内視鏡画像認識方法を提供する。
本発明の一実施形態のさらなる改善として、
前記スライディングウィンドウ分割法を使用して、前記N枚の原画像を同じ大きさのM組の原画像シーケンスに分割するステップは、
時間生成順にN枚の原画像に、順に1、2、……Nと番号を付けるステップと、
N枚の画像を、所定のウィンドウサイズK、所定のスライディングステップSを用いてM組の原画像シーケンスに順に分割し、
であるステップとを含んでもよい。
前記スライディングウィンドウ分割法を使用して、前記N枚の原画像を同じ大きさのM組の原画像シーケンスに分割するステップは、
時間生成順にN枚の原画像に、順に1、2、……Nと番号を付けるステップと、
N枚の画像を、所定のウィンドウサイズK、所定のスライディングステップSを用いてM組の原画像シーケンスに順に分割し、
であるステップとを含んでもよい。
本発明の一実施形態のさらなる改善として、
前記所定のウィンドウサイズKの値範囲は、2≦K≦1000であり、前記所定のスライディングステップSの値範囲は、1≦S<Kであってもよい。
前記所定のウィンドウサイズKの値範囲は、2≦K≦1000であり、前記所定のスライディングステップSの値範囲は、1≦S<Kであってもよい。
本発明の一実施形態のさらなる改善として、
前記3D畳み込みニューラルネットワークモデルのトレーニング方式は、
事前にトレーニングされた2D認識モデルにおけるサイズN*Nの2D畳み込みカーネルパラメータをN回コピーするステップであって、前記2D認識モデルは病巣ラベル付きの画像によってトレーニングされて得られ、その入力は単一フレーム画像であり、且つ単一フレーム画像のみを認識できるステップと、
コピーされた各カーネルパラメータをそれぞれNで割って、各位置のカーネルパラメータを元の1/3にするステップと、
新しいカーネルパラメータを再組み合わせしてサイズN*N*Nの畳み込みカーネルパラメータを形成し、前記3D畳み込みニューラルネットワークモデル内の3D畳み込みカーネルの初期化パラメータを構成するステップと、
パラメータ初期化後の前記3D畳み込みニューラルネットワークモデルを、確率的勾配降下法によってトレーニングし、反復停止条件が満たされるまでモデルのパラメータを反復更新し、前記認識結果を出力するための前記3D畳み込みニューラルネットワークモデルを形成するステップと、を含んでもよい。
前記3D畳み込みニューラルネットワークモデルのトレーニング方式は、
事前にトレーニングされた2D認識モデルにおけるサイズN*Nの2D畳み込みカーネルパラメータをN回コピーするステップであって、前記2D認識モデルは病巣ラベル付きの画像によってトレーニングされて得られ、その入力は単一フレーム画像であり、且つ単一フレーム画像のみを認識できるステップと、
コピーされた各カーネルパラメータをそれぞれNで割って、各位置のカーネルパラメータを元の1/3にするステップと、
新しいカーネルパラメータを再組み合わせしてサイズN*N*Nの畳み込みカーネルパラメータを形成し、前記3D畳み込みニューラルネットワークモデル内の3D畳み込みカーネルの初期化パラメータを構成するステップと、
パラメータ初期化後の前記3D畳み込みニューラルネットワークモデルを、確率的勾配降下法によってトレーニングし、反復停止条件が満たされるまでモデルのパラメータを反復更新し、前記認識結果を出力するための前記3D畳み込みニューラルネットワークモデルを形成するステップと、を含んでもよい。
本発明の一実施形態のさらなる改善として、
前記3D畳み込みニューラルネットワークモデルは、処理フローのシーケンスの配列において、
7*7*7の3D畳み込み層、3*3*3の3Dプーリング層、少なくとも1つの協調時空間特徴構造、3Dプーリング層、完全接続層を含んでもよい。
前記3D畳み込みニューラルネットワークモデルは、処理フローのシーケンスの配列において、
7*7*7の3D畳み込み層、3*3*3の3Dプーリング層、少なくとも1つの協調時空間特徴構造、3Dプーリング層、完全接続層を含んでもよい。
本発明の一実施形態のさらなる改善として、
前記協調時空間特徴構造の数がP個で、P∈(4,16)であり、
前記協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、第1協調時空間畳み込み層、第1正規化層、活性化層、並びに第1協調時空間畳み込み層、第1正規化層、及び活性化層と並行して実行される、前記協調時空間特徴構造の入力から出力への高速接続を含んでもよい。
前記協調時空間特徴構造の数がP個で、P∈(4,16)であり、
前記協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、第1協調時空間畳み込み層、第1正規化層、活性化層、並びに第1協調時空間畳み込み層、第1正規化層、及び活性化層と並行して実行される、前記協調時空間特徴構造の入力から出力への高速接続を含んでもよい。
本発明の一実施形態のさらなる改善として、
前記協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、活性化層の後にある第2協調時空間畳み込み層、第2正規化層をさらに含んでもよい。
前記協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、活性化層の後にある第2協調時空間畳み込み層、第2正規化層をさらに含んでもよい。
本発明の一実施形態のさらなる改善として、
前記第1協調時空間畳み込み層によるデータ処理のフローは、
その入口入力特徴図を、それぞれH-W、T-H、T-Wで表される3つのビューに分解し、
3つのビューの出力特徴を、それぞれxhw、xtw、xthで表し、よって、
で、
で、
であり、
式中、xが(t×h×w)×c1の入力データであり、t×h×wが入力特徴図のサイズであり、c1が入力特徴図のチャネル数であり、
が3次元畳み込みを表し、wが畳み込みフィルターカーネルを表すステップと、
3組の入力データを加重合計して第1協調時空間畳み込み層の出力yを得て、
であり、
式中、[ahw,atw,ath]がサイズc2×3の係数であり、且つ[ahw,atw,ath]がsoftmaxを使用して正規化され、c2が出力のチャネル数であり、数字3が3つのビューを表すステップと、を含んでもよい。
前記第1協調時空間畳み込み層によるデータ処理のフローは、
その入口入力特徴図を、それぞれH-W、T-H、T-Wで表される3つのビューに分解し、
3つのビューの出力特徴を、それぞれxhw、xtw、xthで表し、よって、
で、
で、
であり、
式中、xが(t×h×w)×c1の入力データであり、t×h×wが入力特徴図のサイズであり、c1が入力特徴図のチャネル数であり、
が3次元畳み込みを表し、wが畳み込みフィルターカーネルを表すステップと、
3組の入力データを加重合計して第1協調時空間畳み込み層の出力yを得て、
であり、
式中、[ahw,atw,ath]がサイズc2×3の係数であり、且つ[ahw,atw,ath]がsoftmaxを使用して正規化され、c2が出力のチャネル数であり、数字3が3つのビューを表すステップと、を含んでもよい。
上記の発明の目的の1つを解決するために、本発明の一実施形態は、メモリ及びプロセッサを備え、前記メモリには前記プロセッサによって実行可能なコンピュータプログラムが記憶されている電子機器であって、前記プロセッサが前記プログラムを実行すると、上述の深層学習に基づくカプセル内視鏡画像認識方法のステップが実現される、電子機器を提供する。
上記の発明の目的の1つを解決するために、本発明の一実施形態は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されると、上述の深層学習に基づくカプセル内視鏡画像認識方法のステップが実現される、コンピュータ可読記憶媒体を提供する。
従来技術と比較して、本発明の有益な効果は次の通りである。本発明の深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体は、連続して撮影されたマルチフレーム画像を特定形式の画像シーケンスに形成した後、3D畳み込みニューラルネットワークモデルによってマルチフレーム画像をマルチチャネル認識し、さらに、各チャネルの認識確率を組み合わせて認識結果を出力し、画像認識精度を向上させる。
以下において、図面に示される具体的な実施形態を参照しながら本発明を詳細に説明するが、これらの実施形態は本発明を限定するものではなく、当業者がこれらの実施形態に基づいて行う構造的、方法的、又は機能的な変換も全て本発明の保護範囲内に含まれる。
図1に示すように、本発明の第1実施形態は、深層学習に基づくカプセル内視鏡画像認識方法を提供し、この方法は、下記のステップS1~S3を含む。
ステップS1で、カプセル内視鏡によってN枚の原画像を時間生成順に収集する。
ステップS2で、スライディングウィンドウ分割法を使用して、N枚の原画像を同じ大きさのM組の原画像シーケンスに分割し、
N枚の原画像を解析し、又はM組の原画像シーケンスを解析してM組のRGB画像シーケンスを形成し、及びN枚の原画像を解析し、又はM組のRGB画像シーケンスを解析してM組のオプティカルフロー画像シーケンスを形成する。
各RGB画像シーケンスは、RGB形式の画像データで構成され、各オプティカルフロー画像シーケンスは、隣接するRGB画像のオプティカルフローフィールドを計算して形成された画像データで構成される。
N枚の原画像を解析し、又はM組の原画像シーケンスを解析してM組のRGB画像シーケンスを形成し、及びN枚の原画像を解析し、又はM組のRGB画像シーケンスを解析してM組のオプティカルフロー画像シーケンスを形成する。
各RGB画像シーケンスは、RGB形式の画像データで構成され、各オプティカルフロー画像シーケンスは、隣接するRGB画像のオプティカルフローフィールドを計算して形成された画像データで構成される。
ステップS3で、RGB画像シーケンスとオプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力する。この認識結果は、所定パラメータの発生確率値である。
ステップS1について、カプセル内視鏡の動作中に、カプセル内視鏡に配置されたカメラによって画像が連続して撮影され、同期的又は非同期的に収集・記憶されて原画像が形成される。
ステップS2について、スライディングウィンドウ分割法を使用して、N枚の原画像を同じ大きさのM組の原画像シーケンスに分割するステップは、時間生成順にN枚の原画像に順に1、2、……Nと番号を付けるステップと、下記の式に示すように、N枚の画像を、所定のウィンドウサイズK、所定のスライディングステップSを用いて、M組の原画像シーケンスに順に分割するステップと、を含む。
具体的には、分割された第1組の原画像シーケンスは、番号1、2、...、Kの原画像からなり、第2組の原画像シーケンスは、番号S+1、S+2、...、S+Kの原画像からなり、順番に分割された後、最後の1組の原画像シーケンスは、番号N-K、N-K+1、...、Nの原画像からなり、合計
で表される組の原画像シーケンスに分割される。
式中の記号
は、切り上げを表す。
好ましくは、Kの値範囲は、2≦K≦1000であり、Sの値範囲は、1≦S<Kである。
で表される組の原画像シーケンスに分割される。
式中の記号
は、切り上げを表す。
好ましくは、Kの値範囲は、2≦K≦1000であり、Sの値範囲は、1≦S<Kである。
説明すべきことは、NがKで割り切れない場合、数がKでない原画像シーケンスが1組存在し、好ましくは、数がKでない原画像シーケンスを第1組又は最後の組と設定する点である。一般に、計算の便宜上、計算のために選択される原画像の数Nは、Kで割り切れるものであり、ここではさらなる説明を省略する。
図2に示すように、本発明の具体的な一例において、原画像の総数をN=10000枚、スライディングウィンドウの大きさをK=10、スライディングステップをS=5と設定すると、分割された第1組の原画像シーケンスは原画像1、2、...、10からなり、第2組の原画像シーケンスは原画像6、7、...、15からなり、このように、最後の1組の原画像シーケンスは、原画像9991、9992、...、10000からなり、合計1999個の原画像シーケンスに分割される。
これに応じて、N枚の原画像を解析し、又はM組の原画像シーケンスを解析してM組のRGB画像シーケンスを形成し、各RGB画像シーケンスはRGB形式の画像データで構成される。具体的には、原画像シーケンス内の各原画像をそれぞれRGB形式の画像に変換することで、各原画像シーケンスはそれぞれ、対応するRGB画像シーケンスを形成する。ここで説明すべきことは、まずN枚の原画像をRGB形式変換してから、原画像シーケンスの形成と同じスライディングウィンドウ分割法を用いてM組のRGB画像シーケンスを形成することもでき、上記2つの方法で形成されたRGB画像シーケンスは同じである点である。
また、原画像がRGB形式の画像であると、変換する必要はなく、原画像シーケンスは、RGB画像シーケンスであるが、ここではさらなる説明を省略する。
これに応じて、N枚の原画像を解析し、又はM組のRGB画像シーケンスを解析してM組のオプティカルフロー画像を形成することは、RGB画像シーケンス形成の過程と類似し、原画像を直接解析してオプティカルフロー画像を得てから、オプティカルフロー画像を、原画像シーケンスの形成と同じスライディングウィンドウ分割法でM組のオプティカルフロー画像シーケンスに形成してもよいし、又は原画像シーケンスを解析してオプティカルフロー画像シーケンスを直接形成してもよい。具体的には、原画像シーケンスを例とすると、まず原画像シーケンスをRGB画像シーケンスに変換し、その後、隣接するRGB画像のオプティカルフローフィールドを算出することでオプティカルフローフィールド画像データを得る。原画像が既知の場合に原画像に対応するRGB画像、オプティカルフロー画像を得ることはいずれも従来技術であるため、本明細書ではこれ以上説明しない。
ステップS3について、3D畳み込みニューラルネットワークモデルは、RGB分岐及びオプティカルフロー分岐を含む。
RGB画像シーケンスをRGB分岐に入力して計算し、第1分類確率p1を出力し、
オプティカルフロー画像シーケンスをオプティカルフロー分岐に入力して計算し、第2分類確率p2を出力し、
下記式に示すように、第1分類確率p1と第2分類確率p2を融合し、認識結果pを形成する。
p=w1×p1+w2×p2。
式中、w1=T1/(T1+T2)で、w2=T2/(T1+T2)である。
また、T1,T2は、それぞれ、3D畳み込みニューラルネットワークモデルを構築する過程での、RGB分岐とオプティカルフロー分岐のそれぞれにおける検証セットの認識精度を表す。
RGB画像シーケンスをRGB分岐に入力して計算し、第1分類確率p1を出力し、
オプティカルフロー画像シーケンスをオプティカルフロー分岐に入力して計算し、第2分類確率p2を出力し、
下記式に示すように、第1分類確率p1と第2分類確率p2を融合し、認識結果pを形成する。
p=w1×p1+w2×p2。
式中、w1=T1/(T1+T2)で、w2=T2/(T1+T2)である。
また、T1,T2は、それぞれ、3D畳み込みニューラルネットワークモデルを構築する過程での、RGB分岐とオプティカルフロー分岐のそれぞれにおける検証セットの認識精度を表す。
具体的には、認識精度は、認識に成功する確率である。
本発明の具体的な一例において、T1=0.9で、T1=0.8であると、w1=0.9/(0.9+0.8)=0.53であり、w2=0.8/(0.9+0.8)=0.47である。
具体的な応用では、示される認識結果は、現在の画像シーケンスに病巣が含まれる確率であり、病巣は、例えば、出血、潰瘍、ポリープ、糜爛等であり、認識結果pの値が高いほど、病巣が発生する確率が高いことを示す。
これに応じて、RGB分岐は、局所的な時空間情報をモデル化し、撮影内容の外形輪郭をよく表現することができる。オプティカルフロー分岐は、隣接するフレーム画像の変化をモデル化し、カプセル内視鏡の動きによる撮影内容の動的変化過程をよく捉えることができ、グローバルな空間情報の復元に有利である。したがって、同一の画像シーケンスを変換して2種類のデータを形成し、構築された2つの分岐のそれぞれによって認識して出力し、さらに2つの分岐の結果を融合することで、認識効果を高めることができる。
本発明の具体的な実施形態において、RGB分岐とオプティカルフロー分岐の構築方式は同じであり、本発明の以下の説明では、2種類の分岐を3D畳み込みニューラルネットワークモデルで総括して説明する。3D畳み込みニューラルネットワークモデルは、畳み込みカーネルを2次元から3次元に拡張することで、空間情報と時間情報を同時に符号化することができ、これにより、マルチフレーム画像に対して病巣認識を行い、連続して撮影された隣接する画像から得られた異なる角度の撮影情報を総合的に利用する。2D畳み込みニューラルネットワークモデルによる単一フレーム画像認識に対して、より多くの情報を利用することができるため、認識精度が高まる。
具体的には、3D畳み込みニューラルネットワークモデルのトレーニング方式は、次のステップM1~M3を含む。
ステップM1で、事前にトレーニングされた2D認識モデルにおけるサイズN×Nの2D畳み込みカーネルパラメータをN回コピーする。2D認識モデルは、病巣ラベル付きの画像によってトレーニングされて得られ、その入力は単一フレーム画像であり、且つ単一フレーム画像のみを認識できる。2D認識モデルの構築及び応用は、いずれも従来技術であり、例えば、背景技術CN111462082Aの中国特許出願に開示されているようなものがあり、ここでは詳細な説明を省略する。
ステップM2で、コピーされた各カーネルパラメータをそれぞれNで割って、各位置のカーネルパラメータを元の1/3にする。
ステップM3で、新しいカーネルパラメータを再組み合わせしてサイズN*N*Nの畳み込みカーネルパラメータを形成し、3D畳み込みニューラルネットワークモデル内の3D畳み込みカーネルの初期化パラメータを構成する。
具体的には、図3に示すように、2D認識モデルの3*3の畳み込みカーネルを3回コピーして、次元拡張を行い、さらに、各次元のデータを個別に3で割って、3*3*3の3D畳み込みカーネルの初期化パラメータを形成する。
さらに、3D畳み込みニューラルネットワークモデルのトレーニング方式は、ステップM4をさらに含む。ステップM4で、パラメータ初期化後の3D畳み込みニューラルネットワークモデルを確率的勾配降下法によってトレーニングし、反復停止条件が満たされるまでモデルのパラメータを反復更新し、認識結果を出力するための3D畳み込みニューラルネットワークモデルを形成する。
好ましくは、図4に示すように、3D畳み込みニューラルネットワークモデルは、処理フローのシーケンスの配列において、7*7*7の3D畳み込み層、3*3*3の3Dプーリング層、少なくとも1つの協調時空間特徴構造、3Dプーリング層、完全接続層を含む。
協調時空間特徴構造の数がP個で、P∈(4,16)であり、本発明の具体的な実施形態において、P=8と設定する。
好ましくは、図5に示すように、協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、第1協調時空間畳み込み層、第1正規化層、活性化層、並びに第1協調時空間畳み込み層、第1正規化層、及び活性化層と並行して実行される、協調時空間特徴構造の入力から出力への高速接続を含む。
さらに、協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、活性化層の後にある第2協調時空間畳み込み層、第2正規化層をさらに含む。
好ましくは、図6に示すように、第1協調時空間畳み込み層と第2協調時空間畳み込み層は、処理フローが同じであり、ここでは、これらを協調時空間畳み込み層として説明する。具体的には、協調時空間畳み込み層によるデータ処理のフローは以下を含む。
その入口入力特徴図を、それぞれH-W、T-H、T-Wで表される3つのビューに分解し、
3つのビューの出力特徴を、それぞれxhw、xtw、xthで表し、よって、
で、
で、
であり、
式中、xが(t×h×w)×c1の入力データであり、t×h×wが入力特徴図のサイズであり、c1が入力特徴図のチャネル数であり、
が3次元畳み込みを表し、wが畳み込みフィルターカーネルを表す。
そして、3組の入力データを加重合計して協調時空間畳み込み層の出力yを得て、
であり、
式中、[ahw,atw,ath]がサイズc2×3の係数であり、且つ[ahw,atw,ath]がsoftmaxを使用して正規化され、c2が出力のチャネル数であり、数字3が3つのビューを表す。
その入口入力特徴図を、それぞれH-W、T-H、T-Wで表される3つのビューに分解し、
3つのビューの出力特徴を、それぞれxhw、xtw、xthで表し、よって、
で、
で、
であり、
式中、xが(t×h×w)×c1の入力データであり、t×h×wが入力特徴図のサイズであり、c1が入力特徴図のチャネル数であり、
が3次元畳み込みを表し、wが畳み込みフィルターカーネルを表す。
そして、3組の入力データを加重合計して協調時空間畳み込み層の出力yを得て、
であり、
式中、[ahw,atw,ath]がサイズc2×3の係数であり、且つ[ahw,atw,ath]がsoftmaxを使用して正規化され、c2が出力のチャネル数であり、数字3が3つのビューを表す。
協調時空間畳み込み層は、入力データの3つの直交するビューを畳み込み、空間的外観と時間的動き情報をそれぞれ学習し、異なるビューの畳み込みカーネルを共有することで、空間的及び時間的特徴を協調的に学習する。
[ahw,atw,ath]をsoftmaxで正規化することによって、応答の桁違いの爆発を防ぐことができる。
さらに、本発明の一実施形態は、メモリ及びプロセッサを備え、前記メモリには前記プロセッサによって実行可能なコンピュータプログラムが記憶されている電子機器であって、前記プロセッサが前記プログラムを実行すると、上述の深層学習に基づくカプセル内視鏡画像認識方法のステップが実現される、電子機器を提供する。
さらに、本発明の一実施形態は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されると、上述の深層学習に基づくカプセル内視鏡画像認識方法のステップが実現される、コンピュータ可読記憶媒体を提供する。
要約すると、本発明の深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体は、連続して撮影されたマルチフレーム画像を特定形式の画像シーケンスに形成した後、3D畳み込みニューラルネットワークモデルによってマルチフレーム画像をマルチチャネル認識し、さらに、各チャネルの認識確率を組み合わせて認識結果を出力し、画像認識精度を向上させる。
説明の便宜上、上記装置は、機能ごとに様々なモジュールに分割されて説明されているが、当然ながら、本発明を実施する際に、各モジュールの機能は同一又は複数のソフトウェア及び/又はハードウェアで実現されてもよい。
上述した装置の実施形態は例示的なものに過ぎず、ここで分離部材として説明した前記モジュールは物理的に分離されたものであってもなくてもよく、モジュールとして示した部材は物理モジュールであってもなくてもよく、即ち一箇所に位置してもよく、又は複数のネットワークモジュールに分布してもよい。実際の必要に応じてその一部又は全てのモジュールを選択して本実施形態の解決手段の目的を実現することができる。当業者であれば、創造的な労力を要することなく理解及び実施することができる。
理解すべきものとして、本明細書では実施形態ごとに説明しているが、各実施形態は1つの独立した技術的解決手段のみを含むわけではなく、明細書のこのような説明方式は、明確にするためのものに過ぎず、当業者は明細書を1つの全体とすべきであり、各実施形態における技術的解決手段は、適宜組み合わせられて、当業者に理解できる他の実施形態を形成することができる。
上記の一連の詳細な説明は、本発明の可能な実施形態に対する具体的な説明に過ぎず、本発明の保護範囲を限定するためのものではなく、本発明の技術的精神から逸脱しない同等の実施形態又は変更は全て本発明の保護範囲に含まれるものとする。
Claims (10)
- カプセル内視鏡によってN枚の原画像を時間生成順に収集するステップと、
スライディングウィンドウ分割法を使用して、前記N枚の原画像を同じ大きさのM組の原画像シーケンスに分割するステップと、
前記N枚の原画像を解析し、又はM組のRGB画像シーケンスを解析してM組のオプティカルフロー画像シーケンスを形成するステップであって、各前記RGB画像シーケンスは、RGB形式の画像データで構成され、各前記オプティカルフロー画像シーケンスは、隣接するRGB画像のオプティカルフローフィールドを計算して形成された画像データで構成されるステップと、
前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップであって、前記認識結果は、所定パラメータの発生確率値であり、前記3D畳み込みニューラルネットワークモデルは、RGB分岐及びオプティカルフロー分岐を含むステップと、を含み、
前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップは、
前記RGB画像シーケンスを前記RGB分岐に入力して計算し、第1分類確率を出力するステップと、
前記オプティカルフロー画像シーケンスを前記オプティカルフロー分岐に入力して計算し、第2分類確率を出力するステップと、
下記式に示すように、前記第1分類確率と前記第2分類確率を融合し、前記認識結果を形成するステップと、を含み、
p=w1*p1+w2*p2、
式中、pは前記認識結果、p1は前記第1分類確率、p2は前記第2分類確率、w1=T1/(T1+T2)、w2=T2/(T1+T2)であり、
また、T1,T2は、それぞれ、前記3D畳み込みニューラルネットワークモデルを構築する過程での、前記RGB分岐と前記オプティカルフロー分岐のそれぞれにおける検証セットの認識精度を表すことを特徴とする、深層学習に基づくカプセル内視鏡画像認識方法。 - 前記所定のウィンドウサイズKの値範囲は、2≦K≦1000であり、前記所定のスライディングステップSの値範囲は、1≦S<Kであることを特徴とする、請求項2に記載の深層学習に基づくカプセル内視鏡画像認識方法。
- 前記3D畳み込みニューラルネットワークモデルのトレーニング方式は、
事前にトレーニングされた2D認識モデルにおけるサイズN*Nの2D畳み込みカーネルパラメータをN回コピーするステップであって、前記2D認識モデルは、病巣ラベル付きの画像によってトレーニングされて得られ、その入力は単一フレーム画像であり、且つ単一フレーム画像のみを認識できるステップと、
コピーされた各カーネルパラメータをそれぞれNで割って、各位置のカーネルパラメータを元の1/3にするステップと、
新しいカーネルパラメータを再組み合わせしてサイズN*N*Nの畳み込みカーネルパラメータを形成し、前記3D畳み込みニューラルネットワークモデル内の3D畳み込みカーネルの初期化パラメータを構成するステップと、
パラメータ初期化後の前記3D畳み込みニューラルネットワークモデルを、確率的勾配降下法によってトレーニングし、反復停止条件が満たされるまでモデルのパラメータを反復更新し、前記認識結果を出力するための前記3D畳み込みニューラルネットワークモデルを形成するステップと、を含むことを特徴とする、請求項1に記載の深層学習に基づくカプセル内視鏡画像認識方法。 - 前記3D畳み込みニューラルネットワークモデルは、処理フローのシーケンスの配列において、
7*7*7の3D畳み込み層、3*3*3の3Dプーリング層、少なくとも1つの協調時空間特徴構造、3Dプーリング層、完全接続層を含むことを特徴とする、請求項1に記載の深層学習に基づくカプセル内視鏡画像認識方法。 - 前記協調時空間特徴構造の数がP個で、P∈(4,16)であり、
前記協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、第1協調時空間畳み込み層、第1正規化層、活性化層、並びに第1協調時空間畳み込み層、第1正規化層、及び活性化層と並行して実行される、前記協調時空間特徴構造の入力から出力への高速接続を含むことを特徴とする、請求項5に記載の深層学習に基づくカプセル内視鏡画像認識方法。 - 前記協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、活性化層の後にある第2協調時空間畳み込み層、第2正規化層をさらに含むことを特徴とする、請求項6に記載の深層学習に基づくカプセル内視鏡画像認識方法。
- 前記第1協調時空間畳み込み層によるデータ処理のフローは、
その入口入力特徴図を、それぞれH-W、T-H、T-Wで表される3つのビューに分解し、
3つのビューの出力特徴を、それぞれxhw、xtw、xthで表し、よって、
で、
で、
であり、
式中、xが(t×h×w)×c1の入力データであり、t×h×wが入力特徴図のサイズであり、c1が入力特徴図のチャネル数であり、
が3次元畳み込みを表し、wが畳み込みフィルターカーネルを表すステップと、
3組の入力データを加重合計して第1協調時空間畳み込み層の出力yを得て、
であり、
式中、[ahw,atw,ath]がサイズc2×3の係数であり、且つ[ahw,atw,ath]がsoftmaxを使用して正規化され、c2が出力のチャネル数であり、数字3が3つのビューを表すステップと、を含むことを特徴とする、請求項6に記載の深層学習に基づくカプセル内視鏡画像認識方法。 - メモリ及びプロセッサを備え、前記メモリには前記プロセッサによって実行可能なコンピュータプログラムが記憶されている電子機器であって、前記プロセッサが前記プログラムを実行すると、深層学習に基づくカプセル内視鏡画像認識方法のステップが実現され、前記方法は、
カプセル内視鏡によってN枚の原画像を時間生成順に収集するステップと、
スライディングウィンドウ分割法を使用して、前記N枚の原画像を同じ大きさのM組の原画像シーケンスに分割するステップと、
前記N枚の原画像を解析し、又はM組のRGB画像シーケンスを解析してM組のオプティカルフロー画像シーケンスを形成するステップであって、各前記RGB画像シーケンスは、RGB形式の画像データで構成され、各前記オプティカルフロー画像シーケンスは、隣接するRGB画像のオプティカルフローフィールドを計算して形成された画像データで構成されるステップと、
前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップであって、前記認識結果は、所定パラメータの発生確率値であり、前記3D畳み込みニューラルネットワークモデルは、RGB分岐及びオプティカルフロー分岐を含むステップと、を含み、
前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップは、
前記RGB画像シーケンスを前記RGB分岐に入力して計算し、第1分類確率を出力するステップと、
前記オプティカルフロー画像シーケンスを前記オプティカルフロー分岐に入力して計算し、第2分類確率を出力するステップと、
下記式に示すように、前記第1分類確率と前記第2分類確率を融合し、前記認識結果pを形成するステップと、を含み、
p=w1*p1+w2*p2、
式中、pは前記認識結果、p1は前記第1分類確率、p2は前記第2分類確率、w1=T1/(T1+T2)、w2=T2/(T1+T2)であり、
また、T1,T2は、それぞれ、前記3D畳み込みニューラルネットワークモデルを構築する過程での、前記RGB分岐と前記オプティカルフロー分岐のそれぞれにおける検証セットの認識精度を表すことを特徴とする、電子機器。 - コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されると、深層学習に基づくカプセル内視鏡画像認識方法のステップが実現され、前記方法は、
カプセル内視鏡によってN枚の原画像を時間生成順に収集するステップと、
スライディングウィンドウ分割法を使用して、前記N枚の原画像を同じ大きさのM組の原画像シーケンスに分割するステップと、
前記N枚の原画像を解析し、又はM組のRGB画像シーケンスを解析してM組のオプティカルフロー画像シーケンスを形成するステップであって、各前記RGB画像シーケンスは、RGB形式の画像データで構成され、各前記オプティカルフロー画像シーケンスは、隣接するRGB画像のオプティカルフローフィールドを計算して形成された画像データで構成されるステップと、
前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップであって、前記認識結果は、所定パラメータの発生確率値であり、前記3D畳み込みニューラルネットワークモデルは、RGB分岐及びオプティカルフロー分岐を含むステップと、を含み、
前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップは、
RGB画像シーケンスをRGB分岐に入力して計算し、第1分類確率を出力するステップと、
オプティカルフロー画像シーケンスをオプティカルフロー分岐に入力して計算し、第2分類確率を出力するステップと、
下記式に示すように、前記第1分類確率と前記第2分類確率を融合し、前記認識結果を形成するステップと、を含み、
p=w1*p1+w2*p2、
式中、pは前記認識結果、p1は前記第1分類確率、p2は前記第2分類確率、w1=T1/(T1+T2)、w2=T2/(T1+T2)であり、
また、T1,T2は、それぞれ、前記3D畳み込みニューラルネットワークモデルを構築する過程での、前記RGB分岐と前記オプティカルフロー分岐のそれぞれにおける検証セットの認識精度を表すことを特徴とする、コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110010379.4 | 2021-01-06 | ||
CN202110010379.4A CN112348125B (zh) | 2021-01-06 | 2021-01-06 | 基于深度学习的胶囊内窥镜影像识别方法、设备及介质 |
PCT/CN2021/137938 WO2022148216A1 (zh) | 2021-01-06 | 2021-12-14 | 基于深度学习的胶囊内窥镜影像识别方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2024502105A true JP2024502105A (ja) | 2024-01-17 |
JP7507318B2 JP7507318B2 (ja) | 2024-06-27 |
Family
ID=74427399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023540947A Active JP7507318B2 (ja) | 2021-01-06 | 2021-12-14 | 深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20240070858A1 (ja) |
EP (1) | EP4276684A4 (ja) |
JP (1) | JP7507318B2 (ja) |
KR (1) | KR20230113386A (ja) |
CN (1) | CN112348125B (ja) |
WO (1) | WO2022148216A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348125B (zh) * | 2021-01-06 | 2021-04-02 | 安翰科技(武汉)股份有限公司 | 基于深度学习的胶囊内窥镜影像识别方法、设备及介质 |
CN113159238B (zh) * | 2021-06-23 | 2021-10-26 | 安翰科技(武汉)股份有限公司 | 内窥镜影像识别方法、电子设备及存储介质 |
CN113591961A (zh) * | 2021-07-22 | 2021-11-02 | 深圳市永吉星光电有限公司 | 一种基于神经网络的微创医用摄像头图像识别方法 |
CN113591761B (zh) * | 2021-08-09 | 2023-06-06 | 成都华栖云科技有限公司 | 一种视频镜头语言识别方法 |
CN113487605B (zh) * | 2021-09-03 | 2021-11-19 | 北京字节跳动网络技术有限公司 | 用于内窥镜的组织腔体定位方法、装置、介质及设备 |
CN116309604B (zh) * | 2023-05-24 | 2023-08-22 | 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) | 动态分析时序mr图像的方法、系统、设备和存储介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5191240B2 (ja) * | 2008-01-09 | 2013-05-08 | オリンパス株式会社 | シーン変化検出装置およびシーン変化検出プログラム |
JP5281826B2 (ja) | 2008-06-05 | 2013-09-04 | オリンパス株式会社 | 画像処理装置、画像処理プログラムおよび画像処理方法 |
CN103984957A (zh) | 2014-05-04 | 2014-08-13 | 中国科学院深圳先进技术研究院 | 胶囊内窥镜图像可疑病变区域自动预警系统 |
US10510144B2 (en) * | 2015-09-10 | 2019-12-17 | Magentiq Eye Ltd. | System and method for detection of suspicious tissue regions in an endoscopic procedure |
US10572996B2 (en) * | 2016-06-28 | 2020-02-25 | Contextvision Ab | Method and system for detecting pathological anomalies in a digital pathology image and method for annotating a tissue slide |
CN109740670B (zh) * | 2019-01-02 | 2022-01-11 | 京东方科技集团股份有限公司 | 视频分类的方法及装置 |
CN109934276B (zh) * | 2019-03-05 | 2020-11-17 | 安翰科技(武汉)股份有限公司 | 基于迁移学习的胶囊内窥镜图像分类系统及方法 |
CN109886358B (zh) * | 2019-03-21 | 2022-03-08 | 上海理工大学 | 基于多时空信息融合卷积神经网络的人体行为识别方法 |
CN110222574B (zh) * | 2019-05-07 | 2021-06-29 | 杭州智尚云科信息技术有限公司 | 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质 |
CN110705463A (zh) * | 2019-09-29 | 2020-01-17 | 山东大学 | 基于多模态双流3d网络的视频人体行为识别方法及系统 |
CN111383214B (zh) * | 2020-03-10 | 2021-02-19 | 长沙慧维智能医疗科技有限公司 | 实时内窥镜肠镜息肉检测系统 |
CN111462082A (zh) | 2020-03-31 | 2020-07-28 | 重庆金山医疗技术研究院有限公司 | 一种病灶图片识别装置、方法、设备及可读存储介质 |
CN111950444A (zh) * | 2020-08-10 | 2020-11-17 | 北京师范大学珠海分校 | 一种基于时空特征融合深度学习网络的视频行为识别方法 |
CN112348125B (zh) * | 2021-01-06 | 2021-04-02 | 安翰科技(武汉)股份有限公司 | 基于深度学习的胶囊内窥镜影像识别方法、设备及介质 |
-
2021
- 2021-01-06 CN CN202110010379.4A patent/CN112348125B/zh active Active
- 2021-12-14 EP EP21917257.4A patent/EP4276684A4/en active Pending
- 2021-12-14 US US18/260,528 patent/US20240070858A1/en active Pending
- 2021-12-14 JP JP2023540947A patent/JP7507318B2/ja active Active
- 2021-12-14 KR KR1020237022485A patent/KR20230113386A/ko active Search and Examination
- 2021-12-14 WO PCT/CN2021/137938 patent/WO2022148216A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN112348125B (zh) | 2021-04-02 |
EP4276684A4 (en) | 2024-05-29 |
KR20230113386A (ko) | 2023-07-28 |
JP7507318B2 (ja) | 2024-06-27 |
CN112348125A (zh) | 2021-02-09 |
US20240070858A1 (en) | 2024-02-29 |
WO2022148216A1 (zh) | 2022-07-14 |
EP4276684A1 (en) | 2023-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7507318B2 (ja) | 深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体 | |
CN110378381B (zh) | 物体检测方法、装置和计算机存储介质 | |
CN112308200B (zh) | 神经网络的搜索方法及装置 | |
CN109522874B (zh) | 人体动作识别方法、装置、终端设备及存储介质 | |
Rahim et al. | A deep convolutional neural network for the detection of polyps in colonoscopy images | |
JP2023533907A (ja) | 自己注意ベースのニューラルネットワークを使用した画像処理 | |
CN113256529B (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN112507920B (zh) | 一种基于时间位移和注意力机制的考试异常行为识别方法 | |
CN112232134A (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
Atto et al. | Timed-image based deep learning for action recognition in video sequences | |
CN111091536A (zh) | 医学图像处理方法、装置、设备、介质以及内窥镜 | |
CN116935044B (zh) | 一种多尺度引导和多层次监督的内镜息肉分割方法 | |
CN111667459A (zh) | 一种基于3d可变卷积和时序特征融合的医学征象检测方法、系统、终端及存储介质 | |
WO2024193622A1 (zh) | 一种三维构建网络训练方法、三维模型生成方法以及装置 | |
Zhang et al. | Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention | |
CN108509830B (zh) | 一种视频数据处理方法及设备 | |
CN115115724A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN113724184A (zh) | 脑出血预后预测方法、装置、电子设备及存储介质 | |
CN117934308A (zh) | 一种基于图卷积网络的轻量化自监督单目深度估计方法 | |
CN113313133A (zh) | 一种生成对抗网络的训练方法、动画图像生成方法 | |
CN114463840B (zh) | 基于骨架的移位图卷积网络人体行为识别方法 | |
Dabhi et al. | High fidelity 3d reconstructions with limited physical views | |
US20220180548A1 (en) | Method and apparatus with object pose estimation | |
Zhang et al. | Lightweight network for small target fall detection based on feature fusion and dynamic convolution | |
Chen et al. | Relation-balanced graph convolutional network for 3D human pose estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230821 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240528 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240604 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240617 |