JP2024502105A - 深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体 - Google Patents

深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体 Download PDF

Info

Publication number
JP2024502105A
JP2024502105A JP2023540947A JP2023540947A JP2024502105A JP 2024502105 A JP2024502105 A JP 2024502105A JP 2023540947 A JP2023540947 A JP 2023540947A JP 2023540947 A JP2023540947 A JP 2023540947A JP 2024502105 A JP2024502105 A JP 2024502105A
Authority
JP
Japan
Prior art keywords
rgb
optical flow
image
image sequence
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2023540947A
Other languages
English (en)
Other versions
JP7507318B2 (ja
Inventor
ハン ジャン
ハオ ジャン
ウェンジン ユェン
チュウカン ジャン
ホイ リウ
ジーウェン ホァン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ankon Technologies Co Ltd
Original Assignee
Ankon Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ankon Technologies Co Ltd filed Critical Ankon Technologies Co Ltd
Publication of JP2024502105A publication Critical patent/JP2024502105A/ja
Application granted granted Critical
Publication of JP7507318B2 publication Critical patent/JP7507318B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/031Recognition of patterns in medical or anatomical images of internal organs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/032Recognition of patterns in medical or anatomical images of protuberances, polyps nodules, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Endoscopes (AREA)
  • Image Processing (AREA)

Abstract

本発明は、深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体を提供し、連続して撮影されたマルチフレーム画像を特定形式の画像シーケンスに形成した後、3D畳み込みニューラルネットワークモデルによってマルチフレーム画像をマルチチャネル認識し、さらに、各チャネルの認識確率を組み合わせて認識結果を出力し、画像認識精度を向上させる。【選択図】図1

Description

(関連出願の相互参照)
本出願は、出願日2021年1月6日、出願番号202110010379.4、発明の名称「深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体」の中国特許出願の優先権を主張し、その全ては引用によって本出願に組み込まれる。
本発明は、医療機器イメージングの分野に関し、特に、深層学習に基づくカプセル内視鏡画像認識方法、電子機器及び可読記憶媒体に関する。
カプセル内視鏡は、カメラや無線伝送アンテナ等のコアデバイスを統合し、体内の消化管内で画像を収集して体外に同期して伝送することで、得られた画像データに基づいて医療検査を行う医療機器である。カプセル内視鏡は検出過程で数万枚の画像が収集され、画像データの量が多いため、フィルムの読み取り作業が困難で時間がかかる。技術の発展に伴い、画像処理及びコンピュータビジョン技術を活用した病巣認識が広く注目されるようになった。
従来技術において、公開番号CN103984957Aの中国特許出願には、カプセル内視鏡画像の疑わしい病変領域の自動早期警告システムが開示されており、該システムは、画像強調モジュールを用いて画像を適応的に強調させてから、テクスチャ特徴抽出モジュールによって平坦病変のテクスチャ特徴を検出し、最後に分類早期警告モジュールを用いて分類し、小腸の平坦病変に対する検出及び早期警告機能を実現した。
公開番号CN111462082Aの中国特許出願には、トレーニングされた2Dターゲット深層学習モデルを用いて単一画像に対して病巣認識を行う病巣画像認識装置、方法、機器及び可読記憶媒体が開示されている。
従来技術に記載された解決手段は、いずれも単一画像を認識するものであり、認識過程では、単一画像に撮影された情報のみが利用可能であり、前後に撮影された画像情報を総合的に利用することができない。このように、単一の角度から撮影された画像は、病巣の全体的な状況を直観的に反映することができず、特に、特定の角度から撮影された消化管のひだ、胃壁等の画像は、ポリープや隆起等の病変と混同されやすい。また、従来技術では、撮影内容の空間情報と時間情報を同時に取得することができず、病巣認識の正確率が低い。
上記技術的課題を解決するために、本発明の目的は、深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体を提供することである。
上記の発明の目的の1つを実現するために、本発明の一実施形態は、
カプセル内視鏡によってN枚の原画像を時間生成順に収集するステップと、
スライディングウィンドウ分割法を使用して、前記N枚の原画像を同じ大きさのM組の原画像シーケンスに分割するステップと、
前記N枚の原画像を解析し、又はM組のRGB画像シーケンスを解析してM組のオプティカルフロー画像シーケンスを形成するステップであって、各前記RGB画像シーケンスは、RGB形式の画像データで構成され、各前記オプティカルフロー画像シーケンスは、隣接するRGB画像のオプティカルフローフィールドを計算して形成された画像データで構成されるステップと、
前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップであって、前記認識結果は、所定パラメータの発生確率値であり、前記3D畳み込みニューラルネットワークモデルは、RGB分岐及びオプティカルフロー分岐を含むステップと、を含み、
前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップは、
前記RGB画像シーケンスを前記RGB分岐に入力して計算し、第1分類確率を出力するステップと、
前記オプティカルフロー画像シーケンスを前記オプティカルフロー分岐に入力して計算し、第2分類確率を出力するステップと、
下記式に示すように、前記第1分類確率と前記第2分類確率を融合し、前記認識結果を形成するステップと、を含み、
p=w*p1+w*p2、
式中、pは前記認識結果、p1は前記第1分類確率、p2は前記第2分類確率、w=T1/(T1+T2)、w=T2/(T1+T2)であり、
また、T1,T2はそれぞれ、前記3D畳み込みニューラルネットワークモデルを構築する過程での、前記RGB分岐と前記オプティカルフロー分岐のそれぞれにおける検証セットの認識精度を表す、深層学習に基づくカプセル内視鏡画像認識方法を提供する。
本発明の一実施形態のさらなる改善として、
前記スライディングウィンドウ分割法を使用して、前記N枚の原画像を同じ大きさのM組の原画像シーケンスに分割するステップは、
時間生成順にN枚の原画像に、順に1、2、……Nと番号を付けるステップと、
N枚の画像を、所定のウィンドウサイズK、所定のスライディングステップSを用いてM組の原画像シーケンスに順に分割し、
Figure 2024502105000002

であるステップとを含んでもよい。
本発明の一実施形態のさらなる改善として、
前記所定のウィンドウサイズKの値範囲は、2≦K≦1000であり、前記所定のスライディングステップSの値範囲は、1≦S<Kであってもよい。
本発明の一実施形態のさらなる改善として、
前記3D畳み込みニューラルネットワークモデルのトレーニング方式は、
事前にトレーニングされた2D認識モデルにおけるサイズN*Nの2D畳み込みカーネルパラメータをN回コピーするステップであって、前記2D認識モデルは病巣ラベル付きの画像によってトレーニングされて得られ、その入力は単一フレーム画像であり、且つ単一フレーム画像のみを認識できるステップと、
コピーされた各カーネルパラメータをそれぞれNで割って、各位置のカーネルパラメータを元の1/3にするステップと、
新しいカーネルパラメータを再組み合わせしてサイズN*N*Nの畳み込みカーネルパラメータを形成し、前記3D畳み込みニューラルネットワークモデル内の3D畳み込みカーネルの初期化パラメータを構成するステップと、
パラメータ初期化後の前記3D畳み込みニューラルネットワークモデルを、確率的勾配降下法によってトレーニングし、反復停止条件が満たされるまでモデルのパラメータを反復更新し、前記認識結果を出力するための前記3D畳み込みニューラルネットワークモデルを形成するステップと、を含んでもよい。
本発明の一実施形態のさらなる改善として、
前記3D畳み込みニューラルネットワークモデルは、処理フローのシーケンスの配列において、
7*7*7の3D畳み込み層、3*3*3の3Dプーリング層、少なくとも1つの協調時空間特徴構造、3Dプーリング層、完全接続層を含んでもよい。
本発明の一実施形態のさらなる改善として、
前記協調時空間特徴構造の数がP個で、P∈(4,16)であり、
前記協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、第1協調時空間畳み込み層、第1正規化層、活性化層、並びに第1協調時空間畳み込み層、第1正規化層、及び活性化層と並行して実行される、前記協調時空間特徴構造の入力から出力への高速接続を含んでもよい。
本発明の一実施形態のさらなる改善として、
前記協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、活性化層の後にある第2協調時空間畳み込み層、第2正規化層をさらに含んでもよい。
本発明の一実施形態のさらなる改善として、
前記第1協調時空間畳み込み層によるデータ処理のフローは、
その入口入力特徴図を、それぞれH-W、T-H、T-Wで表される3つのビューに分解し、
3つのビューの出力特徴を、それぞれxhw、xtw、xthで表し、よって、
Figure 2024502105000003

で、
Figure 2024502105000004

で、
Figure 2024502105000005

であり、
式中、xが(t×h×w)×cの入力データであり、t×h×wが入力特徴図のサイズであり、cが入力特徴図のチャネル数であり、
Figure 2024502105000006

が3次元畳み込みを表し、wが畳み込みフィルターカーネルを表すステップと、
3組の入力データを加重合計して第1協調時空間畳み込み層の出力yを得て、
Figure 2024502105000007

であり、
式中、[ahw,atw,ath]がサイズc×3の係数であり、且つ[ahw,atw,ath]がsoftmaxを使用して正規化され、cが出力のチャネル数であり、数字3が3つのビューを表すステップと、を含んでもよい。
上記の発明の目的の1つを解決するために、本発明の一実施形態は、メモリ及びプロセッサを備え、前記メモリには前記プロセッサによって実行可能なコンピュータプログラムが記憶されている電子機器であって、前記プロセッサが前記プログラムを実行すると、上述の深層学習に基づくカプセル内視鏡画像認識方法のステップが実現される、電子機器を提供する。
上記の発明の目的の1つを解決するために、本発明の一実施形態は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されると、上述の深層学習に基づくカプセル内視鏡画像認識方法のステップが実現される、コンピュータ可読記憶媒体を提供する。
従来技術と比較して、本発明の有益な効果は次の通りである。本発明の深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体は、連続して撮影されたマルチフレーム画像を特定形式の画像シーケンスに形成した後、3D畳み込みニューラルネットワークモデルによってマルチフレーム画像をマルチチャネル認識し、さらに、各チャネルの認識確率を組み合わせて認識結果を出力し、画像認識精度を向上させる。
本発明の第1実施形態による深層学習に基づくカプセル内視鏡画像認識方法の手順模式図である。 本発明の具体的な一例で提供されるスライディングウィンドウ分割の模式図である。 本発明の具体的な一例で提供される、トレーニングされた2D認識モデルの畳み込みカーネルパラメータを使用して3D畳み込みニューラルネットワークモデルの畳み込みカーネル初期化パラメータを生成する模式図である。 本発明で提供される3D畳み込みニューラルネットワークモデルの構造模式図である。 本発明で提供される協調時空間特徴構造の構造模式図である。 本発明の具体例における協調時空間畳み込み層によるデータ処理の手順模式図である。
以下において、図面に示される具体的な実施形態を参照しながら本発明を詳細に説明するが、これらの実施形態は本発明を限定するものではなく、当業者がこれらの実施形態に基づいて行う構造的、方法的、又は機能的な変換も全て本発明の保護範囲内に含まれる。
図1に示すように、本発明の第1実施形態は、深層学習に基づくカプセル内視鏡画像認識方法を提供し、この方法は、下記のステップS1~S3を含む。
ステップS1で、カプセル内視鏡によってN枚の原画像を時間生成順に収集する。
ステップS2で、スライディングウィンドウ分割法を使用して、N枚の原画像を同じ大きさのM組の原画像シーケンスに分割し、
N枚の原画像を解析し、又はM組の原画像シーケンスを解析してM組のRGB画像シーケンスを形成し、及びN枚の原画像を解析し、又はM組のRGB画像シーケンスを解析してM組のオプティカルフロー画像シーケンスを形成する。
各RGB画像シーケンスは、RGB形式の画像データで構成され、各オプティカルフロー画像シーケンスは、隣接するRGB画像のオプティカルフローフィールドを計算して形成された画像データで構成される。
ステップS3で、RGB画像シーケンスとオプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力する。この認識結果は、所定パラメータの発生確率値である。
ステップS1について、カプセル内視鏡の動作中に、カプセル内視鏡に配置されたカメラによって画像が連続して撮影され、同期的又は非同期的に収集・記憶されて原画像が形成される。
ステップS2について、スライディングウィンドウ分割法を使用して、N枚の原画像を同じ大きさのM組の原画像シーケンスに分割するステップは、時間生成順にN枚の原画像に順に1、2、……Nと番号を付けるステップと、下記の式に示すように、N枚の画像を、所定のウィンドウサイズK、所定のスライディングステップSを用いて、M組の原画像シーケンスに順に分割するステップと、を含む。
Figure 2024502105000008
具体的には、分割された第1組の原画像シーケンスは、番号1、2、...、Kの原画像からなり、第2組の原画像シーケンスは、番号S+1、S+2、...、S+Kの原画像からなり、順番に分割された後、最後の1組の原画像シーケンスは、番号N-K、N-K+1、...、Nの原画像からなり、合計
Figure 2024502105000009

で表される組の原画像シーケンスに分割される。
式中の記号
Figure 2024502105000010

は、切り上げを表す。
好ましくは、Kの値範囲は、2≦K≦1000であり、Sの値範囲は、1≦S<Kである。
説明すべきことは、NがKで割り切れない場合、数がKでない原画像シーケンスが1組存在し、好ましくは、数がKでない原画像シーケンスを第1組又は最後の組と設定する点である。一般に、計算の便宜上、計算のために選択される原画像の数Nは、Kで割り切れるものであり、ここではさらなる説明を省略する。
図2に示すように、本発明の具体的な一例において、原画像の総数をN=10000枚、スライディングウィンドウの大きさをK=10、スライディングステップをS=5と設定すると、分割された第1組の原画像シーケンスは原画像1、2、...、10からなり、第2組の原画像シーケンスは原画像6、7、...、15からなり、このように、最後の1組の原画像シーケンスは、原画像9991、9992、...、10000からなり、合計1999個の原画像シーケンスに分割される。
これに応じて、N枚の原画像を解析し、又はM組の原画像シーケンスを解析してM組のRGB画像シーケンスを形成し、各RGB画像シーケンスはRGB形式の画像データで構成される。具体的には、原画像シーケンス内の各原画像をそれぞれRGB形式の画像に変換することで、各原画像シーケンスはそれぞれ、対応するRGB画像シーケンスを形成する。ここで説明すべきことは、まずN枚の原画像をRGB形式変換してから、原画像シーケンスの形成と同じスライディングウィンドウ分割法を用いてM組のRGB画像シーケンスを形成することもでき、上記2つの方法で形成されたRGB画像シーケンスは同じである点である。
また、原画像がRGB形式の画像であると、変換する必要はなく、原画像シーケンスは、RGB画像シーケンスであるが、ここではさらなる説明を省略する。
これに応じて、N枚の原画像を解析し、又はM組のRGB画像シーケンスを解析してM組のオプティカルフロー画像を形成することは、RGB画像シーケンス形成の過程と類似し、原画像を直接解析してオプティカルフロー画像を得てから、オプティカルフロー画像を、原画像シーケンスの形成と同じスライディングウィンドウ分割法でM組のオプティカルフロー画像シーケンスに形成してもよいし、又は原画像シーケンスを解析してオプティカルフロー画像シーケンスを直接形成してもよい。具体的には、原画像シーケンスを例とすると、まず原画像シーケンスをRGB画像シーケンスに変換し、その後、隣接するRGB画像のオプティカルフローフィールドを算出することでオプティカルフローフィールド画像データを得る。原画像が既知の場合に原画像に対応するRGB画像、オプティカルフロー画像を得ることはいずれも従来技術であるため、本明細書ではこれ以上説明しない。
ステップS3について、3D畳み込みニューラルネットワークモデルは、RGB分岐及びオプティカルフロー分岐を含む。
RGB画像シーケンスをRGB分岐に入力して計算し、第1分類確率p1を出力し、
オプティカルフロー画像シーケンスをオプティカルフロー分岐に入力して計算し、第2分類確率p2を出力し、
下記式に示すように、第1分類確率p1と第2分類確率p2を融合し、認識結果pを形成する。
p=w×p1+w×p2。
式中、w=T1/(T1+T2)で、w=T2/(T1+T2)である。
また、T1,T2は、それぞれ、3D畳み込みニューラルネットワークモデルを構築する過程での、RGB分岐とオプティカルフロー分岐のそれぞれにおける検証セットの認識精度を表す。
具体的には、認識精度は、認識に成功する確率である。
本発明の具体的な一例において、T1=0.9で、T1=0.8であると、w=0.9/(0.9+0.8)=0.53であり、w=0.8/(0.9+0.8)=0.47である。
具体的な応用では、示される認識結果は、現在の画像シーケンスに病巣が含まれる確率であり、病巣は、例えば、出血、潰瘍、ポリープ、糜爛等であり、認識結果pの値が高いほど、病巣が発生する確率が高いことを示す。
これに応じて、RGB分岐は、局所的な時空間情報をモデル化し、撮影内容の外形輪郭をよく表現することができる。オプティカルフロー分岐は、隣接するフレーム画像の変化をモデル化し、カプセル内視鏡の動きによる撮影内容の動的変化過程をよく捉えることができ、グローバルな空間情報の復元に有利である。したがって、同一の画像シーケンスを変換して2種類のデータを形成し、構築された2つの分岐のそれぞれによって認識して出力し、さらに2つの分岐の結果を融合することで、認識効果を高めることができる。
本発明の具体的な実施形態において、RGB分岐とオプティカルフロー分岐の構築方式は同じであり、本発明の以下の説明では、2種類の分岐を3D畳み込みニューラルネットワークモデルで総括して説明する。3D畳み込みニューラルネットワークモデルは、畳み込みカーネルを2次元から3次元に拡張することで、空間情報と時間情報を同時に符号化することができ、これにより、マルチフレーム画像に対して病巣認識を行い、連続して撮影された隣接する画像から得られた異なる角度の撮影情報を総合的に利用する。2D畳み込みニューラルネットワークモデルによる単一フレーム画像認識に対して、より多くの情報を利用することができるため、認識精度が高まる。
具体的には、3D畳み込みニューラルネットワークモデルのトレーニング方式は、次のステップM1~M3を含む。
ステップM1で、事前にトレーニングされた2D認識モデルにおけるサイズN×Nの2D畳み込みカーネルパラメータをN回コピーする。2D認識モデルは、病巣ラベル付きの画像によってトレーニングされて得られ、その入力は単一フレーム画像であり、且つ単一フレーム画像のみを認識できる。2D認識モデルの構築及び応用は、いずれも従来技術であり、例えば、背景技術CN111462082Aの中国特許出願に開示されているようなものがあり、ここでは詳細な説明を省略する。
ステップM2で、コピーされた各カーネルパラメータをそれぞれNで割って、各位置のカーネルパラメータを元の1/3にする。
ステップM3で、新しいカーネルパラメータを再組み合わせしてサイズN*N*Nの畳み込みカーネルパラメータを形成し、3D畳み込みニューラルネットワークモデル内の3D畳み込みカーネルの初期化パラメータを構成する。
具体的には、図3に示すように、2D認識モデルの3*3の畳み込みカーネルを3回コピーして、次元拡張を行い、さらに、各次元のデータを個別に3で割って、3*3*3の3D畳み込みカーネルの初期化パラメータを形成する。
さらに、3D畳み込みニューラルネットワークモデルのトレーニング方式は、ステップM4をさらに含む。ステップM4で、パラメータ初期化後の3D畳み込みニューラルネットワークモデルを確率的勾配降下法によってトレーニングし、反復停止条件が満たされるまでモデルのパラメータを反復更新し、認識結果を出力するための3D畳み込みニューラルネットワークモデルを形成する。
好ましくは、図4に示すように、3D畳み込みニューラルネットワークモデルは、処理フローのシーケンスの配列において、7*7*7の3D畳み込み層、3*3*3の3Dプーリング層、少なくとも1つの協調時空間特徴構造、3Dプーリング層、完全接続層を含む。
協調時空間特徴構造の数がP個で、P∈(4,16)であり、本発明の具体的な実施形態において、P=8と設定する。
好ましくは、図5に示すように、協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、第1協調時空間畳み込み層、第1正規化層、活性化層、並びに第1協調時空間畳み込み層、第1正規化層、及び活性化層と並行して実行される、協調時空間特徴構造の入力から出力への高速接続を含む。
さらに、協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、活性化層の後にある第2協調時空間畳み込み層、第2正規化層をさらに含む。
好ましくは、図6に示すように、第1協調時空間畳み込み層と第2協調時空間畳み込み層は、処理フローが同じであり、ここでは、これらを協調時空間畳み込み層として説明する。具体的には、協調時空間畳み込み層によるデータ処理のフローは以下を含む。
その入口入力特徴図を、それぞれH-W、T-H、T-Wで表される3つのビューに分解し、
3つのビューの出力特徴を、それぞれxhw、xtw、xthで表し、よって、
Figure 2024502105000011

で、
Figure 2024502105000012

で、
Figure 2024502105000013

であり、
式中、xが(t×h×w)×cの入力データであり、t×h×wが入力特徴図のサイズであり、cが入力特徴図のチャネル数であり、
Figure 2024502105000014

が3次元畳み込みを表し、wが畳み込みフィルターカーネルを表す。
そして、3組の入力データを加重合計して協調時空間畳み込み層の出力yを得て、
Figure 2024502105000015

であり、
式中、[ahw,atw,ath]がサイズc×3の係数であり、且つ[ahw,atw,ath]がsoftmaxを使用して正規化され、cが出力のチャネル数であり、数字3が3つのビューを表す。
協調時空間畳み込み層は、入力データの3つの直交するビューを畳み込み、空間的外観と時間的動き情報をそれぞれ学習し、異なるビューの畳み込みカーネルを共有することで、空間的及び時間的特徴を協調的に学習する。
[ahw,atw,ath]をsoftmaxで正規化することによって、応答の桁違いの爆発を防ぐことができる。
さらに、本発明の一実施形態は、メモリ及びプロセッサを備え、前記メモリには前記プロセッサによって実行可能なコンピュータプログラムが記憶されている電子機器であって、前記プロセッサが前記プログラムを実行すると、上述の深層学習に基づくカプセル内視鏡画像認識方法のステップが実現される、電子機器を提供する。
さらに、本発明の一実施形態は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されると、上述の深層学習に基づくカプセル内視鏡画像認識方法のステップが実現される、コンピュータ可読記憶媒体を提供する。
要約すると、本発明の深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体は、連続して撮影されたマルチフレーム画像を特定形式の画像シーケンスに形成した後、3D畳み込みニューラルネットワークモデルによってマルチフレーム画像をマルチチャネル認識し、さらに、各チャネルの認識確率を組み合わせて認識結果を出力し、画像認識精度を向上させる。
説明の便宜上、上記装置は、機能ごとに様々なモジュールに分割されて説明されているが、当然ながら、本発明を実施する際に、各モジュールの機能は同一又は複数のソフトウェア及び/又はハードウェアで実現されてもよい。
上述した装置の実施形態は例示的なものに過ぎず、ここで分離部材として説明した前記モジュールは物理的に分離されたものであってもなくてもよく、モジュールとして示した部材は物理モジュールであってもなくてもよく、即ち一箇所に位置してもよく、又は複数のネットワークモジュールに分布してもよい。実際の必要に応じてその一部又は全てのモジュールを選択して本実施形態の解決手段の目的を実現することができる。当業者であれば、創造的な労力を要することなく理解及び実施することができる。
理解すべきものとして、本明細書では実施形態ごとに説明しているが、各実施形態は1つの独立した技術的解決手段のみを含むわけではなく、明細書のこのような説明方式は、明確にするためのものに過ぎず、当業者は明細書を1つの全体とすべきであり、各実施形態における技術的解決手段は、適宜組み合わせられて、当業者に理解できる他の実施形態を形成することができる。
上記の一連の詳細な説明は、本発明の可能な実施形態に対する具体的な説明に過ぎず、本発明の保護範囲を限定するためのものではなく、本発明の技術的精神から逸脱しない同等の実施形態又は変更は全て本発明の保護範囲に含まれるものとする。

Claims (10)

  1. カプセル内視鏡によってN枚の原画像を時間生成順に収集するステップと、
    スライディングウィンドウ分割法を使用して、前記N枚の原画像を同じ大きさのM組の原画像シーケンスに分割するステップと、
    前記N枚の原画像を解析し、又はM組のRGB画像シーケンスを解析してM組のオプティカルフロー画像シーケンスを形成するステップであって、各前記RGB画像シーケンスは、RGB形式の画像データで構成され、各前記オプティカルフロー画像シーケンスは、隣接するRGB画像のオプティカルフローフィールドを計算して形成された画像データで構成されるステップと、
    前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップであって、前記認識結果は、所定パラメータの発生確率値であり、前記3D畳み込みニューラルネットワークモデルは、RGB分岐及びオプティカルフロー分岐を含むステップと、を含み、
    前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップは、
    前記RGB画像シーケンスを前記RGB分岐に入力して計算し、第1分類確率を出力するステップと、
    前記オプティカルフロー画像シーケンスを前記オプティカルフロー分岐に入力して計算し、第2分類確率を出力するステップと、
    下記式に示すように、前記第1分類確率と前記第2分類確率を融合し、前記認識結果を形成するステップと、を含み、
    p=w*p1+w*p2、
    式中、pは前記認識結果、p1は前記第1分類確率、p2は前記第2分類確率、w=T1/(T1+T2)、w=T2/(T1+T2)であり、
    また、T1,T2は、それぞれ、前記3D畳み込みニューラルネットワークモデルを構築する過程での、前記RGB分岐と前記オプティカルフロー分岐のそれぞれにおける検証セットの認識精度を表すことを特徴とする、深層学習に基づくカプセル内視鏡画像認識方法。
  2. 前記スライディングウィンドウ分割法を使用して、前記N枚の原画像を同じ大きさのM組の原画像シーケンスに分割するステップは、
    時間生成順にN枚の原画像に、順に1、2、……Nと番号を付けるステップと、
    N枚の画像を、所定のウィンドウサイズK、所定のスライディングステップSを用いてM組の原画像シーケンスに順に分割し、
    Figure 2024502105000016

    であるステップと、を含むことを特徴とする、請求項1に記載の深層学習に基づくカプセル内視鏡画像認識方法。
  3. 前記所定のウィンドウサイズKの値範囲は、2≦K≦1000であり、前記所定のスライディングステップSの値範囲は、1≦S<Kであることを特徴とする、請求項2に記載の深層学習に基づくカプセル内視鏡画像認識方法。
  4. 前記3D畳み込みニューラルネットワークモデルのトレーニング方式は、
    事前にトレーニングされた2D認識モデルにおけるサイズN*Nの2D畳み込みカーネルパラメータをN回コピーするステップであって、前記2D認識モデルは、病巣ラベル付きの画像によってトレーニングされて得られ、その入力は単一フレーム画像であり、且つ単一フレーム画像のみを認識できるステップと、
    コピーされた各カーネルパラメータをそれぞれNで割って、各位置のカーネルパラメータを元の1/3にするステップと、
    新しいカーネルパラメータを再組み合わせしてサイズN*N*Nの畳み込みカーネルパラメータを形成し、前記3D畳み込みニューラルネットワークモデル内の3D畳み込みカーネルの初期化パラメータを構成するステップと、
    パラメータ初期化後の前記3D畳み込みニューラルネットワークモデルを、確率的勾配降下法によってトレーニングし、反復停止条件が満たされるまでモデルのパラメータを反復更新し、前記認識結果を出力するための前記3D畳み込みニューラルネットワークモデルを形成するステップと、を含むことを特徴とする、請求項1に記載の深層学習に基づくカプセル内視鏡画像認識方法。
  5. 前記3D畳み込みニューラルネットワークモデルは、処理フローのシーケンスの配列において、
    7*7*7の3D畳み込み層、3*3*3の3Dプーリング層、少なくとも1つの協調時空間特徴構造、3Dプーリング層、完全接続層を含むことを特徴とする、請求項1に記載の深層学習に基づくカプセル内視鏡画像認識方法。
  6. 前記協調時空間特徴構造の数がP個で、P∈(4,16)であり、
    前記協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、第1協調時空間畳み込み層、第1正規化層、活性化層、並びに第1協調時空間畳み込み層、第1正規化層、及び活性化層と並行して実行される、前記協調時空間特徴構造の入力から出力への高速接続を含むことを特徴とする、請求項5に記載の深層学習に基づくカプセル内視鏡画像認識方法。
  7. 前記協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、活性化層の後にある第2協調時空間畳み込み層、第2正規化層をさらに含むことを特徴とする、請求項6に記載の深層学習に基づくカプセル内視鏡画像認識方法。
  8. 前記第1協調時空間畳み込み層によるデータ処理のフローは、
    その入口入力特徴図を、それぞれH-W、T-H、T-Wで表される3つのビューに分解し、
    3つのビューの出力特徴を、それぞれxhw、xtw、xthで表し、よって、
    Figure 2024502105000017

    で、
    Figure 2024502105000018

    で、
    Figure 2024502105000019

    であり、
    式中、xが(t×h×w)×cの入力データであり、t×h×wが入力特徴図のサイズであり、cが入力特徴図のチャネル数であり、
    Figure 2024502105000020

    が3次元畳み込みを表し、wが畳み込みフィルターカーネルを表すステップと、
    3組の入力データを加重合計して第1協調時空間畳み込み層の出力yを得て、
    Figure 2024502105000021

    であり、
    式中、[ahw,atw,ath]がサイズc×3の係数であり、且つ[ahw,atw,ath]がsoftmaxを使用して正規化され、cが出力のチャネル数であり、数字3が3つのビューを表すステップと、を含むことを特徴とする、請求項6に記載の深層学習に基づくカプセル内視鏡画像認識方法。
  9. メモリ及びプロセッサを備え、前記メモリには前記プロセッサによって実行可能なコンピュータプログラムが記憶されている電子機器であって、前記プロセッサが前記プログラムを実行すると、深層学習に基づくカプセル内視鏡画像認識方法のステップが実現され、前記方法は、
    カプセル内視鏡によってN枚の原画像を時間生成順に収集するステップと、
    スライディングウィンドウ分割法を使用して、前記N枚の原画像を同じ大きさのM組の原画像シーケンスに分割するステップと、
    前記N枚の原画像を解析し、又はM組のRGB画像シーケンスを解析してM組のオプティカルフロー画像シーケンスを形成するステップであって、各前記RGB画像シーケンスは、RGB形式の画像データで構成され、各前記オプティカルフロー画像シーケンスは、隣接するRGB画像のオプティカルフローフィールドを計算して形成された画像データで構成されるステップと、
    前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップであって、前記認識結果は、所定パラメータの発生確率値であり、前記3D畳み込みニューラルネットワークモデルは、RGB分岐及びオプティカルフロー分岐を含むステップと、を含み、
    前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップは、
    前記RGB画像シーケンスを前記RGB分岐に入力して計算し、第1分類確率を出力するステップと、
    前記オプティカルフロー画像シーケンスを前記オプティカルフロー分岐に入力して計算し、第2分類確率を出力するステップと、
    下記式に示すように、前記第1分類確率と前記第2分類確率を融合し、前記認識結果pを形成するステップと、を含み、
    p=w*p1+w*p2、
    式中、pは前記認識結果、p1は前記第1分類確率、p2は前記第2分類確率、w=T1/(T1+T2)、w=T2/(T1+T2)であり、
    また、T1,T2は、それぞれ、前記3D畳み込みニューラルネットワークモデルを構築する過程での、前記RGB分岐と前記オプティカルフロー分岐のそれぞれにおける検証セットの認識精度を表すことを特徴とする、電子機器。
  10. コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されると、深層学習に基づくカプセル内視鏡画像認識方法のステップが実現され、前記方法は、
    カプセル内視鏡によってN枚の原画像を時間生成順に収集するステップと、
    スライディングウィンドウ分割法を使用して、前記N枚の原画像を同じ大きさのM組の原画像シーケンスに分割するステップと、
    前記N枚の原画像を解析し、又はM組のRGB画像シーケンスを解析してM組のオプティカルフロー画像シーケンスを形成するステップであって、各前記RGB画像シーケンスは、RGB形式の画像データで構成され、各前記オプティカルフロー画像シーケンスは、隣接するRGB画像のオプティカルフローフィールドを計算して形成された画像データで構成されるステップと、
    前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップであって、前記認識結果は、所定パラメータの発生確率値であり、前記3D畳み込みニューラルネットワークモデルは、RGB分岐及びオプティカルフロー分岐を含むステップと、を含み、
    前記RGB画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ3D畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップは、
    RGB画像シーケンスをRGB分岐に入力して計算し、第1分類確率を出力するステップと、
    オプティカルフロー画像シーケンスをオプティカルフロー分岐に入力して計算し、第2分類確率を出力するステップと、
    下記式に示すように、前記第1分類確率と前記第2分類確率を融合し、前記認識結果を形成するステップと、を含み、
    p=w*p1+w*p2、
    式中、pは前記認識結果、p1は前記第1分類確率、p2は前記第2分類確率、w=T1/(T1+T2)、w=T2/(T1+T2)であり、
    また、T1,T2は、それぞれ、前記3D畳み込みニューラルネットワークモデルを構築する過程での、前記RGB分岐と前記オプティカルフロー分岐のそれぞれにおける検証セットの認識精度を表すことを特徴とする、コンピュータ可読記憶媒体。
JP2023540947A 2021-01-06 2021-12-14 深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体 Active JP7507318B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110010379.4 2021-01-06
CN202110010379.4A CN112348125B (zh) 2021-01-06 2021-01-06 基于深度学习的胶囊内窥镜影像识别方法、设备及介质
PCT/CN2021/137938 WO2022148216A1 (zh) 2021-01-06 2021-12-14 基于深度学习的胶囊内窥镜影像识别方法、设备及介质

Publications (2)

Publication Number Publication Date
JP2024502105A true JP2024502105A (ja) 2024-01-17
JP7507318B2 JP7507318B2 (ja) 2024-06-27

Family

ID=74427399

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023540947A Active JP7507318B2 (ja) 2021-01-06 2021-12-14 深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体

Country Status (6)

Country Link
US (1) US20240070858A1 (ja)
EP (1) EP4276684A4 (ja)
JP (1) JP7507318B2 (ja)
KR (1) KR20230113386A (ja)
CN (1) CN112348125B (ja)
WO (1) WO2022148216A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348125B (zh) * 2021-01-06 2021-04-02 安翰科技(武汉)股份有限公司 基于深度学习的胶囊内窥镜影像识别方法、设备及介质
CN113159238B (zh) * 2021-06-23 2021-10-26 安翰科技(武汉)股份有限公司 内窥镜影像识别方法、电子设备及存储介质
CN113591961A (zh) * 2021-07-22 2021-11-02 深圳市永吉星光电有限公司 一种基于神经网络的微创医用摄像头图像识别方法
CN113591761B (zh) * 2021-08-09 2023-06-06 成都华栖云科技有限公司 一种视频镜头语言识别方法
CN113487605B (zh) * 2021-09-03 2021-11-19 北京字节跳动网络技术有限公司 用于内窥镜的组织腔体定位方法、装置、介质及设备
CN116309604B (zh) * 2023-05-24 2023-08-22 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) 动态分析时序mr图像的方法、系统、设备和存储介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5191240B2 (ja) * 2008-01-09 2013-05-08 オリンパス株式会社 シーン変化検出装置およびシーン変化検出プログラム
JP5281826B2 (ja) 2008-06-05 2013-09-04 オリンパス株式会社 画像処理装置、画像処理プログラムおよび画像処理方法
CN103984957A (zh) 2014-05-04 2014-08-13 中国科学院深圳先进技术研究院 胶囊内窥镜图像可疑病变区域自动预警系统
WO2017042812A2 (en) * 2015-09-10 2017-03-16 Magentiq Eye Ltd. A system and method for detection of suspicious tissue regions in an endoscopic procedure
US10572996B2 (en) * 2016-06-28 2020-02-25 Contextvision Ab Method and system for detecting pathological anomalies in a digital pathology image and method for annotating a tissue slide
CN109740670B (zh) * 2019-01-02 2022-01-11 京东方科技集团股份有限公司 视频分类的方法及装置
CN109934276B (zh) * 2019-03-05 2020-11-17 安翰科技(武汉)股份有限公司 基于迁移学习的胶囊内窥镜图像分类系统及方法
CN109886358B (zh) * 2019-03-21 2022-03-08 上海理工大学 基于多时空信息融合卷积神经网络的人体行为识别方法
CN110222574B (zh) * 2019-05-07 2021-06-29 杭州智尚云科信息技术有限公司 基于结构化双流卷积神经网络的生产操作行为识别方法、装置、设备、系统及存储介质
CN110705463A (zh) * 2019-09-29 2020-01-17 山东大学 基于多模态双流3d网络的视频人体行为识别方法及系统
CN111383214B (zh) * 2020-03-10 2021-02-19 长沙慧维智能医疗科技有限公司 实时内窥镜肠镜息肉检测系统
CN111462082A (zh) 2020-03-31 2020-07-28 重庆金山医疗技术研究院有限公司 一种病灶图片识别装置、方法、设备及可读存储介质
CN111950444A (zh) * 2020-08-10 2020-11-17 北京师范大学珠海分校 一种基于时空特征融合深度学习网络的视频行为识别方法
CN112348125B (zh) * 2021-01-06 2021-04-02 安翰科技(武汉)股份有限公司 基于深度学习的胶囊内窥镜影像识别方法、设备及介质

Also Published As

Publication number Publication date
EP4276684A4 (en) 2024-05-29
JP7507318B2 (ja) 2024-06-27
EP4276684A1 (en) 2023-11-15
CN112348125B (zh) 2021-04-02
KR20230113386A (ko) 2023-07-28
WO2022148216A1 (zh) 2022-07-14
CN112348125A (zh) 2021-02-09
US20240070858A1 (en) 2024-02-29

Similar Documents

Publication Publication Date Title
JP7507318B2 (ja) 深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体
CN110378381B (zh) 物体检测方法、装置和计算机存储介质
CN109522874B (zh) 人体动作识别方法、装置、终端设备及存储介质
CN112308200B (zh) 神经网络的搜索方法及装置
Rahim et al. A deep convolutional neural network for the detection of polyps in colonoscopy images
CN112236779A (zh) 基于卷积神经网络的图像处理方法和图像处理装置
CN113256529B (zh) 图像处理方法、装置、计算机设备及存储介质
JP2023533907A (ja) 自己注意ベースのニューラルネットワークを使用した画像処理
CN112507920B (zh) 一种基于时间位移和注意力机制的考试异常行为识别方法
CN111091536A (zh) 医学图像处理方法、装置、设备、介质以及内窥镜
CN112232134A (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
Atto et al. Timed-image based deep learning for action recognition in video sequences
CN111667459A (zh) 一种基于3d可变卷积和时序特征融合的医学征象检测方法、系统、终端及存储介质
CN108509830B (zh) 一种视频数据处理方法及设备
CN115115724A (zh) 图像处理方法、装置、计算机设备及存储介质
CN116935044B (zh) 一种多尺度引导和多层次监督的内镜息肉分割方法
CN113313133A (zh) 一种生成对抗网络的训练方法、动画图像生成方法
US20220180548A1 (en) Method and apparatus with object pose estimation
CN115861490A (zh) 一种基于注意力机制的图像动画构建方法和系统
CN115937963A (zh) 一种基于步态识别的行人识别方法
CN114022458A (zh) 骨架检测方法、装置、电子设备和计算机可读存储介质
Dabhi et al. High fidelity 3d reconstructions with limited physical views
CN113724184A (zh) 脑出血预后预测方法、装置、电子设备及存储介质
Zhang et al. Semantic feature attention network for liver tumor segmentation in large-scale CT database
CN109961083A (zh) 用于将卷积神经网络应用于图像的方法和图像处理实体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230821

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240617