JP2024502105A

JP2024502105A - 深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体

Info

Publication number: JP2024502105A
Application number: JP2023540947A
Authority: JP
Inventors: ハンジャン; ハオジャン; ウェンジンユェン; チュウカンジャン; ホイリウ; ジーウェンホァン
Original assignee: Ankon Technologies Co Ltd
Current assignee: Ankon Technologies Co Ltd
Priority date: 2021-01-06
Filing date: 2021-12-14
Publication date: 2024-01-17
Anticipated expiration: 2041-12-14
Also published as: CN112348125B; EP4276684A4; KR20230113386A; JP7507318B2; CN112348125A; US20240070858A1; WO2022148216A1; EP4276684A1

Abstract

本発明は、深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体を提供し、連続して撮影されたマルチフレーム画像を特定形式の画像シーケンスに形成した後、３Ｄ畳み込みニューラルネットワークモデルによってマルチフレーム画像をマルチチャネル認識し、さらに、各チャネルの認識確率を組み合わせて認識結果を出力し、画像認識精度を向上させる。【選択図】図１

Description

（関連出願の相互参照）
本出願は、出願日２０２１年１月６日、出願番号２０２１１００１０３７９．４、発明の名称「深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体」の中国特許出願の優先権を主張し、その全ては引用によって本出願に組み込まれる。

本発明は、医療機器イメージングの分野に関し、特に、深層学習に基づくカプセル内視鏡画像認識方法、電子機器及び可読記憶媒体に関する。

カプセル内視鏡は、カメラや無線伝送アンテナ等のコアデバイスを統合し、体内の消化管内で画像を収集して体外に同期して伝送することで、得られた画像データに基づいて医療検査を行う医療機器である。カプセル内視鏡は検出過程で数万枚の画像が収集され、画像データの量が多いため、フィルムの読み取り作業が困難で時間がかかる。技術の発展に伴い、画像処理及びコンピュータビジョン技術を活用した病巣認識が広く注目されるようになった。

従来技術において、公開番号ＣＮ１０３９８４９５７Ａの中国特許出願には、カプセル内視鏡画像の疑わしい病変領域の自動早期警告システムが開示されており、該システムは、画像強調モジュールを用いて画像を適応的に強調させてから、テクスチャ特徴抽出モジュールによって平坦病変のテクスチャ特徴を検出し、最後に分類早期警告モジュールを用いて分類し、小腸の平坦病変に対する検出及び早期警告機能を実現した。

公開番号ＣＮ１１１４６２０８２Ａの中国特許出願には、トレーニングされた２Ｄターゲット深層学習モデルを用いて単一画像に対して病巣認識を行う病巣画像認識装置、方法、機器及び可読記憶媒体が開示されている。

従来技術に記載された解決手段は、いずれも単一画像を認識するものであり、認識過程では、単一画像に撮影された情報のみが利用可能であり、前後に撮影された画像情報を総合的に利用することができない。このように、単一の角度から撮影された画像は、病巣の全体的な状況を直観的に反映することができず、特に、特定の角度から撮影された消化管のひだ、胃壁等の画像は、ポリープや隆起等の病変と混同されやすい。また、従来技術では、撮影内容の空間情報と時間情報を同時に取得することができず、病巣認識の正確率が低い。

上記技術的課題を解決するために、本発明の目的は、深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体を提供することである。

上記の発明の目的の１つを実現するために、本発明の一実施形態は、
カプセル内視鏡によってＮ枚の原画像を時間生成順に収集するステップと、
スライディングウィンドウ分割法を使用して、前記Ｎ枚の原画像を同じ大きさのＭ組の原画像シーケンスに分割するステップと、
前記Ｎ枚の原画像を解析し、又はＭ組のＲＧＢ画像シーケンスを解析してＭ組のオプティカルフロー画像シーケンスを形成するステップであって、各前記ＲＧＢ画像シーケンスは、ＲＧＢ形式の画像データで構成され、各前記オプティカルフロー画像シーケンスは、隣接するＲＧＢ画像のオプティカルフローフィールドを計算して形成された画像データで構成されるステップと、
前記ＲＧＢ画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ３Ｄ畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップであって、前記認識結果は、所定パラメータの発生確率値であり、前記３Ｄ畳み込みニューラルネットワークモデルは、ＲＧＢ分岐及びオプティカルフロー分岐を含むステップと、を含み、
前記ＲＧＢ画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ３Ｄ畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップは、
前記ＲＧＢ画像シーケンスを前記ＲＧＢ分岐に入力して計算し、第１分類確率を出力するステップと、
前記オプティカルフロー画像シーケンスを前記オプティカルフロー分岐に入力して計算し、第２分類確率を出力するステップと、
下記式に示すように、前記第１分類確率と前記第２分類確率を融合し、前記認識結果を形成するステップと、を含み、
ｐ＝ｗ_１＊ｐ１＋ｗ_２＊ｐ２、
式中、ｐは前記認識結果、ｐ１は前記第１分類確率、ｐ２は前記第２分類確率、ｗ_１＝Ｔ１／（Ｔ１＋Ｔ２）、ｗ_２＝Ｔ２／（Ｔ１＋Ｔ２）であり、
また、Ｔ１，Ｔ２はそれぞれ、前記３Ｄ畳み込みニューラルネットワークモデルを構築する過程での、前記ＲＧＢ分岐と前記オプティカルフロー分岐のそれぞれにおける検証セットの認識精度を表す、深層学習に基づくカプセル内視鏡画像認識方法を提供する。

本発明の一実施形態のさらなる改善として、
前記スライディングウィンドウ分割法を使用して、前記Ｎ枚の原画像を同じ大きさのＭ組の原画像シーケンスに分割するステップは、
時間生成順にＮ枚の原画像に、順に１、２、……Ｎと番号を付けるステップと、
Ｎ枚の画像を、所定のウィンドウサイズＫ、所定のスライディングステップＳを用いてＭ組の原画像シーケンスに順に分割し、

であるステップとを含んでもよい。

本発明の一実施形態のさらなる改善として、
前記所定のウィンドウサイズＫの値範囲は、２≦Ｋ≦１０００であり、前記所定のスライディングステップＳの値範囲は、１≦Ｓ＜Ｋであってもよい。

本発明の一実施形態のさらなる改善として、
前記３Ｄ畳み込みニューラルネットワークモデルのトレーニング方式は、
事前にトレーニングされた２Ｄ認識モデルにおけるサイズＮ*Ｎの２Ｄ畳み込みカーネルパラメータをＮ回コピーするステップであって、前記２Ｄ認識モデルは病巣ラベル付きの画像によってトレーニングされて得られ、その入力は単一フレーム画像であり、且つ単一フレーム画像のみを認識できるステップと、
コピーされた各カーネルパラメータをそれぞれＮで割って、各位置のカーネルパラメータを元の１／３にするステップと、
新しいカーネルパラメータを再組み合わせしてサイズＮ*Ｎ*Ｎの畳み込みカーネルパラメータを形成し、前記３Ｄ畳み込みニューラルネットワークモデル内の３Ｄ畳み込みカーネルの初期化パラメータを構成するステップと、
パラメータ初期化後の前記３Ｄ畳み込みニューラルネットワークモデルを、確率的勾配降下法によってトレーニングし、反復停止条件が満たされるまでモデルのパラメータを反復更新し、前記認識結果を出力するための前記３Ｄ畳み込みニューラルネットワークモデルを形成するステップと、を含んでもよい。

本発明の一実施形態のさらなる改善として、
前記３Ｄ畳み込みニューラルネットワークモデルは、処理フローのシーケンスの配列において、
７＊７＊７の３Ｄ畳み込み層、３＊３＊３の３Ｄプーリング層、少なくとも１つの協調時空間特徴構造、３Ｄプーリング層、完全接続層を含んでもよい。

本発明の一実施形態のさらなる改善として、
前記協調時空間特徴構造の数がＰ個で、Ｐ∈（４，１６）であり、
前記協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、第１協調時空間畳み込み層、第１正規化層、活性化層、並びに第１協調時空間畳み込み層、第１正規化層、及び活性化層と並行して実行される、前記協調時空間特徴構造の入力から出力への高速接続を含んでもよい。

本発明の一実施形態のさらなる改善として、
前記協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、活性化層の後にある第２協調時空間畳み込み層、第２正規化層をさらに含んでもよい。

本発明の一実施形態のさらなる改善として、
前記第１協調時空間畳み込み層によるデータ処理のフローは、
その入口入力特徴図を、それぞれＨ－Ｗ、Ｔ－Ｈ、Ｔ－Ｗで表される３つのビューに分解し、
３つのビューの出力特徴を、それぞれｘ_ｈｗ、ｘ_ｔｗ、ｘ_ｔｈで表し、よって、

で、

であり、
式中、ｘが（ｔ×ｈ×ｗ）×ｃ_１の入力データであり、ｔ×ｈ×ｗが入力特徴図のサイズであり、ｃ_１が入力特徴図のチャネル数であり、

が３次元畳み込みを表し、ｗが畳み込みフィルターカーネルを表すステップと、
３組の入力データを加重合計して第１協調時空間畳み込み層の出力ｙを得て、

であり、
式中、［ａ_ｈｗ，ａ_ｔｗ，ａ_ｔｈ］がサイズｃ_２×３の係数であり、且つ［ａ_ｈｗ，ａ_ｔｗ，ａ_ｔｈ］がｓｏｆｔｍａｘを使用して正規化され、ｃ_２が出力のチャネル数であり、数字３が３つのビューを表すステップと、を含んでもよい。

上記の発明の目的の１つを解決するために、本発明の一実施形態は、メモリ及びプロセッサを備え、前記メモリには前記プロセッサによって実行可能なコンピュータプログラムが記憶されている電子機器であって、前記プロセッサが前記プログラムを実行すると、上述の深層学習に基づくカプセル内視鏡画像認識方法のステップが実現される、電子機器を提供する。

上記の発明の目的の１つを解決するために、本発明の一実施形態は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されると、上述の深層学習に基づくカプセル内視鏡画像認識方法のステップが実現される、コンピュータ可読記憶媒体を提供する。

従来技術と比較して、本発明の有益な効果は次の通りである。本発明の深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体は、連続して撮影されたマルチフレーム画像を特定形式の画像シーケンスに形成した後、３Ｄ畳み込みニューラルネットワークモデルによってマルチフレーム画像をマルチチャネル認識し、さらに、各チャネルの認識確率を組み合わせて認識結果を出力し、画像認識精度を向上させる。

本発明の第１実施形態による深層学習に基づくカプセル内視鏡画像認識方法の手順模式図である。本発明の具体的な一例で提供されるスライディングウィンドウ分割の模式図である。本発明の具体的な一例で提供される、トレーニングされた２Ｄ認識モデルの畳み込みカーネルパラメータを使用して３Ｄ畳み込みニューラルネットワークモデルの畳み込みカーネル初期化パラメータを生成する模式図である。本発明で提供される３Ｄ畳み込みニューラルネットワークモデルの構造模式図である。本発明で提供される協調時空間特徴構造の構造模式図である。本発明の具体例における協調時空間畳み込み層によるデータ処理の手順模式図である。

以下において、図面に示される具体的な実施形態を参照しながら本発明を詳細に説明するが、これらの実施形態は本発明を限定するものではなく、当業者がこれらの実施形態に基づいて行う構造的、方法的、又は機能的な変換も全て本発明の保護範囲内に含まれる。

図１に示すように、本発明の第１実施形態は、深層学習に基づくカプセル内視鏡画像認識方法を提供し、この方法は、下記のステップＳ１～Ｓ３を含む。

ステップＳ１で、カプセル内視鏡によってＮ枚の原画像を時間生成順に収集する。

ステップＳ２で、スライディングウィンドウ分割法を使用して、Ｎ枚の原画像を同じ大きさのＭ組の原画像シーケンスに分割し、
Ｎ枚の原画像を解析し、又はＭ組の原画像シーケンスを解析してＭ組のＲＧＢ画像シーケンスを形成し、及びＮ枚の原画像を解析し、又はＭ組のＲＧＢ画像シーケンスを解析してＭ組のオプティカルフロー画像シーケンスを形成する。
各ＲＧＢ画像シーケンスは、ＲＧＢ形式の画像データで構成され、各オプティカルフロー画像シーケンスは、隣接するＲＧＢ画像のオプティカルフローフィールドを計算して形成された画像データで構成される。

ステップＳ３で、ＲＧＢ画像シーケンスとオプティカルフロー画像シーケンスをそれぞれ３Ｄ畳み込みニューラルネットワークモデルに入力して認識結果を出力する。この認識結果は、所定パラメータの発生確率値である。

ステップＳ１について、カプセル内視鏡の動作中に、カプセル内視鏡に配置されたカメラによって画像が連続して撮影され、同期的又は非同期的に収集・記憶されて原画像が形成される。

ステップＳ２について、スライディングウィンドウ分割法を使用して、Ｎ枚の原画像を同じ大きさのＭ組の原画像シーケンスに分割するステップは、時間生成順にＮ枚の原画像に順に１、２、……Ｎと番号を付けるステップと、下記の式に示すように、Ｎ枚の画像を、所定のウィンドウサイズＫ、所定のスライディングステップＳを用いて、Ｍ組の原画像シーケンスに順に分割するステップと、を含む。

具体的には、分割された第１組の原画像シーケンスは、番号１、２、．．．、Ｋの原画像からなり、第２組の原画像シーケンスは、番号Ｓ＋１、Ｓ＋２、．．．、Ｓ＋Ｋの原画像からなり、順番に分割された後、最後の１組の原画像シーケンスは、番号Ｎ－Ｋ、Ｎ－Ｋ＋１、．．．、Ｎの原画像からなり、合計

で表される組の原画像シーケンスに分割される。
式中の記号

は、切り上げを表す。
好ましくは、Ｋの値範囲は、２≦Ｋ≦１０００であり、Ｓの値範囲は、１≦Ｓ＜Ｋである。

説明すべきことは、ＮがＫで割り切れない場合、数がＫでない原画像シーケンスが１組存在し、好ましくは、数がＫでない原画像シーケンスを第１組又は最後の組と設定する点である。一般に、計算の便宜上、計算のために選択される原画像の数Ｎは、Ｋで割り切れるものであり、ここではさらなる説明を省略する。

図２に示すように、本発明の具体的な一例において、原画像の総数をＮ＝１００００枚、スライディングウィンドウの大きさをＫ＝１０、スライディングステップをＳ＝５と設定すると、分割された第１組の原画像シーケンスは原画像１、２、．．．、１０からなり、第２組の原画像シーケンスは原画像６、７、．．．、１５からなり、このように、最後の１組の原画像シーケンスは、原画像９９９１、９９９２、．．．、１００００からなり、合計１９９９個の原画像シーケンスに分割される。

これに応じて、Ｎ枚の原画像を解析し、又はＭ組の原画像シーケンスを解析してＭ組のＲＧＢ画像シーケンスを形成し、各ＲＧＢ画像シーケンスはＲＧＢ形式の画像データで構成される。具体的には、原画像シーケンス内の各原画像をそれぞれＲＧＢ形式の画像に変換することで、各原画像シーケンスはそれぞれ、対応するＲＧＢ画像シーケンスを形成する。ここで説明すべきことは、まずＮ枚の原画像をＲＧＢ形式変換してから、原画像シーケンスの形成と同じスライディングウィンドウ分割法を用いてＭ組のＲＧＢ画像シーケンスを形成することもでき、上記２つの方法で形成されたＲＧＢ画像シーケンスは同じである点である。

また、原画像がＲＧＢ形式の画像であると、変換する必要はなく、原画像シーケンスは、ＲＧＢ画像シーケンスであるが、ここではさらなる説明を省略する。

これに応じて、Ｎ枚の原画像を解析し、又はＭ組のＲＧＢ画像シーケンスを解析してＭ組のオプティカルフロー画像を形成することは、ＲＧＢ画像シーケンス形成の過程と類似し、原画像を直接解析してオプティカルフロー画像を得てから、オプティカルフロー画像を、原画像シーケンスの形成と同じスライディングウィンドウ分割法でＭ組のオプティカルフロー画像シーケンスに形成してもよいし、又は原画像シーケンスを解析してオプティカルフロー画像シーケンスを直接形成してもよい。具体的には、原画像シーケンスを例とすると、まず原画像シーケンスをＲＧＢ画像シーケンスに変換し、その後、隣接するＲＧＢ画像のオプティカルフローフィールドを算出することでオプティカルフローフィールド画像データを得る。原画像が既知の場合に原画像に対応するＲＧＢ画像、オプティカルフロー画像を得ることはいずれも従来技術であるため、本明細書ではこれ以上説明しない。

ステップＳ３について、３Ｄ畳み込みニューラルネットワークモデルは、ＲＧＢ分岐及びオプティカルフロー分岐を含む。
ＲＧＢ画像シーケンスをＲＧＢ分岐に入力して計算し、第１分類確率ｐ１を出力し、
オプティカルフロー画像シーケンスをオプティカルフロー分岐に入力して計算し、第２分類確率ｐ２を出力し、
下記式に示すように、第１分類確率ｐ１と第２分類確率ｐ２を融合し、認識結果ｐを形成する。
ｐ＝ｗ_１×ｐ１＋ｗ_２×ｐ２。
式中、ｗ_１＝Ｔ１／（Ｔ１＋Ｔ２）で、ｗ_２＝Ｔ２／（Ｔ１＋Ｔ２）である。
また、Ｔ１，Ｔ２は、それぞれ、３Ｄ畳み込みニューラルネットワークモデルを構築する過程での、ＲＧＢ分岐とオプティカルフロー分岐のそれぞれにおける検証セットの認識精度を表す。

具体的には、認識精度は、認識に成功する確率である。

本発明の具体的な一例において、Ｔ１＝０．９で、Ｔ１＝０．８であると、ｗ_１＝０．９／（０．９＋０．８）＝０．５３であり、ｗ_２＝０．８／（０．９＋０．８）＝０．４７である。

具体的な応用では、示される認識結果は、現在の画像シーケンスに病巣が含まれる確率であり、病巣は、例えば、出血、潰瘍、ポリープ、糜爛等であり、認識結果ｐの値が高いほど、病巣が発生する確率が高いことを示す。

これに応じて、ＲＧＢ分岐は、局所的な時空間情報をモデル化し、撮影内容の外形輪郭をよく表現することができる。オプティカルフロー分岐は、隣接するフレーム画像の変化をモデル化し、カプセル内視鏡の動きによる撮影内容の動的変化過程をよく捉えることができ、グローバルな空間情報の復元に有利である。したがって、同一の画像シーケンスを変換して２種類のデータを形成し、構築された２つの分岐のそれぞれによって認識して出力し、さらに２つの分岐の結果を融合することで、認識効果を高めることができる。

本発明の具体的な実施形態において、ＲＧＢ分岐とオプティカルフロー分岐の構築方式は同じであり、本発明の以下の説明では、２種類の分岐を３Ｄ畳み込みニューラルネットワークモデルで総括して説明する。３Ｄ畳み込みニューラルネットワークモデルは、畳み込みカーネルを２次元から３次元に拡張することで、空間情報と時間情報を同時に符号化することができ、これにより、マルチフレーム画像に対して病巣認識を行い、連続して撮影された隣接する画像から得られた異なる角度の撮影情報を総合的に利用する。２Ｄ畳み込みニューラルネットワークモデルによる単一フレーム画像認識に対して、より多くの情報を利用することができるため、認識精度が高まる。

具体的には、３Ｄ畳み込みニューラルネットワークモデルのトレーニング方式は、次のステップＭ１～Ｍ３を含む。

ステップＭ１で、事前にトレーニングされた２Ｄ認識モデルにおけるサイズＮ×Ｎの２Ｄ畳み込みカーネルパラメータをＮ回コピーする。２Ｄ認識モデルは、病巣ラベル付きの画像によってトレーニングされて得られ、その入力は単一フレーム画像であり、且つ単一フレーム画像のみを認識できる。２Ｄ認識モデルの構築及び応用は、いずれも従来技術であり、例えば、背景技術ＣＮ１１１４６２０８２Ａの中国特許出願に開示されているようなものがあり、ここでは詳細な説明を省略する。

ステップＭ２で、コピーされた各カーネルパラメータをそれぞれＮで割って、各位置のカーネルパラメータを元の１／３にする。

ステップＭ３で、新しいカーネルパラメータを再組み合わせしてサイズＮ*Ｎ*Ｎの畳み込みカーネルパラメータを形成し、３Ｄ畳み込みニューラルネットワークモデル内の３Ｄ畳み込みカーネルの初期化パラメータを構成する。

具体的には、図３に示すように、２Ｄ認識モデルの３＊３の畳み込みカーネルを３回コピーして、次元拡張を行い、さらに、各次元のデータを個別に３で割って、３＊３＊３の３Ｄ畳み込みカーネルの初期化パラメータを形成する。

さらに、３Ｄ畳み込みニューラルネットワークモデルのトレーニング方式は、ステップＭ４をさらに含む。ステップＭ４で、パラメータ初期化後の３Ｄ畳み込みニューラルネットワークモデルを確率的勾配降下法によってトレーニングし、反復停止条件が満たされるまでモデルのパラメータを反復更新し、認識結果を出力するための３Ｄ畳み込みニューラルネットワークモデルを形成する。

好ましくは、図４に示すように、３Ｄ畳み込みニューラルネットワークモデルは、処理フローのシーケンスの配列において、７＊７＊７の３Ｄ畳み込み層、３＊３＊３の３Ｄプーリング層、少なくとも１つの協調時空間特徴構造、３Ｄプーリング層、完全接続層を含む。

協調時空間特徴構造の数がＰ個で、Ｐ∈（４，１６）であり、本発明の具体的な実施形態において、Ｐ＝８と設定する。

好ましくは、図５に示すように、協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、第１協調時空間畳み込み層、第１正規化層、活性化層、並びに第１協調時空間畳み込み層、第１正規化層、及び活性化層と並行して実行される、協調時空間特徴構造の入力から出力への高速接続を含む。

さらに、協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、活性化層の後にある第２協調時空間畳み込み層、第２正規化層をさらに含む。

好ましくは、図６に示すように、第１協調時空間畳み込み層と第２協調時空間畳み込み層は、処理フローが同じであり、ここでは、これらを協調時空間畳み込み層として説明する。具体的には、協調時空間畳み込み層によるデータ処理のフローは以下を含む。
その入口入力特徴図を、それぞれＨ－Ｗ、Ｔ－Ｈ、Ｔ－Ｗで表される３つのビューに分解し、
３つのビューの出力特徴を、それぞれｘ_ｈｗ、ｘ_ｔｗ、ｘ_ｔｈで表し、よって、

で、

が３次元畳み込みを表し、ｗが畳み込みフィルターカーネルを表す。
そして、３組の入力データを加重合計して協調時空間畳み込み層の出力ｙを得て、

であり、
式中、［ａ_ｈｗ，ａ_ｔｗ，ａ_ｔｈ］がサイズｃ_２×３の係数であり、且つ［ａ_ｈｗ，ａ_ｔｗ，ａ_ｔｈ］がｓｏｆｔｍａｘを使用して正規化され、ｃ_２が出力のチャネル数であり、数字３が３つのビューを表す。

協調時空間畳み込み層は、入力データの３つの直交するビューを畳み込み、空間的外観と時間的動き情報をそれぞれ学習し、異なるビューの畳み込みカーネルを共有することで、空間的及び時間的特徴を協調的に学習する。

［ａ_ｈｗ，ａ_ｔｗ，ａ_ｔｈ］をｓｏｆｔｍａｘで正規化することによって、応答の桁違いの爆発を防ぐことができる。

さらに、本発明の一実施形態は、メモリ及びプロセッサを備え、前記メモリには前記プロセッサによって実行可能なコンピュータプログラムが記憶されている電子機器であって、前記プロセッサが前記プログラムを実行すると、上述の深層学習に基づくカプセル内視鏡画像認識方法のステップが実現される、電子機器を提供する。

さらに、本発明の一実施形態は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されると、上述の深層学習に基づくカプセル内視鏡画像認識方法のステップが実現される、コンピュータ可読記憶媒体を提供する。

要約すると、本発明の深層学習に基づくカプセル内視鏡画像認識方法、機器及び媒体は、連続して撮影されたマルチフレーム画像を特定形式の画像シーケンスに形成した後、３Ｄ畳み込みニューラルネットワークモデルによってマルチフレーム画像をマルチチャネル認識し、さらに、各チャネルの認識確率を組み合わせて認識結果を出力し、画像認識精度を向上させる。

説明の便宜上、上記装置は、機能ごとに様々なモジュールに分割されて説明されているが、当然ながら、本発明を実施する際に、各モジュールの機能は同一又は複数のソフトウェア及び／又はハードウェアで実現されてもよい。

上述した装置の実施形態は例示的なものに過ぎず、ここで分離部材として説明した前記モジュールは物理的に分離されたものであってもなくてもよく、モジュールとして示した部材は物理モジュールであってもなくてもよく、即ち一箇所に位置してもよく、又は複数のネットワークモジュールに分布してもよい。実際の必要に応じてその一部又は全てのモジュールを選択して本実施形態の解決手段の目的を実現することができる。当業者であれば、創造的な労力を要することなく理解及び実施することができる。

理解すべきものとして、本明細書では実施形態ごとに説明しているが、各実施形態は１つの独立した技術的解決手段のみを含むわけではなく、明細書のこのような説明方式は、明確にするためのものに過ぎず、当業者は明細書を１つの全体とすべきであり、各実施形態における技術的解決手段は、適宜組み合わせられて、当業者に理解できる他の実施形態を形成することができる。

上記の一連の詳細な説明は、本発明の可能な実施形態に対する具体的な説明に過ぎず、本発明の保護範囲を限定するためのものではなく、本発明の技術的精神から逸脱しない同等の実施形態又は変更は全て本発明の保護範囲に含まれるものとする。

Claims

カプセル内視鏡によってＮ枚の原画像を時間生成順に収集するステップと、
スライディングウィンドウ分割法を使用して、前記Ｎ枚の原画像を同じ大きさのＭ組の原画像シーケンスに分割するステップと、
前記Ｎ枚の原画像を解析し、又はＭ組のＲＧＢ画像シーケンスを解析してＭ組のオプティカルフロー画像シーケンスを形成するステップであって、各前記ＲＧＢ画像シーケンスは、ＲＧＢ形式の画像データで構成され、各前記オプティカルフロー画像シーケンスは、隣接するＲＧＢ画像のオプティカルフローフィールドを計算して形成された画像データで構成されるステップと、
前記ＲＧＢ画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ３Ｄ畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップであって、前記認識結果は、所定パラメータの発生確率値であり、前記３Ｄ畳み込みニューラルネットワークモデルは、ＲＧＢ分岐及びオプティカルフロー分岐を含むステップと、を含み、
前記ＲＧＢ画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ３Ｄ畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップは、
前記ＲＧＢ画像シーケンスを前記ＲＧＢ分岐に入力して計算し、第１分類確率を出力するステップと、
前記オプティカルフロー画像シーケンスを前記オプティカルフロー分岐に入力して計算し、第２分類確率を出力するステップと、
下記式に示すように、前記第１分類確率と前記第２分類確率を融合し、前記認識結果を形成するステップと、を含み、
ｐ＝ｗ_１＊ｐ１＋ｗ_２＊ｐ２、
式中、ｐは前記認識結果、ｐ１は前記第１分類確率、ｐ２は前記第２分類確率、ｗ_１＝Ｔ１／（Ｔ１＋Ｔ２）、ｗ_２＝Ｔ２／（Ｔ１＋Ｔ２）であり、
また、Ｔ１，Ｔ２は、それぞれ、前記３Ｄ畳み込みニューラルネットワークモデルを構築する過程での、前記ＲＧＢ分岐と前記オプティカルフロー分岐のそれぞれにおける検証セットの認識精度を表すことを特徴とする、深層学習に基づくカプセル内視鏡画像認識方法。
前記スライディングウィンドウ分割法を使用して、前記Ｎ枚の原画像を同じ大きさのＭ組の原画像シーケンスに分割するステップは、
時間生成順にＮ枚の原画像に、順に１、２、……Ｎと番号を付けるステップと、
Ｎ枚の画像を、所定のウィンドウサイズＫ、所定のスライディングステップＳを用いてＭ組の原画像シーケンスに順に分割し、

であるステップと、を含むことを特徴とする、請求項１に記載の深層学習に基づくカプセル内視鏡画像認識方法。
前記所定のウィンドウサイズＫの値範囲は、２≦Ｋ≦１０００であり、前記所定のスライディングステップＳの値範囲は、１≦Ｓ＜Ｋであることを特徴とする、請求項２に記載の深層学習に基づくカプセル内視鏡画像認識方法。
前記３Ｄ畳み込みニューラルネットワークモデルのトレーニング方式は、
事前にトレーニングされた２Ｄ認識モデルにおけるサイズＮ*Ｎの２Ｄ畳み込みカーネルパラメータをＮ回コピーするステップであって、前記２Ｄ認識モデルは、病巣ラベル付きの画像によってトレーニングされて得られ、その入力は単一フレーム画像であり、且つ単一フレーム画像のみを認識できるステップと、
コピーされた各カーネルパラメータをそれぞれＮで割って、各位置のカーネルパラメータを元の１／３にするステップと、
新しいカーネルパラメータを再組み合わせしてサイズＮ*Ｎ*Ｎの畳み込みカーネルパラメータを形成し、前記３Ｄ畳み込みニューラルネットワークモデル内の３Ｄ畳み込みカーネルの初期化パラメータを構成するステップと、
パラメータ初期化後の前記３Ｄ畳み込みニューラルネットワークモデルを、確率的勾配降下法によってトレーニングし、反復停止条件が満たされるまでモデルのパラメータを反復更新し、前記認識結果を出力するための前記３Ｄ畳み込みニューラルネットワークモデルを形成するステップと、を含むことを特徴とする、請求項１に記載の深層学習に基づくカプセル内視鏡画像認識方法。
前記３Ｄ畳み込みニューラルネットワークモデルは、処理フローのシーケンスの配列において、
７＊７＊７の３Ｄ畳み込み層、３＊３＊３の３Ｄプーリング層、少なくとも１つの協調時空間特徴構造、３Ｄプーリング層、完全接続層を含むことを特徴とする、請求項１に記載の深層学習に基づくカプセル内視鏡画像認識方法。
前記協調時空間特徴構造の数がＰ個で、Ｐ∈（４，１６）であり、
前記協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、第１協調時空間畳み込み層、第１正規化層、活性化層、並びに第１協調時空間畳み込み層、第１正規化層、及び活性化層と並行して実行される、前記協調時空間特徴構造の入力から出力への高速接続を含むことを特徴とする、請求項５に記載の深層学習に基づくカプセル内視鏡画像認識方法。
前記協調時空間特徴構造は、入力から出力までの処理フローのシーケンスの配列において、活性化層の後にある第２協調時空間畳み込み層、第２正規化層をさらに含むことを特徴とする、請求項６に記載の深層学習に基づくカプセル内視鏡画像認識方法。
前記第１協調時空間畳み込み層によるデータ処理のフローは、
その入口入力特徴図を、それぞれＨ－Ｗ、Ｔ－Ｈ、Ｔ－Ｗで表される３つのビューに分解し、
３つのビューの出力特徴を、それぞれｘ_ｈｗ、ｘ_ｔｗ、ｘ_ｔｈで表し、よって、

で、

で、

であり、
式中、ｘが（ｔ×ｈ×ｗ）×ｃ_１の入力データであり、ｔ×ｈ×ｗが入力特徴図のサイズであり、ｃ_１が入力特徴図のチャネル数であり、

が３次元畳み込みを表し、ｗが畳み込みフィルターカーネルを表すステップと、
３組の入力データを加重合計して第１協調時空間畳み込み層の出力ｙを得て、

であり、
式中、［ａ_ｈｗ，ａ_ｔｗ，ａ_ｔｈ］がサイズｃ_２×３の係数であり、且つ［ａ_ｈｗ，ａ_ｔｗ，ａ_ｔｈ］がｓｏｆｔｍａｘを使用して正規化され、ｃ_２が出力のチャネル数であり、数字３が３つのビューを表すステップと、を含むことを特徴とする、請求項６に記載の深層学習に基づくカプセル内視鏡画像認識方法。
メモリ及びプロセッサを備え、前記メモリには前記プロセッサによって実行可能なコンピュータプログラムが記憶されている電子機器であって、前記プロセッサが前記プログラムを実行すると、深層学習に基づくカプセル内視鏡画像認識方法のステップが実現され、前記方法は、
カプセル内視鏡によってＮ枚の原画像を時間生成順に収集するステップと、
スライディングウィンドウ分割法を使用して、前記Ｎ枚の原画像を同じ大きさのＭ組の原画像シーケンスに分割するステップと、
前記Ｎ枚の原画像を解析し、又はＭ組のＲＧＢ画像シーケンスを解析してＭ組のオプティカルフロー画像シーケンスを形成するステップであって、各前記ＲＧＢ画像シーケンスは、ＲＧＢ形式の画像データで構成され、各前記オプティカルフロー画像シーケンスは、隣接するＲＧＢ画像のオプティカルフローフィールドを計算して形成された画像データで構成されるステップと、
前記ＲＧＢ画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ３Ｄ畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップであって、前記認識結果は、所定パラメータの発生確率値であり、前記３Ｄ畳み込みニューラルネットワークモデルは、ＲＧＢ分岐及びオプティカルフロー分岐を含むステップと、を含み、
前記ＲＧＢ画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ３Ｄ畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップは、
前記ＲＧＢ画像シーケンスを前記ＲＧＢ分岐に入力して計算し、第１分類確率を出力するステップと、
前記オプティカルフロー画像シーケンスを前記オプティカルフロー分岐に入力して計算し、第２分類確率を出力するステップと、
下記式に示すように、前記第１分類確率と前記第２分類確率を融合し、前記認識結果ｐを形成するステップと、を含み、
ｐ＝ｗ_１＊ｐ１＋ｗ_２＊ｐ２、
式中、ｐは前記認識結果、ｐ１は前記第１分類確率、ｐ２は前記第２分類確率、ｗ_１＝Ｔ１／（Ｔ１＋Ｔ２）、ｗ_２＝Ｔ２／（Ｔ１＋Ｔ２）であり、
また、Ｔ１，Ｔ２は、それぞれ、前記３Ｄ畳み込みニューラルネットワークモデルを構築する過程での、前記ＲＧＢ分岐と前記オプティカルフロー分岐のそれぞれにおける検証セットの認識精度を表すことを特徴とする、電子機器。
コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されると、深層学習に基づくカプセル内視鏡画像認識方法のステップが実現され、前記方法は、
カプセル内視鏡によってＮ枚の原画像を時間生成順に収集するステップと、
スライディングウィンドウ分割法を使用して、前記Ｎ枚の原画像を同じ大きさのＭ組の原画像シーケンスに分割するステップと、
前記Ｎ枚の原画像を解析し、又はＭ組のＲＧＢ画像シーケンスを解析してＭ組のオプティカルフロー画像シーケンスを形成するステップであって、各前記ＲＧＢ画像シーケンスは、ＲＧＢ形式の画像データで構成され、各前記オプティカルフロー画像シーケンスは、隣接するＲＧＢ画像のオプティカルフローフィールドを計算して形成された画像データで構成されるステップと、
前記ＲＧＢ画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ３Ｄ畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップであって、前記認識結果は、所定パラメータの発生確率値であり、前記３Ｄ畳み込みニューラルネットワークモデルは、ＲＧＢ分岐及びオプティカルフロー分岐を含むステップと、を含み、
前記ＲＧＢ画像シーケンスと前記オプティカルフロー画像シーケンスをそれぞれ３Ｄ畳み込みニューラルネットワークモデルに入力して認識結果を出力するステップは、
ＲＧＢ画像シーケンスをＲＧＢ分岐に入力して計算し、第１分類確率を出力するステップと、
オプティカルフロー画像シーケンスをオプティカルフロー分岐に入力して計算し、第２分類確率を出力するステップと、
下記式に示すように、前記第１分類確率と前記第２分類確率を融合し、前記認識結果を形成するステップと、を含み、
ｐ＝ｗ_１＊ｐ１＋ｗ_２＊ｐ２、
式中、ｐは前記認識結果、ｐ１は前記第１分類確率、ｐ２は前記第２分類確率、ｗ_１＝Ｔ１／（Ｔ１＋Ｔ２）、ｗ_２＝Ｔ２／（Ｔ１＋Ｔ２）であり、
また、Ｔ１，Ｔ２は、それぞれ、前記３Ｄ畳み込みニューラルネットワークモデルを構築する過程での、前記ＲＧＢ分岐と前記オプティカルフロー分岐のそれぞれにおける検証セットの認識精度を表すことを特徴とする、コンピュータ可読記憶媒体。