JP7376720B2

JP7376720B2 - 画像データ検出方法及び装置並びにコンピュータ装置及びプログラム

Info

Publication number: JP7376720B2
Application number: JP2022535820A
Authority: JP
Inventors: ツァオ，シレイ; リィウ，ホアルオ; ジォン，イエフォン
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2020-04-30
Filing date: 2021-03-17
Publication date: 2023-11-08
Anticipated expiration: 2041-03-17
Also published as: EP4030382A1; US20220233160A1; CN111583220B; CN111583220A; WO2021218469A1; JP2023505899A; EP4030382A4

Description

本出願は、2020年04月30日に中国専利局に出願した、出願番号が2020103674410、発明の名称が「画像データ検出方法及び装置」である中国特許出願に基づく優先権を主張するものであり、その全内容を参照によりここに援用する。

本出願は、人工知能の技術分野に関し、特に、画像データ検出方法と装置、コンピュータ装置、記憶媒体、及び画像検出モデル訓練方法と装置、コンピュータ装置、記憶媒体に関する。

人工知能技術の研究及び進歩に伴い、人工知能技術は多くの分野、例えば、一般的なスマートホーム、スマート医療などで研究され、適用されている。技術の発展とともに、人工知能技術はより多くの分野で適用され、ますます重要な価値を果たすに間違いない。スマート医療を例にすると、コンピュータプログラムにより医療画像に対して検出を行うことで、検出効率を向上させることができる。

異なる種類の医療機器、異なる物理パラメータ、異なるスキャンプロトコルなどが原因で、画像データの解像度に大きな違いがあるため、ターゲット領域の違いも比較的大きい。このような違いは情報の非対称性とも呼ばれる。従来の方法では、通常、リサンプリングの方式で情報の非対称の問題を克服するが、演算速度が遅い。よって、如何に画像データの検出効率を効果的に向上させるかが現在解決する必要のある技術的な問題の１つである。

本出願の実施例は、少なくとも、画像データ検出方法と装置、コンピュータ装置、記憶媒体、及び画像検出モデル訓練方法と装置、コンピュータ装置、記憶媒体を提供することを課題とする。

コンピュータ装置が実行する画像データ検出方法が提供され、該方法は、
検出待ち画像を取得し、前記検出待ち画像はスライス画像（slice image）シーケンスを含み；
スライス画像シーケンスにおける各ターゲット画像について、対応するスライス画像組（グループ）を決定し、前記スライス画像組は、前記ターゲット画像と、前記スライス画像シーケンスにおいて前記ターゲット画像とのコンテキスト（文脈）関係を有する隣接画像とを含み；
前記スライス画像組における各スライス画像について、対応するスライス特徴マップをそれぞれ抽出し；
前記スライス画像組に対応して抽出されたスライス特徴マップに対してアライメント（位置合わせ）操作を行い；
アライメント後の特徴マップを用いて前記スライス画像組における各スライス画像のコンテキスト情報に対してアグリゲーションを行い；及び
アグリゲーション後の特徴マップに対してターゲット領域検出を行い、前記ターゲット画像に対応する検出結果を取得し、各ターゲット画像に対応する検出結果に対して合併を行い、前記検出待ち画像に対応する検出結果を生成することを含む。

画像データ検出装置が提供され、前記装置は、
スライス画像シーケンスを含む検出待ち画像を取得し、スライス画像シーケンスにおける各ターゲット画像について、対応するスライス画像組を決定するための第一取得モジュールであって、前記スライス画像組は前記ターゲット画像と、前記スライス画像シーケンスにおいて前記ターゲット画像とコンテキスト関係を有する隣接画像とを含む、第一取得モジュール；
前記スライス画像組における各スライス画像について、対応するスライス特徴マップをそれぞれ抽出するための特徴抽出モジュール；
前記スライス画像組に対応して抽出されたスライス特徴マップに対してアライメント操作を行うためのアライメントモジュール；
アライメント後の特徴マップを用いて前記スライス画像組における各スライス画像のコンテキスト情報に対してアグリゲーションを行うためのアグリゲーションモジュール；及び
アグリゲーション後の特徴マップに対してターゲット領域検出を行い、前記ターゲット画像に対応する検出結果を取得し、各ターゲット画像に対応する検出結果に対して合併を行い、前記検出待ち画像に対応する検出結果を生成するためのターゲット検出モジュール。

コンピュータ装置が提供され、それは記憶器及び処理器を含み、前記記憶器にはコンピュータ可読命令が記憶されており、前記コンピュータ可読命令は前記処理器により実行されるときに、前記処理器に、上述の画像データ検出方法のステップを実行させる。

コンピュータ可読命令を記憶している１つ又は複数の不揮発性記憶媒体が提供され、前記コンピュータ可読命令は１つ又は複数の処理器により実行されるときに、前記処理器に、上述の画像データ検出方法のステップを実行させる。

画像検出モデルの訓練方法が提供され、前記画像検出モデルは、バックボーンネットワーク、3次元アライメントネットワーク、3次元アグリゲーションネットワーク及びターゲット検出ネットワークを含み、前記方法は、
画像サンプルのスライスサンプル画像シーケンスにおける各ターゲットサンプル画像について、対応するスライスサンプル画像組を決定し、前記スライスサンプル画像組は前記ターゲットサンプル画像と、前記スライスサンプル画像シーケンスにおいて前記ターゲットサンプル画像とコンテキスト関係を有する隣接サンプル画像とを含み；
前記バックボーンネットワークにより、前記スライスサンプル画像組における各スライスサンプル画像について、対応するスライスサンプル特徴マップをそれぞれ抽出し；
前記3次元アライメントネットワークにより、前記スライスサンプル画像組に対応して抽出されたスライスサンプル特徴マップに対してアライメント操作を行い；
前記3次元アグリゲーションネットワークにより、アライメント後のサンプル特徴マップを用いて、前記スライスサンプル画像組における各スライスサンプル画像のコンテキスト情報に対してアグリゲーションを行い；及び
前記ターゲット検出ネットワークにより、アグリゲーション後のサンプル特徴マップに対してターゲット領域検出を行い、前記ターゲットサンプル画像に対応する検出結果を取得し、各ターゲットサンプル画像に対応する検出結果に対して合併を行い、前記画像サンプルに対応する検出結果を生成することを含む。

画像検出モデルの訓練装置が提供され、前記画像検出モデルはバックボーンネットワーク、3次元アライメントネットワーク、3次元アグリゲーションネットワーク及びターゲット検出ネットワークを含み、前記装置は、
画像サンプルのスライスサンプル画像シーケンスにおける各ターゲットサンプル画像について、対応するスライスサンプル画像組を決定するための第二取得モジュールであって、前記スライスサンプル画像組は前記ターゲットサンプル画像と、前記スライスサンプル画像シーケンスにおいて前記ターゲットサンプル画像とコンテキスト関係を有する隣接サンプル画像とを含む、第二取得モジュール；
前記バックボーンネットワークにより、前記スライスサンプル画像組における各スライスサンプル画像について、対応するスライスサンプル特徴マップをそれぞれ抽出するためのサンプル特徴抽出モジュール；
前記3次元アライメントネットワークにより、前記スライスサンプル画像組に対応して抽出されたスライスサンプル特徴マップに対してアライメント操作を行うためのサンプルアライメントモジュール；
前記3次元アグリゲーションネットワークにより、アライメント後のサンプル特徴マップを用いて前記スライスサンプル画像組における各スライスサンプル画像のコンテキスト情報に対してアグリゲーションを行うためのサンプルアグリゲーションモジュール；及び
前記ターゲット検出ネットワークにより、アグリゲーション後のサンプル特徴マップに対してターゲット領域検出を行い、前記ターゲットサンプル画像に対応する検出結果を取得し、各ターゲットサンプル画像に対応する検出結果に対して合併を行い、前記画像サンプルに対応する検出結果を生成するためのサンプルターゲット検出モジュールを含む。

コンピュータ装置が提供され、それは記憶器及び処理器を含み、前記記憶器にはコンピュータ可読命令が記憶されており、前記コンピュータ可読命令は前記処理器により実行されるときに、前記処理器に、上述の画像検出モデルの訓練方法におけるステップを実行させる。

コンピュータ可読命令を記憶している不揮発性記憶媒体が提供され、前記コンピュータ可読命令は１つ又は複数の処理器により実行されるときに、前記処理器に、上述の画像検出モデルの訓練方法におけるステップを実行させる。

なお、本出願の１つ又は複数の実施例の細部は以下の図面及び説明において提供される。本出願の他の特徴、目的及び利点は明細書、図面及び特許請求の範囲からより明らかになる。

本出願の実施例における技術案をより明確に説明するために、以下、実施例の説明に使用される必要のある図面について簡単に説明する。明らかのように、以下の説明における図面は本出願の幾つかの実施例に過ぎず、当業者は、創造性のある労働をせずに、これらの図面に基づいて他の図面を得ることもできる。
1つの実施例における画像データ検出方法の適用環境を示す図である。 1つの実施例における画像データ検出方法のフローを示す図である。 1つの実施例においてスライディングウィンドウによりスライス画像を得ることを示す図である。 1つの実施例における従来の3次元畳み込みニューラルネットワークによる肺の画像検出結果を示す図である。 1つの実施例における画像検出モデルによる肺の画像検出結果を示す図である。 1つの実施例における画像検出モデル訓練方法のフローを示す図である。 1つの実施例における画像検出モデルのネットワーク構成を示す図である。 1つの実施例においてアンカー無し検出器とアンカーに基づく検出器との比較を行うための検出結果を示す図である。 1つの実施例における画像データ検出装置の構成を示すブロック図である。 1つの実施例における画像検出モデル訓練装置の構成を示す図である。 1つの実施例におけるコンピュータ装置の内部構成を示す図である。

本出願の目的、技術案及び利点をより明確にするために、以下、添付した図面を参照しながら本出願をさらに詳しく説明する。なお、理解すべきは、ここで説明される具体的な実施例は本出願を説明するためのものに過ぎず、本出願を限定するものではないということである。

本出願により提供される画像データ検出方法は図1に示すような適用環境に応用することができる。そのうち、端末102はネットワークを介してサーバー104と通信を行う。そのうち、端末102は様々なパーソナルコンピュータ、ノートブックコンピュータ、スマートフォン、タブレットコンピュータ及びポータブルウェアラブルデバイスであっても良いが、これらに限定されず、サーバー104は独立した物理サーバーであって良く、複数の物理サーバーからなるサーバー群又は分散システムであっても良く、さらに、クラウドデータベース、クラウドストレージ、クラウド通信、ビッグデータ、人工知能プラットフォームなどの基本的なクラウドコンピューティングサービスを提供するクラウドサーバーにより実現されても良い。端末102は検出待ち画像を取得し、検出待ち画像を使用して検出タスクを生成し、検出タスクをサーバー104にアップロードする。サーバー104は画像検出モデルを呼び出して検出タスクを実行する。そのうち、サーバー104は検出待ち画像のスライス画像シーケンスのうちから各ターゲット画像に対応するスライス画像組を取得し、スライス画像組は前記ターゲット画像、及びスライス画像シーケンスにおいてターゲット画像とコンテキスト関係を有する隣接画像を含む。サーバー104は画像検出モデルによってスライス画像組における各スライス画像について対応するスライス特徴マップをそれぞれ抽出し、スライス画像組に対応して抽出されたスライス特徴マップに対してアライメント操作を行う。アライメント後の特徴マップを利用してスライス画像組における各スライス画像のコンテキスト情報に対してアグリゲーションを行い、アグリゲーション後の特徴マップに対してターゲット領域検出を行い、ターゲット画像に対応する検出結果を取得し、そして、各ターゲット画像に対応する検出結果に対して合併を行い、検出待ち画像に対応する検出結果を生成する。サーバー104は検出結果を端末102に返す（リターンする）。

1つの実施例において、図2に示すように、画像データ検出方法が提供され、該方法が図1に示すサーバーに適用されることを例として説明を行う。なお、該方法は端末に適用することもできる。本実施例において、該方法は以下のステップを含む。

ステップ202：検出待ち画像を取得し、検出待ち画像はスライス画像シーケンスを含む。

サーバーは上述の適用シナリオにおいて提供される方式で検出タスクを取得し、検出タスクに基づいて検出待ち画像を得ることができる。検出待ち画像は検出待ち部位に対して撮影した医療画像など、例えば、肺に対して撮影したCT画像などであっても良い。検出待ち画像は3次元画像であり、水平方向及び深度方向の情報を有する。水平方向はx方向、y方向を採用して表されても良く、深度方向はz方向を採用して標識することができる。各方向において、画素の間にはすべて対応する距離があり、該距離は対応する方向の間隔（方向間隔）と称されても良い。水平方向はスライス画像内の平面情報を反映することができ、深度方向はスライス画像の間の空間情報を反映することができる。検出待ち画像はスライス画像シーケンスを含み、スライス画像シーケンスは複数のスライス画像を含む。なお、ここで複数とは3つ又は3つ以上を指す。スライス画像は2次元画像である。スライス画像には検出待ち部位の現在の状況が反映される。

ステップ204：スライス画像シーケンスにおける各ターゲット画像について、対応するスライス画像組を決定し、スライス画像組はターゲット画像、及びスライス画像シーケンスにおいてターゲット画像とコンテキスト関係を有する隣接画像を含む。

サーバーは、図3に示すように、スライディングウィンドウにより、深度方向に沿ってスライス画像シーケンスのうちから所定数の隣接するスライス画像を1組の検出待ちスライス画像として順次取得する。スライディングウィンドウとは大きさ（サイズ）が固定したウィンドウを指し、固定ステップ長に従ってスライディングを行うことができる。固定ステップ長は隣接する2つのスライス画像の距離によって決定され得る。スライディングウィンドウが毎回取得するスライス画像の数は同じである。スライディングウィンドウは1組の検出待ちスライス画像を得た後に、固定ステップ長に従ってスライディングして次の1組の検出待ちスライス画像を取得し得る。そのうち、前（直前）の1組の検出待ちスライス画像と次の1組の検出待ちスライス画像の画像数は同じであり、次の1組の検出待ちスライス画像は、直前の1組の検出待ちスライス画像のうちの1枚目のスライス画像以外のすべてのスライス画像を含む。所定数は奇数であっても良い。例えば、所定数がTである場合、T=2M+1であり、そのうち、前のM枚のスライス画像及び後のM枚のスライス画像は中間スライス画像のコンテキストを構成する。中間スライス画像はターゲット画像と称され得る。ターゲット画像に対応する1組の検出待ちスライス画像はスライス画像組と称され得る。1つの実施例において、スライディングウィンドウは1組の検出待ちスライス画像を得た後に、ランダムなステップ長に従ってスライディングして次の1組の検出待ちスライス画像を取得しても良く、ランダムなステップ長も隣接する2つのスライス画像の距離に基づいて決定することができ、例えば、ランダムなステップ長は隣接する2つのスライス画像の距離のランダムな倍数であり得る。

ステップ206：スライス画像組における各スライス画像について、対応するスライス特徴マップをそれぞれ抽出する。

本実施例において、事前訓練の画像検出モデルによって検出タスクを実行することができる。そのうち、画像検出モデルは2次元バックボーンネットワーク、3次元アライメントネットワーク、3次元アグリゲーションネットワーク及びターゲット検出ネットワークを含む。2次元バックボーンネットワークはスライス画像の特徴を抽出するために用いられる。2次元バックボーンネットワークはResnet（deep residual network(深層残差ネットワーク)）及びFPN（feature pyramid networks（1種のマルチスケールターゲット検出アルゴリズムである））を含む。本実施例におけるResnetはオリジナルなResnetに比べて、1番目の畳み込み層の入力チャンネルが減少しており、かつ最後の全結合層が除去されている。そのうち、1番目の畳み込み層の入力チャンネルはオリジナルな3チャンネルから1チャンネルに変更されている。スライス画像がグレースケール画像であるため、1番目の畳み込み層のチャンネルを減少させることにより、直接、スライス画像をResnetの入力とすることができる。全結合層が一般的に分類タスクのために用いられ、本実施例においてResnetにより分類を行う必要がないので、オリジナルなResnetの最後の全結合層を除去した後に、Resnet及びFPNを組み合わせて2次元バックボーンネットワークを成すことができ、2次元バックボーンネットワークにおけるすべての畳み込みは2次元畳み込みである。

サーバーはスライス画像組における各スライス画像を2次元バックボーンネットワークに順次入力し、特徴抽出を行うことで、各スライス画像に対応するスライス特徴マップを得ることができる。例えば、スライス画像組におけるスライス画像の数がTである場合、T個の独立したスライス特徴マップを得ることができる。スライス特徴マップのサイズは2次元バックボーンネットワークのチャンネル数、所定幅及び所定高さに従って決定され得る。例えば、スライス特徴マップのサイズが（C,W,H）であり、そのうち、C、W、Hはそれぞれ2次元バックボーンネットワークのチャンネル数、スライスの所定幅及びスライスの所定高さを表す。スライス画像が単独で2次元バックボーンネットワークに出力され、スライス画像の間に情報のインタラクション（相互作用）が発生しないため、撮影部位の3次元構造情報を残すことができる。また、2次元バックボーンネットワークが採用する2次元畳み込みはスライス画像の特徴抽出を行うため、演算量（計算量）を効果的に低減し、画像検出効率を向上させることができる。

ステップ208：スライス画像組に対応して抽出されたスライス特徴マップに対してアライメント操作を行う。

サーバーはスライス画像組に対応して抽出されたスライス特徴マップを3次元アライメントネットワークに入力し、3次元アライメントネットワークによって、スライス画像組に対応して抽出された各スライス特徴マップに対してつなぎ合わせを行い、そして、スライス特徴マップの大きさ及びスライス特徴マップの数に基づいてつなぎ合わせ後の特徴マップの大きさ（サイズ）を決定する。例えば、スライス特徴マップの大きさが（C,W,H）であり、スライス画像組に対応して抽出されたスライス特徴マップの数がTである場合、つなぎ合わせ後の特徴マップの大きさは（C,T,W,H）である。

スライス特徴マップにおけるC、W、Hはそれぞれ、チャンネル次元、スライス幅次元、スライス高さ次元を表し、既存次元と呼ぶこともできる。つなぎ合わせ後の特徴マップでは、Tはスライス数次元を表しても良い。3次元アライメントネットワークはつなぎ合わせ後の特徴マップについて既存次元によりスライス画像の内部情報を学習し、スライス数次元によりスライス画像の間の空間情報を学習する。既存次元及びスライス数次元で正規化処理を行うことで、アライメント後の特徴マップを出力する。アライメント後の特徴マップの大きさはつなぎ合わせ後の特徴マップの大きさと同じである。そのうち、スライス幅次元及びスライス高さ次元はスライスサイズ次元又はスライス平面次元と総称することもでき、スライス数次元はスライス空間次元と称されても良い。

従来の方法では、スライス画像に対して検出を行うときに、スライス平面次元においてのみアライメントを行い、スライス空間次元のアライメントを考慮しないため、3次元構造上での情報の相互作用を欠き、スライス画像の間の情報の非対称性の問題が存在する。本実施例において、3次元アライメントネットワークによってつなぎ合わせ後の特徴マップに対してスライス平面次元及びスライス空間次元でアライメント操作を行い、異なるスライス画像間の情報を同じ分布空間に調整する。これにより、スライス画像の間の解像度の違いが大きいこと、及びスライス画像の間の情報の非対称性の問題を効果的に克服し、画像の正確性を効果的に向上させることができる。

ステップ210：アライメント後の特徴マップを利用して、スライス画像組における各スライス画像のコンテキスト情報に対してアグリゲーションを行う。

アライメント後の特徴マップを3次元アグリゲーションネットワークに入力し、3次元アグリゲーションネットワークはスライス数次元及び既存次元（即ち、チャンネル次元、スライス幅次元及びスライス高さ次元）に基づいてアライメント後の特徴マップに対して再構成を行い、少なくも2つの再構成後の特徴マップを生成する。異なる再構成後の特徴マップでは、スライス数次元情報の配列方式が異なっても良い。スライス数次元再構成後の特徴マップを利用して加重を行い、そして、加重後の特徴マップに対して次元削減処理を行い、スライス画像組に対応するアグリゲーション後の特徴マップを生成する。

3次元アグリゲーションネットワークは自己注意機構（メカニズム）を利用して画像検出モデルの注意（アテンション）を重要な領域に向け、不重要な領域を無視する。スライス画像組における各スライス画像のスライス特徴マップに対して特徴アグリゲーションを行うことで、コンテキスト関係を有するスライス画像のうちからより識別力のある情報を抽出し、そして、より識別力のある情報を融合（統合）する。3次元アグリゲーションネットワークを経た後に、コンテキスト情報を融合した特徴マップを直接出力することができる。

ステップ212：アグリゲーション後の特徴マップに対してターゲット領域検出を行い、ターゲット画像に対応する検出結果を取得し、各ターゲット画像に対応する検出結果に対して合併を行い、検出待ち画像に対応する検出結果を生成する。

ターゲット検出ネットワークはアンカー無し（アンカーレス）検出器（ディテクター）を採用しても良い。ターゲット検出ネットワークは複数のブランチ、即ち、分類ブランチ、回帰ブランチ及び中心点予測ブランチを含む。ターゲット検出ネットワークはアグリゲーション後の特徴マップにおける各画素点についてそれがターゲット検出枠内にあるかを識別し、ターゲット検出枠内にある画素点について、分類ブランチはその対応するカテゴリー（クラスともいう）を認識する。回帰ブランチはターゲット検出枠内にある画素点の複数の辺、例えば、4つの辺を回帰によって取得し、1つのバウンディングボックスを形成する。中心点予測ブランチは該画素点からターゲット検出枠の中心点までの相対距離を予測し、該距離が遠いほど、信頼度（degree of confidence）が低くなる。相対距離が所定距離を超えたときに、サンプル画素点のバウンディングボックスをフィルタリング（除去）する。ターゲット検出ネットワークはアグリゲーション後の特徴マップにおける各画素点に対して検出を行うことにより、スライス画像組におけるターゲット画像の検出結果を得ることができる。

現在のスライス画像組の特徴抽出が完成した後に、サーバーはスライディングウィンドウによって得られた次の1組のスライス画像組を2次元バックボーンネットワークに入力する。スライディングウィンドウが毎回取得するスライス画像の数は同じであり、次の1つのスライディングウィンドウと1つ前のスライディングウィンドウとの間の深度方向における違いは1枚のスライス画像である。上述の方式で次の1つのスライス画像組におけるスライス画像に対して検出を行うことにより、次の1つのスライス画像組におけるターゲット画像の検出結果を取得する。そして、各ターゲット画像に対応する検出結果に対して合併を行い、検出待ち画像に対応する検出結果を生成することができる。

従来の3次元畳み込みニューラルネットワーク検出アルゴリズムでは、特定のターゲット領域に対してのみ検出を行うことでき、他の領域の特徴が無視されている。本実施例により提供される方法では、特定のターゲット領域だけでなく、他の領域に対して検出を行うこともできる。肺のCT画像を例にとり、従来の3次元畳み込みニューラルネットワークは肺結節しか検出できず、検出結果は図4に示すとおりである。対して、本実施例による画像検出モデルは、図5に示すように、肺結節を検出することができるのみならず、肺の索状影、動脈硬化、リンパ節石灰化などを正確に検出することもできる。

本実施例において、検出待ち画像のスライス画像シーケンスにおいて各ターゲット画像に対応するスライス画像組を決定することで、スライス画像組における各スライス画像のスライス特徴マップを抽出することができる。スライス画像に対してそれぞれ単独で特徴抽出が行われ、スライス画像の間に情報の相互作用が発生しないため、撮影部位の3次元構造情報を残すことができる。スライス画像組に対応して抽出されたスライス特徴マップに対してアライメント操作を行うことで、異なるスライス画像間の情報を同じ分布空間に調整することができるため、各方向上で異なる方向間隔を有する検出待ち画像に適用することができ、これにより、異なる類型の機器、異なる物理パラメータ、異なるスキャンプロトコルなどによってもたらされる画像データの違いを克服し、検出待ち画像の各次元上での情報の非対称性によって引き起こされる不利な影響を効果的に抑制し、検出待ち画像の検出正確性を向上させることができる。スライス画像組におけるターゲット画像と隣接画像との間にコンテキスト関係があり、アライメント操作後の特徴マップについてスライス画像組における各スライス画像のコンテキスト情報に対してアグリゲーションを行うことで、より識別力のある特徴を抽出することができる。アグリゲーション後の特徴マップに対してターゲット領域検出を行うことにより、ターゲット画像に対応する検出結果を得ることができ、そして、各ターゲット画像に対応する検出結果に対して合併を行い、検出待ち画像に対応する検出結果を生成することができる。このようにして、検出待ち画像の情報の非対称性の問題を克服することができるだけでなく、画像データの検出効率を効果的に向上させることもできる。

1つの実施例において、スライス画像組に対応して抽出された各スライス画像に対してつなぎ合わせを行うことは、スライス画像組に対応するスライス数を取得し；スライス画像組に対応して抽出された各スライス特徴マップを用いて積み重ね（スタック）処理を行い、積み重ね後の特徴マップはスライス数次元及びチャンネル次元を含み；スライス数次元の特徴とチャンネル次元の特徴を交換し、つなぎ合わせ後の特徴マップを生成することを含む。

スライス特徴マップは複数種類の次元の特徴、例えば、チャンネル次元、スライス幅次元及びスライス高さ次元の特徴を含む。次元は所定の順序を有する。サーバーはスライス画像組に対応して抽出された各スライス特徴マップに対して積み重ねを行い、そして、スライス特徴マップの大きさ及びスライス特徴マップの数に基づいて積み重ね後の特徴マップの大きさを決定する。積み重ね後の特徴マップは元の次元に基づいてスライス数次元を追加したものである。スライス特徴マップの積み重ねの後に、次元の間の順序もそれ相応に変化する。スライス数次元は既存次元の前に配列されても良く、既存次元の後に配列されても良く、さらに既存次元の中に挿入されても良い。例えば、次元の間の順序はスライス数次元、チャンネル次元、スライス幅次元及びスライス高さ次元の順序に変更することができる。スライス画像の間の情報の非対称性の問題を克服するために、スライス数次元の特徴とチャンネル次元の特徴の交換により行うことができる。

例えば、スライス特徴マップの大きさが（C,W,H）であり、そのうち、C、W、Hはそれぞれチャンネル次元、スライス幅次元及びスライス高さ次元を示す。スライス画像組に対応するスライス数がTであり、T個のスライス特徴マップに対して積み重ねを行った後に、スライス数次元を追加し、積み重ね後の特徴マップの大きさは（T,C,W,H）と表すことができる。スライス数次元とチャンネル次元の次元情報の交換を行うことにより、大きさが（C,T,W,H）であるつなぎ合わせ後の特徴マップを得ることができる。

1つの実施例において、つなぎ合わせ後の特徴マップに対してアライメント操作を行うことは、つなぎ合わせ後の特徴マップに対して3次元畳み込み操作を行い；畳み込み操作後の特徴マップに対してスライス数次元及びスライスサイズ次元上で正規化処理を行い；及び、正規化後の特徴マップに対して非線形活性化を行い、アライメント後の特徴マップを出力することを含む。

スライス画像組に対応して抽出された各スライス画像に対してつなぎ合わせを行った後に、つなぎ合わせ後の特徴マップを生成する。サーバーはつなぎ合わせ後の特徴マップを3次元アライメントネットワークに入力する。3次元アライメントネットワークは3次元畳み込み層、組（グループ）正規化層及び非線形活性化層を含む。3次元アライメントネットワークにおける3次元畳み込み層は少なくも1つの3次元畳み込みを含み、3次元畳み込み層はつなぎ合わせ後の特徴マップに対して畳み込み操作を行う。モデルパラメータ及び計算量を効果的に減少させるために、3次元畳み込みの畳み込みカーネルは比較的小さいサイズの畳み込みカーネル、例えば、（3,1,1）の畳み込みカーネルを採用して、つなぎ合わせ後の特徴マップに対して畳み込み操作を行うことができる。畳み込み操作により、つなぎ合わせ後の特徴マップに対して平滑化を行うことができるだけでなく、既存次元（チャンネル次元、スライス幅次元及びスライス高さ次元）上でスライス画像の内部情報を学習し、かつスライス数次元上でスライス画像の間の空間情報を学習することもできる。そのうち、3次元畳み込み層はスライス幅次元及びスライス高さ次元上でスライス画像の内部情報を学習することができる。従来の方法では、3次元畳み込み層が畳み込み操作によりスライス画像の内部情報のみを学習するので、空間情報の学習を欠き、これにより、3次元構造上での情報の相互作用が欠如している。本実施例において、異なるスライス特徴マップに対してアライメントを行うことで、スライスの内部及びスライスの間の各方向上での特徴の違いによってもたらされる情報の非対称性の問題を効果的に緩和することができる。

従来の方法では、組正規化層がスライス幅次元及びスライス高さ次元においてのみ正規化処理を行う。本実施例において、組正規化層はスライス幅次元及びスライス高さ次元上で正規化処理を行うことができるだけでなく、スライス数次元上で正規化処理を行うこともできる。これにより、スライス特徴の水平方向及び深度方向における不利な影響を無くすことができる。

正規化後の特徴マップに対して非線形活性化層によって処理を行い、非線形活性化層は活性化関数、例えば、ReLU関数を採用して、アライメント後の特徴マップを出力することができる。アライメント後の特徴マップの大きさはつなぎ合わせ後の特徴マップの大きさと同じであっても良い。例えば、つなぎ合わせ後の特徴マップの大きさが（C,T,W,H）である場合、位置合わせ後の特徴マップの大きさも（C,T,W,H）であり得る。

本実施例において、スライス画像組に対応して抽出された各スライス画像に対してつなぎ合わせを行い、つなぎ合わせ後の特徴マップを用いてアライメント操作を行うことで、平面方向及び深度方向上で異なる方向間隔を有する検出待ち画像に適用することができ、異なる類型の機器、異なる物理パラメータ、異なるスキャンプロトコルなどにより引き起こされる画像データの違いを克服し、検出待ち画像の各次元上での情報の非対称性によりもたらされる不利な影響を効果的に抑制し、検出待ち画像の検出正確性を効果的に向上させることができる。

1つの実施例において、アライメント後の特徴マップを用いてスライス画像組における各スライス画像のコンテキスト情報に対してアグリゲーションを行うことは、スライス数次元に基づいてアライメント後の特徴マップに対して再構成を行い、再構成後の特徴マップを生成し；及び、再構成後の特徴マップを用いてアライメント後の特徴マップに対して加重を行い、加重後の特徴マップに対して次元削減処理を行い、スライス画像組に対応するアグリゲーション後の特徴マップを生成することを含む。

スライス画像組におけるスライス画像はターゲット画像、及びターゲット画像とコンテキスト関係を有する隣接画像を含む。例えば、所定数がTである場合、T=2M+1であり、そのうち、中間スライス画像の前のM枚のスライス画像と後のM枚のスライス画像を組み合わせてスライス画像組を成す。前のM枚のスライス画像及び後のM枚のスライス画像は中間スライス画像のコンテキストを構成する。

3次元アグリゲーションネットワークはスライス数次元及び既存次元（チャンネル次元、スライス幅次元及びスライス高さ次元）に基づいてアライメント後の特徴マップに対して再構成を行い、少なくも2つの再構成後の特徴マップを生成する。そのうち、既存次元の次元情報を組み合わせてから、スライス数次元情報と再び並べ替えが行われることで、再構成を行うことができる。例えば、位置合わせ後の特徴マップの大きさが（C,T,W,H）である場合、(T,C*W*H)及び(C*W*H,T)として再構成しても良い。

1つの実施例において、3次元アグリゲーションネットワークは再構成後の特徴マップに対して変換を行い、変換後の特徴マップを用いてアライメント後の特徴マップのスライス数次元に対して加重を行い；及び、次元削減畳み込みを取得し、次元削減畳み込みを利用して加重後の特徴マップに対して次元削減処理を行う。

再構成後の特徴マップに対して点乗積（ドット積）を行い、スライス数次元に対応する2行2列の行列を取得する。これを以って再構成後の特徴マップに対して変換を行う。例えば、(T,C*W*H)と(C*W*H,T)の点乗積を行い、1つの(T,T)の行列を取得する。活性化関数Sigmoidを経た後に、アライメント後の特徴マップにおけるスライス数次元との乗算を行い、新しく追加された次元に対して加重を行うことで、アライメント後の特徴マップに対して加重を行うようになり、加重後の特徴マップを取得する。加重後の特徴マップの大きさはアライメント後の特徴マップの大きさと同じである。例えば、位置合わせ後の特徴マップの大きさが（C,T,W,H）である場合、加重後の特徴マップの大きさも（C,T,W,H）である。

次元削減畳み込みを利用して加重後の特徴マップに対して畳み込み操作を行い、加重後の特徴マップに対して次元削減処理を行う。次元削減畳み込みは3次元畳み込みであっても良く、その畳み込みカーネルはスライス画像組に対応するスライス数に基づいて生成され得る。例えば、次元削減畳み込みの畳み込みカーネルが(T,1,1)である。この場合、次元削減処理により、大きさが（C,T,W,H）の加重後の特徴マップを大きさが（C,W,H）の特徴マップに変え、該特徴マップはアグリゲーション後の特徴マップと呼ばれても良い。これは、コンテキスト情報をターゲット画像の特徴マップにアグリゲーションすることに相当する。

関連技術の加重処理方法では、検出待ち画像におけるすべての画素点に対して加重を行うが、加重後の特徴マップに対して次元削減処理を行わない。本実施例において、スライス画像組における各スライス画像のアライメント後の特徴マップに対して全体的に加重を行う。また、3次元の次元削減畳み込みを使用して加重後の特徴マップに対して次元削減処理を行う。これにより、3次元特徴マップを2次元特徴マップに次元削減し、演算量を効果的に減少させることができるため、検出効率を効果的に向上させることができる。

本実施例において、スライス画像組における各スライス画像のコンテキスト情報に対してアグリゲーションを行うことで、コンテキストスライス画像のうちからより識別力のある情報を抽出し、そして、より識別力のある情報を融合する。3次元アグリゲーションネットワークを経た後に、コンテキスト情報を融合した特徴マップを直接出力することができるため、検出待ち画像のより正確な検出結果を得ることができる。

1つの具体的な実施例において、画像検出方法が提供され、それは具体的に以下のステップを含む。

検出待ち画像を取得し、検出待ち画像はスライス画像シーケンスを含む。スライス画像シーケンスにおける各ターゲット画像について、対応するスライス画像組を決定し、スライス画像組はターゲット画像、及びスライス画像シーケンスにおいてターゲット画像とコンテキスト関係を有する隣接画像を含む。スライス画像組における各スライス画像についてそれぞれ対応するスライス特徴マップを抽出する。スライス画像組に対応するスライス数を取得し、スライス画像組に対応して抽出された各スライス特徴マップを用いて積み重ね処理を行い、積み重ね後の特徴マップはスライス数次元及びチャンネル次元を含み、スライス数次元の特徴とチャンネル次元の特徴を交換することで、つなぎ合わせ後の特徴マップを生成する。つなぎ合わせ後の特徴マップに対して3次元畳み込み操作を行い、畳み込み操作後の特徴マップに対してスライス数次元及びスライスサイズ次元上で正規化処理を行い、正規化後の特徴マップに対して非線形活性化を行うことで、アライメント後の特徴マップを出力し；スライス数次元に基づいてアライメント後の特徴マップに対して再構成を行い、再構成後の特徴マップを生成し；及び、再構成後の特徴マップに対して変換を行い、変換後の特徴マップを利用してアライメント後の特徴マップのスライス数次元に対して加重を行う。次元削減畳み込みを取得し、次元削減畳み込みを使用して加重後の特徴マップに対して次元削減処理を行い、スライス画像組に対応するアグリゲーション後の特徴マップを生成する。アグリゲーション後の特徴マップにおける、ターゲット検出枠内にある画素点に対応するカテゴリーを認識する。回帰により画素点のバウンディングボックスを取得し、画素点からターゲット検出枠の中心点までの相対距離を取得する。相対距離が所定距離を超えたときに、画素点のバウンディングボックスをフィルタリング（除去）し、ターゲット画像に対応する検出結果を取得し、そして、各ターゲット画像に対応する検出結果に対して合併を行い、検出待ち画像に対応する検出結果を生成する。

1つの実施例において、図6に示すように、画像検出モデル訓練方法が提供され、画像検出モデルはバックボーンネットワーク、3次元アライメントネットワーク、3次元アグリゲーションネットワーク及びターゲット検出ネットワークを含み、該訓練方法は次のようなステップを含む。

ステップ602：画像サンプルのスライスサンプル画像シーケンスにおける各ターゲットサンプル画像について、対応するスライスサンプル画像組を決定し、スライスサンプル画像組はターゲットサンプル画像、及びスライスサンプル画像シーケンスにおいてターゲットサンプル画像とコンテキスト関係を有する隣接サンプル画像を含み；
ステップ604：バックボーンネットワークにより、スライスサンプル画像組における各スライスサンプル画像についてそれぞれ対応するスライスサンプル特徴マップを抽出し；
ステップ606：3次元アライメントネットワークにより、スライスサンプル画像組に対応して抽出されたスライスサンプル特徴マップに対してアライメント操作を行い；
ステップ608：3次元アグリゲーションネットワークにより、アライメント後のサンプル特徴マップを利用してスライスサンプル画像組における各スライスサンプル画像のコンテキスト情報に対してアグリゲーションを行い；
ステップ610：ターゲット検出ネットワークにより、アグリゲーション後のサンプル特徴マップに対してターゲット領域検出を行い、ターゲットサンプル画像に対応する検出結果を取得し、各ターゲットサンプル画像に対応する検出結果に対して合併を行い、画像サンプルに対応する検出結果を生成する。

訓練データセットには複数種類の画像サンプルが含まれる。画像サンプルには複数のスライスサンプルが含まれる。スライスサンプルでは複数の検出ターゲットについてラベルを付けている。画像値の大きさが物理的な意味を持つため、異なる大きさの画像値は異なる検出部位に対応する。各種類の検出部位について固定サイズを設定し、対応するスライスサンプルの大きさを固定サイズにトリミングすることができる。例えば、CT画像の場合、肺に対して検出を行うスライスサンプルは[-1200,600]にトリミングする。トリミング後のスライスサンプルに対して標準化処理を行い、標準化後のスライスサンプルをモデルの入力とすることで、トレーニングモデルに入力される平均値及び分散に適応するようになる。コンピュータ装置は標準化後のスライスサンプルを利用して画像検出モデルに対して訓練を行う。画像検出モデルは2次元バックボーンネットワーク、3次元アライメントネットワーク、3次元アグリゲーションネットワーク及びターゲット検出ネットワークを含む。画像検出モデルのネットワーク構成は図7に示すとおりである。

画像サンプルに対応する標準化後のスライスサンプルは深度方向に配列され、画像サンプルのスライスサンプル画像シーケンスを形成する。コンピュータ装置はスライディングウィンドウを利用して深度方向に沿って所定数の隣接するスライスサンプルを1組の訓練サンプルとして取得し、該1組の訓練サンプルはスライスサンプル画像組と称されても良い。スライスサンプル画像組はターゲットサンプル画像、及びスライスサンプル画像シーケンスにおいてターゲットサンプル画像とコンテキスト関係を有する隣接サンプル画像を含む。例えば、スライスサンプル画像組におけるスライスサンプルの数がTである場合、T=2M+1であり、そのうち、前のM枚のスライスサンプル画像及び後のM枚のスライスサンプル画像は中間スライスサンプル画像のコンテキストを構成する。中間スライスサンプル画像はターゲットサンプル画像と呼ばれても良い。スライスサンプル画像組における各スライスサンプル画像を2次元バックボーンネットワークに入力し、各スライスサンプル画像に対応するスライスサンプル特徴マップをそれぞれ抽出する。3次元アライメントネットワークにより、スライスサンプル画像組に対応して抽出された各スライスサンプル画像に対してつなぎ合わせを行い、つなぎ合わせ後のサンプル特徴マップを利用してアライメント操作を行い、アライメント後のサンプル特徴マップを生成する。3次元アグリゲーションネットワークにより、アライメント後のサンプル特徴マップを用いてスライスサンプル画像組における各スライスサンプル画像のコンテキスト情報に対してアグリゲーションを行い、アグリゲーション後のサンプル特徴マップを取得する。

アグリゲーション後の訓練特徴マップをターゲット検出ネットワークに入力する。ターゲット検出ネットワークは複数のブランチ、即ち、分類ブランチ、回帰ブランチ及び中心点予測ブランチを含み、各ブランチは何れも複数の畳み込み層、Batch Norm層及びReLU層からなる。ターゲット検出ネットワークはアグリゲーション後の訓練特徴マップにおける各画素点を単独で処理する。アグリゲーション後の訓練特徴マップにおける各画素点について、該画素点が或る1つのターゲット検出枠内にある場合、1つの正のサンプルと見なし、そうでない場合、負のサンプルと見なす。各正のサンプルについて、分類ブランチは画素が代表する領域に対して分類を行う。回帰ブランチは回帰によってターゲット検出枠内にある画素点の複数の辺、例えば、4つの辺を取得し、1つの完全なバウンディングボックスを形成する。複数のターゲット検出枠内にある画素点について、面積最小の検出枠を回帰のターゲットとして選択する。中心点予測ブランチは該画素点からターゲット検出枠の中心点までの相対距離を予測し、相対距離が遠いほど、信頼度が低くなる。相対距離が所定距離を超えたときに、画素点のバウンディングボックスをフィルタリング（除去）することで、ターゲット中心領域から遠く離れた、誤ったバウンディングボックスをフィルタリングすることができる。例えば、疾患中心領域を遠く離れた、誤ったバウンディングボックスをフィルタリングすることができる。

本実施例において、画像サンプルのスライスサンプル画像シーケンスの中で各ターゲットサンプル画像に対応するスライスサンプル画像組を決定することで、スライスサンプル画像組における各スライスサンプル画像のスライスサンプル特徴マップを抽出することができる。スライスサンプル画像に対してそれぞれ単独で特徴抽出が行われるため、スライスサンプル画像の間に情報の相互作用が発生せず、撮影部位の3次元構造情報を残すことができる。スライスサンプル画像組に対応して抽出されたスライスサンプル特徴マップに対してアライメント操作を行うことで、異なるスライスサンプル画像間の情報を同じ分布空間に調整することができるため、各方向上で異なる方向間隔を有する画像サンプルに適用することができ、異なる類型の機器、異なる物理パラメータ、異なるスキャンプロトコルなどによって引き起こされる画像データの違いを克服し、画像サンプルの各次元上での情報の非対称性によりもたらされる不利な影響を効果的に抑制し、画像サンプルの検出正確性を向上させることができる。スライスサンプル画像組におけるターゲットサンプル画像と隣接画像との間にコンテキスト関係があるため、アライメント操作後のサンプル特徴マップについてスライスサンプル画像組における各スライスサンプル画像のコンテキスト情報に対してアグリゲーションを行うことで、より識別力のある特徴を抽出することができる。アグリゲーション後のサンプル特徴マップに対してターゲット領域検出を行うことで、ターゲットサンプル画像に対応する検出結果を得ることができ、各ターゲットサンプル画像に対応する検出結果に対して合併を行うことで、画像サンプルに対応する検出結果を生成することができる。これにより、画像サンプル情報の非対称性の問題を克服することができるだけでなく、画像サンプルの検出効率を効果的に向上させることもできる。

1つの実施例において、3次元アライメントネットワークにより、スライスサンプル画像組に対応して抽出されたスライスサンプル特徴マップに対してアライメント操作を行うことは、3次元アライメントネットワークにより、スライスサンプル画像組に対応して抽出された各スライスサンプル画像に対してつなぎ合わせを行い、つなぎ合わせ後のサンプル特徴マップに対してアライメント操作を行い、アライメント後のサンプル特徴マップを生成することを含む。

コンピュータ装置はスライスサンプル画像組に対応するスライスサンプルの数を取得し、スライスサンプルの数はスライスサンプル特徴マップの数である。コンピュータ装置はスライスサンプル画像組に対応して抽出された各スライスサンプル特徴マップに対して積み重ねを行い、スライスサンプル特徴マップの大きさ及びスライスサンプル特徴マップの数に基づいて積み重ね後のサンプル特徴マップの大きさを決定する。積み重ね後のサンプル特徴マップは元の次元に基づいてスライス数次元を追加したものである。スライス画像の間の情報の非対称性の問題を克服するために、スライス数次元の特徴とチャンネル次元の特徴の交換を行うことで、つなぎ合わせ後のサンプル特徴マップを生成することができる。3次元アライメントネットワークは3次元畳み込み層、組（グループ）正規化層及び非線形活性化層を含む。3次元畳み込み層によりつなぎ合わせ後のサンプル特徴マップに対して3次元畳み込み操作を行う。組正規化層により畳み込み操作後のサンプル特徴マップに対してスライス数次元及びスライスサイズ次元上で正規化処理を行い；また、非線形活性化層により正規化後のサンプル特徴マップに対して非線形活性化を行い、アライメント後のサンプル特徴マップを出力する。

従来の方法では、3次元畳み込み層が畳み込み操作によりスライス画像の内部情報のみを学習するため、空間情報の学習を欠き、これにより、3次元構造上での情報の相互作用が欠如している。本実施例において、異なるスライスサンプル特徴マップに対してアライメントを行うことで、スライスサンプル内及びスライスサンプル間の各方向上で特徴の違いが比較的大きいことによる情報の非対称性の問題を効果的に緩和することができる。従来の方法では、組正規化層がスライス幅次元及びスライス高さ次元においてのみ正規化処理を行う。本実施例において、組正規化層はスライス幅次元及びスライス高さ次元上で正規化処理を行うことができるだけでなく、スライス数次元上で正規化処理を行うこともできる。これにより、スライスサンプル特徴の水平方向及び深度方向における不利な影響を無くすことができる。

1つの実施例において、3次元アグリゲーションネットワークによりアライメント後のサンプル特徴マップを利用してスライスサンプル画像組における各スライスサンプル画像のコンテキスト情報に対してアグリゲーションを行うことは、3次元アグリゲーションネットワークによりスライス数次元に基づいてアライメント後のサンプル特徴マップに対して再構成を行い、再構成後のサンプル特徴マップを生成し；及び、再構成後のサンプル特徴マップを利用してアライメント後のサンプル特徴マップに対して加重を行い、加重後のサンプル特徴マップに対して次元削減処理を行い、スライスサンプル画像組に対応するアグリゲーション後のサンプル特徴マップを生成することを含む。

3次元アグリゲーションネットワークはスライス数次元及び既存次元（チャンネル次元、スライス幅次元及びスライス高さ次元）に基づいてアライメント後のサンプル特徴マップに対して再構成を行い、少なくも2つの再構成後のサンプル特徴マップを生成する。3次元アグリゲーションネットワークは再構成後のサンプル特徴マップに対して点乗積を行い、スライス数次元に対応する2行2列の行列を取得する。これを以って再構成後のサンプル特徴マップに対して変換を行う。活性化関数Sigmoidを経た後に、アライメント後のサンプル特徴マップにおけるスライス数次元と乗算を行い、スライス数次元に対して加重を行うことで、アライメント後のサンプル特徴マップに対して加重を行うようになり、加重後のサンプル特徴マップを取得する。次元削減畳み込みを利用して加重後のサンプル特徴マップに対して次元削減処理を行い、アグリゲーション後のサンプル特徴マップを生成する。例えば、アライメント後のサンプル特徴マップの大きさが（C,T,W,H）であり、(T,C*W*H)及び(C*W*H,T)として再構成することができる。(T,C*W*H)と(C*W*H,T)の点乗積を行い、1つの(T,T)の行列を取得する。活性化関数Sigmoid及び加重を経た後に、大きさが（C,T,W,H）の加重後のサンプル特徴マップを取得する。次元削減畳み込みの畳み込みカーネルが(T,1,1)である。次元削減処理により、大きさが（C,T,W,H）の加重後のサンプル特徴マップを大きさが（C,W,H）のアグリゲーション後のサンプル特徴マップに変える。

本実施例において、3次元アグリゲーションネットワークは自己注意機構を使用してモデルの注意を重要な領域に向け、不重要な領域を無視する。スライスサンプル画像組における各スライスサンプル画像のコンテキスト情報に対してアグリゲーションを行うことで、コンテキストスライスサンプル画像のうちからより識別力のある情報を抽出し、そして、より識別力のある情報を融合する。3次元アグリゲーションネットワークを経た後に、コンテキスト情報を融合したサンプル特徴マップを直接出力することができるため、より正確な検出結果を得ることができる。

1つの実施例において、ターゲット検出ネットワークは分類ブランチ、回帰ブランチ及び中心点予測ブランチを含み、ターゲット検出ネットワークによりアグリゲーション後のサンプル特徴マップに対してターゲット領域検出を行うことは、分類ブランチにより、アグリゲーション後のサンプル特徴マップにおける、ターゲット検出枠内にあるサンプル画素点に対応するカテゴリーを認識し；回帰ブランチにより、サンプル画素点のバウンディングボックスを回帰によって取得し；及び、中心点予測ブランチにより、サンプル画素点からターゲット検出枠の中心点までの相対距離を予測し、相対距離が所定距離を超えたときに、サンプル画素点のバウンディングボックスをフィルタリング（除去）することを含む。

本実施例において、ターゲット検出ネットワークはアンカー無し検出器を採用する。ターゲット検出ネットワークは分類ブランチ、回帰ブランチ及び中心点予測ブランチを含み、ターゲット検出ネットワークは対応する損失関数を有し、該損失関数は複数のサブ損失関数からなり、例えば、該損失関数は分類ブランチに対応する分類損失関数、回帰ブランチに対応する回帰損失関数、及び中心点予測ブランチに対応する中心点予測損失関数からなる。最終的な損失関数Lossは次のように定義される。

Loss=Classification
Loss+Offset Loss+Center-ness Loss
ここで、Classification Lossは分類損失関数であり、Offset Lossは回帰損失関数であり、Center-ness Lossは中心点予測損失関数である。

ターゲット検出ネットワークは、コンテキスト情報を融合したサンプル特徴マップにおける各画素点をオリジナルな入力スライスサンプル画像（入力画像と略称する）にマッピングする。各画素点の位置は（x,y）で表される。入力画像にマッピングした座標は(xs+s/2,ys+s/2)を採用しても良く、そのうち、sは現在のレベルから入力画像までのスケイリング（拡縮）係数である。入力画像にマッピングした画素点がターゲット検出枠内にある場合、1つの正のサンプルと見なし、そうでない場合、負のサンプルと見なす。各正のサンプルについて、分類ブランチは画素が代表するカテゴリーに対して分類を行う。例えば、カテゴリーは疾患のカテゴリーであっても良い。回帰ブランチは回帰によってターゲット検出枠内にある画素点の複数の辺、例えば、4つの辺を取得し、1つの完全なバウンディングボックス、即ち、ターゲット位置を形成し、例えば、ターゲット位置は疾患の位置である。複数のターゲット検出枠内にある画素点について、面積最小の検出枠を回帰のターゲットとして選択する。各正のサンプルについて、回帰によってその対応するターゲットを（l,t,r,b）として得ることができ、即ち、バウンディングボックスの中心点から上下左右の各辺までの距離である。(x₀,y₀)及び(x₁,y₁)はそれぞれバウンディングボックスの左上隅及び右下隅の座標値を表す。回帰トレーニングの公式は以下の公式（1）で示される。

l=x-x₀ ⁽ⁱ⁾, t=y-y₀ ⁽ⁱ⁾
r=x₁ ⁽ⁱ⁾-x, b=y₁ ⁽ⁱ⁾-y (1)
中心点予測ブランチは分類ブランチと並列しており、これはネットワークに1つの損失を追加することに相当し、該損失は、予測したバウンディングボックスがターゲット検出枠の中心点にできるだけ近づくように保証することができる。中心点予測損失関数の公式は以下の公式（2）で示される。

中心点予測損失関数はターゲット検出枠の中心点に関する複数の距離、例えば、ターゲット検出枠の中心点からターゲット領域の左上右下の4つの辺までの距離を予測することができる。よって、ターゲット検出枠の中心点及び4つの距離は1つの矩形状枠を直接決定することができる。中心点予測ブランチは該画素点からターゲット検出枠の中心点までの相対距離を予測し、相対距離が遠いほど、信頼度が低くなる。相対距離が所定距離を超えたときに、画素点のバウンディングボックスに対してフィルタリング（除去）を行うことで、ターゲット中心領域から遠く離れた、誤ったバウンディングボックスをフィルタリングすることができる。例えば、疾患の中心領域を遠く離れた、誤ったバウンディングボックスをフィルタリングすることができる。

例えば、ターゲット検出枠は病変領域であっても良く、ターゲット検出枠の中心点は病変（領域）の中心であっても良い。或る画素点が1つのターゲット検出枠内にある場合、1つの正のサンプルに属し、分類ブランチはその疾患のカテゴリーに対して分類を行う。回帰ブランチは回帰によって該画素点のバウンディングボックスを取得する。該画素点について、病変（領域）の中心との距離が所定距離内であるときに、その対応する分類と合わせて或る種類の疾患の陽性と予測する。病変の中心点との距離が所定距離を超えたときに、その対応する分類と合わせて或る種類の疾患の偽陽性と予測する。このようにして、疾患領域の中心から遠く離れた、誤ったバウンディングボックスをフィルタリング（除去）し、検出の正確性を効果的に向上させることができる。

画像検出モデルに対して訓練を行うことにより、画像検出モデルが汎用の特徴を学習し得るようにさせることができ、訓練集合を微調整した後に、画像検出モデルに対して訓練をさらに行うことにより、モデルの過剰適合を効果的に減少させ、モデルの収束（収斂）を加速し、画像検出の正確性及び効率を向上させることができる。

1つの実施例において、訓練の過程で、コンピュータ装置はスライスの厚さを取得し、スライスの厚さに基づいて調整個数を決定し；及び、調整個数のスライスサンプル画像を使用して非最大抑制操作を行い、不要な(redundant)検出枠を除去する。

各スライスサンプル画像の検出結果は、スライディングウィンドウにより複数の隣接するスライス画像を得た後に検出を行うことで得られるものである。そのため、複数のスライディングウィンドウの間にスライスサンプル画像の交差が含まれる場合、NMS（Non-Maximum Suppression（非最大抑制））により、隣接領域内でスコアが最も高い（ターゲット確率が最も大きい）ウィンドウを選択し、かつスコアが低いウィンドウを抑制する必要がある。検出結果の正確性を効果的に向上させるために、スライスの厚さに基づいてNMSを適応的に調整することができる。具体的には、スライスの厚さに基づいてNMSを調整するためのスライスの数を決定することができ、該数はスライスの調整個数と呼ばれても良い。該スライスの数はNで表すことができ、N=C/Sであり、そのうち、Cは定数であり、Sはスライスの厚さである。定数は訓練の過程における経験値に基づいて決定されても良く、例えば、30である。N枚のスライス画像を用いてクロススライスのNMS操作を行い、不要な(redundant)検出枠を抑えることで、ターゲット検出効率を効果的に向上させることができる。

画像サンプルが肺のCT画像であることを例にとり、本出願における画像検出モデルの訓練結果の他の検出方法について対比説明を行う。

訓練集合には1470枚の肺のCT画像が含まれ、トータルで12,218個のラベルがあり、4種類の胸部疾患、即ち、肺結節（PN、3,264例）、肺の索状影（FS、3,613例）、動脈硬化（TAA、4,201例）及びリンパ節石灰化（LNC、1,140例）が含まれる。訓練集合における肺のCT画像では、スライスサンプル内の画素間の違い及びスライスサンプルの厚さの違いが比較的大きく（このような違いは情報の非対称性と呼ばれる）、そのうち、スライスサンプル内の画素間隔が0.46mm～0.98mmであり、スライスサンプルの厚さが1.0mm～14.8mmである。訓練集合のうちから1176枚のCT画像をランダムに選択して訓練を行い、残りの294枚のCT画像はテストのために用いられる。CT画像のスライスサンプルの画素が512×512であり、スライスサンプルをランダムに水平反転することでデータを拡充（拡張）することができる。

従来のリサンプリング操作により、情報の非対称性の問題を十分に克服することはできない。現在流行っている2次元1段検出器RetinaNet及び3次元検出器3D RPNを利用して実験を行っており、4種類の実験の解像度がそれぞれオリジナルな解像度、3つのリサンプリング解像度、即ち、0.7mm×0.7mm×0.7mm、1mm×1mm×1mm、0.7mm×0.7mm×5mmである。4種類の実験の結果は表1に示すとおりである。FROC平均スコアはモデル検出の偽陽性率（false positive rate(FPR)）を反映することができ、FROCが高いほど、検出の正確性が高くなり、偽陽性率が低くなる。表1から分かるように、リサンプリングは2次元RetinaNetにパフォーマンスの向上をもたらすことができず、また、異なる解像度のリサンプリングは2次元RetinaNetの結果に本質的な違いを来すことがあり、異なる解像度のリサンプリングは3次元RPNの結果に影響を与えることがあまりない。これにより、リサンプリング操作は情報の非対称性の問題を効果的に克服できないことが明らかである。

表1におけるFROC平均スコアから分かるように、2D RetinaNetの最適結果が3D RPNよりも優れており、これは、2次元ネットワークが3次元ネットワークよりも情報の非対称性の問題を処理するに適していることを意味する。

本出願における画像検出モデルは2次元ネットワークと3次元ネットワークとを組み合わせた混合ネットワークである。そのうち、バックボーンネットワークは2次元ネットワークであり、3次元アライメントネットワーク、3次元アグリゲーションネットワーク及びターゲット検出ネットワークは3次元ネットワークである。バックボーンネットワークはResnet及びFPNを含む。スライス画像内部情報及びスライス画像間情報は画像検出にとって非常に重要である。スライス画像内部情報が2次元ニューラルネットワークにより容易に処理されるため、1つの自然なアイデアは、3チャンネル画像をシミュレーションし、ネットワークの第一畳み込み層でスライス画像間情報を融合することである。この考えに反して、本出願により提供される画像検出モデルはバックボーンネットワークにより特徴を抽出した後にスライス画像間情報を融合する。この2種類の融合方式について実験により比較を行うことができる。

第一畳み込み層で異なる数の隣接スライスを融合することで、従来のRetinaNetがコンテキスト情報を利用する面における有効性を検証している。表2における(a)、(b)及び(c)行の結果は、コンテキストスライス画像の数の増加に伴ってそれ相応の改善があることを示していない。これは、RetinaNetがコンテキスト情報及び単一の畳み込み層によってコンテキスト情報を直接利用できないことを表す。本出願における融合方式を採用した場合、結果は表2における(d)及び(e)行に示すとおりである。同じ数のスライス画像を入力した場合、（d）行のFROC平均スコアの面において0.023の改善がもたらされている。表2における（e）行と（f）行の対比結果によれば、3次元アライメントネットワークはFROC平均スコアの面で0.007の向上を得ている。行（f）と行（g）を比較して、3次元アグリゲーションネットワークはROC平均スコアに0.008の改善を来している。スライスの厚さの違いについて、追加のクロススライスNMSにより付近のスライスの非最大予測を抑制する。(g)行及び(h)行にはFROC平均スコアが0.012向上したことが示されている。RetinaNetのアンカーベースの検出方式に比べて、本出願におけるターゲット検出ネットワークは、アンカーがない検出器である。表2における行（d）に示すように、表2における（c）行に比較して、0.015の改善があった。表2では、2M+1がスライスサンプル画像組におけるスライスサンプル画像の数である。AFH、SAI、3DRAM、3DFM及びCS-NMSはそれぞれアンカーベースの検出ヘッド、アンカー無し検出ヘッド、2次元バックボーンネットワーク、3次元アライメントネットワーク、3次元アグリゲーションネットワーク及びクロスNMSである。PN、FS、TAA及びLNCはそれぞれ肺結節、肺の索状影、動脈硬化、リンパ節石灰化を表す。

アンカー無し検出器の速度及び精度の面での利点をさらに考察するために、本出願におけるモデルフレームワーク全体と、アンカー無し検出器及びアンカーベースの検出器との効果の比較を行っている。結果は表3に示されている。アンカー無し検出器は、FROC平均スコアに0.02の向上をもたらしているだけでなく、毎回前進速度を推論するときにもアンカーベースの検出器よりも速い。

従来技術では、最先端のアンカーベースの検出器がFaster R-CNN、Cascade R-CNN、 RetinaNet、SSD、YOLOv3などを含み、そのすべては事前定義のアンカーボックスに依存する。これに対して、本出願で採用されるのはアンカー無しの検出であり、これはアンカーボックスに関する複雑な計算を完全に避けることができる。本出願により提供されるアンカー無し検出器と、上述の複数のアンカーベースの検出器との比較を行っており、検出結果は図8に示すとおりであり、また、具体的なデータ比較結果は表4に示すとおりである。表4から分かるように、本出願により提供されるアンカー無し検出器は他のアンカーベースの検出器よりも大幅に優れている。アンカーベースの検出器は、ステージが増加するにつれてネットワークでより多くのパラメータが生成され得るため、モデルが過剰適合しやすくなるようにすることがある。しかし、本出願により提供される画像検出モデルはデータの大きな変化のパフォーマンスへの影響を無視する。解像度の設定範囲が比較的広いデータセットの中で胸腔疾患を検出する能力は非常に強い。低い偽陽性率及び偽陰性率を実現することができる。

なお、図2及び図6のフローチャートにおける各ステップが矢印の指示に従って順次示されているが、これらのステップは必ずしも矢印指示の順序に従って順次実行される必要がない。特段の説明がない限り、これらのステップの実行順序について限定せず、これらのステップは他の順序に従って実行されても良い。また、図2及び図6における少なくも一部のステップが複数のステップ又は複数のステージを含んでも良く、これらのステップ又はステージは必ずしも同時に実行される必要がなく、異なる時間に実行されても良く、これらのステップ又はステージの実行順序も必ずしも連続して実行されるとは限らず、他のステップ又は他のステップの中のステップ又はステージの少なくとも一部と順番又は交互に実行され得る。

1つの実施例において、図9に示すように、画像データ検出装置が提供され、該装置はソフトウェアモジュール又はハードウェアモジュールを採用しても良く、あるいは、両者の組み合わせはコンピュータ装置の一部になっても良く、該装置は具体的に、第一取得モジュール902、特徴抽出モジュール904、アライメントモジュール906、アグリゲーションモジュール908及びターゲット検出モジュール910を含む。

第一取得モジュール902は、検出待ち画像を取得し、検出待ち画像はスライス画像シーケンスを含み；及び、スライス画像シーケンスにおける各ターゲット画像について、対応するスライス画像組を決定し、スライス画像組はターゲット画像、及びスライス画像シーケンスにおいてターゲット画像とコンテキスト関係を有する隣接画像を含む。

特徴抽出モジュール904は、スライス画像組における各スライス画像についてそれぞれ対応するスライス特徴マップを抽出する。

アライメントモジュール906は、スライス画像組に対応して抽出されたスライス特徴マップに対してアライメント操作を行う。

アグリゲーションモジュール908は、アライメント後の特徴マップを利用してスライス画像組における各スライス画像のコンテキスト情報に対してアグリゲーションを行う。

ターゲット検出モジュール910は、アグリゲーション後の特徴マップに対してターゲット領域検出を行い、ターゲット画像に対応する検出結果を取得し、各ターゲット画像に対応する検出結果に対して合併を行い、検出待ち画像に対応する検出結果を生成する。

1つの実施例において、アライメントモジュール906はさらに、スライス画像組に対応して抽出された各スライス特徴マップに対してつなぎ合わせを行い、つなぎ合わせ後の特徴マップを使用してアライメント操作を行い、アライメント後の特徴マップを生成する。

1つの実施例において、アライメントモジュール906はさらに、スライス画像組に対応するスライス数を取得し；前記スライス画像組に対応して抽出された各スライス特徴マップを用いて積み重ね処理を行い、積み重ね後の特徴マップはスライス数次元及びチャンネル次元を含み；及び、スライス数次元の特徴とチャンネル次元の特徴を交換し、つなぎ合わせ後の特徴マップを生成する。

1つの実施例において、アライメントモジュール906はさらに、つなぎ合わせ後の特徴マップに対して3次元畳み込み操作を行い；畳み込み操作後の特徴マップに対してスライス数次元及びスライスサイズ次元上で正規化処理を行い；及び、正規化後の特徴マップに対して非線形活性化を行い、アライメント後の特徴マップを出力する。

1つの実施例において、アグリゲーションモジュール908はさらに、スライス数次元に基づいてアライメント後の特徴マップに対して再構成を行い、再構成後の特徴マップを生成し；及び、再構成後の特徴マップを利用してアライメント後の特徴マップに対して加重を行い、加重後の特徴マップに対して次元削減処理を行い、スライス画像組に対応するアグリゲーション後の特徴マップを生成する。

1つの実施例において、アグリゲーションモジュール908はさらに、再構成後の特徴マップに対して変換を行い、変換後の特徴マップを使用してアライメント後の特徴マップのスライス数次元に対して加重を行い；及び、次元削減畳み込みを取得し、次元削減畳み込みを利用して加重後の特徴マップに対して次元削減処理を行う。

1つの実施例において、次元削減畳み込みの畳み込みカーネルはスライス画像組に対応するスライス数に基づいて生成される。

1つの実施例において、ターゲット検出モジュール910はさらに、アグリゲーション後の特徴マップにおける、ターゲット検出枠内にある画素点に対応するカテゴリーを識別し；回帰によって画素点のバウンディングボックスを取得し；及び、画素点からターゲット検出枠の中心点までの相対距離を予測し、相対距離が所定距離を超えたときに、画素点のバウンディングボックスを除去（フィルタリング）する。

1つの実施例において、画像検出モデル訓練装置が提供され、画像検出モデルはバックボーンネットワーク、3次元アライメントネットワーク、3次元アグリゲーションネットワーク及びターゲット検出ネットワークを含み、該装置はソフトウェアモジュール又はハードウェアモジュールを採用しても良く、あるいは、両者の組み合わせはコンピュータ装置の一部になっても良く、図10に示すように、該装置は第二取得モジュール1002、サンプル特徴抽出モジュール1004、サンプルアライメントモジュール1006、サンプルアグリゲーションモジュール1008及びサンプルターゲット検出モジュール1010を含む。

第二取得モジュール1002は、画像サンプルのスライスサンプル画像シーケンスにおける各ターゲットサンプル画像について、対応するスライスサンプル画像組を決定し、スライスサンプル画像組はターゲットサンプル画像、及びスライスサンプル画像シーケンスにおいてターゲットサンプル画像とコンテキスト関係を有する隣接サンプル画像を含む。

サンプル特徴抽出モジュール1004は、バックボーンネットワークにより、スライスサンプル画像組における各スライスサンプル画像についてそれぞれ対応するスライスサンプル特徴マップを抽出する。

サンプルアライメントモジュール1006は、3次元アライメントネットワークにより、スライスサンプル画像組に対応して抽出されたスライスサンプル特徴マップに対してアライメント操作を行う。

サンプルアグリゲーションモジュール1008は、3次元アグリゲーションネットワークにより、アライメント後のサンプル特徴マップを利用してスライスサンプル画像組における各スライスサンプル画像のコンテキスト情報に対してアグリゲーションを行う。

サンプルターゲット検出モジュール1010は、ターゲット検出ネットワークにより、アグリゲーション後のサンプル特徴マップに対してターゲット領域検出を行い、ターゲットサンプル画像に対応する検出結果を取得し、各ターゲットサンプル画像に対応する検出結果に対して合併を行い、画像サンプルに対応する検出結果を生成する。

1つの実施例において、サンプルアライメントモジュール1006はさらに、3次元アライメントネットワークにより、スライスサンプル画像組に対応して抽出された各スライスサンプル画像に対してつなぎ合わせを行い、つなぎ合わせ後のサンプル特徴マップを用いてアライメント操作を行い、アライメント後のサンプル特徴マップを生成する。

1つの実施例において、サンプルアグリゲーションモジュール1008はさらに、3次元アグリゲーションネットワークにより、スライス数次元に基づいてアライメント後のサンプル特徴マップに対して再構成を行い、再構成後のサンプル特徴マップを生成し；及び、再構成後のサンプル特徴マップを利用してアライメント後のサンプル特徴マップに対して加重を行い、加重後のサンプル特徴マップに対して次元削減処理を行い、スライスサンプル画像組に対応するアグリゲーション後のサンプル特徴マップを生成する。

1つの実施例において、ターゲット検出ネットワークは分類ブランチ、回帰ブランチ及び中心点予測ブランチを含み、サンプルターゲット検出モジュール1010はさらに、分類ブランチにより、アグリゲーション後のサンプル特徴マップにおいてターゲット検出枠内にあるサンプル画素点に対応するカテゴリーを識別し；回帰ブランチにより、回帰によってサンプル画素点のバウンディングボックスを取得し；及び、中心点予測ブランチにより、サンプル画素点からターゲット検出枠の中心点までの相対距離を予測し、相対距離が所定距離を超えたときに、サンプル画素点のバウンディングボックスをフィルタリング（除去）する。

1つの実施例において、サンプルターゲット検出モジュール1010はさらに、スライスの厚さを取得し、スライスの厚さに基づいてサンプル調整個数を決定し；及び、サンプル調整個数のスライス画像を利用して非最大抑制操作を行い、不要な(redundant)検出枠を除去する。

画像データ検出装置の具体的な限定について、上述した画像データ検出方法に関する限定を参照することができ、画像検出モデル訓練装置の具体的な限定について、上述した画像検出モデル訓練方法に関する限定を参照することができるため、ここではその詳しい説明を省略する。上述した画像データ検出装置及び画像検出モデル訓練装置における各モジュールは全部又一部がソフトウェア、ハードウェア及びその組み合わせにより実現され得る。上述した各モジュールはハードウェアの形式でコンピュータ装置における処理器に埋め込まれ又はそれと独立して設けられても良く、あるいは、ソフトウェアの形式でコンピュータ装置における記憶器に格納されても良く、これにより、処理器はそれを呼び出して上述した各モジュールに対応する操作を実行することができる。

1つの実施例において、コンピュータ装置が提供され、該コンピュータ装置はサーバーであっても良く、その内部構成は図11に示すとおりである。該コンピュータ装置はシステムバスを介して接続される処理器、記憶器及びネットワークインターフェースを含む。そのうち、該コンピュータ装置の処理器は計算及び制御能力を提供するために用いられる。該コンピュータ装置の記憶器は不揮発性記憶媒体やメモリを含む。該不揮発性記憶媒体にはオペレーティングシステム、コンピュータ可読命令及びデータベースが記憶されている。該メモリは不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータ可読命令の実行に環境を提供し得る。該コンピュータ装置のデータベースは画像データを記憶するために用いられる。該コンピュータ装置のネットワークインターフェースは外部の端末とネットワーク接続によって通信を行うために用いられる。該コンピュータ可読命令は処理器により実行されるときに画像データ検出方法又は画像検出モデル訓練方法を実現し得る。

なお、当業者が理解すべきは、図11に示す構成は本出願の技術案に関連している一部のみの構成のブロック図であり、本出願の技術案が適用され得るコンピュータ装置を限定するものではなく、具体的なコンピュータ装置は図示よりも多く又は少ない部品を含んでも良く、又は、幾つかの部品を組み合わせても良く、又は、異なる部品レイアウトを有しても良いということである。

1つの実施例において、コンピュータ装置が提供され、それは記憶器及び処理器を含み、記憶器にはコンピュータ可読命令が記憶されており、該処理器はコンピュータ可読命令を実行するときに上述した各方法の実施例におけるステップを実現し得る。

1つの実施例において、コンピュータ可読命令を記憶している１つ又は複数の不揮発性記憶媒体が提供され、前記コンピュータ可読命令は１つ又は複数の処理器により実行されるときに、１つ又は複数の処理器に、実行時に、上述した各方法の実施例におけるステップを実現させることができる。

1つの実施例において、コンピュータプログラムプロダクト又はコンピュータプログラムが提供され、該コンピュータプログラムプロダクト又はコンピュータプログラムはコンピュータ命令を含み、該コンピュータ命令はコンピュータ可読記憶媒体に記憶されている。コンピュータ装置の処理器はコンピュータ可読記憶媒体から該コンピュータ命令を読み取り、処理器は該コンピュータ命令を実行することで、該コンピュータ装置に、上述した各方法の実施例におけるステップを実行させることができる。

なお、当業者が理解すべきは、上述した実施例における方法の全部又は一部のフローの実現はコンピュータプログラムによって関連するハードウェアに命令を出すことで完了することができるということである。このようなコンピュータプログラムは不揮発性コンピュータ可読記憶媒体に格納することができ、該コンピュータプログラムは実行時に上述のような各方法の実施例のフローを含み得る。そのうち、本出願により提供される各実施例に使用される記憶器、記憶、データベース又は他の媒体についての何れの参照も不揮発性及び揮発性記憶器のうちの少なくも1つを含んでも良い。不揮発性記憶器はリードオンリーメモリ（Read-Only
Memory、ROM）、磁気テープ、フロッピーディスク、フレッシュメモリ、光学記憶器などを含み得る。揮発性記憶器はランダムアクセスメモリ（Random Access Memory、RAM）又は外部高速キャッシュ記憶器を含んでも良い。例示として、RAMは複数の形式、例えば、静的ランダムアクセスメモリ（Static Random
Access Memory、SRAM）、動的ランダムアクセスメモリ（Dynamic Random Access Memory、DRAM）などを有し得る。

また、上述した実施例における各技術的特徴を任意に組み合わせても良く、便宜のため、上述した実施例における各技術的特徴のすべての可能な組み合わせについて説明していないが、これらの技術的特徴の組み合わせに矛盾がない限り、そのすべては本明細書に記載の範囲に属する。

さらに、上述した実施例は本出願の幾つかの実施態様を例示するものに過ぎず、具体的かつ詳細に説明されているが、特許請求の範囲に対しての限定であると解釈してはならない。

以上、本出願の好ましい実施例を説明したが、本出願はこの実施例に限定されず、本出願の趣旨を離脱しない限り、本出願に対するあらゆる変更は本出願の技術的範囲に属する。

Claims

コンピュータ装置が実行する画像データ検出方法であって、
検出待ち画像を取得するステップであって、前記検出待ち画像はスライス画像シーケンスを含む、ステップ；
前記スライス画像シーケンスにおける各ターゲット画像について、対応するスライス画像組を決定するステップであって、前記スライス画像組は、前記ターゲット画像、及び前記スライス画像シーケンスにおいて前記ターゲット画像とコンテキスト関係を有する隣接画像を含む、ステップ；
前記スライス画像組における各スライス画像について、対応するスライス特徴マップをそれぞれ抽出するステップ；
前記スライス画像組に対応して抽出された前記スライス特徴マップに対してアライメント操作を行うステップ；
アライメント後の特徴マップを用いて前記スライス画像組における各スライス画像のコンテキスト情報に対してアグリゲーションを行うステップ；及び
アグリゲーション後の特徴マップに対してターゲット領域検出を行い、前記ターゲット画像に対応する検出結果を取得し、各ターゲット画像に対応する検出結果に対して合併を行い、前記検出待ち画像に対応する検出結果を生成するステップを含み、
前記スライス画像組に対応して抽出された前記スライス特徴マップに対してアライメント操作を行うステップは、
前記スライス画像組に対応して抽出された各スライス特徴マップに対してつなぎ合わせを行い、つなぎ合わせ後の特徴マップを用いてアライメント操作を行い、アライメント後の特徴マップを生成するステップを含み、
前記スライス画像組に対応して抽出された各スライス特徴マップに対してつなぎ合わせを行うことは、
前記スライス画像組に対応するスライスの数を取得するステップ；
前記スライス画像組に対応して抽出された各スライス特徴マップを用いて積み重ね処理を行うステップであって、積み重ね後の特徴マップはスライス数次元及びチャンネル次元を含む、ステップ；及び
前記スライス数次元の特徴と前記チャンネル次元の特徴の交換を行い、つなぎ合わせ後の特徴マップを生成するステップを含む、画像データ検出方法。
請求項１に記載の画像データ検出方法であって、
つなぎ合わせ後の特徴マップはスライスサイズ次元をさらに含み、
つなぎ合わせ後の特徴マップを用いてアライメント操作を行うことは、
つなぎ合わせ後の特徴マップに対して3次元畳み込み操作を行うステップ；
畳み込み操作後の特徴マップに対して前記スライス数次元及び前記スライスサイズ次元で正規化処理を行うステップ；及び
正規化後の特徴マップに対して非線形活性化を行い、アライメント後の特徴マップを出力するステップを含む、画像データ検出方法。
請求項１に記載の画像データ検出方法であって、
アライメント後の特徴マップを用いて前記スライス画像組における各スライス画像のコンテキスト情報に対してアグリゲーションを行うステップは、
スライス数次元に基づいて前記アライメント後の特徴マップに対して再構成を行い、再構成後の特徴マップを生成するステップ；
再構成後の特徴マップを用いてアライメント後の特徴マップに対して加重（weighting）を行うステップ；及び
加重後の特徴マップに対して次元削減処理を行い、前記スライス画像組に対応するアグリゲーション後の特徴マップを生成するステップを含む、画像データ検出方法。
請求項３に記載の画像データ検出方法であって、
再構成後の特徴マップを用いて前記アライメント後の特徴マップに対して行加重を行い、加重後の特徴マップに対して次元削減処理を行うことは、
再構成後の特徴マップに対して変換を行い、変換後の特徴マップを用いてアライメント後の特徴マップのスライス数次元に対して加重を行うステップ；及び
次元削減畳み込みを取得し、前記次元削減畳み込みを用いて加重後の特徴マップに対して次元削減処理を行うステップを含む、画像データ検出方法。
請求項４に記載の画像データ検出方法であって、
前記次元削減畳み込みの畳み込みカーネルは前記スライス画像組に対応のスライスの数に応じて生成される、画像データ検出方法。
請求項１に記載の画像データ検出方法であって、
アグリゲーション後の特徴マップに対してターゲット領域検出を行うことは、
アグリゲーション後の特徴マップにおける、ターゲット検出枠内にある画素点に対応するカテゴリーを識別するステップ；
回帰によって前記画素点のバウンディングボックスを取得するステップ；及び
前記画素点から前記ターゲット検出枠の中心点までの相対距離を予測し、前記相対距離が所定距離を超えたときに、前記画素点のバウンディングボックスを除去するステップを含む、画像データ検出方法。
コンピュータ装置が実行する、画像検出モデルの訓練方法であって、
前記画像検出モデルはバックボーンネットワーク、3次元アライメントネットワーク、3次元アグリゲーションネットワーク及びターゲット検出ネットワークを含み、
前記訓練方法は、
画像サンプルのスライスサンプル画像シーケンスにおける各ターゲットサンプル画像について、対応するスライスサンプル画像組を決定するステップであって、前記スライスサンプル画像組は、前記ターゲットサンプル画像、及び前記スライスサンプル画像シーケンスにおいて前記ターゲットサンプル画像とコンテキスト関係を有する隣接サンプル画像を含む、ステップ；
前記バックボーンネットワークにより、前記スライスサンプル画像組における各スライスサンプル画像について、対応するスライスサンプル特徴マップをそれぞれ抽出するステップ；
前記3次元アライメントネットワークにより、前記スライスサンプル画像組に対応して抽出されたスライスサンプル特徴マップに対してアライメント操作を行うステップ；
前記3次元アグリゲーションネットワークにより、アライメント後のサンプル特徴マップを用いて前記スライスサンプル画像組における各スライスサンプル画像のコンテキスト情報に対してアグリゲーションを行うステップ；及び
前記ターゲット検出ネットワークにより、アグリゲーション後のサンプル特徴マップに対してターゲット領域検出を行い、前記ターゲットサンプル画像に対応する検出結果を取得し、各ターゲットサンプル画像に対応する検出結果に対して合併を行い、前記画像サンプルに対応する検出結果を生成するステップを含み、
前記ターゲット検出ネットワークは分類ブランチ、回帰ブランチ及び中心点予測ブランチを含み、
前記ターゲット検出ネットワークにより、アグリゲーション後のサンプル特徴マップに対してターゲット領域検出を行うことは、
前記分類ブランチにより、アグリゲーション後のサンプル特徴マップにおける、ターゲット検出枠内にあるサンプル画素点に対応するカテゴリーを識別するステップ；
前記回帰ブランチにより、前記サンプル画素点のバウンディングボックスを回帰によって取得するステップ；及び
前記中心点予測ブランチにより、前記サンプル画素点から前記ターゲット検出枠の中心点までの相対距離を予測し、前記相対距離が所定距離を超えたときに、前記サンプル画素点のバウンディングボックスを除去するステップを含み、
前記訓練方法は、
前記スライスサンプル画像に対応するスライスの厚さを取得し、前記スライスの厚さに基づいてスライス調整個数を決定するステップ；及び
前記スライス調整個数のスライスサンプル画像を用いて非最大抑制操作を行い、不要な(redundant)検出枠を除去するステップをさらに含む、訓練方法。
請求項７に記載の訓練方法であって、
前記3次元アライメントネットワークにより、前記スライスサンプル画像組に対応して抽出されたスライスサンプル特徴マップに対してアライメント操作を行うステップは、
前記3次元アライメントネットワークにより、前記スライスサンプル画像組に対応して抽出された各スライスサンプル画像に対してつなぎ合わせを行い、つなぎ合わせ後のサンプル特徴マップを用いてアライメント操作を行い、アライメント後のサンプル特徴マップを生成するステップを含む、訓練方法。
請求項７に記載の訓練方法であって、
前記3次元アグリゲーションネットワークにより、アライメント後のサンプル特徴マップを用いて前記スライスサンプル画像組における各スライスサンプル画像のコンテキスト情報に対してアグリゲーションを行うステップは、
前記3次元アグリゲーションネットワークにより、スライス数次元に基づいて前記アライメント後のサンプル特徴マップに対して再構成を行い、再構成後のサンプル特徴マップを生成するステップ；
再構成後のサンプル特徴マップを用いて前記アライメント後のサンプル特徴マップに対して加重（weighting）を行うステップ；及び
加重後のサンプル特徴マップに対して次元削減処理を行い、前記スライスサンプル画像組に対応するアグリゲーション後のサンプル特徴マップを生成するステップを含む、訓練方法。
画像データ検出装置であって、
スライス画像シーケンスを含む検出待ち画像を取得し、前記スライス画像シーケンスにおける各ターゲット画像について、対応するスライス画像組を決定するための第一取得モジュールであって、前記スライス画像組は、前記ターゲット画像、及び前記スライス画像シーケンスにおいて前記ターゲット画像とコンテキスト関係を有する隣接画像を含む、第一取得モジュール；
前記スライス画像組における各スライス画像について、対応するスライス特徴マップをそれぞれ抽出するための特徴抽出モジュール；
前記スライス画像組に対応して抽出されたスライス特徴マップに対してアライメント操作を行うためのアライメントモジュール；
アライメント後の特徴マップを用いて前記スライス画像組における各スライス画像のコンテキスト情報に対してアグリゲーションを行うためのアグリゲーションモジュール；及び
アグリゲーション後の特徴マップに対してターゲット領域検出を行い、前記ターゲット画像に対応する検出結果を取得し、各ターゲット画像に対応する検出結果に対して合併を行い、前記検出待ち画像に対応する検出結果を生成するためのターゲット検出モジュールを含み、
前記アライメントモジュールは、
前記スライス画像組に対応して抽出された各スライス特徴マップに対してつなぎ合わせを行い、つなぎ合わせ後の特徴マップを用いてアライメント操作を行い、アライメント後の特徴マップを生成し、
前記スライス画像組に対応して抽出された各スライス特徴マップに対してつなぎ合わせを行うことは、
前記スライス画像組に対応するスライスの数を取得し；
前記スライス画像組に対応して抽出された各スライス特徴マップを用いて積み重ね処理を行い、積み重ね後の特徴マップはスライス数次元及びチャンネル次元を含み；及び
前記スライス数次元の特徴と前記チャンネル次元の特徴の交換を行い、つなぎ合わせ後の特徴マップを生成することを含む、画像データ検出装置。
画像検出モデルの訓練装置であって、
前記画像検出モデルはバックボーンネットワーク、3次元アライメントネットワーク、3次元アグリゲーションネットワーク及びターゲット検出ネットワークを含み、
前記訓練装置は、
画像サンプルのスライスサンプル画像シーケンスにおける各ターゲットサンプル画像について、対応するスライスサンプル画像組を決定するための第二取得モジュールであって、前記スライスサンプル画像組は、前記ターゲットサンプル画像、及び前記スライスサンプル画像シーケンスにおいて前記ターゲットサンプル画像とコンテキスト関係を有する隣接サンプル画像を含む、第二取得モジュール；
前記バックボーンネットワークにより、前記スライスサンプル画像組における各スライスサンプル画像について、対応するスライスサンプル特徴マップをそれぞれ抽出するためのサンプル特徴抽出モジュール；
前記3次元アライメントネットワークにより、前記スライスサンプル画像組に対応して抽出されたスライスサンプル特徴マップに対してアライメント操作を行うためのサンプルアライメントモジュール；
前記3次元アグリゲーションネットワークにより、アライメント後のサンプル特徴マップを用いて前記スライスサンプル画像組における各スライスサンプル画像のコンテキスト情報に対してアグリゲーションを行うためのサンプルアグリゲーションモジュール；及び
前記ターゲット検出ネットワークにより、アグリゲーション後のサンプル特徴マップに対してターゲット領域検出を行い、前記ターゲットサンプル画像に対応する検出結果を取得し、各ターゲットサンプル画像に対応する検出結果に対して合併を行い、前記画像サンプルに対応する検出結果を生成するためのサンプルターゲット検出モジュールを含み、
前記ターゲット検出ネットワークは分類ブランチ、回帰ブランチ及び中心点予測ブランチを含み、
前記ターゲット検出ネットワークにより、アグリゲーション後のサンプル特徴マップに対してターゲット領域検出を行うことは、
前記分類ブランチにより、アグリゲーション後のサンプル特徴マップにおける、ターゲット検出枠内にあるサンプル画素点に対応するカテゴリーを識別し；
前記回帰ブランチにより、前記サンプル画素点のバウンディングボックスを回帰によって取得し；及び
前記中心点予測ブランチにより、前記サンプル画素点から前記ターゲット検出枠の中心点までの相対距離を予測し、前記相対距離が所定距離を超えたときに、前記サンプル画素点のバウンディングボックスを除去することを含み、
前記サンプルターゲット検出モジュールは、さらに、
前記スライスサンプル画像に対応するスライスの厚さを取得し、前記スライスの厚さに基づいてスライス調整個数を決定し；及び
前記スライス調整個数のスライスサンプル画像を用いて非最大抑制操作を行い、不要な(redundant)検出枠を除去する、訓練装置。
コンピュータ装置であって、
記憶器、及び前記記憶器に接続される処理器を含み、
前記記憶器にはコンピュータプログラムが記憶されており、
前記処理器は、前記コンピュータプログラムを実行することにより、請求項１乃至６のうちの何れか1項に記載の画像データ検出方法、及び/又は、請求項７乃至９のうちの何れか1項に記載の画像検出モデルの訓練方法を実現するように構成される、コンピュータ装置。
コンピュータに、請求項１乃至６のうちの何れか1項に記載の画像データ検出方法、及び/又は、請求項７乃至９のうちの何れか1項に記載の画像検出モデルの訓練方法を実行させるためのプログラム。