JP7333520B2

JP7333520B2 - 学習プログラム、学習方法、及び情報処理装置

Info

Publication number: JP7333520B2
Application number: JP2020014105A
Authority: JP
Inventors: 彬酒井; 正明小松; 愛同前
Original assignee: Fujitsu Ltd; RIKEN Institute of Physical and Chemical Research; National Cancer Center Japan
Current assignee: Fujitsu Ltd; RIKEN Institute of Physical and Chemical Research; National Cancer Center Japan
Priority date: 2020-01-30
Filing date: 2020-01-30
Publication date: 2023-08-25
Anticipated expiration: 2040-01-30
Also published as: US11676361B2; JP2021120814A; US20210241460A1; EP3859606A1

Description

本発明は、学習プログラム、学習方法、及び情報処理装置に関する。

対象物を撮影した動画データから対象物を検出するために、動画データに含まれるフレーム画像それぞれに対して、ニューラルネットワーク（ＮＮＷ）を用いたセグメンテーションを行なう技術がある。

第１の手法として、2-way network等の２つのＮＮＷの一方に対象物の動きを表す合成画像（例えばoptical flow）を入力し、他方の静止画のセグメンテーション用ネットワークを用いて、対象物のセグメンテーションを行なう技術がある。

第２の手法として、動画データの前後の数フレーム画像をまとめてＮＮＷの入力として、対象物のセグメンテーションを行なう技術がある。

Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, "You Only Look Once: Unified, Real-Time Object Detection", arXiv:1506.02640v5 [cs.CV], 公開日: 2016年5月9日

例えば、動画データが、超音波検査映像又は監視カメラにより撮影された比較的低画質の監視映像等の、ノイズが多く、対象物の移動が小さい動画データである場合を想定する。このような動画データから、対象物をその形を含めて検出するような場合、上述した第１及び第２の手法では、以下のような不都合が生じる場合がある。

第１の手法は、対象物の動きを表す合成画像（例えばoptical flow）を入力の１つとするため、走行中の車等のような動きのある対象物、換言すれば画像フレーム間で位置が変化する対象物のセグメンテーションには適している。しかしながら、第１の手法では、位置の変化が比較的小さい対象物を撮影した動画データのように、対象領域に特化した詳細なセグメンテーションには適さない。

第２の手法では、セグメンテーションを行なう対象のフレーム画像を考慮して学習を行なうことができない。このため、例えば、ノイズ等の影響により、対象のフレーム画像に対象物が映っていない場合であっても、対象のフレーム画像の前後のフレーム画像に対象物が映っている場合、ＮＮＷは、対象のフレーム画像において対象物を誤検出する可能性がある。

このように、上述した第１及び第２の手法では、いずれも、動画データのフレーム画像の物体検出において、フレーム画像のノイズに対してロバスト性が低いといえる。

１つの側面では、本発明は、動画データのフレーム画像の物体検出における、フレーム画像のノイズに対するロバスト性の向上を図ることを目的とする。

１つの側面では、学習プログラムは、コンピュータに、以下の処理を実行させてよい。前記処理は、対象物を撮影した動画データと、前記動画データに含まれる複数のフレーム画像それぞれにおける対象物の領域を示す複数のアノテーション画像とを含む訓練データを取得してよい。また、前記処理は、前記訓練データを用いた学習処理を実行してよい。さらに、前記処理は、前記学習処理において、前記複数のフレーム画像に含まれる対象物を検出してよい。また、前記処理は、前記学習処理において、前記複数のフレーム画像のうちの第１フレーム画像の前記動画データの時系列における前後所定枚数の第２フレーム画像においてそれぞれ検出された前記対象物及び前記対象物の周辺領域を含む複数の部分画像、を合成した合成画像を自己符号化器に入力してよい。さらに、前記処理は、前記学習処理において、前記第１フレーム画像における検出された前記対象物及び前記対象物の周辺領域を含む部分画像を画像に対するセグメンテーション処理を行なうニューラルネットワークに入力してよい。また、前記処理は、前記学習処理において、前記自己符号化器からの出力画像と前記ニューラルネットワークからの出力画像とを合成した合成出力画像と、前記第１フレーム画像における前記対象物の領域を示すアノテーション画像の部分画像との差分に基づいて、前記自己符号化器及び前記ニューラルネットワークそれぞれのパラメータ更新を行なってよい。

１つの側面では、動画データのフレーム画像の物体検出における、フレーム画像のノイズに対するロバスト性を向上させることができる。

一実施形態に係る情報処理装置による学習処理の一例を説明するための図である。一実施形態に係る情報処理装置による学習処理の他の例を説明するための図である。超音波により撮像した胸部の断面図の一例を示す図である。胸郭領域のセグメンテーション結果の一例を示す図である。一実施形態に係るサーバの機能構成例を示すブロック図である。訓練データの一例を示す図である。入力データの一例を示す図である。出力データの一例を示す図である。学習フェーズの動作例を説明するためのフローチャートである。学習フェーズの動作例を説明するための図である。特徴量出力部及び自己符号化器の構成例を示す図である。加算部の構成及び動作の一例を説明するための図である。推定フェーズの動作例を説明するためのフローチャートである。推定フェーズの動作例を説明するための図である。推定フェーズの動作例を説明するための図である。加算部の構成及び動作の一例を説明するための図である。一実施形態に係るコンピュータのハードウェア構成例を示すブロック図である。

以下、図面を参照して本発明の実施の形態を説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図はない。例えば、本実施形態を、その趣旨を逸脱しない範囲で種々変形して実施することができる。なお、以下の実施形態で用いる図面において、同一符号を付した部分は、特に断らない限り、同一若しくは同様の部分を表す。

〔１〕一実施形態
〔１－１〕情報処理装置による学習処理の説明
図１は、一実施形態に係る情報処理装置１による学習処理の一例を説明するための図である。なお、図１の説明では、「動画データ」は、例えば、フレーム画像のサイズに対して比較的小さい対象物を撮影した、エコー映像等のノイズが含まれる映像データであるものとし、「対象物」は、エコー映像の撮影対象の所定の部位であるものとする。

情報処理装置１は、対象物を撮影した動画データと、動画データに含まれる複数のフレーム画像それぞれにおける対象物の領域を示す複数のアノテーション画像とを含む訓練データを取得する。そして、情報処理装置１は、訓練データを用いた学習処理を実行する。

例えば、情報処理装置１は、図１に示すように、学習処理において、複数のフレーム画像のそれぞれについて、以下の（ａ）～（ｄ）の処理を実行する。（ａ）～（ｄ）の処理は、一例として、対象とする（着目する）フレーム画像である第１フレーム画像を動画データの時系列順に変更しながら、繰り返し実行されてよい。以下の説明では、フレーム画像の画像全体を「全体画像」と表記する場合がある。

（ａ）情報処理装置１は、複数のフレーム画像に含まれる対象物を検出する。

例えば、図１に示すように、情報処理装置１は、複数のフレーム画像のうちの、動画データの時系列における（ｔ－ｎ）～（ｔ＋ｎ）番目の全体画像１ａにそれぞれ含まれる対象物を検出してよい。ｔは第１フレーム画像を示す変数である。ｎは１以上の整数であり、所定数（所定枚数）の一例である。また、（ｔ－ｎ）～（ｔ－１）、及び、（ｔ＋１）～（ｔ＋ｎ）番目のフレーム画像は、第１フレーム画像１ａの前後ｎ枚の第２フレーム画像１ａの一例である。なお、図１及びそれ以降の図面中では、簡単のために、（ｔ－ｎ）～（ｔ＋ｎ）番目の全体画像１ａを、「全体画像（ｔ±ｎ）」と表記する。

なお、情報処理装置１は、上記に加えて、訓練データに含まれる、（ｔ）番目の全体画像１ａのアノテーション画像１ｂに含まれる対象物を検出してよい。

情報処理装置１は、例えば、物体検知部２により、全体画像１ａ及びアノテーション画像１ｂから対象物を検出してよい。物体検知部２は、例えば、訓練データのデータセットを用いて生成された、入力画像に含まれる対象物の領域を特定する学習済みの物体検知モデルであってよく、一例として、ＹＯＬＯ等の物体検出ＮＮＷであってよい。

物体検知部２は、対象物の検出結果として、対象周辺画像２ａ～２ｃ及び対象周辺アノテーション画像２ｄを出力してよい。

対象周辺画像２ａは、第１フレーム画像１ａの前のｎ枚、すなわち（ｔ－ｎ）～（ｔ－１）の第２フレーム画像１ａにおいて検出された対象物及び対象物の周辺領域を含む複数の部分画像である。

対象周辺画像２ｂは、第１フレーム画像１ａの後のｎ枚、すなわち（ｔ＋１）～（ｔ＋ｎ）の第２フレーム画像１ａにおいて検出された対象物及び対象物の周辺領域を含む複数の部分画像である。

なお、図１及びそれ以降の図面中では、簡単のために、（ｔ－ｎ）～（ｔ－１）の対象周辺画像２ａを、「対象周辺画像（ｔ－ｎ）」と表記し、（ｔ＋１）～（ｔ＋ｎ）の対象周辺画像２ｂを、「対象周辺画像（ｔ＋ｎ）」と表記する。

対象周辺画像２ｃは、（ｔ）番目の第１フレーム画像１ａにおいて検出された対象物及び対象物の周辺領域を含む部分画像である。

対象周辺アノテーション画像２ｄは、アノテーション画像１ｂにおいて検出された対象物及び対象物の周辺領域を含む部分画像であり、例えばアノテーション画像１ｂから、対象周辺画像２ｃと同一の部分領域を切り出した部分画像である。

（ｂ）情報処理装置１は、対象周辺画像２ａ及び２ｂを合成した合成画像を自己符号化器４に入力する。

例えば、情報処理装置１は、対象周辺画像２ａ及び２ｂをチャネル方向にｎ枚並べることで合成を行なってよい。

自己符号化器４は、サポートモジュール７の一例である。自己符号化器４としては、例えば、中間層のユニット数が入力層及び出力層のそれぞれのユニット数と比較して少ないＮＮＷ、一例として、オートエンコーダが挙げられる。

（ｃ）情報処理装置１は、対象周辺画像２ｃを、画像に対するセグメンテーション処理を行なうセグメンテーション部５に入力する。

セグメンテーション部５は、セグメンテーションモジュール８の一例である。セグメンテーション部５としては、種々のセグメンテーション用のＮＮＷが挙げられるが、一実施形態では、例えば、U-Netが用いられるものとする。なお、セグメンテーション部５は、U-Netに限定されるものではなく、Semantic Segmentationを実行する他のニューラルネットワークであってもよく、Semantic Segmentation以外のセグメンテーション手法を用いるニューラルネットワークであってもよい。

自己符号化器４及びセグメンテーション部５は、それぞれ、学習処理において学習が行なわれる対象のＮＮＷである。

（ｄ）情報処理装置１は、自己符号化器４からの出力画像とセグメンテーション部５からの出力画像とを合成した合成出力画像と、対象周辺アノテーション画像２ｄとの差分に基づき、自己符号化器４及びセグメンテーション部５の各々のパラメータ更新を行なう。

情報処理装置１は、例えば、加算部６により、自己符号化器４からの出力画像とセグメンテーション部５からの出力画像とを、ピクセルごとに足し合わせることで合成出力画像を生成してよい。合成出力画像は、セグメンテーション済み画像の一例である。そして、情報処理装置１は、例えば、加算部６に対象周辺アノテーション画像２ｄを入力し、合成出力画像と対象周辺アノテーション画像２ｄとの差分に基づき、後方誤差伝播等により自己符号化器４及びセグメンテーション部５の学習を行なってよい。

これにより、情報処理装置１は、第１フレーム画像１ａの前後画像のコンテクストに基づく補完情報を出力するサポートモジュール７に対して、対象周辺アノテーション画像２ｄに基づく学習を行なうことができる。また、第１フレーム画像１ａのセグメンテーション結果を出力するセグメンテーションモジュール８に対して、対象周辺アノテーション画像２ｄに基づく学習を行なうことができる。

従って、動画データのフレーム画像１ａの物体検出において、フレーム画像１ａにノイズが含まれる場合であっても、第１フレーム画像１ａの前後画像を考慮しつつ、第１フレーム画像１ａに着目したセグメンテーション結果を出力するネットワークを構築できる。

以上のことから、一実施形態に係る情報処理装置１によれば、動画データのフレーム画像１ａの物体検出における、フレーム画像１ａのノイズに対するロバスト性を向上させることができる。

また、一実施形態に係る情報処理装置１は、図２に例示するように、サポートモジュール７に特徴量出力部３を備えてもよい。特徴量出力部３は、対象物を撮影したフレーム画像１ａとは異なる画像のデータセットを用いて生成された学習済みモデルであって、入力画像に対するラベルを推定する学習済みモデルであってよい。

特徴量出力部３としては、例えば、VGG-Backboneが挙げられる。VGG-Backboneは、例えば、ＶＧＧ等の学習済みのＮＮＷから出力層を取り除いたＮＮＷであってよい。一例として、VGG-Backboneは、ＶＧＧから出力層としての全結合層を取り除いた、畳み込み層及びプーリング層を含むＮＮＷであってよい。なお、ＶＧＧは、一実施形態で利用可能な学習済みのＮＮＷの一例である。一実施形態で利用される学習済みのＮＮＷはＶＧＧ（或いはVGG-Backbone）のみに限定されない。

例えば、図２に示す情報処理装置１は、特徴量出力部３に（ｔ）番目の第１フレーム画像（全体画像）１ａを入力して得られた第１フレーム画像１ａ全体に関する特徴量、換言すれば画像全体に対するコンテクストを、自己符号化器４の中間層に入力してよい。

なお、自己符号化器４の中間層としては、例えば、自己符号化器４のボトルネックであってよく、一例として、自己符号化器４の各層のうちの、処理する画像サイズ（縦横サイズ）が最小となる層であってよい。

これにより、対象周辺画像２ａ及び２ｂの合成画像を入力とする自己符号化器４は、第１フレーム画像１ａの前後画像のコンテクストに加えて、特徴量出力部３からの画像全体のコンテクストを活用することができる。従って、自己符号化器４からの出力の精度を向上させることができる。

〔１－２〕一実施形態の構成例
以下の説明では、情報処理装置１による学習処理及び推定処理が、超音波画像診断における心臓の心室中隔と呼ばれる部位の欠損の有無の判定に利用される場合を例に挙げる。

図３に例示するように、超音波画像に含まれる心室中隔は、ノイズによって欠損があるように見えてしまうことがある。ノイズは、動画データのフレーム画像ごとに異なる位置に生じ得る。従って、第１フレーム画像に含まれる心室中隔の欠損の有無を判定するために、第１フレーム画像の前後の第２フレーム画像の情報を用いて、図４に例示するように、心室中隔の部分にセグメンテーションを行なうことが重要である。

図５は、一実施形態に係るサーバ１０の機能構成例を示すブロック図である。サーバ１０は、フレーム画像から対象物を推定するためのＮＮＷ群の学習を行なうとともに、ＮＮＷ群を用いて対象物を推定する装置であり、図１に示す情報処理装置１の一例である。

一実施形態の説明において、セグメンテーション対象の対象物は、心室中隔であり、セグメンテーションが行なわれる画像は、心室中隔を含む胸郭、例えば胎児胸部を撮像した、エコー画像等の超音波画像であるものとする。

図５に示すように、サーバ１０は、例示的に、メモリ部１１、物体検知部１２、特徴量出力部１３、自己符号化器１４、セグメンテーション部１５、取得部１６、学習部１７、実行部１８、及び出力部１９を備えてよい。

メモリ部１１は、記憶領域の一例であり、自己符号化器１４及びセグメンテーション部１５の学習、ＮＮＷ群を用いた推定処理の実行及び出力等に用いられる種々の情報を記憶する。図５に示すように、メモリ部１１は、例示的に、複数のモデル情報１１ａ、訓練データ１１ｂ、入力データ１１ｃ及び出力データ１１ｄを記憶可能であってよい。

物体検知部１２は、図１に示す物体検知部２の一例であり、例えば、入力される複数の画像のそれぞれから対象物を検出し、検出した対象物及び対象物の周辺領域を含む複数の部分画像を出力する。部分領域は、例えば、入力される画像から、対象物及び対象物の周辺領域を含む領域を矩形に切り出すことで生成されてよい。

物体検知部１２は、例えば、訓練データ１１ｂを用いて生成された、入力画像に含まれる対象物の領域を特定する、事前に学習済みの物体検知モデルであってよく、一例として、ＹＯＬＯ等の物体検出ＮＮＷであってよい。例えば、サーバ１０の管理者又は利用者は、訓練データ１１ｂを用いて、予め物体検知部１２の学習を実行してよい。

特徴量出力部１３は、図１に示す特徴量出力部３の一例である。特徴量出力部１３は、例えば、対象物を撮影した画像とは異なる画像のデータセットを用いて生成された学習済みモデルであって、入力画像に対するラベルを推定する学習済みモデルであってよい。

特徴量出力部１３としては、例えば、VGG-Backboneが挙げられる。一例として、VGG-Backboneは、ＶＧＧから出力層としての全結合層を取り除いた、畳み込み層及びプーリング層を含むＮＮＷであってよい。なお、ＶＧＧは、一実施形態で利用可能な学習済みのＮＮＷの一例である。一実施形態で利用される学習済みのＮＮＷはＶＧＧ（或いはVGG-Backbone）のみに限定されない。

なお、特徴量出力部１３は、訓練データ１１ｂ内の画像とは異なる画像のデータセットを用いて生成されたものであるから、インターネット等において一般公開されているＶＧＧ等の学習済みＮＮＷを流用又は加工したモデルであってもよい。

自己符号化器１４は、図１に示す自己符号化器４の一例である。自己符号化器１４としては、例えば、中間層のユニット数が入力層及び出力層のそれぞれのユニット数と比較して少ないＮＮＷ、一例として、オートエンコーダが挙げられる。

特徴量出力部１３及び自己符号化器１４は、サポートモジュール７の一例である。

セグメンテーション部１５は、図１に示すセグメンテーション部５の一例であり、セグメンテーションモジュール８の一例である。セグメンテーション部１５としては、種々のセグメンテーション用のＮＮＷが挙げられるが、一実施形態では、例えば、U-Netが用いられるものとする。なお、セグメンテーション部１５は、U-Netに限定されるものではなく、Semantic Segmentationを実行する他のニューラルネットワークであってもよく、Semantic Segmentation以外のセグメンテーション手法を用いるニューラルネットワークであってもよい。

自己符号化器１４及びセグメンテーション部１５は、それぞれ、サーバ１０における学習処理において学習が行なわれる対象のＮＮＷである。

以下の説明において、物体検知部１２、特徴量出力部１３、自己符号化器１４、及び、セグメンテーション部１５を、「ＮＮＷ」又は「ＮＮＷ群」と表記する場合がある。

ＮＮＷ１２～１５を実現するためのネットワーク構造や各種パラメータ等の情報は、例えば、ＮＮＷ１２～１５別にモデル情報１１ａとしてメモリ部１１に記憶されてよい。

取得部１６は、自己符号化器１４及びセグメンテーション部１５の学習及び実行に用いる情報を、例えば図示しないコンピュータから取得する。

例えば、取得部１６は、自己符号化器１４及びセグメンテーション部１５の学習に用いる訓練データ１１ｂを取得し、メモリ部１１に格納してよい。

訓練データ１１ｂは、対象物を撮影した動画データと、動画データに含まれる複数のフレーム画像それぞれにおける対象物の領域を示す複数のアノテーション画像とを含んでよい。

例えば、訓練データ１１ｂは、図６に示すように、ｍ個（ｍ：２以上、例えばｎよりも大きい、整数）の画像セット１１０を含んでよい。各画像セット１１０は、対象物（「訓練用対象物」と称されてもよい）を撮影した画像１１１と、当該画像１１１のセグメンテーションの正解データとしてのアノテーション画像１１２とを含んでよい。

画像１１１は、フレーム画像の一例であり、例えば、図６に示すように、対象物の一例である心室中隔を撮像したエコー画像であってよい。複数の画像セット１１０における各エコー画像は、一連のエコー映像から時系列（例えばＴ＝０～（ｍ－１））に切り出されたフレームであってもよい。画像１１１は、「全体画像」と称されてもよい。

アノテーション画像１１２は、アノテーション画像の一例であり、例えば、図６に示すように、画像セット１１０の画像１１１における対象物（図６の例では「心室中隔」）をマスクした画像である。なお、「マスク」とは、例えば、マスク対象の領域を、マスク対象ではない領域と区別可能な態様で表示することを意味し、一例として、マスク対象の領域を所定の色で塗り潰す（マスク対象の領域のピクセルに所定の色を設定する）ことであってよい。図６の例では、マスクされた領域、換言すれば胸郭に対応する領域を白塗りで示し、その他の領域、換言すれば胸郭以外の領域を黒塗りで示す。

なお、サーバ１０は、複数の訓練データ１１ｂを用いて、換言すれば、複数の動画データ分のデータセットを用いて、自己符号化器１４及びセグメンテーション部１５の学習を行なってもよい。

また、取得部１６は、ＮＮＷ群１２～１５による推定処理に用いる入力データ１１ｃを取得し、メモリ部１１に格納してよい。

入力データ１１ｃは、推定対象物を撮影した対象動画データを含む対象データの一例である。

例えば、入力データ１１ｃは、図７に示すように、対象物（「推定対象物」と称されてもよい）を撮影した画像１１３を複数枚含んでよい。

画像１１３は、対象フレーム画像の一例であり、例えば、図７に示すように、推定対象物の一例である心室中隔を撮像したエコー画像であってよい。入力データ１１ｃに含まれる各エコー画像は、一連のエコー映像から時系列（例えばＴ＝０～（ｍ－１））に切り出されたフレームであってもよい。画像１１３は、「全体画像」と称されてもよい。

学習部１７は、学習実行部の一例であり、取得部１６が取得した訓練データ１１ｂを用いて、自己符号化器１４及びセグメンテーション部１５のそれぞれの学習を行なう。

実行部１８は、入力データ１１ｃに対する推定対象物の領域の推定処理を実行する推定処理部の一例である。実行部１８は、例えば、学習部１７による学習済みの自己符号化器１４及びセグメンテーション部１５と、取得部１６が取得した入力データ１１ｃとを用いて、入力データ１１ｃに対する対象物のセグメンテーションの推定処理を行なう。

出力部１９は、実行部１８から入力される、後述するセグメンテーション済み画像１１５をメモリ部１１に出力（蓄積）し、蓄積した複数のセグメンテーション済み画像１１５に基づき、出力データ１１ｄを作成してよい。

出力データ１１ｄは、１以上のセグメンテーション済み画像１１５、換言すれば１以上の出力画像を含む画像セットであり、例えば、複数のフレーム画像を含む映像等の動画データであってよい。一実施形態では、出力データ１１ｄは、図８に例示するように、各セグメンテーション済み画像１１５をフレーム画像として時系列に結合した映像であってよい。

なお、出力部１９は、出力データ１１ｄを、例えば図示しないコンピュータに送信してもよい。

〔１－３〕動作例
次に、上述の如く構成されたサーバ１０の動作例を説明する。

〔１－３－１〕学習フェーズの動作例
図９は、学習フェーズの動作例を説明するためのフローチャートであり、図１０は、学習フェーズの動作例を説明するための図である。

ＮＮＷ群１２～１５は、サーバ１０において、図１０に例示する構成により、相互に接続されてよい。学習部１７は、学習フェーズにおいて、自己符号化器１４及びセグメンテーション部１５の学習を行なうために、図１０に例示するように、後述する合成部１７ａ及び加算部１７ｂを備えてよい。

図９に例示するように、学習部１７は、取得部１６が取得した訓練データ１１ｂに含まれる時系列画像１１１から、（ｔ－ｎ）～（ｔ＋ｎ）番目の全体画像１１１、及び、（ｔ）番目のアノテーション画像１１２を取得する（ステップＳ１）。図１０及びそれ以降の図面中では、簡単のために、（ｔ－ｎ）～（ｔ＋ｎ）番目の全体画像１１１を、「全体画像（ｔ±ｎ）」と表記する。なお、ｎの値としては、一例として、“３”等であってよい。

学習部１７は、取得した（ｔ－ｎ）～（ｔ＋ｎ）番目の全体画像１１１、並びに、（ｔ）番目のアノテーション画像１１２のそれぞれのサイズを、物体検知部１２の入力サイズにリサイズした全体画像１１１及びアノテーション画像１１２を生成してよい。また、学習部１７は、取得した（ｔ）番目の全体画像１１１のサイズを、特徴量出力部１３の入力サイズにリサイズした全体画像１１１を生成してよい。

学習部１７は、リサイズした（ｔ－ｎ）～（ｔ＋ｎ）番目の全体画像１１１を物体検知部１２に入力する（ステップＳ２：図１０の符号Ａ参照）。

また、学習部１７は、リサイズした（ｔ）番目の全体画像１１１を特徴量出力部１３に入力する（ステップＳ３：図１０の符号Ｂ参照）。特徴量出力部１３は、入力された（ｔ）番目の全体画像１１１の特徴量を抽出し、抽出した特徴量を自己符号化器１４の中間層に入力する（ステップＳ４：図１０の符号Ｃ参照）。

図１１は、特徴量出力部１３及び自己符号化器１４の構成例を示す図である。図１１に示す例において、VGG-Backbone（ＶＧＧバックボーン）１３０は特徴量出力部１３の一例であり、Auto Encoder（オートエンコーダ）１４０は自己符号化器１４の一例である。

図１１に示すように、ＶＧＧバックボーン１３０は、ＶＧＧバックボーン１３０で抽出された特徴量を出力する層１３１を少なくとも備える。オートエンコーダ１４０は、畳み込み層等の複数の層１４１～１４６を備える。なお、図１１の例では、ＶＧＧバックボーン１３０の１つの層１３１を示し、層１３１よりも前段の層の図示を省略している。

図１１において、層１３１及び層１４１～１４６のブロック中に示す（ｘ，ｙ，ｚ）は、各層１３１、１４１～１４６で扱われる（処理される）情報のサイズを示す。例えば、ｘ，ｙは、画像の縦及び横のサイズを示し、ｚはチャネル数を示す。

ＶＧＧバックボーン１３０の層１３１から出力される特徴量は、オートエンコーダ１４０の層１４３の出力に対して、チャネル方向に結合（concatenate）されて、層１４４に入力されてよい（図９のステップＳ４及び図１０の符号Ｃ参照）。

層１４４は、層１４３の出力（４，４，３２）と、層１３１の出力（４，４，３２）とがチャネル（ｚ）方向に連結された（４，４，６４）の情報を用いて処理を行なう。また、層１４５は、層１３１の出力（４，４，３２）である特徴量を加味した処理を行ない、対向する層１４２と同じサイズである（１６，１６，６）の情報を出力する。

このように、層１４４は、自己符号化器１４の中間層の一例である。中間層は、一例として、サイズ（ｘ，ｙ）が最小となる層、換言すれば、オートエンコーダ１４０のボトルネックであってよい。

なお、層１３１からの特徴量の出力先となるオートエンコーダ１４０の中間層は、図１１に示す例に限定されるものではなく、オートエンコーダ１４０の層のうちの、入力層１４１及び出力層１４６の間の種々の層であってもよい。

図９の説明に戻り、物体検知部１２は、ステップＳ２（図１０の符号Ａ）で入力された（ｔ－ｎ）～（ｔ＋ｎ）番目の全体画像１１１のそれぞれから対象物を検出し、検出した対象物及びその周辺領域を含む対象周辺画像１２ａ～１２ｃを出力する。

例えば、学習部１７は、物体検知部１２から出力される（ｔ）番目の対象周辺画像１２ｃをセグメンテーション部１５に入力する（ステップＳ５：図１０の符号Ｄ参照）。セグメンテーション部１５は、（ｔ）番目の対象周辺画像１２ｃに基づき、対象物をセグメンテーションした（例えばマスクした）セグメンテーション画像１５ａを、加算部１７ｂに入力する（ステップＳ６：図１０の符号Ｅ参照）。

また、例えば、学習部１７は、物体検知部１２から出力される（ｔ－ｎ）～（ｔ－１）番目のｎ枚の対象周辺画像１２ａ、及び、（ｔ＋１）～（ｔ＋ｎ）番目のｎ枚の対象周辺画像１２ｂを、それぞれ合成部１７ａにより合成する（図１０参照）。

なお、図１０及びそれ以降の図面中では、簡単のために、（ｔ－ｎ）～（ｔ－１）の対象周辺画像１２ａを、「対象周辺画像（ｔ－ｎ）」と表記し、（ｔ＋１）～（ｔ＋ｎ）の対象周辺画像１２ｂを、「対象周辺画像（ｔ＋ｎ）」と表記する。

合成部１７ａは、例えば、ｎ枚の画像をチャネル方向に並べることで、合成画像１２ｅを出力してよい。一例として、合成部１７ａは、（ｔ－ｎ）～（ｔ－１）番目のｎ枚の対象周辺画像１２ａを用いた合成画像１２ｅ、並びに、（ｔ＋１）～（ｔ＋ｎ）番目のｎ枚の対象周辺画像１２ｂを用いた合成画像１２ｅ、の２つの合成画像１２ｅを出力してもよい。なお、合成部１７ａは、（ｔ－ｎ）～（ｔ－１）及び（ｔ＋１）～（ｔ＋ｎ）の対象周辺画像１２ａ及び１２ｂ（２ｎ枚の画像）を用いて１つの合成画像１２ｅを出力してもよい。

そして、学習部１７は、合成部１７ａから出力される合成画像１２ｅを、自己符号化器１４に入力する（ステップＳ７：図１０の符号Ｆ参照）。

自己符号化器１４は、（ｔ－ｎ）～（ｔ－１）、及び、（ｔ＋１）～（ｔ＋ｎ）の各合成画像１２ｅを入力層の入力とし、且つ、特徴量出力部１３から入力される特徴量を中間層の入力として、出力層から出力画像１４ａを出力する。図１１の例では、入力層は層１４１、中間層は層１４４、出力層は層１４６であってよい。

学習部１７は、自己符号化器１４から出力される出力画像１４ａを、加算部１７ｂに入力する（ステップＳ８：図１０の符号Ｇ参照）。

図１２は、加算部１７ｂの構成及び動作の一例を説明するための図である。図１２に示すように、加算部１７ｂは、例示的に、加算処理部１７１、差分算出部１７２、及び、学習処理部１７３の処理機能を備えてよい。

加算処理部１７１は、セグメンテーション部１５から出力されるセグメンテーション画像１５ａと、自己符号化器１４から出力される出力画像１４ａとをピクセルごとに足し合わせることで、合成出力画像１２ｆを生成する（ステップＳ９：図１２の符号Ｈ参照）。

差分算出部１７２は、加算処理部１７１から出力される合成出力画像１２ｆと、物体検知部１２から出力される対象周辺アノテーション画像１２ｄとの差分１２ｇを算出し、学習処理部１７３に出力する。差分算出部１７２による差分の算出手法としては、例えば、最小二乗法等の既知の種々の手法が挙げられる。

ここで、差分算出部１７２に入力される対象周辺アノテーション画像１２ｄについて説明する。図９に示すように、学習部１７は、リサイズした（ｔ）番目のアノテーション画像１１２を物体検知部１２に入力する（ステップＳ１０：図１０の符号Ｉ参照）。

なお、物体検知部１２に対する、アノテーション画像１１２の入力（ステップＳ１０）は、例えば、物体検知部１２及び特徴量出力部１３に対する、（ｔ－ｎ）～（ｔ＋ｎ）番目の全体画像１１１の入力（ステップＳ２及びＳ３）と並行して行なわれてもよい。

物体検知部１２は、入力された（ｔ）番目のアノテーション画像１１２から、（ｔ）番目の対象周辺画像１２ｃと同一の部分領域を切り出した対象周辺アノテーション画像１２ｄを出力する。

例えば、学習部１７は、物体検知部１２から出力される（ｔ）番目の対象周辺アノテーション画像１２ｄを、加算部１７ｂの差分算出部１７２に入力する（ステップＳ１１：図１０の符号Ｊ、図１２の符号Ｋ参照）。

学習処理部１７３は、差分算出部１７２により算出された差分１２ｇに基づき、自己符号化器１４及びセグメンテーション部１５のそれぞれの学習を行ない（ステップＳ１２：図１２の符号Ｌ参照）、処理が終了する。

学習処理部１７３による自己符号化器１４及びセグメンテーション部１５の学習手法としては、種々の機械学習手法が用いられてよい。一例として、機械学習処理では、差分１２ｇ、換言すれば誤差関数の値を小さくするために、自己符号化器１４及びセグメンテーション部１５のそれぞれの前方伝播方向の処理で使用するパラメータを決定（更新）する後方伝播処理が実行されてよい。そして、機械学習処理では、後方伝播処理の結果に基づいて重み等の変数を更新する更新処理が実行されてよい。

学習部１７は、例えば、訓練データ１１ｂに含まれる複数の画像セット１１０を用いて、繰り返し回数又は精度等が閾値に達するまで、自己符号化器１４及びセグメンテーション部１５の機械学習処理を繰り返し実行してよい。学習が終了した自己符号化器１４及びセグメンテーション部１５は、訓練済みモデルの一例である。

例えば、学習部１７は、動画データ内のフレーム番号に相当する（ｔ）の値を変化させることで、訓練データ１１ｂ内の複数の画像１１１それぞれを第１フレーム画像として、図９に示すステップＳ１～Ｓ１２の処理を実行してよい。なお、訓練データ１１ｂとしての動画データ内の先頭及び末尾からそれぞれ（ｎ－１）番目までの画像１１１については、第１フレーム画像の選択対象から除外されてよい。

〔１－３－２〕推定フェーズの動作例
図１３は、推定フェーズの動作例を説明するためのフローチャートであり、図１４及び図１５は、それぞれ、推定フェーズの動作例を説明するための図である。

実行部１８は、推定フェーズにおいて、推定対象物のセグメンテーションの推定を行なうために、図１４に例示するように、後述する合成部１８ａ及び加算部１８ｂを備えてよい。なお、合成部１８ａは、合成部１７ａと同様の処理機能を有してよい。また、図１４は、画像１１３の符号、アノテーション画像１１２が物体検知部１２に入力されない点、物体検知部１２が対象周辺アノテーション画像１２ｄに代えて、対象周辺画像１２ｃの切り出し位置情報１２ｈを出力する点、並びに、加算部１８ｂの構成が図９と異なるが、データの流れは図９と基本的に同様である。

図１３に例示するように、実行部１８は、取得部１６が取得した入力データ１１ｃに含まれる時系列画像１１３から、（ｔ－ｎ）～（ｔ＋ｎ）番目の全体画像１１３を取得する（ステップＳ２１：図１４参照）。

なお、（ｔ）番目の全体画像１１３は、第３フレーム画像の一例であり、（ｔ－ｎ）～（ｔ－１）及び（ｔ＋１）～（ｔ＋ｎ）番目の全体画像１１３は、対象動画データの時系列における第３フレーム画像の前後所定枚数の第４フレーム画像の一例である。

図１５に示すように、実行部１８は、例えば、取得した（ｔ－ｎ）～（ｔ＋ｎ）番目の全体画像１１３のそれぞれのサイズを、物体検知部１２の入力サイズにリサイズした全体画像１１３’を生成してよい。また、実行部１８は、図１５に例示するように、取得した（ｔ）番目の全体画像１１３のサイズを、特徴量出力部１３の入力サイズにリサイズした全体画像１１３”を生成してよい。

実行部１８は、リサイズした（ｔ－ｎ）～（ｔ＋ｎ）番目の全体画像１１３’を物体検知部１２に入力する（ステップＳ２２）。

また、実行部１８は、リサイズした（ｔ）番目の全体画像１１３”を特徴量出力部１３に入力する（ステップＳ２３）。特徴量出力部１３は、入力された（ｔ）番目の全体画像１１３”の特徴量を抽出し、抽出した特徴量を自己符号化器１４の中間層に入力する（ステップＳ２４）。

物体検知部１２は、ステップＳ２２で入力された（ｔ－ｎ）～（ｔ＋ｎ）番目の全体画像１１３’のそれぞれから推定対象物を検出する。そして、物体検知部１２は、検出した推定対象物及びその周辺領域を含む対象周辺画像１２ａ～１２ｃ（図１５参照）、換言すれば複数の部分画像を出力する。

例えば、実行部１８は、物体検知部１２から出力される（ｔ）番目の対象周辺画像１２ｃを、学習部１７によるパラメータ更新により訓練済みのセグメンテーション部１５に入力する（ステップＳ２５）。セグメンテーション部１５は、入力された対象周辺画像１２ｃに基づき、推定対象物をセグメンテーションしたセグメンテーション画像１５ａ（図１５参照）を加算部１８ｂに入力する（ステップＳ２６）。

また、例えば、実行部１８は、物体検知部１２から出力される（ｔ－ｎ）～（ｔ－１）番目のｎ枚の対象周辺画像１２ａ、及び、（ｔ＋１）～（ｔ＋ｎ）番目のｎ枚の対象周辺画像１２ｂを、それぞれ合成部１８ａにより合成する。

合成部１８ａは、合成部１７ａと同様に、例えば、ｎ枚の画像をチャネル方向に並べることで、合成画像１２ｅを出力してよい。なお、合成部１８ａは、（ｔ－ｎ）～（ｔ－１）及び（ｔ＋１）～（ｔ＋ｎ）の対象周辺画像１２ａ及び１２ｂ（２ｎ枚の画像）を用いて１つの合成画像１２ｅを出力してもよい。

そして、実行部１８は、合成部１８ａから出力される合成画像１２ｅを、学習部１７によるパラメータ更新により訓練済みの自己符号化器１４に入力する（ステップＳ２７）。

自己符号化器１４は、（ｔ－ｎ）～（ｔ－１）、及び、（ｔ＋１）～（ｔ＋ｎ）の各合成画像１２ｅを入力層の入力とし、且つ、特徴量出力部１３から入力される特徴量を中間層の入力として、出力層から出力画像１４ａ（図１５参照）を出力する。

実行部１８は、自己符号化器１４から出力される出力画像１４ａを、加算部１８ｂに入力する（ステップＳ２８）。

図１６は、加算部１８ｂの構成及び動作の一例を説明するための図である。図１６に示すように、加算部１８ｂは、例示的に、加算処理部１８１、及び、サイズ復元部１８２の処理機能を備えてよい。

加算処理部１８１は、セグメンテーション部１５から出力されるセグメンテーション画像１５ａと、自己符号化器１４から出力される出力画像１４ａとをピクセルごとに足し合わせることで、合成出力画像１１４（図１５参照）を生成する（ステップＳ２９）。

サイズ復元部１８２は、加算処理部１８１から出力される合成出力画像１１４と、物体検知部１２から出力される対象周辺画像１２ｃの切り出し位置情報１２ｈとを入力とする。

ここで、サイズ復元部１８２に入力される切り出し位置情報１２ｈについて説明する。

図１３に示すように、物体検知部１２は、ステップＳ２２において（ｔ）番目の全体画像１１３’が入力されると、対象周辺画像１２ｃとともに、全体画像１１３’における対象周辺画像１２ｃの切り出し位置情報１２ｈを出力する。実行部１８は、例えば、物体検知部１２から出力される切り出し位置情報１２ｈを加算部１８ｂのサイズ復元部１８２に入力する（ステップＳ３０：図１５及び図１６参照）。

切り出し位置情報１２ｈは、（ｔ）番目の全体画像１１３’における（ｔ）番目の対象周辺画像１２ｃが切り出された位置を示す位置情報の一例である。切り出し位置情報１２ｈとしては、例えば、全体画像１１３’における、対象周辺画像１２ｃの切り出し位置（領域）を示す座標情報等が挙げられる。

サイズ復元部１８２は、合成出力画像１１４と切り出し位置情報１２ｈとに基づき、合成出力画像１１４を元の全体画像１１３のサイズに復元したセグメンテーション済み画像１１５を生成する（ステップＳ３１）。セグメンテーション済み画像１１５は、全体画像１１３における推定対象物であると推定した領域を含む画像の一例である。

例えば、サイズ復元部１８２は、切り出し位置情報１２ｈが示す切り出し座標に基づいて、合成出力画像１１４を元の（ｔ）番目の全体画像１１３に当て嵌めることで、復元を行なってよい。このため、サイズ復元部１８２には、例えば、（ｔ）番目の対象周辺画像１２ｃの切り出し位置情報１２ｈに加えて、（ｔ）番目の全体画像１１３が入力されてもよい。

実行部１８は、例えば、対象動画データ内のフレーム番号に相当する（ｔ）の値を変化させることで、入力データ１１ｃ内の複数の画像１１３それぞれを第３フレーム画像として、図１３に示すステップＳ２１～Ｓ３１の処理を実行してよい。なお、入力データ１１ｃとしての動画データ内の先頭及び末尾からそれぞれ（ｎ－１）番目までの画像１１３については、第３フレーム画像の選択対象から除外されてよい。

出力部１９は、セグメンテーション済み画像１１５を蓄積し、蓄積したセグメンテーション済み画像１１５を結合した出力データ１１ｄを出力し（ステップＳ３２）、処理が終了する。なお、出力データ１１ｄの出力先としては、例えば、メモリ部１１の他に、図示しないコンピュータ等が挙げられる。

以上のように、実行部１８及び出力部１９は、合成出力画像１１４と、切り出し位置情報１２ｈとに基づいて、第３フレーム画像における推定対象物であると推定した領域を含む画像を出力する画像出力部の一例である。

〔１－４〕一実施形態の効果
以上のように、一実施形態に係るサーバ１０によれば、以下の３種類の画像１１３、１２ａ～１２ｃを、それぞれ互いに異なるＮＮＷ１３～１５に入力し、ＮＮＷ１３～１５からの出力（結果）を統合することで、対象物のセグメンテーションを行なう。

例えば、サーバ１０は、対象のフレーム画像の対象周辺を拡大した画像１２ｃをセグメンテーション部１５に入力する。また、サーバ１０は、対象のフレーム画像の前後のフレーム画像において対象周辺を拡大した画像１２ａ及び１２ｂを自己符号化器１４に入力する。さらに、サーバ１０は、対象のフレーム全体の画像１１３を特徴量出力部１３に入力する。

これにより、自己符号化器１４では、対象のフレーム画像の前後のフレーム画像に基づくことで、対象のフレーム画像に含まれる対象物のノイズの影響を低減した出力画像１４ａを出力できる。

従って、動画データのフレーム画像の物体検出における、フレーム画像のノイズに対するロバスト性を向上させることができる。

また、例えば、比較的画質の粗い動画データにおいて、対象物の少なくとも一部がノイズに隠れている場合であっても、当該ノイズに隠れている部分を含めて、対象物のセグメンテーションを精密に行なうことができる。

さらに、対象周辺画像１２ａ及び１２ｂとして切り出された部分の周囲、すなわち全体画像のコンテクスト情報を、特徴量出力部１３から自己符号化器１４に中間特徴量として与えることで、自己符号化器１４は、切り出し部分以外の情報を活用できる。

例えば、対象周辺画像１２ａ及び１２ｂのみに基づく出力画像１４ａでは、出力画像１４ａ内の対象物の向きが、全体画像における対象物の正しい向きと一致しない場合がある。そこで、全体画像の特徴量を特徴量出力部１３から自己符号化器１４に与えることで、自己符号化器１４は、対象物の向きを考慮した出力画像１４ａを出力できる。

また、サーバ１０では、自己符号化器１４からの出力画像１４ａと、セグメンテーション部１５からのセグメンテーション画像１５ａとが出力される。これにより、例えば、サーバ１０の利用者は、推定フェーズにおいて、出力画像１４ａとセグメンテーション画像１５ａとを比較し、セグメンテーション部１５単独のセグメンテーション画像１５ａに対して、出力画像１４ａがどのような修正を加えているかを判別可能となる。

〔１－５〕ハードウェア構成例
図１７は、情報処理装置１及びサーバ１０の機能を実現するコンピュータ２０のハードウェア（ＨＷ）構成例を示すブロック図である。情報処理装置１及びサーバ１０の機能を実現するＨＷリソースとして、複数のコンピュータが用いられる場合は、各コンピュータが図１７に例示するＨＷ構成を備えてよい。

図１７に示すように、コンピュータ２０は、ＨＷ構成として、例示的に、プロセッサ２０ａ、メモリ２０ｂ、記憶部２０ｃ、ＩＦ（Interface）部２０ｄ、Ｉ／Ｏ（Input / Output）部２０ｅ、及び読取部２０ｆを備えてよい。

プロセッサ２０ａは、種々の制御や演算を行なう演算処理装置の一例である。プロセッサ２０ａは、コンピュータ２０内の各ブロックとバス２０ｉで相互に通信可能に接続されてよい。なお、プロセッサ２０ａは、複数のプロセッサを含むマルチプロセッサであってもよいし、複数のプロセッサコアを有するマルチコアプロセッサであってもよく、或いは、マルチコアプロセッサを複数有する構成であってもよい。

プロセッサ２０ａとしては、例えば、ＣＰＵ、ＭＰＵ、ＧＰＵ、ＡＰＵ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡ等の集積回路（ＩＣ：Integrated Circuit）が挙げられる。なお、プロセッサ２０ａとして、これらの集積回路の２以上の組み合わせが用いられてもよい。

例えば、情報処理装置１の少なくとも一部、サーバ１０の取得部１６、学習部１７の少なくとも一部、実行部１８の少なくとも一部、及び、出力部１９の処理機能は、プロセッサ２０ａとしてのＣＰＵ又はＭＰＵ等により実現されてもよい。また、情報処理装置１の少なくとも一部、サーバ１０のＮＮＷ１２～１５、学習部１７の少なくとも一部、及び、実行部１８の少なくとも一部の処理機能は、プロセッサ２０ａのうちのＧＰＵ又はＡＳＩＣ（例えばＴＰＵ）等のアクセラレータにより実現されてもよい。

ＣＰＵはCentral Processing Unitの略称であり、ＭＰＵはMicro Processing Unitの略称である。ＧＰＵはGraphics Processing Unitの略称であり、ＡＰＵはAccelerated Processing Unitの略称である。ＤＳＰはDigital Signal Processorの略称であり、ＡＳＩＣはApplication Specific ICの略称であり、ＦＰＧＡはField-Programmable Gate Arrayの略称である。ＴＰＵはTensor Processing Unitの略称である。

メモリ２０ｂは、種々のデータやプログラム等の情報を格納するＨＷの一例である。メモリ２０ｂとしては、例えばＤＲＡＭ（Dynamic Random Access Memory）等の揮発性メモリ、及び、ＰＭ（Persistent Memory）等の不揮発性メモリ、の一方又は双方が挙げられる。

記憶部２０ｃは、種々のデータやプログラム等の情報を格納するＨＷの一例である。記憶部２０ｃとしては、ＨＤＤ（Hard Disk Drive）等の磁気ディスク装置、ＳＳＤ（Solid State Drive）等の半導体ドライブ装置、不揮発性メモリ等の各種記憶装置が挙げられる。不揮発性メモリとしては、例えば、フラッシュメモリ、ＳＣＭ（Storage Class Memory）、ＲＯＭ（Read Only Memory）等が挙げられる。

また、記憶部２０ｃは、コンピュータ２０の各種機能の全部若しくは一部を実現するプログラム２０ｇ（学習プログラム）を格納してよい。例えば、情報処理装置１のプロセッサ２０ａは、記憶部２０ｃに格納されたプログラム２０ｇをメモリ２０ｂに展開して実行することにより、図１及び図２に例示する情報処理装置１としての機能を実現できる。また、サーバ１０のプロセッサ２０ａは、記憶部２０ｃに格納されたプログラム２０ｇをメモリ２０ｂに展開して実行することにより、図５、図１０、図１２、図１４及び図１６に例示するサーバ１０としての機能を実現できる。

なお、メモリ２０ｂ及び記憶部２０ｃの少なくとも１つが有する記憶領域は、図５に示す各情報１１ａ～１１ｄを記憶可能であってよい。換言すれば、図５に示すメモリ部１１は、メモリ２０ｂ及び記憶部２０ｃの少なくとも１つが有する記憶領域により実現されてよい。

ＩＦ部２０ｄは、ネットワークとの間の接続及び通信の制御等を行なう通信ＩＦの一例である。例えば、ＩＦ部２０ｄは、イーサネット（登録商標）等のＬＡＮ（Local Area Network）、或いは、ＦＣ（Fibre Channel）等の光通信等に準拠したアダプタを含んでよい。当該アダプタは、無線及び有線の一方又は双方の通信方式に対応してよい。例えば、サーバ１０は、ＩＦ部２０ｄを介して、他の装置と相互に通信可能に接続されてよい。また、例えば、プログラム２０ｇは、当該通信ＩＦを介して、ネットワークからコンピュータ２０にダウンロードされ、記憶部２０ｃに格納されてもよい。

Ｉ／Ｏ部２０ｅは、入力装置、及び、出力装置、の一方又は双方を含んでよい。入力装置としては、例えば、キーボード、マウス、タッチパネル等が挙げられる。出力装置としては、例えば、モニタ、プロジェクタ、プリンタ等が挙げられる。

読取部２０ｆは、記録媒体２０ｈに記録されたデータやプログラムの情報を読み出すリーダの一例である。読取部２０ｆは、記録媒体２０ｈを接続可能又は挿入可能な接続端子又は装置を含んでよい。読取部２０ｆとしては、例えば、ＵＳＢ（Universal Serial Bus）等に準拠したアダプタ、記録ディスクへのアクセスを行なうドライブ装置、ＳＤカード等のフラッシュメモリへのアクセスを行なうカードリーダ等が挙げられる。なお、記録媒体２０ｈにはプログラム２０ｇが格納されてもよく、読取部２０ｆが記録媒体２０ｈからプログラム２０ｇを読み出して記憶部２０ｃに格納してもよい。

記録媒体２０ｈとしては、例示的に、磁気／光ディスクやフラッシュメモリ等の非一時的なコンピュータ読取可能な記録媒体が挙げられる。磁気／光ディスクとしては、例示的に、フレキシブルディスク、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ブルーレイディスク、ＨＶＤ（Holographic Versatile Disc）等が挙げられる。フラッシュメモリとしては、例示的に、ＵＳＢメモリやＳＤカード等の半導体メモリが挙げられる。

上述したコンピュータ２０のＨＷ構成は例示である。従って、コンピュータ２０内でのＨＷの増減（例えば任意のブロックの追加や削除）、分割、任意の組み合わせでの統合、又は、バスの追加若しくは削除等は適宜行なわれてもよい。例えば、情報処理装置１及びサーバ１０において、Ｉ／Ｏ部２０ｅ及び読取部２０ｆの少なくとも一方は、省略されてもよい。

〔２〕その他
上述した一実施形態に係る技術は、以下のように変形、変更して実施することができる。

例えば、図５に示すサーバ１０が備える各処理機能１２～１９は、それぞれ任意の組み合わせで併合してもよく、分割してもよい。

なお、一実施形態では、対象物及び画像が、それぞれ、心室中隔及びエコー画像であるものとしたが、これらに限定されるものではない。一実施形態に係る手法は、下記のように、種々の対象物及び画像についても適用可能である。

対象物としては、例えば、人体の部位の他、画像の全体領域に対して、対象物のサイズ及び移動量の一方又は双方が比較的小さい、種々の物体が挙げられる。また、対象物は、例えば、少なくとも一部が地中等に埋没している物体のように、肉眼で視認できる物体でなくてもよい。画像としては、対象物を含む領域を撮影した種々の画像が挙げられる。例えば、画像としては、エコー画像以外の超音波画像、磁気共鳴画像、Ｘ線画像、温度又は電磁波等を捉えるセンサによる検出画像、並びに、可視光又は非可視光を捉えるイメージセンサによる撮像画像、等の種々の画像が挙げられる。

また、図５に示すサーバ１０は、複数の装置がネットワークを介して互いに連携することにより、各処理機能を実現する構成であってもよい。一例として、取得部１６及び出力部１９はＷｅｂサーバ、ＮＮＷ１２～１５、学習部１７及び実行部１８はアプリケーションサーバ、メモリ部１１はＤＢ（Database）サーバ、であってもよい。この場合、Ｗｅｂサーバ、アプリケーションサーバ及びＤＢサーバが、ネットワークを介して互いに連携することにより、サーバ１０としての各処理機能を実現してもよい。

さらに、ＮＮＷ１４及び１５の学習処理（取得部１６及び学習部１７）、並びに、推定処理（実行部１８及び出力部１９）に係る各処理機能が、互いに異なる装置により提供されてもよい。この場合においても、これらの装置がネットワークを介して互いに連携することにより、サーバ１０としての各処理機能を実現してもよい。

〔３〕付記
以上の実施形態に関し、さらに以下の付記を開示する。

（付記１）
対象物を撮影した動画データと、前記動画データに含まれる複数のフレーム画像それぞれにおける対象物の領域を示す複数のアノテーション画像とを含む訓練データを取得し、
前記訓練データを用いた学習処理を実行する、
処理をコンピュータに実行させ、
前記学習処理において、
前記複数のフレーム画像に含まれる対象物を検出し、
前記複数のフレーム画像のうちの第１フレーム画像の前記動画データの時系列における前後所定枚数の第２フレーム画像においてそれぞれ検出された前記対象物及び前記対象物の周辺領域を含む複数の部分画像、を合成した合成画像を自己符号化器に入力し、
前記第１フレーム画像における検出された前記対象物及び前記対象物の周辺領域を含む部分画像を画像に対するセグメンテーション処理を行なうニューラルネットワークに入力し、
前記自己符号化器からの出力画像と前記ニューラルネットワークからの出力画像とを合成した合成出力画像と、前記第１フレーム画像における前記対象物の領域を示すアノテーション画像の部分画像との差分に基づいて、前記自己符号化器及び前記ニューラルネットワークそれぞれのパラメータ更新を行なう、
処理を前記コンピュータに実行させる、学習プログラム。

（付記２）
前記学習処理において、前記対象物を撮影した画像とは異なる画像のデータセットを用いて生成された学習済みモデルであって、入力画像に対するラベルを推定する前記学習済みモデルに前記第１フレーム画像を入力して得られた前記第１フレーム画像全体に関する特徴量を、前記自己符号化器の中間層に入力する、
処理を前記コンピュータに実行させる、付記１に記載の学習プログラム。

（付記３）
前記複数のフレーム画像に含まれる前記対象物は、前記対象物を撮影した複数の画像を含むデータセットを用いて生成された、入力画像に含まれる前記対象物の領域を特定する学習済み物体検知モデルを用いて検出される、
付記１又は付記２に記載の学習プログラム。

（付記４）
推定対象物を撮影した対象動画データを含む対象データを取得し、
前記対象動画データに含まれる複数の対象フレーム画像のそれぞれに含まれる推定対象物を検出し、
前記対象動画データの時系列における第３フレーム画像の前後所定枚数の第４フレーム画像におけるそれぞれ検出された前記推定対象物及び前記推定対象物の周辺領域を含む複数の部分画像、を合成した合成画像を、前記パラメータ更新により訓練済みの前記自己符号化器に入力し、
前記第３フレーム画像における検出された前記推定対象物及び前記推定対象物の周辺領域を含む部分画像を、前記パラメータ更新により訓練済みの前記ニューラルネットワークに入力し、
前記自己符号化器からの出力画像と前記ニューラルネットワークからの出力画像とを合成した合成出力画像と、前記第３フレーム画像における前記部分画像が切り出された位置を示す位置情報とに基づいて、前記第３フレーム画像における前記推定対象物であると推定した領域を含む画像を出力する、
処理を前記コンピュータに実行させる、付記１～付記３のいずれか１項に記載の学習プログラム。

（付記５）
前記複数のフレーム画像のそれぞれは、超音波画像である、
付記１～付記３のいずれか１項に記載の学習プログラム。

（付記６）
前記複数のフレーム画像及び前記複数の対象フレーム画像のそれぞれは、超音波画像である、
付記４に記載の学習プログラム。

（付記７）
対象物を撮影した動画データと、前記動画データに含まれる複数のフレーム画像それぞれにおける対象物の領域を示す複数のアノテーション画像とを含む訓練データを取得し、
前記訓練データを用いた学習処理を実行する、
処理をコンピュータが実行し、
前記学習処理において、
前記複数のフレーム画像に含まれる対象物を検出し、
前記複数のフレーム画像のうちの第１フレーム画像の前記動画データの時系列における前後所定枚数の第２フレーム画像においてそれぞれ検出された前記対象物及び前記対象物の周辺領域を含む複数の部分画像、を合成した合成画像を自己符号化器に入力し、
前記第１フレーム画像における検出された前記対象物及び前記対象物の周辺領域を含む部分画像を画像に対するセグメンテーション処理を行なうニューラルネットワークに入力し、
前記自己符号化器からの出力画像と前記ニューラルネットワークからの出力画像とを合成した合成出力画像と、前記第１フレーム画像における前記対象物の領域を示すアノテーション画像の部分画像との差分に基づいて、前記自己符号化器及び前記ニューラルネットワークそれぞれのパラメータ更新を行なう、
処理を前記コンピュータが実行する、学習方法。

（付記８）
前記学習処理において、前記対象物を撮影した画像とは異なる画像のデータセットを用いて生成された学習済みモデルであって、入力画像に対するラベルを推定する前記学習済みモデルに前記第１フレーム画像を入力して得られた前記第１フレーム画像全体に関する特徴量を、前記自己符号化器の中間層に入力する、
処理を前記コンピュータが実行する、付記７に記載の学習方法。

（付記９）
前記複数のフレーム画像に含まれる前記対象物は、前記対象物を撮影した複数の画像を含むデータセットを用いて生成された、入力画像に含まれる前記対象物の領域を特定する学習済み物体検知モデルを用いて検出される、
付記７又は付記８に記載の学習方法。

（付記１０）
推定対象物を撮影した対象動画データを含む対象データを取得し、
前記対象動画データに含まれる複数の対象フレーム画像のそれぞれに含まれる推定対象物を検出し、
前記対象動画データの時系列における第３フレーム画像の前後所定枚数の第４フレーム画像におけるそれぞれ検出された前記推定対象物及び前記推定対象物の周辺領域を含む複数の部分画像、を合成した合成画像を、前記パラメータ更新により訓練済みの前記自己符号化器に入力し、
前記第３フレーム画像における検出された前記推定対象物及び前記推定対象物の周辺領域を含む部分画像を、前記パラメータ更新により訓練済みの前記ニューラルネットワークに入力し、
前記自己符号化器からの出力画像と前記ニューラルネットワークからの出力画像とを合成した合成出力画像と、前記第３フレーム画像における前記部分画像が切り出された位置を示す位置情報とに基づいて、前記第３フレーム画像における前記推定対象物であると推定した領域を含む画像を出力する、
処理を前記コンピュータが実行する、付記７～付記９のいずれか１項に記載の学習方法。

（付記１１）
前記複数のフレーム画像のそれぞれは、超音波画像である、
付記７～付記９のいずれか１項に記載の学習方法。

（付記１２）
前記複数のフレーム画像及び前記複数の対象フレーム画像のそれぞれは、超音波画像である、
付記１０に記載の学習方法。

（付記１３）
対象物を撮影した動画データと、前記動画データに含まれる複数のフレーム画像それぞれにおける対象物の領域を示す複数のアノテーション画像とを含む訓練データを取得する取得部と、
自己符号化器と、
画像に対するセグメンテーション処理を行なうニューラルネットワークと、
前記訓練データを用いた、前記自己符号化器及び前記ニューラルネットワークそれぞれの学習処理を実行する学習実行部と、を備え、
前記学習実行部は、前記学習処理において、
前記複数のフレーム画像に含まれる対象物を検出し、
前記複数のフレーム画像のうちの第１フレーム画像の前記動画データの時系列における前後所定枚数の第２フレーム画像においてそれぞれ検出された前記対象物及び前記対象物の周辺領域を含む複数の部分画像、を合成した合成画像を前記自己符号化器に入力し、
前記第１フレーム画像における検出された前記対象物及び前記対象物の周辺領域を含む部分画像を前記ニューラルネットワークに入力し、
前記自己符号化器からの出力画像と前記ニューラルネットワークからの出力画像とを合成した合成出力画像と、前記第１フレーム画像における前記対象物の領域を示すアノテーション画像の部分画像との差分に基づいて、前記自己符号化器及び前記ニューラルネットワークそれぞれのパラメータ更新を行なう、
情報処理装置。

（付記１４）
前記対象物を撮影した画像とは異なる画像のデータセットを用いて生成された学習済みモデルであって、入力画像に対するラベルを推定する前記学習済みモデル、を備え、
前記学習実行部は、前記学習処理において、前記学習済みモデルに前記第１フレーム画像を入力して得られた前記第１フレーム画像全体に関する特徴量を、前記自己符号化器の中間層に入力する、
付記１３に記載の情報処理装置。

（付記１５）
前記対象物を撮影した複数の画像を含むデータセットを用いて生成された、入力画像に含まれる前記対象物の領域を特定する学習済み物体検知モデル、を備え、
前記複数のフレーム画像に含まれる前記対象物は、前記学習済み物体検知モデルを用いて検出される、
付記１３又は付記１４に記載の情報処理装置。

（付記１６）
前記対象データに対する前記推定対象物の領域の推定処理を実行する推定処理部、を備え、
前記取得部は、推定対象物を撮影した対象動画データを含む対象データを取得し、
前記推定処理部は、
前記対象動画データに含まれる複数の対象フレーム画像のそれぞれに含まれる推定対象物を検出し、
前記対象動画データの時系列における第３フレーム画像の前後所定枚数の第４フレーム画像におけるそれぞれ検出された前記推定対象物及び前記推定対象物の周辺領域を含む複数の部分画像、を合成した合成画像を、前記パラメータ更新により訓練済みの前記自己符号化器に入力し、
前記第３フレーム画像における検出された前記推定対象物及び前記推定対象物の周辺領域を含む部分画像を、前記パラメータ更新により訓練済みの前記ニューラルネットワークに入力し、
前記自己符号化器からの出力画像と前記ニューラルネットワークからの出力画像とを合成した合成出力画像と、前記第３フレーム画像における前記部分画像が切り出された位置を示す位置情報とに基づいて、前記第３フレーム画像における前記推定対象物であると推定した領域を含む画像を出力する画像出力部、を備える、
付記１３～付記１５のいずれか１項に記載の情報処理装置。

（付記１７）
前記複数のフレーム画像のそれぞれは、超音波画像である、
付記１３～付記１５のいずれか１項に記載の情報処理装置。

（付記１８）
前記複数のフレーム画像及び前記複数の対象フレーム画像のそれぞれは、超音波画像である、
付記１６に記載の情報処理装置。

１情報処理装置
１ａ、１１１、１１３、１１３’、１１３” 画像（全体画像）
１ｂ、１１２アノテーション画像
２、１２物体検知部
２ａ～２ｃ、１２ａ～１２ｃ対象周辺画像
２ｄ、１２ｄ対象周辺アノテーション画像
３、１３特徴量出力部
４、１４自己符号化器
５、１５セグメンテーション部
６、１７ｂ、１８ｂ加算部
７サポートモジュール
８セグメンテーションモジュール
１０サーバ
１１メモリ部
１１ａモデル情報
１１ｂ訓練データ
１１ｃ入力データ
１１ｄ出力データ
１２ｅ合成画像
１２ｆ、１１４合成出力画像
１２ｇ差分
１２ｈ切り出し位置情報
１４ａ出力画像
１５ａセグメンテーション画像
１６取得部
１７学習部
１７ａ、１８ａ合成部
１８実行部
１９出力部
２０コンピュータ
１１０画像セット
１１５セグメンテーション済み画像
１３０ＶＧＧバックボーン
１３１、１４１～１４６層
１４０オートエンコーダ
１７１、１８１加算処理部
１７２差分算出部
１７３学習処理部
１８２サイズ復元部

Claims

対象物を撮影した動画データと、前記動画データに含まれる複数のフレーム画像それぞれにおける対象物の領域を示す複数のアノテーション画像とを含む訓練データを取得し、
前記訓練データを用いた学習処理を実行する、
処理をコンピュータに実行させ、
前記学習処理において、
前記複数のフレーム画像に含まれる対象物を検出し、
前記複数のフレーム画像のうちの第１フレーム画像の前記動画データの時系列における前後所定枚数の第２フレーム画像においてそれぞれ検出された前記対象物及び前記対象物の周辺領域を含む複数の部分画像、を合成した合成画像を自己符号化器に入力し、
前記第１フレーム画像における検出された前記対象物及び前記対象物の周辺領域を含む部分画像を画像に対するセグメンテーション処理を行なうニューラルネットワークに入力し、
前記自己符号化器からの出力画像と前記ニューラルネットワークからの出力画像とを合成した合成出力画像と、前記第１フレーム画像における前記対象物の領域を示すアノテーション画像の部分画像との差分に基づいて、前記自己符号化器及び前記ニューラルネットワークそれぞれのパラメータ更新を行なう、
処理を前記コンピュータに実行させる、学習プログラム。
前記学習処理において、前記対象物を撮影した画像とは異なる画像のデータセットを用いて生成された学習済みモデルであって、入力画像に対するラベルを推定する前記学習済みモデルに前記第１フレーム画像を入力して得られた前記第１フレーム画像全体に関する特徴量を、前記自己符号化器の中間層に入力する、
処理を前記コンピュータに実行させる、請求項１に記載の学習プログラム。
前記複数のフレーム画像に含まれる前記対象物は、前記対象物を撮影した複数の画像を含むデータセットを用いて生成された、入力画像に含まれる前記対象物の領域を特定する学習済み物体検知モデルを用いて検出される、
請求項１又は請求項２に記載の学習プログラム。
推定対象物を撮影した対象動画データを含む対象データを取得し、
前記対象動画データに含まれる複数の対象フレーム画像のそれぞれに含まれる推定対象物を検出し、
前記対象動画データの時系列における第３フレーム画像の前後所定枚数の第４フレーム画像におけるそれぞれ検出された前記推定対象物及び前記推定対象物の周辺領域を含む複数の部分画像、を合成した合成画像を、前記パラメータ更新により訓練済みの前記自己符号化器に入力し、
前記第３フレーム画像における検出された前記推定対象物及び前記推定対象物の周辺領域を含む部分画像を、前記パラメータ更新により訓練済みの前記ニューラルネットワークに入力し、
前記自己符号化器からの出力画像と前記ニューラルネットワークからの出力画像とを合成した合成出力画像と、前記第３フレーム画像における前記部分画像が切り出された位置を示す位置情報とに基づいて、前記第３フレーム画像における前記推定対象物であると推定した領域を含む画像を出力する、
処理を前記コンピュータに実行させる、請求項１～請求項３のいずれか１項に記載の学習プログラム。
前記複数のフレーム画像のそれぞれは、超音波画像である、
請求項１～請求項３のいずれか１項に記載の学習プログラム。
前記複数のフレーム画像及び前記複数の対象フレーム画像のそれぞれは、超音波画像である、
請求項４に記載の学習プログラム。
対象物を撮影した動画データと、前記動画データに含まれる複数のフレーム画像それぞれにおける対象物の領域を示す複数のアノテーション画像とを含む訓練データを取得し、
前記訓練データを用いた学習処理を実行する、
処理をコンピュータが実行し、
前記学習処理において、
前記複数のフレーム画像に含まれる対象物を検出し、
前記複数のフレーム画像のうちの第１フレーム画像の前記動画データの時系列における前後所定枚数の第２フレーム画像においてそれぞれ検出された前記対象物及び前記対象物の周辺領域を含む複数の部分画像、を合成した合成画像を自己符号化器に入力し、
前記第１フレーム画像における検出された前記対象物及び前記対象物の周辺領域を含む部分画像を画像に対するセグメンテーション処理を行なうニューラルネットワークに入力し、
前記自己符号化器からの出力画像と前記ニューラルネットワークからの出力画像とを合成した合成出力画像と、前記第１フレーム画像における前記対象物の領域を示すアノテーション画像の部分画像との差分に基づいて、前記自己符号化器及び前記ニューラルネットワークそれぞれのパラメータ更新を行なう、
処理を前記コンピュータが実行する、学習方法。
対象物を撮影した動画データと、前記動画データに含まれる複数のフレーム画像それぞれにおける対象物の領域を示す複数のアノテーション画像とを含む訓練データを取得する取得部と、
自己符号化器と、
画像に対するセグメンテーション処理を行なうニューラルネットワークと、
前記訓練データを用いた、前記自己符号化器及び前記ニューラルネットワークそれぞれの学習処理を実行する学習実行部と、を備え、
前記学習実行部は、前記学習処理において、
前記複数のフレーム画像に含まれる対象物を検出し、
前記複数のフレーム画像のうちの第１フレーム画像の前記動画データの時系列における前後所定枚数の第２フレーム画像においてそれぞれ検出された前記対象物及び前記対象物の周辺領域を含む複数の部分画像、を合成した合成画像を前記自己符号化器に入力し、
前記第１フレーム画像における検出された前記対象物及び前記対象物の周辺領域を含む部分画像を前記ニューラルネットワークに入力し、
前記自己符号化器からの出力画像と前記ニューラルネットワークからの出力画像とを合成した合成出力画像と、前記第１フレーム画像における前記対象物の領域を示すアノテーション画像の部分画像との差分に基づいて、前記自己符号化器及び前記ニューラルネットワークそれぞれのパラメータ更新を行なう、
情報処理装置。