JP7105370B2 - トラッキング装置、学習済モデル、内視鏡システム及びトラッキング方法 - Google Patents

トラッキング装置、学習済モデル、内視鏡システム及びトラッキング方法 Download PDF

Info

Publication number
JP7105370B2
JP7105370B2 JP2021508600A JP2021508600A JP7105370B2 JP 7105370 B2 JP7105370 B2 JP 7105370B2 JP 2021508600 A JP2021508600 A JP 2021508600A JP 2021508600 A JP2021508600 A JP 2021508600A JP 7105370 B2 JP7105370 B2 JP 7105370B2
Authority
JP
Japan
Prior art keywords
tracking
frame
mask image
image
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021508600A
Other languages
English (en)
Other versions
JPWO2020194664A1 (ja
Inventor
真人 石掛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Corp filed Critical Olympus Corp
Publication of JPWO2020194664A1 publication Critical patent/JPWO2020194664A1/ja
Application granted granted Critical
Publication of JP7105370B2 publication Critical patent/JP7105370B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination

Description

本発明は、トラッキング装置、学習済モデル、内視鏡システム及びトラッキング方法等に関する。
従来、動画に含まれる各フレーム画像において、指定された対象が画像上のどの位置に存在するかを推定する手法が知られている。以下、この手法をトラッキングと表記し、指定された対象をトラッキング対象と表記する。トラッキングとは、複数のフレーム画像間において、トラッキング対象がどのように移動したかを追跡する手法と言い換えることが可能である。
例えば特許文献1には、診断動画中の指定部位の座標を順方向、逆方向にトラッキングした後、トラッキングした座標を合算する手法が開示されている。
特開2005-160688号公報
特許文献1の手法においては、指定部位を代表する1点の座標をトラッキングする。そのため、指定部位を領域としてトラッキングできない。結果として、例えば時間経過によって指定部位の大きさが変化した場合に、領域の大きさ変化をトラッキングできない。
本開示の一態様は、複数のフレームを含む動画について、開始フレームと終了フレームを設定するフレーム設定部と、前記開始フレームにおけるトラッキング対象の領域に基づいて、前記開始フレーム以降のフレームについて、順方向に前記トラッキング対象をトラッキングする順方向トラッキングを行う順方向トラッキング部と、前記終了フレームにおける前記トラッキング対象の領域に基づいて、前記終了フレーム以前のフレームについて、逆方向に前記トラッキング対象をトラッキングする逆方向トラッキングを行う逆方向トラッキング部と、前記順方向トラッキングと前記逆方向トラッキングがそれぞれ行われたフレームについて、前記順方向トラッキングに基づく順方向マスク画像と、前記逆方向トラッキングに基づく逆方向マスク画像とを合成することによって、前記トラッキング対象の領域を示す合成マスク画像を生成するトラッキング結果合成部と、を含むトラッキング装置に関係する。
本開示の他の態様は、検出用画像を入力として受け付け、前記検出用画像から所与の被写体の位置を検出する処理を行い、検出結果を出力するよう、コンピュータを機能させるための学習済みモデルであって、複数のフレームを含む動画について、開始フレームと終了フレームを設定する工程と、前記開始フレームにおけるトラッキング対象の領域に基づいて、前記開始フレーム以降のフレームについて、順方向に前記トラッキング対象をトラッキングする順方向トラッキングを行う工程と、前記終了フレームにおける前記トラッキング対象の領域に基づいて、前記終了フレーム以前のフレームについて、逆方向に前記トラッキング対象をトラッキングする逆方向トラッキングを行う工程と、前記順方向トラッキングと前記逆方向トラッキングがそれぞれ行われたフレームについて、前記順方向トラッキングに基づく順方向マスク画像と、前記逆方向トラッキングに基づく逆方向マスク画像とを合成することによって、前記トラッキング対象の領域を示す合成マスク画像を生成する工程と、によって生成された前記合成マスク画像が、前記動画に含まれる複数の前記フレームの各フレームの画像に対応付けられた訓練データに基づいて、機械学習されている学習済モデルに関係する。
本開示の他の態様は、上記の学習済モデルを記憶する記憶部と、前記検出用画像を撮像する内視鏡スコープと、前記学習済モデルに基づいて、前記検出用画像から前記所与の被写体の位置を検出する処理を行う処理部と、を含む内視鏡システムに関係する。
本開示の他の態様は、複数のフレームを含む動画について、開始フレームと終了フレームを設定する工程と、前記開始フレームにおけるトラッキング対象の領域に基づいて、前記開始フレーム以降のフレームについて、順方向に前記トラッキング対象をトラッキングする順方向トラッキングを行う工程と、前記終了フレームにおける前記トラッキング対象の領域に基づいて、前記終了フレーム以前のフレームについて、逆方向に前記トラッキング対象をトラッキングする逆方向トラッキングを行う工程と、前記順方向トラッキングと前記逆方向トラッキングがそれぞれ行われたフレームについて、前記順方向トラッキングに基づく順方向マスク画像と、前記逆方向トラッキングに基づく逆方向マスク画像とを合成することによって、前記トラッキング対象の領域を示す合成マスク画像を生成する工程と、を含むトラッキング方法に関係する。
トラッキング装置の構成例。 トラッキング装置における処理手順を示すフローチャート。 順方向マスク画像、逆方向マスク画像、及び合成マスク画像の例。 図4(A)~図4(C)は重み情報である重み付け係数の例。 順方向トラッキング部の構成例。 トラッキングの処理手順を示すフローチャート。 タグ領域に基づいて代表点を抽出する処理を説明する図。 トラッキング処理を説明する図。 外れ値代表点を除去する処理を説明する図。 代表点の更新処理を説明する図。 代表点に基づいてタグ領域を生成する処理を説明する図。 図12(A)~図12(C)は、画像中に明確な位置形状が表示されない対象物の一例。 教師データ作成から対象物の検出までの一連の手順を示すフローチャート。 アノテーションの例。 アノテーションにより生成された教師データの例。 トラッキングによる自動タグ付けを説明する図。 学習装置の構成例。 学習の手順を示すフローチャート。 ニューラルネットワークの例。 情報処理システムを含む内視鏡システムの構成例。 トラッキング誤差が蓄積されることを説明する図。 トラッキング誤差によって領域が分散することを説明する図。
以下、本実施形態について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された本開示の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。
1.概要
従来、動画においてトラッキング対象のトラッキングを行う手法が広く利用されている。例えば、画像から物体認識を行う機械学習を実施するためには、大量のタグ付けされた画像が必要である。以下、タグ付けされた画像をタグ付け画像と表記する。タグ付け画像の生成は人手で行う必要があるため、非常に時間を要する作業である。図20を用いて後述する内視鏡下の外科手術を対象とした場合、タグ付けは当該外科手術に熟練した医師等が行う必要があり、大量の画像に対するタグ付けは容易でない。
タグ付け画像作成の負担を減らす方法として、所与のフレームにおいて作成されたタグをトラッキングし、新たなフレームにおいてトラッキング結果を用いてタグ付けする手法が考えられる。従来の画像トラッキング手法は順方向において行われる。順方向とは、動画において時間が進む方向である。順方向のみでトラッキングを行った場合、トラッキング誤差が蓄積してしまう。
図21は、トラッキング誤差が蓄積することの説明図である。F1は開始フレームのフレーム画像を表し、Fiは開始フレームよりも後のフレームのフレーム画像を表し、FjはFiよりもさらに後のフレーム画像を表す。ここでは自動車がトラッキング対象である。フレーム画像F1における枠領域は開始フレームにおいて付されたタグであり、Fi及びFjにおける枠領域は、それぞれトラッキング処理によって取得されるタグである。図21に示すように、順方向のトラッキングを繰り返すことによってトラッキング誤差が蓄積され、開始フレームから遠いフレームほど、トラッキング精度が低くなってしまう。
本実施形態にかかるトラッキング装置200は、順方向のトラッキングと逆方向のトラッキングを行うことによって、トラッキングのフレーム経過に伴うトラッキング誤差の蓄積を抑制する。ここで、開始フレームと、開始フレームに比べて時間的に後のフレームである終了フレームを設定した場合、順方向のトラッキングとは開始フレームから終了フレームへ向かう方向のトラッキングである。逆方向のトラッキングとは終了フレームから開始フレームへ向かう方向のトラッキングである。このようにすれば、トラッキングを精度よく行うことが可能になる。そのため、例えば精度の高い教師データの生成が可能になるため、機械学習の精度向上が可能になる。
なお、特許文献1は指定部位を代表する1点の座標をトラッキングする手法である。領域のサイズ変化等に追従できないため、適切な領域トラッキングが困難である。仮に領域を複数の点の集合としてとらえ、各点について特許文献1の手法を用いてトラッキングを行ったとする。その場合、開始点に基づく移動ベクトルと、終了点に基づく移動ベクトルとの足し合わせを、各点について行う必要があるため、演算が煩雑になる。また本来1つの連続する領域であるはずのトラッキング対象が複数の領域に分散する等、領域が破錠するおそれがある。即ち、特許文献1の手法を領域ベースのトラッキングに適用することは難しい。
これに対して、本実施形態の手法は、各フレームについて順方向トラッキングの結果として順方向マスク画像を取得するとともに、逆方向トラッキングの結果として逆方向マスク画像を取得する。そして、順方向マスク画像と逆方向マスク画像に基づいて、トラッキング結果である合成マスク画像を生成する。このようにすれば、順方向と逆方向のトラッキングにおいて、それぞれ領域のトラッキングを行えばよく、順方向トラッキングにおけるトラッキング点と、逆方向トラッキングにおけるトラッキング点を厳密に対応付ける必要がない。トラッキング点とは、トラッキングに用いられる点であり、具体的には後述する代表点である。これにより、領域ベースのトラッキングを高い精度で実行することが可能になる。
例えば図22(A)、図22(B)は、領域ベースのトラッキングを行う従来手法を説明する模式図である。図22(A)は例えば人手でタグ付けされたタグ付け画像である。以下、画像中のタグに対応する領域をタグ領域と表記する。従来の領域ベースのトラッキング手法は、画素毎に処理を行う。図22(A)の例であれば、タグ領域に含まれる複数の画素の全ての画素について、それぞれトラッキングが行われる。トラッキングを複数のフレームにわたって継続していく場合、トラッキング回数が増えるとともに、即ち動画における時間が経過するとともに、トラッキング誤差が蓄積される。図22(B)は、所定回数のトラッキングを行った結果を表す。図22(B)に示すように、元画像において連続する1つの領域であったタグ領域が、トラッキング誤差の影響によって分散してしまう場合がある。
本実施形態の手法は、順方向と逆方向でそれぞれ領域ベースのトラッキングを行った後、トラッキング結果を合成する。当該合成によってトラッキング精度の向上が可能になるため、領域ベースのトラッキングとして図22(A)及び図22(B)に例示するような従来手法と同様の手法が用いられてもよい。ただし、順方向及び逆方向のトラッキング精度を高くすることによって、合成結果の精度をさらに高くすることも可能である。
本実施形態にかかるトラッキング装置200は、順方向トラッキングと逆方向トラッキングのそれぞれにおいて、タグ領域の輪郭抽出を行い、抽出結果である輪郭線を対象としてトラッキングを行ってもよい。そしてトラッキング結果である輪郭線の内部に対してマスク処理を行うことによって、新たなフレームにおけるタグ領域を決定する。このようにすれば、タグ領域の分散が抑制されるため、タグ領域の適切なトラッキングが可能になる。
さらに本実施形態においては、外れ値除去を行うことによって、トラッキング誤差の影響を抑制してもよい。また本実施形態の手法においては、外れ値除去によってトラッキングを行う点が減少した場合等、所定の条件が満たされた場合に、トラッキングに用いる代表点を再抽出する処理を行ってもよい。これらの手法を用いることによって、順方向及び逆方向のそれぞれのトラッキング精度をより高くすることが可能になる。以下、本実施形態の手法について詳細に説明する。
2.トラッキング装置
2.1 順方向トラッキングと逆方向トラッキング
図1は、本実施形態のトラッキング装置200の構成例を示す図である。図1に示すように、トラッキング装置200は、フレーム設定部210と、順方向トラッキング部220と、逆方向トラッキング部230と、トラッキング結果合成部240と、表示処理部250を含む。ただし、トラッキング装置200は図1の構成に限定されず、これらの一部の構成要素を省略したり、他の構成要素を追加するなどの種々の変形実施が可能である。
なお、本実施形態のトラッキング装置200は、下記のハードウェアにより構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された1又は複数の回路装置や、1又は複数の回路素子で構成することができる。1又は複数の回路装置は例えばIC、FPGA等である。1又は複数の回路素子は例えば抵抗、キャパシター等である。
またトラッキング装置200のフレーム設定部210と、順方向トラッキング部220と、逆方向トラッキング部230と、トラッキング結果合成部240と、を含む各部は、下記のプロセッサーにより実現されてもよい。トラッキング装置200は、情報を記憶するメモリーと、メモリーに記憶された情報に基づいて動作するプロセッサーと、を含む。情報は、例えばプログラムと各種のデータ等である。プロセッサーは、ハードウェアを含む。プロセッサーは、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)等、各種のプロセッサーを用いることが可能である。メモリーは、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)などの半導体メモリーであってもよいし、レジスターであってもよいし、ハードディスク装置等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリーはコンピューターにより読み取り可能な命令を格納しており、当該命令がプロセッサーにより実行されることで、トラッキング装置200の各部の機能が処理として実現されることになる。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサーのハードウェア回路に対して動作を指示する命令であってもよい。さらに、フレーム設定部210と、順方向トラッキング部220、逆方向トラッキング部230、トラッキング結果合成部240の全部または一部をクラウドコンピューティングで実現し、動画をネットワークを介して取得して、後述するトラッキング処理をクラウドコンピューティング上で行うこともできる。
フレーム設定部210は、動画を取得し、開始フレームと終了フレームを設定する。ここでの動画とは、例えば、一部のフレームにタグ付けが行われた動画像であるタグ付け動画である。フレーム設定部210は、例えば動画中でタグ付けされたフレームについて、それぞれ開始フレームと終了フレームとして設定する。
順方向トラッキング部220は、開始フレームにおけるトラッキング対象の領域に基づいて、開始フレーム以降のフレームについて、順方向にトラッキング対象の領域をトラッキングすることによって、トラッキング対象の順方向マスク画像を生成する。開始フレームにおけるトラッキング対象の領域は、タグ付けされた領域から求めることができる。
逆方向トラッキング部230は、終了フレームにおけるトラッキング対象の領域に基づいて、終了フレーム以前のフレームについて、逆方向にトラッキング対象の領域をトラッキングすることによって、トラッキング対象の逆方向マスク画像を生成する。終了フレームにおけるトラッキング対象の領域は、タグ付けされた領域から求めることができる。
トラッキング結果合成部240は、順方向トラッキングと逆方向トラッキングがそれぞれ行われたフレームについて、順方向マスク画像と逆方向マスク画像とを合成することによって、トラッキング対象の領域を示す合成マスク画像を生成する。
表示処理部250は、合成マスク画像に基づく画像を表示部に表示する処理を行う。個々での表示部は、例えば図17を用いて後述する表示部54である。表示処理部250は、所与のフレーム画像に対して、当該フレームに対応する合成マスク画像に基づく加工処理を行い、加工結果を表示部に表示する処理を行う。
図2は、本実施形態の処理を説明するフローチャートである。なおこの処理の前処理として、フレーム設定部210は開始フレーム及び終了フレームを設定する処理を行う。開始フレームから終了フレームまでの範囲が、トラッキング処理の対象となる。
まずステップS201において、順方向トラッキング部220は、フレーム設定部210によって設定された開始フレームの情報を読み込む。次にステップS202において、順方向トラッキング部220は、開始フレームに基づいて、順方向トラッキングを行う。順方向トラッキング部220は、開始フレームのタグ領域に基づいて複数の代表点を設定し、各代表点について、終了フレームまで順方向にトラッキングを行う。順方向トラッキングの詳細については、図5~図11を用いて後述する。ステップS202の処理によって、順方向結果が取得される。順方向結果とは、開始フレームの次のフレームから終了フレームまでの各フレームにおけるタグ領域を特定する情報であり、具体的には各フレームにおけるマスク画像である。順方向結果であるマスク画像を順方向マスク画像と表記する。
次にステップS203において、逆方向トラッキング部230は、フレーム設定部210によって設定された終了フレームの情報を読み込む。次にステップS204において、逆方向トラッキング部230は、終了フレームに基づいて、逆方向トラッキングを行う。逆方向トラッキング部230は、終了フレームのタグ領域に基づいて複数の代表点を設定し、各代表点について、開始フレームまで逆方向にトラッキングを行う。逆方向トラッキングの詳細については、図5~図11を用いて後述する。ステップS204の処理によって、逆方向結果が取得される。逆方向結果とは、終了フレームの1つ前のフレームから開始フレームまでの各フレームにおけるタグ領域を特定する情報であり、具体的には各フレームにおけるマスク画像である。逆方向結果であるマスク画像を逆方向マスク画像と表記する。
ステップS205において、トラッキング結果合成部240は、順方向マスク画像と逆方向マスク画像を合成することによって、合成マスク画像を生成する。
図3は、開始フレームから終了フレームまでのフレーム画像と、各フレームにおける順方向マスク画像、逆方向マスク画像、及び合成マスク画像の関係を示す図である。ここでは、トラッキング対象が人の顔である例を示しているが、具体的なトラッキング対象は図12(A)~図12(C)を用いて後述するように、画像上における位置姿勢が明確でない被写体であってもよい。順方向マスク画像は、例えばタグ領域での値が1となり、他の領域での値が0となる画像データである。図3においては、タグ領域をハッチングを用いて示している。
順方向トラッキングにおいて、開始フレームのタグ領域は、例えば作業者が人手で付した情報であるため、当該タグ領域はトラッキング対象の領域と一致すると考えてよい。順方向のトラッキングを繰り返すことによって、トラッキング誤差が蓄積する。図3に示すように、実際のトラッキング対象はフレーム画像上での位置、形状が変化していくが、タグ領域は当該変化に完全に追従することはできず、開始フレームから遠ざかるほどトラッキング対象とタグ領域との誤差が大きくなる。
また逆方向トラッキングにおいて、終了フレームにおけるタグ領域は、例えば作業者が人手で付した情報であるため、当該タグ領域はトラッキング対象の領域と一致すると考えてよい。逆方向のトラッキングを繰り返すことによって、トラッキング誤差が蓄積され、終了フレームから遠ざかるほどトラッキング対象とタグ領域との誤差が大きくなる。
トラッキング結果合成部240は、順方向マスク画像は開始フレームに近いほど精度が高く、逆方向マスク画像は終了フレームに近いほど精度が高いという特性を鑑みて、合成マスク画像を求める処理を行う。具体的には、トラッキング結果合成部240は、開始フレームに近いフレームは順方向マスク画像の重みが大きくなり、終了フレームに近いフレームは逆方向マスク画像の重みを大きくなるように、2つのマスク画像を合成する。
図3に示すように、開始フレームに近いフレームにおいては、合成マスク画像に対する寄与度は順方向マスク画像が大きくなる。一方、終了フレームに近いフレームにおいては、合成マスク画像に対する寄与度は逆方向マスク画像が大きくなる。このようにすれば、相対的に精度の高いマスク画像の重みが大きくなるため、合成マスク画像の精度を高くすること、即ちトラッキング対象との一致度合いが高いタグ領域を設定することが可能になる。
例えば順方向マスク画像に対する重みである順方向重みをwfとし、逆方向マスク画像に対する重みである逆方向重みをwbとした場合に、合成マスク画像は下式(1)によって求められる。下式(1)においてIは合成マスク画像を表し、Ifが順方向マスク画像を表し、Ibが逆方向マスク画像を表す。tは開始フレームを基準とした動画上での経過時間、又は、動画におけるフレーム位置、フレーム番号を表す。I,If,Ibはそれぞれ複数の画素を含む画像であるため、下式(1)に示す演算は画素ごとに行われる。
I(t)=wf(t)×If(t)+wb(t)×Ib(t) …(1)
上述したとおり、tが開始フレームに近い範囲においてはwf>wbであり、tが終了フレームに近い範囲においてはwf<wbである。wf及びwbは上記の関係を満たせばよく、具体的な値については種々の変形実施が可能である。
図4(A)~図4(C)は、重みwfとwbの例を示す図である。図4(A)~図4(C)の横軸は上記tに対応し、例えば時間を表す。図4(A)~図4(C)の縦軸は重みの大きさを表す。
図4(A)に示すように、wfは開始フレームから終了フレームの間で単調減少する関数であり、wbは開始フレームから終了フレームの間で単調増加する関数である。この場合、トラッキング結果合成部240は、開始フレームと終了フレーム以外のフレームにおいて、順方向マスク画像と逆方向マスク画像をブレンドすることによって、合成マスク画像を生成する。
或いは図4(B)に示すように、開始フレーム以降の所定数のフレームにおいてwf=1且つwb=0としてもよい。また終了フレーム以前の所定数のフレームにおいてwf=0且つwb=1としてもよい。この場合、トラッキング結果合成部240は、開始フレーム以降の所定数のフレームにおいては、順方向マスク画像をそのまま合成マスク画像として適用し、終了フレーム以前の所定数のフレームにおいては、逆方向マスク画像をそのまま合成マスク画像として適用する。トラッキング結果合成部240は、中間のフレームにおいては、順方向マスク画像と逆方向マスク画像をブレンドすることによって、合成マスク画像を生成する。本実施形態における合成は、順方向マスク画像と逆方向マスク画像のいずれか一方の重みを0とする合成を含む。この場合、開始フレーム以降の所定数のフレームは逆方向トラッキングを行わず、終了フレーム以前の所定数のフレームは順方向トラッキングを行わない処理としてもよい。
或いは図4(C)に示すように、開始フレームから所与のフレームまでwf=1且つwb=0とし、当該所与のフレームの次のフレームから終了フレームまでwf=0且つwb=1としてもよい。この場合、トラッキング結果合成部240は、全てのフレームにおいて、順方向マスク画像と逆方向マスク画像のいずれか一方を合成マスク画像として適用する。本実施形態における順方向マスク画像と逆方向マスク画像の合成とは、図4(C)に示す重みを用いた合成も含まれる。この場合、開始フレームから所与のフレームまでは逆方向トラッキングを行わず、当該所与のフレームの次のフレームから終了フレームまでは順方向トラッキングを行わない処理としてもよい。
またトラッキング結果合成部240は、下式(2)を用いて合成マスク画像を求めてもよい。下式(2)におけるxは画像における画素の位置を表す2次元ベクトルである。下式(2)に示すように、重みであるwf及びwbは、時間tだけでなく位置xの関数である。即ち、トラッキング結果合成部240は、画像の位置xに重みを付けて、順方向マスク画像と、順方向マスク画像を合成してもよい。
I(t,x)=wf(t,x)×If(t,x)+wb(t,x)×Ib(t,x)
…(2)
例えばトラッキング結果合成部240は、順方向マスク画像におけるタグ領域の基準位置を求め、当該基準位置からの距離に基づいて重みを変更する。ここでの基準位置は、例えばタグ領域の重心であるが、これには限定されない。本実施形態の手法においては、順方向トラッキング及び逆方向トラッキングは領域ベースのトラッキングを行う。例えば後述するように、輪郭上の代表点を用いたトラッキングが行われる。そのため、タグ領域のうち、境界及びそれに近い部分については、トラッキング誤差が生じる蓋然性が相対的に高い。一方、境界付近でトラッキング誤差が生じたとしても、タグ領域の中央部の領域は、十分高い精度でトラッキング対象に追従している蓋然性が高い。この点を考慮し、トラッキング結果合成部240は、基準位置に近いほど重みが大きく、基準位置から遠ざかるほど重みが小さくなるように、wfを設定する。この場合、所定の範囲から逸脱したトラッキング結果をトラッキング結果合成部240における合成処理から除外することが可能になる。以上ではwfについて説明したが、逆方向重みwbについても同様である。トラッキング結果合成部240は、逆方向マスク画像におけるタグ領域の基準位置を求め、当該基準位置からの距離に基づいて重みwbを設定する。
生成された合成マスク画像は、そのまま出力されることも妨げられない。例えば、動画に含まれる各フレーム画像と、合成マスク画像とを対応付けたデータセットに基づいて、機械学習が行われる。なお上式(1)や(2)を用いる場合、合成マスク画像は2値画像ではなく、多値画像となる場合がある。例えば、順方向マスク画像と逆方向マスク画像が0と1の2値画像であっても、合成マスク画像は、画素値が0以上1以下の範囲で変化する多値画像となる。この場合、多値画像である合成マスク画像を正解ラベルとする機械学習が行われてもよい。例えば、ニューラルネットワークの出力層に広く知られたソフトマックス層を適用した場合、出力は確率データとなる。所与の被写体の認識を行うニューラルネットワークの例であれば、当該ニューラルネットワークの出力層は、各画素について、当該画素が所与の被写体を撮像している確率を表す確率データと、当該所与の被写体以外の被写体が撮像されている確率を表す確率データと、を出力する。上述した多値画像である合成マスク画像は、確率データに対応するデータと考えることが可能であり、合成マスク画像を教師データとする学習が可能である。
ただしトラッキング装置200は、トラッキング結果合成部240によって生成された合成マスク画像に対して、何らかの処理が行われた結果を出力してもよい。例えば表示処理部250は、合成マスク画像に基づく表示処理を行ってもよい。表示処理は、例えばトラッキングによって生成されたタグ領域をユーザーに提示するとともに、ユーザーに微調整を行わせるための処理である。
例えば表示処理部250は、動画中のフレーム画像に対して、当該フレームに対応するマスク画像を重畳表示する処理を行う。例えば、表示処理部250は、タグ領域以外の領域については元のフレーム画像をそのまま表示し、タグ領域に対応する領域については、元のフレーム画像に対して加工処理を行った結果を表示する。ここでの加工処理とは、画素値を所定の値に変更する処理であってもよいし、フレーム画像の画素値を所定量だけ変更する処理であってもよい。ここでの画素値は、RGBのうちの少なくとも1つの信号値であってもよいし、輝度信号であってもよいし、色差信号であってもよい。
また表示処理部250は、順方向マスク画像と逆方向マスク画像が重複しない部分が、順方向マスク画像と逆方向マスク画像が重複する部分よりも透過率が高くなるように、トラッキング結果を動画に重畳表示してもよい。ここでのトラッキング結果とは、具体的には合成マスク画像である。この場合、信頼性の高い領域については透過率が相対的に低くなるため、元のフレーム画像からの変化が大きくなる。そのため、当該領域がタグ領域であることをユーザーにわかりやすく提示できる。一方、2つのマスク画像が重複しない信頼性が低い領域においては、元のフレーム画像の特徴が残る。そのため、ユーザーによる注目度合いを相対的に下げることが可能になる。また、元のフレーム画像が視認しやすくなるため、ユーザーにタグ領域の妥当性の判断を促すこと、及びタグ領域の微調整を促すことが容易になる。
以上のように、本実施形態のトラッキング装置200は、フレーム設定部210と、順方向トラッキング部220と、逆方向トラッキング部230と、トラッキング結果合成部240とを含む。フレーム設定部210は、複数のフレームを含む動画について、開始フレームと終了フレームを設定する。順方向トラッキング部220は、開始フレームにおけるトラッキング対象の領域に基づいて、開始フレーム以降のフレームについて、順方向にトラッキング対象をトラッキングする順方向トラッキングを行う。逆方向トラッキング部230は、終了フレームにおけるトラッキング対象の領域に基づいて、終了フレーム以前のフレームについて、逆方向にトラッキング対象をトラッキングする逆方向トラッキングを行う。トラッキング結果合成部240は、順方向トラッキングと逆方向トラッキングがそれぞれ行われたフレームについて、順方向トラッキングに基づく順方向マスク画像と、逆方向トラッキングに基づく逆方向マスク画像とを合成することによって、トラッキング対象の領域を示す合成マスク画像を生成する。なお、順方向トラッキング部220が、順方向マスク画像を求めてもよい。或いは順方向トラッキング部220は、代表点の情報、或いは輪郭(閉曲線)の情報を求める処理を行うものであって、順方向マスク画像を求める処理はトラッキング結果合成部240が行ってもよい。逆方向マスク画像についても同様である。
本実施形態の手法によれば、順方向トラッキングに加えて、終了フレームを起点とする逆方向トラッキングを行うことによって、時系列的に後のフレームに対して誤差の蓄積を抑制することが可能になる。これにより、開始フレームから終了フレームまでの間において、精度の高いトラッキングを行うことが可能になる。また、本実施形態の手法では、順方向マスク画像と逆方向マスク画像を合成することによって、合成マスク画像を生成する。即ち、指定部位を領域としてトラッキングすることになるため、時間経過によって指定部位の大きさが変化した場合においても、領域の大きさ変化をトラッキングできる。また合成によって領域が破綻することも抑制できる。さらに本実施形態の手法は、順方向トラッキングと逆方向トラッキングのそれぞれにおいて、領域のトラッキングを実行できればよく、具体的なトラッキング点を問わない。よって順方向トラッキングにおけるトラッキング点と逆方向トラッキングにおけるトラッキング点を対応付ける必要がなく、各方向におけるトラッキングの実現が容易である。また、順方向トラッキング内においても、開始フレームにおいて設定したトラッキング点を終了フレームまで維持する必要がない。例えば図9及び図10を用いて後述するように、外れ値代表点を処理から除外する、或いは代表点を再抽出することが可能であるため、処理の柔軟性が高い。また外れ値除去や代表点更新によって、順方向トラッキングの精度向上を図ることも可能である。この点は、逆方向トラッキングにおいても同様である。
また開始フレームにおけるトラッキング対象の領域、及び、終了フレームにおけるトラッキング対象の領域は、トラッキング対象について付されたタグ付けデータに基づいて設定されてもよい。例えば本実施形態の手法は、人がタグ付けした開始フレームと、人がタグ付けした終了フレームの間を滑らかにつなぐように、開始フレームと終了フレームの間の中間フレームに対してタグ付けを行う。
このようにすれば、タグ領域のトラッキングを適切に行うことが可能になる。タグが付される領域は、図12(A)~図12(C)を用いて後述するように、画像上に明確に撮像されない被写体であってもよい。これらの被写体に対するタグ付けは熟練者でなければ容易でないところ、トラッキングによってタグ付けの効率化が可能になる。
またトラッキング装置200は、合成マスク画像において、順方向マスク画像と逆方向マスク画像が重複しない部分が、順方向マスク画像と逆方向マスク画像が重複する部分よりも透過率が高くなるように、合成マスク画像を動画に重畳表示する表示処理部250を含んでもよい。このようにすれば、順方向マスク画像と逆方向マスク画像の重複状態の違いを、合成マスク画像の透過度合いを用いて表現することが可能になる。そのため、合成マスク画像において信頼性の高い部分と低い部分とをユーザーに認識させることが可能になる。また、信頼性が低い部分について、フレーム画像を視認しやすくすることによって、ユーザーにタグ領域の確認や微調整を促すことが可能になる。
またトラッキング結果合成部240は、開始フレームに近いフレームは、逆方向マスク画像に比べて、順方向マスク画像の重みが大きくなる重み情報を設定し、終了フレームに近いフレームは、順方向マスク画像に比べて、逆方向マスク画像の重みが大きくなる重み情報を設定する。そしてトラッキング結果合成部240は、重み情報に基づいて、順方向マスク画像と逆方向マスク画像を合成することによって、合成マスク画像を生成する。このようにすれば、合成処理において、トラッキング精度の高いマスク画像の寄与度が高くなるため、合成マスク画像におけるトラッキング精度を高くすることが可能になる。
またトラッキング結果合成部240は、開始フレーム以降の所定数のフレームは、順方向マスク画像を合成マスク画像として適用し、終了フレーム以前の所定数のフレームは、逆方向マスク画像を合成マスク画像として適用してもよい。例えばトラッキング結果合成部240は、図4(B)に示した重みを用いて合成処理を実行する。このようにすれば、合成処理において、トラッキング精度の高いマスク画像の寄与度を高くできる。また、所定数のフレームの範囲において2つのマスク画像のブレンド処理が不要となるため、処理負荷の軽減が可能である。なお、開始フレーム以降の所定数のフレームと、終了フレーム以前の所定数のフレームは、同じフレーム数であってもよいし、異なるフレーム数であってもよい。
またトラッキング結果合成部240は、動画中のフレーム位置、及び画像上の画素位置に依存する重み付け係数に基づいて、順方向マスク画像と逆方向マスク画像を合成してもよい。このように、画像上での位置を考慮した合成処理を行うことによって、不適切なトラッキング結果が合成マスク画像に反映されることを抑制できる。
具体的には、画素位置をxとし、フレーム位置をtとし、合成マスク画像をIとし、順方向マスク画像をIfとし、逆方向マスク画像をIbとした場合に、トラッキング結果合成部240は、順方向重み付け係数wfと、逆方向重み付け係数wbとを用いて、上式(2)に基づいて合成マスク画像を生成してもよい。なお、上式(2)においてはtは時間を表すパラメータであるものとして説明した。しかしフレームレートは設計上既知であるため、時間とフレーム番号の相互の変換は容易であり、tをフレーム位置(フレーム番号)に置き換えてもよいことは当業者であれば容易に理解できることである。
また、本実施形態のトラッキング装置200が行う処理は、トラッキング方法として実現されてもよい。トラッキング方法は、複数のフレームを含む動画について、開始フレームと終了フレームを設定する工程と、開始フレームにおけるトラッキング対象の領域に基づいて、開始フレーム以降のフレームについて、順方向にトラッキング対象をトラッキングする順方向トラッキングを行う工程と、終了フレームにおけるトラッキング対象の領域に基づいて、終了フレーム以前のフレームについて、逆方向にトラッキング対象をトラッキングする逆方向トラッキングを行う工程と、順方向トラッキングと逆方向トラッキングがそれぞれ行われたフレームについて、順方向トラッキングに基づく順方向マスク画像と、逆方向トラッキングに基づく逆方向マスク画像とを合成することによって、トラッキング対象の領域を示す合成マスク画像を生成する工程と、を含む方法である。
2.2 輪郭トラッキング
図5は、本実施形態の順方向トラッキング部220の構成例を示す図である。図5に示すように、順方向トラッキング部220は、代表点抽出部221と、トラッキング部222と、外れ値除去部223と、代表点更新部224と、を含む。
代表点抽出部221は、開始フレームにおけるトラッキング対象の輪郭について、トラッキングを行うための代表点を抽出する。開始フレームにおけるトラッキング対象の輪郭は、開始フレームにタグ付けされた領域から求めることができる。
トラッキング部222は、開始フレーム以降のフレームについて、代表点抽出部221で抽出された代表点によるトラッキングを行う。なお後述するように、代表点更新部224によって代表点が更新された場合、トラッキング部222は、更新後の代表点によるトラッキングを行う。
外れ値除去部223は、トラッキング部222によってトラッキングされた代表点について相互に外れ値判定を行い、外れ値と判定された外れ値代表点を除く処理を行う。
代表点更新部224は、代表点の更新が必要か否かを判定する。代表点更新部224は、代表点の更新が必要であると判定した場合、処理対象のフレームにおける、外れ値代表点が除かれた代表点の状態に基づいて、新たに代表点を抽出する。
図6は、順方向トラッキングの手順を説明するフローチャートである。この処理が開始されると、まずステップS101において、代表点抽出部221は、フレーム設定部210によって設定された開始フレームの情報を読み込む。ステップS102において、代表点抽出部221は、開始フレームに含まれるトラッキング対象の輪郭から、トラッキングを行う点である代表点を抽出する。図7は、代表点の抽出処理を説明する図である。本実施形態におけるタグは、例えば図14、図15を用いて後述するように、医師等の作業者によって入力される情報であって、画像に対してメタデータとして付与されるアノテーションデータである。アノテーションデータは、例えばタグ領域の画素値が第1の値に設定され、タグ領域以外の画素値が第1の値と異なる第2の値に設定されたマスク画像である。
代表点抽出部221は、タグ領域の輪郭を抽出する。上述したようにタグ領域に関する情報がマスク画像として取得されている場合、代表点抽出部221は、例えば画素値が第1の値である画素のうち、画素値が第2の値である画素と隣接する画素を、タグ領域の輪郭として抽出する。ただし、公知のエッジ抽出フィルターを適用する等、輪郭抽出処理は種々の変形実施が可能である。
代表点抽出部221は、輪郭上の全ての画素をトラッキングに用いる代表点として選択してもよい。この場合にも、タグ領域の内部の画素をトラッキング対象とする必要がないため、領域が分散することを抑制でき、且つ、処理負荷の軽減が可能になる。ただし、代表点抽出部221は、輪郭上の画素のうち、一部の画素を代表点として抽出してもよい。例えば代表点抽出部221は、輪郭上の画素から等間隔に代表点を抽出する。例えば代表点抽出部221は、図7に示すように、隣り合う代表点の間隔が同一(略同一を含む)となるように12個の代表点を抽出する。代表点抽出部221は、抽出される代表点の数n(nは2以上の整数)をあらかじめ設定しておき、輪郭線をn分割することによって、n個の代表点を設定してもよい。或いは、隣り合う代表点の間隔があらかじめ設定されており、代表点抽出部221は、当該間隔に従って代表点を設定してもよい。この場合、輪郭線の長さに応じて、代表点の個数が変化する。
なお図11を用いて後述するように、本実施形態のトラッキング装置200は、トラッキング結果である代表点を繋いだ閉曲線を生成し、当該閉曲線の内部の領域をタグ領域とする。そのため、トラッキングに用いる代表点は、当該代表点を繋ぐことによって、トラッキング対象の輪郭をある程度高い精度で再現できる点でなくてはならない。輪郭が単純な形状であれば、代表点の数が少なくても輪郭に関する情報は失われにくい。一方、輪郭が複雑な形状をしている場合、多くの代表点を設定しなければ輪郭に関する情報が失われるおそれがある。
代表点抽出部221は、輪郭の曲率に基づいて代表点を設定してもよい。例えば代表点抽出部221は、抽出した輪郭を複数の曲線に分割し、分割された各曲線の曲率を求める。例えば曲線を円によって近似した場合の円の半径が曲率半径であり、その逆数が曲率である。なお輪郭の曲率は1画素ごとに求められてもよい。代表点抽出部221は、輪郭のうち曲率が高い部分においては、曲率が低い部分よりも多くの代表点を抽出する。このようにすれば、輪郭の形状に応じて代表点の密度を調整できるため、代表点に基づいて輪郭を適切に再現することが可能になる。即ち、トラッキング対象の領域を高い精度でトラッキングすることが可能になる。
開始フレームにおいて代表点が抽出されたら、ステップS103において、トラッキング部222は、抽出された代表点に対してトラッキングを行う。具体的には、第1フレームにおける所与の代表点が、次のフレームである第2フレームにおいて画像上のどの位置に存在するかを推定する。
図8は、トラッキングの処理を説明する図である。トラッキングは、2つのフレームにおけるフレーム画像を用いて行われる。トラッキング部222は、第1フレームにおけるフレーム画像F1のうち、所与の代表点P1の近傍の領域をテンプレート画像TIとして抽出する。テンプレート画像TIは、例えば代表点P1を中心とする所定サイズの矩形画像であるが、サイズ及び形状については種々の変形実施が可能である。トラッキング部222は、図8に示すように、第2フレームのフレーム画像F2において、テンプレート画像TIを用いたテンプレートマッチングを行う。そしてトラッキング部222は、テンプレート画像TIとの相違度が最も低い位置、又は一致度が最も高い位置を、代表点P1に対応する点として決定する。なお、テンプレートマッチングにおける探索範囲は、フレーム画像F2の全体であってもよいし、フレーム画像F2の一部であってもよい。トラッキング部222は、第1フレームにおける代表点のそれぞれについて図8に示す処理を行うことによって、代表点のトラッキングを行う。なお、トラッキングについては種々の変形実施が可能であり、代表点におけるフレーム画像の輝度、コントラストに基づくトラッキング方法、またはオプティカルフローによるトラッキング方法等を適用できる。
次にステップS104において、外れ値除去部223は、トラッキング後の点に対して外れ値除去を実施する。本実施形態における代表点は、トラッキング対象の輪郭を表す点である。1フレームの間でトラッキング対象の画像上での形状が大きく変化することは考えにくい。また撮像対象が大きく変化する場合とは、例えば図16を用いて後述するシーン変化が生じた場合等であるため、トラッキングを継続する必要性が低い。即ち、トラッキングを実行する場面において、複数の代表点の移動傾向はある程度の類似性を有すると考えられる。所与の代表点が、他の代表点に比べて明らかに異なる移動をしている場合、当該所与の代表点に関するトラッキングは誤りである蓋然性が高い。
外れ値除去部223は、代表点の相互の関係に基づいて、他の代表点と異なる移動をした代表点を外れ値代表点として抽出する。例えば外れ値除去部223は、所与の代表点の移動距離と、周囲の代表点の移動距離との差が所定値を超えている場合に、当該代表点が外れ値代表点であると判定する。或いは外れ値除去部223は、所与の代表点と、周囲の代表点との間の距離が所定値を超えている場合に、当該代表点が外れ値代表点であると判定する。
或いは外れ値除去部223は、所与の代表点について、当該代表点と、その周囲の代表点とによって形成される曲線の曲率を求め、求めた曲率が所定値を超えている場合に、当該代表点が外れ値代表点であると判定する。ここでの周囲の代表点とは、輪郭線に沿った方向において隣り合う2つの代表点、即ち両隣の代表点である。ただし、周囲の代表点として、隣接2点以外の点を追加する等の種々の変形実施が可能である。このように、代表点の逸脱具合を判定することによって、外れ値代表点を適切に除去できる。
図9は、外れ値除去処理を説明する図である。図9のP2に示す代表点は、隣り合う代表点P3及びP4に比べて移動距離が大きい。或いはP2~P4を通る曲線を考えた場合、当該曲線の曲率は大きい。なお、曲率の比較対象は、所与の固定値であってもよいし、第1フレームにおける曲率であってもよいし、第2フレームにおける他の代表点の曲率であってもよい。いずれであっても、P2に対応する曲率は大きいと判定される。よって外れ値除去部223は、P2に示す代表点を除去する。
ステップS103及びS104の処理によって、トラッキング元である第1フレームの次の第2フレームにおいて、不適切な代表点が除外された精度の高い代表点が取得される。第2フレームにおける外れ値除去後の複数の代表点の各代表点について、図8に示したトラッキング処理を行うことによって、第2フレームのさらに次のフレームである第3フレーム以降についても、トラッキングを継続することが可能である。
ただし本実施形態においては、トラッキングを精度よく行うために、ステップS105において代表点更新部224は、代表点の更新が必要であるか否かを判定する。上述したように、本実施形態の手法では、外れ値代表点と判定された代表点が除去されるため、代表点の個数が減少する場合がある。代表点の個数が過剰に少なくなった場合、残りの代表点からトラッキング対象の輪郭を再現することが困難になるため、トラッキング精度の低下につながる。よって代表点更新部224は、代表点の個数が予め決めた個数よりも少なくなった場合に、代表点の更新が必要であると判定する。
図10は、代表点の更新処理を説明する図である。ステップS106において、代表点更新部224は、まず外れ値除去後に残存している代表点の全点群を繋げることによって閉曲線を生成する。代表点更新部224は、例えば公知のスプライン補間を行うことによって、閉曲線を生成する。ただし、複数の点から閉曲線を生成する手法は種々知られており、本実施形態においてはそれらを広く適用可能である。
次にステップS108において、代表点更新部224は、生成された閉曲線から、代表点を再抽出する。なお、代表点の更新はトラッキングを精度よく継続することを目的とした処理であるため、図6のフローチャートにおいては、まずステップS107においてトラッキングを終了するか否かの判定が行われ、終了しない場合に代表点の再抽出が行われる。
代表点を再抽出する処理は、開始フレームにおいて輪郭から代表点を抽出する処理と同様である。即ち、代表点更新部224は、閉曲線上の画素から等間隔に代表点を抽出してもよいし、閉曲線の曲率に応じて代表点の密度を変更してもよい。この際、新たに抽出される代表点は、元の代表点と一致する必要はない。例えば図10に示すように、11個の代表点から閉曲線を生成し、12個の代表点を抽出し直す場合、元の11個の代表点を維持しつつ1つの代表点を追加する必要はなく、12個全ての代表点を新たに選択することが可能である。本実施形態の手法はトラッキング対象の輪郭をトラッキングするものであって、輪郭上における代表点の位置は問わないためである。
また代表点更新部224は、トラッキング結果の信頼性が所定値より低下した場合に、代表点の更新が必要であると判定してもよい。トラッキング結果の信頼性とは、例えばテンプレートマッチングにおける相違度の最小値、或いは一致度の最大値である。相違度は例えばSSD(Sum of Squared Difference)、SAD(Sum of Absolute Difference)であり、最小値が所定閾値以上である場合に信頼性が低いと判定される。一致度は例えばNCC(Normalized Cross Correlation)であり、最大値が所定閾値以下である場合に信頼性が低いと判定される。代表点を更新することによって、テンプレートマッチングにおけるテンプレート画像を変更できる。そのため、代表点の更新によってトラッキング精度の向上を図ることが可能になる。
またトラッキング精度が低下した場合に代表点をリフレッシュするという観点から考えれば、代表点更新部224は、トラッキングを所定フレーム数だけ実行した場合、即ち一定時間が経過した場合に、代表点の更新が必要であると判定してもよい。トラッキングを複数のフレームに渡って継続した場合、トラッキング誤差が蓄積される。一定時間が経過したか否かを判定条件とすることによって、トラッキング精度が低下したおそれがある場合に、代表点を更新することが可能になる。
代表点の更新が必要でない場合(ステップS105でNo)、又は代表点の更新後(ステップS108の処理後)、ステップS103に戻り処理が継続される。トラッキング部222は、最新フレームにおける代表点に基づいて、1フレーム分のトラッキングを行う。これ以降の処理は同様であり、外れ値除去処理、及び必要に応じて代表点の更新処理が行われ、その結果に基づいて次フレームへのトラッキングが行われる。
トラッキングを終了すると判定された場合(ステップS107でYes)、ステップS109において、トラッキング装置200はタグ領域を生成する処理を行う。図11は、タグ領域の生成処理を説明する図である。具体的には、各フレームにおいて代表点を繋いだ閉曲線が生成され、当該閉曲線の内部をタグ領域とする処理が行われる。閉曲線の生成処理についてはステップS106と同様である。各フレームにおける代表点とは、外れ値代表点を除去する処理後の代表点である。また代表点を更新する処理が行われたフレームについては、ステップS106における処理結果である閉曲線を流用してもよい。
以上では、順方向トラッキングについて説明したが、逆方向トラッキングについても同様である。具体的には、逆方向トラッキング部230は、上述した順方向トラッキングの処理において、開始フレームを終了フレームに置き換えた上で、図8に示すトラッキング処理を、時系列的に前の方向に対して実行する。
以上のように、順方向トラッキング部220は、開始フレームにおけるトラッキング対象の輪郭について、開始時トラッキング点を抽出し、抽出した開始時トラッキング点に基づいて順方向トラッキングを行ってもよい。同様に逆方向トラッキング部230は、終了フレームにおけるトラッキング対象の輪郭について、終了時トラッキング点を抽出し、抽出した終了時トラッキング点に基づいて逆方向トラッキングを行ってもよい。開始時トラッキング点とは、具体的には開始フレームにおいて設定される代表点であり、終了時トラッキング点とは、終了フレームにおいて設定される代表点である。
このように、輪郭をトラッキングすることによって、画素のばらつき発生を抑制できるため、領域ベースのトラッキングを適切に実行できる。また領域内部の画素をトラッキングする必要がなくなるため、処理の高速化が可能である。また、外れ値判定を行うことによって、トラッキング結果から不適切な代表点を除外できるため、精度の向上が可能である。代表点はいずれも輪郭上に設定されるため、代表点相互の関係を用いることによって、外れ値代表点の検出を適切に実行できる。また、代表点の更新も行われるため、外れ値代表点が除外される場合等であっても、トラッキングを精度よく実行することが可能である。
また順方向マスク画像は、開始時トラッキング点のトラッキング結果である複数の点を繋いだ閉曲線の内部の領域を特定する画像である。逆方向マスク画像は、終了時トラッキング点のトラッキング結果である複数の点を繋いだ閉曲線の内部の領域を特定する画像である。このようにすれば、領域ベースのトラッキングを適切に実行すること、及び順方向での領域ベースのトラッキング結果と、逆方向での領域ベースのトラッキング結果を適切に合成することが可能になる。なお上述したように、順方向トラッキングにおいて、代表点の更新が行われてもよい。即ち、開始時トラッキング点のトラッキング結果とは、代表点の更新が行われた後のトラッキング結果を含む。同様に、終了時トラッキング点のトラッキング結果とは、代表点の更新が行われた後のトラッキング結果を含む。
3.内視鏡システム、学習装置、学習済モデル
上述したトラッキング装置200の出力は、機械学習に利用されてもよい。例えば、内視鏡下の外科手術において、画像に明確な位置形状が表示されない対象物を作業者が識別しにくい場合がある。例えば、内視鏡下の外科手術において所定のランドマークを目印として手順を進めていくが、そのランドマークの位置形状が画像に明確に表示されない状態を想定できる。このとき、熟練してない医師が、不明瞭なランドマークを見分けにくい場合がある。なお、位置形状は位置及び形状のことである。
図12(A)~図12(C)に、画像中に明確な位置形状が表示されない対象物の一例を示す。図12(A)においては総胆管が、また、図12(B)においては胆のう管が、図12(C)においてはルビエレ溝が対象物となる。なお図12(A)~図12(C)は模式図であり、実際の臓器又は組織の正確な形状を示すものではない。図14以降についても同様である。
図12(A)、図12(B)は、対象物が臓器又は組織に覆われている状態の例である。この場合、対象物がカメラの画角内に入っていたとしても、対象物そのものは画像上では見えない、または、位置形状が明確でない。図12(C)は、画像中に対象物が露出して視認できるが、対象物の境界が曖昧な状態の例である。図12(C)に示すように、腹腔鏡下胆のう摘出手術の内視鏡画像において、ルビエレ溝は視認可能であり、その溝の開始部分は比較的明瞭である。しかし、溝の終了部分に向かって徐々に溝が消失していくため、ルビエレ溝の境界が曖昧となっている。
総胆管及び胆のう管、ルビエレ溝、及び後述するS4下縁は、腹腔鏡下胆のう摘出術におけるランドマークである。ランドマークとは、手術の手順を進める際に用いられる目印である。本実施形態では、これらのランドマークが対象物としてアノテーションされることで教師データが作成され、その教師データにより機械学習が行われる。
図13は、本実施形態における教師データの作成から対象物の検出までの一連の手順を示すフローチャートである。
ステップS1、S2は、教師データを作成するステップである。ステップS1において、作業者が手術動画の所定フレーム画像にタグ付けを行う。作業者は、例えば対象手術に習熟した医師等である。後述するように、所定フレーム画像は、動画においてシーン変化した後の最初のフレーム画像、及びその直前のフレーム画像である。或いは所定フレーム画像は、所定の間隔よって選択されるフレーム画像である。次に、ステップS2において、トラッキング装置200が、タグ付けされた領域をトラッキングすることで、教師データを作成する。具体的なトラッキング手法については上述したとおりである。ステップS1、S2においてタグ付けされた手術動画の各フレーム画像が学習用画像となる。なお、画像にタグ付けすることをアノテーションと呼ぶ。
ステップS4は、学習ステップである。即ち、学習装置が、ステップS1、S2で作成された教師データを用いて機械学習を行う。この機械学習により得られた学習済みモデルは、後述する情報処理システム10の記憶部7に記憶される。
ステップS5は、学習したAIにより推論を行うステップである。即ち、情報処理システム10の処理部4が、記憶部7に記憶された学習済みモデルに基づいて検出用画像から対象物を検出する。処理部4は、検出された対象物を示す情報を検出用画像に表示させる。
次に教師データを作成する手法を説明する。教師データの作成は、画像中に明確な位置形状が表示されない対象物を画角内に撮像した学習用画像について、対象物の位置形状を示すアノテーションを付すことによって行われる。「画像中に明確な位置形状が表示されない」とは、輝度又はコントラストに基づき境界を検出する手法によって、対象物の位置形状を特定できない状態を意味する。
画像中に明確な位置形状が表示されない上記ランドマークについて、作業者の暗黙知に基づいて、画像内の位置形状を特定し、アノテーションデータとして与える。アノテーションを行う作業者は、腹腔鏡下胆のう摘出術の豊富な暗黙知を有している医師等である。
図14に、アノテーションの例を示す。アノテーション前の学習用画像には、肝臓KZと、胆のうTNNと、処置具TL1、TL2とが撮像されている。この学習用画像の画角内には、総胆管及び胆のう管、ルビエレ溝、S4下縁が含まれている。図14において、肝臓右葉の実線部分は、ルビエレ溝の開始部分(比較的明瞭な部分)を示し、点線部分は溝の終了部分に向かって徐々に溝が消失していく状態を示す。また、肝臓左葉内側の下縁付近の点線は、画像で視認できるが境界が曖昧な対象物であるS4下縁の領域を示す。
アノテーションを行う作業者は、学習用画像から総胆管及び胆のう管、ルビエレ溝、S4下縁を識別し、各々に対してタグ付けを行う。アノテーション後の学習用画像には、総胆管を示すタグTGAと、胆のう管を示すタグTGBと、ルビエレ溝を示すタグTGCと、S4下縁を示すタグTGDが付されている。例えば、作業者は、マウス又はタッチパネル等のポインティングデバイスを用いて、総胆管等の領域を指定する。学習装置は、作業差によって指定された学習用画像上の領域にタグを付す。
図15に、アノテーションにより生成された教師データの例を示す。図15に示すように、タグ付けされた領域の画素に、フラグが付される。この各画素にフラグが付されたマップデータを、以下ではフラグデータ(アノテーションデータ)と呼ぶ。フラグデータは、タグTGA~TGDの各々について生成される。即ち、教師データは、学習用画像と、その学習用画像にタグ付けすることで生成された4層のフラグデータと、で構成されている。
図16は、トラッキングによる自動タグ付けを説明する図である。図16には、内視鏡スコープ2で撮像された動画のフレーム画像を示す。これらの各フレーム画像が学習用画像となる。この動画のうち、所定のフレーム画像F1、Fx、Fx+1、Fx+yが選択される。xは1以上の整数である。作業者が所定のフレーム画像F1、Fx、Fx+1、Fx+yを選択してもよいし、学習装置が画像処理によるシーン検出等によって所定のフレーム画像F1、Fx、Fx+1、Fx+yを選択してもよい。作業者は、選択された所定のフレーム画像F1、Fx、Fx+1、Fx+yに対してタグ付けを行う。
所定のフレーム画像F1、Fx+1は、例えば手術手順が切り替わるときのフレーム画像、又は動画の明暗が変化したときのフレーム画像、フレーム間のブレが大きく変化するときのフレーム画像、撮像する対象物が切り替わるときのフレーム画像等である。フレーム画像Fx、Fx+yは手術手順の切り替わり等が発生する直前のフレーム画像である。フレーム画像F1、Fx+1が開始フレームに対応し、フレーム画像Fx、Fx+yが終了フレームに対応する。
タグ付けが行われた開始フレームと終了フレームの間のフレーム画像は、トラッキングによってタグ付けされる。フレーム画像F1に対して作業者がタグTGE1を付し、フレーム画像Fxに対して作業者がタグTGExを付したとする。この場合、フレーム画像F2~Fx-1がトラッキングによるタグ付け対象となる。例えば、フレーム画像F1とフレーム画像F2の間において、タグTGE1のトラッキングを行うことによって、F2のタグTGE2fが取得される。具体的には上述したとおり、代表点の抽出、代表点のトラッキング、外れ値除去、閉曲線生成、タグ領域生成の各処理に基づいて、タグTGE2fが取得される。同様にして、F3~Fxに対して順方向マスク画像に対応するタグTGE3f~TGExfが生成される。またフレーム画像Fxとフレーム画像Fx-1の間において、タグTGExのトラッキングを行うことによって、Fx-1のタグTGEx-1bが取得される。同様にして、F1~Fx-2に対して逆方向マスク画像に対応するタグTGE1b~TGEx-2bが生成される。タグTGE2~TGEx-1は、それぞれTGE2f~TGEx-1fと、TGE2b~TGEx-1bとを合成することによって求められる合成マスク画像を表すタグである。
同様に、シーン変化後のフレーム画像Fx+1に対して作業者がタグTGF1を付し、フレーム画像Fx+yに対して作業者がタグTGFyを付したとする。上記と同様にして、トラッキングにより、フレーム画像Fx+2~Fx+y-1に対してタグTGF2~TGFy-1が付される。yは1以上の整数である。
なお、図16においてはシーン変化が検出されたフレームを開始フレームとし、次のシーン変化の直前のフレームを終了フレームとする例について説明した。ただし、トラッキング対象となる区間はシーン変化に基づいて設定されるものに限定されない。例えば、所定時間間隔ごとに、作業者によるタグ付けが行われてもよい。この場合、撮像される対象物の切り替わり等が発生しないため、1つのフレームを開始フレームと終了フレームの両方として利用することが可能である。例えば作業者によってタグ付けされたフレームを所与のトラッキング対象区間における終了フレームとするとともに、次のトラッキング対象区間における開始フレームとしてもよい。
図17は、学習装置50の構成例である。学習装置50は、トラッキング装置200と、処理部51と記憶部52と操作部53と表示部54とを含む。例えば、学習装置50はPC等の情報処理装置である。処理部51はCPU等のプロセッサである。処理部51は、学習モデルに対する機械学習を行って学習済みモデルを生成する。記憶部52は半導体メモリ又はハードディスクドライブ等の記憶装置である。操作部53はマウス又はタッチパネル、キーボード等の種々の操作入力装置である。表示部54は液晶ディスプレイ等の表示装置である。なお図17においては学習装置50がトラッキング装置200を含む例を説明したが、学習装置50とトラッキング装置200はそれぞれ異なる機器であってもよい。
図18は、学習の手順を示すフローチャートである。なお、トラッキング装置200によって生成されたアノテーションデータ(フラグデータ)は、学習用画像と対応付けられた上で、教師データとして記憶部52に記憶されている。
本実施形態の機械学習おいては、ニューラルネットワークが用いられてもよい。図19は、ニューラルネットワークを説明する模式図である。ニューラルネットワークは、データが入力される入力層と、入力層からの出力に基づいて演算を行う中間層と、中間層からの出力に基づいてデータを出力する出力層を有する。図19においては、中間層が2層であるネットワークを例示するが、中間層は1層であってもよいし、3層以上であってもよい。また各層に含まれるノード(ニューロン)の数は図19の例に限定されず、種々の変形実施が可能である。なお精度を考慮すれば、本実施形態の学習は多層のニューラルネットワークを用いた深層学習(ディープラーニング)を用いることが望ましい。ここでの多層とは、狭義には4層以上である。
図19に示すように、所与の層に含まれるノードは、隣接する層のノードと結合される。各結合には重みが設定されている。各ノードは、前段のノードの出力と重みを乗算し、乗算結果の合計値を求める。さらに各ノードは、合計値に対してバイアスを加算し、加算結果に活性化関数を適用することによって当該ノードの出力を求める。この処理を、入力層から出力層へ向けて順次実行することによって、ニューラルネットワークの出力が求められる。ニューラルネットにおける学習は、適切な重み(バイアスを含む)を決定する処理である。学習には誤差逆伝播法等の種々の手法が知られており、本実施形態においてはそれらを広く適用可能である。
より具体的には、本実施形態にかかるニューラルネットワークは、画像認識処理に好適な畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)である。CNNは、畳み込み演算を行う畳み込み層とプーリング層を含む。畳み込み層は、フィルタ処理を行う層である。プーリング層は、縦方向、横方向のサイズを縮小するプーリング演算を行う層である。またCNNの出力層は、例えば広く知られたソフトマックス層が用いられる。なお、畳み込み層の数、プーリング層の数、出力層の態様等、CNNの具体的な構成は種々の変形実施が可能である。CNNの畳み込み層における重みは、フィルタのパラメータである。即ち、CNNにおける学習とは、畳み込み演算に用いるフィルタの学習を含む。CNNを含むニューラルネットワークについては広く知られた手法であるため、これ以上の詳細な説明は省略する。また本実施形態における機械学習はニューラルネットワークを用いる手法に限定されない。例えば本実施形態の手法には、SVM(support vector machine)等、広く知られた種々の方式の機械学習、或いはそれらの方式を発展させた方式の機械学習を適用することが可能である。
ステップS11において、処理部51は記憶部52から教師データを読み出す。例えば1回の推論に対して1つの学習用画像と、それに対応したフラグデータとが読み出される。なお、1回の推論に複数の学習用画像と、それに対応したフラグデータとが用いられてもよい。
ステップS12において、処理部51は対象物の位置形状を推定し、その結果を出力する。即ち、処理部51は、ニューラルネットワークに学習用画像を入力する。処理部51は、ニューラルネットワークによる推論処理を実行し、対象物の位置形状を示すフラグデータを出力する。
ステップS13において、処理部51は、推定した位置形状と、アノテーションが示す位置形状を比較し、その結果に基づいて誤差を計算する。即ち、処理部51は、ニューラルネットワークから出力されたフラグデータと、教師データのフラグデータとの誤差を計算する。
ステップS14において、処理部51は、誤差が減少するように学習モデルのモデルパラメータを調整する。即ち、処理部51は、ステップS13で求めた誤差に基づいて、ニューラルネットワークにおけるノード間の重み係数等を調整する。
ステップS15において、処理部51は、パラメータ調整を規定回数終了したか否かを判断する。パラメータ調整が規定回数終了していない場合、処理部51はステップS11~S15を再び実行する。パラメータ調整が規定回数終了した場合、ステップS16に示すように処理部51は学習処理を終了する。又は、処理部51は、ステップS13で求めた誤差が規定値以下になったか否かを判断する。誤差が規定値以下になっていない場合、処理部51はステップS11~S15を再び実行する。誤差が規定値以下になった場合、ステップS16に示すように処理部51は学習処理を終了する。以上の処理を行うことによって、学習結果として学習済モデルが出力される。
図20は、情報処理システム10、及び情報処理システム10を含む内視鏡システム100の構成例である。情報処理システム10は、学習済モデルを用いた推論処理を行う推論装置である。内視鏡システム100は、プロセッサユニット1と、内視鏡スコープ2と、表示部3と、を含む。また内視鏡システム100は操作部9を更に含んでもよい。
内視鏡スコープ2の先端部には撮像装置が設けられ、その先端部が腹腔内に挿入される。撮像装置が腹腔内の画像を撮影し、その撮像データが内視鏡スコープ2からプロセッサユニット1へ送信される。
プロセッサユニット1は、内視鏡システム100における種々の処理を行う装置である。例えばプロセッサユニット1は、内視鏡システム100の制御、及び画像処理等を行う。プロセッサユニット1は、内視鏡スコープ2からの撮像データを受信する撮像データ受信部8と、学習済みモデルにより撮像データから対象物を検出する情報処理システム10と、を含む。
撮像データ受信部8は、例えば内視鏡スコープ2のケーブルが接続されるコネクター、又は、撮像データを受信するインターフェース回路等である。
情報処理システム10は、学習済みモデルを記憶する記憶部7と、記憶部7に記憶された学習済みモデルに基づいて画像から対象物を検出する処理部4と、を含む。
記憶部7は、例えば半導体メモリ、又はハードディスクドライブ、光学ディスクドライブ等の記憶装置である。記憶部7には、予め学習済みモデルが記憶されている。或いは、サーバ等の外部装置からネットワークを介して学習済みモデルが情報処理システム10に入力され、その学習済みモデルを記憶部7が記憶してもよい。
処理部4は、学習済みモデルによる推論によって画像から対象物を検出する検出部5と、その検出結果に基づいて対象物を示す情報を画像に重畳して表示部3に表示させる出力部6と、を含む。学習済みモデルによる推論を実行するハードウェアとしては、種々想定できる。例えば、検出部5はCPU等の汎用プロセッサである。この場合、記憶部7は、推論アルゴリズムが記述されたプログラムと、その推論アルゴリズムに用いられるパラメータと、を学習済みモデルとして記憶する。或いは、検出部5は、推論アルゴリズムがハードウェア化された専用プロセッサであってもよい。この場合、記憶部7は、推論アルゴリズムに用いられるパラメータを学習済みモデルとして記憶する。推論アルゴリズムはニューラルネットワークを適用することができる。この場合、ニューラルネットワークにおけるノード間接続の重み係数がパラメータである。
検出部5は、内視鏡スコープ2で撮像された検出用画像を学習済みモデルに入力する。検出部5は、学習済みモデルによる検出処理を行うことで、検出用画像における対象物の位置形状を検出する。即ち、検出結果は検出フラグデータとして出力される。検出フラグデータは、検出された対象物の位置形状に対応した画素にフラグが付されたフラグマップである。例えば、図15で説明した教師データと同様に、各対象物に対応した4層の検出フラグデータが出力される。
表示部3は、出力部6から出力された画像を表示するモニタであり、例えば液晶ディスプレイ又は有機ELディスプレイ等の表示装置である。
操作部9は、作業者が内視鏡システム100を操作するための装置である。例えば、操作部9は、ボタン、又はダイヤル、フットスイッチ、タッチパネル等である。後述するように、出力部6は、操作部9からの入力情報に基づいて、対象物の表示態様を変更してもよい。
なお、上記では情報処理システム10がプロセッサユニット1に含まれるが、情報処理システム10の一部又は全部がプロセッサユニット1の外部に設けられてもよい。例えば、記憶部7と検出部5がPC又はサーバ等の外部処理装置により実現されてもよい。この場合、撮像データ受信部8は、撮像データを、ネットワーク等を介して外部処理装置に送信する。外部処理装置は、検出した対象物を示す情報を、ネットワーク等を介して出力部6に送信する。出力部6は、受信した情報を画像に重畳して表示部3に表示させる。
本実施形態の手法は、検出用画像を入力として受け付け、検出用画像から所与の被写体の位置を検出する処理を行い、検出結果を出力するよう、コンピュータを機能させるための学習済みモデルに適用できる。学習済モデルは、上記トラッキング方法によって生成されたアノテーションデータが、動画に含まれるフレームの画像に対応付けられた訓練データに基づいて、機械学習されている。なお、アノテーションデータが対応付けられるフレーム画像とは、動画に含まれる全フレームであってもよい。ただし本実施形態の手法はこれに限定されず、動画の一部のフレーム画像に対してアノテーションデータが対応付けられてもよい。この場合、アノテーションデータが対応付けられたフレーム画像を用いて機械学習が行われる。
本実施形態のトラッキング方法によれば、動画中の対象物に付されたタグ付け領域から精度よくトラッキングを行うことによって、精度の高いアノテーションデータを作成することが可能である。そのため、当該アノテーションデータを教師データとする機械学習を行うことによって、精度の高い検出処理を実行可能な学習済モデルを生成することが可能である。
また本実施形態の手法は、上記の学習済モデルを記憶する記憶部7と、検出用画像を撮像する内視鏡スコープ2と、学習済モデルに基づいて、検出用画像から所与の被写体の位置を検出する処理を行う処理部4と、を含む内視鏡システム100に適用できる。
このようにすれば、検出用画像から所望の被写体を精度よく検出することが可能になる。特に、画像に明確な位置形状が表示されない対象物についてアノテーションが付された教師データを用いて機械学習することで、熟練医師等の暗黙知に基づく対象物の検出を実現することも可能である。その際、トラッキングを用いて教師データを生成できるため、アノテーションにおける医師等の負担軽減が可能である。
以上、本実施形態およびその変形例について説明したが、本開示は、各実施形態やその変形例そのままに限定されるものではなく、実施段階では、発明の要旨を逸脱しない範囲内で構成要素を変形して具体化することができる。また、上記した各実施形態や変形例に開示されている複数の構成要素を適宜組み合わせることによって、種々の発明を形成することができる。例えば、各実施形態や変形例に記載した全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態や変形例で説明した構成要素を適宜組み合わせてもよい。このように、発明の主旨を逸脱しない範囲内において種々の変形や応用が可能である。また、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。
1…プロセッサユニット、2…内視鏡スコープ、3…表示部、4…処理部、5…検出部、6…出力部、7…記憶部、8…撮像データ受信部、9…操作部、10…情報処理システム、50…学習装置、51…処理部、52…記憶部、53…操作部、54…表示部、100…内視鏡システム、200…トラッキング装置、210…フレーム設定部、220…順方向トラッキング部、221…代表点抽出部、222…トラッキング部、223…外れ値除去部、224…代表点更新部、230…逆方向トラッキング部、240…トラッキング結果合成部、250…表示処理部、KZ…肝臓、TGA-TGD,TGE1-TGEx,TGF1-TGFy…タグ、TI…テンプレート画像、TL1,TL2…処置具、

Claims (12)

  1. 複数のフレームを含む動画について、開始フレームと終了フレームを設定するフレーム設定部と、
    前記開始フレームにおけるトラッキング対象の領域に基づいて、前記開始フレーム以降のフレームについて、順方向に前記トラッキング対象をトラッキングする順方向トラッキングを行う順方向トラッキング部と、
    前記終了フレームにおける前記トラッキング対象の領域に基づいて、前記終了フレーム以前のフレームについて、逆方向に前記トラッキング対象をトラッキングする逆方向トラッキングを行う逆方向トラッキング部と、
    前記順方向トラッキングと前記逆方向トラッキングがそれぞれ行われたフレームについて、前記順方向トラッキングに基づく順方向マスク画像と、前記逆方向トラッキングに基づく逆方向マスク画像とを合成することによって、前記トラッキング対象の領域を示す合成マスク画像を生成するトラッキング結果合成部と、
    を含むことを特徴とするトラッキング装置。
  2. 請求項1において、
    前記開始フレームにおける前記トラッキング対象の領域、及び、前記終了フレームにおける前記トラッキング対象の領域は、前記トラッキング対象について付されたタグ付けデータに基づいて設定されることを特徴とするトラッキング装置。
  3. 請求項1又は2において、
    前記トラッキング結果合成部は、
    前記開始フレームに近いフレームは、前記逆方向マスク画像に比べて、前記順方向マスク画像の重みが大きくなる重み情報を設定し、
    前記終了フレームに近いフレームは、前記順方向マスク画像に比べて、前記逆方向マスク画像の重みが大きくなる前記重み情報を設定し、
    前記重み情報に基づいて、前記順方向マスク画像と前記逆方向マスク画像を合成することによって、前記合成マスク画像を生成することを特徴とするトラッキング装置。
  4. 請求項1又は2において、
    前記トラッキング結果合成部は、
    前記開始フレーム以降の所定数のフレームは、前記順方向マスク画像を前記合成マスク画像として適用し、
    前記終了フレーム以前の所定数のフレームは、前記逆方向マスク画像を前記合成マスク画像として適用することを特徴とするトラッキング装置。
  5. 請求項1乃至4のいずれか一項において、
    前記合成マスク画像において、前記順方向マスク画像と前記逆方向マスク画像が重複しない部分が、前記順方向マスク画像と前記逆方向マスク画像が重複する部分よりも透過率が高くなるように、前記合成マスク画像を前記動画に重畳表示する表示処理部をさらに含むことを特徴とするトラッキング装置。
  6. 請求項1乃至5のいずれか一項において、
    前記順方向トラッキング部は、
    前記開始フレームにおける前記トラッキング対象の輪郭について、開始時トラッキング点を抽出し、抽出した前記開始時トラッキング点に基づいて前記順方向トラッキングを行い、
    前記逆方向トラッキング部は、
    前記終了フレームにおける前記トラッキング対象の輪郭について、終了時トラッキング点を抽出し、抽出した前記終了時トラッキング点に基づいて前記逆方向トラッキングを行うことを特徴とするトラッキング装置。
  7. 請求項6において、
    前記順方向マスク画像は、前記開始時トラッキング点のトラッキング結果である複数の点を繋いだ閉曲線の内部の領域を特定する画像であり、
    前記逆方向マスク画像は、前記終了時トラッキング点のトラッキング結果である複数の点を繋いだ閉曲線の内部の領域を特定する画像であることを特徴とするトラッキング装置。
  8. 請求項1乃至7のいずれか一項において、
    前記トラッキング結果合成部は、
    前記動画中のフレーム位置、及び画像上の画素位置に依存する重み付け係数に基づいて、前記順方向マスク画像と前記逆方向マスク画像を合成することを特徴とするトラッキング装置。
  9. 請求項8において、
    前記画素位置をxとし、前記フレーム位置をtとし、前記合成マスク画像をIとし、前記順方向マスク画像をIfとし、前記逆方向マスク画像をIbとした場合に、
    前記トラッキング結果合成部は、
    順方向重み付け係数wfと、逆方向重み付け係数wbとを用いて、下式(1)に基づいて前記合成マスク画像を生成することを特徴とするトラッキング装置。
    I(t,x)=wf(t,x)×If(t,x)+wb(t,x)×Ib(t,x)
    …(1)
  10. 学習済モデルを記憶する記憶部と、内視鏡スコープと、処理部と、を含む内視鏡システムに用いられる学習済モデルであって、
    前記学習済モデルは、
    複数のフレームを含む動画について、開始フレームと終了フレームを設定する工程と、
    前記開始フレームにおけるトラッキング対象の領域に基づいて、前記開始フレーム以降のフレームについて、順方向に前記トラッキング対象をトラッキングする順方向トラッキングを行う工程と、
    前記終了フレームにおける前記トラッキング対象の領域に基づいて、前記終了フレーム以前のフレームについて、逆方向に前記トラッキング対象をトラッキングする逆方向トラッキングを行う工程と、
    前記順方向トラッキングと前記逆方向トラッキングがそれぞれ行われたフレームについて、前記順方向トラッキングに基づく順方向マスク画像と、前記逆方向トラッキングに基づく逆方向マスク画像とを合成することによって、前記トラッキング対象の領域を示す合成マスク画像を生成する工程と、
    によって生成された前記合成マスク画像が、前記動画に含まれる複数の前記フレームの各フレームの画像に対応付けられた訓練データに基づいて、機械学習されており、
    前記処理部の検出部が、前記内視鏡スコープにより撮像された検出用画像を、前記記憶部に記憶される前記学習済モデルに入力し、前記検出部が、前記学習済モデルによる検出処理を行うことで、前記検出用画像における対象物の位置形状を検出し、前記処理部の出力部が、前記検出部による前記対象物の前記位置形状の検出結果に基づいて、前記対象物を示す情報を画像に重畳して表示部に表示させることを特徴とする学習済モデル。
  11. 習済モデルを記憶する記憶部と、
    出用画像を撮像する内視鏡スコープと、
    前記学習済モデルに基づいて、前記検出用画像から与の被写体の位置を検出する処理を行う処理部と、
    を含み、
    前記学習済モデルは、
    前記検出用画像を入力として受け付け、前記検出用画像から前記所与の被写体の位置を検出する処理を行い、検出結果を出力するよう、コンピュータを機能させるための学習済みモデルであって、
    前記学習済モデルは、
    複数のフレームを含む動画について、開始フレームと終了フレームを設定する工程と、
    前記開始フレームにおけるトラッキング対象の領域に基づいて、前記開始フレーム以降のフレームについて、順方向に前記トラッキング対象をトラッキングする順方向トラッキングを行う工程と、
    前記終了フレームにおける前記トラッキング対象の領域に基づいて、前記終了フレーム以前のフレームについて、逆方向に前記トラッキング対象をトラッキングする逆方向トラッキングを行う工程と、
    前記順方向トラッキングと前記逆方向トラッキングがそれぞれ行われたフレームについて、前記順方向トラッキングに基づく順方向マスク画像と、前記逆方向トラッキングに基づく逆方向マスク画像とを合成することによって、前記トラッキング対象の領域を示す合成マスク画像を生成する工程と、
    によって生成された前記合成マスク画像が、前記動画に含まれる複数の前記フレームの各フレームの画像に対応付けられた訓練データに基づいて、機械学習されていることを特徴とする内視鏡システム。
  12. フレーム設定部と、順方向トラッキング部と、逆方向トラッキング部と、トラッキング結果合成部とを含むトラッキング装置におけるトラッキング方法であって、
    前記フレーム設定部が、複数のフレームを含む動画について、開始フレームと終了フレームを設定する工程と、
    前記順方向トラッキング部が、前記開始フレームにおけるトラッキング対象の領域に基づいて、前記開始フレーム以降のフレームについて、順方向に前記トラッキング対象をトラッキングする順方向トラッキングを行う工程と、
    前記逆方向トラッキング部が、前記終了フレームにおける前記トラッキング対象の領域に基づいて、前記終了フレーム以前のフレームについて、逆方向に前記トラッキング対象をトラッキングする逆方向トラッキングを行う工程と、
    前記トラッキング結果合成部が、前記順方向トラッキングと前記逆方向トラッキングがそれぞれ行われたフレームについて、前記順方向トラッキングに基づく順方向マスク画像と、前記逆方向トラッキングに基づく逆方向マスク画像とを合成することによって、前記トラッキング対象の領域を示す合成マスク画像を生成する工程と、
    を含むことを特徴とするトラッキング方法。
JP2021508600A 2019-03-28 2019-03-28 トラッキング装置、学習済モデル、内視鏡システム及びトラッキング方法 Active JP7105370B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/013607 WO2020194664A1 (ja) 2019-03-28 2019-03-28 トラッキング装置、学習済モデル、内視鏡システム及びトラッキング方法

Publications (2)

Publication Number Publication Date
JPWO2020194664A1 JPWO2020194664A1 (ja) 2021-10-14
JP7105370B2 true JP7105370B2 (ja) 2022-07-22

Family

ID=72611183

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021508600A Active JP7105370B2 (ja) 2019-03-28 2019-03-28 トラッキング装置、学習済モデル、内視鏡システム及びトラッキング方法

Country Status (3)

Country Link
US (1) US11790537B2 (ja)
JP (1) JP7105370B2 (ja)
WO (1) WO2020194664A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110787A (zh) * 2019-05-06 2019-08-09 腾讯科技(深圳)有限公司 目标的位置获取方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004081875A2 (en) 2003-03-07 2004-09-23 Siemens Corporate Research Inc. System and method for tracking a global shape of an object in motion
JP6055565B1 (ja) 2016-03-15 2016-12-27 株式会社日立製作所 超音波診断装置
WO2017091833A1 (en) 2015-11-29 2017-06-01 Arterys Inc. Automated cardiac volume segmentation

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6055565B2 (ja) * 1982-03-31 1985-12-05 新日本製鐵株式会社 側部装入式ウオ−キング炉
US5764283A (en) 1995-12-29 1998-06-09 Lucent Technologies Inc. Method and apparatus for tracking moving objects in real time using contours of the objects and feature paths
US5999651A (en) 1997-06-06 1999-12-07 Matsushita Electric Industrial Co., Ltd. Apparatus and method for tracking deformable objects
US6259802B1 (en) 1997-06-30 2001-07-10 Siemens Corporate Research, Inc. Object tracking technique using polyline contours
US6546117B1 (en) 1999-06-10 2003-04-08 University Of Washington Video object segmentation using active contour modelling with global relaxation
US6678416B1 (en) 2000-02-08 2004-01-13 University Of Washington Detecting and segmenting local deformation in a tracked video object
US6937760B2 (en) 2000-12-28 2005-08-30 University Of Washington Interactive frame segmentation with dynamic programming
JP2002230548A (ja) 2001-01-30 2002-08-16 Namco Ltd パターン認識処理装置、方法およびパターン認識プログラム
JP4060615B2 (ja) 2002-03-05 2008-03-12 株式会社東芝 画像処理装置及び超音波診断装置
JP4492107B2 (ja) 2003-12-02 2010-06-30 株式会社日立メディコ 画像診断装置
US7894647B2 (en) 2004-06-21 2011-02-22 Siemens Medical Solutions Usa, Inc. System and method for 3D contour tracking of anatomical structures
FR2885719B1 (fr) 2005-05-10 2007-12-07 Thomson Licensing Sa Procede et dispositif de suivi d'objets dans une sequence d'images
JP4870449B2 (ja) 2006-02-27 2012-02-08 日立アロカメディカル株式会社 超音波診断装置及び超音波画像処理方法
EP1916538A3 (en) * 2006-10-27 2011-02-16 Panasonic Electric Works Co., Ltd. Target moving object tracking device
JP4814172B2 (ja) 2007-08-03 2011-11-16 日本電信電話株式会社 代表点追跡方法
CH699243A2 (de) 2008-07-25 2010-01-29 Ferag Ag Optisches Kontrollverfahren zur Erkennung von Druckereierzeugnissen bei der Druckweiterverarbeitung.
JP5520463B2 (ja) 2008-09-04 2014-06-11 株式会社ソニー・コンピュータエンタテインメント 画像処理装置、対象物追跡装置および画像処理方法
CN101477690B (zh) 2008-12-30 2011-04-27 清华大学 一种视频帧序列中物体轮廓跟踪的方法和装置
JP5290915B2 (ja) * 2009-09-03 2013-09-18 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
US8781160B2 (en) 2009-12-31 2014-07-15 Indian Institute Of Technology Bombay Image object tracking and segmentation using active contours
US9478033B1 (en) * 2010-08-02 2016-10-25 Red Giant Software Particle-based tracking of objects within images
JP4784709B1 (ja) 2011-03-10 2011-10-05 オムロン株式会社 対象物追跡装置、対象物追跡方法、および制御プログラム
AU2014216000A1 (en) 2014-08-22 2016-03-10 Canon Kabushiki Kaisha A non-uniform curve sampling method for object tracking
JP5918325B2 (ja) * 2014-09-11 2016-05-18 日立アロカメディカル株式会社 超音波診断装置
CA2983458A1 (en) 2015-07-16 2017-01-19 Raymond CANFIELD Cyber security system and method using intelligent agents
US9838604B2 (en) 2015-10-15 2017-12-05 Ag International Gmbh Method and system for stabilizing video frames
CN105761277B (zh) 2016-02-01 2018-09-14 西安理工大学 一种基于光流的运动目标跟踪方法
CN108090916B (zh) 2017-12-21 2019-05-07 百度在线网络技术(北京)有限公司 用于跟踪视频中的目标图形的方法和装置
US10740925B2 (en) 2018-08-29 2020-08-11 Adobe Inc. Object tracking verification in digital video
JP7125499B2 (ja) * 2018-09-21 2022-08-24 富士フイルム株式会社 画像処理装置及び画像処理方法
US10839531B2 (en) 2018-11-15 2020-11-17 Sony Corporation Object tracking based on a user-specified initialization point
CN109753940B (zh) 2019-01-11 2022-02-22 京东方科技集团股份有限公司 图像处理方法及装置
US10957043B2 (en) 2019-02-28 2021-03-23 Endosoftllc AI systems for detecting and sizing lesions

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004081875A2 (en) 2003-03-07 2004-09-23 Siemens Corporate Research Inc. System and method for tracking a global shape of an object in motion
WO2017091833A1 (en) 2015-11-29 2017-06-01 Arterys Inc. Automated cardiac volume segmentation
JP6055565B1 (ja) 2016-03-15 2016-12-27 株式会社日立製作所 超音波診断装置

Also Published As

Publication number Publication date
US11790537B2 (en) 2023-10-17
US20210174518A1 (en) 2021-06-10
WO2020194664A1 (ja) 2020-10-01
JPWO2020194664A1 (ja) 2021-10-14

Similar Documents

Publication Publication Date Title
JP7127785B2 (ja) 情報処理システム、内視鏡システム、学習済みモデル、情報記憶媒体及び情報処理方法
Chen et al. SLAM-based dense surface reconstruction in monocular minimally invasive surgery and its application to augmented reality
KR102013814B1 (ko) 수술영상을 이용한 가상신체모델 생성 방법 및 장치
Mahmoud et al. ORBSLAM-based endoscope tracking and 3D reconstruction
Bodenstedt et al. Comparative evaluation of instrument segmentation and tracking methods in minimally invasive surgery
Mourgues et al. 3D reconstruction of the operating field for image overlay in 3D-endoscopic surgery
US20180174311A1 (en) Method and system for simultaneous scene parsing and model fusion for endoscopic and laparoscopic navigation
US20180108138A1 (en) Method and system for semantic segmentation in laparoscopic and endoscopic 2d/2.5d image data
Tanzi et al. Real-time deep learning semantic segmentation during intra-operative surgery for 3D augmented reality assistance
da Costa Rocha et al. Self-supervised surgical tool segmentation using kinematic information
Zhou et al. Real-time dense reconstruction of tissue surface from stereo optical video
WO2020194662A1 (ja) 情報処理システム、内視鏡システム、学習済みモデル、情報記憶媒体、情報処理方法及び学習済みモデルの製造方法
JP7335370B2 (ja) 3次元姿勢推定データを生成するためのコンピュータ実装方法、データ処理装置およびコンピュータプログラム
Röhl et al. Real-time surface reconstruction from stereo endoscopic images for intraoperative registration
JP7105370B2 (ja) トラッキング装置、学習済モデル、内視鏡システム及びトラッキング方法
EP4337132A1 (en) Method and system of depth determination with closed form solution in model fusion for laparscopic surgical guidance
Speidel et al. Recognition of risk situations based on endoscopic instrument tracking and knowledge based situation modeling
Ali et al. Towards robotic knee arthroscopy: multi-scale network for tissue-tool segmentation
JP7105369B2 (ja) トラッキング装置、学習済モデル、内視鏡システム及びトラッキング方法
EP4309142A1 (en) Adaptive visualization of contextual targets in surgical video
CN111161408B (zh) 一种实现增强现实的方法及其应用、计算设备
Liu et al. SINet: A hybrid deep CNN model for real-time detection and segmentation of surgical instruments
Ali et al. A comprehensive survey on recent deep learning-based methods applied to surgical data
Kim et al. Performance improvement for two-lens panoramic endoscopic system during minimally invasive surgery
Wei et al. An Automatic and Robust Visual SLAM Method for Intra-Abdominal Environment Reconstruction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220711

R151 Written notification of patent or utility model registration

Ref document number: 7105370

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151