JP7513939B2

JP7513939B2 - 被写体抽出装置、被写体抽出方法及びプログラム

Info

Publication number: JP7513939B2
Application number: JP2023532928A
Authority: JP
Inventors: 誠武藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2024-07-10
Anticipated expiration: 2041-07-06
Also published as: JPWO2023281636A1; WO2023281636A1

Description

本開示は、被写体抽出装置、被写体抽出方法及びプログラムに関する。

従来、スポーツの試合等の映像から選手等の被写体を抽出するために、映像を構成する個々のフレーム画像から被写体の部分を抽出することが行われている。スポーツ競技を遠隔地で中継するパブリックビューイングのような場面では、観客に試合の状況を生で伝えるために、撮影映像をリアルタイムに処理する必要があるため、個々のフレームの処理に充てることのできる処理時間は限られる。具体的には、例えば秒間フレーム６０枚の映像であれば、１枚のフレームにかけられる処理時間は１／６０秒となる。このような短時間で、画像から被写体を正しく抽出するのは、その画像が高精細であればあるほど困難となる。そのため、非特許文献１に示すように、従来技術では、一度、低い解像度に変換してから、その低解像度の画像で被写体抽出を行い、被写体又は非被写体に分類できない未分類領域を対象として、被写体であるかどうかを判定し、最終的に高解像度化された被写体部位を抽出する処理が行われている。

柿沼弘員、他５名、「機械学習を用いた任意背景リアルタイム被写体抽出技術」、ＮＴＴ技術ジャーナル、第３０巻第１０号（通巻３５５号）、pp.16-20、2018年10月

しかしながら、被写体の数が多い、又は被写体の形が複雑であることにより未分類領域が大きくなると、未分類領域の判定の処理量が相対的に大きくなり、限られた時間内で処理を終えることが困難となる場合があった。例えば、図９のように、入力画像中の被写体の数が１つの場合と２つの場合とを比べると、被写体の数が２つの場合に生成される未分類領域の面積は、被写体の数が１つの場合に生成される未分類領域の面積の２倍になるので、未分類領域の判定の処理量も２倍となる。このような処理量の変化を考慮して、計算資源の割り当てを行う技術が望まれていた。

かかる事情に鑑みてなされた本開示の目的は、被写体部位の抽出に関する処理について、高効率な計算資源の割り当てを可能にする技術を提供することである。

本開示に係る被写体抽出装置は、画像を低解像度化して低解像度画像を生成する低解像度化部と、前記低解像度画像から被写体部位の候補を抽出する被写体候補抽出部と、前記被写体部位の候補のうち、前記被写体部位と非被写体部位との境界部を高解像度化し、前記境界部について１画素ずつ非被写体部位であるかを判定し、判定結果に基づいて前記被写体部位と前記非被写体部位とを確定する高解像度化部と、前記被写体候補抽出部と前記高解像度化部とが利用可能な計算資源の上限値を取得し、取得した前記上限値以下となるように、前記被写体候補抽出部に割り当てる計算資源の値を第１の値として、前記高解像度化部に割り当てる計算資源の値を第２の値としてそれぞれ決定し、決定した前記第１の値及び前記第２の値に基づいて、前記被写体候補抽出部と前記高解像度化部とに前記計算資源を割り当てる計算資源割当部とを備える。

また、本開示に係る被写体抽出方法は、被写体抽出装置が実行する被写体抽出方法であって、画像を低解像度化して低解像度画像を生成する低解像度化ステップと、前記低解像度画像から被写体部位の候補を抽出する被写体候補抽出ステップと、前記被写体部位の候補のうち、前記被写体部位と非被写体部位との境界部を高解像度化し、前記境界部について１画素ずつ非被写体部位であるかを判定し、判定結果に基づいて前記被写体部位と前記非被写体部位とを確定する高解像度化ステップと、前記被写体候補抽出ステップと前記高解像度化ステップとが利用可能な計算資源の上限値を取得し、取得した前記上限値以下となるように、前記被写体候補抽出ステップに割り当てる計算資源の値を第１の値として、前記高解像度化ステップに割り当てる計算資源の値を第２の値としてそれぞれ決定し、決定した前記第１の値及び前記第２の値に基づいて、前記被写体候補抽出ステップと前記高解像度化ステップとに前記計算資源を割り当てる計算資源割当ステップとを備える。

また、本開示に係るプログラムは、コンピュータを、本開示に係る被写体抽出装置として機能させる。

本開示によれば、被写体部位の抽出に関する処理について、高効率な計算資源の割り当てを可能にする技術を提供することができる。

本開示の一実施形態に係る被写体抽出装置の構成の一例を示す図である。被写体の抽出の処理の流れを説明するための図である。被写体の抽出の処理の流れを説明するための図である。被写体の抽出の処理の流れを説明するための図である。被写体の抽出の処理の流れを説明するための図である。被写体の抽出の処理の流れを説明するための図である。被写体の抽出の処理の流れを説明するための図である。計算資源を割り当てた結果の例を示す図である。本開示の一実施形態に係る被写体抽出装置の動作を示す図である。第１の変形例に係る被写体抽出装置の構成の一例を示す図である。第１の変形例に係る被写体抽出装置の動作を示す図である。第２の変形例に係る被写体抽出装置の構成の一例を示す図である。第２の変形例に係る被写体抽出装置の動作を示す図である。従来の被写体の抽出の技法を説明するための図である。

以下、本開示の実施形態について適宜図面を参照しながら説明する。各図面中、同一又は相当する部分には、同一符号を付している。本実施形態の説明において、同一又は相当する部分については、説明を適宜省略又は簡略化する。以下に説明する実施形態は本開示の構成の例であり、本発明は、以下の実施形態に制限されるものではない。

＜被写体抽出装置１０の構成＞
図１から図４を参照して、本実施形態に係る被写体抽出装置１０の構成の一例について説明する。図１に示すように、被写体抽出装置１０は、制御部１１と、記憶部１２と、通信部１３と、入力部１４と、出力部１５と、を備える。

記憶部１２は、１つ以上のメモリを含み、例えば半導体メモリ、磁気メモリ、光メモリなどを含んでもよい。記憶部１２に含まれる各メモリは、例えば主記憶装置、補助記憶装置、又はキャッシュメモリとして機能してもよい。記憶部１２は、被写体抽出装置１０の動作に用いられる任意の情報を記憶する。記憶部１２は、必ずしも被写体抽出装置１０が内部に備える必要はなく、被写体抽出装置１０の外部に備える構成としてもよい。

通信部１３には、少なくとも１つの通信インタフェースが含まれる。通信インタフェースは、例えば、ＬＡＮインタフェースである。通信部１３は、被写体抽出装置１０の動作に用いられる情報を受信し、また被写体抽出装置１０の動作によって得られる情報を送信する。

通信部１３は、被写体抽出装置１０がネットワークを介して他の装置と情報の送受信を行うことを可能にする。ネットワークとは、インターネット、少なくとも１つのＷＡＮ（Wide Area Network）、少なくとも１つのＭＡＮ（Metropolitan Area Network）、又はこれらの組み合わせを含む。ネットワークは、少なくとも１つの無線ネットワーク、少なくとも１つの光ネットワーク、又はこれらの組み合わせを含んでもよい。無線ネットワークは、例えば、アドホックネットワーク、セルラーネットワーク、無線ＬＡＮ（Local Area Network）、衛星通信ネットワーク、又は地上マイクロ波ネットワークである。

入力部１４には、少なくとも１つの入力用インタフェースが含まれる。入力用インタフェースは、例えば、物理キー、静電容量キー、ポインティングデバイス、ディスプレイと一体的に設けられたタッチスクリーン、又はマイクである。入力部１４は、被写体抽出装置１０の動作に用いられる情報を入力する操作を受け付ける。入力部１４は、被写体抽出装置１０に備えられる代わりに、外部の入力機器として被写体抽出装置１０に接続されてもよい。接続方式としては、例えば、ＵＳＢ（Universal Serial Bus）、ＨＤＭＩ（High-Definition Multimedia Interface）（登録商標）、又はBluetooth（登録商標）等の任意の方式を用いることができる。

入力部１４は、画像データの入力を受け付ける。画像データは、例えばバドミントン等のスポーツの試合を写す画像であるが、これに限られず、被写体と非被写体とを含む任意の画像であってよい。

出力部１５には、少なくとも１つの出力用インタフェースが含まれる。出力用インタフェースは、例えば、ディスプレイ又はスピーカである。ディスプレイは、例えば、ＬＣＤ（Liquid Crystal Display）又は有機ＥＬ（Electro Luminescence）ディスプレイである。出力部１５は、ＶＲゴーグル等のユーザが装着可能な装置を含んでよい。出力部１５は、被写体抽出装置１０の動作によって得られる情報を出力する。出力部１５は、被写体抽出装置１０に備えられる代わりに、外部の出力機器として被写体抽出装置１０に接続されてもよい。接続方式としては、例えば、ＵＳＢ、ＨＤＭＩ（登録商標）、又はBluetooth（登録商標）等の任意の方式を用いることができる。

制御部１１は、制御演算回路（コントローラ）により実現される。該制御演算回路は、ＡＳＩＣ（Application Specific Integrated Circuit)、ＦＰＧＡ(Field-Programmable Gate Array)等の専用のハードウェアによって構成されてもよいし、プロセッサによって構成されてもよいし、双方を含んで構成されてもよい。制御部１１は、被写体抽出装置１０の各部を制御しながら、被写体抽出装置１０の動作に関わる処理を実行する。制御部１１は、外部装置との情報の送受信を、通信部１３及びネットワークを介して行うことができる。

制御部１１は、低解像度化部１１１と、被写体候補抽出部１１２と、高解像度化部１１３と、計算資源割当部１１４とを備える。

制御部１１は、被写体と非被写体とが映り込んだ画像を取得する。画像の取得は任意の手法によって行われてよい。図２Ａは制御部１１が取得した画像の例を示す図である。図２Ａは、一例として、バドミントンのシングルスのゲームにおける片方のチームのコートを写した映像の１コマに相当する画像であり、被写体は１人の選手である。例えば入力画像がバドミントンのダブルスのゲームの映像である場合は、被写体は２人の選手となる。図２Ａの入力画像において、被写体と非被写体とを簡易的に示す。図２Ａのマス目は画素を示す。制御部１１は、取得した画像を低解像度化部１１１へ出力する。

低解像度化部１１１は、画像を低解像度化して低解像度画像を生成する。図２Ｂは図２Ａの入力画像を低解像度化して生成された低解像度画像の例である。図２Ｂでは、図２Ａの入力画像の縦方向の解像度と横方向の解像度とがそれぞれ４分の１に削減され、被写体と非被写体とが低解像度化されていることがわかる。低解像度化部１１１は、生成した低解像度画像を被写体候補抽出部１１２へ出力する。

被写体候補抽出部１１２は、低解像度画像から被写体部位の候補ＦＧを抽出する。さらに被写体候補抽出部１１２は、被写体部位の候補ＦＧ以外を非被写体部位の候補ＢＧとして抽出する。被写体部位の候補ＦＧ及び非被写体部位の候補ＢＧの抽出は、深層学習を含む機械学習に行われてよい。この場合、被写体候補抽出部１１２は、記憶部１２又から学習済モデルを読み出して低解像度画像に適用する。被写体候補抽出部１１２は、通信部１３を介して外部装置から学習済モデルを受信して適用してもよい。被写体候補抽出部１１２による抽出結果が出力部１５を介してユーザに対して表示され、ユーザが入力部１４を介して、抽出の修正を行ってよい。当該修正に応じて、被写体候補抽出部１１２が学習モデルを更新できてよい。

図２Ｃに示すように、被写体候補抽出部１１２は、図２Ｂの低解像度画像から被写体部位の候補ＦＧと、非被写体部位の候補ＢＧとを抽出する。図２Ｃを参照すると、図２Ｂの非被写体は非被写体部位の候補ＢＧの一部として抽出されていることがわかる。被写体候補抽出部１１２は、抽出した結果を含む低解像度画像を、高解像度化部１１３に出力する。

高解像度化部１１３は、低解像度画像を高解像度化して、被写体部位の候補ＦＧの少なくとも一部から、被写体部位と非被写体部位との境界部ＵＮを生成する。図２Ｄは、高解像度化部１１３が高解像度化した画像を示す。図２Ｄにおいて、被写体候補抽出部１１２によって抽出された被写体部位の候補ＦＧの範囲が破線で示される。

高解像度化部１１３はまず、被写体部位の候補ＦＧのうち所定の領域を被写体部位ＦＧ’として特定する。被写体部位ＦＧ’とする領域の特定は、既知の手法により行われてよい。例えば高解像度化部１１３は、被写体部位の候補ＦＧの範囲から所定の距離内側に存在領域を被写体部位ＦＧ’として特定してよい。図２Ｄにおいて、中央の十字の形の領域は、高解像度化部１１３が被写体部位ＦＧ’として特定した領域を示す。図２Ｄからわかるように、被写体部位の候補ＦＧの範囲から２画素分内側にある領域が被写体部位ＦＧ’として特定されている。

さらに高解像度化部１１３は、被写体部位の候補ＦＧの範囲を中心として一定の画素数の幅を持った領域を境界部ＵＮとして生成する。高解像度化部１１３は、当該破線を中心として、当該破線に沿った４画素分の幅を有する領域を境界部ＵＮとして生成する。このように高解像度化部１１３は、被写体部位と非被写体部位との境界部ＵＮを高解像度化する。

高解像度化部１１３はまた、被写体部位ＦＧ’及び境界部ＵＮ以外の領域を、非被写体部位ＢＧ’として特定する。

高解像度化部１１３は、生成した境界部ＵＮについて１画素ずつ被写体部位ＦＧ’であるかを判定し、判定結果に基づいて被写体部位ＦＧ’と非被写体部位ＢＧ’とを確定させる。本例では、図２Ｄで示される境界部ＵＮについて１画素ずつ判定される。判定の手法は最近傍探索法が採用されてよい。具体的には、高解像度化部１１３は、境界部ＵＮの任意の画素Ｐ１を選択し、画素Ｐ１と最も距離が近い、被写体部位ＦＧ’と特定されている領域の画素を探索し、当該二つの画素のそれぞれの輝度値、ＲＧＢ値等の任意の値を取得する。当該値の差が一定閾値以下であれば、画素Ｐ１を被写体部位ＦＧ’として特定する。また、高解像度化部１１３は、境界部ＵＮの任意の画素Ｐ２を選択し、画素Ｐ２と最も距離が近い、非被写体部位ＢＧ’と特定されている領域の画素を探索し、当該二つの画素のそれぞれの輝度値、ＲＧＢ値等の任意の値を取得し、当該値の差が一定閾値以下であれば、画素Ｐ２を非被写体部位ＢＧ’として特定する。

図２Ｅは、境界部ＵＮの各画素について、高解像度化部１１３が被写体部位ＦＧ’と非被写体部位ＢＧ’のいずれであるかを判定した結果を示す。図２Ｅを参照すると、図２Ｄの境界部ＵＮの上部は非被写体部位ＢＧ’として判定されていることがわかる。

高解像度化部１１３は、特定していた被写体部位ＦＧ’及び非被写体部位ＢＧ’の領域のそれぞれに、上述のように判定した画素を加えて、被写体部位ＦＧ’及び非被写体部位ＢＧ’として確定する。図２Ｆは、確定された被写体部位ＦＧ’及び非被写体部位ＢＧ’を示す。高解像度化部１１３は、被写体部位ＦＧ’と非被写体部位ＢＧ’とを含む画像を記憶部１２に格納する。高解像度化部１１３は、被写体部位ＦＧ’のみを含む画像を記憶部１２に格納してもよい。

上述においては、高解像度化部１１３が、低解像度画像の全体を高解像度化して、最終的に被写体部位ＦＧ’と非被写体部位ＢＧ’とを含む画像を出力する例を示したが、高解像度化部１１３の処理はこれに限られない。高解像度化部１１３は、低解像度化された画像のうち、被写体部位の候補ＦＧの範囲のみ高解像度化してもよい。この場合、高解像度化部１１３は、被写体部位の候補ＦＧの範囲から所定の距離内側にある領域を被写体部位ＦＧ’として特定し、残りの被写体部位の候補ＦＧの領域の各画素について、被写体部位ＦＧ’に含まれるかどうか判定する。高解像度化部１１３は、特定した被写体部位ＦＧ’に、被写体部位ＦＧ’に含まれると判定した画素を加えて、被写体部位ＦＧ’として確定する。高解像度化部１１３は、このようにして確定した被写体部位ＦＧ’のみを含む画像を出力できてもよい。

計算資源割当部１１４は、被写体候補抽出部１１２と高解像度化部１１３とが利用可能な計算資源の上限値を取得する。計算資源とは被写体抽出装置１０のＣＰＵ又はメモリ等を含み、上限値とはこれらの空き容量である。上限値の取得は任意の手法によって行ってよい。計算資源割当部１１４は常に計算資源の使用量を監視及び予測することで、空き容量の上限値を取得してもよい。例えば、計算資源割当部１１４が取得した上限値が４の値であるとする。

次に計算資源割当部１１４は、被写体部位の数を示す情報を取得する。被写体部位の数を示す情報は任意の手法で取得されてよい。計算資源割当部１１４は、入力部１４を介してユーザが入力した被写体部位の数を示す情報を取得してよい。例えば、入力映像がバドミントンのシングルスのゲームである場合、ユーザは被写体の数を１と入力し、入力映像がバドミントンのダブルスのゲームである場合、ユーザは被写体の数を２と入力する。計算資源割当部１１４は、当該値を被写体部位の数を示す情報として取得する。

計算資源割当部１１４は、取得した被写体部位の数を示す情報に応じて、高解像度化部１１３に割り当てる計算資源の値を、第２の値として決定する。ここで、計算資源割当部１１４は、取得した上限値以下となるように当該第２の値を決定する。

計算資源割当部１１４は、被写体部位の数が増加するほど、第２の値を増加して決定してよい。本例では、計算資源割当部１１４は、被写体部位の数に比例した値を第２の値として決定する。具体的には、計算資源割当部１１４は、取得した被写体部位の数が１である場合、１を第２の値として決定し、取得した被写体部位の数が２である場合、２を第２の値として決定する。このように、計算資源割当部１１４は取得した上限値の４未満の数を第２の値として決定する。

計算資源割当部１１４は、被写体候補抽出部１１２に割り当てる計算資源の値を取得する。計算資源割当部１１４は、被写体候補抽出部１１２に割り当てる値を、取得した上限値から上述の第２の値を減算した値を、被写体候補抽出部１１２に割り当てる第１の値として決定する。例えば、取得した上限値が４であって、第２の値が１である場合、計算資源割当部１１４は、第１の値として３の値を決定する。

計算資源割当部１１４は、決定した第１の値及び第２の値に基づいて、被写体候補抽出部１１２と高解像度化部１１３とに計算資源を割り当てる。図３は、計算資源割当部１１４が計算資源を割り当てた結果の例を、被写体部位の数が１であるシングルスの映像、及び被写体部位の数が２であるダブルスの映像の種類別に示す。

図３を参照すると、被写体候補抽出部１１２と高解像度化部１１３とが利用可能な計算資源の上限値として４の値が、合計割当量となっている。当該上限値から、高解像度化部１１３に割り当てる第２の値を減算した値として、シングルスの画像では３、ダブルスの画像では２の値が、被写体候補抽出部１１２へ割り当てる第１の値としてそれぞれ設定されている。図３に示すような計算資源の割り当てによれば、被写体候補抽出部１１２の処理速度は、ダブルスの画像では低下することとなるが、速度の低下はシングルスの画像の２／３にとどまる。これは、高解像度化部１１３による境界部ＵＮの判定の処理量が、ダブルスの画像はシングルスの画像と比較して２倍であることを考慮すると、全体としての処理速度の低下はより小さく済んでいることを示す。

従来は、利用可能な計算資源の上限値が４である場合、被写体候補抽出部１１２と高解像度化部１１３とに割り当てる計算資源の値として、例えば以下の表１に示す値が設定されていた。

表１に示すように、従来は割り当てる計算資源の値は固定的に設定されていた。本実施形態によれば、計算資源割当部１１４が被写体候補抽出部１１２と高解像度化部１１３とに割り当てる計算資源の値を別々に、映像種別に応じて動的に決定できるため、より効率的な計算資源の使用が実現できる。

計算資源割当部１１４は、当該結果を計算資源割当情報として記憶部１２に格納してよい。制御部１１は、ユーザの要求に応じて、当該計算資源割当情報を記憶部１２から読み出し、出力部１５を介してユーザに対して音声又は画像で表示できてよい。

計算資源割当部１１４は、予め設定された第１の値又は第２の値を示す情報を取得し、当該情報に応じて、計算資源を、被写体候補抽出部１１２と高解像度化部１１３とに対し割り当ててもよい。当該情報は、ユーザによって入力部１４を介して入力されてもよいし、通信部１３を介して、外部装置から取得されてもよい。

計算資源割当部１１４は、被写体抽出装置１０とネットワークを介して通信可能な別の装置に含まれる構成であってもよい。この場合、計算資源割当部１１４は、複数の異なる被写体抽出装置１０について、それぞれの被写体候補抽出部１１２と高解像度化部１１３とに対して割り当てられる計算資源の値を決定できる。

＜プログラム＞
上述した被写体抽出装置１０として機能させるために、プログラム命令を実行可能なコンピュータを用いることも可能である。ここで、コンピュータは、汎用コンピュータ、専用コンピュータ、ワークステーション、ＰＣ（Personal Computer）、電子ノートパッドなどであってもよい。プログラム命令は、必要なタスクを実行するためのプログラムコード、コードセグメントなどであってもよい。

コンピュータは、プロセッサと、記憶部と、入力部と、出力部と、通信インタフェースとを備える。プロセッサは、ＣＰＵ(Central Processing Unit)、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＳｏＣ（System on a Chip）等であり、同種又は異種の複数のプロセッサにより構成されてもよい。プロセッサは、記憶部からプログラムを読み出して実行することで、上記各構成の制御及び各種の演算処理を行う。なお、これらの処理内容の少なくとも一部をハードウェアで実現することとしてもよい。入力部は、ユーザの入力操作を受け付けてユーザの操作に基づく情報を取得する入力インタフェースであり、ポインティングデバイス、キーボード、マウスなどである。出力部は、情報を出力する出力インタフェースであり、ディスプレイ、スピーカなどである。通信インタフェースは、外部の装置と通信するためのインタフェースである。

プログラムは、コンピュータが読み取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性（non-transitory）の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリなどであってもよい。また、このプログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

＜被写体抽出装置１０の動作＞
次に、図２、図３、及び図４を参照して、本実施形態に係る被写体抽出装置１０の動作について説明する。被写体抽出装置１０の動作は、本実施形態に係る被写体抽出方法に相当する。

ステップＳ１において、制御部１１は、被写体と非被写体とが映り込んだ画像を取得する。画像の取得は任意の手法によって行われてよい。図２Ａは制御部１１が取得した画像の例を示す図である。制御部１１は、取得した画像を低解像度化部１１１へ出力する。

ステップＳ２において、低解像度化部１１１は、画像を低解像度化して低解像度画像を生成する。図２Ｂは図２Ａの入力画像を低解像度化して生成された低解像度画像の例である。低解像度化部１１１は、生成した低解像度画像を被写体候補抽出部１１２へ出力する。

ステップＳ３において、計算資源割当部１１４は、被写体候補抽出部１１２と高解像度化部１１３とが利用可能な計算資源の上限値を取得する。上限値の取得は任意の手法によって行ってよい。

ステップＳ４において、計算資源割当部１１４は、被写体部位の数を示す情報を取得する。被写体部位の数を示す情報は任意の手法で取得されてよい。本例では、計算資源割当部１１４は、入力部２４を介してユーザが入力した被写体部位の数を示す情報を取得する。本例では、計算資源割当部１１４は、値「１」を被写体部位の数を示す情報として取得する。

ステップＳ５において、計算資源割当部１１４は、取得した被写体部位の数を示す情報に応じて、高解像度化部１１３に割り当てる計算資源の値を、第２の値として決定する。計算資源割当部１１４は、被写体部位の数が増加するほど、第２の値を増加して決定してよい。本例では、計算資源割当部１１４は、被写体部位の数に比例した値を第２の値として決定する。本例では、ステップＳ４で取得した被写体部位の数が１である。計算資源割当部１１４は、値「１」を第２の値として決定する。

ステップＳ６において、計算資源割当部１１４は、被写体候補抽出部１１２に割り当てる計算資源の値を第１の値として決定する。計算資源割当部１１４は、被写体候補抽出部１１２に割り当てる値を、取得した上限値から上述の第２の値を減算した値を、第１の値として決定する。

ステップＳ７において、計算資源割当部１１４は、決定した第１の値及び第２の値に基づいて、被写体候補抽出部１１２と高解像度化部１１３とに計算資源を割り当てる。

ステップＳ８において、被写体候補抽出部１１２は、低解像度画像から被写体部位の候補ＦＧを抽出する。さらに被写体候補抽出部１１２は、被写体部位の候補ＦＧ以外を非被写体部位の候補ＢＧとして抽出する。被写体部位の候補ＦＧ及び非被写体部位の候補ＢＧの抽出は、深層学習を含む機械学習に行われてよい。この場合、被写体候補抽出部１１２は、記憶部１２又から学習済モデルを読み出して低解像度画像に適用する。

図２Ｃに示すように、被写体候補抽出部１１２は、図２Ｂの低解像度画像から被写体部位の候補ＦＧと、非被写体部位の候補ＢＧとを抽出する。被写体候補抽出部１１２は、抽出した結果を含む低解像度画像を、高解像度化部１１３に出力する。

ステップＳ９において、高解像度化部１１３は、低解像度画像を高解像度化して、被写体部位の候補ＦＧの少なくとも一部から、被写体部位と非被写体部位との境界部ＵＮを生成する。図２Ｄは、高解像度化部１１３が高解像度化した画像を示す。図２Ｄでは、ステップＳ７で抽出された被写体部位の候補ＦＧの範囲が破線で示される。

高解像度化部１１３はまず、被写体部位の候補ＦＧのうち所定の領域を被写体部位ＦＧ’として特定する。被写体部位ＦＧ’とする領域の特定は、既知の手法により行われてよい。例えば高解像度化部１１３は、被写体部位の候補ＦＧの範囲から所定の距離内側に存在する領域を、被写体部位ＦＧ’として特定してよい。図２Ｄにおいて、中央の十字の形の領域は、高解像度化部１１３が被写体部位ＦＧ’として特定した領域を示す。

高解像度化部１１３はまた、被写体部位ＦＧ’及び境界部ＵＮ以外の領域を非被写体部位ＢＧ’として特定する。

ステップＳ１０において、高解像度化部１１３は、生成した境界部ＵＮについて１画素ずつ被写体部位ＦＧ’であるかを判定し、判定結果に基づいて被写体部位ＦＧ’と非被写体部位ＢＧ’とを確定させる。本例では、図２Ｄに示す境界部ＵＮについて１画素ずつ判定される。判定の手法は最近傍探索法が採用されてよい。

図２Ｅは、境界部ＵＮの各画素について、高解像度化部１１３が被写体部位ＦＧ’と非被写体部位ＢＧ’のいずれであるかを判定した結果を示す。

高解像度化部１１３は、ステップＳ９で特定していた被写体部位ＦＧ’及び非被写体部位ＢＧ’の領域のそれぞれに、上述のように判定した画素を加えて、被写体部位ＦＧ’及び非被写体部位ＢＧ’として確定する。図２Ｆは、確定された被写体部位ＦＧ’及び非被写体部位ＢＧ’とを示す。

ステップＳ１１において、高解像度化部１１３は、被写体部位ＦＧ’と非被写体部位ＢＧ’とを含む画像を記憶部１２に格納する。高解像度化部１１３は、被写体部位ＦＧ’のみを含む画像を記憶部１２に格納してもよい。

ステップＳ１２において、制御部１１は、記憶部１２から画像を読み出し、画像をユーザに対して表示する。その後、被写体抽出装置１０の動作は終了する。

ユーザへの表示には任意の手法が採用されてよい。例えば、制御部１１は、出力部１５を介して画像をユーザに対して表示する。例えば、制御部１１は、ユーザが使用する端末装置と通信部１３を介して通信し、当該端末装置に画像を送信してもよい。ここで、端末装置は、携帯電話機、スマートフォン、ウェアラブル機器、若しくはタブレットなどのモバイル機器、又はＰＣを含む。「ウェアラブル機器」は具体的には、ＶＲゴーグル等の、ユーザの身体に装着可能なモバイル機器である。端末装置が画像を受信して出力することで、画像がユーザに対し表示される。

上述のように、本実施形態にかかる被写体抽出装置１０は、画像を低解像度化して低解像度画像を生成する低解像度化部１１１と、低解像度画像から被写体部位の候補を抽出する被写体候補抽出部１１２と、被写体部位の候補のうち、被写体部位と非被写体部位との境界部ＵＮを高解像度化し、境界部ＵＮについて１画素ずつ非被写体部位であるかを判定し、判定結果に基づいて被写体部位と非被写体部位とを確定する高解像度化部１１３と、被写体候補抽出部１１２と高解像度化部１１３とが利用可能な計算資源の上限値を取得し、取得した上限値以下となるように、被写体候補抽出部１１２に割り当てる計算資源の値を第１の値として、高解像度化部１１３に割り当てる計算資源の値を第２の値としてそれぞれ決定し、決定した第１の値及び第２の値に基づいて、被写体候補抽出部１１２と高解像度化部１１３とに計算資源を割り当てる計算資源割当部１１４とを備える。

本実施形態によれば、被写体候補抽出部１１２が低解像度化した画像で被写体部位の抽出の処理を行い、高解像度化部１１３が、境界部ＵＮに対してのみ被写体部位かどうかの判定の処理を行う。このような被写体候補抽出部１１２と高解像度化部１１３との併用により、画像中の被写体部位の範囲の確定を高速に行うことができる。計算資源割当部１１４は、入力画像に含まれる被写体の数、大きさ、複雑さに応じて被写体候補抽出部１１２と高解像度化部１１３とに割り当てる計算資源を、境界部ＵＮの処理に必要な計算資源の多寡に応じて指定することができる。このように、被写体部位の抽出に関する処理について、高効率な計算資源の割り当てを可能にする技術を提供できる。

本開示を諸図面や実施形態に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本開示の範囲に含まれることに留意されたい。

（第１の変形例）
次に、本開示の実施形態の第２の変形例について説明する。図５に示すように、本変形例では、制御部１１は、境界部計測部１１５をさらに備える。

本変形例の被写体抽出装置１０においては、高解像度化部１１３が境界部ＵＮを生成した後、境界部計測部１１５が境界部ＵＮの面積を計測する。境界部計測部１１５は、計測した境界部ＵＮの面積を計算資源割当部１１４に出力する。

計算資源割当部１１４は、境界部ＵＮの面積に基づいて、高解像度化部１１３に割り当てる計算資源の値を第２の値としてさらに決定する。

計算資源割当部１１４は、被写体部位の数を示す情報に応じて決定していた第２の値を、境界部ＵＮの面積に応じて決定した第２の値に修正してもよい。

また、予め設定された値の計算資源が高解像度化部１１３に割り当てられて、高解像度化部１１３が境界部ＵＮを生成していたとする。この場合、上述した実施形態の第２の値に代えて、本変形例に記載の第２の値が決定されてもよい。

計算資源割当部１１４は、計測された境界部ＵＮの面積が大きい程、第２の値を増加させて決定してよい。例えば計算資源割当部１１４は、境界部計測部１１５が計測した境界部ＵＮの面積が１００のときは値「１」を、境界部ＵＮの面積が２００のときは値「２」を、高解像度化部１１３に割り当てる第２の値として決定する。このように計算資源割当部１１４は、境界部ＵＮの面積の１／１００の値を、第２の値として決定してよい。このように計算資源割当部１１４は、計測された境界部ＵＮの面積比に応じて第２の値を決定してよい。

以下、上述の実施形態に係る被写体抽出装置１０の動作と本変形例に係る被写体抽出装置１０の動作との差異を、図６を参照しながら説明する。

図６のステップＳ２０１からステップＳ２０９は、上述の実施形態に係る図４のステップＳ１からステップＳ９と同様であるため説明を省略する。

ステップＳ２１０において、境界部計測部１１５は、境界部ＵＮの面積を計測する。ここで境界部計測部１１５は、計測した境界部ＵＮの面積を計算資源割当部１１４に出力する。

ステップＳ２１１において、計算資源割当部１１４は、計測された境界部ＵＮの面積に基づいて、高解像度化部１１３にさらに割り当てる計算資源の値を第２の値として決定する。計算資源割当部１１４は、計測された境界部ＵＮの面積が大きい程、第２の値を増加させて決定してよい。

ステップＳ２１２において、計算資源割当部１１４は、ステップＳ２１１で決定した第２の値に基づいて高解像度化部１１３に計算資源をさらに割り当てる。

ステップＳ２１３からステップＳ２１５は、図４のステップＳ１０からステップＳ１２と同様であるため説明を省略する。

上述のように、第１の変形例に係る被写体抽出装置１０は、境界部ＵＮの面積を計測する境界部計測部１１５をさらに備え、計算資源割当部１１４は、境界部ＵＮの面積に基づいて、高解像度化部１１３に割り当てる計算資源の値を第２の値として決定し、決定した第２の値に基づいて、高解像度化部１１３に計算資源を割り当てる。

本変形例によれば、高解像度化部１１３が、境界部ＵＮについて１画素ずつ被写体部位ＦＧ’であるかを判定するための計算資源の量が、境界部ＵＮの面積の大きさに基づいて決定される。計算資源を消費する境界部ＵＮの判定の処理に必要な計算資源の値が、境界部ＵＮの面積に応じて決定できるため、単純に被写体部位の数のみによって第２の値が決定される場合と比べて、より高効率な計算資源の割り当てが可能となる。

（第２の変形例）
次に、本開示の実施形態の第２の変形例について説明する。図７に示すように、本変形例では、制御部１１は、画像種別解析部１１６をさらに備える。

画像種別解析部１１６は、制御部１１が取得した画像を解析し、種別を推定する。推定方法は、既知の画像解析技術における物体検出手法、機械学習を用いたカテゴリ推定手法等を採用してよい。本変形例では、画像種別解析部１１６は、取得された画像から、バドミントンのシングルスのゲーム、またはダブルスのゲームであることを推定する。画像種別解析部１１６が推定できる画像種別はこれに限られず、人物、動物、建物、乗り物等あらゆる被写体が映った画像であってよい。画像種別解析部１１６は、推定の結果を示す情報を計算資源割当部１１４に出力する。

計算資源割当部１１４は、推定された画像の種別に応じて、被写体部位の数を決定し、当該被写体部位の数に応じて、高解像度化部１１３に割り当てる計算資源の値を第２の値として決定する。

例えば、画像種別解析部１１６が推定した画像の種別がバドミントンのシングルスのゲームである場合、計算資源割当部１１４は、被写体部位の数を１と決定し、高解像度化部１１３に割り当てる計算資源の値として値「１」を、第２の値として決定する。例えば、画像種別解析部１１６が推定した画像の種別がバドミントンのダブルスのゲームである場合、計算資源割当部１１４は、被写体部位の数を２と決定し、高解像度化部１１３に割り当てる計算資源の値として値「２」を、第２の値として決定する。

計算資源割当部１１４は、上述の実施形態と同様に、決定した第１の値及び第２の値に基づいて、被写体候補抽出部１１２と高解像度化部１１３とに計算資源を割り当てる。

以下、上述の実施形態に係る被写体抽出装置１０の動作と本変形例に係る被写体抽出装置１０の動作との差異を、図８を参照しながら説明する。

図８のステップＳ３０１からステップＳ３０３は、上述の実施形態に係る図４のステップＳ１からステップＳ３と同様であるため説明を省略する。

ステップＳ３０４において、画像種別解析部１１６は、制御部１１が取得した画像を解析し、種別を推定する。推定方法は、既知の画像解析技術における物体検出手法、機械学習を用いたカテゴリ推定手法等を採用してよい。画像種別解析部１１６は、推定の結果を示す情報を計算資源割当部１１４に出力する。

ステップＳ３０５において、計算資源割当部１１４は、推定された画像の種別に応じて、被写体部位の数を決定し、当該被写体部位の数に応じて、高解像度化部１１３に割り当てる計算資源の値を第２の値として決定する。例えば、画像種別解析部１１６が推定した画像の種別がバドミントンのシングルスのゲームである場合、計算資源割当部１１４は、被写体部位の数を１と決定し、高解像度化部１１３に割り当てる計算資源の値として値「１」を、第２の値として決定する。

図８のステップＳ３０６からステップＳ３１２は、上述の実施形態に係る図４のステップＳ６からステップＳ１２と同様であるため説明を省略する。

上述のように、第２の変形例に係る被写体抽出装置１０は、画像の種別を解析する画像種別解析部１１６をさらに備え、計算資源割当部１１４は、種別に応じて、被写体部位の数を決定し、被写体部位の数に応じて、高解像度化部１１３に割り当てる計算資源の値を第２の値として決定する。

本変形例によれば、ユーザが入力せずとも、画像種別解析部１１６が入力画像の種別を推定し、当該推定の結果に基づいて、計算資源割当部１１４が被写体部位の数を決定できる。よって画像が入力されてから被写体部位が抽出されるまで、自動的に計算資源の割り当てを行って処理することができ、被写体部位の抽出の技術を改善することができる。

以上の実施形態に関し、更に以下の付記を開示する。

（付記項１）
画像を低解像度化して低解像度画像を生成し、
前記低解像度画像から被写体部位の候補を抽出し、
前記被写体部位の候補のうち、前記被写体部位と非被写体部位との境界部を高解像度化し、前記境界部について１画素ずつ非被写体部位であるかを判定し、判定結果に基づいて前記被写体部位と前記非被写体部位とを確定し、
前記被写体部位の候補の抽出と前記高解像度化とが利用可能な計算資源の上限値を取得し、取得した前記上限値以下となるように、前記被写体部位の候補の抽出に割り当てる計算資源の値を第１の値として、前記高解像度化に割り当てる計算資源の値を第２の値としてそれぞれ決定し、決定した前記第１の値及び前記第２の値に基づいて、前記被写体部位の候補の抽出と前記高解像度化とに前記計算資源を割り当てる制御部と
を備える、被写体抽出装置。
（付記項２）
前記制御部は、前記境界部の面積を計測し、
前記境界部の面積に基づいて、前記高解像度化に割り当てる計算資源の値を前記第２の値として決定し、決定した前記第２の値に基づいて、前記高解像度化に前記計算資源を割り当てる、付記項１に記載の被写体抽出装置。
（付記項３）
前記制御部は、画像の種別を解析し、
前記種別に応じて、前記被写体部位の数を決定し、前記被写体部位の数に応じて、前記高解像度化に割り当てる計算資源の値を前記第２の値として決定する、付記項１又は２に記載の被写体抽出装置。
（付記項４）
被写体抽出装置が実行する被写体抽出方法であって、
画像を低解像度化して低解像度画像を生成する低解像度化ステップと、
前記低解像度画像から被写体部位の候補を抽出する被写体候補抽出ステップと、
前記被写体部位の候補のうち、前記被写体部位と非被写体部位との境界部を高解像度化し、前記境界部について１画素ずつ非被写体部位であるかを判定し、判定結果に基づいて前記被写体部位と前記非被写体部位とを確定する高解像度化ステップと、
前記被写体候補抽出ステップと前記高解像度化ステップとが利用可能な計算資源の上限値を取得し、取得した前記上限値以下となるように、前記被写体候補抽出ステップに割り当てる計算資源の値を第１の値として、前記高解像度化ステップに割り当てる計算資源の値を第２の値としてそれぞれ決定し、決定した前記第１の値及び前記第２の値に基づいて、前記被写体候補抽出ステップと前記高解像度化ステップとに前記計算資源を割り当てる計算資源割当ステップと
を備える、被写体抽出方法。
（付記項５）
前記境界部の面積を計測する境界部計測ステップをさらに備え、
前記計算資源割当ステップは、前記境界部の面積に基づいて、前記高解像度化ステップに割り当てる計算資源の値を前記第２の値として決定するステップと、決定した前記第２の値に基づいて、前記高解像度化ステップに前記計算資源を割り当てるステップとをさらに備える、付記項４に記載の被写体抽出方法。
（付記項６）
前記画像の種別を解析する画像種別解析ステップをさらに備え、
前記計算資源割当ステップは、前記種別に応じて、前記被写体部位の数を決定するステップと、前記被写体部位の数に応じて、前記高解像度化ステップに割り当てる前記計算資源の値を第２の値として決定するステップとをさらに備える、付記項４又は５に記載の被写体抽出方法。
（付記項７）
コンピュータを、付記項１から３のいずれか一項に記載の被写体抽出装置として機能させるためのプログラムを記憶した非一時的なコンピュータ読取り可能な媒体。

１０被写体抽出装置
１１制御部
１２記憶部
１３通信部
１４入力部
１５出力部
１１１低解像度化部
１１２被写体候補抽出部
１１３高解像度化部
１１４計算資源割当部
１１５境界部計測部
１１６画像種別解析部

Claims

画像を低解像度化して低解像度画像を生成する低解像度化部と、
前記低解像度画像から被写体部位の候補を抽出する被写体候補抽出部と、
前記被写体部位の候補のうち、前記被写体部位と非被写体部位との境界部を高解像度化し、前記境界部について１画素ずつ非被写体部位であるかを判定し、判定結果に基づいて前記被写体部位と前記非被写体部位とを確定する高解像度化部と、
前記被写体候補抽出部と前記高解像度化部とが利用可能な計算資源の上限値を取得し、取得した前記上限値以下となるように、前記被写体候補抽出部に割り当てる計算資源の値を第１の値として、前記高解像度化部に割り当てる計算資源の値を第２の値としてそれぞれ決定し、決定した前記第１の値及び前記第２の値に基づいて、前記被写体候補抽出部と前記高解像度化部とに前記計算資源を割り当てる計算資源割当部と
を備える、被写体抽出装置。
前記境界部の面積を計測する境界部計測部をさらに備え、
前記計算資源割当部は、前記境界部の面積に基づいて、前記高解像度化部に割り当てる計算資源の値を前記第２の値として決定し、決定した前記第２の値に基づいて、前記高解像度化部に前記計算資源を割り当てる、請求項１に記載の被写体抽出装置。
前記画像の種別を解析する画像種別解析部をさらに備え、
前記計算資源割当部は、前記種別に応じて、前記被写体部位の数を決定し、前記被写体部位の数に応じて、前記高解像度化部に割り当てる計算資源の値を前記第２の値として決定する、請求項１又は２に記載の被写体抽出装置。
被写体抽出装置が実行する被写体抽出方法であって、
画像を低解像度化して低解像度画像を生成する低解像度化ステップと、
前記低解像度画像から被写体部位の候補を抽出する被写体候補抽出ステップと、
前記被写体部位の候補のうち、前記被写体部位と非被写体部位との境界部を高解像度化し、前記境界部について１画素ずつ非被写体部位であるかを判定し、判定結果に基づいて前記被写体部位と前記非被写体部位とを確定する高解像度化ステップと、
前記被写体候補抽出ステップと前記高解像度化ステップとが利用可能な計算資源の上限値を取得し、取得した前記上限値以下となるように、前記被写体候補抽出ステップに割り当てる計算資源の値を第１の値として、前記高解像度化ステップに割り当てる計算資源の値を第２の値としてそれぞれ決定し、決定した前記第１の値及び前記第２の値に基づいて、前記被写体候補抽出ステップと前記高解像度化ステップとに前記計算資源を割り当てる計算資源割当ステップと
を備える、被写体抽出方法。
前記境界部の面積を計測する境界部計測ステップをさらに備え、
前記計算資源割当ステップは、前記境界部の面積に基づいて、前記高解像度化ステップに割り当てる計算資源の値を前記第２の値として決定するステップと、決定した前記第２の値に基づいて、前記高解像度化ステップに前記計算資源を割り当てるステップとをさらに備える、請求項４に記載の被写体抽出方法。
前記画像の種別を解析する画像種別解析ステップをさらに備え、
前記計算資源割当ステップは、前記種別に応じて、前記被写体部位の数を決定するステップと、前記被写体部位の数に応じて、前記高解像度化ステップに割り当てる前記計算資源の値を第２の値として決定するステップとをさらに備える、請求項４又は５に記載の被写体抽出方法。
コンピュータを、請求項１から３のいずれか一項に記載の被写体抽出装置として機能させるためのプログラム。