JP2021108411A

JP2021108411A - 映像処理装置及び映像処理方法

Info

Publication number: JP2021108411A
Application number: JP2019238399A
Authority: JP
Inventors: 慎平藤田; Shimpei Fujita
Original assignee: NEC Platforms Ltd
Current assignee: NEC Platforms Ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2021-07-29
Anticipated expiration: 2039-12-27
Also published as: JP6860178B1

Abstract

【課題】注目したい人物に焦点を当てた映像を自動的に生成することができる。【解決手段】映像処理装置は、カメラが撮像した各人物の映像データにおいて各人物それぞれに対応する人物判定ブロックを生成し、映像データから検知した各人物の視線方向にある人物判定ブロックを判定し、人物判定ブロックごとの視線の数を示す視線ヒストグラムを生成し、各人物の音声データに基づいて音の発信源の人物判定ブロックを示す音配図を生成し、視線を有する人物判定ブロック数に基づいて視線ヒストグラムの有効度を判定し、発信源の人物判定ブロック数に基づいて音配図の有効度を判定し、各有効度に応じて視線ヒストグラム又は音配図に基づき映像データから出力映像を生成する。【選択図】図１

Description

本発明は、映像処理装置及び映像処理方法に関する。

会議やイベントでは、カメラで撮像した映像を他拠点に配信することがあるが、固定されたカメラでは一定方向からしか映像を確認できない場合がある。また、撮像者がカメラ撮像をする場合には撮像者に一定の技術が必要であり、撮像者の技術如何によっては本来注目したい人物に焦点を当てた映像ではない場合がある。
このような問題に対し、カメラが撮像した人物の視線の向きや音声等に基づいて映像を処理する技術がある（例えば、特許文献１参照）。また、カメラやマイクを使った映像記録手段として、発言者の方向に自動的にカメラを向けるトラッキングカメラがある。

特開２００４−２４８１２５号公報

しかしながら、上述した技術は、発言者の音声以外の音が入らないことが前提のものであり、オープンなスペースでのミーティングなどでは、ミーティングメンバー以外の音声が入ってしまい、中心人物とは異なる人物に焦点が当てられる場合があるなどの問題があった。また、運動会などのイベントで、注目されている人物が声援を受けている場合などは、注目されている人物を特定することが困難であるという問題がある。
すなわち、上述した技術では、撮像した映像から本当に注目したい中心人物を撮像技術や編集技術なしに映像に映すことが難しいといった課題がある。

そこでこの発明は、上述の課題を解決する映像処理装置及び映像処理方法を提供することを目的としている。

本発明の第１の態様によれば、映像処理装置は、カメラが撮像した各人物の映像データにおいて前記各人物それぞれに対応する人物判定ブロックを生成する人物判定ブロック生成部と、前記映像データから検知した各人物の視線方向にある前記人物判定ブロックを判定し、前記人物判定ブロックごとの視線の数を示す視線ヒストグラムを生成する視線ヒストグラム生成部と、前記各人物の音声データに基づいて音の発信源の前記人物判定ブロックを示す音配図を生成する音配図生成部と、視線を有する人物判定ブロック数に基づいて前記視線ヒストグラムの有効度を判定し、発信源の人物判定ブロック数に基づいて前記音配図の有効度を判定し、前記各有効度に応じて前記視線ヒストグラム又は前記音配図に基づき前記映像データから出力映像を生成する出力映像生成部と、を備えることを特徴とする。

本発明の第２の態様によれば、映像処理方法は、人物判定ブロック生成部が、カメラが撮像した各人物の映像データにおいて前記各人物それぞれに対応する人物判定ブロックを生成し、視線ヒストグラム生成部が、前記映像データから検知した各人物の視線方向にある前記人物判定ブロックを判定し、前記人物判定ブロックごとの視線の数を示す視線ヒストグラムを生成し、音配図生成部が、前記各人物の音声データに基づいて音の発信源の前記人物判定ブロックを示す音配図を生成し、出力映像生成部が、視線を有する人物判定ブロック数に基づいて前記視線ヒストグラムの有効度を判定し、発信源の人物判定ブロック数に基づいて前記音配図の有効度を判定し、前記各有効度に応じて前記視線ヒストグラム又は前記音配図に基づき前記映像データから出力映像を生成することを特徴とする。

本発明によれば、注目したい人物に焦点を当てた映像を自動的に生成することができる。

本発明の実施形態による映像処理システムの構成を示す概略図である。本発明の実施形態による映像処理装置における動作を説明するための動作説明図である。本発明の実施形態による映像処理装置が第１ケースの場合に生成する出力映像について説明するための図である。本発明の実施形態による映像処理装置が第２ケースの場合に生成する出力映像について説明するための図である。本発明の実施形態による映像処理装置が第３ケースの場合に生成する出力映像について説明するための図である。本発明の実施形態による映像処理装置が第４ケースの場合に生成する出力映像について説明するための図である。本発明の実施形態による映像処理装置が映し出す人数を制限する場合に生成する出力映像について説明するための図である。本発明の実施形態による映像処理装置が実行する映像処理の手順を示すフローチャートである。本発明の映像処理装置の最小構成を示す図である。

以下、本発明の一実施形態による映像処理装置、映像処理方法及びプログラムについて図面を参照して説明する。

＜第１の実施形態＞
まず、第１の実施形態について説明する。
図１は、本実施形態による映像処理システムの構成を示す概略図である。
映像処理システム１００は、映像処理装置１と、全方位カメラ２と、３Ｄマイクロホン３とを備える。全方位カメラ２と３Ｄマイクロホン３とは任意の同じ場所に設置される。全方位カメラ２及び３Ｄマイクロホン３と映像処理装置１とは、有線又は無線により通信接続している。
全方位カメラ２は、設置された場所から３６０度全ての方位を撮像するカメラである。３Ｄマイクロホン３は、設置された場所から３６０度全ての方位の音声を取得するマイクロホンである。

映像処理装置１は、全方位カメラ２が撮像した撮像映像及び３Ｄマイクロホン３が収音した音声に基づいて、撮像映像における注目したい人物に焦点を当てた映像を生成して出力する装置である。図示するように、映像処理装置１は、映像データ取得部１１と、音声データ取得部１２と、人物判定ブロック生成部１３と、視線ヒストグラム生成部１４と、音配図生成部１５と、出力映像生成部１６と、出力部１７とを備える。

映像データ取得部１１は、撮像映像を示す映像データを全方位カメラ２から取得する。
音声データ取得部１２は、撮像映像に対応する音声を示す音声データを３Ｄマイクロホン３から取得する。

人物判定ブロック生成部１３は、全方位カメラ２から取得した各人物の映像データからパノラマ画像を生成し、当該パノラマ画像において各人物それぞれに対応する人物判定ブロックを生成する。

視線ヒストグラム生成部１４は、映像データから検知した各人物の視線方向にある人物判定ブロックを判定し、人物判定ブロックごとの有効な視線の数を示す視線ヒストグラムを生成する。視線ヒストグラムは、人物判定ブロックごとの集まった視線を示す。視線ヒストグラム生成部１４は、人物の視線が他の人物の人物判定ブロックにある場合に、当該視線が有効であると判定する。一方、視線ヒストグラム生成部１４は、人物の視線が自身の人物判定ブロックにある場合、或いは、人物判定ブロック外にある場合に、当該視線が無効であると判定する。
音配図生成部１５は、３Ｄマイクロホン３から取得した各人物の音声データに基づいて音の発信源の人物判定ブロックを示す音配図を生成する。

出力映像生成部１６は、有効な視線を有する人物判定ブロック数に基づいて視線ヒストグラムの有効度を判定し、発信源の人物判定ブロック数に基づいて音配図の有効度を判定し、各有効度に応じて視線ヒストグラム又は音配図に基づき映像データから中心人物に焦点を当てた出力映像を生成する。例えば、出力映像生成部１６は、発信源の人物判定ブロック数が所定の閾値を超えている場合に、音配図の有効度が低いと判定する。また、出力映像生成部１６は、有効な視線を有する人物判定ブロック数が所定の閾値を超えている場合に、視線ヒストグラムの有効度が低いと判定する。また、出力映像生成部１６は、無効な視線の数が所定の閾値を超えている場合に、視線ヒストグラムの有効度が低いと判定する。また、出力映像生成部１６は、視線ヒストグラム及び音配図の有効度がともに高い場合には、視線を有する人物判定ブロック数と発信源の人物判定ブロック数とのうち少ない方の人物判定ブロックにいる人物を優先して映す。また、出力映像生成部１６は、視線ヒストグラム及び音配図の有効度がともに低い場合には、視線を有する人物判定ブロック及び発信源の人物判定ブロックにいる人物を映す。また、出力映像生成部１６は、出力映像に映す候補となる人物が最大人数の閾値を超える場合には、視線の少ない人物から順に除外する。また、出力映像生成部１６は、３Ｄマイクロホン３から取得した音声データを出力映像に合成し、出力部１７に出力する。
出力部１７は、音声データが合成された出力映像を外部のコンピュータや表示装置に出力する。

続いて、本映像処理装置１の動作について説明する。
図２は、本実施形態による映像処理装置における動作を説明するための動作説明図である。
本図には、人物Ａ〜人物Ｆが、全方位カメラ２及び３Ｄマイクロホン３を円形に囲んで会議等をしている場合を例示する。全方位カメラ２及び３Ｄマイクロホン３は、同一の場所に設置されている。本例では、人物Ｃが発言しており、人物Ａ、人物Ｂ、人物Ｄ及び人物Ｅの視線が人物Ｃに向いており、人物Ｃの視線が人物Ｂに向いており、人物Ｆの視線が人物Ｅに向いている。

まず、人物判定ブロック生成部１３が、全方位カメラ２が撮像した３６０度全方位の映像データをパノラマ展開したパノラマ画像２０１を生成する。パノラマ画像２０１には、−１８０度から１８０度までの３６０度の映像が展開される。続いて、人物判定ブロック生成部１３は、パノラマ画像２０１から１人以上の人物の顔検出を行い、当該人物の顔の中心位置を算出する。人物判定ブロック生成部１３は、パノラマ画像２０１が３６０度の映像であることから、その横幅の長さを利用して、人物の顔の中心位置が映像の何度の位置にあるかを判定する。そして、人物判定ブロック生成部１３は、顔検出された人物の人数でパノラマ画像２０１を分割し、各人物の顔の中心位置の角度に基づいて各人物それぞれを判定する人物判定ブロック２０２を生成する。図示する例では、人物判定ブロック生成部１３は、各人物Ａ〜人物Ｆの人物判定ブロックとして、パノラマ画像２０１を人物Ａに対応するブロックＡと、人物Ｂに対応するブロックＢと、人物Ｃに対応するブロックＣと、人物Ｄに対応するブロックＤと、人物Ｅに対応するブロックＥと、人物Ｆに対応するブロックＦとに分割している。なお、人物判定ブロック生成部１３は、人物が少ないと人物判定ブロックが大きくなりすぎてしまうことを考慮し、人物判定ブロックの最大角の閾値を設定し、分割した角度が最大角の閾値を超える場合には、人物判定ブロックの角度を最大角の閾値とする。

続いて、視線ヒストグラム生成部１４が、遠隔視線推定技術により、撮像映像における各人物の視線方向を検知する。例えば、視線ヒストグラム生成部１４は、顔認証技術および、顔特徴点検出技術を用いて視線検知に必要な目頭や目尻、瞳など目の周囲の特徴点位置を正確に特定することで、視線方向を検知する。そして、視線ヒストグラム生成部１４は、各人物の視線方向にある人物判定ブロックを判定する。視線ヒストグラム生成部１４は、人物判定ブロックに視線をプロットし（以下、プロットした視線を「視線プロット」と称する。）、視線プロット及び人物判定ブロックごとの有効な視線プロットの数を示す視線ヒストグラム２０３を生成する。視線ヒストグラム生成部１４は、人物の視線が他の人物の人物判定ブロックにある場合に、当該視線プロットが有効であると判定する。一方、視線ヒストグラム生成部１４は、人物の視線が自身の人物判定ブロックにある場合、或いは、人物判定ブロック外にある場合に、当該視線プロットが無効であると判定する。

続いて、音配図生成部１５が、音声方向を判定する技術を用いて、３Ｄマイクロホン３から取得した音声データに基づいて音の発信源の方向を判定し、発信源の人物判定ブロックを示す音配図２０４を生成する。音配図２０４は、３Ｄマイクロホン３を用いて取得した音声データから、３６０度全方向の空間内の各音源の位置を可視化できる。例えば、音配図生成部１５は、音の強度を求め、音源の方位角と仰角、３Ｄマイクロホン３の位置を中心とする球面での音の強度分布図を生成する。

そして、出力映像生成部１６が、視線ヒストグラム２０３及び音配図２０４に基づいて出力映像２０５を生成する。本図に示す例では、出力映像生成部１６は、人物Ｂ、人物Ｃ及び人物Ｅが視線を集めている（有効な視線プロットを有する）ことから、人物Ｂ、人物Ｃ及び人物Ｅを映した出力映像２０５を生成している。このとき、出力映像生成部１６は、人物Ｃが最も多く視線を受けており、かつ発言しているため、人物Ｃが中心人物であると判定し、人物Ｃを最も大きく中心に映し、人物Ｂ及び人物Ｅを人物Ｃより小さく映している。

また、出力映像生成部１６は、視線ヒストグラム及び音配図それぞれについて、情報の有効度の高低により映し出す中心人物の判定基準を決定する。以下、視線ヒストグラム及び音配図の有効度に基づく中心人物の判定基準について具体例を用いて詳細に説明する。

（第１ケース）
まず、視線が特定の人物に集中していて、音声が分散している第１ケースの場合について説明する。例えば、運動会のように、視線が中心人物に集まり声援などで音声が分散している場合、音声の発信源となる人物が注目すべき人物とはならないため、視線が集中している人物が中心人物だと判定すべきである。そのため、映像処理装置１は、音配図及び視線ヒストグラムそれぞれの有効度を判定し、有効度の高い情報を優先的に利用して中心人物を特定する。

図３は、本実施形態による映像処理装置が第１ケースの場合に生成する出力映像について説明するための図である。
図示する例では、人物Ａ〜人物Ｉが撮像映像に映っている。また、本例では、音声が分散しており、人物Ｃ〜人物Ｇの視線が人物Ａに向いており、人物Ｈ及び人物Ｉの視線が人物Ｂに向いている。

撮像映像をパノラマ展開したパノラマ画像３０１には、人物Ａ〜人物Ｉが映っている。また、視線ヒストグラム３０２では、人物Ａが最も多い４つの視線プロットを有し、人物Ｂがその次に多い２つの視線プロット有しており、人物Ｃ〜Ｉは視線プロットを有していない。すなわち、人物Ａ及び人物Ｂに視線が集中している。一方、音配図３０３では、人物Ａ及び人物Ｂは音声データを持っておらず、人物Ｃ〜Ｉが音声データを持っている。ここでは、音声データを持つ又は音声データを有するとは、音配図において音声の発信源であることを示す。

出力映像生成部１６は、映像における中心人物の頻繁な移り変わりを防ぐために使用する任意の一定時間(以下、「判定時間」とする。)のうち、音配図において音声データを持つ人物の人数が全体の人数に対する任意の一定の割合（以下、「第１の閾値の割合」とする。）を超えると、音声が分散しているとしその有効度が低いと判定する。全体の人数は、撮像映像に映っている人物全員の人数である。一方、出力映像生成部１６は、判定時間のうち、音配図において音声データを持つ人物の人数が第１の閾値の割合以下である場合には、音配図の有効度が高いと判定する。本図に示す例では、出力映像生成部１６は、音声データを持つ人物が第１の閾値の割合を超えているため、音配図３０３の有効度が低いと判定する。

また、出力映像生成部１６は、視線ヒストグラムについても音配図と同時にその有効度について判定する。出力映像生成部１６は、判定時間のうち、視線ヒストグラムにおける有効な視線プロットを有する人物の人数が全体の人数に対する任意の一定の割合（以下、「第２の閾値の割合」とする。）を超えると、視線が分散しているとしその有効度が低いと判定する。また、出力映像生成部１６は、判定時間のうち、視線ヒストグラムにおける無効な視線プロットの数が全体の人数に対する任意の一定の割合（以下、「第３の閾値の割合」とする。）を超えた場合にも、視線が分散しているとしその有効度が低いと判定する。一方、出力映像生成部１６は、判定時間のうち、視線ヒストグラムにおける有効な視線プロットを有する人物の人数が第２の閾値の割合以下であって、無効な視線プロットの数が第３の閾値の割合以下であるには、視線ヒストグラムの有効度が高いと判定する。なお、第１の閾値の割合、第２の閾値の割合及び第３の閾値の割合は、同一の割合であってもよいし、それぞれ異なる割合であってもよい。本図に示す例では、出力映像生成部１６は、視線ヒストグラム３０２における有効な視線プロットを有する人物の人数が第２の閾値の割合以下であって、無効な視線プロットが第３の閾値の割合以下であるため、視線ヒストグラム３０２の有効度が高いと判定する。

本例においては、出力映像生成部１６は、視線ヒストグラム３０２の有効度が高く、音配図３０３の有効度が低いため、各人物の視線方向の信頼性が高いと判定し、視線が多く集まっている人物から順番に注目した出力映像３０４を生成する。本例における出力映像３０４では、視線が最も多く集まっている人物Ａを最も大きく映し、次に視線が集まっている人物Ｂを人物Ａより小さく映し出している。

（第２ケース）
次に、視線が分散していて、音声が特定の人物に集中している第２ケースの場合について説明する。例えば、会議のように、各人物が手元の資料を読みながら発言者の話を聞いている場合、各人物はそれぞれ自分の手元を見ていて視線が分散しており、音声は発言者に集中しているため、発言者が中心人物だと判定すべきである。

図４は、本実施形態による映像処理装置が第２ケースの場合に生成する出力映像について説明するための図である。
図示する例では、人物Ａ〜人物Ｆが撮像映像に映っている。また、本例では、各人物の視線は分散しており、人物Ｃのみが発言している。

本例における視線ヒストグラム４０２では、人物Ｂのみが有効な１つの視線プロットを有しており、他の視線プロットは無効である。一方、本例における音配図４０３では、人物Ｃのみが音声データを持っている。

よって、本図に示す例では、出力映像生成部１６は、無効な視線プロットの数が第３の閾値の割合を超えているため、視線ヒストグラム４０２の有効度が低いと判定する。また、出力映像生成部１６は、音声データを持つ人物の人数が第１の閾値の割合以下であるため、音配図４０３の有効度が高いと判定する。出力映像生成部１６は、視線ヒストグラム４０２の有効度が低く、音配図４０３の有効度が高いため、音声方向の信頼性が高いと判定し、発言している人物に注目した出力映像４０４を生成する。本例における出力映像４０４では、発言している人物Ｃをズームして大きく映し出している。

（第３ケース）
次に、視線が集中していて、音声も集中している第３ケースの場合について説明する。第１ケース及び第２ケースでは、視線ヒストグラム又は音配図それぞれの有効度の高低に差がある場合について説明したが、第３ケースでは視線ヒストグラム及び音配図ともにその有効度が高い場合について説明する。

図５は、本実施形態による映像処理装置が第３ケースの場合に生成する出力映像について説明するための図である。
本例におけるパノラマ画像５０１には、人物Ａ〜人物Ｆが映っている。また、人物Ａ及び人物Ｆの視線は人物Ｂに向けられており、人物Ｂ、人物Ｄ及び人物Ｅの視線は人物Ｃに向けられている。また、人物Ｅが発言している。

そのため、本例における視線ヒストグラム５０２では、人物Ｂが２つの有効な視線プロットを有しており、人物Ｃが３つの有効な視線プロットを有している。また、本例における音配図５０３では、人物Ｅのみが音声データを持っている。

出力映像生成部１６は、有効な視線プロットを有する人物の人数が第２の閾値の割合以下であって、無効な視線プロットの数が第３の閾値の割合以下であるため、視線ヒストグラム５０２の有効度が高いと判定する。また、出力映像生成部１６は、音声データを持つ人物の人数が第１の閾値の割合以下であるため、音配図５０３の有効度が高いと判定する。出力映像生成部１６は、視線ヒストグラム５０２及び音配図５０３の有効度がともに高い場合には、視線プロットを有する人物の人数と音声データを持つ人物の人数とを比較し、その人数の少ない方を情報の密度が高いとして、より中心人物を捉えた情報だと判定し、その情報を優先して使用する。

本例においては、出力映像生成部１６は、視線プロットを有する人物が２人（人物Ｂ及び人物Ｃ）であり、音声データを持つ人物が１人（人物Ｅ）であるため、音配図５０３の情報密度が高いと判定する。そして、出力映像生成部１６は、音配図５０３において音声データを持つ人物Ｅが最も中心人物であるとして画面の中心に大きく映し出す出力映像５０４を生成する。また、出力映像生成部１６は、視線ヒストグラム５０２において有効な視線プロットの数が多い順番に優先して人物Ｃ、人物Ｂを人物Ｅより小さく出力映像５０４に映し出す。本例に示す出力映像５０４では、発言者である人物Ｅが中心に大きく映し出され、視線プロットの数が最も多い人物Ｃがその次に大きく映し出され、視線プロットの数が次に多い人物Ｂが最も小さく映し出されている。なお、出力映像生成部１６は、視線プロットを有する人物の人数と音声データを持つ人物の人数とが同数である場合には、視線プロットを有する人物を画面の左側に配置し、音声データを持つ人物を画面の右側に配置する等、視線と音声との間に情報の優先度をつけずに各人物を映し出してもよい。

（第４ケース）
次に、視線が分散していて、音声も分散している第４ケースの場合について説明する。第１ケース及び第２ケースでは、視線ヒストグラム又は音配図それぞれの有効度の高低に差がある場合について説明したが、第４ケースでは視線ヒストグラム及び音配図ともにその有効度が低い場合について説明する。

図６は、本実施形態による映像処理装置が第４ケースの場合に生成する出力映像について説明するための図である。
本例におけるパノラマ画像６０１には、人物Ａ〜人物Ｌが映っている。また、本例における視線ヒストグラム６０２では、人物Ｂが１つの有効な視線プロットを有しており、人物Ｃが２つの有効な視線プロットを有しており、人物Ｄが３つの有効な視線プロットを有しており、人物Ｅが３つの有効な視線プロットを有しており、人物Ｆが１つの有効な視線プロットを有しており、人物Ｈが１つの有効な視線プロットを有しており、人物Ｉが１つの有効な視線プロットを有している。また、本例における音配図６０３では、人物Ｄ〜人物Ｊが音声データを持っている。

出力映像生成部１６は、有効な視線プロットを有する人物の人数が第２の閾値の割合を超えているため、視線ヒストグラム６０２の有効度が低いと判定する。同様に、出力映像生成部１６は、音声データを持つ人物の人数が第１の閾値の割合を超えているため、音配図６０３の有効度が低いと判定する。出力映像生成部１６は、視線ヒストグラム６０２及び音配図６０３の有効度がともに低い場合には、中心人物が定まっていない空間であると判定し、有効な視線プロットを有する人物及び音声データを持つ人物全員を映す出力映像６０４を生成する。図示する出力映像６０４では、有効な視線プロット又は音声データを有する人物Ｂ〜人物Ｊ全員が映し出されている。

なお、出力映像生成部１６は、有効な視線プロット又は音声データを有する人物が多い場合には、映し出す最大人数の閾値によりその人数を制限してもよい。

図７は、本実施形態による映像処理装置が映し出す人数を制限する場合に生成する出力映像について説明するための図である。
本例におけるパノラマ画像７０１には、人物Ａ〜人物Ｌが映っている。また、本例における視線ヒストグラム７０２では、人物Ｃが２つの有効な視線プロットを有しており、人物Ｄが４つの有効な視線プロットを有しており、人物Ｅが６つの有効な視線プロットを有している。また、本例における音配図７０３では、人物Ｈ〜人物Ｊが音声データを持っている。

出力映像生成部１６は、有効な視線プロットを有する人物の人数が第２の閾値の割合以下であって、無効な視線プロットの数が第３の閾値の割合以下であるため、視線ヒストグラム７０２の有効度が高いと判定する。また、出力映像生成部１６は、音声データを持つ人物の数が第１の閾値の割合以下であるため、音配図７０３の有効度が高いと判定する。視線ヒストグラム７０２における有効な視線プロットを有する人物は３人であり、音配図７０３における音声データを持つ人物は３人であるため、映し出される人物の候補となる人数は６人である。ここで、出力映像生成部１６は、視線ヒストグラム及び音配図の有効度がともに高い場合であって、候補となる人数が最大人数の閾値より多い場合には、有効な視線プロットの少ない人物から順に候補から除外する。本例では、出力映像生成部１６は、最大人数の閾値は５人であるため、有効な視線プロットの最も少ない人物Ｃを除外し、映し出す人物を最大人数の閾値である５人に制限する。本例に示す出力映像７０４には、人物Ｄ、人物Ｅ、人物Ｈ、人物Ｉ及び人物Ｊの５人が映し出されている。出力映像７０４では、画面左側に有効な視線プロットを有する人物Ｅ及び人物Ｄが映し出され、画面右側に音声データを有する人物Ｈ、人物Ｉ及び人物Ｊが映し出されている。なお、出力映像７０４において、有効な視線プロットを最も有する人物Ｅは、人物Ｄより大きく映し出されている。

なお、本例では、最大人数の閾値が５人である場合について説明しているが、最大人数の閾値はこれに限らず、１人以上であればよい。また、本例では、視線ヒストグラム及び音配図の有効度がともに高い場合について説明したが、視線ヒストグラム及び音配図の有効度がともに低い場合にも同様に、出力映像生成部１６は、候補となる人数が最大人数の閾値を超えているときは、有効な視線プロットの少ない人物から順に候補から除外してもよい。

図８は、本実施形態による映像処理装置が実行する映像処理の手順を示すフローチャートである。
まず、人物判定ブロック生成部１３が、全方位カメラ２から取得した撮像映像をパノラマ展開し、パノラマ画像を生成する（ステップＳ１０１）。続いて、人物判定ブロック生成部１３は、パノラマ画像を分割し、各人物それぞれを判定する人物判定ブロックを生成する（ステップＳ１０２）。

続いて、視線ヒストグラム生成部１４が、撮像映像における各人物の視線方向を検知し、検知した視線方向にある人物判定ブロックを判定し、人物判定ブロックごとの視線プロットを示す視線ヒストグラムを生成する（ステップＳ１０３）。
続いて、音配図生成部１５が、３Ｄマイクロホン３から取得した音声データに基づいて音の発信源の方向を判定し、発信源の人物判定ブロックを示す音配図を生成する（ステップＳ１０４）。

続いて、出力映像生成部１６が、視線ヒストグラム及び音配図の有効度を判定し、有効度の高い情報を優先的に使用し、映像データを編集して出力映像を生成する（ステップＳ１０５）。また、出力映像生成部１６が、対応する音声データを出力映像に合成する。
続いて、出力部１７が、音声データが合成された出力映像を出力する（ステップＳ１０６）。その後、処理を終了する。

このように、本実施形態によれば、映像処理装置１は、カメラが撮像した各人物の映像データからパノラマ画像を生成し、当該パノラマ画像において各人物それぞれに対応する人物判定ブロックを生成する人物判定ブロック生成部１３と、映像データから検知した各人物の視線方向にある人物判定ブロックを判定し、人物判定ブロックごとの視線の数を示す視線ヒストグラムを生成する視線ヒストグラム生成部１４と、各人物の音声データに基づいて音の発信源の人物判定ブロックを示す音配図を生成する音配図生成部１５と、視線を有する人物判定ブロック数に基づいて視線ヒストグラムの有効度を判定し、発信源の人物判定ブロック数に基づいて音配図の有効度を判定し、各有効度に応じて視線ヒストグラム又は音配図に基づき映像データから出力映像を生成する出力映像生成部１６と、を備える。

このような構成により、撮像映像に映る各人物の視線と音声との両方を利用して、撮像映像における中心人物を精度良く判定することができる。また、視線又は音声のうちいずれか一方のデータしかない場合であっても、中心人物を判定することができる。また、取得した映像及び音声から自動的に人物を判定して映像を編集するため、使用者は映像の編集技術を必要としない。すなわち、映像及び音声から注目したい人物に焦点を当てた映像を自動的に生成することができるため、撮像技術や映像の編集技術を持たない人であっても、一定品質の映像を記録・配信する事が可能である。

また、視線ヒストグラム及び音配図の優先度に基づいて出力映像を生成しているため、運動会等の学校行事、会議、コンサートホール、イベント会場等、異なる状況下であっても、それぞれの状況に応じた中心人物を精度良く判定することができる。よって、本発明による映像処理装置１は、学校行事の記録、会議、コンサートホール、イベント会場等、様々なシーンで利用することができる。

また、出力映像生成部１６は、発信源の人物判定ブロック数が所定の閾値を超えている場合に、音配図の有効度が低いと判定する。このような構成により、音声が分散している場合には、視線ヒストグラムのデータを優先して使用するため、例えば運動会等で、視線が中心人物に集まり声援などで音声が分散している場合であっても、中心人物を精度良く判定することができる。

また、出力映像生成部１６は、視線を有する人物判定ブロック数が所定の閾値を超えている場合に、視線ヒストグラムの有効度が低いと判定する。また、視線ヒストグラム生成部１４は、人物の視線が自身の人物判定ブロックにある場合、或いは、人物判定ブロック外にある場合に、当該視線が無効であると判定し、出力映像生成部１６は、無効な視線の数が所定の閾値を超えている場合に、視線ヒストグラムの有効度が低いと判定する。このような構成により、視線が分散している場合には、音配図のデータを優先して使用するため、例えば会議等で、各人物が手元の資料を読みながら発言者の話を聞いている場合であっても、中心人物を精度良く判定することができる。

また、出力映像生成部１６は、視線ヒストグラム及び音配図の有効度がともに高い場合には、視線を有する人物判定ブロック数と発信源の人物判定ブロック数とのうち少ない方の人物判定ブロックにいる人物を優先して映す。このような構成により、より密度の高い情報を優先して使用することができるため、中心人物を精度良く判定することができる。

また、出力映像生成部１６は、視線ヒストグラム及び音配図の有効度がともに低い場合には、視線を有する人物判定ブロック及び発信源の人物判定ブロックにいる人物を映す。このような構成により、中心人物が定まっていない空間である場合に、視線を集めている人物や発言者全員を映し出すことができる。

また、出力映像生成部１６は、出力映像に映す候補となる人物が最大人数の閾値を超える場合には、視線の少ない人物から順に除外する。このような構成により、候補となる人物が多い場合に、映し出す人数を制限して、より中心となる人物を優先して映し出すことができる。

＜第２の実施形態＞
続いて第２の実施形態について説明する。
図９は、映像処理装置の最小構成を示す図である。
映像処理装置１は、少なくとも、人物判定ブロック生成部１３と、視線ヒストグラム生成部１４と、音配図生成部１５と、出力映像生成部１６とを備えればよい。
人物判定ブロック生成部１３は、カメラが撮像した各人物の映像データにおいて各人物それぞれに対応する人物判定ブロックを生成する。
視線ヒストグラム生成部１４は、映像データから検知した各人物の視線方向にある人物判定ブロックを判定し、人物判定ブロックごとの視線の数を示す視線ヒストグラムを生成する。
音配図生成部１５は、人物の音声データに基づいて音の発信源の人物判定ブロックを示す音配図を生成する。
出力映像生成部１６は、視線を有する人物判定ブロック数に基づいて視線ヒストグラムの有効度を判定し、発信源の人物判定ブロック数に基づいて音配図の有効度を判定し、各有効度に応じて視線ヒストグラム又は音配図に基づき映像データから出力映像を生成する。
本実施形態によれば、映像及び音声から注目したい人物に焦点を当てた映像を自動的に生成することができる。

以上本発明の一実施形態について説明したが、本発明は、上記実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲において種々の変更を加えることが可能である。

なお、上述した映像処理装置１における各処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述した各処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

１・・・映像処理装置
１１・・・映像データ取得部
１２・・・音声データ取得部
１３・・・人物判定ブロック生成部
１４・・・視線ヒストグラム生成部
１５・・・音配図生成部
１６・・・出力映像生成部
１７・・・出力部
２・・・全方位カメラ
３・・・３Ｄマイクロホン
１００・・・映像処理システム

Claims

カメラが撮像した各人物の映像データにおいて前記各人物それぞれに対応する人物判定ブロックを生成する人物判定ブロック生成部と、
前記映像データから検知した各人物の視線方向にある前記人物判定ブロックを判定し、前記人物判定ブロックごとの視線の数を示す視線ヒストグラムを生成する視線ヒストグラム生成部と、
前記各人物の音声データに基づいて音の発信源の前記人物判定ブロックを示す音配図を生成する音配図生成部と、
視線を有する人物判定ブロック数に基づいて前記視線ヒストグラムの有効度を判定し、発信源の人物判定ブロック数に基づいて前記音配図の有効度を判定し、前記各有効度に応じて前記視線ヒストグラム又は前記音配図に基づき前記映像データから出力映像を生成する出力映像生成部と、
を備える映像処理装置。
前記出力映像生成部は、発信源の人物判定ブロック数が所定の閾値を超えている場合に、前記音配図の有効度が低いと判定する
請求項１に記載の映像処理装置。
前記出力映像生成部は、視線を有する人物判定ブロック数が所定の閾値を超えている場合に、前記視線ヒストグラムの有効度が低いと判定する
請求項１または請求項２に記載の映像処理装置。
前記視線ヒストグラム生成部は、人物の視線が自身の人物判定ブロックにある場合、或いは、人物判定ブロック外にある場合に、当該視線が無効であると判定し、
前記出力映像生成部は、無効な視線の数が所定の閾値を超えている場合に、前記視線ヒストグラムの有効度が低いと判定する
請求項１から請求項３の何れか一項に記載の映像処理装置。
前記出力映像生成部は、前記視線ヒストグラム及び前記音配図の有効度がともに高い場合には、視線を有する人物判定ブロック数と発信源の人物判定ブロック数とのうち少ない方の人物判定ブロックにいる人物を優先して映す
請求項１から請求項４の何れか一項に記載の映像処理装置。
前記出力映像生成部は、前記視線ヒストグラム及び前記音配図の有効度がともに低い場合には、視線を有する人物判定ブロック及び発信源の人物判定ブロックにいる人物を映す
請求項１から請求項５の何れか一項に記載の映像処理装置。
前記出力映像生成部は、前記出力映像に映す候補となる人物が最大人数の閾値を超える場合には、視線の少ない人物から順に除外する
請求項１から請求項６の何れか一項に記載の映像処理装置。
人物判定ブロック生成部が、カメラが撮像した各人物の映像データにおいて前記各人物それぞれに対応する人物判定ブロックを生成し、
視線ヒストグラム生成部が、前記映像データから検知した各人物の視線方向にある前記人物判定ブロックを判定し、前記人物判定ブロックごとの視線の数を示す視線ヒストグラムを生成し、
音配図生成部が、前記各人物の音声データに基づいて音の発信源の前記人物判定ブロックを示す音配図を生成し、
出力映像生成部が、視線を有する人物判定ブロック数に基づいて前記視線ヒストグラムの有効度を判定し、発信源の人物判定ブロック数に基づいて前記音配図の有効度を判定し、前記各有効度に応じて前記視線ヒストグラム又は前記音配図に基づき前記映像データから出力映像を生成する、
映像処理方法。