JP6967735B1

JP6967735B1 - 信号処理装置及び信号処理システム

Info

Publication number: JP6967735B1
Application number: JP2021003745A
Authority: JP
Inventors: 宏樹春日井; 真一山本
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-11-17
Anticipated expiration: 2041-01-13
Also published as: US20220224970A1; JP2022108638A; US11665391B2

Abstract

【課題】視聴者に好適な、映像の切り替えを無人で実現する信号処理装置等を提供する。【解決手段】信号処理装置は、被写体が存在する空間で同時に取得された映像及び音声の各信号を受け取る入力部と、映像に含まれる被写体像を認識し、各被写体が存在する第１の領域を決定する画像処理部と、音声に含まれる音源を認識し、空間中の、各音源が存在する第２の領域を決定する音声処理部と、第１の領域及び第２の領域を用いて被写体と音源の位置が一致する被写体及び音源の組み合わせを決定し、組み合わせに対応する、出力すべき被写体像を選択的に決定する制御部とを備えている。【選択図】図３

Description

本開示は、信号処理装置及び信号処理システムに関する。

ライブ配信を行う場合、放送局で用いられる高価な機材を使用しないで、ＰＣやデジタルカメラなどの安価な機材を用いて実現することが広く普及している。また複数の映像から配信する映像を切り替えて送信する必要があるが人手を必要とするため、その為の省力化も求められている。

特許文献１は、配信する機材を安価で実現し、配信の切り替えをワンマンで実現する技術を開示している。

特開２００３−３２４６９８号公報

特許文献１では、配信の切り替えを省力化する技術を提供するが、このことを無人化することは実現できていない。ライブ配信に限らず、映像の切り替えを視聴者に好適に無人で実現する技術が広く求められている。

本開示は、視聴者に好適な映像の切り替えを無人で実現する信号処理装置及び信号処理システムを提供する。

本開示の信号処理装置は、被写体が存在する空間で同時に取得された映像及び音声の各信号を受け取る入力部と、映像に含まれる被写体像を認識し、各被写体が存在する第１の領域を決定する画像処理部と、音声に含まれる音源を認識し、空間中の、各音源が存在する第２の領域を決定する音声処理部と、第１の領域及び第２の領域を用いて被写体と音源の位置が一致する被写体及び音源の組み合わせを決定し、組み合わせに対応する、出力すべき被写体像を選択的に決定する制御部とを備える。

また本開示の信号処理システムは、上記の信号処理装置と、空間を撮影して映像の信号を生成する複数の撮像装置と、信号処理装置及び複数の撮像装置から出力される映像のうちから選択的に決定された被写体像を含む映像を選択するためのスイッチャとを備え、信号処理装置は、空間に含まれる複数の被写体を撮影し、複数の被写体像を含む映像を生成する撮像部を含み、複数の撮像装置の各々は、個別の被写体を撮影し、個別の被写体像を含む映像を生成し、信号処理装置の制御部は、組み合わせに含まれる被写体像を選択的に出力するようにスイッチャを制御する。

本開示によれば、視聴者に好適な映像の切り替えを無人で実現する信号処理装置及び信号処理システムを提供することができる。

信号処理装置の実施形態１である撮像装置のハードウェア構成図空間Ｓで演奏を行うバンドの３名のメンバーと、撮像装置とを示す図図１に示す信号処理装置の処理の手順を示すフローチャート空間Ｓで演奏を行うバンドの３名のメンバーと、撮像装置とを示す図音源の位置を映像上の領域に対応付ける処理を説明するための図信号処理装置による表示態様の切り替え処理の手順を示すフローチャート表示優先度の割当処理（図６のステップＳ３０）の詳細な処理手順を示すサブルーチンのフローチャート撮像装置が撮影した映像の一例を示す図楽曲の間奏時等において、ボーカルを担当するメンバーが歌唱を停止したときの映像の表示例を示す図表示装置上で、演奏中のメンバー及びギターの被写体像をズームアップしたときの表示例を示す図表示装置上で、演奏中のメンバー及びキーボードの被写体像をズームアップしたときの表示例を示す図２名のメンバーが歌唱及び演奏を継続し、ギターを演奏するメンバーが演奏を中断したときの被写体像の表示例を示す図信号処理システムの実施形態２の第１の構成例を示すハードウェア図信号処理システムの実施形態２の第２の構成例を示すハードウェア図図１３ａにかかる信号処理システム３００の設置例を示す図４以上のマイクロフォン素子が円環状に配置されたマイクロフォンアレイの構成例を示す図マイクロフォンアレイの正面図映像上の距離が予め定められた値以内である複数の被写体像を選択的に切り出したときの表示例を示す図信号処理装置となる半導体チップの構成を示すハードウェア構成図

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。
（実施の形態１）
実施の形態１では、本開示に係る信号処理装置の一例として、クロップ技術に基づいて表示または配信する被写体像を切り出すデジタルカメラについて説明する。

〔１．構成〕
図１は、信号処理装置の第１の実施形態である撮像装置１００のハードウェア構成図である。図１に示す撮像装置１００は、例えばコンパクトデジタルカメラである。以下、撮像装置１００の構成要素の概要を説明する。

本実施形態の撮像装置１００は、イメージセンサ１１５と、画像処理エンジン１２０と、表示モニタ１３０と、コントローラ１３５とを備える。さらに、撮像装置１００は、バッファメモリ１２５と、カードスロット１４０と、フラッシュメモリ１４５と、操作部１５０と、通信モジュール１６０とを備える。また、撮像装置１００は、マイクロフォン１６１と、マイク用のアナログ／デジタル（Ａ／Ｄ）コンバータ１６５と、音声処理エンジン１７０とを備える。また、撮像装置１００は、例えば光学系１１０及びレンズ駆動部１１２を備える。

光学系１１０は、フォーカスレンズ、ズームレンズ、絞り、シャッタ等を含む。フォーカスレンズは、イメージセンサ１１５上に形成される被写体像のフォーカス状態を変化させるためのレンズである。ズームレンズは、光学系で形成される被写体像の倍率を変化させるためのレンズである。フォーカスレンズ等は、それぞれ１枚又は複数枚のレンズで構成される。

レンズ駆動部１１２は、光学系１１０におけるフォーカスレンズ等を駆動する。レンズ駆動部１１２はモータを含み、コントローラ１３５の制御に基づいてフォーカスレンズを光学系１１０の光軸に沿って移動させる。レンズ駆動部１１２においてフォーカスレンズを駆動する構成は、ＤＣモータ、ステッピングモータ、サーボモータ、または超音波モータなどで実現できる。

イメージセンサ１１５は、光学系１１０を介して形成された被写体像を撮像して、撮像データを生成する。撮像データは、イメージセンサ１１５による撮像画像を示す画像データを構成する。イメージセンサ１１５は、所定のフレームレート（例えば、６０フレーム／秒）で新しいフレームの画像データを生成する。イメージセンサ１１５における、撮像データの生成タイミングおよび電子シャッタ動作は、コントローラ１３５によって制御される。イメージセンサ１１５は、ＣＭＯＳイメージセンサ、ＣＣＤイメージセンサ、またはＮＭＯＳイメージセンサなど、種々のイメージセンサを用いることができる。

イメージセンサ１１５は、動画像、静止画像の撮像動作、スルー画像の撮像動作等を実行する。スルー画像は主に動画像であり、ユーザが例えば静止画像の撮像のための構図を決めるために表示モニタ１３０に表示される。スルー画像、動画像及び静止画像は、それぞれ本実施形態における撮像画像の一例である。イメージセンサ１１５は、本実施形態における撮像部の一例である。

撮像装置１００は、レンズ１１０等の光学系を介して入射した外部の光をイメージセンサ１１５で受けて、例えば４Ｋ解像度の映像を取得し、表示、記録等の処理を行うことができる。「４Ｋ解像度の映像」とは、例えば4096画素×2160画素または3840画素×2160画素の映像である。「映像」は、典型的には動画像であるが、静止画を排除しない。

画像処理エンジン１２０は、イメージセンサ１１５から出力された撮像データに対して各種の処理を施して画像データを生成したり、画像データに各種の処理を施して、表示モニタ１３０に表示するための画像を生成したりする。各種処理としては、ホワイトバランス補正、ガンマ補正、ＹＣ変換処理、電子ズーム処理、圧縮処理、伸張処理等が挙げられるが、これらに限定されない。画像処理エンジン１２０は、ハードワイヤードな電子回路で構成してもよいし、プログラムを用いたマイクロコンピュータ、プロセッサなどで構成してもよい。

画像処理エンジン１２０は被写体像認識部１２２を有している。被写体像認識部１２２は、映像に対して画像認識処理を行うことによって、例えばバンドの映像を撮影する場合には、人の顔、人の体、楽器といった被写体像の検出機能を実現する。被写体像認識部１２２は、例えば、人の顔、人の体などの画像および／または輪郭の形状、ギター、キーボード、ドラムス等の楽器の画像の形状と各形状の名称とを教師データとして機械学習が行われた学習済みモデルを利用して、映像内の被写体像を検出する。あるいは被写体像認識部１２２は、ルールベースの画像認識処理によって人の顔、人の体、楽器のそれぞれの検出を行い、検出情報を出力してもよい。検出は、種々の画像認識アルゴリズムによって行われてもよい。検出情報は、被写体像の検出結果を示しており、本実施形態では被写体像が存在する映像内の領域を特定する情報または当該領域を代表する画素の位置を特定する情報である。これにより、被写体像認識部１２２は、被写体像が人の顔、人の体、何の楽器であるのかを検出できる。

表示モニタ１３０は、種々の情報を表示することが可能な装置であり、例えば、液晶ディスプレイデバイスまたは有機ＥＬデバイスであり得る。

操作部１５０は、撮像装置１００の外装に設けられた操作釦や操作レバー等のハードキーの総称であり、使用者による操作を受け付ける。操作部１５０は、例えば、レリーズ釦、モードダイヤル、タッチパネル、カーソルボタン、ジョイスティックを含む。操作部１５０はユーザによる操作を受け付けると、ユーザ操作に対応した操作信号をコントローラ１３５に送信する。

コントローラ１３５は、映像に含まれる１以上の被写体像のうちの１つまたは複数を選択的に表示するための制御信号を生成する。制御信号は、例えば画像処理エンジン１２０に、映像に含まれる１つまたは複数の被写体像の切り出しを指示する信号である。またはコントローラ１３５は、１つまたは複数の被写体像を選択的に表示した映像を生成し、出力する。そのためにコントローラ１３５は、画像処理エンジン１２０及び音声処理エンジン１７０から、それぞれ、映像内の被写体が存在する領域を特定する情報、及び、各音源が存在する位置または方向を示す情報を受け取る。

コントローラ１３５はＣＰＵ等を含み、ＣＰＵがプログラム（ソフトウェア）を実行することで本開示にかかる処理、機能を実現する。コントローラ１３５は、ＣＰＵに代えて、所定の機能を実現するように設計された専用の電子回路で構成されるプロセッサを含んでもよい。すなわち、コントローラ１３５は、ＣＰＵ、ＭＰＵ、ＧＰＵ、ＤＳＵ、ＦＰＧＡ、ＡＳＩＣ等の種々のプロセッサで実現できる。コントローラ１３５は１つまたは複数のプロセッサで構成してもよい。また、コントローラ１３５は、画像処理エンジン１２０および／または音声処理エンジン１７０などと共に１つの半導体チップで構成されてもよい。本明細書では、コントローラ１３５を「制御部」と呼ぶことがある。

バッファメモリ１２５は、画像処理エンジン１２０やコントローラ１３５のワークメモリとして機能する記録媒体である。バッファメモリ１２５は、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などにより実現される。フラッシュメモリ１４５は不揮発性の記録媒体である。また、図示していないが、コントローラ１３５は各種の内部メモリを有してもよく、例えばＲＯＭを内蔵してもよい。ＲＯＭには、コントローラ１３５が実行する様々なプログラムが記憶されている。また、コントローラ１３５は、ＣＰＵの作業領域として機能するＲＡＭを内蔵してもよい。

カードスロット１４０は、着脱可能なメモリカード１４２が挿入される手段である。カードスロット１４０は、メモリカード１４２を電気的及び機械的に接続可能である。メモリカード１４２は、内部にフラッシュメモリ等の記録素子を備えた外部メモリである。メモリカード１４２は、画像処理エンジン１２０で生成される画像データなどのデータを格納できる。

通信モジュール１６０は、通信規格ＩＥＥＥ８０２．１１またはＷｉ−Ｆｉ規格等に準拠した通信を行う通信モジュール（回路）である。撮像装置１００は、通信モジュール１６０を介して、他の機器と通信することができる。撮像装置１００は、通信モジュール１６０を介して、他の機器と直接通信を行ってもよいし、アクセスポイント経由で通信を行ってもよい。通信モジュール１６０は、インターネット等の通信ネットワークに接続可能であってもよい。

マイクロフォン１６１は、音を収音する収音部の一例である。マイクロフォン１６１は、収音した音声を電気信号であるアナログ信号に変換して出力する。例えば図２及び図４に示す例では、撮像装置１００は、３つのマイクロフォン素子１６１Ｌ，１６１Ｃ及び１６１Ｒを含む。マイクロフォン１６１は、２つ又は４つ以上のマイクロフォン素子から構成されてもよい。本明細書では、複数のマイクロフォン素子１６１Ｃ、１６１Ｌ及び１６１Ｒを「マイクロフォンアレイ１６１」と呼ぶことがある。

マイクロフォン用のＡ／Ｄコンバータ１６５は、マイクロフォン１６１からのアナログ信号をデジタル信号の音声データに変換する。マイクロフォン１６１及びマイクロフォン用のＡ／Ｄコンバータ１６５は、本実施形態における音声取得部の一例である。なお、マイクロフォン１６１は、撮像装置１００の外部にあるマイクロフォン素子を含んでもよい。この場合、撮像装置１００は音声取得部として、外部のマイクロフォン１６１に対するインタフェース回路を備える。音声処理エンジン１７０は、マイクロフォン用のＡ／Ｄコンバータ１６５等の音声取得部から出力された音声データを受信して、受信した音声データに対して種々の音声処理を施す。音声処理エンジン１７０は、本実施形態における音声処理部の一例である。

本実施形態の音声処理エンジン１７０は、例えば図１に示すように、ビーム形成部１７２と、ゲイン調整部１７４と、音源認識部１７６とを備える。ビーム形成部１７２は、音声の指向性を制御する機能を実現する。ゲイン調整部１７４は、入力される音声データに、例えばコントローラ１３５によって設定される収音ゲインを乗じる乗算処理を行って、音声を増幅する。音声の指向性を制御する機能を実現する方法は上述の通りである。ゲイン調整部１７４は、入力の音声データに負のゲインを乗じて音声を抑圧する処理を行ってもよい。ゲイン調整部１７４はさらに、入力される音声データの周波数特性及びステレオ特性を変化させる機能を有してもよい。

音源認識部１７６は、音声に対して音源認識処理を行うことによって、例えばバンドの音声の場合には、人の声、ギター、キーボード、ドラムス等の楽器の音といった音源の種別の検出機能を実現する。音源認識部１７６は、例えば、人の声、ギター、キーボード、ドラムス等の楽器の音と各音源の名称とを教師データとして機械学習が行われた学習済みモデルを利用して、音声内の音源の種別を検出する。これにより、音源認識部１７６は、音源が人の声であるのか、ギターであるのか、キーボードであるのかを検出できる。

以上のように本実施形態では、撮像装置１００を信号処理装置として構成した例を示した。当該信号処理装置は、少なくともＡ／Ｄコンバータ１６５及びイメージセンサ１１５の各出力を受け取る入力部（不図示）と、画像処理エンジン１２０と、音声処理エンジン１７０と、コントローラ１３５とを備えていればよい。なお、信号処理装置がＡ／Ｄコンバータ１６５のＡ／Ｄ変換機能を有する場合には、信号処理装置は、マイクロフォン１６１から出力されるアナログ信号を受け取る入力部を有していればよい。

〔２．動作〕
図２は、空間Ｓで演奏を行うバンドの３名のメンバー１ａ〜１ｃと、撮像装置１００とを示している。例えば、ライブハウスにおいて、三脚に固定された撮像装置１００を用いて撮影した映像をライブ配信する。説明の便宜上、撮像装置１００の背面から正面に向かう方向を基準として右手方向が＋Ｘ方向になり、鉛直上向きが＋Ｙ方向になり、撮像装置１００からみてバンドが存在する奥行き方向が＋Ｚ方向になるよう、直交するＸＹＺ座標を設定している。

以下、撮像装置１００が図２に示すバンドを撮影してライブ配信する例を説明する。

図３は、カメラ１００の複数の被写体像を選択的に切り替えて出力する処理の手順を示すフローチャートである。

ステップＳ１において、画像処理エンジン１２０及び音声処理エンジン１７０は、イメージセンサ１１５及びマイクロフォン１６１から、映像信号及び音声信号をそれぞれ取得する。例えば、撮像装置１００は、イメージセンサを利用してバンドを撮影しつつ、複数のマイクロフォン素子１６１Ｃ、１６１Ｌ及び１６１Ｒ（マイクロフォンアレイ１６１）を利用して空間Ｓを流れる音声・音楽を取得する。

ステップＳ２において、画像処理エンジン１２０は、映像に含まれる被写体像を認識し、映像内の、各被写体像が存在する領域を決定する。

図２の例では、撮像装置１００は、バンドのメンバー１ａ〜１ｃを被写体として撮影する。撮像装置１００はさらに、ギター１ｄ及びキーボード１ｅ等の楽器も被写体として撮影する。本実施形態では、撮影した映像に含まれる人物の像、楽器の像、及び楽器を演奏する人物の像、すなわち人物及び楽器の複合像、を総称して「被写体像」と呼ぶことがある。

撮像装置１００は、機械学習が行われた画像処理エンジン１２０を用いて画像処理を行い、映像全体の中に存在する１以上の被写体像をそれぞれ認識し、各被写体像が存在する映像内の領域を決定する。「領域」は被写体像が存在する複数の画素の集合として捉えられるが、当該被写体像を代表する１つの画素を「画素領域」として捉えてもよい。「画素領域」は映像上の互いに直交する縦座標軸及び横座標軸によって表現される「座標」として特定され得る。

ステップＳ３において、音声処理エンジン１７０は、音声に含まれる音源を認識し、各音源の指向性に関する指向性情報に基づいて、空間中の各音源の位置または方向を決定する。

本実施形態では、音声を発する人、及び音を発する楽器を総称して「音源」と呼ぶ。

音声を取得すると、撮像装置１００は、空間Ｓ中の、各音源が存在する位置または方向を決定する。図４は、撮影範囲と対応付けた、音源が存在する方向Ｄａ、Ｄｂ及びＤｃの例を示している。方向Ｄａ、Ｄｂ及びＤｃは、典型的にはある直線によって定まる「１つの方向」であるが、本明細書では、「方向」は、当該直線を含む「範囲」として規定されてもよい。

各音源が存在する位置または方向を決定する方法は種々考えられる。例えばマイクロフォンアレイ１６１を利用する場合、撮像装置１００は、マイクロフォン素子１６１Ｃ、１６１Ｌ及び１６１Ｒの各々が同じ音を受けた際の、各マイクロフォン素子へ音が到達した時刻のわずかな差の関係を利用して、各音源が存在する位置または方向を推定することができる。このような推定は、到来方向推定として既知の技術である。または、マイクロフォン素子１６１Ｃ、１６１Ｌ及び１６１Ｒの各々に予めどの方向／位置の音声を拾うかが設定されている場合には、どのマイクロフォン１６１Ｃ、１６１Ｌ及び１６１Ｒが音を取得したかによって、各音源が存在する位置または方向を決定することができる。あるいは周知の方法によってマイクロフォンアレイ１６１の収音指向性の制御を行う場合にも、空間Ｓ中の、各音源が存在する位置または方向を決定することができる。いずれの例においても、音源の位置または方向を決定するための情報、例えばマイクロフォンアレイの物理的な配置の情報、マイクロフォン毎の指向性の情報、時刻及び指向性の情報、が予め判明している。本明細書ではこのような情報を「指向性情報」と呼ぶ。撮像装置１００は指向性情報を利用して、各音源が存在する位置または方向を決定することができる。

ステップＳ４において、コントローラ１３５は、各音源が存在する位置または方向を、映像上の領域に変換する。本実施形態では、撮像装置１００は、被写体像の数と音源の数との一致／不一致を利用して処理を行う。当該処理を行うため、撮像装置１００は、各音源が存在する位置または方向を、映像上の領域に変換する処理を行う。

図５は、音源の位置を映像上の領域に対応付ける処理を説明するための図である。図２に示される空間Ｓが撮影され、種々の被写体像が、例えば、外部の表示装置２３０上に表示されている。外部の表示装置２３０は、ライブ配信先等に設けられた表示モニタであり得る。なお、以下では被写体像が表示装置２３０に表示されるとして説明するが、これは一例である。被写体像は、撮像装置１００の表示モニタ１３０上に表示されてもよい。

図４に例示した各音源の方向Ｄａ、Ｄｂ及びＤｃは、例えばＹ軸に平行な垂線で映像を３分割したときの、右側領域Ｒａ、中央領域Ｃａ及び左側領域Ｌａ（図５）にそれぞれ対応付けし得る。この処理を本明細書では、３次元の空間Ｓ上で定まる位置または方向を、２次元の映像上の領域に「変換」すると言う。

ステップＳ５において、コントローラ１３５は、映像上で領域が互いに重複する被写体像及び音源の組み合わせを決定する。そしてステップＳ６において、コントローラ１３５は、組み合わせに含まれる被写体像を選択的に出力するための制御信号を生成する。生成された制御信号は、例えばコントローラ１３５から出力されて通信モジュール１６０に送信され、撮像装置１００の出力インタフェースとしての通信モジュール１６０を介して外部に出力される。上述のように、本例では、出力先はライブ配信先の装置とするが、カメラ１００の表示モニタ１３０でもよい。

次に、図６及び図７を参照しながら、表示態様を切り替えるための信号処理装置（本実施形態では撮像装置１００）の処理をより具体的に説明する。

図６は、図３のステップＳ５及びＳ６の表示態様の切り替え処理の手順を示すフローチャートである。ステップＳ５に相当するステップＳ５’（図６）において、コントローラ１３５は、映像上で領域が互いに重複する被写体像及び音源の組み合わせとして、被写体像の領域と、音源が存在する領域との一致数（Ｎ）を算出する。

図８は、撮像装置１００が撮影した映像の一例を示している。表示装置２３０には、バンドのメンバー１ａ〜１ｃ、ギター１ｄ及びキーボード１ｅの各々に対応する被写体像２ａ〜２ｅが表示されている。図８の映像撮影時、メンバー１ａは歌唱中であり、メンバー１ｂはギター１ｂを演奏しており、メンバー１ｃはキーボード１ｅを演奏している。表示装置２３０には、メンバー１ａ〜１ｃ及び楽器２ｄ及び２ｅの５つの被写体像が表示されている。撮像装置１００は、互いに近い位置、より具体的には予め定められた画像上の距離の範囲内、に存在する２つの被写体像２ｂ及び２ｄの組み合わせを、１つの被写体像として取り扱う。２つの被写体像２ｃ及び２ｅの組み合わせも同様に１つの被写体像として取り扱う。つまり、図８の例では、撮像装置１００は最終的に３つの被写体像を認識する。そして、歌唱、ギターの演奏及びキーボードの演奏が行われているため、このときの音源の数は３つである。

先に図５を参照しながら説明した変換処理によれば、撮像装置１００は以下の事項を認識し得る。すなわち、３つの音源が映像上の左側領域Ｌａ、中央領域Ｃａ及び右側領域Ｒａに存在していること、映像上の３つの被写体像、すなわち被写体像２ａ、被写体像２ｂ及び２ｄの組み合わせ、及び、被写体像２ｃ及び２ｅの組み合わせ、は、それぞれ中央領域Ｃａ、右側領域Ｒａ、及び左側領域Ｌａに存在していること、である。本実施形態では、被写体像が存在する領域の数と、音源が存在する領域の数とが一致している数を「一致数」と呼ぶ。

図６のステップＳ２５において、コントローラ１３５は、一致数と被写体数とが等しいか否か、さらに、等しくない場合には、Ｎが１か、２以上かを判定する。一致数と被写体数とが等しい場合には処理はステップＳ２６に進む。一致数と被写体数とが等しくなく、Ｎが１の場合には処理はステップＳ２８に進む。一致数と被写体数とが等しくなく、Ｎが２以上の場合には処理はステップＳ３０に進む。

ステップＳ２６において、コントローラ１３５は、全体映像を表示するため制御信号を生成する。一致数と被写体数とが等しいので、全被写体が音源として音声または音を出力していることを意味しているからである。

上述の例では、一致数は３であり、被写体像が存在する領域の数と同じである。これにより、撮像装置１００は、全ての被写体が音源として発声または演奏を行っていると判定し得る。撮像装置１００は、３つの被写体像が全て含まれるよう映像を表示する。

続くステップＳ２７において、コントローラ１３５は音源情報が変化したか否かを判定する。音源情報とは、例えば音源の数に関する情報である。この処理は、間奏等でボーカルが歌唱をやめたこと等により、音源の数が減ったことを検出する処理である。音源情報の変化は音声処理エンジン２０８によって検出され得る。以下の処理における音源情報の変化の検出も同様に音声処理エンジン２０８によって行われてもよい。音源情報が変化していない場合には処理はステップＳ２６に戻り、変化した場合には処理はステップＳ５’に戻る。

一方、ステップＳ２８に進んだ場合は、音源である被写体が１つのみ存在する状況を意味している。ステップＳ２８において、コントローラ１３５は、後述するクロップ技術を用いて唯一の音源である被写体の像をズームアップして表示する。このような表示態様は「スポット表示」とも呼ばれる。

その後、ステップＳ２９において、ステップＳ２７と同様に、音源情報が変化したか否かを判定する。音源情報の変化は、音源が増加する場合も含まれ得るし、減少する場合も含まれ得る。音源情報が変化していない場合には処理はステップＳ２８に戻り、変化した場合には処理はステップＳ５’に戻る。

図９は、楽曲の間奏時等において、ボーカルを担当するメンバー１ａが歌唱を停止したときの映像の表示例である。メンバー１ａの被写体像２ａの閉じられた口が模式的に示されている。このとき、表示装置２３０上には３つの被写体像が表示されているが、音源の数は２つに減少している。これは図４の例における方向Ｄｂに存在していた音源、換言すると図５の映像の中央領域Ｃａに対応付けられていた音源が検出されなくなったことを意味する。

ステップＳ２５において、被写体像が存在する領域の数が３であるのに対し、一致数が２であると判定するとステップＳ３０に進む。

ステップＳ３０において、コントローラ１３５は、各被写体像に異なる表示優先度ｉ（ｉ＝１〜Ｎ）を割り当てる。一旦決定された表示優先度ｉは、図６の処理がステップＳ５’に戻り再びステップＳ３０が実行されるまでは固定である。ステップＳ３０の処理の詳細は後述する。

ステップＳ３１において、コントローラ１３５は、まず表示優先度「１」の被写体像をスポット表示する。例えば、コントローラ１３５は、被写体像を図１０に示されるような表示方法でスポット表示する。

本実施形態において、組み合わせに含まれる被写体像が人物の像であり、かつ音源が人物である場合には、コントローラ１３５は、映像から当該人物の像を切り出す。一方、組み合わせに含まれる被写体像が人物及び楽器の複合像であり、かつ音源が楽器である場合には、コントローラ１３５は、映像から当該複合像を切り出す。
スポット表示させるため、撮像装置１００は被写体像を選択的に表示するための制御信号を生成して表示装置２３０に送る。当該制御信号は、被写体であり、かつ音源でもある被写体像を選択的に表示させるための信号である。例えば当該制御信号は、被写体であり、かつ音源でもある被写体像を含む映像領域を指定する信号である。当該制御信号を受け取った撮像装置１００内の画像処理エンジン１２０は、指定された映像領域を切り出して表示装置２３０に表示する。

図１０は、表示装置２３０上で、演奏中のメンバー１ｂ及びギター１ｄの被写体像２ｂ及び２ｄ（複合像）をズームアップしたときの表示例である。例えば撮像装置１００は、クロップ技術を用いて４Ｋ解像度の映像のうちから、被写体像２ｂ及び２ｄを含む、縦横の画素数が各半分の大きさの２Ｋ解像度の映像を切り出して表示装置２３０上に表示する。

図６のステップＳ３２において、コントローラ１３５は、ステップＳ２７及びＳ２９と同様に、音源情報が変化したか否かを判定する。音源情報の変化は、音源が増加する場合も含まれ得るし、減少する場合も含まれ得る。音源情報が変化していない場合には処理はステップＳ３３に進み、変化した場合には処理はステップＳ５’に戻る。

ステップＳ３３において、コントローラ１３５は、予め定められた所定時間が経過したか否かを判定する。所定時間、例えば７秒、が経過したときは、処理はステップＳ３４に進む。所定時間がまだ経過していないときは、処理はステップＳ３１に戻り、その被写体像のスポット表示が継続される。

ステップＳ３４からＳ３６は、表示される被写体像の優先度を切り替えた結果、一通りスポット表示が行われた場合には、表示優先度を１にリセットしてその順に再度スポット表示を切り替える処理である。

ステップＳ３４において、コントローラ１３５は、表示優先度を１つインクリメントし、表示対象になる被写体像を切り替える。

ステップＳ３５において、コントローラ１３５は表示優先度が一致数（Ｎ）より大きいか否かを判定する。表示優先度が一致数（Ｎ）より大きい場合には、処理はステップＳ３６に進み、それ以外の場合には、処理はステップＳ３１に戻る。

ステップＳ３６において、コントローラ１３５は表示優先度ｉを１に再設定し、処理はステップＳ３１に戻る。

ステップＳ３５及びＳ３６は、表示優先度が、スポット表示すべき数である一致数Ｎよりも大きくなった場合には、スポット表示すべき被写体像が一通り表示されたといえるから、表示優先度が１の被写体像から再度スポット表示を繰り返す、ということを意味している。

図１０に示すように、被写体像２ｂ及び２ｄを一定時間表示すると、コントローラ１３５の処理はステップＳ３３を経てステップＳ３１に戻る。そしてステップＳ３１の処理により、コントローラ１３５は、撮像装置１００は表示する被写体像を切り替える。図１１は、表示装置２３０上で、演奏中のメンバー１ｃ及びキーボード１ｅの被写体像２ｃ及び２ｅをズームアップしたときの表示例である。間奏が終わり、ボーカルを担当するメンバー１ａが歌唱を再開すると、撮像装置１００は表示の切り替えを終了する。具体的には、音源情報が変化したことをコントローラ１３５が検出すると（ステップＳ３２）、表示の切り替えを終了する。処理はステップＳ５’に戻り、コントローラ１３５は再びステップＳ２５を実行する。ステップＳ５’及びＳ２５において、コントローラ１３５が、全ての被写体が音源として発声または演奏を行っていることを検出し、被写体数が３であり、かつ一致数が３になったと判定すると、処理はステップＳ２５からステップＳ２６に進み、コントローラ１３５は再び、図８に示すように、全員を含む映像を表示する。

図１２は、メンバー１ａ及び１ｃが歌唱及び演奏を継続し、ギター１ｄを演奏するメンバー１ｂが演奏を中断したときの被写体像２ａ〜２ｅの表示例である。先の例と同様、この例の場合も、撮像装置１００は３つの被写体像に対して音源の数が２つになったことを検出する。そして撮像装置１００は、被写体像を選択的に表示するための制御信号を生成して、被写体であり、かつ音源でもある被写体像、すなわち被写体像２ａと、被写体像２ｃ及び２ｅの組み合わせ、を選択的に表示する。

図７は、図６の表示優先度の割当処理（ステップＳ３０）の詳細な処理手順を示すサブルーチンのフローチャートである。本例では、図２の例に示すようなバンドを想定したときの例を説明する。具体的には、ボーカルが最初にスポット表示されるよう、表示優先度を設定する。

ステップＳ４０において、コントローラ１３５は、映像の中の被写体像にボーカルが存在するか否かを判定する。

ステップＳ４１において、ボーカルが存在しないため、存在する被写体像に適宜、表示優先度「１」〜「Ｎ」を割り当てる。「適宜」とは「任意に」という意味であり、例えば音のレベルが大きい被写体順、存在する位置が映像の中心に近い被写体順、存在する位置が撮像装置から近い被写体順などである。なお、撮像装置からの距離は周知の測距装置等を用いて計測できる。

さらにステップＳ４２において、コントローラ１３５は、ボーカルが複数か否かを判定する。

ステップＳ４３において、コントローラ１３５は、ボーカルの被写体像に表示優先度「１」を割り当てる。

ステップＳ４４において、コントローラ１３５は、ボーカル以外の被写体像が存在するか否かを判定する。存在する場合には処理はステップＳ４５に進む。存在しない場合には、サブルーチンが終了し、処理はステップＳ３１に戻る。

ステップＳ４５において、コントローラ１３５は、ボーカル以外の被写体像に適宜、表示優先度「２」〜「Ｎ」を割り当てる。これにより、サブルーチンが終了し、処理はステップＳ３１に戻る。

ステップＳ４６において、コントローラ１３５は、センター位置のボーカルに表示優先度「１」を割り当て、それ以外のボーカルに、適宜表示優先度「２」〜「Ｍ」を割り当てる。

ステップＳ４７において、コントローラ１３５は、ボーカル以外の被写体像が存在するか否かを判定する。存在する場合には処理はステップＳ４８に進む。存在しない場合には、サブルーチンが終了し、処理はステップＳ３１に戻る。

ステップＳ４８において、コントローラ１３５は、ボーカル以外の被写体像に適宜、表示優先度「Ｍ＋１」〜「Ｎ」を割り当てる。

以上の処理により、各被写体像に表示優先度を割り当てることができる。

図２から図１２を参照しながら、バンドの複数のメンバーを被写体として識別しつつ、発声中または演奏中の被写体を、個々にズームアップする例を説明した。個々にズームアップする例に関しては、例えば１つの会議室に複数の参加者が集まり、参加者が任意のタイミングで発言する会議システムに応用することで、発言者を選択的にズームアップすることができる。これにより、遠隔地からの参加者（視聴者）に好適な視聴環境を提供することが可能になる。発言中の参加者が自動的にズームアップされるため、遠隔地の参加者は、会議室で現在誰が発言しているかを映像上の口の動き等から探す必要がないからである。数名または一人の参加者のみが発言する機会が多いと考えられる会議では、その発言者が自動的にスポット表示されるため、非常に視聴しやすくなると言える。

〔３．効果等〕
本実施形態において、撮像装置１００として実現された信号処理装置は、入力部と、画像処理部の一例の画像処理エンジン１２０と、音声処理部の一例である音声処理エンジン１７０と、制御部の一例のコントローラ１３５とを備える。入力部は、被写体が存在する空間Ｓで同時に取得された映像及び音声の各信号を受け取る。画像処理エンジン１２０は、映像に含まれる被写体像を認識し、各被写体が存在する第１の領域を決定する。音声処理エンジン１７０は、音声に含まれる音源を認識し、空間中の、各音源が存在する第２の領域を決定する。コントローラ１３５は、第１の領域及び第２の領域を用いて被写体と音源の位置が一致する被写体及び音源の組み合わせを決定し、組み合わせに対応する、出力すべき被写体像を選択的に決定する。これにより、被写体と音源の位置が一致する被写体、つまり、音を発している被写体を選択することができる。例えばコントローラ１３５はそのような被写体を表示装置に表示させることにより、視聴者に好適な映像の切り替えを無人で実現することができる。

本実施形態において、被写体像及び音源の組み合わせが１つの組み合わせである場合、コントローラ１３５は、当該１つの組み合わせに対応する、出力すべき被写体像を選択的に決定する。例えばコントローラ１３５は、音を発している唯一の被写体を選択し、当該被写体を表示装置に表示させることにより、視聴者に好適な映像の切り替えを無人で実現することができる。

本実施形態において、被写体像及び音源の組み合わせが複数の組み合わせである場合であって、かつ、複数の組み合わせが、全ての被写体及び全ての音源の組み合わせではない場合には、コントローラ１３５は、当該複数の組み合わせの各々に対応する被写体像を所定の優先順位で出力する。コントローラ１３５が、音を発している複数の被写体を所定の優先順位で表示させることにより、視聴者に好適な映像の切り替えを無人で実現することができる。

本実施形態において、画像処理エンジン１２０及び音声処理エンジン１７０は、映像及び音声の変化に追従して、各被写体が存在する第１の領域、及び、各音源が存在する第２の領域を更新する。コントローラ１３５は、更新された第１の領域及び第２の領域を用いて被写体と音源の位置が一致する被写体像及び音源の組み合わせを更新し、更新された後の組み合わせに対応する被写体像を選択的に出力する。被写体の位置及び音源の位置が移動した場合であっても、コントローラ１３５は、音を発している被写体を選択し、当該被写体を表示装置に表示させることが可能になる。これにより、視聴者に好適な映像の切り替えを無人で実現することができる。

本実施形態において、被写体像及び音源の組み合わせが複数の組み合わせである場合であって、かつ、複数の組み合わせが、全ての被写体及び全ての音源の組み合わせである場合には、コントローラ１３５は、全ての被写体に対応する全ての被写体像を出力する。全ての被写体が音を発している場合には、全ての被写体像を含む映像を出力することができる。

本実施形態において、コントローラ１３５は、映像から、組み合わせに含まれる被写体像の切り出しを指示する。例えば画像処理エンジン１２０は当該指示に従って被写体像を切り出すことができる。これにより、切り出された被写体像を選択的に表示させることができる。

本実施形態において、組み合わせに含まれる被写体像が人物の像であり、かつ音源が人物である場合には、コントローラ１３５は、映像から当該人物の像を切り出す。一方、組み合わせに含まれる被写体像が人物及び楽器の複合像であり、かつ音源が楽器である場合には、コントローラ１３５は、映像から当該複合像を切り出す。被写体像が音を発する人物の像であるのか、人物及び楽器の複合像であるのかに応じて、切り出す像を変えることにより、視聴者に好適な映像の切り替えを無人で実現することができる。

本実施形態の信号処理装置は、選択的に決定された組み合わせに含まれる被写体像の信号を外部に出力する出力部をさらに備える。これにより、例えば外部の表示装置２３０等に選択的に当該被写体像を出力することができる。

（実施形態２）
実施形態１では、信号処理装置を図１の撮像装置１００を用いて実現した。実施形態２では、複数の撮像装置（例えば、図１の撮像装置１００）を有し、そのうちの少なくとも１台に信号処理装置の役目を担わせる信号処理システム、または、複数の撮像装置と、それらとは別に信号処理装置とを設けた信号処理システムを説明する。当該信号処理システムは、視聴者に好適な映像の切り替えを無人で実現する。本実施の形態では、実施形態１と同様に図３、図６、図７を用いて映像の表示形態の切り替え処理を実現する。

図１３ａは、信号処理システム３００の本実施形態の構成を示すハードウェア図である。図１３ａの例では、信号処理装置２２０ａと複数の撮像装置２２０ｂ〜２２０ｎの各々が撮影を行って映像を出力する。すなわち信号処理装置２２０ａ及び撮像装置２２０ｂ〜２２０ｎの各々の構成は、例えば図１に示す撮像装置１００の構成と同じである。

信号処理装置２２０ａと撮像装置２２０ｂ〜２２０ｎの各々から出力された映像はスイッチャ２４０に入力される。また、マイクロフォンアレイ１６１から出力された音声もスイッチャ２４０に入力されている。ただし、音声に関しては、マイクロフォンアレイ１６１から直接信号処理装置２２０ａに送信されてもよい。

信号処理システム３００では、信号処理装置２２０ａが「マスタカメラ」として設定されている。以下、図１３ａの例に関しては、信号処理装置２２０ａを「マスタカメラ２２０ａ」または「撮像装置２２０ａ」とも記述する。マスタカメラ２２０ａから出力された映像は、本開示による判定処理、すなわち被写体像の数と音源の数との一致／不一致の判定処理を行う際の被写体像の検出に用いられる。つまり、マスタカメラの映像は、表示する被写体像を全て含む。マスタカメラは図２に示される撮像装置１００に相当する。

他の撮像装置２２０ｂ〜２２０ｎは、予め撮影する空間Ｓ内の領域または範囲が予め決定されており、かつ、マスタカメラ２２０ａは当該範囲を示す情報を予め保持している。

本実施形態では、マスタカメラ２２０ａが実施形態１で説明した上記の判定処理を実施する信号処理装置の役目を担っている。上述の判定処理の結果、外部の表示装置２３０に出力・表示する被写体像を所定の優先順位に従って切り替える際に、マスタカメラ２２０ａからの制御信号に従ってスイッチャ２４０によって選択された、撮像装置２２０ａ〜２２０ｎのいずれかの映像が採用される。つまりマスタカメラ２２０ａ（撮像装置２２０ａ）の映像も採用される対象になり得る。

なお、図１３ａでは、外部のマイクロフォンアレイ１６１を使用せず、マスタカメラ２２０ａ内のマイクロフォンアレイ１６１を使用してもよい。
さらにマスタカメラ２２０ａが信号処理装置の役目を担わない構成も可能であり、図１３ｂの構成がその一例である。図１３ｂの信号処理システム３００では信号処理装置２００と複数の撮像装置２２０ａ〜２２０ｎを用いている。このときマスタカメラである撮像装置２２０ａは空間Ｓ内の被写体全体が撮影されるように設置されている。マイクロフォン１６１の音声と撮像装置２２０ａの映像は信号処理装置２２０に入力される。信号処理装置２２０は制御信号をスイッチャ２４０に送信し、撮像装置２２０ａ〜２２０ｎからスイッチャ２４０に入力された任意の映像を表示装置２３０に出力する。

図１４は、図１３ａにかかる信号処理システム３００の設置例を示す図である。図１４は、＋Ｙ側（天井側）から−Ｙ側（床側）を見下ろした構成を示している。なお図１４では表示装置２３０の図示は省略した。

典型的には、撮像装置２２０ａ〜２２０ｎは空間Ｓ内に固定的に設置されており、各々の視野も固定されている。マスタカメラ２２０ａは、バンドのメンバー１ａ〜１ｃをすべて撮影可能な画角に、各撮像装置２２０ｂ〜２２０ｎはバンドの各メンバーを撮影可能な画角に設定している。マスタカメラ２２０ａは、各撮像装置２２０ｂ〜２２０ｎが空間Ｓ内のどの領域を視野に含むかの情報は予め取得しておくことができる。マスタカメラ２２０ａは、撮像装置２２０ａ〜２２０ｎが取得した映像を利用して、どの領域の被写体像を出力するかを決定することができる。

例えば図１０に示す被写体像２ｂを選択的に表示装置２３０に表示させる場合、マスタカメラ２２０ａの信号処理装置は、撮像装置２２０ｂ〜２２０ｎのうち、予め被写体像２ｂが存在する領域が設定された撮像装置、例えば撮像装置２２０ｂを決定し、スイッチャ２４０に制御信号を送信する。スイッチャ２４０は制御信号を受信して、撮像装置２２０ｂから出力された映像を表示装置２３０に送信する。これにより、図１０に示す例と同様の領域を含む被写体像を表示することができる。このように、スイッチャ２４０を利用して、所定の撮像装置２２０ｂから出力された映像を表示装置２３０に送信することを、スイッチャ２４０を制御する、と言う。

本実施形態においては、信号処理装置が出力する制御信号は、４Ｋ映像のうちから２Ｋ映像を切り出すための信号ではなく、所望の被写体像を撮影している撮像装置の映像の選択を指示する信号である。

切り替えて表示すべき被写体像が複数存在する場合には、所定の時間経過後に、マスタカメラ２２０ａの信号処理装置はスイッチャ２４０に制御信号を送信し、他の撮像装置の映像を表示装置２３０に送信させる。例えば図１１に示す被写体像２ｃを選択的に表示装置２３０に表示させる場合、マスタカメラ２２０ａの信号処理装置は、撮像装置２２０ｋを決定し、スイッチャ２４０に制御信号を送信する。これにより、被写体像２ｃを含む映像に切り替えることができる。

（他の実施形態）
上記の実施形態１では、信号処理装置は撮像装置１００を用いて実現され、実施形態２では、信号処理装置は撮像装置２２０ａを用いて実現された。信号処理装置は、撮像機能を有していなくてもよい。図１８に示すように、撮像装置１００の構成のうち、コントローラ１３５、画像処理エンジン１２０、音声処理エンジン１７０は、信号処理装置２００として例えば１つの半導体チップとして実装することが可能である。信号処理装置２００は、信号処理装置２００の外部からデータを受け付けるための入力インタフェース（入力部）２０２ａと、外部へデータを出力するための出力インタフェース（出力部）２０２ｂとを有していてもよい。入力インタフェース２０２ａ及び出力インタフェース２０２ｂは、例えば信号入出力のための端子またはピンであり得る。なお、コントローラ１３５から信号が出力される場合には、出力インタフェース２０２ｂは、コントローラ１３５が有する端子またはピンであり得る。図１８に示す該半導体チップを撮像装置１００以外の別の装置に組み込むことで信号処理装置を構成することも可能である。

また、上記の各実施形態では、撮像装置の一例としてデジタルカメラを用いて信号処理装置について説明したが、本実施形態の信号処理装置は、レンズ交換式であるデジタルカメラであってもよい。また、本開示の思想は、デジタルカメラのみならず、ムービーカメラであってもよいし、カメラ付きの携帯電話或いはＰＣのような種々の撮像機能を有する電子機器でも実現可能である。

上記の実施形態１では、クロップ技術に基づいて表示または配信する被写体像を切り出す信号処理装置として撮像装置１００について説明したが、これに限定されない。例えば、信号処理装置としては、マイクロフォンアレイ１６１やイメージセンサ１１５を備えている必要はなく、外部のイメージセンサとマイクロフォンアレイによって、同一の空間で同時に取得された映像及び音声の各信号を入力インタフェースで受け取り、選択的に決定された組み合わせに含まれる被写体像の信号を出力インタフェースで外部に出力する構成でもよい。

上記の各実施形態では、図６、図７を用いて映像の表示形態の切り替え処理を説明した、他の表示形態の切り替えを実現するアルゴリズムを用いてよい。

第１及び第２の実施形態では、被写体座標及び音源座標は２次元座標であるが、これに限定されることはなく、３次元座標であってもよい。例えば、被写体座標の深さ方向の座標は、カメラのＤＦＤ技術を使うか、又は、距離センサを使用することで求められる。また、音源座標の深さ方向の座標は、同一音源からの音が複数のマイクに到達するときの時間差を利用して求められる。このような方法で求めた深さ方向（Ｚ軸方向）の座標を含む、被写体座標及び音源座標を夫々３次元座標にすれば、各被写体が存在する第１の領域と、各音源が存在する第２の領域とが重なる被写体及び音源の組み合わせをより高精度に決定することができる。ここでいう「領域」は、３次元の空間Ｓ内の座標値に限られず、空間Ｓ内の平面、例えば地面、の一部、または、空間Ｓ内の部分空間を含む。撮像装置１００は、被写体の位置及び音源の位置を空間Ｓ内の３次元で表された領域として取得し処理してもよい。

また上記の各実施の形態では、ボーカル又は演奏者を単独で選択的に出力・表示することにしたが、これに限定されない。例えば、以下のような選択的な表示方法も考えられる。つまり、撮像装置１００は、図１０及び図１１の例のような、選択的に表示される被写体像同士の映像上の距離を算出し、当該距離が予め定められた値以内かどうかを判定する。当該距離が予め定められた値以内である場合には、撮像装置１００は、それらの複数の被写体像をまとめて切り出して選択的に表示するための制御信号を生成する方法である。

図１７は、映像上の距離が予め定められた値以内である被写体像２ａと、被写体像２ｃ及び２ｅの組み合わせとを選択的に切り出したときの表示例である。撮像装置１００は、個々の被写体像を順次表示する処理だけでなく、映像上、相対的に近い距離範囲内に存在するといえる場合には、まとめて切り出して表示することができる。これにより、種々の映像効果を与えながら、視聴者に好適な視聴環境を提供することができる。

図１７の例は、歌唱中のメンバー１ａの被写体像２ａの表示範囲と、被写体像２ｃ及びキーボードの被写体像２ｅとを組み合わせた被写体像の表示範囲とが相違していることも示している。具体的には、被写体像２ａに関しては、被写体像２ａの顔の部分を含む上半身が表示されているのに対して、被写体像２ｃ及び２ｅを組み合わせた被写体像は、それらの全体を含む範囲が表示されている。このように相違させる理由は、音源として表示すべき被写体像の大きさが異なっているからである。音源が歌唱中のメンバー１ａである場合、本質的な音源はメンバー１ａの口であり、視聴者は概ね顔の部分または顔と上半身とをズームアップして視聴したいと考えられる。一方、音源がメンバー１ｃ及びキーボード１ｅである場合、本質的な音源はキーボード１ｅであり、キーボード１ｅとキーボード１ｅを演奏するメンバー１ｃとを視聴したいと考えられる。つまり、音源の種別は、その音源を有する被写体像を表示する大きさを決定する指標となり得る。

そこで、本変形例では、音源の種別を判定した後、音源の種別に応じて、表示される被写体像の範囲および／またはサイズを変えることとした。具体的には、音声処理エンジン２０８は、音声に含まれる音源の種別を判定する。コントローラ１３５は、音声処理エンジン２０８が判定した音源の種別に応じた表示方法で、組み合わせに含まれる被写体像を表示するための制御信号を生成する。例えば、音源が人である場合には、コントローラ１３５は、音源に対応する人の被写体像のうち、人の口を含む頭部または上半身を少なくとも含むような表示方法を採用する。音源がギターである場合には、コントローラ１３５は、ギター及びギター奏者を含む被写体像を少なくとも含むような表示方法を採用する。

この処理は図１０及び図１１に限られず、図８及び図９の例においても適用可能である。例えば図８の例の場合には、取得した音声・楽器の音から、音源がギター１ｄであると判断されると、ギター１ｄの被写体像２ｄが少なくとも含まれる大きさで、表示装置２３０に表示される。

上記の実施形態１では、図２及び図４に示す３つのマイクロフォン素子を利用する例を示したが、これに限定されない。利用するマイクロフォンアレイによっては、音源の位置をより詳細に検出することができる構成がある。図１５及び図１６は、４以上のマイクロフォン素子１６２が円環状に配置されたマイクロフォンアレイ１６１の構成例を示している。

図１５はマイクロフォンアレイ１６１の正面図であり、図１６は空間Ｓへのマイクロフォンアレイ１６１の設置例を示す図である。例えばマイクロフォンアレイ１６１は天井に配置され、出力される音声の信号は有線または無線で撮像装置１００に送信される。

図２及び図４に示す３つのマイクロフォン素子を利用する例と比較すると、円環状に配置された４以上のマイクロフォン素子１６２の出力音声信号を利用すると、より正確に音声または楽器の音の到来方向を推定できる。より多くのマイクロフォン素子１６２を利用するほど、到来方向の推定精度はより正確になる。換言すると、音源が存在する位置または方向はより正確に特定され得る。例えば図１６に示されるように、マイクロフォン素子１６２の数を増やすことにより、空間Ｓにおいて歌唱及び演奏を行っているバンドのメンバー１ａ〜１ｃのそれぞれの位置Ｓａ〜Ｓｃを特定することができる。位置を決定する処理は、到達時間差等の上述した技術のいずれかを用いて実現される。

また、上記の各実施形態では、バンド演奏の映像をライブ配信する例を説明したが、これに限られず、被写体が演奏したり、発話する場合の他のユースケースに広く適用できる。一例として、オーケストラ演奏におけるライブ配信や演劇におけるライブ配信にも適用できる。他の例として、保育園、幼稚園、小学校等でのユースケースにも広く適用できる。学校等では、ひな壇に並んで合唱する機会が多い。父母がビデオカメラ（撮像装置）で録画した映像を、後に自宅のテレビで視聴する場合、本開示にかかる技術を用いると家族（視聴者）に好適な視聴環境を提供することが可能になる。例えば、歌を唱っている生徒を順次切り出して表示したり、ひな壇上の右半分に立って歌を唱っている複数の生徒をまとめて切り出して表示したりできる。

本実施形態では、クロップ技術を用いて４Ｋ解像度の映像から２Ｋ解像度の映像を切り出してズームアップする例を挙げた。特定の被写体像のズームアップ表示に代えて、その被写体像以外の被写体像および／または背景画像の輝度を落としたり、被写界深度を変更してボケを出したり、透明度を与えつつグレーアウトさせることで、その被写体像を相対的に強調して、すなわち選択的に、表示することが可能である。よって、被写体像を選択的に表示できるのであれば、切り抜き以外の表示態様でも本開示の範疇である。

以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。

したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

本開示は、音声を取得しながら撮像を行う技術を採用するシステム等において適用可能である。

１ａ〜１ｅ被写体
２ａ〜２ｅ被写体像
１００撮像装置
１６１マイクロフォンアレイ
１３５コントローラ
１２０画像処理エンジン
１７０音声処理エンジン
１６１マイクロフォンアレイ
２００信号処理装置
２０２ａ入力インタフェース
２０２ｂ出力インタフェース

Claims

被写体が存在する空間で同時に取得された映像及び音声の各信号を受け取る入力部と、
前記映像に含まれる被写体像を認識し、各被写体が存在する第１の領域を決定する画像処理部と、
前記音声に含まれる音源を認識し、前記空間中の、各音源が存在する第２の領域を、前記第１の領域とは独立して決定する音声処理部と、
前記第１の領域及び前記第２の領域を用いて前記各被写体の位置と前記各音源の位置との一致及び不一致を判定し、互いの位置が一致する被写体及び音源の組み合わせを決定し、前記組み合わせに対応する、出力すべき前記被写体像を選択的に決定する制御部と
を備える信号処理装置。
前記被写体像及び前記音源の組み合わせが１つの組み合わせである場合、
前記制御部は、前記１つの組み合わせに対応する、出力すべき被写体像を選択的に決定する、請求項１に記載の信号処理装置。
前記被写体像及び前記音源の組み合わせが複数の組み合わせである場合であって、かつ、前記複数の組み合わせが、全ての被写体及び全ての音源の組み合わせではない場合には、
前記制御部は、前記複数の組み合わせの各々に対応する被写体像を所定の優先順位で出力する、請求項１に記載の信号処理装置。
前記画像処理部及び前記音声処理部は、前記映像及び前記音声の変化に追従して、前記各被写体が存在する第１の領域、及び、前記各音源が存在する第２の領域を更新し、
前記制御部は、前記更新された前記第１の領域及び前記第２の領域を用いて前記被写体と前記音源の位置が一致する前記被写体像及び前記音源の組み合わせを更新し、更新された後の前記組み合わせに対応する前記被写体像を選択的に出力する、請求項１に記載の信号処理装置。
前記被写体像及び前記音源の組み合わせが複数の組み合わせである場合であって、かつ、前記複数の組み合わせが、全ての被写体及び全ての音源の組み合わせである場合には、
前記制御部は、前記全ての被写体に対応する全ての被写体像を出力する、請求項１に記載の信号処理装置。
前記制御部は、前記映像から、前記組み合わせに含まれる前記被写体像の切り出しを指示する、請求項１に記載の信号処理装置。
前記組み合わせに含まれる前記被写体像が人物の像であり、かつ前記音源が前記人物である場合には、前記制御部は、前記映像から前記人物の像の切り出し、
前記組み合わせに含まれる前記被写体像が人物及び楽器の複合像であり、かつ前記音源が前記楽器である場合には、前記制御部は、前記映像から前記複合像を切り出す、請求項６に記載の信号処理装置。
前記被写体像及び前記音源の組み合わせが２つの組み合わせである場合、前記制御部は、前記２つの組み合わせに含まれる２つの被写体像が存在する領域間の距離が予め定められた値以内である場合には、前記２つの被写体像を切り出す、請求項６に記載の信号処理装置。
選択的に決定された前記組み合わせに含まれる前記被写体像の信号を外部に出力する出力部を備える、請求項１に記載の信号処理装置。
前記制御部は、前記組み合わせの数に応じて出力すべき前記被写体像を選択的に決定する、請求項１に記載の信号処理装置。
請求項１に記載の信号処理装置と、
前記空間を撮影して前記映像の信号を生成する複数の撮像装置と、
前記信号処理装置及び前記複数の撮像装置から出力される前記映像のうちから前記選択的に決定された被写体像を含む映像を選択するためのスイッチャと
を備え、
前記信号処理装置は、前記空間に含まれる複数の被写体を撮影し、複数の被写体像を含む映像を生成する撮像部を含み、
前記複数の撮像装置の各々は、個別の被写体を撮影し、個別の被写体像を含む映像を生成し、
前記信号処理装置の制御部は、前記組み合わせに含まれる前記被写体像を選択的に出力するように前記スイッチャを制御する、信号処理システム。