JP2021033573A

JP2021033573A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2021033573A
Application number: JP2019152122A
Authority: JP
Inventors: 和博嶋内; Kazuhiro Shimauchi
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2021-03-01
Anticipated expiration: 2039-08-22
Also published as: JP7334536B2; WO2021033592A1; EP3994613A1; US20220327732A1; CN114270802A

Abstract

【課題】主要被写体以外の被写体のプライバシーをより確実かつ簡単に保護することができる画像処理装置を提供する。【解決手段】制御装置の制御部１４は、動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、フレーム内の特定領域との位置関係に基づいて、複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体を特定し、画像処理部１３は、複数の被写体のうち、非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、所定の画像処理を施す。【選択図】図４

Description

本開示は、情報処理装置、情報処理方法、およびプログラムに関し、特に、主要被写体以外の被写体のプライバシーを保護することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。

動画像に映る被写体のプライバシーを保護する技術がある。

例えば、特許文献１には、ユーザに主要被写体の数を指定させ、顔の大きい順に指定された数をスキップし、それ以降の顔にモザイク処理を行う撮像装置が開示されている。

また、特許文献２には、あらかじめ登録されている顔画像と、カメラで撮影されている動画像から検出された顔画像が一致しない場合に、動画像から検出された顔画像にモザイク処理を施すことが開示されている。

特開２００９−２８４２３５号公報特開２００４−６２５６０号公報

大学などの学校における講義の様子を収録し、遠隔地での講義の受講を実現するレクチャーキャプチャーシステムに、特許文献１の技術を適用した場合、主要被写体となる講師の顔が必ずしも他の被写体（聴講者）の顔より大きく映るとは限らない。そのため、講師の顔にモザイク処理が施されたり、プライバシーを保護したい聴講者の顔にモザイク処理が施されなかったりする。

また、特許文献２の技術をレクチャーキャプチャーシステムに適用した場合、講師の顔画像を全て登録する必要があるため、その作業にコストがかかってしまう。さらに、顔画像が登録されていないゲストスピーカが講義を行った場合、意図せず、そのゲストスピーカの顔にモザイク処理が施されてしまう。

本開示は、このような状況に鑑みてなされたものであり、主要被写体以外の被写体のプライバシーをより確実かつ簡単に保護することができるようにするものである。

本開示の第１の側面の情報処理装置は、動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、前記フレーム内の特定領域との位置関係に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体を特定する制御部と、前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、前記所定の画像処理を施す画像処理部とを備える情報処理装置である。

本開示の第１の側面の情報処理方法、または、プログラムは、動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、前記フレーム内の特定領域との位置関係に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体に特定し、前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、前記所定の画像処理を施す情報処理方法、または、コンピュータにそれらの処理を実行させるためのプログラムである。

本開示の第２の側面の情報処理装置は、動画像を構成するフレーム内の複数の被写体それぞれに対応する姿勢情報の履歴に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体を特定する制御部と、前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、前記所定の画像処理を施す画像処理部とを備える情報処理装置である。

本開示においては、動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、前記フレーム内の特定領域との位置関係か、または、複数の被写体それぞれに対応する姿勢情報の履歴に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体が特定され、前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象に対して、前記所定の画像処理が施される。

従来のシステムにおける課題について説明する図である。従来のシステムにおける課題について説明する図である。本開示の実施の形態に係る撮影システムの構成例を示すブロック図である。制御装置の機能構成例を示すブロック図である。顔領域のマスキング処理について説明するフローチャートである。追尾枠の例を示す図である。プリセット位置の例を示す図である。顔領域のマスキング結果の例を示す図である。制御装置の機能構成例を示すブロック図である。姿勢情報の例を示す図である。顔領域のマスキング処理について説明するフローチャートである。制御装置の機能構成例を示すブロック図である。顔領域のマスキング処理について説明するフローチャートである。顔領域のマスキング処理について説明するフローチャートである。撮影システムの他の構成例を示すブロック図である。制御装置の機能構成例を示すブロック図である。音声のマスキング処理について説明するフローチャートである。音声のマスキング処理について説明するフローチャートである。制御装置の機能構成例を示すブロック図である。発話認識について説明する図である。音声のマスキング処理について説明するフローチャートである。音声のマスキング処理について説明するフローチャートである。撮影システムのさらに他の構成例を示すブロック図である。撮影システムのさらに他の構成例を示すブロック図である。コンピュータのハードウェアの構成例を示すブロック図

以下、本開示を実施するための形態（以下、実施の形態とする）について説明する。なお、説明は以下の順序で行う。

１．従来のシステムにおける課題
２．第１の実施の形態に係る撮影システムの構成
２−１．制御装置の第１の構成例と動作
２−２．制御装置の第２の構成例と動作
２−３．制御装置の第３の構成例と動作
３．第２の実施の形態に係る撮影システムの構成
３−１．制御装置の第１の構成例と動作
３−２．制御装置の第２の構成例と動作
３−３．変形例
４．コンピュータの構成例

＜１．従来のシステムにおける課題＞
近年、大学などの学校における講義の様子を収録し、遠隔地での講義の聴講を実現するレクチャーキャプチャーシステムが提供されている。レクチャーキャプチャーシステムにおいては、講師と聴講者を撮影し、講師の追尾や聴講者の動作の検出を行うことで、講師と聴講者の動画像をスイッチングしたり、両者の動画像を一つの動画像に合成して出力することが行われる。

一方で、レクチャーキャプチャーシステムにおいては、主要被写体となる講師の撮影中に、聴講者などの他の被写体のプライバシーを保護する必要がある。

主要被写体以外の被写体のプライバシーを保護する技術として、例えば特許文献１には、ユーザに主要被写体の数を指定させ、顔の大きい順に指定された数をスキップし、それ以降の顔にモザイク処理を行う撮像装置が開示されている。特許文献１の技術は、主要被写体の顔が、主要被写体以外の被写体の顔より大きく映っていることが前提とされる。

図１は、特許文献１の技術をレクチャーキャプチャーシステムに適用した場合の動画像の例を示している。図１の例では、検出されている講師（教師）の顔が顔枠Ｆ１で表され、壇上の２人の聴講者（学生）それぞれの顔が顔枠Ｆ２，Ｆ３で表され、座っている多くの聴講者のうちの１人の顔が顔枠Ｆ４で表されている。

レクチャーキャプチャーシステムにおいては、主要被写体となる講師の顔が必ずしも聴講者の顔より大きく映るとは限らず、講師の顔にモザイク処理が施されたり、プライバシーを保護したい聴講者の顔にモザイク処理が施されなかったりする。

図１の例では、顔枠Ｆ１で表されている講師の顔より、顔枠Ｆ４で表されている聴講者の顔が大きく映っているため、図２に示されるように、講師の顔にモザイク処理が施される一方、プライバシーを保護したい聴講者の顔にモザイク処理が施されなくなる。

しかしながら、特許文献２の技術をレクチャーキャプチャーシステムに適用した場合、講師の顔画像を全て登録する必要があるため、その作業にコストがかかってしまう。さらに、顔画像が登録されていないゲストスピーカが講義を行った場合、意図せず、そのゲストスピーカの顔にモザイク処理が施されてしまう。

その他にも、動画像において選択された被写体の顔をＡＩが学習し、学習された顔が他のシーンで認識された場合、その顔にぼかし処理を施す技術がある。

この技術をレクチャーキャプチャーシステムに適用した場合、動画像においてぼかし処理の対象としたい学生（聴講者）の顔を全て選択する必要があるため、その作業にコストがかかってしまう。また、講義を行う教室などに学生が入室する度に、その学生の顔を選択しなければならず、常に監視する人手が必要となる。

そこで、以下においては、主要被写体以外の被写体のプライバシーをより確実かつ簡単に保護することを実現するためのシステムの構成と動作について説明する。

＜２．第１の実施の形態に係る撮影システムの構成＞
図３は、本開示の第１の実施の形態に係る撮影システムの構成例を示す図である。

図３の撮影システムは、レクチャーキャプチャーシステムとして構成され、講師Ｌ１が複数の聴講者Ａ１に対して講義を行う教室や講堂などに設置される。

図１の撮影システムは、少なくとも１台以上のカメラ１と、カメラ１に接続される制御装置２から構成される。制御装置２には、記録装置３が付随し、さらにネットワーク４を介して、情報処理端末５が接続される。

カメラ１は、例えば、機械的にパン・チルトする機能を備えつつ、光学的・電子的にズーム可能なＰＴＺカメラとして構成される。カメラ１は、主要被写体となる講師Ｌ１を、その画角内に捉えるように撮影し、得られた動画像を制御装置２に出力したり、ネットワーク４経由で情報処理端末５に出力する。

制御装置２は、本開示に係る画像処理装置として構成され、情報処理端末５などからの指示入力に基づいて、カメラ１から出力される動画像に所定の画像処理を施す。画像処理が施された動画像は、記録装置３に出力されたり、ネットワーク４経由で情報処理端末５に出力される。

制御装置２は、その機能を有する専用のハードウェアにより構成されてもよいし、一般的なコンピュータにより構成され、それぞれの機能がソフトウェアにより実現されてもよい。また、制御装置２は、独立した装置として構成されるのではなく、カメラ１、図示せぬスイッチャやサーバなどの他の装置に内蔵されてもよい。

情報処理端末５は、講師Ｌ１による講義が行われる空間内にいる聴講者Ａ１、または、遠隔地にいる視聴者が、制御装置２によって出力された画像を視聴するための端末である。

情報処理端末５は、その機能を有する専用のハードウェアにより構成されてもよいし、一般的なコンピュータやモバイル端末により構成され、その機能がソフトウェアにより実現されてもよい。

＜２−１．制御装置の第１の構成例と動作＞
（制御装置の構成例）
図４は、制御装置２の機能構成例を示すブロック図である。

図４の制御装置２は、顔検出部１１、追尾部１２、画像処理部１３、および制御部１４を備えている。

顔検出部１１は、カメラ１から出力される動画像において顔を検出し、検出された顔の位置（座標）や大きさなどを制御部１４に供給する。

追尾部１２は、カメラ１からの動画像において、複数の被写体のうち、所定の被写体を追尾対象被写体とした追尾を制御し、その被写体の位置（座標）や大きさなどを制御部１４に供給する。例えば、追尾部１２は、動画像のフレーム間で類似した色や形状の領域同士をマッチングすることで、特定の被写体を追尾する。

画像処理部１３は、カメラ１からの動画像において、所定の被写体を処理対象として所定の画像処理を施す。具体的には、画像処理部１３は、カメラ１からの動画像において、複数の被写体のうち、後述する非処理対象被写体以外の被写体（例えば聴講者Ａ１）である処理対象被写体に対応する処理対象領域として、その顔領域をマスクするマスキング処理を施す。なお、ここでは、画像処理として、マスキング処理に代えてモザイク処理が施されてもよい。画像処理が施された動画像は、直接または制御部１４を介して、記録装置３に出力されたり、ネットワーク４経由で情報処理端末５に出力される。

制御部１４は、顔検出部１１、追尾部１２、および画像処理部１３の各部との間のデータの授受、各部の制御、それらの結果の外部への出力などを行う。

制御部１４は、追尾対象特定部１４ａ、算出部１４ｂ、および非処理対象特定部１４ｃを有する。

追尾対象特定部１４ａは、カメラ１からの動画像において、追尾部１２による追尾対象となる被写体を特定する。

算出部１４ｂは、カメラ１からの動画像において、顔検出部１１により検出された顔と、追尾部１２の追尾対象との重なりの度合いを表すオーバーラップ率を算出する。

非処理対象特定部１４ｃは、カメラ１からの動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、フレーム内の特定領域との位置関係に基づいて、複数の被写体から、所定の画像処理を施さない（画像処理部１３の処理対象としない）非処理対象として非処理対象被写体を特定する。ここでいう位置関係は、被写体領域が特定領域内に位置するか否かを表す。「被写体領域が特定領域内に位置する」とは、例えば、被写体領域全体が、特定領域内に含まれることはもちろん、被写体領域のうちの所定の割合の領域が、特定領域内に含まれることも含む。非処理対象特定部１４ｃは、その位置関係に基づいて、特定領域内に位置する被写体領域に対応する被写体を、非処理対象被写体として特定する。

（制御装置の動作）
次に、図５のフローチャートを参照して、図４の制御装置２による聴講者の顔領域のマスキング処理の例について説明する。

ステップＳ１１において、顔検出部１１は、制御部１４の制御に基づいて、カメラ１からの動画像内の全ての顔を検出する。

顔検出の結果、図６に示されるように、カメラ１からの動画像に対して、講師の顔の位置と大きさを表す顔枠Ｆ１１、壇上の２人の聴講者（学生）それぞれの顔の位置と大きさを表す顔枠Ｆ１２，Ｆ１３、座っている多くの聴講者のうちの１人の顔の位置と大きさを表す顔枠Ｆ１４が得られる。

ステップＳ１２において、追尾対象特定部１４ａは、カメラ１からの動画像において、追尾部１２の追尾対象を特定する。

ステップＳ１３において、追尾部１２は、制御部１４の制御に基づいて、追尾対象特定部１４ａにより特定された追尾対象の追尾を開始する。

制御部１４が、顔検出部１１、追尾部１２、および画像処理部１３の各部を制御する際、例えば、カメラ１の画角のプリセット位置として、図７の枠ＰＳで示されるようなプリセット位置が設定される。図７においては、教室の黒板と教壇（教卓）を中心とした範囲が、プリセット位置（枠ＰＳ）に設定されている。

追尾対象特定部１４ａは、例えば、講師Ｌ１が教壇に立ったとき、すなわち、カメラ１からの動画像において設定された枠ＰＳ内で、顔検出部１１により顔が検出されたとき、その検出をトリガとして、追尾部１２に制御を移行する。これにより、追尾対象の追尾が開始される。このとき、制御部１４は、枠ＰＳ内および枠ＰＳ外の情報に基づいた統計処理を行うようにしてもよい。

追尾対象特定の結果、図６に示されるように、カメラ１からの動画像に対して、追尾対象となる講師の位置と大きさに対応する追尾領域を表す追尾枠ＴＲが設定される。

なお、追尾対象の特定は、ユーザが情報処理端末５のユーザインタフェース（ＵＩ）に対して追尾対象を指定する操作を行い、その操作内容を表す情報がネットワーク４を介して制御部１４に供給されることで行われてもよい。

ステップＳ１４において、算出部１４ｂは、顔検出部１１による顔の検出結果である全ての顔枠について、追尾枠ＴＲとのオーバーラップ率を算出する。

ステップＳ１５において、非処理対象特定部１４ｃは、注目する１つの顔枠（注目顔枠）について、追尾枠ＴＲとのオーバーラップ率が最も高いか否かを判定する。

ステップＳ１５において、注目顔枠と追尾枠ＴＲとのオーバーラップ率が最も高いと判定されなかった場合、すなわち、注目顔枠が追尾枠ＴＲと重なっていない場合、処理はステップＳ１６に進む。

ステップＳ１６において、画像処理部１３は、制御部１４の制御に基づいて、注目顔枠で表される顔領域にマスキング処理を施す。

一方、ステップＳ１５において、注目顔枠と追尾枠ＴＲとのオーバーラップ率が最も高いと判定された場合、すなわち、注目顔枠が追尾枠ＴＲと重なっている場合、ステップＳ１６はスキップされる。具体的には、非処理対象特定部１４ｃは、その注目顔枠で表される顔領域の被写体を非処理対象に特定し、画像処理部１３は、非処理対象に特定された被写体の顔領域にはマスキング処理を施さない。

その後、ステップＳ１７において、全ての顔枠について処理したか否かが判定される。全ての顔枠について処理していない場合、処理はステップＳ１５に戻り、ステップＳ１５，Ｓ１６の処理が繰り返される。

以上の処理によれば、図８に示されるように、追尾対象となる講師の顔領域（追尾枠ＴＲとのオーバーラップ率が最も高い顔枠Ｆ１１）のみにマスキング処理が施されず、それ以外の聴講者の顔領域（顔枠Ｆ１２，Ｆ１３，Ｆ１４）にはマスキング処理が施される。これにより、主要被写体以外の被写体である聴講者のプライバシーをより確実かつ簡単に保護することが可能となる。

なお、図８に示される動画像には、顔枠Ｆ１１乃至Ｆ１４と追尾枠ＴＲが示されているが、実際に制御装置２から出力される動画像には、顔枠Ｆ１１乃至Ｆ１４や追尾枠ＴＲは描画されず、聴講者の顔領域にマスキング処理が施されるのみである。

上述した処理において、追尾枠ＴＲに複数の顔枠が重なる可能性を考慮して、例えば追尾枠ＴＲ内で、より上方にある顔枠が、優先的に非処理対象（講師）の顔枠に特定されてもよい。また、オーバーラップ率と追尾枠ＴＲ内での顔枠の位置の両方に基づいて、優先的に非処理対象の顔枠が特定されてもよい。さらに、追尾枠ＴＲや顔枠の大きさ、向き、動きベクトルに基づいて、優先的に非処理対象の顔枠が特定されてもよい。

また、上述した処理では、追尾対象を１人の講師として、オーバーラップ率が最も高い１人の被写体を非処理対象としたが、複数の被写体を非処理対象としてもよい。例えば、オーバーラップ率が高い順に所定数の被写体を非処理対象としてもよいし、オーバーラップ率が所定の閾値を超える被写体を非処理対象としてもよい。

＜２−２．制御装置の第２の構成例と動作＞
（制御装置の構成例）
図９は、制御装置２の他の機能構成例を示すブロック図である。

図９の制御装置２は、姿勢推定部２１、追尾部２２、画像処理部２３、および制御部２４を備えている。なお、追尾部２２と画像処理部２３は、図４の追尾部１２と画像処理部１３それぞれと同様の機能を有するので、その説明は省略する。

姿勢推定部２１は、ディープラーニングなどの技術を用いて、カメラ１からの動画像内の被写体の姿勢を推定し、推定された姿勢を表す姿勢情報を制御部２４に供給する。姿勢情報には、例えば、被写体が立っている状態であることを示す立位情報や、被写体が座っている状態であることを示す座位情報が少なくとも含まれる。姿勢情報は、動画像に映る人物の関節を表す関節情報と、関節情報同士を繋ぐ骨格情報とからなる情報としてもよいし、いずれか一方のみからなる情報としてもよい。

図１０は、姿勢情報の例を示す図である。

図１０においては、１４の関節情報Ｊ１１，Ｊ１２，Ｊ２１乃至Ｊ２６，Ｊ３１乃至Ｊ３６が点で示され、関節情報同士を繋ぐ骨格情報が２つの点を結ぶ線分で示されている。

図１０の例では、関節情報Ｊ１１，Ｊ１２は、それぞれ人体の頭と首を表している。関節情報Ｊ２１乃至Ｊ２３は、それぞれ人体の右肩、右肘、右手首を表し、関節情報Ｊ２４乃至Ｊ２６は、それぞれ人体の右股関節、右膝、右足首を表している。関節情報Ｊ３１乃至Ｊ３３は、それぞれ人体の左肩、左肘、左手首を表し、関節情報Ｊ３４乃至Ｊ３６は、それぞれ人体の左股関節、左膝、左足首を表している。

また、図１０の姿勢情報には、顔パーツ情報Ｊ４１乃至Ｊ４４も含まれる。顔パーツ情報Ｊ４１，Ｊ４２は、右目と左目を表し、顔パーツ情報Ｊ４３は、鼻を表し、顔パーツ情報Ｊ４４は、耳（右耳）を表している。

図９の説明に戻り、制御部２４は、姿勢推定部２１、追尾部２２、および画像処理部２３の各部との間のデータの授受、各部の制御、それらの結果の外部への出力を行う。

制御部２４は、追尾対象特定部２４ａと非処理対象特定部２４ｂを有する。なお、追尾対象特定部２４ａと非処理対象特定部２４ｂは、図４の追尾対象特定部１４ａと非処理対象特定部１４ｃそれぞれと同様の機能を有するので、その説明は省略する。

（制御装置の動作）
次に、図１１のフローチャートを参照して、図９の制御装置２による聴講者の顔領域のマスキング処理の例について説明する。

ステップＳ２１において、姿勢推定部２１は、制御部２４の制御に基づいて、カメラ１からの動画像内の全ての人物の姿勢を推定する。

ステップＳ２２において、追尾対象特定部２４ａは、カメラ１からの動画像において、追尾部２２の追尾対象を特定する。例えば、追尾対象特定部２４ａは、図７を参照して説明したプリセット位置（枠ＰＳ）内で姿勢が推定された人物を、追尾部２２の追尾対象に特定する。

ステップＳ２３において、追尾部２２は、制御部２４の制御に基づいて、追尾対象特定部２４ａにより特定された追尾対象の追尾を開始する。ここで、追尾部２２は、動画像のフレーム間で類似した色や形状の領域同士をマッチングするだけに限らず、動画像のフレーム間で、姿勢推定部２１の姿勢推定の結果得られた姿勢情報を追尾してもよい。

ステップＳ２４において、非処理対象特定部２４ｂは、注目する１つの姿勢情報（注目姿勢情報）について、追尾対象の姿勢情報であるか否かを判定する。

ステップＳ２４において、注目姿勢情報が追尾対象の姿勢情報であると判定されなかった場合、処理はステップＳ２５に進む。

ステップＳ２５において、画像処理部２３は、制御部２４の制御に基づいて、注目姿勢情報で表される姿勢の被写体の顔領域にマスキング処理を施す。上述したように、姿勢情報には顔パーツ情報も含まれているため、画像処理部２３は、姿勢情報に基づいて顔領域を特定することができる。

一方、ステップＳ２４において、注目姿勢情報が追尾対象の姿勢情報であると判定された場合、ステップＳ２５はスキップされる。具体的には、非処理対象特定部２４ｂは、その注目姿勢情報で表される姿勢の被写体を非処理対象に特定し、画像処理部２３は、非処理対象に特定された被写体の顔領域にはマスキング処理を施さない。

その後、ステップＳ２６において、全ての姿勢情報について処理したか否かが判定される。全ての姿勢情報について処理していない場合、処理はステップＳ２４に戻り、ステップＳ２４，Ｓ２５の処理が繰り返される。

以上の処理によれば、追尾対象となる講師の顔領域のみにマスキング処理が施されず、それ以外の聴講者の顔領域にはマスキング処理が施される。これにより、主要被写体以外の被写体である聴講者のプライバシーをより確実かつ簡単に保護することが可能となる。

＜２−３．制御装置の第３の構成例と動作＞
（制御装置の構成例）
図１２は、制御装置２のさらに他の機能構成例を示すブロック図である。

図１２の制御装置２は、姿勢推定部３１、追尾部３２、画像処理部３３、および制御部３４を備えている。なお、姿勢推定部３１、追尾部３２、および画像処理部３３は、図９の姿勢推定部２１、追尾部２２、および画像処理部２３それぞれと同様の機能を有するので、その説明は省略する。

制御部３４は、姿勢推定部３１、追尾部３２、および画像処理部３３の各部との間のデータの授受、各部の制御、それらの結果の外部への出力を行う。

制御部３４は、姿勢情報蓄積部３４ａと非処理対象特定部３４ｂを有する。なお、非処理対象特定部３４ｂは、図９の非処理対象特定部２４ｂと同様の機能を有するので、その説明は省略する。

姿勢情報蓄積部３４ａは、姿勢推定部３１からの姿勢情報を逐次、蓄積する。蓄積された姿勢情報は、カメラ１からの動画像における被写体の姿勢情報の履歴として、必要に応じて非処理対象特定部３４ｂにより読み出される。

（制御装置の動作）
次に、図１３のフローチャートを参照して、図１２の制御装置２による聴講者の顔領域のマスキング処理の例について説明する。

講演などにおいて、講師は、主に教壇などの特定の位置に立って講義を行い、聴講者は、その講義を座って聞いていることが多い。したがって、特定の位置に存在する被写体を講師とみなし、それ以外の被写体を聴講者とみなすことができる。

但し、時折、講師が特定の位置を離れたり、聴講者が質疑応答などで特定の位置に立つことも考えられる。そこで、以下では、それぞれの被写体の姿勢情報の履歴に基づいて、特定の位置に存在する時間が長い被写体を講師とみなし、それ以外の被写体を聴講者とみなす例について説明する。

ステップＳ３１において、姿勢推定部３１は、制御部３４の制御に基づいて、カメラ１からの動画像内の全ての人物の姿勢を推定する。

ステップＳ３２において、追尾部３２は、制御部３４の制御に基づいて、姿勢が推定された全ての人物の追尾を開始する。ここで、追尾部３２は、動画像のフレーム間で類似した色や形状の領域同士をマッチングすることで追尾してもよいし、動画像のフレーム間で、姿勢推定部３１の姿勢推定の結果得られた姿勢情報を追尾してもよい。

ステップＳ３３において、姿勢情報蓄積部３４ａは、姿勢推定部３１からの姿勢推定の結果得られた姿勢情報を蓄積する。例えば、姿勢情報蓄積部３４ａは、姿勢情報で表される姿勢の被写体それぞれが特定領域に存在するか否かを、例えば１０フレームなどの所定数のフレーム単位でカウントする。

ここでの特定領域は、図７を参照して説明したプリセット位置（枠ＰＳ）で示される、教室の黒板と教壇（教卓）を中心とした範囲とする。

その後、所定時間が経過すると、ステップＳ３４において、非処理対象特定部３４ｂは、注目する１つの姿勢情報（注目姿勢情報）について、所定時間以上、特定領域内に位置しているか否かを判定する。例えば、非処理対象特定部３４ｂは、所定数のフレーム単位でカウントされたカウント値が所定値を超えているか否かによって、注目姿勢情報が所定時間以上、特定領域内に位置しているか否かのフラグを、その被写体に付与する。

ステップＳ３４において、注目姿勢情報が所定時間以上、特定領域内に位置していると判定されなかった場合、処理はステップＳ３５に進む。

ステップＳ３５において、画像処理部３３は、制御部３４の制御に基づいて、注目姿勢情報で表される姿勢の人物における顔領域にマスキング処理を施す。上述したように、姿勢情報には顔パーツ情報も含まれているため、画像処理部３３は、姿勢情報に基づいて顔領域を特定することができる。

一方、ステップＳ３４において、注目姿勢情報が所定時間以上、特定領域内に位置していると判定された場合、ステップＳ３５はスキップされる。具体的には、非処理対象特定部３４ｂは、所定時間以上、特定領域内に位置している旨のフラグが付与された被写体を非処理対象に特定し、画像処理部３３は、そのフラグが付与された被写体の顔領域にはマスキング処理を施さない。

その後、ステップＳ３６において、全ての姿勢情報について処理したか否かが判定される。全ての姿勢情報について処理していない場合、処理はステップＳ３４に戻り、ステップＳ３４，Ｓ３５の処理が繰り返される。

なお、上述したフラグは、所定のタイミングでリセットされるようにしてもよい。所定のタイミングは、講義の開始を示す講義開始情報が取得されたタイミングとされる。講義開始情報は、講義の予鈴が鳴ったことを検知した情報でもよいし、講義の開始時刻を表す時刻情報であってもよい。講義の開始時刻を表す時刻情報は、あらかじめ用意されているスケジュール情報に基づいて特定されてもよいし、誰もいない教室に所定人数以上の学生（聴講者）が入室したことが、動画像や、動画像に対応する音声情報から検知されることで特定されてもよい。

以上の処理によれば、所定時間以上、教壇を中心とした特定領域内に位置する被写体は講師としてみなされ、その講師の顔領域にはマスキング処理が施されず、それ以外の被写体は聴講者としてみなされ、その聴講者の顔領域にはマスキング処理が施される。これにより、主要被写体以外の被写体である聴講者のプライバシーをより確実かつ簡単に保護することが可能となる。

上述した処理では、特定領域内に存在する被写体を講師とみなして、その１人の被写体を非処理対象としたが、複数の被写体を非処理対象としてもよい。例えば、特定領域内に存在する時間が長い順に所定数の被写体を非処理対象としてもよいし、特定領域内に存在する時間が所定の閾値を超える被写体を非処理対象としてもよい。また、特定領域内に存在する時間は、絶対的な時間でもよいし、その被写体が特定領域外に存在する時間との比（割合）であってもよい。

特定領域は、上述したプリセット位置で示される範囲に限らず、ユーザによって指定された領域としてもよい。ユーザによって指定される領域は、プリセット位置と同様、矩形の枠で指定されてもよいし、任意の形状で指定されてもよい。さらに、特定領域がユーザによって指定される以外にも、一般物体認識やセマンティックセグメンテーションなどの技術を用いて、例えば教壇など、講師が高い頻度で存在する領域を推定することで、特定領域が設定されてもよい。また、講師が存在する場所の統計を取り、その結果に基づいて、特定領域が設定されてもよい。

（制御装置の動作）
次に、図１４のフローチャートを参照して、図１２の制御装置２による聴講者のマスキング処理の他の例について説明する。

講演などにおいて、講師は、主に教壇などに立って講義を行い、聴講者は、その講義を座って聞いていることが多い。したがって、立っている被写体を講師とみなし、座っている被写体を聴講者とみなすことができる。

但し、時折、講師が座ったり、聴講者が質疑応答などで立つことも考えられる。そこで、以下では、それぞれの被写体の姿勢情報の履歴に基づいて、立っている時間が長い被写体を講師とみなし、それ以外の被写体を聴講者とみなす例について説明する。

なお、図１４のフローチャートのステップＳ４１，Ｓ４２の処理は、図１３のフローチャートのステップＳ３１，Ｓ３２の処理と同様であるので、その説明は省略する。

すなわち、ステップＳ４３において、姿勢情報蓄積部３４ａは、姿勢推定部３１からの姿勢推定の結果得られた姿勢情報を蓄積する。例えば、姿勢情報蓄積部３４ａは、姿勢情報で表される姿勢の被写体それぞれが、所定時間以上、特定の姿勢を維持しているか否か、具体的には、所定時間以上立っているか、または、座っているかを、例えば１０フレームなどの所定数のフレーム単位でカウントする。

その後、所定時間が経過すると、ステップＳ４４において、非処理対象特定部３４ｂは、注目する１つの姿勢情報（注目姿勢情報）について、所定時間以上、立っているか否かを判定する。例えば、非処理対象特定部３４ｂは、所定数のフレーム単位でカウントされたカウント値が所定値を超えているか否かによって、注目姿勢情報が所定時間以上、立っているか否かのフラグを、その被写体に付与する。

ステップＳ４４において、注目姿勢情報が所定時間以上、立っていると判定されなかった場合、処理はステップＳ４５に進む。

ステップＳ４５において、画像処理部３３は、制御部３４の制御に基づいて、注目姿勢情報で表される姿勢の人物における顔領域にマスキング処理を施す。上述したように、姿勢情報には顔パーツ情報も含まれているため、画像処理部３３は、姿勢情報に基づいて顔領域を特定することができる。

一方、ステップＳ４４において、注目姿勢情報が所定時間以上、立っていると判定された場合、ステップＳ４５はスキップされる。具体的には、非処理対象特定部３４ｂは、所定時間以上、立っている旨のフラグが付与された被写体を非処理対象に特定し、画像処理部３３は、そのフラグが付与された被写体の顔領域にはマスキング処理を施さない。

その後、ステップＳ４６において、全ての姿勢情報について処理したか否かが判定される。全ての姿勢情報について処理していない場合、処理はステップＳ４４に戻り、ステップＳ４４，Ｓ４５の処理が繰り返される。

以上の処理によれば、所定時間以上、特定の姿勢を維持している（立っている）被写体は講師としてみなされ、その講師の顔領域にはマスキング処理が施されず、それ以外の被写体は聴講者としてみなされ、その聴講者の顔領域にはマスキング処理が施される。これにより、主要被写体以外の被写体である聴講者のプライバシーをより確実かつ簡単に保護することが可能となる。

上述した処理では、立っている時間が最も長い被写体を講師とみなして、その１人の被写体を非処理対象としたが、複数の被写体を非処理対象としてもよい。例えば、立っている時間が長い順に所定数の被写体を非処理対象としてもよいし、立っている時間が所定の閾値を超える被写体を非処理対象としてもよい。また、立っている時間は、絶対的な時間でもよいし、その被写体が立っている以外の姿勢を取っている時間との比（割合）であってもよい。

なお、図１３および図１４の例では、カメラ１からの動画像に対してリアルタイムにマスキング処理が施されるものとしたが、蓄積された全ての被写体の姿勢情報を用いることで、動画像を記録後、記録された動画像に対してマスキング処理を施すこともできる。

以上においては、主要被写体以外の被写体の顔領域に画像処理（マスキング処理）を施す構成について説明した。さらに、主要被写体以外の被写体の発話音声に対応する音声に対して、所定の音声処理を施すことで、主要被写体以外の被写体である聴講者のプライバシーを保護しつつ、主要被写体の発話音声を聞き取りやすくすることもできる。

＜３．第２の実施の形態に係る撮影システムの構成＞
図１５は、本開示の第２の実施の形態に係る撮影システムの構成例を示す図である。

図１５の撮影システムは、図１の撮影システムと同様の構成に加え、マイクロホン１０１−１，１０１−２，１０１−３（以下、単に、マイク１０１ともいう）を備えている。図１５の例では、３個のマイク１０１が設けられているが、３個以外の複数個のマイク１０１が設けられてもよい。

マイク１０１は、講師Ｌ１や聴講者Ａ１の発話音声などの音声を入力する音声入力部として構成され、講義を行う教室や講堂の中の複数箇所に設置される。マイク１０１に入力された音声は、制御装置２に出力される。

図１５の制御装置２は、情報処理端末５などからの指示入力に基づいて、マイク１０１から出力される音声と所定の音声処理を施す。音声処理が施された音声は、記録装置３に出力されたり、ネットワーク４経由で情報処理端末５に出力される。

＜３−１．制御装置の第１の構成例と動作＞
（制御装置の構成例）
図１６は、図１５の制御装置２の機能構成例を示すブロック図である。

図１６の制御装置２は、図４の制御装置２と同様の構成に加え、音声処理部１１１を備えている。

図１６の非処理対象特定部１４ｃは、複数のマイク１０１のうち、主要被写体との所定の位置関係にあるマイク１０１を、所定の音声処理を施さない非処理対象（非処理対象マイク）として特定する。

音声処理部１１１は、非処理対象のマイク１０１（非処理対象マイク）以外のマイク１０１から入力された音声の出力を抑制する。以下では、マイク１０１から入力された音声の出力を抑制することを、音声にマスキング処理を施す、などともいう。

（制御装置の動作）
次に、図１７のフローチャートを参照して、図１６の制御装置２による聴講者の音声のマスキング処理の例について説明する。

なお、図１７のフローチャートのステップＳ１１１乃至Ｓ１１３の処理は、図５のフローチャートのステップＳ１１乃至Ｓ１３の処理と同様であるので、その説明は省略する。また、図１７のフローチャートのステップＳ１１４以降の処理は、図５のフローチャートのステップＳ１４以降の処理と並列して実行される。

すなわち、追尾対象となる講師の追尾が開始されると、ステップＳ１１４において、算出部１４ｂは、全てのマイク１０１について、追尾枠ＴＲ（追尾対象となる講師）との距離を算出する。なお、実際にマイク１０１が設置されている位置と、カメラ１からの動画像上でのマイク１０１の位置とは、あらかじめ所定の方法で対応付けられているものとする。

ステップＳ１１５において、非処理対象特定部１４ｃは、注目する１つのマイク１０１（注目マイク）について、追尾枠ＴＲとの距離が最も近いか否かを判定する。

ステップＳ１１５において、注目マイクと追尾枠ＴＲとの距離が最も近いと判定されなかった場合、処理はステップＳ１１６に進む。

ステップＳ１１６において、音声処理部１１１は、制御部１４の制御に基づいて、注目マイクから入力された音声にマスキング処理を施す。

一方、ステップＳ１１５において、注目マイクと追尾枠ＴＲとの距離が最も近いと判定された場合、ステップＳ１１６はスキップされる。具体的には、追尾枠ＴＲとの距離が最も近いマイク１０１を非処理対象に特定し、音声処理部１１１は、非処理対象に特定されたマイク１０１から入力された音声にはマスキング処理を施さない。

その後、ステップＳ１１７において、全てのマイク１０１について処理したか否かが判定される。全てのマイク１０１について処理していない場合、処理はステップＳ１１５に戻り、ステップＳ１１５，Ｓ１１６の処理が繰り返される。

以上の処理によれば、追尾対象となる講師に最も近いマイク１０１から入力された音声のみにマスキング処理が施されず、それ以外のマイク１０１から入力された音声にはマスキング処理が施される。これにより、主要被写体以外の被写体である聴講者のプライバシーを保護しつつ、主要被写体である講師の発話音声を聞き取りやすくすることが可能となる。

次に、図１８のフローチャートを参照して、図１６の制御装置２による聴講者の音声のマスキング処理の他の例について説明する。

なお、図１８のフローチャートのステップＳ１２１乃至Ｓ１２４の処理は、図１７のフローチャートのステップＳ１１１乃至Ｓ１１４の処理と同様であるので、その説明は省略する。

すなわち、全てのマイク１０１について、追尾枠ＴＲとの距離が算出されると、ステップＳ１２５において、非処理対象特定部１４ｃは、注目する１つのマイク１０１（注目マイク）について、追尾枠ＴＲとの距離が一定距離より近いか否かを判定する。

ステップＳ１２５において、注目マイクと追尾枠ＴＲとの距離が一定距離より近いと判定されなかった場合、処理はステップＳ１２６に進む。

ステップＳ１２６において、音声処理部１１１は、制御部１４の制御に基づいて、注目マイクから入力された音声にマスキング処理を施す。

一方、ステップＳ１２５において、注目マイクと追尾枠ＴＲとの距離が一定距離より近いと判定された場合、ステップＳ１２６はスキップされる。具体的には、追尾枠ＴＲに一定距離より近いマイク１０１を非処理対象に特定し、音声処理部１１１は、非処理対象に特定されたマイク１０１から入力された音声にはマスキング処理を施さない。

その後、ステップＳ１２７において、全てのマイクについて処理したか否かが判定される。全てのマイクについて処理していない場合、処理はステップＳ１２５に戻り、ステップＳ１２５，Ｓ１２６の処理が繰り返される。

以上の処理によれば、追尾対象となる講師に一定距離より近いマイク１０１から入力された音声のみにマスキング処理が施されず、それ以外のマイク１０１から入力された音声にはマスキング処理が施される。これにより、主要被写体以外の被写体である聴講者のプライバシーを保護しつつ、主要被写体である講師の発話音声を聞き取りやすくすることが可能となる。

なお、上述した処理においては、追尾対象となる講師に一定距離より近いマイク１０１が存在しない場合には、全てのマイク１０１から入力された音声の出力が抑制される。

＜３−２．制御装置の第２の構成例と動作＞
（制御装置の構成例）
図１９は、図１５の制御装置２の他の機能構成例を示すブロック図である。

図１９の制御装置２は、図１６の制御装置２と同様の構成に加え、発話認識部１３１を備えている。

発話認識部１３１は、カメラ１からの動画像において、追尾部１２の追尾対象となった被写体の発話認識を行う。

例えば、発話認識部１３１は、図２０に示されるように、動画像中の被写体の顔において、顔および顔パーツの特徴点（輪郭点）を抽出する。図２０の例では、顔の輪郭点ｆ１乃至ｆ１５、左右の眉の特徴点ｂ１乃至ｂ５、左右の目の特徴点ｅ１乃至ｅ６、鼻の特徴点ｎ１乃至ｎ７、唇の特徴点ｍ１乃至ｍ１０が抽出されている。

そして、発話認識部１３１は、抽出した特徴点のうち、唇の特徴点ｍ１乃至ｍ１０の動きを解析することで、被写体の発話認識を行う。

（制御装置の動作）
次に、図２１のフローチャートを参照して、図１９の制御装置２による聴講者の音声のマスキング処理の例について説明する。

なお、図２１のフローチャートのステップＳ１３１乃至Ｓ１３４の処理は、図１７のフローチャートのステップＳ１１１乃至Ｓ１１４の処理と同様であるので、その説明は省略する。

すなわち、全てのマイク１０１について、追尾枠ＴＲとの距離が算出されると、ステップＳ１３５において、発話認識部１３１は、追尾対象の発話認識を行う。

ステップＳ１３６において、非処理対象特定部１４ｃは、注目する１つのマイク１０１（注目マイク）について、追尾枠ＴＲとの距離が最も近く、かつ、追尾対象が発話中であるか否かを判定する。

ステップＳ１３６において、追尾枠ＴＲとの距離が最も近く、かつ、追尾対象が発話中であると判定されなかった場合、すなわち、注目マイクと追尾枠ＴＲとの距離が最も近くないか、追尾対象が発話中でない場合、処理はステップＳ１３７に進む。

ステップＳ１３７において、音声処理部１１１は、制御部１４の制御に基づいて、注目マイクから入力された音声にマスキング処理を施す。

一方、ステップＳ１３６において、追尾枠ＴＲとの距離が最も近く、かつ、追尾対象が発話中であると判定された場合、ステップＳ１３７はスキップされる。具体的には、非処理対象特定部１４ｃは、追尾対象が発話していると認識されている期間、追尾枠ＴＲとの距離が最も近いマイク１０１を非処理対象に特定し、音声処理部１１１は、非処理対象に特定されたマイク１０１から入力された音声にはマスキング処理を施さない。

その後、ステップＳ１３８において、全てのマイク１０１について処理したか否かが判定される。全てのマイク１０１について処理していない場合、処理はステップＳ１３６に戻り、ステップＳ１３６，Ｓ１３７の処理が繰り返される。

以上の処理によれば、追尾対象となる講師が発話している間、その講師に最も近いマイク１０１から入力された音声のみにマスキング処理が施されず、それ以外のマイク１０１から入力された音声にはマスキング処理が施される。これにより、主要被写体以外の被写体である聴講者のプライバシーを保護しつつ、主要被写体である講師の発話音声を聞き取りやすくすることが可能となる。

なお、上述した処理においては、追尾枠ＴＲとの距離が最も近く、かつ、追尾対象が発話中であるか否かが判定されるものとしたが、追尾枠ＴＲとの距離が一定距離より近く、かつ、追尾対象が発話中であるか否かが判定されてもよい。

この場合、追尾対象となる講師が発話している間、その講師に一定距離より近いマイク１０１から入力された音声のみにマスキング処理が施されず、それ以外のマイク１０１から入力された音声にはマスキング処理が施される。

（あらかじめ記録された動画像に対する処理）
以上においては、複数のマイク１０１から入力される音声に対して選択的にリアルタイムにマスキング処理が施されるものとした。しかしながら、上述した処理では、複数のマイク１０１から入力される音声が入った状態で記録された動画像に対して、所望の音声にマスキング処理を施すことはできない

そこで、図２２のフローチャートを参照して、複数のマイク１０１から入力される音声が入った動画像に対する音声のマスキング処理の例について説明する。

なお、図２２のフローチャートのステップＳ１４１乃至Ｓ１４３の処理は、図２１のフローチャートのステップＳ１３１乃至Ｓ１３３の処理と同様であるので、その説明は省略する。但し、図２２のフローチャートのステップＳ１４１乃至Ｓ１４３において、顔の検出および追尾対象の追尾は、あらかじめ記録された動画像に対して行われる。

すなわち、あらかじめ記録された動画像において、追尾対象の追尾が開始されると、ステップＳ１４４において、発話認識部１３１は、追尾対象の発話認識を行う。

ステップＳ１４５において、非処理対象特定部１４ｃは、追尾対象が発話中であるか否かを判定する。

ステップＳ１４５において、追尾対象が発話中であると判定されなかった場合、処理はステップＳ１４６に進む。

ステップＳ１４６において、音声処理部１１１は、制御部１４の制御に基づいて、あらかじめ記録された動画像に入っている音声にマスキング処理を施す。

一方、ステップＳ１４５において、追尾対象が発話中であると判定された場合、ステップＳ１４６はスキップされる。具体的には、音声処理部１１１は、追尾対象が発話していると認識されている期間、あらかじめ記録された動画像に入っている音声にはマスキング処理を施さない。

その後、ステップＳ１４７において、動画像が全て終了したか否かが判定される。動画像が全て終了していない場合、処理はステップＳ１４５に戻り、ステップＳ１４５，Ｓ１４６の処理が繰り返される。

以上の処理によれば、追尾対象となる講師が発話している間のみ音声のマスキング処理が施されず、それ以外の期間は音声のマスキング処理が施される。これにより、あらかじめ記録された動画像においても、主要被写体以外の被写体である聴講者のプライバシーを保護しつつ、主要被写体である講師の発話音声を聞き取りやすくすることが可能となる。

＜３−３．変形例＞
本開示の第２の実施の形態に係る撮影システムは、図２３に示されるような構成を採ることもできる。

図２３の撮影システムにおいては、マイク１０１（１０１−１，１０１−２，１０１−３）が、ネットワーク４に直接接続されている。

図２３の制御装置２は、ネットワーク４を介して、マイク１０１から出力される音声に対して、所定の音声処理を施す。

また、図２４に示される撮影システムのように、複数のマイク１０１に代えて、指向性マイクロホン２０１を備えるようにしてもよい。

指向性マイクロホン２０１は、特定の方向からの音声を収音する機能を有する。

図２４の制御装置２は、追尾対象となる被写体の存在する方向からの音声を収音するよう、指向性マイクロホン２０１を制御する。これにより、主要被写体である講師の発話音声をより聞き取りやすくすることが可能となる。

また、上述した撮影システムにおいて、複数台のカメラ１が設けられるようにした場合、一方のカメラ１が主要被写体となる講師Ｌ１を撮影し、他方のカメラ１が主要被写体以外の被写体となる聴講者Ａ１を撮影するようにしてもよい。

この場合、複数台のカメラ１からの動画像それぞれにおいて、顔認識により同一の被写体には同一のＩＤを付与するなどして、非処理対象となる被写体が特定されるようにすることができる。

＜４．コンピュータの構成例＞
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図２５は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

上述した制御装置２は、図２５に示す構成を有するコンピュータにより実現される。

ＣＰＵ（Central Processing Unit）５０１、ＲＯＭ（Read Only Memory）５０２、ＲＡＭ（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インタフェース５０５が接続されている。入出力インタフェース５０５には、キーボード、マウスなどよりなる入力部５０６、ディスプレイ、スピーカなどよりなる出力部５０７が接続される。また、入出力インタフェース５０５には、ハードディスクや不揮発性のメモリなどよりなる記憶部５０８、ネットワークインタフェースなどよりなる通信部５０９、リムーバブルメディア５１１を駆動するドライブ５１０が接続される。

以上のように構成されるコンピュータでは、ＣＰＵ５０１が、例えば、記憶部５０８に記憶されているプログラムを入出力インタフェース５０５およびバス５０４を介してＲＡＭ５０３にロードして実行することにより、上述した一連の処理が行われる。

ＣＰＵ５０１が実行するプログラムは、例えばリムーバブルメディア５１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部５０８にインストールされる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたときなどの必要なタイミングで処理が行われるプログラムであっても良い。

本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

さらに、本開示は以下のような構成をとることができる。
（１）
動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、前記フレーム内の特定領域との位置関係に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体を特定する制御部と、
前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、前記所定の画像処理を施す画像処理部と
を備える情報処理装置。
（２）
前記複数の被写体のうち、所定の被写体を追尾対象被写体とした追尾を制御する追尾部をさらに備え、
前記制御部は、前記非処理対象被写体を前記追尾対象被写体として特定する
（１）に記載の情報処理装置。
（３）
前記制御部は、前記フレーム内において前記追尾対象被写体に対応する追尾領域を設定し、前記追尾領域と前記複数の被写体領域との関係に基づいて、前記処理対象被写体を特定する
（２）に記載の情報処理装置。
（４）
前記複数の被写体領域は、前記複数の被写体それぞれに対応する顔領域である
（３）に記載の情報処理装置。
（５）
前記位置関係は、前記被写体領域が前記特定領域内に位置するか否かを表し、
前記制御部は、前記位置関係に基づいて、前記特定領域内に位置する前記被写体領域に対応する前記被写体を、前記非処理対象被写体として特定する
（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
前記制御部は、所定時間以上、前記特定領域内に位置する前記被写体領域に対応する前記被写体を、前記非処理対象被写体として特定する
（５）に記載の情報処理装置。
（７）
前記制御部は、前記被写体の姿勢情報の履歴に基づいて、前記非処理対象被写体を特定する
（１）乃至（６）のいずれかに記載の情報処理装置。
（８）
前記制御部は、前記動画像を構成するフレーム単位の前記姿勢情報に基づいて、前記非処理対象被写体を特定する
（７）に記載の情報処理装置。
（９）
前記制御部は、複数の所定数のフレーム単位毎における前記姿勢情報に基づいて、前記非処理対象被写体を特定する
（８）に記載の情報処理装置。
（１０）
前記姿勢情報は、前記被写体が立っている状態であることを示す立位情報と、前記被写体が座っている状態であることを示す座位情報を少なくとも含む
（７）乃至（９）のいずれかに記載の情報処理装置。
（１１）
前記画像処理部は、前記処理対象被写体の顔領域に対して、前記所定の画像処理を施す
（１）乃至（１０）のいずれかに記載の情報処理装置。
（１２）
前記画像処理部は、前記所定の画像処理としてマスキング処理を施す
（１１）に記載の情報処理装置。
（１３）
前記制御部は、所定のタイミングにおいて、前記非処理対象被写体の特定を制御する
（１）乃至（１２）のいずれかに記載の情報処理装置。
（１４）
前記所定のタイミングは、講義の開始を示す講義開始情報に対応するタイミングである
（１３）に記載の情報処理装置。
（１５）
前記講義開始情報は、前記動画像、または、前記動画像に対応する音声情報に基づいて特定される
（１４）に記載の情報処理装置。
（１６）
前記処理対象被写体の発話音声に対応する音声に対して、所定の音声処理を施す音声処理部をさらに備える
（１）乃至（１５）のいずれかに記載の情報処理装置。
（１７）
前記制御部は、複数の音声入力部のうち、前記非処理対象被写体と所定の位置関係にある前記音声入力部を、前記所定の音声処理を施さない非処理対象音声入力部として特定し、
前記音声処理部は、前記所定の音声処理として、前記非処理対象音声入力部以外の前記音声入力部から入力された音声の出力を抑制する
（１６）に記載の情報処理装置。
（１８）
情報処理装置が、
動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、前記フレーム内の特定領域との位置関係に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体を特定し、
前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、前記所定の画像処理を施す
情報処理方法。
（１９）
コンピュータに、
動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、前記フレーム内の特定領域との位置関係に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体に特定し、
前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、前記所定の画像処理を施す
処理を実行させるためのプログラム。
（２０）
動画像を構成するフレーム内の複数の被写体それぞれに対応する姿勢情報の履歴に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体を特定する制御部と、
前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、前記所定の画像処理を施す画像処理部と
を備える情報処理装置。

１カメラ，２制御装置，３記録装置，４ネットワーク，５情報処理端末，１１顔検出部，１２追尾部，１３画像処理部，１４制御部，２１姿勢推定部，２２追尾部，２３画像処理部，２４制御部，３１姿勢推定部，１２追尾部，１３画像処理部，１４制御部，１１１音声処理部，１３１発話認識部

Claims

動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、前記フレーム内の特定領域との位置関係に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体を特定する制御部と、
前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、前記所定の画像処理を施す画像処理部と
を備える情報処理装置。
前記複数の被写体のうち、所定の被写体を追尾対象被写体とした追尾を制御する追尾部をさらに備え、
前記制御部は、前記追尾対象被写体を前記非処理対象被写体として特定する
請求項１に記載の情報処理装置。
前記制御部は、前記フレーム内において前記追尾対象被写体に対応する追尾領域を設定し、前記追尾領域と前記複数の被写体領域との関係に基づいて、前記処理対象被写体を特定する
請求項２に記載の情報処理装置。
前記複数の被写体領域は、前記複数の被写体それぞれに対応する顔領域である
請求項３に記載の情報処理装置。
前記位置関係は、前記被写体領域が前記特定領域内に位置するか否かを表し、
前記制御部は、前記位置関係に基づいて、前記特定領域内に位置する前記被写体領域に対応する前記被写体を、前記非処理対象被写体として特定する
請求項１に記載の情報処理装置。
前記制御部は、所定時間以上、前記特定領域内に位置する前記被写体領域に対応する前記被写体を、前記非処理対象被写体として特定する
請求項５に記載の情報処理装置。
前記制御部は、前記被写体の姿勢情報の履歴に基づいて、前記非処理対象被写体を特定する
請求項１に記載の情報処理装置。
前記制御部は、前記動画像を構成するフレーム単位の前記姿勢情報に基づいて、前記非処理対象被写体を特定する
請求項７に記載の情報処理装置。
前記制御部は、複数の所定数のフレーム単位毎における前記姿勢情報に基づいて、前記非処理対象被写体を特定する
請求項８に記載の情報処理装置。
前記姿勢情報は、前記被写体が立っている状態であることを示す立位情報と、前記被写体が座っている状態であることを示す座位情報を少なくとも含む
請求項７に記載の情報処理装置。
前記画像処理部は、前記処理対象被写体の顔領域に対して、前記所定の画像処理を施す
請求項１に記載の情報処理装置。
前記画像処理部は、前記所定の画像処理としてマスキング処理を施す
請求項１１に記載の情報処理装置。
前記制御部は、所定のタイミングにおいて、前記非処理対象被写体の特定を制御する
請求項１に記載の情報処理装置。
前記所定のタイミングは、講義の開始を示す講義開始情報に対応するタイミングである
請求項１３に記載の情報処理装置。
前記講義開始情報は、前記動画像、または、前記動画像に対応する音声情報に基づいて特定される
請求項１４に記載の情報処理装置。
前記処理対象被写体の発話音声に対応する音声に対して、所定の音声処理を施す音声処理部をさらに備える
請求項１に記載の情報処理装置。
前記制御部は、複数の音声入力部のうち、前記非処理対象被写体と所定の位置関係にある前記音声入力部を、前記所定の音声処理を施さない非処理対象音声入力部として特定し、
前記音声処理部は、前記所定の音声処理として、前記非処理対象音声入力部以外の前記音声入力部から入力された音声の出力を抑制する
請求項１６に記載の情報処理装置。
情報処理装置が、
動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、前記フレーム内の特定領域との位置関係に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体を特定し、
前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、前記所定の画像処理を施す
情報処理方法。
コンピュータに、
動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、前記フレーム内の特定領域との位置関係に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体に特定し、
前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、前記所定の画像処理を施す
処理を実行させるためのプログラム。
動画像を構成するフレーム内の複数の被写体それぞれに対応する姿勢情報の履歴に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体を特定する制御部と、
前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、前記所定の画像処理を施す画像処理部と
を備える情報処理装置。