JP7334536B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP7334536B2
JP7334536B2 JP2019152122A JP2019152122A JP7334536B2 JP 7334536 B2 JP7334536 B2 JP 7334536B2 JP 2019152122 A JP2019152122 A JP 2019152122A JP 2019152122 A JP2019152122 A JP 2019152122A JP 7334536 B2 JP7334536 B2 JP 7334536B2
Authority
JP
Japan
Prior art keywords
processing
subject
information
unit
subjects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019152122A
Other languages
English (en)
Other versions
JP2021033573A (ja
Inventor
和博 嶋内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Priority to JP2019152122A priority Critical patent/JP7334536B2/ja
Priority to CN202080057581.6A priority patent/CN114270802A/zh
Priority to EP20764796.7A priority patent/EP3994613A1/en
Priority to US17/635,286 priority patent/US20220327732A1/en
Priority to PCT/JP2020/030559 priority patent/WO2021033592A1/en
Publication of JP2021033573A publication Critical patent/JP2021033573A/ja
Application granted granted Critical
Publication of JP7334536B2 publication Critical patent/JP7334536B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本開示は、情報処理装置、情報処理方法、およびプログラムに関し、特に、主要被写体以外の被写体のプライバシーを保護することができるようにした情報処理装置、情報処理方法、およびプログラムに関する。
動画像に映る被写体のプライバシーを保護する技術がある。
例えば、特許文献1には、ユーザに主要被写体の数を指定させ、顔の大きい順に指定された数をスキップし、それ以降の顔にモザイク処理を行う撮像装置が開示されている。
また、特許文献2には、あらかじめ登録されている顔画像と、カメラで撮影されている動画像から検出された顔画像が一致しない場合に、動画像から検出された顔画像にモザイク処理を施すことが開示されている。
特開2009-284235号公報 特開2004-62560号公報
大学などの学校における講義の様子を収録し、遠隔地での講義の受講を実現するレクチャーキャプチャーシステムに、特許文献1の技術を適用した場合、主要被写体となる講師の顔が必ずしも他の被写体(聴講者)の顔より大きく映るとは限らない。そのため、講師の顔にモザイク処理が施されたり、プライバシーを保護したい聴講者の顔にモザイク処理が施されなかったりする。
また、特許文献2の技術をレクチャーキャプチャーシステムに適用した場合、講師の顔画像を全て登録する必要があるため、その作業にコストがかかってしまう。さらに、顔画像が登録されていないゲストスピーカが講義を行った場合、意図せず、そのゲストスピーカの顔にモザイク処理が施されてしまう。
本開示は、このような状況に鑑みてなされたものであり、主要被写体以外の被写体のプライバシーをより確実かつ簡単に保護することができるようにするものである。
本開示の第1の側面の情報処理装置は、動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、前記フレーム内の特定領域との位置関係、および、前記被写体の姿勢情報の履歴に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体を特定する制御部と、前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、前記所定の画像処理を施す画像処理部とを備える情報処理装置である。
本開示の第1の側面の情報処理方法、または、プログラムは、動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、前記フレーム内の特定領域との位置関係、および、前記被写体の姿勢情報の履歴に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体に特定し、前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、前記所定の画像処理を施す情報処理方法、または、コンピュータにそれらの処理を実行させるためのプログラムである。
本開示の第2の側面の情報処理装置は、動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、前記フレーム内の特定領域との位置関係に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体を特定する制御部と、前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、前記所定の画像処理を施す画像処理部とを備え、前記制御部が、講義の開始を示す講義開始情報に対応するタイミングにおいて、前記非処理対象被写体の特定を制御する情報処理装置である。
本開示においては、動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、前記フレーム内の特定領域との位置関係、および、前記被写体の姿勢情報の履歴複数の被写体それぞれに対応する姿勢情報の履歴に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体が特定され、前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象に対して、前記所定の画像処理が施される。また、講義の開始を示す講義開始情報に対応するタイミングにおいて、前記非処理対象被写体の特定が制御される。
従来のシステムにおける課題について説明する図である。 従来のシステムにおける課題について説明する図である。 本開示の実施の形態に係る撮影システムの構成例を示すブロック図である。 制御装置の機能構成例を示すブロック図である。 顔領域のマスキング処理について説明するフローチャートである。 追尾枠の例を示す図である。 プリセット位置の例を示す図である。 顔領域のマスキング結果の例を示す図である。 制御装置の機能構成例を示すブロック図である。 姿勢情報の例を示す図である。 顔領域のマスキング処理について説明するフローチャートである。 制御装置の機能構成例を示すブロック図である。 顔領域のマスキング処理について説明するフローチャートである。 顔領域のマスキング処理について説明するフローチャートである。 撮影システムの他の構成例を示すブロック図である。 制御装置の機能構成例を示すブロック図である。 音声のマスキング処理について説明するフローチャートである。 音声のマスキング処理について説明するフローチャートである。 制御装置の機能構成例を示すブロック図である。 発話認識について説明する図である。 音声のマスキング処理について説明するフローチャートである。 音声のマスキング処理について説明するフローチャートである。 撮影システムのさらに他の構成例を示すブロック図である。 撮影システムのさらに他の構成例を示すブロック図である。 コンピュータのハードウェアの構成例を示すブロック図
以下、本開示を実施するための形態(以下、実施の形態とする)について説明する。なお、説明は以下の順序で行う。
1.従来のシステムにおける課題
2.第1の実施の形態に係る撮影システムの構成
2-1.制御装置の第1の構成例と動作
2-2.制御装置の第2の構成例と動作
2-3.制御装置の第3の構成例と動作
3.第2の実施の形態に係る撮影システムの構成
3-1.制御装置の第1の構成例と動作
3-2.制御装置の第2の構成例と動作
3-3.変形例
4.コンピュータの構成例
<1.従来のシステムにおける課題>
近年、大学などの学校における講義の様子を収録し、遠隔地での講義の聴講を実現するレクチャーキャプチャーシステムが提供されている。レクチャーキャプチャーシステムにおいては、講師と聴講者を撮影し、講師の追尾や聴講者の動作の検出を行うことで、講師と聴講者の動画像をスイッチングしたり、両者の動画像を一つの動画像に合成して出力することが行われる。
一方で、レクチャーキャプチャーシステムにおいては、主要被写体となる講師の撮影中に、聴講者などの他の被写体のプライバシーを保護する必要がある。
主要被写体以外の被写体のプライバシーを保護する技術として、例えば特許文献1には、ユーザに主要被写体の数を指定させ、顔の大きい順に指定された数をスキップし、それ以降の顔にモザイク処理を行う撮像装置が開示されている。特許文献1の技術は、主要被写体の顔が、主要被写体以外の被写体の顔より大きく映っていることが前提とされる。
図1は、特許文献1の技術をレクチャーキャプチャーシステムに適用した場合の動画像の例を示している。図1の例では、検出されている講師(教師)の顔が顔枠F1で表され、壇上の2人の聴講者(学生)それぞれの顔が顔枠F2,F3で表され、座っている多くの聴講者のうちの1人の顔が顔枠F4で表されている。
レクチャーキャプチャーシステムにおいては、主要被写体となる講師の顔が必ずしも聴講者の顔より大きく映るとは限らず、講師の顔にモザイク処理が施されたり、プライバシーを保護したい聴講者の顔にモザイク処理が施されなかったりする。
図1の例では、顔枠F1で表されている講師の顔より、顔枠F4で表されている聴講者の顔が大きく映っているため、図2に示されるように、講師の顔にモザイク処理が施される一方、プライバシーを保護したい聴講者の顔にモザイク処理が施されなくなる。
また、特許文献2には、あらかじめ登録されている顔画像と、カメラで撮影されている動画像から検出された顔画像が一致しない場合に、動画像から検出された顔画像にモザイク処理を施すことが開示されている。
しかしながら、特許文献2の技術をレクチャーキャプチャーシステムに適用した場合、講師の顔画像を全て登録する必要があるため、その作業にコストがかかってしまう。さらに、顔画像が登録されていないゲストスピーカが講義を行った場合、意図せず、そのゲストスピーカの顔にモザイク処理が施されてしまう。
その他にも、動画像において選択された被写体の顔をAIが学習し、学習された顔が他のシーンで認識された場合、その顔にぼかし処理を施す技術がある。
この技術をレクチャーキャプチャーシステムに適用した場合、動画像においてぼかし処理の対象としたい学生(聴講者)の顔を全て選択する必要があるため、その作業にコストがかかってしまう。また、講義を行う教室などに学生が入室する度に、その学生の顔を選択しなければならず、常に監視する人手が必要となる。
そこで、以下においては、主要被写体以外の被写体のプライバシーをより確実かつ簡単に保護することを実現するためのシステムの構成と動作について説明する。
<2.第1の実施の形態に係る撮影システムの構成>
図3は、本開示の第1の実施の形態に係る撮影システムの構成例を示す図である。
図3の撮影システムは、レクチャーキャプチャーシステムとして構成され、講師L1が複数の聴講者A1に対して講義を行う教室や講堂などに設置される。
図1の撮影システムは、少なくとも1台以上のカメラ1と、カメラ1に接続される制御装置2から構成される。制御装置2には、記録装置3が付随し、さらにネットワーク4を介して、情報処理端末5が接続される。
カメラ1は、例えば、機械的にパン・チルトする機能を備えつつ、光学的・電子的にズーム可能なPTZカメラとして構成される。カメラ1は、主要被写体となる講師L1を、その画角内に捉えるように撮影し、得られた動画像を制御装置2に出力したり、ネットワーク4経由で情報処理端末5に出力する。
制御装置2は、本開示に係る画像処理装置として構成され、情報処理端末5などからの指示入力に基づいて、カメラ1から出力される動画像に所定の画像処理を施す。画像処理が施された動画像は、記録装置3に出力されたり、ネットワーク4経由で情報処理端末5に出力される。
制御装置2は、その機能を有する専用のハードウェアにより構成されてもよいし、一般的なコンピュータにより構成され、それぞれの機能がソフトウェアにより実現されてもよい。また、制御装置2は、独立した装置として構成されるのではなく、カメラ1、図示せぬスイッチャやサーバなどの他の装置に内蔵されてもよい。
情報処理端末5は、講師L1による講義が行われる空間内にいる聴講者A1、または、遠隔地にいる視聴者が、制御装置2によって出力された画像を視聴するための端末である。
情報処理端末5は、その機能を有する専用のハードウェアにより構成されてもよいし、一般的なコンピュータやモバイル端末により構成され、その機能がソフトウェアにより実現されてもよい。
<2-1.制御装置の第1の構成例と動作>
(制御装置の構成例)
図4は、制御装置2の機能構成例を示すブロック図である。
図4の制御装置2は、顔検出部11、追尾部12、画像処理部13、および制御部14を備えている。
顔検出部11は、カメラ1から出力される動画像において顔を検出し、検出された顔の位置(座標)や大きさなどを制御部14に供給する。
追尾部12は、カメラ1からの動画像において、複数の被写体のうち、所定の被写体を追尾対象被写体とした追尾を制御し、その被写体の位置(座標)や大きさなどを制御部14に供給する。例えば、追尾部12は、動画像のフレーム間で類似した色や形状の領域同士をマッチングすることで、特定の被写体を追尾する。
画像処理部13は、カメラ1からの動画像において、所定の被写体を処理対象として所定の画像処理を施す。具体的には、画像処理部13は、カメラ1からの動画像において、複数の被写体のうち、後述する非処理対象被写体以外の被写体(例えば聴講者A1)である処理対象被写体に対応する処理対象領域として、その顔領域をマスクするマスキング処理を施す。なお、ここでは、画像処理として、マスキング処理に代えてモザイク処理が施されてもよい。画像処理が施された動画像は、直接または制御部14を介して、記録装置3に出力されたり、ネットワーク4経由で情報処理端末5に出力される。
制御部14は、顔検出部11、追尾部12、および画像処理部13の各部との間のデータの授受、各部の制御、それらの結果の外部への出力などを行う。
制御部14は、追尾対象特定部14a、算出部14b、および非処理対象特定部14cを有する。
追尾対象特定部14aは、カメラ1からの動画像において、追尾部12による追尾対象となる被写体を特定する。
算出部14bは、カメラ1からの動画像において、顔検出部11により検出された顔と、追尾部12の追尾対象との重なりの度合いを表すオーバーラップ率を算出する。
非処理対象特定部14cは、カメラ1からの動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、フレーム内の特定領域との位置関係に基づいて、複数の被写体から、所定の画像処理を施さない(画像処理部13の処理対象としない)非処理対象として非処理対象被写体を特定する。ここでいう位置関係は、被写体領域が特定領域内に位置するか否かを表す。「被写体領域が特定領域内に位置する」とは、例えば、被写体領域全体が、特定領域内に含まれることはもちろん、被写体領域のうちの所定の割合の領域が、特定領域内に含まれることも含む。非処理対象特定部14cは、その位置関係に基づいて、特定領域内に位置する被写体領域に対応する被写体を、非処理対象被写体として特定する。
(制御装置の動作)
次に、図5のフローチャートを参照して、図4の制御装置2による聴講者の顔領域のマスキング処理の例について説明する。
ステップS11において、顔検出部11は、制御部14の制御に基づいて、カメラ1からの動画像内の全ての顔を検出する。
顔検出の結果、図6に示されるように、カメラ1からの動画像に対して、講師の顔の位置と大きさを表す顔枠F11、壇上の2人の聴講者(学生)それぞれの顔の位置と大きさを表す顔枠F12,F13、座っている多くの聴講者のうちの1人の顔の位置と大きさを表す顔枠F14が得られる。
ステップS12において、追尾対象特定部14aは、カメラ1からの動画像において、追尾部12の追尾対象を特定する。
ステップS13において、追尾部12は、制御部14の制御に基づいて、追尾対象特定部14aにより特定された追尾対象の追尾を開始する。
制御部14が、顔検出部11、追尾部12、および画像処理部13の各部を制御する際、例えば、カメラ1の画角のプリセット位置として、図7の枠PSで示されるようなプリセット位置が設定される。図7においては、教室の黒板と教壇(教卓)を中心とした範囲が、プリセット位置(枠PS)に設定されている。
追尾対象特定部14aは、例えば、講師L1が教壇に立ったとき、すなわち、カメラ1からの動画像において設定された枠PS内で、顔検出部11により顔が検出されたとき、その検出をトリガとして、追尾部12に制御を移行する。これにより、追尾対象の追尾が開始される。このとき、制御部14は、枠PS内および枠PS外の情報に基づいた統計処理を行うようにしてもよい。
追尾対象特定の結果、図6に示されるように、カメラ1からの動画像に対して、追尾対象となる講師の位置と大きさに対応する追尾領域を表す追尾枠TRが設定される。
なお、追尾対象の特定は、ユーザが情報処理端末5のユーザインタフェース(UI)に対して追尾対象を指定する操作を行い、その操作内容を表す情報がネットワーク4を介して制御部14に供給されることで行われてもよい。
ステップS14において、算出部14bは、顔検出部11による顔の検出結果である全ての顔枠について、追尾枠TRとのオーバーラップ率を算出する。
ステップS15において、非処理対象特定部14cは、注目する1つの顔枠(注目顔枠)について、追尾枠TRとのオーバーラップ率が最も高いか否かを判定する。
ステップS15において、注目顔枠と追尾枠TRとのオーバーラップ率が最も高いと判定されなかった場合、すなわち、注目顔枠が追尾枠TRと重なっていない場合、処理はステップS16に進む。
ステップS16において、画像処理部13は、制御部14の制御に基づいて、注目顔枠で表される顔領域にマスキング処理を施す。
一方、ステップS15において、注目顔枠と追尾枠TRとのオーバーラップ率が最も高いと判定された場合、すなわち、注目顔枠が追尾枠TRと重なっている場合、ステップS16はスキップされる。具体的には、非処理対象特定部14cは、その注目顔枠で表される顔領域の被写体を非処理対象に特定し、画像処理部13は、非処理対象に特定された被写体の顔領域にはマスキング処理を施さない。
その後、ステップS17において、全ての顔枠について処理したか否かが判定される。全ての顔枠について処理していない場合、処理はステップS15に戻り、ステップS15,S16の処理が繰り返される。
以上の処理によれば、図8に示されるように、追尾対象となる講師の顔領域(追尾枠TRとのオーバーラップ率が最も高い顔枠F11)のみにマスキング処理が施されず、それ以外の聴講者の顔領域(顔枠F12,F13,F14)にはマスキング処理が施される。これにより、主要被写体以外の被写体である聴講者のプライバシーをより確実かつ簡単に保護することが可能となる。
なお、図8に示される動画像には、顔枠F11乃至F14と追尾枠TRが示されているが、実際に制御装置2から出力される動画像には、顔枠F11乃至F14や追尾枠TRは描画されず、聴講者の顔領域にマスキング処理が施されるのみである。
上述した処理において、追尾枠TRに複数の顔枠が重なる可能性を考慮して、例えば追尾枠TR内で、より上方にある顔枠が、優先的に非処理対象(講師)の顔枠に特定されてもよい。また、オーバーラップ率と追尾枠TR内での顔枠の位置の両方に基づいて、優先的に非処理対象の顔枠が特定されてもよい。さらに、追尾枠TRや顔枠の大きさ、向き、動きベクトルに基づいて、優先的に非処理対象の顔枠が特定されてもよい。
また、上述した処理では、追尾対象を1人の講師として、オーバーラップ率が最も高い1人の被写体を非処理対象としたが、複数の被写体を非処理対象としてもよい。例えば、オーバーラップ率が高い順に所定数の被写体を非処理対象としてもよいし、オーバーラップ率が所定の閾値を超える被写体を非処理対象としてもよい。
<2-2.制御装置の第2の構成例と動作>
(制御装置の構成例)
図9は、制御装置2の他の機能構成例を示すブロック図である。
図9の制御装置2は、姿勢推定部21、追尾部22、画像処理部23、および制御部24を備えている。なお、追尾部22と画像処理部23は、図4の追尾部12と画像処理部13それぞれと同様の機能を有するので、その説明は省略する。
姿勢推定部21は、ディープラーニングなどの技術を用いて、カメラ1からの動画像内の被写体の姿勢を推定し、推定された姿勢を表す姿勢情報を制御部24に供給する。姿勢情報には、例えば、被写体が立っている状態であることを示す立位情報や、被写体が座っている状態であることを示す座位情報が少なくとも含まれる。姿勢情報は、動画像に映る人物の関節を表す関節情報と、関節情報同士を繋ぐ骨格情報とからなる情報としてもよいし、いずれか一方のみからなる情報としてもよい。
図10は、姿勢情報の例を示す図である。
図10においては、14の関節情報J11,J12,J21乃至J26,J31乃至J36が点で示され、関節情報同士を繋ぐ骨格情報が2つの点を結ぶ線分で示されている。
図10の例では、関節情報J11,J12は、それぞれ人体の頭と首を表している。関節情報J21乃至J23は、それぞれ人体の右肩、右肘、右手首を表し、関節情報J24乃至J26は、それぞれ人体の右股関節、右膝、右足首を表している。関節情報J31乃至J33は、それぞれ人体の左肩、左肘、左手首を表し、関節情報J34乃至J36は、それぞれ人体の左股関節、左膝、左足首を表している。
また、図10の姿勢情報には、顔パーツ情報J41乃至J44も含まれる。顔パーツ情報J41,J42は、右目と左目を表し、顔パーツ情報J43は、鼻を表し、顔パーツ情報J44は、耳(右耳)を表している。
図9の説明に戻り、制御部24は、姿勢推定部21、追尾部22、および画像処理部23の各部との間のデータの授受、各部の制御、それらの結果の外部への出力を行う。
制御部24は、追尾対象特定部24aと非処理対象特定部24bを有する。なお、追尾対象特定部24aと非処理対象特定部24bは、図4の追尾対象特定部14aと非処理対象特定部14cそれぞれと同様の機能を有するので、その説明は省略する。
(制御装置の動作)
次に、図11のフローチャートを参照して、図9の制御装置2による聴講者の顔領域のマスキング処理の例について説明する。
ステップS21において、姿勢推定部21は、制御部24の制御に基づいて、カメラ1からの動画像内の全ての人物の姿勢を推定する。
ステップS22において、追尾対象特定部24aは、カメラ1からの動画像において、追尾部22の追尾対象を特定する。例えば、追尾対象特定部24aは、図7を参照して説明したプリセット位置(枠PS)内で姿勢が推定された人物を、追尾部22の追尾対象に特定する。
ステップS23において、追尾部22は、制御部24の制御に基づいて、追尾対象特定部24aにより特定された追尾対象の追尾を開始する。ここで、追尾部22は、動画像のフレーム間で類似した色や形状の領域同士をマッチングするだけに限らず、動画像のフレーム間で、姿勢推定部21の姿勢推定の結果得られた姿勢情報を追尾してもよい。
ステップS24において、非処理対象特定部24bは、注目する1つの姿勢情報(注目姿勢情報)について、追尾対象の姿勢情報であるか否かを判定する。
ステップS24において、注目姿勢情報が追尾対象の姿勢情報であると判定されなかった場合、処理はステップS25に進む。
ステップS25において、画像処理部23は、制御部24の制御に基づいて、注目姿勢情報で表される姿勢の被写体の顔領域にマスキング処理を施す。上述したように、姿勢情報には顔パーツ情報も含まれているため、画像処理部23は、姿勢情報に基づいて顔領域を特定することができる。
一方、ステップS24において、注目姿勢情報が追尾対象の姿勢情報であると判定された場合、ステップS25はスキップされる。具体的には、非処理対象特定部24bは、その注目姿勢情報で表される姿勢の被写体を非処理対象に特定し、画像処理部23は、非処理対象に特定された被写体の顔領域にはマスキング処理を施さない。
その後、ステップS26において、全ての姿勢情報について処理したか否かが判定される。全ての姿勢情報について処理していない場合、処理はステップS24に戻り、ステップS24,S25の処理が繰り返される。
以上の処理によれば、追尾対象となる講師の顔領域のみにマスキング処理が施されず、それ以外の聴講者の顔領域にはマスキング処理が施される。これにより、主要被写体以外の被写体である聴講者のプライバシーをより確実かつ簡単に保護することが可能となる。
<2-3.制御装置の第3の構成例と動作>
(制御装置の構成例)
図12は、制御装置2のさらに他の機能構成例を示すブロック図である。
図12の制御装置2は、姿勢推定部31、追尾部32、画像処理部33、および制御部34を備えている。なお、姿勢推定部31、追尾部32、および画像処理部33は、図9の姿勢推定部21、追尾部22、および画像処理部23それぞれと同様の機能を有するので、その説明は省略する。
制御部34は、姿勢推定部31、追尾部32、および画像処理部33の各部との間のデータの授受、各部の制御、それらの結果の外部への出力を行う。
制御部34は、姿勢情報蓄積部34aと非処理対象特定部34bを有する。なお、非処理対象特定部34bは、図9の非処理対象特定部24bと同様の機能を有するので、その説明は省略する。
姿勢情報蓄積部34aは、姿勢推定部31からの姿勢情報を逐次、蓄積する。蓄積された姿勢情報は、カメラ1からの動画像における被写体の姿勢情報の履歴として、必要に応じて非処理対象特定部34bにより読み出される。
(制御装置の動作)
次に、図13のフローチャートを参照して、図12の制御装置2による聴講者の顔領域のマスキング処理の例について説明する。
講演などにおいて、講師は、主に教壇などの特定の位置に立って講義を行い、聴講者は、その講義を座って聞いていることが多い。したがって、特定の位置に存在する被写体を講師とみなし、それ以外の被写体を聴講者とみなすことができる。
但し、時折、講師が特定の位置を離れたり、聴講者が質疑応答などで特定の位置に立つことも考えられる。そこで、以下では、それぞれの被写体の姿勢情報の履歴に基づいて、特定の位置に存在する時間が長い被写体を講師とみなし、それ以外の被写体を聴講者とみなす例について説明する。
ステップS31において、姿勢推定部31は、制御部34の制御に基づいて、カメラ1からの動画像内の全ての人物の姿勢を推定する。
ステップS32において、追尾部32は、制御部34の制御に基づいて、姿勢が推定された全ての人物の追尾を開始する。ここで、追尾部32は、動画像のフレーム間で類似した色や形状の領域同士をマッチングすることで追尾してもよいし、動画像のフレーム間で、姿勢推定部31の姿勢推定の結果得られた姿勢情報を追尾してもよい。
ステップS33において、姿勢情報蓄積部34aは、姿勢推定部31からの姿勢推定の結果得られた姿勢情報を蓄積する。例えば、姿勢情報蓄積部34aは、姿勢情報で表される姿勢の被写体それぞれが特定領域に存在するか否かを、例えば10フレームなどの所定数のフレーム単位でカウントする。
ここでの特定領域は、図7を参照して説明したプリセット位置(枠PS)で示される、教室の黒板と教壇(教卓)を中心とした範囲とする。
その後、所定時間が経過すると、ステップS34において、非処理対象特定部34bは、注目する1つの姿勢情報(注目姿勢情報)について、所定時間以上、特定領域内に位置しているか否かを判定する。例えば、非処理対象特定部34bは、所定数のフレーム単位でカウントされたカウント値が所定値を超えているか否かによって、注目姿勢情報が所定時間以上、特定領域内に位置しているか否かのフラグを、その被写体に付与する。
ステップS34において、注目姿勢情報が所定時間以上、特定領域内に位置していると判定されなかった場合、処理はステップS35に進む。
ステップS35において、画像処理部33は、制御部34の制御に基づいて、注目姿勢情報で表される姿勢の人物における顔領域にマスキング処理を施す。上述したように、姿勢情報には顔パーツ情報も含まれているため、画像処理部33は、姿勢情報に基づいて顔領域を特定することができる。
一方、ステップS34において、注目姿勢情報が所定時間以上、特定領域内に位置していると判定された場合、ステップS35はスキップされる。具体的には、非処理対象特定部34bは、所定時間以上、特定領域内に位置している旨のフラグが付与された被写体を非処理対象に特定し、画像処理部33は、そのフラグが付与された被写体の顔領域にはマスキング処理を施さない。
その後、ステップS36において、全ての姿勢情報について処理したか否かが判定される。全ての姿勢情報について処理していない場合、処理はステップS34に戻り、ステップS34,S35の処理が繰り返される。
なお、上述したフラグは、所定のタイミングでリセットされるようにしてもよい。所定のタイミングは、講義の開始を示す講義開始情報が取得されたタイミングとされる。講義開始情報は、講義の予鈴が鳴ったことを検知した情報でもよいし、講義の開始時刻を表す時刻情報であってもよい。講義の開始時刻を表す時刻情報は、あらかじめ用意されているスケジュール情報に基づいて特定されてもよいし、誰もいない教室に所定人数以上の学生(聴講者)が入室したことが、動画像や、動画像に対応する音声情報から検知されることで特定されてもよい。
以上の処理によれば、所定時間以上、教壇を中心とした特定領域内に位置する被写体は講師としてみなされ、その講師の顔領域にはマスキング処理が施されず、それ以外の被写体は聴講者としてみなされ、その聴講者の顔領域にはマスキング処理が施される。これにより、主要被写体以外の被写体である聴講者のプライバシーをより確実かつ簡単に保護することが可能となる。
上述した処理では、特定領域内に存在する被写体を講師とみなして、その1人の被写体を非処理対象としたが、複数の被写体を非処理対象としてもよい。例えば、特定領域内に存在する時間が長い順に所定数の被写体を非処理対象としてもよいし、特定領域内に存在する時間が所定の閾値を超える被写体を非処理対象としてもよい。また、特定領域内に存在する時間は、絶対的な時間でもよいし、その被写体が特定領域外に存在する時間との比(割合)であってもよい。
特定領域は、上述したプリセット位置で示される範囲に限らず、ユーザによって指定された領域としてもよい。ユーザによって指定される領域は、プリセット位置と同様、矩形の枠で指定されてもよいし、任意の形状で指定されてもよい。さらに、特定領域がユーザによって指定される以外にも、一般物体認識やセマンティックセグメンテーションなどの技術を用いて、例えば教壇など、講師が高い頻度で存在する領域を推定することで、特定領域が設定されてもよい。また、講師が存在する場所の統計を取り、その結果に基づいて、特定領域が設定されてもよい。
(制御装置の動作)
次に、図14のフローチャートを参照して、図12の制御装置2による聴講者のマスキング処理の他の例について説明する。
講演などにおいて、講師は、主に教壇などに立って講義を行い、聴講者は、その講義を座って聞いていることが多い。したがって、立っている被写体を講師とみなし、座っている被写体を聴講者とみなすことができる。
但し、時折、講師が座ったり、聴講者が質疑応答などで立つことも考えられる。そこで、以下では、それぞれの被写体の姿勢情報の履歴に基づいて、立っている時間が長い被写体を講師とみなし、それ以外の被写体を聴講者とみなす例について説明する。
なお、図14のフローチャートのステップS41,S42の処理は、図13のフローチャートのステップS31,S32の処理と同様であるので、その説明は省略する。
すなわち、ステップS43において、姿勢情報蓄積部34aは、姿勢推定部31からの姿勢推定の結果得られた姿勢情報を蓄積する。例えば、姿勢情報蓄積部34aは、姿勢情報で表される姿勢の被写体それぞれが、所定時間以上、特定の姿勢を維持しているか否か、具体的には、所定時間以上立っているか、または、座っているかを、例えば10フレームなどの所定数のフレーム単位でカウントする。
その後、所定時間が経過すると、ステップS44において、非処理対象特定部34bは、注目する1つの姿勢情報(注目姿勢情報)について、所定時間以上、立っているか否かを判定する。例えば、非処理対象特定部34bは、所定数のフレーム単位でカウントされたカウント値が所定値を超えているか否かによって、注目姿勢情報が所定時間以上、立っているか否かのフラグを、その被写体に付与する。
ステップS44において、注目姿勢情報が所定時間以上、立っていると判定されなかった場合、処理はステップS45に進む。
ステップS45において、画像処理部33は、制御部34の制御に基づいて、注目姿勢情報で表される姿勢の人物における顔領域にマスキング処理を施す。上述したように、姿勢情報には顔パーツ情報も含まれているため、画像処理部33は、姿勢情報に基づいて顔領域を特定することができる。
一方、ステップS44において、注目姿勢情報が所定時間以上、立っていると判定された場合、ステップS45はスキップされる。具体的には、非処理対象特定部34bは、所定時間以上、立っている旨のフラグが付与された被写体を非処理対象に特定し、画像処理部33は、そのフラグが付与された被写体の顔領域にはマスキング処理を施さない。
その後、ステップS46において、全ての姿勢情報について処理したか否かが判定される。全ての姿勢情報について処理していない場合、処理はステップS44に戻り、ステップS44,S45の処理が繰り返される。
以上の処理によれば、所定時間以上、特定の姿勢を維持している(立っている)被写体は講師としてみなされ、その講師の顔領域にはマスキング処理が施されず、それ以外の被写体は聴講者としてみなされ、その聴講者の顔領域にはマスキング処理が施される。これにより、主要被写体以外の被写体である聴講者のプライバシーをより確実かつ簡単に保護することが可能となる。
上述した処理では、立っている時間が最も長い被写体を講師とみなして、その1人の被写体を非処理対象としたが、複数の被写体を非処理対象としてもよい。例えば、立っている時間が長い順に所定数の被写体を非処理対象としてもよいし、立っている時間が所定の閾値を超える被写体を非処理対象としてもよい。また、立っている時間は、絶対的な時間でもよいし、その被写体が立っている以外の姿勢を取っている時間との比(割合)であってもよい。
なお、図13および図14の例では、カメラ1からの動画像に対してリアルタイムにマスキング処理が施されるものとしたが、蓄積された全ての被写体の姿勢情報を用いることで、動画像を記録後、記録された動画像に対してマスキング処理を施すこともできる。
以上においては、主要被写体以外の被写体の顔領域に画像処理(マスキング処理)を施す構成について説明した。さらに、主要被写体以外の被写体の発話音声に対応する音声に対して、所定の音声処理を施すことで、主要被写体以外の被写体である聴講者のプライバシーを保護しつつ、主要被写体の発話音声を聞き取りやすくすることもできる。
<3.第2の実施の形態に係る撮影システムの構成>
図15は、本開示の第2の実施の形態に係る撮影システムの構成例を示す図である。
図15の撮影システムは、図1の撮影システムと同様の構成に加え、マイクロホン101-1,101-2,101-3(以下、単に、マイク101ともいう)を備えている。図15の例では、3個のマイク101が設けられているが、3個以外の複数個のマイク101が設けられてもよい。
マイク101は、講師L1や聴講者A1の発話音声などの音声を入力する音声入力部として構成され、講義を行う教室や講堂の中の複数箇所に設置される。マイク101に入力された音声は、制御装置2に出力される。
図15の制御装置2は、情報処理端末5などからの指示入力に基づいて、マイク101から出力される音声と所定の音声処理を施す。音声処理が施された音声は、記録装置3に出力されたり、ネットワーク4経由で情報処理端末5に出力される。
<3-1.制御装置の第1の構成例と動作>
(制御装置の構成例)
図16は、図15の制御装置2の機能構成例を示すブロック図である。
図16の制御装置2は、図4の制御装置2と同様の構成に加え、音声処理部111を備えている。
図16の非処理対象特定部14cは、複数のマイク101のうち、主要被写体との所定の位置関係にあるマイク101を、所定の音声処理を施さない非処理対象(非処理対象マイク)として特定する。
音声処理部111は、非処理対象のマイク101(非処理対象マイク)以外のマイク101から入力された音声の出力を抑制する。以下では、マイク101から入力された音声の出力を抑制することを、音声にマスキング処理を施す、などともいう。
(制御装置の動作)
次に、図17のフローチャートを参照して、図16の制御装置2による聴講者の音声のマスキング処理の例について説明する。
なお、図17のフローチャートのステップS111乃至S113の処理は、図5のフローチャートのステップS11乃至S13の処理と同様であるので、その説明は省略する。また、図17のフローチャートのステップS114以降の処理は、図5のフローチャートのステップS14以降の処理と並列して実行される。
すなわち、追尾対象となる講師の追尾が開始されると、ステップS114において、算出部14bは、全てのマイク101について、追尾枠TR(追尾対象となる講師)との距離を算出する。なお、実際にマイク101が設置されている位置と、カメラ1からの動画像上でのマイク101の位置とは、あらかじめ所定の方法で対応付けられているものとする。
ステップS115において、非処理対象特定部14cは、注目する1つのマイク101(注目マイク)について、追尾枠TRとの距離が最も近いか否かを判定する。
ステップS115において、注目マイクと追尾枠TRとの距離が最も近いと判定されなかった場合、処理はステップS116に進む。
ステップS116において、音声処理部111は、制御部14の制御に基づいて、注目マイクから入力された音声にマスキング処理を施す。
一方、ステップS115において、注目マイクと追尾枠TRとの距離が最も近いと判定された場合、ステップS116はスキップされる。具体的には、追尾枠TRとの距離が最も近いマイク101を非処理対象に特定し、音声処理部111は、非処理対象に特定されたマイク101から入力された音声にはマスキング処理を施さない。
その後、ステップS117において、全てのマイク101について処理したか否かが判定される。全てのマイク101について処理していない場合、処理はステップS115に戻り、ステップS115,S116の処理が繰り返される。
以上の処理によれば、追尾対象となる講師に最も近いマイク101から入力された音声のみにマスキング処理が施されず、それ以外のマイク101から入力された音声にはマスキング処理が施される。これにより、主要被写体以外の被写体である聴講者のプライバシーを保護しつつ、主要被写体である講師の発話音声を聞き取りやすくすることが可能となる。
次に、図18のフローチャートを参照して、図16の制御装置2による聴講者の音声のマスキング処理の他の例について説明する。
なお、図18のフローチャートのステップS121乃至S124の処理は、図17のフローチャートのステップS111乃至S114の処理と同様であるので、その説明は省略する。
すなわち、全てのマイク101について、追尾枠TRとの距離が算出されると、ステップS125において、非処理対象特定部14cは、注目する1つのマイク101(注目マイク)について、追尾枠TRとの距離が一定距離より近いか否かを判定する。
ステップS125において、注目マイクと追尾枠TRとの距離が一定距離より近いと判定されなかった場合、処理はステップS126に進む。
ステップS126において、音声処理部111は、制御部14の制御に基づいて、注目マイクから入力された音声にマスキング処理を施す。
一方、ステップS125において、注目マイクと追尾枠TRとの距離が一定距離より近いと判定された場合、ステップS126はスキップされる。具体的には、追尾枠TRに一定距離より近いマイク101を非処理対象に特定し、音声処理部111は、非処理対象に特定されたマイク101から入力された音声にはマスキング処理を施さない。
その後、ステップS127において、全てのマイクについて処理したか否かが判定される。全てのマイクについて処理していない場合、処理はステップS125に戻り、ステップS125,S126の処理が繰り返される。
以上の処理によれば、追尾対象となる講師に一定距離より近いマイク101から入力された音声のみにマスキング処理が施されず、それ以外のマイク101から入力された音声にはマスキング処理が施される。これにより、主要被写体以外の被写体である聴講者のプライバシーを保護しつつ、主要被写体である講師の発話音声を聞き取りやすくすることが可能となる。
なお、上述した処理においては、追尾対象となる講師に一定距離より近いマイク101が存在しない場合には、全てのマイク101から入力された音声の出力が抑制される。
<3-2.制御装置の第2の構成例と動作>
(制御装置の構成例)
図19は、図15の制御装置2の他の機能構成例を示すブロック図である。
図19の制御装置2は、図16の制御装置2と同様の構成に加え、発話認識部131を備えている。
発話認識部131は、カメラ1からの動画像において、追尾部12の追尾対象となった被写体の発話認識を行う。
例えば、発話認識部131は、図20に示されるように、動画像中の被写体の顔において、顔および顔パーツの特徴点(輪郭点)を抽出する。図20の例では、顔の輪郭点f1乃至f15、左右の眉の特徴点b1乃至b5、左右の目の特徴点e1乃至e6、鼻の特徴点n1乃至n7、唇の特徴点m1乃至m10が抽出されている。
そして、発話認識部131は、抽出した特徴点のうち、唇の特徴点m1乃至m10の動きを解析することで、被写体の発話認識を行う。
(制御装置の動作)
次に、図21のフローチャートを参照して、図19の制御装置2による聴講者の音声のマスキング処理の例について説明する。
なお、図21のフローチャートのステップS131乃至S134の処理は、図17のフローチャートのステップS111乃至S114の処理と同様であるので、その説明は省略する。
すなわち、全てのマイク101について、追尾枠TRとの距離が算出されると、ステップS135において、発話認識部131は、追尾対象の発話認識を行う。
ステップS136において、非処理対象特定部14cは、注目する1つのマイク101(注目マイク)について、追尾枠TRとの距離が最も近く、かつ、追尾対象が発話中であるか否かを判定する。
ステップS136において、追尾枠TRとの距離が最も近く、かつ、追尾対象が発話中であると判定されなかった場合、すなわち、注目マイクと追尾枠TRとの距離が最も近くないか、追尾対象が発話中でない場合、処理はステップS137に進む。
ステップS137において、音声処理部111は、制御部14の制御に基づいて、注目マイクから入力された音声にマスキング処理を施す。
一方、ステップS136において、追尾枠TRとの距離が最も近く、かつ、追尾対象が発話中であると判定された場合、ステップS137はスキップされる。具体的には、非処理対象特定部14cは、追尾対象が発話していると認識されている期間、追尾枠TRとの距離が最も近いマイク101を非処理対象に特定し、音声処理部111は、非処理対象に特定されたマイク101から入力された音声にはマスキング処理を施さない。
その後、ステップS138において、全てのマイク101について処理したか否かが判定される。全てのマイク101について処理していない場合、処理はステップS136に戻り、ステップS136,S137の処理が繰り返される。
以上の処理によれば、追尾対象となる講師が発話している間、その講師に最も近いマイク101から入力された音声のみにマスキング処理が施されず、それ以外のマイク101から入力された音声にはマスキング処理が施される。これにより、主要被写体以外の被写体である聴講者のプライバシーを保護しつつ、主要被写体である講師の発話音声を聞き取りやすくすることが可能となる。
なお、上述した処理においては、追尾枠TRとの距離が最も近く、かつ、追尾対象が発話中であるか否かが判定されるものとしたが、追尾枠TRとの距離が一定距離より近く、かつ、追尾対象が発話中であるか否かが判定されてもよい。
この場合、追尾対象となる講師が発話している間、その講師に一定距離より近いマイク101から入力された音声のみにマスキング処理が施されず、それ以外のマイク101から入力された音声にはマスキング処理が施される。
(あらかじめ記録された動画像に対する処理)
以上においては、複数のマイク101から入力される音声に対して選択的にリアルタイムにマスキング処理が施されるものとした。しかしながら、上述した処理では、複数のマイク101から入力される音声が入った状態で記録された動画像に対して、所望の音声にマスキング処理を施すことはできない
そこで、図22のフローチャートを参照して、複数のマイク101から入力される音声が入った動画像に対する音声のマスキング処理の例について説明する。
なお、図22のフローチャートのステップS141乃至S143の処理は、図21のフローチャートのステップS131乃至S133の処理と同様であるので、その説明は省略する。但し、図22のフローチャートのステップS141乃至S143において、顔の検出および追尾対象の追尾は、あらかじめ記録された動画像に対して行われる。
すなわち、あらかじめ記録された動画像において、追尾対象の追尾が開始されると、ステップS144において、発話認識部131は、追尾対象の発話認識を行う。
ステップS145において、非処理対象特定部14cは、追尾対象が発話中であるか否かを判定する。
ステップS145において、追尾対象が発話中であると判定されなかった場合、処理はステップS146に進む。
ステップS146において、音声処理部111は、制御部14の制御に基づいて、あらかじめ記録された動画像に入っている音声にマスキング処理を施す。
一方、ステップS145において、追尾対象が発話中であると判定された場合、ステップS146はスキップされる。具体的には、音声処理部111は、追尾対象が発話していると認識されている期間、あらかじめ記録された動画像に入っている音声にはマスキング処理を施さない。
その後、ステップS147において、動画像が全て終了したか否かが判定される。動画像が全て終了していない場合、処理はステップS145に戻り、ステップS145,S146の処理が繰り返される。
以上の処理によれば、追尾対象となる講師が発話している間のみ音声のマスキング処理が施されず、それ以外の期間は音声のマスキング処理が施される。これにより、あらかじめ記録された動画像においても、主要被写体以外の被写体である聴講者のプライバシーを保護しつつ、主要被写体である講師の発話音声を聞き取りやすくすることが可能となる。
<3-3.変形例>
本開示の第2の実施の形態に係る撮影システムは、図23に示されるような構成を採ることもできる。
図23の撮影システムにおいては、マイク101(101-1,101-2,101-3)が、ネットワーク4に直接接続されている。
図23の制御装置2は、ネットワーク4を介して、マイク101から出力される音声に対して、所定の音声処理を施す。
また、図24に示される撮影システムのように、複数のマイク101に代えて、指向性マイクロホン201を備えるようにしてもよい。
指向性マイクロホン201は、特定の方向からの音声を収音する機能を有する。
図24の制御装置2は、追尾対象となる被写体の存在する方向からの音声を収音するよう、指向性マイクロホン201を制御する。これにより、主要被写体である講師の発話音声をより聞き取りやすくすることが可能となる。
また、上述した撮影システムにおいて、複数台のカメラ1が設けられるようにした場合、一方のカメラ1が主要被写体となる講師L1を撮影し、他方のカメラ1が主要被写体以外の被写体となる聴講者A1を撮影するようにしてもよい。
この場合、複数台のカメラ1からの動画像それぞれにおいて、顔認識により同一の被写体には同一のIDを付与するなどして、非処理対象となる被写体が特定されるようにすることができる。
<4.コンピュータの構成例>
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図25は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
上述した制御装置2は、図25に示す構成を有するコンピュータにより実現される。
CPU(Central Processing Unit)501、ROM(Read Only Memory)502、RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インタフェース505が接続されている。入出力インタフェース505には、キーボード、マウスなどよりなる入力部506、ディスプレイ、スピーカなどよりなる出力部507が接続される。また、入出力インタフェース505には、ハードディスクや不揮発性のメモリなどよりなる記憶部508、ネットワークインタフェースなどよりなる通信部509、リムーバブルメディア511を駆動するドライブ510が接続される。
以上のように構成されるコンピュータでは、CPU501が、例えば、記憶部508に記憶されているプログラムを入出力インタフェース505およびバス504を介してRAM503にロードして実行することにより、上述した一連の処理が行われる。
CPU501が実行するプログラムは、例えばリムーバブルメディア511に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部508にインストールされる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたときなどの必要なタイミングで処理が行われるプログラムであっても良い。
本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
さらに、本開示は以下のような構成をとることができる。
(1)
動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、前記フレーム内の特定領域との位置関係に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体を特定する制御部と、
前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、前記所定の画像処理を施す画像処理部と
を備える情報処理装置。
(2)
前記複数の被写体のうち、所定の被写体を追尾対象被写体とした追尾を制御する追尾部をさらに備え、
前記制御部は、前記非処理対象被写体を前記追尾対象被写体として特定する
(1)に記載の情報処理装置。
(3)
前記制御部は、前記フレーム内において前記追尾対象被写体に対応する追尾領域を設定し、前記追尾領域と前記複数の被写体領域との関係に基づいて、前記処理対象被写体を特定する
(2)に記載の情報処理装置。
(4)
前記複数の被写体領域は、前記複数の被写体それぞれに対応する顔領域である
(3)に記載の情報処理装置。
(5)
前記位置関係は、前記被写体領域が前記特定領域内に位置するか否かを表し、
前記制御部は、前記位置関係に基づいて、前記特定領域内に位置する前記被写体領域に対応する前記被写体を、前記非処理対象被写体として特定する
(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記制御部は、所定時間以上、前記特定領域内に位置する前記被写体領域に対応する前記被写体を、前記非処理対象被写体として特定する
(5)に記載の情報処理装置。
(7)
前記制御部は、前記被写体の姿勢情報の履歴に基づいて、前記非処理対象被写体を特定する
(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
前記制御部は、前記動画像を構成するフレーム単位の前記姿勢情報に基づいて、前記非処理対象被写体を特定する
(7)に記載の情報処理装置。
(9)
前記制御部は、複数の所定数のフレーム単位毎における前記姿勢情報に基づいて、前記非処理対象被写体を特定する
(8)に記載の情報処理装置。
(10)
前記姿勢情報は、前記被写体が立っている状態であることを示す立位情報と、前記被写体が座っている状態であることを示す座位情報を少なくとも含む
(7)乃至(9)のいずれかに記載の情報処理装置。
(11)
前記画像処理部は、前記処理対象被写体の顔領域に対して、前記所定の画像処理を施す
(1)乃至(10)のいずれかに記載の情報処理装置。
(12)
前記画像処理部は、前記所定の画像処理としてマスキング処理を施す
(11)に記載の情報処理装置。
(13)
前記制御部は、所定のタイミングにおいて、前記非処理対象被写体の特定を制御する
(1)乃至(12)のいずれかに記載の情報処理装置。
(14)
前記所定のタイミングは、講義の開始を示す講義開始情報に対応するタイミングである
(13)に記載の情報処理装置。
(15)
前記講義開始情報は、前記動画像、または、前記動画像に対応する音声情報に基づいて特定される
(14)に記載の情報処理装置。
(16)
前記処理対象被写体の発話音声に対応する音声に対して、所定の音声処理を施す音声処理部をさらに備える
(1)乃至(15)のいずれかに記載の情報処理装置。
(17)
前記制御部は、複数の音声入力部のうち、前記非処理対象被写体と所定の位置関係にある前記音声入力部を、前記所定の音声処理を施さない非処理対象音声入力部として特定し、
前記音声処理部は、前記所定の音声処理として、前記非処理対象音声入力部以外の前記音声入力部から入力された音声の出力を抑制する
(16)に記載の情報処理装置。
(18)
情報処理装置が、
動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、前記フレーム内の特定領域との位置関係に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体を特定し、
前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、前記所定の画像処理を施す
情報処理方法。
(19)
コンピュータに、
動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、前記フレーム内の特定領域との位置関係に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体に特定し、
前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、前記所定の画像処理を施す
処理を実行させるためのプログラム。
(20)
動画像を構成するフレーム内の複数の被写体それぞれに対応する姿勢情報の履歴に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体を特定する制御部と、
前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、前記所定の画像処理を施す画像処理部と
を備える情報処理装置。
1 カメラ, 2 制御装置, 3 記録装置, 4 ネットワーク, 5 情報処理端末, 11 顔検出部, 12 追尾部, 13 画像処理部, 14 制御部, 21 姿勢推定部, 22 追尾部, 23 画像処理部, 24 制御部, 31 姿勢推定部, 12 追尾部, 13 画像処理部, 14 制御部, 111 音声処理部, 131 発話認識部

Claims (17)

  1. 動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、前記フレーム内の特定領域との位置関係、および、前記被写体の姿勢情報の履歴に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体を特定する制御部と、
    前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、前記所定の画像処理を施す画像処理部と
    を備える情報処理装置。
  2. 前記複数の被写体のうち、所定の被写体を追尾対象被写体とした追尾を制御する追尾部をさらに備え、
    前記制御部は、前記追尾対象被写体を前記非処理対象被写体として特定する
    請求項1に記載の情報処理装置。
  3. 前記制御部は、前記フレーム内において前記追尾対象被写体に対応する追尾領域を設定し、前記追尾領域と前記複数の被写体領域との関係に基づいて、前記処理対象被写体を特定する
    請求項2に記載の情報処理装置。
  4. 前記複数の被写体領域は、前記複数の被写体それぞれに対応する顔領域である
    請求項3に記載の情報処理装置。
  5. 前記位置関係は、前記被写体領域が前記特定領域内に位置するか否かを表し、
    前記制御部は、前記位置関係に基づいて、前記特定領域内に位置する前記被写体領域に対応する前記被写体を、前記非処理対象被写体として特定する
    請求項1に記載の情報処理装置。
  6. 前記制御部は、所定時間以上、前記特定領域内に位置する前記被写体領域に対応する前記被写体を、前記非処理対象被写体として特定する
    請求項5に記載の情報処理装置。
  7. 前記制御部は、前記動画像を構成するフレーム単位の前記姿勢情報に基づいて、前記非処理対象被写体を特定する
    請求項に記載の情報処理装置。
  8. 前記制御部は、複数の所定数のフレーム単位毎における前記姿勢情報に基づいて、前記非処理対象被写体を特定する
    請求項に記載の情報処理装置。
  9. 前記姿勢情報は、前記被写体が立っている状態であることを示す立位情報と、前記被写体が座っている状態であることを示す座位情報を少なくとも含む
    請求項に記載の情報処理装置。
  10. 前記画像処理部は、前記処理対象被写体の顔領域に対して、前記所定の画像処理を施す
    請求項1に記載の情報処理装置。
  11. 前記画像処理部は、前記所定の画像処理としてマスキング処理を施す
    請求項10に記載の情報処理装置。
  12. 動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、前記フレーム内の特定領域との位置関係に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体を特定する制御部と、
    前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、前記所定の画像処理を施す画像処理部と
    を備え、
    前記制御部は、講義の開始を示す講義開始情報に対応するタイミングにおいて、前記非処理対象被写体の特定を制御する
    情報処理装置。
  13. 前記講義開始情報は、前記動画像、または、前記動画像に対応する音声情報に基づいて特定される
    請求項12に記載の情報処理装置。
  14. 前記処理対象被写体の発話音声に対応する音声に対して、所定の音声処理を施す音声処理部をさらに備える
    請求項1または12に記載の情報処理装置。
  15. 前記制御部は、複数の音声入力部のうち、前記非処理対象被写体と所定の位置関係にある前記音声入力部を、前記所定の音声処理を施さない非処理対象音声入力部として特定し、
    前記音声処理部は、前記所定の音声処理として、前記非処理対象音声入力部以外の前記音声入力部から入力された音声の出力を抑制する
    請求項14に記載の情報処理装置。
  16. 情報処理装置が、
    動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、前記フレーム内の特定領域との位置関係、および、前記被写体の姿勢情報の履歴に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体を特定し、
    前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、前記所定の画像処理を施す
    情報処理方法。
  17. コンピュータに、
    動画像を構成するフレーム内の複数の被写体それぞれに対応する複数の被写体領域と、
    前記フレーム内の特定領域との位置関係、および、前記被写体の姿勢情報の履歴に基づいて、前記複数の被写体から、所定の画像処理を施さない非処理対象として非処理対象被写体に特定し、
    前記複数の被写体のうち、前記非処理対象被写体以外の処理対象被写体に対応する処理対象領域に対して、前記所定の画像処理を施す
    処理を実行させるためのプログラム。
JP2019152122A 2019-08-22 2019-08-22 情報処理装置、情報処理方法、およびプログラム Active JP7334536B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2019152122A JP7334536B2 (ja) 2019-08-22 2019-08-22 情報処理装置、情報処理方法、およびプログラム
CN202080057581.6A CN114270802A (zh) 2019-08-22 2020-08-11 信息处理装置、信息处理方法和程序
EP20764796.7A EP3994613A1 (en) 2019-08-22 2020-08-11 Information processing apparatus, information processing method, and program
US17/635,286 US20220327732A1 (en) 2019-08-22 2020-08-11 Information processing apparatus, information processing method, and program
PCT/JP2020/030559 WO2021033592A1 (en) 2019-08-22 2020-08-11 Information processing apparatus, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019152122A JP7334536B2 (ja) 2019-08-22 2019-08-22 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2021033573A JP2021033573A (ja) 2021-03-01
JP7334536B2 true JP7334536B2 (ja) 2023-08-29

Family

ID=72292595

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019152122A Active JP7334536B2 (ja) 2019-08-22 2019-08-22 情報処理装置、情報処理方法、およびプログラム

Country Status (5)

Country Link
US (1) US20220327732A1 (ja)
EP (1) EP3994613A1 (ja)
JP (1) JP7334536B2 (ja)
CN (1) CN114270802A (ja)
WO (1) WO2021033592A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2022185643A1 (ja) * 2021-03-03 2022-09-09
WO2023243811A1 (ko) * 2022-06-15 2023-12-21 삼성전자 주식회사 동영상 촬영 시, 이미지 내에 포스트 마스킹을 제공하는 전자 장치, 그 동작 방법 및 컴퓨터 판독가능 저장 매체

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050152579A1 (en) 2003-11-18 2005-07-14 Samsung Electronics Co., Ltd. Person detecting apparatus and method and privacy protection system employing the same
WO2012004907A1 (ja) 2010-07-06 2012-01-12 パナソニック株式会社 画像配信装置
JP2016150849A (ja) 2015-02-19 2016-08-22 パナソニックIpマネジメント株式会社 物品配送システム
WO2017150103A1 (ja) 2016-02-29 2017-09-08 パナソニックIpマネジメント株式会社 音声処理装置、画像処理装置、マイクアレイシステム、及び音声処理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4036051B2 (ja) 2002-07-30 2008-01-23 オムロン株式会社 顔照合装置および顔照合方法
JP2009284235A (ja) 2008-05-22 2009-12-03 Fujifilm Corp 撮像装置
EP3454254B1 (en) * 2017-09-07 2023-11-08 Canon Kabushiki Kaisha Image processing apparatus, image providing apparatus, control methods thereof, and program
JP7084795B2 (ja) * 2017-09-07 2022-06-15 キヤノン株式会社 画像処理装置、画像提供装置、それらの制御方法及びプログラム
JP2019152122A (ja) 2018-03-01 2019-09-12 トヨタ自動車株式会社 内燃機関システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050152579A1 (en) 2003-11-18 2005-07-14 Samsung Electronics Co., Ltd. Person detecting apparatus and method and privacy protection system employing the same
WO2012004907A1 (ja) 2010-07-06 2012-01-12 パナソニック株式会社 画像配信装置
JP2016150849A (ja) 2015-02-19 2016-08-22 パナソニックIpマネジメント株式会社 物品配送システム
WO2017150103A1 (ja) 2016-02-29 2017-09-08 パナソニックIpマネジメント株式会社 音声処理装置、画像処理装置、マイクアレイシステム、及び音声処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丸山大輔, 外2名,"講義ビデオにおける肖像権保護のための顔情報保護手法の提案",電子情報通信学会技術研究報告,日本,社団法人電子情報通信学会,2010年06月12日,第110巻, 第85号,p.7-12

Also Published As

Publication number Publication date
CN114270802A (zh) 2022-04-01
US20220327732A1 (en) 2022-10-13
JP2021033573A (ja) 2021-03-01
EP3994613A1 (en) 2022-05-11
WO2021033592A1 (en) 2021-02-25

Similar Documents

Publication Publication Date Title
EP3855731B1 (en) Context based target framing in a teleconferencing environment
US9633270B1 (en) Using speaker clustering to switch between different camera views in a video conference system
US11128793B2 (en) Speaker tracking in auditoriums
US7907165B2 (en) Speaker predicting apparatus, speaker predicting method, and program product for predicting speaker
WO2017215295A1 (zh) 一种摄像机参数调整方法、导播摄像机及系统
CN106961568B (zh) 一种画面切换方法、装置和系统
US20150146078A1 (en) Shift camera focus based on speaker position
KR101508092B1 (ko) 화상 회의를 지원하는 방법 및 시스템
JP7334536B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN113052085A (zh) 视频剪辑方法、装置、电子设备以及存储介质
CN111551921A (zh) 一种声像联动的声源定向系统及方法
CN114513622A (zh) 说话人检测方法、设备、存储介质及程序产品
CN104780341B (zh) 一种信息处理方法以及信息处理装置
CN111222117A (zh) 身份信息的识别方法及装置
Arnaud et al. The CAVA corpus: synchronised stereoscopic and binaural datasets with head movements
EP4075794A1 (en) Region of interest based adjustment of camera parameters in a teleconferencing environment
JP2004248125A (ja) 映像切り替え装置、映像切り替え方法、この方法のプログラムおよびこのプログラムを記録した記録媒体
CN110730378A (zh) 一种信息处理方法及系统
CN115803772A (zh) 用于检测和显示白板文本和/或活跃说话者的系统和方法
WO2024062971A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
Al-Hames et al. Automatic multi-modal meeting camera selection for video-conferences and meeting browsers
CN104539873A (zh) 远程会议系统和进行远程会议的方法
CN113099158B (zh) 拍摄现场的拾音装置控制方法、装置、设备及存储介质
US12014562B2 (en) Method and system for automatic speaker framing in video applications
TW202301320A (zh) 依觀看方向進行動作偵測以控制對應裝置之系統及方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230731

R151 Written notification of patent or utility model registration

Ref document number: 7334536

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151