以下、適宜図面を参照しながら、本発明に係る指向性制御システム及び音声出力制御方法を具体的に開示した各実施形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
(第1の実施形態)
図1は、第1の実施形態の指向性制御システム10の内部構成の一例を示すブロック図である。指向性制御システム10は、カメラ装置CAと、マイクアレイ装置MAと、指向性制御装置30とを含む構成である。カメラ装置CA、マイクアレイ装置MA及び指向性制御装置30は、ネットワークNWを介して相互にデータ通信可能に接続されている。ネットワークNWは、有線ネットワーク(例えばイントラネット、インターネット)でもよいし、無線ネットワーク(例えば無線LAN(Local Area Network))でもよい。
撮像部の一例としてのカメラ装置CAは、例えば室内の天井に設置された全方位カメラであり、自装置が設置された撮像空間(つまり、撮像エリア)を撮像可能な監視カメラとして機能する。なお、カメラ装置CAは、全方位カメラに限られず、画角が固定された固定カメラでもよいし、パン・チルト・ズーム動作自在なPTZ(Pan Tilt Zoom)カメラでもよい。
カメラ装置CAは、映像を撮像した時刻(つまり、撮像時刻)を映像データと対応付けて記憶し、撮像時刻のデータを含む映像データを、ネットワークNWを介して指向性制御装置30に送信する。
収音部の一例としてのマイクアレイ装置MAは、例えば室内の天井に設置された全方位マイクアレイ装置であり、自装置が設置された収音空間(収音エリア)における全方位(つまり、360度の方位)の音声を収音する。本実施形態では、撮像エリアと収音エリアは略同一である。マイクアレイ装置MAは、中央に開口部が形成された筐体を有し、更に、この開口部の周囲に円周方向に沿って同心円状に配置された複数のマイクロホンユニットを有する。マイクロホンユニット(以下、単にマイクロホンと称する)には、例えば高音質小型エレクトレットコンデンサーマイクロホン(ECM:Electret Condenser Microphone)が用いられる。
マイクアレイ装置MAは、収音した音声データを、収音した時刻(つまり、収音時刻)と対応付けて記憶するとともに、収音時刻のデータを含む音声データを、ネットワークNWを介して、指向性制御装置30に送信する。
指向性制御装置30は、例えばマイクアレイ装置MA及びカメラ装置CAが設置された室内の外に設置される据置型のPC(Personal Computer)であり、マイクアレイ装置MAで収音された全方位の音声に対し指向性を形成し、その指向方向の音声を強調する。また、指向性制御装置30は、撮像エリア内の音源の位置(以下、「音声位置」ともいう)を検出して推定し、この推定された音源の位置がプライバシー保護エリアの範囲内である場合に所定のマスク処理を行う。マスク処理の詳細については後述する。なお、指向性制御装置30は、PCの代わりに、携帯電話機、タブレット端末、スマートフォン等の通信端末でもよい。
指向性制御装置30は、通信部31と、操作部32と、信号処理部33と、ディスプレイ装置36と、スピーカ装置37と、メモリ38と、設定管理部39とを少なくとも含む構成である。信号処理部33は、音圧算出部34及び出力制御部35を含む。
位置情報設定部の一例としての設定管理部39は、初期設定として、カメラ装置CAで撮像された映像が表示されたディスプレイ装置36に対し、ユーザによって指定されたプライバシー保護エリアの座標を、マイクアレイ装置MAからプライバシー保護エリアに対応する音声エリアに向かう指向方向を示す座標に変換する。この変換処理では、設定管理部39は、プライバシー保護エリアの指定に応じて、マイクアレイ装置MAからプライバシー保護エリアに対応する音声エリアに向かう指向方向を示す座標(θMAh,θMAv)を算出する。この座標算出処理の詳細については、例えば特許文献1に記載されている。ここで、θMAhはマイクアレイ装置MAから音声位置に向かう指向方向の水平角を表し、θMAvはマイクアレイ装置MAから音声位置に向かう指向方向の垂直角を表す。音声位置は、操作部32がディスプレイ装置36に表示された映像データにおいてユーザの指又はスタイラスペンによって指定された指定位置に対応する実際の位置である。なお、この変換処理は、信号処理部33により行われてもよい。
また、設定管理部39は、第1メモリの一例としてのメモリ39zを有し、カメラ装置CAで撮像された映像が表示されたディスプレイ装置36に対しユーザによって指定されたプライバシー保護エリアの位置座標と、変換されたプライバシー保護エリアに対応する音声エリアに向かう指向方向を示す座標とをメモリ39zに記憶する。
更に、設定管理部39は、マイクアレイ装置MAで収音された音声の音圧pと比較される音圧閾値shをメモリ39zに設定する。ここで、音圧pは、マイクアレイ装置MAで収音される音の大きさを表しており、スピーカ装置37から出力される音の大きさを表す音量とは区別している。また、音圧閾値shは、例えばマイクアレイ装置MAで収音されてスピーカ装置37から出力される音声をユーザが聞き取れない、或いは、聞き取れても音声の内容が分からないような値に設定される。
通信部31は、カメラ装置CAが送信した撮像時刻のデータを含む映像データ、及びマイクアレイ装置MAが送信した収音時刻のデータを含む音声データを受信して信号処理部33に出力する。
操作部32は、ユーザの入力操作の内容を信号処理部33に通知するためのユーザインターフェース(UI:User Interface)であり、例えばマウス、キーボード等のポインティングデバイスで構成される。また、操作部32は、例えばディスプレイ装置36の画面に対応して配置され、ユーザの指やスタイラスペンによって入力操作が可能なタッチパネル又はタッチパッドを用いて構成されてもよい。
操作部32は、ディスプレイ装置36に表示されたカメラ装置CAの映像データ(図4(A)参照)の中で、ユーザがプライバシー保護を希望するエリアであるプライバシー保護エリアPRA(図中、点線枠)を指定し、指定されたプライバシー保護エリアの位置を表す座標データを取得して信号処理部33に出力する。
メモリ38は、例えばRAM(Random Access Memory)を用いて構成され、指向性制御装置30が動作する際、プログラムメモリ、データメモリ、ワークメモリとして機能する。第2メモリの一例としてのメモリ38は、マイクアレイ装置MAで収音される音声の音声データを収音時刻とともに記憶する。信号処理部33は、メモリ38に記憶された音声データを用いて、マイクアレイ装置MAで収音された音声がプライバシー保護エリア内で検出されたか否かを判定する。従って、マイクアレイ装置MAで収音された音声の収音時間より若干遅れて(リアルタイムより僅かに遅れて)音声が再生される。この遅れ時間は、マイクアレイ装置MAが音声を収音してから、その音声がプライバシー保護エリア内で検出されたものであるか否かを判定する処理に要する時間である。また、メモリ38に音声データを一旦記憶しておくことで、後述するように、信号処理部33は、プライバシー保護エリアPRAからの音声が検出された時刻より所定時間前から収音されてメモリ38に記憶された音声の出力を制御することも可能となる。このように、メモリ38は音声データを一時的に記憶するバッファメモリとしても機能する。
信号処理部33は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)又はDSP(Digital Signal Processor)を用いて構成され、指向性制御装置30の各部の動作を全体的に統括するための制御処理、他の各部との間のデータの入出力処理、データの演算(計算)処理及びデータの記憶処理を行う。
第1検出部の一例としての信号処理部33は、マイクアレイ装置MAで音声が収音された場合、音源の方向がプライバシー保護エリアの範囲内であるか否かを判定する。この方法では、信号処理部33は、例えば撮像エリアを複数のブロックに分割し、ブロック毎に音声の指向性を形成し、その指向方向に既定の閾値を超える音声があるか否かを判定し、撮像エリア内の音声位置を推定する。また、信号処理部33が音声位置を推定する方法は、例えば『論文「マイクロホンアレーを用いたCSP法に基づく複数音源位置推定」西浦敬信等、電子情報通信学会論文誌D−11 Vol.J83−D−11 No.8 pp.1713−1721 2000年8月』の文献に記載されている方法でもよい。
また、信号処理部33は、マイクアレイ装置MAが収音した音声データに対し、信号処理部33がプライバシー保護エリア内の位置に指向性を形成する処理を行い、その指向方向に音声が検出されているか否かを判定する方法でもよい。この場合、信号処理部33は、音声位置がプライバシー保護エリアの範囲内にあるか否かを判定できるが、プライバシー保護エリアの外側に音声位置があっても、その位置は特定されない。
信号処理部33内の音圧算出部34は、マイクアレイ装置MAで収音される音声のうち、プライバシー保護エリアPRAで収音された音声の音圧を計算する。
信号処理部33内の出力制御部35は、カメラ装置CA、マイクアレイ装置MA、ディスプレイ装置36及びスピーカ装置37の動作を制御し、カメラ装置CAから送信された映像データをディスプレイ装置36に出力させ、マイクアレイ装置MAから送信された音声データをスピーカ装置37に音声出力させる。出力制御部35は、マイクアレイ装置MAが収音して指向性制御装置30に送信した音声データを用いて指向性の形成処理を行うことで、信号処理部33により算出された収音方向の座標(θMAh,θMAv)に対応する指向方向に、音声データの指向性を形成する。
また、出力制御部35は、算出された指向方向を示す座標データを基に、音声位置が予め指定されたプライバシー保護エリアPRA(図4(A)参照)内に含まれるか否かを判定する。出力制御部35は、プライバシー保護エリアPRA内に含まれると判定し、かつ、音圧算出部34によって算出されたプライバシー保護エリアPRA内の音圧pが音圧閾値shを超えたと判定した場合、マイクアレイ装置MAにより収音された音声の出力を制御する。例えば、出力制御部35は、マイクアレイ装置MAにより収音された音声に代えて、所定の代替音(例えば通称「ピー音」)を再生して出力する。ピー音は1kHz等の正弦波(サイン波)を有する音声であり、その音声波形のデータは出力制御部35内のメモリに予め登録されている。なお、代替音は「ピー音」に限るものではなく、メロディ音やノイズ音等であってもよいし、「ただいま音声をマスクしています」等のアナウンスでもよい。つまり、誰が発した声であるか、その声を発した人物の特定が困難になるように音声が出力されれば、音声の出力制御の方法は限定されない。
表示部の一例としてのディスプレイ装置36は、カメラ装置CAが撮像した映像データを画面に表示する。
音声出力部の一例としてのスピーカ装置37は、マイクアレイ装置MAが収音した音声データ、又は信号処理部33が指向方向(θMAh,θMAv)に指向性が形成されたマイクアレイ装置MAが収音した音声データを音声出力する。なお、ディスプレイ装置36及びスピーカ装置37は、指向性制御装置30とは別体の装置として構成されてもよい。
図2は、マイクアレイ装置MAにより収音された音声に対して、特定の方向に指向性を形成する原理の一例の説明図である。指向性制御装置30は、マイクアレイ装置MAから送信された音声データを用いて、音声データの指向性制御処理によって各々のマイクロホンMA1〜MAnにより収音された各音声データを加算し、マイクアレイ装置MAの各マイクロホンMA1〜MAnの位置から特定の方向への音声(音量レベル)を強調(増幅)するために、特定方向への指向性を形成した音声データを生成する。特定の方向とは、マイクアレイ装置MAから操作部32で指定された音声位置に向かう方向である。なお、マイクアレイ装置MAによって収音される音声の指向性を形成するための音声データの指向性制御処理に関する技術は、例えば特開2014−143678号公報や特開2015−029241号公報(特許文献1)等に示されるように、公知の技術である。
図2では、説明を分かり易くするため、マイクロホンは直線上に一次元配列としている。この場合、指向性は面内の二次元空間になるが、三次元空間で指向性を形成するためには、マイクロホンを二次元配列にして同様な処理方法を行えば良い。
音源80から発した音波は、マイクアレイ装置MAに内蔵される各マイクロホンMA1,MA2,MA3,〜,MA(n−1),MAnに対し、ある一定の角度(入射角=(90−θ)[度])で入射する。入射角θは、マイクアレイ装置MAから音声位置に向かう指向方向の水平角θMAhでも垂直角θMAvでもよい。
音源80は、例えばマイクアレイ装置MAが収音する収音方向に存在するカメラ装置CAの被写体である人物の会話であり、マイクアレイ装置MAの筐体21の面上に対し、所定角度θの方向に存在する。また、各マイクロホンMA1,MA2,MA3,…,MA(n−1),MAn間の間隔dは一定とする。
音源80から発した音波は、最初にマイクロホンMA1に到達して収音され、次にマイクロホンMA2に到達して収音され、同様に次々に収音され、最後にマイクロホンMAnに到達して収音される。
マイクアレイ装置MAは、各マイクロホンMA1,MA2,MA3,…,MA(n−1),MAnが収音したアナログの音声データを、A/D変換器241,242,243,〜,24(n−1),24nにおいてデジタルの音声データにAD変換する。
更に、マイクアレイ装置MAは、遅延器251,252,253,〜,25(n−1),25nにおいて、各々のマイクロホンMA1,MA2,MA3,…,MA(n−1),MAnにおける到達時間差に対応する遅延時間を与えて全ての音波の位相をそろえた後、加算器26において遅延処理後の音声データを加算する。これにより、マイクアレイ装置MAは、各マイクロホンMA1,MA2,MA3,…,MA(n−1),MAnに、所定角度θの方向に音声データの指向性を形成する。
このように、マイクアレイ装置MAは、遅延器251,252,253,〜,25(n−1),25nに設定される遅延時間D1,D2,D3,〜,Dn−1,Dnを変更することで、収音した音声データの指向性を簡易に形成することができる。
図3は、カメラ装置CAの内部構成の一例を示すブロック図である。カメラ装置CAは、CPU41、通信部42、電源供給部44、イメージエリアセンサ45、メモリ46及びネットワークコネクタ47を有する。
CPU41は、カメラ装置CAの各部を統括的に制御する。また、CPU41は、イメージエリアセンサ45で撮像された画像を基に、撮像エリアSA内の人物の動きを検出する動き検出部41zを有する。人物の動きを検出する方法としては、様々な公知技術がある。例えば、第2検出部の一例としての動き検出部41zは、撮像された画像フレーム間の差分を演算し、この画像フレーム差分から得られる動き領域の中に、縦の長さ及び横の長さの比率が人物と想定される範囲内のものがある場合、その動き領域を人物の動きとして検出する。
イメージエリアセンサ45は、撮像エリアSAを撮像して画像データを取得するものであり、CMOS(相補性金属酸化膜半導体)センサを有する。なお、CMOSセンサの代わりに、CCD(電荷結合素子)センサが用いられてもよい。
メモリ46は、動作プログラムや設定値のデータが格納されたROM、画像データやワークデータを記憶するRAM、及びカメラ装置CAに挿抜自在に接続され、各種データが記憶されるメモリカードを有する。
通信部42は、ネットワークコネクタ47を介して接続されるネットワークNWとのデータ通信を制御するネットワークインタフェース(I/F)である。
電源供給部44は、カメラ装置CAの各部に直流電源を供給し、また、ネットワークコネクタ47を介してネットワークNWに接続される機器に直流電源を供給する。ネットワークコネクタ47は、画像データ等の通信データを伝送し、また、ネットワークケーブルを介して給電可能なコネクタである。
上記構成を有する指向性制御システム10の動作を示す。
図4(A)は、プライバシー保護エリアPRAを指定する前の音声処理動作の一例を説明する図である。カメラ装置CAによって撮像される撮像エリアSAは、応接スペース71の内側である。応接スペース71では、2人の人物p1,p2がそれぞれ椅子に73、74に腰かけた状態で向かい合って会話している。指向性制御装置30のスピーカ装置37からは、マイクアレイ装置MAで収音された、人物p1が発声した「Hello」の音声が出力されている。ユーザは、指向性制御装置30のディスプレイ装置36の画面に表示されたカメラ装置CAの撮像映像に対し、指FGで画面をなぞるようにプライバシー保護エリアPRAを指定する。ここでは、人物p2を囲むように、プライバシー保護エリアPRAが指定される。なお、プライバシー保護エリアの指定は、これに限らず、範囲を表す位置座標をキーボードから直接入力し、又は映像に現れる特定の顔画像を認識し、その顔画像を囲む範囲に設定する等の画像処理によって行われてもよい。
図4(B)は、プライバシー保護エリアPRAを指定した後の音声処理動作の一例を説明する図である。設定管理部39が、ユーザによって指定されたプライバシー保護エリアPRAの位置座標をメモリ39zに保存すると、撮像エリアSAに対してプライバシー保護エリアPRAが設定される。応接スペース71では、人物p1が「Hello」と発声し、人物p2が「Thanks」と発声している。人物p2はプライバシー保護エリアPRA内であるので、人物p2が発声している期間、マイクアレイ装置MAで収音される音声は、マスク処理され、スピーカ装置37からは出力制御部35によって再生された「ピー音」だけが出力される。
図5は、第1の実施形態の指向性制御装置30の音声処理手順の一例を説明するフローチャートである。まず、指向性制御装置30内の設定管理部39は、初期設定を行う(S1)。この初期設定では、カメラ装置CAで撮像された映像の映像データが表示されたディスプレイ装置36に対し、ユーザが指FG或いはスタイラスペンで点線枠にて囲むようにプライバシー保護エリアPRA(図4(A)参照)を指定する。
設定管理部39は、指定されたプライバシー保護エリアPRAの座標を、マイクアレイ装置MAからプライバシー保護エリアに対応する音声エリアに向かう指向方向を示す座標に変換する。更に、設定管理部39は、マイクアレイ装置MAで収音された音圧pと比較されるための音圧閾値shを設定する。音圧閾値shは、前述したように、マイクアレイ装置MAで収音され、スピーカ装置37から出力される音声をユーザが聞き取れない、或いは聞き取れてもその内容が分からないような値に設定される。
通信部31は、マイクアレイ装置MAから出力される音声データを受信して入力する(S2)。更に、通信部31は、カメラ装置CAから出力される画像データを受信して入力する(S3)。
信号処理部33は、動き検出部41zが画像データに対し画像処理を行った結果、人物の動きを検出したか否かを判別する(S4)。ここでは、指向性制御装置30は、カメラ装置CAから映像データを受信する際、画像データに対し画像処理を行った結果、得られた人物の動き情報を同時に受信する。この人物の動きの検出は、カメラ装置CAが撮像した撮像エリアSA内の全領域の画像に対して行われてもよいし、撮像エリアSA内に設定されたプライバシー保護エリアPRA内の画像に対してだけ行われてもよい。また、ここでは、カメラ装置CA内の動き検出部41zが画像データに対し画像処理を行って人物の動きを検出したが、指向性制御装置30内の信号処理部33がカメラ装置CAから受信した映像データに含まれる画像データに対し画像処理を行い、人物の動きを検出するようにしてもよい。
人物の動きが検出されなかった場合、信号処理部33の処理は、ステップS7に進む。一方、人物の動きが検出された場合、信号処理部33は、マイクアレイ装置MAで収音された音声データの音源がプライバシー保護エリアPRA内にあるか否かを判定する。プライバシー保護エリアPRA内にあると判定された場合、音圧算出部34は、その音圧を計算する(S5)。ここで、マイクアレイ装置MAで収音された音声データの音源がプライバシー保護エリアPRA内にあるか否かの判定は、前述したいずれかの方法で行われる。
出力制御部35は、音圧算出部34によって計算された音圧pと、設定管理部39内のメモリ39zに記憶された音圧閾値shとを比較し、音圧pが音圧閾値sh以下であるか否かを判別する(S6)。音圧pが音圧閾値sh以下である場合、出力制御部35は、マイクアレイ装置MAで収音された音声をそのままスピーカ装置37から出力させる(S7、図4(A)参照)。この後、指向性制御装置30の処理は、ステップS2に戻る。
一方、ステップS4で音圧pが音圧閾値shを超える場合、出力制御部35は、マイクアレイ装置MAで収音された音声データの代替音であるピー音(例えば1kHzの正弦波を有する音)のデータをスピーカ装置37から出力させる(S8、図4(B)参照)。この後、指向性制御装置30の処理は、ステップS2に戻る。
図6は、動き検出動作を説明する図である。図6では、カメラ装置CAによって事務所の一角が映像として撮像される。ここでは、この事務所の一角は、プライバシー保護エリアPRAに設定されている。また、説明を分かり易くするために、一例として、連続的に撮像される画像フレームのうち、100フレーム毎に画像フレームを抽出し、これらの画像フレーム間の差分を演算する場合を示す。100フレーム毎に画像フレームを抽出することで、たとえ人物の動きが遅くても、フレーム間差分により動き領域が検出し易くなる。なお、カメラ装置CAで撮像される画像のフレームレートが低い場合には、例えばカメラ装置CAが静止画を1秒ごとに1枚撮像するような場合には、隣接する画像フレーム間の差分を演算しても、人物の遅い動きによる動き領域は十分に検出される。図6に示す映像には、人物hm1が歩きながら携帯電話gtを操作し、会話を行っているシーンが含まれる。
画像フレームGZ1と画像フレームGZ2の間では、画像フレーム間で差分が生じず、人物の動きは検出されない。続く、画像フレームGZ2と画像フレームGZ3の間では、画像フレーム間に差分が有り、動き領域として人物hm1の動きが検出される。同様に、画像フレームGZ3と画像フレームGZ4の間、画像フレームGZ4と画像フレームGZ5の間、画像フレームGZ5と画像フレームGZ6の間でも、画像フレーム間で差分が有り、動き領域として人物hm1の動きが検出される。その後、再び、画像フレームGZ6と画像フレームGZ7の間では、画像フレーム間で差分が生じず、動き領域として人物の動きが検出されない。従って、人物hm1の動きが検出された、画像フレームGZ2〜GZ6の区間では、人物hm1が発する音声の音圧が音圧閾値shを超えていると、人物hm1が発する音声はマスク処理される。
図7は、カメラ装置CAで撮像される撮像エリアSAに音源が存在しかつ人物の動きが無い場合の音声処理動作を説明する図である。この撮像エリアSAは、プライバシー保護エリアPRAに設定された、エレベータELの周辺である。エレベータELの両側には、スピーカSP及び固定電話機TLが設置されている。この状況では、スピーカSPは音楽を出力し、また、固定電話機TLが鳴動しているが、エレベータELの周辺には、人物の動きが無いので、マイクアレイ装置MAで収音された音声をマスク処理してスピーカ装置37から出力させる制御は行われない。このように、撮像された画像フレーム間で人物の動きが検出されない場合、音声が検出されても人物が発した音声である可能性は低いので、音声を秘匿化する必要が無く、無用な処理を省くことができる。これにより、処理の軽減が図れる。
図8は、図7と同様のカメラ装置CAで撮像される撮像エリアSAに音源が存在しかつ人物の動きが有る場合の音声処理動作を説明する図である。この状況では、スピーカSPは音楽を出力し、また、固定電話機TLが鳴動し、さらに、エレベータELの前には、2人の人物hm2,hm3が会話しながら握手している。この場合、撮像された画像フレームに含まれる全ての音源から発せられる音声の音圧(総量又は平均値)が音圧閾値shを超えていると、マイクアレイ装置MAで収音された音声をマスク処理してスピーカ装置37から出力させる制御が行われる。
以上により、第1の実施形態の指向性制御システム10では、カメラ装置CAは、撮像エリアSAの映像を撮像する。マイクアレイ装置MAは、撮像エリアSAの音声を収音する。ディスプレイ装置36は、カメラ装置CAにより撮像された撮像エリアSAの映像データを表示する。スピーカ装置37は、マイクアレイ装置MAにより収音された撮像エリアSAの音声を出力する。設定管理部39は、ディスプレイ装置36に表示された撮像エリアSAの映像データに対して指定されたプライバシー保護エリアPRAの位置情報をメモリ39zに記憶しておく。信号処理部33は、マイクアレイ装置MAにより収音された撮像エリアSAの音声の音源を検出する。カメラ装置CAの動き検出部41zは、撮像エリアSAにおける人物の動きを検出する。動き検出部41zにより人物の動きが検出され、かつ、信号処理部33により検出された音源がプライバシー保護エリアPRAの範囲内である場合に、出力制御部35は、マイクアレイ装置MAにより収音され、スピーカ装置37から出力される撮像エリアSAの音声を制御する。従って、マイクアレイ装置MAで収音される音圧pが音圧閾値shを超えている間(期間)、代替音であるピー音がスピーカ装置37から出力される。
このように、カメラ装置CAによって撮像された撮像エリアSAで人物の動きが検出され、かつ撮像エリアSAのうち、プライバシー保護エリアPRA内で発声があった場合、その期間、マイクアレイ装置MAで収音された音声全体が代替音(「ピー音」)に変わるので、プライバシー保護エリアPRAを含め、撮像エリアSA内で発声した全ての音声の内容が分からなくなる。これにより、プライバシー保護エリア内で音声が発せられても、その内容が他人に知られることなく、プライバシー保護を向上できる。また、代替音である「ピー音」は、TV放送でもよく使われている音声であるので、これを聞いたユーザは、音声が秘匿化(マスク処理)されていることを容易に知ることができる。
また、撮像エリアで人物の動きが検出された場合に限って、マイクアレイ装置MAで収音された音声がピー音に代わるので、人物が発した可能性が高い音声だけを秘匿化することができ、不必要な音声を秘匿化しなくて済む。
これにより、プライバシー保護エリア内で人物により音声が発せられても、その人物が発した音声の内容が他人に知られることなく、人物のプライバシー保護の劣化を抑制することができる。
また、マイクアレイ装置MAにより収音された撮像エリアSAの音声の音圧pが音圧閾値shを超える場合、出力制御部35は、スピーカ装置37の出力をマスク処理により制御し、一方、マイクアレイ装置MAにより収音された撮像エリアSAの音声の音圧が音圧閾値shを超えない場合、出力制御部35は、スピーカ装置37の出力に対しマスク処理による制御を行わない。
これにより、プライバシー保護エリアPRAの範囲内で音声が発せられても、その音圧が低い場合には、マスク処理により音声の出力を制御することなく、そのまま出力させることで、不要な処理を省くことができ、処理の負荷を軽減できる。
また、出力制御部35は、マイクアレイ装置MAにより収音された音声を代替音に代えてスピーカ装置37から出力させる。撮像エリアSA内の音声全体が代替音(ピー音)に変わるので、プライバシー保護エリアから外れた人物(図4では人物p1)が発する音声から会話の内容を推測することも難しく、秘匿性が高まる。
また、指向性制御装置30内の設定管理部39は、操作部32からプライバシー保護エリアPRAの指定操作を受け付けると、指定操作に応じた位置座標を指定されたプライバシー保護エリアの位置情報に設定する。例えば、カメラ装置CAによって撮像される映像に対し、指FGで画面をなぞるようにプライバシー保護エリアPRAを指定することで、ユーザはプライバシー保護エリアを任意に設定できる。
また、信号処理部33は、マイクアレイ装置MAにより収音された撮像エリアSAの音声を収音時刻とともにメモリ38に記憶する。出力制御部35は、信号処理部33により検出された音源がプライバシー保護エリアPRAの範囲内である場合に、音源が検出される所定時間前からメモリ38に記憶された音声のスピーカ装置37からの出力を制御する。
このように、プライバシー保護エリアPRAからの音声が検出される所定時間前から、音声出力が制御されるので、音声検出から代替音を出力するまでの処理に要する僅かな時間(例えば3秒程度の数秒間)、プライバシー保護エリア内の音声の冒頭部分(出だし部分)がマスク処理されることなく出力されることを防止できる。従って、音声の冒頭部分から内容が察せられることも回避される。この場合、一旦、収音した音声データをメモリに記憶した後に音声を再生する事後再生、或いはマイクアレイ装置MAで収音される音声の収音時間より少し遅れて(リアルタイムよりディレイをかけて)音声を再生する場合に有効である。所定時間は、マイクアレイ装置MAが音声を収音してから、その音声がプライバシー保護エリア内で検出されたものであるか否かを判定するまでに要する僅かな時間(例えば3秒程度の数秒間)である。
また、撮像エリアSAで撮像された人物の動きが検出されない場合、指向性制御装置30は、音声の出力を制御することなく、そのま音声を出力させるので、無用な処理を省くことができ、処理の軽減が図れる。
(第2の実施形態)
前述した第1の実施形態では、プライバシー保護エリアで音声が発せられた場合、撮像エリア内で検出された全ての音声の代替音としてピー音を出力する場合を示したが、第2の実施形態では、プライバシー保護エリアで音声が発せられた場合、全ての音声を消去(ミュート)して無音状態にする場合を示す。
第2の実施形態における指向性制御システムのハードウェア構成は、前述した第1の実施形態と同じであるので、同一の符号を用いることでその説明を省略する。
図9(A)は、プライバシー保護エリアPRAを指定する前の音声処理動作の一例を説明する図である。図4(A)と同様、撮像エリアSAの内側にある応接スペース71では、2人の人物p1,p2がそれぞれ椅子に73、74に腰かけた状態で向かい合って会話している。指向性制御装置30のスピーカ装置37からは、人物p1が発声した「Hello」の音声が出力されている。ユーザは、指向性制御装置30のディスプレイ装置36の画面に表示された、カメラ装置CAによって撮像された映像に対し、指FG又はスタイラスペンで画面をなぞるようにプライバシー保護エリアPRAを指定する。ここでは、人物p2を囲むように、プライバシー保護エリアPRAが指定される。
図9(B)は、プライバシー保護エリアPRAを指定した後の音声処理動作の一例を説明する図である。設定管理部39が、ユーザによって指定されたプライバシー保護エリアPRAの座標をメモリ39zに保存すると、撮像エリアSAに対しプライバシー保護エリアPRAが設定される。応接スペース71では、人物p1が「Hello」と発声し、人物p2が「Thanks」と発声している。人物p2はプライバシー保護エリアPRA内であるので、人物p2が発声している期間、スピーカ装置37からは、再生中の音声が中断されて無音となる。
図10は、第2の実施形態の指向性制御装置30の音声処理手順の一例を説明するフローチャートである。第1の実施形態における図5と同一のステップ処理については、同一のステップ番号を付すことにより、その説明を省略する。
ステップS6で音圧pが音圧閾値shを超える場合、出力制御部35は、スピーカ装置37から何も音声を出力させない。つまり、指向性制御装置30の処理は、そのままステップS2に戻る。
以上により、第2の実施形態の指向性制御システム10では、プライバシー保護エリアPRA内で発声があった場合、その期間、マイクアレイ装置MAで収音された撮像エリアSA内の全ての音声の出力が遮断される。これにより、プライバシー保護エリアPRAから発せられた音声も当然に聞こえなくなる(つまり、無音状態となる)。
なお、音声出力を制限する際、無音にする代わりに、音圧を所定の音圧まで下げる、例えば1/10に低減させてもよい。音圧を下げることで、プライバシー保護エリアPRA内から音声が僅かに聞こえても、何を話しているのかその内容を分からなくすることができる。従って、プライバシー保護エリアPRA内にいる人物のプライバシー保護を向上できるので、プライバシー保護エリアPRA内にいる人物のプライバシーの劣化を抑制可能となる。
(各実施形態の変形例)
前述した各実施形態では、指向性制御装置がプライバシー保護エリアの位置情報(つまり、位置座標)を記憶し、検出された音声位置がプライバシー保護エリアに含まれる場合、代替音としてピー音を出力する、或いは無音化していた。各実施形態の変形例(以下、単に「変形例」という)では、指向性制御装置の代わりに、これらの処理をマイクアレイ装置が行う場合を示す。
図11は、各実施形態の変形例におけるマイクアレイ装置MBの内部構成の一例を示すブロック図である。変形例のマイクアレイ装置MBにおいて、前述した第1及び第2の実施形態におけるマイクアレイ装置MAと同一の構成要素については同一の符号を用いることでその説明を省略する。
マイクアレイ装置MBは、複数のマイクロホンMB1、MB2、…、MBn、アンプ231,232,…,23n、A/D変換器241,242,243,…,24n、CPU25、符号化部28及び通信部29を有する。
アンプ231,232,…,23nは、複数のマイクロホンMB1、MB2、…、MBnで収音した音声信号を増幅する。A/D変換器241,242,243,…,24nは、それぞれアンプ231,232,…,23nによって増幅された音声信号をデジタル音声データに変換する。
CPU25は、複数のマイクロホンMB1、MB2、…、MBnで収音し、A/D変換器241,242,243,…,24nによって変換された音声データを入力し、これらの音声データを基に、音声出力処理を行う。また、CPU25は、通信部29を介して受信したプライバシー保護エリアPRAの位置情報(つまり、位置座標)を内部メモリに記憶している。また、CPU25は、撮像エリアSA内で発せられた音声の位置を検出し、検出された音声位置がプライバシー保護エリアPRA内の位置座標と一致した場合、マイクロホンMB1,MB2,…,MBnで収音され、A/D変換器241,242,243,…,24nでそれぞれ変換された音声データの音声に対し、前述したようなマスク処理(「ピー音」の出力或いは無音化)を行う。
符号化部28は、CPU25から出力される音声データを符号化し、ネットワークNWで伝送可能な音声パケットを生成する。通信部29は、符号化部28によって符号化された音声データを、ネットワークNWを介して指向性制御装置30に送信し、また、ネットワークNWを介して指向性制御装置30から送信されるプライバシー保護エリアPRAの位置情報を受信し、また、ネットワークNWを介してカメラ装置CAから送信される人物の動き情報を受信する。
以上により、変形例のマイクアレイ装置MBは、収音した音声データを、収音した時刻(収音時刻)と対応付けて記憶するとともに、記憶した音声データ及び収音時刻のデータを、ネットワークNWを介して、指向性制御装置30に送信する。また、マイクアレイ装置MBは、カメラ装置CAから受信した人物の動き情報を基に、人物の動きの有無を判定し、人物の動きが検出された場合、収音した音声データの音声位置がプライバシー保護エリアPRAの位置情報と一致するか否かを判定し、プライバシー保護エリアPRAに含まれる場合、代替音としてピー音を出力或いは無音化する。なお、代替音がこれに限られないことは前述した第1の実施形態と同様である。
ここでは、マイクアレイ装置MBは、カメラ装置CAから人物の動き情報を受信する場合を示したが、カメラ装置CAから映像データを受信し、映像データに含まれる画像データに対し、画像処理を行って人物の動きを検出するようにしてもよい。
また、変形例の指向性制御システムでは、マイクアレイ装置MBからネットワークNWを介して送信される音声データは、マスク処理されているので、途中で盗聴されても情報が漏れることはなく、安全に音声データを送信できる。また、この場合、音声データには、マスク処理されていることを付属情報として、音声データのヘッダに付加してもよく、付加しておくことで音声データを受け取った側では、音声データがマスク処理されていることを即座に知ることができる。なお、付属情報には、時刻情報や位置情報等が含まれてもよい。
以上、図面を参照しながら各種の実施形態について説明したが、本発明はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
例えば、上記各実施形態では、マイクアレイ装置で検出される音声の音声位置がプライバシー保護エリア内である場合、撮像エリアSAで検出された音声を必ずマスク処理(代替音、無音化等)していたが、ユーザによってはマスク処理しなくてもよい。例えば、指向性制御装置を操作するユーザが、一般ユーザである場合、マスク処理し、管理者等の権限のあるユーザである場合、マスク処理しないようにすることも可能である。いずれのユーザであるかは、例えば、指向性制御装置にログインする際のユーザID等によって判断可能である。
また、出力制御部35は、マイクアレイ装置MAにより収音された音声の音声データに対してボイスチェンジ処理(加工処理)を施してもよい。ボイスチェンジ処理の一例として、出力制御部35は、例えばマイクアレイ装置MAにより収音された音声の音声データの周波数(ピッチ)の高低を大きく変化させる。つまり、スピーカ装置37から出力される音声の周波数を音声の内容が分かりにくくなるような他の周波数に変更することで、プライバシー保護エリア内から聞こえる音声の内容を分からなくすることができる。従って、マイクアレイ装置MAで収音された音声の内容を知ろうとしても難しくなる。このように、出力制御部35は、マイクアレイ装置MAにより収音された音声を加工処理してスピーカ装置37から出力させることで、プライバシー保護エリアPRA内に存在する被写体(例えば人物)のプライバシーを効果的に保護することができる。
更に、出力制御部35は、ユーザの指又はスタイラスペンによって画面上で指定された指定位置に対応する音声位置がプライバシー保護エリアPRAに含まれる旨を、画面上でユーザに対して明示的に通知してもよい。
また、第1、第2の実施形態では、カメラ装置CAのCPU41に内蔵された動き検出部41zが人物の動きを検出していたが、カメラ装置CAは撮像エリアSAを撮像し、撮像された映像データを指向性制御装置30あるいはマイクアレイ装置MAに送信するだけでもよい。この場合、指向性制御装置30あるいはマイクアレイ装置MAに備わる動き検出部が映像データを基に人物の動きを検出することになる。