JP6447976B2

JP6447976B2 - 指向性制御システム及び音声出力制御方法

Info

Publication number: JP6447976B2
Application number: JP2016005378A
Authority: JP
Inventors: 正成宮本; 宏之松本; 信太郎吉國; 田中　直也; 直也田中
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2016-01-14
Filing date: 2016-01-14
Publication date: 2019-01-09
Anticipated expiration: 2036-01-14
Also published as: JP2017126888A

Description

本発明は、収音された音声の出力を制御する指向性制御システム及び音声出力制御方法に関する。

従来、マイクアレイ装置から音声の収音位置に向かう指向方向に指向性を形成する指向性制御システムが知られている（例えば、特許文献１参照）。特許文献１の指向性制御システムは、指定された音声の収音位置が既定のプライバシー保護領域（つまり、人物のプライバシーを保護するための既定のエリア）の範囲内である場合に、マイクアレイ装置により収音された音声の音声データの出力を抑制する。以下、プライバシー保護領域を「プライバシーエリア」と略記する。

特開２０１５−０２９２４１号公報

しかし特許文献１では、例えば状況監視のために、指向性を形成して音声を強調したい位置（以下、「ターゲット」という）として指定された場所がプライバシーエリアであった場合、音声の出力が抑制され、或いは収音が休止されてしまう。例えばプライバシーエリアに近接する地点がターゲットとして指定されてしまうと、プライバシーエリア内の音がターゲットの音に漏れて聞こえてしまい、会話の内容が他人に知られてしまう等、プライバシーエリア内にいる人物のプライバシー保護が不十分であるという課題があった。

本発明は、上述した従来の課題を解決するために、プライバシーエリア内のいる人物により音声が発せられても、その人物が発した音声の内容が他人に知られることなく、人物のプライバシー保護の劣化を抑制する指向性制御システム及び音声出力制御方法を提供することを目的とする。

本発明は、撮像エリアを撮像する撮像部と、前記撮像エリアの音声を収音する収音部と、前記撮像部により撮像された前記撮像エリアの映像を表示する表示部と、前記収音部により収音された前記撮像エリアの音声を出力する音声出力部と、前記表示部に表示された前記撮像エリアの映像に対して指定されたターゲット、プライバシーエリアの各位置情報を記憶するメモリと、前記ターゲット、プライバシーエリアの各位置情報を用いて、前記収音部から前記ターゲットに向かう第１方向の音声を強調し、さらに前記収音部から前記プライバシーエリアに向かう第２方向の音声を強調する音声強調部と、前記音声強調部により強調された、前記第１方向の音声及び前記第２方向の音声を基に、前記ターゲット、前記プライバシーエリアにおいてそれぞれ発話があったか否かを判定する発話判定部と、少なくとも前記プライバシーエリアにおいて発話があった場合に、前記プライバシーエリアの音声が漏れ込んだ前記第１方向の音声の前記音声出力部における出力を制御する出力制御部と、を備える、指向性制御システムを提供する。

また本発明は、撮像部及び収音部を有する指向性制御システムにおける音声出力制御方法であって、前記撮像部において、撮像エリアを撮像し、前記収音部において、前記撮像エリアの音声を収音し、前記撮像エリアの映像が表示された表示部に対して指定されたターゲット、プライバシーエリアの各位置情報をメモリに記憶し、前記メモリに記憶された前記ターゲット、プライバシーエリアの各位置情報を用いて、前記収音部から前記ターゲットに向かう第１方向の音声を強調し、さらに前記収音部から前記プライバシーエリアに向かう第２方向の音声を強調し、強調された前記第１方向の音声及び前記第２方向の音声を基に、前記ターゲット、前記プライバシーエリアにおいてそれぞれ発話があったか否かを判定し、少なくとも前記プライバシーエリアにおいて発話があった場合に、前記プライバシーエリアの音声が漏れ込んだ前記第１方向の音声の出力を制御する、音声出力制御方法を提供する。

本発明によれば、プライバシーエリア内のいる人物により音声が発せられても、その人物が発した音声の内容が他人に知られることなく、人物のプライバシー保護の劣化を抑制することができる。

本実施形態の指向性制御システムの内部構成の一例を示すシステム構成図マイクアレイ装置により収音された音声に対し、特定の方向に指向性を形成する原理の一例の説明図カメラ装置の内部構成の一例を示すブロック図比較例として、プライバシーエリアに指定される位置にいる人物ｐ２とターゲットの人物ｐ１との間の距離が遠い時の音声処理動作の一例を示す図比較例として、プライバシーエリアに指定される位置にいる人物ｐ２とターゲットの人物ｐ１との間の距離が近い時の音声処理動作の一例を示す図本実施形態の、プライバシーエリアに指定された位置にいる人物ｐ２とターゲットの人物ｐ１との間の距離が近い時の音声処理動作の一例を示す図本実施形態の指向性制御装置の発話判定の動作手順の一例を説明するフローチャート本実施形態の指向性制御装置の音声出力制御（例えばマスク音加算）の動作手順の一例を説明するフローチャート本実施形態の指向性制御装置の音声出力制御（例えば別の音への置換）の動作手順の一例を説明するフローチャート本実施形態の指向性制御装置の音声出力制御（例えばミュート出力）の動作手順の一例を説明するフローチャート本実施形態の変形例におけるマイクアレイ装置の内部構成の一例を示すブロック図

以下、適宜図面を参照しながら、本発明に係る指向性制御システム及び音声出力制御方法を具体的に開示した実施形態（以下、「本実施形態」という）を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

本実施形態の指向性制御システムは、例えば工場、企業、公共施設（例えば図書館、イベント会場）、又は店舗（例えば小売店、銀行）に設置される監視システム（有人監視システム及び無人監視システムを含む）として用いられるが、設置場所は特に限定されない。以下、本実施形態の説明を分かり易くするために、本実施形態の指向性制御システムは、例えば店舗内に設置されるとして説明する。

（用語の定義）
また、本実施形態において、「ユーザ」とは、指向性制御装置３０を操作する人物を指し、撮像エリア（例えば店舗）や収音エリア（例えば店舗）の状況（例えば店員の接客状況）を監視する主体とする。また、「プライバシーエリア」とは、撮像エリアや収音エリア内のエリアであって、人物（例えば店舗の来店客）のプライバシーを保護するための既定のエリアである。

図１は、本実施形態の指向性制御システム１０の内部構成の一例を示すシステム構成図である。指向性制御システム１０は、カメラ装置ＣＡとマイクアレイ装置ＭＡと指向性制御装置３０とレコーダＲＣとを含む構成である。カメラ装置ＣＡ、マイクアレイ装置ＭＡ、指向性制御装置３０及びレコーダＲＣは、ネットワークＮＷを介して相互にデータ通信可能に接続されている。ネットワークＮＷは、有線ネットワーク（例えばイントラネット、インターネット）でもよいし、無線ネットワーク（例えば無線ＬＡＮ（Local Area Network））でもよい。レコーダＲＣは、必須ではなく必要に応じて指向性制御システム１０に設けられるものであり、過去に撮像された映像や収音された音声が指向性制御装置３０において使用される時に必要となる。

撮像部の一例としてのカメラ装置ＣＡは、例えば室内の天井に設置された全方位カメラであり、自装置が設置された空間（つまり、撮像エリア）を撮像可能な監視カメラとして機能する。カメラ装置ＣＡは、全方位カメラに限定されず、例えば固定の画角を有する固定カメラでもよいし、パン回転・チルト回転・ズーム処理がそれぞれ可能なＰＴＺ（Pan Tilt Zoom）カメラでもよい。カメラ装置ＣＡは、撮像により得られた撮像エリアの映像データと撮像時刻と対応付けて記憶し、撮像時刻を含む映像データを、ネットワークＮＷを介して指向性制御装置３０及びレコーダＲＣに定期的に送信する。なお、カメラ装置ＣＡは、定期的に送信する以外に、指向性制御装置３０やレコーダＲＣから要求があった時に撮像時刻を含む映像データを送信してもよい。

収音部の一例としてのマイクアレイ装置ＭＡは、例えば室内の天井に設置され、自装置が設置された空間（つまり、収音エリア）における全方位の音声を収音する。ここでは、撮像エリアと収音エリアは略同一である。マイクアレイ装置ＭＡは、例えば中央に開口部が形成された筐体を有し、さらに開口部の周囲に円周方向に沿って同心円状に配置された複数のマイクロホンユニットを有する。マイクロホンユニット（以下、「マイクロホン」という）には、例えば高音質小型エレクトレットコンデンサーマイクロホン（ＥＣＭ：Electret Condenser Microphone）が用いられる。マイクアレイ装置ＭＡは、収音により得られた音声データと収音時刻と対応付けて記憶し、収音時刻を含む音声データを、ネットワークＮＷを介して指向性制御装置３０及びレコーダＲＣに定期的に送信する。なお、マイクアレイ装置ＭＡは、定期的に送信する以外に、指向性制御装置３０やレコーダＲＣから要求があった時に収音時刻を含む音声データを送信してもよい。

指向性制御装置３０は、例えばマイクアレイ装置ＭＡ及びカメラ装置ＣＡが設置された室内の外に設置される据置型のＰＣ（Personal Computer）である。指向性制御装置３０は、マイクアレイ装置ＭＡ又はレコーダＲＣから送信された音声データを用いて、マイクアレイ装置ＭＡにおいて収音された全方位の音声（言い換えると、無指向の音声）に対して特定の方向に主ビームを形成する（つまり、指向性を形成する）ことにより、その特定の方向の音声を強調処理する。なお本実施形態では音声の強調処理は指向性制御装置３０において行われるとして説明するが、指向性制御装置３０ではなくマイクアレイ装置において行われてもよい。

また、指向性制御装置３０は、撮像エリア内の音源の位置（以下、「音声位置」という）を検出して推定し、この推定された音源位置がプライバシーエリアの範囲内である場合に所定のマスク処理を行う。マスク処理の詳細については後述する。なお、指向性制御装置３０は、ＰＣの代わりに、携帯電話機、タブレット端末、スマートフォン等の可搬型通信端末でもよい。

記録部の一例としてのレコーダＲＣは、例えば大容量の記憶容量を有する記憶装置であり、カメラ装置ＣＡから送信された撮像時刻付き映像データと、マイクアレイ装置ＭＡから送信された収音時刻付き音声データとを対応付けて記録する。レコーダＲＣは、過去に記録済みの（例えば１日前に撮像及び収音された）映像データ及び音声データが指向性制御装置３０によって再生される場合、ユーザの操作に基づく指向性制御装置３０からの要求に応じて、撮像時刻付き映像データ及び収音時刻付き音声データを指向性制御装置３０に送信する。

（指向性制御装置の構成の詳細）
指向性制御装置３０は、通信部３１と、操作部３２と、信号処理部３３と、ディスプレイ装置３６と、スピーカ装置３７と、メモリ３８と、設定管理部３９とを少なくとも含む構成である。信号処理部３３は、発話判定部３４及び出力制御部３５を含む。

位置設定部の一例としての設定管理部３９は、初期設定として、カメラ装置ＣＡにより撮像された撮像エリアの映像が表示されたディスプレイ装置３６に対してユーザにより指定されたターゲットとプライバシーエリアの位置を示す座標をそれぞれ保持する。但し、ターゲットとプライバシーエリアの各座標は、ユーザの操作部３２を用いた操作によって適宜変更されてもよい。この場合、変更後の位置を示す座標が設定管理部３９において保持される。なお、ターゲットとは、主に人物を想定して説明するが、人物に限定されず、例えば電子機器、スピーカ、車両、ロボット等でも構わない。

設定管理部３９は、ディスプレイ装置３６に表示された映像中のターゲットがユーザの指又はスタイラスペンにより指定されると、マイクアレイ装置ＭＡからディスプレイ装置３６上の指定位置に対応するターゲットに向かう方向（第１方向）を示す座標を算出して取得する。同様に、設定管理部３９は、ディスプレイ装置３６に表示された映像中のプライバシーエリアがユーザにより指定されると、マイクアレイ装置ＭＡからディスプレイ装置３６上の指定位置（例えばプライバシーエリアの中心位置）に対応するプライバシーエリアの中心位置に向かう方向（第２方向）を示す座標を算出して取得する。

この算出処理では、設定管理部３９は、第１方向を示す座標、第２方向を示す座標を、それぞれ（θＭＡｈ１，θＭＡｖ１）、（θＭＡｈ２、θＭＡｖ２）として算出する。この座標算出処理の詳細については、例えば特許文献１において具体的に記載されているため、説明は省略する。θＭＡｈ１（θＭＡｈ２）は、マイクアレイ装置ＭＡから、撮像エリア内にいるターゲット（プライバシーエリア）の位置に向かう第１方向（第２方向）の水平角を示す。θＭＡｖ１（θＭＡｖ２）は、マイクアレイ装置ＭＡから、撮像エリア内にいるターゲット（プライバシーエリア）の位置に向かう第１方向（第２方向）の垂直角を示す。なお、この算出処理は信号処理部３３により行われてもよい。

設定管理部３９は、メモリ３９ｚを有し、ディスプレイ装置３６に表示された映像に対してユーザによって指定されたターゲットとプライバシーエリアの位置座標と、マイクアレイ装置ＭＡからターゲット、プライバシーエリアのそれぞれに対応する指向方向を示す座標とをメモリ３９ｚに記憶する。

設定管理部３９は、マイクアレイ装置ＭＡにより収音された音声の音圧ｐと比較される所定の音圧閾値ｓｈをメモリ３９ｚに設定する。ここで、音圧ｐは、マイクアレイ装置ＭＡにより収音される音の大きさを示し、スピーカ装置３７から出力される音の大きさを表す音量とは区別している。音圧閾値ｓｈは、例えばマイクアレイ装置ＭＡで収音されてスピーカ装置３７から出力される音をユーザが聞き取れない、或いは聞き取れても音の内容が分からないような値に設定される。

通信部３１は、カメラ装置ＣＡ又はレコーダＲＣから送信された撮像時刻付き映像データや、マイクアレイ装置ＭＡ又はレコーダＲＣから送信された収音時刻付き音声データを受信して信号処理部３３に出力する。

操作部３２は、ユーザの入力操作の内容を信号処理部３３に通知するためのユーザインターフェース（ＵＩ：User Interface）であり、例えばマウス、キーボード等のポインティングデバイスで構成される。操作部３２は、例えばディスプレイ装置３６の画面に対応して配置され、ユーザの指やスタイラスペンによって入力操作が可能なタッチパネル又はタッチパッドを用いて構成されてもよい。

また、操作部３２は、ディスプレイ装置３６に表示された撮像エリアの映像（図４〜図６）の中で、ユーザが主体的に聞きたい対象であるターゲットのエリアＴＡがユーザの操作により指定されると、指定位置を示す座標を取得して信号処理部３３に出力する。同様に、操作部３２は、ディスプレイ装置３６に表示された撮像エリアの映像（図４〜図６）の中で、プライバシー保護のためにユーザに聞かれないためのプライバシーエリアＰＡがユーザの操作により指定されると、指定位置を表す座標データを取得して信号処理部３３に出力する。

メモリ３８は、例えばＲＡＭ（Random Access Memory）を用いて構成され、指向性制御装置３０が動作する際、プログラムメモリ、データメモリ、ワークメモリとして機能する。また、メモリ３８は、マイクアレイ装置ＭＡにより収音された音声の音声データを収音時刻と対応付けて記憶し、さらにカメラ装置ＣＡにより撮像された撮像エリアの映像データを撮像時刻と対応付けて記憶する。詳細は後述するが、信号処理部３３は、メモリ３８に記憶された音声データを用いて、ユーザにより指定されたターゲットのエリアＴＡやプライバシーエリアＰＡ内で音声が検出されたか否かを判定する。従って、マイクアレイ装置ＭＡにより収音された実際の音声の収音時刻より若干遅れて音声が再生される。この遅れ時間は、マイクアレイ装置ＭＡが音声を収音してから、その音声がターゲットのエリアＴＡやプライバシーエリアＰＡ内で検出されたものであるか否かを判定する処理に要する時間である。また、メモリ３８に音声データを一定期間分保存しておくことで、信号処理部３３は、ターゲットのエリアＴＡやプライバシーエリアＰＡの音声がそれぞれ検出された時刻より所定時間前から収音された音声の出力を制御することも可能となる。このように、メモリ３８は一定期間分の音声データを一時的に記憶するバッファメモリとしても機能する。

また、メモリ３８は、予め用意されたマスク音（後述参照）を記憶してもよい。

信号処理部３３は、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）又はＤＳＰ（Digital Signal Processor）を用いて構成され、指向性制御装置３０の各部の動作を全体的に統括するための制御処理、他の各部との間のデータの入出力処理、データの演算（計算）処理及びデータの記憶処理を行う。

音声強調部の一例としての信号処理部３３は、メモリ３８に記憶された音声データ（言い換えると、マイクアレイ装置ＭＡにより収音された一定期間分の音声データ）を用いて、マイクアレイ装置ＭＡから、ディスプレイ装置３６に表示された映像中の指定位置に対応する音源位置に向かう指向方向に、指向性の主ビームを形成する。より具体的には、信号処理部３３は、マイクアレイ装置ＭＡから、ディスプレイ装置３６に表示された映像中のターゲットのエリアＴＡやプライバシーエリアＰＡに対応する実際のターゲット、プライバシーエリア（例えば中心位置）のそれぞれに指向性を形成してターゲットの音声、プライバシーエリアの音声を強調処理する。これにより、ターゲットの音声、プライバシーエリアの音声がそれぞれ強調されるので、スピーカ装置３７からより鮮明に音声として出力されることになる。

以下、信号処理部３３による強調処理後のターゲットの音声を「ターゲットの強調音声」といい、信号処理部３３による強調処理後のプライバシーエリアの音声を「プライバシーエリアの強調音声」という。

発話判定部３４は、ターゲットの強調音声を基に、ターゲットの発話があったか否かを判定する。具体的には、発話判定部３４は、ターゲットの強調音声の音圧ｐを算出し、メモリ３９ｚに記憶されている音圧閾値ｓｈを超えている場合にターゲットの発話があると判定し、音圧閾値ｓｈ以下である場合にターゲットの発話がないと判定する。

また、発話判定部３４は、プライバシーエリアの強調音声を基に、プライバシーエリアにおいて発話があったか否かを判定する。具体的には、発話判定部３４は、プライバシーエリアの強調音声の音圧ｐを算出し、メモリ３９ｚに記憶されている音圧閾値ｓｈを超えている場合にプライバシーエリアにおいて発話があると判定し、音圧閾値ｓｈ以下である場合にプライバシーエリアにおいて発話がないと判定する。発話判定部３４は、ターゲットの発話の有無、プライバシーエリアにおける発話の有無の判定結果を、発話判定結果（後述参照）として保持する。発話判定部３４の動作の詳細については後述する。

なお、発話判定部３４は、例えば撮像エリアを複数のブロックに分割し、ブロック毎に音声の指向性を形成し、それぞれの指向方向に既定の音圧閾値ｓｈを超える音圧ｐを有する音声があるか否かに応じて、ターゲットやプライバシーエリアの発話があったか否かを判定してもよい。また、信号処理部３３が音源を推定する方法は、例えば『論文「マイクロホンアレーを用いたＣＳＰ法に基づく複数音源位置推定」西浦敬信等、電子情報通信学会論文誌Ｄ−１１Ｖｏｌ．Ｊ８３−Ｄ−１１Ｎｏ．８ｐｐ．１７１３−１７２１２０００年８月』の文献に記載されている。

出力制御部３５は、カメラ装置ＣＡ、マイクアレイ装置ＭＡ、ディスプレイ装置３６及びスピーカ装置３７の動作を制御し、カメラ装置ＣＡから送信された映像データをディスプレイ装置３６に出力し、マイクアレイ装置ＭＡから送信された音声データをスピーカ装置３７から音声出力させる。

また、出力制御部３５は、発話判定部３４の発話判定結果に応じて、ターゲットの強調音声にマスク音を加算するかどうかを決定する。使用されるマスク音は、例えばプライバシーエリアＰＡの強調音声を用いて生成されてもよいし、予め用意されたピー音やノイズ音、メロディ音、又はそれらの組み合わせ等であってもよい。また、出力制御部３５は、ターゲットの強調音声にマスク音を加算する代わりに、ターゲットの強調音声を所定の代替音（例えばピー音、ノイズ音、メロディ音等）に変換しても良いし、ミュート出力（つまり、無音）にしても良い。出力制御部３５の動作の詳細については後述する。

表示部の一例としてのディスプレイ装置３６は、カメラ装置ＣＡにより撮像された撮像エリアの映像を表示する。

音声出力部の一例としてのスピーカ装置３７は、マイクアレイ装置ＭＡにより収音された音声データ、又は信号処理部３３による強調処理後の音声データを音声出力する。なお、ディスプレイ装置３６、スピーカ装置３７は、それぞれ指向性制御装置３０とは別体の装置として構成されてもよい。

図２は、マイクアレイ装置ＭＡにより収音された音声に対して、特定の方向に指向性を形成する原理の一例の説明図である。指向性制御装置３０は、マイクアレイ装置ＭＡから送信された音声データを用いて、音声データの指向性制御処理によって各々のマイクロホンＭＡ１〜ＭＡｎにより収音された各音声データを加算し、マイクアレイ装置ＭＡの各マイクロホンＭＡ１〜ＭＡｎの位置から特定の方向への音声（音量レベル）を強調するために、特定方向への指向性を形成した音声データを生成する。特定の方向とは、マイクアレイ装置ＭＡから、操作部３２で指定された位置に対応する実際の音源に向かう方向である。なお、マイクアレイ装置ＭＡによって収音される音声の指向性を形成するための音声データの指向性制御処理に関する技術は、例えば特開２０１４−１４３６７８号公報や特開２０１５−０２９２４１号公報（特許文献１）等に示されるように、公知の技術である。

図２では、説明を分かり易くするため、マイクロホンは直線上に一次元配列としている。この場合、指向性は面内の二次元空間になるが、三次元空間で指向性を形成するためには、マイクロホンを二次元配列にして同様な処理方法を行えば良い。

音源８０から発した音波は、マイクアレイ装置ＭＡに内蔵される各マイクロホンＭＡ１，ＭＡ２，ＭＡ３，〜，ＭＡ（ｎ−１），ＭＡｎに対し、ある一定の角度（入射角＝（９０−θ）［度］）で入射する。入射角θは、マイクアレイ装置ＭＡから音声位置に向かう指向方向の水平角θＭＡｈでも垂直角θＭＡｖでもよい。

音源８０は、例えばマイクアレイ装置ＭＡが収音する収音方向に存在するカメラ装置ＣＡの被写体である人物（例えばターゲットのエリアＴＡにいる人物、又はプライバシーエリアＰＡにいる人物）の会話であり、マイクアレイ装置ＭＡの筐体２１の面上に対し、所定角度θの方向に存在する。また、各マイクロホンＭＡ１，ＭＡ２，ＭＡ３，…，ＭＡ（ｎ−１），ＭＡｎ間の間隔ｄは一定とする。

音源８０から発した音波は、最初にマイクロホンＭＡ１に到達して収音され、次にマイクロホンＭＡ２に到達して収音され、同様に次々に収音され、最後にマイクロホンＭＡｎに到達して収音される。

マイクアレイ装置ＭＡは、各マイクロホンＭＡ１，ＭＡ２，ＭＡ３，…，ＭＡ（ｎ−１），ＭＡｎが収音したアナログの音声データを、Ａ／Ｄ変換器２４１，２４２，２４３，〜，２４（ｎ−１），２４ｎにおいてデジタルの音声データにＡＤ変換する。

さらにマイクアレイ装置ＭＡは、遅延器２５１，２５２，２５３，〜，２５（ｎ−１），２５ｎにおいて、各々のマイクロホンＭＡ１，ＭＡ２，ＭＡ３，…，ＭＡ（ｎ−１），ＭＡｎにおける到達時間差に対応する遅延時間を与えて全ての音波の位相を揃えた後、加算器２６において遅延処理後の音声データを加算する。これにより、マイクアレイ装置ＭＡは、各マイクロホンＭＡ１，ＭＡ２，ＭＡ３，…，ＭＡ（ｎ−１），ＭＡｎに、所定角度θの方向に音声データの指向性を形成することができ、強調処理後の音声データ２７を得ることができる。

このように、マイクアレイ装置ＭＡは、遅延器２５１，２５２，２５３，〜，２５（ｎ−１），２５ｎに設定される遅延時間Ｄ１，Ｄ２，Ｄ３，〜，Ｄｎ−１，Ｄｎを変更することで、収音した音声データの指向性を簡易に形成することができる。なお、指向性制御装置３０においても音声データの指向性の形成（つまり、音声データの特定の方向への強調処理）は実現可能であり、この場合、指向性制御装置３０は、図２に示す遅延器２５１，２５２，…，２５（ｎ−１），２５ｎ、加算器２６を少なくとも有すればよい。つまり、指向性制御装置３０は、各々のマイクロホンＭＡ１，ＭＡ２，ＭＡ３，…，ＭＡ（ｎ−１），ＭＡｎにおける到達時間差に対応する遅延時間を与えて全ての音波の位相を揃えた後、加算器２６において遅延処理後の音声データを加算すればよい。

図３は、カメラ装置ＣＡの内部構成の一例を示すブロック図である。カメラ装置ＣＡは、ＣＰＵ４１と、通信部４２と、電源供給部４４と、イメージセンサ４５と、メモリ４６と、ネットワークコネクタ４７とを少なくとも含む構成である。なお、図３では、イメージセンサ４５に入射光を結像させるためのレンズの図示を省略している。

ＣＰＵ４１は、カメラ装置ＣＡの各部を統括的に制御する。ＣＰＵ４１は、イメージセンサ４５により撮像された映像を構成するそれぞれの画像を基に、撮像エリアＳＡ内の人物の動きを検出する動き検出部４１ｚを有してもよい。人物の動きを検出する方法としては、様々な公知技術がある。例えば動き検出部４１ｚは、撮像された画像フレーム間の差分を演算し、この画像フレーム差分から得られる動き領域の中に、縦の長さ及び横の長さの比率が人物と想定される範囲内のものがある場合、その動き領域を人物の動きとして検出する。

イメージセンサ４５は、撮像エリアＳＡを撮像して画像データを取得するものであり、例えばＣＭＯＳ（Complementary Metal Oxide Semiconductor）又はＣＣＤ（Charge Coupled Device）が用いられる。

メモリ４６は、カメラ装置ＣＡにおける動作プログラムや設定値のデータが格納されたＲＯＭ（Read Only Memory）、画像データやワークデータを記憶するＲＡＭを用いて構成される。また、メモリ４６は、カメラ装置ＣＡに挿抜自在に接続され、各種データが記憶されるメモリカードを更に有する構成であってもよい。

通信部４２は、ネットワークコネクタ４７を介して接続されるネットワークＮＷとのデータ通信を制御するネットワークインタフェースである。

電源供給部４４は、カメラ装置ＣＡの各部に直流電源を供給し、また、ネットワークコネクタ４７を介してネットワークＮＷに接続される機器に直流電源を供給する。

ネットワークコネクタ４７は、画像データ等の通信データを伝送し、また、ネットワークケーブルを介して給電可能なコネクタである。

次に、本実施形態の音声処理動作の概要について、図４〜図６を参照して説明する。図４は、比較例として、プライバシーエリアに指定される位置にいる人物ｐ２とターゲットの人物ｐ１との間の距離が遠い時の音声処理動作の一例を示す図である。図５は、比較例として、プライバシーエリアに指定される位置にいる人物ｐ２とターゲットの人物ｐ１との間の距離が近い時の音声処理動作の一例を示す図である。図６は、本実施形態の、プライバシーエリアに指定された位置にいる人物ｐ２とターゲットの人物ｐ１との間の距離が近い時の音声処理動作の一例を示す図である。図４〜図６では、ある空間に２人の話者がいる場合に、プライバシーエリアの指定の有無に応じた音声出力処理の動作の違いが示されている。例えば人物ｐ１が店舗の店員、人物ｐ２が店舗の来店客である。

図４〜図６において、カメラ装置ＣＡによって撮像される撮像エリアＳＡは、応接スペースの内側である。応接スペースでは、２人の人物ｐ１，ｐ２がそれぞれ椅子７３，７４に腰かけた状態で向かい合って会話している。椅子７３に座っている人物ｐ１がターゲットとして指定され、椅子７４に座っている人物ｐ２を含むエリアがプライバシーエリアとして指定される。言い換えると、人物ｐ１の音声はターゲットの音声、人物ｐ２の音声はプライバシーが保護されるべき人物の音声ということができる。

図４〜図６では、ディスプレイ装置３６に表示されている映像中の人物ｐ１に対し、ユーザの指ＦＧの操作によってターゲットのエリアＴＡが共通して指定されているので、スピーカ装置３７からは、ターゲットの強調音声（言い換えると、人物ｐ１が発声した「Ｈｅｌｌｏ」の強調音声）が出力されている。ここでは、人物ｐ１を囲むように、ターゲットのエリアＴＡが指定されている。なお、ターゲットのエリアＴＡの指定は、ユーザの指ＦＧによる指定に限らず、範囲を表す位置座標をキーボード（不図示）から直接入力し、又は信号処理部３３が映像に現れる特定の顔画像を認識し、その顔画像を囲む範囲に設定する等の画像処理によって行われてもよい。

また図４では、ターゲットとしての人物ｐ１とプライバシー保護の対象としての人物ｐ２とが離れて座っているので、ターゲットとして指定された人物ｐ１の強調音声には人物ｐ２の発話音声が漏れ込まず、スピーカ装置３７から出力された音声は人物ｐ１の強調音声のみである。

次に図５では、図４に比べて、ターゲットとしての人物ｐ１とプライバシー保護の対象としての人物ｐ２との間の距離がより近づいている。この場合、ターゲットとして指定された人物ｐ１の強調音声には人物ｐ２の発話音声（具体的には「Ｔｈａｎｋｓ」の音声）が漏れ込んでいる又は漏れ込む可能性が高い。従って、本来プライバシーを保護するべき人物ｐ２の発話音声の内容がスピーカ装置３７から出力されていることになり、人物ｐ２のプライバシーを的確に保護することができていない。

そこで本実施形態では、図６に示すように、ターゲットのエリアＴＡとともにプライバシーエリアＰＡがユーザの指ＦＧの操作により指定される。詳細は後述するが、プライバシーエリアＰＡにおいて発話があると判定された場合には、ターゲットの強調音声（図６では「Ｈｅｌｌｏ」の音声）に対し、マスク音が加算されてスピーカ装置３７から出力される。これにより、人物ｐ１，ｐ２が近くにいて話し合っている場合には、ターゲットの強調音声（つまり、人物ｐ１の発話内容が強調処理された音声）に人物ｐ２の発話内容が漏れ込む又は漏れ込む可能性が高くなるが、マスク音の加算により、スピーカ装置３７からは人物ｐ２の音声の出力が抑制されることになる。言い換えると、スピーカ装置３７からは、ターゲットとして指定された人物ｐ１の音声だけが強調されて出力されるようになり、人物ｐ２の音声は何かよく分からない音声としてユーザに認識されるので、人物ｐ２のプライバシーを的確に保護することが可能になる。

（指向性制御装置における音声処理の詳細）
図７は、本実施形態の指向性制御装置３０の発話判定の動作手順の一例を説明するフローチャートである。図７の説明の前提として、信号処理部３３は、マイクアレイ装置ＭＡ又はレコーダＲＣから送信された音声データを用いて、マイクアレイ装置ＭＡから、ターゲットのエリアＴＡに対応する人物ｐ１に向かう方向（第１方向）の音声を強調処理し終えている。同様に、信号処理部３３は、マイクアレイ装置ＭＡ又はレコーダＲＣから送信された音声データを用いて、マイクアレイ装置ＭＡから、プライバシーエリアＰＡに対応する人物ｐ２に向かう方向（第２方向）の音声を強調処理し終えている。

図７において、発話判定部３４は、設定管理部３９に保持されている初期設定値を読み込む（Ｓ１）。具体的には、発話判定部３４は、ターゲットのエリアＴＡ、プライバシーエリアＰＡにおける人物の発話の有無を判定するための音圧閾値ｓｈを初期設定値として、設定管理部３９のメモリ３９ｚから読み出して取得する。

発話判定部３４は、マイクアレイ装置ＭＡから送信された音声データに基づくターゲットの強調音声、プライバシーエリアの強調音声をそれぞれ入力する（Ｓ２）。発話判定部３４は、ステップＳ２において入力したターゲットの強調音声の音圧を算出し、さらにステップＳ２において入力したプライバシーエリアの強調音声の音圧を算出する（Ｓ３）。

発話判定部３４は、ステップＳ３で算出したプライバシーエリアの強調音声の音圧ｐとステップＳ１で取得した音圧閾値ｓｈとを比較することで、プライバシーエリアＰＡ内で人物（具体的には図６の人物ｐ２）の発話があったか否かを判定する（Ｓ４）。発話判定部３４は、プライバシーエリアＰＡ内で人物（具体的には図６の人物ｐ２）の発話がなかった（言い換えると、プライバシーエリアの強調音声の音圧ｐが音圧閾値ｓｈ以下である）と判定した場合（Ｓ４、ＮＯ）、発話判定結果＝３をメモリ３８に保持する（Ｓ５）。これにより、図７に示す発話判定部３４の処理は終了する。

一方、発話判定部３４は、プライバシーエリアＰＡ内で人物（具体的には図６の人物ｐ２）の発話があった（言い換えると、プライバシーエリアの強調音声の音圧ｐが音圧閾値ｓｈより超えている）と判定した場合（Ｓ４、ＹＥＳ）、プライバシーエリアの強調音声を用いて、マスク音を生成する（Ｓ６）。本実施形態において、マスク音とは、ターゲットの強調音声に加算される音声であって、プライバシーエリアＰＡにいる人物ｐ２のプライバシーを保護するため（つまり、スピーカ装置３７から人物ｐ２の発話内容が出力されないため）に、人物ｐ２の発話内容がどんなものであるか分からなくさせるための混合音である。マスク音の生成方法としては、例えばプライバシーエリアの強調音声を細かい時間（例えば５００ｍｓ）領域毎に分割してばらばらにして生成する方法、プライバシーエリアの強調音声を時間領域ではなく音声を構成する一つ一つの音素毎に音声をばらばらにして生成する方法、プライバシーエリアの強調音声の周波数特性を解析して特定の帯域の音圧を上下させて生成する方法、同じプライバシーエリア内で過去に収音された発話音声を複数重ね合わせて生成する方法、等のいずれの方法であってもよく、いずれにしても公知技術である。

発話判定部３４は、ステップＳ６の後、ステップＳ３で算出したターゲットの強調音声の音圧ｐとステップＳ１で取得した音圧閾値ｓｈとを比較することで、ターゲットのエリアＴＡ内で人物（具体的には図６の人物ｐ１）の発話があったか否かを判定する（Ｓ７）。発話判定部３４は、ターゲットのエリアＴＡ内で人物（具体的には図６の人物ｐ１）の発話がなかった（言い換えると、ターゲットの強調音声の音圧ｐが音圧閾値以下である）と判定した場合（Ｓ７、ＮＯ）、発話判定結果＝２をメモリ３８に保持する（Ｓ８）。これにより、図７に示す発話判定部３４の処理は終了する。

一方、発話判定部３４は、ターゲットのエリアＴＡ内で人物（具体的には図６の人物ｐ１）の発話があった（言い換えると、ターゲットの強調音声の音圧ｐが音圧閾値ｓｈより超えている）と判定した場合（Ｓ７、ＹＥＳ）、発話判定結果＝１をメモリ３８に保持する（Ｓ９）。これにより、図７に示す発話判定部３４の処理は終了する。

図８は、本実施形態の指向性制御装置３０の音声出力制御（例えばマスク音加算）の動作手順の一例を説明するフローチャートである。出力制御部３５は、発話判定部３４で判定された発話判定結果を用いて、ターゲットの強調音声にマスク音を加算する必要があるかどうかを判断する。図８の説明の前提として、図７に示す発話判定部３４により、いずれかの発話判定結果がメモリ３８に保持されているとする。

図８において、出力制御部３５は、ターゲットの強調音声をメモリ３８から読み出して入力する（Ｓ１１）。出力制御部３５は、発話判定結果をメモリ３８から読み出して入力する（Ｓ１２）。出力制御部３５は、ステップＳ６において生成されたマスク音を読み出して入力する（Ｓ１３）。なおステップＳ１３において、出力制御部３５は、ステップＳ６において生成されたマスク音を入力する代わりに、予め用意されたマスク音をメモリ３８から読み出して入力してもよい。

出力制御部３５は、ステップＳ１２において入力した発話判定結果＝３であるか否かを判定する（Ｓ１４）。出力制御部３５は、発話判定結果＝３と判定した場合には（Ｓ１４、ＹＥＳ）、プライバシーエリアＰＡで人物ｐ２の発話がなかったことになるので、ターゲットの強調音声をマスクする必要が無いと判断する。即ち、出力制御部３５は、ステップＳ１１において入力したターゲットの強調音声をそのままスピーカ装置３７から音声出力させる（Ｓ１５）。

一方、出力制御部３５は、発話判定結果＝３ではないと判定した場合には（Ｓ１４、ＮＯ）、プライバシーエリアＰＡで人物ｐ２の発話があったことになるので、ターゲットの強調音声をマスクする必要があると判断する。出力制御部３５は、設定管理部３９のメモリ３９ｚに保持されているターゲットのエリアＴＡ、プライバシーエリアＰＡの位置情報を示す座標をそれぞれ読み出して取得する（Ｓ１６）。

また、出力制御部３５は、ターゲットの強調音声をマスクする必要があると判断した場合、ステップＳ１６において取得したターゲットのエリアＴＡ、プライバシーエリアＰＡの位置情報を基に、ステップＳ１３において入力したマスク音の音量を調整する（Ｓ１７）。出力制御部３５は、ターゲットの位置とプライバシーエリアの位置を基に、マスク音の音量を算出して調整する。より具体的には、出力制御部３５は、マイクアレイ装置ＭＡの特定のマイクロホン（例えばマイクロホンＭＡ１）に対してターゲット、プライバシーエリアの各方向のなす角を算出してターゲットからマイクロホンＭＡ１まで伝達する時とプライバシーエリアからマイクロホンＭＡ１まで伝達する時の音量減衰量の差分を推測し、この差分に応じたマスク音の音量を算出する。

なお、出力制御部３５は、発話判定結果が２の時（即ち、プライバシーエリアＰＡ内で人物ｐ２の発話があるが、ターゲットのエリアＴＡ内で人物ｐ１の発話がない時）のプライバシーエリアの強調音声とターゲットの強調音声との差分により、マスク音の適切な音量を求めてもよい。

出力制御部３５は、ステップＳ１７の後、ステップＳ１１において入力したターゲットの強調音声に、ステップＳ１７において調整した後の音量を有するマスク音を加算してスピーカ装置３７から音声出力させる（Ｓ１８）。

図９は、本実施形態の指向性制御装置３０の音声出力制御（例えば別の音への置換）の動作手順の一例を説明するフローチャートである。図１０は、本実施形態の指向性制御装置３０の音声出力制御（例えばミュート出力）の動作手順の一例を説明するフローチャートである。図９や図１０の説明において、図８に示す処理と同一の処理については同一のステップ番号を付与して説明を省略し、異なる内容について説明する。

図９において、出力制御部３５は、発話判定結果＝３ではないと判定した場合には（Ｓ１４、ＮＯ）、プライバシーエリアＰＡで人物ｐ２の発話があったことになるので、ターゲットの強調音声をマスクする必要があると判断する。出力制御部３５は、ステップＳ１１において入力したターゲットの強調音声を、ピー音、メロディ音、又はミュート出力（つまり、無音）のうちいずれかに変換してスピーカ装置３７から音声出力する（Ｓ１９）。つまり、本実施形態において、マスク音はプライバシーエリアＰＡの強調音声に基づかなくてもよく、予め準備されたピー音（Ｐ音）、メロディ音等であってもよい。これにより、プライバシーエリアで発生した音がスピーカ装置３７から一切音声出力されることがなくなる。

図１０において、出力制御部３５は、発話判定結果＝３ではないと判定した場合には（Ｓ１４、ＮＯ）、プライバシーエリアＰＡで人物ｐ２の発話があったことになるので、ターゲットの強調音声をマスクする必要があると判断する。さらに、出力制御部３５は、ステップＳ１２において入力した発話判定結果＝２であるか否かを判定する（Ｓ２０）。

出力制御部３５は、発話判定結果＝２であると判定した場合には（Ｓ２０、ＹＥＳ）、ステップＳ１１において入力したターゲットの強調音声を、ピー音、メロディ音、又はミュート出力（つまり、無音）のうちいずれかに変換してスピーカ装置３７から音声出力する（Ｓ１９）。

一方、出力制御部３５は、発話判定結果＝２ではない（つまり、発話判定結果＝１）と判定した場合には（Ｓ２０、ＮＯ）、プライバシーエリアＰＡで人物ｐ２の発話があったことになるので、ターゲットの強調音声をマスクする必要があると判断する。つまり、図８に示すステップＳ１６〜ステップＳ１８の処理がそれぞれ実行されるので、詳細な説明は省略する。

以上により、本実施形態の指向性制御システム１０では、カメラ装置ＣＡは、撮像エリアＳＡを撮像する。マイクアレイ装置ＭＡは、撮像エリアＳＡの音声を収音する。ディスプレイ装置３６は、カメラ装置ＣＡにより撮像された撮像エリアＳＡの映像を表示する。スピーカ装置３７は、マイクアレイ装置ＭＡにより収音された撮像エリアＳＡの音声を出力する。設定管理部３９は、ディスプレイ装置３６に表示された映像エリアの映像データに対して指定されたターゲットのエリアＴＡ、プライバシーエリアＰＡの各位置情報をメモリ３９ｚに記憶しておく。

指向性制御装置３０は、ターゲットのエリアＴＡの位置情報を用いて、マイクアレイ装置ＭＡからターゲットに向かう第１方向の音声を強調してターゲットの強調音声を生成する。同様に、信号処理部３３は、プライバシーエリアＰＡの位置情報を用いて、マイクアレイ装置ＭＡからプライバシーエリアに向かう第２方向の音声を強調してプライバシーエリアの強調音声を生成する。

指向性制御装置３０は、ターゲットの強調音声及びプライバシーエリアの強調音声を基に、ターゲット、プライバシーエリアにおいてそれぞれ発話があったか否かを判定し、少なくともプライバシーエリアにおいて発話があったと判定した場合に、プライバシーエリアの音声が漏れ込んだターゲットの強調音声における出力を制御する。出力制御部３５は、例えばターゲットの強調音声に、マスク音を加算してスピーカ装置３７から出力する。

これにより、少なくともプライバシーエリアＰＡ内にいる人物（例えば図６の人物ｐ２）が発話した場合、プライバシーエリアの近くに、ユーザが聞きたいターゲットの人物（例えば図６の人物ｐ１）がいたとしても、言い換えると、ターゲットの音声が強調処理された後の強調音声にプライバシーエリア内の人物の声が漏れ込んだとしても、ターゲットの強調音声にマスク音が加算されるため、ターゲットの強調音声からプライバシーエリアＰＡ内の人物の発した声の内容が分からなくなる。つまり、本実施形態の指向性制御システム１０によれば、プライバシーエリア内で音声が発せられても、その内容が他人に知られることなく、ターゲットの音声は強調されているので鮮明に聞くことができるうえに、プライバシーエリア内にいる人物のプライバシーを的確に保護することができる。また、スピーカ装置３７からはマスク音が混合された状態で聞こえるので、この混合音を聞いたユーザは、プライバシーエリアＰＡ内の音声の内容は分からなくても、いつ発話されたかが分かる。

また、指向性制御装置３０は、プライバシーエリアの強調音声の音圧ｐが音圧閾値ｓｈを超える場合には、ターゲットの強調音声に対し、マスク音を加算してスピーカ装置３７から出力し、一方、音圧ｐが音圧閾値ｓｈ以下である場合には、マスク音の加算を行わずそのままスピーカ装置３７からターゲットの強調音声を出力する。これにより、プライバシーエリアＰＡの範囲内で音声が発せられても、その音声の音圧が音圧閾値ｓｈ以下である場合には、ターゲットの強調音声が鮮明に出力され、かつマスク音の加算処理という不要な処理を省くことができ、指向性制御装置３０の処理負荷を軽減できる。

また、指向性制御装置３０は、プライバシーエリアにおいて発話があったと判定した場合に、ターゲットの強調音声にマスク音を加算する代わりに、ターゲットの強調音声を所定の代替音（例えばピー音、メロディ音、ミュート出力）に変換してスピーカ装置３７から出力させてもよい。これにより、撮像エリアＳＡ内のターゲットの強調音声が代替音に変わるので、プライバシーエリアＰＡから外れた人物（例えばターゲットの人物ｐ１）が発する音声から２人の会話の内容を推測することも難しく、秘匿性が高まる。

また、指向性制御装置３０は、プライバシーエリアの強調音声を用いて、マスク音を生成する。これにより、指向性制御装置３０は、プライバシーエリアの強調音声を用いるので、ターゲットの強調音声に漏れ込んだプライバシーエリアの音をかき消すための高精度なマスク音を生成することができる。

また、指向性制御装置３０は、マスク音を予めメモリ３８において記憶しており、ターゲットの強調音声に加算する際に、メモリ３８から読み出して取得する。これにより、指向性制御装置３０は、プライバシーエリアの強調音声を用いてマスク音を動的に生成する必要がなくなり、ターゲットの強調音声に対する加算処理の負荷を軽減できる。

また、指向性制御装置３０は、ターゲット、プライバシーエリアの各位置情報を基に、ターゲットの強調音声に加算されるマスク音の音量を調整する。これにより、指向性制御装置３０は、マイクアレイ装置ＭＡから見たターゲットの位置、プライバシーエリアの位置によって音声の伝達時の振幅減衰量を効果的に予測したうえで、適切なマスク音の音量を得ることができる。

また、指向性制御装置３０は、プライバシーエリアにおいて過去に収音された複数の音声データをメモリ３８において記憶しており、プライバシーエリアの強調音声に、メモリ３８から読み出した過去の複数の収音音声を加算することで、マスク音を生成する。これにより、指向性制御装置３０は、プライバシーエリアという会話内容が秘匿されるべき場所であることに鑑みて、そのプライバシーエリアにおいて過去に会話された複数の内容を混ぜ込むことで、ターゲットの強調音声に漏れ込んだプライバシーエリアの音声をかき消すための適正なマスク音を得ることができる。

また、指向性制御装置３０は、プライバシーエリアの音声が漏れ込んだターゲットの強調音声の出力を制限する。これにより、指向性制御装置３０は、会話内容が秘匿されるべきプライバシーエリアにおいて発話した人物の会話内容を一切、スピーカ装置３７から出力されないので、プライバシーエリアＰＡにいる人物（例えば図６の人物ｐ２）のプライバシーを的確に保護することができる。

また、指向性制御装置３０は、プライバシーエリアの音声が漏れ込んだターゲットの強調音声を加工処理して出力する。これにより、指向性制御装置３０は、会話内容が秘匿されるべきプライバシーエリアにおいて発話した人物の会話内容が全く別の音声に切り替わってスピーカ装置３７から出力されるので、プライバシーエリアＰＡにいる人物（例えば図６の人物ｐ２）のプライバシーを的確に保護することができる。

また、指向性制御装置３０は、ユーザの操作に基づいて操作部３２からプライバシーエリアＰＡの指定操作を受け付けると、指定操作に応じた位置の座標をプライバシーエリアの位置情報として設定する。これにより、ユーザは、例えばカメラ装置ＣＡによって撮像される映像に対し、指ＦＧ又はスタイラスペンで画面をなぞるようにプライバシーエリアＰＡを指定することでプライバシーエリアＰＡを任意に設定できる。

また、指向性制御装置３０は、マイクアレイ装置ＭＡにより収音された撮像エリアＳＡの音声を収音時刻とともにメモリ３８に記憶する。指向性制御装置３０は、プライバシーエリアＰＡにおいて音声が検出された時刻より所定時間前から収音されてメモリ３８に記憶された音声の出力を制御する。これにより、プライバシーエリアＰＡからの音声が検出される所定時間前から指向性制御装置３０において音声出力が制御されるので、プライバシーエリア内の音声検出からマスク音の出力までの処理に要する僅かな時間（例えば３秒程度の数秒間）、プライバシーエリアＰＡ内の音声の冒頭部分（出だし部分）がマスク処理なく出力されることを防止できる。従って、音声の冒頭部分から内容が察せられることも回避される。この場合、一旦収音した音声データをメモリ３８に記憶した後に音声を再生する事後再生、或いはマイクアレイ装置ＭＡで収音される音声の収音時間より少し遅れて（リアルタイムよりディレイをかけて）音声を再生する場合に有効である。所定時間は、マイクアレイ装置ＭＡが音声を収音してから、その音声がプライバシーエリア内で検出されたものであるか否かを判定するまでに要する僅かな時間（例えば３秒程度の数秒間）である。

（本実施形態の変形例）
前述した本実施形態では、指向性制御装置３０がターゲットやプライバシーエリアの位置情報（つまり、位置座標）を記憶し、プライバシーエリアにおいて発話があったと判定された場合に、ターゲットの強調音声にマスク音を加算したり、ターゲットの強調音声を所定の代替音に置き換え、或いは無音化したりしていた。本実施形態の変形例（以下、単に「変形例」という）では、指向性制御装置３０の代わりに、これらの処理をマイクアレイ装置が行う場合を示す。

図１１は、本実施形態の変形例におけるマイクアレイ装置ＭＢの内部構成の一例を示すブロック図である。変形例のマイクアレイ装置ＭＢにおいて、前述した本実施形態におけるマイクアレイ装置ＭＡと同一の構成要素については同一の符号を用いることでその説明を省略する。

マイクアレイ装置ＭＢは、複数のマイクロホンＭＢ１，ＭＢ２，…，ＭＢｎ、アンプ２３１，２３２，…，２３ｎ、Ａ／Ｄ変換器２４１，２４２，２４３，…，２４ｎ、ＣＰＵ２５、符号化部２８及び通信部２９を含む構成である。

アンプ２３１，２３２，…，２３ｎは、複数のマイクロホンＭＢ１，ＭＢ２，…，ＭＢｎで収音した音声信号を増幅する。

Ａ／Ｄ変換器２４１，２４２，２４３，…，２４ｎは、それぞれアンプ２３１，２３２，…，２３ｎによって増幅された音声信号をデジタル音声データに変換する。

ＣＰＵ２５は、複数のマイクロホンＭＢ１，ＭＢ２，…，ＭＢｎで収音し、Ａ／Ｄ変換器２４１，２４２，２４３，…，２４ｎによって変換された音声データを入力し、これらの音声データを基に、各種の音声出力処理を行う。ＣＰＵ２５は、複数のマイクロホンＭＢ１，ＭＢ２，…，ＭＢｎの収音により得られた音声データを収音時刻と対応付けて内部メモリ（不図示）に記憶する。

また例えば、ＣＰＵ２５は、ユーザによりターゲットのエリアＴＡやプライバシーエリアＰＡが指定されると、指向性制御装置３０から送信されたターゲットやプライバシーエリアの各位置情報を通信部２９において受信する。さらに、ＣＰＵ２５は、マイクロホンＭＢ１，ＭＢ２，…，ＭＢｎで収音され、Ａ／Ｄ変換器２４１，２４２，２４３，…，２４ｎでそれぞれ変換された音声データに対し、ターゲットやプライバシーエリアの各位置情報を用いて、マイクアレイ装置ＭＢからターゲットに向かう方向の音声を強調したり、マイクアレイ装置ＭＢからプライバシーエリアに向かう方向の音声を強調したりする。

ＣＰＵ２５は、発話判定部３４における発話判定結果が指向性制御装置３０から送信されると、通信部２９において発話判定結果を受信して内部メモリ（不図示）に記憶する。ＣＰＵ２５は、内部メモリに記憶した発話判定結果＝３ではない場合（つまり、発話判定結果＝１又は２の場合）には、マイクアレイ装置ＭＢからターゲットに向かう方向の強調された音声に対し、前述したマスク音を加算したり、ターゲットの強調音声を所定の代替音に置き換え、或いは無音化したりする。ＣＰＵ２５におけるマスク音の加算、所定の代替音への置き換え、無音化の処理は、前述した本実施形態の出力制御部３５の処理と同一であるため、詳細の説明は省略する。

符号化部２８は、ＣＰＵ２５から出力される音声データを符号化し、ネットワークＮＷで伝送可能な音声パケットを生成する。

通信部２９は、符号化部２８によって符号化された音声データを、ネットワークＮＷを介して指向性制御装置３０に送信する。また、通信部２９は、ネットワークＮＷを介して指向性制御装置３０から送信される各種の情報を受信する。各種の情報は、例えばターゲットやプライバシーエリアの各位置情報、発話判定部３４における発話判定結果が含まれる。

以上により、変形例のマイクアレイ装置ＭＢは、収音した音声データを、収音時刻と対応付けて記憶するとともに、記憶した音声データ及び収音時刻のデータを、ネットワークＮＷを介して、指向性制御装置３０に送信する。また、マイクアレイ装置ＭＢは、指向性制御装置３０における発話判定結果が指向性制御装置３０から送信されると、受信した発話判定結果＝３ではない場合に、マイクアレイ装置ＭＢからターゲットに向かう方向の強調された音声に対し、前述したマスク音を加算したり、ターゲットの強調音声を所定の代替音に置き換え、或いは無音化したりする。

また、変形例のマイクアレイ装置ＭＢを用いることにより、マイクアレイ装置ＭＢから指向性制御装置３０に送信される音声データは、マイクアレイ装置ＭＢにおいて既にマスク処理、代替音への置換又は無音化されているので、途中で盗聴されてもプライバシーエリア内の人物の声が外部に漏れることはなく、安全に音声データを送信できる。また、この場合、音声データには、マスク処理されていることを付属情報として、音声データのヘッダに付加してもよく、付加しておくことで音声データを受け取った側では、音声データがマスク処理されていることを即座に知ることができる。なお、付属情報には、時刻情報や位置情報等が含まれてもよい。

以上、図面を参照しながら実施形態について説明したが、本発明はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

例えば、上記実施形態では、マイクアレイ装置で検出される音声の音声位置がプライバシーエリア内である場合、撮像エリアＳＡで検出された音声を必ずマスク処理（マスク音加算）していたが、ユーザによってはマスク処理しなくてもよい。出力制御部３５は、例えば指向性制御装置３０を操作するユーザが一般ユーザである場合にマスク処理し、管理者等の権限のあるユーザである場合にはマスク処理しないようにすることも可能である。いずれのユーザであるかは、例えば指向性制御装置３０にログインする際のユーザＩＤ等によって判断可能である。また、ユーザの権限に応じてマスク処理する又はマスク処理しないに限らず、代替音への置換や無音化の処理も同様である。

また、出力制御部３５は、マイクアレイ装置ＭＡにより収音された音声の音声データに対してボイスチェンジ処理（加工処理）を施してもよい。ボイスチェンジ処理の一例として、出力制御部３５は、例えばマイクアレイ装置ＭＡにより収音された音声の音声データの周波数（ピッチ）の高低を大きく変化させる。つまり、スピーカ装置３７から出力される音声の周波数を音声の内容が分かりにくくなるような他の周波数に変更することで、プライバシーエリア内から聞こえる音声の内容を分からなくすることができる。従って、マイクアレイ装置ＭＡで収音された音声の内容を知ろうとしても難しくなる。このように、出力制御部３５は、マイクアレイ装置ＭＡにより収音された音声を加工処理してスピーカ装置３７から出力させることで、プライバシーエリアＰＡ内に存在する被写体（例えば人物）のプライバシーを効果的に保護することができる。

さらに、出力制御部３５は、ユーザの指ＦＧ又はスタイラスペンによって画面上で指定された指定位置に対応する音声位置がプライバシーエリアＰＡに含まれる旨を、画面上でユーザに対して明示的に通知してもよい。例えばポップアップ画面による通知や、スピーカ装置３７からの所定の通知音等により、ユーザはプライバシーエリアとして自己が指定した位置を視覚的又は感覚的に認識することができる。

本発明は、プライバシーエリア内のいる人物により音声が発せられても、その人物が発した音声の内容が他人に知られることなく、人物のプライバシー保護の劣化を抑制する指向性制御システム及び音声出力制御方法として有用である。

１０指向性制御システム
２１筐体
２６加算器
３０指向性制御装置
３１通信部
３２操作部
３３信号処理部
３４発話判定部
３５出力制御部
３６ディスプレイ装置
３７スピーカ装置
３８メモリ
３９設定管理部
３９ｚメモリ
７３，７４椅子
８０音源
２３１，２３２，…，２３ｎアンプ
２４１，２４２，２４３，…，２４ｎＡ／Ｄ変換器
２５１，２５２，２５３，…，２５ｎ遅延器
ＣＡカメラ装置
ＦＧ指
ＮＷネットワーク
ＭＡ，ＭＢマイクアレイ装置
ＭＡ１，ＭＡ２，…，ＭＡｎ，ＭＢ１，ＭＢ２，…，ＭＢｎマイクロホン
ｐ１，ｐ２人物
ＲＣレコーダ

Claims

撮像エリアを撮像する撮像部と、
前記撮像エリアの音声を収音する収音部と、
前記撮像部により撮像された前記撮像エリアの映像を表示する表示部と、
前記収音部により収音された前記撮像エリアの音声を出力する音声出力部と、
前記表示部に表示された前記撮像エリアの映像に対して指定されたターゲット、プライバシーエリアの各位置情報を記憶するメモリと、
前記ターゲット、プライバシーエリアの各位置情報を用いて、前記収音部から前記ターゲットに向かう第１方向の音声を強調し、さらに前記収音部から前記プライバシーエリアに向かう第２方向の音声を強調する音声強調部と、
前記音声強調部により強調された、前記第１方向の音声及び前記第２方向の音声を基に、前記ターゲット、前記プライバシーエリアにおいてそれぞれ発話があったか否かを判定する発話判定部と、
少なくとも前記プライバシーエリアにおいて発話があった場合に、前記プライバシーエリアの音声が漏れ込んだ前記第１方向の音声の前記音声出力部における出力を制御する出力制御部と、を備える、
指向性制御システム。
請求項１に記載の指向性制御システムであって、
前記出力制御部は、前記プライバシーエリアの音声が漏れ込んだ前記第１方向の音声にマスク音を加算して出力する、
指向性制御システム。
請求項２に記載の指向性制御システムであって、
前記出力制御部は、前記音声強調部により強調された前記第２方向の音声を基に、前記マスク音を生成する、
指向性制御システム。
請求項２に記載の指向性制御システムであって、
前記マスク音は、前記メモリに予め記憶されており、
前記出力制御部は、前記メモリから前記マスク音を読み出して取得する、
指向性制御システム。
請求項２に記載の指向性制御システムであって、
前記出力制御部は、前記ターゲット、前記プライバシーエリアの各位置情報を基に、前記マスク音の音量を調整する、
指向性制御システム。
請求項３に記載の指向性制御システムであって、
前記メモリは、前記プライバシーエリアにおいて過去に収音された複数の音声を記憶し、
前記出力制御部は、前記音声強調部により強調された前記第２方向の強調音声に、前記メモリから読み出した過去の複数の収音音声を加算することで、前記マスク音を生成する、
指向性制御システム。
請求項１に記載の指向性制御システムであって、
前記出力制御部は、前記プライバシーエリアの音声が漏れ込んだ前記第１方向の音声の出力を制限する、
指向性制御システム。
請求項１に記載の指向性制御システムであって、
前記出力制御部は、前記プライバシーエリアの音声が漏れ込んだ前記第１方向の音声を加工処理して出力させる、
指向性制御システム。
請求項１に記載の指向性制御システムであって、
前記表示部に対する前記プライバシーエリアの指定操作に応じて、指定された位置の座標を、前記プライバシーエリアの位置情報として設定する位置設定部、を更に備える、
指向性制御システム。
請求項１に記載の指向性制御システムであって、
前記メモリは、前記収音部により収音された前記撮像エリアの音声を収音時刻とともに記憶し、
前記出力制御部は、前記プライバシーエリアにおいて音声が検出された時刻より所定時間前の収音に基づいて前記メモリに記憶された前記撮像エリアの音声の出力を制御する、
指向性制御システム。
撮像部及び収音部を有する指向性制御システムにおける音声出力制御方法であって、
前記撮像部において、撮像エリアを撮像し、
前記収音部において、前記撮像エリアの音声を収音し、
前記撮像エリアの映像が表示された表示部に対して指定されたターゲット、プライバシーエリアの各位置情報をメモリに記憶し、
前記メモリに記憶された前記ターゲット、プライバシーエリアの各位置情報を用いて、前記収音部から前記ターゲットに向かう第１方向の音声を強調し、さらに前記収音部から前記プライバシーエリアに向かう第２方向の音声を強調し、
強調された前記第１方向の音声及び前記第２方向の音声を基に、前記ターゲット、前記プライバシーエリアにおいてそれぞれ発話があったか否かを判定し、
少なくとも前記プライバシーエリアにおいて発話があった場合に、前記プライバシーエリアの音声が漏れ込んだ前記第１方向の音声の出力を制御する、
音声出力制御方法。