JP6447976B2 - 指向性制御システム及び音声出力制御方法 - Google Patents

指向性制御システム及び音声出力制御方法 Download PDF

Info

Publication number
JP6447976B2
JP6447976B2 JP2016005378A JP2016005378A JP6447976B2 JP 6447976 B2 JP6447976 B2 JP 6447976B2 JP 2016005378 A JP2016005378 A JP 2016005378A JP 2016005378 A JP2016005378 A JP 2016005378A JP 6447976 B2 JP6447976 B2 JP 6447976B2
Authority
JP
Japan
Prior art keywords
sound
unit
voice
area
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016005378A
Other languages
English (en)
Other versions
JP2017126888A (ja
Inventor
正成 宮本
正成 宮本
宏之 松本
宏之 松本
信太郎 吉國
信太郎 吉國
田中 直也
直也 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2016005378A priority Critical patent/JP6447976B2/ja
Priority to PCT/JP2016/002082 priority patent/WO2016185668A1/ja
Priority to US15/572,047 priority patent/US10497356B2/en
Publication of JP2017126888A publication Critical patent/JP2017126888A/ja
Application granted granted Critical
Publication of JP6447976B2 publication Critical patent/JP6447976B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

本発明は、収音された音声の出力を制御する指向性制御システム及び音声出力制御方法に関する。
従来、マイクアレイ装置から音声の収音位置に向かう指向方向に指向性を形成する指向性制御システムが知られている(例えば、特許文献1参照)。特許文献1の指向性制御システムは、指定された音声の収音位置が既定のプライバシー保護領域(つまり、人物のプライバシーを保護するための既定のエリア)の範囲内である場合に、マイクアレイ装置により収音された音声の音声データの出力を抑制する。以下、プライバシー保護領域を「プライバシーエリア」と略記する。
特開2015−029241号公報
しかし特許文献1では、例えば状況監視のために、指向性を形成して音声を強調したい位置(以下、「ターゲット」という)として指定された場所がプライバシーエリアであった場合、音声の出力が抑制され、或いは収音が休止されてしまう。例えばプライバシーエリアに近接する地点がターゲットとして指定されてしまうと、プライバシーエリア内の音がターゲットの音に漏れて聞こえてしまい、会話の内容が他人に知られてしまう等、プライバシーエリア内にいる人物のプライバシー保護が不十分であるという課題があった。
本発明は、上述した従来の課題を解決するために、プライバシーエリア内のいる人物により音声が発せられても、その人物が発した音声の内容が他人に知られることなく、人物のプライバシー保護の劣化を抑制する指向性制御システム及び音声出力制御方法を提供することを目的とする。
本発明は、撮像エリアを撮像する撮像部と、前記撮像エリアの音声を収音する収音部と、前記撮像部により撮像された前記撮像エリアの映像を表示する表示部と、前記収音部により収音された前記撮像エリアの音声を出力する音声出力部と、前記表示部に表示された前記撮像エリアの映像に対して指定されたターゲット、プライバシーエリアの各位置情報を記憶するメモリと、前記ターゲット、プライバシーエリアの各位置情報を用いて、前記収音部から前記ターゲットに向かう第1方向の音声を強調し、さらに前記収音部から前記プライバシーエリアに向かう第2方向の音声を強調する音声強調部と、前記音声強調部により強調された、前記第1方向の音声及び前記第2方向の音声を基に、前記ターゲット、前記プライバシーエリアにおいてそれぞれ発話があったか否かを判定する発話判定部と、少なくとも前記プライバシーエリアにおいて発話があった場合に、前記プライバシーエリアの音声が漏れ込んだ前記第1方向の音声の前記音声出力部における出力を制御する出力制御部と、を備える、指向性制御システムを提供する。
また本発明は、撮像部及び収音部を有する指向性制御システムにおける音声出力制御方法であって、前記撮像部において、撮像エリアを撮像し、前記収音部において、前記撮像エリアの音声を収音し、前記撮像エリアの映像が表示された表示部に対して指定されたターゲット、プライバシーエリアの各位置情報をメモリに記憶し、前記メモリに記憶された前記ターゲット、プライバシーエリアの各位置情報を用いて、前記収音部から前記ターゲットに向かう第1方向の音声を強調し、さらに前記収音部から前記プライバシーエリアに向かう第2方向の音声を強調し、強調された前記第1方向の音声及び前記第2方向の音声を基に、前記ターゲット、前記プライバシーエリアにおいてそれぞれ発話があったか否かを判定し、少なくとも前記プライバシーエリアにおいて発話があった場合に、前記プライバシーエリアの音声が漏れ込んだ前記第1方向の音声の出力を制御する、音声出力制御方法を提供する。
本発明によれば、プライバシーエリア内のいる人物により音声が発せられても、その人物が発した音声の内容が他人に知られることなく、人物のプライバシー保護の劣化を抑制することができる。
本実施形態の指向性制御システムの内部構成の一例を示すシステム構成図 マイクアレイ装置により収音された音声に対し、特定の方向に指向性を形成する原理の一例の説明図 カメラ装置の内部構成の一例を示すブロック図 比較例として、プライバシーエリアに指定される位置にいる人物p2とターゲットの人物p1との間の距離が遠い時の音声処理動作の一例を示す図 比較例として、プライバシーエリアに指定される位置にいる人物p2とターゲットの人物p1との間の距離が近い時の音声処理動作の一例を示す図 本実施形態の、プライバシーエリアに指定された位置にいる人物p2とターゲットの人物p1との間の距離が近い時の音声処理動作の一例を示す図 本実施形態の指向性制御装置の発話判定の動作手順の一例を説明するフローチャート 本実施形態の指向性制御装置の音声出力制御(例えばマスク音加算)の動作手順の一例を説明するフローチャート 本実施形態の指向性制御装置の音声出力制御(例えば別の音への置換)の動作手順の一例を説明するフローチャート 本実施形態の指向性制御装置の音声出力制御(例えばミュート出力)の動作手順の一例を説明するフローチャート 本実施形態の変形例におけるマイクアレイ装置の内部構成の一例を示すブロック図
以下、適宜図面を参照しながら、本発明に係る指向性制御システム及び音声出力制御方法を具体的に開示した実施形態(以下、「本実施形態」という)を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
本実施形態の指向性制御システムは、例えば工場、企業、公共施設(例えば図書館、イベント会場)、又は店舗(例えば小売店、銀行)に設置される監視システム(有人監視システム及び無人監視システムを含む)として用いられるが、設置場所は特に限定されない。以下、本実施形態の説明を分かり易くするために、本実施形態の指向性制御システムは、例えば店舗内に設置されるとして説明する。
(用語の定義)
また、本実施形態において、「ユーザ」とは、指向性制御装置30を操作する人物を指し、撮像エリア(例えば店舗)や収音エリア(例えば店舗)の状況(例えば店員の接客状況)を監視する主体とする。また、「プライバシーエリア」とは、撮像エリアや収音エリア内のエリアであって、人物(例えば店舗の来店客)のプライバシーを保護するための既定のエリアである。
図1は、本実施形態の指向性制御システム10の内部構成の一例を示すシステム構成図である。指向性制御システム10は、カメラ装置CAとマイクアレイ装置MAと指向性制御装置30とレコーダRCとを含む構成である。カメラ装置CA、マイクアレイ装置MA、指向性制御装置30及びレコーダRCは、ネットワークNWを介して相互にデータ通信可能に接続されている。ネットワークNWは、有線ネットワーク(例えばイントラネット、インターネット)でもよいし、無線ネットワーク(例えば無線LAN(Local Area Network))でもよい。レコーダRCは、必須ではなく必要に応じて指向性制御システム10に設けられるものであり、過去に撮像された映像や収音された音声が指向性制御装置30において使用される時に必要となる。
撮像部の一例としてのカメラ装置CAは、例えば室内の天井に設置された全方位カメラであり、自装置が設置された空間(つまり、撮像エリア)を撮像可能な監視カメラとして機能する。カメラ装置CAは、全方位カメラに限定されず、例えば固定の画角を有する固定カメラでもよいし、パン回転・チルト回転・ズーム処理がそれぞれ可能なPTZ(Pan Tilt Zoom)カメラでもよい。カメラ装置CAは、撮像により得られた撮像エリアの映像データと撮像時刻と対応付けて記憶し、撮像時刻を含む映像データを、ネットワークNWを介して指向性制御装置30及びレコーダRCに定期的に送信する。なお、カメラ装置CAは、定期的に送信する以外に、指向性制御装置30やレコーダRCから要求があった時に撮像時刻を含む映像データを送信してもよい。
収音部の一例としてのマイクアレイ装置MAは、例えば室内の天井に設置され、自装置が設置された空間(つまり、収音エリア)における全方位の音声を収音する。ここでは、撮像エリアと収音エリアは略同一である。マイクアレイ装置MAは、例えば中央に開口部が形成された筐体を有し、さらに開口部の周囲に円周方向に沿って同心円状に配置された複数のマイクロホンユニットを有する。マイクロホンユニット(以下、「マイクロホン」という)には、例えば高音質小型エレクトレットコンデンサーマイクロホン(ECM:Electret Condenser Microphone)が用いられる。マイクアレイ装置MAは、収音により得られた音声データと収音時刻と対応付けて記憶し、収音時刻を含む音声データを、ネットワークNWを介して指向性制御装置30及びレコーダRCに定期的に送信する。なお、マイクアレイ装置MAは、定期的に送信する以外に、指向性制御装置30やレコーダRCから要求があった時に収音時刻を含む音声データを送信してもよい。
指向性制御装置30は、例えばマイクアレイ装置MA及びカメラ装置CAが設置された室内の外に設置される据置型のPC(Personal Computer)である。指向性制御装置30は、マイクアレイ装置MA又はレコーダRCから送信された音声データを用いて、マイクアレイ装置MAにおいて収音された全方位の音声(言い換えると、無指向の音声)に対して特定の方向に主ビームを形成する(つまり、指向性を形成する)ことにより、その特定の方向の音声を強調処理する。なお本実施形態では音声の強調処理は指向性制御装置30において行われるとして説明するが、指向性制御装置30ではなくマイクアレイ装置において行われてもよい。
また、指向性制御装置30は、撮像エリア内の音源の位置(以下、「音声位置」という)を検出して推定し、この推定された音源位置がプライバシーエリアの範囲内である場合に所定のマスク処理を行う。マスク処理の詳細については後述する。なお、指向性制御装置30は、PCの代わりに、携帯電話機、タブレット端末、スマートフォン等の可搬型通信端末でもよい。
記録部の一例としてのレコーダRCは、例えば大容量の記憶容量を有する記憶装置であり、カメラ装置CAから送信された撮像時刻付き映像データと、マイクアレイ装置MAから送信された収音時刻付き音声データとを対応付けて記録する。レコーダRCは、過去に記録済みの(例えば1日前に撮像及び収音された)映像データ及び音声データが指向性制御装置30によって再生される場合、ユーザの操作に基づく指向性制御装置30からの要求に応じて、撮像時刻付き映像データ及び収音時刻付き音声データを指向性制御装置30に送信する。
(指向性制御装置の構成の詳細)
指向性制御装置30は、通信部31と、操作部32と、信号処理部33と、ディスプレイ装置36と、スピーカ装置37と、メモリ38と、設定管理部39とを少なくとも含む構成である。信号処理部33は、発話判定部34及び出力制御部35を含む。
位置設定部の一例としての設定管理部39は、初期設定として、カメラ装置CAにより撮像された撮像エリアの映像が表示されたディスプレイ装置36に対してユーザにより指定されたターゲットとプライバシーエリアの位置を示す座標をそれぞれ保持する。但し、ターゲットとプライバシーエリアの各座標は、ユーザの操作部32を用いた操作によって適宜変更されてもよい。この場合、変更後の位置を示す座標が設定管理部39において保持される。なお、ターゲットとは、主に人物を想定して説明するが、人物に限定されず、例えば電子機器、スピーカ、車両、ロボット等でも構わない。
設定管理部39は、ディスプレイ装置36に表示された映像中のターゲットがユーザの指又はスタイラスペンにより指定されると、マイクアレイ装置MAからディスプレイ装置36上の指定位置に対応するターゲットに向かう方向(第1方向)を示す座標を算出して取得する。同様に、設定管理部39は、ディスプレイ装置36に表示された映像中のプライバシーエリアがユーザにより指定されると、マイクアレイ装置MAからディスプレイ装置36上の指定位置(例えばプライバシーエリアの中心位置)に対応するプライバシーエリアの中心位置に向かう方向(第2方向)を示す座標を算出して取得する。
この算出処理では、設定管理部39は、第1方向を示す座標、第2方向を示す座標を、それぞれ(θMAh1,θMAv1)、(θMAh2、θMAv2)として算出する。この座標算出処理の詳細については、例えば特許文献1において具体的に記載されているため、説明は省略する。θMAh1(θMAh2)は、マイクアレイ装置MAから、撮像エリア内にいるターゲット(プライバシーエリア)の位置に向かう第1方向(第2方向)の水平角を示す。θMAv1(θMAv2)は、マイクアレイ装置MAから、撮像エリア内にいるターゲット(プライバシーエリア)の位置に向かう第1方向(第2方向)の垂直角を示す。なお、この算出処理は信号処理部33により行われてもよい。
設定管理部39は、メモリ39zを有し、ディスプレイ装置36に表示された映像に対してユーザによって指定されたターゲットとプライバシーエリアの位置座標と、マイクアレイ装置MAからターゲット、プライバシーエリアのそれぞれに対応する指向方向を示す座標とをメモリ39zに記憶する。
設定管理部39は、マイクアレイ装置MAにより収音された音声の音圧pと比較される所定の音圧閾値shをメモリ39zに設定する。ここで、音圧pは、マイクアレイ装置MAにより収音される音の大きさを示し、スピーカ装置37から出力される音の大きさを表す音量とは区別している。音圧閾値shは、例えばマイクアレイ装置MAで収音されてスピーカ装置37から出力される音をユーザが聞き取れない、或いは聞き取れても音の内容が分からないような値に設定される。
通信部31は、カメラ装置CA又はレコーダRCから送信された撮像時刻付き映像データや、マイクアレイ装置MA又はレコーダRCから送信された収音時刻付き音声データを受信して信号処理部33に出力する。
操作部32は、ユーザの入力操作の内容を信号処理部33に通知するためのユーザインターフェース(UI:User Interface)であり、例えばマウス、キーボード等のポインティングデバイスで構成される。操作部32は、例えばディスプレイ装置36の画面に対応して配置され、ユーザの指やスタイラスペンによって入力操作が可能なタッチパネル又はタッチパッドを用いて構成されてもよい。
また、操作部32は、ディスプレイ装置36に表示された撮像エリアの映像(図4〜図6)の中で、ユーザが主体的に聞きたい対象であるターゲットのエリアTAがユーザの操作により指定されると、指定位置を示す座標を取得して信号処理部33に出力する。同様に、操作部32は、ディスプレイ装置36に表示された撮像エリアの映像(図4〜図6)の中で、プライバシー保護のためにユーザに聞かれないためのプライバシーエリアPAがユーザの操作により指定されると、指定位置を表す座標データを取得して信号処理部33に出力する。
メモリ38は、例えばRAM(Random Access Memory)を用いて構成され、指向性制御装置30が動作する際、プログラムメモリ、データメモリ、ワークメモリとして機能する。また、メモリ38は、マイクアレイ装置MAにより収音された音声の音声データを収音時刻と対応付けて記憶し、さらにカメラ装置CAにより撮像された撮像エリアの映像データを撮像時刻と対応付けて記憶する。詳細は後述するが、信号処理部33は、メモリ38に記憶された音声データを用いて、ユーザにより指定されたターゲットのエリアTAやプライバシーエリアPA内で音声が検出されたか否かを判定する。従って、マイクアレイ装置MAにより収音された実際の音声の収音時刻より若干遅れて音声が再生される。この遅れ時間は、マイクアレイ装置MAが音声を収音してから、その音声がターゲットのエリアTAやプライバシーエリアPA内で検出されたものであるか否かを判定する処理に要する時間である。また、メモリ38に音声データを一定期間分保存しておくことで、信号処理部33は、ターゲットのエリアTAやプライバシーエリアPAの音声がそれぞれ検出された時刻より所定時間前から収音された音声の出力を制御することも可能となる。このように、メモリ38は一定期間分の音声データを一時的に記憶するバッファメモリとしても機能する。
また、メモリ38は、予め用意されたマスク音(後述参照)を記憶してもよい。
信号処理部33は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)又はDSP(Digital Signal Processor)を用いて構成され、指向性制御装置30の各部の動作を全体的に統括するための制御処理、他の各部との間のデータの入出力処理、データの演算(計算)処理及びデータの記憶処理を行う。
音声強調部の一例としての信号処理部33は、メモリ38に記憶された音声データ(言い換えると、マイクアレイ装置MAにより収音された一定期間分の音声データ)を用いて、マイクアレイ装置MAから、ディスプレイ装置36に表示された映像中の指定位置に対応する音源位置に向かう指向方向に、指向性の主ビームを形成する。より具体的には、信号処理部33は、マイクアレイ装置MAから、ディスプレイ装置36に表示された映像中のターゲットのエリアTAやプライバシーエリアPAに対応する実際のターゲット、プライバシーエリア(例えば中心位置)のそれぞれに指向性を形成してターゲットの音声、プライバシーエリアの音声を強調処理する。これにより、ターゲットの音声、プライバシーエリアの音声がそれぞれ強調されるので、スピーカ装置37からより鮮明に音声として出力されることになる。
以下、信号処理部33による強調処理後のターゲットの音声を「ターゲットの強調音声」といい、信号処理部33による強調処理後のプライバシーエリアの音声を「プライバシーエリアの強調音声」という。
発話判定部34は、ターゲットの強調音声を基に、ターゲットの発話があったか否かを判定する。具体的には、発話判定部34は、ターゲットの強調音声の音圧pを算出し、メモリ39zに記憶されている音圧閾値shを超えている場合にターゲットの発話があると判定し、音圧閾値sh以下である場合にターゲットの発話がないと判定する。
また、発話判定部34は、プライバシーエリアの強調音声を基に、プライバシーエリアにおいて発話があったか否かを判定する。具体的には、発話判定部34は、プライバシーエリアの強調音声の音圧pを算出し、メモリ39zに記憶されている音圧閾値shを超えている場合にプライバシーエリアにおいて発話があると判定し、音圧閾値sh以下である場合にプライバシーエリアにおいて発話がないと判定する。発話判定部34は、ターゲットの発話の有無、プライバシーエリアにおける発話の有無の判定結果を、発話判定結果(後述参照)として保持する。発話判定部34の動作の詳細については後述する。
なお、発話判定部34は、例えば撮像エリアを複数のブロックに分割し、ブロック毎に音声の指向性を形成し、それぞれの指向方向に既定の音圧閾値shを超える音圧pを有する音声があるか否かに応じて、ターゲットやプライバシーエリアの発話があったか否かを判定してもよい。また、信号処理部33が音源を推定する方法は、例えば『論文「マイクロホンアレーを用いたCSP法に基づく複数音源位置推定」 西浦 敬信 等、電子情報通信学会論文誌 D−11 Vol.J83−D−11 No.8 pp.1713−1721 2000年 8月』の文献に記載されている。
出力制御部35は、カメラ装置CA、マイクアレイ装置MA、ディスプレイ装置36及びスピーカ装置37の動作を制御し、カメラ装置CAから送信された映像データをディスプレイ装置36に出力し、マイクアレイ装置MAから送信された音声データをスピーカ装置37から音声出力させる。
また、出力制御部35は、発話判定部34の発話判定結果に応じて、ターゲットの強調音声にマスク音を加算するかどうかを決定する。使用されるマスク音は、例えばプライバシーエリアPAの強調音声を用いて生成されてもよいし、予め用意されたピー音やノイズ音、メロディ音、又はそれらの組み合わせ等であってもよい。また、出力制御部35は、ターゲットの強調音声にマスク音を加算する代わりに、ターゲットの強調音声を所定の代替音(例えばピー音、ノイズ音、メロディ音等)に変換しても良いし、ミュート出力(つまり、無音)にしても良い。出力制御部35の動作の詳細については後述する。
表示部の一例としてのディスプレイ装置36は、カメラ装置CAにより撮像された撮像エリアの映像を表示する。
音声出力部の一例としてのスピーカ装置37は、マイクアレイ装置MAにより収音された音声データ、又は信号処理部33による強調処理後の音声データを音声出力する。なお、ディスプレイ装置36、スピーカ装置37は、それぞれ指向性制御装置30とは別体の装置として構成されてもよい。
図2は、マイクアレイ装置MAにより収音された音声に対して、特定の方向に指向性を形成する原理の一例の説明図である。指向性制御装置30は、マイクアレイ装置MAから送信された音声データを用いて、音声データの指向性制御処理によって各々のマイクロホンMA1〜MAnにより収音された各音声データを加算し、マイクアレイ装置MAの各マイクロホンMA1〜MAnの位置から特定の方向への音声(音量レベル)を強調するために、特定方向への指向性を形成した音声データを生成する。特定の方向とは、マイクアレイ装置MAから、操作部32で指定された位置に対応する実際の音源に向かう方向である。なお、マイクアレイ装置MAによって収音される音声の指向性を形成するための音声データの指向性制御処理に関する技術は、例えば特開2014−143678号公報や特開2015−029241号公報(特許文献1)等に示されるように、公知の技術である。
図2では、説明を分かり易くするため、マイクロホンは直線上に一次元配列としている。この場合、指向性は面内の二次元空間になるが、三次元空間で指向性を形成するためには、マイクロホンを二次元配列にして同様な処理方法を行えば良い。
音源80から発した音波は、マイクアレイ装置MAに内蔵される各マイクロホンMA1,MA2,MA3,〜,MA(n−1),MAnに対し、ある一定の角度(入射角=(90−θ)[度])で入射する。入射角θは、マイクアレイ装置MAから音声位置に向かう指向方向の水平角θMAhでも垂直角θMAvでもよい。
音源80は、例えばマイクアレイ装置MAが収音する収音方向に存在するカメラ装置CAの被写体である人物(例えばターゲットのエリアTAにいる人物、又はプライバシーエリアPAにいる人物)の会話であり、マイクアレイ装置MAの筐体21の面上に対し、所定角度θの方向に存在する。また、各マイクロホンMA1,MA2,MA3,…,MA(n−1),MAn間の間隔dは一定とする。
音源80から発した音波は、最初にマイクロホンMA1に到達して収音され、次にマイクロホンMA2に到達して収音され、同様に次々に収音され、最後にマイクロホンMAnに到達して収音される。
マイクアレイ装置MAは、各マイクロホンMA1,MA2,MA3,…,MA(n−1),MAnが収音したアナログの音声データを、A/D変換器241,242,243,〜,24(n−1),24nにおいてデジタルの音声データにAD変換する。
さらにマイクアレイ装置MAは、遅延器251,252,253,〜,25(n−1),25nにおいて、各々のマイクロホンMA1,MA2,MA3,…,MA(n−1),MAnにおける到達時間差に対応する遅延時間を与えて全ての音波の位相を揃えた後、加算器26において遅延処理後の音声データを加算する。これにより、マイクアレイ装置MAは、各マイクロホンMA1,MA2,MA3,…,MA(n−1),MAnに、所定角度θの方向に音声データの指向性を形成することができ、強調処理後の音声データ27を得ることができる。
このように、マイクアレイ装置MAは、遅延器251,252,253,〜,25(n−1),25nに設定される遅延時間D1,D2,D3,〜,Dn−1,Dnを変更することで、収音した音声データの指向性を簡易に形成することができる。なお、指向性制御装置30においても音声データの指向性の形成(つまり、音声データの特定の方向への強調処理)は実現可能であり、この場合、指向性制御装置30は、図2に示す遅延器251,252,…,25(n−1),25n、加算器26を少なくとも有すればよい。つまり、指向性制御装置30は、各々のマイクロホンMA1,MA2,MA3,…,MA(n−1),MAnにおける到達時間差に対応する遅延時間を与えて全ての音波の位相を揃えた後、加算器26において遅延処理後の音声データを加算すればよい。
図3は、カメラ装置CAの内部構成の一例を示すブロック図である。カメラ装置CAは、CPU41と、通信部42と、電源供給部44と、イメージセンサ45と、メモリ46と、ネットワークコネクタ47とを少なくとも含む構成である。なお、図3では、イメージセンサ45に入射光を結像させるためのレンズの図示を省略している。
CPU41は、カメラ装置CAの各部を統括的に制御する。CPU41は、イメージセンサ45により撮像された映像を構成するそれぞれの画像を基に、撮像エリアSA内の人物の動きを検出する動き検出部41zを有してもよい。人物の動きを検出する方法としては、様々な公知技術がある。例えば動き検出部41zは、撮像された画像フレーム間の差分を演算し、この画像フレーム差分から得られる動き領域の中に、縦の長さ及び横の長さの比率が人物と想定される範囲内のものがある場合、その動き領域を人物の動きとして検出する。
イメージセンサ45は、撮像エリアSAを撮像して画像データを取得するものであり、例えばCMOS(Complementary Metal Oxide Semiconductor)又はCCD(Charge Coupled Device)が用いられる。
メモリ46は、カメラ装置CAにおける動作プログラムや設定値のデータが格納されたROM(Read Only Memory)、画像データやワークデータを記憶するRAMを用いて構成される。また、メモリ46は、カメラ装置CAに挿抜自在に接続され、各種データが記憶されるメモリカードを更に有する構成であってもよい。
通信部42は、ネットワークコネクタ47を介して接続されるネットワークNWとのデータ通信を制御するネットワークインタフェースである。
電源供給部44は、カメラ装置CAの各部に直流電源を供給し、また、ネットワークコネクタ47を介してネットワークNWに接続される機器に直流電源を供給する。
ネットワークコネクタ47は、画像データ等の通信データを伝送し、また、ネットワークケーブルを介して給電可能なコネクタである。
次に、本実施形態の音声処理動作の概要について、図4〜図6を参照して説明する。図4は、比較例として、プライバシーエリアに指定される位置にいる人物p2とターゲットの人物p1との間の距離が遠い時の音声処理動作の一例を示す図である。図5は、比較例として、プライバシーエリアに指定される位置にいる人物p2とターゲットの人物p1との間の距離が近い時の音声処理動作の一例を示す図である。図6は、本実施形態の、プライバシーエリアに指定された位置にいる人物p2とターゲットの人物p1との間の距離が近い時の音声処理動作の一例を示す図である。図4〜図6では、ある空間に2人の話者がいる場合に、プライバシーエリアの指定の有無に応じた音声出力処理の動作の違いが示されている。例えば人物p1が店舗の店員、人物p2が店舗の来店客である。
図4〜図6において、カメラ装置CAによって撮像される撮像エリアSAは、応接スペースの内側である。応接スペースでは、2人の人物p1,p2がそれぞれ椅子73,74に腰かけた状態で向かい合って会話している。椅子73に座っている人物p1がターゲットとして指定され、椅子74に座っている人物p2を含むエリアがプライバシーエリアとして指定される。言い換えると、人物p1の音声はターゲットの音声、人物p2の音声はプライバシーが保護されるべき人物の音声ということができる。
図4〜図6では、ディスプレイ装置36に表示されている映像中の人物p1に対し、ユーザの指FGの操作によってターゲットのエリアTAが共通して指定されているので、スピーカ装置37からは、ターゲットの強調音声(言い換えると、人物p1が発声した「Hello」の強調音声)が出力されている。ここでは、人物p1を囲むように、ターゲットのエリアTAが指定されている。なお、ターゲットのエリアTAの指定は、ユーザの指FGによる指定に限らず、範囲を表す位置座標をキーボード(不図示)から直接入力し、又は信号処理部33が映像に現れる特定の顔画像を認識し、その顔画像を囲む範囲に設定する等の画像処理によって行われてもよい。
また図4では、ターゲットとしての人物p1とプライバシー保護の対象としての人物p2とが離れて座っているので、ターゲットとして指定された人物p1の強調音声には人物p2の発話音声が漏れ込まず、スピーカ装置37から出力された音声は人物p1の強調音声のみである。
次に図5では、図4に比べて、ターゲットとしての人物p1とプライバシー保護の対象としての人物p2との間の距離がより近づいている。この場合、ターゲットとして指定された人物p1の強調音声には人物p2の発話音声(具体的には「Thanks」の音声)が漏れ込んでいる又は漏れ込む可能性が高い。従って、本来プライバシーを保護するべき人物p2の発話音声の内容がスピーカ装置37から出力されていることになり、人物p2のプライバシーを的確に保護することができていない。
そこで本実施形態では、図6に示すように、ターゲットのエリアTAとともにプライバシーエリアPAがユーザの指FGの操作により指定される。詳細は後述するが、プライバシーエリアPAにおいて発話があると判定された場合には、ターゲットの強調音声(図6では「Hello」の音声)に対し、マスク音が加算されてスピーカ装置37から出力される。これにより、人物p1,p2が近くにいて話し合っている場合には、ターゲットの強調音声(つまり、人物p1の発話内容が強調処理された音声)に人物p2の発話内容が漏れ込む又は漏れ込む可能性が高くなるが、マスク音の加算により、スピーカ装置37からは人物p2の音声の出力が抑制されることになる。言い換えると、スピーカ装置37からは、ターゲットとして指定された人物p1の音声だけが強調されて出力されるようになり、人物p2の音声は何かよく分からない音声としてユーザに認識されるので、人物p2のプライバシーを的確に保護することが可能になる。
(指向性制御装置における音声処理の詳細)
図7は、本実施形態の指向性制御装置30の発話判定の動作手順の一例を説明するフローチャートである。図7の説明の前提として、信号処理部33は、マイクアレイ装置MA又はレコーダRCから送信された音声データを用いて、マイクアレイ装置MAから、ターゲットのエリアTAに対応する人物p1に向かう方向(第1方向)の音声を強調処理し終えている。同様に、信号処理部33は、マイクアレイ装置MA又はレコーダRCから送信された音声データを用いて、マイクアレイ装置MAから、プライバシーエリアPAに対応する人物p2に向かう方向(第2方向)の音声を強調処理し終えている。
図7において、発話判定部34は、設定管理部39に保持されている初期設定値を読み込む(S1)。具体的には、発話判定部34は、ターゲットのエリアTA、プライバシーエリアPAにおける人物の発話の有無を判定するための音圧閾値shを初期設定値として、設定管理部39のメモリ39zから読み出して取得する。
発話判定部34は、マイクアレイ装置MAから送信された音声データに基づくターゲットの強調音声、プライバシーエリアの強調音声をそれぞれ入力する(S2)。発話判定部34は、ステップS2において入力したターゲットの強調音声の音圧を算出し、さらにステップS2において入力したプライバシーエリアの強調音声の音圧を算出する(S3)。
発話判定部34は、ステップS3で算出したプライバシーエリアの強調音声の音圧pとステップS1で取得した音圧閾値shとを比較することで、プライバシーエリアPA内で人物(具体的には図6の人物p2)の発話があったか否かを判定する(S4)。発話判定部34は、プライバシーエリアPA内で人物(具体的には図6の人物p2)の発話がなかった(言い換えると、プライバシーエリアの強調音声の音圧pが音圧閾値sh以下である)と判定した場合(S4、NO)、発話判定結果=3をメモリ38に保持する(S5)。これにより、図7に示す発話判定部34の処理は終了する。
一方、発話判定部34は、プライバシーエリアPA内で人物(具体的には図6の人物p2)の発話があった(言い換えると、プライバシーエリアの強調音声の音圧pが音圧閾値shより超えている)と判定した場合(S4、YES)、プライバシーエリアの強調音声を用いて、マスク音を生成する(S6)。本実施形態において、マスク音とは、ターゲットの強調音声に加算される音声であって、プライバシーエリアPAにいる人物p2のプライバシーを保護するため(つまり、スピーカ装置37から人物p2の発話内容が出力されないため)に、人物p2の発話内容がどんなものであるか分からなくさせるための混合音である。マスク音の生成方法としては、例えばプライバシーエリアの強調音声を細かい時間(例えば500ms)領域毎に分割してばらばらにして生成する方法、プライバシーエリアの強調音声を時間領域ではなく音声を構成する一つ一つの音素毎に音声をばらばらにして生成する方法、プライバシーエリアの強調音声の周波数特性を解析して特定の帯域の音圧を上下させて生成する方法、同じプライバシーエリア内で過去に収音された発話音声を複数重ね合わせて生成する方法、等のいずれの方法であってもよく、いずれにしても公知技術である。
発話判定部34は、ステップS6の後、ステップS3で算出したターゲットの強調音声の音圧pとステップS1で取得した音圧閾値shとを比較することで、ターゲットのエリアTA内で人物(具体的には図6の人物p1)の発話があったか否かを判定する(S7)。発話判定部34は、ターゲットのエリアTA内で人物(具体的には図6の人物p1)の発話がなかった(言い換えると、ターゲットの強調音声の音圧pが音圧閾値以下である)と判定した場合(S7、NO)、発話判定結果=2をメモリ38に保持する(S8)。これにより、図7に示す発話判定部34の処理は終了する。
一方、発話判定部34は、ターゲットのエリアTA内で人物(具体的には図6の人物p1)の発話があった(言い換えると、ターゲットの強調音声の音圧pが音圧閾値shより超えている)と判定した場合(S7、YES)、発話判定結果=1をメモリ38に保持する(S9)。これにより、図7に示す発話判定部34の処理は終了する。
図8は、本実施形態の指向性制御装置30の音声出力制御(例えばマスク音加算)の動作手順の一例を説明するフローチャートである。出力制御部35は、発話判定部34で判定された発話判定結果を用いて、ターゲットの強調音声にマスク音を加算する必要があるかどうかを判断する。図8の説明の前提として、図7に示す発話判定部34により、いずれかの発話判定結果がメモリ38に保持されているとする。
図8において、出力制御部35は、ターゲットの強調音声をメモリ38から読み出して入力する(S11)。出力制御部35は、発話判定結果をメモリ38から読み出して入力する(S12)。出力制御部35は、ステップS6において生成されたマスク音を読み出して入力する(S13)。なおステップS13において、出力制御部35は、ステップS6において生成されたマスク音を入力する代わりに、予め用意されたマスク音をメモリ38から読み出して入力してもよい。
出力制御部35は、ステップS12において入力した発話判定結果=3であるか否かを判定する(S14)。出力制御部35は、発話判定結果=3と判定した場合には(S14、YES)、プライバシーエリアPAで人物p2の発話がなかったことになるので、ターゲットの強調音声をマスクする必要が無いと判断する。即ち、出力制御部35は、ステップS11において入力したターゲットの強調音声をそのままスピーカ装置37から音声出力させる(S15)。
一方、出力制御部35は、発話判定結果=3ではないと判定した場合には(S14、NO)、プライバシーエリアPAで人物p2の発話があったことになるので、ターゲットの強調音声をマスクする必要があると判断する。出力制御部35は、設定管理部39のメモリ39zに保持されているターゲットのエリアTA、プライバシーエリアPAの位置情報を示す座標をそれぞれ読み出して取得する(S16)。
また、出力制御部35は、ターゲットの強調音声をマスクする必要があると判断した場合、ステップS16において取得したターゲットのエリアTA、プライバシーエリアPAの位置情報を基に、ステップS13において入力したマスク音の音量を調整する(S17)。出力制御部35は、ターゲットの位置とプライバシーエリアの位置を基に、マスク音の音量を算出して調整する。より具体的には、出力制御部35は、マイクアレイ装置MAの特定のマイクロホン(例えばマイクロホンMA1)に対してターゲット、プライバシーエリアの各方向のなす角を算出してターゲットからマイクロホンMA1まで伝達する時とプライバシーエリアからマイクロホンMA1まで伝達する時の音量減衰量の差分を推測し、この差分に応じたマスク音の音量を算出する。
なお、出力制御部35は、発話判定結果が2の時(即ち、プライバシーエリアPA内で人物p2の発話があるが、ターゲットのエリアTA内で人物p1の発話がない時)のプライバシーエリアの強調音声とターゲットの強調音声との差分により、マスク音の適切な音量を求めてもよい。
出力制御部35は、ステップS17の後、ステップS11において入力したターゲットの強調音声に、ステップS17において調整した後の音量を有するマスク音を加算してスピーカ装置37から音声出力させる(S18)。
図9は、本実施形態の指向性制御装置30の音声出力制御(例えば別の音への置換)の動作手順の一例を説明するフローチャートである。図10は、本実施形態の指向性制御装置30の音声出力制御(例えばミュート出力)の動作手順の一例を説明するフローチャートである。図9や図10の説明において、図8に示す処理と同一の処理については同一のステップ番号を付与して説明を省略し、異なる内容について説明する。
図9において、出力制御部35は、発話判定結果=3ではないと判定した場合には(S14、NO)、プライバシーエリアPAで人物p2の発話があったことになるので、ターゲットの強調音声をマスクする必要があると判断する。出力制御部35は、ステップS11において入力したターゲットの強調音声を、ピー音、メロディ音、又はミュート出力(つまり、無音)のうちいずれかに変換してスピーカ装置37から音声出力する(S19)。つまり、本実施形態において、マスク音はプライバシーエリアPAの強調音声に基づかなくてもよく、予め準備されたピー音(P音)、メロディ音等であってもよい。これにより、プライバシーエリアで発生した音がスピーカ装置37から一切音声出力されることがなくなる。
図10において、出力制御部35は、発話判定結果=3ではないと判定した場合には(S14、NO)、プライバシーエリアPAで人物p2の発話があったことになるので、ターゲットの強調音声をマスクする必要があると判断する。さらに、出力制御部35は、ステップS12において入力した発話判定結果=2であるか否かを判定する(S20)。
出力制御部35は、発話判定結果=2であると判定した場合には(S20、YES)、ステップS11において入力したターゲットの強調音声を、ピー音、メロディ音、又はミュート出力(つまり、無音)のうちいずれかに変換してスピーカ装置37から音声出力する(S19)。
一方、出力制御部35は、発話判定結果=2ではない(つまり、発話判定結果=1)と判定した場合には(S20、NO)、プライバシーエリアPAで人物p2の発話があったことになるので、ターゲットの強調音声をマスクする必要があると判断する。つまり、図8に示すステップS16〜ステップS18の処理がそれぞれ実行されるので、詳細な説明は省略する。
以上により、本実施形態の指向性制御システム10では、カメラ装置CAは、撮像エリアSAを撮像する。マイクアレイ装置MAは、撮像エリアSAの音声を収音する。ディスプレイ装置36は、カメラ装置CAにより撮像された撮像エリアSAの映像を表示する。スピーカ装置37は、マイクアレイ装置MAにより収音された撮像エリアSAの音声を出力する。設定管理部39は、ディスプレイ装置36に表示された映像エリアの映像データに対して指定されたターゲットのエリアTA、プライバシーエリアPAの各位置情報をメモリ39zに記憶しておく。
指向性制御装置30は、ターゲットのエリアTAの位置情報を用いて、マイクアレイ装置MAからターゲットに向かう第1方向の音声を強調してターゲットの強調音声を生成する。同様に、信号処理部33は、プライバシーエリアPAの位置情報を用いて、マイクアレイ装置MAからプライバシーエリアに向かう第2方向の音声を強調してプライバシーエリアの強調音声を生成する。
指向性制御装置30は、ターゲットの強調音声及びプライバシーエリアの強調音声を基に、ターゲット、プライバシーエリアにおいてそれぞれ発話があったか否かを判定し、少なくともプライバシーエリアにおいて発話があったと判定した場合に、プライバシーエリアの音声が漏れ込んだターゲットの強調音声における出力を制御する。出力制御部35は、例えばターゲットの強調音声に、マスク音を加算してスピーカ装置37から出力する。
これにより、少なくともプライバシーエリアPA内にいる人物(例えば図6の人物p2)が発話した場合、プライバシーエリアの近くに、ユーザが聞きたいターゲットの人物(例えば図6の人物p1)がいたとしても、言い換えると、ターゲットの音声が強調処理された後の強調音声にプライバシーエリア内の人物の声が漏れ込んだとしても、ターゲットの強調音声にマスク音が加算されるため、ターゲットの強調音声からプライバシーエリアPA内の人物の発した声の内容が分からなくなる。つまり、本実施形態の指向性制御システム10によれば、プライバシーエリア内で音声が発せられても、その内容が他人に知られることなく、ターゲットの音声は強調されているので鮮明に聞くことができるうえに、プライバシーエリア内にいる人物のプライバシーを的確に保護することができる。また、スピーカ装置37からはマスク音が混合された状態で聞こえるので、この混合音を聞いたユーザは、プライバシーエリアPA内の音声の内容は分からなくても、いつ発話されたかが分かる。
また、指向性制御装置30は、プライバシーエリアの強調音声の音圧pが音圧閾値shを超える場合には、ターゲットの強調音声に対し、マスク音を加算してスピーカ装置37から出力し、一方、音圧pが音圧閾値sh以下である場合には、マスク音の加算を行わずそのままスピーカ装置37からターゲットの強調音声を出力する。これにより、プライバシーエリアPAの範囲内で音声が発せられても、その音声の音圧が音圧閾値sh以下である場合には、ターゲットの強調音声が鮮明に出力され、かつマスク音の加算処理という不要な処理を省くことができ、指向性制御装置30の処理負荷を軽減できる。
また、指向性制御装置30は、プライバシーエリアにおいて発話があったと判定した場合に、ターゲットの強調音声にマスク音を加算する代わりに、ターゲットの強調音声を所定の代替音(例えばピー音、メロディ音、ミュート出力)に変換してスピーカ装置37から出力させてもよい。これにより、撮像エリアSA内のターゲットの強調音声が代替音に変わるので、プライバシーエリアPAから外れた人物(例えばターゲットの人物p1)が発する音声から2人の会話の内容を推測することも難しく、秘匿性が高まる。
また、指向性制御装置30は、プライバシーエリアの強調音声を用いて、マスク音を生成する。これにより、指向性制御装置30は、プライバシーエリアの強調音声を用いるので、ターゲットの強調音声に漏れ込んだプライバシーエリアの音をかき消すための高精度なマスク音を生成することができる。
また、指向性制御装置30は、マスク音を予めメモリ38において記憶しており、ターゲットの強調音声に加算する際に、メモリ38から読み出して取得する。これにより、指向性制御装置30は、プライバシーエリアの強調音声を用いてマスク音を動的に生成する必要がなくなり、ターゲットの強調音声に対する加算処理の負荷を軽減できる。
また、指向性制御装置30は、ターゲット、プライバシーエリアの各位置情報を基に、ターゲットの強調音声に加算されるマスク音の音量を調整する。これにより、指向性制御装置30は、マイクアレイ装置MAから見たターゲットの位置、プライバシーエリアの位置によって音声の伝達時の振幅減衰量を効果的に予測したうえで、適切なマスク音の音量を得ることができる。
また、指向性制御装置30は、プライバシーエリアにおいて過去に収音された複数の音声データをメモリ38において記憶しており、プライバシーエリアの強調音声に、メモリ38から読み出した過去の複数の収音音声を加算することで、マスク音を生成する。これにより、指向性制御装置30は、プライバシーエリアという会話内容が秘匿されるべき場所であることに鑑みて、そのプライバシーエリアにおいて過去に会話された複数の内容を混ぜ込むことで、ターゲットの強調音声に漏れ込んだプライバシーエリアの音声をかき消すための適正なマスク音を得ることができる。
また、指向性制御装置30は、プライバシーエリアの音声が漏れ込んだターゲットの強調音声の出力を制限する。これにより、指向性制御装置30は、会話内容が秘匿されるべきプライバシーエリアにおいて発話した人物の会話内容を一切、スピーカ装置37から出力されないので、プライバシーエリアPAにいる人物(例えば図6の人物p2)のプライバシーを的確に保護することができる。
また、指向性制御装置30は、プライバシーエリアの音声が漏れ込んだターゲットの強調音声を加工処理して出力する。これにより、指向性制御装置30は、会話内容が秘匿されるべきプライバシーエリアにおいて発話した人物の会話内容が全く別の音声に切り替わってスピーカ装置37から出力されるので、プライバシーエリアPAにいる人物(例えば図6の人物p2)のプライバシーを的確に保護することができる。
また、指向性制御装置30は、ユーザの操作に基づいて操作部32からプライバシーエリアPAの指定操作を受け付けると、指定操作に応じた位置の座標をプライバシーエリアの位置情報として設定する。これにより、ユーザは、例えばカメラ装置CAによって撮像される映像に対し、指FG又はスタイラスペンで画面をなぞるようにプライバシーエリアPAを指定することでプライバシーエリアPAを任意に設定できる。
また、指向性制御装置30は、マイクアレイ装置MAにより収音された撮像エリアSAの音声を収音時刻とともにメモリ38に記憶する。指向性制御装置30は、プライバシーエリアPAにおいて音声が検出された時刻より所定時間前から収音されてメモリ38に記憶された音声の出力を制御する。これにより、プライバシーエリアPAからの音声が検出される所定時間前から指向性制御装置30において音声出力が制御されるので、プライバシーエリア内の音声検出からマスク音の出力までの処理に要する僅かな時間(例えば3秒程度の数秒間)、プライバシーエリアPA内の音声の冒頭部分(出だし部分)がマスク処理なく出力されることを防止できる。従って、音声の冒頭部分から内容が察せられることも回避される。この場合、一旦収音した音声データをメモリ38に記憶した後に音声を再生する事後再生、或いはマイクアレイ装置MAで収音される音声の収音時間より少し遅れて(リアルタイムよりディレイをかけて)音声を再生する場合に有効である。所定時間は、マイクアレイ装置MAが音声を収音してから、その音声がプライバシーエリア内で検出されたものであるか否かを判定するまでに要する僅かな時間(例えば3秒程度の数秒間)である。
(本実施形態の変形例)
前述した本実施形態では、指向性制御装置30がターゲットやプライバシーエリアの位置情報(つまり、位置座標)を記憶し、プライバシーエリアにおいて発話があったと判定された場合に、ターゲットの強調音声にマスク音を加算したり、ターゲットの強調音声を所定の代替音に置き換え、或いは無音化したりしていた。本実施形態の変形例(以下、単に「変形例」という)では、指向性制御装置30の代わりに、これらの処理をマイクアレイ装置が行う場合を示す。
図11は、本実施形態の変形例におけるマイクアレイ装置MBの内部構成の一例を示すブロック図である。変形例のマイクアレイ装置MBにおいて、前述した本実施形態におけるマイクアレイ装置MAと同一の構成要素については同一の符号を用いることでその説明を省略する。
マイクアレイ装置MBは、複数のマイクロホンMB1,MB2,…,MBn、アンプ231,232,…,23n、A/D変換器241,242,243,…,24n、CPU25、符号化部28及び通信部29を含む構成である。
アンプ231,232,…,23nは、複数のマイクロホンMB1,MB2,…,MBnで収音した音声信号を増幅する。
A/D変換器241,242,243,…,24nは、それぞれアンプ231,232,…,23nによって増幅された音声信号をデジタル音声データに変換する。
CPU25は、複数のマイクロホンMB1,MB2,…,MBnで収音し、A/D変換器241,242,243,…,24nによって変換された音声データを入力し、これらの音声データを基に、各種の音声出力処理を行う。CPU25は、複数のマイクロホンMB1,MB2,…,MBnの収音により得られた音声データを収音時刻と対応付けて内部メモリ(不図示)に記憶する。
また例えば、CPU25は、ユーザによりターゲットのエリアTAやプライバシーエリアPAが指定されると、指向性制御装置30から送信されたターゲットやプライバシーエリアの各位置情報を通信部29において受信する。さらに、CPU25は、マイクロホンMB1,MB2,…,MBnで収音され、A/D変換器241,242,243,…,24nでそれぞれ変換された音声データに対し、ターゲットやプライバシーエリアの各位置情報を用いて、マイクアレイ装置MBからターゲットに向かう方向の音声を強調したり、マイクアレイ装置MBからプライバシーエリアに向かう方向の音声を強調したりする。
CPU25は、発話判定部34における発話判定結果が指向性制御装置30から送信されると、通信部29において発話判定結果を受信して内部メモリ(不図示)に記憶する。CPU25は、内部メモリに記憶した発話判定結果=3ではない場合(つまり、発話判定結果=1又は2の場合)には、マイクアレイ装置MBからターゲットに向かう方向の強調された音声に対し、前述したマスク音を加算したり、ターゲットの強調音声を所定の代替音に置き換え、或いは無音化したりする。CPU25におけるマスク音の加算、所定の代替音への置き換え、無音化の処理は、前述した本実施形態の出力制御部35の処理と同一であるため、詳細の説明は省略する。
符号化部28は、CPU25から出力される音声データを符号化し、ネットワークNWで伝送可能な音声パケットを生成する。
通信部29は、符号化部28によって符号化された音声データを、ネットワークNWを介して指向性制御装置30に送信する。また、通信部29は、ネットワークNWを介して指向性制御装置30から送信される各種の情報を受信する。各種の情報は、例えばターゲットやプライバシーエリアの各位置情報、発話判定部34における発話判定結果が含まれる。
以上により、変形例のマイクアレイ装置MBは、収音した音声データを、収音時刻と対応付けて記憶するとともに、記憶した音声データ及び収音時刻のデータを、ネットワークNWを介して、指向性制御装置30に送信する。また、マイクアレイ装置MBは、指向性制御装置30における発話判定結果が指向性制御装置30から送信されると、受信した発話判定結果=3ではない場合に、マイクアレイ装置MBからターゲットに向かう方向の強調された音声に対し、前述したマスク音を加算したり、ターゲットの強調音声を所定の代替音に置き換え、或いは無音化したりする。
また、変形例のマイクアレイ装置MBを用いることにより、マイクアレイ装置MBから指向性制御装置30に送信される音声データは、マイクアレイ装置MBにおいて既にマスク処理、代替音への置換又は無音化されているので、途中で盗聴されてもプライバシーエリア内の人物の声が外部に漏れることはなく、安全に音声データを送信できる。また、この場合、音声データには、マスク処理されていることを付属情報として、音声データのヘッダに付加してもよく、付加しておくことで音声データを受け取った側では、音声データがマスク処理されていることを即座に知ることができる。なお、付属情報には、時刻情報や位置情報等が含まれてもよい。
以上、図面を参照しながら実施形態について説明したが、本発明はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
例えば、上記実施形態では、マイクアレイ装置で検出される音声の音声位置がプライバシーエリア内である場合、撮像エリアSAで検出された音声を必ずマスク処理(マスク音加算)していたが、ユーザによってはマスク処理しなくてもよい。出力制御部35は、例えば指向性制御装置30を操作するユーザが一般ユーザである場合にマスク処理し、管理者等の権限のあるユーザである場合にはマスク処理しないようにすることも可能である。いずれのユーザであるかは、例えば指向性制御装置30にログインする際のユーザID等によって判断可能である。また、ユーザの権限に応じてマスク処理する又はマスク処理しないに限らず、代替音への置換や無音化の処理も同様である。
また、出力制御部35は、マイクアレイ装置MAにより収音された音声の音声データに対してボイスチェンジ処理(加工処理)を施してもよい。ボイスチェンジ処理の一例として、出力制御部35は、例えばマイクアレイ装置MAにより収音された音声の音声データの周波数(ピッチ)の高低を大きく変化させる。つまり、スピーカ装置37から出力される音声の周波数を音声の内容が分かりにくくなるような他の周波数に変更することで、プライバシーエリア内から聞こえる音声の内容を分からなくすることができる。従って、マイクアレイ装置MAで収音された音声の内容を知ろうとしても難しくなる。このように、出力制御部35は、マイクアレイ装置MAにより収音された音声を加工処理してスピーカ装置37から出力させることで、プライバシーエリアPA内に存在する被写体(例えば人物)のプライバシーを効果的に保護することができる。
さらに、出力制御部35は、ユーザの指FG又はスタイラスペンによって画面上で指定された指定位置に対応する音声位置がプライバシーエリアPAに含まれる旨を、画面上でユーザに対して明示的に通知してもよい。例えばポップアップ画面による通知や、スピーカ装置37からの所定の通知音等により、ユーザはプライバシーエリアとして自己が指定した位置を視覚的又は感覚的に認識することができる。
本発明は、プライバシーエリア内のいる人物により音声が発せられても、その人物が発した音声の内容が他人に知られることなく、人物のプライバシー保護の劣化を抑制する指向性制御システム及び音声出力制御方法として有用である。
10 指向性制御システム
21 筐体
26 加算器
30 指向性制御装置
31 通信部
32 操作部
33 信号処理部
34 発話判定部
35 出力制御部
36 ディスプレイ装置
37 スピーカ装置
38 メモリ
39 設定管理部
39z メモリ
73,74 椅子
80 音源
231,232,…,23n アンプ
241,242,243,…,24n A/D変換器
251,252,253,…,25n 遅延器
CA カメラ装置
FG 指
NW ネットワーク
MA,MB マイクアレイ装置
MA1,MA2,…,MAn,MB1,MB2,…,MBn マイクロホン
p1,p2 人物
RC レコーダ

Claims (11)

  1. 撮像エリアを撮像する撮像部と、
    前記撮像エリアの音声を収音する収音部と、
    前記撮像部により撮像された前記撮像エリアの映像を表示する表示部と、
    前記収音部により収音された前記撮像エリアの音声を出力する音声出力部と、
    前記表示部に表示された前記撮像エリアの映像に対して指定されたターゲット、プライバシーエリアの各位置情報を記憶するメモリと、
    前記ターゲット、プライバシーエリアの各位置情報を用いて、前記収音部から前記ターゲットに向かう第1方向の音声を強調し、さらに前記収音部から前記プライバシーエリアに向かう第2方向の音声を強調する音声強調部と、
    前記音声強調部により強調された、前記第1方向の音声及び前記第2方向の音声を基に、前記ターゲット、前記プライバシーエリアにおいてそれぞれ発話があったか否かを判定する発話判定部と、
    少なくとも前記プライバシーエリアにおいて発話があった場合に、前記プライバシーエリアの音声が漏れ込んだ前記第1方向の音声の前記音声出力部における出力を制御する出力制御部と、を備える、
    指向性制御システム。
  2. 請求項1に記載の指向性制御システムであって、
    前記出力制御部は、前記プライバシーエリアの音声が漏れ込んだ前記第1方向の音声にマスク音を加算して出力する、
    指向性制御システム。
  3. 請求項2に記載の指向性制御システムであって、
    前記出力制御部は、前記音声強調部により強調された前記第2方向の音声を基に、前記マスク音を生成する、
    指向性制御システム。
  4. 請求項2に記載の指向性制御システムであって、
    前記マスク音は、前記メモリに予め記憶されており、
    前記出力制御部は、前記メモリから前記マスク音を読み出して取得する、
    指向性制御システム。
  5. 請求項2に記載の指向性制御システムであって、
    前記出力制御部は、前記ターゲット、前記プライバシーエリアの各位置情報を基に、前記マスク音の音量を調整する、
    指向性制御システム。
  6. 請求項3に記載の指向性制御システムであって、
    前記メモリは、前記プライバシーエリアにおいて過去に収音された複数の音声を記憶し、
    前記出力制御部は、前記音声強調部により強調された前記第2方向の強調音声に、前記メモリから読み出した過去の複数の収音音声を加算することで、前記マスク音を生成する、
    指向性制御システム。
  7. 請求項1に記載の指向性制御システムであって、
    前記出力制御部は、前記プライバシーエリアの音声が漏れ込んだ前記第1方向の音声の出力を制限する、
    指向性制御システム。
  8. 請求項1に記載の指向性制御システムであって、
    前記出力制御部は、前記プライバシーエリアの音声が漏れ込んだ前記第1方向の音声を加工処理して出力させる、
    指向性制御システム。
  9. 請求項1に記載の指向性制御システムであって、
    前記表示部に対する前記プライバシーエリアの指定操作に応じて、指定された位置の座標を、前記プライバシーエリアの位置情報として設定する位置設定部、を更に備える、
    指向性制御システム。
  10. 請求項1に記載の指向性制御システムであって、
    前記メモリは、前記収音部により収音された前記撮像エリアの音声を収音時刻とともに記憶し、
    前記出力制御部は、前記プライバシーエリアにおいて音声が検出された時刻より所定時間前の収音に基づいて前記メモリに記憶された前記撮像エリアの音声の出力を制御する、
    指向性制御システム。
  11. 撮像部及び収音部を有する指向性制御システムにおける音声出力制御方法であって、
    前記撮像部において、撮像エリアを撮像し、
    前記収音部において、前記撮像エリアの音声を収音し、
    前記撮像エリアの映像が表示された表示部に対して指定されたターゲット、プライバシーエリアの各位置情報をメモリに記憶し、
    前記メモリに記憶された前記ターゲット、プライバシーエリアの各位置情報を用いて、前記収音部から前記ターゲットに向かう第1方向の音声を強調し、さらに前記収音部から前記プライバシーエリアに向かう第2方向の音声を強調し、
    強調された前記第1方向の音声及び前記第2方向の音声を基に、前記ターゲット、前記プライバシーエリアにおいてそれぞれ発話があったか否かを判定し、
    少なくとも前記プライバシーエリアにおいて発話があった場合に、前記プライバシーエリアの音声が漏れ込んだ前記第1方向の音声の出力を制御する、
    音声出力制御方法。
JP2016005378A 2015-05-18 2016-01-14 指向性制御システム及び音声出力制御方法 Active JP6447976B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2016005378A JP6447976B2 (ja) 2016-01-14 2016-01-14 指向性制御システム及び音声出力制御方法
PCT/JP2016/002082 WO2016185668A1 (ja) 2015-05-18 2016-04-19 指向性制御システム及び音声出力制御方法
US15/572,047 US10497356B2 (en) 2015-05-18 2016-04-19 Directionality control system and sound output control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016005378A JP6447976B2 (ja) 2016-01-14 2016-01-14 指向性制御システム及び音声出力制御方法

Publications (2)

Publication Number Publication Date
JP2017126888A JP2017126888A (ja) 2017-07-20
JP6447976B2 true JP6447976B2 (ja) 2019-01-09

Family

ID=59364312

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016005378A Active JP6447976B2 (ja) 2015-05-18 2016-01-14 指向性制御システム及び音声出力制御方法

Country Status (1)

Country Link
JP (1) JP6447976B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7140542B2 (ja) * 2018-05-09 2022-09-21 キヤノン株式会社 信号処理装置、信号処理方法、およびプログラム
CN109189362B (zh) * 2018-07-09 2022-07-12 Oppo广东移动通信有限公司 发声控制方法、装置、电子设备及存储介质
US11689850B2 (en) 2018-10-11 2023-06-27 Semiconductor Energy Laboratory Co., Ltd. Sound source separation device, semiconductor device, and electronic device
JPWO2021014935A1 (ja) * 2019-07-19 2021-01-28

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009239348A (ja) * 2008-03-25 2009-10-15 Yamaha Corp 撮影装置
JP5958833B2 (ja) * 2013-06-24 2016-08-02 パナソニックIpマネジメント株式会社 指向性制御システム
JP2015082823A (ja) * 2013-10-24 2015-04-27 キヤノン株式会社 撮影制御装置、撮影制御方法およびプログラム

Also Published As

Publication number Publication date
JP2017126888A (ja) 2017-07-20

Similar Documents

Publication Publication Date Title
WO2016185668A1 (ja) 指向性制御システム及び音声出力制御方法
US11531518B2 (en) System and method for differentially locating and modifying audio sources
US20210158828A1 (en) Audio processing device, image processing device, microphone array system, and audio processing method
JP6202277B2 (ja) 音声処理システム及び音声処理方法
US9491553B2 (en) Method of audio signal processing and hearing aid system for implementing the same
JP6447976B2 (ja) 指向性制御システム及び音声出力制御方法
JP2022526761A (ja) 阻止機能を伴うビーム形成マイクロフォンローブの自動集束、領域内自動集束、および自動配置
JP6493860B2 (ja) 監視制御システム及び監視制御方法
WO2015162645A1 (ja) 音声処理装置、音声処理システム、及び音声処理方法
US11467666B2 (en) Hearing augmentation and wearable system with localized feedback
JP6569853B2 (ja) 指向性制御システム及び音声出力制御方法
WO2015151130A1 (ja) 音声処理装置、音声処理システム、及び音声処理方法
WO2019207912A1 (ja) 情報処理装置及び情報処理方法
EP3528509B9 (en) Audio data arrangement
JP2016219965A (ja) 指向性制御システム及び音声出力制御方法
JP2016219966A (ja) 指向性制御システム及び音声出力制御方法
JP6813176B2 (ja) 音声抑制システム及び音声抑制装置
JP2020053882A (ja) コミュニケーション装置、コミュニケーションプログラム、及びコミュニケーション方法
JP7111202B2 (ja) 収音制御システム及び収音制御システムの制御方法
JP6860178B1 (ja) 映像処理装置及び映像処理方法
US20230229383A1 (en) Hearing augmentation and wearable system with localized feedback
TW202120953A (zh) 基於雷達之雜音過濾技術

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181126

R151 Written notification of patent or utility model registration

Ref document number: 6447976

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151