以下、本発明に係る音声処理システム及び音声処理方法の各実施形態について、図面を参照して説明する。各実施形態の音声処理システムは、工場、公共施設(例えば図書館又はイベント会場)、又は店舗(例えば小売店、銀行)に設置される監視システム(有人監視システム及び無人監視システムを含む)に適用される。
(第1の実施形態)
図1(A)及び図1(B)は、各実施形態の音声処理システム5A,5Bのシステム構成を示すブロック図である。音声処理システム5Aは、監視用のカメラ10,10Aと、マイクアレイ20と、音声処理装置40とを含む構成である。カメラ10,10Aと、マイクアレイ20と、音声処理装置40とは、ネットワーク30を介して相互に接続されている。
音声処理システム5Bは、監視用のカメラ10B,10Cと、マイクアレイ20Aと、レコーダ45Aと、PC(Personal Computer)70とを含む構成である。カメラ10B,10Cと、マイクアレイ20Aと、レコーダ45Aと、PC70とは、ネットワーク30Aを介して相互に接続されている。
以下、音声処理システム5Aの各部の動作を主に説明し、音声処理システム5Bの各部の動作については音声処理システム5Aの動作と異なる内容について説明する。
撮像部としてのカメラ10,10Aは、例えばイベント会場の室内の天井(例えば図6参照)に設置される監視カメラであり、ネットワーク30を介して接続された監視システム制御室(不図示)から遠隔操作が可能なパンチルト機能、ズームイン機能及びズームアウト機能を有し、監視対象の地点(場所)の周囲の映像(静止画及び動画を含む。以下同様)を撮像する。カメラ10,10Aは、撮像した映像のデータ(映像データ)を、ネットワーク30を介してレコーダ45に記録する。
収音部としてのマイクアレイ20は、例えばイベント会場の室内の天井(例えば図6参照)に設置され、複数のマイクロホン22(例えば図2参照)が一様に設けられたマイクロホンである。マイクアレイ20は、各々のマイクロホン22を用いて、監視対象の地点(場所)周囲の音声を収音し、各々のマイクロホン22により収音された音声のデータ(音声データ)を、ネットワークを介してレコーダ45に記録する。マイクアレイ20の構造は、図2を参照して後述する。
音声処理装置40は、レコーダ45と、信号処理部50と、操作部55と、再生部60とを含む構成である。レコーダ45は、レコーダ45におけるデータの記録等の各処理を制御するための制御部(不図示)と、映像データ及び音声データを格納するための記録部(不図示)とを含む構成である。レコーダ45は、カメラ10,10Aにより撮像された映像データと、マイクアレイ20により収音された音声データとを対応付けて記録する。
信号処理部50は、例えばCPU(Central Processing Unit)、MPU(Micro Processing Unit)又はDSP(Digital Signal Processor)を用いて構成され、音声処理装置40の各部の動作を全体的に統括するための制御処理、他の各部との間のデータの入出力処理、データの演算(計算)処理及びデータの記憶処理を実行する。
信号処理部50は、レコーダ45に記録されている音声データを用いて、後述する音声データの指向性制御処理によって各々のマイクロホンにより収音された各音声データを加算し、マイクアレイ20の各マイクロホン22の位置から特定方向への音声(音量レベル)を強調(増幅)するために、特定方向への指向性を形成した音声データを生成する。また、信号処理部50は、マイクアレイ20から送信された音声データを用いて、マイクアレイ20から特定方向(指向方向)への音声の音量レベルを強調(増幅)するために、特定方向への指向性を形成した音声データを生成しても良い。なお、特定方向とは、マイクアレイ20から、操作部55から指定された所定の指定箇所に対応する位置に向かう方向であり、音声データの音量レベルを強調(増幅)するためにユーザにより指定される方向である。
信号処理部50は、レコーダ45に記録された映像データが全方位カメラ(後述参照)によって撮像された場合には、レコーダ45に記録された映像データの座標系(例えばx軸,y軸,z軸のうち2次元又は3次元の座標変換)の変換処理を行い、変換処理後の映像データをディスプレイ63に表示させる(図9(C)及び図9(E)参照)。
操作部55は、例えばディスプレイ63の画面に対応して配置され、ユーザの指95又はスタイラスペンによって入力操作が可能なタッチパネル又はタッチパッドを用いて構成される。操作部55は、ユーザの操作に応じて、音声データの音量レベルの強調(増幅)を所望する1つ以上の指定箇所の座標のデータを信号処理部50に出力する。なお、操作部55は、マウス又はキーボード等のポインティングデバイスを用いて構成されても良い。
再生部60は、ディスプレイ63と、スピーカ65とを含む構成であり、レコーダ45に記録された映像データをディスプレイ63に表示させ、更に、レコーダ45に記録された音声データをスピーカ65に音声出力させる。なお、ディスプレイ63及びスピーカ65は、再生部60とは別々の構成としても良い。
表示部としてのディスプレイ63は、カメラ10,10Aによって撮像されてレコーダ45に記録された映像データを表示する。
音声出力部としてのスピーカ65は、マイクアレイ20によって収音されてレコーダ45に記録された音声データ、もしくはその音声データを基にして信号処理部50にて特定方向への強調処理を行った音声データを音声出力する。
ここで、音声処理装置40は、レコーダ45と音声処理装置40における他の各部とが異なる装置の構成としても良い(図1(B)参照)。具体的には、図1(A)に示す音声処理装置40は、図1(B)に示すレコーダ45Aと、図1(B)に示すPC70とを含む構成としても良い。即ち、PC70は、汎用のコンピュータを用いて構成され、信号処理部71と、ディスプレイ73及びスピーカ75を含む再生部72と、操作部78とを含む構成である。レコーダ45A及びPC70は、音声処理システム5Aにおける音声処理装置40に相当し、同様の機能及び動作を実現する。
また、カメラ10B,10C及びマイクアレイ20Aの機能は、それぞれ音声処理システム5Aにおけるカメラ10,10A及びマイクアレイ20の機能と同一である。
なお、音声処理システム5A,5Bに設置されるカメラの台数は、任意である。また、ネットワーク30,30Aが相互に接続され、音声処理システム5A−5Bの間においてデータの転送が可能でも良い。
図2(A)は、マイクアレイ20の外観図である。マイクアレイ20は、円盤状の筐体21に配置された複数のマイクロホン22を含む構成である。複数のマイクロホン22は、筐体21の面に沿って配置され、筐体21と同一の中心を有する小さい円状及び大きい円状の2個の同心円状に沿って配置されている。小さな円状に沿って配置された複数のマイクロホン22Aは、互いの間隔が狭く、高い音域に適した特性を有する。一方、大きな円状に沿って配置された複数のマイクロホン22Bは、直径が大きく、低い音域に適した特性を有する。
図2(B)は、第3の実施形態におけるマイクアレイ20Cの外観とマイクアレイ20Cと全方位カメラ10E(図9(A)参照)との取り付け状態とを示す図である。図2(B)に示すマイクアレイ20Cは、内側に開口部21aが形成されたドーナツ型形状の筐体21Cと、同筐体21Cに一様に設けられた複数のマイクロホン22Cとを含む構成である。複数のマイクロホン22Cは、筐体21Cに対して同心円状に沿って配置されている。
図2(C)では、筐体21Cの開口部21aの内側には、図9(A)に示す全方位カメラ10Eが挿通した状態で取り付けられる。本実施形態では、全方位カメラ10Eは、例えば魚眼レンズを搭載したカメラであり、ホールの床面の広範囲を撮像するように取り付けられている。このように、全方位カメラ10Eとマイクアレイ20Cとは、マイクアレイ20Cの筐体21Cの中心を共通とした同軸上に配置されるので、同一の座標系を用いることが可能である。
図3は、マイクアレイ20を用いた指向性制御処理の原理の説明図である。図3では、遅延和方式を用いた指向性制御処理の原理について簡単に説明する。音源80から発した音波が、マイクアレイ20の各マイクロホン22a,22b,22c,…,22n−1,22nに対し、ある一定の角度(入射角=(90−θ)[度])で入射するとする。マイクアレイ20の筐体21の面に対し、音源80は所定角度θの方向に配置されているとする。また、マイクロホン22a,22b,22c,…,22n−1,22n間の間隔は一定である。
音源80から発した音波は、最初にマイクロホン22aに到達して収音され、次にマイクロホン22bに到達して収音され、次々に収音され、最後にマイクロホン22nに到達して収音される。なお、マイクアレイ20の各マイクロホン22a,22b,22c,…,22n−1,22nの位置から音源80に向かう方向は、例えば音源80が人物の会話時の音声である場合又は周囲の音楽である場合を想定すれば、人物の会話時の音声又は周囲の音楽の音声データの音量レベルを強調(増幅)するために操作部55から指定された所定の範囲に対応する方向と同じと考えることができる。
ここで、音波がマイクロホン22a,22b,22c,…,22n−1に到達した時刻から最後に収音されたマイクロホン22nに到達した時刻までには、到達時間差τ1,τ2,τ3,…,τn−1が生じる。このため、各々のマイクロホン22a,22b,22c,…,22n−1,22nにより収音された音声データがそのまま加算された場合には、位相がずれたまま加算されるため、音波の音量レベルが全体的に弱め合うことになってしまう。
なお、τ1は音波がマイクロホン22aに到達した時刻と音波がマイクロホン22nに到達した時刻との差分の時間であり、τ2は音波がマイクロホン22bに到達した時刻と音波がマイクロホン22nに到達した時刻との差分の時間であり、τn−1は音波がマイクロホン22n−1に到達した時刻と音波がマイクロホン22nに到達した時刻との差分の時間である。
一方、本実施形態を含む各実施形態では、信号処理部50は、マイクロホン22a,22b,22c,…,22n−1,22n毎に対応して設けられたA/D変換器51a,51b,51c,…,51n−1,51n及び遅延器52a,52b,52c,…,52n−1,52nと、加算器57と、を有する構成である(図3参照)。
即ち、信号処理部50は、各マイクロホン22a,22b,22c,…,22n−1,22nにより収音されたアナログの音声データを、A/D変換器51a,51b,51c,…,51n−1,51nにおいてAD変換することでデジタルの音声データを得る。更に、信号処理部50は、遅延器52a,52b,52c,…,52n−1,52nにおいて、各々のマイクロホン22a,22b,22c,…,22n−1,22nにおける到達時間差に対応する遅延時間を与えて位相を揃えた後、加算器57において遅延処理後の音声データを加算する。これにより、信号処理部50は、各マイクロホン22a,22b,22c,…,22n−1,22nの設置位置からの所定角度θの方向の音声データを強調した音声データを生成することができる。例えば図3では、遅延器52a,52b,53c,…,52n−1,52nに設定された各遅延時間D1,D2,D3,…,Dn−1,Dnは、それぞれ到達時間差τ1,τ2,τ3,…,τn−1に相当し、数式(1)により示される。
L1は、マイクロホン22aとマイクロホン22nにおける音波到達距離の差である。L2は、マイクロホン22bとマイクロホン22nにおける音波到達距離の差である。L3は、マイクロホン22cとマイクロホン22nにおける音波到達距離の差である。Ln−1は、マイクロホン22n−1とマイクロホン22nにおける音波到達距離の差である。Vsは音速である。L1,L2,L3,…,Ln−1,Vsは既知の値である。図3では、遅延器52nに設定される遅延時間Dnは0(ゼロ)である。
このように、信号処理部50は、遅延器52a,52b,52c,…,52n−1,52nに設定される遅延時間D1,D2,D3,…,Dn−1,Dnを変更することで、レコーダ45に記録された音声データを用いて、マイクアレイ20の設置位置を基準とした任意の方向の音声データを強調した音声データを生成することができ、音声処理システム5A,5Bにおける音声データの指向性制御処理が簡易に行える。
次に、本実施形態の音声処理システム5A,5Bの記録時及び再生時の各動作を説明する。ここでは、音声処理システム5Aが監視システムに適用された場合について説明する。図4は、音声処理システム5Aの記録時の動作手順を説明するフローチャートである。
図4において、例えば監視システム制御室(不図示)にいるユーザからの遠隔操作により、カメラ10,10Aは、監視対象の地点(場所)の周囲の映像の撮像を開始する(S1)。カメラ10,10Aによる撮像の開始と同時又は略同時に、マイクアレイ20は、監視対象の地点(場所)の周囲の音声の収音を開始する(S2)。カメラ10,10Aは、撮像された映像データを、ネットワーク30を介して接続されたレコーダ45に転送する。マイクアレイ20は、収音された音声データを、ネットワーク30を介して接続されたレコーダ45に転送する。
レコーダ45は、カメラ10,10Aから転送された映像データと、マイクアレイ20から転送された音声データとを全て対応付けて記録媒体に格納して記録する(S3)。ユーザからの遠隔操作により、カメラ10,10Aと、マイクアレイ20とレコーダ45との記録時の動作が終了する。
図5は、1つ以上の指定箇所を指定する場合における、音声処理システム5A,5Bの再生時の動作手順を説明するフローチャートである。
図5において、音声処理装置40のレコーダ45は、ユーザからの直接的な操作或いは遠隔操作により再生したい映像データの指定を受け付ける(S11)。映像データの指定には、例えば記録された日時及びカメラの種類が条件として用いられる。再生部60は、ステップS11において指定された条件に応じた映像データを再生し、ディスプレイ63の画面に表示させる。更に、再生部60は、再生された映像データに対応付けてレコーダ45に格納されている音声データも再生し、スピーカ65から音声出力させる。
ここで、再生部60が再生している映像データの再生中或いは一時停止中に、ユーザが、操作部55を介して、ディスプレイ63の画面に表示されている映像データの中で音声(音量レベル)を強調(増幅)する1つ以上の指定箇所を指定したとする。信号処理部50は、ユーザの指定操作に応じて、映像データの内容の中で音声(音量レベル)を強調(増幅)する1つ以上の指定箇所の指定を受け付ける(S12)。
以下、操作部55を介して、マイクアレイ20,20Aを基準として、音声(音量レベル)を強調(増幅)する方向(指向方向)に指向性を形成するために、ユーザにより指定された指定箇所を「指定箇所」と略記する。ステップS12では、例えばユーザが、ディスプレイ63の画面を指95でタッチすることで、ディスプレイ63の画面に表示された映像データに対する指定箇所、又はタッチされた指定箇所を中心とする所定の矩形の音声強調範囲が指定されたとする。
信号処理部50は、操作部55を介して指定された1つ以上の指定箇所又は音声強調範囲を基に、マイクアレイ20の各マイクロホン22の位置の中心位置から1つ以上の指定箇所又は音声強調範囲の例えば中心に対応する実際の現場の各位置(各音声位置)に向かう方向(各指向方向)を、図3を参照して説明した所定角度θ1,θ2,…,θnの方向、即ち、音声(音量レベル)を強調(増幅)する各方向(各指向方向)として算出する。更に、信号処理部50は、現在再生部60によって再生されている映像データと対応付けてレコーダ45に格納されている音声データに対し、算出された所定角度θ1,θ2,…,θnにそれぞれ指向性を形成した音声データ、即ち、所定角度θ1,θ2,…,θnの音声(音量レベル)が強調(増幅)された音声データを生成する(S13)。
なお、本実施形態では、信号処理部50は、マイクアレイ20の各マイクロホン22の位置の中心位置から1つ以上の指定箇所又は音声強調範囲の例えば中心に対応する各音声位置に向かう方向に指向性を形成した音声データを生成又は合成するが、更に、1つ以上の指定箇所又は音声強調範囲に対応する各音声位置に向かう方向(所定角度θ1,θ2,…,θn)から大きく外れる方向(例えば所定角度θ1,θ2,…,θnから±5度以上外れる方向)に対する音声データを抑圧処理しても良い。
再生部60は、信号処理部50によって1つ以上の指定箇所又は音声強調範囲に対応する各音声位置に向かう方向の音声(音量レベル)が強調(増幅)された各音声データを、ステップS11の指定に応じてディスプレイ63に表示されている映像データと同期させて、スピーカ65から音声出力させる(S14)。これにより、音声処理装置40の再生時における動作は終了する。
図6は、第1の実施形態の音声処理システム5Aの使用形態の一例を示す模式図である。図6(A)は、例えば屋内のイベント会場としてのホールの天井85に、1台のカメラ10と1台のマイクアレイ20とが離れた位置に設置された様子を示す図である。
図6(A)では、2人の人物91,92がホールの床87に立って会話をしている。2人の人物91,92から少し離れた位置には、スピーカ82が床87の上に接して載置されており、スピーカ82から音楽が流れている。また、カメラ10は、カメラ10に予め設定された監視対象の地点(場所)の周囲にいる人物91,92を撮像している。更に、マイクアレイ20は、ホール全体の音声を収音している。
図6(B)は、映像データがディスプレイ63に表示され、音声データがスピーカ65において音声出力されている様子を示す図である。ディスプレイ63の画面には、カメラ10が撮像した映像データが表示されている。また、スピーカ65からは、2人の人物91,92の会話又はホール内の音楽が音声出力されている。
ユーザは、例えばディスプレイ63の画面に表示された2人の人物91,92の映像データの中央付近を指95でタッチしたとする。タッチ点63aはユーザにより指定された指定箇所となる。信号処理部50は、マイクアレイ20によって収音された音声、即ち各マイクロホン22が収音した各音声データを用いて、マイクアレイ20の各マイクロホン22の位置から、ユーザが指定したタッチ点63a又は矩形範囲63bの中心に対応する音声位置に向かう指向方向(図6(A)に示す符号eで示される方向)に指向性を形成した音声データを生成する。
即ち、信号処理部50は、各マイクロホン22が収音した各音声データを用いて、マイクアレイ20の各マイクロホン22の位置から、ユーザが指定したタッチ点63a又は矩形範囲63bの中心に対応する音声位置に向かう指向方向の音声(音量レベル)を強調(増幅)した音声データを生成する。再生部60は、信号処理部50が生成した音声データを、カメラ10が撮像した映像データと同期させてスピーカ65から音声出力させる。
この結果、ユーザによって指定されたタッチ点63a又は矩形範囲63bにおける音声データが強調され、スピーカ65から2人の人物91,92の会話(例えば図6(A)に示す「Hello」参照)が大きな音量によって音声出力される。一方、2人の人物91,92に比べ、マイクアレイ20により近い距離に載置されているがユーザによって指定されたタッチ点63aではないスピーカ82から流れている音楽(図6(A)に示す「♪〜」参照)は強調して音声出力されず、2人の人物91,92の会話に比べて小さな音量によって音声出力される。
以上により、本実施形態では、音声処理システム5A又は5Bは、レコーダ45に記録された映像データ及び音声データの再生中において、ユーザによって指定された任意の再生時間に対する映像中の音声データを強調して出力することができる。これにより、ユーザは、ディスプレイ63の画面に表示された映像データを見ながら、音声データを強調したい箇所をタッチして指定するだけで、簡単にその指定箇所又は指定箇所を含む指定範囲(音声強調範囲)における音声データを強調して音声出力させることができる。このように、本実施形態の音声処理システム5A又は5Bでは、ユーザは、カメラ10によって撮像された映像データをディスプレイ63にて目視しながら、自己に必要な範囲の音声情報を容易に得ることができる。
例えば、本実施形態の音声処理システム5A又は5Bは、何かしらのアクシデントが発生した場合でも、アクシデントの発生後においても、マイクアレイ20の各マイクロホン22の位置からアクシデントの発生地点に向かう方向に指向性を形成した音声データを生成することで、アクシデントの発生時点における会話又は音声をユーザに確認させることができる。
また、本実施形態の音声処理システム5A又は5Bは、カメラ10とマイクアレイ20とは、屋内のホール等の天井85に設置されているので、ホール内の至る所を監視することが可能となる。
(第2の実施形態)
第1の実施形態では、カメラが1台である場合の音声処理システム5Aの使用形態の一例を説明した。第2の実施形態では、カメラが複数台(例えば2台)である場合の音声処理システム5Cの使用形態の一例を説明する。
なお、第2の実施形態の音声処理システム5Cでは、カメラが複数台(例えば2台)であること以外は、第1の実施形態の音声処理システム5A又は5Bと同一の構成を有するので、第1の実施形態の音声処理システム5A又は5Bと同一の構成要素については同一の符号を用いることで、その説明を省略する。
図7は、第2の実施形態の音声処理システム5Cの使用形態の一例を示す模式図である。図7(A)は、例えば屋内のホールの天井85に、2台のカメラ10,10Aと、2台のカメラ10,10Aの中間位置にある1台のマイクアレイ20と、スピーカ83とが設置された様子を示す図である。
また、ホールの床87には、4人の人物91,92,93,94が立っており、人物91と人物92とが会話しており、人物93と人物94とが会話している。これら2組の間の位置には、スピーカ82が床87の上に載置されており、音楽が流れている。また、スピーカ83は、人物93と人物94とのほぼ真上の天井85に設置されている。
カメラ10は、4人の人物91,92,93,94から少し離れた位置から2人の人物91,92を撮像しており、マイクアレイ20は、スピーカ82のほぼ真上の天井85に設置されており、ホール全体の音声を収音している。カメラ10Aは、4人の人物91,92,93,94から少し離れた位置から人物93,94を撮像している。
図7(B)は、カメラ10により撮像された映像データがディスプレイ63に表示され、音声データがスピーカ65において音声出力されている様子を示す図である。ディスプレイ63の画面には、カメラ10が撮像した映像データが表示されている。また、スピーカ65からは、2人の人物91,92の会話又はホール内の音楽が音声出力されている。
ユーザは、例えばディスプレイ63の画面に表示された2人の人物91,92の映像データの中央付近を指95でタッチしたとする。信号処理部50は、マイクアレイ20によって収音された音声、即ち各マイクロホン22が収音した各音声データを用いて、マイクアレイ20の各マイクロホン22の位置から、ユーザが指定したタッチ点63a又は矩形範囲63bの中心に対応する音声位置に向かう指向方向(図7(A)に示す符号eで示される方向)に指向性を形成した音声データを生成する。
即ち、信号処理部50は、各マイクロホン22が収音した各音声データを用いて、マイクアレイ20の各マイクロホン22の位置から、ユーザが指定したタッチ点63a又は矩形範囲63bの中心に対応する音声位置に向かう指向方向の音声(音量レベル)を強調(増幅)した音声データを生成する。再生部60は、信号処理部50が生成した音声データを、カメラ10が撮像した映像データと同期させてスピーカ65から音声出力させる。
この結果、ユーザによって指定されたタッチ点63a又は矩形範囲63bにおける音声データが強調され、スピーカ65から2人の人物91,92の会話(例えば図7(A)に示す「Hello」参照)が大きな音量によって音声出力される。一方、2人の人物91,92に比べ、マイクアレイ20により近い距離に載置されているがユーザによって指定された矩形範囲63bに含まれないスピーカ82から流れている音楽(図7(A)に示す「♪〜」参照)は強調して音声出力されず、2人の人物91,92の会話に比べて小さな音量によって音声出力される。
図7(C)は、カメラ10Aにより撮像された映像データがディスプレイ63に表示され、音声データがスピーカ65において音声出力されている様子を示す図である。ディスプレイ63の画面には、カメラ10Aが撮像した映像データが表示されている。また、スピーカ65からは、2人の人物93,94の会話又はホール内の音楽が音声出力されている。
ユーザは、例えばディスプレイ63の画面に表示された2人の人物93,94の映像データの中央付近を指95でタッチしたとする。信号処理部50は、マイクアレイ20によって収音された音声、即ち各マイクロホン22が収音した各音声データを用いて、マイクアレイ20の各マイクロホン22の位置から、ユーザが指定したタッチ点63c又は矩形範囲63dの中心に対応する音声位置に向かう指向方向(図7(A)に示す符号fで示される方向)に指向性を形成した音声データを生成する。
即ち、信号処理部50は、各マイクロホン22が収音した各音声データを用いて、マイクアレイ20の各マイクロホン22の位置から、ユーザが指定したタッチ点63c又は矩形範囲63dの中心に対応する音声位置に向かう指向方向の音声(音量レベル)を強調(増幅)した音声データを生成する。再生部60は、信号処理部50が生成した音声データを、カメラ10Aが撮像した映像データと同期させてスピーカ65から音声出力させる。
この結果、ユーザによって指定されたタッチ点63c又は矩形範囲63dにおける音声データが強調され、スピーカ65から2人の人物91,92の会話(例えば図7(A)に示す「Hi」参照)が大きな音量によって音声出力される。一方、2人の人物93,94に比べ、マイクアレイ20により近い距離に載置されているがユーザによって指定された矩形範囲63dに含まれないスピーカ82から流れている音楽(図7(A)に示す「♪〜」参照)は強調して音声出力されず、2人の人物93,94の会話に比べて小さな音量によって音声出力される。
以上により、本実施形態では、音声処理システム5Cは、レコーダ45に記録された映像データ及び音声データの再生中において、ユーザによって指定されたいずれかのカメラ10又は10Aにおける映像データに対して指定された任意の再生時間に対する映像中の音声データを強調して出力することができる。これにより、ユーザは、カメラ10又は10Aが撮像した映像データをディスプレイ63で見ながら、音声(音量レベル)を強調(増幅)したい箇所をタッチして指定するだけで、簡単にその指定された指定箇所又はその指定箇所を含む指定範囲における音声データを強調して音声出力させることができる。このように、本実施形態の音声処理システム5Cでは、ユーザは、カメラ10又は10Aによって撮像された映像データをディスプレイ63にて目視しながら、自己に必要な範囲の音声情報を容易に得ることができる。
また、本実施形態では第1の実施形態に比べて、音声処理システム5Cにおけるカメラの設置台数が複数でも良いため、カメラの台数に合わせてマイクアレイの台数を増やさなくて済み、コストの低減が可能な音声処理システム5Cを構築でき、音声処理システム5Cの省スペースを図ることができる。また、音声処理システム5Cは、1台目のカメラ10が既に設置された音声処理システム5A又は5Bに対し、2台目のカメラ10Aを増設するだけで第1の実施形態の音声処理システム5A又は5Bと同様な動作及び効果を得ることができ、音声処理システムの拡張性を向上できる。
(第3の実施形態)
第1及び第2の各実施形態では、カメラとマイクアレイとが天井の異なる場所に設置されている音声処理システム5A又は5Bの使用形態の一例を説明した。第3の実施形態では、全方位カメラとマイクアレイとが一体として同軸上に設置された音声処理システム5Dの使用形態の一例を説明する。
なお、第3の実施形態の音声処理システム5Dでは、全方位カメラとマイクアレイとが一体として同軸上に設置されたこと以外は、第1の実施形態の音声処理システム5A又は音声処理システム5Bと同一の構成を有するので、第1の実施形態の音声処理システム5A又は5Bと同一の構成要素については同一の符号を用いることで、その説明を省略する。
図9は、音声処理システム5Dの使用形態の一例を示す模式図である。図9(A)は、例えば屋内のホールの天井85に、ドーナツ型形状のマイクアレイ20Cと、マイクアレイ20Cと一体として組み込まれた全方位カメラ10Eと、スピーカ83とが設置された様子を示す図である。図9(A)では、人物91,92,93,94の会話状況と、スピーカ82,83の各動作状況は第2の実施形態における状況と同じとする。
図9(B)は、全方位カメラ10Eが撮像した映像データにおいて2人の人物91,92が選択される様子を示す図である。図9(B)では、ディスプレイ63の画面には、全方位カメラ10Eにおける座標系が用いられた映像データ、即ち全方位カメラ10Eが撮像した映像データがそのまま表示されている。図9(C)は、画像変換後の2人の人物91,92の映像データがディスプレイに表示され、人物91,92の会話の音声データがスピーカ65において音声出力されている様子を示す図である。
ユーザは、例えばディスプレイ63の画面に表示された4人の人物91,92,93,94の映像データの左上付近の指定箇所を指95でタッチしたとする。信号処理部50は、第2の実施形態と同様の動作に加え、全方位カメラ10Eが撮像した広範囲の映像データの中から、ユーザにより指定された指定箇所を含む符号gの範囲の映像データの座標系を変換処理する。再生部60は、信号処理部50が座標系を変換処理した映像データを、ディスプレイ63に表示させる(図9(C)参照)。なお、範囲gは、指95のタッチ点から自動的に生成されるとする。また、信号処理部50における第2の実施形態と同様の動作の説明は省略する。
この結果、ユーザによって指定された範囲gにおける音声データが強調され、スピーカ65から2人の人物91,92の会話(例えば図9(A)に示す「Hello」参照)が大きな音量によって音声出力される。一方、2人の人物91,92に比べ、マイクアレイ20Cにより近い距離に載置されているがユーザによって指定された指定箇所又はその指定箇所を含む指定範囲gに含まれないスピーカ82から流れている音楽(図9(A)に示す「♪〜」参照)は強調して音声出力されず、2人の人物91,92の会話に比べて小さな音量によって音声出力される。
図9(D)は、全方位カメラ10Eが撮像した映像データにおいて2人の人物93,94が選択される様子を示す図である。図9(D)では、ディスプレイ63の画面には、全方位カメラ10Eにおける座標系が用いられた映像データ、即ち全方位カメラ10Eが撮像した映像データがそのまま表示されている。図9(E)は、画像変換後の2人の人物93,94の映像データがディスプレイに表示され、人物93,94の会話の音声データがスピーカ65において音声出力されている様子を示す図である。
ユーザは、例えばディスプレイ63の画面に表示された4人の人物91,92,93,94の映像データの右下付近の指定箇所を指95でタッチしたとする。信号処理部50は、第2の実施形態と同様の動作に加え、全方位カメラ10Eが撮像した広範囲の映像データの中から、ユーザにより指定された指定箇所を含む符号hの範囲の映像データの座標系を変換処理する。再生部60は、信号処理部50が座標系を変換処理した映像データを、ディスプレイ63に表示させる(図9(E)参照)。なお、範囲hは、指95のタッチ点から自動的に生成されるとする。また、信号処理部50における第2の実施形態と同様の動作の説明は省略する。
この結果、ユーザによって指定された範囲hにおける音声データが強調され、スピーカ65から2人の人物93,94の会話(例えば図9(A)に示す「Hi」参照)が大きな音量によって音声出力される。一方、2人の人物93,94に比べ、マイクアレイ20Cにより近い距離に載置されているがユーザによって指定された指定箇所又はその指定箇所を含む指定範囲hに含まれないスピーカ82から流れている音楽(図9(A)に示す「♪〜」参照)は強調して音声出力されず、2人の人物93,94の会話に比べて小さな音量によって音声出力される。
以上により、本実施形態では、音声処理システム5Dは、全方位カメラ10Eとマイクアレイ20Cとは同軸上に配置されているので、全方位カメラ10Eとマイクアレイ20Cとの座標系を同一にすることができる。これにより、音声処理システム5Dは、第1,第2の各実施形態の効果に加え、全方位カメラ10Eにより撮像された映像データにおける被写体の位置とマイクアレイ20Cにより収音される被写体の人物の音声の方向とを対応付けるための座標系の変換処理を第1,第2の各実施形態に比べて容易化でき、再生部60における映像データと音声データとを同期した再生処理の負荷を軽減できる。
また、音声処理システム5Dは、ユーザにより指定された指定箇所若しくはその指定箇所を含む指定範囲g又は指定範囲hに含まれる映像データが、ディスプレイ63の画面サイズに合わせた映像データに変換処理するので、全方位カメラ10Eにより撮像された映像データを、縦横比がディスプレイ63にとって自然な映像データの表示形態にて表示することができる。
また、例えばマイクアレイの形状及び構成は、上述した各実施形態のものに限られず、種々の形状及び構成を用いても良い。図10(A)〜(C)は、他のマイクアレイ20D、20E、20Fの外観図である。
図10(A)に示すマイクアレイ20Dでは、図2に示すマイクアレイ20に比べ、円盤状の筐体21Dの径が小さい。筐体21Dの面に、複数のマイクロホン22Dが円状に沿って一様に配置されている。各々のマイクロホン22Dの間隔が短くなるので、マイクアレイ20Dは、高い音域に適した特性を有する。
また、図10(B)に示すマイクアレイ20Eでは、矩形を有する筐体21Eの面に、複数のマイクロホン22Eが矩形に沿って一様に配置されている。筐体21Eが矩形に形成されているので、コーナー等の場所であってもマイクアレイ20Eを設置し易くなる。
また、図10(C)に示すマイクアレイ20Fでは、円盤状の筐体21Fの面に、複数のマイクロホン22Fが縦横に一様に配列されている。複数のマイクロホン22Fが直線状に配置されているので、信号処理部50における音声の強調処理が簡易化できる。なお、縦方向又は横方向の1列だけに、複数のマイクロホン22Fが配置されても良い。
また、上述した各実施形態では、ユーザがディスプレイ63に表示されている映像データを見ながら音声の強調を所望する指定箇所又はその指定箇所を含む指定範囲を任意に指95でタッチにより指定したが、例えば予めディスプレイ63の画面を複数の区画(例えば、上下左右の4区画)に分割しておき、いずれか1つの区画を選択して音声を強調したい範囲としても良い。
また、上述した各実施形態では、カメラは映像を記録(録画)し、ディスプレイは記録された映像データを表示する場合を説明したが、カメラは所定周期で静止画像を撮像し、ディスプレイは、所定間隔で撮像される静止画像を表示する場合、即ちリアルタイムに映像を撮像して音声を収音する場合においても本発明は適用可能である。即ち、ユーザは、ディスプレイの画面に表示された静止画像中の所定範囲を指定し、その付近の音声を強調させることもできる。
また、上述した各実施形態では、ユーザが指95で画面をタッチすることで、指95がタッチされたタッチ点を含む指定範囲(例えば楕円や矩形の範囲)が指定されたが、ユーザが指95で円や多角形等を描くことで所定範囲が指定されても良い。
また、上述した各実施形態では、信号処理部50は、複数の指定箇所又は各々の指定箇所を含む指定範囲(音声強調範囲)の指定を、操作部55から受け付けても良い。この場合では、信号処理部50は、指定された各指定箇所又は指定範囲に応じて、音声データの強調処理を行う。図11は、所定の指定箇所又は指定範囲(音声強調範囲)が複数指定された場合のディスプレイ63及びスピーカ65の動作を示す模式図である。なお、説明を簡単にするために、音声処理システムが用いられたカメラ及びマイクアレイの動作状況は図6に示すカメラ10及びマイクアレイ20の動作状況と同様とする。
この場合、信号処理部50は、スピーカ65から、2つの所定の異なる指定箇所又は異なる指定箇所を含む音声強調範囲63e、63fの指定に応じて、マイクアレイ20の各マイクロホン22の位置から2人の人物91,92の中心に対応する音声位置に向かう指向方向に指向性を形成した各音声データを生成し、更に、マイクアレイ20の各マイクロホン22の位置からスピーカ82の中心に対応する音声位置に向かう方向に指向性を形成した音声データを生成する。
この結果、2人の人物91,92の会話(図11に示す「Hello」参照)と、スピーカ82から流れる音楽(図11に示す「♪〜」参照)との両方が大きな音量によって音声出力される。これにより、音声処理システムは、1つのディスプレイにおいて2箇所以上の音声を強調させることができる。
次に、上述した各実施形態におけるマイクアレイ20の筐体構造、マイクアレイ20の回路構成の一例について、図12〜図30を参照して説明する。
(マイクアレイの筐体:4重の筐体構造)
図12は、上述した各実施形態のマイクアレイ20の筐体構造の分解斜視図である。図13(A)は、図12に示すマイクアレイ20の筐体構造の平面図である。図13(B)は、図13(A)のA−A断面図である。図14は、図13(B)の点線範囲の要部拡大図である。
図12に示すマイクアレイ20の筐体構造は、メイン筐体101と、パンチングメタルカバー103と、マイク板金105と、ベース板金107とが鉛直方向に沿って積層された構成である。メイン筐体101、パンチングメタルカバー103、マイク板金105、ベース板金107は、4層となった耐衝撃性筐体109(バンダル・レジスタント・ケーシング:vandal-resistant casing)を構成している。
メイン筐体101は、例えば樹脂を材料として一体に成形される。メイン筐体101は、環状底部111に複数のマイク敷設用穴113が同心円上に設けられて有底筒状に形成される。環状底部111の中央部は、カメラ取付空間115となる。メイン筐体101は、メイン筐体外周壁117が、図12に示すマイクアレイ20の筐体構造において、最大外径を有する。
パンチングメタルカバー103は、例えば金属を材料として一体の環状に成形される。パンチングメタルカバー103は、メイン筐体101の環状底部111を覆うようにメイン筐体101に取り付けられる。パンチングメタルカバー103には、音波を入射させるための多数の貫通孔(図示略)が穿設されている。パンチングメタルカバー103の外周にはメイン筐体101に向かって立ち上がる起立縁部119が絞り加工等によって形成される。起立縁部119は、メイン筐体101の下面外周に形成される周溝121(図14参照)に挿入される。起立縁部119には、円周方向の等間隔で複数の弾性係止爪123が更に上方(図12又は図14の上方)に向かって突出している。
図15(A)は、パンチングメタルカバー103をメイン筐体101に固定する様子を示す斜視図である。図15(B)は、パンチングメタルカバー103をメイン筐体101に固定する様子を示す断面図である。弾性係止爪123は、周溝121の奥側に設けられている係止孔125aを通して回転することで、爪係止部125に係止される。パンチングメタルカバー103は、弾性係止爪123を爪係止部125に係止することで、メイン筐体101に固定される。
マイク板金105は、例えば金属板をプレス加工することにより形成される。マイク板金105は、円環形状を周方向に四等分した形状で形成される。マイク板金105は、マイク板金固定ネジ(図示略)によってメイン筐体101に固定される。メイン筐体101に固定されたマイク板金105は、メイン筐体101の環状底部111との間に、マイク基板127を保持したマイク筐体129を挟んだ状態で保持する。
マイク筐体129は、例えば樹脂を材料として一体に成形される。マイク筐体129は、円環形状を周方向に四等分した形状で形成される。マイク基板127には、4つの高音質小型エレクトレットコンデンサーマイクロホン(ECM:Electret Condenser Microphone)が同一面上に取り付けられている。マイク筐体129には、ECM131が図14中の下方にある状態で、マイク基板127が取り付けられる。マイク基板127とマイク筐体129との間にゴム部品が挟みこまれている(図14参照)。マイク基板127は、マイク筐体129に対して1つ取り付けられる。従って、マイクアレイ20の筐体構造全体では、合計4つのマイク基板127が取り付けられ、マイクアレイ20の筐体構造全体では、合計16個のECM131が装備される。
従って、図12に示すマイクアレイ20の筐体構造では、底部の外側から、パンチングメタルカバー103、メイン筐体101、マイク筐体129、マイク板金105、ベース板金107が順に、図12に示す上方向に向かって配置されている。これらの複数の部材は、マイクアレイ20の図12に示す下方向からの外力(衝撃力)に対抗する構造体を構成している。例えばメイン筐体101とマイク筐体129とが一体構成でなく別体構成となっているので、図12に示す下方向からの外力(衝撃力)を分散し、ベース板金107がメイン筐体101及びマイク筐体129の変形を防ぐことができる。これにより、外力が加わった後でも、マイクアレイ20の収音時の形状維持が可能となり、マイクアレイ20の収音時における音響特性の劣化を防ぐことができる。
ベース板金107は、例えば金属の材料をプレス加工(絞り加工)することにより一体に成形される。ベース板金107は、環状天板部133を有して有底筒状に形成される。即ち、環状底部111の外周からはベース板金外周壁135が下側に曲げられている。このベース板金外周壁135は、大径の環状天板部133の素板を絞り加工することにより得られる。ベース板金外周壁135が絞り加工されたベース板金107は、他の構成部材よりも高い強度を有している。
ベース板金107は、メイン筐体101にベース板金固定ネジ(図示略)によって固定される。ベース板金107には、マイク板金105との間に、例えばマイクアレイ20の処理を制御するための部品等が実装されたメイン基板139と、例えばマイクアレイ20の各部に電源を供給するための部品等が実装された電源基板141とが配置される。メイン基板139と電源基板141は、図12に示すマイクアレイ20の筐体構造の全体で、それぞれが1つずつ設けられる。
マイク板金105からは、複数の嵌合部143が円周方向に等間隔で起立している。嵌合部143は、半径方向に離間する一対の挟持片(外側挟持片145、内側挟持片147)からなる。嵌合部143は、メイン筐体外周壁117の内側で間隙149を有して配置される。嵌合部143には、ベース板金外周壁135が嵌合される。つまり、図12に示すマイクアレイ20の筐体構造では、側部の外側から、メイン筐体外周壁117、間隙149、外側挟持片145、ベース板金外周壁135、内側挟持片147が順に、半径方向内側に向かって配置されている。これらの重ねられた複数の部材は、マイクアレイ20の側部からの外力(衝撃力)に対抗する構造体を構成している。
また、マイク板金105からは、起立して突出した当り止め部137があり、通常はベース板金107とは離れた位置にあるが、外力が加わってメイン筐体101が変形した場合、当り止め部137がベース板金107に当り、メイン筐体101に大きなひずみが生じないように働く。
(ECMの直付構造)
図16は、ECMの取付構造の模式図である。図12に示すマイクアレイ20の筐体構造では、マイク基板127がマイク板金105の下側に配置され、メイン基板139及び電源基板141がマイク板金105の上側に配置される。つまり、マイク基板127と、メイン基板139及び電源基板141とは、2階建ての構造となって配置されている。ここで、4つのマイク基板127は、円周回りの一方向で第1のマイク基板127、第2のマイク基板127、第3のマイク基板127、第4のマイク基板127が順に配置されているとする。この場合、メイン基板139は、第1のマイク基板127と、第4のマイク基板127に電源配線151によって接続されている。第1のマイク基板127は、第2のマイク基板127に接続されている。第4のマイク基板127は、第3のマイク基板127に接続されている。
マイク基板127の下面側には、ECM131が取り付けられる。ECM131には、一対のピン端子153が突出される。ECM131は、それぞれのピン端子153が、マイク基板127の所定の回路に設けられた端子ピン挿入孔(図示略)に挿入され、例えば半田によって直接に接続固定される。これにより、マイク基板127に対するECM131の薄厚化(低背化)を実現している。また、ECM131のマイク基板127への直付けにより材料費を安価としている。
(ADCコンバータ配置)
図17は、マイク基板127の平面図である。図17に示す1つのマイク基板127には、4つのECM131が取り付けられている。マイク基板127の回路(マイク基板回路)では、それぞれのECM131に接続される線路長の差は音波信号における位相差を生じさせ、結果的に、この位相差が指向角のズレとなってくる。このため、それぞれのECM131に接続される線路長は、できるだけ等しくする必要がある。
そこで、マイク基板127では、2つのECM131と1つのADコンバータ155との組合せによりマイク基板回路が構成されている。マイク基板回路は、1つのADコンバータ155が2つのECM131の間に、それぞれのECM131から等距離で配置されることで、ADコンバータ155とECM131との間のアナログ線路157を増幅回路を経由して最短でかつ同じ線路長となるように配線している。これにより、マイク基板回路は、マイク基板127におけるノイズ信号のレベルを各ECMにおいて均等にでき、かつ指向角のズレを低減できる。
(マイク基板回路)
図18(A)は、複数のマイク回路159に対して1つのリップル除去回路161が設けられるマイク基板回路の図を示す。図18(B)は、複数のマイク回路159のそれぞれにリップル除去回路161が設けられるマイク基板回路の図である。
マイク基板127のマイク基板回路には、ECMが配置されたマイク回路159と電源基板141との間に、リップル除去回路161が設けられる。リップル除去回路161は、直流信号は通過させるが、特定周波数の交流信号をカットするフィルタである。リップル除去回路161は、図18(A)に示すように、並列接続した4つのマイク回路159と電源基板141の間に、1つ設けることができる。この場合、マイクアレイ20の製造コストの低減が可能となる。
一方、リップル除去回路161は、図18(B)に示すように、4つそれぞれのマイク回路159と電源基板141の間に設けてもよい。この場合、異なるECM間の信号流入が低減され、所謂クロストーク163の抑制が可能となる。
(マイクアレイとカメラとの間の構造的な隙間対策)
図19(A)は、カメラアダプタが取り付けられずに全方位カメラが取り付けられたマイクアレイ20の筐体構造の斜視図である。図19(B)は、屋外用全方位カメラ165がカメラアダプタと共に取り付けられたマイクアレイ20の筐体構造の斜視図である。図20は、屋内用全方位カメラ167が取り付けられるマイクアレイ20の筐体構造の分解斜視図である。図21は、屋外用全方位カメラ165が取り付けられるマイクアレイ20の筐体構造の分解斜視図である。図22(A)は、屋外用全方位カメラ165が取り付けられたマイクアレイ20の筐体構造の側面図である。図22(B)は、図22(A)のB−B断面図である。図23は、図22の要部拡大図である。
マイクアレイ20の筐体構造において、中央部のカメラ取付空間115に、例えば全方位カメラを組み込むことかできる。全方位カメラには、屋外用全方位カメラ165と、屋内用全方位カメラ167とがある。図19(A)に示すように、マイクアレイ20の筐体構造として、例えば屋内用全方位カメラ167がカメラ取付空間115に取り付けられると、マイクアレイ20のメイン筐体101と屋内用全方位カメラ167との間に隙間169が生じ、マイクアレイ20の内部が見えてしまう。内部が見える状態は、製品としての見栄えの悪化やごみなどの進入だけでなく、マイクアレイ20の内部空間に音が侵入して、共鳴や反射などを起こし、音響的な性能の劣化の原因となってしまう。
また、全方位カメラには用途や機能によって様々なサイズがある。それぞれの全方位カメラ用に、サイズの異なるメイン筐体101を準備することは、製造上のコストアップが避けられない。メイン筐体101をひとつのサイズに固定して、全方位カメラの機種による隙間の違いを、カメラアダプタを用いて隙間を塞ぐことで、製造コストを抑えることが可能になる。
そこで、図19(B)に示すように、例えば屋外用全方位カメラ165がカメラ取付空間115に取り付けられる場合には、屋外用カメラアダプタ171が、屋外用全方位カメラ165の周囲に取り付けられる。また、図20に示すように、屋内用全方位カメラ167がカメラ取付空間115に取り付けられる場合には、屋内用カメラアダプタ173が、屋内用全方位カメラ167の周囲に取り付けられる。屋内用カメラアダプタ173は、例えば樹脂を材料として筒状に形成される。屋内用カメラアダプタ173の下端には隙間隠し用のフランジ175が形成され、フランジ175は屋内用全方位カメラ167をカメラ取付空間115に取り付けた場合に生じる屋内用全方位カメラ167とメイン筐体101との間の隙間169を隠す。
屋内用カメラアダプタ173には複数の周壁弾性爪177が、複数の切り込み179内に、円周方向に沿って等間隔に形成される。屋内用カメラアダプタ173は、周壁弾性爪177を屋内用全方位カメラ167のカメラ筐体181に係止して取り付けられる。ベース板金107には、図22に示す複数のカメラ固定用板金部183が円周方向に沿って等間隔で形成されている。カメラ固定用板金部183は、ダルマ穴185を有してカメラ取付空間115の上方に配置される。カメラ筐体181の上面には、カメラ固定用板金部183のダルマ穴185に係合する大径頭部(図示略)を有する係合ピン(図示略)が突設されている。屋内用カメラアダプタ173が取り付けられた屋内用全方位カメラ167は、カメラ取付空間115に挿入され、回転されることで、係合ピンがダルマ穴185に係合して落下が規制されて支持される。この回転位置で、屋内用全方位カメラ167は、カメラ回転規制ネジ(図示略)によってマイクアレイ20のメイン筐体101等にロックされる。また、屋内用全方位カメラ167がロックされた状態では、周壁弾性爪177は、メイン筐体101の内周壁が邪魔となって、カメラ固定用板金部183の係止の解除が規制される。
一方、図21に示す屋外用カメラアダプタ171の外周には、先端が自由端となったバヨネット板187が設けられている。バヨネット板187の自由端には、半径方向内側に突出するアダプタ回転規制爪189(図23参照)が形成されている。アダプタ回転規制爪189は、カメラ筐体181に形成されるバヨネット係合溝191に係合する。他の構造は、屋内用カメラアダプタ173と同様である。カメラ取付空間115に組み込まれた屋外用カメラアダプタ171を回転させようとすると、図23に示すように、アダプタ回転規制爪189がバヨネット係合溝191に係合して、回転が規制される。つまり、屋外用カメラアダプタ171と屋外用全方位カメラ165との相対回転が規制される。なお、屋外用カメラアダプタ171のフランジ175には、工具挿入溝193が形成される。屋外用全方位カメラ165は、カメラ取付空間115に押し込まれると、回転させる手段が無くなる。そこで、工具挿入溝193にドライバー等を入れて回すことが可能となっている。
(マイクアレイと全方位カメラとの別体使用時に用いられる蓋)
図24は、蓋195の取り付けられるマイクアレイ20の筐体構造の分解斜視図である。マイクアレイ20と全方位カメラとは、例えば図7(A)に示すように一体的に取り付けられて使用される場合もあるが、例えば図9(A)に示すように別体で取り付けられて使用される場合もある。この場合、カメラ取付空間115は、図24に示す蓋195によって塞がれる。蓋195は、例えば樹脂を材料として一体に成形される。また、蓋195は、金属製の蓋用板金197との係止構造等によって一体に組み合わせられる。蓋195は、蓋用板金197と組み合わされることで、外力(衝撃力)を蓋用板金197へ分散させる。これにより、蓋195は、蓋195自身の大きな変形が抑制されて、割れ等が防止される。蓋195は、蓋用板金197と組み合わされて、カメラ取付空間115へ挿入され、蓋用板金197が、全方位カメラ固定用のカメラ固定用板金部183に係合することで支持される。この状態で、蓋195は、蓋回転止ネジ199によってカメラ固定用板金部183に回転止めされて固定される。
(取付金具)
図25は、取付金具201を用いて天井に取り付けられるマイクアレイ20の筐体構造の分解斜視図である。図26(A)は、ベース板金用固定穴203に差し込まれる前のベース板金側固定ピン205の側面図である。図26(B)は、ベース板金用固定穴203に差し込まれたベース板金側固定ピン205の側面図である。図26(C)は、ベース板金用固定穴203に差し込まれたベース板金側固定ピン205の平面図である。図26(D)は、ベース板金用固定穴203の小径穴207に移動したベース板金側固定ピン205の側面図である。図26(E)は、ベース板金用固定穴203の小径穴207に移動したベース板金側固定ピン205の平面図である。
耐衝撃性筐体109(図12参照)は、取付金具201を用いて設置面の一例としての天井面(図示略)に取り付けられる。即ち、取付金具201は、天井面に固定され、この取付金具201に、筐体構造を有する耐衝撃性筐体109が取り付けられる。
取付具の一例としての取付金具201は、図25に示すように、円形の金具基部を有する。ただし、取付具は金属製の取付金具201に限定されず、取付具の材質は例えばセラミックスでも合成樹脂(例えばプラスチックまたはエラストマ)でもよい。金具基部には、ベース板金用固定穴203が複数(例えば3個)穿設される。ベース板金用固定穴203は、小径穴207と大径穴209とが接続されたダルマ形状またはヘチマ形状に形成されている。
一方、天井面と対面するベース板金107の面には、ベース板金用固定穴203に対応してベース板金側固定ピン205が突設される。図26(A)に示すように、ベース板金側固定ピン205は、突出先端に大径のピン頭部211を有する。大径のピン頭部211は、大径穴209に挿入可能となり、小径穴207には離脱が規制されて係止可能となっている。
次に、耐衝撃性筐体109の取り付け方法を説明する。
先ず、設置面の一例としての天井面に耐衝撃性筐体109を取り付けるには、取付金具201を天井面の所定位置に天井固定ネジ(図示略)によって固定する。天井面に固定された取付金具201に、耐衝撃性筐体109を同心円状に位置合わせする。
次に、図26(B)及び図26(C)に示すように、ベース板金側固定ピン205の大径のピン頭部211をベース板金用固定穴203の大径穴209に挿入する(図26(B)及び図26(C)参照)。
その後、図26(D)及び図26(E)に示すように、耐衝撃性筐体109を回転して、大径のピン頭部211を小径穴207に移動することで、全てのベース板金側固定ピン205がベース板金用固定穴203に同時に固定される。取付金具201を介して天井面に固定された耐衝撃性筐体109のカメラ取付空間115には、上述したようにして、屋外用全方位カメラ165や屋内用全方位カメラ167が、取り付けられる。
このように、マイクアレイ20の筐体構造では、取付金具201によって天井面に固定された耐衝撃性筐体109に、全方位カメラが直接取り付けられる。これにより、マイクアレイ20の筐体構造は、マイク板金105の固定されているベース板金107に、全方位カメラが直接取り付けられるので、ECM131と全方位カメラの位置精度を向上させることができる。
(反射音の抑制)
図27は、ECM用凹部213にテーパ223が設けられたマイクアレイ20の筐体構造の断面図である。マイクアレイ20の筐体構造は、図27に示すように、ECM用凹部213の内周面が、ECM131に向かって縮径されるテーパ223となっている。テーパ223は、最小径がECM131の挿入される緩衝材217の円形凸部の外径と略一致し、最大径が環状底部111のマイク敷設用穴113と略一致する。テーパ223が形成されたECM用凹部213は、気柱の共振点が上がる。また、ECM用凹部213の内周面の反射波がECM131に向かわなくなる。更に、筐体横方向からの音波に乱れが無い状態でECM131に届くようになる。これにより、使用可能な音域が広がり、マイクアレイ20の収音時における音響特性が向上する。また、パンチングメタルカバー103と環状底部111の間には、風騒音を低減させるための不織布221が挟持されている。
(風対策)
図28は、風対策の施されたマイクアレイ20の筐体構造の断面図である。マイクアレイ20の筐体構造は、マイク筐体129に、複数のECM用凹部213がECM131に応じて形成される。ECM用凹部213は、例えば円形状に形成され、中心にECM131を表出させる透孔215が形成される。なお、ECM131は、例えば外周にゴム等の緩衝材217が巻かれてマイク筐体129に取り付けられ、ECM131の先端が透孔215に挿入される。ECM用凹部213は、環状底部111に形成されるマイク敷設用穴113と同心円状に配置される。このECM用凹部213には、風対策用の吸音材219を充填できる。吸音材219の表面は、不織布221によって覆う。不織布221は、パンチングメタルカバー103と環状底部111とに挟持されている。
次に、ECM用凹部213の変形例を、図29(A)〜(C)を参照して説明する。図29(A)は、ECM用凹部213の内径と深さとの関係を表したマイクアレイ20の筐体構造の断面図である。図29(B)は、ECM用凹部213の内壁が傾斜壁225となったマイクアレイ20の筐体構造の断面図である。図29(C)は、ECM用凹部213の内周隅部がR部227となったマイクアレイ20の筐体構造の断面図である。
図29(A)に示すように、ECM用凹部213の直径Dと深さHは、所定の関係となることが好ましい。例えばH/D<1/10の関係を満たすことで、ECM用凹部213の共振周波数近傍でピークが抑えられるため、音響性能に悪影響を与えなくなる。
図29(B)に示すように、ECM用凹部213は、平坦な凹部底面229と、テーパ状の傾斜壁225とによって形成されてもよい。これによって、ECM用凹部213の共振周波数を使用周波数帯域よりも高く出来るとともに、ECM用凹部213の内周面からECM131へ向かう反射波を低減させることができる。
図29(C)に示すように、ECM用凹部213は、内周隅部をR部227としてもよい。これによっても、ECM用凹部213の共振周波数を使用周波数帯域よりも高く出来るとともに、ECM用凹部213の内周面からECM131へ向かう反射波を低減させることができる。
図30(A)は、テーパ223を形成しないECM用凹部213の等圧面を表した説明図である。図30(B)は、テーパ223を形成したECM用凹部213の等圧面を表した説明図である。
ECM131の近傍の音は、例えば波動方程式による空間を伝わる音を有限要素法で解析することによってシミュレーションすることができる。この場合、ECM用凹部213にテーパ223を設けないモデルでは、図30(A)に示すように、等圧面の間隔が、筐体表面231とECM部233で異なる。一方、ECM用凹部213にテーパ223を設けたモデルでは、図30(B)に示すように、等圧面の間隔が、筐体表面231とECM部233で同じとなる。これにより、ECM用凹部213にテーパ223が設けられることで、ECM131に向かって音波が乱れることなく届くことになる。
次に、上述した各実施形態のマイクアレイ20の筐体構造の作用を説明する。
上述した各実施形態のマイクアレイ20の筐体構造では、有底筒状に形成される樹脂製のメイン筐体101に、金属製のマイク板金105と、有底筒状の金属製のベース板金107が固定される。金属製のマイク板金105には、ベース板金107側に当り止め部137が起立している。また、メイン筐体101には、メイン筐体101を挟んでマイク板金105の反対側に、金属製のパンチングメタルカバー103が固定される。
上述した各実施形態のマイクアレイ20の筐体構造は、外部からの衝撃エネルギーが、樹脂製のメイン筐体101を変形させることによって吸収される。メイン筐体101の破壊強度以上の衝撃エネルギーは、金属製のマイク板金105を変形させることによって吸収される。更に、マイク板金105を所定量以上に塑性変形させる衝撃エネルギーは、当り止め部137を介してベース板金107に加えられ、最終的にはベース板金107が取り付けられる建物躯体等へ逃がされる。
また、上述した各実施形態のマイクアレイ20の筐体構造では、別体の部材で作られるパンチングメタルカバー103、メイン筐体101、マイク板金105、ベース板金107が、一体に固定されて組み立てられる。このため、外部からの衝撃エネルギーは、これら部材間の間隙149、擦れ合いによる摩擦によっても吸収されて低減される。
また、上述した各実施形態のマイクアレイ20の筐体構造は、マイク基板127が、パンチングメタルカバー103とマイク板金105に挟まれている。メイン基板139及び電源基板141が、マイク板金105とベース板金107に挟まれている。つまり、マイク板金105は、金属製のパンチングメタルカバー103と金属製のマイク板金105とが構成する導電性外殻によって電磁シールドされる。メイン基板139及び電源基板141は、金属製のマイク板金105と金属製のベース板金107とが構成する導電性外殻によって電磁シールドされる。
また、上述した各実施形態のマイクアレイ20の筐体構造では、樹脂製のメイン筐体101と金属製のマイク板金105によって挟まれるマイク筐体129が、樹脂素材で作られている。マイク筐体129には、複数のマイクが固定される。マイク筐体129に固定されたマイクは、メイン筐体101の環状底部111に開口するマイク敷設用穴113を通して外部に開放される。このマイク敷設用穴113は、環状底部111を覆うパンチングメタルカバー103によって覆われる。
例えば、耐衝撃性筐体109が天井面に固定されると、パンチングメタルカバー103は、地面に対面する側に配置される。地面側より耐衝撃性筐体109に加えられる打撃等の衝撃は、先ず、パンチングメタルカバー103に加わる。金属製のパンチングメタルカバー103は、弾性限界以上の衝撃によって塑性変形し、衝撃エネルギーを吸収する。パンチングメタルカバー103の塑性変形によって吸収されなかった衝撃エネルギーは、メイン筐体101の環状底部111に加わる。衝撃エネルギーは、環状底部111を変形させるとともに、マイク板金105とベース板金107に加わる。マイク筐体129はマイク板金に止められているため、大きな衝撃エネルギーは加わらない。
このときの衝撃エネルギーが、樹脂製のメイン筐体101の弾性限界以上であると、メイン筐体101は、白化や亀裂等を生じさせ、その衝撃エネルギーを吸収する。メイン筐体101は、白化や亀裂が生じるが、全体が完全に破壊されない限り、白化や亀裂を有したまま元の形状に復元される。つまり、メイン筐体101は、白化や亀裂が生じていてもマイクの音響特性に大きな影響を及ぼさない。また、塑性変形したパンチングメタルカバー103も、開口率が高いため、変形してもマイクの音響特性に影響を及ぼさない。このため、外部からの衝撃に対抗し、マイクの音響特性が劣化しにくい。
なお、メイン筐体101がアルミ製であると、パンチングメタルカバー103からの衝撃によって塑性変形が生じ易くなる。特にマイク周辺形状が塑性変形した場合には、音響特性が劣化する。従って、上述した各実施形態のマイクアレイ20の筐体構造によれば、このような塑性変形による音響特性の劣化が抑制される。
更に、筐体構造では、メイン筐体101の内側に、マイク板金105が配置される。マイク板金105からは、嵌合部143が起立する。嵌合部143は、メイン筐体外周壁117の内側で、間隙149を有して配置される。この嵌合部143は、半径方向(メイン筐体外周壁117の厚み方向)に離間する一対の挟持片を有する。嵌合部143の一対の挟持片の間には、ベース板金107のベース板金外周壁135が挿入して嵌められ(嵌合され)る。つまり、本筐体構造では、耐衝撃性筐体109の側部が、外側より、メイン筐体外周壁117、間隙149、外側挟持片145、ベース板金外周壁135、内側挟持片147の順で内側に重ねられて構成されている。
側部の外方より耐衝撃性筐体109に加えられる打撃等の衝撃エネルギーは、先ず、メイン筐体外周壁117に加わる。メイン筐体外周壁117は、間隙149の間を弾性変形して衝撃エネルギーを吸収する。弾性限界以上の衝撃エネルギーは、嵌合部143に加わる。嵌合部143に加わる衝撃エネルギーは、外側挟持片145、ベース板金外周壁135、内側挟持片147を弾性変形させて吸収される。また、この嵌合部143に加わる衝撃エネルギーは、外側挟持片145とベース板金外周壁135、ベース板金外周壁135と内側挟持片147の摩擦によっても効果的に吸収されて低減される。
従って、上述した各実施形態のマイクアレイ20の筐体構造によれば、耐衝撃性を向上させることができる。
(第4の実施形態)
第1〜第3の各実施形態では、ディスプレイ63,73に表示された映像データにおいて、ユーザにより1つの指定箇所が指定された場合の音声処理システムの動作を想定して説明した。第4の実施形態では、同様にディスプレイ63,73に表示された映像データにおいて、ユーザにより異なる複数(例えば2つ)の指定箇所が指定された場合の音声処理システムの動作について説明する。本実施形態の音声処理システムのシステム構成は図1(A)に示す音声処理システム5Aのシステム構成と同一であるため、音声処理システム5Aの各部の符号を参照して説明する。
本実施形態の音声処理システムは、例えばディスプレイ63,73に表示された映像データにおいてユーザにより2つの指定箇所が指定された場合、指定された2つの指定箇所を適正に区別し、区別したことをユーザに対して視覚的に明示するために、指定箇所毎に異なる識別形状を各指定箇所の周囲に表示する。更に、本実施形態の音声処理システムは、マイクアレイ20により収音された音声の音声データを用いて、マイクアレイ20から各指定箇所に対応する音声位置に向かう方向に指向性をそれぞれ形成し、各識別形状に対応付けて予め規定された方法に従って、音声出力する。
図8は、第4の実施形態の音声処理システム5Aの使用形態の一例を示す模式図である。図8(A)は、例えば屋内のホールの天井85に、1台のカメラ10と、1台のマイクアレイ20と、スピーカ82とが設置された様子を示す図である。図8(B)は、ディスプレイ63に表示された映像データの中で複数の指定箇所が指定された場合の音声処理システム5Aの動作概要の説明図である。
図8(A)では、2人の人物91a,92aがホールの床87に立って会話をしている。2人の人物91a,92aから少し離れた位置には、スピーカ82が床87の上に接して載置されており、スピーカ82から音楽が流れている。また、カメラ10は、カメラ10に予め設定された監視対象の地点(場所)の周囲にいる人物91a,92aを撮像している。更に、マイクアレイ20は、ホール全体の音声を収音している。ディスプレイ63の画面68には、カメラ10が撮像した映像データが表示されている。また、スピーカ65からは、2人の人物91,92の会話又はホール内の音楽が音声出力されている。
ユーザは、例えばディスプレイ63の画面68に表示された2人の人物91a,92aの頭上付近を指95でそれぞれ連続的にタッチしたとする。タッチ点63a1,63a2はユーザにより指定された複数の指定箇所となる。信号処理部50は、マイクアレイ20によって収音された音声、即ち各マイクロホン22が収音した各音声データを用いて、マイクアレイ20の各マイクロホン22の位置から、ユーザが指定したタッチ点63a1,63a2に対応する各音声位置に向かう各指向方向(図8(A)に示す符号e1,e2で示される方向)に指向性を形成した各音声データを生成して合成する。
即ち、信号処理部50は、各マイクロホン22が収音した各音声データを用いて、マイクアレイ20の各マイクロホン22の位置から、ユーザが指定したタッチ点63a1,63a2に対応する各音声位置に向かう各指向方向の音声(音量レベル)を強調(増幅)した音声データを生成して合成する。再生部60は、信号処理部50が合成した音声データを、カメラ10が撮像した映像データと同期させてスピーカ65から音声出力させる。
この結果、ユーザによって指定されたタッチ点63a1,63a2に対応する各音声位置における音声が強調され、スピーカ65から2人の人物91a,92aの会話(例えば図8(A)に示す「Hello」及び「Hi!」参照)が大きな音量によって音声出力される。一方、2人の人物91a,92aに比べ、マイクアレイ20により近い距離に載置されているがユーザによって指定されたタッチ点63a1,63a2ではないスピーカ82から流れている音楽(図8(A)に示す「♪〜」参照)は強調して音声出力されず、2人の人物91a,92aの会話に比べて小さな音量によって音声出力される。
次に、ユーザにより複数の指定箇所が指定された場合に、本実施形態の音声処理システムが、ディスプレイ63に表示された映像データの中で、指定箇所毎に異なる識別形状を各指定箇所の周囲に表示する例、及び各識別形状に対応付けて予め規定された方法に従って音声出力する例について、図31〜図40を参照して詳細に説明する。なお、本実施形態の図31〜図40の説明を分かり易くするために、全方位カメラ10Eとマイクアレイ20Cとが一体として組み込まれた音声処理システム5Dを想定して説明する(図9(A)参照)が、本実施形態の音声処理システム5Dでは複数(例えば2つ)のスピーカ65L,65Rが音声処理装置40又はPC70に設けられているとする。
図31(A)は、第4の実施形態の音声処理システム5Dの使用例の説明図である。図31(B)は、第1の指定箇所の周囲に表示される第1の識別形状91M、第2の指定箇所の周囲に表示される第2の識別形状92Mの一例を表示する様子と、第1の識別形状91Mにより特定される第1の指定箇所に対応する第1の音声位置に向かう第1の指向方向の音声を強調して第1のスピーカ65Lから出力する様子と、第2の識別形状92Mにより特定される第2の指定箇所に対応する第2の音声位置に向かう第2の指向方向の音声を強調して第2のスピーカ65Rから出力する様子とを示す図である。
図31(A)では、例えば屋内のホールの天井85に、ドーナツ型形状のマイクアレイ20Cと、マイクアレイ20Cと一体として組み込まれた全方位カメラ10Eと、スピーカ83とが設置されている。また、図31(A)では、4人の人物91a,92a,93a,94aがホールの床87に立って会話をしており、より具体的には人物91a,92aが会話をしており、人物93a,94aが会話をしている。人物92a,93aから少し離れた位置には、スピーカ82が床87の上に接して載置されており、スピーカ82から音楽が流れている。また、全方位カメラ10Eは、所定の視野角内に存在する人物91a,92a,93a,94a及びスピーカ82を撮像している。更に、マイクアレイ20Cは、ホール全体の音声を収音している。ディスプレイ63の画面68には、全方位カメラ10Eが撮像した映像データが表示されている。
(指定箇所の指定方法と指定方法に対応付けられた音声出力方法との組み合わせ)
以下、本実施形態の音声処理システム5Dにおいて、ユーザの複数の指定箇所の指定方法と、指定箇所毎に表示される識別形状に対応付けられた音声出力方法との組み合わせについて、複数の例を用いて説明する。但し、以下の指定箇所の指定方法と音声出力方法との組み合わせはあくまで一例であり、各組み合わせにおいて他の指定箇所の指定方法や音声出力方法が用いて組み合わされても良い。
(第1の指定方法及び音声出力方法の組み合わせ)
第1の指定方法は、例えばマウスを用いた左クリック操作及び右クリック操作により、指定箇所を指定する方法である。第1の音声出力方法は、指定箇所の一方の音声データを一方のスピーカから音声出力し、指定箇所の他方の音声データを他方のスピーカから音声出力する単純ステレオ2ch(チャンネル)出力方法である。
ユーザは、例えばディスプレイ63の画面68(図31(B)参照)に表示された人物91aの頭上付近を操作部55(例えばマウス)の左クリック操作により、更に、人物92aの頭上付近を操作部55(例えばマウス)の右クリック操作により、それぞれ連続的に指定したとする。左クリック操作及び右クリック操作により指定された箇所は、ユーザにより指定された複数の指定箇所となる。信号処理部50は、複数の指定箇所が指定された場合に、各指定箇所を適正に区別するために、指定箇所毎に異なる識別形状を各指定箇所の周囲に表示させる。
具体的には、信号処理部50は、左クリック操作により指定された人物91aの周囲に、人物91aが指定されたことを視覚的に明示するための識別形状91Mを表示させ、同様に、右クリック操作により指定された人物92aの周囲に、人物92aが指定されたことを視覚的に明示するための識別形状92Mを表示させる。識別形状91M,92Mは、例えばそれぞれ緑色,赤色の矩形であるが、色や形状は緑色、赤色、矩形に限定されない。
また、信号処理部50は、マイクアレイ20Cによって収音された音声の音声データを用いて、マイクアレイ20Cの設置位置から、ユーザが指定した2つの指定箇所に対応する各音声位置に向かう各指向方向(図31(A)に示す符号e1,e2で示される方向)に指向性を形成した各音声データを生成する。再生部60は、全方位カメラ10Eが撮像した映像データと同期させて、識別形状91Mにより特定される第1の指向方向(図31(A)に示す符号e1参照)の音声を強調した音声データをスピーカ65Lから音声出力し、識別形状92Mにより特定される第2の指向方向(図31(A)に示す符号e2参照)の音声を強調した音声データをスピーカ65Rから音声出力する。従って、人物91aの会話音声(「Hello」)はスピーカ65Lから強調されて音声出力され、人物92aの会話音声(「Hi!」)はスピーカ65Rから強調されて音声出力される。
図32は、図31(B)に示す映像データが表示されている状態において、ディスプレイ63に表示された映像データの表示領域外へのクリック操作に応じて、調整用操作ボックスOPBが表示される様子を示す図である。例えば、ディスプレイ63に図31(B)に示す映像データが表示されている場合に、ユーザが、操作部55(例えばマウス)により、カーソルMPTを映像データの表示領域外に移動させてからクリック操作(例えば右クリック操作)したとする。信号処理部50は、ユーザのクリック操作に応じて、スピーカ65L又は65Rから音声出力される音声のパラメータ(例えば、音量レベル)を調整するための調整用操作ボックスOPBを、ディスプレイ63に表示させる。なお、調整用操作ボックスOPBは、例えば音量レベルの調整に用いられるとして説明しているが、他には、音声出力時のイコライザの設定の調整や、有指向音声と無指向音声との切り替えの調整に用いられても良い。
なお、ユーザが第1の識別形状91Mを選択した状態で、調整用操作ボックスOPBの「+」ボタンを複数回押下すると、スピーカ65Lから音声出力されている人物91aの会話音声が更に大きく音声出力される。一方、ユーザが第2の識別形状の92Mを選択した状態で、調整用操作ボックスOPBの「−」ボタンを複数回押下すると、スピーカ65Rから音声出力されている人物92aの会話音声が更に小さく音声出力される。
なお、第1の識別形状91M、第2の識別形状92Mは、両方とも実線であるが、色が異なることで区別されていたが、例えば色は同じであって実線と点線とにより区別されても良い(図33(B)参照)。図33(A)は、第4の実施形態の音声処理システム5Dの使用例の説明図である。図33(B)は、第1の指定箇所の周囲に表示される第1の識別形状91N、第2の指定箇所の周囲に表示される第2の識別形状92Nの一例を表示する様子と、第1の識別形状91Nにより特定される第1の指定箇所に対応する第1の音声位置に向かう第1の指向方向の音声を強調して第1のスピーカ65Lから出力する様子と、第2の識別形状92Nにより特定される第2の指定箇所に対応する第2の音声位置に向かう第2の指向方向の音声を強調して第2のスピーカ65Rから出力する様子とを示す図である。
なお、図33(A)は図31(A)と同様であるため、図33(A)の説明は割愛する。更に、図31(B)では識別形状91M,92Mの色が異なっており両方とも実線であったが、図33(B)では識別形状91N,92Nの色は同一であって、更に一方(第1の識別形状91N)が実線であり他方(第2の識別形状92N)が点線であること以外は、図33(B)と図31(B)との違いは無いので、図33(B)の説明も割愛する。
図34は、図31(B)に示す映像データが表示されている状態において、ディスプレイ63に表示された映像データの表示領域外へのクリック操作毎に、全方位カメラ10Eにより撮像された映像データと調整用操作ボックスOPBとを切り替えて表示する様子を示す図である。例えば、ディスプレイ63に図31(B)に示す映像データが表示されている場合に、ユーザが、操作部55(例えばマウス)により、カーソルMPTを映像データの表示領域外に移動させてからクリック操作(例えば右クリック操作)したとする。信号処理部50は、ユーザのクリック操作に応じて、全方位カメラ10Eにより撮像された映像データの画面を調整用操作ボックスOPBに切り替えてディスプレイ63に表示させる。
反対に、ディスプレイ63に調整用操作ボックスOPBが表示されている場合に、ユーザが、操作部55(例えばマウス)により、カーソルMPTを映像データの表示領域外に移動させてからクリック操作(例えば右クリック操作)したとする。信号処理部50は、ユーザのクリック操作に応じて、調整用操作ボックスOPBを、全方位カメラ10Eにより撮像された映像データの画面に切り替えてディスプレイ63に表示させる。なお、調整用操作ボックスOPBと全方位カメラ10Eにより撮像された映像データの画面との切り替えは、カーソルMPTの映像データの表示領域外におけるクリック操作により実行されると説明したが、クリック操作に限定されず、所定の入力操作により実行されても良い。所定の入力操作とは、例えばユーザがキーボードの異なる複数の特定キーを同時に押下した操作等である。
図35は、図31(B)に示す映像データが表示されている状態において、ディスプレイ63に表示された映像データの表示領域外へのクリック操作に応じて、状態標示用ボックスINDが表示される様子を示す図である。例えば、ディスプレイ63に図31(B)に示す映像データが表示されている場合に、ユーザが、操作部55(例えばマウス)により、カーソルMPTを映像データの表示領域外に移動させてからクリック操作(例えば右クリック操作)したとする。信号処理部50は、ユーザのクリック操作に応じて、スピーカ65L又は65Rから音声出力されている音声のパラメータ(例えば、音量レベル)の状態を標示するための状態標示用ボックスINDを、ディスプレイ63に表示させる。
なお、ユーザは状態標示用ボックスINDに対して操作することはできないが、ディスプレイ63に表示されたいずれかの識別形状がユーザにより指定されると、指定された識別形状に対応する人物の音声の音量レベルの内容が状態標示用ボックスINDにより視覚的に明示される。また、状態標示用ボックスINDの内容を変更するためには、例えばユーザが、第1の識別形状91Mを選択した状態で、他の操作部(例えばキーボード)の特定キーを押下することで、スピーカ65Lから音声出力されている人物91aの会話音声の音量レベルを大きく又は小さくした結果又はその結果に至る過程が状態標示用ボックスINDにおいて視覚的に明示される。なお、状態標示用ボックスINDは、例えば音量レベルの状態を標示するとして説明しているが、他には、音声出力時のイコライザの設定内容や、有指向音声と無指向音声との切り替えの状態の標示に用いられても良い。また、状態標示用ボックスINDは、ディスプレイ63において常に表示されても良い。
(第2の指定方法及び音声出力方法の組み合わせ)
第2の指定方法は、例えばキーボードの数字キーの押下操作とマウスの左クリック操作とにより、指定箇所を指定する方法である。第2の音声出力方法は、全ての指定箇所の音声データを両方のスピーカから音声出力する合成モノラル2ch(チャンネル)出力方法である。
図36(A)は、第4の実施形態の音声処理システム5Dの使用例の説明図である。図36(B)は、第1の指定箇所の周囲に表示される第1の識別形状91K、第2の指定箇所の周囲に表示される第2の識別形状92K、第3の指定箇所の周囲に表示される第3の識別形状93K、第4の指定箇所の周囲に表示される第4の識別形状94Kの一例を表示する様子と、第1の識別形状91Kにより特定される第1の指定箇所に対応する第1の音声位置に向かう第1の指向方向の音声を強調した音声データと、第2の識別形状92Kにより特定される第2の指定箇所に対応する第2の音声位置に向かう第2の指向方向の音声を強調した音声データと、第3の識別形状93Kにより特定される第3の指定箇所に対応する第3の音声位置に向かう第3の指向方向の音声を強調した音声データとを、第1及び第2の各スピーカ65L,65Rから出力する様子を示す図である。なお、図36(A)は図31(A)と同様であるため、図36(A)の説明は割愛する。
ユーザは、例えばディスプレイ63の画面68(図36(B)参照)に表示された人物91aの頭上付近を操作部55(例えばキーボードの数字「1」キーの押下とマウスの左クリック)の同時操作、人物92aの頭上付近を操作部55(例えばキーボードの数字「2」キーの押下とマウスの左クリック)の同時操作、人物93aの頭上付近を操作部55(例えばキーボードの数字「3」キーの押下とマウスの左クリック)の同時操作、人物94aの頭上付近を操作部55(例えばキーボードの数字「4」キーの押下とマウスの左クリック)の同時操作により、それぞれ連続的に指定したとする。数字キーの押下と左クリックの各操作により指定された各箇所は、ユーザにより指定された複数の指定箇所となる。信号処理部50は、複数の指定箇所が指定された場合に、各指定箇所を適正に区別するために、指定箇所毎に異なる識別形状を各指定箇所の周囲に表示させる。
具体的には、信号処理部50は、数字「1」キーの押下操作と左クリック操作により指定された人物91aの周囲に、人物91aが指定されたことを視覚的に明示するための識別形状91Kを表示させ、数字「2」キーの押下操作と左クリック操作により指定された人物92aの周囲に、人物92aが指定されたことを視覚的に明示するための識別形状92Kを表示させ、数字「3」キーの押下操作と左クリック操作により指定された人物93aの周囲に、人物93aが指定されたことを視覚的に明示するための識別形状93Kを表示させ、数字「4」キーの押下操作と左クリック操作により指定された人物94aの周囲に、人物94aが指定されたことを視覚的に明示するための識別形状94Kを表示させる。識別形状91K,92K,93K,94Kは、例えば黒色の矩形であるが、色や形状は黒色、矩形に限定されない。
また、信号処理部50は、マイクアレイ20Cによって収音された音声の音声データを用いて、マイクアレイ20Cの設置位置から、ユーザが指定した4つの指定箇所に対応する各音声位置に向かう各指向方向(図36(A)に示す符号e1,e2,e3で示される方向)に指向性を形成した各音声データを生成して合成する。再生部60は、全方位カメラ10Eが撮像した映像データと同期させて、識別形状91Kにより特定される第1の指向方向(図36(A)に示す符号e1参照)の音声を強調した音声データと、識別形状92Kにより特定される第2の指向方向(図36(A)に示す符号e2参照)の音声を強調した音声データと、識別形状93Kにより特定される第3の指向方向(図36(A)に示す符号e3参照)の音声を強調した音声データとを合成した音声データを、スピーカ65L,65Rから音声出力する。従って、人物91aの会話音声(「Hello」)、人物92aの会話音声(「Hi!」)、人物93aの会話音声(「Good morning!」)はスピーカ65L,65Rから強調されて音声出力される。なお、図36(A)では人物94aは声を出していない状態が図示されているので、スピーカ65L,65Rから人物94aの会話音声は強調して音声出力されていないが、例えば人物94aが声を出している場合には、人物94aの会話音声もスピーカ65L,65Rから音声出力される。
図37は、図36(B)に示す映像データが表示されている状態において、キーボードの複数の特定キーの同時押下操作に応じて、調整用操作ボックスOPBが表示される様子を示す図である。例えば、ディスプレイ63に図36(B)に示す映像データが表示されている場合に、ユーザが、操作部55(例えばキーボードの「Shift」キーと数字「1」キー)の同時押下操作を行ったとする。信号処理部50は、ユーザの同時押下操作に応じて、スピーカ65L又は65Rから音声出力される音声の音量レベルを調整するための調整用操作ボックスOPBを、ディスプレイ63に表示させる。
図39は、図36(B)に示す映像データが表示されている状態において、ディスプレイ63に表示された映像データの表示領域外へのクリック操作に応じて、調整用操作ボックスOPBが表示される様子を示す図である。例えば、ディスプレイ63に図36(B)に示す映像データが表示されている場合に、ユーザが、操作部55(例えばマウス)により、カーソルMPTを映像データの表示領域外に移動させてからクリック操作(例えば右クリック操作)したとする。信号処理部50は、ユーザのクリック操作に応じて、スピーカ65L又は65Rから音声出力される音声の音量レベルを調整するための調整用操作ボックスOPBを、ディスプレイ63に表示させる。
(第3の指定方法及び音声出力方法の組み合わせ)
第3の指定方法は、例えばタッチパネルが設けられたディスプレイ63、又はタッチパネルとは異なるタッチデバイス(例えばタッチパッド)に対するユーザの指若しくはスタイラスペンによる異なる識別形状の描画操作により、指定箇所を指定する方法である。第3の音声出力方法は、ユーザにより指定された1つ又は複数の指定箇所の音声データを一方のスピーカから音声出力し、同様にユーザにより指定された1つ又は複数の指定箇所の音声データを他方のスピーカから音声出力する合成ステレオ2ch(チャンネル)出力方法である。以下、説明を分かり易くするために、タッチパネルが設けられたディスプレイ63に対するユーザの描画操作により、指定箇所が指定されるとして説明する。
図39(A)は、第4の実施形態の音声処理システム5Dの使用例の説明図である。図39(B)は、第1の指定箇所の周囲に表示される第1の識別形状91L、第2の指定箇所の周囲に表示される第2の識別形状92L、第3の指定箇所の周囲に表示される第3の識別形状93L、第4の指定箇所の周囲に表示される第4の識別形状94Lの一例を表示する様子と、第1の識別形状91Lにより特定される第1の指定箇所に対応する第1の音声位置に向かう第1の指向方向の音声を強調した音声データと、第2の識別形状92Lにより特定される第2の指定箇所に対応する第2の音声位置に向かう第2の指向方向の音声を強調した音声データとを合成して第1のスピーカ65Lから出力する様子と、第3の識別形状93Lにより特定される第3の指定箇所に対応する第3の音声位置に向かう第3の指向方向の音声を強調した音声データを第2のスピーカ65Rから出力する様子を示す図である。なお、図39(A)は図31(A)と同様であるため、図39(A)の説明は割愛する。
ユーザは、例えばディスプレイ63の画面68(図40(B)参照)に表示された人物91aの頭上付近のタッチ及びドラッグによる丸形状の描画操作、人物92aの頭上付近のタッチ及びドラッグによる矩形形状の描画操作、人物93aの頭上付近のタッチ及びドラッグによる三角形状の描画操作、人物94aの頭上付近のタッチ及びドラッグによる六角形状の描画操作により、それぞれ連続的に指定したとする。タッチ及びドラッグによる各形状の描画操作により指定された各箇所は、ユーザにより指定された複数の指定箇所となる。信号処理部50は、複数の指定箇所が指定された場合に、各指定箇所を適正に区別するために、指定箇所毎に異なる描画操作により描かれた形状を識別形状として各指定箇所の周囲に表示させる。
具体的には、信号処理部50は、丸形状の描画操作により指定された人物91aの周囲に、人物91aが指定されたことを視覚的に明示するための識別形状91Lを表示させ、矩形形状の描画操作により指定された人物92aの周囲に、人物92aが指定されたことを視覚的に明示するための識別形状92Lを表示させ、三角形状の描画操作により指定された人物93aの周囲に、人物93aが指定されたことを視覚的に明示するための識別形状93Lを表示させ、六角形状の描画操作により指定された人物94aの周囲に、人物94aが指定されたことを視覚的に明示するための識別形状94Lを表示させる。識別形状91K,92K,93K,94Kは、あくまで一例であり各形状に限定されず、図39(B)では各識別形状は点線により図示されているが、点線に限定されず、例えば実線により図示されても良い。
また、信号処理部50は、マイクアレイ20Cによって収音された音声の音声データを用いて、マイクアレイ20Cの設置位置から、ユーザが指定した4つの指定箇所に対応する各音声位置に向かう各指向方向(図39(A)に示す符号e1,e2,e3で示される方向)に指向性を形成した各音声データを生成して合成する。再生部60は、例えばディスプレイ63の中央から左側の表示領域において描画された識別形状91L,92Lを1つの音声出力グループとしてグルーピングし、全方位カメラ10Eが撮像した映像データと同期させて、識別形状91Lにより特定される第1の指向方向(図39(A)に示す符号e1参照)の音声を強調した音声データと、識別形状92Lにより特定される第2の指向方向(図39(A)に示す符号e2参照)の音声を強調した音声データとを合成した音声データを、スピーカ65Lから音声出力する。更に、再生部60は、例えばディスプレイ63の中央から右側の表示領域において描画された識別形状93Lを1つの音声出力グループとしてグルーピングし、全方位カメラ10Eが撮像した映像データと同期させて、識別形状93Lにより特定される第3の指向方向(図39(A)に示す符号e3参照)の音声を強調した音声データを、スピーカ65Rから音声出力する。従って、人物91aの会話音声(「Hello」)、人物92aの会話音声(「Hi!」)はスピーカ65Lから強調されて音声出力され、人物93aの会話音声(「Good morning!」)はスピーカ65Rから強調されて音声出力される。なお、図36(A)では人物94aは声を出していない状態が図示されているので、スピーカ65L,65Rから人物94aの会話音声は強調して音声出力されていないが、例えば人物94aが声を出している場合には、人物94aの会話音声もスピーカ65L,65Rから音声出力される。
また、上述した説明では、再生部60が、ディスプレイ63の中央からの左側の表示領域と右側の表示領域とに表示されている識別形状の集合を区分した上で音声出力グループをそれぞれ形成する場合を説明したが、このやり方に限定されない。例えば、ユーザが音声出力グループを任意に指定しても良い。例えば、第1の識別形状91Lと第3の識別形状93Lとがスピーカ65Lから音声出力させるための1つの音声出力グループとして指定され、第2の識別形状92Lがスピーカ65Rから音声出力させるための1つの音声出力グループとして指定されても良い。この場合、再生部60は、全方位カメラ10Eが撮像した映像データと同期させて、識別形状91Lにより特定される第1の指向方向(図39(A)に示す符号e1参照)の音声を強調した音声データと、識別形状93Lにより特定される第3の指向方向(図39(A)に示す符号e3参照)の音声を強調した音声データとを合成した音声データを、スピーカ65Lから音声出力する。更に、再生部60は、全方位カメラ10Eが撮像した映像データと同期させて、識別形状92Lにより特定される第2の指向方向(図39(A)に示す符号e2参照)の音声を強調した音声データを、スピーカ65Rから音声出力する。従って、人物91aの会話音声(「Hello」)、人物93aの会話音声(「Good morning!」)はスピーカ65Lから強調されて音声出力され、人物92aの会話音声(「Hi!」)はスピーカ65Rから強調されて音声出力される。
図40は、図39(B)に示す映像データが表示されている状態において、タッチパネルが設けられたディスプレイ63に表示された映像データの表示領域外へのタッチに応じて、調整用操作ボックスOPBが表示される様子を示す図である。例えば、タッチパネルが設けられたディスプレイ63に図39(B)に示す映像データが表示されている場合に、ユーザが、映像データの表示領域外をタッチしたとする。信号処理部50は、ユーザのタッチに応じて、スピーカ65L又は65Rから音声出力される音声の音量レベルを調整するための調整用操作ボックスOPBを、ディスプレイ63に表示させる。
以上により、第4の実施形態では、信号処理部50は、ディスプレイ63に表示された映像データに対して、ユーザが異なる複数(例えば2箇所)の指定箇所を指定した場合に、映像データ中の異なる各指定箇所に、異なる識別形状(例えば識別形状91L,92L)を表示させる。
これにより、音声処理システム5Dは、ディスプレイ63に表示された映像データにおいて、ユーザにより指定された異なる複数の指定箇所を区別して認識することができ、区別した各指定箇所に異なる識別形状として、例えば一方の指定箇所の周囲に矩形の識別形状91Lを表示し、他方の指定箇所の周囲に丸の識別形状92Lを表示することで、複数の指定箇所を区別して認識したことを視覚的にユーザに対して明示することができる。
また、音声処理システム5Dには、例えば2つのスピーカが設けられ、再生部60は、マイクアレイ20から第1の指定箇所に対応する位置(第1の音声位置)に向かう第1の指向方向の音声を強調した第1の音声データを第1のスピーカ65Lから音声出力させ、マイクアレイ20から第2の指定箇所に対応する位置(第2の音声位置)に向かう第2の指向方向の音声を強調した第2の音声データを第2のスピーカ65Rから音声出力させる。
これにより、音声処理システム5Dは、例えば2つのスピーカが設けられている場合に、指定箇所毎に、マイクアレイ20から各指定箇所に対応する音声位置に向かう指向方向の音声を強調した各音声データを、各スピーカ65L,65Rから独立して音声出力させることができる。
以下、上述した本発明に係る音声処理システム及び音声処理方法の構成、作用及び効果を説明する。
本発明の一実施形態は、映像を撮像する少なくとも1つの撮像部と、前記撮像部により撮像された映像データを表示する表示部と、複数のマイクロホンを含み、前記マイクロホンを用いて音声を収音する収音部と、前記収音部により収音された音声データを音声出力する音声出力部と、前記撮像部により撮像された前記映像データと、前記収音部により収音された前記音声データとを記録する記録部と、前記記録部に記録された前記映像データを前記表示部に表示させ、前記記録部に記録された前記音声データを前記音声出力部に音声出力させる再生部と、前記表示部に表示された前記映像データの1つ以上の指定箇所の指定を受け付ける操作部と、前記記録部に記録された前記音声データを基に、前記収音部から、指定された前記映像データの1つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを生成又は合成する信号処理部と、を備える音声処理システムである。
この構成によれば、音声処理システムは、既に記録された映像データの再生中に操作部からの所定の指定箇所の指定に応じて、マイクアレイの各マイクロホンが収音した各音声データを用いて、マイクアレイから1つ以上の指定箇所に対応する位置に向かう指向方向に指向性を形成した音声データを信号処理部において生成又は合成する。
これにより、音声処理システムは、記録された映像データ及び音声データの再生中に、指定された任意の再生時間に対する映像中の音声データを強調して出力できる。
また、本発明の一実施形態は、前記再生部が、前記収音部から、前記1つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを前記音声出力部に音声出力させる、音声処理システムである。
これにより、音声処理システムは、信号処理部によって、マイクアレイから1つ以上の指定箇所に対応する位置に向かう指向方向に指向性を形成した音声データを音声出力することができる。
また、本発明の一実施形態は、前記撮像部は全方位カメラであり、前記信号処理部は、前記全方位カメラにより撮像された前記映像データが前記表示部に表示されている間に指定された前記1つ以上の指定箇所に応じて、前記1つ以上の指定箇所を含む映像データの座標系を画像変換し、前記再生部は、前記画像変換後の映像データを前記表示部に表示させ、前記収音部から、前記1つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを音声出力させる、音声処理システムである。
この構成によれば、音声処理システムは、全方位カメラにより撮像された映像データにおける被写体の位置とマイクアレイにより収音される被写体の人物の音声の方向とを対応付けるための座標系の変換処理を容易に行うことができ、カメラにより撮像された映像データと1つ以上の指定箇所に対応する位置に向かう指向方向に指向性が形成された音声データとを再生部において同期再生処理する場合の処理負荷を軽減できる。
また、本発明の一実施形態は、前記撮像部と前記収音部とが、同軸上に配置される、音声処理システムである。
これにより、音声処理システムは、音声処理システムにおける全方位カメラとマイクアレイとが同一の中心軸を有するように設置されるので、全方位カメラ10Eとマイクアレイ20Cとの座標系を同一にすることができる。
また、本発明の一実施形態は、前記撮像部と前記収音部とが、室内の天井に配置される、音声処理システムである。
これにより、音声処理システムの設置が簡易化できる。
また、本発明の一実施形態は、前記信号処理部は、前記表示部に表示された前記映像データに対して異なる複数箇所の指定に応じて、前記映像データにおける各指定箇所に異なる識別形状を表示させる、音声処理システムである。
この構成によれば、信号処理部は、ディスプレイに表示された映像データに対して、ユーザが異なる複数(例えば2箇所)の指定箇所を指定した場合に、映像データ中の異なる各指定箇所に、異なる識別形状を表示させる。
これにより、音声処理システムは、ディスプレイに表示された映像データにおいて、ユーザにより指定された異なる複数の指定箇所を区別して認識することができ、区別した各指定箇所に異なる識別形状として、例えば一方の指定箇所の周囲に矩形の識別形状を表示し、他方の指定箇所の周囲に丸の識別形状を表示することで、複数の指定箇所を区別して認識したことを視覚的にユーザに対して明示することができる。
また、本発明の一実施形態は、前記音声出力部が、第1の音声出力部と、第2の音声出力部とを含み、前記再生部が、前記収音部から第1の指定箇所に対応する位置に向かう第1の指向方向の音声を強調した第1の音声データを前記第1の音声出力部から音声出力させ、前記収音部から第2の指定箇所に対応する位置に向かう第2の指向方向の音声を強調した第2の音声データを前記第2の音声出力部から音声出力させる、音声処理システムである。
この構成によれば、音声処理システムには例えば2つのスピーカが設けられ、再生部は、マイクアレイから第1の指定箇所に対応する位置(第1の音声位置)に向かう第1の指向方向の音声を強調した第1の音声データを第1のスピーカから音声出力させ、マイクアレイから第2の指定箇所に対応する位置(第2の音声位置)に向かう第2の指向方向の音声を強調した第2の音声データを第2のスピーカから音声出力させる。
これにより、音声処理システムは、例えば2つのスピーカが設けられている場合に、指定箇所毎に、マイクアレイから各指定箇所に対応する音声位置に向かう指向方向の音声を強調した各音声データを、各スピーカから独立して音声出力させることができる。
また、本発明の一実施形態は、前記音声出力部が、第1の音声出力部と、第2の音声出力部とを含み、前記再生部が、前記収音部から異なる複数の指定箇所に対応する位置に向かう異なる複数の指向方向の音声を強調した音声データが合成された音声データを前記第1の音声出力部から音声出力させ、前記収音部から残りの1つ以上の指定箇所に対応する位置に向かう残りの1つ以上の指向方向の音声を強調した音声データを前記第2の音声出力部から音声出力又は合成音声出力させる、音声処理システムである。
この構成によれば、音声処理システムには例えば2つのスピーカが設けられ、再生部は、マイクアレイから異なる複数の指定箇所に対応する位置(例えば第1,第2の各音声位置)に向かう第1,第2の各指向方向の音声を強調した音声データが合成された音声データを第1のスピーカから音声出力させ、更に、マイクアレイから残りの1つ以上の指定箇所に対応する位置(例えば第3の音声位置)に向かう残りの1つ以上の指向方向の音声を強調した音声データを第2のスピーカから音声出力させる。
これにより、音声処理システムは、例えば2つのスピーカが設けられている場合に、マイクアレイから複数(例えば2つ)の指向方向の音声を強調した各音声データを合成して一方のスピーカから音声出力でき、更に他の指向方向の音声を強調した音声データを他方のスピーカから音声出力できる。
また、本発明の一実施形態は、1つ以上の前記音声出力部を含み、前記再生部が、前記収音部から異なる複数の指定箇所に対応する位置に向かう異なる複数の指向方向の音声を強調した音声データが合成された音声データを、1つ以上の前記音声出力部から音声出力させる、音声処理システムである。
この構成によれば、音声処理システムには例えば1つ以上のスピーカが設けられ、再生部は、マイクアレイから第1の指定箇所に対応する位置(第1の音声位置)に向かう第1の指向方向の音声を強調した第1の音声データと、マイクアレイから第2の指定箇所に対応する位置(第2の音声位置)に向かう第2の指向方向の音声を強調した第2の音声データと、マイクアレイから第3の指定箇所に対応する位置(第3の音声位置)に向かう第3の指向方向の音声を強調した第3の音声データとが合成された音声データを、1つ以上のスピーカから音声出力させる。
これにより、音声処理システムは、例えば1つ以上のスピーカが設けられている場合に、マイクアレイから複数(例えば3つ)の指向方向の音声を強調した各音声データを合成してスピーカから音声出力でき、更に複数のスピーカが設けられている場合には合成された音声データを同時に音声出力できる。
また、本発明の一実施形態は、前記信号処理部が、所定の入力操作又は前記表示部に表示された前記映像データの表示領域外への指定操作に応じて、前記音声出力部から音声出力された前記音声データのパラメータ調整操作用媒体を表示する、音声処理システムである。
この構成によれば、音声処理システムは、所定の入力操作(例えばマウスの右クリック操作)又はディスプレイに表示された映像データの表示領域外への指定操作(例えばマウスの左クリック操作)により、スピーカから音声出力されている音声データのパラメータ(例えば、音量レベル)の調整操作を受け付ける調整操作用ボックスを簡易に表示することができる。
また、本発明の一実施形態は、前記信号処理部が、常に、若しくは所定の入力操作又は前記表示部に表示された前記映像データの表示領域外への指定操作に応じて、前記音声出力部から音声出力された前記音声データのパラメータ状態標示用媒体を表示する、音声処理システムである。
この構成によれば、音声処理システムは、常に、若しくは所定の入力操作(例えばマウスの右クリック操作)又はディスプレイに表示された映像データの表示領域外への指定操作(例えばマウスの左クリック操作)により、スピーカから音声出力されている音声データのパラメータ(例えば、音量レベル)の状態を標示するインジケータとしての状態標示用ボックスを簡易に表示することができる。
また、本発明の一実施形態は、前記信号処理部が、所定の入力操作又は前記表示部に表示された前記映像データの表示領域外への指定操作毎に、前記撮像部により撮像された映像データ、又は前記音声出力部から音声出力された前記音声データのパラメータ調整操作用媒体に切り替えて前記表示部に表示させる、音声処理システムである。
この構成によれば、音声処理システムは、所定の入力操作又はディスプレイに表示された映像データの表示領域外への指定操作(例えばマウスの左クリック操作)毎に、カメラにより撮像された映像データ、又はスピーカから音声出力されている音声データのパラメータ(例えば、音量レベル)の調整操作を受け付ける調整操作用ボックスを簡易に切り替えて表示することができる。
また、本発明の一実施形態は、前記信号処理部が、前記表示部に表示された前記映像データの指定箇所を中心に含む所定形状の描画操作に応じて、前記収音部から前記指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを生成又は合成する、音声処理システムである。
この構成によれば、音声処理システムは、ディスプレイに表示された映像データの指定箇所を中心に含む所定形状(例えば矩形形状)を描く簡易な描画操作(例えばタッチ操作とタッチ操作した状態でのスライド操作)により、マイクアレイから指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを生成又は合成することができる。
また、本発明の一実施形態は、前記信号処理部が、前記指定箇所毎に表示された前記識別形状の再指定に応じて、前記収音部から再指定された前記識別形状が表示された指定箇所に対応する位置に向かう指向方向の音声の強調を中止した音声データを生成又は合成する、音声処理システムである。
この構成によれば、音声処理システムは、指定箇所毎に表示された識別形状が再指定されると、マイクアレイから再指定された識別形状が表示された指定箇所に対応する位置に向かう指向方向の音声の強調を中止した音声データを簡易に生成又は合成することができる。
また、本発明の一実施形態は、少なくとも1つの撮像部において映像を撮像するステップと、複数のマイクロホンを含む収音部において音声を収音するステップと、前記撮像部により撮像された映像データを表示部に表示させるステップと、前記撮像部により撮像された映像データと前記収音部により収音された音声データとを記録するステップと、記録された前記映像データを前記表示部に表示させ、記録された前記音声データを音声出力部に音声出力させるステップと、前記表示部に表示された前記映像データの1つ以上の指定箇所の指定を受け付けるステップと、記録された前記音声データを基に、前記収音部から、指定された前記映像データの1つ以上の指定箇所に対応する位置に向かう指向方向の音声を強調した音声データを生成又は合成するステップと、を有する、音声処理方法である。
この方法によれば、音声処理システムは、既に記録された映像データの再生中に操作部からの所定の指定箇所の指定に応じて、マイクアレイの各マイクロホンが収音した各音声データを用いて、マイクアレイから1つ以上の指定箇所に対応する位置に向かう指向方向に指向性を形成した音声データを信号処理部において生成又は合成する。
これにより、音声処理システムは、記録された映像データ及び音声データの再生中に、指定された任意の再生時間に対する映像中の音声データを強調して出力できる。
以上、図面を参照しながら各種の実施形態について説明したが、本発明はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。