JP7124506B2

JP7124506B2 - 集音拡声装置、その方法、およびプログラム

Info

Publication number: JP7124506B2
Application number: JP2018133903A
Authority: JP
Inventors: 翔一郎齊藤; 和則小林; 登原田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2022-08-24
Anticipated expiration: 2038-07-17
Also published as: JP2020014072A; WO2020017284A1; US20210306742A1; US11678114B2

Description

本発明は、マイクロホンとスピーカを用いて車両内や車両外との会話を円滑に行う集音拡声技術に関する。

インカーコミュニケーションや会話アシストと呼ばれる機能が自動車に搭載されつつある(非特許文献１参照)。これは前席に乗車している人の声を集音して後席で再生することで会話を行いやすくするものである。さらに後席の音声を集音して前席で再生するものもある。また、車に乗りながらハンズフリーで電話を行うことも近年盛んにおこなわれるようになってきている。web会議などのシステムであれば、複数人との会話が可能で、かつそれぞれの発話地点の区別が可能という背景がある。

インカーコミュニケーションにおいては、図１のように話者音声の拡声用スピーカを耳元に設置するのが、少ない音量で音声を提示できるため効果的である。

"「インテリジェントマイク for car」の技術について"、［online］、2018年、日本電信電話株式会社、[平成30年5月24日]、インターネット<URL:http://www.ntt.co.jp/news2018/1802/pdf/180219c.pdf>

しかしながら、耳元のスピーカから拡声音声を聞くと、すべての話者の音声が後方から聞こえることになり（図２参照）、どの話者が話しているかの区別が難しくなる。例えば、図２の場合、後席の話者F,E、通話相手１，２の音声が全て後方から聞こえるため、音声の方向や位置から直感的に通話相手を判断することはできない。

本発明は、インカーコミュニケーション（車両内通話）及び車両外との通話を行う際、直感的にどの話者が話しているかの区別ができ、通話快適性を向上させることができる集音拡声装置、その方法、およびプログラムを提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、集音拡声装置は、車両に搭載される。集音拡声装置は、車両内には2つ以上の集音拡声位置が想定されるものとし、強調信号の音像を定位させる所望の音源位置から集音拡声位置に位置する対象者の両耳への伝達関数と、集音拡声位置で音を再生するために設置された1つ以上のスピーカから両耳への伝達関数とから、音源位置に音像を定位させるためのフィルタを強調信号に適用し、フィルタリング後の強調信号をスピーカに出力する伝達関数乗算部とを含み、強調信号は、1以上のマイクロホンで集音された信号から集音拡声位置から発せられる目的音を強調した信号である。

上記の課題を解決するために、本発明の他の態様によれば、集音拡声装置は、車内に搭載される。集音拡声装置は、車内の前列の座席のうち少なくともいずれか１つを集音位置とし、車内の後列の座席のうち少なくともいずれか１つを拡声位置とし、拡声位置に拡声するために設置された、集音位置よりも拡声位置に近いかつ、拡声位置を基準として集音位置と異なる方向に設置されたスピーカと、集音位置から発せられた音を集音するために設置されたマイクロホンとを含み、マイクロホンにより収音された音を、スピーカから集音位置に音像を定位させて拡声する。

本発明によれば、車両内通話及び車両外との通話を行う際、直感的にどの話者が話しているかの区別ができ、通話快適性を向上させることができるという効果を奏する。

インカ―コミュニケーションにおけるマイクロホンとスピーカの配置例を示す図。インカ―コミュニケーションにおける音像の定位位置を示す図。第一実施形態に係る集音拡声装置の機能ブロック図。第一実施形態に係る集音拡声装置の処理フローの例を示す図。第一実施形態に係る音響処理部の機能ブロック図。第一実施形態に係る目的音強調部の機能ブロック図。第一実施形態に係るエコーキャンセラ部の機能ブロック図。フィルタの求め方を説明するための図。第一実施形態に係る伝達関数乗算部の機能ブロック図。仮想の音源位置を説明するための図。仮想の音源位置を説明するための図。仮想の音源位置を説明するための図。仮想の音源位置を説明するための図。車両外通話機能のみを有する集音拡声装置の機能ブロック図。仮想の音源位置を説明するための図。仮想の音源位置を説明するための図。入出力手段の表示する画面の例を示す図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。

＜第一実施形態のポイント＞
車両内の話者及び車両外の通信相手の話者の音声を、発話者別に異なるフィルタに通してマルチチャネルスピーカから提示し、別々の場所に音像定位させることにより、会話をしている相手を直感的にわかりやすくする。

＜第一実施形態＞
図３は第一実施形態に係る集音拡声装置の機能ブロック図を、図４はその処理フローを示す。

集音拡声装置は、2つの音響処理部１１０－ｉと送話音声送信部１２０と受話音声振分部１３０とを含む。

本実施形態では、集音拡声装置が搭載される車両は、図１、図２のような構造とし、３列シートを備える。さらに、本実施形態の車両は、各列の左右にそれぞれ１つの座席を持ち、主に１列目の話者の音声を集音するマイク９１Ｆと、主に３列目の話者の音声を集音するマイク９１Ｒとを備える。マイク９１Ｆ、９１Ｒは、それぞれM個のマイクロホンで構成される。なお、Ｆ，Ｒはそれぞれ車両の進行方向に対して前方、後方を示すインデックスである。さらに、本実施形態の車両は、１列目と３列目の各座席の左右に１つずつスピーカを備える。また、Ｒ，Ｌは車両の進行方向に対して右側、左側を示すインデックスとし、車両の右側前方の座席Aの右側、車両の右側前方の座席Aの左側、車両の左側前方の座席Bの右側、車両の左側前方の座席Bの左側、車両の右側後方の座席Eの右側、車両の右側後方の座席Eの左側、車両の左側後方の座席Fの右側、車両の左側後方の座席Fの左側に設置されている8つのスピーカをそれぞれ９２－ＲＦ－Ｒ，９２－ＲＦ－Ｌ，９２－ＬＦ－Ｒ，９２－ＬＦ－Ｌ，９２－ＲＲ－Ｒ，９２－ＲＲ－Ｌ，９２－ＬＲ－Ｒ，９２－ＬＲ－Ｌとする。集音、拡声の対象となる1列目の座席A,Bの位置と3列目の座席E,Fの位置を集音拡声位置ともいう。なお、「拡声」とは、スピーカ等の拡声器によって、電気信号（再生信号）を音に変換し、空間に放射することを意味する。拡声時には1より大きいゲインを乗じて元の音より大きくして放射してもよいし、1より小さいゲインを乗じて元の音より小さくして放射してもよいし、大きさを変えずに（ゲインが１に相当）放射してもよい。

集音拡声装置は、車両内に設置された2つのマイク９１Ｆ，９１Ｒで集音して得られる集音信号X_F=[X_F,1,…,X_F,M],X_R=[X_R,1,…,X_R,M]と、車載用音響装置（例えば、カーオーディオ等）のスピーカ９３で再生される再生信号(例えば、オーディオ信号)X_C=[X_C,1,…,X_C,N]と、通話先から受信する受話音声信号X_pと発話者情報qを入力とし、現実の発話者に対応する仮想の音源位置に音像が定位するように、車両内に設置された8つのスピーカ９２－ＲＦ－Ｒ，９２－ＲＦ－Ｌ，９２－ＬＦ－Ｒ，９２－ＬＦ－Ｌ，９２－ＲＲ－Ｒ，９２－ＲＲ－Ｌ，９２－ＬＲ－Ｒ，９２－ＬＲ－Ｌで再生される再生信号Y_F=[Y_RF-R,Y_RF-L,Y_LF-R,Y_LF-L],Y_R=[Y_RR-R,Y_RR-L,Y_LR-R,Y_LR-L]と、通話先へ送信する送話音声信号X_rと発話者情報tを生成し、出力する。なお、信号X_F,X_R,X_C,X_p,Y_F,Y_R,X_rは、それぞれの信号のある周波数成分の複素数表示である。ここで、周波数領域の信号X_F,X_R,X_C,X_p,Y_F,Y_R,X_rをそのまま入出力としてもよいし、時間領域の信号を入力とし図示しない周波数領域変換部において周波数領域の信号X_F,X_R,X_C,X_pに変換(例えばフーリエ変換等)して用いてもよいし、周波数領域の信号Y_F,Y_R,X_rを図示しない時間領域変換部において時間領域の信号に変換(例えば逆フーリエ変換等)して出力してもよい。また、Nは、車載用音響装置のスピーカ９３で再生される再生信号のチャネル数を表す。

集音拡声装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。集音拡声装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。集音拡声装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。集音拡声装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。集音拡声装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも集音拡声装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、集音拡声装置の外部に備える構成としてもよい。

以下、各部について説明する。

＜音響処理部１１０－ｉ＞
音響処理部１１０－ｉの一方は、マイク９１Ｆで主に１列目の発話者の音声を集音した集音信号X_F=[X_F,1,…,X_F,M]と、他方の音響処理部１１０－ｉ’(ｉ’は１または２であり、ｉ≠ｉ’である)で生成された1列目の座席のスピーカ９２－ＲＦ－Ｒ，９２－ＲＦ－Ｌ，９２－ＬＦ－Ｒ，９２－ＬＦ－Ｌで再生される再生信号Y_F=[Y_RF-R,Y_RF-L,Y_LF-R,Y_LF-L]と、再生信号X_C=[X_C,1,…,X_C,N]と、通話先から受信する受話音声信号X_pとを入力とする。言い換えると、音像を定位させる対象となる音を発する音源に対応する位置から発せられた音(集音信号X_F、受話音声信号X_p)と、該音源以外から発せられるかつ音響信号を得ることができる音（再生信号Y_F、X_C）と、を入力とする。音響処理部１１０－ｉの一方は、3列目の座席のスピーカ９２－ＲＲ－Ｒ，９２－ＲＲ－Ｌ，９２－ＬＲ－Ｒ，９２－ＬＲ－Ｌで再生される再生信号Y_R=[Y_RR-R,Y_RR-L,Y_LR-R,Y_LR-L]と、集音信号X_F=[X_F,1,…,X_F,M]から車両の右側前方の座席から発せられる目的音を強調した強調信号X_FRとその座席のインデックス、集音信号X_F=[X_F,1,…,X_F,M]から車両の左側前方の座席から発せられる目的音を強調した強調信号X_FLとその座席のインデックスを生成し、出力する。なお、本実施形態では、3列目の座席のスピーカで再生される再生信号を生成するが、車の向きを基準として後列であれば何列目の座席のスピーカで再生される再生信号を生成してもよい。

他方の音響処理部１１０－ｉ’は、マイク９１Ｒで主に３列目の発話者の音声を集音した集音信号X_R=[X_R,1,…,X_R,M]と、一方の音響処理部１１０－ｉで生成された3列目の座席のスピーカ９２－ＲＲ－Ｒ，９２－ＲＲ－Ｌ，９２－ＬＲ－Ｒ，９２－ＬＲ－Ｌで再生される再生信号Y_R=[Y_RR-R,Y_RR-L,Y_LR-R,Y_LR-L]と、再生信号X_C=[X_C,1,…,X_C,N]と、通話先から受信する受話音声信号X_pとを入力とし、1列目の座席のスピーカ９２－ＲＦ－Ｒ，９２－ＲＦ－Ｌ，９２－ＬＦ－Ｒ，９２－ＬＦ－Ｌで再生される再生信号Y_F=[Y_RF-R,Y_RF-L,Y_LF-R,Y_LF-L]と、集音信号X_R=[X_R,1,…,X_R,M]から車両の右側後方の座席から発せられる目的音を強調した強調信号X_RRとその座席のインデックス、集音信号X_R=[X_R,1,…,X_R,M]から車両の左側後方の座席から発せられる目的音を強調した強調信号X_RLとその座席のインデックスを生成し、出力する。

音響処理部１１０－ｉは、2つの目的音強調部１１１－ｊと、2つの伝達関数乗算部１１２－ｋとを含む。ただし、i=1,2、j=1,2、k=1,2である。なお、本実施形態では、車両の左側前方（助手席）と右側前方（運転席）の２つの座席から発せられる目的音を強調するために2つの目的音強調部１１１－ｊを設けているが、強調したい目的音の数に応じて目的音強調部１１１－ｊを設ければよい。図５は、音響処理部１１０－ｉの機能ブロック図を示す。以下、各部について説明する。以下では、音響処理部１１０－ｉの一方について説明するが、他方の音響処理部１１０－ｉ’についても入力信号、出力信号に合わせて同様の信号処理を行えばよいため、説明を省略する。

＜目的音強調部１１１－ｊ＞
目的音強調部１１１－ｊの一方は、マイク９１Ｆで主に１列目の発話者の音声を集音した集音信号X_F=[X_F,1,…,X_F,M]と、他方の音響処理部１１０－ｉ’で生成された1列目の座席のスピーカ９２－ＲＦ－Ｒ，９２－ＲＦ－Ｌ，９２－ＬＦ－Ｒ，９２－ＬＦ－Ｌで再生される再生信号Y_F=[Y_RF-R,Y_RF-L,Y_LF-R,Y_LF-L]と、再生信号X_C=[X_C,1,…,X_C,N]とを入力とし、集音信号X_F=[X_F,1,…,X_F,M]から目的音（前方右側の座席から発せられる音）を強調した強調信号X_FRを求め、出力する。

他方の目的音強調部１１１－ｊ’(ｊ’は１または２であり、ｊ≠ｊ’である)は、目的音強調部１１１－ｊと同様の信号を入力とし、集音信号X_F=[X_F,1,…,X_F,M]から目的音（前方左側の座席から発せられる音）を強調した強調信号X_FLを求め、出力する。

図６は目的音強調部１１１－ｊの機能ブロック図を示す。

目的音強調部１１１－ｊは、指向性集音部１１１－ｊ－１と、エコーキャンセラ部１１１－ｊ－２と、ハウリング抑圧部１１１－ｊ－３とを含む。以下、各部について説明する。以下では、一方の目的音強調部１１１－ｊについて説明するが、他方の目的音強調部１１１－ｊ’についても出力信号に合わせて同様の信号処理を行えばよいため、説明を省略する。

(指向性集音部１１１－ｊ－１)
指向性集音部１１１－ｊ－１は、集音信号X_F=[X_F,1,…,X_F,M]を入力とし、集音信号X_F=[X_F,1,…,X_F,M]から目的音（前方右側の座席から発せられる音）を強調した強調信号X'_FRを求め（Ｓ１１１－ｊ－１）、出力する。

どのような方法により強調信号を求めてもよい。例えば、特開2004-078021号公報の強調技術を用いることができる。

(エコーキャンセラ部１１１－ｊ－２)
エコーキャンセラ部１１１－ｊ－２は、強調信号X'_FRと、再生信号Y_F=[Y_RF-R,Y_RF-L,Y_LF-R,Y_LF-L]と、再生信号X_C=[X_C,1,…,X_C,N]とを入力とし、強調信号X'_FRに含まれるスピーカ９３で再生される音成分やスピーカ９２－ＲＦ－Ｒ，９２－ＲＦ－Ｌ，９２－ＬＦ－Ｒ，９２－ＬＦ－Ｌで再生される音成分を消去し、エコー成分を消去した強調信号X"_FRを求め（Ｓ１１１－ｊ－２）、出力する。

図７は、エコーキャンセラ部１１１－ｊ－２の機能ブロック図を示す。

エコーキャンセラ部１１１－ｊ－２は、第一適応フィルタ部１１１－ｊ－２－１と、第一減算部１１１－ｊ－２－２と、第二適応フィルタ部１１１－ｊ－２－３と、第二減算部１１１－ｊ－２－４とを含む。

第一適応フィルタ部１１１－ｊ－２－１は、再生信号X_C=[X_C,1,…,X_C,N]を入力とし、第一適応フィルタを用いて再生信号X_Cをフィルタリングし、第一擬似エコーY₁を生成し、出力する。

第一減算部１１１－ｊ－２－２は、強調信号X'_FRと第一擬似エコーY₁とを入力とし、強調信号X'_FRから第一擬似エコーY₁を減算し、強調信号X'_FR,1を得、出力する。なお、全てのチャネルをそれぞれ減算してもよいし、全てのチャネルの総和を減算してもよい。例えば、Nチャネルの再生信号X_C,n(n=1,2,…,N)をそれぞれフィルタリングしたNチャネルの第一擬似エコーY_1,n(ただしY₁=[Y_1,1,…,Y_1,N])をそれぞれ強調信号X'_FRから減算してもよいし、Nチャネルの第一擬似エコーY_1,nの総和を強調信号X'_FRから減算してもよい。

第二適応フィルタ部１１１－ｊ－２－３は、再生信号Y_F=[Y_RF-R,Y_RF-L,Y_LF-R,Y_LF-L]を入力とし、第二適応フィルタを用いて再生信号Y_Fをフィルタリングし、第二擬似エコーY₂を生成し、出力する。

第二減算部１１１－ｊ－２－４は、強調信号X'_FR,1と第二擬似エコーY₂とを入力とし、強調信号X'_FR,1から第二擬似エコーY₂を減算し、強調信号X"_FRを得、出力する。第一減算部１１１－ｊ－２－２と同様に全てのチャネルをそれぞれ減算してもよいし、全てのチャネルの総和を減算してもよい。

さらに、第一適応フィルタ部１１１－ｊ－２－１は、エコー成分を消去した強調信号X"_FR(誤差信号に相当)を入力とし、再生信号X_Cと強調信号X"_FRを用いて第一適応フィルタを更新する。同様に、第二適応フィルタ部１１１－ｊ－２－３は、強調信号X"_FRを入力とし、再生信号Y_Fと強調信号X"_FRを用いて第二適応フィルタを更新する。

適応フィルタの更新方法としては様々な方法がある。例えば、参考文献１記載のNLMSアルゴリズム等を用いてフィルタ更新を行うことができる。
（参考文献１）大賀寿郎、山崎芳男、金田豊、「音響システムとディジタル処理」、電子情報通信学会編、コロナ社、1995年、p140,141

なお、上述のエコー消去方法に限らず、どのような方法によりエコー成分を消去してもよい。例えば、特開2010-187086号公報のエコー消去技術を用いることができる。

(ハウリング抑圧部１１１－ｊ－３)
ハウリング抑圧部１１１－ｊ－３は、強調信号X"_FRを入力とし、ハウリング成分を抑圧し（Ｓ１１１－ｊ－３）、ハウリング成分抑圧後の信号を強調信号X_FRとして出力する。

なお、どのような方法によりハウリング成分を抑圧してもよい。例えば、特開2007-221219号公報のハウリング抑圧技術を用いることができる。

＜伝達関数乗算部１１２－ｋ＞
伝達関数乗算部１１２－ｋの一方は、強調信号X_FR、X_FLと、受話音声信号X_pとを入力とする（図５参照）。

伝達関数乗算部１１２－ｋは、仮想の音源位置（例えば、運転席または助手席）から車両の右側後方の座席に位置する対象者の両耳への伝達関数と、車両の右側後方の座席で音を再生するために設置された2つのスピーカ９２－ＲＲ－Ｒ，９２－ＲＲ－Ｌから両耳への伝達関数とから仮想の音源位置に音像を定位させるためのフィルタG_RRを強調信号X_FR，X_FL、受話音声信号X_pに適用し（Ｓ１１２）、フィルタリング後の強調信号である再生信号Y_RR-R,Y_RR-Lをスピーカ９２－ＲＲ－Ｒ，９２－ＲＲ－Ｌに出力する。

他方の伝達関数乗算部１１２－ｋ’(ｋ’は１または２であり、ｋ≠ｋ’である)は、強調信号X_RR,X_RLと、受話音声信号X_pとを入力とする。

伝達関数乗算部１１２－ｋ’は、仮想の音源位置（例えば、運転席または助手席）から車両の左側後方の座席に位置する対象者の両耳への伝達関数と、車両の左側後方の座席で音を再生するために設置された2つのスピーカ９２－ＬＲ－Ｒ，９２－ＬＲ－Ｌから両耳への伝達関数とから仮想の音源位置に音像を定位させるためのフィルタG_LRを強調信号X_RR,X_RL、受話音声信号X_pに適用し（Ｓ１１２）、フィルタリング後の強調信号である再生信号Y_LR-R,Y_LR-Lをスピーカ９２－ＬＲ－Ｒ，９２－ＬＲ－Ｌに出力する。

まとめると、伝達関数乗算部１１２－ｋは、発話者ごとに異なる音像を形成するためのフィルタGを強調信号に適用し、スピーカの再生信号を求める。なお、以降の信号表現は周波数領域とする。伝達関数乗算部１１２－ｋは音を再生する座席の個数だけ存在する。本実施形態では、3列目の座席を2つとしているため、伝達関数乗算部１１２－ｋの個数も2つとしている。

図８を参照して、フィルタGの求め方を説明する。まず、仮想の音源Sの位置から両耳への伝達関数H_SL',H_SR'、および耳元の2chスピーカL,Rから両耳への伝達関数H_LL,H_LR,H_RL,H_RRを測定、または、シュミレーションにより求める。伝達関数H_SL',H_SR',H_LL,H_LR,H_RL,H_RRが既知（測定済み）である時に、音源信号Xに対し

となるようにG_SL,G_SRを求める。これを座席数（例えば車内通話の対象として２座席）と通話相手先に対応するP地点分（Pは１以上の整数）求める。

図９は、伝達関数乗算部１１２－ｋの機能ブロック図を示す。

伝達関数乗算部１１２－ｋは、6つのフィルタリング部１１２－ｋ－ＦＲ－Ｌ，１１２－ｋ－ＦＲ－Ｒ，１１２－ｋ－ＦＬ－Ｌ，１１２－ｋ－ＦＬ－Ｒ，１１２－ｋ－ｐ－Ｌ，１１２－ｋ－ｐ－Ｒと、2つの加算部１１２－ｋ－２－Ｌ，１１２－ｋ－２－Ｒとを含む。なお、本実施形態では、P=1とし、通話相手先に対応する地点数を１としているが、必要に応じて地点数P×２のフィルタリング部を設ければよい。受話音声信号X_pが、どの伝達関数乗算部に振り分けられ、さらに振り分けられた伝達関数乗算部の中のどのフィルタリング部に振り分けれるかは、後述する受話音声振分部によって特定される。

２つのフィルタリング部１１２－ｋ－ＦＲ－Ｌ，１１２－ｋ－ＦＲ－Ｒは、強調信号X_FRを入力とし、それぞれフィルタG_FR-L、G_FR-Rを適用し、フィルタリング後の強調信号G_FR-LX_FR、G_FR-RX_FRを出力する。

２つのフィルタリング部１１２－ｋ－ＦＬ－Ｌ，１１２－ｋ－ＦＬ－Ｒは、強調信号X_FLを入力とし、それぞれフィルタG_FL-L、G_FL-Rを適用し、フィルタリング後の強調信号G_FL-LX_FL、G_FL-RX_FLを出力する。

２つのフィルタリング部１１２－ｋ－ｐ－Ｌ，１１２－ｋ－ｐ－Ｒは、受話音声信号X_pを入力とし、それぞれフィルタG_p-L、G_p-Rを適用し、フィルタリング後の強調信号G_p-LX_p、G_p-RX_pを出力する。

加算部１１２－ｋ－２－Ｌは、強調信号G_FR-LX_FR、G_FL-LX_FL、G_p-LX_pを入力とし、これらの信号を加算して、再生信号Y_RR-L(=G_FR-LX_FR+G_FL-LX_FL+G_p-LX_p)を求め、出力する。

加算部１１２－ｋ－２－Ｒは、強調信号G_FR-RX_FR、G_FL-RX_FL、G_p-RX_pを入力とし、これらの信号を加算して、再生信号Y_RR-R(=G_FR-RX_FR+G_FL-RX_FL+G_p-RX_p)を求め、出力する。なお、上述のフィルタG_RRはG_RR=[G_FR-L,G_FR-R,G_FL-L,G_FL-R,G_p-L,G_p-R]と表すことができる。

（仮想の音源位置）
仮想の音源位置は、どの話者が話しているかを区別することができる位置であればよく、実際の音源位置と一致させてもよいし、異なってもよい。

例えば、車両内の各座席については、仮想の音源位置と実際の音源位置とを一致させ、車両外の通話先は、実際の音源位置とは異なる位置を仮想の音源位置として設定する。その際、車両内のだれかと話しているのではないことを明確にするために、仮想の音源位置を車両外に設定してもよい。

例として運転席（右側前方の座席）や助手席のスピーカで提示する際に、図１０や図１１のように仮想の音源１，２を設定する。車両内の会話音声については、実際の音源の位置に相当する後方の座席を設定する一方で、車両外の相手と通話する際には前方に仮想音源を設定する。たとえば電話会議のような複数地点との会話であれば、前方左側（仮想音源１の位置）と前方右側（仮想音源２の位置）に定位させることにより、発言者の区別がよりつきやすくなる。

また本システムを搭載する同様の車両との会話であれば、相手の車両が仮想的に向かい合わせにいる設定で音像を定位させる（図１１）。運転席（右側前方の座席）や助手席から見ると、本来、前方には発話者がいないはずなので、図１０や図１１の仮想音源から来る音は、車両内の話者の発話でなく、車両外の通話相手であると直感的な把握が可能である。

逆に後部座席においては、図１２、１３のように音像を定位させる。音像を区別して提示すること、特に車両外、車両内を前後で分けることで、会話の直感的な把握が可能であり、運転者が注意力を働かせなくても自然に会話ができることが期待される。

＜送話音声送信部１２０及び受話音声振分部１３０＞
送話音声送信部１２０は、強調信号X_FR,X_FL,X_RR,X_RLを入力とし、強調信号X_FR,X_FL,X_RR,X_RLを統合し、送話音声信号X_rを生成し、対応する発話者情報tを生成し、送信する（Ｓ１２０）。なお、発話者情報tは、強調信号X_FR,X_FL,X_RR,X_RLに対応する車両内の座席の位置の情報と、通話相手に対応する車両外の集音拡声位置の情報(例えば、図１０における仮想音源１、２の位置を示す情報や、図１１における仮想対向車音像の座席A’～F’を示す情報)を含む。

受話音声振分部１３０は、送信先から受話音声信号X_pと発話者情報qとを入力とし、発話者情報qを用いて、受話音声信号X_pを分離し、分離した受話音声信号X_pを発話者情報に基づき各音響処理部１１０－ｉ内の伝達関数乗算部１１２－ｋの何れかに振り分ける（Ｓ１３０）。

なお、発話者情報qは、発話した座席の位置の情報（受話音声信号X_pに対応する車両内の集音拡声位置の情報q1）と発話地点の情報（通話相手に対応する車両外の集音拡声位置の情報q2）を含む。

例えば、RTPパケットにおいてデータ部分に受話音声信号X_p、送話音声信号X_rを格納し、ヘッダ部分に発話者情報t,qを格納し、通話相手と送受信することがあげられる。

受話音声振分部１３０は、その通話が「どの座席の話者と行われているか」の情報（受話音声信号X_pに対応する車両内の座席位置の情報）からまずは再生先の伝達関数乗算部を決定する。例えば、車両の右側後方の座席Eに送信する場合には、再生先の伝達関数乗算部として、音響処理部１１０－１内の伝達関数乗算部１１２－１に決定する。

次に、「どの座席（地点）から話された発話か」の情報（通話相手に対応する車両外の集音拡声位置の情報）から、伝達関数乗算部のどのフィルタ（所望の仮想音源の位置に対応するフィルタ）を適用するかを決定する。言い換えると、通話相手に対応する車両外の集音拡声位置の情報から所望の仮想音源の位置に対応するフィルタを特定する。発話地点とフィルタの対応についてはあらかじめ設定しておいても、その都度システムが決定してもよい。

なお、３列シートの車両で２列目の座席に車両内通話のスピーカを適用しないケースにおいては、図１４のように車両外通話機能のみを有することも可能である。２列目の場合の音像定位の例は図１５、図１６となる。目的音強調部１１１－３、伝達関数乗算部１１２－３における処理内容は、入力信号、出力信号に合わせて目的音強調部１１１－ｊ、伝達関数乗算部１１２－ｋと同様の信号処理を行えばよいため、説明を省略する。

＜効果＞
このような構成とすることで、インカーコミュニケーション及び車両外との通話を行う際、直感的にどの話者が話しているかの区別ができ、通話快適性を向上させることができる。

＜変形例＞
本実施形態の集音拡声装置を車両内通話のみに利用してもよい。この場合、送話音声送信部１２０、受話音声振分部１３０を備えなくともよい。

本実施形態では、前方の座席A,Bと後方の座席E,F、さらに通話先の全てと通話可能としている。しかしながら、特定の通話相手とのみ通過可能とする構成としてもよい。例えば、図１７のような画面を表示し、利用者からの入力を受け付けるタッチパネル（入出力手段）を各座席に設け、利用者が通話相手を選択すると、選択した通話相手との通話を開始する構成とする。例えば、運転席（座席A）の利用者が座席Fをタップすると、マイク９１Ｆ，９１Ｒとスピーカ９２－ＲＦ－Ｌ，９２－ＲＦ－Ｒ，９２－ＬＲ－Ｌ，９２－ＬＲ－Ｒが作動する。集音拡声装置は、再生信号Y_LR-R,Y_LR-L、Y_RF-R,Y_RF-Lを生成するために必要な部分だけを動作させればよい。

本実施形態では、音響処理部１１０－ｉは目的音強調部１１１－ｊを備えるが、例えば、集音対象の座席に対して指向性を有する指向性マイクを用いて、座席から発せられる目的音を強調した強調信号を得られるのであれば、目的音強調部１１１－ｊを用いずに指向性マイクの出力値を伝達関数乗算部１１２－ｋに出力してもよい。また、指向性集音部１１１－ｊ－１を用いずに指向性マイクの出力値をエコーキャンセラ部１１１－ｊ－２に出力してもよい。

本実施形態では、3列シートで、1列目と3列目にマイクロホンとスピーカを備えた構成としている。これは、1列目と2列目の座席、3列目と2列目の座席の場合、声が届きやすいため、多くの場合、車両内通話を必要としないためである。しかしながら、2列目にマイクロホンとスピーカを備える構成を排除するものではなく、必要に応じて備えてもよい。2列目用に座席（集音拡声位置）と仮想の音源位置を設定することで、本実施形態を適用することができる。また、3列シートに限らず、2列シート、4列シート以上を備える車両において本実施形態を適用してもよい。要は、車両内の共通の音場の中で、走行音やカーオーディオの再生音、その他の車外の騒音等で一般的に会話する際の音量では、互いの声が聞こえずらい位置関係にある場合に適用すればよい。話者を区別できるように仮想の音源位置を設定することで、本実施形態と同様の効果を得ることができる。

本実施形態では、集音拡声装置は、スピーカとマイクロホンを含まない構成としているが、以下では、スピーカとマイクロホンとを含む集音拡声装置として本発明を説明する。集音拡声装置は、車内に搭載される。車内の前列の座席のうち少なくともいずれか１つを集音位置(例えば、座席A)とし、車内の後列の座席のうち少なくともいずれか１つを拡声位置(例えば、座席F)とする。スピーカ(例えばスピーカ９２－ＬＲ－Ｒ，９２－ＬＲ－Ｌ)は、拡声位置(例えば座席F)に拡声するために設置された、集音位置(例えば座席A)よりも拡声位置(例えば座席F)に近いかつ、拡声位置(例えば座席F)を基準として集音位置(例えば座席A)と異なる方向に設置される(図２，８等参照)。また、マイク（例えばマイク９１Ｆ）は、集音位置(例えば座席A)から発せられた音を集音するために設置される。マイク（例えばマイク９１Ｆ）により収音された音を、スピーカ(例えばスピーカ９２－ＬＲ－Ｒ，９２－ＬＲ－Ｌ)から集音位置(例えば座席A)に音像を定位させて拡声する。なお、「集音」とは「音を集めること」を意味し、「収音」とは「音をマイクで受けて電気信号として収めること」を意味する。

＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

車両に搭載される集音拡声装置であって、
車両内には2つ以上の集音拡声位置が想定されるものとし、
強調信号の音像を定位させる所望の音源位置から前記集音拡声位置に位置する対象者の両耳への伝達関数と、前記集音拡声位置で音を再生するために設置された1つ以上のスピーカから前記両耳への伝達関数とから、前記音源位置に音像を定位させるためのフィルタを強調信号に適用し、フィルタリング後の強調信号を前記スピーカに出力する伝達関数乗算部とを含み、
前記強調信号は、1以上のマイクロホンで集音された信号から前記集音拡声位置から発せられる目的音を強調した信号であり、
車両外には1つ以上の集音拡声位置が想定されるものとし、
フィルタリング前の前記強調信号と、その強調信号に対応する車両内の集音拡声位置の情報と通話相手に対応する車両外の集音拡声位置の情報を通話先に送信する送話音声送信部と、
通話先から音声信号と、その音声信号に対応する車両内の集音拡声位置の情報q1と通話相手に対応する車両外の集音拡声位置の情報q2とを受信し、前記情報q1,q2から前記強調信号に適用する前記フィルタを特定し、音声信号を出力する受話音声振分部とを含む、
集音拡声装置。
車両に搭載される集音拡声方法であって、
車両内には2つ以上の集音拡声位置が想定されるものとし、
伝達関数乗算部が、強調信号の音像を定位させる所望の音源位置から前記集音拡声位置に位置する対象者の両耳への伝達関数と、前記集音拡声位置で音を再生するために設置された1つ以上のスピーカから前記両耳への伝達関数とから、前記音源位置に音像を定位させるためのフィルタを強調信号に適用し、フィルタリング後の強調信号を前記スピーカに出力する伝達関数乗算ステップとを含み、
前記強調信号は、1以上のマイクロホンで集音された信号から前記集音拡声位置から発せられる目的音を強調した信号であり、
車両外には1つ以上の集音拡声位置が想定されるものとし、
フィルタリング前の前記強調信号と、その強調信号に対応する車両内の集音拡声位置の情報と通話相手に対応する車両外の集音拡声位置の情報を通話先に送信する送話音声送信ステップと、
通話先から音声信号と、その音声信号に対応する車両内の集音拡声位置の情報q1と通話相手に対応する車両外の集音拡声位置の情報q2とを受信し、前記情報q1,q2から前記強調信号に適用する前記フィルタを特定し、音声信号を出力する受話音声振分ステップとを含む、
集音拡声方法。
請求項１の集音拡声装置としてコンピュータを機能させるためのプログラム。