JP2015222847A

JP2015222847A - 音声処理装置、音声処理方法および音声処理プログラム

Info

Publication number: JP2015222847A
Application number: JP2014105825A
Authority: JP
Inventors: 千里塩田; Chisato Shioda; 太郎外川; Taro Togawa; 猛大谷; Takeshi Otani
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-05-22
Filing date: 2014-05-22
Publication date: 2015-12-10
Also published as: US20150340048A1; EP2947659A1

Abstract

【課題】音声が聞き取り易くなる音声処理装置を提供する。
【解決手段】音声処理装置１は、第２ユーザよりも第１ユーザに近接する第１マイク９に入力される、第１ユーザの第１音声と第２ユーザの第２音声と、第１ユーザよりも第２ユーザに近接する第２マイク１１に入力される、第１ユーザの第３音声と第２ユーザの第４音声と、を含む複数音声を、通信網１１７を介して受信する受信部２を備える。更に、受信部が受信する、第１音声と第２音声の第１位相差、ならびに第３音声と第４音声の第２位相差を算出する算出部３を備える。更に、第２ユーザよりも第１ユーザに近接する第１スピーカ１０に対する、第２音声または第４音声の送信を、第１位相差と第２位相差に基づいて制御、または、第１ユーザよりも第２ユーザに近接する第２スピーカに対する、第１音声または第３音声の送信を、第１位相差と第２位相差に基づいて制御する制御部５を備える。
【選択図】図１

Description

本発明は、例えば、音声信号を制御する音声処理装置、音声処理方法および音声処理プログラムに関する。

近年、パケットに変換された音声信号をインターネット回線でリアルタイムに伝送するＶｏＩＰ（ＶｏｉｃｅｏｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）を利用した音声処理装置やソフトウェアアプリケーションが利用されている。ＶｏＩＰを利用した音声処理装置やソフトウェアアプリケーションにおいては、公衆交換電話網を介さずに複数のユーザ間で通話が実施出来る利点に加えて、テキストデータや画像データを通話中に送受信出来る利点等を有している。また、ＶｏＩＰを利用した音声処理装置において、インターネット回線による通信遅延の変動の影響を、音声処理装置のバッファで緩和する方法も開示されている。

Ｇｏｏｄｅ，Ｂ．, "ＶｏｉｃｅｏｖｅｒＩｎｔｅｒｎｅｔｐｒｏｔｏｃｏｌ（ＶｏＩＰ）", ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥ, ｖｏｌ. ９０, ｉｓｓｕｅ９, Ｓｅｐ２００２

ＶｏＩＰを利用した音声処理装置は、回線を占有する公衆交換電話網とは異なり、既存のインターネット回線を利用する為、音声信号が受話音として届くまで３００ｍｓｅｃ程度の遅延が生じる。この為、例えば、複数のユーザで通話を行う場合、互いに距離が遠いユーザ同士は、互いの音声を受話音のみから聞き取ることになるが、互いに距離が近いユーザ同士は、互いの音声を受話音と直接音の２つから、３００ｍｓｅｃ程度の時間差を有する状態で重畳的に聞き取ることになる為、音声が聞き取り難くなる問題が生じる。本発明においては、音声が聞き取り易くなる音声処理装置を提供することを目的とする。

本発明が開示する音声処理装置は、第２ユーザよりも第１ユーザに近接する第１マイクに入力される、第１ユーザの第１音声と第２ユーザの第２音声と、第１ユーザよりも第２ユーザに近接する第２マイクに入力される、第１ユーザの第３音声と第２ユーザの第４音声と、を含む複数音声を、通信網を介して受信する受信部を備える。更に当該音声処理装置は、受信部が受信する、第１音声と第２音声の第１位相差、ならびに第３音声と第４音声の第２位相差を算出する算出部を備える。更に当該音声処理装置は、第２ユーザよりも第１ユーザに近接する第１スピーカに対する、第２音声または第４音声の送信を、第１位相差と第２位相差に基づいて制御、または、第１ユーザよりも第２ユーザに近接する第２スピーカに対する、第１音声または第３音声の送信を、第１位相差と第２位相差に基づいて制御する制御部を備える。

なお、本発明の目的及び利点は、例えば、請求項におけるエレメント及び組み合わせにより実現され、かつ達成されるものである。また、上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を制限するものではないことを理解されたい。

本明細書に開示される音声処理装置では、音声の聞き取り易さを向上させることが可能となる。

第１の実施形態による音声処理装置の機能ブロック図を含むハードウェア構成図である。音声処理装置の音声処理の第１のフローチャートである。一つの実施形態による算出部の機能ブロック図である。算出部による有音区間と無音区間の検出結果を示す図である。（ａ）は、第１ユーザ、第２ユーザ、第１マイク、ならびに、第２マイクの位置関係を示す図である。（ｂ）は、第１位相差と第２位相差の概念図である。遅延による推定距離の誤差発生の概念図である。（ａ）は、遅延が発生していない場合の第１位相差と第２位相差の概念図である。（ｂ）は、遅延が第１マイクに発生している場合の第１位相差と第２位相差の概念図である。（ｃ）は、遅延が第１マイクと第２マイクの双方に発生している場合の第１位相差と第２位相差の概念図である。音声処理装置の音声処理の第２のフローチャートである。（ａ）は位相差テーブルのデータ構造の一例である。（ｂ）は端末間位相差テーブルのデータ構造の一例である。音声処理装置の音声処理の第３のフローチャートである。一つの実施形態による音声処理装置として機能するコンピュータのハードウェア構成図である。

以下に、一つの実施形態による音声処理装置、音声処理方法及び音声処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例は、開示の技術を限定するものではない。

（実施例１）
図１は、一つの実施形態による音声処理装置１の機能ブロック図を含むハードウェア構成図である。音声処理装置１は、受信部２、算出部３、推定部４、制御部５を有する。音声処理装置１は、通信網の一例となる有線回路または無線回路のネットワーク１１７を介して、複数の端末（例えば、ＰＣやソフトウェアアプリケーションがインストール可能な高機能携帯端末）が接続される。例えば、第１端末６には、第１マイク９と第１スピーカ１０が接続され、当該第１マイク９と第１スピーカ１０は、第１ユーザに近接した状態で配置される。また、第２端末７には、第２マイク１１と第２スピーカ１２が接続され、当該第２マイク１１と第２スピーカ１２は、第２ユーザに近接した状態で配置される。更に、第ｎ端末８には、第ｎマイク１３と第ｎスピーカ１４が接続され、当該第ｎマイク１３と第ｎスピーカ１４は、第ｎユーザに近接した状態で配置される。図２は、音声処理装置１の音声処理の第１のフローチャートである。実施例１においては、図２に示す音声処理装置１による音声処理のフローを、図１に示す音声処理装置１の機能ブロック図の各機能の説明に対応付けて説明する。

実施例１においては、説明の便宜上、第１ユーザと第２ユーザは、同一の拠点（フロアと称しても良い）に存在し、互いに近接するものとし、第１マイク９には第１ユーザの第１音声と第２ユーザの第２音声が入力される（換言すると、第１ユーザは第１マイク９に対して発話しても、第２マイク１１も当該発話を収音する）。また、第２マイク１には第１ユーザの第３音声と第２ユーザの第４音声が入力される（換言すると、第２ユーザは第２マイク１１に対して発話しても、第１マイク９も当該発話を収音する）。ここで、第１音声と第３音声は、第１ユーザが時系列に沿って発話する任意の時間（区間と称しても良い）の音声であり、第２音声と第４音声は、第２ユーザが時系列に沿って発話する任意の時間（区間と称しても良い）の音声である。更に、第１音声と第３音声の発話内容は同一であり、第２音声と第４音声の発話内容は同一である。換言すると、図１において、第１ユーザ、第２ユーザ、第１マイク９、ならびに、第２マイク１１の位置関係を考慮した場合、第１ユーザが第１マイク９に対して発話した場合、当該発話内容が、第１音声として第１マイク９に対して入力されると同時に、当該発話内容の音波が空気中を伝搬して第３音声として第２マイク１１に対して入力される。同様に、第２ユーザが第２マイク１１に対して発話した場合、当該発話内容が、第４音声として第２マイク１１に対して入力されると同時に、当該発話内容の音波が空気中を伝搬して第２音声として第１マイク９に対して入力される。

受信部２は、例えば、ワイヤードロジックによるハードウェア回路である。また、受信部２は、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。受信部２は、第１マイク９〜第ｎマイク１３に入力される複数の入力音声（複数音声と称しても良い）を、第１端末６〜第ｎ端末８ならびに通信網の一例となるネットワーク１１７を介して受信する。なお、当該処理は、図２に示すフローチャートのステップＳ２０１に対応する。受信部２は、例えば、第１音声、第２音声、第３音声ならびに第４音声を含む複数音声を算出部３に出力する。

算出部３は、例えば、ワイヤードロジックによるハードウェア回路である。また、算出部３は、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。算出部３は、第１音声、第２音声、第３音声ならびに第４音声を含む複数音声（複数の入力音声と称しても良い）を受信部２から受け取る。算出部３は、例えば、第１マイク９と第２マイク１１に入力される入力音声を有音区間と無音区間に区別し、当該有音区間から第１音声、第２音声、第３音声ならびに第４音声を一意に特定する。

始めに、算出部３における入力音声を有音区間と無音区間に区別する方法について説明する。なお、当該処理は、図２に示すフローチャートのステップＳ２０２に対応する。算出部３は、入力音声に含まれる有音区間を示す呼気区間を検出する。なお、呼気区間は、例えば、ユーザが発話中において吸気を行ってから発話を開始し、再び吸気を実施するまでの区間（換言すると第１の呼吸と第２呼吸の間の区間、または発話を続けている区間）となる。算出部３は、例えば、入力音声に含まれる複数のフレームから信号品質の一例となる信号電力対雑音比となる平均ＳＮＲを検出し、当該平均ＳＮＲが所定の条件を満たしている区間を有音区間（換言すると呼気区間）として検出することが出来る。また、算出部３は、入力音声に含まれる有音区間の後端に連接する無音区間を示す吸気区間を検出する。算出部３は、例えば、上述の当該平均ＳＮＲが所定の条件を満たさない区間を無音区間（換言すると吸気区間）として検出することが出来る。

ここで、算出部３による有音区間と無音区間の検出処理の詳細について説明する。図３は、一つの実施形態による算出部３の機能ブロック図である。算出部３は、音量算出部２０、雑音推定部２１、平均ＳＮＲ算出部２２、区間決定部２３を有する。なお、算出部３は、音量算出部２０、雑音推定部２１、平均ＳＮＲ算出部２２、区間決定部２３を必ずしも有する必要はなく、各部が有する機能を、一つのまたは複数のワイヤードロジックによるハードウェア回路で実現させても良い。また、算出部３に含まれる各部が有する機能をワイヤードロジックによるハードウェア回路に代えて、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールで実現させても良い。

図３において、入力音声が算出部３を介して音量算出部２０に入力される。なお、音量算出部２０は、図示しない長さＭのバッファまたはキャッシュを有する。音量算出部２０は、入力音声に含まれる各フレームの音量を算出し、当該音量を雑音推定部２１と平均ＳＮＲ算出部２２へ出力する。なお、入力音声に含まれる各フレーム長は、例えば０．２ｍｓｅｃである。各フレームの音量Ｓは、次式の通り、算出することが出来る。
（数１）

但し、上述の（数１）において、ｎは、入力音声に含まれる音響フレームの入力開始から各フレームに連続して付されるフレーム番号（ｎは０以上の整数）、Ｍは１フレームの時間長、ｔは時間、ｃ（ｔ）は、入力音声の振幅（電力）を示す。

雑音推定部２１は、各フレームの音量Ｓ（ｎ）を音量算出部２０から受け取る。雑音推定部２１は、各フレームにおける雑音を推定して、雑音推定結果を平均ＳＮＲ算出部２２へ出力する。ここで、雑音推定部２１による各フレームの雑音推定は、例えば、以下の（雑音推定方法１）または、（雑音推定方法２）を用いることが出来る。

（雑音推定方法１）
雑音推定部２１は、フレームｎにおける雑音の大きさ（電力）Ｎ(ｎ)を、フレームｎにおける音量Ｓ（ｎ）、前フレーム(ｎ−１)における音量Ｓ（ｎ−１）ならびに、雑音の大きさＮ（ｎ−１）に基づいて、次式を用いて推定することが出来る。
（数２）

但し、上述の（数２）において、α、βは、定数であり、実験的に決定されれば良い。例えば、α＝０．９、β＝２．０であれば良い。また、雑音電力の初期値Ｎ（−１）も、実験的に決定されれば良い。上述の（数２）において、フレームｎの音量Ｓ（ｎ）が、１つ前のフレームｎ−１の音量Ｓ（ｎ−１）に対して一定値β以上変化しない場合には、フレームｎの雑音電力Ｎ（ｎ）が更新される。一方、フレームｎの音量Ｓ（ｎ）が、１つ前のフレームｎ−１の音量Ｓ（ｎ−１）に対して一定値β以上変化する場合には、１つ前のフレームｎ−１の雑音電力Ｎ（ｎ−１）をフレームｎの雑音電力Ｎ（ｎ）とする。なお、雑音電力Ｎ（ｎ）を上述の雑音推定結果と称しても良い。

（雑音推定方法２）
雑音推定部２１は、雑音の大きさの更新を、次式の（数３）を用いて、フレームnの音量Ｓ（ｎ）と、１つ前のフレームｎ−１の雑音電力Ｎ（ｎ−１）との比に基づいて実施しても良い。
（数３）

但し、上述の（数３）において、γは定数であり、実験的に決定されれば良い。例えば、γ＝２．０であれば良い。また、雑音電力の初期値Ｎ（−１）も、実験的に決定されれば良い。上述の（数３）において、フレームｎの音量Ｓ（ｎ）が、１つ前のフレームｎ−１の雑音電力Ｎ（ｎ−１）に対して一定値γ倍以下である場合には、フレームｎの雑音電力Ｎ（ｎ）を更新する。一方、フレームｎの音量Ｓ（ｎ）が、１つ前のフレームｎ−１の雑音電力Ｎ（ｎ−１）に対して一定値γ倍以上である場合には、１つ前のフレームｎ−１の雑音電力Ｎ（ｎ−１）をフレームｎの雑音電力Ｎ（ｎ）とする。

図３において、平均ＳＮＲ算出部２２は、音量算出部２０から各フレームの音量Ｓ（ｎ）を受け取り、雑音推定部２１から雑音推定結果となる各フレームの雑音電力Ｎ（ｎ）を受け取る。なお、平均ＳＮＲ算出部２２は、図示しないキャッシュまたはメモリを有しており、過去Ｌフレーム分の音量Ｓ（ｎ）、雑音電力Ｎ（ｎ）を保持する。平均ＳＮＲ算出部２２は、次式を用いて、分析対象時間（フレーム）内の平均ＳＮＲを算出し、当該平均ＳＮＲを区間決定部２３へ出力する。
（数４）

但し、上述の（数４）において、Ｌは促音の一般的な長さよりも大きな値に規定すれば良く、例えば、０．５ｍｓｅｃに相当するフレーム数を規定すれば良い。

区間決定部２３は、平均ＳＮＲを平均ＳＮＲ算出部２２から受け取る。区間決定部２３は、図示しないバッファまたはキャッシュを有しており、区間決定部２３による前処理フレームが、有音区間内（換言すると呼気区間内）であるか否かを示すフラグｎ＿ｂｒｅａｔｈを保持する。区間決定部２３は、平均ＳＮＲとｎ＿ｂｒｅａｔｈに基づいて、次式の（数５）を用いて有音区間の始端ｔｂを検出し、次式の（数６）に用いて有音区間の終端ｔｅを検出する。
（数５）
ｔｂ=ｎ×Ｍ
(ｉｆｎ＿ｂｒｅａｔｈ＝有音区間ではない、かつ、ＳＮＲ（ｎ）＞ＴＨ_ＳＮＲ)
（数６）
ｔｅ=ｎ×Ｍ−１
(ｉｆｎ＿ｂｒｅａｔｈ＝有音区間、かつ、ＳＮＲ（ｎ）＜ＴＨ_ＳＮＲ)

ここで、ＴＨ_ＳＮＲは、区間決定部２３による処理フレームｎが雑音ではないと看做すための閾値であり、実験的に規定されれば良い。また、区間決定部２３は、入力音声において有音区間以外の区間を無音区間として検出することが出来る。

図４は、算出部３による有音区間と無音区間の検出結果を示す図である。図４の横軸は時間を示し、縦軸は入力音声の音量（振幅）を示している。図４に示される通り、各有音区間の後端に連接する区間が無音区間として検出される。また、図４に示される通り、実施例１に開示する算出部３による有音区間の検出においては、背景騒音に合わせて雑音を学習し、ＳＮＲに基づいて有音区間を判別している。この為、背景騒音による有音区間の誤検出を防ぐことができる。また、平均ＳＮＲを複数フレームから求めることで、有音区間内で瞬間的に無音となる時間があっても、連続した有音区間として抽出することができる利点を有している。なお、算出部３は、国際公開第２００９／１４５１９２号パンフレットに記載の方法を用いることも可能である。

次に、算出部３による有音区間から第１音声、第２音声、第３音声ならびに第４音声を一意に特定する方法について説明する。なお、当該処理は、図２に示すフローチャートのステップＳ２０３に対応する。先ず、算出部３は、入力音声に含まれるパケットを参照することにより、当該入力音声が第１マイク９に入力されたのか、第２マイク９に入力されたのかを特定することが出来る。ここで、例えば、第１マイク９に入力された入力音声が、第１ユーザの第１音声か第２ユーザの第２音声であるかを一意に特定し、第２マイク１１に入力された入力音声が、第１ユーザの第３音声か第２ユーザの第４音声であるかを一意に特定する方法について説明する。

先ず、算出部３は、例えば、第１マイク９に入力された入力音声と、第２マイク１１に入力された入力音声から、同一の発話内容となる第１音声と第３音声の候補を、第１音声と第３音声の第１相関に基づいて同定する。算出部３は、第１マイク９に入力された入力音声に含まれる任意の有音区間ｃｉ（ｔ）と、第２マイク１１に入力された入力音声に含まれる任意の有音区間ｃｊ（ｔ）の相互相関となる第１相関Ｒ１（ｄ）を次式に基づいて算出する。
（数７）

なお、上述の（数７）において、ｔｂｉは有音区間ｃｉ（ｔ）の始点であり、ｔｅｉは有音区間ｃｉ（ｔ）の終点である。ｔｂｊは有音区間ｃｊ（ｔ）の始点であり、ｔｅｊは、有音区間ｃｊ（ｔ）の終点である。また、ｍ＝ｔｂｊ−ｔｂｉ、Ｌ＝ｔｂｅ−ｔｂｉである。

次に、算出部３は、第１相関Ｒ１（ｄ）の最大値を、任意の閾値ＭＡＸ＿Ｒ（例えば、ＭＡＸ＿Ｒ＝０．９５）よりも大きい場合に、有音区間ｃｉ（ｔ）と有音区間ｃｊ（ｔ）の発話内容が同一であると次式に基づいて判定する（換言すると第１音声と第３音声の候補とを対応付ける）。
（数８）
判定結果 = 同一発話 if ( max(R(d))> MAX_R)
= 同一発話ではない else

なお、上述の（数８）において、有音区間長の差｜（ｔｅｉ−ｔｂｉ）−（ｔｅｊ−ｔｂｊ）｜が任意の閾値ＴＨ＿ｄＬ（例えば、ＴＨ＿ｄＬ＝１秒）よりも大きくなる場合は、異なる発話内容として予め判定対象から除外しても良い。実施例１においては、第１音声と第３音声の候補の同定方法について説明したが、第２音声と第４音声の候補の同定方法も第１音声と第３音声の候補の同定方法を同様に適用することが出来る。算出部３は、第１マイク９に入力された入力音声と、第２マイク１１に入力された入力音声から同一の発話内容となる、例えば、第２音声と第４音声の候補を、第２音声と第４音声の第２相関Ｒ２（ｄ）に基づいて同定する。第２相関Ｒ２（ｄ）は、上述の（数７）の右辺をそのまま適用することが出来る。

次に、算出部３は、同一の発話内容として対応付けた有音区間が、第１ユーザが発話したものなのか、第２ユーザが発話したものを区別する。例えば、算出部３は、例えば、同一の発話内容として対応付けた２つの有音区間（換言すると、上述の（数７）と（数８）で同定した第１音声と第３音声の候補、または第２音声と第４音声の候補）の音声レベル（振幅と称しても良い）となる平均ＲＭＳ（ＲｏｏｔＭｅａｎＳｑｕａｒｅ）を比較し、相対的に大きい値を有する有音区間を含む入力音声を入力したマイクを特定し、当該特定されたマイクに基づいてユーザを特定することが出来る。更に、ユーザを特定することで、第１音声と第２音声を一意に特定、または、第３音声と第４音声を一意に特定することが出来る。例えば、図１において、第１ユーザ、第２ユーザ、第１マイク９、ならびに、第２マイク１１の位置関係を考慮した場合、第１ユーザが第１マイク９に対して発話した場合、当該発話内容が、第１音声として第１マイク９に対して入力されると同時に、当該発話内容の音波が空気中を伝搬して第３音声として第２マイク１１に対して入力される。この場合、音波の減衰を考慮すると、第１ユーザの入力音声は、第１ユーザの使用を想定している第１マイク９に対して最も大きく入力され、例えば、平均ＲＭＳは−２７ｄＢとなる。この場合、第２マイク１１に入力される第１ユーザの入力音声の平均ＲＭＳは、例えば、−５０ｄＢとなる。第１マイクへの入力音声は、第１ユーザの第１音声か第２ユーザの第２音声の何れかであることを考慮すると、入力音声は、平均ＲＭＳの大きさから第１ユーザが発話したものと区別することが出来る。この様に、算出部３は、第１音声と第３音声の振幅に基づいて、第１音声と第２音声を区別することが出来る。同様に、算出部３は、第２音声と第４音声の振幅に基づいて、第２音声と第４音声を区別することが出来る。

図５（ａ）は、第１ユーザ、第２ユーザ、第１マイク９、ならびに、第２マイク１１の位置関係を示す図である。図５（ａ）に示す通り、実施例１においては、説明の便宜上、第１ユーザと第１マイク９の相対位置は十分に近く、また、第２ユーザと第２マイク１１の相対位置は十分近いものとする。この為、第１ユーザと第２マイク１１の距離と、第２ユーザと第１マイク９の距離は同等となる為、空気中を音波が伝播する時に生じる遅延量も同等になる。換言すると、第１ユーザの入力音声（第１音声または第３音声）が、第１マイク９と第２マイク１１に到達する第１位相差と、第２ユーザの入力音声（第２音声または第４音声）が第２マイク１１と第１マイク９に到達する第２位相差は同等と見做すことが出来る。

図５（ｂ）は、第１位相差と第２位相差の概念図である。図５（ｂ）に示される通り、第１マイク９には、第１ユーザの第１音声と第２ユーザの第２音声が任意の時刻（ｔ）に入力されている。また、第２マイク９には、第１ユーザの第３音声と第２ユーザの第４音声が任意の時刻（ｔ）に入力されている。図５（ａ）で説明した通り、第１音声と第３音声には第１位相差（図５（ｂ）においては、差分Δｄ１に相当）が生じ、第２音声と第４音声には第２位相差（図５（ｂ）においては、差分Δｄ２に相当）が生じる。算出部３は、例えば、第１音声を基準として第１位相差を算出し、第４音声を基準として第２位相差を算出する。具体的には、算出部３は、第１音声の始点の時刻から第３音声の始点の時刻を差し引くことで第１位相差を算出し、第４音声の始点の時刻から第２音声の始点の時刻を差し引くことで第２位相差を算出することが出来る。また、算出部３は、例えば、第３音声を基準として第１位相差を算出し、第２音声を基準として第２位相差を算出しても良い。具体的には、算出部３は、第３音声の始点の時刻から第１音声の始点の時刻を差し引くことで第１位相差を算出し、第２音声の始点の時刻から第４音声の始点の時刻を差し引くことで第２位相差を算出することが出来る。なお、当該処理は、図２に示すフローチャートのステップＳ２０４に対応する。算出部３は、算出した第１位相差と、第２位相差を推定部４に出力する。また、算出部３は、一意に特定した第１音声、第２音声、第３音声、ならびに第４音声を制御部５に出力する。

図１の推定部４は、例えば、ワイヤードロジックによるハードウェア回路である。また、推定部４は、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。推定部４は、第１位相差と第２位相差を算出部５から受け取る。推定部４は、第１位相差と第２位相差の比較に基づいて第１マイク９と第２マイク１１の距離を推定、または、第１位相差と第２位相差の合計値を算出する。なお、当該処理は、図２に示すフローチャートのステップＳ２０５に対応する。例えば、推定部４は、第１位相差と第２位相差の合計値を２で除算した値（平均値と称しても良い）に音速（例えば、音速＝３４３ｍ／ｓ）を乗じた値を、第１マイク９と第２マイク１１の距離として推定する。具体的には、推定部４は次式に基づいて、第１マイク９と第２マイク１１の推定距離ｄｍを推定する。
（数９）
ｄｍ＝（第１位相差＋第２位相差）／２×ｖｓ

但し、上述の（数９）において、ｖｓは音速である。また、推定部４は、推定距離の推定に代えて、第１位相差と第２位相差の比較として、第１位相差と第２位相差の合計値を算出しても良い。推定部４は、第１マイク９と第２マイク１１の推定距離または、第１位相差と第２位相差の合計値を制御部５に出力する。

ここで、推定部４が第１位相差と第２位相差の比較に基づいて、第１マイク９と第２マイク１１の距離を推定する技術的意義について説明する。本発明者らの鋭意検証の結果、以下に示す技術的事項を新たに見出した。例えば、第１マイク９と第２マイク１１、または、第１端末６と第２端末７をそれぞれ比較した場合、何れか一方に、例えば、雑音低減や速度調整等の付加的処理が施されていると、当該付加的処理により遅延Δｔが発生する。また、当該遅延Δｔは、第１端末６とネットワーク１１７の間の回線速度と、第２端末７とネットワーク１１７の間の回線速度の相違によっても生じ得る。回線速度の相違による遅延Δｔは、付加的処理に起因するものではないが、説明の便宜上、遅延Δｔと統一して称するものとする。

図６は、遅延Δｔによる推定距離の誤差発生の概念図である。図６においては、第１マイク９の付加的処理で遅延Δｔが発生した場合の推定距離の誤差発生の概念を図示している。図１の受信部２に対しては、第１ユーザの第１音声が遅延Δｔ経過後に入力される。一方、第２マイク１１には、第１ユーザの第３音声が遅延Δｔが発生すること無く入力される。ここで、算出部３は、上述の通り、第１音声の始点の時刻から第３音声の始点の時刻を差し引くことで第１位相差を算出する。しかしながら、遅延Δｔの影響により、第１音声の始点の時刻が、本来の始点と異なる（遅延Δｔの終点が第１音声の始点となる）。この為、算出部３は、第１位相差を遅延Δｔ終点の時刻から第３音声の始点の時刻を差し引くことで算出することになる。この場合、遅延Δｔが発生しない場合の本来の第１位相差（差分Δｄ１に相当）と異なる為、第１マイク９と第２マイク１１の推定距離に誤差が生じる。例えば、遅延Δｔが３０ｍｓｅｃの場合、推定距離の誤差は約１０ｍとなる。換言すると、推定部４は、第１位相差か第２位相差の何れか一方のみに基づいて第１マイク９と第２マイクの距離を推定した場合、推定距離に誤差が生じる場合がある。

図７（ａ）は、遅延Δｔが発生していない場合の第１位相差と第２位相差の概念図である。図７（ａ）に示される通り、第１マイク９には、第１ユーザの第１音声と第２ユーザの第２音声が任意の時刻（ｔ）に入力されている。また、第１音声と第３音声、ならびに第２音声と第４音声においては、空気中を音波が伝播する時に生じる位相差（図７（ａ）においては、差分Δｄ１、差分Δｄ２に相当）のみが発生する。この為、図７（ａ）に示す様に、遅延Δｔが発生しない場合は、第１位相差は差分Δｄ１に等しく、第２位相差は差分Δｄ２に等しい。この場合、「第１位相差と第２位相差の合計はΔｄ１＋Δｄ２」となる。

図７（ｂ）は、遅延Δｔが第１マイク９に発生している場合の第１位相差と第２位相差の概念図である。図７（ｂ）に示される様に、第１マイク９に遅延量Δｔが発生している場合、算出部３が算出する第１位相差はΔｄ１−Δｔとなり、第２位相差はΔｄ２＋Δｔとなる。この場合、「第１位相差と第２位相差の合計はΔｄ１＋Δｄ２」となる（第１位相差と第２位相差それぞれのΔｔは相殺されて０となる）。よって、遅延が発生していない場合の第１位相差と第２位相差の合計と同一となる。

図７（ｃ）は、遅延Δｔが第１マイク９と第２マイク１１の双方に発生している場合の第１位相差と第２位相差の概念図である。なお、説明の便宜上、第１マイク９の遅延をΔｔ１とし、第２マイク１１の遅延をΔｔ２とする。図７（ｃ）に示す通り、算出部３が算出する第１位相差は、「Δｄ１−（Δｔ１−Δｔ２）」となり、第２位相差は、「Δｄ２＋（Δｔ１−Δｔ２）」となる。この場合、「第１位相差と第２位相差の合計はΔｄ１＋Δｄ２」となる（第１位相差と第２位相差のそれぞれのΔｔ１、Δｔ２は相殺されて０となる）。この様に、推定部４は、第１位相差と第２位相差を比較することで（換言すると合計値を用いることで）、遅延の発生に有無に係らず、第１マイク９と第２マイク１１の距離を正確に推定することが出来る。

更に、推定部４が第１位相差と第２位相差の比較に基づいて、第１マイク９と第２マイク１１の距離を正確に推定することが出来る定性的理由について説明する。第１マイク９と第２マイク１０に第１ユーザの第１音声と第３音声がそれぞれ入力されることで、第１マイク８および第２マイク１１に対する第１ユーザの入力音声に関する位相差を得ることが可能となる。また、第１マイク９と第２マイク１１に第２ユーザの第２音声と第４音声がそれぞれ入力されることで、第１マイク９および第２マイク１１に対する第２ユーザの入力音声に関する位相差を得ることが可能となる。

ここで、例えば、入力音声が音声処理装置１の受信部２に入力される迄の遅延量が第１マイク９と第２マイク１１で異なる場合、例えば、第１ユーザが使用する第１マイク９を基準に、第１ユーザの音声に関する位相差を求めると、ユーザ間の距離によって発生した位相差と、基準のマイク（第１マイク９）に対する他方のマイク（第２マイク１１）の遅延の合計値となる。よって、第１ユーザの音声に関する位相差は、第１ユーザと第２ユーザの間の距離によって発生した遅延量と、第１マイク９に対する第２マイク１１の遅延量の合計値である。また、第２ユーザの音声に関する位相差は、第１ユーザと第２ユーザの間の距離によって発生した遅延量と、第２マイク１１に対する第１マイク９の遅延量の合計値である。第１マイク９に対する第２マイク１１の遅延量と、第２マイク１１に対する第１マイク９の遅延量は、絶対値が同じであり、かつ符号が逆となる為、第１ユーザの音声に関する位相差と第２ユーザの音声に関する位相差を組み合わせることで、第１マイク９に対する第２マイク１１の遅延量ならびに第２マイク１１に対する第１マイク９の遅延量を位相差から除去することが出来る。

図１において、制御部５は、例えば、ワイヤードロジックによるハードウェア回路である。また、制御部５は、音声処理装置１で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。制御部５は、推定部４から第１マイク９と第２マイク１１の推定距離または、第１位相差と第２位相差の合計値を受け取る。また、制御部５は、一意に特定された第１音声、第２音声、第３音声、ならびに第４音声を算出部３から受け取る。制御部５は、第１マイク９と第２マイク１１の推定距離または、第１位相差と第２位相差の合計値が所定の第１閾値（例えば、２ｍまたは、１２ｍｓｅｃ）未満の場合に、第２ユーザよりも第１ユーザに近接する第１スピーカ１０に対する、第２音声または第４音声の送信を制御し、第１ユーザよりも第２ユーザに近接する第２スピーカ１２に対する、第１音声または第３音声の送信を制御する。具体的には、第１マイク９と第２マイク１１の推定距離または、第１位相差と第２位相差の合計値が第１閾値未満の場合、第１ユーザと第２ユーザの距離は近いことを意味する為、互いの音声を受話音と直接音の２つから、時間差を有する状態で重畳的に聞き取ることになる。この為、制御部５は、第１スピーカに対しては第２ユーザの音声となる第２音声または第４音声の出力を行わない制御を行う。また、第２スピーカに対しては、第１ユーザの音声となる第１音声または第３音声の出力を行わない制御を行う。なお、当該処理は、図２に示すフローチャートのステップＳ２０６に対応する。当該制御により、互いに距離が近いユーザ同士は、互いの音声を直接音のみから聞き取ることになる為、音声が聞き取り易くなる効果を奏する。

また、制御部５は、第１マイク９と第２マイク１１の推定距離または、第１位相差と第２位相差の合計値が所定の第１閾値以上の場合に、第１スピーカ１０に対する、第１音声または第３音声以外の複数音声（例えば、第２音声、第４音声）の送信を制御し、第２スピーカ１２に対する、第２音声または第４音声以外の複数音声（例えば、第１音声、第３音声）の送信を制御する。具体的には、第１マイク９と第２マイク１１の推定距離または、第１位相差と第２位相差の合計値が第１閾値以上の場合、第１ユーザと第２ユーザの距離は遠いことを意味する為、互いの音声を受話音のみから聞き取ることになる。この為、制御部５は、第１スピーカ１０に対しては、第１ユーザの音声となる第１音声または第３音声以外の音声の出力を行う制御を行う。また、制御部５は、第２スピーカ１２に対しては、第２ユーザの音声となる第２音声または第４音声以外の音声の出力を行う制御を行う。当該制御により、第１ユーザまたは第２ユーザは、第１ユーザ自身または第２ユーザ自身の音声を受話音と直接音の２つから時間差を有する状態で重畳的に聞き取ることが無くなる為、音声が聞き取り易くなる効果を有する。

実施例１における音声処理装置１においては、複数のユーザで通話を行う場合、ユーザ同士の距離を正確に推定し、互いに距離が近いユーザ同士においては、互いの音声を受話音と直接音の２つから、時間差を有する状態で重畳的に聞き取ることが無くなる為、音声を聞き取り易くすることが可能になる。

（実施例２）
実施例１においては、第１ユーザと第２ユーザを対象とした音声処理について説明したが、本発明は、複数のユーザで通話を行う場合においても、当該複数のユーザ同士の距離を正確に推定することが可能である。この為、実施例２においては、図１の第１ユーザに対応する第１端末６ないし第ｎユーザに対応する第ｎ端末８までを対象にした音声処理について説明する。

図８は、音声処理装置１の音声処理の第２のフローチャートである。受信部２は、第１マイク９〜第ｎマイク１３に入力される複数の入力音声（複数音声と称しても良い）を、第１端末６〜第ｎ端末８ならびに通信網の一例となるネットワーク１１７を介して受信する。換言すると、受信部２は、音声処理装置１にネットワーク１１７を介して接続される端末数分（第１端末６〜第ｎ端末８）の入力音声を受信する（ステップＳ８０１）。算出部３は、実施例１に記載した方法に基づいて、複数の入力音声のそれぞれの有音区間ｃｉ（ｔ）を検出する（ステップＳ８０２）。

算出部３は、基準音声を決定し、当該基準音声の発信源の端末番号をｎに格納する（ステップＳ８０３）。具体的には、ステップＳ８０３において、算出部３は、複数の入力音声のそれぞれの有音区間について、次式に基づいて音声レベルｖｉを算出する。
（数１０）

上述の（数１０）において、ｃｉ（ｔ）は第ｉ端末からの入力音声ｉであり、ｖｉは入力音声ｉの音声レベルであり、ｔｂｉとｔｅｉは、入力音声ｉにおける有音区間の開始フレーム（始点と称しても良い）と終了フレーム（終点と称しても良い）である。次に、算出部３は、上述の（数１０）で算出された複数の音声レベルｖｉの値を比較し、最も大きな値を有する入力音声ｉを、発話の発信源の端末番号であると推定する。実施例２においては、説明の便宜上、発信源と推定した端末番号がｎ（第ｎ端末８）であるものとして以下の説明を続ける。

算出部３は、ｉ＝０をセットした後（ステップＳ８０４）、ステップＳ８０５の条件（ｉ≠ｎかつｃｉ（ｔ）の有音区間とｃｎ（ｔ）の有音区間が同一か否か）を満たすか否かを、例えば、上述の（数７）と（数８）に基づいて判定する。ステップＳ８０５の条件を満たす場合（ステップＳ８０５−Ｙｅｓ）、算出部３は、同一の有音区間である条件を満たすｍ番目の入力音声ｉを入力音声ｋｍと規定する。なお、ステップＳ８０５の条件を満たさない場合（ステップＳ８０５−Ｎｏ）、ステップＳ８０９へ処理が進む。

図９（ａ）は位相差テーブルのデータ構造の一例である。図９（ｂ）は端末間位相差テーブルのデータ構造の一例である。テーブル９１においては、入力音声の発信源ＩＤと、入力音声が混入される混入先ＩＤの位相差が格納される。テーブル９２においては、端末間（第１端末６〜第ｎ端末８に相当。また、第１マイク９〜第ｎマイク１３に相当すると考えることも出来る）の位相差が格納される。算出部３は、入力音声ｎと入力音声ｋｍについて、次式に従って、入力音声ｎと入力音声ｋｍに関する位相差θ（ｎ、ｋｍ）を算出し、図９（ａ）に示すテーブル９１に記録する（ステップＳ８０６）。なお、テーブル９１とテーブル９２は、例えば、算出部３の図示しないキャッシュまたはメモリに記録されれば良い。
（数１１）
θ（ｎ,ｋｍ）＝ｔｂｎ − ｔｂｋｍ

次に、算出部３は、テーブル９２に、入力音声ｎと入力音声ｋｍに関する位相差θ（ｋｍ,ｎ）が記録済であるか否かをテーブル９１を参照し（ステップＳ８０７）、記録済である場合（ステップＳ８０７−Ｙｅｓ）、テーブル９２の値を次式に基づいて更新する（ステップＳ８０８）。なお、ステップＳ８０７の条件を満たさない場合（ステップＳ８０５−Ｎｏ）、ステップＳ８０９へ処理が進む。
（数１２）
θ’（ｎ,ｋｍ）＝（θ（ｎ,ｋｍ）+θ（ｋｍ,ｎ））／２
θ’（ｋｍ,ｎ）＝（θ（ｎ,ｋｍ）+θ（ｋｍ,ｎ））／２

上述の（数１２）において、θ（ｋｍ,ｎ）は、発信源と推定した端末番号がｋｍであり、ｃｋｍ（ｔ）の有音区間が、ｃｎ（ｔ）の有音区間と同一の発話であった場合に、次式により算出される値である。
（数１３）
θ（ｋｍ,ｎ）＝ｔｂｋｍ−ｔｂｎ

なお、テーブル９２の初期値は、端末間（マイク間）の距離が十分離れていることを示す任意の閾値ＴＨ＿ＯＦＦ以上の値に設定しておけば良い。なお、ＴＨ＿ＯＦＦの値は、例えば約１０ｍの距離により生じる位相差の３０ｍｓであれば良い。もしくは、設定可能な値以上を表すｉｎｆでも良い。

ステップＳ８０８の処理が完了後、または、ステップＳ８０５−Ｎｏ、ステップＳ８０７−Ｎｏの条件を満たした場合、算出部３はｉをインクリメントさせ（ステップＳ８０９）、ｉが端末数より小さいか否かを判断する（ステップＳ８１０）。ステップＳ８１０の条件を満たさない場合（ステップＳ８１０−Ｎｏ）、ステップＳ８０４の処理に戻る。ステップＳ８１０の条件を満たした場合（ステップＳ８１０−Ｙｅｓ）、音声処理装置１は、図８のフローチャートに示す処理を完了させる。

次に、音声処理装置１によるテーブル９２に基づいた出力音声の制御方法について説明する。図１０は、音声処理装置１の音声処理の第３のフローチャートである。制御部５は、フレーム毎に、全端末（第１端末６〜第ｎ端末８に相当）から、１フレーム分の入力音声ｃｉ（ｔ）を取得する（ステップＳ１００１）。次に、制御部５は、端末番号０から端末番号Ｎ−１のそれぞれに対して、テーブル９２を参照しながら出力音声を制御する。実施例２においては、説明の便宜上、端末番号ｎ（第ｎ端末８）に対する出力音声の制御方法について説明する。制御部５は、ｎ＝０をセット（ステップＳ１００２）した後、端末番号ｎに対する出力音声ｏｎ（ｔ）を０で初期化（ｏｎ（ｔ）＝０）する（ステップＳ１００３）。

次に、端末番号ｍ以外の端末番号ｋを０にセットする（ステップＳ１００４）。制御部５は、端末番号ｎ以外の端末番号ｋ(ｋ≠ｎ, ｋ＝０,…,Ｎ−１)について、ｎとｋの端末間位相差θ’（ｎ,ｋ）をテーブル９２から参照し、端末間位相差θ’が閾値ＴＨ＿ＯＦＦより小さいか否かを判定する（ステップＳ１００５）。ステップＳ１００５の条件を満たさない場合（ステップＳ１００５−Ｎｏ）、ステップＳ１００７に処理を進める。ステップＳ１００５の条件を満たす場合（ステップＳ１００５−Ｙｅｓ）、制御部５は、次式に基づいて
出力音声ｏｎ（ｔ）を更新する（ステップＳ１００５）。
（数１４）
ｏｎ（ｔ）＝ｏｎ（ｔ）＋ｃｋ（ｔ）

ステップＳ１００６の処理が完了後、または、ステップＳ１００５−Ｎｏの場合、ｋをインクリメントし（ステップＳ１００７）、端末番号ｋが端末数Ｎより小さいか否かを判断する（ステップＳ１００８）。ステップＳ１００８の条件を満たさない場合（ステップＳ１００８−Ｎｏ）、ステップＳ１００５の処理に戻り、ステップＳ１００８の条件を満たす場合（ステップＳ１００８−Ｙｅｓ）、制御部５は、出力音声ｏｎ（ｔ）を端末番号ｎへ出力する（ステップＳ１００９）。次に、ｎをインクリメントし（ステップＳ１０１０）、制御部５は、ｎが端末数より小さいか否かを判断する（ステップＳ１０１１）。ステップＳ１０１１の条件を満たさない場合（ステップＳ１０１１−Ｎｏ）、ステップＳ１００３の処理に戻る。ステップＳ１０１１の条件を満たす場合（ステップＳ１０１１−Ｙｅｓ）、音声処理装置１は、図１０のフローチャートに示す処理を完了させる。

（実施例３）
図１１は、一つの実施形態による音声処理装置１として機能するコンピュータのハードウェア構成図である。図１１に示す通り、音声処理装置１は、コンピュータ１００、およびコンピュータ１００に接続する入出力装置（周辺機器）を含んで構成される。

コンピュータ１００は、プロセッサ１０１によって装置全体が制御されている。プロセッサ１０１には、バス１０９を介してＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０２と複数の周辺機器が接続されている。なお、プロセッサ１０１は、マルチプロセッサであってもよい。また、プロセッサ１０１は、例えば、ＣＰＵ、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、またはＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）である。更に、プロセッサ１０１は、ＣＰＵ、ＭＰＵ、ＤＳＰ、ＡＳＩＣ、ＰＬＤのうちの２以上の要素の組み合わせであってもよい。なお、例えば、プロセッサ１０１は、図１に記載の受信部２、算出部３、推定部４、制御部５等の機能ブロックの処理を実行することが出来る。

ＲＡＭ１０２は、コンピュータ１００の主記憶装置として使用される。ＲＡＭ１０２には、プロセッサ１０１に実行させるＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、ＲＡＭ１０２には、プロセッサ１０１による処理に必要な各種データが格納される。バス１０９に接続されている周辺機器としては、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１０３、グラフィック処理装置１０４、入力インタフェース１０５、光学ドライブ装置１０６、機器接続インタフェース１０７およびネットワークインタフェース１０８がある。

ＨＤＤ１０３は、内蔵したディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。ＨＤＤ１０３は、例えば、コンピュータ１００の補助記憶装置として使用される。ＨＤＤ１０３には、ＯＳのプログラム、アプリケーションプログラム、および各種データが格納される。なお、補助記憶装置としては、フラッシュメモリなどの半導体記憶装置を使用することも出来る。

グラフィック処理装置１０４には、モニタ１１０が接続されている。グラフィック処理装置１０４は、プロセッサ１０１からの命令にしたがって、各種画像をモニタ１１０の画面に表示させる。モニタ１１０としては、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）を用いた表示装置や液晶表示装置などがある。

入力インタフェース１０５には、キーボード１１１とマウス１１２とが接続されている。入力インタフェース１０５は、キーボード１１１やマウス１１２から送られてくる信号をプロセッサ１０１に送信する。なお、マウス１１２は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。

光学ドライブ装置１０６は、レーザ光などを利用して、光ディスク１１３に記録されたデータの読み取りを行う。光ディスク１１３は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク１１３には、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＤＶＤ−ＲＡＭ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ−Ｒ（Ｒｅｃｏｒｄａｂｌｅ）／ＲＷ（ＲｅＷｒｉｔａｂｌｅ）などがある。可搬型の記録媒体となる光ディスク１１３に格納されたプログラムは光学ドライブ装置１０６を介して音声処理装置１にインストールされる。インストールされた所定のプログラムは、音声処理装置１より実行可能となる。

機器接続インタフェース１０７は、コンピュータ１００に周辺機器を接続するための通信インタフェースである。例えば、機器接続インタフェース１０７には、メモリ装置１１４やメモリリーダライタ１１５を接続することが出来る。メモリ装置１１４は、機器接続インタフェース１０７との通信機能を搭載した記録媒体である。メモリリーダライタ１１５は、メモリカード１１６へのデータの書き込み、またはメモリカード１１６からのデータの読み出しを行う装置である。メモリカード１１６は、カード型の記録媒体である。

ネットワークインタフェース１０８は、ネットワーク１１７に接続されている。ネットワークインタフェース１０８は、ネットワーク１１７を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。例えば、ネットワークインタフェース１０８は、図１の第１マイク９〜第ｎマイク１３に入力される複数の入力音声（複数音声と称しても良い）を、第１端末６〜第ｎ端末８ならびにネットワーク１１７を介して受信する。

コンピュータ１００は、たとえば、コンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、上述した音声処理機能を実現する。コンピュータ１００に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことが出来る。上記プログラムは、１つのまたは複数の機能モジュールから構成することが出来る。例えば、図１に記載の受信部２、算出部３、推定部４、制御部５等の処理を実現させた機能モジュールからプログラムを構成することが出来る。なお、コンピュータ１００に実行させるプログラムをＨＤＤ１０３に格納しておくことができる。プロセッサ１０１は、ＨＤＤ１０３内のプログラムの少なくとも一部をＲＡＭ１０２にロードし、プログラムを実行する。また、コンピュータ１００に実行させるプログラムを、光ディスク１１３、メモリ装置１１４、メモリカード１１６などの可搬型記録媒体に記録しておくことも出来る。可搬型記録媒体に格納されたプログラムは、例えば、プロセッサ１０１からの制御により、ＨＤＤ１０３にインストールされた後、実行可能となる。またプロセッサ１０１が、可搬型記録媒体から直接プログラムを読み出して実行することも出来る。

以上に図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。

以上、説明した実施形態に関し、更に以下の付記を開示する。
（付記１）
第２ユーザよりも第１ユーザに近接する第１マイクに入力される、前記第１ユーザの第１音声と前記第２ユーザの第２音声と、
前記第１ユーザよりも前記第２ユーザに近接する第２マイクに入力される、前記第１ユーザの第３音声と前記第２ユーザの第４音声と、
を含む複数音声を、通信網を介して受信する受信部と、
前記受信部が受信する、前記第１音声と前記第２音声の第１位相差、ならびに前記第３音声と前記第４音声の第２位相差を算出する算出部と、
前記第２ユーザよりも前記第１ユーザに近接する第１スピーカに対する、前記第２音声または前記第４音声の送信を、前記第１位相差と前記第２位相差に基づいて制御、または、
前記第１ユーザよりも前記第２ユーザに近接する第２スピーカに対する、前記第１音声または前記第３音声の送信を、前記第１位相差と前記第２位相差に基づいて制御する制御部
を備えることを特徴とする音声処理装置。
（付記２）
前記算出部は、
前記第１音声を基準として前記第１位相差を算出し、前記第４音声を基準として前記第２位相差を算出し、または、
前記第３音声を基準として前記第１位相差を算出し、前記第２音声を基準として前記第２位相差を算出する
ことを特徴とする付記１記載の音声処理装置。
（付記３）
前記算出部は、前記複数音声の中から、
前記第１音声と前記第３音声の第１相関に基づいて、前記第１音声と前記第３音声を同定し、
前記第２音声と前記第４音声の第２相関に基づいて、前記第２音声と前記第４音声を同定することを特徴とする付記１または付記２記載の音声処理装置。
（付記４）
前記算出部は、
前記第１音声と前記第３音声の振幅に基づいて、前記第１音声と前記第２音声を区別し、
前記第２音声と前記第４音声の前記振幅に基づいて、前記第３音声と前記第４音声を区別することを特徴とする付記１ないし付記３の何れか一つに記載の音声処理装置。
（付記５）
前記第１位相差と前記第２位相差に基づいて、前記第１マイクと前記第２マイクの距離を推定する推定部を更に備えることを特徴とする付記１ないし付記４の何れか一つに記載の音声処理装置。
（付記６）
前記推定部は、前記第１位相差と前記第２位相差の合計値に基づいて前記距離を推定することを特徴とする付記５に記載の音声処理装置。
（付記７）
前記制御部は、前記距離が第１閾値未満の場合に、
前記第１スピーカに対する、前記第２音声または前記第４音声の送信を制御し、
前記第２スピーカに対する、前記第１音声または前記第３音声の送信を制御することを特徴とする付記５または付記６に記載の音声処理装置。
（付記８）
前記制御部は、前記距離が前記第１閾値以上の場合に、
前記第１スピーカに対する、前記第１音声または前記第３音声以外の前記複数音声の送信を制御し、
前記第２スピーカに対する、前記第２音声または前記第４音声以外の前記複数音声の前記送信を制御することを特徴とする付記５ないし付記７の何れか一つに記載の音声処理装置。
（付記９）
第２ユーザよりも第１ユーザに近接する第１マイクに入力される、前記第１ユーザの第１音声と前記第２ユーザの第２音声と、
前記第１ユーザよりも前記第２ユーザに近接する第２マイクに入力される、前記第１ユーザの第３音声と前記第２ユーザの第４音声と、
を含む複数音声を、通信網を介して受信し、
前記受信することが受信する、前記第１音声と前記第２音声の第１位相差、ならびに前記第３音声と前記第４音声の第２位相差を算出し、
前記第２ユーザよりも前記第１ユーザに近接する第１スピーカに対する、前記第２音声または前記第４音声の送信を、前記第１位相差と前記第２位相差に基づいて制御、または、
前記第１ユーザよりも前記第２ユーザに近接する第２スピーカに対する、前記第１音声または前記第３音声の送信を、前記第１位相差と前記第２位相差に基づいて制御する
ことを含むことを特徴とする音声処理方法。
（付記１０）
前記算出することは、
前記第１音声を基準として前記第１位相差を算出し、前記第４音声を基準として前記第２位相差を算出し、または、
前記第３音声を基準として前記第１位相差を算出し、前記第２音声を基準として前記第２位相差を算出する
ことを特徴とする付記９記載の音声処理方法。
（付記１１）
前記算出することは、前記複数音声の中から、
前記第１音声と前記第３音声の第１相関に基づいて、前記第１音声と前記第３音声を同定し、
前記第２音声と前記第４音声の第２相関に基づいて、前記第２音声と前記第４音声を同定することを特徴とする付記９または付記１０記載の音声処理方法。
（付記１２）
前記算出することは、
前記第１音声と前記第３音声の振幅に基づいて、前記第１音声と前記第２音声を区別し、
前記第２音声と前記第４音声の前記振幅に基づいて、前記第３音声と前記第４音声を区別することを特徴とする付記９ないし付記１１の何れか一つに記載の音声処理方法。
（付記１３）
前記第１位相差と前記第２位相差に基づいて、前記第１マイクと前記第２マイクの距離を推定することを更に含むことを特徴とする付記９ないし付記１２の何れか一つに記載の音声処理方法。
（付記１４）
前記推定することは、前記第１位相差と前記第２位相差の合計値に基づいて前記距離を推定することを特徴とする付記１３に記載の音声処理方法。
（付記１５）
前記制御することは、前記距離が第１閾値未満の場合に、
前記第１スピーカに対する、前記第２音声または前記第４音声の送信を制御し、
前記第２スピーカに対する、前記第１音声または前記第３音声の送信を制御することを特徴とする付記１３または付記１４に記載の音声処理方法。
（付記１６）
前記制御することは、前記距離が前記第１閾値以上の場合に、
前記第１スピーカに対する、前記第１音声または前記第３音声以外の前記複数音声の送信を制御し、
前記第２スピーカに対する、前記第２音声または前記第４音声以外の前記複数音声の前記送信を制御することを特徴とする付記１３ないし付記１５の何れか一つに記載の音声処理方法。
（付記１７）
コンピュータに、
第２ユーザよりも第１ユーザに近接する第１マイクに入力される、前記第１ユーザの第１音声と前記第２ユーザの第２音声と、
前記第１ユーザよりも前記第２ユーザに近接する第２マイクに入力される、前記第１ユーザの第３音声と前記第２ユーザの第４音声と、
を含む複数音声を、通信網を介して受信し、
前記受信することが受信する、前記第１音声と前記第２音声の第１位相差、ならびに前記第３音声と前記第４音声の第２位相差を算出し、
前記第２ユーザよりも前記第１ユーザに近接する第１スピーカに対する、前記第２音声または前記第４音声の送信を、前記第１位相差と前記第２位相差に基づいて制御、または、
前記第１ユーザよりも前記第２ユーザに近接する第２スピーカに対する、前記第１音声または前記第３音声の送信を、前記第１位相差と前記第２位相差に基づいて制御する
ことを実行させることを特徴とする音声処理プログラム。

１音声処理装置
２受信部
３算出部
４推定部
５制御部

Claims

第２ユーザよりも第１ユーザに近接する第１マイクに入力される、前記第１ユーザの第１音声と前記第２ユーザの第２音声と、
前記第１ユーザよりも前記第２ユーザに近接する第２マイクに入力される、前記第１ユーザの第３音声と前記第２ユーザの第４音声と、
を含む複数音声を、通信網を介して受信する受信部と、
前記受信部が受信する、前記第１音声と前記第２音声の第１位相差、ならびに前記第３音声と前記第４音声の第２位相差を算出する算出部と、
前記第２ユーザよりも前記第１ユーザに近接する第１スピーカに対する、前記第２音声または前記第４音声の送信を、前記第１位相差と前記第２位相差に基づいて制御、または、
前記第１ユーザよりも前記第２ユーザに近接する第２スピーカに対する、前記第１音声または前記第３音声の送信を、前記第１位相差と前記第２位相差に基づいて制御する制御部
を備えることを特徴とする音声処理装置。
前記算出部は、
前記第１音声を基準として前記第１位相差を算出し、前記第４音声を基準として前記第２位相差を算出し、または、
前記第３音声を基準として前記第１位相差を算出し、前記第２音声を基準として前記第２位相差を算出する
ことを特徴とする請求項１記載の音声処理装置。
前記算出部は、前記複数音声の中から、
前記第１音声と前記第３音声の第１相関に基づいて、前記第１音声と前記第３音声を同定し、
前記第２音声と前記第４音声の第２相関に基づいて、前記第２音声と前記第４音声を同定することを特徴とする請求項１または請求項２記載の音声処理装置。
前記算出部は、
前記第１音声と前記第３音声の振幅に基づいて、前記第１音声と前記第２音声を区別し、
前記第２音声と前記第４音声の前記振幅に基づいて、前記第３音声と前記第４音声を区別することを特徴とする請求項１ないし請求項３の何れか一項に記載の音声処理装置。
前記第１位相差と前記第２位相差に基づいて、前記第１マイクと前記第２マイクの距離を推定する推定部を更に備えることを特徴とする請求項１ないし請求項４の何れか一項に記載の音声処理装置。
前記推定部は、前記第１位相差と前記第２位相差の合計値に基づいて前記距離を推定することを特徴とする請求項５に記載の音声処理装置。
前記制御部は、前記距離が第１閾値未満の場合に、
前記第１スピーカに対する、前記第２音声または前記第４音声の送信を制御し、
前記第２スピーカに対する、前記第１音声または前記第３音声の送信を制御することを特徴とする請求項５または請求項６に記載の音声処理装置。
前記制御部は、前記距離が前記第１閾値以上の場合に、
前記第１スピーカに対する、前記第１音声または前記第３音声以外の前記複数音声の送信を制御し、
前記第２スピーカに対する、前記第２音声または前記第４音声以外の前記複数音声の前記送信を制御することを特徴とする請求項５ないし請求項７の何れか一項に記載の音声処理装置。
第２ユーザよりも第１ユーザに近接する第１マイクに入力される、前記第１ユーザの第１音声と前記第２ユーザの第２音声と、
前記第１ユーザよりも前記第２ユーザに近接する第２マイクに入力される、前記第１ユーザの第３音声と前記第２ユーザの第４音声と、
を含む複数音声を、通信網を介して受信し、
前記受信することが受信する、前記第１音声と前記第２音声の第１位相差、ならびに前記第３音声と前記第４音声の第２位相差を算出し、
前記第２ユーザよりも前記第１ユーザに近接する第１スピーカに対する、前記第２音声または前記第４音声の送信を、前記第１位相差と前記第２位相差に基づいて制御、または、
前記第１ユーザよりも前記第２ユーザに近接する第２スピーカに対する、前記第１音声または前記第３音声の送信を、前記第１位相差と前記第２位相差に基づいて制御する
ことを含むことを特徴とする音声処理方法。
コンピュータに、
第２ユーザよりも第１ユーザに近接する第１マイクに入力される、前記第１ユーザの第１音声と前記第２ユーザの第２音声と、
前記第１ユーザよりも前記第２ユーザに近接する第２マイクに入力される、前記第１ユーザの第３音声と前記第２ユーザの第４音声と、
を含む複数音声を、通信網を介して受信し、
前記受信することが受信する、前記第１音声と前記第２音声の第１位相差、ならびに前記第３音声と前記第４音声の第２位相差を算出し、
前記第２ユーザよりも前記第１ユーザに近接する第１スピーカに対する、前記第２音声または前記第４音声の送信を、前記第１位相差と前記第２位相差に基づいて制御、または、
前記第１ユーザよりも前記第２ユーザに近接する第２スピーカに対する、前記第１音声または前記第３音声の送信を、前記第１位相差と前記第２位相差に基づいて制御する
ことを実行させることを特徴とする音声処理プログラム。