JP2005229422A

JP2005229422A - 音声処理装置

Info

Publication number: JP2005229422A
Application number: JP2004037124A
Authority: JP
Inventors: Kazuhiro Oki; 一弘大木; Hiroyuki Suzuki; 博之鈴木; Fuji Omagari; 不次大曲
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-02-13
Filing date: 2004-02-13
Publication date: 2005-08-25

Abstract

【課題】複数のマイクロフォンの中からの一のマイクロフォンを選択するマイク選択機能を、使用環境に関わらず適切に機能させ、安価に実現する音声処理装置を提供する。
【解決手段】ＤＳＰ２２は、全方位に均等に配置された複数のマイクロフォンＭＣ１〜６から集音する音声の音圧レベルデータに基づいて、１つのマイクロフォンからの音声信号を選択して出力する際に、各マイクロフォンからの音圧レベルデータに対してピークホールド処理（ＰＨ処理）を行い、ＰＨ処理された音圧レベルデータ（ピーク値）とピーク値を平均化処理（フィルタ処理等）したピーク平均値との差分値に基づいて、発言の開始判定やマイク間の切替え処理を行う。
【選択図】図３

Description

本発明は、マイクロフォンが集音した音声データをディジタル処理する音声処理装置に関する。

スピーカとマイクロフォンとが一体となった通話装置、または、スピーカとマイクロフォンとが別体ではあるが、互いに有線で接続され同時に使用される通話装置などの音声処理装置は、遠隔に位置する会議室間において電話会議等を行う際に、それぞれ複数人の出席者が発言することができるので、大変便利である。

かかる音声処理装置の中には、複数のマイクロフォンを内蔵し、発言者の音声方向に合わせて、最適なマイクロフォンが選択されるような機能（マイク選択機能）を有することにより、複数のマイクロフォンからの発言が同時に通話相手先に伝達されないようにして、より通話を快適に行うことができるようにしたものも開発されている（下記特許文献１参照）。
特開２００３−８７８９０号公報

ところで、上述したマイク選択機能を有する音声処理装置は、音声処理装置の設置された環境等によって、適切にマイク選択機能が働かない場合があり得る。
たとえば、音声処理装置に内蔵または接続された複数のマイクロフォンのうち、特定のマイクロフォンのみが周囲の騒音に影響を受けやすい位置にある場合には、その特定のマイクロフォンのみの音声が優先的に選択されやすくなるため、各マイクロフォンが入力する発言に応じて適切にマイク選択がなされないという問題がある。

また、スピーカ・マイクロフォン一体型の音声処理装置においては、スピーカとマイクロフォンが近接しているため、スピーカが出力する通話相手先の音声をマイクロフォンが拾うことにより、発言が全くないにも関わらず、マイク選択が行われてしまうことがある。
特に、会議出席者や会議室の壁の近辺に音声処理装置が配置されている場合には、音の反射の影響により、スピーカから出力する音がマイクロフォンに回り込むことがあり、かかる場合には、マイク選択機能が誤作動するという問題がある。

一方、上述した問題は、各マイクロフォン毎にエコーキャンセラーを設定することにより、各マイクロフォンが入力した音声信号から通話相手先からの音声信号を除去して出力させることによりスピーカ出力音声の影響を排除することは技術的に可能であるが、複数のマイクロフォンに対してエコーキャンセラーが必要となるので、経済的不利益が大きい。

本発明はかかる事情に鑑みてなされたものであり、その目的は、複数のマイクロフォンの中からの一のマイクロフォンを選択するマイク選択機能を、使用環境に関わらず適切に機能させ、安価に実現する音声処理装置を提供することにある。

上記目的を達成するための本発明の第１の観点は、それぞれ異なる集音方向を指向するように配設される複数のマイクロフォンと、前記複数のマイクロフォンが集音する音圧の最大値を保持する複数の最大値保持手段と、前記複数の最大値保持手段が保持する各マイクロフォン毎の最大値に対し、当該最大値の単位時間当たりの変化量が制限される遅延最大値を生成する複数の遅延最大値生成手段と、各マイクロフォン毎に、最大値と遅延最大値を比較し、前記最大値が前記遅延最大値より所定の閾値以上に大きい場合、対応するマイクロフォンを選択するマイクロフォン選択手段とを具備する音声処理装置である。

好ましくは、前記マイクロフォン選択手段は、最大値と遅延最大値を比較し、前記最大値が前記遅延最大値より所定の閾値以上に大きいマイクロフォンが複数存在する場合には、最大値と遅延最大値の差分が最も大きいマイクロフォンを選択する。

好ましくは、スピーカと、当該スピーカが出力する音圧の最大値である第２の最大値を保持する第２の最大値保持手段とをさらに有し、前記第２の最大値に応じて、マイクロフォン選択手段により使用される前記所定の閾値を可変とする。

本発明の第１の観点に係る音声処理装置によれば、複数のマイクロフォンは、それぞれ異なる集音方向を指向するように配設されて、指向する方向の音を集音し、複数の最大値保持手段は、各マイクロフォンに対応付けられ、対応するマイクロフォンが集音する音圧の最大値を保持し、複数の遅延最大値生成手段は、各マイクロフォンに対応付けられ、前記複数の最大値保持手段が保持する各マイクロフォン毎の最大値に対して、当該最大値の単位時間当たりの変化量が制限されるようにした遅延最大値を生成し、マイクロフォン選択手段は、各マイクロフォン毎に、最大値と遅延最大値を比較し、前記最大値が前記遅延最大値より所定の閾値以上に大きい場合、すなわち、急峻な入力がある場合に限り、音声が入力されたと判断し、対応するマイクロフォンを選択するので、周囲の定常音レベルとしての遅延最大値の絶対値に関わらず、適切に入力音声を評価することができる。

本発明に係る音声処理装置よれば、使用環境に関わらずマイク選択機能が適切に機能し、しかも安価に実現するので、ユーザは、かかる音声処理装置を場所等の制約を受けないで使用できる結果、実用性が向上するという利点がある。

第１の実施形態
以下、本発明の一実施形態としての通話装置１について述べる。
通話装置１は、それぞれ複数の会議参加者が存在し、遠隔に位置する２つの会議室間において、双方向の通話を可能とする通話装置である。
図１（ａ）〜（ｃ）は、通話装置１が適用される一例を示す構成図である。
図１（ａ）に図解したように、遠隔に位置する２つの会議室９０１、９０２にそれぞれ通話装置１Ａ，１Ｂが設置されており、これらの通話装置１Ａ，１Ｂが電話回線９２０で接続されている。なお、通話装置１Ａ，１Ｂは、通話装置１と同一である。
図１（ｂ）に図解したように、２つの会議室９０１、９０２において、通話装置１Ａ，１Ｂがそれぞれテーブル９１１、９１２の上に置かれている。ただし、図１（ｂ）においては、図解の簡略化のため、会議室９０１内の通話装置１Ａについてのみ図解しているが、会議室９０２内の通話装置１Ｂも同様である。
図１（ｃ）に図解したように、通話装置１Ａ，１Ｂの周囲にそれぞれ複数（本実施形態においては６名）の会議参加者Ａ１〜Ａ６が位置している。ただし、図１（ｃ）においては、図解の簡略化のため、会議室９０１内の通話装置１Ａの周囲の会議参加者のみ図解している。他方の会議室９０２内の通話装置１Ｂの周囲に位置する会議参加者の配置についても、同様である。

通話装置１によれば、たとえば、２つの会議室９０１、９０２との間で電話回線９２０を介して音声による通話が可能である。
また、電話回線９２０を介しての会話は、通常、１人の話者と１人の話者同士、すなわち、１対１で通話を行うが、通話装置によれば、１つの電話回線９２０を用いて複数の会議参加者Ａ１〜Ａ６同士の通話が可能である。
以下、かかる通話装置１の構成および動作について述べる。

通話装置１の構成
図２は本発明の一実施形態としての通話装置１を表す図であり、（ａ）は通話装置１の外観斜視図であり、（ｂ）はマイクロフォン収容部の内部の上面図である。

通話装置１は、双方向の通話を可能とするために、マイクロフォンとスピーカとが一体として構成され、図２（ａ）に図解したように、マイクロフォンを収容するためのマイクロフォン収容部１１と、会議相手先の音声を再生するスピーカを収容するためのスピーカ収容部１２と、操作部１３とを含んでいる。
さらに、図２（ｂ）に図解したように、マイクロフォン収容部１１の内部には、６本のマイクロフォンＭＣ１〜６が全方位に均等に配置されている。各マイクロフォンは単一指向性を持つマイクロフォンである。
スピーカ収容部１２に収容されるスピーカは、収容筐体の中心に位置し、スピーカからの音声は、各マイクロフォンＭＣ１〜６に対して、ほぼ同音量、同位相で届くように構成されている。

会議参加者Ａ１〜Ａ６は、通常、図１（ｃ）に例示したように、通話装置１の周囲３６０度方向に、６０度間隔で配設されているマイクロフォンＭＣ１〜ＭＣ６の近傍にほぼ等間隔で位置している。

図３は、通話装置１の回路構成の一例を示すブロック図である。
図３に示すように、通話装置１は、回路構成としては、ＣＰＵ２４と、ＤＳＰ２２と、ＤＳＰ２３と、Ａ／Ｄ変換器ブロック２１と、Ａ／Ｄ変換器２１７と、Ｄ／Ａ変換器２５１，２５２と、増幅器２６１，２６２と、スピーカ２７とを含んで構成される。図３においては、Ａ／Ｄ変換器ブロック２１の一例として、各マイクロフォンに対応する６個のＡ／Ｄ変換器２１１〜２１６を例示する。
図３に示す構成を有する回路が実装された基板が、たとえば、図２（ａ）に示すマイクロフォン収容部１１の内部に設置されている。
また、その他の構成要素、たとえば、相手方会議室に送信する音声を圧縮符号化するためのコーデック等は、本発明の要旨と直接関係しないので、図３には図示しない。

ＣＰＵ２４は、通話装置１の全体制御処理を行う。
ＤＳＰ２２は、Ａ／Ｄ変換器２１１〜２１６によりディジタル信号に変換された６本のマイクロフォンＭＣ１〜６からの音声信号に基づいて、１のマイクロフォンの音声信号を選択する処理（マイクロフォン選択処理）等の各種の信号処理を行う。ＤＳＰ２２の内部処理については後述する。
ＤＳＰ２３は、エコーキャンセラーとして機能する。すなわち、Ａ／Ｄ変換器２１７を介して入力した相手会議室からの音声信号の大きさと遅延量を算出し、算出した音声信号の大きさと遅延量に応じた信号を、ＤＳＰ２２により選択されて出力される音声信号から減じる処理を行うことにより、エコー消去処理を行う。

ＤＳＰ２３の処理結果は、Ｄ／Ａ変換器２５１，２５２によりアナログ信号に変換されて出力される。Ｄ／Ａ変換器２５２からの出力は、必要に応じて、図示しないコーデック等で符号化され、増幅器２６２を介して電話回線９２０（図１（ａ））のラインアウト(LINE OUT)に出力され、相手方会議室に設置された通話装置のスピーカを介して、音として出力される。
相手方の会議室に設置された通話装置１からの音声は、電話回線９２０（図１（ａ））のラインイン(LINE IN) を介して入力され、Ａ／Ｄ変換器２１７においてディジタル信号に変換され、ＤＳＰ２３に入力されてエコーキャンセル処理に使用されるとともに、Ｄ／Ａ変換器２５１および増幅器２６１を介し、スピーカ２７から音として出力される。
一方、ＤＳＰ２２により選択されたマイクの音声信号も、ＤＳＰ２３を介してスピーカ２７から音として出力される。
すなわち、図２（ｃ）に示す会議参加者Ａ１〜Ａ６は、上述したスピーカ２７を通して、相手会議室に配置された通話装置により選択された話者の音声に加えて、その会議室のいる発言者が発した音声をもスピーカ２７を介して聞くことができる。

通話装置１に内蔵された６本のマイクロフォンＭＣ１〜６は、それぞれ指向性を有するマイクロフォンである。
無指向性のマイクロフォンを用いた場合には、マイクロフォン周辺の全ての音を集音するので、発言者の音声と周辺ノイズとのＳ／Ｎが混同してあまり良い音が集音できない。これを避けるために、通話装置１では、指向性マイクロフォンで集音することにより、周辺のノイズとのＳ／Ｎを改善している。

ＤＳＰ２２の処理
次に、ＤＳＰ２２で行う処理内容について述べる。
ＤＳＰ２２で行われる主な処理は、マイクロフォン（以下、単にマイクという場合もある）の選択・切替え処理である。
すなわち、各マイクロフォンからの音声の基づいて、１つのマイクロフォンを特定し、特定したマイクロフォンからの音声を選択・出力する処理を行う。その際、通話装置１を使用する複数の会議参加者が同時に話をすると、音声が入り交じり相手方にとって聞きにくくなるため、選択されたマイクからの音声信号のみが出力される。

本処理を正確に行うため、ＤＳＰ２２は、下記に例示する各種の信号処理を行う。
（ａ）マイク信号の帯域分離とピークホールド処理
（ｂ）発言の開始、終了の判定処理
（ｃ）発言者方向マイクの検出処理
（ｄ）マイク信号の選択切替え処理

図４は、ＤＳＰ２２において実行される処理を示すブロック図である。
図４に示すように、ＤＳＰ２２は、各マイク信号に対してＢＰＦ処理を行い、音圧レベルデータを生成するＢＰＦ２２１１〜２２１６からなるＢＰＦブロック２２１と、ＢＰＦ処理された各マイクの音圧レベルデータに対してＰＨ処理を行い、後述するピーク値を生成するＰＨ２２２１〜２２２６からなるＰＨブロック２２２と、各マイクのピーク値に対して、後述する発言の開始判定やマイクの切替え処理などの各処理を実行する判定処理部２２３と、を含んで構成される。

なお、ＰＨブロック２２２は、本発明の複数の最大値保持手段の一実施形態である。
判定処理部２２３は、本発明のマイクロフォン選択手段の一実施形態である。
また、ピーク値は、本発明の最大値に対応する。
かかる構成を有するＤＳＰ２２による上述した各信号処理（ａ）〜（ｄ）について、以下に述べる。

（ａ）マイク信号の帯域分離とピ−クホールド処理
本処理は、図４に示すＢＰＦブロック２２１およびＰＨブロック２２２によって行われる。
ＢＰＦブロック２２１の各ＢＰＦ処理は、後述する発言の開始、終了判定等に必要な所定の帯域通過特性（たとえば、１００〜６００Ｈｚ）に基づいて行われる。
ＰＨ処理は、ＢＰＦ処理された音圧レベルデータ（マイク信号）の最大値を保持（ピークホールド）する処理を行った後のデータであるピーク値を生成する。

図５は、ＰＨ処理を説明するための図であるが、図示のとおり、ＰＨ処理では、最大値を保持した後は、保持する値より大きなデータを入力した場合に保持する最大値を更新していくようにピーク値を生成する。その際、最大値を更新した後のピーク値は、図示のとおり、時間経過に応じて徐々に減少させる。

以降の処理、すなわち、上記（ｂ）〜（ｄ）の処理については、各マイク信号に基づいて算出されたピーク値を入力する判定処理部２２３により実行される。

（ｂ）発言の開始、終了の判定処理
以下、発言の開始判定処理について述べる。
本処理においては、先ず、入力したピーク値に対して、平均化処理を行い、平均化処理後のデータであるピーク平均値を算出する。
平均化処理においては、ピーク値を所定時間毎（たとえば、８０ｍｓ毎）にサンプリングし、サンプリングした値に対して、移動平均や重み付けの処理を施す。
たとえば、８０ｍｓ毎にサンプリングした音圧レベルデータの値の今回値をＸ（ｎ）とし、平均化処理により生成された平均値のピーク平均値の前回値をＡ（ｎ−１）とすると、ピーク平均値の今回値Ａ（ｎ）は下式（１）の通り、算出される。なお、初期値Ａ（０）は、起動時に与えておく。

Ａ（ｎ）＝Ａ（ｎ−１）＋（Ｘ（ｎ）−Ｐ（ｎ−１））／６４ … （１）

すなわち、算出されるピーク平均値の今回値Ａ（ｎ）は、前回のピーク平均値に対し、ピーク値の今回値Ｘ（ｎ）によって１／６４しか影響を受けない。

平均化処理において算出されるピーク平均値は、ピーク値に対して、急激な変化に追随しないことを目的として設定されるものであるので、かかる目的に合致する方法であれば、上述した式（１）を用いた算出方法に拘泥せず、様々な方法によりピーク平均値を算出することができる。
たとえば、上記式（１）において、ピーク平均値の変化の度合いを決定する第２項の分母の値である「６４」を「３２」や「１６」に設定してもよいし、また、８０ｍｓ毎にサンプリングした音圧レベルデータの数回分（たとえば、１６回）の移動平均値を順次算出するようにしてもよい。また、ピーク値に対し、強めの１次フィルタをかけてもよい。

なお、判定処理部２２３における上記処理部は、本発明の遅延最大値生成手段の一実施形態であり、また、ピーク平均値は、本発明の遅延最大値に相当する。

図６は、ピーク値に対する処理を説明するための図であり、（ａ）は、ＢＰＦ処理後のデータとピーク値との関係を、（ｂ）は、ピーク値とピーク平均値との関係を、それぞれ示す。なお、図６（ｂ）において、ピーク値に対するサンプリングは、８０ｍｓ毎に時刻ｔ１，ｔ２，…，ｔ８の順に行われており、ピーク値とピーク平均値との各時刻における差分値を、それぞれ、ｄ１，ｄ２，…，ｄ８と定義する。

図６（ｂ）に図解するように、ピーク平均値は、上述したように、ピーク値と異なり、急激な変化に追随できないので、時刻ｔ５から時刻ｔ８にかけて、ピーク値が急激に変化しているにも関わらず、ピーク平均値はなだらかに変化をしている。その結果、ピーク値とピーク平均値との差分値は、時刻ｔ６以降において、大きな値（図中ｄ６，ｄ７，ｄ８）となっている。

発言の開始判定は、上述したピーク値とピーク平均値との各時刻における差分値を、所定の閾値と比較することにより行う。
ここで、発言の開始判定を、ピーク値の絶対値により行わずに、ピーク値とピーク平均値との各時刻における差分値により行う理由は、周囲の騒音レベルを考慮したためである。
すなわち、特定のマイクが指向する方向に常時騒音を発する物（たとえば、プリンタやプロジェクタ、空調等の機器）が配置されている場合、仮にピーク値の絶対値により発言の開始判定を行うものとすると、その特定のマイクのみが常に優先的に選択されることになり、適切ではない。
したがって、定常的な騒音レベルを含む定常音レベルとして、ピーク平均値を算出し、このピーク平均値に対して、ピーク値が急激に変化した場合には、発言による音声入力があったものと判断し、発言が開始されたと判断する。

ＤＳＰ２２は、上記処理を各マイク毎に独立に行う。
したがって、各マイクの周囲の騒音レベルに応じて、独立にピーク平均値が算出されることになり、算出されたピーク平均値からの音圧レベルデータの変化量をモニタすることにより、各マイクの置かれた環境に応じた適切な判定を行うことができる。

図７は、図６に示した音圧レベルデータを有するマイクロフォンが所定のタイミングで選択されたことを例示する図であり、（ａ）は、ピーク値と算出されたピーク平均値との関係を、（ｂ）は、マイクに対する出力ゲイン(Gain)の変化を、それぞれ示す。
図７（ａ）に示す図は、図６（ｂ）と同一である。
今、たとえば、図７に示す音圧レベルデータの特性をマイクロフォンＭＣ１の特性とすると、図７（ｂ）においては、時刻ｔ６の時点でのピーク値とピーク平均値との差分値ｄ６が、所定の閾値を越えたため、ＤＳＰ２２は、マイクロフォンＭＣ１の発言が開始されたものと判断して、マイクロフォンＭＣ１に設定された出力ゲインを変化させる。
なお、Ｓ／Ｎを考慮して、差分値が所定の閾値を数回越えた時点、たとえば３回越えた時点（時刻ｔ８）において、発言が開始されたと判断するようにすることもできる。

一方、発言終了の判定としては、たとえば、発言が開始されたと判断した時点（図７（ａ）の時刻ｔ６）の直前（時刻ｔ５）のピーク値を記憶しておき、発言が開始されたと判断した後に、一定時間（たとえば、０．５秒間）の間、記憶したピーク値と現在のピーク値との差が所定値以下になった場合に発言終了と判定することができる。

（ｃ）発言者方向マイクの検出処理
本処理は、各マイクに対向するそれぞれの話者が同時に発言する場合に、音圧レベルの大きい１つのマイクを選択する処理である。すなわち、１人の話者が発言を開始する場合には、１つのマイクからの音圧レベルデータに基づいて、上述した処理を行えばよいが、複数の話者が同時に発言することもあり得るので、その場合に主たる話者に係るマイクを特定しなければならない。

発言者方向のマイクの検出処理に必要な各マイクの音圧レベルデータは、図４を参照して説明した処理と同様に、各マイクを通して入力した音圧レベルデータに対して、バンドパス・フィルタ（ＢＰＦ）処理およびピークホールド（ＰＨ）処理を行うことにより得られるピーク値である。
但し、ＢＰＦ処理を行う際の周波数帯域は、（ａ）発言の開始・終了判定処理と変更しても構わないし、また、複数の周波数帯域を組み合わせて適用させることも可能である。

本処理においては、発言の開始・終了判定処理と同様に、図６（ｂ）に示したように、所定のサンプリング毎の音圧レベルデータのピーク値に基づいて、ピーク平均値を算出する。
そして、各マイクにおけるピ−ク値とピーク平均値との差分値に着目し、
〔条件１〕差分値が所定の閾値以上であること
〔条件２〕差分値が各マイクの中で最大であること
の各条件を満足するマイクを、主たる話者の音声を入力するマイクであると判断する。

なお、上記条件１における「所定の閾値」は、たとえば、（ａ）発言の開始・終了判定処理において設定した閾値と同一としてよい。
また、図６（ｂ）に示すように、発言時間が長いほど、ピ−ク値とピーク平均値との差分値が徐々に短縮されるので、発言が開始されたと判断した時点（図６（ｂ）の時刻ｔ６）におけるピーク平均値を記憶し、記憶したピーク平均値と以後のピーク値との差分値に基づいて、上記判断を行うのが望ましい。これにより、各マイク毎の発言開始時刻の違いに関わらず、上記差分値を適切に比較することができる。

以上の通り、発言者方向のマイク検出処理においても、各マイクの音圧レベルデータのピーク値とピーク平均値との各時刻における差分値に基づいて、各マイク間の比較を行うので、適切に話者に係るマイクを特定することができる。
すなわち、特定のマイクが指向する方向に常時騒音を発する物（たとえば、プリンタやプロジェクタ、空調等の機器）が配置されている場合、仮に音圧レベルデータの絶対値により各マイク間の比較を行うものとすると、その特定のマイクのみに優先的に後述するマイク選択の切替えが行われることになり、適切ではない。
したがって、定常的な騒音レベルを含む定常音レベルとして、ピーク平均値を算出し、このピーク平均値に対する変化量を比較の対象とすることで、各マイク毎の環境に関わらず平等に比較することが可能となる。

（ｄ）マイク信号の選択切替え処理
本処理では、（ｃ）発言者方向マイクの検出処理により選択されたマイクにＤＳＰ２２の出力を切り替える処理を行う。

図８は、マイク信号の選択切替え処理を行うための回路ブロック図を示す。
図８に示すように、マイク信号の選択切替え処理は、６回路の乗算器と６入力の加算器により構成される。
すなわち、選択されたマイク信号が接続されている乗算器のチャンネルゲイン（CH Gain)を「１」に、その他の乗算器のチャンネルゲインを「０」とすることで、加算器には〔選択されたマイク信号×１〕と〔他のマイク信号×０〕の処理結果が加算され、所望のマイク選択信号が出力される。

図９は、マイクを切り替える場合の出力ゲインの変化を示す図である。
図９に示すように、マイクを切り替える場合の前後のチャンネルゲイン（例えば、CH1
GainとCH2 Gain）の変化においては、マイク信号のレベル差によるクリック音の発生を回避するため、例えば１０ｍｓの間で連続的に変化させて交叉するように行われる。

以上説明したように、本実施形態に係る通話装置１によれば、マイクロフォンとスピーカとが一体となった通話装置であって、全方位に均等に配置された複数のマイクロフォンと、当該複数のマイクロフォンが集音する音声に基づいて音圧レベルデータを処理し、１つのマイクロフォンからの音声信号を選択して出力するＤＳＰ２２と、通話相手先の音声信号を増幅して出力するスピーカ２７と、通話相手先からの音声信号に基づいて、ＤＳＰ２２により選択されて出力された音声信号に対してエコーキャンセル処理を行うＤＳＰ２３と、を有し、ＤＳＰ２２は、各マイクロフォンからの音圧レベルデータに対してピークホールド処理（ＰＨ処理）を行い、ＰＨ処理された音圧レベルデータ（ピーク値）とピーク値を平均化処理（フィルタ処理等）したピーク平均値との差分値に基づいて、発言の開始判定やマイク間の切替え処理を行うようにしたので、以下の効果を得ることができる。

すなわち、特定のマイクが指向する方向に常時騒音を発する物（たとえば、プリンタやプロジェクタ、空調等の機器）が配置されている場合であっても、適切に発言の開始判定やマイク間の切替え処理を行うことができ、誤判定の可能性を低減できる。
仮に、周囲の騒音レベルと無関係に音圧レベルデータの絶対値によって判定を行うとすると、周囲の騒音レベルが高い特定のマイクのみが優先的に選択されることになり、適切ではないが、本手法によれば、定常的な騒音レベルを含む定常音レベルとしてピーク平均値を算出し、このピーク平均値に対する変化量をモニタしているので、適切に判定処理を行うことが可能である。
また、上記ピーク値、ピーク平均値および差分値の演算は、各マイク独立に実行されるので、各マイクの置かれた環境に応じた適切な判定を行うことができる。

第２の実施形態
以下、第２の実施形態に係る通話装置について述べる。
図２に図解したように、第１の実施形態に係る通話装置１は、マイクロフォンとスピーカが一体となった構造からなる。したがって、通話相手先からの音声がスピーカ２７から出力されると、出力された音声が各マイクロフォンに回り込んで入力されることがあり得る。
たとえば、通話装置１が会議室に存在する壁の近辺に配置された場合には、スピーカ２７から出力される音声が放射せずに、近辺の壁に反射されて各マイクロフォンに入力されることになる。その場合には、通話装置１が配置された会議室の出席者が何も発言していないにも関わらず、反射された音声に基づいてマイク選択がなされることになる。
かかる状況を回避すべく、本実施形態に係る通話装置は、スピーカ２７への音声信号に基づいて、マイク判定処理における閾値を可変とすることを目的とする。

図９は、本実施形態に係る通話装置１ａの回路構成を示すブロック図である。なお、図３を参照して説明した第１の実施形態に係る通話装置１と同一の構成要素については、同一の符号を付している。
図９に示す通話装置１ａは、図３に示す通話装置１と比較して、ＤＳＰ２３から出力される通話相手先の音声データをＤＳＰ２２ａが取り込む点で相違する。

図１０は、通話装置１ａのＤＳＰ２２ａの構成を示すブロック図である。なお、図４を参照して説明した第１の実施形態に係るＤＳＰ２２と同一の構成要素については、同一の符号を付している。
図１０に示すＤＳＰ２２ａは、図４に示すＤＳＰ２２と比較して、ＤＳＰ２３から出力される通話相手先の音声データ（スピーカ音声データ）に対し、各マイクからの音声データと同様に、バンドパス・フィルタ処理（ＢＰＦ２２４）およびピークホールド処理（ＰＨ２２５）を行い、判定処理部２２３ａに取り込まれるという点で相違する。

なお、図１０に示すＰＨ２２５は、本発明の第２の最大値保持手段の一実施形態であり、後述するスピーカピーク値は、本発明の第２の最大値に相当する。

判定処理部２２３ａの処理
判定処理部２２３ａは、第１の実施形態に係る判定処理部２２３と同様に、発言開始・終了の判定処理やマイク選択・切替え処理を実行するが、その際、ＢＰＦ処理およびＰＨ処理を行った後のスピーカ音声データの値（スピーカピーク値）に基づいて、各処理に要する閾値を変更する。
たとえば、スピーカピーク値が大きい場合、すなわち、スピーカ２７が大きな音を出力している場合には、マイク選択のための閾値を増加させて、マイクが選択されにくくする。
以下、各処理について述べる。

発言の開始判定処理
第１の実施形態においては、発言の開始判定は、所定のサンプリング毎に各マイクロフォンからの音声信号に基づいて算出した音圧レベルデータのピーク値と、ピーク平均値との各時刻における差分値を、所定の閾値と比較することにより行ったが、本実施形態では、この所定の閾値を、スピーカピーク値に応じて変更する。

図１１は、本実施形態における発言開始判定に使用する閾値を例示する。
図１１（ａ）は、上記差分値を評価するための閾値を、スピーカピーク値に応じてリニア（線形）に変化させた場合を示す。
図１１（ａ）において、スピーカから出力がない場合、すなわち、スピーカピーク値が「０」である場合の閾値ＴＨ０は、第１の実施形態における「所定の閾値」と等価に設定する。
図１１（ａ）に示す閾値は、スピーカ出力がある程度大きくなると、徐々に大きくなるように設定されるが、この勾配、すなわち、スピーカピーク値に対して設定されるゲインは、実験によるチューニングにより設定する。

図１１（ｂ）は、上記差分値を評価するための閾値を、スピーカピーク値に応じてステップ状に変化させた場合を例示する。

以上のように、発言の開始判定に使用する閾値を、スピーカ出力の大きさに応じて変化（増加）させることにより、スピーカから出力される音声がマイクロフォンに回り込むことによる誤判定を防止することが可能となる。

発言者方向マイクの検出処理
第１の実施形態においては、発言者方向マイクの検出処理は、所定のサンプリング毎に算出した音圧レベルデータのピーク値と、ピーク平均値との差分値に着目し、
〔条件１〕差分値が所定の閾値以上であること
〔条件２〕差分値が各マイクの中で最大であること
の各条件を満足するマイクを、主たる話者の音声を入力するマイクであると判断したが、上記〔条件１〕における「所定の閾値」を、上述した発言の開始判定処理同様に、図１１に示すように変化させる。
これにより、スピーカから音声出力がある場合には、その音声出力の大きさに応じて、選択するマイクが切り替わり難くなるので、通話相手先からの音声がマイクロフォンに回り込んだ場合にも、不要なマイク切替えを防止することができる。

以上説明したように、本実施形態に係る通話装置１ａによれば、第１の実施形態に係る通話装置１と比較して、さらに、ＤＳＰ２２ａは、通話相手先からの音声信号を取り込み、取り込んだ音声信号の音圧レベルデータに対してピークホールド処理（ＰＨ処理）を行った後の値（スピーカピーク値）に基づいて、発言の開始判定やマイク間の切替え処理に使用する閾値を可変としたので、以下の効果を得ることができる。

すなわち、会議室における通話装置１ａの環境（壁に近接する等）により、誰も発言していないにも関わらず、スピーカから出力される音声が反射等されてマイクロフォンに回り込むことによりマイク入力が認識されるような場合でも、スピーカの出力に応じて発言の開始判定やマイク間の切替え処理に使用する閾値を増加させることにより、マイク入力に対する各処理の感度が鈍くなるので、誤判定を防止することが可能となる。

通話装置の使用環境を例示する図であり、（ａ）は、遠隔の会議室間で通話装置１（通話装置１Ａ，１Ｂ）が接続されている状態を、（ｂ）は、会議室に通話装置１が設置されている状態を、（ｃ）は、会議室における通話装置１と会議出席者の配置を、それぞれ示す。通話装置の形態を示す図であり、（ａ）は外観の形態を、（ｂ）は、マイクロフォン収容部の内部の形態（各マイクロフォンの配置）を、それぞれ示す。第１の実施形態に係る通話装置の回路構成を例示するブロック図である。第１の実施形態に係る通話装置のＤＳＰの内部構成を示す図である。ピークホールド処理を説明するための図である。平均化処理を説明するための図である。発言開始判定処理について説明するための図である。各マイクの出力処理を示す図である。第２の実施形態に係る通話装置の回路構成を例示するブロック図である。第２の実施形態に係る通話装置のＤＳＰの内部構成を示す図である。第２の実施形態に係る閾値の設定を例示する図であり、（ａ）は、スピーカ音量に対してリニアに変化する場合を、（ｂ）は、スピーカ音量に対してステップ状に変化する場合を、それぞれ示す。

符号の説明

１，１ａ…通話装置、１１…マイクロフォン収容部、１２…スピーカ収容部、１３…操作部、２１…Ａ／Ｄ変換器ブロック、２１１〜２１７…Ａ／Ｄ変換器、２２，２２ａ…第１のディジタルシグナルプロセッサ（ＤＳＰ）、２３…第２のディジタルシグナルプロセッサ（ＤＳＰ）、２４…ＣＰＵ、２５１，２５２…Ｄ／Ａ変換器、２６１，２６２…増幅器、２７…スピーカ。

Claims

それぞれ異なる集音方向を指向するように配設される複数のマイクロフォンと、
前記複数のマイクロフォンが集音する音圧の最大値を保持する複数の最大値保持手段と、
前記複数の最大値保持手段が保持する各マイクロフォン毎の最大値に対し、当該最大値の単位時間当たりの変化量が制限される遅延最大値を生成する複数の遅延最大値生成手段と、
各マイクロフォン毎に、最大値と遅延最大値を比較し、前記最大値が前記遅延最大値より所定の閾値以上に大きい場合、対応するマイクロフォンを選択するマイクロフォン選択手段と
を具備する音声処理装置。
前記マイクロフォン選択手段は、
最大値と遅延最大値を比較し、前記最大値が前記遅延最大値より所定の閾値以上に大きいマイクロフォンが複数存在する場合には、
最大値と遅延最大値の差分が最も大きいマイクロフォンを選択する
請求項１記載の音声処理装置。
スピーカと、
当該スピーカが出力する音圧の最大値である第２の最大値を保持する第２の最大値保持手段と
をさらに有し、
前記第２の最大値に応じて、マイクロフォン選択手段により使用される前記所定の閾値を可変とする
請求項１記載の音声処理装置。