JP2005229422A - 音声処理装置 - Google Patents

音声処理装置 Download PDF

Info

Publication number
JP2005229422A
JP2005229422A JP2004037124A JP2004037124A JP2005229422A JP 2005229422 A JP2005229422 A JP 2005229422A JP 2004037124 A JP2004037124 A JP 2004037124A JP 2004037124 A JP2004037124 A JP 2004037124A JP 2005229422 A JP2005229422 A JP 2005229422A
Authority
JP
Japan
Prior art keywords
microphone
value
processing
maximum value
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004037124A
Other languages
English (en)
Inventor
Kazuhiro Oki
一弘 大木
Hiroyuki Suzuki
博之 鈴木
Fuji Omagari
不次 大曲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2004037124A priority Critical patent/JP2005229422A/ja
Publication of JP2005229422A publication Critical patent/JP2005229422A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】複数のマイクロフォンの中からの一のマイクロフォンを選択するマイク選択機能を、使用環境に関わらず適切に機能させ、安価に実現する音声処理装置を提供する。
【解決手段】DSP22は、全方位に均等に配置された複数のマイクロフォンMC1〜6から集音する音声の音圧レベルデータに基づいて、1つのマイクロフォンからの音声信号を選択して出力する際に、各マイクロフォンからの音圧レベルデータに対してピークホールド処理(PH処理)を行い、PH処理された音圧レベルデータ(ピーク値)とピーク値を平均化処理(フィルタ処理等)したピーク平均値との差分値に基づいて、発言の開始判定やマイク間の切替え処理を行う。
【選択図】図3

Description

本発明は、マイクロフォンが集音した音声データをディジタル処理する音声処理装置に関する。
スピーカとマイクロフォンとが一体となった通話装置、または、スピーカとマイクロフォンとが別体ではあるが、互いに有線で接続され同時に使用される通話装置などの音声処理装置は、遠隔に位置する会議室間において電話会議等を行う際に、それぞれ複数人の出席者が発言することができるので、大変便利である。
かかる音声処理装置の中には、複数のマイクロフォンを内蔵し、発言者の音声方向に合わせて、最適なマイクロフォンが選択されるような機能(マイク選択機能)を有することにより、複数のマイクロフォンからの発言が同時に通話相手先に伝達されないようにして、より通話を快適に行うことができるようにしたものも開発されている(下記特許文献1参照)。
特開2003−87890号公報
ところで、上述したマイク選択機能を有する音声処理装置は、音声処理装置の設置された環境等によって、適切にマイク選択機能が働かない場合があり得る。
たとえば、音声処理装置に内蔵または接続された複数のマイクロフォンのうち、特定のマイクロフォンのみが周囲の騒音に影響を受けやすい位置にある場合には、その特定のマイクロフォンのみの音声が優先的に選択されやすくなるため、各マイクロフォンが入力する発言に応じて適切にマイク選択がなされないという問題がある。
また、スピーカ・マイクロフォン一体型の音声処理装置においては、スピーカとマイクロフォンが近接しているため、スピーカが出力する通話相手先の音声をマイクロフォンが拾うことにより、発言が全くないにも関わらず、マイク選択が行われてしまうことがある。
特に、会議出席者や会議室の壁の近辺に音声処理装置が配置されている場合には、音の反射の影響により、スピーカから出力する音がマイクロフォンに回り込むことがあり、かかる場合には、マイク選択機能が誤作動するという問題がある。
一方、上述した問題は、各マイクロフォン毎にエコーキャンセラーを設定することにより、各マイクロフォンが入力した音声信号から通話相手先からの音声信号を除去して出力させることによりスピーカ出力音声の影響を排除することは技術的に可能であるが、複数のマイクロフォンに対してエコーキャンセラーが必要となるので、経済的不利益が大きい。
本発明はかかる事情に鑑みてなされたものであり、その目的は、複数のマイクロフォンの中からの一のマイクロフォンを選択するマイク選択機能を、使用環境に関わらず適切に機能させ、安価に実現する音声処理装置を提供することにある。
上記目的を達成するための本発明の第1の観点は、それぞれ異なる集音方向を指向するように配設される複数のマイクロフォンと、前記複数のマイクロフォンが集音する音圧の最大値を保持する複数の最大値保持手段と、前記複数の最大値保持手段が保持する各マイクロフォン毎の最大値に対し、当該最大値の単位時間当たりの変化量が制限される遅延最大値を生成する複数の遅延最大値生成手段と、各マイクロフォン毎に、最大値と遅延最大値を比較し、前記最大値が前記遅延最大値より所定の閾値以上に大きい場合、対応するマイクロフォンを選択するマイクロフォン選択手段とを具備する音声処理装置である。
好ましくは、前記マイクロフォン選択手段は、最大値と遅延最大値を比較し、前記最大値が前記遅延最大値より所定の閾値以上に大きいマイクロフォンが複数存在する場合には、最大値と遅延最大値の差分が最も大きいマイクロフォンを選択する。
好ましくは、スピーカと、当該スピーカが出力する音圧の最大値である第2の最大値を保持する第2の最大値保持手段とをさらに有し、前記第2の最大値に応じて、マイクロフォン選択手段により使用される前記所定の閾値を可変とする。
本発明の第1の観点に係る音声処理装置によれば、複数のマイクロフォンは、それぞれ異なる集音方向を指向するように配設されて、指向する方向の音を集音し、複数の最大値保持手段は、各マイクロフォンに対応付けられ、対応するマイクロフォンが集音する音圧の最大値を保持し、複数の遅延最大値生成手段は、各マイクロフォンに対応付けられ、前記複数の最大値保持手段が保持する各マイクロフォン毎の最大値に対して、当該最大値の単位時間当たりの変化量が制限されるようにした遅延最大値を生成し、マイクロフォン選択手段は、各マイクロフォン毎に、最大値と遅延最大値を比較し、前記最大値が前記遅延最大値より所定の閾値以上に大きい場合、すなわち、急峻な入力がある場合に限り、音声が入力されたと判断し、対応するマイクロフォンを選択するので、周囲の定常音レベルとしての遅延最大値の絶対値に関わらず、適切に入力音声を評価することができる。
本発明に係る音声処理装置よれば、使用環境に関わらずマイク選択機能が適切に機能し、しかも安価に実現するので、ユーザは、かかる音声処理装置を場所等の制約を受けないで使用できる結果、実用性が向上するという利点がある。
第1の実施形態
以下、本発明の一実施形態としての通話装置1について述べる。
通話装置1は、それぞれ複数の会議参加者が存在し、遠隔に位置する2つの会議室間において、双方向の通話を可能とする通話装置である。
図1(a)〜(c)は、通話装置1が適用される一例を示す構成図である。
図1(a)に図解したように、遠隔に位置する2つの会議室901、902にそれぞれ通話装置1A,1Bが設置されており、これらの通話装置1A,1Bが電話回線920で接続されている。なお、通話装置1A,1Bは、通話装置1と同一である。
図1(b)に図解したように、2つの会議室901、902において、通話装置1A,1Bがそれぞれテーブル911、912の上に置かれている。ただし、図1(b)においては、図解の簡略化のため、会議室901内の通話装置1Aについてのみ図解しているが、会議室902内の通話装置1Bも同様である。
図1(c)に図解したように、通話装置1A,1Bの周囲にそれぞれ複数(本実施形態においては6名)の会議参加者A1〜A6が位置している。ただし、図1(c)においては、図解の簡略化のため、会議室901内の通話装置1Aの周囲の会議参加者のみ図解している。他方の会議室902内の通話装置1Bの周囲に位置する会議参加者の配置についても、同様である。
通話装置1によれば、たとえば、2つの会議室901、902との間で電話回線920を介して音声による通話が可能である。
また、電話回線920を介しての会話は、通常、1人の話者と1人の話者同士、すなわち、1対1で通話を行うが、通話装置によれば、1つの電話回線920を用いて複数の会議参加者A1〜A6同士の通話が可能である。
以下、かかる通話装置1の構成および動作について述べる。
通話装置1の構成
図2は本発明の一実施形態としての通話装置1を表す図であり、(a)は通話装置1の外観斜視図であり、(b)はマイクロフォン収容部の内部の上面図である。
通話装置1は、双方向の通話を可能とするために、マイクロフォンとスピーカとが一体として構成され、図2(a)に図解したように、マイクロフォンを収容するためのマイクロフォン収容部11と、会議相手先の音声を再生するスピーカを収容するためのスピーカ収容部12と、操作部13とを含んでいる。
さらに、図2(b)に図解したように、マイクロフォン収容部11の内部には、6本のマイクロフォンMC1〜6が全方位に均等に配置されている。各マイクロフォンは単一指向性を持つマイクロフォンである。
スピーカ収容部12に収容されるスピーカは、収容筐体の中心に位置し、スピーカからの音声は、各マイクロフォンMC1〜6に対して、ほぼ同音量、同位相で届くように構成されている。
会議参加者A1〜A6は、通常、図1(c)に例示したように、通話装置1の周囲360度方向に、60度間隔で配設されているマイクロフォンMC1〜MC6の近傍にほぼ等間隔で位置している。
図3は、通話装置1の回路構成の一例を示すブロック図である。
図3に示すように、通話装置1は、回路構成としては、CPU24と、DSP22と、DSP23と、A/D変換器ブロック21と、A/D変換器217と、D/A変換器251,252と、増幅器261,262と、スピーカ27とを含んで構成される。図3においては、A/D変換器ブロック21の一例として、各マイクロフォンに対応する6個のA/D変換器211〜216を例示する。
図3に示す構成を有する回路が実装された基板が、たとえば、図2(a)に示すマイクロフォン収容部11の内部に設置されている。
また、その他の構成要素、たとえば、相手方会議室に送信する音声を圧縮符号化するためのコーデック等は、本発明の要旨と直接関係しないので、図3には図示しない。
CPU24は、通話装置1の全体制御処理を行う。
DSP22は、A/D変換器211〜216によりディジタル信号に変換された6本のマイクロフォンMC1〜6からの音声信号に基づいて、1のマイクロフォンの音声信号を選択する処理(マイクロフォン選択処理)等の各種の信号処理を行う。DSP22の内部処理については後述する。
DSP23は、エコーキャンセラーとして機能する。すなわち、A/D変換器217を介して入力した相手会議室からの音声信号の大きさと遅延量を算出し、算出した音声信号の大きさと遅延量に応じた信号を、DSP22により選択されて出力される音声信号から減じる処理を行うことにより、エコー消去処理を行う。
DSP23の処理結果は、D/A変換器251,252によりアナログ信号に変換されて出力される。D/A変換器252からの出力は、必要に応じて、図示しないコーデック等で符号化され、増幅器262を介して電話回線920(図1(a))のラインアウト(LINE OUT)に出力され、相手方会議室に設置された通話装置のスピーカを介して、音として出力される。
相手方の会議室に設置された通話装置1からの音声は、電話回線920(図1(a))のラインイン(LINE IN) を介して入力され、A/D変換器217においてディジタル信号に変換され、DSP23に入力されてエコーキャンセル処理に使用されるとともに、D/A変換器251および増幅器261を介し、スピーカ27から音として出力される。
一方、DSP22により選択されたマイクの音声信号も、DSP23を介してスピーカ27から音として出力される。
すなわち、図2(c)に示す会議参加者A1〜A6は、上述したスピーカ27を通して、相手会議室に配置された通話装置により選択された話者の音声に加えて、その会議室のいる発言者が発した音声をもスピーカ27を介して聞くことができる。
通話装置1に内蔵された6本のマイクロフォンMC1〜6は、それぞれ指向性を有するマイクロフォンである。
無指向性のマイクロフォンを用いた場合には、マイクロフォン周辺の全ての音を集音するので、発言者の音声と周辺ノイズとのS/Nが混同してあまり良い音が集音できない。これを避けるために、通話装置1では、指向性マイクロフォンで集音することにより、周辺のノイズとのS/Nを改善している。
DSP22の処理
次に、DSP22で行う処理内容について述べる。
DSP22で行われる主な処理は、マイクロフォン(以下、単にマイクという場合もある)の選択・切替え処理である。
すなわち、各マイクロフォンからの音声の基づいて、1つのマイクロフォンを特定し、特定したマイクロフォンからの音声を選択・出力する処理を行う。その際、通話装置1を使用する複数の会議参加者が同時に話をすると、音声が入り交じり相手方にとって聞きにくくなるため、選択されたマイクからの音声信号のみが出力される。
本処理を正確に行うため、DSP22は、下記に例示する各種の信号処理を行う。
(a)マイク信号の帯域分離とピークホールド処理
(b)発言の開始、終了の判定処理
(c)発言者方向マイクの検出処理
(d)マイク信号の選択切替え処理
図4は、DSP22において実行される処理を示すブロック図である。
図4に示すように、DSP22は、各マイク信号に対してBPF処理を行い、音圧レベルデータを生成するBPF2211〜2216からなるBPFブロック221と、BPF処理された各マイクの音圧レベルデータに対してPH処理を行い、後述するピーク値を生成するPH2221〜2226からなるPHブロック222と、各マイクのピーク値に対して、後述する発言の開始判定やマイクの切替え処理などの各処理を実行する判定処理部223と、を含んで構成される。
なお、PHブロック222は、本発明の複数の最大値保持手段の一実施形態である。
判定処理部223は、本発明のマイクロフォン選択手段の一実施形態である。
また、ピーク値は、本発明の最大値に対応する。
かかる構成を有するDSP22による上述した各信号処理(a)〜(d)について、以下に述べる。
(a)マイク信号の帯域分離とピ−クホールド処理
本処理は、図4に示すBPFブロック221およびPHブロック222によって行われる。
BPFブロック221の各BPF処理は、後述する発言の開始、終了判定等に必要な所定の帯域通過特性(たとえば、100〜600Hz)に基づいて行われる。
PH処理は、BPF処理された音圧レベルデータ(マイク信号)の最大値を保持(ピークホールド)する処理を行った後のデータであるピーク値を生成する。
図5は、PH処理を説明するための図であるが、図示のとおり、PH処理では、最大値を保持した後は、保持する値より大きなデータを入力した場合に保持する最大値を更新していくようにピーク値を生成する。その際、最大値を更新した後のピーク値は、図示のとおり、時間経過に応じて徐々に減少させる。
以降の処理、すなわち、上記(b)〜(d)の処理については、各マイク信号に基づいて算出されたピーク値を入力する判定処理部223により実行される。
(b)発言の開始、終了の判定処理
以下、発言の開始判定処理について述べる。
本処理においては、先ず、入力したピーク値に対して、平均化処理を行い、平均化処理後のデータであるピーク平均値を算出する。
平均化処理においては、ピーク値を所定時間毎(たとえば、80ms毎)にサンプリングし、サンプリングした値に対して、移動平均や重み付けの処理を施す。
たとえば、80ms毎にサンプリングした音圧レベルデータの値の今回値をX(n)とし、平均化処理により生成された平均値のピーク平均値の前回値をA(n−1)とすると、ピーク平均値の今回値A(n)は下式(1)の通り、算出される。なお、初期値A(0)は、起動時に与えておく。

A(n)=A(n−1)+(X(n)−P(n−1))/64 … (1)

すなわち、算出されるピーク平均値の今回値A(n)は、前回のピーク平均値に対し、ピーク値の今回値X(n)によって1/64しか影響を受けない。
平均化処理において算出されるピーク平均値は、ピーク値に対して、急激な変化に追随しないことを目的として設定されるものであるので、かかる目的に合致する方法であれば、上述した式(1)を用いた算出方法に拘泥せず、様々な方法によりピーク平均値を算出することができる。
たとえば、上記式(1)において、ピーク平均値の変化の度合いを決定する第2項の分母の値である「64」を「32」や「16」に設定してもよいし、また、80ms毎にサンプリングした音圧レベルデータの数回分(たとえば、16回)の移動平均値を順次算出するようにしてもよい。また、ピーク値に対し、強めの1次フィルタをかけてもよい。
なお、判定処理部223における上記処理部は、本発明の遅延最大値生成手段の一実施形態であり、また、ピーク平均値は、本発明の遅延最大値に相当する。
図6は、ピーク値に対する処理を説明するための図であり、(a)は、BPF処理後のデータとピーク値との関係を、(b)は、ピーク値とピーク平均値との関係を、それぞれ示す。なお、図6(b)において、ピーク値に対するサンプリングは、80ms毎に時刻t1,t2,…,t8の順に行われており、ピーク値とピーク平均値との各時刻における差分値を、それぞれ、d1,d2,…,d8と定義する。
図6(b)に図解するように、ピーク平均値は、上述したように、ピーク値と異なり、急激な変化に追随できないので、時刻t5から時刻t8にかけて、ピーク値が急激に変化しているにも関わらず、ピーク平均値はなだらかに変化をしている。その結果、ピーク値とピーク平均値との差分値は、時刻t6以降において、大きな値(図中d6,d7,d8)となっている。
発言の開始判定は、上述したピーク値とピーク平均値との各時刻における差分値を、所定の閾値と比較することにより行う。
ここで、発言の開始判定を、ピーク値の絶対値により行わずに、ピーク値とピーク平均値との各時刻における差分値により行う理由は、周囲の騒音レベルを考慮したためである。
すなわち、特定のマイクが指向する方向に常時騒音を発する物(たとえば、プリンタやプロジェクタ、空調等の機器)が配置されている場合、仮にピーク値の絶対値により発言の開始判定を行うものとすると、その特定のマイクのみが常に優先的に選択されることになり、適切ではない。
したがって、定常的な騒音レベルを含む定常音レベルとして、ピーク平均値を算出し、このピーク平均値に対して、ピーク値が急激に変化した場合には、発言による音声入力があったものと判断し、発言が開始されたと判断する。
DSP22は、上記処理を各マイク毎に独立に行う。
したがって、各マイクの周囲の騒音レベルに応じて、独立にピーク平均値が算出されることになり、算出されたピーク平均値からの音圧レベルデータの変化量をモニタすることにより、各マイクの置かれた環境に応じた適切な判定を行うことができる。
図7は、図6に示した音圧レベルデータを有するマイクロフォンが所定のタイミングで選択されたことを例示する図であり、(a)は、ピーク値と算出されたピーク平均値との関係を、(b)は、マイクに対する出力ゲイン(Gain)の変化を、それぞれ示す。
図7(a)に示す図は、図6(b)と同一である。
今、たとえば、図7に示す音圧レベルデータの特性をマイクロフォンMC1の特性とすると、図7(b)においては、時刻t6の時点でのピーク値とピーク平均値との差分値d6が、所定の閾値を越えたため、DSP22は、マイクロフォンMC1の発言が開始されたものと判断して、マイクロフォンMC1に設定された出力ゲインを変化させる。
なお、S/Nを考慮して、差分値が所定の閾値を数回越えた時点、たとえば3回越えた時点(時刻t8)において、発言が開始されたと判断するようにすることもできる。
一方、発言終了の判定としては、たとえば、発言が開始されたと判断した時点(図7(a)の時刻t6)の直前(時刻t5)のピーク値を記憶しておき、発言が開始されたと判断した後に、一定時間(たとえば、0.5秒間)の間、記憶したピーク値と現在のピーク値との差が所定値以下になった場合に発言終了と判定することができる。
(c)発言者方向マイクの検出処理
本処理は、各マイクに対向するそれぞれの話者が同時に発言する場合に、音圧レベルの大きい1つのマイクを選択する処理である。すなわち、1人の話者が発言を開始する場合には、1つのマイクからの音圧レベルデータに基づいて、上述した処理を行えばよいが、複数の話者が同時に発言することもあり得るので、その場合に主たる話者に係るマイクを特定しなければならない。
発言者方向のマイクの検出処理に必要な各マイクの音圧レベルデータは、図4を参照して説明した処理と同様に、各マイクを通して入力した音圧レベルデータに対して、バンドパス・フィルタ(BPF)処理およびピークホールド(PH)処理を行うことにより得られるピーク値である。
但し、BPF処理を行う際の周波数帯域は、(a)発言の開始・終了判定処理と変更しても構わないし、また、複数の周波数帯域を組み合わせて適用させることも可能である。
本処理においては、発言の開始・終了判定処理と同様に、図6(b)に示したように、所定のサンプリング毎の音圧レベルデータのピーク値に基づいて、ピーク平均値を算出する。
そして、各マイクにおけるピ−ク値とピーク平均値との差分値に着目し、
〔条件1〕差分値が所定の閾値以上であること
〔条件2〕差分値が各マイクの中で最大であること
の各条件を満足するマイクを、主たる話者の音声を入力するマイクであると判断する。
なお、上記条件1における「所定の閾値」は、たとえば、(a)発言の開始・終了判定処理において設定した閾値と同一としてよい。
また、図6(b)に示すように、発言時間が長いほど、ピ−ク値とピーク平均値との差分値が徐々に短縮されるので、発言が開始されたと判断した時点(図6(b)の時刻t6)におけるピーク平均値を記憶し、記憶したピーク平均値と以後のピーク値との差分値に基づいて、上記判断を行うのが望ましい。これにより、各マイク毎の発言開始時刻の違いに関わらず、上記差分値を適切に比較することができる。
以上の通り、発言者方向のマイク検出処理においても、各マイクの音圧レベルデータのピーク値とピーク平均値との各時刻における差分値に基づいて、各マイク間の比較を行うので、適切に話者に係るマイクを特定することができる。
すなわち、特定のマイクが指向する方向に常時騒音を発する物(たとえば、プリンタやプロジェクタ、空調等の機器)が配置されている場合、仮に音圧レベルデータの絶対値により各マイク間の比較を行うものとすると、その特定のマイクのみに優先的に後述するマイク選択の切替えが行われることになり、適切ではない。
したがって、定常的な騒音レベルを含む定常音レベルとして、ピーク平均値を算出し、このピーク平均値に対する変化量を比較の対象とすることで、各マイク毎の環境に関わらず平等に比較することが可能となる。
(d)マイク信号の選択切替え処理
本処理では、(c)発言者方向マイクの検出処理により選択されたマイクにDSP22の出力を切り替える処理を行う。
図8は、マイク信号の選択切替え処理を行うための回路ブロック図を示す。
図8に示すように、マイク信号の選択切替え処理は、6回路の乗算器と6入力の加算器により構成される。
すなわち、選択されたマイク信号が接続されている乗算器のチャンネルゲイン(CH Gain)を「1」に、その他の乗算器のチャンネルゲインを「0」とすることで、加算器には〔選択されたマイク信号×1〕と〔他のマイク信号×0〕の処理結果が加算され、所望のマイク選択信号が出力される。
図9は、マイクを切り替える場合の出力ゲインの変化を示す図である。
図9に示すように、マイクを切り替える場合の前後のチャンネルゲイン(例えば、CH1
GainとCH2 Gain)の変化においては、マイク信号のレベル差によるクリック音の発生を回避するため、例えば10msの間で連続的に変化させて交叉するように行われる。
以上説明したように、本実施形態に係る通話装置1によれば、マイクロフォンとスピーカとが一体となった通話装置であって、全方位に均等に配置された複数のマイクロフォンと、当該複数のマイクロフォンが集音する音声に基づいて音圧レベルデータを処理し、1つのマイクロフォンからの音声信号を選択して出力するDSP22と、通話相手先の音声信号を増幅して出力するスピーカ27と、通話相手先からの音声信号に基づいて、DSP22により選択されて出力された音声信号に対してエコーキャンセル処理を行うDSP23と、を有し、DSP22は、各マイクロフォンからの音圧レベルデータに対してピークホールド処理(PH処理)を行い、PH処理された音圧レベルデータ(ピーク値)とピーク値を平均化処理(フィルタ処理等)したピーク平均値との差分値に基づいて、発言の開始判定やマイク間の切替え処理を行うようにしたので、以下の効果を得ることができる。
すなわち、特定のマイクが指向する方向に常時騒音を発する物(たとえば、プリンタやプロジェクタ、空調等の機器)が配置されている場合であっても、適切に発言の開始判定やマイク間の切替え処理を行うことができ、誤判定の可能性を低減できる。
仮に、周囲の騒音レベルと無関係に音圧レベルデータの絶対値によって判定を行うとすると、周囲の騒音レベルが高い特定のマイクのみが優先的に選択されることになり、適切ではないが、本手法によれば、定常的な騒音レベルを含む定常音レベルとしてピーク平均値を算出し、このピーク平均値に対する変化量をモニタしているので、適切に判定処理を行うことが可能である。
また、上記ピーク値、ピーク平均値および差分値の演算は、各マイク独立に実行されるので、各マイクの置かれた環境に応じた適切な判定を行うことができる。
第2の実施形態
以下、第2の実施形態に係る通話装置について述べる。
図2に図解したように、第1の実施形態に係る通話装置1は、マイクロフォンとスピーカが一体となった構造からなる。したがって、通話相手先からの音声がスピーカ27から出力されると、出力された音声が各マイクロフォンに回り込んで入力されることがあり得る。
たとえば、通話装置1が会議室に存在する壁の近辺に配置された場合には、スピーカ27から出力される音声が放射せずに、近辺の壁に反射されて各マイクロフォンに入力されることになる。その場合には、通話装置1が配置された会議室の出席者が何も発言していないにも関わらず、反射された音声に基づいてマイク選択がなされることになる。
かかる状況を回避すべく、本実施形態に係る通話装置は、スピーカ27への音声信号に基づいて、マイク判定処理における閾値を可変とすることを目的とする。
図9は、本実施形態に係る通話装置1aの回路構成を示すブロック図である。なお、図3を参照して説明した第1の実施形態に係る通話装置1と同一の構成要素については、同一の符号を付している。
図9に示す通話装置1aは、図3に示す通話装置1と比較して、DSP23から出力される通話相手先の音声データをDSP22aが取り込む点で相違する。
図10は、通話装置1aのDSP22aの構成を示すブロック図である。なお、図4を参照して説明した第1の実施形態に係るDSP22と同一の構成要素については、同一の符号を付している。
図10に示すDSP22aは、図4に示すDSP22と比較して、DSP23から出力される通話相手先の音声データ(スピーカ音声データ)に対し、各マイクからの音声データと同様に、バンドパス・フィルタ処理(BPF224)およびピークホールド処理(PH225)を行い、判定処理部223aに取り込まれるという点で相違する。
なお、図10に示すPH225は、本発明の第2の最大値保持手段の一実施形態であり、後述するスピーカピーク値は、本発明の第2の最大値に相当する。
判定処理部223aの処理
判定処理部223aは、第1の実施形態に係る判定処理部223と同様に、発言開始・終了の判定処理やマイク選択・切替え処理を実行するが、その際、BPF処理およびPH処理を行った後のスピーカ音声データの値(スピーカピーク値)に基づいて、各処理に要する閾値を変更する。
たとえば、スピーカピーク値が大きい場合、すなわち、スピーカ27が大きな音を出力している場合には、マイク選択のための閾値を増加させて、マイクが選択されにくくする。
以下、各処理について述べる。
発言の開始判定処理
第1の実施形態においては、発言の開始判定は、所定のサンプリング毎に各マイクロフォンからの音声信号に基づいて算出した音圧レベルデータのピーク値と、ピーク平均値との各時刻における差分値を、所定の閾値と比較することにより行ったが、本実施形態では、この所定の閾値を、スピーカピーク値に応じて変更する。
図11は、本実施形態における発言開始判定に使用する閾値を例示する。
図11(a)は、上記差分値を評価するための閾値を、スピーカピーク値に応じてリニア(線形)に変化させた場合を示す。
図11(a)において、スピーカから出力がない場合、すなわち、スピーカピーク値が「0」である場合の閾値TH0は、第1の実施形態における「所定の閾値」と等価に設定する。
図11(a)に示す閾値は、スピーカ出力がある程度大きくなると、徐々に大きくなるように設定されるが、この勾配、すなわち、スピーカピーク値に対して設定されるゲインは、実験によるチューニングにより設定する。
図11(b)は、上記差分値を評価するための閾値を、スピーカピーク値に応じてステップ状に変化させた場合を例示する。
以上のように、発言の開始判定に使用する閾値を、スピーカ出力の大きさに応じて変化(増加)させることにより、スピーカから出力される音声がマイクロフォンに回り込むことによる誤判定を防止することが可能となる。
発言者方向マイクの検出処理
第1の実施形態においては、発言者方向マイクの検出処理は、所定のサンプリング毎に算出した音圧レベルデータのピーク値と、ピーク平均値との差分値に着目し、
〔条件1〕差分値が所定の閾値以上であること
〔条件2〕差分値が各マイクの中で最大であること
の各条件を満足するマイクを、主たる話者の音声を入力するマイクであると判断したが、上記〔条件1〕における「所定の閾値」を、上述した発言の開始判定処理同様に、図11に示すように変化させる。
これにより、スピーカから音声出力がある場合には、その音声出力の大きさに応じて、選択するマイクが切り替わり難くなるので、通話相手先からの音声がマイクロフォンに回り込んだ場合にも、不要なマイク切替えを防止することができる。
以上説明したように、本実施形態に係る通話装置1aによれば、第1の実施形態に係る通話装置1と比較して、さらに、DSP22aは、通話相手先からの音声信号を取り込み、取り込んだ音声信号の音圧レベルデータに対してピークホールド処理(PH処理)を行った後の値(スピーカピーク値)に基づいて、発言の開始判定やマイク間の切替え処理に使用する閾値を可変としたので、以下の効果を得ることができる。
すなわち、会議室における通話装置1aの環境(壁に近接する等)により、誰も発言していないにも関わらず、スピーカから出力される音声が反射等されてマイクロフォンに回り込むことによりマイク入力が認識されるような場合でも、スピーカの出力に応じて発言の開始判定やマイク間の切替え処理に使用する閾値を増加させることにより、マイク入力に対する各処理の感度が鈍くなるので、誤判定を防止することが可能となる。
通話装置の使用環境を例示する図であり、(a)は、遠隔の会議室間で通話装置1(通話装置1A,1B)が接続されている状態を、(b)は、会議室に通話装置1が設置されている状態を、(c)は、会議室における通話装置1と会議出席者の配置を、それぞれ示す。 通話装置の形態を示す図であり、(a)は外観の形態を、(b)は、マイクロフォン収容部の内部の形態(各マイクロフォンの配置)を、それぞれ示す。 第1の実施形態に係る通話装置の回路構成を例示するブロック図である。 第1の実施形態に係る通話装置のDSPの内部構成を示す図である。 ピークホールド処理を説明するための図である。 平均化処理を説明するための図である。 発言開始判定処理について説明するための図である。 各マイクの出力処理を示す図である。 第2の実施形態に係る通話装置の回路構成を例示するブロック図である。 第2の実施形態に係る通話装置のDSPの内部構成を示す図である。 第2の実施形態に係る閾値の設定を例示する図であり、(a)は、スピーカ音量に対してリニアに変化する場合を、(b)は、スピーカ音量に対してステップ状に変化する場合を、それぞれ示す。
符号の説明
1,1a…通話装置、11…マイクロフォン収容部、12…スピーカ収容部、13…操作部、21…A/D変換器ブロック、211〜217…A/D変換器、22,22a…第1のディジタルシグナルプロセッサ(DSP)、23…第2のディジタルシグナルプロセッサ(DSP)、24…CPU、251,252…D/A変換器、261,262…増幅器、27…スピーカ。

Claims (3)

  1. それぞれ異なる集音方向を指向するように配設される複数のマイクロフォンと、
    前記複数のマイクロフォンが集音する音圧の最大値を保持する複数の最大値保持手段と、
    前記複数の最大値保持手段が保持する各マイクロフォン毎の最大値に対し、当該最大値の単位時間当たりの変化量が制限される遅延最大値を生成する複数の遅延最大値生成手段と、
    各マイクロフォン毎に、最大値と遅延最大値を比較し、前記最大値が前記遅延最大値より所定の閾値以上に大きい場合、対応するマイクロフォンを選択するマイクロフォン選択手段と
    を具備する音声処理装置。
  2. 前記マイクロフォン選択手段は、
    最大値と遅延最大値を比較し、前記最大値が前記遅延最大値より所定の閾値以上に大きいマイクロフォンが複数存在する場合には、
    最大値と遅延最大値の差分が最も大きいマイクロフォンを選択する
    請求項1記載の音声処理装置。
  3. スピーカと、
    当該スピーカが出力する音圧の最大値である第2の最大値を保持する第2の最大値保持手段と
    をさらに有し、
    前記第2の最大値に応じて、マイクロフォン選択手段により使用される前記所定の閾値を可変とする
    請求項1記載の音声処理装置。
JP2004037124A 2004-02-13 2004-02-13 音声処理装置 Pending JP2005229422A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004037124A JP2005229422A (ja) 2004-02-13 2004-02-13 音声処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004037124A JP2005229422A (ja) 2004-02-13 2004-02-13 音声処理装置

Publications (1)

Publication Number Publication Date
JP2005229422A true JP2005229422A (ja) 2005-08-25

Family

ID=35003787

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004037124A Pending JP2005229422A (ja) 2004-02-13 2004-02-13 音声処理装置

Country Status (1)

Country Link
JP (1) JP2005229422A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007318550A (ja) * 2006-05-26 2007-12-06 Yamaha Corp 放収音装置
JP2008177802A (ja) * 2007-01-18 2008-07-31 Yamaha Corp 音声会議システムおよび音声会議装置
JP2008278433A (ja) * 2007-05-07 2008-11-13 Casio Hitachi Mobile Communications Co Ltd 情報処理装置、プログラム
JP2011029765A (ja) * 2009-07-22 2011-02-10 Audio Technica Corp バウンダリーマイクロホン

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007318550A (ja) * 2006-05-26 2007-12-06 Yamaha Corp 放収音装置
US8300839B2 (en) 2006-05-26 2012-10-30 Yamaha Corporation Sound emission and collection apparatus and control method of sound emission and collection apparatus
JP2008177802A (ja) * 2007-01-18 2008-07-31 Yamaha Corp 音声会議システムおよび音声会議装置
JP2008278433A (ja) * 2007-05-07 2008-11-13 Casio Hitachi Mobile Communications Co Ltd 情報処理装置、プログラム
JP2011029765A (ja) * 2009-07-22 2011-02-10 Audio Technica Corp バウンダリーマイクロホン

Similar Documents

Publication Publication Date Title
TWI713844B (zh) 用於語音處理的方法及積體電路
US9167333B2 (en) Headset dictation mode
US10269369B2 (en) System and method of noise reduction for a mobile device
KR101826274B1 (ko) 조정가능한 오디오 채널들을 갖는 음성 제어 오디오 레코딩 또는 전송 장치
US8972251B2 (en) Generating a masking signal on an electronic device
US8630685B2 (en) Method and apparatus for providing sidetone feedback notification to a user of a communication device with multiple microphones
CA2560034C (en) System for selectively extracting components of an audio input signal
US9392353B2 (en) Headset interview mode
US10341759B2 (en) System and method of wind and noise reduction for a headphone
JP2009503568A (ja) 雑音環境における音声信号の着実な分離
CN110896509A (zh) 耳机佩戴状态确定方法、电子设备控制方法及电子设备
US20120057717A1 (en) Noise Suppression for Sending Voice with Binaural Microphones
JPH10282993A (ja) 機器の音声作動式遠隔制御システム
US6385176B1 (en) Communication system based on echo canceler tap profile
US9532138B1 (en) Systems and methods for suppressing audio noise in a communication system
JP5380777B2 (ja) 音声会議装置
EP3777114B1 (en) Dynamically adjustable sidetone generation
CN101188876A (zh) 运行助听器的方法以及助听器
JP5130298B2 (ja) 補聴器の動作方法、および補聴器
JP6601030B2 (ja) ヘッドセット
WO2011033924A1 (ja) エコー除去装置、エコー除去方法、およびエコー除去装置のプログラム
JP2005229422A (ja) 音声処理装置
JP2020202448A (ja) 音響装置および音響処理方法
CN113261305A (zh) 耳机、声学信号处理方法和程序
JP2006337939A (ja) 騒音制御装置、騒音制御装置付き携帯電話及び騒音制御装置付きヘッドセット