JP2016158072A

JP2016158072A - 集音装置、音声処理方法、および音声処理プログラム

Info

Publication number: JP2016158072A
Application number: JP2015034031A
Authority: JP
Inventors: 田中　康裕; Yasuhiro Tanaka; 康裕田中
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2015-02-24
Filing date: 2015-02-24
Publication date: 2016-09-01

Abstract

【課題】周囲の環境の変化に合わせて反響音を抑制することができる集音装置を提供する。【解決手段】集音装置は、人の非可聴域の非可聴音を発するためのスピーカと、周囲の音を受け、当該音から、非可聴音に対応する非可聴信号と、人の可聴域の可聴音に対応する可聴信号とを出力するためのマイクロフォン部とを備える。集音装置は、非可聴信号に含まれる反響音成分を推定するステップ（Ｓ２２）と、反響音成分に応じた反響音抑制フィルタを可聴信号に適用し、可聴信号の反響音成分を抑制するステップ（Ｓ２８）と、非可聴信号の変化に基づいて、非可聴音の反響音の経路が変化したことを検出するステップ（Ｓ２０）と、経路の変化が検出されたときに、反響音抑制フィルタを更新するステップ（Ｓ２６）とを実行する。【選択図】図６

Description

本開示は、マイクロフォンを備える集音装置の制御に関し、特に、反響音を抑制することが可能な集音装置の制御に関する。

従来、周囲の音から雑音を抑制し、話者の音声をクリアにするための音声処理技術が開発されている。当該音声処理技術は、たとえば、スマートフォンなどの携帯端末や、インフォメーションディスプレイなどの音声装置に適用されている。

マイクロフォンに入力される音として、壁や天井などに反射せずに入力される音と、壁や天井などに反射して入力される音とがある。以下では、音源から発せれた音のうち、壁や天井などに反射せずに直接マイクロフォンで集音される音声を「直接音」ともいい、壁や天井などで反射した後にマイクロフォンで集音される音声を「反響音」ともいう。また、マイクロフォンが音源から受けた音の成分うち、直接音を構成する成分を「直接音成分」ともいい、反響音を構成する成分を「反響音成分」ともいう。さらに、集音対象の話者から発せれた音声を「目的音」ともいう。

マイクロフォンは、反響音の影響を受けると、クリアな音声信号を生成できない。近年では、反響音を抑制するための技術が開発されている。反響音を抑制するための技術として、たとえば、インパルス応答により室内伝達関数を測定し、当該室内伝達関数から逆フィルタを生成し、集音して得られた音声信号に逆フィルタを適用する方法がある。

反響音を抑制する他の技術に関し、特開２０１３−３０９５６号公報（特許文献１）は、携帯端末に搭載されたスピーカとマイクロフォンを用いて測定したインパルス応答を利用して反響音を抑制する携帯端末を開示している。

特開２０１３−１７１０７６号公報（特許文献２）は、線形フィルタを用いた残響除去方式と非線形フィルタを用いた残響除去方式とを統合する統合アルゴリズムを開示している。当該統合アルゴリズムは、伝達関数の揺らぎの量を時間ごとに計測する機能を有し、その計測結果を基に時間ごとの非線形フィルタの強さを変える。当該統合アルゴリズムは、伝達関数の揺らぎが大きいときだけ強い非線形フィルタを掛けることで、音声成分の歪みを小さくする。

特開２０１３−３０９５６号公報特開２０１３−１７１０７６号公報

ところで、反響音は、周囲の環境に応じて変化する。たとえば、マイクロフォンが受ける反響音は、周囲の人が動いた場合や、仕切り板の配置が変わった場合などに変化する。また、マイクロフォンを搭載する携帯電話や音声端末を保持するユーザーが移動することによっても、マイクロフォンが受ける反響音は変化する。そのため、周囲の環境が変化した場合であっても反響音を抑制することができる集音装置が望まれている。

特許文献１に開示される携帯端末は、反響音の変化に対応していない。特許文献２に開示される統合アルゴリズムは、反響音の変化と直接音の変化との違いを見分けることができず、周囲の環境が変化したことを検出できない。

本開示は上述のような問題点を解決するためになされたものであって、ある局面における目的は、周囲の環境の変化に合わせて反響音を抑制することが可能な集音装置を提供することである。他の局面における目的は、周囲の環境の変化に合わせて反響音を抑制することが可能な音声処理方法を提供することである。さらに他の局面における目的は、周囲の環境の変化に合わせて反響音を抑制することが可能な音声処理プログラムを提供することである。

ある局面に従うと、集音装置は、人の非可聴域の第１音を発するための第１スピーカと、周囲の音を受けて、第１音に対応する第１電気信号と、人の可聴域の第２音に対応する第２電気信号とを出力するためのマイクロフォン部と、第１電気信号に含まれる反響音成分を推定するための第１推定部と、反響音成分に応じた反響音抑制フィルタを第２電気信号に適用し、第２電気信号の反響音成分を抑制するための抑制部と、第１電気信号の変化に基づいて、第１音の反響音の経路が変化したことを検出するための検出部と、経路の変化が検出されたときに、反響音抑制フィルタを更新するための更新部とを備える。

好ましくは、第１推定部は、第１スピーカからマイクロフォン部に直接到達する直接音と、第１スピーカからマイクロフォン部に間接的に到達する反響音とがマイクロフォン部に到達するタイミングの差を利用して反響音成分を推定する。

好ましくは、第１音の周波数は、可聴域の音の周波数よりも高い。第１スピーカは、回転または移動しながら第１音を発する。

好ましくは、マイクロフォン部は、周囲の音を受け、当該音から第１音を抽出し、当該第１音を第１電気信号に変換するための第１マイクロフォンと、周囲の音を受け、当該音から人の可聴域の第２音を抽出し、当該第２音を第２電気信号に変換するための第２マイクロフォンとを含む。

好ましくは、第１マイクロフォンおよび第２マイクロフォンは、一体的に構成されている。

好ましくは、集音装置は、第１音の反響音成分の特性と、当該特性に応じた反響音抑制フィルタとを当該特性ごとに格納するための記憶部をさらに備える。第１電気信号に適用される反響音抑制フィルタは、第１推定部によって推定された第１音の反響音成分の特性に応じて記憶部から取得される。

好ましくは、集音装置は、人の可聴域の音を発するための第２スピーカと、第２スピーカから第２マイクロフォンに直接到達する直接音と、第２スピーカから第２マイクロフォンに間接的に到達する反響音とが、第２マイクロフォンに到達するタイミングの差を利用して、第２電気信号に含まれる反響音成分を推定するための第２推定部と、第１音の反響音成分の第１特性と、第２音の反響音成分の第２特性と、当該第１特性および当該第２特性に応じた反響音抑制フィルタとを、当該第１特性および第２特性ごとに格納するための記憶部とをさらに備える。第１電気信号に適用される反響音抑制フィルタは、第１推定部によって推定された第１音の反響音成分の特性と、第２推定部によって推定された第２音の反響音成分の特性とに応じて記憶部から取得される。

他の局面に従うと、集音装置における音声処理方法が提供される。集音装置は、人の非可聴域の第１音を発するためのスピーカと、周囲の音を受けて、第１音に対応する第１電気信号と、人の可聴域の第２音に対応する第２電気信号とを出力するためのマイクロフォン部とを備える。音声処理方法は、第１電気信号に含まれる反響音成分を推定するステップと、反響音成分に応じた反響音抑制フィルタを第２電気信号に適用し、第２電気信号の反響音成分を抑制するステップと、第１電気信号の変化に基づいて、第１音の反響音の経路が変化したことを検出するステップと、経路の変化が検出されたときに、反響音抑制フィルタを更新するステップとを備える。

さらに他の局面に従うと、コンピュータに実行される音声処理プログラムが提供される。コンピュータは、人の非可聴域の第１音を発するためのスピーカと、周囲の音を受けて、第１音に対応する第１電気信号と、人の可聴域の第２音に対応する第２電気信号とを出力するためのマイクロフォン部とを備える。音声処理プログラムは、コンピュータに、第１電気信号に含まれる反響音成分を推定するステップと、反響音成分に応じた反響音抑制フィルタを第２電気信号に適用し、第２電気信号の反響音成分を抑制するステップと、第１電気信号の変化に基づいて、第１音の反響音の経路が変化したことを検出するステップと、経路の変化が検出されたときに、反響音抑制フィルタを更新するステップとを実行させる。

ある局面において、周囲の環境の変化に合わせて反響音を抑制することができる。
本発明の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解される本発明に関する次の詳細な説明から明らかとなるであろう。

第１の実施の形態に従う集音装置のハードウェア構成と機能構成とを示す図である。反響路の変化を検出する処理を概略的に示した概念図である。更新部の機能構成の一例を示すブロック図である。推定部による推定処理を概略的に示した概念図である。相関リストの内容を示す図である。第１の実施の形態に従う集音装置が実行する処理の一部を表わすフローチャートである。第２の実施の形態に従う集音装置のハードウェア構成と機能構成とを示す図である。第３の実施の形態に従う集音装置のハードウェア構成と機能構成とを示す図である。第３の実施の形態における更新部の機能構成の一例を示すブロック図である。第３の実施の形態における相関リストの内容を示す図である。

以下、図面を参照しつつ、本実施の形態について説明する。以下の説明では、同一の部品および構成要素には同一の符号を付してある。それらの名称および機能も同じである。したがって、これらについての詳細な説明は繰り返さない。なお、以下で説明される各実施の形態は、適宜選択的に組み合わされてもよい。

＜第１の実施の形態＞
［集音装置１００Ａ］
図１を参照して、第１の実施の形態に従う集音装置１００Ａの概要について説明する。図１は、集音装置１００Ａのハードウェア構成と、集音装置１００Ａの機能構成とを示す図である。

一例として、集音装置１００Ａは、スマートフォンやタブレット端末などの携帯端末、自走式のロボット、音声認識装置などに搭載される。集音装置１００Ａは、ハードウェア構成として、信号発生器１と、スピーカ２，３と、マイクロフォン部としてのマイクロフォン４〜６と、Ａ／Ｄ（Analog/Digital）変換器７Ａ，７Ｂと、ＣＰＵ（Central Processing Unit）２０と、記憶装置３０と、Ｄ／Ａ（Digital/Analog）変換器３５と、出力部３６とを備える。

制御部２０は、機能構成として、ＦＦＴ（Fast Fourier Transform）部２１と、減算部２２と、検出部２３と、更新部２４と、ＦＦＴ部２５と、抑制部２６と、ＩＦＦＴ（Inverse Fast Fourier Transform）部２７とを含む。

記憶装置３０は、たとえば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、またはその他の記憶装置である。記憶装置３０は、本実施の形態に従う音声処理プログラムの実行に必要な各種データを格納する。一例として、記憶装置３０は、履歴３２や相関リスト３４を格納する。履歴３２および相関リスト３４の詳細については後述する。

集音装置１００Ａは、以下のステップ（ａ）〜（ｅ）を実行することにより、周囲の環境が変化したことを検出し、環境の変化に合わせて反響音を抑制する。以下では、ステップ（ａ）〜（ｅ）について順に説明する。

（ａ）非可聴音を発するステップ
信号発生器１は、人が音として認識できない周波数帯域の非可聴信号を発信する。非可聴信号は、複数の周波数のパルス波を含む。たとえば、非可聴信号は、人の可聴帯域よりも低い周波数のパルス波（以下、「低非可聴信号」ともいう。）と、人の可聴帯域よりも高い周波数のパルス波（以下、「高非可聴信号」ともいう。）とを含む。低非可聴信号および高非可聴信号は、一定周期で繰り返して発信される。低非可聴信号は、スピーカ２に出力される。高非可聴信号は、スピーカ３に出力される。

スピーカ２は、低非可聴信号の周期に応じて内部の振動板を振動させ、当該振動を空気に伝えることで音（以下、「低非可聴音」ともいう。）を外部に発する。好ましくは、低非可聴音のＳ／Ｎ（signal/noise）比は、２０ｄｂ以上である。Ｓ／Ｎ比の「Ｓ」は、低非可聴音がスピーカ２から発せられる際の出力音圧をいう。Ｓ／Ｎ比の「Ｎ」は、低非可聴音を受けていないときにマイクロフォン４から出力される信号の音圧をいう。当該信号は、低非可聴音のパルス間隔と同じ間隔で得られるものであり、低非可聴音と同一の周波数である。

スピーカ３は、高非可聴信号の周期に応じて内部の振動板を振動させ、当該振動を空気に伝えることで音（以下、「高非可聴音」ともいう。）を外部に発する。好ましくは、高非可聴音のＳ／Ｎ（signal/noise）比は、２０ｄｂ以上である。Ｓ／Ｎ比の「Ｓ」は、高非可聴音がスピーカ３から発せられる際の出力音圧を表わす。Ｓ／Ｎ比の「Ｎ」は、高非可聴音を受けていないときにマイクロフォン５から出力される信号の音圧を表わす。当該信号は、高非可聴音のパルス間隔と同じ間隔で得られるものであり、高非可聴音と同一の周波数である。

図１には、スピーカ２，３が別個に構成されている例が示されているが、スピーカ２，３は、一体的に構成されてもよい。この場合、一体的なスピーカは、低非可聴音および高非可聴音の両方を発する。

（ｂ）非可聴音を集めるステップ
マイクロフォン４は、周囲の音を受け、当該音から低非可聴音を抽出し、当該低非可聴音を低非可聴信号（電気信号）に変換する。当該低非可聴信号は、スピーカ２からマイクロフォン４に直接到達する直接音の成分と、人４０Ａ〜４０Ｃや壁４２などに反射してスピーカ２からマイクロフォン４に間接的に到達する反響音の成分とを含む。マイクロフォン４は、当該低非可聴信号をＡ／Ｄ変換器７Ａに出力する。

マイクロフォン５は、周囲の音を受け、当該音から高非可聴音を抽出し、当該高非可聴音を高非可聴信号（電気信号）に変換する。当該高非可聴信号は、スピーカ３からマイクロフォン５に直接到達する直接音の成分と、人４０Ａ〜４０Ｃや壁４２などに反射してスピーカ３からマイクロフォン５に間接的に到達する反響音の成分とを含む。マイクロフォン５は、当該高非可聴信号をＡ／Ｄ変換器７Ａに出力する。

Ａ／Ｄ変換器７Ａは、マイクロフォン４からの低非可聴信号と、マイクロフォン５からの高非可聴信号とを信号ｋａ（ｔ）として受ける。信号ｋａ（ｔ）は、たとえば、低非可聴信号および高非可聴信号を足し合わせたものである。Ａ／Ｄ変換器７Ａは、アナログの信号ｋａ（ｔ）をデジタルの信号ｋｄ（ｔ）に変換する。Ａ／Ｄ変換器７Ａは、信号ｋｄ（ｔ）を制御部２０に出力する。

なお、図１には、マイクロフォン４〜６が別個に構成される例が示されているが、マイクロフォン４〜６の少なくとも２つは、一体的に構成されてもよい。たとえば、マイクロフォン４，５が一体的に構成される場合、一体的に構成されるマイクロフォンは、低非可聴音と高非可聴音との両方を集音する。マイクロフォン４〜６が一体的に構成される場合、一体的に構成されるマイクロフォンは、可聴音と低非可聴音と高非可聴音との３つの音を集音する。

（ｃ）反響路の変化を検出するステップ
制御部２０は、非可聴音の信号の変化に基づいて、非可聴音の反響音の経路（以下、「反響路」ともいう。）が変化したことを検出する。ここでいう、反響路とは、非可聴音がスピーカ２，３から出力されてから、物体に反射されてマイクロフォン４，５に到達するまでの経路のことをいう。

より具体的な処理として、ＦＦＴ部２１は、Ａ／Ｄ変換器７Ａから一定時間の間に得られた信号ｋｄ（ｔ）を１フレームとして、信号ｋｄ（ｔ）を１フレームごとに周波数領域に変換する。ＦＦＴ部２１は、一例として、信号ｋｄ（ｔ）に対して短時間フーリエ変換（ＳＴＦＴ：Short Time Fourier Transform）を行なうことにより、時間領域の信号ｋｄ（ｔ）を周波数領域の信号Ｋ（ω）に変換する。

ＦＦＴ部２１は、信号Ｋ（ω）を複製し、一方を減算部２２に出力し、他方を現在時刻に対応付けて履歴３２に書き込む。これにより、履歴３２には、信号Ｋ（ω）が蓄積される。減算部２２は、一定フレーム数ｍの信号Ｋ（ω）の平均値Ｋｓ（ω，ｍ）を算出し、以下の式（１）に示されるように、信号Ｋ（ω）から平均値Ｋｓ（ω，ｍ）を減算する。これにより、変化量ΔＫ（ω）が算出される。

ΔＫ（ω）＝Ｋ（ω）−Ｋｓ（ω，ｍ）・・・（１）
非可聴音に含まれる直接音成分は、周囲の環境が変化しても変化しないため、式（１）の減算処理により、直接音成分が打ち消され、非可聴音の反響音成分が残る。つまり、変化量ΔＫ（ω）は、非可聴音の反響音成分の変化量を示す。検出部２３は、反響音成分の変化量ΔＫ（ω）が予め定められた閾値を越えた場合に、反響路が変化したことを検出する。異なる言い方をすれば、検出部２３は、過去の非可聴音の反響音成分に対する現在の非可聴音の反響音成分における変化量が予め定められた閾値を超えた場合に、反響路が変化したことを検出する。

図２を参照して、反響路の変化を検出する処理についてさらに詳細に説明する。図２は、反響路の変化を検出する処理を概略的に示した概念図である。

図２には、信号Ｋ（ω）と平均値Ｋｓ（ω，ｍ）とが示されている。減算部２２は、信号Ｋ（ω）に示される振幅スペクトルのそれぞれから、平均値Ｋｓ（ω，ｍ）に示される振幅スペクトルのそれぞれを減算する。これにより、変化量ΔＫ（ω）が算出される。

検出部２３は、たとえば、変化量ΔＫ（ω）に示される振幅スペクトルのいずれかが閾値Ｔｈを超えた場合に、反響路が変化したことを検出する。あるいは、検出部２３は、変化量ΔＫ（ω）に示される振幅スペクトルの平均値が閾値Ｔｈを超えた場合に、反響路が変化したことを検出してもよい。

（ｄ）反響音抑制フィルタを更新するステップ
更新部２４（図１参照）は、上述のステップ（ｃ）によって反響路の変化が検出された場合、後述のステップ（ｅ）において用いられる反響音抑制フィルタを更新する。以下では、図３を参照して、更新部２４による更新処理について説明する。図３は、更新部２４の機能構成の一例を示すブロック図である。図３に示されるように、更新部２４は、ＦＦＴ部５２と、算出部５３と、ＩＦＦＴ部５４と、推定部５５と、ＦＦＴ部５６と、取得部５７とを含む。

マイクロフォン４，５によって出力される信号ｋａ（ｔ）は、以下の式（２）で示される。式（２）に示される信号ｓ（ｔ）は、スピーカ２，３から発信される際の信号である。式（２）に示される信号ｋａ（ｔ）は、マイクロフォン４，５から出力される非可聴音である。信号ｋａ（ｔ）は、信号ｓ（ｔ）とパルス応答ｈ（ｔ）との畳み込み演算によって表わされる。式（２）に示される記号「＊」は、畳み込み演算を表わす。

ｋａ（ｔ）＝ｈ（ｔ）＊ｓ（ｔ）・・・（２）
ここで、式（２）は、フーリエ変換されると、以下の式（３）のようになる。

Ｋ（ω）＝Ｈ（ω）Ｓ（ω）・・・（３）
式（３）は、変形されると、以下の式（４）のようになる。

Ｈ（ω）＝Ｋ（ω）／Ｓ（ω）・・・（４）
ＦＦＴ部５２は、時間領域の信号ｋａ（ｔ）をフーリエ変換して、周波数領域の信号Ｋ（ω）を出力する。また、ＦＦＴ部５２は、時間領域の信号ｓ（ｔ）をフーリエ変換して、周波数領域の信号Ｓ（ω）を出力する。

算出部５３は、上記式（４）に示されるように、信号Ｋ（ω）および信号Ｓ（ω）を用いて伝達関数Ｈ（ω）を算出する。これにより、スピーカ２，３の出力に対するマイクロフォン４，５の伝達関数Ｈ（ω）が算出される。

ＩＦＦＴ部５４は、伝達関数Ｈ（ω）を逆フーリエ変換（ＩＦＦＴ）して、パルス応答ｈ（ｔ）を出力する。ここで、パルス応答ｈ（ｔ）には、非可聴音の直接音のパルス応答ｈｄ（ｔ）と、非可聴音の反響音のパルス応答ｈｒ（ｔ）とが含まれている。

推定部５５は、非可聴信号に含まれる反響音成分を推定する。以下では、図４を参照して、推定部５５による反響音成分の推定処理について説明する。図４は、推定部５５による推定処理を概略的に示した概念図である。

スピーカ２，３から出力される信号ｓ（ｔ）がマイクロフォン４，５に到達するまでの経路が短いほど、信号ｓ（ｔ）がマイクロフォン４，５に到達するタイミングは早くなる。すなわち、非可聴音の直接音がマイクロフォン４，５に到達するタイミングは、非可聴音の反響音がマイクロフォン４，５に到達するタイミングよりも早い。このことに着目して、推定部５５は、スピーカ２，３からマイクロフォン４，５に直接到達する直接音と、スピーカ２，３からマイクロフォン４，５に間接的に到達する反響音とがマイクロフォン４，５に到達するタイミングの差を利用して、非可聴信号に含まれる反響音成分を推定する。

より具体的には、グラフ（Ａ）に示されるように、信号ｓ（ｔ）は、時刻Ｔ０にスピーカ２，３から発信されたとする。信号ｓ（ｔ）の直接音は、時刻Ｔ１にマイクロフォン４，５に到達する。信号ｓ（ｔ）の反響音は、時刻Ｔ１よりも後にマイクロフォン４，５に到達する。また、反響音が通る経路の長さは、直接音が通る経路の長さよりも短いため、反響音は、直接音よりも減衰する。そのため、グラフ（Ｂ）に示されるように、パルス応答ｈ（ｔ）は、時刻Ｔ１において最大となり、時刻Ｔ１以降には減衰していく。

推定部５５は、時刻Ｔ１から値が小さくなる窓関数ｗ（ｔ）をパルス応答ｈ（ｔ）に掛けることにより、グラフ（Ｄ）に示される非可聴音の直接音のパルス応答ｈｄ（ｔ）を出力する。グラフ（Ｃ）に示されるように、窓関数ｗ（ｔ）の前半部分（すなわち、時刻Ｔ１よりも前）の値は「１」である。窓関数ｗ（ｔ）の後半部分（すなわち、時刻Ｔ１よりも後）は、ハミング窓の後半部分に相当する。なお、他の窓関数が用いられてもよい。他の窓関数としては、ガウス窓やハン窓などが挙げられる。また、推定部５５は、窓関数を用いない方法でパルス応答ｈｄ（ｔ）を出力してもよい。たとえば、推定部５５は、時刻Ｔ１から一定時間内のパルス応答ｈ（ｔ）を直接音のパルス応答ｈｄ（ｔ）としてもよい。

推定部５５は、以下の式（５）に示されるように、パルス応答ｈ（ｔ）からパルス応答ｈｒ（ｔ）を減算することにより、非可聴音の反響音のパルス応答ｈｒ（ｔ）を出力する。グラフ（Ｅ）には、パルス応答ｈｒ（ｔ）の一例が示されている。

ｈｒ（ｔ）＝ｈ（ｔ）−ｈｄ（ｔ）・・・（５）
再び図３を参照して、ＦＦＴ部５６は、式（５）で算出されたパルス応答ｈｒ（ｔ）をフーリエ変換することにより、非可聴音の反響音の伝達関数Ｈｒ（ω）を算出する。取得部５７は、相関リスト３４を参照して、伝達関数Ｈｒ（ω）に対応する反響音抑制フィルタを取得する。反響音抑制フィルタは、可聴音信号に含まれる反響音成分を抑制するためのフィルタである。

以下では、図５を参照して、反響音抑制フィルタの取得処理について説明する。図５は、相関リスト３４の内容を示す図である。

相関リスト３４は、非可聴音の反響音成分の特性と、当該反響音成分の特性に応じた反響音抑制フィルタとを当該特性ごとに互いに対応付けている。可聴音信号に適用される反響音抑制フィルタは、推定部５５によって推定された非可聴音の反響音成分の特性に応じて相関リスト３４から取得される。

図５には、非可聴音の反響音成分の特性として、非可聴音の反響音の伝達関数が示されている。反響音抑制フィルタの各値は、伝達関数Ｈｒ（ω）に含まれる各スペクトルの値に応じて設計時に予め決められている。より具体的には、伝達関数Ｈｒ（ω）に含まれるスペクトルの値が高いほど、当該スペクトルに対する周波数帯域の音を抑制するように反響音抑制フィルタの各値が決められている。

取得部５７は、相関リスト３４に規定されている伝達関数の中から、推定部５５によって推定された伝達関数Ｈｒ（ω）に最も近い伝達関数を選択し、当該伝達関数に対応付けられている反響音抑制フィルタＲ（ω）を取得する。反響音の伝達関数が予め準備されていることにより、反響音抑制フィルタの更新処理に要する時間が短縮される。

更新部２４は、上述のステップ（ｃ）によって反響路の変化が検出される度に、本ステップ（ｄ）の更新処理を実行する。これにより、集音装置１００Ａは、周囲の環境が変化して反響路が変化した場合であっても、新たな環境に合った反響音抑制フィルタを用いることができる。その結果、集音装置１００Ａは、周囲の環境に合わせて反響音を抑制することができる。なお、反響音抑制フィルタは、反響路の変化が検出される度に生成されてもよい。

（ｅ）反響音を抑制するステップ
再び図１を参照して、可聴音の反響音成分を抑制する処理について説明する。マイクロフォン６は、集音対象の人４０Ｃから発せられた音声などの周囲の音を受ける。マイクロフォン６は、周囲の音から可聴音を抽出し、当該可聴音を信号ｚａ（ｔ）に変換する。信号ｚａ（ｔ）には、人４０Ｃからマイクロフォン６に直接到達する直接音と、人４０Ａ〜４０Ｃや壁４２などに反射してマイクロフォン６に間接的に到達する反響音とが含まれる。マイクロフォン４は、信号ｚａ（ｔ）をＡ／Ｄ変換器７Ｂに出力する。

Ａ／Ｄ変換器７Ｂは、アナログの信号ｚａ（ｔ）をデジタルの信号ｚｄ（ｔ）に変換する。ＦＦＴ部２５は、信号ｚｄ（ｔ）をフーリエ変換し、時間領域の信号ｚｄ（ｔ）を周波数領域の信号Ｚ（ω）に変換する。より具体的には、ＦＦＴ部２５は、Ａ／Ｄ変換器７Ｂから一定時間の間に得られた信号ｚａ（ｔ）を１フレームとして、信号ｚａ（ｔ）を１フレームごとに周波数領域に変換する。

抑制部２６は、上述のステップ（ｄ）で得られた反響音抑制フィルタＲ（ω）を可聴信号に適用し、可聴信号の反響音成分を抑制する。たとえば、抑制部２６は、以下の式（６）に基づいて、反響音成分が抑制された信号Ｚｄ（ω）を算出する。

Ｚｄ（ω）＝Ｚ（ω）Ｒ（ω）・・・（６）
ＩＦＦＴ部２７は、信号Ｚｄ（ω）を逆フーリエ変換し、周波数領域の信号Ｚｄ（ω）を時間領域の信号ｚｄ２（ｔ）に変換する。Ｄ／Ａ変換器３５は、制御部２０から出力されるデジタルの信号ｚｄ２（ｔ）をアナログ信号に変換する。

出力部３６は、反響音が抑制された音声信号を用途に応じて様々な装置に出力する。一例として、当該音声信号は、音声認識機能を搭載するアプリケーションに出力される。これにより、当該アプリケーションは、人４０Ｃが発した音声を正確に音声認識することができる。あるいは、出力部３６は、反響音が抑制された音声信号をスマートフォンなどの他の携帯電話に送信する。これにより、当該他の携帯電話のユーザーは、集音対象の人４０Ｃが話す内容を聞き取りやすくなる。

［集音装置１００Ａの制御構造］
図６を参照して、集音装置１００Ａの制御構造について説明する。図６は、集音装置１００Ａが実行する処理の一部を表わすフローチャートである。図６の処理は、集音装置１００Ａの制御部２０がプログラムを実行することにより実現される。他の局面において、処理の一部または全部が、回路素子その他のハードウェアによって実行されてもよい。

ステップＳ１２において、制御部２０は、複数の周波数のパルス波を信号発生器１（図１参照）に発生させる。当該パルス波は、低非可聴信号と高非可聴信号とを含む。信号発生器１は、当該パルス波をスピーカ２，３（図１参照）に出力する。スピーカ２，３は、当該パルス波に応じて非可聴音を発する。

ステップＳ１４において、制御部２０は、マイクロフォン４，５（図１参照）から非可聴信号を取得する。より具体的には、マイクロフォン４，５は、周囲の音を受け、当該音から非可聴音を抽出し、当該非可聴音を非可聴信号に変換する。当該非可聴信号には、直接音成分と、反響音成分とが含まれている。

ステップＳ１６において、制御部２０は、マイクロフォン６（図１参照）から可聴信号を取得する。より具体的には、マイクロフォン６は、周囲の音を受け、当該音から可聴音を抽出し、当該可聴音を可聴信号に変換する。当該可聴信号には、直接音成分と、反響音成分とが含まれている。

ステップＳ２０において、検出部２３（図１参照）は、非可聴音の反響音の経路（すなわち、反響路）に変化があったか否かを判断する。反響路の変化を検出する方法は上述の通りであるので説明を繰り返さない（図２参照）。検出部２３は、非可聴音の反響路に変化があったと判断した場合（ステップＳ２０においてＹＥＳ）、制御をステップＳ２２に切り替える。そうでない場合には（ステップＳ２０においてＮＯ）、検出部２３は、制御をステップＳ２８に切り替える。

ステップＳ２２において、推定部５５（図３参照）は、非可聴信号に含まれる反響音成分を推定する。当該推定方法は上述の通りであるので説明を繰り返さない（図４参照）。

ステップＳ２４において、制御部２０は、相関リスト３４（図５参照）を参照して、推定された反響音成分に応じた反響音抑制フィルタを取得する。ステップＳ２６において、制御部２０は、現在の反響音抑制フィルタを新たに取得した反響音抑制フィルタに更新する。

ステップＳ２８において、抑制部２６（図１参照）は、ステップＳ１６で取得した可聴信号に対して反響音抑制フィルタを適用し、可聴信号の反響音成分を抑制する。ステップＳ３０において、制御部２０は、反響音成分が抑制された可聴信号を出力部３６（図１参照）に出力する。

ステップＳ４０において、制御部２０は、本実施の形態に従う音声処理を終了するか否かを判断する。たとえば、制御部２０は、通話の終了操作や音声認識機能の終了操作をユーザーから受け付けた場合に（ステップ４０においてＹＥＳ）、本実施の形態に従う音声処理を終了する。そうでない場合には（ステップＳ４０においてＮＯ）、制御部２０は、制御をステップＳ１２に戻す。

［小括］
以上のようにして、本実施の形態に従う集音装置１００Ａは、非可聴信号の変化に基づいて、反響路が変化したことを検出する。集音装置１００Ａは、反響路が変化したことを検出した場合に反響音抑制フィルタを更新する。その結果、集音装置１００Ａは、周囲の環境が変わった場合であっても、高精度に反響音を抑制することができる。これにより、集音装置１００Ａは、店舗内や駅構内などの人が行き交う場所で用いられる場合や、自走式のロボットなどに取り付けられる場合であっても、反響音を抑制することができる。

また、集音装置１００Ａは、自身で発した非可聴音を自身で集音する。そのため、集音装置１００Ａは、スピーカからの出力時とマイクロフォンの集音時との間における非可聴音の変化（すなわち、パルス応答）を正確に測定することができる。その結果、集音装置１００Ａは、反響路の変化を正確に検出することができる。

＜第２の実施の形態＞
［集音装置１００Ｂ］
第１の実施の形態においては、スピーカは、集音装置１００Ａに固定されていた。これに対して第２の実施の形態においては、スピーカは、集音装置１００Ａ上で回転または移動する場合がある。

以下では、図７を参照して、第２の実施の形態に従う集音装置１００Ｂについて説明する。図７は、集音装置１００Ｂのハードウェア構成と、集音装置１００Ｂの機能構成とを示す図である。集音装置１００Ｂは、機構１２をさらに備える点で、第１の実施の形態に従う集音装置１００Ａと異なる。ハードウェア構成などのその他の構成は第１の実施の形態に従う集音装置１００Ａと同じであるのでそれらの説明は繰り返さない。

上述したように、スピーカ３は、可聴音よりも周波数が高い音（すなわち、高非可聴音）を発する。周波数が高いほど音の直進性は高くなるため、マイクロフォン５は、スピーカ３との位置関係によっては、スピーカ３から出力される高非可聴音を集められない可能性、また十分な測定範囲が得られない可能性がある。そのため、本実施の形態においては、スピーカ３は、回転または移動しながら高非可聴音を発する。

より具体的には、制御部２０は、スピーカ３が高非可聴音を発している間に、駆動命令を機構１２に送る。機構１２は、スピーカ３を回転させるための回転機構、またはスピーカ３を移動させるための移動機構を含む。機構１２は、駆動命令を受けたことに基づいて駆動を開始し、スピーカ３を回転または移動する。これにより、スピーカ３は、様々な方向に高非可聴音を発することができる。そのため、マイクロフォン５は、スピーカ３から発せられた高非可聴音を受けることができる。

［小括］
以上のようにして、本実施の形態においては、スピーカ３は、回転または移動しながら高非可聴音を発する。これにより、集音装置１００Ｂは、直進性が高い高非可聴音であっても受けることができ、反響路の変化を正確に検出することができる。

＜第３の実施の形態＞
［概要］
第１の実施の形態に従う集音装置１００Ａは、非可聴音を発し、当該非可聴音の反響音成分に基づいて反響音抑制フィルタを選択していた。これに対して、第３の実施の形態に従う集音装置１００Ｃは、非可聴音および可聴音の両方を発し、非可聴音の反響音特性と可聴音の反響音特性との両方に基づいて、反響音抑制フィルタを選択する。

［集音装置１００Ｃ］
図８を参照して、第３の実施の形態に従う集音装置１００Ｃについて説明する。図８は、集音装置１００Ｃのハードウェア構成と、集音装置１００Ｃの機能構成とを示す図である。

集音装置１００Ｃは、信号発生器１０とスピーカ１１とをさらに備える点で、第１の実施の形態に従う集音装置１００Ａと異なる。また、集音装置１００Ｃは、反響音抑制フィルタの更新方法において、第１の実施の形態に従う集音装置１００Ａと異なる。集音装置１００Ｃのその他の点については第１の実施の形態に従う集音装置１００Ａと同じであるのでそれらの説明については繰り返さない。

集音装置１００Ｃは、第１の実施の形態におけるステップ（ａ）〜（ｃ），（ｅ）に加えて、以下のステップ（ｆ）〜（ｈ）を実行することにより、話者から発せられた反響音を抑制する。以下では、ステップ（ｆ）〜（ｈ）について順に説明する。

（ｆ）可聴音を発するステップ
信号発生器１０は、人が音として認識できる周波数の可聴信号を発信する。可聴信号は、繰り返して発信される。可聴信号には、周囲の人に情報を伝えるためのアナウンス音ａ´（ｔ）と、可聴域のパルス波ｐ（ｔ）とを含む。パルス波ｐ（ｔ）がアナウンス音ａ´（ｔ）とともに発せられることにより、パルス波ｐ（ｔ）の音は、アナウンス音に緩和される。そのため、周囲の人は、パルス波ｐ（ｔ）の音に不快を感じない。スピーカ１１は、アナウンス音ａ´（ｔ）にパルス波ｐ（ｔ）を乗せた可聴域の信号ａ（ｔ）をスピーカ１１に出力する。

スピーカ１１は、信号ａ（ｔ）に応じて内部の振動板を振動させ、当該振動を空気に伝えることで音（すなわち、可聴音）を外部に発する。なお、図８には、スピーカ２，３，１１が別個に構成される例が示されているが、スピーカ２，３，１１の少なくとも２つは、一体的に構成されてもよい。

（ｇ）可聴音を集めるステップ
マイクロフォン６は、周囲の音を受け、当該音から可聴音を抽出し、可聴音を信号ｑａ（ｔ）（電気信号）に変換する。当該信号ｑａ（ｔ）には、スピーカ１１からマイクロフォン６に直接到達する直接音と、人４０Ａ〜４０Ｃや壁４２などに反射してスピーカ１１からマイクロフォン６に間接的に到達する反響音とが含まれる。マイクロフォン６は、信号ｑａ（ｔ）をＡ／Ｄ変換器７Ｂに出力する。Ａ／Ｄ変換器７Ｂは、一定時間の間に得られた信号ｑａ（ｔ）を１フレームとして、信号ｑａ（ｔ）を１フレームごとに周波数領域に変換する。

（ｈ）反響音抑制フィルタを更新するステップ
本ステップ（ｈ）の更新処理は、上述のステップ（ｄ）の更新処理に代わる処理である。本実施の形態に従う更新部２４Ａ（図８参照）は、反響路の変化が検出された場合、非可聴音の反響音特性と可聴音の反響音特性との両方に基づいて反響音抑制フィルタを更新する。以下では、図９を参照して、更新部２４Ａによる更新処理について説明する。図９は、更新部２４Ａの機能構成の一例を示すブロック図である。

図９に示されるように、更新部２４Ａは、ＦＦＴ部５２と、算出部５３と、ＩＦＦＴ部５４と、推定部５５と、ＦＦＴ部５６と、取得部５７と、減算部７２と、ＦＦＴ部７３と、ＦＦＴ部７４と、減算部７５と、ＩＦＦＴ部７６と、推定部７７と、ＦＦＴ部７８とを含む。ＦＦＴ部５２と、算出部５３と、ＩＦＦＴ部５４と、推定部５５と、ＦＦＴ部５６とについては上述の通りであるのでこれらの説明は繰り返さない（図３参照）。

減算部７２は、以下の式（７）に示されるように、信号発生器１０（図８参照）から発信された信号ａ（ｔ）から、可聴域のパルス波ｐ（ｔ）を減算する。これにより、集音装置１００Ｃは、信号ａ（ｔ）からパルス波ｐ（ｔ）を除去し、アナウンス音のみの信号ａ‘（ｔ）を得る。

ａ‘（ｔ）＝ａ（ｔ）−ｐ（ｔ）・・・（７）
ＦＦＴ部７３は、信号ａ‘（ｔ）をフーリエ変換し、時間領域の信号ａ‘（ｔ）を周波数領域の信号Ａ´（ω）に変換する。ＦＦＴ部７４は、マイクロフォン６からの信号ｑａ（ｔ）をＡ／Ｄ変換して得られた信号ｑｄ（ｔ）をフーリエ変換し、時間領域の信号ｑｄ（ｔ）を周波数領域の信号Ｑ（ω）に変換する。

減算部７２は、以下の式（８）に示されるように、信号Ｑ（ω）から信号Ａ´（ω）を減算することにより、可聴域のパルス波ｐ（ｔ）の伝達関数Ｐ（ω）を算出する。

Ｐ（ω）＝Ｑ（ω）−Ａ’（ω）・・・（８）
ＩＦＦＴ部７６は、伝達関数Ｐ（ω）を逆フーリエ変換し、パルス応答ｐ‘（ｔ）を算出する。推定部７７は、パルス応答ｐ‘（ｔ）に含まれる直接音成分および反響音成分を推定する。反響音成分の推定方法は、上述の通りであるので説明を繰り返さない（図４参照）。集音装置１００Ｃは、以下の式（９）に示されるように、可聴音のパルス応答ｐ´（ｔ）から直接音のパルス応答ｐ’ｄ（ｔ）を減算することにより、反響音のパルス応答ｐｒ´（ｔ）を算出する。

ｐ’ｒ（ｔ）＝ｐ’（ｔ）−ｐ’ｄ（ｔ）・・・（９）
ＦＦＴ部７８は、反響音のパルス応答ｐｒ‘（ｔ）をフーリエ変換し、可聴音の反響音の伝達関数Ｐｒ´（ω）を算出する。

取得部５７Ａは、相関リスト３４Ａを参照して、伝達関数Ｈｒ（ω）および伝達関数Ｐｒ´（ω）に応じた反響音抑制フィルタを取得する。以下では、図１０を参照して、反響音抑制フィルタの取得処理について説明する。図１０は、相関リスト３４Ａの内容を示す図である。

相関リスト３４Ａは、非可聴音の反響音成分の特性（以下、「第１特性」ともいう。）と、可聴音の反響音成分の特性（以下、「第２特性」ともいう。）と、第１特性および第２特性に応じた反響音抑制フィルタとを、第１特性および第２特性ごとに互いに対応付けている。可聴音信号に適用される反響音抑制フィルタは、推定部５５によって推定された非可聴音の反響音成分の特性と、推定部７７によって推定された可聴音の反響音成分の特性とに応じて相関リスト３４Ａから取得される。

図１０には、非可聴音の反響音成分の特性として、非可聴音の反響音の伝達関数が示されている。また、可聴音の反響音成分の特性として、可聴音の反響音の伝達関数が示されている。取得部５７は、非可聴音の反響音の伝達関数Ｈｒ（ω）と、可聴音の反響音の伝達関数Ｐｒ´（ω）との組み合わせに応じて相関リスト３４Ａから対応する反響音抑制フィルタを取得する。

更新部２４Ａは、反響路の変化が検出される度に、本ステップ（ｈ）の更新処理を実行する。これにより、集音装置１００Ｃは、周囲の環境が変化して反響路が変化した場合であっても、新たな環境に合った反響音抑制フィルタを用いることができる。その結果、集音装置１００Ｃは、周囲の環境に合わせて反響音を抑制することができる。

［小括］
以上のようにして、本実施の形態に従う集音装置１００Ｃは、非可聴音の反響音の伝達関数と可聴音の反響音の伝達関数との両方に基づいて、反響音抑制フィルタを選択する。これにより、集音装置１００Ｃは、反響音を抑制する精度をさらに上げることができる。

今回開示された実施の形態は全ての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内での全ての変更が含まれることが意図される。

１，１０信号発生器、２，３，１１スピーカ、４〜６マイクロフォン、７Ａ，７Ｂ，３５変換器、１２機構、２０制御部、２１，２５，５２，５６，７３，７４，７８ＦＦＴ部、２２，７２，７５減算部、２３検出部、２４，２４Ａ更新部、２６抑制部、２７，５４，７６ＩＦＦＴ部、３０記憶装置、３２履歴、３４，３４Ａ相関リスト、３６出力部、４０Ａ〜４０Ｃ人、４２壁、５３算出部、５５，７７推定部、５７，５７Ａ取得部、１００Ａ〜１００Ｃ集音装置。

Claims

人の非可聴域の第１音を発するための第１スピーカと、
周囲の音を受けて、前記第１音に対応する第１電気信号と、人の可聴域の第２音に対応する第２電気信号とを出力するためのマイクロフォン部と、
前記第１電気信号に含まれる反響音成分を推定するための第１推定部と、
前記反響音成分に応じた反響音抑制フィルタを前記第２電気信号に適用し、前記第２電気信号の反響音成分を抑制するための抑制部と、
前記第１電気信号の変化に基づいて、前記第１音の反響音の経路が変化したことを検出するための検出部と、
前記経路の変化が検出されたときに、前記反響音抑制フィルタを更新するための更新部とを備える、集音装置。
前記第１推定部は、前記第１スピーカから前記マイクロフォン部に直接到達する直接音と、前記第１スピーカから前記マイクロフォン部に間接的に到達する反響音とが前記マイクロフォン部に到達するタイミングの差を利用して前記反響音成分を推定する、請求項１に記載の集音装置。
前記第１音の周波数は、前記可聴域の音の周波数よりも高く、
前記第１スピーカは、回転または移動しながら前記第１音を発する、請求項１または２に記載の集音装置。
前記マイクロフォン部は、
周囲の音を受け、当該音から前記第１音を抽出し、当該第１音を第１電気信号に変換するための第１マイクロフォンと、
周囲の音を受け、当該音から人の可聴域の第２音を抽出し、当該第２音を第２電気信号に変換するための第２マイクロフォンとを含む、請求項１〜３のいずれか１項に記載の集音装置。
前記第１マイクロフォンおよび前記第２マイクロフォンは、一体的に構成されている、請求項４に記載の集音装置。
前記集音装置は、前記第１音の反響音成分の特性と、当該特性に応じた反響音抑制フィルタとを当該特性ごとに格納するための記憶部をさらに備え、
前記第１電気信号に適用される前記反響音抑制フィルタは、前記第１推定部によって推定された前記第１音の反響音成分の特性に応じて前記記憶部から取得される、請求項１〜５のいずれか１項に記載の集音装置。
前記集音装置は、
人の可聴域の音を発するための第２スピーカと、
前記第２スピーカから前記第２マイクロフォンに直接到達する直接音と、前記第２スピーカから前記第２マイクロフォンに間接的に到達する反響音とが、前記第２マイクロフォンに到達するタイミングの差を利用して、前記第２電気信号に含まれる反響音成分を推定するための第２推定部と、
前記第１音の反響音成分の第１特性と、前記第２音の反響音成分の第２特性と、当該第１特性および当該第２特性に応じた反響音抑制フィルタとを、当該第１特性および第２特性ごとに格納するための記憶部とをさらに備え、
前記第１電気信号に適用される前記反響音抑制フィルタは、前記第１推定部によって推定された前記第１音の反響音成分の特性と、前記第２推定部によって推定された前記第２音の反響音成分の特性とに応じて前記記憶部から取得される、請求項２〜５のいずれか１項に記載の集音装置。
集音装置における音声処理方法であって、
前記集音装置は、
人の非可聴域の第１音を発するためのスピーカと、
周囲の音を受けて、前記第１音に対応する第１電気信号と、人の可聴域の第２音に対応する第２電気信号とを出力するためのマイクロフォン部とを備え、
前記音声処理方法は、
前記第１電気信号に含まれる反響音成分を推定するステップと、
前記反響音成分に応じた反響音抑制フィルタを前記第２電気信号に適用し、前記第２電気信号の反響音成分を抑制するステップと、
前記第１電気信号の変化に基づいて、前記第１音の反響音の経路が変化したことを検出するステップと、
前記経路の変化が検出されたときに、前記反響音抑制フィルタを更新するステップとを備える、音声処理方法。
コンピュータに実行される音声処理プログラムであって、
前記コンピュータは、
人の非可聴域の第１音を発するためのスピーカと、
周囲の音を受けて、前記第１音に対応する第１電気信号と、人の可聴域の第２音に対応する第２電気信号とを出力するためのマイクロフォン部とを備え、
前記音声処理プログラムは、前記コンピュータに、
前記第１電気信号に含まれる反響音成分を推定するステップと、
前記反響音成分に応じた反響音抑制フィルタを前記第２電気信号に適用し、前記第２電気信号の反響音成分を抑制するステップと、
前記第１電気信号の変化に基づいて、前記第１音の反響音の経路が変化したことを検出するステップと、
前記経路の変化が検出されたときに、前記反響音抑制フィルタを更新するステップとを実行させる、音声処理プログラム。