JP2016158072A - 集音装置、音声処理方法、および音声処理プログラム - Google Patents

集音装置、音声処理方法、および音声処理プログラム Download PDF

Info

Publication number
JP2016158072A
JP2016158072A JP2015034031A JP2015034031A JP2016158072A JP 2016158072 A JP2016158072 A JP 2016158072A JP 2015034031 A JP2015034031 A JP 2015034031A JP 2015034031 A JP2015034031 A JP 2015034031A JP 2016158072 A JP2016158072 A JP 2016158072A
Authority
JP
Japan
Prior art keywords
sound
reverberation
electrical signal
microphone
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015034031A
Other languages
English (en)
Inventor
田中 康裕
Yasuhiro Tanaka
康裕 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2015034031A priority Critical patent/JP2016158072A/ja
Publication of JP2016158072A publication Critical patent/JP2016158072A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】周囲の環境の変化に合わせて反響音を抑制することができる集音装置を提供する。【解決手段】集音装置は、人の非可聴域の非可聴音を発するためのスピーカと、周囲の音を受け、当該音から、非可聴音に対応する非可聴信号と、人の可聴域の可聴音に対応する可聴信号とを出力するためのマイクロフォン部とを備える。集音装置は、非可聴信号に含まれる反響音成分を推定するステップ(S22)と、反響音成分に応じた反響音抑制フィルタを可聴信号に適用し、可聴信号の反響音成分を抑制するステップ(S28)と、非可聴信号の変化に基づいて、非可聴音の反響音の経路が変化したことを検出するステップ(S20)と、経路の変化が検出されたときに、反響音抑制フィルタを更新するステップ(S26)とを実行する。【選択図】図6

Description

本開示は、マイクロフォンを備える集音装置の制御に関し、特に、反響音を抑制することが可能な集音装置の制御に関する。
従来、周囲の音から雑音を抑制し、話者の音声をクリアにするための音声処理技術が開発されている。当該音声処理技術は、たとえば、スマートフォンなどの携帯端末や、インフォメーションディスプレイなどの音声装置に適用されている。
マイクロフォンに入力される音として、壁や天井などに反射せずに入力される音と、壁や天井などに反射して入力される音とがある。以下では、音源から発せれた音のうち、壁や天井などに反射せずに直接マイクロフォンで集音される音声を「直接音」ともいい、壁や天井などで反射した後にマイクロフォンで集音される音声を「反響音」ともいう。また、マイクロフォンが音源から受けた音の成分うち、直接音を構成する成分を「直接音成分」ともいい、反響音を構成する成分を「反響音成分」ともいう。さらに、集音対象の話者から発せれた音声を「目的音」ともいう。
マイクロフォンは、反響音の影響を受けると、クリアな音声信号を生成できない。近年では、反響音を抑制するための技術が開発されている。反響音を抑制するための技術として、たとえば、インパルス応答により室内伝達関数を測定し、当該室内伝達関数から逆フィルタを生成し、集音して得られた音声信号に逆フィルタを適用する方法がある。
反響音を抑制する他の技術に関し、特開2013−30956号公報(特許文献1)は、携帯端末に搭載されたスピーカとマイクロフォンを用いて測定したインパルス応答を利用して反響音を抑制する携帯端末を開示している。
特開2013−171076号公報(特許文献2)は、線形フィルタを用いた残響除去方式と非線形フィルタを用いた残響除去方式とを統合する統合アルゴリズムを開示している。当該統合アルゴリズムは、伝達関数の揺らぎの量を時間ごとに計測する機能を有し、その計測結果を基に時間ごとの非線形フィルタの強さを変える。当該統合アルゴリズムは、伝達関数の揺らぎが大きいときだけ強い非線形フィルタを掛けることで、音声成分の歪みを小さくする。
特開2013−30956号公報 特開2013−171076号公報
ところで、反響音は、周囲の環境に応じて変化する。たとえば、マイクロフォンが受ける反響音は、周囲の人が動いた場合や、仕切り板の配置が変わった場合などに変化する。また、マイクロフォンを搭載する携帯電話や音声端末を保持するユーザーが移動することによっても、マイクロフォンが受ける反響音は変化する。そのため、周囲の環境が変化した場合であっても反響音を抑制することができる集音装置が望まれている。
特許文献1に開示される携帯端末は、反響音の変化に対応していない。特許文献2に開示される統合アルゴリズムは、反響音の変化と直接音の変化との違いを見分けることができず、周囲の環境が変化したことを検出できない。
本開示は上述のような問題点を解決するためになされたものであって、ある局面における目的は、周囲の環境の変化に合わせて反響音を抑制することが可能な集音装置を提供することである。他の局面における目的は、周囲の環境の変化に合わせて反響音を抑制することが可能な音声処理方法を提供することである。さらに他の局面における目的は、周囲の環境の変化に合わせて反響音を抑制することが可能な音声処理プログラムを提供することである。
ある局面に従うと、集音装置は、人の非可聴域の第1音を発するための第1スピーカと、周囲の音を受けて、第1音に対応する第1電気信号と、人の可聴域の第2音に対応する第2電気信号とを出力するためのマイクロフォン部と、第1電気信号に含まれる反響音成分を推定するための第1推定部と、反響音成分に応じた反響音抑制フィルタを第2電気信号に適用し、第2電気信号の反響音成分を抑制するための抑制部と、第1電気信号の変化に基づいて、第1音の反響音の経路が変化したことを検出するための検出部と、経路の変化が検出されたときに、反響音抑制フィルタを更新するための更新部とを備える。
好ましくは、第1推定部は、第1スピーカからマイクロフォン部に直接到達する直接音と、第1スピーカからマイクロフォン部に間接的に到達する反響音とがマイクロフォン部に到達するタイミングの差を利用して反響音成分を推定する。
好ましくは、第1音の周波数は、可聴域の音の周波数よりも高い。第1スピーカは、回転または移動しながら第1音を発する。
好ましくは、マイクロフォン部は、周囲の音を受け、当該音から第1音を抽出し、当該第1音を第1電気信号に変換するための第1マイクロフォンと、周囲の音を受け、当該音から人の可聴域の第2音を抽出し、当該第2音を第2電気信号に変換するための第2マイクロフォンとを含む。
好ましくは、第1マイクロフォンおよび第2マイクロフォンは、一体的に構成されている。
好ましくは、集音装置は、第1音の反響音成分の特性と、当該特性に応じた反響音抑制フィルタとを当該特性ごとに格納するための記憶部をさらに備える。第1電気信号に適用される反響音抑制フィルタは、第1推定部によって推定された第1音の反響音成分の特性に応じて記憶部から取得される。
好ましくは、集音装置は、人の可聴域の音を発するための第2スピーカと、第2スピーカから第2マイクロフォンに直接到達する直接音と、第2スピーカから第2マイクロフォンに間接的に到達する反響音とが、第2マイクロフォンに到達するタイミングの差を利用して、第2電気信号に含まれる反響音成分を推定するための第2推定部と、第1音の反響音成分の第1特性と、第2音の反響音成分の第2特性と、当該第1特性および当該第2特性に応じた反響音抑制フィルタとを、当該第1特性および第2特性ごとに格納するための記憶部とをさらに備える。第1電気信号に適用される反響音抑制フィルタは、第1推定部によって推定された第1音の反響音成分の特性と、第2推定部によって推定された第2音の反響音成分の特性とに応じて記憶部から取得される。
他の局面に従うと、集音装置における音声処理方法が提供される。集音装置は、人の非可聴域の第1音を発するためのスピーカと、周囲の音を受けて、第1音に対応する第1電気信号と、人の可聴域の第2音に対応する第2電気信号とを出力するためのマイクロフォン部とを備える。音声処理方法は、第1電気信号に含まれる反響音成分を推定するステップと、反響音成分に応じた反響音抑制フィルタを第2電気信号に適用し、第2電気信号の反響音成分を抑制するステップと、第1電気信号の変化に基づいて、第1音の反響音の経路が変化したことを検出するステップと、経路の変化が検出されたときに、反響音抑制フィルタを更新するステップとを備える。
さらに他の局面に従うと、コンピュータに実行される音声処理プログラムが提供される。コンピュータは、人の非可聴域の第1音を発するためのスピーカと、周囲の音を受けて、第1音に対応する第1電気信号と、人の可聴域の第2音に対応する第2電気信号とを出力するためのマイクロフォン部とを備える。音声処理プログラムは、コンピュータに、第1電気信号に含まれる反響音成分を推定するステップと、反響音成分に応じた反響音抑制フィルタを第2電気信号に適用し、第2電気信号の反響音成分を抑制するステップと、第1電気信号の変化に基づいて、第1音の反響音の経路が変化したことを検出するステップと、経路の変化が検出されたときに、反響音抑制フィルタを更新するステップとを実行させる。
ある局面において、周囲の環境の変化に合わせて反響音を抑制することができる。
本発明の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解される本発明に関する次の詳細な説明から明らかとなるであろう。
第1の実施の形態に従う集音装置のハードウェア構成と機能構成とを示す図である。 反響路の変化を検出する処理を概略的に示した概念図である。 更新部の機能構成の一例を示すブロック図である。 推定部による推定処理を概略的に示した概念図である。 相関リストの内容を示す図である。 第1の実施の形態に従う集音装置が実行する処理の一部を表わすフローチャートである。 第2の実施の形態に従う集音装置のハードウェア構成と機能構成とを示す図である。 第3の実施の形態に従う集音装置のハードウェア構成と機能構成とを示す図である。 第3の実施の形態における更新部の機能構成の一例を示すブロック図である。 第3の実施の形態における相関リストの内容を示す図である。
以下、図面を参照しつつ、本実施の形態について説明する。以下の説明では、同一の部品および構成要素には同一の符号を付してある。それらの名称および機能も同じである。したがって、これらについての詳細な説明は繰り返さない。なお、以下で説明される各実施の形態は、適宜選択的に組み合わされてもよい。
<第1の実施の形態>
[集音装置100A]
図1を参照して、第1の実施の形態に従う集音装置100Aの概要について説明する。図1は、集音装置100Aのハードウェア構成と、集音装置100Aの機能構成とを示す図である。
一例として、集音装置100Aは、スマートフォンやタブレット端末などの携帯端末、自走式のロボット、音声認識装置などに搭載される。集音装置100Aは、ハードウェア構成として、信号発生器1と、スピーカ2,3と、マイクロフォン部としてのマイクロフォン4〜6と、A/D(Analog/Digital)変換器7A,7Bと、CPU(Central Processing Unit)20と、記憶装置30と、D/A(Digital/Analog)変換器35と、出力部36とを備える。
制御部20は、機能構成として、FFT(Fast Fourier Transform)部21と、減算部22と、検出部23と、更新部24と、FFT部25と、抑制部26と、IFFT(Inverse Fast Fourier Transform)部27とを含む。
記憶装置30は、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、またはその他の記憶装置である。記憶装置30は、本実施の形態に従う音声処理プログラムの実行に必要な各種データを格納する。一例として、記憶装置30は、履歴32や相関リスト34を格納する。履歴32および相関リスト34の詳細については後述する。
集音装置100Aは、以下のステップ(a)〜(e)を実行することにより、周囲の環境が変化したことを検出し、環境の変化に合わせて反響音を抑制する。以下では、ステップ(a)〜(e)について順に説明する。
(a)非可聴音を発するステップ
信号発生器1は、人が音として認識できない周波数帯域の非可聴信号を発信する。非可聴信号は、複数の周波数のパルス波を含む。たとえば、非可聴信号は、人の可聴帯域よりも低い周波数のパルス波(以下、「低非可聴信号」ともいう。)と、人の可聴帯域よりも高い周波数のパルス波(以下、「高非可聴信号」ともいう。)とを含む。低非可聴信号および高非可聴信号は、一定周期で繰り返して発信される。低非可聴信号は、スピーカ2に出力される。高非可聴信号は、スピーカ3に出力される。
スピーカ2は、低非可聴信号の周期に応じて内部の振動板を振動させ、当該振動を空気に伝えることで音(以下、「低非可聴音」ともいう。)を外部に発する。好ましくは、低非可聴音のS/N(signal/noise)比は、20db以上である。S/N比の「S」は、低非可聴音がスピーカ2から発せられる際の出力音圧をいう。S/N比の「N」は、低非可聴音を受けていないときにマイクロフォン4から出力される信号の音圧をいう。当該信号は、低非可聴音のパルス間隔と同じ間隔で得られるものであり、低非可聴音と同一の周波数である。
スピーカ3は、高非可聴信号の周期に応じて内部の振動板を振動させ、当該振動を空気に伝えることで音(以下、「高非可聴音」ともいう。)を外部に発する。好ましくは、高非可聴音のS/N(signal/noise)比は、20db以上である。S/N比の「S」は、高非可聴音がスピーカ3から発せられる際の出力音圧を表わす。S/N比の「N」は、高非可聴音を受けていないときにマイクロフォン5から出力される信号の音圧を表わす。当該信号は、高非可聴音のパルス間隔と同じ間隔で得られるものであり、高非可聴音と同一の周波数である。
図1には、スピーカ2,3が別個に構成されている例が示されているが、スピーカ2,3は、一体的に構成されてもよい。この場合、一体的なスピーカは、低非可聴音および高非可聴音の両方を発する。
(b)非可聴音を集めるステップ
マイクロフォン4は、周囲の音を受け、当該音から低非可聴音を抽出し、当該低非可聴音を低非可聴信号(電気信号)に変換する。当該低非可聴信号は、スピーカ2からマイクロフォン4に直接到達する直接音の成分と、人40A〜40Cや壁42などに反射してスピーカ2からマイクロフォン4に間接的に到達する反響音の成分とを含む。マイクロフォン4は、当該低非可聴信号をA/D変換器7Aに出力する。
マイクロフォン5は、周囲の音を受け、当該音から高非可聴音を抽出し、当該高非可聴音を高非可聴信号(電気信号)に変換する。当該高非可聴信号は、スピーカ3からマイクロフォン5に直接到達する直接音の成分と、人40A〜40Cや壁42などに反射してスピーカ3からマイクロフォン5に間接的に到達する反響音の成分とを含む。マイクロフォン5は、当該高非可聴信号をA/D変換器7Aに出力する。
A/D変換器7Aは、マイクロフォン4からの低非可聴信号と、マイクロフォン5からの高非可聴信号とを信号ka(t)として受ける。信号ka(t)は、たとえば、低非可聴信号および高非可聴信号を足し合わせたものである。A/D変換器7Aは、アナログの信号ka(t)をデジタルの信号kd(t)に変換する。A/D変換器7Aは、信号kd(t)を制御部20に出力する。
なお、図1には、マイクロフォン4〜6が別個に構成される例が示されているが、マイクロフォン4〜6の少なくとも2つは、一体的に構成されてもよい。たとえば、マイクロフォン4,5が一体的に構成される場合、一体的に構成されるマイクロフォンは、低非可聴音と高非可聴音との両方を集音する。マイクロフォン4〜6が一体的に構成される場合、一体的に構成されるマイクロフォンは、可聴音と低非可聴音と高非可聴音との3つの音を集音する。
(c)反響路の変化を検出するステップ
制御部20は、非可聴音の信号の変化に基づいて、非可聴音の反響音の経路(以下、「反響路」ともいう。)が変化したことを検出する。ここでいう、反響路とは、非可聴音がスピーカ2,3から出力されてから、物体に反射されてマイクロフォン4,5に到達するまでの経路のことをいう。
より具体的な処理として、FFT部21は、A/D変換器7Aから一定時間の間に得られた信号kd(t)を1フレームとして、信号kd(t)を1フレームごとに周波数領域に変換する。FFT部21は、一例として、信号kd(t)に対して短時間フーリエ変換(STFT:Short Time Fourier Transform)を行なうことにより、時間領域の信号kd(t)を周波数領域の信号K(ω)に変換する。
FFT部21は、信号K(ω)を複製し、一方を減算部22に出力し、他方を現在時刻に対応付けて履歴32に書き込む。これにより、履歴32には、信号K(ω)が蓄積される。減算部22は、一定フレーム数mの信号K(ω)の平均値Ks(ω,m)を算出し、以下の式(1)に示されるように、信号K(ω)から平均値Ks(ω,m)を減算する。これにより、変化量ΔK(ω)が算出される。
ΔK(ω)=K(ω)−Ks(ω,m)・・・(1)
非可聴音に含まれる直接音成分は、周囲の環境が変化しても変化しないため、式(1)の減算処理により、直接音成分が打ち消され、非可聴音の反響音成分が残る。つまり、変化量ΔK(ω)は、非可聴音の反響音成分の変化量を示す。検出部23は、反響音成分の変化量ΔK(ω)が予め定められた閾値を越えた場合に、反響路が変化したことを検出する。異なる言い方をすれば、検出部23は、過去の非可聴音の反響音成分に対する現在の非可聴音の反響音成分における変化量が予め定められた閾値を超えた場合に、反響路が変化したことを検出する。
図2を参照して、反響路の変化を検出する処理についてさらに詳細に説明する。図2は、反響路の変化を検出する処理を概略的に示した概念図である。
図2には、信号K(ω)と平均値Ks(ω,m)とが示されている。減算部22は、信号K(ω)に示される振幅スペクトルのそれぞれから、平均値Ks(ω,m)に示される振幅スペクトルのそれぞれを減算する。これにより、変化量ΔK(ω)が算出される。
検出部23は、たとえば、変化量ΔK(ω)に示される振幅スペクトルのいずれかが閾値Thを超えた場合に、反響路が変化したことを検出する。あるいは、検出部23は、変化量ΔK(ω)に示される振幅スペクトルの平均値が閾値Thを超えた場合に、反響路が変化したことを検出してもよい。
(d)反響音抑制フィルタを更新するステップ
更新部24(図1参照)は、上述のステップ(c)によって反響路の変化が検出された場合、後述のステップ(e)において用いられる反響音抑制フィルタを更新する。以下では、図3を参照して、更新部24による更新処理について説明する。図3は、更新部24の機能構成の一例を示すブロック図である。図3に示されるように、更新部24は、FFT部52と、算出部53と、IFFT部54と、推定部55と、FFT部56と、取得部57とを含む。
マイクロフォン4,5によって出力される信号ka(t)は、以下の式(2)で示される。式(2)に示される信号s(t)は、スピーカ2,3から発信される際の信号である。式(2)に示される信号ka(t)は、マイクロフォン4,5から出力される非可聴音である。信号ka(t)は、信号s(t)とパルス応答h(t)との畳み込み演算によって表わされる。式(2)に示される記号「*」は、畳み込み演算を表わす。
ka(t)=h(t)*s(t)・・・(2)
ここで、式(2)は、フーリエ変換されると、以下の式(3)のようになる。
K(ω)=H(ω)S(ω)・・・(3)
式(3)は、変形されると、以下の式(4)のようになる。
H(ω)=K(ω)/S(ω)・・・(4)
FFT部52は、時間領域の信号ka(t)をフーリエ変換して、周波数領域の信号K(ω)を出力する。また、FFT部52は、時間領域の信号s(t)をフーリエ変換して、周波数領域の信号S(ω)を出力する。
算出部53は、上記式(4)に示されるように、信号K(ω)および信号S(ω)を用いて伝達関数H(ω)を算出する。これにより、スピーカ2,3の出力に対するマイクロフォン4,5の伝達関数H(ω)が算出される。
IFFT部54は、伝達関数H(ω)を逆フーリエ変換(IFFT)して、パルス応答h(t)を出力する。ここで、パルス応答h(t)には、非可聴音の直接音のパルス応答hd(t)と、非可聴音の反響音のパルス応答hr(t)とが含まれている。
推定部55は、非可聴信号に含まれる反響音成分を推定する。以下では、図4を参照して、推定部55による反響音成分の推定処理について説明する。図4は、推定部55による推定処理を概略的に示した概念図である。
スピーカ2,3から出力される信号s(t)がマイクロフォン4,5に到達するまでの経路が短いほど、信号s(t)がマイクロフォン4,5に到達するタイミングは早くなる。すなわち、非可聴音の直接音がマイクロフォン4,5に到達するタイミングは、非可聴音の反響音がマイクロフォン4,5に到達するタイミングよりも早い。このことに着目して、推定部55は、スピーカ2,3からマイクロフォン4,5に直接到達する直接音と、スピーカ2,3からマイクロフォン4,5に間接的に到達する反響音とがマイクロフォン4,5に到達するタイミングの差を利用して、非可聴信号に含まれる反響音成分を推定する。
より具体的には、グラフ(A)に示されるように、信号s(t)は、時刻T0にスピーカ2,3から発信されたとする。信号s(t)の直接音は、時刻T1にマイクロフォン4,5に到達する。信号s(t)の反響音は、時刻T1よりも後にマイクロフォン4,5に到達する。また、反響音が通る経路の長さは、直接音が通る経路の長さよりも短いため、反響音は、直接音よりも減衰する。そのため、グラフ(B)に示されるように、パルス応答h(t)は、時刻T1において最大となり、時刻T1以降には減衰していく。
推定部55は、時刻T1から値が小さくなる窓関数w(t)をパルス応答h(t)に掛けることにより、グラフ(D)に示される非可聴音の直接音のパルス応答hd(t)を出力する。グラフ(C)に示されるように、窓関数w(t)の前半部分(すなわち、時刻T1よりも前)の値は「1」である。窓関数w(t)の後半部分(すなわち、時刻T1よりも後)は、ハミング窓の後半部分に相当する。なお、他の窓関数が用いられてもよい。他の窓関数としては、ガウス窓やハン窓などが挙げられる。また、推定部55は、窓関数を用いない方法でパルス応答hd(t)を出力してもよい。たとえば、推定部55は、時刻T1から一定時間内のパルス応答h(t)を直接音のパルス応答hd(t)としてもよい。
推定部55は、以下の式(5)に示されるように、パルス応答h(t)からパルス応答hr(t)を減算することにより、非可聴音の反響音のパルス応答hr(t)を出力する。グラフ(E)には、パルス応答hr(t)の一例が示されている。
hr(t)=h(t)−hd(t)・・・(5)
再び図3を参照して、FFT部56は、式(5)で算出されたパルス応答hr(t)をフーリエ変換することにより、非可聴音の反響音の伝達関数Hr(ω)を算出する。取得部57は、相関リスト34を参照して、伝達関数Hr(ω)に対応する反響音抑制フィルタを取得する。反響音抑制フィルタは、可聴音信号に含まれる反響音成分を抑制するためのフィルタである。
以下では、図5を参照して、反響音抑制フィルタの取得処理について説明する。図5は、相関リスト34の内容を示す図である。
相関リスト34は、非可聴音の反響音成分の特性と、当該反響音成分の特性に応じた反響音抑制フィルタとを当該特性ごとに互いに対応付けている。可聴音信号に適用される反響音抑制フィルタは、推定部55によって推定された非可聴音の反響音成分の特性に応じて相関リスト34から取得される。
図5には、非可聴音の反響音成分の特性として、非可聴音の反響音の伝達関数が示されている。反響音抑制フィルタの各値は、伝達関数Hr(ω)に含まれる各スペクトルの値に応じて設計時に予め決められている。より具体的には、伝達関数Hr(ω)に含まれるスペクトルの値が高いほど、当該スペクトルに対する周波数帯域の音を抑制するように反響音抑制フィルタの各値が決められている。
取得部57は、相関リスト34に規定されている伝達関数の中から、推定部55によって推定された伝達関数Hr(ω)に最も近い伝達関数を選択し、当該伝達関数に対応付けられている反響音抑制フィルタR(ω)を取得する。反響音の伝達関数が予め準備されていることにより、反響音抑制フィルタの更新処理に要する時間が短縮される。
更新部24は、上述のステップ(c)によって反響路の変化が検出される度に、本ステップ(d)の更新処理を実行する。これにより、集音装置100Aは、周囲の環境が変化して反響路が変化した場合であっても、新たな環境に合った反響音抑制フィルタを用いることができる。その結果、集音装置100Aは、周囲の環境に合わせて反響音を抑制することができる。なお、反響音抑制フィルタは、反響路の変化が検出される度に生成されてもよい。
(e)反響音を抑制するステップ
再び図1を参照して、可聴音の反響音成分を抑制する処理について説明する。マイクロフォン6は、集音対象の人40Cから発せられた音声などの周囲の音を受ける。マイクロフォン6は、周囲の音から可聴音を抽出し、当該可聴音を信号za(t)に変換する。信号za(t)には、人40Cからマイクロフォン6に直接到達する直接音と、人40A〜40Cや壁42などに反射してマイクロフォン6に間接的に到達する反響音とが含まれる。マイクロフォン4は、信号za(t)をA/D変換器7Bに出力する。
A/D変換器7Bは、アナログの信号za(t)をデジタルの信号zd(t)に変換する。FFT部25は、信号zd(t)をフーリエ変換し、時間領域の信号zd(t)を周波数領域の信号Z(ω)に変換する。より具体的には、FFT部25は、A/D変換器7Bから一定時間の間に得られた信号za(t)を1フレームとして、信号za(t)を1フレームごとに周波数領域に変換する。
抑制部26は、上述のステップ(d)で得られた反響音抑制フィルタR(ω)を可聴信号に適用し、可聴信号の反響音成分を抑制する。たとえば、抑制部26は、以下の式(6)に基づいて、反響音成分が抑制された信号Zd(ω)を算出する。
Zd(ω)=Z(ω)R(ω)・・・(6)
IFFT部27は、信号Zd(ω)を逆フーリエ変換し、周波数領域の信号Zd(ω)を時間領域の信号zd2(t)に変換する。D/A変換器35は、制御部20から出力されるデジタルの信号zd2(t)をアナログ信号に変換する。
出力部36は、反響音が抑制された音声信号を用途に応じて様々な装置に出力する。一例として、当該音声信号は、音声認識機能を搭載するアプリケーションに出力される。これにより、当該アプリケーションは、人40Cが発した音声を正確に音声認識することができる。あるいは、出力部36は、反響音が抑制された音声信号をスマートフォンなどの他の携帯電話に送信する。これにより、当該他の携帯電話のユーザーは、集音対象の人40Cが話す内容を聞き取りやすくなる。
[集音装置100Aの制御構造]
図6を参照して、集音装置100Aの制御構造について説明する。図6は、集音装置100Aが実行する処理の一部を表わすフローチャートである。図6の処理は、集音装置100Aの制御部20がプログラムを実行することにより実現される。他の局面において、処理の一部または全部が、回路素子その他のハードウェアによって実行されてもよい。
ステップS12において、制御部20は、複数の周波数のパルス波を信号発生器1(図1参照)に発生させる。当該パルス波は、低非可聴信号と高非可聴信号とを含む。信号発生器1は、当該パルス波をスピーカ2,3(図1参照)に出力する。スピーカ2,3は、当該パルス波に応じて非可聴音を発する。
ステップS14において、制御部20は、マイクロフォン4,5(図1参照)から非可聴信号を取得する。より具体的には、マイクロフォン4,5は、周囲の音を受け、当該音から非可聴音を抽出し、当該非可聴音を非可聴信号に変換する。当該非可聴信号には、直接音成分と、反響音成分とが含まれている。
ステップS16において、制御部20は、マイクロフォン6(図1参照)から可聴信号を取得する。より具体的には、マイクロフォン6は、周囲の音を受け、当該音から可聴音を抽出し、当該可聴音を可聴信号に変換する。当該可聴信号には、直接音成分と、反響音成分とが含まれている。
ステップS20において、検出部23(図1参照)は、非可聴音の反響音の経路(すなわち、反響路)に変化があったか否かを判断する。反響路の変化を検出する方法は上述の通りであるので説明を繰り返さない(図2参照)。検出部23は、非可聴音の反響路に変化があったと判断した場合(ステップS20においてYES)、制御をステップS22に切り替える。そうでない場合には(ステップS20においてNO)、検出部23は、制御をステップS28に切り替える。
ステップS22において、推定部55(図3参照)は、非可聴信号に含まれる反響音成分を推定する。当該推定方法は上述の通りであるので説明を繰り返さない(図4参照)。
ステップS24において、制御部20は、相関リスト34(図5参照)を参照して、推定された反響音成分に応じた反響音抑制フィルタを取得する。ステップS26において、制御部20は、現在の反響音抑制フィルタを新たに取得した反響音抑制フィルタに更新する。
ステップS28において、抑制部26(図1参照)は、ステップS16で取得した可聴信号に対して反響音抑制フィルタを適用し、可聴信号の反響音成分を抑制する。ステップS30において、制御部20は、反響音成分が抑制された可聴信号を出力部36(図1参照)に出力する。
ステップS40において、制御部20は、本実施の形態に従う音声処理を終了するか否かを判断する。たとえば、制御部20は、通話の終了操作や音声認識機能の終了操作をユーザーから受け付けた場合に(ステップ40においてYES)、本実施の形態に従う音声処理を終了する。そうでない場合には(ステップS40においてNO)、制御部20は、制御をステップS12に戻す。
[小括]
以上のようにして、本実施の形態に従う集音装置100Aは、非可聴信号の変化に基づいて、反響路が変化したことを検出する。集音装置100Aは、反響路が変化したことを検出した場合に反響音抑制フィルタを更新する。その結果、集音装置100Aは、周囲の環境が変わった場合であっても、高精度に反響音を抑制することができる。これにより、集音装置100Aは、店舗内や駅構内などの人が行き交う場所で用いられる場合や、自走式のロボットなどに取り付けられる場合であっても、反響音を抑制することができる。
また、集音装置100Aは、自身で発した非可聴音を自身で集音する。そのため、集音装置100Aは、スピーカからの出力時とマイクロフォンの集音時との間における非可聴音の変化(すなわち、パルス応答)を正確に測定することができる。その結果、集音装置100Aは、反響路の変化を正確に検出することができる。
<第2の実施の形態>
[集音装置100B]
第1の実施の形態においては、スピーカは、集音装置100Aに固定されていた。これに対して第2の実施の形態においては、スピーカは、集音装置100A上で回転または移動する場合がある。
以下では、図7を参照して、第2の実施の形態に従う集音装置100Bについて説明する。図7は、集音装置100Bのハードウェア構成と、集音装置100Bの機能構成とを示す図である。集音装置100Bは、機構12をさらに備える点で、第1の実施の形態に従う集音装置100Aと異なる。ハードウェア構成などのその他の構成は第1の実施の形態に従う集音装置100Aと同じであるのでそれらの説明は繰り返さない。
上述したように、スピーカ3は、可聴音よりも周波数が高い音(すなわち、高非可聴音)を発する。周波数が高いほど音の直進性は高くなるため、マイクロフォン5は、スピーカ3との位置関係によっては、スピーカ3から出力される高非可聴音を集められない可能性、また十分な測定範囲が得られない可能性がある。そのため、本実施の形態においては、スピーカ3は、回転または移動しながら高非可聴音を発する。
より具体的には、制御部20は、スピーカ3が高非可聴音を発している間に、駆動命令を機構12に送る。機構12は、スピーカ3を回転させるための回転機構、またはスピーカ3を移動させるための移動機構を含む。機構12は、駆動命令を受けたことに基づいて駆動を開始し、スピーカ3を回転または移動する。これにより、スピーカ3は、様々な方向に高非可聴音を発することができる。そのため、マイクロフォン5は、スピーカ3から発せられた高非可聴音を受けることができる。
[小括]
以上のようにして、本実施の形態においては、スピーカ3は、回転または移動しながら高非可聴音を発する。これにより、集音装置100Bは、直進性が高い高非可聴音であっても受けることができ、反響路の変化を正確に検出することができる。
<第3の実施の形態>
[概要]
第1の実施の形態に従う集音装置100Aは、非可聴音を発し、当該非可聴音の反響音成分に基づいて反響音抑制フィルタを選択していた。これに対して、第3の実施の形態に従う集音装置100Cは、非可聴音および可聴音の両方を発し、非可聴音の反響音特性と可聴音の反響音特性との両方に基づいて、反響音抑制フィルタを選択する。
[集音装置100C]
図8を参照して、第3の実施の形態に従う集音装置100Cについて説明する。図8は、集音装置100Cのハードウェア構成と、集音装置100Cの機能構成とを示す図である。
集音装置100Cは、信号発生器10とスピーカ11とをさらに備える点で、第1の実施の形態に従う集音装置100Aと異なる。また、集音装置100Cは、反響音抑制フィルタの更新方法において、第1の実施の形態に従う集音装置100Aと異なる。集音装置100Cのその他の点については第1の実施の形態に従う集音装置100Aと同じであるのでそれらの説明については繰り返さない。
集音装置100Cは、第1の実施の形態におけるステップ(a)〜(c),(e)に加えて、以下のステップ(f)〜(h)を実行することにより、話者から発せられた反響音を抑制する。以下では、ステップ(f)〜(h)について順に説明する。
(f)可聴音を発するステップ
信号発生器10は、人が音として認識できる周波数の可聴信号を発信する。可聴信号は、繰り返して発信される。可聴信号には、周囲の人に情報を伝えるためのアナウンス音a´(t)と、可聴域のパルス波p(t)とを含む。パルス波p(t)がアナウンス音a´(t)とともに発せられることにより、パルス波p(t)の音は、アナウンス音に緩和される。そのため、周囲の人は、パルス波p(t)の音に不快を感じない。スピーカ11は、アナウンス音a´(t)にパルス波p(t)を乗せた可聴域の信号a(t)をスピーカ11に出力する。
スピーカ11は、信号a(t)に応じて内部の振動板を振動させ、当該振動を空気に伝えることで音(すなわち、可聴音)を外部に発する。なお、図8には、スピーカ2,3,11が別個に構成される例が示されているが、スピーカ2,3,11の少なくとも2つは、一体的に構成されてもよい。
(g)可聴音を集めるステップ
マイクロフォン6は、周囲の音を受け、当該音から可聴音を抽出し、可聴音を信号qa(t)(電気信号)に変換する。当該信号qa(t)には、スピーカ11からマイクロフォン6に直接到達する直接音と、人40A〜40Cや壁42などに反射してスピーカ11からマイクロフォン6に間接的に到達する反響音とが含まれる。マイクロフォン6は、信号qa(t)をA/D変換器7Bに出力する。A/D変換器7Bは、一定時間の間に得られた信号qa(t)を1フレームとして、信号qa(t)を1フレームごとに周波数領域に変換する。
(h)反響音抑制フィルタを更新するステップ
本ステップ(h)の更新処理は、上述のステップ(d)の更新処理に代わる処理である。本実施の形態に従う更新部24A(図8参照)は、反響路の変化が検出された場合、非可聴音の反響音特性と可聴音の反響音特性との両方に基づいて反響音抑制フィルタを更新する。以下では、図9を参照して、更新部24Aによる更新処理について説明する。図9は、更新部24Aの機能構成の一例を示すブロック図である。
図9に示されるように、更新部24Aは、FFT部52と、算出部53と、IFFT部54と、推定部55と、FFT部56と、取得部57と、減算部72と、FFT部73と、FFT部74と、減算部75と、IFFT部76と、推定部77と、FFT部78とを含む。FFT部52と、算出部53と、IFFT部54と、推定部55と、FFT部56とについては上述の通りであるのでこれらの説明は繰り返さない(図3参照)。
減算部72は、以下の式(7)に示されるように、信号発生器10(図8参照)から発信された信号a(t)から、可聴域のパルス波p(t)を減算する。これにより、集音装置100Cは、信号a(t)からパルス波p(t)を除去し、アナウンス音のみの信号a‘(t)を得る。
a‘(t)=a(t)−p(t)・・・(7)
FFT部73は、信号a‘(t)をフーリエ変換し、時間領域の信号a‘(t)を周波数領域の信号A´(ω)に変換する。FFT部74は、マイクロフォン6からの信号qa(t)をA/D変換して得られた信号qd(t)をフーリエ変換し、時間領域の信号qd(t)を周波数領域の信号Q(ω)に変換する。
減算部72は、以下の式(8)に示されるように、信号Q(ω)から信号A´(ω)を減算することにより、可聴域のパルス波p(t)の伝達関数P(ω)を算出する。
P(ω)=Q(ω)−A’(ω)・・・(8)
IFFT部76は、伝達関数P(ω)を逆フーリエ変換し、パルス応答p‘(t)を算出する。推定部77は、パルス応答p‘(t)に含まれる直接音成分および反響音成分を推定する。反響音成分の推定方法は、上述の通りであるので説明を繰り返さない(図4参照)。集音装置100Cは、以下の式(9)に示されるように、可聴音のパルス応答p´(t)から直接音のパルス応答p’d(t)を減算することにより、反響音のパルス応答pr´(t)を算出する。
p’r(t)=p’(t)−p’d(t)・・・(9)
FFT部78は、反響音のパルス応答pr‘(t)をフーリエ変換し、可聴音の反響音の伝達関数Pr´(ω)を算出する。
取得部57Aは、相関リスト34Aを参照して、伝達関数Hr(ω)および伝達関数Pr´(ω)に応じた反響音抑制フィルタを取得する。以下では、図10を参照して、反響音抑制フィルタの取得処理について説明する。図10は、相関リスト34Aの内容を示す図である。
相関リスト34Aは、非可聴音の反響音成分の特性(以下、「第1特性」ともいう。)と、可聴音の反響音成分の特性(以下、「第2特性」ともいう。)と、第1特性および第2特性に応じた反響音抑制フィルタとを、第1特性および第2特性ごとに互いに対応付けている。可聴音信号に適用される反響音抑制フィルタは、推定部55によって推定された非可聴音の反響音成分の特性と、推定部77によって推定された可聴音の反響音成分の特性とに応じて相関リスト34Aから取得される。
図10には、非可聴音の反響音成分の特性として、非可聴音の反響音の伝達関数が示されている。また、可聴音の反響音成分の特性として、可聴音の反響音の伝達関数が示されている。取得部57は、非可聴音の反響音の伝達関数Hr(ω)と、可聴音の反響音の伝達関数Pr´(ω)との組み合わせに応じて相関リスト34Aから対応する反響音抑制フィルタを取得する。
更新部24Aは、反響路の変化が検出される度に、本ステップ(h)の更新処理を実行する。これにより、集音装置100Cは、周囲の環境が変化して反響路が変化した場合であっても、新たな環境に合った反響音抑制フィルタを用いることができる。その結果、集音装置100Cは、周囲の環境に合わせて反響音を抑制することができる。
[小括]
以上のようにして、本実施の形態に従う集音装置100Cは、非可聴音の反響音の伝達関数と可聴音の反響音の伝達関数との両方に基づいて、反響音抑制フィルタを選択する。これにより、集音装置100Cは、反響音を抑制する精度をさらに上げることができる。
今回開示された実施の形態は全ての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内での全ての変更が含まれることが意図される。
1,10 信号発生器、2,3,11 スピーカ、4〜6 マイクロフォン、7A,7B,35 変換器、12 機構、20 制御部、21,25,52,56,73,74,78 FFT部、22,72,75 減算部、23 検出部、24,24A 更新部、26 抑制部、27,54,76 IFFT部、30 記憶装置、32 履歴、34,34A 相関リスト、36 出力部、40A〜40C 人、42 壁、53 算出部、55,77 推定部、57,57A 取得部、100A〜100C 集音装置。

Claims (9)

  1. 人の非可聴域の第1音を発するための第1スピーカと、
    周囲の音を受けて、前記第1音に対応する第1電気信号と、人の可聴域の第2音に対応する第2電気信号とを出力するためのマイクロフォン部と、
    前記第1電気信号に含まれる反響音成分を推定するための第1推定部と、
    前記反響音成分に応じた反響音抑制フィルタを前記第2電気信号に適用し、前記第2電気信号の反響音成分を抑制するための抑制部と、
    前記第1電気信号の変化に基づいて、前記第1音の反響音の経路が変化したことを検出するための検出部と、
    前記経路の変化が検出されたときに、前記反響音抑制フィルタを更新するための更新部とを備える、集音装置。
  2. 前記第1推定部は、前記第1スピーカから前記マイクロフォン部に直接到達する直接音と、前記第1スピーカから前記マイクロフォン部に間接的に到達する反響音とが前記マイクロフォン部に到達するタイミングの差を利用して前記反響音成分を推定する、請求項1に記載の集音装置。
  3. 前記第1音の周波数は、前記可聴域の音の周波数よりも高く、
    前記第1スピーカは、回転または移動しながら前記第1音を発する、請求項1または2に記載の集音装置。
  4. 前記マイクロフォン部は、
    周囲の音を受け、当該音から前記第1音を抽出し、当該第1音を第1電気信号に変換するための第1マイクロフォンと、
    周囲の音を受け、当該音から人の可聴域の第2音を抽出し、当該第2音を第2電気信号に変換するための第2マイクロフォンとを含む、請求項1〜3のいずれか1項に記載の集音装置。
  5. 前記第1マイクロフォンおよび前記第2マイクロフォンは、一体的に構成されている、請求項4に記載の集音装置。
  6. 前記集音装置は、前記第1音の反響音成分の特性と、当該特性に応じた反響音抑制フィルタとを当該特性ごとに格納するための記憶部をさらに備え、
    前記第1電気信号に適用される前記反響音抑制フィルタは、前記第1推定部によって推定された前記第1音の反響音成分の特性に応じて前記記憶部から取得される、請求項1〜5のいずれか1項に記載の集音装置。
  7. 前記集音装置は、
    人の可聴域の音を発するための第2スピーカと、
    前記第2スピーカから前記第2マイクロフォンに直接到達する直接音と、前記第2スピーカから前記第2マイクロフォンに間接的に到達する反響音とが、前記第2マイクロフォンに到達するタイミングの差を利用して、前記第2電気信号に含まれる反響音成分を推定するための第2推定部と、
    前記第1音の反響音成分の第1特性と、前記第2音の反響音成分の第2特性と、当該第1特性および当該第2特性に応じた反響音抑制フィルタとを、当該第1特性および第2特性ごとに格納するための記憶部とをさらに備え、
    前記第1電気信号に適用される前記反響音抑制フィルタは、前記第1推定部によって推定された前記第1音の反響音成分の特性と、前記第2推定部によって推定された前記第2音の反響音成分の特性とに応じて前記記憶部から取得される、請求項2〜5のいずれか1項に記載の集音装置。
  8. 集音装置における音声処理方法であって、
    前記集音装置は、
    人の非可聴域の第1音を発するためのスピーカと、
    周囲の音を受けて、前記第1音に対応する第1電気信号と、人の可聴域の第2音に対応する第2電気信号とを出力するためのマイクロフォン部とを備え、
    前記音声処理方法は、
    前記第1電気信号に含まれる反響音成分を推定するステップと、
    前記反響音成分に応じた反響音抑制フィルタを前記第2電気信号に適用し、前記第2電気信号の反響音成分を抑制するステップと、
    前記第1電気信号の変化に基づいて、前記第1音の反響音の経路が変化したことを検出するステップと、
    前記経路の変化が検出されたときに、前記反響音抑制フィルタを更新するステップとを備える、音声処理方法。
  9. コンピュータに実行される音声処理プログラムであって、
    前記コンピュータは、
    人の非可聴域の第1音を発するためのスピーカと、
    周囲の音を受けて、前記第1音に対応する第1電気信号と、人の可聴域の第2音に対応する第2電気信号とを出力するためのマイクロフォン部とを備え、
    前記音声処理プログラムは、前記コンピュータに、
    前記第1電気信号に含まれる反響音成分を推定するステップと、
    前記反響音成分に応じた反響音抑制フィルタを前記第2電気信号に適用し、前記第2電気信号の反響音成分を抑制するステップと、
    前記第1電気信号の変化に基づいて、前記第1音の反響音の経路が変化したことを検出するステップと、
    前記経路の変化が検出されたときに、前記反響音抑制フィルタを更新するステップとを実行させる、音声処理プログラム。
JP2015034031A 2015-02-24 2015-02-24 集音装置、音声処理方法、および音声処理プログラム Pending JP2016158072A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015034031A JP2016158072A (ja) 2015-02-24 2015-02-24 集音装置、音声処理方法、および音声処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015034031A JP2016158072A (ja) 2015-02-24 2015-02-24 集音装置、音声処理方法、および音声処理プログラム

Publications (1)

Publication Number Publication Date
JP2016158072A true JP2016158072A (ja) 2016-09-01

Family

ID=56826716

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015034031A Pending JP2016158072A (ja) 2015-02-24 2015-02-24 集音装置、音声処理方法、および音声処理プログラム

Country Status (1)

Country Link
JP (1) JP2016158072A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017175341A (ja) * 2016-03-23 2017-09-28 Necプラットフォームズ株式会社 電話機およびアコースティックエコーキャンセラチューニング方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017175341A (ja) * 2016-03-23 2017-09-28 Necプラットフォームズ株式会社 電話機およびアコースティックエコーキャンセラチューニング方法

Similar Documents

Publication Publication Date Title
KR101444100B1 (ko) 혼합 사운드로부터 잡음을 제거하는 방법 및 장치
JP6034793B2 (ja) オーディオ信号生成システム及び方法
EP2907323B1 (en) Method and apparatus for audio interference estimation
JP5862349B2 (ja) ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
JP6670224B2 (ja) 音声信号処理システム
JP5732937B2 (ja) サウンドマスキング装置
JP5923994B2 (ja) 音声処理装置及び音声処理方法
JP5699844B2 (ja) 残響抑制装置および残響抑制方法並びに残響抑制プログラム
JP2021503633A (ja) 音声ノイズ軽減方法、装置、サーバー及び記憶媒体
JP2019191558A (ja) 音声を増幅する方法及び装置
JP6156012B2 (ja) 音声処理装置及び音声処理用コンピュータプログラム
JP2016511594A (ja) 音声信号を発生するための方法及び装置
KR20080092404A (ko) 음성 향상을 위해 마이크로폰 사이의 레벨 차이를 활용하는시스템 및 방법
JP5834948B2 (ja) 残響抑制装置、残響抑制方法及び残響抑制用コンピュータプログラム
JP2013178570A (ja) 電子的信号からノイズを除去するための方法および装置
KR20140145108A (ko) 이동 통신 장치에서의 음성 통신 개선방법 및 시스템
JP5027127B2 (ja) 背景雑音に応じてバイブレータの動作を制御することによる移動通信装置の音声了解度の向上
CN105491495B (zh) 基于确定性序列的反馈估计
JP2013068809A (ja) 残響抑制装置および残響抑制方法並びに残響抑制プログラム
CN112019967B (zh) 一种耳机降噪方法、装置、耳机设备及存储介质
CN107452398B (zh) 回声获取方法、电子设备及计算机可读存储介质
JP2015206974A (ja) 報知音感知装置、報知音感知方法及びプログラム
TWI767696B (zh) 自我語音抑制裝置及方法
CN112997249B (zh) 语音处理方法、装置、存储介质及电子设备
JP2016158072A (ja) 集音装置、音声処理方法、および音声処理プログラム