JP6285855B2 - フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム - Google Patents

フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム Download PDF

Info

Publication number
JP6285855B2
JP6285855B2 JP2014261937A JP2014261937A JP6285855B2 JP 6285855 B2 JP6285855 B2 JP 6285855B2 JP 2014261937 A JP2014261937 A JP 2014261937A JP 2014261937 A JP2014261937 A JP 2014261937A JP 6285855 B2 JP6285855 B2 JP 6285855B2
Authority
JP
Japan
Prior art keywords
filter coefficient
sound source
coefficient calculation
vector
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014261937A
Other languages
English (en)
Other versions
JP2016122111A (ja
Inventor
達也 加古
達也 加古
小林 和則
和則 小林
仲 大室
仲 大室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014261937A priority Critical patent/JP6285855B2/ja
Publication of JP2016122111A publication Critical patent/JP2016122111A/ja
Application granted granted Critical
Publication of JP6285855B2 publication Critical patent/JP6285855B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、複数のマイクロホンでそれぞれ収音される複数の音響信号を用いて、音源が発する音を強調、又は/および、抑圧するためのフィルタ係数を算出するフィルタ係数算出装置、算出したフィルタ係数を用いる音声再生装置、フィルタ係数算出方法及びプログラムに関する。
発話者ごとの信号区間分類を行う従来の技術に、音の到来方向から発話者をクラスタリングし、各発話者の発話区間を分類する手法がある(非特許文献1参照)。音源の位置やマイク間の相対位置が未知の条件下で、マイクロホンアレーなどの複数のマイクを利用した音声強調手法として、ICA(独立成分分析)に基づく音源分離手法や、SN比最大化ビームフォーマなどの手法がある。ICAはマイクで収音した音響信号の統計的独立性を利用して音源を分離する手法であり、混合音から雑音を分離することで目的音を強調することができる。またSN比最大化ビームフォーマは、音源とマイクの間の伝達関数の性質が未知の状態で、目的音とその他の雑音のパワー比が最大になるフィルタを設計する手法である(非特許文献2参照)。
荒木章子、藤本雅清、石塚健太郎、澤田宏、牧野昭二、"音声区間検出と方向情報を用いた会議音声話者識別システムとその評価"、日本音響学会春季全国大会, 2008年, 1-10-1 , p. 1-4. 小笠原基、石塚健太郎、荒木章子、藤本雅清、中谷智広、大塚和弘、"SN比最大化ビームフォーマを用いたオンライン会議音声強調"、 日本音響学会春季全国大会, 2009年, 2-9-17, p.695-698.
従来手法のマイクロホンアレーを利用した音源方向に基いて音響信号区間を分類する手法では、複数のマイクで録音するサンプリング周波数が同期されている必要と、マイクの相対位置関係が既知である必要がある。そのためサンプリング周波数が非同期で、かつ自由に配置されたマイクでは録音した音響信号に対しては従来のマイクロホンアレー処理を行い、音源方向に基いて信号区間を分類することが出来ない。
本発明では、自由に配置したスマートフォン、固定電話、ボイスレコーダなどの録音機能をもつ複数の端末で録音した音響信号から、それぞれの録音機能のサンプリング周波数が非同期であったり、マイクロホン感度が異なっていたりしたとしても動作するフィルタ係数算出装置を提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、フィルタ係数算出装置は、複数のマイクロホンでそれぞれ収音される複数の音響信号を用いて、音源が発する音を強調、又は/および、抑圧するためのフィルタ係数を算出する。フィルタ係数算出装置は、音声区間における、複数のマイクロホンの音響信号をマイク感度について正規化した値であるマイク感度正規化済音響信号に対応する値を要素とし、音声区間における音響信号の出現傾向を示す第一出現傾向ベクトルに対してクラスタリングを行い、音源に対応する1つ以上のクラスタに分類するベクトル分類部と、強調、又は/および、抑圧したい音源に対応するクラスタに対応する音源ベクトル及び非音声区間におけるマイク感度正規化済音響信号に応じて、強調、又は/および、抑圧のためのフィルタ係数を算出するフィルタ係数算出部とを含む。
上記の課題を解決するために、本発明の他の態様によれば、フィルタ係数算出方法は、複数のマイクロホンでそれぞれ収音される複数の音響信号を用いて、音源が発する音を強調、又は/および、抑圧するためのフィルタ係数を算出する。フィルタ係数算出方法は、ベクトル分類部が、音声区間における、複数のマイクロホンの音響信号をマイク感度について正規化した値であるマイク感度正規化済音響信号に対応する値を要素とし、音声区間における音響信号の出現傾向を示す第一出現傾向ベクトルに対してクラスタリングを行い、音源に対応する1つ以上のクラスタに分類するベクトル分類ステップと、フィルタ係数算出部が、強調、又は/および、抑圧したい音源に対応するクラスタに対応する音源ベクトル及び非音声区間におけるマイク感度正規化済音響信号に応じて、強調、又は/および、抑圧のためのフィルタ係数を算出するフィルタ係数算出ステップとを含む。
本発明によれば、自由に配置したマイクロホンを搭載した複数の端末で録音した音響信号から、それぞれの録音機能のサンプリング周波数が非同期であったり、マイクロホン感度が異なっていたりしたとしても動作するフィルタ係数算出装置を提供することができる。
第一実施形態に係る音声強調装置の機能ブロック図。 第一実施形態に係る音声強調装置の処理フローの例を示す図。 スマートフォンなどの音響信号を観測している端末の配置例を示す図。 スマートフォンなどの音響信号を観測している端末の配置例を示す図。 第二実施形態に係る音声強調装置の機能ブロック図。 実施例の結果を示す図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「-」「~」「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
従来のマイクロホンアレー処理では、全てのマイクロホンで観測する音響信号のサンプリング周波数の同期がとれている必要があった。本実施形態では、サンプリングが非同期の音響信号では利用するのが困難な時間差の情報を用いず、各音源から各端末までに音が伝搬する間の音の減衰量を感度行列によって擬似的に表現し、推定した感度行列を用いて特定音源を強調するフィルタを設計した点がポイントである。
<第一実施形態に係る音声強調装置100>
図1は第一実施形態に係る音声強調装置100の機能ブロック図を、図2はその処理フローを示す。
音声強調装置100は、受信部110と、VAD判定部120と、マイク感度補正推定算出部130と、マイク感度正規化部140と、ベクトル分類部150と、感度行列推定部160と、フィルタ係数算出部170と、フィルタ処理部180とを含む。
音声強調装置100は、M個のマイクロホンmでそれぞれ収音されるM個の音響信号x1,…,xm,…,xMを入力とし、これらの値を用いて、ある音源rが発する音を強調するための再生信号yrを出力する、または、図示しないスピーカで再生する。m=1,2,…,Mである。
例えば、M個のマイクロホンは、N台の録音装置(以下、単に「端末」ともいう)に搭載され、各端末は音源に対して、任意の位置に設置されるものとし、複数のマイクロホンのマイクロホン感度並びにM個の音響信号x1,…,xm,…,xMの録音開始時間及びサンプリング周波数は必ずしも一致しないものとする。M及びNはそれぞれ2以上の整数の何れかであり、M≧Nである。
前述の通り、本実施形態では、自由に配置されたスマートフォン、固定電話、ボイスレコーダなどの端末を複数利用して、音源からの音響信号をデジタルで録音する。端末は、例えばワイヤレスマイクロホンと録音機のように収音機器と録音機能とが筐体上分離していても良い。なお、それぞれの端末の録音機能では、サンプリング周波数、マイク感度がそれぞれ異なっても良いものとする。また、どの端末においても録音開始した日時と、サンプリング周波数が正確に記録されていることとする。録音した音をネットワークのパケットや近距離無線通信等を介して受信部110へ伝送する。
なお、スマートフォンなどの音響信号を観測している端末は、自由に配置されるが、分散して配置されるものとする(図3参照)。図3の×印のNo.1〜5は端末の位置を示す。
<受信部110>
受信部110は、スマートフォン、固定電話、ボイスレコーダなどN台の端末に搭載されたM個のマイクロホンで録音したM個の音響信号x1,…,xm,…,xMを受信する(S110)。
音響信号の受信の方法は、例えばネットワークや近距離無線通信等を利用して受け取る。録音した音響信号には、端末ごとに録音を開始した録音開始時刻、サンプリング周波数が含まれる。録音した複数の音響信号は、録音開始時刻、サンプリング周波数に基づき、時刻同期を取って多チャネルの信号として扱い、各チャネルごとにx1(n),…,xm(n),…,xM(n)と表記する。ここで、mは各マイクロホン(チャネル)を区別する番号を示し、nはサンプリングされた時刻情報を表す。以降の説明では時刻情報nは全てのマイクロホン(チャネル)mで一致しているものとして考える。各チャネルごとの音響信号x1(n),…,xm(n),…,xM(n)をVAD判定部120に渡す。
一般的に、異なる端末で録音した音響信号間のサンプリング周波数は異なる。例えば、ある端末で8kHzで録音され、他の端末では16kHzで録音される。また、例えば、ある端末及び他の端末で16kHzで録音される場合であっても、実際には各端末の備えるアナログ−デジタル変換部の個体差によりサンプリング周波数に誤差(例えば、0.01%以内の誤差)が生じる(なお、一つの端末に複数のマイクロホンが搭載されている場合には、同じアナログ−デジタル変換部でアナログーデジタル変換を行うため、その一つの端末に搭載されている複数のマイクロホンの間ではこのような誤差は生じないのが一般的である)。時間差を用いてフィルタ係数を算出する場合には、このような微小な誤差であっても、フィルタ係数の性能を大幅に劣化させてしまう。そのため、従来、フィルタ係数を算出する際に、異なる端末で録音した音響信号を用いることはあまり想定されていなかった。そこで、本実施形態では、異なる端末で録音した音響信号を用いるために時間差を利用せずにフィルタ係数を算出する。時間差を利用しないため、本実施形態では、各チャネル毎の音響信号x1(n),…,xm(n),…,xM(n)の得られた時刻は厳密に一致する必要はない。例えば、あるサンプリング周波数を基準として、そのサンプリング時刻nと最も近いサンプル値を各端末の音響信号xm(n)とする。基準となるサンプリング時刻nとある端末でのサンプリング時刻とがあまりにも大きく異なる場合には、信号の補間処理(例えば線形補間)やサンプルを間引く処理を行えばよい。例えば、最も低いサンプリング周波数を基準として、他の音響信号のサンプル値を間引く。
<VAD判定部120>
VAD判定部120は、受信部110から音響信号x1(n),…,xm(n),…,xM(n)を受け取り、この値からVAD(Voice Activity Detection)を判定する(S120)。まず、VAD判定部120は、時間領域の音響信号x1(n),…,xm(n),…,xM(n)を周波数領域の音響信号X1(ω,τ),…,Xm(ω,τ),…,XM(ω,τ)に変換する。例えば、FFT( Fast Fourier Transform:高速フーリエ変換)等により、周波数領域の信号に変換する。ωは周波数を表し、τは時刻情報nに基づいて設定した短時間フレーム分析のための時間フレームを示す。音声か非音声かの分類にはVAD手法を用いる。例えば、参考文献1を利用する。
[参考文献1]Jongseo Sohn, Nam Soo Kim, Wonyong Sung. "A Statistic Model-Based Voice Activity Detection", IEEE SIGNAL PROCESSING LETTERS, 1999, VOL.6, NO.1.
各チャネルmごとにフレームτに分割した音響信号Xm(ω,τ)に対して、区間分類を示すラベルを付与する。周波数領域に変換したM個の音響信号X1(ω,τ),…,Xm(ω,τ),…,XM(ω,τ)のうち非音声区間であることを示す雑音ラベルがun個(un>0)以上のマイクロホンで付与されたフレームτNqの集合を非音声区間集合ΦN={τN1,…τNq,…,τNQ}とする。q=1,2,…,Qである。非音声区間集合ΦNをマイク感度補正推定算出部130及びフィルタ係数算出部170に渡す。また、M個の音響信号X1(ω,τ),…,Xm(ω,τ),…,XM(ω,τ)のうち音声区間であることを示す音声ラベルがuv個(uv>0)以上のマイクロホンで付与されたフレームτSpの集合を音声区間集合ΦS={τS1,…,τSp,…τSP}とする。p=1,2,…,Pである。音声区間集合ΦSをベクトル分類部150に渡す。また、周波数領域の音響信号X1(ω,τ),…,Xm(ω,τ),…,XM(ω,τ)をマイク感度補正推定算出部130及びマイク感度正規化部140に渡す。このようにして、フレーム毎に音声区間か非音声区間かを判定する。
<マイク感度補正推定算出部130>
マイク感度補正推定算出部130は、VAD判定部120から周波数領域の音響信号X1(ω,τ),…,Xm(ω,τ),…,XM(ω,τ)と非音声区間集合ΦNを受け取り、これらの値を用いて、マイク感度補正推定値Gを算出する(S130)。あるフレームτNqにおいて、あるマイクロホンmに対応する音響信号Xm(ω,τ)に対して用いるマイク感度補正推定値GmNq)は、一つ前の非音声区間のフレームτN(q-1)で求めたマイク感度補正推定値GmN(q-1))を次式により更新することで求める。
ここでαは更新の係数を表し、0<α≦1をとる。Ωは周波数の要素数(周波数ビンの総数)を表す。Gmはm番目のマイクロホン(チャネル)のマイク感度補正推定値である。また、τNqはτN1からτNQのうちのq番目の要素を示す。例えばαの値は0.3を与え、Ωは1024点を与える。例えば、初回実行時(q=1)のみ、α=1とし、マイク感度補正推定値GmN1)を次式により求めてもよい。
上記の式は音響信号が雑音であるときのフレームτNqのときの、周波数領域に変換した音響信号Xm(ω,τ)の全帯域のマイク感度特性(フレームτNqのときのマイクロホンが録音した音響信号の実効値に相当)と、直前のフレームにおけるマイク感度補正推定値とに基づいて、マイク感度補正推定値を更新する式である。求めたマイク感度補正推定値G(τNq)={G1Nq),…,GmNq),…,GMNq)}をマイク感度正規化部140に渡す。
<マイク感度正規化部140>
マイク感度正規化部140は、VAD判定部120から周波数領域の音響信号X1(ω,τ),…,Xm(ω,τ),…,XM(ω,τ)を受け取り、マイク感度補正推定算出部130からマイク感度補正推定値G(τNq)を受け取り、これらの値からマイクロホンmに対応する音響信号Xm(ω,τ)を次式により正規化する(S140)。
マイク感度正規化部140は、算出したマイク感度正規化済音響信号X~m(ω,τ)をベクトル分類部150に渡す。マイク感度正規化済音響信号X~m(ω,τ)は、非音声区間の音響信号に基づいてマイク感度が正規化された周波数領域の音響信号ともいえる。ここで分母のGm(τ)は、正規化すべき音響信号Xm(ω,τ)のフレームτに先立つ非音声区間のフレームτNqで観測されたマイク感度補正推定値である。
M個の音響信号x1,…,xm,…,xMは、N台の端末に搭載されたM個のマイクロホンで録音したものを用いるため、マイクロホンごとにマイク感度が異なる場合がある。マイク感度が異なる場合、同じ音圧を与えても信号出力値には違いが生じる(マイク感度のよいマイクロホンの信号出力値のほうが大きくなる)。そこで、本実施形態では、非音声区間において求めたマイク感度補正推定値を用いて、音響信号のマイク感度を正規化する。
<ベクトル分類部150>
ベクトル分類部150は、マイク感度正規化部140からマイク感度正規化済音響信号X~m(ω,τ)を受け取り、VAD判定部120から音声区間集合ΦSを受け取り、これらの値を用いて、音声区間におけるマイク感度正規化済音響信号に対応する値(VmSp)/||v-Sp)||)を要素とし、音声区間における音響信号の出現傾向を示す第一出現傾向ベクトルv~(τSp)に対してクラスタリングを行い、音源に対応する1つ以上のクラスタに分類する(S150)。
スマートフォンなどの音響信号を観測している端末は分散して配置されているため(図3参照)、音源に最も近い端末に搭載されたマイクロホンが他の端末に搭載されたマイクロホンの音響信号に比べて大きなパワーで音響信号を観測する。このことから、マイクロホン(チャネル)間の相対的な音響パワーをフレームかつ類似する音響パワーごとに分類することで音源(もしくは発話者)ごとに分類することができる。例えば、図3のスピーカS1で音を再生すると、No.5のマイクロホンの音響パワーは他のマイクロホンの音響パワーと比べ大きな値となる。一方、スピーカS2で音を再生すると、No.3のマイクロホンの音響パワーは他のマイクロホンの音響パワーと比べ大きな値となる。このような性質を利用し、音響信号(音響信号の音響パワー)の大きさ(出現傾向)をクラスタリングすることで音源に対応するクラスタに分類することができる。なお、このような性質を利用するために、想定されうる全ての音源に対して、音響信号の出現傾向が異なるように、マイクロホンを配置することが望ましい。例えば、図4のようにマイクロホンを配置すると、スピーカS1で音を再生したときとS2で音を再生したときとで、音響信号の出現傾向がほぼ同じになるため、同一クラスタに分類される恐れがあり、音声強調性能が劣化する可能性がある。
ベクトル分類部150は、マイク感度正規化済音響信号X~m(ω,τ)と音声区間集合ΦSとを用いて、フレーム毎に各チャネルの音響信号実効値Vmをまとめたベクトルv-を以下の式で生成する。
ここで、上付き添え字Tは転置を、τSpは音声区間集合ΦSに含まれるフレームを示す。式(4)において音響信号実効値VmSp)の算出元であるX~m(ω,τSp)は、音声区間におけるマイク感度正規化済音響信号である。さらに、ベクトルv-を次式により正規化し、第一出現傾向ベクトルv~(τSp)を求める。
また式(5)の通り、第一出現傾向ベクトルv~(τSp)は式(3)に示す全チャネルの音響信号実効値VmSp)のノルムで全チャネルの音響信号実効値VmSp)のそれぞれを正規化したベクトルである。第一出現傾向ベクトルv~(τSp)をフレームτSpかつ類似するベクトルごとに分類することでフレームごとの音源を分類する。例えば、ベクトルの分類には、教師なし学習のオンラインクラスタリングを用いる。一例として、leader-followerクラスタリングを用いて分類する(参考文献2参照)。
[参考文献2] Richard O. Duda, E. Hart, David G. Stork Peter. "Pattern Classification", Wiley-Interscience,2000 , p.559-563.
フレームτごとの分類結果を示す変数をR(τ)とする。τ=0におけるRの初期値はR(0)=1とする。各クラスタrの重心c- rSp)は以下の式で計算する。
ここで、ΨrSp)={τr|R(τr)=r}τ_r∈τ_Spとなる集合であり(ただし、下付き添え字におけるa_bはabを表し、τ_r、τ_Spはそれぞれτr、τSpを表す)、音声区間集合ΦSに含まれるフレームτs1からτSPまでの間にR(τr)=rとなるフレームτrを集めたフレームの集合である。また|ΨrSp)|は集合ΨrSp)の要素数(音声区間集合ΦSに含まれるフレームのうち、あるクラスタrに分類されたフレームの総数)を表す。コサイン類似度は以下の式を用いる。
ここで、v~(τSp)および生成済のクラスタrについて、次式によりDrSp)の最小値Dmin(D1Sp),D2Sp),…,DkSp)の中の最小値)を求め、Dminが閾値η未満となった場合には、R(τSp)←rとする。つまり、フレームτSpを既存のクラスタrに分類する。
ここで、kはフレームτSpまでに生成した総クラスタ数を表す。kの初期値は1とする。もし、Dminが閾値η以上となったら総クラスタ数kを1つ増やす。つまりk←k+1とする。そして、R(τSp)←kとする。つまり、フレームτSpを新たなクラスタrに分類する。
以下、τSpがΦSに含まれる最後のτSPになるまで、ベクトル分類状況に応じてクラスタ数kを増やしならが繰り返す。ηは1以下の数字で例えば0.2とする。求めたクラスタ分類結果ΨrSp)を感度行列推定部160に渡す。クラスタ分類結果ΨrSp)は音声区間集合ΦSに含まれるフレームτSpがクラスタrに含まれることを表す。ΦSに含まれる全てのフレームτSpについてクラスタ分類結果ΨrSp)を求め、出力する。なお、クラスタ分類結果ΨrSp)は音声区間集合ΦSに含まれるフレームのうち、あるクラスタrに分類されたフレームの集合を表す。
<感度行列推定部160>
感度行列推定部160は、マイク感度正規化部140からマイク感度正規化済音響信号X~m(ω,τ)を受け取り、ベクトル分類部150からクラスタ分類結果ΨrSp)を受け取り、これらの値を用いて、クラスタrおよびマイクロホンm毎の、クラスタrに属するマイクロホンmの(マイク感度正規化済)音響信号のパワー|X~m(ω,τ)|2(ただしτ∈ΨrSp))を全ての(マイク感度正規化済)音響信号X~m(ω,τ)のパワー|X~m(ω,τ)|2を要素とするベクトルP- X(ω,τ)=[|X~1(ω,τ)|2,…,|X~m(ω,τ)|2,…,|X~M(ω,τ)|2]T(ただしτ∈ΨrSp))のノルムで正規化した値
の平均値
を要素とする感度行列A(ω)を推定する(S160)。
まず、感度行列推定部160は、マイク感度正規化済音響信号X~m(ω,τ)からそのパワー|X~m(ω,τ)|2を求める。パワー|X~m(ω,τ)|2とクラスタ分類結果ΨrSp)とから感度行列A(ω)の要素Cm,r(ω)を式(9)により求める。言い換えると、P- X(ω,τ)はマイクロホン(チャネル)m毎に感度を正規化した周波数領域の音響信号のパワー|X~m(ω,τ)|2のベクトルである。式(9)によって各チャネルの音響信号の出現傾向が類似するものをまとめたクラスタ分類結果ΨrSp)から、クラスタr毎およびマイクロホン(チャネル)m毎に、当該クラスタrに属するマイクロホン(チャネル)全体の周波数領域の音響信号のパワーで正規化した各マイクロホン(チャネル)の周波数領域の音響信号のパワーの平均値を感度行列の要素として得ることができる。Cを用いて感度行列A(ω)は以下の式で表す。
感度行列推定部160は、求めた感度行列A(ω)をフィルタ係数算出部170に渡す。
<フィルタ係数算出部170>
フィルタ係数算出部170は、感度行列推定部160から感度行列A(ω)を受け取り、VAD判定部120から非音声区間集合ΦNを受け取り、マイク感度正規化部140からマイク感度正規化済音響信号X~m(ω,τ)を受け取る。これらの値を用いて、強調したい音源rに対応するクラスタに対応する音源ベクトル及び非音声区間におけるマイク感度正規化済音響信号X~m(ω,τ)(ただし、τ∈ΦN)に応じて、強調のためのフィルタ係数を算出する(S170)。
なお、本実施形態では、音源ベクトルの要素として、感度行列の、強調したい音源に対応するクラスタに対応する要素を用いる。
まず、フィルタ係数算出部170は、非音声区間集合ΦNとマイク感度正規化済音響信号X~m(ω,τ)とを用いて、次式により、非音声区間の相互相関行列の期待値RN(ω,τ)を求める。
ここで、x-(ω,τ)はマイクロホン(チャネル)毎に感度を正規化した周波数領域の音響信号の実効値のベクトルであり、E[]は期待値の計算を示す。なお、期待値RN(ω,τ)は新たな非音声区間集合ΦNが観測される毎に更新される。
フィルタの設計には以下の方法を用いた。
本実施形態では、感度行列Aを用いてフィルタを設計する。フィルタの算出は最小分散法に基づく。クラスタrを強調するフィルタの設計は以下の式を用いる。
ここで、上付き添え字Hはエルミート転置を、arは感度行列Aのある音源rに対応するクラスタrに対応するベクトル(音源ベクトル)を表す。つまり、ar(ω)=[C1,r(ω),…,CM,r(ω)]Tとなるベクトルである。wr(ω,τ)の分母は正規化項に対応し、RN -(ω,τ)は雑音を最小化する係数の行列である。
フィルタ係数算出部170は、求めたフィルタ係数wr(ω,τ)をフィルタ処理部180に渡す。なお、フィルタ係数wr(ω,τ)は全てのクラスタr=1,2,…,kに対して求めてもよいし、強調する音が決まっている場合には、対応するクラスタのフィルタ係数のみを求めてもよい。
<フィルタ処理部180>
フィルタ処理部180は、フィルタ係数算出部170からフィルタ係数wr(ω,τ)を受け取り、マイク感度正規化部140からマイク感度正規化済音響信号X~m(ω,τ)を受け取る。フィルタ処理部180は、M個の音響信号(より詳しく言うとマイク感度正規化済音響信号X~m(ω,τ))に対して、フィルタ係数wr(ω,τ)を用いてフィルタ処理を行い(S180)、ある音源rが発する音を強調するための再生信号yr(n)を求め、出力する。
例えば、次式により、フィルタ処理を行う。
さらに、フィルタ処理部180は、振幅スペクトル領域でフィルタ処理した再生信号|Yr(ω,τ)|に位相を付与する。位相は音響信号のうち強調対象の音源rを最も良いSN比で観測したマイクロホン(チャネル)l(エル)の音響信号の位相を与える。
lは以下の式で決定する
位相を付与したYr^(ω,τ)を時間領域に変換し、時間領域の再生信号yr(n)を得る。例えば、時間領域への変換には、VAD判定部120における周波数領域変換に対応する方法(例えばIFFT)を用いればよい。その際、例えば、オーバーラップアド法を用いてもよい。
<効果>
このような構成により、自由に配置したマイクロホンを搭載した複数の端末で録音した音響信号から、それぞれの録音機能のサンプリング周波数が非同期であったり、マイクロホン感度が異なっていたりしたとしても所望の音源から発せられる音を強調するフィルタ係数を算出することができる。スマートフォンなどのマイクロホンを搭載し音を集音することが出来る汎用端末を用いて、各端末のA/D変換器のクロックの同期や、マイクロホンの配置、音源の数などを事前に設定する必要なく、手軽に各音源の音を強調することができるようになる。また、リアルタイムでフィルタ係数を計算できるため、端末や音源が移動したり、消えたり、新たに現れたりしても対応することができる。
<変形例>
本実施形態では、音声強調装置として機能させているが、フィルタ処理部180を別装置として設け、フィルタ係数算出装置として機能させてもよい。また、音声区間情報、非音声区間情報、マイク感度正規化済音響信号を別装置で求め、本装置の入力としてもよい。その場合には、VAD判定部120、マイク感度補正推定算出部130、マイク感度正規化部140を別装置として設けてもよい。
受信部110で受信する音響信号の一部または全部をアナログ音響信号としてもよい。
本実施形態では、各部が直接データを送受信するものとして記載したが、図示しない記憶部を介してデータを送受信してもよい。
本実施形態では、所望の音源を強調するためのフィルタ係数を算出する方法について説明したが、本発明を所望の音源を抑圧するためのフィルタ係数の算出する方法に適用することもできる。
<抑圧に用いる例>
音源rを抑圧し、同時に音源uを強調する例を記載する。音源rを抑圧するためには、式(11)に代えて次式により、音源rを含む強調音源u以外の雑音成分を含めた相互相関行列の期待値RNを作成する。
クラスタuを強調するフィルタの設計は、式(12)に代えて、以下の式を用いる。
ここで、上付き添え字Hはエルミート転置を、auは感度行列Aのある音源uに対応するクラスタuに対応するベクトル(音源ベクトル)を表す。つまり、au(ω)=[C1,u(ω),…,CM,u(ω)]Tとなるベクトルである。wu(ω,τ)の分母は正規化項に対応し、RN -1(ω,τ)は雑音を最小化する係数の行列であり、音源uを強調し、音源rを抑圧することができる。なお、ある音源rが発する音を強調、及び/又は、抑圧するための再生信号yrを生成する、または、図示しないスピーカで再生する装置を音声再生装置ともいう。
<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
第一実施形態では、各音源から各端末までに音が伝搬する間の音の減衰量を感度行列によって擬似的に表現しているが、本実施形態では減衰量を強調対象の音源rの音声区間の相関行列の固有値ベクトルを用いて擬似的に表現する。
図5は第二実施形態に係る音声強調装置200の機能ブロック図を、図2はその処理フローを示す。
音声強調装置200は、受信部110と、VAD判定部120と、マイク感度補正推定算出部130と、マイク感度正規化部140と、ベクトル分類部150と、フィルタ係数算出部270と、フィルタ処理部180とを含む。感度行列推定部160を含まない点(図2においてS160は行わない)と、フィルタ係数算出部における処理が第一実施形態とは異なる。
<フィルタ係数算出部270>
フィルタ係数算出部270は、VAD判定部120から非音声区間集合ΦNを受け取り、マイク感度正規化部140からマイク感度正規化済音響信号X~m(ω,τ)を受け取り、ベクトル分類部150からクラスタ分類結果ΨrSp)を受け取る。これらの値を用いて、強調したい音源rに対応するクラスタに対応する音源ベクトル及び非音声区間におけるマイク感度正規化済音響信号に応じて、強調のためのフィルタ係数を算出する(S270)。
まず、フィルタ係数算出部270は、フィルタ係数算出部170と同様の方法により、非音声区間の相互相関行列の期待値RN(ω,τ)を求める。
さらに、強調したい音源に対応するクラスタrに対応する周波数毎の音声区間における音響信号の出現傾向を示す第二出現傾向ベクトルx-(ω,τ)の相互相関行列の期待値Rr(ω,τ)から、音響信号の固有空間の最大固有値に対応した固有ベクトルz- r(ω,τ)を抽出し、固有ベクトルz- r(ω,τ)を音源ベクトルとし、フィルタ係数を算出する。
例えば、マイク感度正規化済音響信号X~m(ω,τ)とクラスタ分類結果ΨrSp)とを用いて次式により、相互相関行列の期待値Rr(ω,τ)を求める。
次に、フィルタ係数算出部270は、相互相関行列の期待値Rr(ω,τ)を固有値分解し、クラスタrに含まれる音声区間の固有空間の最大固有値に対応した固有ベクトルz- r(ω)を抽出する。この固有値ベクトルz- r(ω)を用いて、次式によりフィルタ係数を求める。
<効果>
このような構成とすることで、第一実施形態と同様の効果を得ることができる。
<変形例>
第一実施形態の変形例と同様に、所望の音源を抑圧するためのフィルタ係数の算出する方法に適用することもできる。
<抑圧に用いる例>
音源rを抑圧する例を記載する。音源rを抑圧するためには、式(21)に代えて次式により、音源rと雑音成分を用いて非音声区間の相互相関行列の期待値RNを作成する。
また強調する任意の音源uの信号が含まれる相互相関行列の期待値Ruは以下で求める。
もしくは、音源r以外の全ての音声信号を強調する相互相関行列の期待値Ruを以下で求める。
相互相関行列の期待値Ru(ω,τ)を固有値分解し、クラスタuに含まれる音声区間の固有空間の最大固有値に対応した固有ベクトルz- u(ω)を抽出する。この固有値ベクトルz- u(ω)を用いて、次式によりフィルタ係数を求める。
<実施例>
スマートフォンの台数を5台用いて、直線配置ではない配置で2個の音源S1およびS2から発信された音を録音した。スマートフォンとスピーカの配置は図3に示す。録音した信号に対して第一実施形態、第二実施形態の処理を実施した。処理のパラメータを以下に示す。
フィルタ係数算出部170、270の手法で音源1(S1)を強調し、音源2(S2)を抑圧するフィルタを作成した。音源1(S1)と音源2(S2)のパワー比で性能を確認した結果を図6に示す。
図6は、何れの処理も行わずに音声強調を行う前の各端末の音響信号のうち最もS/Nのよい音響信号を選んだ結果、参考文献3のSN最大化基準を用いた結果、第一実施形態の感度行列を用いたフィルタ算出方法を用いた結果、第二実施形態に係る固有値分解を用いたフィルタ算出方法を用いた結果を示す。処理前に比べて第一実施形態では13[dB]性能が改善し、第二実施形態では16[dB]改善している。
[参考文献3]加古達也、小林和則、大室仲、 “非同期分散マイクアレーのための振幅スペクトルビームフォーマの提案”、 日本音響学会春季全国大会, 2013年, 1-P-5, p.829-830.
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1. 複数のマイクロホンでそれぞれ収音される複数の音響信号を用いて、音源が発する音を強調、又は/及び、抑圧するためのフィルタ係数を算出するフィルタ係数算出装置であって、
    音声区間における、複数のマイクロホンの音響信号をマイク感度について正規化した値であるマイク感度正規化済音響信号に対応する値を要素とし、音声区間における音響信号の出現傾向を示す第一出現傾向ベクトルに対してクラスタリングを行い、音源に対応する1つ以上のクラスタに分類するベクトル分類部と、
    強調、又は/及び、抑圧したい音源に対応するクラスタに対応する音源ベクトル及び非音声区間におけるマイク感度正規化済音響信号に応じて、強調、又は/および、抑圧のためのフィルタ係数を算出するフィルタ係数算出部と
    クラスタおよびマイクロホン毎の、当該クラスタに属するマイクロホンの音響信号のパワーを全ての音響信号のパワーで正規化した値の平均値を要素とする感度行列を推定する感度行列推定部とを含み、
    前記フィルタ係数算出部は、前記感度行列の、強調、又は/および、抑圧したい音源に対応するクラスタに対応する要素を前記音源ベクトルの要素とし、フィルタ係数を算出する、
    フィルタ係数算出装置。
  2. 複数のマイクロホンでそれぞれ収音される複数の音響信号を用いて、音源が発する音を強調、又は/及び、抑圧するためのフィルタ係数を算出するフィルタ係数算出装置であって、
    音声区間における、複数のマイクロホンの音響信号をマイク感度について正規化した値であるマイク感度正規化済音響信号に対応する値を要素とし、音声区間における音響信号の出現傾向を示す第一出現傾向ベクトルに対してクラスタリングを行い、音源に対応する1つ以上のクラスタに分類するベクトル分類部と、
    強調、又は/及び、抑圧したい音源に対応するクラスタに対応する音源ベクトル及び非音声区間におけるマイク感度正規化済音響信号に応じて、強調、又は/および、抑圧のためのフィルタ係数を算出するフィルタ係数算出部とを含み、
    前記フィルタ係数算出部は、強調、又は/および、抑圧したい音源に対応するクラスタに対応する周波数毎の音声区間における音響信号の出現傾向を示す第二出現傾向ベクトルの相互相関行列の期待値から、音響信号の固有空間の最大固有値に対応した固有ベクトルを抽出し、当該固有ベクトルを前記音源ベクトルとし、フィルタ係数を算出する、
    フィルタ係数算出装置。
  3. 請求項1または請求項に記載のフィルタ係数算出装置で算出したフィルタ係数を用いる音声再生装置であって、
    前記フィルタ係数を用いて、複数の前記音響信号に対してフィルタ処理を行うフィルタ処理部を含む、
    音声再生装置。
  4. 複数のマイクロホンでそれぞれ収音される複数の音響信号を用いて、音源が発する音を強調、又は/および、抑圧するためのフィルタ係数を算出するフィルタ係数算出方法であって、
    ベクトル分類部が、音声区間における、複数のマイクロホンの音響信号をマイク感度について正規化した値であるマイク感度正規化済音響信号に対応する値を要素とし、音声区間における音響信号の出現傾向を示す第一出現傾向ベクトルに対してクラスタリングを行い、音源に対応する1つ以上のクラスタに分類するベクトル分類ステップと、
    フィルタ係数算出部が、強調、又は/および、抑圧したい音源に対応するクラスタに対応する音源ベクトル及び非音声区間におけるマイク感度正規化済音響信号に応じて、強調、又は/および、抑圧のためのフィルタ係数を算出するフィルタ係数算出ステップと
    感度行列推定部が、クラスタおよびマイクロホン毎の、当該クラスタに属するマイクロホンの音響信号のパワーを全ての音響信号のパワーで正規化した値の平均値を要素とする感度行列を推定する感度行列推定ステップとを含み、
    前記フィルタ係数算出ステップにおいて、前記感度行列の、強調、又は/および、抑圧したい音源に対応するクラスタに対応する要素を前記音源ベクトルの要素とし、フィルタ係数を算出する、
    フィルタ係数算出方法。
  5. 複数のマイクロホンでそれぞれ収音される複数の音響信号を用いて、音源が発する音を強調、又は/および、抑圧するためのフィルタ係数を算出するフィルタ係数算出方法であって、
    ベクトル分類部が、音声区間における、複数のマイクロホンの音響信号をマイク感度について正規化した値であるマイク感度正規化済音響信号に対応する値を要素とし、音声区間における音響信号の出現傾向を示す第一出現傾向ベクトルに対してクラスタリングを行い、音源に対応する1つ以上のクラスタに分類するベクトル分類ステップと、
    フィルタ係数算出部が、強調、又は/および、抑圧したい音源に対応するクラスタに対応する音源ベクトル及び非音声区間におけるマイク感度正規化済音響信号に応じて、強調、又は/および、抑圧のためのフィルタ係数を算出するフィルタ係数算出ステップとを含み、
    前記フィルタ係数算出ステップにおいて、強調、又は/および、抑圧したい音源に対応するクラスタに対応する周波数毎の音声区間における音響信号の出現傾向を示す第二出現傾向ベクトルの相互相関行列の期待値から、音響信号の固有空間の最大固有値に対応した固有ベクトルを抽出し、当該固有ベクトルを前記音源ベクトルとし、フィルタ係数を算出する、
    フィルタ係数算出方法。
  6. 請求項1もしくは請求項のフィルタ係数算出装置、または、請求項の音声再生装置としてコンピュータを機能させるためのプログラム。
JP2014261937A 2014-12-25 2014-12-25 フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム Active JP6285855B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014261937A JP6285855B2 (ja) 2014-12-25 2014-12-25 フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014261937A JP6285855B2 (ja) 2014-12-25 2014-12-25 フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016122111A JP2016122111A (ja) 2016-07-07
JP6285855B2 true JP6285855B2 (ja) 2018-02-28

Family

ID=56328985

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014261937A Active JP6285855B2 (ja) 2014-12-25 2014-12-25 フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6285855B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106814670A (zh) * 2017-03-22 2017-06-09 重庆高略联信智能技术有限公司 一种河道采砂智能监管方法及系统
CN110111805B (zh) * 2019-04-29 2021-10-29 北京声智科技有限公司 远场语音交互中的自动增益控制方法、装置及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4738284B2 (ja) * 2006-08-29 2011-08-03 日本電信電話株式会社 ブラインド信号抽出装置、その方法、そのプログラム、及びそのプログラムを記録した記録媒体
JP5705190B2 (ja) * 2012-11-05 2015-04-22 日本電信電話株式会社 音響信号強調装置、音響信号強調方法、およびプログラム

Also Published As

Publication number Publication date
JP2016122111A (ja) 2016-07-07

Similar Documents

Publication Publication Date Title
US20210089967A1 (en) Data training in multi-sensor setups
JP2017044916A (ja) 音源同定装置および音源同定方法
CN111899756B (zh) 一种单通道语音分离方法和装置
US20220059114A1 (en) Method and apparatus for determining a deep filter
CN111863015A (zh) 一种音频处理方法、装置、电子设备和可读存储介质
CN106031196A (zh) 信号处理装置、方法以及程序
WO2020170907A1 (ja) 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム
JP6285855B2 (ja) フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム
CN112802490A (zh) 一种基于传声器阵列的波束形成方法和装置
JP5705190B2 (ja) 音響信号強調装置、音響信号強調方法、およびプログラム
JP6973254B2 (ja) 信号分析装置、信号分析方法および信号分析プログラム
JP5784075B2 (ja) 信号区間分類装置、信号区間分類方法、およびプログラム
US11297418B2 (en) Acoustic signal separation apparatus, learning apparatus, method, and program thereof
JP2019054344A (ja) フィルタ係数算出装置、収音装置、その方法、及びプログラム
JP6114053B2 (ja) 音源分離装置、音源分離方法、およびプログラム
US11322169B2 (en) Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program
CN113744752A (zh) 语音处理方法及装置
JP2003271168A (ja) 信号抽出方法および信号抽出装置、信号抽出プログラムとそのプログラムを記録した記録媒体
JP6059112B2 (ja) 音源分離装置とその方法とプログラム
EP4152321A1 (en) Apparatus and method for narrowband direction-of-arrival estimation
Imoto et al. Acoustic scene classification using asynchronous multichannel observations with different lengths
Chazan et al. LCMV beamformer with DNN-based multichannel concurrent speakers detector
JP7486266B2 (ja) 深層フィルタを決定するための方法および装置
US20230296767A1 (en) Acoustic-environment mismatch and proximity detection with a novel set of acoustic relative features and adaptive filtering
JP2010181467A (ja) 複数信号強調装置とその方法と、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171121

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180202

R150 Certificate of patent or registration of utility model

Ref document number: 6285855

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150