JP5815489B2 - 音源別音声強調装置、方法、プログラム - Google Patents
音源別音声強調装置、方法、プログラム Download PDFInfo
- Publication number
- JP5815489B2 JP5815489B2 JP2012187776A JP2012187776A JP5815489B2 JP 5815489 B2 JP5815489 B2 JP 5815489B2 JP 2012187776 A JP2012187776 A JP 2012187776A JP 2012187776 A JP2012187776 A JP 2012187776A JP 5815489 B2 JP5815489 B2 JP 5815489B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- frequency domain
- sound
- correlation matrix
- spatial correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
伝達特性の測定等の事前調整なしで、つまりブラインドで、マイクロホンアレーを用いて音声強調を実現する方法として非特許文献1を挙げることができる。
(1)収音信号から、各音源に対応する空間相関行列を生成する。
M個のマイクロホンで受音したアナログ信号の周波数領域表現をX→(f,k)=[X1(f,k),…,XM(f,k)]Tとする。f, k, Tは、それぞれ周波数のインデックス、フレーム時間のインデックス、転置の演算子を表している。例えば、多人数が参加する会議などでは、或る時刻には特定話者のみが話していることが多い。これを音声の時間スパース性と呼ぶ。音源位置推定法(例えばGCC-PHAT)で推定した結果を基に、各音源(各発話者)が単独で音声を発している時間帯を推定する。なお、GCC-PHATについては、非特許文献2を参照されたい。ここで、i番目の音源が単独で音声を発している時間フレームのインデックス群をτi(k)と表すとする。τi(k)に含まれるフレーム時間での収音信号の共分散行列を計算して、i番目の音源に対応する空間相関行列をRi(f)とする。E{・}, Hはそれぞれ期待値、共役転置の演算子を表している。
i番目の音源に対応する空間相関行列Ri(f)とそれ以外の音源(雑音源)に対応する空間相関行列RN(f)を用意する。音場にI個の音源が存在する場合、RN(f)は、例えば式(2)のように計算することができる。
上記(2)の処理で得られたフィルタW→ i(f)を収音信号に乗じることでi番目の音源で発せられた音声を強調し、雑音源で発せられた音声や雑音等をできるだけ抑圧した周波数領域信号Yi(f,k)を出力する(式(5))。
伝達特性の測定等の事前調整が必要であるが、マイクロホンアレーの狭指向性能を最大限に高めて音声強調を実現する方法として非特許文献3を挙げることができる。
拡散センシングは、マイクロホンアレーの狭指向性を最大限に高めるための収音信号の音響的な性質は何なのかを追求した技術である。この技術は、マイクロホンアレーの周りに存在する音声反射体(音声反射体は自然に存在する物でも人工的に設置された物でもよい)からの反射音を積極的に収音することを特徴としている。この技術によると、反射体によって音場の伝達特性が変化し収音信号間の相関性が小さくなることでフィルタ設計方式とは独立に目的音源以外の音源から発せられた音声や雑音のパワーを広帯域に亘って最小化できる。M個のマイクロホンで受音した反射体からの反射音を含む収音信号の周波数領域表現をX→(f,k)=[X1(f,k),…,XM(f,k)]Tとする。f, k, Tは、それぞれ周波数のインデックス、フレーム時間のインデックス、転置の演算子を表している。
本発明の実施形態の機能構成および処理フローを図と図に示す。この実施形態の音源別音声強調装置1は、周波数領域変換部110、音声区間判定部120、音声区間クラスタリング部130、フィルタ生成部140、フィルタ適用部150、時間領域変換部160、記憶部190を含む。
拡散センシング技術に則って、マイクロホンアレーを構成するM個のマイクロホン100−1,…,100−Mを用いて収音する。Mは2以上の整数である。収音されるアナログ信号(収音信号)には各音源からの直接音だけでなく反射体で反射した反射音も含まれる。反射音は、例えば、マイクロホンアレーの近傍に反射体を置くことによって意図的に生成することができる。
周波数領域変換部110が、M個のマイクロホン100−1,…,100−Mで収音されたアナログ信号(収音信号)を周波数領域の信号X→(f,k)=[X1(f,k),…,XM(f,k)]Tに変換して出力する。f, k, Tは、それぞれ離散周波数のインデックス、フレーム番号のインデックス、転置の演算子を表している。
音声区間判定部120が、フレームインデックスkのフレームについて周波数領域信号X→(f,k)が、(a)無音や定常雑音区間なのか(b)音声区間なのかを判定する。無音や定常雑音区間の信号のパワーは通常小さいので、閾値を用いて判定することができる。例えば、周波数領域信号のパワーや大きさを用いるのであれば、式(9)のように周波数領域信号の大きさ‖X→(f,k)‖が閾値δ1(f)より大であれば音声区間と判定できる(周波数領域信号の大きさあるいはパワーが閾値δ1(f)以上であれば音声区間と判定するようにしてもよい)。
音声区間クラスタリング部130が、ステップS3の処理で音声区間と判定されたフレームの音声がどの音源から発せられた音声であるか、つまり、音声区間と判定されたフレームを音源ごとにクラスタリングする。
フィルタ生成部140が、SN比最大化法に則って、所望のi番目の音源(これは例えば音源指定情報の入力によって特定される)についてSN比最大化ビームフォーミングフィルタW→ i(f)(f∈F)を生成する。処理単位に含まれるK個のフレームのうち、C(k)=iとなったフレームインデックスkの集合をSi(k)とする。このとき、i番目の音源に対応する空間相関行列Ri(f)とそれ以外の音源(雑音源)に対応する空間相関行列RN(f)は、記憶部190から取得したK個のフレームの周波数領域信号X→(f,k)を用いて、例えば式(15)、式(16)に基づいて計算することができる。
フィルタ適用部150は、フレームkごとに、各周波数f∈Fについて、周波数領域信号X→(f,k)=[X1(f,k),…,XM(f,k)]Tに、ステップS5の処理で得られたフィルタW→ i(f)を適用して、i番目の音源で発せられた音声を強調し雑音源で発せられた音声や雑音等をできるだけ抑圧した出力信号Yi(f,k)を出力する(式(17)参照)。
時間領域変換部160は、第kフレームの各周波数f∈Fの出力信号Yi(f,k)を時間領域に変換して第kフレームのフレーム単位時間領域信号yi(k)を得て、さらに、得られたフレーム単位時間領域信号yi(k)をフレーム番号のインデックスの順番に連結してi番目の音源からの音声が強調された時間領域信号yi(t)を出力する。周波数領域信号を時間領域信号に変換する方法は、ステップS2の処理で用いた変換方法に対応する逆変換であり、例えば高速離散逆フーリエ変換である。
拡散センシング技術によると、フィルタの設計コンセプト自体に影響を与えないので、SN比最大化法以外の手法によってフィルタW→(f)を設計することができる。
上述のSN比最大化法以外の手法として、<1>最小分散無歪応答法によるフィルタ設計法、<2>パワーインバージョン(Power Inversion)に基づくフィルタ設計法、<3>一つ以上の抑圧点(雑音のゲインが抑圧される位置)を拘束条件に持つ最小分散無歪応答法によるフィルタ設計法、<4>遅延合成(Delay-and-Sum Beam Forming)法によるフィルタ設計法、<5>最尤法によるフィルタ設計法、<6>AMNOR(Adaptive Microphone-array for noise reduction)法によるフィルタ設計法を例示できる(参考文献A-C参照)。これらの方法による場合、i番目の音源に対応する空間相関行列Ri(f)とそれ以外の音源(雑音源)に対応する空間相関行列RN(f)の両方を求めるのではなく、いずれか一方を求めれば足りる場合がある。また、空間相関行列Ri(f)と空間相関行列RN(f)の算出式も式(15)、式(16)に限定されるものではない。
(参考文献A)菊間信良著、「アダプティブアンテナ技術」、第1版、株式会社オーム社、2003年、pp.35-90
(参考文献B)浅野太著、「日本音響学会編 音響テクノシリーズ16 音のアレイ信号処理-音源の定位・追跡と分離-」、初版、株式会社コロナ社、pp.88-89, 259-261
(参考文献C)金田豊著、「適応形雑音抑圧マイクロホンアレー(AMNOR)の指向特性」、日本音響学会誌44巻1号(1988)、pp.23-30
上述の実施形態に関わる音源別音声強調装置は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)と、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、音源別音声強調装置に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
Claims (5)
- 複数のマイクロホンで収音して得られる収音信号がそれぞれ周波数領域に変換されたフレーム単位の周波数領域信号が音声区間であるか否かを判定する音声区間判定部と、
音声区間と判定された上記フレームの上記周波数領域信号を各音源に対応する空間相関行列との相関値のパワーを算出することで音源ごとにクラスタリングする音声区間クラスタリング部と、
上記音声区間クラスタリング部によって所望の音源(以下、対象音源という)にクラスタリングされた上記フレームのインデックスの集合をSとして、当該集合Sに属するインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源に対応する空間相関行列RTを、或いは、当該集合Sに属さないインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源以外の音源に対応する空間相関行列RNを、求めて、当該空間相関行列RTおよび/または当該空間相関行列RNを用いて、当該対象音源について、周波数ごとのフィルタを求めるフィルタ生成部と、
上記フィルタ生成部によって求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して出力信号を得るフィルタ適用部と
を含む音源別音声強調装置。 - 複数のマイクロホンで収音して得られる収音信号がそれぞれ周波数領域に変換されたフレーム単位の周波数領域信号が音声区間であるか否かを判定する音声区間判定部と、
音源数が未知である場合に、既存のクラスタのセントロイドから所定の閾値以上離れたフレームが入力された時に、当該フレームに対応する音源をセントロイドとして新たなクラスタを生成することによって音源数を増大させ、音声区間と判定された上記フレームの上記周波数領域信号を各音源に対応する空間相関行列との相関値のパワーを算出することで音源ごとにクラスタリングするとともに、当該音源数を出力する音声区間クラスタリング部と、
上記音声区間クラスタリング部によって所望の音源(以下、対象音源という)にクラスタリングされた上記フレームのインデックスの集合をSとして、当該集合Sに属するインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源に対応する空間相関行列RTを、或いは、当該集合Sに属さないインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源以外の音源に対応する空間相関行列RNを、求めて、当該空間相関行列RTおよび/または当該空間相関行列RNを用いて、当該対象音源について、周波数ごとのフィルタを求めるフィルタ生成部と、
上記フィルタ生成部によって求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して出力信号を得るフィルタ適用部と
を含む音源別音声強調装置。 - 複数のマイクロホンで収音して得られる収音信号がそれぞれ周波数領域に変換されたフレーム単位の周波数領域信号が音声区間であるか否かを判定する音声区間判定ステップと、
音声区間と判定された上記フレームの上記周波数領域信号を各音源に対応する空間相関行列との相関値のパワーを算出することで音源ごとにクラスタリングする音声区間クラスタリングステップと、
上記音声区間クラスタリングステップにて所望の音源(以下、対象音源という)にクラスタリングされた上記フレームのインデックスの集合をSとして、当該集合Sに属するインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源に対応する空間相関行列RTを、或いは、当該集合Sに属さないインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源以外の音源に対応する空間相関行列RNを、求めて、当該空間相関行列RTおよび/または当該空間相関行列RNを用いて、当該対象音源について、周波数ごとのフィルタを求めるフィルタ生成ステップと、
上記フィルタ生成ステップにて求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して出力信号を得るフィルタ適用ステップと
を有する音源別音声強調方法。 - 複数のマイクロホンで収音して得られる収音信号がそれぞれ周波数領域に変換されたフレーム単位の周波数領域信号が音声区間であるか否かを判定する音声区間判定ステップと、
音源数が未知である場合に、既存のクラスタのセントロイドから所定の閾値以上離れたフレームが入力された時に、当該フレームに対応する音源をセントロイドとして新たなクラスタを生成することによって音源数を増大させ、音声区間と判定された上記フレームの上記周波数領域信号を各音源に対応する空間相関行列との相関値のパワーを算出することで音源ごとにクラスタリングするとともに、当該音源数を出力する音声区間クラスタリングステップと、
上記音声区間クラスタリングステップにて所望の音源(以下、対象音源という)にクラスタリングされた上記フレームのインデックスの集合をSとして、当該集合Sに属するインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源に対応する空間相関行列RTを、或いは、当該集合Sに属さないインデックスを持つフレームの上記周波数領域信号を用いて当該対象音源以外の音源に対応する空間相関行列RNを、求めて、当該空間相関行列RTおよび/または当該空間相関行列RNを用いて、当該対象音源について、周波数ごとのフィルタを求めるフィルタ生成ステップと、
上記フィルタ生成ステップにて求められた上記フィルタを、上記周波数ごとに上記周波数領域信号に適用して出力信号を得るフィルタ適用ステップと
を有する音源別音声強調方法。 - コンピュータを、請求項1または請求項2に記載の音源別音声強調装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012187776A JP5815489B2 (ja) | 2012-08-28 | 2012-08-28 | 音源別音声強調装置、方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012187776A JP5815489B2 (ja) | 2012-08-28 | 2012-08-28 | 音源別音声強調装置、方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014045440A JP2014045440A (ja) | 2014-03-13 |
JP5815489B2 true JP5815489B2 (ja) | 2015-11-17 |
Family
ID=50396398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012187776A Expired - Fee Related JP5815489B2 (ja) | 2012-08-28 | 2012-08-28 | 音源別音声強調装置、方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5815489B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6755843B2 (ja) * | 2017-09-14 | 2020-09-16 | 株式会社東芝 | 音響処理装置、音声認識装置、音響処理方法、音声認識方法、音響処理プログラム及び音声認識プログラム |
JP6961545B2 (ja) * | 2018-07-02 | 2021-11-05 | 株式会社東芝 | 音信号処理装置、音信号処理方法、およびプログラム |
US11510000B2 (en) | 2018-08-08 | 2022-11-22 | Nippon Telegraph And Telephone Corporation | Sound collection apparatus |
-
2012
- 2012-08-28 JP JP2012187776A patent/JP5815489B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014045440A (ja) | 2014-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5486694B2 (ja) | 音声強調方法、装置、プログラム、記録媒体 | |
JP6335985B2 (ja) | マルチセンサ音源定位 | |
CN103931211B (zh) | 处理刚性球上的球面麦克风阵列的信号的方法及装置 | |
JP6594222B2 (ja) | 音源情報推定装置、音源情報推定方法、およびプログラム | |
JP2017503388A5 (ja) | ||
WO2010109708A1 (ja) | 受音信号処理装置、方法およびプログラム | |
KR100856246B1 (ko) | 실제 잡음 환경의 특성을 반영한 빔포밍 장치 및 방법 | |
JP6329296B2 (ja) | 収音装置 | |
CN105981404A (zh) | 使用麦克风阵列的混响声的提取 | |
CN103339961A (zh) | 用于通过声波三角测量进行空间性选择声音获取的装置及方法 | |
JP4891801B2 (ja) | 多信号強調装置、方法、プログラム及びその記録媒体 | |
JP2008158035A (ja) | 多音源有音区間判定装置、方法、プログラム及びその記録媒体 | |
JP5738218B2 (ja) | 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム | |
JP5815489B2 (ja) | 音源別音声強調装置、方法、プログラム | |
US9151662B2 (en) | Method for visualizing sound source energy distribution in echoic environment | |
JP6117142B2 (ja) | 変換装置 | |
JP5143802B2 (ja) | 雑音除去装置、遠近判定装置と、各装置の方法と、装置プログラム | |
JP5698166B2 (ja) | 音源距離推定装置、直間比推定装置、雑音除去装置、それらの方法、及びプログラム | |
JP5337189B2 (ja) | フィルタ設計における反射物の配置決定方法、装置、プログラム | |
JP5486567B2 (ja) | 狭指向音声再生処理方法、装置、プログラム | |
JP6063890B2 (ja) | 変換装置 | |
JP5826465B2 (ja) | 瞬時直間比推定装置、雑音除去装置、遠近判定装置、音源距離測定装置と、各装置の方法と、装置プログラム | |
JP5486568B2 (ja) | 音声スポット再生処理方法、装置、プログラム | |
JP2010181467A (ja) | 複数信号強調装置とその方法と、プログラム | |
WO2021124537A1 (ja) | 情報処理装置、算出方法、及び算出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140813 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150630 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150915 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150924 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5815489 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |