JP6285855B2 - フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム - Google Patents
フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム Download PDFInfo
- Publication number
- JP6285855B2 JP6285855B2 JP2014261937A JP2014261937A JP6285855B2 JP 6285855 B2 JP6285855 B2 JP 6285855B2 JP 2014261937 A JP2014261937 A JP 2014261937A JP 2014261937 A JP2014261937 A JP 2014261937A JP 6285855 B2 JP6285855 B2 JP 6285855B2
- Authority
- JP
- Japan
- Prior art keywords
- filter coefficient
- sound source
- coefficient calculation
- vector
- microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Description
従来のマイクロホンアレー処理では、全てのマイクロホンで観測する音響信号のサンプリング周波数の同期がとれている必要があった。本実施形態では、サンプリングが非同期の音響信号では利用するのが困難な時間差の情報を用いず、各音源から各端末までに音が伝搬する間の音の減衰量を感度行列によって擬似的に表現し、推定した感度行列を用いて特定音源を強調するフィルタを設計した点がポイントである。
図1は第一実施形態に係る音声強調装置100の機能ブロック図を、図2はその処理フローを示す。
受信部110は、スマートフォン、固定電話、ボイスレコーダなどN台の端末に搭載されたM個のマイクロホンで録音したM個の音響信号x1,…,xm,…,xMを受信する(S110)。
VAD判定部120は、受信部110から音響信号x1(n),…,xm(n),…,xM(n)を受け取り、この値からVAD(Voice Activity Detection)を判定する(S120)。まず、VAD判定部120は、時間領域の音響信号x1(n),…,xm(n),…,xM(n)を周波数領域の音響信号X1(ω,τ),…,Xm(ω,τ),…,XM(ω,τ)に変換する。例えば、FFT( Fast Fourier Transform:高速フーリエ変換)等により、周波数領域の信号に変換する。ωは周波数を表し、τは時刻情報nに基づいて設定した短時間フレーム分析のための時間フレームを示す。音声か非音声かの分類にはVAD手法を用いる。例えば、参考文献1を利用する。
[参考文献1]Jongseo Sohn, Nam Soo Kim, Wonyong Sung. "A Statistic Model-Based Voice Activity Detection", IEEE SIGNAL PROCESSING LETTERS, 1999, VOL.6, NO.1.
各チャネルmごとにフレームτに分割した音響信号Xm(ω,τ)に対して、区間分類を示すラベルを付与する。周波数領域に変換したM個の音響信号X1(ω,τ),…,Xm(ω,τ),…,XM(ω,τ)のうち非音声区間であることを示す雑音ラベルがun個(un>0)以上のマイクロホンで付与されたフレームτNqの集合を非音声区間集合ΦN={τN1,…τNq,…,τNQ}とする。q=1,2,…,Qである。非音声区間集合ΦNをマイク感度補正推定算出部130及びフィルタ係数算出部170に渡す。また、M個の音響信号X1(ω,τ),…,Xm(ω,τ),…,XM(ω,τ)のうち音声区間であることを示す音声ラベルがuv個(uv>0)以上のマイクロホンで付与されたフレームτSpの集合を音声区間集合ΦS={τS1,…,τSp,…τSP}とする。p=1,2,…,Pである。音声区間集合ΦSをベクトル分類部150に渡す。また、周波数領域の音響信号X1(ω,τ),…,Xm(ω,τ),…,XM(ω,τ)をマイク感度補正推定算出部130及びマイク感度正規化部140に渡す。このようにして、フレーム毎に音声区間か非音声区間かを判定する。
マイク感度補正推定算出部130は、VAD判定部120から周波数領域の音響信号X1(ω,τ),…,Xm(ω,τ),…,XM(ω,τ)と非音声区間集合ΦNを受け取り、これらの値を用いて、マイク感度補正推定値Gを算出する(S130)。あるフレームτNqにおいて、あるマイクロホンmに対応する音響信号Xm(ω,τ)に対して用いるマイク感度補正推定値Gm(τNq)は、一つ前の非音声区間のフレームτN(q-1)で求めたマイク感度補正推定値Gm(τN(q-1))を次式により更新することで求める。
マイク感度正規化部140は、VAD判定部120から周波数領域の音響信号X1(ω,τ),…,Xm(ω,τ),…,XM(ω,τ)を受け取り、マイク感度補正推定算出部130からマイク感度補正推定値G(τNq)を受け取り、これらの値からマイクロホンmに対応する音響信号Xm(ω,τ)を次式により正規化する(S140)。
ベクトル分類部150は、マイク感度正規化部140からマイク感度正規化済音響信号X~m(ω,τ)を受け取り、VAD判定部120から音声区間集合ΦSを受け取り、これらの値を用いて、音声区間におけるマイク感度正規化済音響信号に対応する値(Vm(τSp)/||v-(τSp)||)を要素とし、音声区間における音響信号の出現傾向を示す第一出現傾向ベクトルv~(τSp)に対してクラスタリングを行い、音源に対応する1つ以上のクラスタに分類する(S150)。
[参考文献2] Richard O. Duda, E. Hart, David G. Stork Peter. "Pattern Classification", Wiley-Interscience,2000 , p.559-563.
感度行列推定部160は、マイク感度正規化部140からマイク感度正規化済音響信号X~m(ω,τ)を受け取り、ベクトル分類部150からクラスタ分類結果Ψr(τSp)を受け取り、これらの値を用いて、クラスタrおよびマイクロホンm毎の、クラスタrに属するマイクロホンmの(マイク感度正規化済)音響信号のパワー|X~m(ω,τ)|2(ただしτ∈Ψr(τSp))を全ての(マイク感度正規化済)音響信号X~m(ω,τ)のパワー|X~m(ω,τ)|2を要素とするベクトルP- X(ω,τ)=[|X~1(ω,τ)|2,…,|X~m(ω,τ)|2,…,|X~M(ω,τ)|2]T(ただしτ∈Ψr(τSp))のノルムで正規化した値
フィルタ係数算出部170は、感度行列推定部160から感度行列A(ω)を受け取り、VAD判定部120から非音声区間集合ΦNを受け取り、マイク感度正規化部140からマイク感度正規化済音響信号X~m(ω,τ)を受け取る。これらの値を用いて、強調したい音源rに対応するクラスタに対応する音源ベクトル及び非音声区間におけるマイク感度正規化済音響信号X~m(ω,τ)(ただし、τ∈ΦN)に応じて、強調のためのフィルタ係数を算出する(S170)。
フィルタ処理部180は、フィルタ係数算出部170からフィルタ係数wr(ω,τ)を受け取り、マイク感度正規化部140からマイク感度正規化済音響信号X~m(ω,τ)を受け取る。フィルタ処理部180は、M個の音響信号(より詳しく言うとマイク感度正規化済音響信号X~m(ω,τ))に対して、フィルタ係数wr(ω,τ)を用いてフィルタ処理を行い(S180)、ある音源rが発する音を強調するための再生信号yr(n)を求め、出力する。
このような構成により、自由に配置したマイクロホンを搭載した複数の端末で録音した音響信号から、それぞれの録音機能のサンプリング周波数が非同期であったり、マイクロホン感度が異なっていたりしたとしても所望の音源から発せられる音を強調するフィルタ係数を算出することができる。スマートフォンなどのマイクロホンを搭載し音を集音することが出来る汎用端末を用いて、各端末のA/D変換器のクロックの同期や、マイクロホンの配置、音源の数などを事前に設定する必要なく、手軽に各音源の音を強調することができるようになる。また、リアルタイムでフィルタ係数を計算できるため、端末や音源が移動したり、消えたり、新たに現れたりしても対応することができる。
本実施形態では、音声強調装置として機能させているが、フィルタ処理部180を別装置として設け、フィルタ係数算出装置として機能させてもよい。また、音声区間情報、非音声区間情報、マイク感度正規化済音響信号を別装置で求め、本装置の入力としてもよい。その場合には、VAD判定部120、マイク感度補正推定算出部130、マイク感度正規化部140を別装置として設けてもよい。
音源rを抑圧し、同時に音源uを強調する例を記載する。音源rを抑圧するためには、式(11)に代えて次式により、音源rを含む強調音源u以外の雑音成分を含めた相互相関行列の期待値RNを作成する。
第一実施形態と異なる部分を中心に説明する。
フィルタ係数算出部270は、VAD判定部120から非音声区間集合ΦNを受け取り、マイク感度正規化部140からマイク感度正規化済音響信号X~m(ω,τ)を受け取り、ベクトル分類部150からクラスタ分類結果Ψr(τSp)を受け取る。これらの値を用いて、強調したい音源rに対応するクラスタに対応する音源ベクトル及び非音声区間におけるマイク感度正規化済音響信号に応じて、強調のためのフィルタ係数を算出する(S270)。
このような構成とすることで、第一実施形態と同様の効果を得ることができる。
第一実施形態の変形例と同様に、所望の音源を抑圧するためのフィルタ係数の算出する方法に適用することもできる。
音源rを抑圧する例を記載する。音源rを抑圧するためには、式(21)に代えて次式により、音源rと雑音成分を用いて非音声区間の相互相関行列の期待値RNを作成する。
スマートフォンの台数を5台用いて、直線配置ではない配置で2個の音源S1およびS2から発信された音を録音した。スマートフォンとスピーカの配置は図3に示す。録音した信号に対して第一実施形態、第二実施形態の処理を実施した。処理のパラメータを以下に示す。
[参考文献3]加古達也、小林和則、大室仲、 “非同期分散マイクアレーのための振幅スペクトルビームフォーマの提案”、 日本音響学会春季全国大会, 2013年, 1-P-5, p.829-830.
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (6)
- 複数のマイクロホンでそれぞれ収音される複数の音響信号を用いて、音源が発する音を強調、又は/及び、抑圧するためのフィルタ係数を算出するフィルタ係数算出装置であって、
音声区間における、複数のマイクロホンの音響信号をマイク感度について正規化した値であるマイク感度正規化済音響信号に対応する値を要素とし、音声区間における音響信号の出現傾向を示す第一出現傾向ベクトルに対してクラスタリングを行い、音源に対応する1つ以上のクラスタに分類するベクトル分類部と、
強調、又は/及び、抑圧したい音源に対応するクラスタに対応する音源ベクトル及び非音声区間におけるマイク感度正規化済音響信号に応じて、強調、又は/および、抑圧のためのフィルタ係数を算出するフィルタ係数算出部と、
クラスタおよびマイクロホン毎の、当該クラスタに属するマイクロホンの音響信号のパワーを全ての音響信号のパワーで正規化した値の平均値を要素とする感度行列を推定する感度行列推定部とを含み、
前記フィルタ係数算出部は、前記感度行列の、強調、又は/および、抑圧したい音源に対応するクラスタに対応する要素を前記音源ベクトルの要素とし、フィルタ係数を算出する、
フィルタ係数算出装置。 - 複数のマイクロホンでそれぞれ収音される複数の音響信号を用いて、音源が発する音を強調、又は/及び、抑圧するためのフィルタ係数を算出するフィルタ係数算出装置であって、
音声区間における、複数のマイクロホンの音響信号をマイク感度について正規化した値であるマイク感度正規化済音響信号に対応する値を要素とし、音声区間における音響信号の出現傾向を示す第一出現傾向ベクトルに対してクラスタリングを行い、音源に対応する1つ以上のクラスタに分類するベクトル分類部と、
強調、又は/及び、抑圧したい音源に対応するクラスタに対応する音源ベクトル及び非音声区間におけるマイク感度正規化済音響信号に応じて、強調、又は/および、抑圧のためのフィルタ係数を算出するフィルタ係数算出部とを含み、
前記フィルタ係数算出部は、強調、又は/および、抑圧したい音源に対応するクラスタに対応する周波数毎の音声区間における音響信号の出現傾向を示す第二出現傾向ベクトルの相互相関行列の期待値から、音響信号の固有空間の最大固有値に対応した固有ベクトルを抽出し、当該固有ベクトルを前記音源ベクトルとし、フィルタ係数を算出する、
フィルタ係数算出装置。 - 請求項1または請求項2に記載のフィルタ係数算出装置で算出したフィルタ係数を用いる音声再生装置であって、
前記フィルタ係数を用いて、複数の前記音響信号に対してフィルタ処理を行うフィルタ処理部を含む、
音声再生装置。 - 複数のマイクロホンでそれぞれ収音される複数の音響信号を用いて、音源が発する音を強調、又は/および、抑圧するためのフィルタ係数を算出するフィルタ係数算出方法であって、
ベクトル分類部が、音声区間における、複数のマイクロホンの音響信号をマイク感度について正規化した値であるマイク感度正規化済音響信号に対応する値を要素とし、音声区間における音響信号の出現傾向を示す第一出現傾向ベクトルに対してクラスタリングを行い、音源に対応する1つ以上のクラスタに分類するベクトル分類ステップと、
フィルタ係数算出部が、強調、又は/および、抑圧したい音源に対応するクラスタに対応する音源ベクトル及び非音声区間におけるマイク感度正規化済音響信号に応じて、強調、又は/および、抑圧のためのフィルタ係数を算出するフィルタ係数算出ステップと、
感度行列推定部が、クラスタおよびマイクロホン毎の、当該クラスタに属するマイクロホンの音響信号のパワーを全ての音響信号のパワーで正規化した値の平均値を要素とする感度行列を推定する感度行列推定ステップとを含み、
前記フィルタ係数算出ステップにおいて、前記感度行列の、強調、又は/および、抑圧したい音源に対応するクラスタに対応する要素を前記音源ベクトルの要素とし、フィルタ係数を算出する、
フィルタ係数算出方法。 - 複数のマイクロホンでそれぞれ収音される複数の音響信号を用いて、音源が発する音を強調、又は/および、抑圧するためのフィルタ係数を算出するフィルタ係数算出方法であって、
ベクトル分類部が、音声区間における、複数のマイクロホンの音響信号をマイク感度について正規化した値であるマイク感度正規化済音響信号に対応する値を要素とし、音声区間における音響信号の出現傾向を示す第一出現傾向ベクトルに対してクラスタリングを行い、音源に対応する1つ以上のクラスタに分類するベクトル分類ステップと、
フィルタ係数算出部が、強調、又は/および、抑圧したい音源に対応するクラスタに対応する音源ベクトル及び非音声区間におけるマイク感度正規化済音響信号に応じて、強調、又は/および、抑圧のためのフィルタ係数を算出するフィルタ係数算出ステップとを含み、
前記フィルタ係数算出ステップにおいて、強調、又は/および、抑圧したい音源に対応するクラスタに対応する周波数毎の音声区間における音響信号の出現傾向を示す第二出現傾向ベクトルの相互相関行列の期待値から、音響信号の固有空間の最大固有値に対応した固有ベクトルを抽出し、当該固有ベクトルを前記音源ベクトルとし、フィルタ係数を算出する、
フィルタ係数算出方法。 - 請求項1もしくは請求項2のフィルタ係数算出装置、または、請求項3の音声再生装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014261937A JP6285855B2 (ja) | 2014-12-25 | 2014-12-25 | フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014261937A JP6285855B2 (ja) | 2014-12-25 | 2014-12-25 | フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016122111A JP2016122111A (ja) | 2016-07-07 |
JP6285855B2 true JP6285855B2 (ja) | 2018-02-28 |
Family
ID=56328985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014261937A Active JP6285855B2 (ja) | 2014-12-25 | 2014-12-25 | フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6285855B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106814670A (zh) * | 2017-03-22 | 2017-06-09 | 重庆高略联信智能技术有限公司 | 一种河道采砂智能监管方法及系统 |
CN110111805B (zh) * | 2019-04-29 | 2021-10-29 | 北京声智科技有限公司 | 远场语音交互中的自动增益控制方法、装置及可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4738284B2 (ja) * | 2006-08-29 | 2011-08-03 | 日本電信電話株式会社 | ブラインド信号抽出装置、その方法、そのプログラム、及びそのプログラムを記録した記録媒体 |
JP5705190B2 (ja) * | 2012-11-05 | 2015-04-22 | 日本電信電話株式会社 | 音響信号強調装置、音響信号強調方法、およびプログラム |
-
2014
- 2014-12-25 JP JP2014261937A patent/JP6285855B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016122111A (ja) | 2016-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210089967A1 (en) | Data training in multi-sensor setups | |
JP2017044916A (ja) | 音源同定装置および音源同定方法 | |
CN111899756B (zh) | 一种单通道语音分离方法和装置 | |
US20220059114A1 (en) | Method and apparatus for determining a deep filter | |
CN111863015A (zh) | 一种音频处理方法、装置、电子设备和可读存储介质 | |
CN106031196A (zh) | 信号处理装置、方法以及程序 | |
WO2020170907A1 (ja) | 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム | |
JP6285855B2 (ja) | フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム | |
CN112802490A (zh) | 一种基于传声器阵列的波束形成方法和装置 | |
JP5705190B2 (ja) | 音響信号強調装置、音響信号強調方法、およびプログラム | |
JP6973254B2 (ja) | 信号分析装置、信号分析方法および信号分析プログラム | |
JP5784075B2 (ja) | 信号区間分類装置、信号区間分類方法、およびプログラム | |
US11297418B2 (en) | Acoustic signal separation apparatus, learning apparatus, method, and program thereof | |
JP2019054344A (ja) | フィルタ係数算出装置、収音装置、その方法、及びプログラム | |
JP6114053B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
US11322169B2 (en) | Target sound enhancement device, noise estimation parameter learning device, target sound enhancement method, noise estimation parameter learning method, and program | |
CN113744752A (zh) | 语音处理方法及装置 | |
JP2003271168A (ja) | 信号抽出方法および信号抽出装置、信号抽出プログラムとそのプログラムを記録した記録媒体 | |
JP6059112B2 (ja) | 音源分離装置とその方法とプログラム | |
EP4152321A1 (en) | Apparatus and method for narrowband direction-of-arrival estimation | |
Imoto et al. | Acoustic scene classification using asynchronous multichannel observations with different lengths | |
Chazan et al. | LCMV beamformer with DNN-based multichannel concurrent speakers detector | |
JP7486266B2 (ja) | 深層フィルタを決定するための方法および装置 | |
US20230296767A1 (en) | Acoustic-environment mismatch and proximity detection with a novel set of acoustic relative features and adaptive filtering | |
JP2010181467A (ja) | 複数信号強調装置とその方法と、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171121 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180202 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6285855 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |