JP4891801B2 - 多信号強調装置、方法、プログラム及びその記録媒体 - Google Patents

多信号強調装置、方法、プログラム及びその記録媒体 Download PDF

Info

Publication number
JP4891801B2
JP4891801B2 JP2007038819A JP2007038819A JP4891801B2 JP 4891801 B2 JP4891801 B2 JP 4891801B2 JP 2007038819 A JP2007038819 A JP 2007038819A JP 2007038819 A JP2007038819 A JP 2007038819A JP 4891801 B2 JP4891801 B2 JP 4891801B2
Authority
JP
Japan
Prior art keywords
signal
frequency domain
frame
enhancement
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007038819A
Other languages
English (en)
Other versions
JP2008203474A (ja
Inventor
章子 荒木
宏 澤田
昭二 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007038819A priority Critical patent/JP4891801B2/ja
Publication of JP2008203474A publication Critical patent/JP2008203474A/ja
Application granted granted Critical
Publication of JP4891801B2 publication Critical patent/JP4891801B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、信号処理の技術分野に関する。特に、源信号が複数個あり、それらの源信号に対してさらにノイズが重畳した信号を複数個のセンサで観測した時に、それぞれの源信号を強調する技術に関する。例えば、話者が複数人いる状況で、その中の1人又は複数人の話者の音声に対してさらにノイズが重畳した信号を複数個のマイクロホンで観測した時に、それぞれの話者の音声信号を強調する技術に関する。
源信号が1個あり、その源信号に対してさらにノイズが重畳した信号を複数個のセンサm(m=1,…,M)で観測した時に、源信号を強調する技術としては、SN比最大化ビームフォーマがある(例えば、非特許文献1参照。)。
センサmでの観測信号をx(t)とし、その短時間フーリエ変換をx(f,t)とする。また、ビームフォーマの係数をw(f)、その係数に基づくビームフォーマの出力y(f,t)を、
Figure 0004891801
とする。ここで、[・]は、・の共役複素数、[・]は、・の共役転置、[・]は、・の転置であり、W(f)=[w(f),…,w(f)]、X(f,t)=[x(f,t),…,x(f,t)]である。
このとき、ビームフォーマの出力信号y(f,t)中の源信号成分とノイズ成分との比(すなわち、SN比)
Figure 0004891801
を最大化するW(f)をSN比最大化ビームフォーマの係数とする。ここで、R(f)は、源信号のみの時間区間Ρにおける観測信号の相関行列、R(f)は、ノイズのみの時間区間Ρにおける観測信号の相関行列である。すなわち、|Ρ|を、Ρに属する時間フレーム数とすると、
Figure 0004891801
である。
上記式(1)で定まるSN比λ(f)をW(f)で微分した式=0として、その式を変形すると次式の関係が得られる。
Figure 0004891801
上記SN比λ(f)を最大化することは、上記式で与えられた一般化固有値問題における最大固有値を求めることと等しい。そして、最大固有値に対応する固有ベクトルE(f)が、SN比最大化ビームフォーマの係数W(f)を与える。
Figure 0004891801
例えば、源信号が音声信号である場合を考える。上述のSN比最大ビームフォーマを音声に応用した例として、非特許文献2に記載した技術が存在する。非特許文献2では、ノイズのみの時間区間Ρにおける観測信号の相関行列R(f)を音声がない区間において推定し、音声のみの時間区間Ρにおける観測信号の相関行列R(f)の代わりに全ての時間区間における観測信号の相関行列を利用する。
H.L.Van Trees,"Optimum Array Processing" John Wiley & Sons,2002. R.Haeb-Unbach and E.Warsitz,"Adaptive filter-and-sum beamforming in spatially correlated noise",Proc.IWAENC 2005,pp.125-128,2005.
背景技術に記載した音声強調方法は、1人の話者の音声だけにノイズが乗った場合にはうまく動作する。しかし、複数の話者の音声にノイズが乗った場合には、それぞれの話者の音声を強調することができない。
話者が3人おりマイクが3個ある環境で、背景技術に記載した音声強調方法を行った場合の実験結果を図9に示す。図9のs1〜s3は各話者の音声信号、x1はマイク1’における観測信号、y1は背景技術に記載した音声強調方法によって強調された音声信号を示す。なお、図9の各図において、縦軸は信号の振幅、横軸は時間(秒)である。この結果をみると、ノイズについては低減が見られるが、それぞれの話者音声を強調することはできていないことが分かる。
本発明は、複数の源信号にノイズが乗った信号が複数のセンサで観測される状況において、各源信号をそれぞれ強調することを課題とする。
この発明の一態様による多信号強調装置によれば、複数の信号源から発生し複数のセンサで観測された一定の時間長T の時間領域信号を、一定の時間長T (T >T )のフレーム毎に周波数領域変換した周波数領域信号を用いて、上記一定の時間長T のうち、ノイズのみを含む区間を推定するノイズ区間推定手段と、上記一定の時間長T のうち上記推定されたノイズのみを含む区間以外の区間に係る、上記フレーム毎の周波数領域信号から特徴量を算出し、その特徴量をクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類する信号分類手段と、上記分類結果を用いて、上記周波数領域信号を、複数の信号源毎に強調する信号強調手段と、を有し、上記信号分類手段は、上記特徴量をオンラインクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類する手段を含み、上記信号強調手段は、ある信号源kに分類された周波数領域信号についての相関行列と、それ以外の周波数領域信号についての相関行列とを用いて定義される固有値問題の最大固有値に対応する固有ベクトルであるSN比最大化ビームフォーマの係数を求める係数計算手段と、求まったSN比最大化ビームフォーマの係数の共役転置を、上記フレーム毎の周波数領域信号に乗算した値を計算することにより、上記ある信号源について強調された信号を求める強調手段と、を含む。
この発明の他の一態様による多信号強調装置によれば、複数の信号源から発生し複数のセンサで観測された一定の時間長T の時間領域信号を、一定の時間長T (T >T )のフレーム毎に周波数領域変換した周波数領域信号を用いて、上記一定の時間長T のうち、ノイズのみを含む区間を推定するノイズ区間推定手段と、上記一定の時間長T のうち上記推定されたノイズのみを含む区間以外の区間に係る、上記フレーム毎の周波数領域信号から特徴量を算出し、その特徴量をクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類する信号分類手段と、上記分類結果を用いて、上記周波数領域信号を、複数の信号源毎に強調する信号強調手段と、を有し、上記信号分類手段は、上記特徴量をオンラインクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類する手段を含み、上記信号強調手段は、上記特徴量についてのクラスタリングにより生じた各クラスタのセントロイドから、信号源k毎にステアリングベクトルV (f)を求めるステアリングベクトル生成手段と、ある信号源kに分類された周波数領域信号についての相関行列をR (f)、それ以外の周波数領域信号についての相関行列をR ¬k (f)、・ を行列・の共役転置として、上記ステアリングベクトルV (f)から、下記式により定義される適応ビームフォーマの係数W (f)を求める係数計算手段と、求まった適応ビームフォーマの係数の共役転置を、上記フレーム毎の周波数領域信号に乗算した値を計算することにより、上記ある信号源について強調された信号を求める強調手段と、を含む。
Figure 0004891801
観測信号からノイズ区間のみを推定してSN比最大化ビームフォーマを構成するのではなく、信号区間(ノイズ区間以外の区間)をさらに信号源毎に分類し、各信号源毎に信号区間とノイズ区間(その信号源以外の信号源から発生した信号のみを含む区間を含む)を推定し、それに基づいてビームフォーマを構成することで、各源信号をそれぞれ強調することができる。
また、例えば、発話者が入れ変わる会議のような信号源の数が不明である状況においても、各源信号をそれぞれ強調することができる。
本発明による多信号強調装置、方法、プログラム及びその記録媒体を、信号源が話者であり、源信号が音声信号であり、センサがマイクである場合を例に挙げて説明をする。
[全体の基本構成]
図1と図5を参照して、本発明による多信号強調装置10について説明をする。図1は、多信号強調装置10の機能構成を示すブロック図である。図5は、多信号強調装置10の処理の流れを例示するフローチャートである。
多信号強調装置10は、周波数領域変換部1、ノイズ区間推定部2、信号分類部3、信号強調部4、時間領域変換部5を有する。
複数の話者k(k=1,…,K、Kは任意の自然数)の発話にノイズが乗った信号が、複数のマイクm(m=1,…,M、Mは任意の自然数)によって観測される。
周波数領域変換部1は、各マイクmによって観測された時間領域の観測信号x(t)を要素とする時間領域の観測信号ベクトルX(t)=[x(t),…,x(t)]を、短時間フーリエ変換により、周波数毎の時系列信号である観測信号X(f,t)=[x(f,t),…,x(f,t)]に変換する(ステップS1)。
次に、ノイズ区間推定部2は、誰も発話していないノイズ区間Ρを推定する(ステップS2)。
次に、信号分類部3は、話者の何れかが発話している区間Ρ=Ρ−Ρにおける観測信号ベクトルX(f,t)を分類し、それぞれの区間がどの話者の発話区間であるかを分類する(ステップS3)。ここで、Ρは全ての時間区間を表す。分類結果は0以上K以下の整数値を取るクラスタ情報C(t)で表され、C(t)が1以上の値kを取れば、その時間区間tにはk番目の話者が存在することを表す。ここで、Kは、話者の数を表す。C(t)=0であれば、その時間区間(フレーム)tはノイズ区間Pに含まれていることを表す。
次に、信号強調部4は、各話者k毎に、クラスタ情報C(t)を用いてSN比最大化ビームフォーマを構成する。そのSN比最大化ビームフォーマに観測信号ベクトルX(f,t)を入力して、強調音声信号y(f,t)を得る。これを全ての話者kについて行い、強調音声信号ベクトルY(f,t)=[y(f,t),…,y(f,t)]を得る(ステップS4)。
最後に、時間領域変換部5は、逆短時間フーリエ変換を用いて、周波数領域の強調音声信号ベクトルY(f,t)を時間領域信号Y(t)=[y(t),…,y(t)]に変換する(ステップS5)。
以下、多信号強調装置10の各部の機能について詳細に説明をする。
[周波数領域変換部]
K人の話者の発話にノイズが重畳した音声信号は、M個のマイクで一定の時間長T観測される。周波数領域変換部1は、各マイクmで観測された時間領域の観測信号x(t)を、一定の時間長T(T>T)のフレームt毎にフーリエ変換して、周波数領域の観測信号x(f,t)を生成する(ステップS1)。生成された周波数領域の観測信号x(f,t)は、ノイズ区間推定部2、信号分類部3、信号強調部4にそれぞれ出力される。
上記一定の時間長Tは、任意の時間長であるが、例えば5秒〜30秒とする。また、後述するように、時間長Tの中では、話者の数Kがマイクの数Mよりも小さくなるように、上記一定の時間長Tを定めてもよい。また、Tごとにバッファリングして、逐次的に本発明による処理をしても良い。逐次的に処理をすることにより、一定の時間長Tの録音を待たないオンライン処理が可能になる。上記一定の時間長Tは、T未満の任意の時間長であるが、例えば64ミリ秒、128ミリ秒とする。
[ノイズ区間推定部]
ノイズ区間推定部2は、上記一定の時間長Tのうち、ノイズ区間Ρを推定する(ステップS2)。これは、後述する信号分類部3において、ノイズによる誤分類を避けるために重要である。推定されたノイズ区間Ρについての情報は、信号分類部3に出力される。ノイズ区間Ρとは、誰も発話していない区間、すなわちノイズのみを含む区間のことである。なお、本明細書では、一定の時間長Tのうちノイズ区間Ρではない区間のことを、非ノイズ区間又は音声区間と呼ぶことがある。
ノイズ区間推定部2は、具体的には、観測信号のパワーを用いて、フレームt毎に、ノイズ区間か非ノイズ区間かを判別する。これには、既存の音声区間検出技術を用いることができるが、本実施形態では、参考文献1に記載した音声区間検出技術を用いる例を示す。
以下、図2を参照して、参考文献1に記載した音声区間検出技術によってノイズ区間の推定を行うノイズ区間推定部2の機能構成を説明する。図2は、ノイズ区間推定部2の機能構成を例示するブロック図である。ノイズ区間推定部2は、例えば、SN比計算部21、非線形変換部22、判定部23、非線形変換部24、判定部25、更新部210を有する。
SN比計算部21内の記憶部26には、周波数f毎のノイズパワーの推定値σ(f)が予め格納される。ノイズパワーの推定値σ(f)は、適当な初期値(例えば0.01とする。)としても良いし、録音の冒頭数秒の区間等の明らかな無音声区間(誰も発話していない区間)において推定しても良い。σ(f)を適当な初期値としても良いのは、後述するように必要に応じてσ(f)を更新することができるためである。
SN比計算部21は、周波数領域の観測信号x(f,t)と、記憶部26から読み出したノイズパワーの推定値σ(f)とを用いて、下記の式により、周波数fとフレームtの全ての組合せ毎に、すなわち、時間周波数スロット(f,t)毎に事後SN比γ(f,t)を計算して、非線形変換部22に出力する。
Figure 0004891801
ここで、x(f,t)は、あるマイクJにおける周波数領域の観測信号でも良いし、マイク1からマイクMまでの振幅の平均値x(f,t)=(1/M)Σm=1 |x(f,t)|でも良い。
図2は、SN比計算部21が、あるフレームtにおいて、考慮する周波数の最小値fminから最大値fmaxまでの各周波数f毎の事後SN比γ(f,t)を計算して、非線形変換部22に出力している状況を表す。
非線形変換部22は、事後SN比にある種の非線形変換を施した後、考慮する全ての周波数における平均値Λ(t)を計算して、判定部23に出力する(詳しくは参考文献1参照。)。
Figure 0004891801
ここで、Fは考慮する周波数の集合であり、|F|はその集合Fの要素の数である。
判定部23は、平均値Λ(t)と、記憶部27から読み出した所定の閾値η(例えば1とする。)とを比較して、平均値Λ(t)の方が小さければ、そのフレームtはノイズ区間Ρに属すると判断し、所定の閾値ηの方が大きければ、そのフレームtは音声区間に属すると判断する。このようにして全てのフレームtについて上記判定を行うことにより生成されたノイズ区間Pについての情報は、信号分類部3に出力される。
なお、ノイズパワーの推定値σ(f)は、ノイズの変動に対処するため、時々刻々更新していくことが望ましい。そのためには、時間周波数スロット(f,t)毎にノイズ判定を行う。すなわち、まず、ノイズパワー更新部20の非線形変換部24が、時間周波数スロット(f,t)毎に次式で定まる値Λ’(f,t)を計算して、判定部25に出力する。
Figure 0004891801
判定部25は、時間周波数スロット(f,t)毎に得られたΛ’(f,t)と、判定部29から読み出した所定の閾値η’(例えば、1とする。)とを比較して、Λ’(f,t)の方が小さければ、その時間周波数スロット(f,t)を、ノイズスロットΡ’とする。ノイズスロットΡ’に関する情報は更新部210に出力される。
更新部210は、SN比計算部21の記憶部26から読み出したノイズパワーの推定値σ(t)を、更新部210の記憶部28から読み出したαを用いて、例えば、次式に従って更新する。
Figure 0004891801
ここで、0<α≦1は忘却係数であり、一般に1に近い値を取る。更新されたノイズパワーの推定値σ(t)は、SN比計算部21の記憶部26に格納される。その後、この更新されたノイズパワーの推定値σ(t)に基づいて上述の処理が行われる。
上記閾値ηとη’は、本発明の実施環境に応じて適切な結果が得られるように適宜設定される値である。
〔参考文献1〕J.Sohn,N.S.Kim,and W.Sung,”A statistical model-based voice activity detection”, IEEE Signal Processing Letters, vo1.6, no.1, pp.1-3, 1999.
[信号分類部]
信号分類部3は、音声区間Ρ=Ρ―Ρにおける観測信号ベクトルX(f,t)について、それぞれの区間が誰の発話区聞であるかを分類する(ステップS3)。
具体的には、信号分類部3は、上記一定の時間長Tの区間Ρのうち上記推定されたノイズのみを含む区間Ρ以外の区間Ρに係る、フレームt毎の周波数領域信号x(f,t)からある特徴量を算出し、その特徴量をクラスタリングすることにより、フレームt毎の周波数領域信号x(f,t)を話者毎に分類して、その分類結果C(t)を信号強調部4に出力する。
図3は、信号分類部3の機能構成を例示するブロック図である。また、図6は、信号分類部3の処理の流れを例示するフローチャートである。信号分類部3は、図3に例示するように、例えば、到来時間差推定部31、信号源方向推定部32、分類部34を有する。
まず、分類部34が、ノイズ区間推定部2において推定されたノイズ区間Ρを参照して、
Figure 0004891801
とする。すなわち、ノイズ区間Ρに含まれるフレームtについての分類結果C(t)をC(t)=0とする(ステップS31)。
次に、音声区間Ρについて、以下の手順で話者毎の発話区間に分類する。本実施例では、特徴量としてマイク間の信号の到来時間差を用いて、その到来時間差から、発話者方向を推定し、その方向を分類することで発話区間分類を行う方法を説明する。
まず、到来時間差推定部31は、音声区間Ρに属する全てのフレームtについての、マイクjとマイクj’についての信号の到来時間差τjj’(t)を、以下の式に従って算出して、信号源方向推定部32に出力する(ステップS32)。
Figure 0004891801
これは、いわゆるGCC−PHATと呼ばれる方法である(例えば、参考文献2参照。)。
〔参考文献2〕C.H.Knapp and G.C.Carter, ”The generalized correlation method for estimation of time delay”, IEEE Trans. Acoust.Speech and Signal Processing, vol.24, no.4, pp.320-327, 1976.
信号の到来時間差τjj’(t)を全てのマイクペアjj’について求め、それらを並べた縦ベクトルをΤ(t)=[τ12(t),…,τjj’(t),…,τ(M―1)M(t)]とする。また全てのマイクペアを用いる代わりに、ある基準となるマイクjを決め、その基準マイクjとその他のマイクj’に関する全てのペアjj’を用いることもできる。
次に、信号源方向推定部32が、到来時間差Τ(t)とマイク位置ベクトル情報を用いて、フレームt毎に発話者方向Q(t)を推定する(ステップS33)。マイクjの位置情報が、3次元縦ベクトルdで与えられているとする。またマイク座標系から見た発話者方向をQ=[cosθcosφ,sinθcosφ,sinφ]の3次元縦ベクトルで表す。ここでθは方位角、φは仰角を表す。マイクペアjj’に関する到来時間差τjj’は、cを信号の速度(ここでは、音速)とし、2つのマイクjとj’についてのマイク位置情報d−dj’と、発話者方向ベクトルQ(t)とを用いると
Figure 0004891801
の関係にある。これを全てのマイクペアで考えると、
Figure 0004891801
となる。ここで、D=[d−d,…,d−d,…,dM―1−dである。Tの要素であるτjj’(t)と、Dの要素であるd−dj’とは、同じマイクペア順序で並んでいれば良い。
上記式をQ(t)について解くと、フレームtにおける話者方向ベクトルQ(t)は、
Figure 0004891801
となる。ここで、[・]は、・のMoore−Penroseの一般化逆行列を表す。詳しくは、特願第2006-019627号の記載を参照のこと。また、特願第2006-019627号に記載した他の信号の到来方向の推定技術を用いても良い。
信号源方向推定部32は、上記式により、フレームt毎の話者方向ベクトルQ(t)を求める。フレームt毎の話者方向ベクトルQ(t)は、下記の式により正規化されて、分類部34に出力される。なお、正規化しないで、上記式により求めた話者方向ベクトルQ(t)をそのまま、分類部34に出力しても良い。
Figure 0004891801
次に、分類部34が、各フレームt∈Ρにおける話者方向ベクトルQ(t)を、クラスタリングにより、話者別に分類する(ステップS34)。ここでは、発話者数が未知である場合に対応するために、オンラインクラスタリングを採用する。オンラインクラスタリングのフローチャートの例を図7に示す。図7は、オンラインクラスタリングの処理の流れを例示するフローチャートである。ここでのポイントは、クラスタリングを1クラスタから始め、既存のクラスタのセントロイドからある閾値z以上離れたデータが来た時に、そのデータをセントロイドとして新しいクラスタを生成する点である。
<ステップS341>
まず、更新ステップサイズβ(例えば、β=0.1とする。)と、閾値z(例えば、z=0.2とする。)を設定する(ステップS341)。更新ステップサイズβと閾値zは、本発明を実施する環境に応じて適宜実験的に定めるべき値である。
<ステップS342>
Ρの最初のフレームtに係る話者方向ベクトルQ(t)を、第1のセントロイドcとする(ステップS342)。
<ステップS343>
tをインクリメントして、次のフレームt∈Ρに移る(ステップS343)。
<ステップS344>
フレームtの話者方向ベクトルQ(t)に最も近いクラスタkを見つける(ステップS344)。すなわち、
Figure 0004891801
となるクラスタkを見つける。
<ステップS345>
‖Q(t)―c‖と、閾値zとを比較する(ステップS345)。‖Q(t)―c‖の方が小さければ、ステップS346の処理を行う。そうでなければ、ステップS348の処理を行う。
<ステップS346>
更新ステップサイズβを用いて、セントロイドcを更新して、正規化する(ステップS346)。具体的には、下式の処理を行う。
Figure 0004891801
<ステップS347>
フレームtに係るクラスタ情報C(t)を、C(t)=kとする(ステップS347)。その後、ステップS3410の処理を行う。
<ステップS348>
ステップS345において‖Q(t)―c‖が閾値z以上と判断された場合には、新しいセントロイドcmax(k)+1
Figure 0004891801
を生成する(ステップS348)。
<ステップS349>
フレームtに係るクラスタ情報C(t)を、C(t)=max(k)+1とする(ステップS349)。
<ステップS3410>
tがΡの最後のフレームtlastであるかどうかを判断する。t=tlastでない場合には、ステップS343の処理を行う。t=tlastである場合には、ステップS34の処理は終了する。
上記のクラスタリングの結果として、フレームt毎のクラスタ情報C(t)が得られる。C(t)=kの時、その時間フレームtにはk番目の話者の音声が存在することを意味する。C(t)=0の時、その時間フレームtは、ノイズ区間Ρであることを意味する。
オンラインクラスタリングでは、アウトライヤー(外れ値)により、メンバー数の非常に少ないクラスタができることがある。その場合は、図7に破線で示すように、ステップS34の処理の最後に、ステップS3411を設けて、メンバー数がある閾値を下回るクラスタは除外し、ある閾値以上のメンバーを持つクラスタのみを残すことが望ましい。
[信号強調部]
信号強調部4は、検出された各話者k毎にSN比最大化ビームフォーマの係数W(f)を構成し、そのSN比最大化ビームフォーマの係数を用いて強調音声Y(f,t)を得る(ステップS4)。
ここでのSN比最大化ビームフォーマは、出力信号Y(f,t)中の話者kの信号成分と、ノイズ成分+他話者成分の比を最大化するビームフォーマとして設計される。これは、式(1)のR(f)とR(f)の代わりに、話者kの音声区間{t|C(t)=k}の観測信号の相関行列R(f)と、話者kの音声区間以外の区間{t|C(t)≠k}の観測信号の相関行列R¬k(f)とをそれぞれ用いることで実現される。すなわち、
Figure 0004891801
として、λ(f)を最大化するW(f)をSN比最大化ビームフォーマの係数とする。ここで、E[・]c(t)=kは、C(t)=kを満たす時間区間についての平均を取る操作を示す。同様に、E[・]c(t)≠kは、C(t)≠kを満たす時間区間についての平均を取る操作を示す。
上記式(1’’)をW(f)で微分した式=0として、式変形をすると、
Figure 0004891801
という関係が得られる。最大のSN比λ(f)は、上記式で与えられた一般化固有値問題における最大固有値で与えられ、その最大固有値に対応する固有ベクトルE(f)を計算することで話者kに関するSN比最大化ビームフォーマの係数W(f)を得ることができる。すなわち、
Figure 0004891801
である。SN比最大化ビームフォーマの係数W(f)の共役転置W (f)に、周波数領域の観測信号ベクトルX(f,t)を乗算した値を計算することで、話者kについての強調信号y(f,t)を得る。
Figure 0004891801
図4に、上記の処理を行う信号強調部4の機能構成を示す。図4は、信号強調部4の機能構成を例示する図である。信号強調部4は、例えば、相関行列計算部41、係数計算部42、強調部43、制御部47を有する。また、図8に信号強調部4の処理の流れを例示するフローチャートを示す。
<ステップS41>
制御部47は、k=1とする(ステップS41)。
<ステップS42>
相関行列計算部41は、上記式(2)と(3)に基づいて、相関行列R(f)、R¬k(f)をそれぞれ計算して、係数計算部42に出力する(ステップS42)。
<ステップS43>
係数計算部42は、相関行列R(f)、R¬k(f)を用いて、上記式(4)で与えられた一般化固有値問題を解き、λ(f)を最大化する固有ベクトルE(f)を求める。そして、E(f)を、SN比最大化ビームフォーマの係数W(f)として、強調部43に出力する(ステップS43)。係数計算部42は、ステップS42とステップS43の処理を繰り返すことにより最終的に、全ての周波数fについてSN比最大化ビームフォーマW(f)を求める。
<ステップS44>
強調部43は、上記式(5)に基づいて、周波数領域の観測信号ベクトルX(f,t)と、SN比最大化ビームフォーマの係数W(f)とを用いて、話者kについての強調信号y(f,t)を求める(ステップS44)。強調部43は、最終的に、全ての時間周波数スロット(f,t)について、各話者kについての強調信号y(f,t)を要素とする全ての話者kについての強調信号ベクトルY(f,t)=[y(f,t),…,y(f,t),…,y(f,t)]を生成して、時間領域変換部5(図1参照)に出力する。
<ステップS45>
制御部47は、kと話者の数Kとを比較する(ステップS45)。ここで、「話者の数K」とは、話者数が既知の場合、話者の数K=その既知の話者の数(自然数)であり、話者数が未知の場合、話者の数K=maxC(t)である。k=Kであれば、ステップS4の処理は終了する。そうでなければ、ステップS46の処理を行う。
<ステップS46>
制御部47は、kを1だけインクリメントする(ステップS46)。その後、ステップS42の処理を行う。このようにして、全ての話者k(k=1,…,K)について強調信号y(f,t)を求める。
なお、SN比最大化ビームフォーマは、ゲインに関して不定性を持つ。すなわち、周波数fによりゲインの量が異なる場合がある。これを本実施例では、観測信号とSN比最大化ビームフォーマW(f)の出力信号との誤差を最小にする補正フィルタA(f)を用意し、これでSN比最大化ビームフォーマW(f)を補正することで解決する。ここで、補正フィルタA(f)は、A(f)=[a(f),…,a(f),…,a(f)]である。周波数領域の観測信号X(f,t)と補正後の出力信号A(f)y(f,t)の誤差G(A(f))は、
Figure 0004891801
と計算することができる。ここで、E{・}は、時間についての平均を取る操作を意味する。誤差G(A(f))を最小にする補正フィルタA(f)は、G(A(f))をA(f)で偏微分した式∂G(A(f))/∂A(f)を0と置き、式変形をすることで、
Figure 0004891801
と計算することができる。ここで、R(f)は、R(f)=E{X(f,t)X(f,t)}であり、周波数領域の観測信号の全時間区間における相関行列である。
SN比最大化ビームフォーマの係数の補正は、A(f)のある任意のJ番目の要素a(f)を用いて、
Figure 0004891801
により行う。
具体的には、図4に破線で示した補正部45のフィルタ計算部46が、係数計算部42、42’が計算したSN比最大化ビームフォーマの係数W(f)と、周波数領域の観測信号ベクトルX(f,t)とを用いて、上記式(6)によって、補正フィルタA(f)を計算する(ステップS47、図8参照)。そして、補正部45が、上記式(7)によって、SN比最大化ビームフォーマの係数W(f)の補正を行い、補正後のSN比最大化ビームフォーマの係数W(f)を強調部43に出力する(ステップS48)。強調部43は、この補正されたSN比最大化ビームフォーマの係数W(f)を周波数領域の観測信号ベクトルX(f,t)に作用させることにより、強調信号Y(f,t)を得る。
このように、SN比最大化ビームフォーマの係数W(f)を補正することにより、周波数特性の歪みを防止することができる。この効果は、音声信号のような広帯域な信号に対して本発明を適用する場合に顕著である。
[時間領域変換部]
最後に、時間領域変換部5は、逆短時間フーリエ変換を用いて、周波数領域の強調音声信号ベクトルY(f,t)を、時間領域信号Y(t)=[y(t),…,y(t)]に変換して、出力する(ステップS5)。
[実験結果]
図11に示す環境で、3つのマイクで3人の話者の発話を30秒間観測し、その観測信号に対して本発明による多信号強調方法を適用した実験結果を示す。図11に示すように、プロジェクタやPC等が配置された部屋の中心に楕円形の机があり、その机の上に、各マイク1’を含む3つのマイクが、一辺の長さが4cmの正三角形の頂点に位置するように配置されている。各マイクは、その正三角形の中心方向とは反対方向に向いている。また、各マイクと机の間にはタオルが敷かれている。話者1’’〜話者3’’は、上記机を取り囲むように位置している。
話者の発話区間およびマイク1’における観測信号は図9のs1〜s3、x1と同じである。図10は、本発明による音声強調の結果を示している。従来法(図9のy1)では、それぞれの話者音声を強調することはできなかったが、本発明による多信号強調方法により、ノイズおよび他話者音声を抑圧し、それぞれの話者音声を強調することができていることが分かる。
[変形例等]
既に周波数領域に変換されている観測信号x(f,t)に対して、本発明による多信号強調方法を行ってもよい。また、信号を強調した後に、時間領域の信号に必ずしも変換しなくてもよい。
分類部34’が、発話者方向Q(f)をクラスタリングするかわりに、図3と図6に破線で示すように、到来時間差τjj’をクラスタリングすることにより、分類結果C(t)を得ても良い。
また、図3に一点鎖線で示すように、分類部34’’が、下式で定まる各マイクでの振幅情報x (t)
Figure 0004891801
を併用したものをクラスタリングにより分類しても良い。すなわち、これを全てのマイクについて並べた縦ベクトルをX(t)とし、到来時間差ベクトルΤ(t)とX(t)を並べたベクトル[X(t),Τ(t)をクラスタリングすることにより、分類結果C(t)を得ても良い。
また、話者の数Kが既知の場合は、分類部34が、k−meansクラスタリングを用いることもできる。
また、SN比最大化ビームフォーマの代わりに、任意の信号強調手段を用いても良い。SN比最大化ビームフォーマに代えて、適応ビームフォーマを用いる例を説明する。
この場合、信号分類部3の到来時間差推定部31(図3参照)が、ある基準となるマイクjを決め、その基準マイクjとその他のマイクj’に係る全てのマイクペアjj’についての信号の到来時間差τjj’を、上記式(1’)に基づいて計算する。
分類部34’’’(図3参照)は、信号の到来時間差τjj’をクラスタリングして、各クラスタkのセントロイドC=[ck1,…,ckm,…,ckMを求めて、信号強調部4に出力する。なお、発話者の方向ベクトルQ(t)を分類する場合には、発話者の方向ベクトルQ(t)をクラスタリングしたときの、セントロイドCを、
Figure 0004891801
によって変換する。ここで、Dとcは、上記式(A)のDとcと同じものである。この変換されたセントロイドCを、信号強調部4に出力する。
信号強調部4のステアリングベクトル生成部44(図4参照)は、上記各クラスタのセントロイドCを用いて、下記式より、適応ビームフォーマで必要なステアリングベクトルV(f)を計算して、係数計算部42’に出力する(ステップS49、図8参照)。
Figure 0004891801
係数計算部42’は、ステアリングベクトルV(f)を用いて、適応ビームフォーマの係数W(f)を下記式により求めて、強調部43に出力する。
Figure 0004891801
ここで、R¬k(f)は、話者kの音声区間以外の区間{t|C(t)≠k}の観測信号の相関行列である。
強調部43は、SN比最大化ビームフォーマと同様に、適応ビームフォーマの係数W(f)を用いて、上記式(5)より強調信号Y(f,t)を生成する。
なお、上記したSN比最大化ビームフォーマの係数W(f)の補正を、上述の適応ビームフォーマの係数W(f)についても同様に行うことができる。ステアリングベクトルV(f)の推定の精度が良い場合には、適応ビームフォーマの係数W(f)の補正は必須ではない。しかし、ステアリングベクトルV(f)の推定の精度が悪い場合には、適応ビームフォーマの係数W(f)の補正を行うことにより、周波数特性の歪みを効果的に防止することができる利点がある。
SN比最大化ビームフォーマは、全録音区間T(例えば、30秒)で設計するのではなく、全録音区間Tを所定のブロックT (例えば、5秒毎のブロック)に区切って設計してもよい。これは、マイク数Mより話者数Kが多いが、それぞれのブロックT ではマイク数M以下の人数しか発話しないことが仮定できる会議などの場で有効である。この効果を示す例を図12〜図14に示す。図12〜図14は、話者が4人、マイクが3つの場合の実験データである。図12のs1〜s4はそれぞれ原音声の振幅、x1はマイク1’で収音された混合音声を示す。図13のy1〜y4はそれぞれ、全録音区間T(30秒)で設計された本発明によるSN比最大化ビームフォーマによって強調された音声を表す。図14は、ブロック毎(ブロックの時間長T は5秒)に設計された本発明によるSN比最大化ビームフォーマによって強調された音声を表す。図13に示すように、全録音区間TでSN比最大化ビームフォーマを設計すると、SN比最大化ビームフォーマはマイク数−1個の他話者音声しか抑圧できないため、この例のように、話者数4>マイク数3の場合には音声強調性能があまり良くない。一方、ブロック毎(ここでは5秒ブロック)に区切ってSN比最大化ビームフォーマを設計すると、各ブロックでは話者数がマイク数より少ないため、図14に示すようにより良い音声の強調ができることが分かる。
上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図15に例示するコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD
−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
多信号強調装置10の機能構成を示すブロック図。 ノイズ区間推定部2の機能構成を例示するブロック図。 信号分類部3の機能構成を例示するブロック図。 信号強調部4の機能構成を例示するブロック図。 多信号強調装置10の処理の流れを例示するフローチャート。 信号分類部3の処理の流れを例示するフローチャート。 オンラインクラスタリングの処理の流れを例示するフローチャート。 信号強調部4の処理の流れを例示するフローチャート。 話者が3人おりマイクが3個ある環境で、背景技術に記載した音声強調方法を行った場合の実験結果を示す図。s1〜s3は各話者の音声信号、x1はマイク1’における観測信号、y1は背景技術に記載した音声強調方法によって強調された音声信号を示す。 本発明による音声強調の結果を示す図。y1、y2、y3は強調音声であり、それぞれ、図9のs1、s2、s3に対応している。 本発明の効果を示すための実験の条件を示す図。 s1〜s4はそれぞれ原音声信号を示す図。x1はあるマイクで収音された混合音声を示す図。 y1〜y4はそれぞれ、全録音区間(30秒)で設計された本発明によるSN比最大化ビームフォーマによって強調された音声を示す図。y1〜y4はそれぞれ、図12のS1〜S4に対応している。 ブロック毎(ブロックの時間長は5秒)に設計された本発明によるSN比最大化ビームフォーマによって強調された音声を示す図。y1〜y4はそれぞれ、図12のS1〜S4に対応している。 本発明による多信号強調装置をコンピュータにより実施する場合の機能構成を例示する図。

Claims (10)

  1. 複数の信号源から発生し複数のセンサで観測された一定の時間長Tの時間領域信号を、一定の時間長T(T>T)のフレーム毎に周波数領域変換した周波数領域信号を用いて、上記一定の時間長Tのうち、ノイズのみを含む区間を推定するノイズ区間推定手段と、
    上記一定の時間長Tのうち上記推定されたノイズのみを含む区間以外の区間に係る、上記フレーム毎の周波数領域信号から特徴量を算出し、その特徴量をクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類する信号分類手段と、
    上記分類結果を用いて、上記周波数領域信号を、複数の信号源毎に強調する信号強調手段と、
    を有し、
    上記信号分類手段は、上記特徴量をオンラインクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類する手段を含み、
    上記信号強調手段は、
    ある信号源に分類された周波数領域信号についての相関行列と、それ以外の周波数領域信号についての相関行列とを用いて定義される固有値問題の最大固有値に対応する固有ベクトルであるSN比最大化ビームフォーマの係数を求める係数計算手段と、
    求まったSN比最大化ビームフォーマの係数の共役転置を、上記フレーム毎の周波数領域信号に乗算した値を計算することにより、上記ある信号源について強調された信号を求める強調手段と、
    を含む、
    ことを特徴とする多信号強調装置。
  2. 請求項1に記載の多信号強調装置において、
    上記ある信号源に分類された周波数領域信号についての相関行列をR (f)とし、上記それ以外の周波数領域信号についての相関行列をR ¬k (f)とし、上記最大固有値をλ(f)とし、上記SN比最大化ビームフォーマの係数をW (f)として、
    上記固有値問題は、R (f)W (f)=λ(f)R ¬k (f)W (f)である、
    ことを特徴とする多信号強調装置。
  3. 複数の信号源から発生し複数のセンサで観測された一定の時間長Tの時間領域信号を、一定の時間長T(T>T)のフレーム毎に周波数領域変換した周波数領域信号を用いて、上記一定の時間長Tのうち、ノイズのみを含む区間を推定するノイズ区間推定手段と、
    上記一定の時間長Tのうち上記推定されたノイズのみを含む区間以外の区間に係る、上記フレーム毎の周波数領域信号から特徴量を算出し、その特徴量をクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類する信号分類手段と、
    上記分類結果を用いて、上記周波数領域信号を、複数の信号源毎に強調する信号強調手段と、
    を有し、
    上記信号分類手段は、上記特徴量をオンラインクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類する手段を含み、
    上記信号強調手段は、
    上記特徴量についてのクラスタリングにより生じた各クラスタのセントロイドから、信号源毎にステアリングベクトル (f)を求めるステアリングベクトル生成手段と、
    ある信号源kに分類された周波数領域信号についての相関行列をR (f)、それ以外の周波数領域信号についての相関行列をR ¬k (f)、・ を行列・の共役転置として、上記ステアリングベクトル (f)から、下記式により定義される適応ビームフォーマの係数 (f)を求める係数計算手段と、
    Figure 0004891801
    求まった適応ビームフォーマの係数の共役転置を、上記フレーム毎の周波数領域信号に乗算した値を計算することにより、上記ある信号源について強調された信号を求める強調手段と、
    を含む、
    ことを特徴とする多信号強調装置。
  4. 請求項1から3の何れかに記載の多信号強調装置において、
    上記信号強調手段は、さらに上記フレーム毎の周波数領域信号と上記強調された信号との差が最小になるように、上記SN比最大化ビームフォーマの係数又は適応ビームフォーマの係数を補正する手段を含む、
    ことを特徴とする多信号強調装置。
  5. 請求項1から3の何れかに記載の多信号強調装置において、
    上記特徴量は、複数のセンサペアについての到来時間差であり、
    上記信号分類手段は、上記フレーム毎の周波数領域信号の位相情報から、上記複数のセンサペアについての到来時間差を推定する到来時間差推定手段を含む、
    ことを特徴とする多信号強調装置。
  6. 請求項1から3の何れかに記載の多信号強調装置において、
    上記特徴量は、複数のセンサペアについての到来時間差ではなく、信号源の方向ベクトルであり、
    上記信号分類手段は、さらに、信号の速さと、センサの位置情報を表す行列の一般化逆行列と、上記推定された到来時間差を要素とするベクトルとの積で定まるベクトルを求めることにより、信号源の方向ベクトルを推定する信号源方向推定手段を含む、
    ことを特徴とする多信号強調装置。
  7. ノイズ区間推定手段が、複数の信号源から発生し複数のセンサで観測された一定の時間長Tの時間領域信号を、一定の時間長T(T>T)のフレーム毎に周波数領域変換した周波数領域信号を用いて、上記一定の時間長Tのうち、ノイズのみを含む区間を推定するノイズ区間推定ステップと、
    信号分類手段が、上記一定の時間長Tのうち上記推定されたノイズのみを含む区間以外の区間に係る、上記フレーム毎の周波数領域信号から特徴量を算出し、その特徴量をクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類する信号分類ステップと、
    信号強調手段が、上記分類結果を用いて、上記周波数領域信号を、複数の信号源毎に強調する信号強調ステップと、
    を有し、
    上記信号分類ステップは、上記特徴量をオンラインクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類するステップを含み、 上記信号強調ステップは、
    ある信号源に分類された周波数領域信号についての相関行列と、それ以外の周波数領域信号についての相関行列とを用いて定義される固有値問題の最大固有値に対応する固有ベクトルであるSN比最大化ビームフォーマの係数を求める係数計算ステップと、
    求まったSN比最大化ビームフォーマの係数の共役転置を、上記フレーム毎の周波数領域信号に乗算した値を計算することにより、上記ある信号源について強調された信号を求める強調ステップと、
    を含む、
    ことを特徴とする多信号強調方法。
  8. ノイズ区間推定手段が、複数の信号源から発生し複数のセンサで観測された一定の時間長Tの時間領域信号を、一定の時間長T(T>T)のフレーム毎に周波数領域変換した周波数領域信号を用いて、上記一定の時間長Tのうち、ノイズのみを含む区間を推定するノイズ区間推定ステップと、
    信号分類手段が、上記一定の時間長Tのうち上記推定されたノイズのみを含む区間以外の区間に係る、上記フレーム毎の周波数領域信号から特徴量を算出し、その特徴量をクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類する信号分類ステップと、
    信号強調手段が、上記分類結果を用いて、上記周波数領域信号を、複数の信号源毎に強調する信号強調ステップと、
    を有し、
    上記信号分類ステップは、上記特徴量をオンラインクラスタリングすることにより、上記フレーム毎の周波数領域信号を、上記複数の信号源毎に分類するステップを含み、
    上記信号強調ステップは、
    上記特徴量についてのクラスタリングにより生じた各クラスタのセントロイドから、信号源k毎にステアリングベクトルV (f)を求めるステアリングベクトル生成ステップと、
    ある信号源kに分類された周波数領域信号についての相関行列をR (f)、それ以外の周波数領域信号についての相関行列をR ¬k (f)、・ を行列・の共役転置として、上記ステアリングベクトルV (f)から、下記式により定義される適応ビームフォーマの係数W (f)を求める係数計算ステップと、
    Figure 0004891801
    求まった適応ビームフォーマの係数の共役転置を、上記フレーム毎の周波数領域信号に乗算した値を計算することにより、上記ある信号源について強調された信号を求める強調ステップと、
    を含む、
    ことを特徴とする多信号強調方法。
  9. 請求項1からの何れかに記載の多信号強調装置としてコンピュータを機能させるための多信号強調プログラム。
  10. 請求項9記載の多信号強調プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2007038819A 2007-02-20 2007-02-20 多信号強調装置、方法、プログラム及びその記録媒体 Expired - Fee Related JP4891801B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007038819A JP4891801B2 (ja) 2007-02-20 2007-02-20 多信号強調装置、方法、プログラム及びその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007038819A JP4891801B2 (ja) 2007-02-20 2007-02-20 多信号強調装置、方法、プログラム及びその記録媒体

Publications (2)

Publication Number Publication Date
JP2008203474A JP2008203474A (ja) 2008-09-04
JP4891801B2 true JP4891801B2 (ja) 2012-03-07

Family

ID=39781061

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007038819A Expired - Fee Related JP4891801B2 (ja) 2007-02-20 2007-02-20 多信号強調装置、方法、プログラム及びその記録媒体

Country Status (1)

Country Link
JP (1) JP4891801B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5022387B2 (ja) * 2009-01-27 2012-09-12 日本電信電話株式会社 クラスタリング計算装置、クラスタリング計算方法、クラスタリング計算プログラム並びにそのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP5044581B2 (ja) * 2009-02-03 2012-10-10 日本電信電話株式会社 複数信号強調装置とその方法と、プログラム
JP5543023B2 (ja) * 2011-05-24 2014-07-09 三菱電機株式会社 目的音強調装置およびカーナビゲーションシステム
JP5705190B2 (ja) * 2012-11-05 2015-04-22 日本電信電話株式会社 音響信号強調装置、音響信号強調方法、およびプログラム
JP6063843B2 (ja) * 2013-08-28 2017-01-18 日本電信電話株式会社 信号区間分類装置、信号区間分類方法、およびプログラム
JP2015161659A (ja) * 2014-02-28 2015-09-07 株式会社熊谷組 音源方向推定装置、及び、音源推定用画像の表示装置
JP6652519B2 (ja) * 2017-02-28 2020-02-26 日本電信電話株式会社 ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム
JP6961545B2 (ja) * 2018-07-02 2021-11-05 株式会社東芝 音信号処理装置、音信号処理方法、およびプログラム
JP2022533300A (ja) * 2019-03-10 2022-07-22 カードーム テクノロジー リミテッド キューのクラスター化を使用した音声強化

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04230799A (ja) * 1990-05-28 1992-08-19 Matsushita Electric Ind Co Ltd 音声信号符号化装置
JP2759383B2 (ja) * 1991-07-19 1998-05-28 株式会社タダノ クレーン車
US5397967A (en) * 1992-06-30 1995-03-14 Sgs-Thomson Microelectronics, Inc. Slew rate circuit for high side driver for a polyphase DC motor
JP3355598B2 (ja) * 1996-09-18 2002-12-09 日本電信電話株式会社 音源分離方法、装置及び記録媒体
JP3677143B2 (ja) * 1997-07-31 2005-07-27 株式会社東芝 音声処理方法および装置
JP2003270034A (ja) * 2002-03-15 2003-09-25 Nippon Telegr & Teleph Corp <Ntt> 音情報解析方法、装置、プログラム、および記録媒体
DE602004027774D1 (de) * 2003-09-02 2010-07-29 Nippon Telegraph & Telephone Signaltrennverfahren, Signaltrenneinrichtung,und Signaltrennprogramm
JP4767247B2 (ja) * 2005-02-25 2011-09-07 パイオニア株式会社 音分離装置、音分離方法、音分離プログラムおよびコンピュータに読み取り可能な記録媒体
JP2006243664A (ja) * 2005-03-07 2006-09-14 Nippon Telegr & Teleph Corp <Ntt> 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体
JP4675177B2 (ja) * 2005-07-26 2011-04-20 株式会社神戸製鋼所 音源分離装置,音源分離プログラム及び音源分離方法

Also Published As

Publication number Publication date
JP2008203474A (ja) 2008-09-04

Similar Documents

Publication Publication Date Title
JP4891801B2 (ja) 多信号強調装置、方法、プログラム及びその記録媒体
US10123113B2 (en) Selective audio source enhancement
EP3511937B1 (en) Device and method for sound source separation, and program
JP4746533B2 (ja) 多音源有音区間判定装置、方法、プログラム及びその記録媒体
US8271277B2 (en) Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium
JP4195267B2 (ja) 音声認識装置、その音声認識方法及びプログラム
JP5124014B2 (ja) 信号強調装置、その方法、プログラム及び記録媒体
JP6389259B2 (ja) マイクロホンアレイを使用した残響音の抽出
JP2021036297A (ja) 信号処理装置、信号処理方法、及びプログラム
JP2020034624A (ja) 信号生成装置、信号生成システム、信号生成方法およびプログラム
US9838783B2 (en) Adaptive phase-distortionless magnitude response equalization (MRE) for beamforming applications
JP2011215317A (ja) 信号処理装置、および信号処理方法、並びにプログラム
JP5717097B2 (ja) 音声合成用の隠れマルコフモデル学習装置及び音声合成装置
JP2009271183A (ja) 複数信号区間推定装置とその方法と、プログラムとその記録媒体
JP2006243664A (ja) 信号分離装置、信号分離方法、信号分離プログラム及び記録媒体
JP6721165B2 (ja) 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム
Gan et al. Howling noise cancellation in time–frequency domain by deep neural networks
JP5815489B2 (ja) 音源別音声強調装置、方法、プログラム
JP2015037207A (ja) 音場収音再生装置、方法及びプログラム
JP6087856B2 (ja) 音場収音再生装置、システム、方法及びプログラム
EP3557576B1 (en) Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program
JP5044581B2 (ja) 複数信号強調装置とその方法と、プログラム
Makishima et al. Independent deeply learned matrix analysis with automatic selection of stable microphone-wise update and fast sourcewise update of demixing matrix
Ai et al. Reverberation modeling for source-filter-based neural vocoder
JP6285855B2 (ja) フィルタ係数算出装置、音声再生装置、フィルタ係数算出方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110509

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111206

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111216

R150 Certificate of patent or registration of utility model

Ref document number: 4891801

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141222

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees