JP4710130B2 - Audio signal separation method and apparatus - Google Patents

Audio signal separation method and apparatus Download PDF

Info

Publication number
JP4710130B2
JP4710130B2 JP2000384745A JP2000384745A JP4710130B2 JP 4710130 B2 JP4710130 B2 JP 4710130B2 JP 2000384745 A JP2000384745 A JP 2000384745A JP 2000384745 A JP2000384745 A JP 2000384745A JP 4710130 B2 JP4710130 B2 JP 4710130B2
Authority
JP
Japan
Prior art keywords
consonant
signal
vowel
audio signal
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000384745A
Other languages
Japanese (ja)
Other versions
JP2002182689A (en
Inventor
多伸 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2000384745A priority Critical patent/JP4710130B2/en
Publication of JP2002182689A publication Critical patent/JP2002182689A/en
Application granted granted Critical
Publication of JP4710130B2 publication Critical patent/JP4710130B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
この発明は、音声信号を含む混合信号から音声信号のみを分離して音声信号及びその他の信号の少なくとも一方を抽出する音声信号分離方法及び装置に関する。
【0002】
【従来の技術】
複数の音響信号が混在した信号から、特定の信号を強調・抑圧したり分離抽出する技術が知られている。音声信号に対しては、雑音と音声信号が混在した音響信号から雑音のみを抑圧する雑音抑圧方式(例えば特開平9−153769号、特開平9−212196号等)が、音楽に対しては演奏に含まれる旋律の分離や除去に関する方式(特開平11−143460号等)が様々に提案されている。
【0003】
雑音抑圧方式は、例えば信号増幅器などの音響処理装置において、聴取したい音声信号が雑音に埋もれてしまい、目的の音声信号が聴き難いといった問題に対処する。また、音楽に対する分離や除去の方式は、例えばある旋律だけを除いてカラオケのようなものを作成したりする。
【0004】
特開平9−212196号では、スペクトラルサブトラクションと呼ばれる手法によって雑音抑圧を実現している。これは、入力信号中の音声/非音声を検出し、非音声区間で代表的な雑音振幅スペクトルを求め、音声区間でこれを入力信号の振幅スペクトルから差し引くことで雑音を抑圧する。合成時の位相成分については、混合された状態のときのものを用いる。ここでは、音声の母音が整数次倍音構造を持っていることを利用して、基本周波数とその倍音成分のパワーを加算したものを指標として、非音声の検出をしている。特開平9−212196号では、この指標に対する閾値を小さくすることで、確実に雑音であると思われる区間から代表的な雑音スペクトルを求め、音声の子音の影響を小さくしている。
【0005】
特開平11−143460号では、楽器音が整数次倍音構造を持っているものが多いことから、基本周波数とその倍音成分を同一楽器からの音であると判断している。そして、これらの周波数成分の時刻、振幅、位相の情報に基づいて波形を加算合成することで抽出や除去後の音を合成している。
【0006】
【発明が解決しようとする課題】
雑音抑圧方式では、非音声信号とは雑音のことであり、これは不要なものである。従って、基本的には音声の抑圧された非音声側の信号を得ることはない。特開平9−212196号に開示されたスペクトラルサブトラクション法では、子音部分でも母音部分でも同じ抑圧処理をしている。ここでは、経時的に平均した代表的雑音スペクトルを用いているため、音声とその他の信号の混在区間で雑音抑圧方式に変更を加えずに非音声側の信号を出力しようと思った場合、常に代表的雑音スペクトルが出力されることになってしまい、非音声信号側の経時的な変化に追従できない。
【0007】
また、音楽に対する分離や除去の方式では、整数次倍音構造を持たない信号は、全てその他の信号として処理されてしまうため、基本周波数の存在しない音声の子音部分に関しては、非音声信号に残留してしまう。非音声信号に対して適切な効果を与える場合に、残留した子音部分によってその効果が損なわれてしまう。例えばテレビのスポーツ実況に残響を付加し、臨場感を高める場合、実況音声と環境音信号とを分離し、環境音のみに残響付加することが望ましい。しかし、環境音側に子音部分だけが残ると、この子音にも残響付加され、高めたいはずの臨場感を損なってしまう。
【0008】
この発明は、このような問題点に鑑みなされたもので、非音声信号側の経時的な変化に追従可能で、且つ子音部分も精度良く分離可能な音声分離方法及び装置を提供することを目的とする。
【0009】
【課題を解決するための手段】
この発明に係る音声信号分離方法は、音声信号とその他の信号とが混合された混合信号から音声信号を分離して前記音声信号及びその他の信号の少なくとも一方を抽出する音声信号分離方法において、前記混合信号から整数次倍音構造に基づいて前記音声信号のうちの母音部分を検出して分離する母音処理ステップと、前記混合信号又は前記混合信号から前記母音部分を分離した残りの信号を子音判定対象信号とし、この子音判定対象信号から子音の特性に基づいて前記音声信号のうちの子音部分を検出して分離する子音処理ステップと、前記母音処理ステップで検出された音声信号の母音部分と前記子音処理ステップで検出された音声信号の子音部分とによって音声信号を分離して前記音声信号及びその他の信号の少なくとも一方を抽出する出力ステップとを備えたことを特徴とする。
【0010】
また、この発明に係る音声信号分離装置は、音声信号とその他の信号とが混合された混合信号から音声信号を分離して前記音声信号及びその他の信号の少なくとも一方を抽出する音声信号分離装置において、前記混合信号から整数次倍音構造に基づいて前記音声信号のうちの母音部分を検出して分離する母音処理手段と、前記混合信号又は前記混合信号から前記母音部分を分離した残りの信号を子音判定対象信号とし、この子音判定対象信号から子音の特性に基づいて前記音声信号のうちの子音部分を検出して分離する子音処理手段と、前記母音処理手段で検出された音声信号の母音部分と前記子音処理手段で検出された音声信号の子音部分とによって音声信号を分離して前記音声信号及びその他の信号の少なくとも一方を抽出する出力手段とを備えたことを特徴とする。
【0011】
この発明によれば、音声信号とその他の信号とが混合された混合信号から整数次倍音構造に基づいて音声信号のうちの母音部分を抽出すると共に、混合信号又は混合信号から母音部分を分離した残りの信号を子音対象信号として、この子音対象信号から子音の特性に基づいて子音部分を検出してこれを分離するようにしているので、母音部分と子音部分とが分離された残りの非音声信号は、経時的変化が反映されたものとなる。また、子音部分を含んで音声信号が混合信号から分離されるので、非音声信号に子音部分が含まれることがなく、非音声信号を処理する場合にも、精度の良い処理が可能になる。
【0012】
なお、ここで“母音”とは、この明細書では、母音のみならず、整数次倍音構造を持つ有声子音も含む。また、“子音”とは、整数次倍音構造を持たない無声子音を意味する。子音処理時において子音区間を検出するために使用される子音の特性としては、例えば子音判定対象信号のスペクトル包絡、特定帯域のパワー(例えば4〜10kHz程度)等を使用することができる。スペクトル包絡を使用する場合、子音処理では、例えば混合信号から母音部分を分離した残りの信号のうち非子音区間のスペクトル包絡を経時的に蓄積し、この経時的に蓄積した非子音区間のスペクトル包絡と子音判定対象信号のスペクトル包絡との距離を定量的に評価して子音区間を検出する様にすればよい。また、予め学習された代表的な子音のスペクトル包絡と子音判定対象信号のスペクトル包絡との距離を定量的に評価するようにしても良い。スペクトル包絡間の距離尺度としては、例えば線形予測係数に対する最尤スペクトル距離、LPC(線形予測)ケプストラム距離等を使用することができる。更に、特定帯域のパワーを使用する場合には、特定帯域のパワーと所定の閾値との比較を行えば良い。
【0013】
また、子音処理では、混合信号から母音部分を分離した残りの信号のうち非子音区間のスペクトル包絡を経時的に蓄積し、この経時的に蓄積した非子音区間のスペクトル包絡と子音判定対象信号のスペクトル包絡との間で顕著に異なる帯域を分離する帯域として特定するようにすればよい。この他、混合信号から母音部分を分離した残りの信号のうち非子音区間のスペクトル包絡を経時的に蓄積し、この経時的に蓄積した非子音区間のスペクトル包絡を現在対象としている子音判定対象信号のパワーで正規化したスペクトル包絡と子音判定対象信号のスペクトル包絡との間で所定の閾値以上の関係を有する帯域を分離する帯域として特定するようにしても良い。
【0014】
なお、子音部分の分離は、時間領域の信号に対しては、例えばバンドパスフィルタやノッチフィルタによる特定帯域のゲイン処理によって行うことができ、周波数領域の信号に対しては、例えばスペクトラルサブトラクションにより行うことができる。
【0015】
【発明の実施の形態】
以下、図面を参照して、この発明の好ましい実施の形態について説明する。
図1は、この発明の一実施例に係る音声信号分離システムの構成を示すブロック図である。
音声信号とその他の信号(環境音、背景音、雑音等)とを含む混合信号Iは、母音処理部1と子音処理部2とに入力されている。母音処理部1では、混合信号Iに含まれる基本周波数fに基づいて混合信号Iから音声信号の母音部分を検出し、母音信号Vvと、その他の信号O1とに分離する。子音処理部2では、混合信号Iのスペクトル包絡の特徴や特定帯域のパワー等に基づいて混合信号Iから音声信号に含まれる子音部分を検出し、混合信号Iを子音信号Vcとその他の信号O2とに分離する。母音・子音判定部3は、母音処理部1からの母音/非母音判定結果v/oと子音処理部2からの子音/非子音判定結果c/oとに基づいて、母音区間、子音区間及び非音声区間を判定し、切替部4の切替制御を行う。切替部4は、母音・子音判定部3により切替制御され、母音区間では母音処理部1で分離された母音信号Vvとその他の信号O1とを、また非母音区間では子音処理部2で分離された子音信号Vcとその他の信号O2とを選択し、それぞれ音声信号V及びその他の信号Oとして出力する。また、非子音区間では母音処理部1で分離された母音信号Vvとその他の信号O1とを、子音区間では子音処理部2で分離された子音信号Vcとその他の信号O2とを選択し、それぞれ音声信号V及びその他の信号Oとして出力するようにしても良い。
【0016】
図2は、この発明の他の実施例に係る音声分離システムの構成を示すブロック図である。
母音処理部1、子音処理部2及び母音・子音判定部3は、上述した実施例と同様のものであるが、この実施例では、子音処理部2が母音処理部1で母音信号Vvを抑圧したその他の信号O1を子音判定対象信号として入力し、母音信号成分が除去された状態で子音部分と非子音部分とを検出し、子音信号Vcとその他の信号O2とに分離する点が異なっている。この場合には、母音信号成分が除去された信号に対して子音検出を行うため、先の実施例よりも検出精度は上がる。子音処理部2で分離された子音信号Vcは、母音処理部1で分離された母音信号Vvに加算器5で加算されて音声信号Vとして出力される。また、母音処理部1で分離されたその他の信号O1と子音処理部2で分離されたその他の信号O2とは、母音・子音判定部3での切替制御に従って切替器6よって切り替え他の信号Oとして出力される。
【0017】
これらの実施例において、母音処理部1は、例えば図3に示すように構成されている。
混合信号Iは、先ず周波数分析部11に入力される。周波数分析部11は、ハニング窓部111とFFT(高速フーリエ変換)部112とからなる。混合信号Iは、ハニング窓部111でフレーム分割されたのち、FFT部112により周波数分析される。FFT部112での周波数分析結果は、基本周波数検出部12と母音分離部13とに入力されている。基本周波数検出部12では、FFT部112による周波数分析結果から整数次倍音構造を評価して基本周波数f′を推定する。母音分離部13では、基本周波数検出部12で検出された基本周波数f′から整数次倍音構造の各周波数成分の振幅を振幅推定部1311,1312,…,131nで推定する。各周波数成分の振幅は、例えば複素スペクトル内挿法によって推定することができる。複素スペクトル内挿法は、複素平面上でピークに隣接する複素ベクトルから内積によって真のピークを求める手法であり、これによりハニング窓対応補正された基本周波数f及びその倍音周波数2f,3f,…,nfと、その振幅とが求められる。各補正周波数f,2f,3f,…,nfは、位相推定部1321,1322,…,132nに入力されここで、ハニング窓の特性と該当周波数成分の前後の周波数サンプル値とから位相を推定することができる。これにより線スペクトルが推定され、そこからハニング窓による影響(メインローブ、サイドローブ)を排除することができる。このようにして求められた整数次倍音構造は、FFT部112の周波数分析結果から減算器133によって減算されると共に、IFFT(逆FFT)部134によって時間領域の信号に戻される。また、減算器133の減算結果もIFFT部135によって時間領域の信号に戻される。これらは、フレーム間のつなぎ部分を滑らかにするため、加算器136,137においてオーバーラップ/アド用データ138,139とそれぞれ加算されて、加算器136からは混合信号Iから母音信号成分のみ強調された母音信号Vvが、また加算器137混合信号Iから母音信号成分が抑圧されたその他の信号O1が生成出力される。
【0018】
図4は、図1及び図2の実施例における子音処理部2の構成例を示すブロック図、図5は、この子音処理部2における子音区間検出処理を示すフローチャートとである。
混合信号I(図2の実施例では他の信号O1)は、子音特徴量計算手段であるLPC(線形予測)分析部21に与えられ、ここで特徴量計算が実行される。ここでは、子音のうち特に目立つ無声子音の特徴量として、スペクトル包絡特性を計算する。スペクトル包絡特性にて特徴量評価を行うためには、まず、LPC係数を計算する(S1,S2,S3)。LPC分析部21では、過去の標本値から現時点での標本値を予測する。このときの予測係数をLPC係数という。LPC分析では、共分散法や自己相関法にて直接LPC係数を求める方法もあるが、PARCOR分析によるPARCOR係数、LSP(線スペクトル対)分析によるLSP係数と、LPC係数とは相互に変換可能である。ここで、PARCOR分析、LSP分析は、いずれもLPC分析法の一種であるが、より性能の改善された手法である。
【0019】
特徴量評価部22では、次にLPCケプストラム距離計算部221において、非無声子音区間に経時的に平均したLPC係数222との間のLPCケプストラム距離Dcepを計算する(S6,S7,S8)。LPC係数を経時的に平均化する場合には、求めたLPC係数(S4)をLSP係数(S14)に変換して、平均を計算すると良い(S15,S16,S17)。LSP係数はLPC係数やPARCOR係数よりも補間性能が良いため、平均操作に適している。そして平均化後のLSP係数をLPC係数に戻す。これにより、平均化後のLPC係数を得る。また、ここで言う経時的な平均化とは、信号の入力の開始から現在までのLPC係数の全てを重み付け加算することを言う。具体的には、以下のような計算を行えば良い。
【0020】
【数1】
avg(i)=w*cur(i)+(1−w)*avg(i−1)
【0021】
なお、ここで、cur(i)は現在のLPC係数、avg(i)は経時平均LPC係数、wは重み関数である。
また、経時的に平均化したLPC係数222の算出精度を高めるため、母音処理部1からの他の信号O1をLPC分析部21に供給してピッチが存在する母音検出区間においても、平均化処理を続行することが望ましい(S5,S14,S15,S16)。
【0022】
なお、このとき、経時的に平均したLPC係数222ではなく、予め求めておいた代表的な無声子音のLPC係数との距離を計算するようにしても良い。予め求めておく代表的な無声子音のLPC係数は、音声認識データベース等から流用可能である。また、LPCケプストラム距離やここでは用いていないが最尤スペクトル距離等は、音声認識においてLPC係数間(スペクトル包絡間)の距離尺度として用いられているものである。
【0023】
また、無声子音には、有声音と比較して比較的高い4kHz以上の周波数成分が多く含まれていることが一般に知られている。このため、子音判定部223は、LPC分析部21で求めた入力信号のスペクトル包絡特性224から4kHz以上の帯域の振幅を閾値と比較し、高いレベルにある帯域を検出する。これは、あまり高い周波数帯域まで調べる必要はなく、10kHz程度までで十分である。比較結果をパラメータDspecとして数値化する(S9,S10,S11)。
【0024】
子音判定部223は、計算されたDcep及びDspecと、それぞれ事前に調査して求めた閾値ThDcep及びThDspecとを比較する(S12)。これらの総合判定結果から、当該区間が無声子音であるかどうかの判定を行う(S13)。なお、閾値ThDcepやThDspecは入力信号に適応して動的に制御することも可能である。無声子音と判定された場合には、入力信号I又はO1と経時的平均LPC係数222とからそれぞれのスペクトル包絡特性224,225を求め、これを各周波数成分に対して比較する(S9,S18,S19)。このとき、信号パワーへの依存性を減らすため、スペクトル包絡は正規化したものを用いると良い。比較によって経時的平均スペクトル包絡特性225に対して、入力の方が高い周波数を特定する(S20)。これは、音声信号Vのミックスレベルがその他の信号Oよりも高いレベルにある場合に相当する。一般の実況放送等では、この条件は十分満たされている。
【0025】
子音分離部24では、特定された帯域に、FFT部23でのFFT結果の振幅スペクトルのゲイン操作を行ったり、時間軸上でフィルタリングすることで、無声子音の強調・抑圧が可能となる。振幅スペクトルのゲイン操作を行った場合、得られた無声子音信号とその他の信号とをIFFT部25,26でそれぞれ時間軸上の信号に戻すことで子音信号Vvとその他の信号O2とが得られる。
【0026】
図1において説明したように、出力時には、ピッチ周波数の有無による母音区間判定、上述した子音区間判定の結果を用いて、母音処理部1からの出力Vv,O1を用いるか、子音処理部2からの出力Vc,O2を用いるかを切替部4で切り替えるが、このとき、図6に示すように、母音区間、子音区間及び非音声区間の信号を滑らかに接続するため、ハニング窓等のオーバーラップ/アドデータ41,42を用いて加算器43,44にて信号Vv/Vc,O1/O2をオーバーラップ/アド処理して出力信号V,Oを得ることが望ましい。
【0027】
図7は、上述したシステムの適用例を示すものである。同図(a)は混合信号Iを音声信号Vと他の信号Oとに分離する強調・抑圧部501にこの発明を適用している。分離された音声信号Vと他の信号Oには、信号処理部502,503によってそれぞれ別々の信号処理が施され、音声信号V′及び他の信号O′として出力される。同図(b)は、非音声信号である他の信号Oに対する処理の例として、テレビの実況中継における音場制御の例を示している。テレビ601から出力される実況中継の音響信号(混合信号I)は、この発明に係る強調・抑圧部602で実況音声(V)と、環境音(O)とに分離される。実況音声については視聴者603の前方のフロントスピーカ604から出力される。環境音については、残響付加部605で残響成分が付加されて、視聴者603の前後左右に配置された4つのスピーカ606,607,608,609から出力される。これにより臨場感が向上する。同図(c)は、音声認識の例である。即ち、音声強調部701は、入力音響信号Iから音声信号V以外の他の信号(雑音)Oを抑圧して、これにより音声信号Vを分離抽出する。音声認識部702は、分離抽出された音声信号Vに対して音声認識処理を実行する。このように音声認識において不要な周囲雑音を取り除くことで音声認識精度が向上する。この場合、他の信号Oは、不要な雑音成分なので、音声強調部701は音声信号Vのみを抽出する。
【0028】
【発明の効果】
以上述べたように、この発明によれば、音声信号とその他の信号とが混合された混合信号から整数次倍音構造に基づいて音声信号のうちの母音部分を抽出すると共に、混合信号又は混合信号から母音部分を分離した残りの信号を子音対象信号として、この子音対象信号から子音の特性に基づいて子音部分を検出してこれを分離するようにしているので、母音部分と子音部分とが分離された残りの非音声信号は、経時的変化が反映されたものとなり、且つ子音部分を含んで音声信号が混合信号から分離されるので、非音声信号に子音部分が含まれることがなく、非音声信号を処理する場合にも、精度の良い処理が可能になるという効果を奏する。
【図面の簡単な説明】
【図1】 この発明の一実施例に係る音声信号分離システムのブロック図である。
【図2】 この発明の他の実施例に係る音声信号分離システムのブロック図である。
【図3】 図2及び図3の実施例における音声処理部の構成を示すブロック図である。
【図4】 図2及び図3の実施例における子音処理部の構成を示すブロック図である。
【図5】 子音処理部における子音区間検出処理を示すフローチャートである。
【図6】 図1のシステムの出力部分の変形例を示す図である。
【図7】 同システムの応用例を示すブロック図である。
【符号の説明】
1…母音処理部、2…子音処理部、3…母音・子音判定部、4,6…切替部、5…加算器、11…周波数分析部、12…基本周波数検出部、13…母音分離部、21…LPC分析部、22…特徴量評価部、24…子音分離部。
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an audio signal separation method and apparatus for extracting only an audio signal from a mixed signal including an audio signal and extracting at least one of the audio signal and other signals.
[0002]
[Prior art]
A technique is known in which a specific signal is emphasized / suppressed or separated and extracted from a signal in which a plurality of acoustic signals are mixed. For audio signals, noise suppression methods (for example, JP-A-9-153769, JP-A-9-212196, etc.) that suppress only noise from an acoustic signal in which noise and audio signals are mixed are performed for music. Various methods relating to separation and removal of melody contained in Japanese Patent Laid-Open No. 11-143460 have been proposed.
[0003]
The noise suppression method addresses the problem that, for example, in a sound processing device such as a signal amplifier, a sound signal to be listened to is buried in noise, making it difficult to hear the target sound signal. As a method of separating and removing music, for example, a karaoke is created except for a certain melody.
[0004]
In Japanese Patent Laid-Open No. 9-212196, noise suppression is realized by a technique called spectral subtraction. This detects speech / non-speech in the input signal, obtains a representative noise amplitude spectrum in the non-speech interval, and subtracts it from the amplitude spectrum of the input signal in the speech interval to suppress noise. As a phase component at the time of synthesis, a phase component in a mixed state is used. Here, non-speech is detected by using as an index the sum of the fundamental frequency and the power of its harmonic component, utilizing the fact that the vowels of the speech have an integer order harmonic structure. In Japanese Patent Laid-Open No. 9-212196, by reducing the threshold value for this index, a representative noise spectrum is obtained from a section that is considered to be surely noise, and the influence of the consonant of the voice is reduced.
[0005]
In Japanese Patent Laid-Open No. 11-143460, since many instrument sounds have an integer harmonic structure, it is determined that the fundamental frequency and its harmonic component are sounds from the same instrument. Then, the sound after extraction or removal is synthesized by adding and synthesizing waveforms based on the time, amplitude, and phase information of these frequency components.
[0006]
[Problems to be solved by the invention]
In the noise suppression method, the non-speech signal is noise, which is unnecessary. Therefore, basically, a signal on the non-voice side in which voice is suppressed is not obtained. In the spectral subtraction method disclosed in Japanese Patent Laid-Open No. 9-212196, the same suppression processing is performed for both the consonant part and the vowel part. Here, since the representative noise spectrum averaged over time is used, if you want to output the non-speech side signal without changing the noise suppression method in the mixed section of voice and other signals, always A typical noise spectrum will be output, and it will not be possible to follow changes over time on the non-voice signal side.
[0007]
Also, in the separation and removal method for music, all signals that do not have an integer order overtone structure are processed as other signals, so the consonant part of the speech that does not have a fundamental frequency remains in the non-speech signal. End up. When an appropriate effect is given to a non-speech signal, the effect is impaired by the remaining consonant part. For example, when reverberation is added to a live sports situation on a television to enhance the sense of reality, it is desirable to separate the live sound and the environmental sound signal and add the reverberation only to the environmental sound. However, if only the consonant part remains on the environmental sound side, reverberation is also added to this consonant, impairing the sense of presence that should be enhanced.
[0008]
The present invention has been made in view of such problems, and it is an object of the present invention to provide a speech separation method and apparatus that can follow changes over time on the non-speech signal side and can also accurately separate consonant portions. And
[0009]
[Means for Solving the Problems]
The audio signal separation method according to the present invention is an audio signal separation method for extracting an audio signal from a mixed signal obtained by mixing an audio signal and another signal and extracting at least one of the audio signal and the other signal. A vowel processing step for detecting and separating a vowel part of the speech signal based on an integer order harmonic structure from the mixed signal, and a consonant determination target for the mixed signal or the remaining signal obtained by separating the vowel part from the mixed signal A consonant processing step for detecting and separating a consonant portion of the speech signal based on the consonant characteristics from the consonant determination target signal, and the vowel portion of the speech signal detected in the vowel processing step and the consonant The audio signal is separated from the consonant portion of the audio signal detected in the processing step, and at least one of the audio signal and the other signal is extracted. Characterized by comprising an output step.
[0010]
The audio signal separation device according to the present invention is an audio signal separation device that separates an audio signal from a mixed signal obtained by mixing an audio signal and another signal and extracts at least one of the audio signal and the other signal. Vowel processing means for detecting and separating a vowel part of the audio signal from the mixed signal based on an integer order harmonic structure, and the mixed signal or the remaining signal obtained by separating the vowel part from the mixed signal is a consonant A consonant processing unit that detects and separates a consonant portion of the speech signal based on a consonant characteristic from the consonant determination target signal, and a vowel part of the speech signal detected by the vowel processing unit. Output means for separating at least one of the audio signal and other signals by separating the audio signal from a consonant portion of the audio signal detected by the consonant processing means Characterized by comprising a.
[0011]
According to the present invention, the vowel part of the voice signal is extracted from the mixed signal obtained by mixing the voice signal and other signals based on the integer order harmonic structure, and the vowel part is separated from the mixed signal or the mixed signal. Since the remaining signal is used as a consonant target signal and the consonant part is detected from the consonant target signal based on the characteristics of the consonant and separated, the remaining non-speech is obtained by separating the vowel part and the consonant part. The signal reflects changes over time. In addition, since the audio signal including the consonant part is separated from the mixed signal, the non-speech signal does not include the consonant part, and the non-speech signal can be processed with high accuracy.
[0012]
In this specification, the term “vowel” includes not only a vowel but also a voiced consonant having an integer overtone structure. “Consonant” means an unvoiced consonant that does not have an integer overtone structure. As a consonant characteristic used for detecting a consonant section at the time of consonant processing, for example, a spectrum envelope of a consonant determination target signal, power in a specific band (for example, about 4 to 10 kHz), or the like can be used. When using the spectral envelope, in the consonant processing, for example, the spectral envelope of the non-consonant section of the remaining signal obtained by separating the vowel part from the mixed signal is accumulated over time, and the spectral envelope of the non-consonant section accumulated over time is accumulated. What is necessary is just to detect the consonant section by quantitatively evaluating the distance between the signal and the spectrum envelope of the consonant determination target signal. Further, the distance between the spectrum envelope of a typical consonant learned in advance and the spectrum envelope of the consonant determination target signal may be quantitatively evaluated. As a distance measure between spectral envelopes, for example, a maximum likelihood spectral distance with respect to a linear prediction coefficient, an LPC (linear prediction) cepstrum distance, or the like can be used. Furthermore, when using power in a specific band, the power in the specific band may be compared with a predetermined threshold value.
[0013]
In the consonant processing, the spectrum envelope of the non-consonant section of the remaining signal obtained by separating the vowel part from the mixed signal is accumulated over time, and the spectrum envelope of the non-consonant section accumulated over time and the consonant determination target signal are stored. What is necessary is just to specify as a band which isolate | separates a band remarkably different between spectrum envelopes. In addition, the spectral envelope of the non-consonant section of the remaining signal obtained by separating the vowel part from the mixed signal is accumulated over time, and the consonant determination target signal that currently targets the spectral envelope of the non-consonant section accumulated over time A band having a relationship equal to or higher than a predetermined threshold may be specified as a band to be separated between the spectrum envelope normalized by the power of and the spectrum envelope of the consonant determination target signal.
[0014]
Separation of consonant parts can be performed by, for example, gain processing in a specific band using a bandpass filter or notch filter for a time domain signal, and by spectral subtraction for a frequency domain signal, for example. be able to.
[0015]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, preferred embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing the configuration of an audio signal separation system according to an embodiment of the present invention.
A mixed signal I including an audio signal and other signals (environmental sound, background sound, noise, etc.) is input to the vowel processing unit 1 and the consonant processing unit 2. The vowel processing unit 1 detects a vowel part of the audio signal from the mixed signal I based on the fundamental frequency f included in the mixed signal I, and separates it into a vowel signal Vv and another signal O1. The consonant processing unit 2 detects a consonant part included in the audio signal from the mixed signal I based on the characteristics of the spectral envelope of the mixed signal I, the power of a specific band, and the like, and the mixed signal I is detected as the consonant signal Vc and the other signal O2. And to separate. Based on the vowel / non-vowel determination result v / o from the vowel processing unit 1 and the consonant / non-consonant determination result c / o from the consonant processing unit 2, the vowel / consonal determination unit 3 A non-voice section is determined, and switching control of the switching unit 4 is performed. The switching unit 4 is controlled to be switched by the vowel / consonant determination unit 3, and is separated by the vowel signal Vv and the other signal O1 separated by the vowel processing unit 1 in the vowel section and by the consonant processing unit 2 in the non-vowel section. The consonant signal Vc and the other signal O2 are selected and output as the audio signal V and the other signal O, respectively. In the non-consonant section, the vowel signal Vv and the other signal O1 separated by the vowel processing unit 1 are selected, and in the consonant section, the consonant signal Vc and the other signal O2 separated by the consonant processing unit 2 are selected, respectively. The audio signal V and other signals O may be output.
[0016]
FIG. 2 is a block diagram showing the configuration of a speech separation system according to another embodiment of the present invention.
The vowel processing unit 1, the consonant processing unit 2, and the vowel / consonant determination unit 3 are the same as those in the above-described embodiment. In this embodiment, the consonant processing unit 2 suppresses the vowel signal Vv by the vowel processing unit 1. The other signal O1 is input as a consonant determination target signal, the consonant part and the non-consonant part are detected in a state where the vowel signal component is removed, and the consonant signal Vc and the other signal O2 are separated. Yes. In this case, since the consonant detection is performed on the signal from which the vowel signal component is removed, the detection accuracy is higher than in the previous embodiment. The consonant signal Vc separated by the consonant processing unit 2 is added to the vowel signal Vv separated by the vowel processing unit 1 by the adder 5 and output as the audio signal V. Further, the other signal O1 separated by the vowel processing unit 1 and the other signal O2 separated by the consonant processing unit 2 are switched by the switch 6 according to switching control in the vowel / consonant determination unit 3, and other signals O1 are switched. Is output as
[0017]
In these embodiments, the vowel processing unit 1 is configured as shown in FIG. 3, for example.
The mixed signal I is first input to the frequency analysis unit 11. The frequency analysis unit 11 includes a Hanning window unit 111 and an FFT (Fast Fourier Transform) unit 112. The mixed signal I is divided into frames by the Hanning window 111 and then subjected to frequency analysis by the FFT unit 112. The frequency analysis result in the FFT unit 112 is input to the fundamental frequency detection unit 12 and the vowel separation unit 13. The fundamental frequency detector 12 evaluates the integer order harmonic structure from the frequency analysis result by the FFT unit 112 and estimates the fundamental frequency f ′. In the vowel separation unit 13, the amplitude estimation units 131 1 , 131 2 ,..., 131 n estimate the amplitude of each frequency component of the integer order harmonic structure from the fundamental frequency f ′ detected by the fundamental frequency detection unit 12. The amplitude of each frequency component can be estimated by, for example, complex spectrum interpolation. The complex spectrum interpolation method is a method of obtaining a true peak by an inner product from complex vectors adjacent to the peak on the complex plane, and thereby the fundamental frequency f corrected for Hanning window and its harmonic frequencies 2f, 3f,. nf and its amplitude are determined. Each of the correction frequencies f, 2f, 3f,..., Nf is input to the phase estimation units 132 1 , 132 2 ,..., 132 n , where the phase is determined from the Hanning window characteristics and the frequency sample values before and after the corresponding frequency component. Can be estimated. Thereby, the line spectrum is estimated, and the influence (main lobe, side lobe) due to the Hanning window can be eliminated therefrom. The integer order overtone structure obtained in this way is subtracted from the frequency analysis result of the FFT unit 112 by the subtracter 133 and also returned to the time domain signal by the IFFT (inverse FFT) unit 134. The subtraction result of the subtracter 133 is also returned to the time domain signal by the IFFT unit 135. These are added to the overlap / add data 138 and 139 in the adders 136 and 137 in order to smooth the connecting portion between the frames, and only the vowel signal component is emphasized from the mixed signal I from the adder 136. The vowel signal Vv and the other signal O1 in which the vowel signal component is suppressed from the adder 137 mixed signal I are generated and output.
[0018]
FIG. 4 is a block diagram showing a configuration example of the consonant processing unit 2 in the embodiment of FIGS. 1 and 2, and FIG. 5 is a flowchart showing consonant section detection processing in the consonant processing unit 2.
The mixed signal I (the other signal O1 in the embodiment of FIG. 2) is given to an LPC (linear prediction) analysis unit 21 which is a consonant feature quantity calculation means, where the feature quantity calculation is executed. Here, a spectral envelope characteristic is calculated as a feature amount of a particularly unvoiced consonant among consonants. In order to evaluate the feature quantity using the spectral envelope characteristic, first, LPC coefficients are calculated (S1, S2, S3). The LPC analysis unit 21 predicts the current sample value from the past sample value. The prediction coefficient at this time is called an LPC coefficient. In LPC analysis, there is also a method for directly obtaining LPC coefficients by the covariance method or autocorrelation method. However, PARCOR coefficients by PARCOR analysis, LSP coefficients by LSP (line spectrum pair) analysis, and LPC coefficients can be converted into each other. is there. Here, the PARCOR analysis and the LSP analysis are both types of LPC analysis methods, but are methods with improved performance.
[0019]
Next, in the feature quantity evaluation unit 22, the LPC cepstrum distance calculation unit 221 calculates the LPC cepstrum distance Dcep between the LPC coefficient 222 averaged over time in the non-voiceless consonant section (S6, S7, S8). When the LPC coefficients are averaged over time, the obtained LPC coefficients (S4) are converted into LSP coefficients (S14), and the average is calculated (S15, S16, S17). Since the LSP coefficient has better interpolation performance than the LPC coefficient and the PARCOR coefficient, it is suitable for the average operation. Then, the averaged LSP coefficient is returned to the LPC coefficient. Thereby, the LPC coefficient after averaging is obtained. Further, the averaging over time here means that all LPC coefficients from the start of signal input to the present are weighted and added. Specifically, the following calculation may be performed.
[0020]
[Expression 1]
avg (i) = w * cur (i) + (1-w) * avg (i-1)
[0021]
Here, cur (i) is a current LPC coefficient, avg (i) is a time-average LPC coefficient, and w is a weighting function.
Further, in order to increase the calculation accuracy of the LPC coefficient 222 averaged over time, the other signal O1 from the vowel processing unit 1 is supplied to the LPC analysis unit 21, and the averaging process is also performed in the vowel detection section where the pitch exists. It is desirable to continue (S5, S14, S15, S16).
[0022]
At this time, the distance from the LPC coefficient of a typical unvoiced consonant obtained in advance may be calculated instead of the LPC coefficient 222 averaged over time. The LPC coefficients of typical unvoiced consonants obtained in advance can be used from a speech recognition database or the like. Further, the LPC cepstrum distance and the maximum likelihood spectral distance, which are not used here, are used as a distance scale between LPC coefficients (between spectral envelopes) in speech recognition.
[0023]
In addition, it is generally known that unvoiced consonants contain many frequency components of 4 kHz or higher that are relatively high compared to voiced sounds. For this reason, the consonant determination unit 223 compares the amplitude of the band of 4 kHz or higher from the spectral envelope characteristic 224 of the input signal obtained by the LPC analysis unit 21 with a threshold, and detects a band at a high level. It is not necessary to check up to a very high frequency band, and up to about 10 kHz is sufficient. The comparison result is digitized as a parameter Dspec (S9, S10, S11).
[0024]
The consonant determination unit 223 compares the calculated Dcep and Dspec with the threshold values ThDcep and ThDspec obtained by examining in advance, respectively (S12). From these comprehensive determination results, it is determined whether the section is an unvoiced consonant (S13). The threshold values ThDcep and ThDspec can be dynamically controlled in accordance with the input signal. If it is determined as an unvoiced consonant, the respective spectral envelope characteristics 224 and 225 are obtained from the input signal I or O1 and the temporal average LPC coefficient 222, and are compared with each frequency component (S9, S18, S19). At this time, in order to reduce the dependency on the signal power, it is preferable to use a normalized spectrum envelope. By comparison, a frequency with a higher input is specified with respect to the temporal average spectral envelope characteristic 225 (S20). This corresponds to the case where the mix level of the audio signal V is higher than the other signals O. This condition is sufficiently satisfied in general live broadcasting.
[0025]
The consonant separation unit 24 can perform enhancement / suppression of unvoiced consonants by performing gain operation on the amplitude spectrum of the FFT result from the FFT unit 23 or filtering on the time axis in the specified band. When gain manipulation of the amplitude spectrum is performed, the obtained unvoiced consonant signal and other signals are returned to the signals on the time axis by the IFFT units 25 and 26, respectively, to obtain the consonant signal Vv and the other signal O2. .
[0026]
As described in FIG. 1, at the time of output, the output Vv, O1 from the vowel processing unit 1 is used by using the vowel section determination based on the presence or absence of the pitch frequency and the above-described consonant section determination, or from the consonant processing unit 2 The switching unit 4 switches whether the outputs Vc and O2 are used. At this time, as shown in FIG. 6, in order to smoothly connect the signals of the vowel section, the consonant section, and the non-speech section, an overlap such as a Hanning window is used. It is desirable that the adders 43 and 44 use the / add data 41 and 42 to overlap / add the signals Vv / Vc and O1 / O2 to obtain the output signals V and O.
[0027]
FIG. 7 shows an application example of the system described above. In FIG. 6A, the present invention is applied to an emphasis / suppression unit 501 that separates a mixed signal I into a voice signal V and another signal O. The separated audio signal V and the other signal O are subjected to different signal processing by the signal processing units 502 and 503, respectively, and output as the audio signal V ′ and the other signal O ′. FIG. 5B shows an example of sound field control in live broadcasting of a television as an example of processing for another signal O that is a non-audio signal. The live relay sound signal (mixed signal I) output from the television 601 is separated into live speech (V) and environmental sound (O) by the emphasis / suppression unit 602 according to the present invention. The live audio is output from the front speaker 604 in front of the viewer 603. As for the environmental sound, a reverberation component is added by the reverberation adding unit 605, and the sound is output from four speakers 606, 607, 608, and 609 arranged on the front, back, left, and right of the viewer 603. This improves the sense of reality. FIG. 3C shows an example of speech recognition. That is, the speech enhancement unit 701 suppresses a signal (noise) O other than the speech signal V from the input acoustic signal I, and thereby separates and extracts the speech signal V. The speech recognition unit 702 performs speech recognition processing on the separated and extracted speech signal V. Thus, the voice recognition accuracy is improved by removing unnecessary ambient noise in the voice recognition. In this case, since the other signal O is an unnecessary noise component, the speech enhancement unit 701 extracts only the speech signal V.
[0028]
【The invention's effect】
As described above, according to the present invention, the vowel part of the audio signal is extracted from the mixed signal obtained by mixing the audio signal and the other signal based on the integer order harmonic structure, and the mixed signal or the mixed signal is extracted. The vowel part is separated from the consonant part by detecting the consonant part from the consonant target signal based on the characteristics of the consonant and separating it as the consonant target signal. The remaining non-speech signal reflects the change over time, and since the speech signal including the consonant part is separated from the mixed signal, the non-speech signal does not contain the consonant part, Even when an audio signal is processed, there is an effect that processing with high accuracy is possible.
[Brief description of the drawings]
FIG. 1 is a block diagram of an audio signal separation system according to an embodiment of the present invention.
FIG. 2 is a block diagram of an audio signal separation system according to another embodiment of the present invention.
3 is a block diagram showing a configuration of an audio processing unit in the embodiment of FIGS. 2 and 3. FIG.
4 is a block diagram showing a configuration of a consonant processing unit in the embodiment of FIGS. 2 and 3. FIG.
FIG. 5 is a flowchart showing consonant section detection processing in a consonant processing unit.
FIG. 6 is a diagram showing a modification of the output part of the system of FIG. 1;
FIG. 7 is a block diagram showing an application example of the system.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... Vowel processing part, 2 ... Consonant processing part, 3 ... Vowel / consonant determination part, 4, 6 ... Switching part, 5 ... Adder, 11 ... Frequency analysis part, 12 ... Fundamental frequency detection part, 13 ... Vowel separation part , 21 ... LPC analysis unit, 22 ... feature quantity evaluation unit, 24 ... consonant separation unit.

Claims (14)

音声信号とその他の信号とが混合された混合信号から音声信号を分離して前記音声信号及びその他の信号の少なくとも一方を抽出する音声信号分離方法において、
前記混合信号から整数次倍音構造に基づいて前記音声信号のうちの母音部分を検出して分離する母音処理ステップと、
前記混合信号から前記母音部分を分離した残りの信号を子音判定対象信号とし、この子音判定対象信号から子音の特性に基づいて前記音声信号のうちの子音部分を検出して分離する子音処理ステップと、
前記母音処理ステップで検出された音声信号の母音部分と前記子音処理ステップで検出された音声信号の子音部分とによって音声信号を分離して前記音声信号及びその他の信号の少なくとも一方を抽出し出力する出力ステップとを備えたことを特徴とする音声信号分離方法。
In an audio signal separation method for extracting an audio signal from a mixed signal obtained by mixing an audio signal and another signal and extracting at least one of the audio signal and the other signal,
A vowel processing step for detecting and separating a vowel part of the speech signal based on an integer overtone structure from the mixed signal;
The mixture remaining signal to signals or al the vowel portion was separated and the consonant determination target signal, detects and consonants process of separating the consonant portion of the audio signal based on the characteristics of consonant from the consonant determination target signal Steps,
The voice signal is separated by the vowel part of the voice signal detected in the vowel processing step and the consonant part of the voice signal detected in the consonant processing step, and at least one of the voice signal and other signals is extracted and output . An audio signal separation method comprising: an output step.
前記子音処理ステップは、前記子音の特性として前記子音判定対象信号のスペクトル包絡に基づいて前記音声信号のうちの子音区間を検出するステップであることを特徴とする請求項1記載の音声信号分離方法。  2. The speech signal separation method according to claim 1, wherein the consonant processing step is a step of detecting a consonant section of the speech signal based on a spectrum envelope of the consonant determination target signal as a characteristic of the consonant. . 前記子音処理ステップは、前記混合信号から前記母音部分を分離した残りの信号のうち非子音区間のスペクトル包絡を経時的に蓄積し、この経時的に蓄積した非子音区間のスペクトル包絡と前記子音判定対象信号のスペクトル包絡との距離を定量的に評価して前記音声信号のうちの子音区間を検出するステップであることを特徴とする請求項2記載の音声信号分離方法。  The consonant processing step accumulates the spectral envelope of the non-consonant section of the remaining signal obtained by separating the vowel part from the mixed signal with time, and the spectral envelope of the non-consonant section accumulated with time and the consonant determination The speech signal separation method according to claim 2, wherein the speech signal separation method is a step of quantitatively evaluating a distance from a spectrum envelope of the target signal to detect a consonant section of the speech signal. 前記子音処理ステップは、予め学習された代表的な子音のスペクトル包絡と前記子音判定対象信号のスペクトル包絡との距離を定量的に評価して前記音声信号のうちの子音区間を検出するステップであることを特徴とする請求項2記載の音声信号分離方法。  The consonant processing step is a step of detecting a consonant section of the speech signal by quantitatively evaluating a distance between a spectral envelope of a representative consonant learned in advance and a spectrum envelope of the consonant determination target signal. The audio signal separation method according to claim 2, wherein: 前記子音処理ステップは、前記子音判定対象信号の特定帯域のパワーに基づいて前記音声信号のうちの子音区間を検出するステップであることを特徴とする請求項1〜4のいずれか1項記載の音声信号分離方法。  The said consonant processing step is a step which detects the consonant area of the said audio | voice signal based on the power of the specific band of the said consonant determination object signal, The any one of Claims 1-4 characterized by the above-mentioned. Audio signal separation method. 前記子音処理ステップは、前記混合信号から前記母音部分を分離した残りの信号のうち非子音区間のスペクトル包絡を経時的に蓄積し、この経時的に蓄積した非子音区間のスペクトル包絡と前記子音判定対象信号のスペクトル包絡との間で顕著に異なる帯域を分離する帯域として特定することを特徴とする請求項1〜5のいずれか1項記載の音声信号分離方法。  The consonant processing step accumulates the spectral envelope of the non-consonant section of the remaining signal obtained by separating the vowel part from the mixed signal with time, and the spectral envelope of the non-consonant section accumulated with time and the consonant determination The audio signal separation method according to claim 1, wherein a band that is significantly different from the spectrum envelope of the target signal is specified as a band to be separated. 前記子音処理ステップは、前記混合信号から前記母音部分を分離した残りの信号のうち非子音区間のスペクトル包絡を経時的に蓄積し、この経時的に蓄積した非子音区間のスペクトル包絡を現在対象としている前記子音判定対象信号のパワーで正規化したスペクトル包絡と前記子音判定対象信号のスペクトル包絡との間で所定の閾値以上の関係を有する帯域を分離する帯域として特定することを特徴とする請求項1〜5のいずれか1項記載の音声信号分離方法。  The consonant processing step accumulates the spectral envelope of the non-consonant section of the remaining signal obtained by separating the vowel part from the mixed signal over time, and the spectral envelope of the non-consonant section accumulated over time is currently targeted. A band having a relationship equal to or greater than a predetermined threshold between a spectrum envelope normalized by the power of the consonant determination target signal and a spectrum envelope of the consonant determination target signal is specified as a band to be separated. The audio signal separation method according to any one of 1 to 5. 音声信号とその他の信号とが混合された混合信号から音声信号を分離して前記音声信号及びその他の信号の少なくとも一方を抽出する音声信号分離装置において、
前記混合信号から整数次倍音構造に基づいて前記音声信号のうちの母音部分を検出して分離する母音処理手段と、
前記混合信号から前記母音部分を分離した残りの信号を子音判定対象信号とし、この子音判定対象信号から子音の特性に基づいて前記音声信号のうちの子音部分を検出して分離する子音処理手段と、
前記母音処理手段で検出された音声信号の母音部分と前記子音処理手段で検出された音声信号の子音部分とによって音声信号を分離して前記音声信号及びその他の信号の少なくとも一方を抽出し出力する出力手段とを備えたことを特徴とする音声信号分離装置。
In an audio signal separation device for separating an audio signal from a mixed signal obtained by mixing an audio signal and another signal and extracting at least one of the audio signal and the other signal,
Vowel processing means for detecting and separating a vowel part of the speech signal based on an integer order harmonic structure from the mixed signal;
The mixture remaining signal to signals or al the vowel portion was separated and the consonant determination target signal, detects and consonants process of separating the consonant portion of the audio signal based on the characteristics of consonant from the consonant determination target signal Means,
The voice signal is separated by the vowel part of the voice signal detected by the vowel processing means and the consonant part of the voice signal detected by the consonant processing means, and at least one of the voice signal and other signals is extracted and output . An audio signal separation device comprising an output means.
前記子音処理手段は、前記子音の特性として前記子音判定対象信号のスペクトル包絡に基づいて前記音声信号のうちの子音区間を検出する手段であることを特徴とする請求項8記載の音声信号分離装置。  9. The speech signal separation device according to claim 8, wherein the consonant processing means is means for detecting a consonant section of the speech signal based on a spectral envelope of the consonant determination target signal as a characteristic of the consonant. . 前記子音処理手段は、前記混合信号から前記母音部分を分離した残りの信号のうち非子音区間のスペクトル包絡を経時的に蓄積し、この経時的に蓄積した非子音区間のスペクトル包絡と前記子音判定対象信号のスペクトル包絡との距離を定量的に評価して前記音声信号のうちの子音区間を検出する手段であることを特徴とする請求項9記載の音声信号分離装置。  The consonant processing means accumulates the spectral envelope of the non-consonant section of the remaining signal obtained by separating the vowel part from the mixed signal over time, and the spectral envelope of the non-consonant section accumulated over time and the consonant determination The speech signal separation device according to claim 9, wherein the speech signal separation device is means for quantitatively evaluating a distance from a spectrum envelope of the target signal to detect a consonant section of the speech signal. 前記子音処理手段は、予め学習された代表的な子音のスペクトル包絡と前記子音判定対象信号のスペクトル包絡との距離を定量的に評価して前記音声信号のうちの子音区間を検出する手段であることを特徴とする請求項9記載の音声信号分離装置。  The consonant processing means is means for quantitatively evaluating a distance between a spectral envelope of a typical consonant learned in advance and a spectrum envelope of the consonant determination target signal and detecting a consonant section of the speech signal. The audio signal separation device according to claim 9. 前記子音処理手段は、前記子音判定対象信号の特定帯域のパワーに基づいて前記音声信号のうちの子音区間を検出する手段であることを特徴とする請求項8〜11のいずれか1項記載の音声信号分離装置。  The said consonant processing means is a means to detect the consonant area of the said audio | voice signal based on the power of the specific band of the said consonant determination object signal, The any one of Claims 8-11 characterized by the above-mentioned. Audio signal separation device. 前記子音処理手段は、前記混合信号から前記母音部分を分離した残りの信号のうち非子音区間のスペクトル包絡を経時的に蓄積し、この経時的に蓄積した非子音区間のスペクトル包絡と前記子音判定対象信号のスペクトル包絡との間で顕著に異なる帯域を分離する帯域として特定することを特徴とする請求項8〜12のいずれか1項記載の音声信号分離装置。  The consonant processing means accumulates the spectral envelope of the non-consonant section of the remaining signal obtained by separating the vowel part from the mixed signal with time, and the spectral envelope of the non-consonant section accumulated with time and the consonant determination The audio signal separation device according to any one of claims 8 to 12, wherein a band that significantly differs from a spectrum envelope of the target signal is specified as a band to be separated. 前記子音処理手段は、前記混合信号から前記母音部分を分離した残りの信号のうち非子音区間のスペクトル包絡を経時的に蓄積し、この経時的に蓄積した非子音区間のスペクトル包絡を現在対象としている前記子音判定対象信号のパワーで正規化したスペクトル包絡と前記子音判定対象信号のスペクトル包絡との間で所定の閾値以上の関係を有する帯域を分離する帯域として特定することを特徴とする請求項8〜12のいずれか1項記載の音声信号分離装置。  The consonant processing means accumulates the spectral envelope of the non-consonant section of the remaining signal obtained by separating the vowel part from the mixed signal over time, and the spectral envelope of the non-consonant section accumulated over time is currently targeted. A band having a relationship equal to or greater than a predetermined threshold between a spectrum envelope normalized by the power of the consonant determination target signal and a spectrum envelope of the consonant determination target signal is specified as a band to be separated. The audio signal separation device according to any one of 8 to 12.
JP2000384745A 2000-12-19 2000-12-19 Audio signal separation method and apparatus Expired - Fee Related JP4710130B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000384745A JP4710130B2 (en) 2000-12-19 2000-12-19 Audio signal separation method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000384745A JP4710130B2 (en) 2000-12-19 2000-12-19 Audio signal separation method and apparatus

Publications (2)

Publication Number Publication Date
JP2002182689A JP2002182689A (en) 2002-06-26
JP4710130B2 true JP4710130B2 (en) 2011-06-29

Family

ID=18852136

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000384745A Expired - Fee Related JP4710130B2 (en) 2000-12-19 2000-12-19 Audio signal separation method and apparatus

Country Status (1)

Country Link
JP (1) JP4710130B2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04230800A (en) * 1990-05-28 1992-08-19 Matsushita Electric Ind Co Ltd Voice signal processor
JPH10124090A (en) * 1996-10-24 1998-05-15 Nippon Telegr & Teleph Corp <Ntt> Voice recognition method and device to execute the method
JP2000152394A (en) * 1998-11-13 2000-05-30 Matsushita Electric Ind Co Ltd Hearing aid for moderately hard of hearing, transmission system having provision for the moderately hard of hearing, recording and reproducing device for the moderately hard of hearing and reproducing device having provision for the moderately hard of hearing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04230800A (en) * 1990-05-28 1992-08-19 Matsushita Electric Ind Co Ltd Voice signal processor
JPH10124090A (en) * 1996-10-24 1998-05-15 Nippon Telegr & Teleph Corp <Ntt> Voice recognition method and device to execute the method
JP2000152394A (en) * 1998-11-13 2000-05-30 Matsushita Electric Ind Co Ltd Hearing aid for moderately hard of hearing, transmission system having provision for the moderately hard of hearing, recording and reproducing device for the moderately hard of hearing and reproducing device having provision for the moderately hard of hearing

Also Published As

Publication number Publication date
JP2002182689A (en) 2002-06-26

Similar Documents

Publication Publication Date Title
EP2546831B1 (en) Noise suppression device
EP0459362B1 (en) Voice signal processor
US8612222B2 (en) Signature noise removal
JPH09212196A (en) Noise suppressor
JP5649488B2 (en) Voice discrimination device, voice discrimination method, and voice discrimination program
JP3451146B2 (en) Denoising system and method using spectral subtraction
JP3033061B2 (en) Voice noise separation device
Itoh et al. Environmental noise reduction based on speech/non-speech identification for hearing aids
JP2005266797A (en) Method and apparatus for separating sound-source signal and method and device for detecting pitch
JP2000330597A (en) Noise suppressing device
JP4434813B2 (en) Noise spectrum estimation method, noise suppression method, and noise suppression device
JPH08160994A (en) Noise suppression device
JP4123835B2 (en) Noise suppression device and noise suppression method
JP2008070878A (en) Voice signal pre-processing device, voice signal processing device, voice signal pre-processing method and program for voice signal pre-processing
JP2007093635A (en) Known noise removing device
JP5166470B2 (en) Voice recognition device and content playback device
JP4710130B2 (en) Audio signal separation method and apparatus
JP2006126859A (en) Speech processing device and method
US20030046069A1 (en) Noise reduction system and method
JP3106543B2 (en) Audio signal processing device
JP4125322B2 (en) Basic frequency extraction device, method thereof, program thereof, and recording medium recording the program
JP2001222289A (en) Sound signal analyzing method and device and voice signal processing method and device
JPH1138997A (en) Noise suppression device and recording medium on which processing program for processing noise elimination of speech is recorded
CN111226278B (en) Low complexity voiced speech detection and pitch estimation
Okazaki et al. Multi-stage spectral subtraction for enhancement of audio signals

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100518

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100716

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110307

LAPS Cancellation because of no payment of annual fees