JP4710130B2 - Audio signal separation method and apparatus - Google Patents
Audio signal separation method and apparatus Download PDFInfo
- Publication number
- JP4710130B2 JP4710130B2 JP2000384745A JP2000384745A JP4710130B2 JP 4710130 B2 JP4710130 B2 JP 4710130B2 JP 2000384745 A JP2000384745 A JP 2000384745A JP 2000384745 A JP2000384745 A JP 2000384745A JP 4710130 B2 JP4710130 B2 JP 4710130B2
- Authority
- JP
- Japan
- Prior art keywords
- consonant
- signal
- vowel
- audio signal
- section
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
この発明は、音声信号を含む混合信号から音声信号のみを分離して音声信号及びその他の信号の少なくとも一方を抽出する音声信号分離方法及び装置に関する。
【0002】
【従来の技術】
複数の音響信号が混在した信号から、特定の信号を強調・抑圧したり分離抽出する技術が知られている。音声信号に対しては、雑音と音声信号が混在した音響信号から雑音のみを抑圧する雑音抑圧方式(例えば特開平9−153769号、特開平9−212196号等)が、音楽に対しては演奏に含まれる旋律の分離や除去に関する方式(特開平11−143460号等)が様々に提案されている。
【0003】
雑音抑圧方式は、例えば信号増幅器などの音響処理装置において、聴取したい音声信号が雑音に埋もれてしまい、目的の音声信号が聴き難いといった問題に対処する。また、音楽に対する分離や除去の方式は、例えばある旋律だけを除いてカラオケのようなものを作成したりする。
【0004】
特開平9−212196号では、スペクトラルサブトラクションと呼ばれる手法によって雑音抑圧を実現している。これは、入力信号中の音声/非音声を検出し、非音声区間で代表的な雑音振幅スペクトルを求め、音声区間でこれを入力信号の振幅スペクトルから差し引くことで雑音を抑圧する。合成時の位相成分については、混合された状態のときのものを用いる。ここでは、音声の母音が整数次倍音構造を持っていることを利用して、基本周波数とその倍音成分のパワーを加算したものを指標として、非音声の検出をしている。特開平9−212196号では、この指標に対する閾値を小さくすることで、確実に雑音であると思われる区間から代表的な雑音スペクトルを求め、音声の子音の影響を小さくしている。
【0005】
特開平11−143460号では、楽器音が整数次倍音構造を持っているものが多いことから、基本周波数とその倍音成分を同一楽器からの音であると判断している。そして、これらの周波数成分の時刻、振幅、位相の情報に基づいて波形を加算合成することで抽出や除去後の音を合成している。
【0006】
【発明が解決しようとする課題】
雑音抑圧方式では、非音声信号とは雑音のことであり、これは不要なものである。従って、基本的には音声の抑圧された非音声側の信号を得ることはない。特開平9−212196号に開示されたスペクトラルサブトラクション法では、子音部分でも母音部分でも同じ抑圧処理をしている。ここでは、経時的に平均した代表的雑音スペクトルを用いているため、音声とその他の信号の混在区間で雑音抑圧方式に変更を加えずに非音声側の信号を出力しようと思った場合、常に代表的雑音スペクトルが出力されることになってしまい、非音声信号側の経時的な変化に追従できない。
【0007】
また、音楽に対する分離や除去の方式では、整数次倍音構造を持たない信号は、全てその他の信号として処理されてしまうため、基本周波数の存在しない音声の子音部分に関しては、非音声信号に残留してしまう。非音声信号に対して適切な効果を与える場合に、残留した子音部分によってその効果が損なわれてしまう。例えばテレビのスポーツ実況に残響を付加し、臨場感を高める場合、実況音声と環境音信号とを分離し、環境音のみに残響付加することが望ましい。しかし、環境音側に子音部分だけが残ると、この子音にも残響付加され、高めたいはずの臨場感を損なってしまう。
【0008】
この発明は、このような問題点に鑑みなされたもので、非音声信号側の経時的な変化に追従可能で、且つ子音部分も精度良く分離可能な音声分離方法及び装置を提供することを目的とする。
【0009】
【課題を解決するための手段】
この発明に係る音声信号分離方法は、音声信号とその他の信号とが混合された混合信号から音声信号を分離して前記音声信号及びその他の信号の少なくとも一方を抽出する音声信号分離方法において、前記混合信号から整数次倍音構造に基づいて前記音声信号のうちの母音部分を検出して分離する母音処理ステップと、前記混合信号又は前記混合信号から前記母音部分を分離した残りの信号を子音判定対象信号とし、この子音判定対象信号から子音の特性に基づいて前記音声信号のうちの子音部分を検出して分離する子音処理ステップと、前記母音処理ステップで検出された音声信号の母音部分と前記子音処理ステップで検出された音声信号の子音部分とによって音声信号を分離して前記音声信号及びその他の信号の少なくとも一方を抽出する出力ステップとを備えたことを特徴とする。
【0010】
また、この発明に係る音声信号分離装置は、音声信号とその他の信号とが混合された混合信号から音声信号を分離して前記音声信号及びその他の信号の少なくとも一方を抽出する音声信号分離装置において、前記混合信号から整数次倍音構造に基づいて前記音声信号のうちの母音部分を検出して分離する母音処理手段と、前記混合信号又は前記混合信号から前記母音部分を分離した残りの信号を子音判定対象信号とし、この子音判定対象信号から子音の特性に基づいて前記音声信号のうちの子音部分を検出して分離する子音処理手段と、前記母音処理手段で検出された音声信号の母音部分と前記子音処理手段で検出された音声信号の子音部分とによって音声信号を分離して前記音声信号及びその他の信号の少なくとも一方を抽出する出力手段とを備えたことを特徴とする。
【0011】
この発明によれば、音声信号とその他の信号とが混合された混合信号から整数次倍音構造に基づいて音声信号のうちの母音部分を抽出すると共に、混合信号又は混合信号から母音部分を分離した残りの信号を子音対象信号として、この子音対象信号から子音の特性に基づいて子音部分を検出してこれを分離するようにしているので、母音部分と子音部分とが分離された残りの非音声信号は、経時的変化が反映されたものとなる。また、子音部分を含んで音声信号が混合信号から分離されるので、非音声信号に子音部分が含まれることがなく、非音声信号を処理する場合にも、精度の良い処理が可能になる。
【0012】
なお、ここで“母音”とは、この明細書では、母音のみならず、整数次倍音構造を持つ有声子音も含む。また、“子音”とは、整数次倍音構造を持たない無声子音を意味する。子音処理時において子音区間を検出するために使用される子音の特性としては、例えば子音判定対象信号のスペクトル包絡、特定帯域のパワー(例えば4〜10kHz程度)等を使用することができる。スペクトル包絡を使用する場合、子音処理では、例えば混合信号から母音部分を分離した残りの信号のうち非子音区間のスペクトル包絡を経時的に蓄積し、この経時的に蓄積した非子音区間のスペクトル包絡と子音判定対象信号のスペクトル包絡との距離を定量的に評価して子音区間を検出する様にすればよい。また、予め学習された代表的な子音のスペクトル包絡と子音判定対象信号のスペクトル包絡との距離を定量的に評価するようにしても良い。スペクトル包絡間の距離尺度としては、例えば線形予測係数に対する最尤スペクトル距離、LPC(線形予測)ケプストラム距離等を使用することができる。更に、特定帯域のパワーを使用する場合には、特定帯域のパワーと所定の閾値との比較を行えば良い。
【0013】
また、子音処理では、混合信号から母音部分を分離した残りの信号のうち非子音区間のスペクトル包絡を経時的に蓄積し、この経時的に蓄積した非子音区間のスペクトル包絡と子音判定対象信号のスペクトル包絡との間で顕著に異なる帯域を分離する帯域として特定するようにすればよい。この他、混合信号から母音部分を分離した残りの信号のうち非子音区間のスペクトル包絡を経時的に蓄積し、この経時的に蓄積した非子音区間のスペクトル包絡を現在対象としている子音判定対象信号のパワーで正規化したスペクトル包絡と子音判定対象信号のスペクトル包絡との間で所定の閾値以上の関係を有する帯域を分離する帯域として特定するようにしても良い。
【0014】
なお、子音部分の分離は、時間領域の信号に対しては、例えばバンドパスフィルタやノッチフィルタによる特定帯域のゲイン処理によって行うことができ、周波数領域の信号に対しては、例えばスペクトラルサブトラクションにより行うことができる。
【0015】
【発明の実施の形態】
以下、図面を参照して、この発明の好ましい実施の形態について説明する。
図1は、この発明の一実施例に係る音声信号分離システムの構成を示すブロック図である。
音声信号とその他の信号(環境音、背景音、雑音等)とを含む混合信号Iは、母音処理部1と子音処理部2とに入力されている。母音処理部1では、混合信号Iに含まれる基本周波数fに基づいて混合信号Iから音声信号の母音部分を検出し、母音信号Vvと、その他の信号O1とに分離する。子音処理部2では、混合信号Iのスペクトル包絡の特徴や特定帯域のパワー等に基づいて混合信号Iから音声信号に含まれる子音部分を検出し、混合信号Iを子音信号Vcとその他の信号O2とに分離する。母音・子音判定部3は、母音処理部1からの母音/非母音判定結果v/oと子音処理部2からの子音/非子音判定結果c/oとに基づいて、母音区間、子音区間及び非音声区間を判定し、切替部4の切替制御を行う。切替部4は、母音・子音判定部3により切替制御され、母音区間では母音処理部1で分離された母音信号Vvとその他の信号O1とを、また非母音区間では子音処理部2で分離された子音信号Vcとその他の信号O2とを選択し、それぞれ音声信号V及びその他の信号Oとして出力する。また、非子音区間では母音処理部1で分離された母音信号Vvとその他の信号O1とを、子音区間では子音処理部2で分離された子音信号Vcとその他の信号O2とを選択し、それぞれ音声信号V及びその他の信号Oとして出力するようにしても良い。
【0016】
図2は、この発明の他の実施例に係る音声分離システムの構成を示すブロック図である。
母音処理部1、子音処理部2及び母音・子音判定部3は、上述した実施例と同様のものであるが、この実施例では、子音処理部2が母音処理部1で母音信号Vvを抑圧したその他の信号O1を子音判定対象信号として入力し、母音信号成分が除去された状態で子音部分と非子音部分とを検出し、子音信号Vcとその他の信号O2とに分離する点が異なっている。この場合には、母音信号成分が除去された信号に対して子音検出を行うため、先の実施例よりも検出精度は上がる。子音処理部2で分離された子音信号Vcは、母音処理部1で分離された母音信号Vvに加算器5で加算されて音声信号Vとして出力される。また、母音処理部1で分離されたその他の信号O1と子音処理部2で分離されたその他の信号O2とは、母音・子音判定部3での切替制御に従って切替器6よって切り替え他の信号Oとして出力される。
【0017】
これらの実施例において、母音処理部1は、例えば図3に示すように構成されている。
混合信号Iは、先ず周波数分析部11に入力される。周波数分析部11は、ハニング窓部111とFFT(高速フーリエ変換)部112とからなる。混合信号Iは、ハニング窓部111でフレーム分割されたのち、FFT部112により周波数分析される。FFT部112での周波数分析結果は、基本周波数検出部12と母音分離部13とに入力されている。基本周波数検出部12では、FFT部112による周波数分析結果から整数次倍音構造を評価して基本周波数f′を推定する。母音分離部13では、基本周波数検出部12で検出された基本周波数f′から整数次倍音構造の各周波数成分の振幅を振幅推定部1311,1312,…,131nで推定する。各周波数成分の振幅は、例えば複素スペクトル内挿法によって推定することができる。複素スペクトル内挿法は、複素平面上でピークに隣接する複素ベクトルから内積によって真のピークを求める手法であり、これによりハニング窓対応補正された基本周波数f及びその倍音周波数2f,3f,…,nfと、その振幅とが求められる。各補正周波数f,2f,3f,…,nfは、位相推定部1321,1322,…,132nに入力されここで、ハニング窓の特性と該当周波数成分の前後の周波数サンプル値とから位相を推定することができる。これにより線スペクトルが推定され、そこからハニング窓による影響(メインローブ、サイドローブ)を排除することができる。このようにして求められた整数次倍音構造は、FFT部112の周波数分析結果から減算器133によって減算されると共に、IFFT(逆FFT)部134によって時間領域の信号に戻される。また、減算器133の減算結果もIFFT部135によって時間領域の信号に戻される。これらは、フレーム間のつなぎ部分を滑らかにするため、加算器136,137においてオーバーラップ/アド用データ138,139とそれぞれ加算されて、加算器136からは混合信号Iから母音信号成分のみ強調された母音信号Vvが、また加算器137混合信号Iから母音信号成分が抑圧されたその他の信号O1が生成出力される。
【0018】
図4は、図1及び図2の実施例における子音処理部2の構成例を示すブロック図、図5は、この子音処理部2における子音区間検出処理を示すフローチャートとである。
混合信号I(図2の実施例では他の信号O1)は、子音特徴量計算手段であるLPC(線形予測)分析部21に与えられ、ここで特徴量計算が実行される。ここでは、子音のうち特に目立つ無声子音の特徴量として、スペクトル包絡特性を計算する。スペクトル包絡特性にて特徴量評価を行うためには、まず、LPC係数を計算する(S1,S2,S3)。LPC分析部21では、過去の標本値から現時点での標本値を予測する。このときの予測係数をLPC係数という。LPC分析では、共分散法や自己相関法にて直接LPC係数を求める方法もあるが、PARCOR分析によるPARCOR係数、LSP(線スペクトル対)分析によるLSP係数と、LPC係数とは相互に変換可能である。ここで、PARCOR分析、LSP分析は、いずれもLPC分析法の一種であるが、より性能の改善された手法である。
【0019】
特徴量評価部22では、次にLPCケプストラム距離計算部221において、非無声子音区間に経時的に平均したLPC係数222との間のLPCケプストラム距離Dcepを計算する(S6,S7,S8)。LPC係数を経時的に平均化する場合には、求めたLPC係数(S4)をLSP係数(S14)に変換して、平均を計算すると良い(S15,S16,S17)。LSP係数はLPC係数やPARCOR係数よりも補間性能が良いため、平均操作に適している。そして平均化後のLSP係数をLPC係数に戻す。これにより、平均化後のLPC係数を得る。また、ここで言う経時的な平均化とは、信号の入力の開始から現在までのLPC係数の全てを重み付け加算することを言う。具体的には、以下のような計算を行えば良い。
【0020】
【数1】
avg(i)=w*cur(i)+(1−w)*avg(i−1)
【0021】
なお、ここで、cur(i)は現在のLPC係数、avg(i)は経時平均LPC係数、wは重み関数である。
また、経時的に平均化したLPC係数222の算出精度を高めるため、母音処理部1からの他の信号O1をLPC分析部21に供給してピッチが存在する母音検出区間においても、平均化処理を続行することが望ましい(S5,S14,S15,S16)。
【0022】
なお、このとき、経時的に平均したLPC係数222ではなく、予め求めておいた代表的な無声子音のLPC係数との距離を計算するようにしても良い。予め求めておく代表的な無声子音のLPC係数は、音声認識データベース等から流用可能である。また、LPCケプストラム距離やここでは用いていないが最尤スペクトル距離等は、音声認識においてLPC係数間(スペクトル包絡間)の距離尺度として用いられているものである。
【0023】
また、無声子音には、有声音と比較して比較的高い4kHz以上の周波数成分が多く含まれていることが一般に知られている。このため、子音判定部223は、LPC分析部21で求めた入力信号のスペクトル包絡特性224から4kHz以上の帯域の振幅を閾値と比較し、高いレベルにある帯域を検出する。これは、あまり高い周波数帯域まで調べる必要はなく、10kHz程度までで十分である。比較結果をパラメータDspecとして数値化する(S9,S10,S11)。
【0024】
子音判定部223は、計算されたDcep及びDspecと、それぞれ事前に調査して求めた閾値ThDcep及びThDspecとを比較する(S12)。これらの総合判定結果から、当該区間が無声子音であるかどうかの判定を行う(S13)。なお、閾値ThDcepやThDspecは入力信号に適応して動的に制御することも可能である。無声子音と判定された場合には、入力信号I又はO1と経時的平均LPC係数222とからそれぞれのスペクトル包絡特性224,225を求め、これを各周波数成分に対して比較する(S9,S18,S19)。このとき、信号パワーへの依存性を減らすため、スペクトル包絡は正規化したものを用いると良い。比較によって経時的平均スペクトル包絡特性225に対して、入力の方が高い周波数を特定する(S20)。これは、音声信号Vのミックスレベルがその他の信号Oよりも高いレベルにある場合に相当する。一般の実況放送等では、この条件は十分満たされている。
【0025】
子音分離部24では、特定された帯域に、FFT部23でのFFT結果の振幅スペクトルのゲイン操作を行ったり、時間軸上でフィルタリングすることで、無声子音の強調・抑圧が可能となる。振幅スペクトルのゲイン操作を行った場合、得られた無声子音信号とその他の信号とをIFFT部25,26でそれぞれ時間軸上の信号に戻すことで子音信号Vvとその他の信号O2とが得られる。
【0026】
図1において説明したように、出力時には、ピッチ周波数の有無による母音区間判定、上述した子音区間判定の結果を用いて、母音処理部1からの出力Vv,O1を用いるか、子音処理部2からの出力Vc,O2を用いるかを切替部4で切り替えるが、このとき、図6に示すように、母音区間、子音区間及び非音声区間の信号を滑らかに接続するため、ハニング窓等のオーバーラップ/アドデータ41,42を用いて加算器43,44にて信号Vv/Vc,O1/O2をオーバーラップ/アド処理して出力信号V,Oを得ることが望ましい。
【0027】
図7は、上述したシステムの適用例を示すものである。同図(a)は混合信号Iを音声信号Vと他の信号Oとに分離する強調・抑圧部501にこの発明を適用している。分離された音声信号Vと他の信号Oには、信号処理部502,503によってそれぞれ別々の信号処理が施され、音声信号V′及び他の信号O′として出力される。同図(b)は、非音声信号である他の信号Oに対する処理の例として、テレビの実況中継における音場制御の例を示している。テレビ601から出力される実況中継の音響信号(混合信号I)は、この発明に係る強調・抑圧部602で実況音声(V)と、環境音(O)とに分離される。実況音声については視聴者603の前方のフロントスピーカ604から出力される。環境音については、残響付加部605で残響成分が付加されて、視聴者603の前後左右に配置された4つのスピーカ606,607,608,609から出力される。これにより臨場感が向上する。同図(c)は、音声認識の例である。即ち、音声強調部701は、入力音響信号Iから音声信号V以外の他の信号(雑音)Oを抑圧して、これにより音声信号Vを分離抽出する。音声認識部702は、分離抽出された音声信号Vに対して音声認識処理を実行する。このように音声認識において不要な周囲雑音を取り除くことで音声認識精度が向上する。この場合、他の信号Oは、不要な雑音成分なので、音声強調部701は音声信号Vのみを抽出する。
【0028】
【発明の効果】
以上述べたように、この発明によれば、音声信号とその他の信号とが混合された混合信号から整数次倍音構造に基づいて音声信号のうちの母音部分を抽出すると共に、混合信号又は混合信号から母音部分を分離した残りの信号を子音対象信号として、この子音対象信号から子音の特性に基づいて子音部分を検出してこれを分離するようにしているので、母音部分と子音部分とが分離された残りの非音声信号は、経時的変化が反映されたものとなり、且つ子音部分を含んで音声信号が混合信号から分離されるので、非音声信号に子音部分が含まれることがなく、非音声信号を処理する場合にも、精度の良い処理が可能になるという効果を奏する。
【図面の簡単な説明】
【図1】 この発明の一実施例に係る音声信号分離システムのブロック図である。
【図2】 この発明の他の実施例に係る音声信号分離システムのブロック図である。
【図3】 図2及び図3の実施例における音声処理部の構成を示すブロック図である。
【図4】 図2及び図3の実施例における子音処理部の構成を示すブロック図である。
【図5】 子音処理部における子音区間検出処理を示すフローチャートである。
【図6】 図1のシステムの出力部分の変形例を示す図である。
【図7】 同システムの応用例を示すブロック図である。
【符号の説明】
1…母音処理部、2…子音処理部、3…母音・子音判定部、4,6…切替部、5…加算器、11…周波数分析部、12…基本周波数検出部、13…母音分離部、21…LPC分析部、22…特徴量評価部、24…子音分離部。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an audio signal separation method and apparatus for extracting only an audio signal from a mixed signal including an audio signal and extracting at least one of the audio signal and other signals.
[0002]
[Prior art]
A technique is known in which a specific signal is emphasized / suppressed or separated and extracted from a signal in which a plurality of acoustic signals are mixed. For audio signals, noise suppression methods (for example, JP-A-9-153769, JP-A-9-212196, etc.) that suppress only noise from an acoustic signal in which noise and audio signals are mixed are performed for music. Various methods relating to separation and removal of melody contained in Japanese Patent Laid-Open No. 11-143460 have been proposed.
[0003]
The noise suppression method addresses the problem that, for example, in a sound processing device such as a signal amplifier, a sound signal to be listened to is buried in noise, making it difficult to hear the target sound signal. As a method of separating and removing music, for example, a karaoke is created except for a certain melody.
[0004]
In Japanese Patent Laid-Open No. 9-212196, noise suppression is realized by a technique called spectral subtraction. This detects speech / non-speech in the input signal, obtains a representative noise amplitude spectrum in the non-speech interval, and subtracts it from the amplitude spectrum of the input signal in the speech interval to suppress noise. As a phase component at the time of synthesis, a phase component in a mixed state is used. Here, non-speech is detected by using as an index the sum of the fundamental frequency and the power of its harmonic component, utilizing the fact that the vowels of the speech have an integer order harmonic structure. In Japanese Patent Laid-Open No. 9-212196, by reducing the threshold value for this index, a representative noise spectrum is obtained from a section that is considered to be surely noise, and the influence of the consonant of the voice is reduced.
[0005]
In Japanese Patent Laid-Open No. 11-143460, since many instrument sounds have an integer harmonic structure, it is determined that the fundamental frequency and its harmonic component are sounds from the same instrument. Then, the sound after extraction or removal is synthesized by adding and synthesizing waveforms based on the time, amplitude, and phase information of these frequency components.
[0006]
[Problems to be solved by the invention]
In the noise suppression method, the non-speech signal is noise, which is unnecessary. Therefore, basically, a signal on the non-voice side in which voice is suppressed is not obtained. In the spectral subtraction method disclosed in Japanese Patent Laid-Open No. 9-212196, the same suppression processing is performed for both the consonant part and the vowel part. Here, since the representative noise spectrum averaged over time is used, if you want to output the non-speech side signal without changing the noise suppression method in the mixed section of voice and other signals, always A typical noise spectrum will be output, and it will not be possible to follow changes over time on the non-voice signal side.
[0007]
Also, in the separation and removal method for music, all signals that do not have an integer order overtone structure are processed as other signals, so the consonant part of the speech that does not have a fundamental frequency remains in the non-speech signal. End up. When an appropriate effect is given to a non-speech signal, the effect is impaired by the remaining consonant part. For example, when reverberation is added to a live sports situation on a television to enhance the sense of reality, it is desirable to separate the live sound and the environmental sound signal and add the reverberation only to the environmental sound. However, if only the consonant part remains on the environmental sound side, reverberation is also added to this consonant, impairing the sense of presence that should be enhanced.
[0008]
The present invention has been made in view of such problems, and it is an object of the present invention to provide a speech separation method and apparatus that can follow changes over time on the non-speech signal side and can also accurately separate consonant portions. And
[0009]
[Means for Solving the Problems]
The audio signal separation method according to the present invention is an audio signal separation method for extracting an audio signal from a mixed signal obtained by mixing an audio signal and another signal and extracting at least one of the audio signal and the other signal. A vowel processing step for detecting and separating a vowel part of the speech signal based on an integer order harmonic structure from the mixed signal, and a consonant determination target for the mixed signal or the remaining signal obtained by separating the vowel part from the mixed signal A consonant processing step for detecting and separating a consonant portion of the speech signal based on the consonant characteristics from the consonant determination target signal, and the vowel portion of the speech signal detected in the vowel processing step and the consonant The audio signal is separated from the consonant portion of the audio signal detected in the processing step, and at least one of the audio signal and the other signal is extracted. Characterized by comprising an output step.
[0010]
The audio signal separation device according to the present invention is an audio signal separation device that separates an audio signal from a mixed signal obtained by mixing an audio signal and another signal and extracts at least one of the audio signal and the other signal. Vowel processing means for detecting and separating a vowel part of the audio signal from the mixed signal based on an integer order harmonic structure, and the mixed signal or the remaining signal obtained by separating the vowel part from the mixed signal is a consonant A consonant processing unit that detects and separates a consonant portion of the speech signal based on a consonant characteristic from the consonant determination target signal, and a vowel part of the speech signal detected by the vowel processing unit. Output means for separating at least one of the audio signal and other signals by separating the audio signal from a consonant portion of the audio signal detected by the consonant processing means Characterized by comprising a.
[0011]
According to the present invention, the vowel part of the voice signal is extracted from the mixed signal obtained by mixing the voice signal and other signals based on the integer order harmonic structure, and the vowel part is separated from the mixed signal or the mixed signal. Since the remaining signal is used as a consonant target signal and the consonant part is detected from the consonant target signal based on the characteristics of the consonant and separated, the remaining non-speech is obtained by separating the vowel part and the consonant part. The signal reflects changes over time. In addition, since the audio signal including the consonant part is separated from the mixed signal, the non-speech signal does not include the consonant part, and the non-speech signal can be processed with high accuracy.
[0012]
In this specification, the term “vowel” includes not only a vowel but also a voiced consonant having an integer overtone structure. “Consonant” means an unvoiced consonant that does not have an integer overtone structure. As a consonant characteristic used for detecting a consonant section at the time of consonant processing, for example, a spectrum envelope of a consonant determination target signal, power in a specific band (for example, about 4 to 10 kHz), or the like can be used. When using the spectral envelope, in the consonant processing, for example, the spectral envelope of the non-consonant section of the remaining signal obtained by separating the vowel part from the mixed signal is accumulated over time, and the spectral envelope of the non-consonant section accumulated over time is accumulated. What is necessary is just to detect the consonant section by quantitatively evaluating the distance between the signal and the spectrum envelope of the consonant determination target signal. Further, the distance between the spectrum envelope of a typical consonant learned in advance and the spectrum envelope of the consonant determination target signal may be quantitatively evaluated. As a distance measure between spectral envelopes, for example, a maximum likelihood spectral distance with respect to a linear prediction coefficient, an LPC (linear prediction) cepstrum distance, or the like can be used. Furthermore, when using power in a specific band, the power in the specific band may be compared with a predetermined threshold value.
[0013]
In the consonant processing, the spectrum envelope of the non-consonant section of the remaining signal obtained by separating the vowel part from the mixed signal is accumulated over time, and the spectrum envelope of the non-consonant section accumulated over time and the consonant determination target signal are stored. What is necessary is just to specify as a band which isolate | separates a band remarkably different between spectrum envelopes. In addition, the spectral envelope of the non-consonant section of the remaining signal obtained by separating the vowel part from the mixed signal is accumulated over time, and the consonant determination target signal that currently targets the spectral envelope of the non-consonant section accumulated over time A band having a relationship equal to or higher than a predetermined threshold may be specified as a band to be separated between the spectrum envelope normalized by the power of and the spectrum envelope of the consonant determination target signal.
[0014]
Separation of consonant parts can be performed by, for example, gain processing in a specific band using a bandpass filter or notch filter for a time domain signal, and by spectral subtraction for a frequency domain signal, for example. be able to.
[0015]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, preferred embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing the configuration of an audio signal separation system according to an embodiment of the present invention.
A mixed signal I including an audio signal and other signals (environmental sound, background sound, noise, etc.) is input to the
[0016]
FIG. 2 is a block diagram showing the configuration of a speech separation system according to another embodiment of the present invention.
The
[0017]
In these embodiments, the
The mixed signal I is first input to the frequency analysis unit 11. The frequency analysis unit 11 includes a
[0018]
FIG. 4 is a block diagram showing a configuration example of the
The mixed signal I (the other signal O1 in the embodiment of FIG. 2) is given to an LPC (linear prediction)
[0019]
Next, in the feature quantity evaluation unit 22, the LPC cepstrum
[0020]
[Expression 1]
avg (i) = w * cur (i) + (1-w) * avg (i-1)
[0021]
Here, cur (i) is a current LPC coefficient, avg (i) is a time-average LPC coefficient, and w is a weighting function.
Further, in order to increase the calculation accuracy of the LPC coefficient 222 averaged over time, the other signal O1 from the
[0022]
At this time, the distance from the LPC coefficient of a typical unvoiced consonant obtained in advance may be calculated instead of the LPC coefficient 222 averaged over time. The LPC coefficients of typical unvoiced consonants obtained in advance can be used from a speech recognition database or the like. Further, the LPC cepstrum distance and the maximum likelihood spectral distance, which are not used here, are used as a distance scale between LPC coefficients (between spectral envelopes) in speech recognition.
[0023]
In addition, it is generally known that unvoiced consonants contain many frequency components of 4 kHz or higher that are relatively high compared to voiced sounds. For this reason, the
[0024]
The
[0025]
The
[0026]
As described in FIG. 1, at the time of output, the output Vv, O1 from the
[0027]
FIG. 7 shows an application example of the system described above. In FIG. 6A, the present invention is applied to an emphasis /
[0028]
【The invention's effect】
As described above, according to the present invention, the vowel part of the audio signal is extracted from the mixed signal obtained by mixing the audio signal and the other signal based on the integer order harmonic structure, and the mixed signal or the mixed signal is extracted. The vowel part is separated from the consonant part by detecting the consonant part from the consonant target signal based on the characteristics of the consonant and separating it as the consonant target signal. The remaining non-speech signal reflects the change over time, and since the speech signal including the consonant part is separated from the mixed signal, the non-speech signal does not contain the consonant part, Even when an audio signal is processed, there is an effect that processing with high accuracy is possible.
[Brief description of the drawings]
FIG. 1 is a block diagram of an audio signal separation system according to an embodiment of the present invention.
FIG. 2 is a block diagram of an audio signal separation system according to another embodiment of the present invention.
3 is a block diagram showing a configuration of an audio processing unit in the embodiment of FIGS. 2 and 3. FIG.
4 is a block diagram showing a configuration of a consonant processing unit in the embodiment of FIGS. 2 and 3. FIG.
FIG. 5 is a flowchart showing consonant section detection processing in a consonant processing unit.
FIG. 6 is a diagram showing a modification of the output part of the system of FIG. 1;
FIG. 7 is a block diagram showing an application example of the system.
[Explanation of symbols]
DESCRIPTION OF
Claims (14)
前記混合信号から整数次倍音構造に基づいて前記音声信号のうちの母音部分を検出して分離する母音処理ステップと、
前記混合信号から前記母音部分を分離した残りの信号を子音判定対象信号とし、この子音判定対象信号から子音の特性に基づいて前記音声信号のうちの子音部分を検出して分離する子音処理ステップと、
前記母音処理ステップで検出された音声信号の母音部分と前記子音処理ステップで検出された音声信号の子音部分とによって音声信号を分離して前記音声信号及びその他の信号の少なくとも一方を抽出し出力する出力ステップとを備えたことを特徴とする音声信号分離方法。In an audio signal separation method for extracting an audio signal from a mixed signal obtained by mixing an audio signal and another signal and extracting at least one of the audio signal and the other signal,
A vowel processing step for detecting and separating a vowel part of the speech signal based on an integer overtone structure from the mixed signal;
The mixture remaining signal to signals or al the vowel portion was separated and the consonant determination target signal, detects and consonants process of separating the consonant portion of the audio signal based on the characteristics of consonant from the consonant determination target signal Steps,
The voice signal is separated by the vowel part of the voice signal detected in the vowel processing step and the consonant part of the voice signal detected in the consonant processing step, and at least one of the voice signal and other signals is extracted and output . An audio signal separation method comprising: an output step.
前記混合信号から整数次倍音構造に基づいて前記音声信号のうちの母音部分を検出して分離する母音処理手段と、
前記混合信号から前記母音部分を分離した残りの信号を子音判定対象信号とし、この子音判定対象信号から子音の特性に基づいて前記音声信号のうちの子音部分を検出して分離する子音処理手段と、
前記母音処理手段で検出された音声信号の母音部分と前記子音処理手段で検出された音声信号の子音部分とによって音声信号を分離して前記音声信号及びその他の信号の少なくとも一方を抽出し出力する出力手段とを備えたことを特徴とする音声信号分離装置。In an audio signal separation device for separating an audio signal from a mixed signal obtained by mixing an audio signal and another signal and extracting at least one of the audio signal and the other signal,
Vowel processing means for detecting and separating a vowel part of the speech signal based on an integer order harmonic structure from the mixed signal;
The mixture remaining signal to signals or al the vowel portion was separated and the consonant determination target signal, detects and consonants process of separating the consonant portion of the audio signal based on the characteristics of consonant from the consonant determination target signal Means,
The voice signal is separated by the vowel part of the voice signal detected by the vowel processing means and the consonant part of the voice signal detected by the consonant processing means, and at least one of the voice signal and other signals is extracted and output . An audio signal separation device comprising an output means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000384745A JP4710130B2 (en) | 2000-12-19 | 2000-12-19 | Audio signal separation method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000384745A JP4710130B2 (en) | 2000-12-19 | 2000-12-19 | Audio signal separation method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002182689A JP2002182689A (en) | 2002-06-26 |
JP4710130B2 true JP4710130B2 (en) | 2011-06-29 |
Family
ID=18852136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000384745A Expired - Fee Related JP4710130B2 (en) | 2000-12-19 | 2000-12-19 | Audio signal separation method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4710130B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04230800A (en) * | 1990-05-28 | 1992-08-19 | Matsushita Electric Ind Co Ltd | Voice signal processor |
JPH10124090A (en) * | 1996-10-24 | 1998-05-15 | Nippon Telegr & Teleph Corp <Ntt> | Voice recognition method and device to execute the method |
JP2000152394A (en) * | 1998-11-13 | 2000-05-30 | Matsushita Electric Ind Co Ltd | Hearing aid for moderately hard of hearing, transmission system having provision for the moderately hard of hearing, recording and reproducing device for the moderately hard of hearing and reproducing device having provision for the moderately hard of hearing |
-
2000
- 2000-12-19 JP JP2000384745A patent/JP4710130B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04230800A (en) * | 1990-05-28 | 1992-08-19 | Matsushita Electric Ind Co Ltd | Voice signal processor |
JPH10124090A (en) * | 1996-10-24 | 1998-05-15 | Nippon Telegr & Teleph Corp <Ntt> | Voice recognition method and device to execute the method |
JP2000152394A (en) * | 1998-11-13 | 2000-05-30 | Matsushita Electric Ind Co Ltd | Hearing aid for moderately hard of hearing, transmission system having provision for the moderately hard of hearing, recording and reproducing device for the moderately hard of hearing and reproducing device having provision for the moderately hard of hearing |
Also Published As
Publication number | Publication date |
---|---|
JP2002182689A (en) | 2002-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2546831B1 (en) | Noise suppression device | |
EP0459362B1 (en) | Voice signal processor | |
US8612222B2 (en) | Signature noise removal | |
JPH09212196A (en) | Noise suppressor | |
JP5649488B2 (en) | Voice discrimination device, voice discrimination method, and voice discrimination program | |
JP3451146B2 (en) | Denoising system and method using spectral subtraction | |
JP3033061B2 (en) | Voice noise separation device | |
Itoh et al. | Environmental noise reduction based on speech/non-speech identification for hearing aids | |
JP2005266797A (en) | Method and apparatus for separating sound-source signal and method and device for detecting pitch | |
JP2000330597A (en) | Noise suppressing device | |
JP4434813B2 (en) | Noise spectrum estimation method, noise suppression method, and noise suppression device | |
JPH08160994A (en) | Noise suppression device | |
JP4123835B2 (en) | Noise suppression device and noise suppression method | |
JP2008070878A (en) | Voice signal pre-processing device, voice signal processing device, voice signal pre-processing method and program for voice signal pre-processing | |
JP2007093635A (en) | Known noise removing device | |
JP5166470B2 (en) | Voice recognition device and content playback device | |
JP4710130B2 (en) | Audio signal separation method and apparatus | |
JP2006126859A (en) | Speech processing device and method | |
US20030046069A1 (en) | Noise reduction system and method | |
JP3106543B2 (en) | Audio signal processing device | |
JP4125322B2 (en) | Basic frequency extraction device, method thereof, program thereof, and recording medium recording the program | |
JP2001222289A (en) | Sound signal analyzing method and device and voice signal processing method and device | |
JPH1138997A (en) | Noise suppression device and recording medium on which processing program for processing noise elimination of speech is recorded | |
CN111226278B (en) | Low complexity voiced speech detection and pitch estimation | |
Okazaki et al. | Multi-stage spectral subtraction for enhancement of audio signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071023 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100518 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100716 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110307 |
|
LAPS | Cancellation because of no payment of annual fees |