JP4041154B2 - 混合音分離装置 - Google Patents

混合音分離装置 Download PDF

Info

Publication number
JP4041154B2
JP4041154B2 JP2006522162A JP2006522162A JP4041154B2 JP 4041154 B2 JP4041154 B2 JP 4041154B2 JP 2006522162 A JP2006522162 A JP 2006522162A JP 2006522162 A JP2006522162 A JP 2006522162A JP 4041154 B2 JP4041154 B2 JP 4041154B2
Authority
JP
Japan
Prior art keywords
waveform
frequency
local
frequency information
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006522162A
Other languages
English (en)
Other versions
JPWO2006120829A1 (ja
Inventor
伸一 芳澤
哲 鈴木
良久 中藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Application granted granted Critical
Publication of JP4041154B2 publication Critical patent/JP4041154B2/ja
Publication of JPWO2006120829A1 publication Critical patent/JPWO2006120829A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本発明は、混合音から所望の音を分離する混合音分離装置に関する。
混合音から所望の音を分離する装置として混合音分離装置がある。混合音分離処理では、混合音を周波数分析することにより、縦軸を周波数、横軸を時間とし、それぞれの点におけるパワーの強弱を濃淡で示したスペクトログラムを作成する。また、当該処理では、スペクトログラム上で、混合音から所望の音を分離する。このような処理により音の分離性能が高くなる。このように音声からスペクトログラムへの変換方法、すなわち音声の周波数分析方法としては、フーリエ変換が一般的に用いられる。このため、フーリエ変換は、混合音分離処理において、重要な役割を担っている。
周波数分析を行うための従来技術としては、上述したフーリエ変換(例えば、非特許文献1、非特許文献2参照)の他に、コサイン変換(例えば、非特許文献2参照)およびウェーブレット変換(例えば、非特許文献1参照)などが知られている。これらの従来技術では、被分析波形と所定の時間幅をもつ分析波形との相互相関(畳み込み)を用いて、周波数分析が行われる。
フーリエ変換では、時間分解能(空間分解能)と周波数分解能とから決定された時間幅をもつコサイン波形およびサイン波形(上記時間幅以外の時間区間ではゼロの値をもつ分析波形)を用いて周波数分析が行われる。
ここで、分析波形の時間幅を決めることは、フーリエ変換における分析フレーム幅(時間幅)を決定することと等価である。また、被分析波形に、分析対象区間(分析波形が存在する時間区間)ではゼロでない値をもつ窓関数をかけて周波数分析を行うこともある。
図1は、フーリエ変換(離散フーリエ変換)の方法を説明する図である。図1(a)に示すサンプリングポイントでNポイントの時間幅をもつコサイン波形およびサイン波形である分析波形を用いて、数1により、図1(c)に示す被分析波形と分析波形との相互相関(畳み込み)を求めることで(図1(b))、被分析波形の周波数情報(振幅スペクトルおよび位相スペクトル)を求める。ここで数1のインデックスkは、分析する周波数を示すインデックスであり、フーリエ変換では、複数の分析する周波数での周波数情報を同時に求めることになる。インデックスの値が大きいほど高い周波数での分析結果を示す。
ここで、
は、被分析波形をサンプリングした値であり、
は、被分析波形の周波数情報であり、
は、Nポイントの時間幅をもつコサイン波形とサイン波形から構成される値、すなわち分析波形の値である。
フーリエ変換では、分析波形の時間幅の設定により、時間分解能と周波数分解能との両方の値が自動的に決定される。ここでいう「時間分解能」とは、被分析波形と分析波形との相互相関(畳み込み)を求めるときに平均化する時間区間の長さのことである。「周波数分解能」とは、被分析波形の周波数成分が通過する周波数帯域幅のことであり、分析する周波数の周辺に当該帯域幅が存在する。
図2は、所定の時間幅をもつ分析波形と、被分析波形を上記分析波形により周波数分析したときの周波数特性との関係を示した図である。図2には、3種類の時間分解能を用いて周波数分析を行なった場合の周波数特性を示しており、左列より1周期分、2周期分および3周期分の時間分解能を持つ分析波形を用い周波数分析を行なった場合の分析波形と周波数特性との関係を示している。
図2より、1周期分のコサイン波形を分析波形に用いて時間分解能を細かくして周波数分析を行なったときには周波数分解能が粗くなり、3周期分のコサイン波形(1周期分のコサイン波形と比較して時間幅が3倍になったもの)を分析波形に用いて時間分解能を粗くして周波数分析を行なったときには周波数分解能が細かくなることがわかる。このように、従来技術では時間分解能(被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)と周波数分解能とはトレードオフの関係にある。
なお、連続値をもつ被分析波形におけるフーリエ変換の場合は、数1においてΣ演算の代わりに、積分の形をした被分析波形と分析波形との相互相関(畳み込み)を用いて周波数分析を行うことになる。
コサイン変換では、時間分解能(空間分解能)と周波数分解能とから決定された時間幅をもつコサイン波形(上記時間幅以外の時間区間はゼロの値をもつ分析波形)を用いて周波数分析が行われている。
図3は、コサイン変換(離散コサイン変換)を説明する図である。図3(a)に示すサンプリングポイントでNポイントの時間幅をもつコサイン波形(上記時間幅以外の時間区間ではゼロの値をもつ分析波形)を用いて、数5、数6により、図3(c)に示す被分析波形と分析波形の相互相関(畳み込み)を求めることで(図3(b))、被分析波形の周波数情報(振幅スペクトルと位相スペクトルとを合わせて表現したもの)を求める。ここで数5、数6のインデックスkは、分析する周波数を示すインデックスであり、コサイン変換では、複数の分析する周波数での周波数情報を同時に求めることになる。インデックスの値が大きいほど高い周波数での分析結果を示す。
ここで、
は、被分析波形をサンプリングした値であり、
は、被分析波形の周波数情報である。
コサイン変換では、分析波形の時間幅の設定により、時間分解能(被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)と周波数分解能との両方が自動的に決定される。この仕組みは、フーリエ変換の場合と同様である(図2を参照)。
なお、連続値をもつ被分析波形におけるコサイン変換の場合は、数5は、積分の形をした被分析波形と分析波形との相互相関(畳み込み)を用いて周波数分析を行うことになる。
ウェーブレット変換では、時間分解能(空間分解能)と周波数分解能とから決定された時間幅をもつウェーブレット基底関数を用いて周波数分析が行われている。
図4は、ウェーブレット変換を説明する図である。図4において、図4(a)に示すような所定の時間幅をもつ分析波形であるウェーブレット基底関数(上記時間幅以外の時間区間ではゼロの値をもつ分析波形)を用いて、図4(b)に示す式、すなわち数9により、図4(c)に示す被分析波形と図4(a)に示す分析波形の相互相関(畳み込み)を計算することにより、被分析波形の周波数情報(振幅スペクトルおよび位相スペクトル)を求める。
ここで、xは、被分析波形であり、
は、ウェーブレット基底関数である。
ウェーブレット変換では、ウェーブレット基底関数の時間幅を決定することにより、時間分解能(被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)と周波数分解能との両方が自動的に決定される。この仕組みは、フーリエ変換の場合と同様である(図2を参照)。
なお、ウェーブレット変換では、分析する周波数ごとに、独立に、時間分解能(または周波数分解能)を設定することができる。一方、フーリエ変換では、全ての分析する周波数は、同じ時間分解能(分析する時間窓の時間幅)および周波数分解能をもつことになり、分析する周波数ごとにこれらを独立に設定することはできない。ただし、ウェーブレット変換でも、時間分解能(または周波数分解能)により周波数分解能(または時間分解能)が自動的に決定されることは同じである。
なお、ここではウェーブレット基底関数としてメキシカンハットを用いて説明したが、ドベシイ、メイエ、ガボールなどのウェーブレット基底関数を用いたウェーブレット変換もある。
中野宏毅、外2名、"ウェーブレットによる信号処理と画像処理"、1999年8月15日、共立出版株式会社、pp.35−39、pp.49−52 中川聖一、"パターン情報処理"、平成11年3月30日、丸善株式会社、pp.14−19
従来技術では、時間分解能(被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)と周波数分解能(被分析波形の周波数成分が通過する分析周波数の周辺の周波数帯域幅)とは、互いに干渉する。このため、分析波形の時間幅を短くして時間分解能を細かくすると周波数分解能が粗くなり、分析波形の時間幅を長くして周波数分解能を細かくすると時間分解能が粗くなる。そのため、時間分解能と周波数分解能とを独立に設定することができないという課題がある。
例えば、混合音分離システムにおいて、突発音と楽音とから構成される混合音から楽音を抽出するには、突発音の分析として時間分解能を細かくして微小時間での波形の変化を分析する必要があり、楽音の分析として周波数分解能を細かくして微小周波数帯域での周波数の変化を分析する必要がある。このため、両者が混合した時間・周波数領域に対しては、時間分解能(被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)と周波数分解能(被分析波形の周波数成分が通過する分析周波数の周辺の周波数帯域幅)とを同時に細かくする必要があるが、トレードオフの関係にある両者を同時に細かく設定することは従来技術ではできない。このため、混合音の中から高い精度で抽出したい音を抽出することができない。
そこで、本発明は、このような問題点に鑑みてなされたものであり、時間分解能(被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)と周波数分解能(被分析波形の周波数成分が通過する分析周波数の周辺の周波数帯域幅)とをあたかも同時に細かく設定して周波数分析を行なったかのような結果に基づいて、混合音から特定の音を高い精度で分離することができる混合音分離装置等を提供することを目的とする。
上記目的を達成するために、本発明のある局面に係る混合音分離装置は、複数の音から構成される混合音中より特定の音を分離する混合音分離装置であって、前記混合音中の波形である被分析波形と時間が対応付けられ、かつ、前記被分析波形を分析する周波数の成分を有する分析波形の一部を構成し同一の時空間分解能を有する複数の局所分析波形を用いて、前記局所分析波形と時間が対応する被分析波形の周波数を分析することによって、前記分析する周波数における振幅スペクトルおよび位相スペクトルの少なくとも一方を含む前記局所分析波形に対応する複数の局所周波数情報を求める局所周波数情報作成手段と、前記複数の局所周波数情報を組とし、当該組と予め定められた特定の音に対する複数の周波数情報の組であって予め記憶された複数の組との間のパターンマッチングを行ない、当該パターンマッチングの結果に基づいて、前記複数の局所周波数情報の組を抽出する特定音周波数特徴量抽出手段と、前記特定音周波数特徴量抽出手段で抽出された前記組における複数の局所周波数情報の総和を求め、前記局所周波数情報作成手段において前記複数の局所周波数情報を求める際に使用した周波数変換の逆の周波数変換を前記総和に適用することによって前記特定の音の信号を作成する音信号作成手段とを備える。
これによって、時間分解能と周波数分解能を独立に設定することができ、複数の周波数分解能(複数の時間分解能)でそれぞれ周波数分析された複数の局所周波数情報の組と、予め定められた特定の音に対する周波数情報の組とを比較することにより、あたかも時間分解能と周波数分解能を同時に細かくして周波数分析したかのような結果を得ることができる。このため、混合音の中から高い精度で抽出したい音を取り出すことができる。
また、上述の混合音分離装置は、さらに、前記所定の周波数分解能に基づいて、前記分析波形の時間幅を決定する分析波形時間幅決定手段を備えていてもよい。
好ましくは、前記分析波形は、コサイン波形またはサイン波形を含み、前記分析波形時間幅決定手段は、前記所定の周波数分解能に基づいて、前記分析波形が整数周期分のコサイン波形または整数周期分のサイン波形の分析波形を含むように前記分析波形の時間幅を決定することを特徴とする。
これによって、被分析波形を分析するための周波数帯域通過フィルタの設計が容易になる。
さらに好ましくは、前記整数周期は、1周期であることを特徴とする。
これによって、細かい時間分解能で周波数分析できる。
また、上述の混合音分離装置は、さらに、周波数分解能の入力を受付ける周波数分解能入力受付手段を備え、前記分析波形時間幅決定手段は、入力された前記周波数分解能に基づいて、前記分析波形の時間幅を決定することを特徴としていてもよい。
これによって、被分析波形の性質やアプリケーションの仕様などに基づいて、周波数分解能を制御することができる。
また、上述の混合音分離装置は、さらに、前記同一の時空間分解能に基づいて、前記分析波形を、時間的に重なることのないように分割して、前記複数の局所分析波形を作成する分析波形分割手段を備えることを特徴としていてもよい。
これによって、被分析波形を分析するための周波数帯域通過フィルタの設計が容易になる。
また、前記分析波形分割手段は、複数の時空間分解能を有するように前記分析波形を分割して、前記複数の局所分析波形を作成することを特徴としていてもよい。
これによって、被分析波形の時間的性質に対応した複数の時間分解能を設定することができる。
また、上述の混合音分離装置は、さらに、時空間分解能の入力を受付ける時空間分解能入力受付手段を備え、前記分析波形分割手段は、入力された前記時空間分解能に基づいて、前記分析波形を分割して、前記複数の局所分析波形を作成することを特徴としていてもよい。
これによって、被分析波形の性質やアプリケーションの仕様などに基づいて、周波数分解能を制御することができる。
本発明の他の局面に係る周波数特徴量分析装置は、被分析波形と時間が対応付けられ、かつ、前記被分析波形を分析する周波数の成分を有する分析波形を用いて、前記被分析波形を周波数分析する装置であって、前記分析波形の一部を構成し同一の時空間分解能を有する複数の局所分析波形を用いて、前記局所分析波形と時間が対応する被分析波形の周波数を分析することによって、前記分析する周波数における振幅スペクトルおよび位相スペクトルの少なくとも一方を含む前記局所分析波形に対応する複数の局所周波数情報を取得する取得手段と、前記取得手段が取得した前記複数の局所周波数情報を組とし、当該組と予め定められた特定の音に対する複数の周波数情報の組であって予め記憶された複数の組との間のパターンマッチングを行ない、当該パターンマッチングの結果に基づいて、前記複数の局所周波数情報の組を抽出する被分析波形周波数特徴量抽出手段とを備えることを特徴とする。
図5〜図9を用いて、本発明のポイントを説明する。
図5は、本発明の全体構成を説明する図である。図5の例では、図5(a)に示すような所定の周波数分解能に基づいて分析波形の時間幅を決定している。すなわち、図5(b)に示すように3周期分のコサイン波形を分析波形としている。例えば、3人の音声から構成される混合音を分離する場合には周波数分解能を細かくする設定する必要があるため、周波数分解能が約15Hzになるように分析波形の時間幅を設定する。
ここで、従来技術である離散コサイン変換を用いて周波数分析を行った場合、時間分解能(被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)は分析波形の時間幅により決定され、時間分解能は3周期分のコサイン波形の時間幅となり、時間分解能は粗くなってしまう。そのため、被分析波形の細かい時間的な構造(3周期分のコサイン波形の時間幅よりも細かい時間間隔での周波数情報の変化)が表現できなくなってしまう。
そこで、本発明では、所望の時間分解能に基づいて分析波形を時間的に分割する。例えば、音声を分析する場合には、音声の基本波形の構造が見えるように基本波形の長さよりも細かい時間間隔に分析波形を分割する。図5の例では、図5(c)に示すように分析波形を1周期分のコサイン波形に分割して、3個の局所分析波形を作成する。ここでの時間分解能(被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)は、1周期分のコサイン波形の時間幅であり、3周期分のコサイン波形の時間幅と比べて細かくなっている。すなわち、時間分解能は、周波数分解能とは独立に細かく設定されている(ただし、3個の局所分析波形は、同一の分析波形からそれぞれ抽出された波形である。)
次に、図5(c)に示すように3個の局所分析波形を用いて周波数分析を行うことで、3個の局所周波数情報を求める。局所周波数情報の求め方は、従来技術での周波数分析において、分析波形を局所分析波形に置き換えて、被分析波形と局所分析波形との相互相関(畳み込み)を計算することで求める。
ここで、従来技術である離散コサイン変換により、3周期分のコサイン波形である分析波形を用いて求めた周波数情報と、本発明において、3周期分のコサイン波形を時間的に分割した局所分析波形を用いて求めた3個の局所周波数情報との関係を考える。図5の例の場合、従来技術である離散コサイン変換により求めた周波数情報は、数11により表現される。
また、本発明における3個の局所周波数情報は、数12、数13、数14により表現される。
局所分析波形の作成方法を考えると、数15に示すように、離散コサイン変換で求めた周波数情報は、本発明で求めた3個の局所周波数情報の総和と等価であることがわかる。
このことから、本発明で求めた3個の局所周波数情報には、離散コサイン変換で求めた周波数分解能をもつ周波数情報が含まれていることがわかる。すなわち、局所周波数情報を3個合わせて考えると、細かい周波数分解能をもつ周波数情報が得られることがわかる。
また、数15より、所望の周波数分解能で求めた離散コサイン変換による周波数情報の値(数11)において、局所周波数情報の値(数12、数13、数14)の組み合わせが複数存在することがわかる。例えば、数16に示す組み合わせが存在する。すなわち、X=5となる(X ,X ,X )の組み合わせの一例としてとして、(X ,X ,X )=(1,2,2)が考えられる。それ以外にも(X ,X ,X )=(2,1,2)などが考えられる。
このことから、図5(d)に示すように3個の局所周波数情報をひとかたまりのデータとして扱ったものは、所望の周波数分解能をもつ周波数情報を、所望の細かい時間分解能をもつ3個の局所周波数情報を成分として分散的に表現したものであり、従来の離散コサイン変換で求めた周波数情報に、さらに時間的な周波数構造の変化に関する情報を付加したものであることがわかる。
このように、3個の局所周波数情報をひとかたまりのデータとして用いることにより、時間分解能(被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)と周波数分解能との両方をあたかも同時に細かくして周波数分析を行なったかのような、被分析波形に含まれる周波数特徴量を抽出することができる。ただし、周波数特徴量を抽出するときは、時間分解能の概念とは別に、3個の局所周波数情報を求めるために3周期分のコサイン波形に相当する時間幅の被分析波形が必要となる。そのため、周波数分析に必要な被分析波形の時間区間の長さは従来の分析方法と同じである。
図6は、別の周波数分解能に基づいて周波数分析を行う例を示す図である。図6の例では、図6(a)に示すように図5の例よりも細かい周波数分解能で分析するために、図6(b)に示すように4周期分のコサイン波形を分析波形としている。
ここで、従来技術の離散コサイン変換を用いて周波数分析を行った場合、時間分解能(被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)は4周期分のコサイン波形の時間幅となり、時間分解能は粗くなってしまう。そのため、被分析波形の細かい時間的な構造が表現できなくなってしまう。
そこで、本発明では、所望の時間分解能に基づいて分析波形を時間的に分割する。図6の例では、図6(c)に示すように分析波形を2周期分のコサイン波形に分割して、2個の局所分析波形を作成する。ここでの時間分解能(被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)は、2周期分のコサイン波形の時間幅であり、周波数分解能とは独立に細かく設定している。(ただし、2個の局所分析波形は、同一の分析波形からそれぞれ抽出された波形である。)
次に、図6(c)に示すように2個の局所分析波形を用いて周波数分析を行うことで、2個の局所周波数情報を求める。局所周波数情報の求め方は、従来技術での周波数分析において、分析波形を局所分析波形に置き換えて、被分析波形と局所分析波形との相互相関(畳み込み)を計算することで求める。
ここで、従来技術である離散コサイン変換により、4周期分のコサイン波形である分析波形を用いて求めた周波数情報と、本発明において、2周期分のコサイン波形に分割して求めた2個の局所周波数情報との関係を考える。図6の例の場合、従来技術である離散コサイン変換により求めた周波数情報は、数17により表現される。
また、本発明における2個の局所周波数情報は、数18、数19により表現される。
局所分析波形の作成方法を考えると、数20に示すように、離散コサイン変換で求めた周波数情報は、本発明で求めた2個の局所周波数情報の総和と等価であることがわかる。
このことから、本発明で求めた2個の局所周波数情報には、離散コサイン変換で求めた周波数分解能をもつ周波数情報が含まれていることがわかる。すなわち、局所周波数情報を2個合わせて考えると、細かい周波数分解能をもつ周波数情報が得られることがわかる。
また、数20より、所望の周波数分解能で求めた離散コサイン変換による周波数情報の値(数17)において、局所周波数情報の値(数18、数19)の組み合わせが複数存在することがわかる。例えば、数21に示す組み合わせが存在する。すなわち、X=2となる(X ,X )の組み合わせの一例としてとして、(X ,X )=(0.9,1.1)が考えられる。それ以外にも(X ,X )=(2.5,(−0.5))などが考えられる。
このことから、図6(d)に示すように2個の局所周波数情報をひとかたまりのデータとして扱ったものは、所望の周波数分解能をもつ周波数情報を、所望の細かい時間分解能をもつ2個の局所周波数情報を成分として分散的に表現したものであり、従来の離散コサイン変換で求めた周波数情報に、さらに時間的な周波数構造の変化に関する情報を付加したものであることがわかる。
このように、2個の局所周波数情報をひとかたまりのデータとして用いることにより、時間分解能(被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)と周波数分解能との両方をあたかも同時に細かくして周波数分析を行なったかのような、被分析波形に含まれる周波数特徴量を抽出することができる。ただし、周波数特徴量を抽出するときは、時間分解能の概念とは別に、2個の局所周波数情報を求めるために4周期分のコサイン波形に相当する時間幅の被分析波形が必要となる。そのため、周波数分析に必要な被分析波形の時間区間の長さは従来の分析方法と同じである。
図7は、分析波形を時間的に重ねて分割して局所分析波形を作成する例を示す図である。図7(a)は、この例における周波数分解能を示す図であり、図6(a)に示した周波数分解能と同じであるものとする。図7の例では、図7(b)に示すように図6の例と同じ4周期分のコサイン波形を分析波形としている。
ここで、従来技術の離散コサイン変換を用いて周波数分析を行った場合、時間分解能(被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)は4周期分のコサイン波形の時間幅となり、時間分解能は粗くなってしまう。そのため、被分析波形の細かい時間的な構造が表現できなくなってしまう。
そこで、本発明では、所望の時間分解能に基づいて分析波形を時間的に分割する。図7の例では、図7(c)に示すように分析波形を時間的に重ねながら2周期分のコサイン波形に分割して、3個の局所分析波形を作成する。ここでの時間分解能(被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)は、2周期分のコサイン波形の時間幅となる(ただし、3個の局所分析波形は、同一の分析波形からそれぞれ抽出された波形である。)。
次に、図7(c)に示すように3個の局所分析波形を用いて周波数分析を行うことで、3個の局所周波数情報を求める。局所周波数情報の求め方は、従来技術での周波数分析において、分析波形を局所分析波形に置き換えて、被分析波形と局所分析波形との相互相関(畳み込み)を計算することで求める。
ここで、従来技術である離散コサイン変換により、4周期分のコサイン波形である分析波形を用いて求めた周波数情報と、本発明において、2周期分のコサイン波形に分割して求めた3個の局所周波数情報との関係を考えると、3個の局所周波数情報の総和により、離散コサイン変換で求めた周波数情報の2倍の値が近似的に求まることがわかる。すなわち、3個の局所周波数情報には、離散コサイン変換により細かい周波数分解能で求めた周波数情報が含まれていることがわかる。
このことから、図7(d)に示すように3個の局所周波数情報をひとかたまりのデータとして扱ったものは、局所周波数情報よりも細かい周波数分解能をもつ周波数情報を、細かい時間分解能をもつ3個の局所周波数情報を成分として分散的に表現したものであり、従来の離散コサイン変換で求めた周波数情報に、さらに時間的な周波数構造の変化に関する情報を付加したものであることがわかる。
このように、3個の局所周波数情報をひとかたまりのデータとして用いることにより、時間分解能と周波数分解能の両方をあたかも同時に細かくして周波数分析を行なったかのような、被分析波形に含まれる周波数特徴量を抽出することができる。ただし、周波数特徴量を抽出するときは、時間分解能の概念とは別に、3個の局所周波数情報を求めるために4周期分のコサイン波形に相当する時間幅の被分析波形が必要となる。そのため、周波数分析に必要な被分析波形の時間区間の長さは従来の分析方法と同じである。
図8は、別の時間分解能に基づいて周波数分析を行う例を示す図である。図8(a)は、この例における周波数分解能を示す図であり、図5(a)に示した周波数分解能と同じであるものとする。図8の例では、図5の例よりもさらに細かい時間分解能(被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)で周波数分析を行う。この例では、図8(b)に示すように図5の例と同じ3周期分のコサイン波形を分析波形としている。
ここで、従来技術の離散コサイン変換を用いて周波数分析を行うと、時間分解能は3周期分のコサイン波形の時間幅となり、時間分解能は粗くなってしまう。そこで、図8の例では、図8(c)に示すように分析波形を0.5周期分のコサイン波形に分割して、6個の局所分析波形を作成する。ここでの時間分解能は、0.5周期分のコサイン波形の時間幅となる。そして6個の局所分析波形を用いて周波数分析を行うことで、6個の局所周波数情報を求める。
ここで、分析波形(3周期分のコサイン波形)を用いて従来技術である離散コサイン変換で求めた周波数情報と、本発明における、6個の局所周波数情報との関係を考えると、6個の局所周波数情報の総和により、離散コサイン変換で求めた周波数情報が求まることがわかる。すなわち、6個の局所周波数情報には、所定の周波数分解能で求めた離散コサイン変換で求めた周波数情報が含まれていることがわかる。これより、6個の局所周波数情報をひとかたまりのデータとして扱ったものは、局所周波数情報よりも細かい周波数分解能をもつ周波数情報を、細かい時間分解能をもつ6個の局所周波数情報を成分として分散的に表現したものであり、従来の離散コサイン変換で求めた周波数情報に、さらに時間的な周波数構造の変化に関する情報を付加したものであることがわかる。
そして、図8(d)に示すように6個の局所周波数情報をひとかたまりのデータとして用いることにより、時間分解能と周波数分解能の両方をあたかも同時に細かくして周波数分析を行なったかのような、被分析波形に含まれる周波数特徴量を抽出することができる。ただし、周波数特徴量を抽出するときは、時間分解能の概念とは別に、6個の局所周波数情報を求めるために3周期分のコサイン波形に相当する時間幅の被分析波形が必要となる。そのため、周波数分析に必要な被分析波形の時間区間の長さは従来の分析方法と同じである。
図9は、1周期分のコサイン波形による周波数情報と、フーリエ変換による周波数情報との関係を示した図である。図9(a)に示すように、分析する周波数(f1,f2,f3,…)ごとに、分析する周波数に対応する1周期分のコサイン波形を局所分析波形として、図5の例と同様にして局所周波数情報を求める。なお、分析する周波数は、図9(c)に示すように基本周波数をf1とした場合にfnで表される。fnは、f1のn倍の周波数を示す。そして、図9(b)に示すように、図5の例と同様にして、フーリエ変換における時間窓の中に入る局所周波数情報の総和を求めることで、フーリエ変換の周波数情報を作成することができる。なお、図9の例では、図9(b)に示されるようにフーリエ変換における時間窓に入る局所周波数情報の数は、周波数f1に対応する局所周波数情報では1個、周波数f2に対応する局所周波数情報では2個、周波数f3に対応する局所周波数情報では3個である。フーリエ変換では、分析する複数の周波数は直交条件を満たしており、逆フーリエ変換により、周波数情報から波形情報を容易に作成することができる。このことから、本発明における局所周波数情報から波形情報に変換できることがわかる。
本発明の周波数分析装置を用いれば、例えば、混合音分離システムにおいて、混合音から、細かい周波数分解能でかつ細かい時間分解能(被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)で表現された周波数ごとの局所周波数情報をひとかたまりにしたデータを用いて、高い精度で抽出したい音の局所周波数情報を抽出することで、クリアな抽出音(抽出音の波形情報)を利用者に提供することができる。
最後に本発明のポイントを要約すると、所定の周波数を周波数分析するときに、所望の周波数分解能に基づいて決まる分析時間幅(分析波形の時間幅に対応)において、上記所定の周波数をもつ同一の分析波形からそれぞれ抽出された分析波形(局所分析波形に対応)を上記分析時間幅内に収まるように複数個準備して、上記複数の分析波形(局所分析波形に対応)を用いて複数の周波数情報(局所周波数情報に対応)を作成して、それらをひとかたまりのデータとして扱って被分析波形の周波数特徴量を分析することを特徴とするものである。
以上のように、本発明によると、時間分解能(被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)と周波数分解能とを独立に設定することができ、時間分解能と周波数分解能とをあたかも同時に細かくして周波数分析を行なったかのように周波数分析を行なうことができる混合音分離装置および周波数分析装置などが提供され、混合音分離、音声認識、音識別、文字認識、顔認識、虹彩認証などの幅広い分野での基本技術として利用することができ、その実用的価値は極めて高い。
以下、本発明の実施の形態について、図面を参照しながら説明する。
図10は、本発明の実施の形態における周波数分析装置の全体構成を示すブロック図である。ここでは、本発明に係る周波数分析装置が混合音分離システムに組み込まれた例が示されている。本実施の形態では、3人の話者の音声から構成される混合音を周波数分析することにより、混合音から1人の話者の音声を分離する場合を例にして説明する。
混合音分離システム100は、複数の話者の音声が混合された混合音から1人の話者の音声を抽出するシステムであり、マイクロホン101と、周波数分析装置102と、音変換部107と、スピーカ108とを備える。周波数分析装置102は、混合音に含まれる周波数成分を分析し、周波数特徴量を抽出する処理装置であり、分析波形時間幅決定部103と、分析波形分割部104と、局所周波数情報作成部105と、被分析波形周波数特徴量抽出部106とを備える。
マイクロホン101は、混合音S100を取り込み局所周波数情報作成部105に出力する。
分析波形時間幅決定部103は、所定の周波数分解能に基づいて、分析する周波数に対応する分析波形の時間幅を決定する。
分析波形分割部104は、所定の時間分解能(被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)に基づいて、分析波形時間幅決定部103が作成した分析波形S101を、時間的に重なることを許して分割し、複数の局所分析波形S102を作成する。
局所周波数情報作成部105は、混合音S100と局所分析波形S102との相互相関に基づいて、上記所定の時間分解能で、振幅スペクトルおよび位相スペクトルの少なくとも一方を含む局所分析波形S102に対応した複数の局所周波数情報S103を求める。
被分析波形周波数特徴量抽出部106は、上記複数の局所周波数情報S103をひとかたまりのデータとして用いることで、上記周波数分解能で、混合音S100に含まれる抽出音の局所周波数情報を抽出して、抽出音の局所周波数情報を用いて抽出音のフーリエ係数S104を作成することで、混合音S100に含まれる周波数特徴量の1つである抽出音のフーリエ係数S104を抽出する。
音変換部107は、抽出音のフーリエ係数S104を用いて抽出音(抽出音の波形)S105を作成する。スピーカ108は、抽出音S105を利用者へ出力する。
次に、以上のように構成された混合音分離システム100の動作について説明する。
図11は、混合音分離システム100の動作手順を示すフローチャートである。
まず、マイクロホン101を用いて、3人の話者の音声から構成される混合音S100を周波数分析装置102の局所周波数情報作成部105に取り込む(図11のステップ200)。図12に混合音S100の一例を示す。図12(a)は、混合音S100の波形であり、図12(b)は、従来技術であるフーリエ変換により求めた混合音S100のスペクトログラムである。図12(c)に示すように、音声は、基本波形の繰り返しにより表現することができる。また、基本波形の振幅は全ての時間に対して大きいわけではなくゼロに近い時間領域が存在する。そのため、時間分解能を細かくして分析すると、混合音の中の3人の話者の音声の基本波形の特徴を分析することができる。ちなみに、図12(a)の混合音の波形では、時間分解能が粗い表示になっているため、3人の音声の基本波形の特徴を見ることは困難である。このことは、時間分解能を細かくすることは混合音を分離するのに重要であることを示している。図12(b)のフーリエ変換によるスペクトログラムでは、フーリエ変換時に時間分解能と周波数分解能との両方の分解能を同時に細かくすることができないため、混合音の中の3人の話者の音声のスペクトル形状の特徴を分離して見ることは困難である。フーリエ変換では、周波数分解能を細かくすることで3人の音声の周波数特徴であるホルマントの時間平均を分析できるようになるが、逆に時間分解能が粗くなるため、微小時間領域でのホルマントの値が分析できない。そのため、微小な時間・周波数領域では重ならない混合音であっても抽出したい音を分離することは困難になってしまう。
次に、分析波形時間幅決定部103は、所定の周波数分解能に基づいて、分析する周波数に対応する分析波形の時間幅を決定して分析波形S101を作成する(図11のステップ201)。図13に示す例では、分析波形S101の時間幅を、基本周波数f1が1周期分入る時間幅(フーリエ変換における時間窓)とする。図13(a)および図13(b)は、コサイン波形による周波数分析を説明するための図であり、図13(c)および図13(d)は、サイン波形による周波数分析を説明するための図である。また、図13(a)および図13(c)は、上述の分析波形を有する分析波形を示しており、図13(b)および図13(d)は、図13(a)および図13(c)に示した分析波形にそれぞれ対応する局所周波数情報を示している。
図13(a)および図13(c)に示す分析波形は、実線と破線との波形を両方合わせた波形である(実線だけの波形は1つの局所分析波形を表す)。ここでは、分析する全ての周波数に対して同じ時間幅の分析波形を用いる。ただし、分析する周波数の大きさが異なるので、分析する周波数により分析波形に含まれる周期の数は異なる。具体的には、図13(a)および図13(c)に示すように、分析する周波数が基本周波数f1の分析波形は1周期分のコサイン波形およびサイン波形から構成され、分析する周波数が基本周波数f1の2倍のf2の分析波形は2周期分のコサイン波形およびサイン波形から構成され、分析する周波数が基本波形f1の3倍のf3の分析波形は3周期分のコサイン波形およびサイン波形から構成される。局所分析波形に分割する前の分析波形の周波数分解能は、図9(c)に示したものと同様であり、分析する周波数f1、f2、f3の周波数特性が直交するような細かい周波数分解能となっている。
なお、分析波形の時間幅を決めることは、短時間におけるフーリエ変換での分析フレーム幅を決定する事と等価である。また、短時間におけるフーリエ変換において被分析波形に窓関数をかけることがあるが、この例の場合では、被分析波形に分析波形と同じ時間幅の矩形窓をかけたことと等価である。なお、被分析波形に、分析対象区間(分析波形が存在する時間区間)ではゼロでない値をもつ窓関数をかけて周波数分析を行ってもよい。
なお、周波数分析装置102は、周波数分解能入力受付部をさらに備えることにより、周波数分解能を被分析波形S100の性質やアプリケーションの仕様に基づいて決定することができる。このような周波数分解能は外部より入力されるようにしてもよい。例えば、突発音は周波数分解能を粗くしても(同じ時間分解能ではひとかたまりにする局所周波数情報の数が少なくなる)特徴量を分析することは可能であるが、楽音は周波数分解能を細かくして(同じ時間分解能ではひとかたまりにする局所周波数情報の数が多くなる)特徴量を分析する必要がある。ひとかたまりにするデータ数により特徴量を抽出するときの計算量が異なるため、入力された被分析波形の性質に応じて分析する周波数分解能を制御することで、計算コストを削減することができる。
次に、分析波形分割部104は、所定の時間分解能に基づいて、分析波形時間幅決定部103が作成した分析波形S101を、時間的に重なることを許して分割して複数の局所分析波形S102を作成する(図11のステップ202)。図13に示す例では、分析する周波数のそれぞれに対して、1周期分のコサイン波形およびサイン波形に分析波形S101(実線と破線を両方合わせた波形)を分割して、局所分析波形S102(実線の波形は1つの局所分析波形を表す)を作成する。具体的には、図13(a)および図13(c)に示すように、分析する周波数が基本周波数f1の局所分析波形は、分析波形そのものであり、分析する周波数が基本周波数f1の2倍のf2の局所分析波形は、f2の周波数をもつ1周期分のコサイン波形およびサイン波形から構成される2個の局所分析波形から構成され、分析する周波数が基本周波数f1の3倍のf3の局所分析波形は、f3の周波数をもつ1周期分のコサイン波形およびサイン波形から構成される3個の局所分析波形から構成される。分析する周波数ごとに見れば、図5(c)示した局所分析波形と同様なものとなる。このときの時間分解能(被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)は、分析する周波数の分析波形の1周期分の時間幅となる。これより、時間分解能は周波数分解能と独立に設定できていることがわかる。なお、複数の局所分析波形は、同一の分析波形からそれぞれ抽出された波形である。この例では、分析波形S101を時間的に重なることなしに分割した例を示した。なお、図6、図7、図8に示すように局所分析波形を作成してもよい。
なお、周波数分析装置102は、時空間分解能入力受付部をさらに備えることにより、時間分解能を被分析波形S100の性質やアプリケーションの仕様に基づいて決定することができる。このような時間分解能は外部より入力されるようにしてもよい。例えば、突発音は時間分解能を細かくして分析する必要がある。突発音、音声、楽音などが交互に現れる混合音を分析する場合は、入力された被分析波形に基づいて時間分解能を制御することで高い精度での分析が可能となり、また、局所周波数情報を記憶するメモリ容量も小さくすることができる(細かい時間分解能を必要としないときに時間分解能を粗くすることで記憶する局所周波数情報の数を減らすことができる)。
次に、局所周波数情報作成部105は、混合音S100と局所分析波形S102との相互相関(畳み込み)に基づいて、上記所定の時間分解能(被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)で、振幅スペクトルおよび位相スペクトルの少なくとも一方を含む上記局所分析波形S102に対応した複数の局所周波数情報S103を求める(図11のステップ203)。ここでは、フーリエ変換で用いる分析方法において、分析波形を局所分析波形に変更することで局所周波数情報を求める(数11、数12、数13、数14を参照)。図13の例に示すように、分析する周波数が基本周波数f1の場合には、1個の局所周波数情報が、分析する周波数が基本周波数の2倍のf2の場合には、2個の局所周波数情報が、分析する周波数が基本周波数の3倍のf3の場合には、3個の局所周波数情報が、コサイン波形およびサイン波形の分析のそれぞれにおいて求まる(図5も参照)。コサイン波形およびサイン波形の2種類の周波数分析で求まる局所周波数情報を用いることにより、振幅スペクトルおよび位相スペクトルを求めることができる。すなわち、この例では、局所周波数情報は、振幅スペクトルと位相スペクトルとの両方を含む周波数情報である。
図14は、16KHzでサンプリングされた混合音を、図14(a)に示すように図5の例と同じ1周期分のコサイン波形を局所分析波形として用いて、図5の例とは異なり、1サンプリングポイントごとに時間シフトしながら全てのサンプリングポイントに対して局所周波数情報を求めたものである。図14(b)は、分析する周波数が1KHzである場合の、全てのサンプリングポイントに対する局所周波数情報を時系列に並べたグラフであり、横軸が時間、縦軸がパワーである。図14(b)には、日本語を発声したときのグラフが3つ示されており、上から、女性の日本語の「え」の発声における局所周波数情報、男性の日本語の「ん」の発声における局所周波数情報、それらの混合音における局所周波数情報を示している。
図14(c)は、分析する周波数2KHzである場合の、全てのサンプリングポイントに局所周波数情報を時系列に並べたグラフであり、図14(b)に示したグラフと異なる点は、分析する周波数が異なるのみである。
分析する周波数(1KHz、2KHz)の1周期分の時間間隔での局所周波数情報を抽出して、ひとかたまりのデータとすると、図5の例と同様な局所周波数情報が得られる。混合音を分離する場合は時間分解能と周波数分解能の両方を細かくする必要がある。この実験結果では、時間分解能を細かくしているため、混合音の中の女性と男性との音声の微小時間での構造を分離して見ることができる。また、後述するように、複数の局所周波数情報をひとかたまりのデータとして用いることであたかも周波数分解能を細かくしたかのごとくすることができるので、微小な時間・周波数領域では重ならない混合音を高い精度で分離することができる。
次に、被分析波形周波数特徴量抽出部106は、上記複数の局所周波数情報S103をひとかたまりのデータとして用いることで、上記周波数分解能で、混合音S100に含まれる抽出音の局所周波数情報を抽出して、抽出音の局所周波数情報を用いて抽出音のフーリエ係数S104を作成することで、混合音S100に含まれる周波数特徴量の1つである抽出音のフーリエ係数S104を抽出する(図11のステップ204)。図15に、混合音S100に含まれる抽出音の局所周波数情報を抽出する方法の一例を示す。図15(a)は、局所分析波形S102の一例を示した図である。図15(b)は、基本周波数f1、基本周波数f1の2倍周波数f2および基本周波数f1の3倍周波数f3の各々に対する局所周波数情報を示した図である。図15(c)は、抽出する音のひとかたまりの局所周波数情報のパターンを示した図であり、ここでは、女性の音声に対する局所周波数情報のパターンが2つ示されている。
図15の例では、図15(c)に示すように、あらかじめ、抽出する音のひとかたまりの局所周波数情報(フーリエ変換の時間窓の中にある局所周波数情報をまとめたもの)を記憶しておいて、図15(b)に示されるような混合音S100から作成した局所周波数情報S103と、図15(c)に示されるような記憶された抽出音のひとかたまりの局所周波数情報とを比較することにより、混合音S100に含まれる、抽出音の局所周波数情報を抽出する。図15の例では、上述したように女性の音声パターンが記憶されている。この例では、混合音S100のひとかたまりの局所周波数情報S103と、記憶されたひとかたまりの局所周波数情報(女性の音声パターン)とを比較して、誤差距離(類似度の逆数)が最小である記憶された音声パターンを選択して、誤差距離が予め定められたしきい値以下であれば、混合音S100の局所周波数情報を抽出する。また、誤差距離がしきい値よりも大きければ、記憶された誤差距離が最小の音声パターンを用いて、抽出したい女性の局所周波数情報(例えば、後述する図18のZで示したもの)を作成してもよい。具体的には数22を用いて誤差距離を計算する。
ここで、Xは混合音S100のひとかたまりの局所周波数情報S103であり、Aは記憶されたひとかたまりの局所周波数情報(女性の音声パターン)である。
数22の
の部分を見ると、
の全ての項が小さくならないと誤差距離は小さくならない。
ここで、図16を用いて、従来の方法と本発明の方法との構成を比較する。図16(a)に示すように、従来の方法では、1つ1つの局所周波数情報に対して誤差距離を計算して最小のパターンを選択するのに対して、本発明の方法では、図16(b)に示すように、ひとかたまりの局所周波数情報を1つのパターンとして誤差距離を計算して最小のパターンを選択している。このため、1つ1つの局所周波数情報の誤差距離を小さくすると同時に、複数の局所周波数情報をひとかたまりにしたときの所望の周波数分解能での周波数情報である
との誤差距離の値も小さいパターンを選択することになる。一方、図16(a)に示す従来の方法では、複数の局所周波数情報をひとかたまりにしたときの所望の周波数分解能での誤差距離は考慮されない。
図17は、局所周波数情報の空間のイメージを示した図である。図17の例では、所望の周波数分解能での周波数情報である数27と数28とは、平面の各軸との切片の値を示し、ひとかたまりの局所周波数情報である
は、それぞれ、数27により表される平面と数28により表される平面における点を示している。本発明では、所望の周波数分解能をもつ平面同士の距離(図17における切片間の距離)を測るのと同時に、所望の周波数分解能をもつ平面において、微小な時間区間での周波数の変化を表現した平面上での点同士の距離(数29で示される点と数30で示される点との間の距離)をも考慮して、周波数特徴量を分析する。従来の方法では、平面上での点同士の距離を測るという概念はない。
なお、抽出したい局所周波数情報の作成方法として、誤差距離が最小であった図15(c)に示されるような記憶されたパターンをつなぎ合わせることで、混合音を利用せずに抽出したい女性の局所周波数情報を作成してもよい。
なお、図15の例では、全ての分析する周波数のひとかたまりの局所周波数情報をまとめてパターンを作成したが、分析する周波数ごとに女性の音声パターンを記憶しておいて、分析する周波数ごとにひとかたまりの局所周波数情報を用いて誤差距離を計算してもよい。
なお、複数の局所周波数情報をひとかたまりにしたときの所望の周波数分解能での周波数情報を別途計算しておいて、ひとかたまりの局所周波数情報と合わせて、計算した所望の周波数分解能での周波数情報を陽に用いて誤差距離を計算してもよい。
なお、誤差距離を計算する評価式として数22の変わりに、ひとかたまりの局所周波数情報の各値の比率を用いて類似度を計算してもよい。
次に、図18に示すように、取り出した抽出音の局所周波数情報を用いて抽出音のフーリエ係数S104を求める。図18(a)には、混合音S100に含まれていた抽出音の局所周波数情報の一例が示されている。この例では、フーリエ変換での時間窓の中にある局所周波数情報(図18のZ)の総和を求めることで図18(b)に示すようなフーリエ係数(図18のY)が求まる。
次に、音変換部107は、抽出音のフーリエ係数S104を用いて抽出音(抽出音の波形)S105を作成する(図11のステップ205)。この例では、逆フーリエ変換により抽出音S105を作成する。
最後に、スピーカ108は、抽出音S105を利用者へ出力する(図11のステップ206)。
以上説明したように、本発明の実施の形態によれば、時間分解能と周波数分解能を独立に設定することができ、複数の周波数分解能(複数の時間分解能)でそれぞれ周波数分析された複数の局所周波数情報のかたまり同士を比較することにより、あたかも時間分解能と周波数分解能を同時に細かくして周波数分析したかのような結果を得ることができる。このため、混合音の中から高い精度で抽出したい音を取り出すことができる。
なお、本実施の形態では、周波数分析装置を、混合音分離システムに組み込んだが、音声認識システム、音識別システム、文字認識システム、顔認識システム、虹彩認証システムに組み込んでもよい。
なお、本実施の形態では、時間波形を被分析波形としたが、画像処理を行う場合などは、空間波形を被分析波形とするため、「時間分解能」は「空間分解能」に対応することになる。本明細書および特許請求の範囲において「時間分解能」と「空間分解能」とを併せて、「時空間分解能」と呼ぶこととする。「空間分解能」とは、被分析波形と分析波形との相互相関(畳み込み)を求めるときに平均化する空間領域の大きさのことである。
なお、本実施の形態に係る周波数分析装置102を以下のように構成することもできる。
図19に示すように、周波数分析装置102Aは、局所周波数情報を作成してデータベース化(DB化)することで局所周波数情報DBS1000を作成する周波数情報作成装置1000と、周波数情報作成装置1000が作成した局所周波数情報DBS1000を用いて周波数特徴量S104を分析する周波数特徴量分析装置1001と、の2つの装置から構成することができる。
周波数情報作成装置1000において、分析波形時間幅決定部103Aは、周波数特徴量分析装置1001が周波数特徴量S104を分析するときに用いるであろう最も細かい周波数分解能に基づいて、分析する周波数に対応する分析波形の時間幅を決定して分析波形S101を作成する。すなわち、分析波形時間幅決定部103Aが決定した分析波形の時間幅により、周波数特徴量分析装置1001が周波数特徴量S104を分析できる周波数分解能の上限が決定される。
分析波形分割部104の動作は図10のものと同様であるため説明を省略する。
次に、局所周波数情報作成部105Aは、マイクロホン101から取り込まれた混合音S100と局所分析波形S102との相互相関(畳み込み)に基づいて、所定の時間分解能(被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)で、振幅スペクトルおよび位相スペクトルの少なくとも一方を含む上記局所分析波形S102に対応した複数の局所周波数情報S103を求めて、少なくとも、(1)分析した周波数、(2)局所分析波形の形状に関する情報、(3)局所周波数情報S103および対応する局所周波数情報を求めた被分析波形の時刻、とから構成される局所周波数情報DBS1000を作成して記憶する。
図20(a)に、局所周波数情報DBS1000の一例を示す。この例では、局所周波数情報DBS1000は、(1)分析した周波数は1KHzであり、(2)局所分析波形に関する情報として、局所分析波形同士の重なりはなく、5周期分のコサイン波形から構成される分析波形において、時間分解能が1ms(分析した周波数1KHzの1周期分の長さ、すなわち分析波形の1周期分の長さ)であるという情報と、(3)5個の局所周波数情報(5個の局所分析波形における離散コサイン変換係数と同等の値)をひとかたまりにしたデータおよび対応する局所周波数情報を求めた被分析波形の時刻、とから構成されている。
図20(b)および図20(c)に、説明のためのイメージ図を合わせて記載している。図20(b)に示すイメージ図により、局所分析波形同士の重なりがないことがわかる。また、図20(c)より5個でひとかたまりの局所周波数情報のかたまりは、被分析波形を時間的にシフトしながら複数求められていることがわかる。この時間シフトの間隔(0.3ms)は、ひとかたまりにした5個の局所周波数情報を求めるために用いた5個の局所分析波形の時間間隔(1ms)とは独立に設定できる。
図20の例では、5個の局所周波数情報をひとかたまりにしたときの周波数分解能が、周波数特徴量分析装置1001が分析できる最も細かい周波数分解能となる。
また、図21(a)に、局所周波数情報DBS1000の別の一例を示す。この例では、複数の時間分解能をもつ局所分析波形により求められた局所周波数情報DBの一例を示しており、(1)分析した周波数は2KHzであり、(2)局所分析波形に関する情報として、局所分析波形同士の重なりはなく、時間分解能は、4周期のコサイン波形から構成される分析波形において、分析波形の1周期目に対応する局所分析波形では0.5ms、分析波形の2周期目に対応する局所分析波形では0.5ms、分析波形の3周期目〜4周期目に対応する局所分析波形では1.0msであるという情報と、(3)3個の局所周波数情報(3個の局所分析波形における離散コサイン変換係数と同等の値)をひとかたまりにしたデータおよび対応する局所周波数情報を求めた被分析波形の時刻、とから構成されている。
図21(b)および図21(c)に、説明のためにイメージ図を合わせて記載している。図21(b)に示すイメージ図により、局所分析波形同士の重なりがないことがわかる。また、図21(c)より3個でひとかたまりの局所周波数情報のかたまりは、被分析波形を時間的にシフトしながら複数求められていることがわかる。この時間シフトの間隔(0.3ms)は、ひとかたまりにした3個の局所周波数情報を求めるために用いた3個の局所分析波形の時間間隔(0.5ms、0.5ms、1.0ms)とは独立に設定できる。
この例では、3個の局所周波数情報をひとかたまりにしたときの周波数分解能が、周波数特徴量分析装置1001が分析できる最も細かい周波数分解能となる。
また、図22に、局所周波数情報DBS1000の別の一例を示す。この例では、局所周波数情報とは別に、ひとかたまりにする複数の局所周波数情報の値の総和である、上述の周波数情報(数11、数12、数13、数14、数15を参照)も合わせてデータベース化してある。
以上説明したように、局所周波数情報DBS1000が作成され記憶される。
図19に示されるように周波数特徴量分析装置1001において、被分析波形周波数特徴量抽出部106Aは、周波数分解能決定部1002を備える。被分析波形周波数特徴量抽出部106Aは、局所周波数情報DBS1000を入力して、周波数分解能決定部1002が決定した周波数分解能に基づいて、局所周波数情報DBS1000が保持する(3)複数の局所周波数および対応する局所周波数情報を求めた被分析波形の時刻、の中から、ひとかたまりのデータとして扱う局所周波数情報の数を決定する。
なお、局所周波数情報DBS1000は、通信路を用いて受信してもよいし、メモリカードなどの記録媒体により取得してもよい。
なお、局所周波数情報DBS1000が保持する全ての局所周波数情報を用いる場合には、周波数分解能決定部1002はなくてもよい。
図23に、局所周波数情報DBS1000を用いた周波数特徴量の分析方法の一例を示す。この例では、図中丸枠で囲った全て(5個)の局所周波数情報をひとかたまりのデータとして、周波数特徴量を分析する。ひとかたまりの局所周波数情報を用いた周波数特徴量の具体的な分析方法は、図10の被分析波形周波数特徴量抽出部106と同様な方法で行うため説明を省略する。なお、この例の場合は、周波数分解能決定部1002はなくてもよい。
また、図24に、局所周波数情報DBS1000を用いた周波数特徴量の分析方法の別の一例を示す。この例では、局所周波数情報DBS1000が保持した、分析する周波数1KHzと時間分解能1msとから、ひとかたまりにする局所周波数情報の数と周波数分解能との関係を計算して、周波数分解能決定部1002が決定した周波数分解能に基づいて、図中丸枠で囲った3個の局所周波数情報をひとかたまりのデータとして周波数特徴量を分析する。ひとかたまりの局所周波数情報を用いた周波数特徴量の具体的な分析方法は、図10の被分析波形周波数特徴量抽出部106と同様な方法で行うため説明を省略する。図24の例のように、局所周波数情報DBが保持した一部の局所周波数情報を用いることで、所望の周波数分解能で、周波数特徴量を分析することができる。
なお、図24の例では、時刻0.0ms、時刻0.3ms、時刻0.6msと時間シフトの間隔を0.3msとしたが、時間シフトの間隔を0.6msとして、時刻0.0ms、時刻0.6ms、時刻1.2msのひとかたまりの局所周波数情報を用いて周波数特徴量を分析してもよい。このときは、局所周波数情報DBS1000の一部を用いて周波数特徴量を分析することになる。
また、図22に示した局所周波数情報DBS1000を用いて周波数特徴量の分析を行う場合には、図10の被分析波形周波数特徴量抽出部106の動作において、数22の誤差関数に換えて、以下に示す数31により、複数の局所周波数情報をひとかたまりにしたときの所望の周波数分解能での周波数情報である、図22の局所周波数情報DBS1000の「周波数情報」を用いて誤差距離を計算する。
ここで、
は局所周波数情報DBS1000の「周波数情報」であり、
は記憶された、上記「周波数情報」(女性の音声パターン)に対応するものであり、
は重み係数である。
なお、図23、図24の例でも、局所周波数情報の値の総和を求めて「周波数情報」を計算することで、数31の誤差関数により誤差距離を計算してもよい。
音変換部107、スピーカ108の動作は図10のものと同様であるため説明を省略する。
最後に、利用者はスピーカ108を通じて抽出音S105を聴くことができる。
ここで、局所周波数情報作成部105A、局所周波数情報DBS1000、被分析周波数特徴量抽出部106A、の別の一例を示す。
局所周波数情報作成部105Aは、混合音S100と局所分析波形S102との相互相関(畳み込み)に基づいて、所定の時間分解能(被分析波形と分析波形との相互相関を求めるときに平均化する時間区間の長さ)で、振幅スペクトルおよび位相スペクトルの少なくとも一方を含む上記局所分析波形に対応した複数の局所周波数情報S103を求めて、(1)分析した周波数、(2)局所分析波形の形状に関する情報、(3)局所周波数情報S103および対応する局所周波数情報を求めた被分析波形の時刻、とから構成される局所周波数情報DBS1000を作成する。
図25(a)に、局所周波数情報DBS1000の一例を示す。この例では、図20の局所周波数情報DBの例とは異なり、(3)局所周波数情報S103および対応する局所周波数情報を求めた被分析波形の時刻、の表現が、局所周波数情報を時刻方向に並べたものになっている。すなわち、時刻1.0msにおける3個の局所周波数情報とは、時刻1.0msの局所周波数情報、時刻2.0msの局所周波数情報、時刻3.0msの局所周波数情報であり、時刻2.0msにおける5個の局所周波数情報とは、時刻2.0msの局所周波数情報、時刻3.0msの局所周波数情報、時刻4.0msの局所周波数情報、時刻5.0msの局所周波数情報、時刻6.0msの局所周波数情報である。このような表現ができる理由は、時間分解能が、分析する周波数である1KHzの1周期分の1.0msであり、整数個のひとかたまりの局所周波数情報のかたまりを、被分析波形に対して時間的にシフトする間隔の1.0msと同じであるからである(図25(b)および図25(c)を参照)。すなわち、時間シフトした1周期目の局所周波数情報により、前の時刻における2周期目以降の局所周波数情報が表現できるからである。なお、(1)分析した周波数、(2)局所分析波形の形状に関する情報、は図20の局所周波数情報DBの例と同様である。
図26に、局所周波数情報DB1000の別の一例を示す。この例では、図25の局所周波数情報DBの例とは異なり、複数の分析した周波数に対して、(1)分析した周波数、(2)局所分析波形の形状に関する情報、(3)局所周波数情報S103および対応する局所周波数情報を求めた被分析波形の時刻、をそれぞれデータベース化している。このように、図20、図21、図22の例でも、複数の分析した周波数に対して、局所周波数情報をデータベース化してもよい。
以上説明したように、局所周波数情報DBS1000が作成され記憶される。
被分析波形周波数特徴量抽出部106Aは、周波数分解能決定部1002を備える。被分析波形周波数特徴量抽出部106Aは、局所周波数情報DBS1000を入力して、周波数分解能決定部1002が決定した周波数分解能に基づいて、局所周波数情報DBS1000が保持する(3)複数の局所周波数および対応する局所周波数情報を求めた被分析波形の時刻、の中から、ひとかたまりのデータとして扱う局所周波数情報の数を決定する。
図27に、局所周波数情報DBS1000を用いた周波数特徴量の分析方法の一例を示す。この例では、局所周波数情報DBが保持した、分析する周波数1KHzと時間分解能1msとから、ひとかたまりにする局所周波数情報の数と周波数分解能との関係を計算して、周波数分解能決定部1002が決定した周波数分解能に基づいて、3個の局所周波数情報をひとかたまりのデータとして周波数特徴量を分析する。この例での3個の局所周波数情報とは、時刻0.0msにおいては、図中で実線丸枠で囲った時刻0.0msの局所周波数情報、時刻1.0msの局所周波数情報および時刻2.0msの局所周波数情報であり、時刻1.0msにおいては、図中で破線丸枠で囲った時刻1.0msの局所周波数情報、時刻2.0msの局所周波数情報および時刻3.0msの局所周波数情報であり、時刻2.0msにおいては、図中で破線丸枠で囲った時刻2.0msの局所周波数情報、時刻3.0msの局所周波数情報および時刻4.0msの局所周波数情報である。ここでは、時間シフトの間隔1.0msごとに、ひとかたまりの局所周波数情報を求めている。ひとかたまりの局所周波数情報を用いた周波数特徴量の具体的な分析方法は、図10の被分析波形周波数特徴量抽出部106と同様な方法で行うため説明を省略する。
なお、5個の局所周波数情報をひとかたまりのデータとしたい場合には、5個の連続した時刻の局所周波数情報をひとかたまりにすればよく、10個の局所周波数情報をひとかたまりのデータとしたい場合には、10個の連続した時刻の局所周波数情報をひとかたまりにすればよい。ひとかたまりにする局所周波数情報の数の自由度としては、図24の例よりも自由度が高い。
図28に、局所周波数情報DBS1000を用いた周波数特徴量の別の分析方法の一例を示す。この例では、ひとかたまりの局所周波数情報を、時間シフトの間隔3.0msごとに求めている(図中の実線丸枠および破線丸枠)。この時間シフトの間隔は5.0msでも8.0msでもよい。このように、時間シフトの間隔を自由に設定することができる。ひとかたまりの局所周波数情報を用いた周波数特徴量の具体的な分析方法は、図10の被分析波形周波数特徴量抽出部106と同様な方法で行うため説明を省略する。
以上説明したように、周波数特徴量S104が抽出される。
なお、周波数特徴量分析装置1001は、周波数分解能入力受付部をさらに備えることにより、周波数分解能をアプリケーションの仕様などに基づいて決定することができる。このような周波数分解能は、外部より入力されるようにしてもよい。
本発明は、混合音分離システム、音声認識システム、音識別システム、文字認識システム、顔認識システム、虹彩認証システム等のシステムに利用することができる。
図1は、従来技術であるフーリエ変換(離散フーリエ変換)の方法を説明する図である。 図2は、所定の時間幅をもつ分析波形と、被分析波形を上記分析波形により周波数分析したときの周波数特性との関係を示した図である。 図3は、従来技術であるコサイン変換(離散コサイン変換)を説明する図である。 図4は、従来技術であるウェーブレット変換を説明する図である。 図5は、本発明の全体構成を説明する図である。 図6は、別の周波数分解能に基づいて周波数分析を行なう例を示す図である。 図7は、分析波形を時間的に重ねて分割して局所分析波形を作成する例を示す図である。 図8は、別の時間分解能に基づいて周波数分析を行う例を示す図である。 図9は、1周期分のコサイン波形による周波数情報と、フーリエ変換による周波数情報との関係を示した図である。 図10は、本発明の実施の形態における周波数分析装置の全体構成を示すブロック図である。 図11は、混合音分離システム100の動作手順を示すフローチャートである。 図12は、混合音S100の一例を示した図である。 図13は、分析波形と局所周波数情報を示した図である。 図14は、実験により求めた局所周波数情報を示した図である。 図15は、混合音S100に含まれる抽出音の局所周波数情報を抽出する方法の一例を示した図である。 図16は、周波数特徴量の抽出において従来の方法と本発明の方法との構成を比較する図である。 図17は、局所周波数情報の空間のイメージを示した図である。 図18は、混合音S100に含まれていた抽出音の局所周波数情報の一例を示した図である。 図19は、本発明の実施の形態における周波数分析装置の全体構成の他の一例を示すブロック図である。 図20は、局所周波数情報作成部により作成される局所周波数情報DBについて説明するための図である。 図21は、局所周波数情報作成部により作成される局所周波数情報DBについて説明するための図である。 図22は、局所周波数情報DBの一例を示す図である。 図23は、局所周波数情報DBを用いた周波数特徴量の分析方法の一例を示す図である。 図24は、局所周波数情報DBを用いた周波数特徴量の分析方法の一例を示す図である。 図25は、局所周波数情報作成部により作成される局所周波数情報DBについて説明するための図である。 図26は、局所周波数情報DBの一例を示す図である。 図27は、局所周波数情報DBを用いた周波数特徴量の分析方法の一例を示す図である。 図28は、局所周波数情報DBを用いた周波数特徴量の分析方法の一例を示す図である。
符号の説明
100,100A 混合音分離システム
101 マイクロホン
102 周波数分析装置
103,103A 分析波形時間幅決定部
104 分析波形分割部
105,105A 局所周波数情報作成部
106,106A 被分析波形周波数特徴量抽出部
107 音変換部
108 スピーカ
1000 周波数情報作成装置
1001 周波数特徴量分析装置
1002 周波数分解能決定部
S100 混合音
S101 分析波形
S102 局所分析波形
S103 局所周波数情報
S104 周波数特徴量(抽出音のフーリエ係数)
S105 抽出音
S1000 局所周波数情報DB

Claims (10)

  1. 複数の音から構成される混合音中より特定の音を分離する混合音分離装置であって、
    前記混合音中の波形である被分析波形と時間が対応付けられ、かつ、前記被分析波形を分析する周波数の成分を有する分析波形の一部を構成し同一の時空間分解能を有する複数の局所分析波形を用いて、前記局所分析波形と時間が対応する被分析波形の周波数を分析することによって、前記分析する周波数における振幅スペクトルおよび位相スペクトルの少なくとも一方を含む前記局所分析波形に対応する複数の局所周波数情報を求める局所周波数情報作成手段と、
    前記複数の局所周波数情報を組とし、当該組と予め定められた特定の音に対する複数の周波数情報の組であって予め記憶された複数の組との間のパターンマッチングを行ない、当該パターンマッチングの結果に基づいて、前記複数の局所周波数情報の組を抽出する特定音周波数特徴量抽出手段と、
    前記特定音周波数特徴量抽出手段で抽出された前記組における複数の局所周波数情報の総和を求め、前記局所周波数情報作成手段において前記複数の局所周波数情報を求める際に使用した周波数変換の逆の周波数変換を前記総和に適用することによって前記特定の音の信号を作成する音信号作成手段とを備える
    ことを特徴とする混合音分離装置。
  2. 前記特定音周波数特徴量抽出手段は、前記複数の局所周波数情報を組とし、当該組と予め定められた特定の音に対する複数の周波数情報の組であって予め記憶された複数の組との間の距離を算出し、当該距離が所定の閾値以下の場合に、前記複数の局所周波数情報の組を抽出する
    ことを特徴とする請求項1に記載の混合音分離装置。
  3. 前記特定音周波数特徴量抽出手段は、前記複数の局所周波数情報を組とし、当該組と予め定められた特定の音に対する複数の周波数情報の組であって予め記憶された複数の組との間の類似度を算出し、当該類似度が所定の閾値以上の場合に、前記複数の局所周波数情報の組を抽出する
    ことを特徴とする請求項1に記載の混合音分離装置。
  4. さらに、前記同一の時空間分解能に基づいて、前記分析波形を、時間的に重なることを許して分割して、前記複数の局所分析波形を作成する分析波形分割手段を備える
    ことを特徴とする請求項1に記載の混合音分離装置。
  5. さらに、時空間分解能の入力を受付ける時空間分解能入力受付手段を備え、
    前記分析波形分割手段は、入力された前記時空間分解能に基づいて、前記分析波形を分割して、前記複数の局所分析波形を作成する
    ことを特徴とする請求項4に記載の混合音分離装置。
  6. さらに、前記同一の時空間分解能に基づいて、前記分析波形を、時間的に重なることのないように分割して、前記複数の局所分析波形を作成する分析波形分割手段を備える
    ことを特徴とする請求項1に記載の混合音分離装置。
  7. 被分析波形と時間が対応付けられ、かつ、前記被分析波形を分析する周波数の成分を有する分析波形を用いて、前記被分析波形を周波数分析するための周波数情報を作成する局所周波数情報作成装置であって、
    前記分析波形の一部を構成し同一の時空間分解能を有する複数の局所分析波形を用いて、前記局所分析波形と時間が対応する被分析波形の周波数を分析することによって、前記分析する周波数における振幅スペクトルおよび位相スペクトルの少なくとも一方を含む前記局所分析波形に対応する複数の局所周波数情報を求める局所周波数情報作成手段と、
    前記複数の局所周波数情報を組として、所定の記憶装置に格納する格納手段とを備える
    ことを特徴とする局所周波数情報作成装置。
  8. 被分析波形と時間が対応付けられ、かつ、前記被分析波形を分析する周波数の成分を有する分析波形を用いて、前記被分析波形を周波数分析する装置であって、
    前記分析波形の一部を構成し同一の時空間分解能を有する複数の局所分析波形を用いて、前記局所分析波形と時間が対応する被分析波形の周波数を分析することによって、前記分析する周波数における振幅スペクトルおよび位相スペクトルの少なくとも一方を含む前記局所分析波形に対応する複数の局所周波数情報を取得する取得手段と、
    前記取得手段が取得した前記複数の局所周波数情報を組とし、当該組と予め定められた特定の音に対する複数の周波数情報の組であって予め記憶された複数の組との間のパターンマッチングを行ない、当該パターンマッチングの結果に基づいて、前記複数の局所周波数情報の組を抽出する被分析波形周波数特徴量抽出手段とを備える
    ことを特徴とする周波数特徴量分析装置。
  9. 複数の音から構成される混合音中より特定の音を分離する混合音分離方法であって、
    前記混合音中の波形である被分析波形と時間が対応付けられ、かつ、前記被分析波形を分析する周波数の成分を有する分析波形の一部を構成し同一の時空間分解能を有する複数の局所分析波形を用いて、前記局所分析波形と時間が対応する被分析波形の周波数を分析することによって、前記分析する周波数における振幅スペクトルおよび位相スペクトルの少なくとも一方を含む前記局所分析波形に対応する複数の局所周波数情報を求める局所周波数情報作成ステップと、
    前記複数の局所周波数情報を組とし、当該組と予め定められた特定の音に対する複数の周波数情報の組であって予め記憶された複数の組との間のパターンマッチングを行ない、当該パターンマッチングの結果に基づいて、前記複数の局所周波数情報の組を抽出する特定音周波数特徴量抽出ステップと、
    前記特定音周波数特徴量抽出ステップで抽出された前記組における複数の局所周波数情報の総和を求め、前記局所周波数情報作成ステップにおいて前記複数の局所周波数情報を求める際に使用した周波数変換の逆の周波数変換を前記総和に適用することによって前記特定の音の信号を作成する音信号作成ステップとを含む
    ことを特徴とする混合音分離方法。
  10. 複数の音から構成される混合音中より特定の音を分離するプログラムであって、
    前記混合音中の波形である被分析波形と時間が対応付けられ、かつ、前記被分析波形を分析する周波数の成分を有する分析波形の一部を構成し同一の時空間分解能を有する複数の局所分析波形を用いて、前記局所分析波形と時間が対応する被分析波形の周波数を分析することによって、前記分析する周波数における振幅スペクトルおよび位相スペクトルの少なくとも一方を含む前記局所分析波形に対応する複数の局所周波数情報を求める局所周波数情報作成ステップと、
    前記複数の局所周波数情報を組とし、当該組と予め定められた特定の音に対する複数の周波数情報の組であって予め記憶された複数の組との間のパターンマッチングを行ない、当該パターンマッチングの結果に基づいて、前記複数の局所周波数情報の組を抽出する特定音周波数特徴量抽出ステップと、
    前記特定音周波数特徴量抽出ステップで抽出された前記組における複数の局所周波数情報の総和を求め、前記局所周波数情報作成ステップにおいて前記複数の局所周波数情報を求める際に使用した周波数変換の逆の周波数変換を前記総和に適用することによって前記特定の音の信号を作成する音信号作成ステップとをコンピュータに実行させる
    ことを特徴とするプログラム。
JP2006522162A 2005-05-13 2006-04-11 混合音分離装置 Active JP4041154B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005141939 2005-05-13
JP2005141939 2005-05-13
PCT/JP2006/307673 WO2006120829A1 (ja) 2005-05-13 2006-04-11 混合音分離装置

Publications (2)

Publication Number Publication Date
JP4041154B2 true JP4041154B2 (ja) 2008-01-30
JPWO2006120829A1 JPWO2006120829A1 (ja) 2008-12-18

Family

ID=37396345

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006522162A Active JP4041154B2 (ja) 2005-05-13 2006-04-11 混合音分離装置

Country Status (6)

Country Link
US (1) US7974420B2 (ja)
EP (1) EP1881489B1 (ja)
JP (1) JP4041154B2 (ja)
CN (1) CN100585701C (ja)
DE (1) DE602006018282D1 (ja)
WO (1) WO2006120829A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101213589B (zh) * 2006-01-12 2011-04-27 松下电器产业株式会社 对象声音分析装置和对象声音分析方法
US20070299657A1 (en) * 2006-06-21 2007-12-27 Kang George S Method and apparatus for monitoring multichannel voice transmissions
US8219409B2 (en) * 2008-03-31 2012-07-10 Ecole Polytechnique Federale De Lausanne Audio wave field encoding
JP2009270896A (ja) * 2008-05-02 2009-11-19 Tektronix Japan Ltd 信号分析装置及び周波数領域データ表示方法
JP5654955B2 (ja) * 2011-07-01 2015-01-14 クラリオン株式会社 直接音抽出装置および残響音抽出装置
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US8925058B1 (en) * 2012-03-29 2014-12-30 Emc Corporation Authentication involving authentication operations which cross reference authentication factors
RU2712559C9 (ru) 2013-08-28 2020-10-08 Ионис Фармасьютикалз, Инк. Модуляция экспрессии прекалликреина (пкк)
CN103871417A (zh) * 2014-03-25 2014-06-18 北京工业大学 一种移动手机特定连续语音过滤方法及过滤装置
BR112016022855B1 (pt) 2014-05-01 2022-08-02 Ionis Pharmaceuticals, Inc Compostos e composições para modular a expressão de pkk e seus usos
US9350470B1 (en) * 2015-02-27 2016-05-24 Keysight Technologies, Inc. Phase slope reference adapted for use in wideband phase spectrum measurements
JP6696221B2 (ja) * 2016-02-26 2020-05-20 セイコーエプソン株式会社 制御装置、受電装置、電子機器及び電力伝送システム
CN106128472A (zh) * 2016-07-12 2016-11-16 乐视控股(北京)有限公司 演唱者声音的处理方法及装置
DE112016007146B4 (de) * 2016-09-20 2019-12-24 Mitsubishi Electric Corporation Störungsidentifizierungsvorrichtung und Störungsidentifizierungsverfahren
JP6907859B2 (ja) * 2017-09-25 2021-07-21 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
CN109801644B (zh) 2018-12-20 2021-03-09 北京达佳互联信息技术有限公司 混合声音信号的分离方法、装置、电子设备和可读介质
US11026021B2 (en) 2019-02-19 2021-06-01 Sony Interactive Entertainment Inc. Hybrid speaker and converter
CN110491412B (zh) * 2019-08-23 2022-02-25 北京市商汤科技开发有限公司 声音分离方法和装置、电子设备
KR20220036210A (ko) * 2020-09-15 2022-03-22 삼성전자주식회사 영상의 음질을 향상시키는 디바이스 및 방법

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4121356C2 (de) * 1991-06-28 1995-01-19 Siemens Ag Verfahren und Einrichtung zur Separierung eines Signalgemisches
US6317703B1 (en) * 1996-11-12 2001-11-13 International Business Machines Corporation Separation of a mixture of acoustic sources into its components
SE521024C2 (sv) * 1999-03-08 2003-09-23 Ericsson Telefon Ab L M Metod och anordning för att separera en blandning av källsignaler
WO2001016935A1 (fr) * 1999-08-26 2001-03-08 Sony Corporation Procede et dispositif d'extraction/traitement d'informations, et procede et dispositif de stockage
JP4491700B2 (ja) 1999-08-26 2010-06-30 ソニー株式会社 音響検索処理方法、音響情報検索装置、音響情報蓄積方法、音響情報蓄積装置および音響映像検索処理方法、音響映像情報検索装置、音響映像情報蓄積方法、音響映像情報蓄積装置
US6879952B2 (en) * 2000-04-26 2005-04-12 Microsoft Corporation Sound source separation using convolutional mixing and a priori sound source knowledge
JP2002236494A (ja) 2001-02-09 2002-08-23 Denso Corp 音声区間判別装置、音声認識装置、プログラム及び記録媒体
JP2003061198A (ja) * 2001-08-10 2003-02-28 Pioneer Electronic Corp オーディオ再生装置
JP2004028640A (ja) * 2002-06-21 2004-01-29 Sony Corp スペクトラムアナライザー装置、再生装置、スペクトラム解析方法、プログラム、記録媒体
JP3931237B2 (ja) * 2003-09-08 2007-06-13 独立行政法人情報通信研究機構 ブラインド信号分離システム、ブラインド信号分離方法、ブラインド信号分離プログラムおよびその記録媒体
US7454333B2 (en) * 2004-09-13 2008-11-18 Mitsubishi Electric Research Lab, Inc. Separating multiple audio signals recorded as a single mixed signal
JP2007034184A (ja) * 2005-07-29 2007-02-08 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
US8014536B2 (en) * 2005-12-02 2011-09-06 Golden Metallic, Inc. Audio source separation based on flexible pre-trained probabilistic source models
CN101213589B (zh) * 2006-01-12 2011-04-27 松下电器产业株式会社 对象声音分析装置和对象声音分析方法
JP4672611B2 (ja) * 2006-07-28 2011-04-20 株式会社神戸製鋼所 音源分離装置、音源分離方法及び音源分離プログラム

Also Published As

Publication number Publication date
CN101040324A (zh) 2007-09-19
JPWO2006120829A1 (ja) 2008-12-18
EP1881489A4 (en) 2008-05-28
DE602006018282D1 (de) 2010-12-30
WO2006120829A1 (ja) 2006-11-16
EP1881489A1 (en) 2008-01-23
CN100585701C (zh) 2010-01-27
US7974420B2 (en) 2011-07-05
EP1881489B1 (en) 2010-11-17
US20090067647A1 (en) 2009-03-12

Similar Documents

Publication Publication Date Title
JP4041154B2 (ja) 混合音分離装置
JP4065314B2 (ja) 対象音分析装置、対象音分析方法および対象音分析プログラム
Boudraa et al. Teager–Kaiser energy methods for signal and image analysis: A review
JP6027087B2 (ja) スペクトル挙動の変換を実行する音響信号処理システム及び方法
JP4177755B2 (ja) 発話特徴抽出システム
JP5101316B2 (ja) 基本周波数の高調波及び分数調波の抑制を用いたピッチ抽出
US8301279B2 (en) Signal processing apparatus, signal processing method, and program therefor
JP2018521366A (ja) 音響信号をサウンドオブジェクトに分解する方法及びシステム、サウンドオブジェクト及びその利用
JP2014506686A (ja) 音声信号からの特徴フィンガープリントの抽出及びマッチング方法
WO2008144784A1 (en) Joint position-pitch estimation of acoustic sources for their tracking and separation
JP2005518118A (ja) 周波数解析のためのフィルタセット
US8812310B2 (en) Environment recognition of audio input
EP3504708B1 (en) A device and method for classifying an acoustic environment
Muhammad Extended average magnitude difference function based pitch detection
JP4705480B2 (ja) 高調波信号の基本周波数を求める方法
Chu et al. A noise-robust FFT-based auditory spectrum with application in audio classification
EP1605437B1 (en) Determination of the common origin of two harmonic components
KR101552660B1 (ko) 음성구간 검출 장치 및 방법
Muhsina et al. Signal enhancement of source separation techniques
Graf et al. Low-Complexity Pitch Estimation Based on Phase Differences Between Low-Resolution Spectra.
Prasanna Kumar et al. Supervised and unsupervised separation of convolutive speech mixtures using f 0 and formant frequencies
JP3019603B2 (ja) 音声の基本周波数の抽出装置
JPS6229799B2 (ja)
EP1743324B1 (de) Vorrichtung und verfahren zum analysieren eines informationssignals
JPH1062460A (ja) 信号分離装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071016

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071108

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101116

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4041154

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121116

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121116

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131116

Year of fee payment: 6