JP6027087B2 - スペクトル挙動の変換を実行する音響信号処理システム及び方法 - Google Patents

スペクトル挙動の変換を実行する音響信号処理システム及び方法 Download PDF

Info

Publication number
JP6027087B2
JP6027087B2 JP2014501266A JP2014501266A JP6027087B2 JP 6027087 B2 JP6027087 B2 JP 6027087B2 JP 2014501266 A JP2014501266 A JP 2014501266A JP 2014501266 A JP2014501266 A JP 2014501266A JP 6027087 B2 JP6027087 B2 JP 6027087B2
Authority
JP
Japan
Prior art keywords
acoustic
signal
frequency
chirp
signal portion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014501266A
Other languages
English (en)
Other versions
JP2014512022A (ja
Inventor
ブラッドリー,デイヴィッド,シー.
ゴールディン,ダニエル,エス.
ヒルトン,ロバート,エヌ.
フィッシャー,ニコラス,ケー.
ガトー,ロドニー
ルース,デリック,アール.
ヴィエヴィオラ,エリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Knuedge Inc
Original Assignee
Intellisis Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intellisis Corp filed Critical Intellisis Corp
Publication of JP2014512022A publication Critical patent/JP2014512022A/ja
Application granted granted Critical
Publication of JP6027087B2 publication Critical patent/JP6027087B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/005Tone control or bandwidth control in amplifiers of digital signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Auxiliary Devices For Music (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

関連出願
本出願は、発明の名称を「スペクトル挙動の変換」とし、2011年3月25日に出願された米国特許仮出願第61/467,493号に基づく優先権を主張する「スペクトル挙動の変換を実行する音響信号処理システム及び方法」を発明の名称として2011年8月8日に出願された米国特許第13/205,424号に基づく優先権を主張する。これらの米国出願は、全て全体として参照により本明細書に組み込まれる。
本発明は、個別の調波音(harmonic sounds)に関連付けされた調波(harmonics)についてチャープ率の調整を利用することにより、調波音の特定、調波音の音響パラメータの決定、及び/または調波音の分類をする音響信号の処理に関する。
音響信号中に表れる調波音とノイズとを区別し、音響信号中に表れる調波音の音響パラメータを決定し、音源に基づいて調波音をグループ化することで音響信号中に表れる調波音を分類し、他の種類の音響の処理を行うように音響信号を処理するシステムが知られている。このようなシステムは、例えば、調波音からなる話し手、人間の言葉による検出、認識及び/または分類に有効でありうる。調波音の音響パラメータの決定及び/または調波音の分類についての従来の方法では、比較的少ない量のノイズ(例えば記録された音響信号に含まれる音響ノイズ、信号ノイズ及びまたは他のノイズ)の存在下で急速に低下しうる。
一般的に、従来の音響処理は、時間領域(time domain)から周波数領域(frequency domain)への個別の時間窓(time windows)ごとの音響信号の変換を含む。さらなる処理が実行されうる前に、信号中に表れる音響とノイズとを区別するために周波数領域の信号に、様々な種類の信号処理方法及びアルゴリズムが実行されうる。この処理された信号は、ピッチ、エンベロープ、及び/または他の音響パラメータを決定するように分析されうる。信号中に表れる音響は分類されうる。
調波音と(信号中に表れる音波ノイズまたは信号ノイズである)ノイズとを区別するための従来の方法では、調波音と背景雑音とを区別するために信号を「クリーン(clean)」にする試みに達している。残念ながらこれら従来の方法では、ノイズだけでなく、信号中に表れる調波音の情報の損失をもたらす。この情報の損失は、例えば、調波音の音響パラメータの決定、調波音の分類、及び/または他の下流処理のような下流の処理の正確さ及び精密さに影響を与えうる。
本開示の第1の態様は、音響信号を処理するシステム及び方法に関する。当該処理は、音響信号中に表される個別の調波音の特定、調波音の音響パラメータの決定、音源に基づいた調波音の分類、及び/または他の処理を含みうる。当該処理は、時間領域から周波数−チャープ領域への音響信号(または音響信号の部分)の変換を含みうる。これは、単一の調波音の個々の調波は、調波音を他の(調波の及び/または非調波の)音響及び/またはノイズから区別するための調波音全体にわたる共通の(チャープ率に関連する)ピッチ速度を有していることを利用しうる。
音響信号を処理するシステムは、1以上のプロセッサを備えうる。プロセッサは、信号モジュール、時間窓モジュール、変換モジュール、音響モジュール、音響パラメータモジュール、分類モジュール、及び/または他のモジュールの1以上を備えるコンピュータプログラムモジュールを実行しうる。
時間窓モジュールは、音響信号を複数の信号部分に分離しうる。音響信号は、個別の時間窓に関連付けされうる。時間窓は、音響信号のサンプリング周期よりも大きい期間に対応しうる。時間窓の1以上のパラメータ(例えば、時間窓関数の種類(例えばガウス関数、ハミング関数)、この関数の幅パラメータ、時間窓の合計長さ、時間窓の時間周期、時間窓の配置及び/または他のパラメータ)は、ユーザの選択、現在の設定値、処理される音響信号、及び/または他の要素に基づいて設定しうる。
変換モジュールは、信号部分を周波数−チャープ領域に変換するように構成されうる。変換モジュールは、変換が、信号部分についての周波数及び分数チャープ率の関数として変換係数を特定するように構成しうる。分数チャープ率は、チャープ率を周波数で割ったものとしうる。特定の周波数及び分数チャープレートの組み合わせにおける所定の変換された信号部分の変換係数は、複素変換係数、複素係数の絶対値、または絶対値の2乗を、所定の変換された信号部分に関連付けされた時間窓内の特定の周波数及び分数チャープ率の組み合わせごとに表しうる。
変換モジュールは、所定の信号部分にフィルタの組み合わせを適用することにより所定の信号部分の変換が取得されるように構成されうる。フィルタの組み合わせの個別のフィルタは、異なる周波数及びチャープ率の組み合わせに対応しうる。フィルターは、複素指数関数としうる。これにより、実成分及び虚数成分の両方を含むフィルターによって複素係数を直接生成しうる。本明細書において使用する「変換係数」という語は、このような複素係数、複素係数の絶対値、複素係数の絶対値の2乗、及び/または、実数及び/または複素数の他の表現、及び/またはこれらの成分を意味しうるものである。
音響モジュールは、信号部分に表れる個別の調波音を特定しうる。この特定には、変換された信号部分に存在するこれらの調波音の調波の寄与の特定が含まれうる。個別の調波音は、調波音のピッチが時間とともに変化するので、ピッチ速度を有しうる。このピッチ速度は、調波音のそれぞれについて大域的であり、任意の調波の第1の調波と分数チャープ率との積として表されうる。従って、(例えば変換された信号部分の時間窓について)任意の時点における分数チャープ率は、調波音の全ての調波と同じになりうる。このことは、個別の調波音の調波の寄与が共通の分数チャープ率の列に沿って周期的に配置される変換係数の最大値として表されるように、周波数−チャープ領域中に表れる。
変換された信号部分に存在するノイズが構造化されたものでない(時間とともに変化しない)場合、信号部分に存在するほとんどの(実質的に全部でなくとも)ノイズは、変換された信号部分に表れる調波音の共通する分数チャープ率とは異なる分数チャープ率を有すると考えられる。同様に、複数の調波音が変換された信号部分に表れる場合は、異なる調波音は、異なるピッチ速度を有しうる。これにより、これらの異なる調波音の調和の寄与は、周波数−チャープ領域における異なる分数チャープ率の列に沿って配置されうる。音響モジュールは、変換された信号部分の個別の音響の寄与を特定するこの現象を利用するように構成されうる。例えば音響モジュールは、変換された信号部分における個別の音響の共通の分数チャープ率を特定するように構成されうる。
音響パラメータモジュールは、変換された信号部分に基づいて、音響信号中に表れる個別の調波音の1以上の音響パラメータを決定しうる。1以上の音響パラメータは、信号部分ごとに決定されうる。信号部分ごとの音響パラメータの決定は、音響パラメータの時間についての追跡、及び/または、音響パラメータの集計値及び/または集計値に関連付けされた集計メトリックの決定で実行されうる。1以上の音響パラメータは、例えば、ピッチ、ピッチ速度、エンベロープ、及び/または他のパラメータを含みうる。音響パラメータモジュールは、(例えば音響モジュールによって特定されるように)個別の調波音に対応する分数チャープ率に従った周波数情報に対する変換係数の分析に基づいて1以上の音響パラメータを決定しうる。
分類モジュールは、変換された信号部分に表される音響を共通の音源に基づいてグループ化するように構成されうる。このグループ化は、変換された信号部分の変換係数の分析を用いて実行されうる。例えば、分類モジュールは、音響パラメータモジュールにより決定された音響のパラメータ、(例えば、ベストチャープ列に沿った変換係数の最大値のベクトルの生成を含む)ベストチャープ列に従った周波数情報に対する変換係数の分析、及び/または他の分析の使用に基づいて音響をグループ化しうる。
本発明の上記及び上記以外の目的、特徴、及び性質、並びに構造の関連要素の動作方法及び機能、そして製造における各部分の組み合わせと経済性については、添付図面を参照しつつ以下の詳細な説明と添付の特許請求の範囲を検討することによってさらに明らかになる。これらはいずれも本明細書の一部を構成する。ここで、同様の参照符号は種々の図における対応する部分を表している。添付図面は例示及び説明のためのものであり、本発明の発明特定事項の定義として用いることは意図されていない。本明細書及び特許請求の範囲における用法によれば、単数形の"a"、"an"及び"the"には複数のものへの言及が含まれる。ただし、文脈によってそうでないことが明白である場合はこの限りでない。
音響信号を処理するシステムを示す図である。 音響信号のスペクトログラムを示す図である。 周波数−チャープ領域における変換された音響信号のプロットを示す図である。 周波数−チャープ領域における変換された音響信号のプロットを示す図である。 音響信号の処理方法を示す図である。
詳細な説明
図1には、音響信号を処理するシステム10が示されている。システム10により実行される処理には、音響信号中に表れる1以上の音響パラメータの決定、共通の音源により生成された音響信号中に表れる音響の特定、及び/または他の処理の実行が含まれうる。システム10は、従来の音響処理システムに対して改良された正確さ及び/または精密さを有することができる。システム10は、従来の音響処理システムでは利用できない音響信号中に表れる音響に関する洞察(insight)の提供及び/または他の強化(enhancement)の提供をなしうる。いくつかの実施形態では、システム10は、1以上のプロセッサ12、電子記憶装置14、ユーザインターフェース16及び/または他のコンポーネントを備えうる。
プロセッサ12は、1以上のコンピュータプログラムモジュールを実行するように構成されうる。コンピュータプログラムモジュールは、信号モジュール18、時間窓モジュール20、変換モジュール22、音響モジュール24、音響パラメータモジュール26、分類モジュール28及び/または他のモジュールの1以上を備えうる。
信号モジュール18は、処理用の音響信号を取得するように構成されうる。信号モジュール18は、電子記憶装置14から、ユーザインターフェース16(例えばマイクロフォン、トランスデューサー、及び/または他のユーザインターフェースコンポーネント)から、外部音源から、及び/または他のソースから音響信号を取得するように構成することができる。音響信号は、音源及び/またはノイズにより生成される音響を表す電子アナログ及び/または電子デジタル信号を含みうる。本明細書において使用する「音源」という語は、音響を生成する働きをするオブジェクトまたはオブジェクトの組み合わせを意味しうるものである。例えば、ギターのような弦楽器は、協働して音響を生成する複数のオブジェクト(例えば複数の弦、本体、及び/または他のオブジェクト)を備えるものではあるが、単一の音源と考えることができる。同様に、歌手のグループは、協力して音響を生成して単一の調波音を発生する。
信号モジュール18は、取得された音響信号が信号強度を時間の関数として特定するように構成されうる。個別の音響信号は、信号強度が表れるサンプリングレートを有しうる。サンプリングレートは、サンプリング周期に対応しうる。音響信号のスペクトル密度は、例えば、スペクトログラム中に表されうる。例として、図2には、時間−周波数領域におけるスペクトログラム30が示されている。スペクトログラム30においては、信号強度に関連する係数(例えば振幅、エネルギー、及び/または他の係数)は、余域(co-domain)でありうるとともに、(例えば明るい色ほど振幅が大きくなるように)色として表されうる。
音響信号において、単一の音響及び/または音源に起因する寄与は、調波の間隔(例えば規則的間隔)で配置されうる。これらの間隔を空けた音響信号への寄与は、「調波」または「倍音」と呼ばれうる。例えば、スペクトログラム30は、第1の音響及び/または音源に関連づけされた(図2において倍音32としてラベルされた)調波の第1の組み合わせ及び第2の音響及び/または音源に関連づけされた(図2において倍音34としてラベルされた)調波の第2の組み合わせを含む。第1の音響及び第2の音響は、共通の音源により、または別々の音源により生成されうる。ある時点の音響に対応する所定の倍音の組み合わせの間隔を、その時点の音響の「ピッチ」と呼ぶことがある。
再び図1を参照する。時間窓モジュール20は、音響信号を信号部分に分離するように構成されうる。信号部分は、個別の時間窓と関連づけされうる。時間窓は、時間を通して連続的でもよく、重複していてもよく、間隔を空けていてもよく、他の方法で時間を通して配置することができる。個別の時間窓は、信号部分に分離される音響信号のサンプル周期よりも大きい一定期間に対応しうる。従って、時間窓に関連付けされた信号部分は、複数の信号サンプルを備えうる。
時間窓モジュール20により実行される処理のパラメータには、ピーク窓関数(peaked window function)の種類(例えばガウス関数)、この関数の幅(ガウス関数については標準偏差)、窓の合計幅(ガウス関数については典型的には6つの標準偏差の合計値)、時間窓の配置(例えば、連続、重複、間隔を空けている及び/または他の配置)及び/又は他のパラメータが含まれうる。1以上のこれらのパラメータは、ユーザの選択、現在の設定値、処理される音響信号、及び/または他の要素に基づいて設定されうる。一例として、時間窓は、約5ミリ秒及び約50ミリ秒の間、約5ミリ秒及び約30ミリ秒の間、約5ミリ秒及び約15ミリ秒の間、及び/または他の範囲の一定期間に対応しうる。システム10によって音響信号に適用される処理は、信号部分における音響信号の動的性質の主たる要因であるので、時間窓は、従来の音響処理システムよりも大きい時間量に対応しうる。例えば、時間窓は、約15ミリ秒よりも大きい時間量に対応しうる。いくつかの実施形態では、時間窓は、約10ミリ秒に対応しうる。
チャープ率変数は、チャープ率から算出されるメトリック(例えば周波数の変化率)としうる。例えば、いくつかの実施形態では、チャープ率変数は、分数チャープ率としうる。分数チャープ率は、
Figure 0006027087
として表されうる。式中、χは分数チャープ率を表し、Xはチャープ率を表し、ωは周波数を表す。
変換モジュール22で実行される処理は、音響の多次元表現を生成しうる。この多次元表現、即ち「空間(space)」は、周波数及び(分数)チャープ率により定められる定義域を有しうる。多次元表現は、変換係数によって与えられる余域(出力)を有しうる。従って変換モジュール22による変換の実行の際に、変換された信号部分は、変換された信号部分に関連付けされた時間窓について周波数及び分数チャープ率の関数として、変換係数を特定しうる。特定の周波数及び分数チャープ率の組み合わせについての変換係数は、変換された信号部分に関連付けられた時間窓内の特定の周波数及び分数チャープ率の組み合わせについて、変換により直接生成される複素数、この複素数の絶対値またはこの絶対値の2乗を表しうる。
例として、図3には、変換された信号部分についての周波数−チャープ領域におけるチャープ空間36が示されている。図3において変換係数は、大きさが大きい変換係数は、小さい変換係数よりも明るいものとして描かれるように色によって表されている。周波数は、チャープ空間36の水平軸に沿って表され、分数チャープ率は、チャープ空間36の垂直軸に沿って表されうる。
再び図1を参照する。変換モジュール22は、個別信号部分にフィルターの組み合わせを適用することにより信号部分を変換するように構成されうる。フィルタの組み合わせにおける個別のフィルタは、異なる周波数及びチャープ率変数の組み合わせに対応しうる。一例として、適当なフィルタの組み合わせΨは、
Figure 0006027087
として表される。式中、iは虚数を表し、tは時間を表し、fはフィルタの中心周波数を表し、cはフィルタのチャープ率を表し、σは、フィルタの時間窓の標準偏差(例えば幅)を示す。
変換モジュール22により適用されるフィルターは、複素指数としうる。これにより、実成分及び虚数成分の両方を含むフィルターによって生成された変換係数となりうる。本明細書において使用する「変換係数」という語は、実成分及び虚数成分の両方を含む複素数、複素数の絶対値、複素数の絶対値の2乗、及び/または複素数の他の表現、及び/またはこれらの成分を意味しうるものである。信号部分へのフィルターの適用は、例えば、信号部分の時間データの内積及び複素数フィルターを得ることにより行われうる。中心周波数及びチャープ率のようなフィルターのパラメータは、ユーザの選択、現在の設定値、処理される音響信号、及び/または他の要素に基づいて設定することができる。
音響モジュール24は、信号部分内の個々の音響(例えば調波音)の寄与を特定するように構成されうる。音響モジュール24は、信号部分の周波数−チャープ領域変換の分析に基づいて係る特定を実行しうる。
所定の音響がピッチを変更されると、所定の音響の調波の周波数(またはチャープ率)の変化は、ピッチが変化する割合及び調波の現在の周波数の関数として特徴付けられうる。この特徴づけは、n番目の調波について
Figure 0006027087
として特徴づけされうる。式中、Δφは、ピッチ(φ)の変化の割合、即ち音響の「ピッチ速度」を表し、Xnはn番目の調波のチャープ率を表し、ωnはn番目の調波の周波数を表し、ω1は1番目の調波(例えば基音)の周波数を表す。式(1)及び(2)を参照すると、音響のピッチの変化の割合と、音響のn番目の調波のチャープ率とは、緊密に関連していると見ることができ、式(2)は以下のように書き直すことができる。
Figure 0006027087
ピッチの変化の割合は、全体として音響を保持して(調波音/音源と考えられる)基本的な調波音の全てを有する音響−幅のパラメータであるので、分数チャープ率は、音響の全ての調和と同じとなりうることが式(3)より推測される。音響モジュール24は、変換された信号部分の個別の音響の寄与を特定するこの現象を利用するように構成されうる。例えば音響モジュール24は、変換された信号部分における個別の音響の共通の分数チャープ率を特定するように構成されうる。
例として、再び図3を参照すると、個別の調波音についての調波にわたる共通の分数チャープ率は、音響の調波の寄与が個別の音響についての共通の分数チャープ率に対応する単一の水平の列に沿って並びうることを意味しうる。この列は、「ベストチャープ列」と呼ばれうる(例えば図3のベストチャープ列38を参照)。信号部分に現れるノイズが構造化されたものでない(時間とともに変化しない)場合、信号部分に存在するほとんどの(実質的に全部でなくとも)ノイズは、信号部分に表れる音響の共通の分数チャープ率とは異なる分数チャープ率を有すると考えられる。従って、(チャープ列26として例示されるような)変換された信号部分の共通の分数チャープ率の特定は、周波数−チャープ領域に変換されていない信号部分よりもノイズに起因する歪みの影響を受けにくいものとしうる。
同様に、単一の信号部分に存在する複数の音響は、これらが異なる分数チャープ率を有するであろうことから、周波数−チャープ領域において区別されうる。図4には、一例として、周波数−チャープ領域におけるチャープ空間40が示されている。チャープ空間40は、第1の音響に対応する第1のベストチャープ列42及び第2の音響に対応する第2のベストチャープ列44を備えうる。図4からわかるように、第1の音響及び第2の音響はそれぞれ、同様のピッチを有している。結果として、従来の音響処理方法では、これら2つの区別できる音響の間を特徴付けることが困難でありうる。しかしながら、分数チャープ率に従って分離のおかげで、チャープ空間40は、第1及び第2の音響をそれぞれ分離して表現し、分離された2つの音響の特定が容易となる。
再び図1を参照すると、音響モジュール24は、一以上の様々な方法を使用して変換された信号部分の個別の音響の寄与を特定するように構成されうる。例えば、音響モジュール24は、個別の分数チャープ率に従って変換係数を合計し、これらの合計値における1以上の最大値を、個別の音響に対応するベストチャープ列として特定しうる。他の例としては、音響モジュール24は、(例えば規則的に間隔を空けた変換係数の最大値のような)調波の寄与の存在について個別の分数チャープ率を分析するように構成されうる。いくつかの実施形態においては、音響モジュール24は、発明の名称を「音響信号にわたって音響ピッチを追跡するシステム及び方法」として2011年8月8日に出願された米国特許出願第13/205,483号、及び/または、発明の名称を「調波エンベロープを使用して音響信号にわたる音響ピッチを追跡するシステム及び方法」として2011年8月8日に出願された米国特許第13/205,521号の一方または両方に記載された分析を実行するように構成されうる。これらの米国出願はいずれも全体として参照により本明細書に組み込まれる。
音響パラメータモジュール26は、変換された信号部分に表れる1以上の音響のパラメータを決定するように構成されうる。これら1以上のパラメータには、例えば、ピッチ、エンベロープ、ピッチ速度、及び/または他のパラメータが含まれうる。一例として、音響パラメータモジュール26は、従来の音響処理システムが、(例えば高速フーリエ変換(FFT)または短時間フーリエ変換(STFT)を使用して)周波数領域に変換された音響信号を分析するのとほぼ同じ態様で、ベストチャープ列に従って周波数情報に対する変換係数を分析するにより、ピッチ及び/またはエンベロープを決定しうる。周波数情報に対する変換係数の分析は、少なくともベストチャープ列の共通のチャープ率以外のチャープ率を有する変換された信号部分にノイズが存在しないので、改善された正確さ及び/または精密さを提供しうる。音響信号からピッチ及び/またはエンベロープを決定する方法には、周波数領域におけるケプストラム分析及び調和積スペクトル、ゼロ交差回数、時間領域における自己相関及び位相ループ分析、及び/または他の方法の1以上が含まれうる。
分類モジュール28は、変換された信号部分に表れる音響を共通する音響音源に基づいてグループ化するように構成されうる。このグループ化は、変換された信号部分の変換係数の分析を用いて実行されうる。例えば、分類モジュール28は、音響パラメータモジュール26により決定された音響のパラメータ、(例えば、ベストチャープ列に沿った変換係数最大値のベクトルの生成を含む)ベストチャープ列に従った周波数情報に対する変換係数の分析、及び/または他の分析の使用に基づいて音響をグループ化しうる。分類モジュール28により実行される分析は、従来の音響処理システムにおいて周波数領域に変換された音響信号に実行される分析と同様の分析または同じ分析とすることができる。周波数領域の音響信号を分析するこれらの方法のいくつかは、例えば、混合ガウスモデル(Gaussian mixture models)、サポートベクターマシン(support vector machines)、バッタチャリャ距離(Bhattacharyya distance)及び/または他の方法を含みうる。以上のようにして、クライアント端末30のユーザは、サーバ10から所望のコンテンツの配信を受けることができ、また、それ以外のコンテンツ共有サービスに含まれる様々なサービスを受けることができる。
プロセッサ12は、システム10に情報処理能力を提供するように構成されうる。従って、プロセッサ12は、デジタルプロセッサ、アナログプロセッサ、情報を処理するように設計されたデジタル回路、情報を処理するように設計されたアナログ回路、ステート・マシン及び/または電気的に情報を処理する他のメカニズムの1以上を備えうる。プロセッサ12は、図1において1つの実体として示されているが、これは単に例示することが目的である。いくつかの実施形態では、プロセッサ12は、複数の処理ユニットを含みうる。これらの処理ユニットは、同じ装置内に物理的に配置されうる。あるいは、プロセッサ12は、協調して動作する複数の装置の処理機能性を表しうる。
プロセッサ12は、ソフトウェア、ハードウェア、ファームウェア、ソフトウェア、ハードウェア及び/またはファームウェアのいくつかの組み合わせ、及び/またはプロセッサ12に処理能力を構成する他のメカニズムによりモジュール18、20、22、24、26及び/または28を実行するように構成されうる。モジュール18、20、22、24、26及び/または28は、単一のユニット内に協働で配置されるように図1に示されているが、当然のことながら、プロセッサ38が複数の処理ユニットを備えるいくつかの実施形態において、モジュール18、20、22、24、26及び/または28の1以上を他のモジュールから遠隔に配置することも可能である。以下に記載する異なるモジュール18、20、22、24、26及び/または28によって提供される機能の説明は、例示を目的としたものであって、本発明はこれらの例示に限定されるものではない。モジュール18、20、22、24、26及び/または28のいずれかが、本明細書に記載されているより多いまたは少ない機能を提供しうる。例えば、モジュール18、20、22、24、26及び/または28の1以上を取り除いてもよく、機能性の一部または全部は、モジュール18、20、22、24、26及び/または28の他の一つによって提供されてもよい。他の例としては、プロセッサ12は、以下のモジュール18、20、22、24、26及び/または28に起因する機能性の一部または全部を実行しうる一以上の追加のモジュールを実行するように構成されうる。
一実施形態では、電子記憶装置14は、非一時的電子記憶媒体を備えうる。電子記憶装置14の電子記憶媒体は、システム10と一体的に(即ち実質的に取り外し不可能に)提供されるシステム記憶装置、及び/または、ポート(例えばUSBポート、ファイヤワイヤポート等)またはドライブ(例えばディスクドライブ等)等を介してシステム10に取り外し可能に接続されるリムーバブル記憶装置の両方又は一方を備えうる。電子記憶装置14は、(例えば光学ディスク等の)光学的に読み取り可能な記憶媒体、(例えば磁気テープ、磁気ハードドライブ、フロッピーディスク等の)磁気的に読み取り可能な記憶媒体、(EEPROM、RAM等の)電荷型記憶媒体、(例えばフラッシュドライブ等の)固体記憶媒体、及び/または他の電子的に読み取り可能な記憶媒体を含みうる。電子記憶装置14は、クラウド及び/または仮想プライベートネットワークを介して提供されるストレージリソースのような仮想ストレージリソースを含みうる。電子記憶装置14は、ソフトウェアアルゴリズム、コンピュータプログラムモジュール、プロセッサ12により決定される情報、ユーザインターフェース16を介して受け取る情報、及び/または、システム10を適切に機能させることができる他の情報を記憶しうる。電子記憶装置14は、システム10内の分離したコンポーネントとしうる。または電子記憶装置14は、(例えばプロセッサ12のような)システム14の一以上の他のコンポーネントと一体に提供されうる。
ユーザインターフェース16は、システム10と、システム10に情報を提供するとともにシステム10から情報を受け取る1以上のユーザとの間にインターフェースを提供するように構成されうる。この情報は、データ、結果及び/または命令、並びに他の伝達可能な項目または情報を含みうる。例えば、情報は、変換モジュール22、音響モジュール24及び/または音響パラメータモジュール26により生成される分析、結果及び/または他の情報を含みうる。ユーザインタフェース16に含めるのに適したインターフェース装置の一例には、キーパッド、ボタン、スイッチ、キーボード、ノブ、レバー、ディスプレー画面、タッチスクリーン、スピーカー、マイクロフォン、インジケーターライト、警報器及びプリンターが含まれる。
有線のまたは無線の他の通信技術も、本発明に用いられるユーザインターフェース16と理解されるべきである。例えば、本発明では、ユーザーインターフェース16は、電子記憶装置14によって提供されるリムーバブルストレージインターフェースと一体としうることが期待される。この例では、情報は、ユーザがシステム10の実行をカスタマイズ可能な(例えばスマートカード、フラッシュドライブ、リムーバブルディスク等の)リムーバブル記憶装置からシステム10内に読み込まれうる。ユーザインターフェース16としてシステム10での使用に適した他の典型的な入力装置及び方法には、RS−232ポート、RFリンク、IRリンク、モデム(電話、ケーブルその他)が含まれるが、これらに限定されない。即ち、本開示においては、システム10と情報を通信するいかなる方法も、ユーザインタフェース16として考えられている。
図5には、音響信号の処理方法50が示されている。以下に示す方法50の工程は、説明のためのものである。いくつかの実施形態では、方法50は、詳細な説明で説明されていない一以上の追加の工程を用いて実現することもできるし、説明されている一以上の工程を省略しても実現することができる。さらに、本発明は、図5に図示され以下で説明される方法50の工程の順番には限定されない。
一部の実施形態では、方法50は、1以上の処理装置(例えば、デジタルプロセッサ、アナログプロセッサ、情報を処理するように設計されたデジタル回路、情報を処理するように設計されたアナログ回路、ステートマシン及び/または情報を電気的に処理する他のメカニズム)において実行されうる。一以上の処理装置は、電子記憶媒体に電気的に記憶された命令に応じて方法50の工程のいくつかまたは全部を実行する一以上の装置を備えていてもよい。一以上の処理装置は、方法50の一以上の工程を実行するように特別に設計されたハードウェア、ファームウェア及び/またはソフトウェアを用いるように構成された一以上の装置を備えていてもよい。
工程52では、音響信号が取得される。音響信号は、電子記憶装置から、ユーザーインターフェースから及び/または他の音源から取得することができる。音響信号は、音源及び/またはノイズにより生成された音響を表す電子アナログ信号及び/または電子デジタル信号を含みうる。音響信号は、振幅を時間の関数として特定しうる。音響信号は、振幅/周波数が表れるサンプリングレートを有しうる。サンプリングレートは、サンプリング周期に対応しうる。いくつかの実施形態では、(図1に示すとともに本明細書において説明する)信号モジュール18と同じまたは同様の信号モジュールにより工程52が実行されうる。
工程54では、音響信号は、信号部分の組み合わせに分離されうる。信号部分は、個別の時間窓と関連づけされうる。時間窓は、時間を通して連続的でもよく、重複していてもよく、間隔を空けていてもよく、他の方法で時間を通して配置されていてもよい。個別の時間窓は、信号部分に分離される音響信号のサンプル周期よりも大きい一定期間に対応しうる。従って、時間窓に関連付けされた信号部分は、複数の信号サンプルを備えうる。いくつかの実施形態では、(図1に示すとともに本明細書において説明する)時間窓モジュール20と同じまたは同様の時間窓モジュールにより工程54が実行されうる。
工程56では、信号部分は周波数−チャープ領域に変換されうる。周波数―チャープ領域は、周波数及び(分別)チャート率によって定められうる。周波数チャープ領域は、変換係数によって定められる余域(出力)を備えうる。チャープ率変数は、チャープ率から算出されるメトリック(例えば周波数の変化の割合)としうる。従って工程56での変換が実行されると、変換された信号部分は、変換された信号部分に関連付けされた時間窓についての周波数及び分数チャープ率の関数として変換係数を特定しうる。いくつかの実施形態では、(図1に示すとともに本明細書において説明する)変換モジュール22と同じまたは同様の変換モジュールにより工程56が実行されうる。
工程58では、信号部分内の個別の音響が変換された信号部分に基づいて特定されうる。信号部分内の個別の音響の特定は、個別の音響の調波の特定個別の音響の分数チャープ率(例えば個別の音響のベストチャープ列)の特定、及び/または変換された信号部分の個別の音響の他の明示を含みうる。いくつかの実施形態では、工程58は、(図1に示すとともに本明細書において説明する)音響モジュール24と同じまたは同様の音響モジュールにより工程58が実行されうる。
工程60では、工程58で特定された音響の1以上の音響パラメータが決定される。音響パラメータは、ピッチ、ピッチ速度、エンベロープ、及び/または他の音響パラメータの1以上を含みうる。工程60で行われる決定は、変換された信号部分に基づいて行われうる。いくつかの実施形態では、工程60は、(図1に示すとともに本明細書において説明する)音響パラメータモジュール26と同じまたは同様の音響パラメータモジュール26により実行されうる。
工程64では、工程58で特定された音響が分類されうる。音響の分類には、変換された信号部分に表れる音響を共通の音響音源に基づくグループ化することが含まれうる。この分類には、工程60で決定される音響パラメータ、変換された音響信号及び/または他の情報に基づく実行が含まれうる。いくつかの実施形態では、工程64は、(図1に示すとともに本明細書において説明する)分類モジュール28と同じまたは同様の分類モジュール28により実行される。
工程64では、工程52、56、58、60及び/または64の1以上に関する情報が1以上のユーザに提供されうる。このような情報は、変換された信号部分に関する情報、所定の分数チャープ率についての周波数情報に対する変換係数、周波数−チャープ領域中の変換された信号部分の表現、音響部分または音響信号中に表れる音響の1以上の音響パラメータ、音響分類に関する情報、及び/または他の情報を含みうる。このような情報は、(図1に示すとともに本明細書において説明する)ユーザインターフェース16と同じまたはユーザインターフェース16と同様のユーザインタフェースを介して1以上のユーザに提供されうる。
現時点で最も実用的であり好ましいと考えられる態様に基づいて、本開示のシステム及び/または方法を例示のために詳細に説明したが、このような詳細な説明は例示のみを目的としたものである。本開示は開示された実施形態に限定されるものではなく、むしろ添付された特許請求の範囲の趣旨及び範囲に入る変形や均等な配置も本発明に含められることが意図されている。例えば、本発明においては、任意の実施形態の一又は複数の特徴を他の実施形態の一又は複数の特徴と可能な限り結合することができる。

Claims (20)

  1. コンピュータプログラムモジュールを実行する1以上のプロセッサを備えた音響信号処理システムであって、前記コンピュータプログラムモジュールは、
    音響信号を個別の時間窓に関連付けされた複数の信号部分に分離し、前記時間窓が前記音響信号のサンプリング周期よりも大きい期間に対応する時間窓モジュールと、
    前記信号部分を周波数−チャープ領域に変換する変換モジュールとを備えており、
    前記信号の前記周波数−チャープ領域の表現は、前記信号部分についての周波数及び分数チャープ率の関数として変換係数を特定し、前記分数チャープ率は、チャープ率を周波数で割ったものである音響信号処理システム。
  2. 前記コンピュータプログラムモジュールは、前記変換された信号部分に基づいて、前記音響信号中に表れる個別の調波音の第1の音響パラメータを決定する音響パラメータモジュールをさらに備える請求項1のシステム。
  3. 前記音響パラメータモジュールは、信号部分ごとに前記第1の音響パラメータを決定する請求項2のシステム。
  4. 前記音響パラメータモジュールは、前記変換された信号部分に基づいて、前記音響信号中に表れる個別の調波音の第2の音響パラメータをさらに決定し、前記第2の音響パラメータは、前記第1の音響パラメータとは異なるものである請求項2のシステム。
  5. 前記第1の音響パラメータは、ピッチ及び/またはチャープ率の一方または両方を有している請求項2のシステム。
  6. 前記変換モジュールは、所定の信号部分にフィルタの組み合わせを適用することにより前記所定の信号部分の変換が行われ、前記フィルタの組み合わせの個別のフィルタは、異なる周波数及びチャープ率の組み合わせに対応するものである請求項1に記載のシステム。
  7. 前記変換モジュールは、前記変換係数が実成分及び虚数成分を備えるように構成されている請求項1のシステム。
  8. 前記変換モジュールは、前記変換係数が実成分及び虚数成分の二乗の絶対値であるように構成されている請求項1のシステム。
  9. 前記変換係数に基いて分離した音源により生成する音響を特定する分類モジュールをさらに備える請求項1のシステム。
  10. 1以上のプロセッサにより音響信号を処理する方法であって、
    音響信号を、該音響信号のサンプリング周期よりも大きい所定期間に対応する個別の時間窓と関連付けされた信号部分に分離し、
    前記信号部分を、周波数−チャープ領域に変換し、
    前記所定の信号の前記周波数−チャープ領域の表現は、前記信号部分についての周波数及び分数チャープ率の関数として変換係数を特定し、前記分数チャープ率は、周波数でチャープ率を割ったものである音響信号を処理する方法。
  11. 前記変換された信号部分に基づいて、前記音響信号中に表れる個別の調波音の第1の音響パラメータを決定することをさらに備える請求項10の方法。
  12. 前記第1の音響パラメータの決定は、信号部分ごとに前記第1の音響パラメータを決定する請求項11の方法。
  13. 前記変換された信号部分に基づいて、前記音響信号中に表れる個別の調波音の第2の音響パラメータをさらに決定し、前記第2の音響パラメータは、前記第1の音響パラメータとは異なるものである請求項11の方法。
  14. 前記第1の音響パラメータは、ピッチ及び/またはチャープ率の一方または両方を備えている請求項11の方法。
  15. 所定の信号部分の変換は、前記所定の信号部分にフィルタの組み合わせを適用することを備えており、前記フィルタの組み合わせに含まれる個別のフィルタは、異なる周波数及びチャープ率の組み合わせに対応している請求項10の方法。
  16. 前記変換係数は、実数成分及び虚数成分を備える請求項10に記載の方法。
  17. 前記変換係数は、実数成分及び虚数成分の二乗の絶対値である請求項10に記載の方法。
  18. 前記変換係数に基づいて分離した音源により生成された音響を特定することをさらに備える請求項10の方法。
  19. 音響信号を処理する方法を実行するためのプロセッサで実行可能な命令を記憶するコンピュータ読み取り可能な非一時的な電子記憶媒体であって、前記方法は、
    音響信号を、該音響信号のサンプリング期間よりも大きい所定期間に対応する個別の時間窓と関連付けられた信号部分に分離し、
    前記信号部分を、周波数−チャープ領域に変換し、前記所定の信号の前記周波数−チャープ領域の表現は、前記信号部分についての周波数及び分数チャープ率の関数として変換係数を特定し、前記分数チャープ率は、周波数でチャープ率を割ったものである電子記憶媒体。
  20. 前記方法は、前記変換された信号部分に基づいて、前記音響信号中に表れる個別の調波音の第1の音響パラメータをさらに決定する請求項19の電子記憶媒体。
JP2014501266A 2011-03-25 2012-03-23 スペクトル挙動の変換を実行する音響信号処理システム及び方法 Expired - Fee Related JP6027087B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161467493P 2011-03-25 2011-03-25
US61/467,493 2011-03-25
US13/205,424 US8767978B2 (en) 2011-03-25 2011-08-08 System and method for processing sound signals implementing a spectral motion transform
US13/205,424 2011-08-08
PCT/US2012/030277 WO2012134993A1 (en) 2011-03-25 2012-03-23 System and method for processing sound signals implementing a spectral motion transform

Publications (2)

Publication Number Publication Date
JP2014512022A JP2014512022A (ja) 2014-05-19
JP6027087B2 true JP6027087B2 (ja) 2016-11-16

Family

ID=46877376

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014501266A Expired - Fee Related JP6027087B2 (ja) 2011-03-25 2012-03-23 スペクトル挙動の変換を実行する音響信号処理システム及び方法

Country Status (7)

Country Link
US (5) US8767978B2 (ja)
EP (2) EP2937862A1 (ja)
JP (1) JP6027087B2 (ja)
KR (1) KR20140059754A (ja)
CN (1) CN103718242B (ja)
CA (1) CA2831264A1 (ja)
WO (2) WO2012134991A2 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8849663B2 (en) * 2011-03-21 2014-09-30 The Intellisis Corporation Systems and methods for segmenting and/or classifying an audio signal from transformed audio information
US8767978B2 (en) 2011-03-25 2014-07-01 The Intellisis Corporation System and method for processing sound signals implementing a spectral motion transform
US9183850B2 (en) 2011-08-08 2015-11-10 The Intellisis Corporation System and method for tracking sound pitch across an audio signal
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US8548803B2 (en) * 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US9500677B2 (en) * 2011-08-19 2016-11-22 Tektronik, Inc. Apparatus and method for providing frequency domain display with visual indication of FFT window shape
US8727991B2 (en) * 2011-08-29 2014-05-20 Salutron, Inc. Probabilistic segmental model for doppler ultrasound heart rate monitoring
JP2013205830A (ja) * 2012-03-29 2013-10-07 Sony Corp トーン成分検出方法、トーン成分検出装置およびプログラム
JP5958866B2 (ja) * 2012-08-01 2016-08-02 国立研究開発法人産業技術総合研究所 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム
DE202012010236U1 (de) 2012-10-26 2012-11-23 Igus Gmbh Energieführungskette mit Spann- bzw. Tragvorrichtung
US20140379333A1 (en) * 2013-02-19 2014-12-25 Max Sound Corporation Waveform resynthesis
US9058820B1 (en) 2013-05-21 2015-06-16 The Intellisis Corporation Identifying speech portions of a sound model using various statistics thereof
CN105247609B (zh) 2013-05-31 2019-04-12 雅马哈株式会社 利用言语合成对话语进行响应的方法及装置
US9484044B1 (en) 2013-07-17 2016-11-01 Knuedge Incorporated Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
US9530434B1 (en) 2013-07-18 2016-12-27 Knuedge Incorporated Reducing octave errors during pitch determination for noisy audio signals
US9208794B1 (en) 2013-08-07 2015-12-08 The Intellisis Corporation Providing sound models of an input signal using continuous and/or linear fitting
US9865253B1 (en) * 2013-09-03 2018-01-09 VoiceCipher, Inc. Synthetic speech discrimination systems and methods
CN104778949B (zh) * 2014-01-09 2018-08-31 华硕电脑股份有限公司 音频处理方法及音频处理装置
US9396740B1 (en) * 2014-09-30 2016-07-19 Knuedge Incorporated Systems and methods for estimating pitch in audio signals based on symmetry characteristics independent of harmonic amplitudes
US9548067B2 (en) * 2014-09-30 2017-01-17 Knuedge Incorporated Estimating pitch using symmetry characteristics
EP3254282A1 (en) * 2015-02-06 2017-12-13 KnuEdge Incorporated Determining features of harmonic signals
US9842611B2 (en) 2015-02-06 2017-12-12 Knuedge Incorporated Estimating pitch using peak-to-peak distances
US9922668B2 (en) * 2015-02-06 2018-03-20 Knuedge Incorporated Estimating fractional chirp rate with multiple frequency representations
US9870785B2 (en) 2015-02-06 2018-01-16 Knuedge Incorporated Determining features of harmonic signals
EP3317878B1 (de) * 2015-06-30 2020-03-25 Fraunhofer Gesellschaft zur Förderung der Angewand Verfahren und vorrichtung zum erzeugen einer datenbank
CN105185378A (zh) * 2015-10-20 2015-12-23 珠海格力电器股份有限公司 声控方法、声控系统及能够进行声控的空调
US10283143B2 (en) * 2016-04-08 2019-05-07 Friday Harbor Llc Estimating pitch of harmonic signals
IT201600085079A1 (it) * 2016-08-12 2018-02-12 Intendime Srls Dispositivo di segnalazione per allarmi sonori e simili
US11862179B2 (en) 2021-04-01 2024-01-02 Capital One Services, Llc Systems and methods for detecting manipulated vocal samples

Family Cites Families (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3617636A (en) 1968-09-24 1971-11-02 Nippon Electric Co Pitch detection apparatus
US3649765A (en) 1969-10-29 1972-03-14 Bell Telephone Labor Inc Speech analyzer-synthesizer system employing improved formant extractor
US4454609A (en) 1981-10-05 1984-06-12 Signatron, Inc. Speech intelligibility enhancement
US4797923A (en) 1985-11-29 1989-01-10 Clarke William L Super resolving partial wave analyzer-transceiver
US5054072A (en) 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
JPH01257233A (ja) 1988-04-06 1989-10-13 Fujitsu Ltd 信号検出方法
US5321636A (en) 1989-03-03 1994-06-14 U.S. Philips Corporation Method and arrangement for determining signal pitch
US5216747A (en) 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
US5226108A (en) 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
GB9026906D0 (en) * 1990-12-11 1991-01-30 B & W Loudspeakers Compensating filters
IT1270438B (it) 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce
US5684920A (en) 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
US5812967A (en) 1996-09-30 1998-09-22 Apple Computer, Inc. Recursive pitch predictor employing an adaptively determined search window
JP3046566B2 (ja) * 1997-07-01 2000-05-29 株式会社エイ・ティ・アール人間情報通信研究所 信号分析方法および信号分析装置
GB9811019D0 (en) 1998-05-21 1998-07-22 Univ Surrey Speech coders
TW430778B (en) 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
US7003120B1 (en) * 1998-10-29 2006-02-21 Paul Reed Smith Guitars, Inc. Method of modifying harmonic content of a complex waveform
JP3417880B2 (ja) * 1999-07-07 2003-06-16 科学技術振興事業団 音源情報の抽出方法及び装置
US7117149B1 (en) 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
US6356868B1 (en) 1999-10-25 2002-03-12 Comverse Network Systems, Inc. Voiceprint identification system
US6798777B1 (en) 2000-04-17 2004-09-28 Juniper Networks, Inc. Filtering and route lookup in a switching device
US6901362B1 (en) 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
US6366862B1 (en) 2000-04-19 2002-04-02 National Instruments Corporation System and method for analyzing signals generated by rotating machines
FR2813722B1 (fr) 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
US7337107B2 (en) 2000-10-02 2008-02-26 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
US7016352B1 (en) 2001-03-23 2006-03-21 Advanced Micro Devices, Inc. Address modification within a switching device in a packet-switched network
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
GB2375028B (en) 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
US6493668B1 (en) 2001-06-15 2002-12-10 Yigal Brandman Speech feature extraction system
US7668718B2 (en) 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
GB2387008A (en) 2002-03-28 2003-10-01 Qinetiq Ltd Signal Processing System
US6827686B2 (en) 2002-08-21 2004-12-07 Koninklijke Philips Electronics N.V. System and method for improved harmonic imaging
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US7577564B2 (en) 2003-03-03 2009-08-18 The United States Of America As Represented By The Secretary Of The Air Force Method and apparatus for detecting illicit activity by classifying whispered speech and normally phonated speech according to the relative energy content of formants and fricatives
US7389230B1 (en) 2003-04-22 2008-06-17 International Business Machines Corporation System and method for classification of voice signals
SG120121A1 (en) 2003-09-26 2006-03-28 St Microelectronics Asia Pitch detection of speech signals
JP4741476B2 (ja) * 2004-04-23 2011-08-03 パナソニック株式会社 符号化装置
JPWO2006006366A1 (ja) 2004-07-13 2008-04-24 松下電器産業株式会社 ピッチ周波数推定装置およびピッチ周波数推定方法
DE102004046746B4 (de) 2004-09-27 2007-03-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum Synchronisieren von Zusatzdaten und Basisdaten
KR100590561B1 (ko) 2004-10-12 2006-06-19 삼성전자주식회사 신호의 피치를 평가하는 방법 및 장치
US20060100866A1 (en) 2004-10-28 2006-05-11 International Business Machines Corporation Influencing automatic speech recognition signal-to-noise levels
US20060122834A1 (en) 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US7991167B2 (en) 2005-04-29 2011-08-02 Lifesize Communications, Inc. Forming beams with nulls directed at noise sources
US8073148B2 (en) 2005-07-11 2011-12-06 Samsung Electronics Co., Ltd. Sound processing apparatus and method
WO2007056652A2 (en) 2005-11-04 2007-05-18 Tektronix, Inc. Data compression for producing a spectrum trace
JP2007226935A (ja) 2006-01-24 2007-09-06 Sony Corp 音響再生装置、音響再生方法および音響再生プログラム
US7774202B2 (en) 2006-06-12 2010-08-10 Lockheed Martin Corporation Speech activated control system and related methods
US20100332222A1 (en) 2006-09-29 2010-12-30 National Chiao Tung University Intelligent classification method of vocal signal
TWI297486B (en) 2006-09-29 2008-06-01 Univ Nat Chiao Tung Intelligent classification of sound signals with applicaation and method
JP2008185805A (ja) 2007-01-30 2008-08-14 Internatl Business Mach Corp <Ibm> 高品質の合成音声を生成する技術
ES2663269T3 (es) 2007-06-11 2018-04-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio para codificar una señal de audio que tiene una porción similar a un impulso y una porción estacionaria
US8140331B2 (en) 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
US8706496B2 (en) 2007-09-13 2014-04-22 Universitat Pompeu Fabra Audio signal transforming by utilizing a computational cost function
US8155326B2 (en) 2007-10-09 2012-04-10 Schweitzer Engineering Laboratories, Inc. System, method, and apparatus for using the sound signature of a device to determine its operability
EP2058797B1 (en) 2007-11-12 2011-05-04 Harman Becker Automotive Systems GmbH Discrimination between foreground speech and background noise
US8856049B2 (en) 2008-03-26 2014-10-07 Nokia Corporation Audio signal classification by shape parameter estimation for a plurality of audio signal samples
DE102008022125A1 (de) 2008-05-05 2009-11-19 Siemens Aktiengesellschaft Verfahren und Vorrichtung zur Klassifikation von schallerzeugenden Prozessen
JP4547042B2 (ja) 2008-09-30 2010-09-22 パナソニック株式会社 音判定装置、音検知装置及び音判定方法
US9084893B2 (en) 2009-02-03 2015-07-21 Hearworks Pty Ltd Enhanced envelope encoded tone, sound processor and system
JP2010249939A (ja) 2009-04-13 2010-11-04 Sony Corp ノイズ低減装置、ノイズ判定方法
US9031834B2 (en) 2009-09-04 2015-05-12 Nuance Communications, Inc. Speech enhancement techniques on the power spectrum
US8666092B2 (en) 2010-03-30 2014-03-04 Cambridge Silicon Radio Limited Noise estimation
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
US8849663B2 (en) 2011-03-21 2014-09-30 The Intellisis Corporation Systems and methods for segmenting and/or classifying an audio signal from transformed audio information
US8767978B2 (en) 2011-03-25 2014-07-01 The Intellisis Corporation System and method for processing sound signals implementing a spectral motion transform
US9183850B2 (en) 2011-08-08 2015-11-10 The Intellisis Corporation System and method for tracking sound pitch across an audio signal
US20130041489A1 (en) 2011-08-08 2013-02-14 The Intellisis Corporation System And Method For Analyzing Audio Information To Determine Pitch And/Or Fractional Chirp Rate
US8548803B2 (en) 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US8620646B2 (en) 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope

Also Published As

Publication number Publication date
US9142220B2 (en) 2015-09-22
WO2012134991A2 (en) 2012-10-04
US20120243705A1 (en) 2012-09-27
US9177560B2 (en) 2015-11-03
US20150112688A1 (en) 2015-04-23
US9620130B2 (en) 2017-04-11
KR20140059754A (ko) 2014-05-16
US20150120285A1 (en) 2015-04-30
EP2689417A4 (en) 2014-11-05
CN103718242B (zh) 2016-02-03
WO2012134991A3 (en) 2014-04-10
US9177561B2 (en) 2015-11-03
JP2014512022A (ja) 2014-05-19
EP2937862A1 (en) 2015-10-28
US20120243707A1 (en) 2012-09-27
CA2831264A1 (en) 2012-10-04
CN103718242A (zh) 2014-04-09
EP2689417A1 (en) 2014-01-29
WO2012134993A1 (en) 2012-10-04
US8767978B2 (en) 2014-07-01
US20140376727A1 (en) 2014-12-25

Similar Documents

Publication Publication Date Title
JP6027087B2 (ja) スペクトル挙動の変換を実行する音響信号処理システム及び方法
Cano et al. Musical source separation: An introduction
US20210089967A1 (en) Data training in multi-sensor setups
EP2742435B1 (en) Processing a sound signal including transforming the sound signal into a frequency-chirp domain
US9646592B2 (en) Audio signal analysis
US20130041489A1 (en) System And Method For Analyzing Audio Information To Determine Pitch And/Or Fractional Chirp Rate
US20140122068A1 (en) Signal processing apparatus, signal processing method and computer program product
CN107533848B (zh) 用于话音恢复的系统和方法
Lindsay-Smith et al. Drumkit transcription via convolutive NMF
JP6233625B2 (ja) 音声処理装置および方法、並びにプログラム
JP5705190B2 (ja) 音響信号強調装置、音響信号強調方法、およびプログラム
WO2019229738A1 (en) System for decomposition of digital sound samples into sound objects
Costa et al. Sparse time-frequency representations for polyphonic audio based on combined efficient fan-chirp transforms
Miralles et al. The pulsed to tonal strength parameter and its importance in characterizing and classifying Beluga whale sounds
Van Nort et al. Sound texture recognition through dynamical systems modeling of empirical mode decomposition
Caetano et al. Adaptive sinusoidal modeling of percussive musical instrument sounds
Singh pyAudioProcessing: Audio Processing, Feature Extraction, and Machine Learning Modeling.
Takitani et al. TONE INSTRUMENT ESTIMATION USING SINGLE LAYER NEURAL NETWORK
Joseph et al. Convolutional Neural Networks Based Algorithm for Speech Separation
Puglisi et al. Deep Audio Analyzer: a Framework to Industrialize the Research on Audio Forensics
Qvist What bird is singing?

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150319

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160905

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160927

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161013

R150 Certificate of patent or registration of utility model

Ref document number: 6027087

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees