JP7317888B2 - 類似性情報決定装置、類似性情報決定方法、自己相関情報決定装置、相互相関情報決定装置およびコンピュータプログラム - Google Patents

類似性情報決定装置、類似性情報決定方法、自己相関情報決定装置、相互相関情報決定装置およびコンピュータプログラム Download PDF

Info

Publication number
JP7317888B2
JP7317888B2 JP2021078687A JP2021078687A JP7317888B2 JP 7317888 B2 JP7317888 B2 JP 7317888B2 JP 2021078687 A JP2021078687 A JP 2021078687A JP 2021078687 A JP2021078687 A JP 2021078687A JP 7317888 B2 JP7317888 B2 JP 7317888B2
Authority
JP
Japan
Prior art keywords
zero
crossing
information
values
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021078687A
Other languages
English (en)
Other versions
JP2021157180A (ja
Inventor
ミヒャエル クラッツ
クリスティアン ウーレ
パウル クローゼ
ティモシー レオナルト
ペーター プロカイン
セバスティアン シャーラー
Original Assignee
フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2021157180A publication Critical patent/JP2021157180A/ja
Application granted granted Critical
Publication of JP7317888B2 publication Critical patent/JP7317888B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/02Comparing digital values
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • G06F2218/10Feature extraction by analysing the shape of a waveform, e.g. extracting parameters relating to peaks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • G06F2218/16Classification; Matching by matching signal segments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Description

本発明による実施形態は、1つ以上の入力信号に基づく類似性情報を決定するための装置に関する。
本発明による他の実施形態は、1つ以上の入力信号に基づく類似性情報を決定するための方法に関する。
本発明による実施形態は、前記方法を実行するためのコンピュータプログラムに関する。
本発明による別の実施形態は、自己相関情報を決定するための装置に関する。
本発明による別の実施形態は、相互相関情報を決定するための装置に関する。
いくつかの実施形態は、計算複雑性が低く高ロバスト性の相関方法に関する。
例えば音声処理、ビデオ処理または信号処理の分野における多くの技術的応用は、1つまたは複数の入力信号に基づいて類似性情報を取得することを必要とする。例えば、信号入力信号の周期性に関する情報を得るために、例えば単一の入力信号の2つの時間シフトされた部分を比較することがしばしば望まれる。そのような概念は、音声処理(音声操作)動作を準備するため、または音声信号の特性を決定するために使用できる。例えば、この概念を用いて音声信号から基本周波数を抽出することができる。また、同じ音声信号の異なる部分間の類似性についての情報は、音声信号の時間的延長または時間的短縮が望まれる状況において使用することができる。
他方では、2つの異なる入力信号を比較し、入力信号の類似性についての情報を得ることもまた望ましいかもしれない。例えば、類似性情報は、入力信号のうちの1つにタイムシフトを適用することなく、入力信号間の単一のタイムシフトに対して、または入力信号のタイムシフトの複数の値に対して取得され得る。例えば音声信号であり得る2つの入力信号を比較することによって、音声信号のうちの少なくとも1つを分類することが可能であるかもしれない。あるいは、オーディオ信号間で重複加算を実行するための適切な時間を見つけることが可能であるかもしれない。
しかしながら、2つの異なる入力信号(オーディオ信号)間の類似性または単一の入力信号(オーディオ信号)の異なるタイムシフト部分の間の類似性を記述する類似性情報に基づいて、音声処理、より一般的には信号処理の分野における多くの異なる応用が可能である。
デジタル信号プロセッサ(DSP)のような組込みシステムでは、当然のことながら、限られたメモリおよびプロセッササイクルの資源(リソース)しか利用できない。リアルタイムで所望のアルゴリズムを計算することを可能にするために、それぞれのプラットフォームに対して最適化を実行することが望ましいかもしれない。これらの最適化は、大きくは、2つのカテゴリーに分割できる。最初のカテゴリーには、特定のプロセッサアーキテクチャを利用する最適化が含まれている。これには、例えば、三角関数の近似、高速FFTの使用、あるいはいわゆる単一命令複数データ操作が含まれる。
第2のカテゴリーは、例えばそれら自身が有するアルゴリズムの最適化に関するものである。例えば、2つのオーディオ信号間の時間オフセットを決定するための相互相関を計算しなければならない場合、両方のプロセッササイクルおよび記憶スペースが最大検出可能待ち時間を制限することが分かった。
以下に、いくつかの従来の概念について説明する。メモリおよび計算負荷を減少するために、ダウンサンプリングを頻繁に使用できることが分かっている。4倍のダウンサンプリングを使用すると、必要なメモリの3/4(すなわち、75%)が節約されるか、または検出可能な待ち時間が4倍に増加することが分かった。これらの節約は欠点によって相殺されることもわかった。たとえば、精度の低下が存在する。nがダウンサンプリング係数を表す場合、以前はサンプル精度だった結果が、nサンプルの最大精度で得られるようになった。
さらに、ダウンサンプリング係数が大きくなると、ロバスト性が低下する。音声伝送中に発生する可能性のある干渉で、結果が著しく劣化する。これには、ノイズ、ダイナミックレンジ圧縮、音声符号化、リミッタ、フィルタリング(イコライザなど)が含まれる。
ダウンサンプリングはまた、以下のように理解され得ることが見出された:オーディオサンプルは、オーディオストリームから等距離間隔で使用され、いわば、その周囲のサンプルの代表である。周囲のいくつかのサンプルは、ブロックサイズとも呼ばれる。上記の例では、ブロックサイズnは4に等しくなる。音声ストリームからの4つおきのサンプルは、このブロックの代表として機能するために使用されるであろう。ダウンサンプリングに関する説明のために、アップストリームダウンサンプリングフィルタは、ナイキスト基準を満たすために、最高発生周波数を係数nだけ減少させると仮定する。
さらに、従来のダウンサンプリングは、例えばロバスト性に関して重大な欠点をもたらすことが分かった。
この状況を考慮して、ロバスト性と計算の複雑さとの間の改善されたトレードオフをもたらす、1つまたは複数の入力信号に基づいて類似性情報を取得するための概念が必要とされている。
本発明による一実施形態は、1つ以上の入力信号に基づいて類似性情報を決定するための装置を作成する。装置は、1つ以上の入力オーディオ信号のうちの少なくとも1つの複数の部分について、それぞれの部分におけるゼロクロスの数を記述するゼロクロス情報を決定するように構成される。装置は、類似性情報を決定するために、ゼロクロス情報に基づいて比較を実行するように構成される。
この実施形態は、複数の部分についてそれぞれの部分におけるゼロクロスの数を記述するゼロクロス情報は、非常にロバストな量であり、それは中程度の計算努力で計算することができるが、それでもなお単一の入力信号の異なる部分(またはセクション)間または比較される2つの入力信号の異なる部分(またはセクション)間の類似性を記述する信頼性の決定を可能にするという発見に基づく。ゼロクロス情報は、例えば、ゼロクロスの数を数えることによって得ることができ、ゼロクロス情報は、1つ以上の入力信号に適用することができる様々な処理動作によって厳密には修正されない。また、ゼロクロス情報は、1つ以上の入力信号の後続部分と(個別に)関連付けられ得る単一の整数のシーケンスの形をとることができる。したがって、たとえば、1つ以上の入力信号の部分ごとに単一のゼロクロス情報値(または代替として2つのゼロクロス情報値)を提供することによって、1つ以上の入力信号の各部分は1つ以上の入力信号の複数のサンプルを含むことができ、情報量を大幅に減らすことができ、ゼロクロス情報(ゼロクロス値)は、1つ以上の入力信号のそれぞれの部分の「代表的な」ものとして機能することができる。その結果、ゼロクロス情報の値、またはゼロクロス情報の値のセットまたはシーケンスを比較することは、通常、1つ以上の入力信号のセクション全体を比較するよりもはるかに計算上効率的である。従って、類似性情報を決定するために、ゼロクロス情報に基づいて比較を実行することは、計算上効率的であるが、それでも、1つ以上の入力信号の異なるセクションの類似性について意味のある情報を提供する(前記セクションは、典型的にはそれぞれ、少なくとも1つ以上の入力信号の複数の部分を含み、その結果、それぞれゼロクロス情報の複数の値にマッピングされる。)。
好ましい実施形態では、装置は、ゼロクロス情報として、1つ以上の入力信号の複数の部分について、ゼロクロスの総数、または立上りゼロクロスの個数、または立下りゼロクロスの個数を決定するように構成される。ゼロクロスの総数、立上りゼロクロスの個数、および立下りゼロクロスの個数はすべて意味のある情報であることがわかっている。これらは個別に、または組合せて1つ以上の入力信号のそれぞれの部分を「表す」ために使用できる。また、1つ以上の入力信号の符号が正から負へ、および/またはその逆に変化する頻度を数えることによって、ゼロクロスの個数を容易に計算することができることに留意されたい。
好ましい実施形態では、装置は、ゼロクロス情報として、1つ以上の入力信号のうちの少なくとも1つの複数の部分についてのゼロクロス率を決定するように構成される。ゼロクロス率が特に意味のある情報であることがわかった。例えば、ゼロクロス率は、入力オーディオ信号の部分の長さの変化を考慮することさえ可能である。一方、ゼロクロス率を使用すると、異なるサンプリングレートでサンプリングされた信号を比較することも可能である(例えば、ダウンサンプリング係数とサンプリングレートとの積が両方の信号に対して同じ結果を提供する場合、これは、例えば、代表値が同じ時間単位に関連付けられていることを意味する。)。従って、ゼロクロス率値は、1つ以上の入力信号のそれぞれの部分を表す非常に意味のある表現であることがわかった。
好ましい実施形態では、装置は、少なくとも1つのゼロクロス値が1つ以上の入力信号のうちの少なくとも1つの複数の部分の各部分に関連付けられるようにゼロクロス情報を決定するように構成される。従って、1つ以上の入力信号のうちの少なくとも1つのセクションの信頼できる表現があり、前記セクションは通常、複数の部分を含む。
好ましい実施形態では、装置は、第1の信号セクションのための第1のゼロクロス値シーケンスを決定するように構成され、第1の信号セクションは複数の信号ブロック(または信号「部分」)を含む。第1のゼロクロス値シーケンスは、第1の信号セクションの各信号ブロック(または信号部分)に関連付けられた1つのゼロクロス値(または、場合によっては、複数のゼロクロス値)を含む。さらに、装置は、好ましくは、第2の信号セクションのための第2のゼロクロス値シーケンスを決定するように構成され、第2の信号セクションは複数の信号ブロック(または信号部分)を含む。第2のゼロクロス値シーケンスは、第2の信号セクションの各信号ブロック(または信号部分)に関連する1つのゼロクロス値(または、場合によっては、複数のゼロクロス値)を含む。従って、第1のゼロクロス値列と第2のゼロクロス値列とを比較して類似度情報を決定することが可能である。各ゼロクロス値シーケンスはそれぞれの信号セクションを表す複数の「代表値」を含むので、ゼロクロス値シーケンスを比較することは非常に意味のある結果を提供する。従って、比較においてゼロクロス値列を評価することにより、信頼性を高めることができる。
好ましい実施形態では、装置は、複数のゼロクロス値を含む第1のゼロクロス値シーケンスと、複数のゼロクロス値を含む第2のゼロクロス値シーケンスとを比較して、第1の信号セクションと第2の信号セクションとの間の類似性を記述する類似性情報を取得するように構成され、第1のゼロクロス値シーケンスは第1の信号セクションに対応し、第2のゼロクロス値シーケンスは第2の信号セクションに対応し、ゼロクロス値はゼロクロス情報を構成する。第1のゼロクロス値シーケンスと第2のゼロクロス値シーケンスとを比較することにより、意味のある比較結果を得ることができる。また、第1のゼロクロス値シーケンスは通常、第1の信号セクションよりもはるかに少ない個々の値を含み、それは第1のゼロクロス値シーケンスによって表され、第2のゼロクロス値シーケンスは通常、第2のゼロクロス値シーケンスによって表される第2の信号セクションよりもはるかに少ない個別値を含む。いくつかの実施形態では、第1のゼロクロス値シーケンスの個々の値の個数は、第1の信号セクションの個々の(サンプル)値の個数よりも少なくとも10倍少なくてもよい。同じ関係が、第2のゼロクロス値シーケンスの個々の値の数および第2の信号セクションの個々の(サンプル)値の数についても成立つことができる。従って、第1および第2のゼロクロス値シーケンス間の比較は、第1および第2の信号セクションのサンプル値間の比較と比較すると非常に効率的な方法で実行することができる。さらに、ゼロクロス値シーケンスは、値のシーケンスの比較に非常に適している従来のアルゴリズムのいずれかによって比較することができ、それによって装置の柔軟な実装が可能になることに留意すべきである。
好ましい実施形態では、装置は、類似性情報を取得するために、第1のゼロクロス値シーケンスおよび第2のゼロクロス値シーケンスを使用して相関値を計算するように構成される。代替として、装置は、第1のゼロクロス値シーケンスおよび第2のゼロクロス値シーケンスを使用して平均振幅差分値を計算して類似性情報を取得するように構成されてもよい。他の代替として、装置は、第1のゼロクロス値シーケンスと第2のゼロクロス値シーケンスとの間の差のノルムを計算して類似性情報を取得するように構成されてもよい。さらに別の代替として、装置は、第1のゼロクロス値シーケンスと第2のゼロクロス値シーケンスとの間のユークリッド距離を計算して類似性情報を取得するように構成されてもよい。類似性情報を決定するための上述の計算上効率的の概念は、良好な比較結果をもたらすことが分かった。
好ましい実施形態では、装置は、第1のゼロクロス値シーケンスと、第2のゼロクロス値シーケンスの複数のタイムシフトバージョンとの間の複数の差分測定度値を計算し、第1のゼロクロス値シーケンスまたはその一部と、第2のゼロクロス値シーケンスまたはその一部のタイムシフトされたバージョンとの間の最大の類似性を提供するタイムシフトに関する情報を取得するように構成されてもよい。従って、第1のゼロクロス値シーケンスで表される第1の信号区間と第2のゼロクロス値シーケンスで表される第2の信号区間との間のどの時間アラインメントが最大の類似性をもたらすかを決定することが可能である。従って、第1の信号区間と第2の信号区間とを単一の入力信号から取得すれば自己相関情報と等価な情報を得ることができ、あるいは第1の信号部分と第2の信号部分とを異なる入力信号から取得すれば相互相関と等価な情報を得ることができる。自己相関情報または相互相関情報は、それ故異なる自己相関遅れ値または相互相関遅れ値について得られ、自己相関遅れ値または相互相関遅れ値は、第2のゼロクロス値シーケンス(またはそのタイムシフト部分)のタイムシフトバージョンのそれぞれのタイムシフトに対応する。従って、ゼロクロス値シーケンスは、実際には、異なる自己相関遅れ値または相互相関遅れ値に対する自己相関関数または相互相関関数の結果値を得るために使用することができる。
好ましい実施形態では、装置は、第1のゼロクロス値シーケンスと第2のゼロクロス値シーケンスとを使用して相関関数を計算して、第1のゼロクロス値シーケンスまたはその一部と第2のゼロクロス値シーケンスまたはその一部のタイムシフトされたバージョンとの間に最大の類似性をもたらすタイムシフトに関する情報を得るように構成される。あるいは、装置は、第1のゼロクロス値シーケンスおよび第2のゼロクロス値シーケンスを使用して平均振幅差関数を計算して第1のゼロクロス値シーケンスおよび第2のゼロクロス値シーケンスの一部分と第2のゼロクロス値シーケンスのタイムシフト部分とを比較し、かつ、第1のゼロクロス値シーケンスまたはその一部と、第2のゼロクロス値シーケンスまたはその一部のタイムシフトバージョンとの間の最大の類似性を提供するタイムシフトに関する情報を取得するように構成され得る。従って、信頼性がありかつ効率的な方法で、第1のゼロクロス値シーケンスおよび第2のゼロクロス値シーケンスの基礎となるどのタイムシフト信号セクションが最大の類似性を含むかを決定することが可能である。また、第1のセロクロス値シーケンスおよび/または第2のゼロクロス値シーケンスの下にある信号セクションの周期性を、適度の労力で特定できる。
好ましい実施形態では、装置は、第1のゼロクロス値シーケンスと第2のゼロクロス値シーケンスとを使用して相関関数を計算して、第1のゼロクロス値シーケンスまたはその一部と第2のゼロクロス値シーケンスまたはその一部のタイムシフトされたバージョンとの間に最大の類似性をもたらすタイムシフトに関する情報を得るように構成されている。あるいは、装置は、第1のゼロクロス値シーケンスおよび第2のゼロクロス値シーケンスを使用し平均振幅差関数を計算して第1のゼロクロス値シーケンスの一部分と第2のゼロクロス値シーケンスのタイムシフト部分とを比較し、かつ第1のゼロクロス値シーケンスまたはその一部と、第2のゼロクロス値シーケンスまたはその一部のタイムシフトされたバージョンとの間の最大の類似性を提供するタイムシフトについて情報を得るように構成され得る。相関関数(これは通常、ゼロクロス値シーケンスの異なるタイムシフトに対する相関値を表す)の計算は、第1のゼロクロス値シーケンス(またはその一部分)と第2のゼロクロス値シーケンス(またはその一部分)のタイムシフトバージョンとの間の最大の類似性を提供するタイムシフトに関する情報を決定するための効率的な方法を構成する。次に、第1の信号セクションと第2の信号セクション(のタイムシフトバージョン)との間の最大の類似性を提供するタイムシフトについての情報に結論付けることが可能になることがわかった。同様に、典型的には異なるタイムシフトについての第1のゼロクロス値シーケンスと第2のゼロクロス値シーケンスとの間の平均振幅差を表す平均振幅差関数の計算は、第1のゼロクロス値シーケンス(またはその一部)と第2のゼロクロス値シーケンス(またはその一部)のタイムシフトバージョンとの間の最大類似度を提供するタイムシフトに関する情報を得ることを可能にする。この情報は、順番に、第1の信号セクションと第2の信号セクションとの間の最大の類似性をもたらすタイムシフトについての情報に結論付けることを可能にする。
従って、第1のゼロクロス値シーケンスおよび第2のゼロクロス値シーケンスは、それに基づいて相関関数または平均振幅差関数を計算するのに非常に適していることが分かった。
好ましい実施形態では、装置は、第1のゼロクロス値シーケンスと第2のゼロクロス値シーケンスとを比較する前に、第1のゼロクロス値シーケンスおよび第2のゼロクロス値シーケンスから定数成分を除去するように構成される。第1および第2のゼロクロス値シーケンスから定数成分(例えば、平均値など)を除去することは、第1のゼロクロス値シーケンスおよび第2のゼロクロス値シーケンスを評価し比較することをより容易にすることが分かった。
好ましい実施形態では、装置は、1つ以上の入力信号から定数成分(たとえば、「DC値」または平均値)を除去すること、および/またはゼロクロス情報を決定する前に1つ以上の入力信号にハイパスフィルタリングを適用するように構成されている。そのような「一定の成分」を除去することによって、ゼロクロス情報が良好に、または最高の精度で確実に得られることが分かった。
一実施形態では、装置は、複数の信号ブロックについて信号ブロックごとに2つ以上の代表値を決定するように構成され、2つ以上の代表値は信号ブロックの特徴を表す。2つ以上の代表値はゼロクロス値(これはゼロクロス情報である)を含む。この場合、装置は、類似性情報を決定するために、信号ブロック毎に2つ以上の代表値に基づいて比較を実行するように構成される。この実施形態は、ゼロクロス値(「ゼロクロス情報」と見なされる)が、信号ブロックの別の特徴を表す別の代表量(値)によって補われる場合、概念の信頼性が改善され得るという発見に基づいている。
好ましい実施形態では、代表値は、信号ブロックごとに、それぞれの信号ブロック内の立上りゼロクロスの数を表す「正のゼロクロス値」および立下りゼロクロスの数を表す「負のゼロクロス値」を含む。このような代表値を用いて信頼性チェックを行うことができる。特に、立下りゼロクロスと立下りゼロクロスの数は非常に近いはずなので、立上りゼロクロスまたは立下りゼロクロスが見逃されていないかどうかをチェックすることができる。
好ましい実施形態では、装置は、複数の信号ブロックについての第1のタイプの代表値のシーケンスに基づいて第1の比較を実行し、複数の信号ブロックについての第2のタイプの代表値のシーケンスに基づいて第2の比較を実行するように構成される。この場合、装置は、信頼性情報を取得するために、第1の比較の結果と第2の比較の結果とを比較するように構成される。従って、2つの異なる種類の代表値を使用し、2つの異なる種類の代表値を使用して得られた結果を比較することによって、方法の信頼性をチェックすることができる。特に、ある(閾値)値を超える第1のタイプの代表値を使用して得られた結果に矛盾がある場合、第1のタイプの代表値または第2のタイプの代表値のいずれか、あるいは両方のタイプが、信頼性が低いと結論づけられる。この場合、アラートが生成され、比較が信頼できないことを示す。
好ましい実施形態では、装置は、それぞれの信号ブロックの周波数領域表現を使用してそれぞれの信号ブロックについて決定される2つの代表値のうちの一方を決定するように構成される。いくつかのタイプの処理および歪みは入力信号(例えば、オーディオ信号の)の時間領域表現にのみ影響を与えるので、代表値を得るためにそれぞれの信号ブロックの周波数領域表現を使用することは信頼性を改善することができるが、周波数領域の表現にはほとんど影響しないことがわかった。
好ましい実施形態では、装置は、信号ブロックごとに決定される2つの代表値のうちの1つとしてスペクトル平坦度を決定するように構成される。スペクトル平坦度は、いくつかの種類の入力信号(例えば、オーディオ信号)に対しては良い表現を構成することがわかった。
好ましい実施形態では、装置は、信号ブロックごとに決定される2つの代表値のうちの1つとして、それぞれの信号ブロックのスペクトルの平坦性を記述するスペクトル平坦性値を決定するように構成される。それぞれの信号ブロックのスペクトルの平坦性を表すスペクトル平坦性値は、類似性情報の良好な信頼性をもたらすことが分かった。
好ましい実施形態では、装置は、信号ブロックごとに決定される2つ(またはそれ以上)の代表値のうちの1つとしてスペクトルフラックス値(例えば、信号のパワースペクトルがどれほど速く変化しているかを記述する)を決定するように構成される。スペクトルフラックス値は、単一の定量値の形で、2つのそれぞれ連続する信号ブロックのスペクトル間の変化を表す。スペクトルフラックス値を使用すると、例えばオーディオ信号の場合のように、ある種の入力信号について特に意味のある類似性情報を得ることが可能になることが分かった。
好ましい実施形態では、装置は、信号ブロックごとに決定される2つ(またはそれ以上)の代表値のうちの1つとして、それぞれの信号ブロックについての線形予測係数を決定するように構成される。線形予測係数は、少なくともいくつかのタイプの入力信号(例えば、オーディオ信号)について意味のある類似性情報をもたらす量でもあることが分かっている。
好ましい実施形態では、装置は、1つ以上の入力信号として、1つ以上のオーディオ信号または1つ以上のビデオ信号または1つ以上のセンサ信号を受信するように構成される。この場合、装置は、1つ以上のオーディオ信号に基づいて、または1つ以上のビデオ信号に基づいて、または1つ以上のセンサ信号に基づいてゼロクロス情報を決定するように構成される。ゼロクロス率は、例えばオーディオ信号およびビデオ信号およびセンサ信号のような「テクニカルシグナル」の部分について特に意味のある代表量を構成することが分かった。オーディオ信号とビデオ信号の双方は、通常、それらの符号を規則的に変化させる信号であり、ゼロクロス率は、前記オーディオ信号またはビデオ信号によって表されるオーディオコンテンツまたはビデオコンテンツと良好な相関関係を有する。また、多くのセンサ信号にはこのような特性がある。従って、本明細書に記載の装置は、例えば、異なる種類の物理的センサからのセンサ信号のような他の技術的に意味のある信号にも適用することができることに留意すべきである。入力信号ベクトルは処理前にDC成分から(例えば、平均値から)「解放」されるので(すなわち、DC成分は除去されるであろう)、そのような信号はまたここに、論議される概念を使用して評価され得るゼロクロスを有するであろう。
さらなる注目として、いくつかの実施形態では、DC成分(例えば、一定の成分または平均値)が、入力信号からも代表値のベクトルからも除去されることに留意されるべきである。
好ましい実施形態では、装置は、オーディオ信号またはビデオ信号に関する自己相関情報を取得するために類似性情報を使用するように構成される。あるいは、装置は、2つのオーディオ信号または2つのビデオ信号に関する相互相関情報を取得するために類似性情報を使用するように構成されてもよい。代替として、装置は、2つのオーディオ信号間の可能な限り最良のアライメントを得るためのタイムシフトを決定するため、または2つのビデオ信号間の最良の可能なアライメントを得るためのタイムシフトを決定するために類似性情報を使用するように構成され得る。代替として、装置は、2つのオーディオ信号間の可能な限り最良のアライメントを得るためのタイムシフトを決定するため、または2つのビデオ信号間の最良の可能なアライメントを得るためのタイムシフトを決定するために類似性情報を使用するように構成され得る。入力信号の一部を表す代表値としてのゼロクロス情報の使用は、2つのオーディオ信号間または2つのビデオ信号間で可能な限り最高のアライメントを得るために自己相関情報または相互相関情報またはタイムシフトを決定するための計算的に非常に効率的な概念を提供することが分かった。ゼロクロス情報(またはゼロクロス値)によって1つ以上の入力信号の一部を表すことは、自己相関情報、相互相関情報、または可能な限り最良のアライメントを得るためのタイムシフトを決定するためのデータ量(すなわち、計算負荷)を減らすことが分かった。
本発明による実施形態は、1つ以上の入力信号に基づいて類似性情報を決定するための方法をもたらす。この方法は、1つ以上の入力信号のうちの少なくとも1つの複数の部分について、それぞれの部分内のゼロクロスの数を記述するゼロクロス情報を決定することを含む。この方法は、類似性情報を決定するために、ゼロクロス情報に基づいて比較を実行することをさらに含む。この方法は、それぞれの装置について上述したものと同じ考察に基づいている。
本発明による別の実施形態は、コンピュータプログラムがコンピュータ上で実行されるときにこの方法を実行するためのコンピュータプログラムをもたらす。
本発明による実施形態は、オーディオ信号またはビデオ信号である単一信号の異なるセクション間の類似性を記述する自己相関情報を決定するための装置をもたらす。装置は、信号の複数のブロックについて、信号のブロック(部分としても示される)ごとに少なくとも1つのゼロクロス値を含むゼロクロス情報を決定するように構成されたゼロクロス分析器を備える。ゼロクロス値は、信号のそれぞれのブロック(または部分)に対するいくつかのゼロクロスを表す。ゼロクロス値シーケンス比較器は、自己相関情報を得るために、信号の第1の信号セクションに関連するゼロクロス値の第1のゼロクロス値シーケンスを、信号の第2の信号セクションに関連するゼロクロス値の第2のゼロクロス値シーケンスと比較するように構成される。自己相関情報を決定するためのこの装置は、既に上述したのと同じ考察に基づいている。
本発明による別の実施形態は、第1の信号と第2の信号との間の類似性を記述する相互相関情報を決定するための装置をもたらし、これらの信号はオーディオ信号またはビデオ信号である。装置は、第1の信号の複数のブロック(または部分)について、第1の信号のブロックごとに少なくとも1つのゼロクロス値を含むゼロクロス情報を決定するようにかつ第2の信号の複数のブロックについて、第2の信号のブロックごとに少なくとも1つのゼロクロス値を含むゼロクロス情報を決定するように構成されたゼロクロス分析器を備える。ゼロクロス値は、それぞれの信号のそれぞれのブロックに対するいくつかのゼロクロスを表す。装置はまた、相互相関情報を得るために、第1の信号の信号セクションに関連するゼロクロス値のゼロクロス値シーケンスを、第2の信号の信号セクションに関連するゼロクロス値のゼロクロス値シーケンスと比較するように構成されたゼロクロス値シーケンス比較器を含む。この装置は、2つのオーディオ信号または2つのビデオ信号に基づいて相互相関情報を得るのによく適しており、計算の複雑さは、信号のブロック(または部分)の代表値としてゼロクロス値を使用することによって減らすことができる。
本発明による実施形態は、添付の図面を参照して続いて説明される。
図1は、本発明の実施形態による類似性情報を決定するための装置のブロック概略図を示す。 図2は、本発明の一実施形態による類似性情報を決定するための装置のブロック概略図を示す。 図3aは、本発明の別の実施形態による類似性情報を決定するための装置のブロック概略図を示す。 図3bは、本発明の別の実施形態による類似性情報を決定するための装置のブロック概略図を示す。 図4は、自己相関が計算される場合についての類似性情報の決定の概略図を示す。 図5は、相互相関が使用される場合についての類似性情報の決定の概略図を示す。 図6は、ゼロクロス値シーケンスの決定の詳細な概略図を示す。 図7は、本発明の実施形態による、類似性情報を決定するための方法のフローチャートを示す。
1.図1による類似性情報を決定するための装置
図1は、本発明の一実施形態による、1つ以上の入力信号に基づいて類似性情報を決定するための装置のブロック概略図を示す。
図1による装置は、全体として100で示されている。
装置100は、少なくとも1つの入力信号112を受信し、少なくとも1つの入力信号に基づいてゼロクロス情報114を提供するように構成されているゼロクロス情報決定110を含む。例えば、ゼロクロス情報決定(または決定部)110は、ゼロクロス情報114が1つ以上の入力信号112の少なくとも1つの入力信号の複数の部分についてそれぞれの部分におけるゼロクロスの数を記述するようにゼロクロス情報114を決定するように構成され得る。装置はさらに、ゼロクロス情報114を受信し、それに基づいて類似性情報122を提供する比較(または比較器)120を含む。例えば、比較(または比較器)120は、類似性情報122を決定するために、ゼロクロス情報114に基づいて比較を実行するように構成されてもよい。例えば、比較120は、ゼロクロス情報114に基づいて相関演算(例えば、自己相関演算または相互相関演算)を実行するように構成されてもよい。代替として、比較120は、ゼロクロス情報の異なる値(または値を設定する)に基づいて、平均振幅差値、または差のノルム、またはユークリッド距離を計算することができる。これにより、類似度情報122を取得することができる。
装置100の機能性に関して、少なくとも1つの入力信号112の複数の部分について得られるゼロクロス情報は、「代表情報」として使用されると言うことができる。ゼロクロス情報114の各値は、入力信号112の一部(例えば、サンプルのブロック)を表す。換言すれば、入力信号112の時間連続または時間離散(サンプリング)部分は、単一の値に「マッピング」され、これは、例えば、単一の整数値、前記部分における多数のゼロクロスの形で表される。したがって、複数(例えば、10以上)のサンプル値を含む入力信号112の全体部分は、単一のゼロクロス情報値(または、いくつかの実施形態では、2つのゼロクロス情報値にマッピングされ、一方は立上りゼロクロスの数を表し、他方は立下りゼロクロスの数を表す)にマッピングされる。しかしながら、ゼロクロス情報は非常にコンパクトであるが意味のある代表的な情報であることが分かっているので、入力信号112の部分からゼロクロス情報114を導出することは比較120によって処理される必要がある比較的少量の情報のみをもたらすという効果を有する。
比較120は、ゼロクロス情報114の対応するゼロクロス値を比較して類似性情報を取得する。換言すれば、入力信号112の2つの部分が装置100によって比較されるべき場合、これら2つの部分に対応するゼロクロス値は、例えば相関演算、平均振幅差分値計算操作、差のノルムの計算、またはユークリッド距離の計算を用いて、比較120によって効果的に比較される。同様に、異なる入力信号の2つのセクションが装置100によって比較されるべきである場合、これらのセクションに関連するゼロクロス値は比較120によって比較される。
その結果、比較されるべき1つ以上の入力信号のセクションの比較的多数のサンプル値を比較するとき、入力信号からゼロクロス値(ゼロクロス情報114)を導き出し、次に比較120を用いて比較的少数のゼロクロス値を比較することが計算上実質的により効率的であることが判明した。
しかしながら、図1による装置100は、個々にまたは組合せてのいずれかで、本明細書に記載された特徴および機能のいずれかによって補足され得ることに留意すべきである。
2.図2による装置
図2は、1つまたは複数の入力信号に基づいて類似性情報を決定するための装置200の概略ブロック図を示す。装置200は、入力信号212を受信し、それに基づいて類似性情報222および/またはタイムシフト情報232を提供するように構成される。装置200は、ゼロクロス値決定器210を備え、これはゼロクロス値計算機と見なすこともでき、例えば、ゼロクロス情報決定110の機能を利用することができる。ゼロクロス値決定器210は、例えば、入力信号を受信してもよい。しかしながら;オプションで、「DC除去」またはハイパスフィルタリングを入力信号212に適用して(ブロック216)、ゼロ平均入力信号218を得ることができる。換言すれば、ゼロクロス値決定器210は、ゼロ平均入力信号を受信することが好ましい。何故なら、ゼロ平均入力信号にとっては、多数のゼロクロスが最も意味があるからである。入力信号212が必ずしもゼロ平均を含まないと仮定しなければならない場合、信号をゼロクロス値決定器210に入力する前にDC除去/ハイパスフィルタリング216を適用することが推奨される。
ゼロクロス値決定器210は、通常、考慮されるべき入力信号212(またはゼロ平均入力信号218)の各部分に対して1つ(いくつかの実施形態では2つさえ)のゼロクロス値を提供する。したがって、ゼロクロス値決定器210は、ゼロクロス値シーケンス214を効果的に提供し、これはゼロクロス情報と見なすことができる。ゼロクロス値シーケンス214は、例えば、それぞれが入力信号212、218の一部に関連付けられ、それぞれが入力信号の関連する部分でのいくつかのゼロクロスを描く(立上りゼロクロス、または立下りゼロクロスまたは立上りおよび立下りゼロクロス)、ゼロクロス値のシーケンスを含むことができる。
装置200は、ゼロクロス値シーケンス比較(または比較器)220も含み、その機能は比較120の機能と同様である。ゼロクロス値シーケンス比較220は、ゼロクロス値決定器210によって提供されたゼロクロス値シーケンス214、またはゼロクロス値シーケンス214のゼロ平均バージョン228を受取る。例えば、ゼロクロス値シーケンス214は、入力信号212、218の各部分に対して1つの非負整数値を含み得る。しかしながら、場合によっては、ゼロクロス値シーケンス比較220がゼロ平均入力シーケンスを受信すれば、ゼロクロス値シーケンス比較をより容易に実施することができる。この目的のために、ゼロクロス値シーケンス214を受取り、それに基づいてゼロクロス値シーケンスのゼロ平均バージョン228を提供するDC除去またはハイパスフィルタ226がオプションで存在してもよい。例えば、DC除去/ハイパスフィルタリング226は、ゼロクロス値シーケンス比較220のための入力量として使用されるゼロクロス値シーケンスのゼロ平均バージョン228の個々の値を取得するために、ゼロクロス値シーケンス214の値の平均値を決定し、ゼロクロス値シーケンス214の個々の値から平均値で減算することができる。
ゼロクロス値シーケンス比較220は、比較されるべき入力信号212のセクションに関連する2つのゼロクロス値シーケンス(またはサブシーケンス)を使用または評価することができる。例えば、ゼロクロス値シーケンス比較220は、2つのゼロクロス値シーケンス(またはサブシーケンス)に基づいて「自己相関」値を計算するように構成され得る。前記自己相関値計算の結果は、類似性情報222を構成することができる。
しかしながら、ゼロクロス値シーケンスまたはゼロクロス値サブシーケンスの比較のための異なるアプローチがゼロクロス値シーケンス比較によって使用されてもよい。これらの比較概念のいくつかは、DC除去/ハイパスフィルタリング226を必要としないかもしれないが、他の比較技術(例えば、自己相関値の計算など)は、DC除去/ハイパスフィルタリング226から恩恵を受けるかもしれない。
ゼロクロス値シーケンス比較220は、オプションで、複数対のゼロクロス値シーケンスまたはゼロクロス値サブシーケンスを比較して、入力信号の異なる対のセクション間の類似性を表す複数の類似性情報値を提供することができる。
オプションで、装置はタイムシフト計算230をさらに含む。タイムシフト計算230は、例えば、例えば、入力信号212、218の複数対のセクション間の類似性を記述する類似性情報222を受信するように構成されてもよい。さらに、タイムシフト計算230は、最大の類似性を表すまたはシグナリングする複数の前記類似性情報から類似性情報値を識別するように構成され、それによって入力信号212、218のセクションのどの対が最大の類似性を含むかを結論づける。従って、タイムシフト情報232は、最大の類似性を含む入力信号212、218の2つのセクション間のタイムシフトを記述するためにタイムシフト計算230によって決定され得る。従って、装置200は、タイムシフト情報232を効果的に取得することができ、その意味は、自己相関情報がピークを含むタイムラグと同様である。
従って、装置200によって提供されるタイムシフト情報232は、例えば、入力信号212、218内の周期性を検出するために使用され、周期性間隔を表すことができる。
しかしながら、図2による装置200は、個々にまたは組合せてのいずれかで、本明細書に記載されている特徴または機能のいずれかによって補足することができる。
3.図3による装置
図3は、類似性情報を決定するための装置300の概略ブロック図を示す。装置300は、第1の信号セクション(「信号セクション1」)312および第2の信号セクション(「信号セクション2」)314を受信するように構成されている。第1の信号セクション312および第2の信号セクション314は、比較対象となる信号セクションであり、同一信号の2つの信号セクションであってもよい。あるいは、第1の信号セクション312は第1の信号のセクションであり得、第2の信号セクション314は第2の信号の信号セクションであり得る。信号セクション312、314は、時間的に重複していても時間的に重複していなくてもよい。オプションで、第1のDC除去またはハイパスフィルタリング316を第1の信号セクションに適用することができる。同様に、DC除去またはハイパスフィルタリング318を第2の信号セクション314に任意に適用することができる。DC除去/ハイパスフィルタリング316、318の機能は、DC除去/ハイパスフィルタ216の機能と同等である。
装置300はまた、ゼロクロス値決定器(ゼロクロス値計算機とも呼ばれる)320を含み、これは第1の信号セクション312および第2の信号セクション314、またはDC-除去316、318によって提供されるそれらのゼロ平均バージョンを受信するように構成される。ゼロクロス値決定器は、例えば、立上りゼロクロス(負から正へのゼロクロス)の数、立下りゼロクロス(正から負へのゼロクロス)の数、または第1の信号セクション312の複数の部分(またはブロック)のそれぞれについての立上りおよび立下りゼロクロスの数を決定できる。同様に、ゼロクロス値決定器320は、第2の信号セクション314の複数の部分(またはブロック)のそれぞれについて、立上りゼロクロスの数または立下りゼロクロスの数または立上りおよび立下りゼロクロスの数を決定または計算するように構成され得る。従って、ゼロクロス値決定器320は、第1の信号セクション312に対して(すなわち、それに関連付けられた)ゼロクロス値シーケンス322を提供するように構成され得、前記ゼロクロス値シーケンス322は、前記第1のセクション312(例えば、第1の信号セクション312の各部分またはブロックに対して、厳密に1つまたは厳密に2つの非負整数値)の部分(またはブロック)に関連付けられたゼロクロス値を含む。同様に、第2の信号セクション314についてゼロクロス値決定器320によって提供される第2のゼロクロス値シーケンス324は、第2の信号セクション314の各部分またはブロックについて厳密に1つまたは厳密に2つの非負整数値を含み得る(個々の値のそれぞれは、それぞれの個々の値が関連付けられるそれぞれの部分内の立上りゼロクロスの数、または立下りゼロクロスの数または立上りおよび立下りゼロクロスの数または合計のゼロクロスの数を表す)。
装置300は、オプションで、第1のゼロクロス値シーケンス322から平均値を除去することができる、または第1のゼロクロス値シーケンス322をハイパスフィルタリングすることができるDC除去またはハイパスフィルタリング326をさらに含むことができる。同様に、装置は、ゼロクロス値シーケンス324から平均値を除去するか、ゼロクロス値シーケンス324をハイパスフィルタリングするDC除去またはハイパスフィルタリング328を含むことができる。
装置300はまた、ゼロクロス値シーケンス比較(またはゼロクロス値比較器)330を含み、これは第1のゼロクロス値シーケンス322またはDC除去/ハイパスフィルタ326によって提供されるそのゼロ平均バージョン、および第2のゼロクロス値シーケンス324またはDC除去/ハイパスフィルタ328によって提供されるそのゼロ平均バージョンを受取るように構成されている。ゼロクロス値シーケンス比較は、第1のゼロクロス値シーケンス222(またはそのゼロ平均バージョン)および第2のゼロクロス値シーケンス324(またはそのゼロ平均バージョン)を比較して(単一の類似性値の形態をとる場合がある)類似性情報を得るように構成される。例えば、ゼロクロス値シーケンス比較330は、第1のゼロクロス値シーケンスおよび第2のゼロクロス値シーケンスに基づいて、相互相関値、平均振幅差関数値、L1ノルム、またはユークリッド距離を計算するように構成され得て、これにより、第1のゼロクロス値シーケンス322が第2のゼロクロス値シーケンス324と比較される。従って、例えば、2つのゼロクロス値シーケンス322、324間の比較に関連する単一の値によって表され得る類似性情報332は、ゼロクロス値シーケンス比較に基づいて提供され得る。しかしながら、類似性情報は、一連の値を含んでもよく、これは、異なるゼロクロス値シーケンスの対の比較、または2つのゼロクロス値シーケンスの異なるサブシーケンスの比較のために提供される。例えば、類似性情報332は、相互相関値、相互相関関数(すなわち、複数の相互相関遅れ値に対する相互相関値)または平均振幅差関数値を含み得る。
オプションで、装置300はまた、例えば、ゼロクロス値シーケンスまたはゼロクロス値サブシーケンスの異なる対の比較に関連する複数の類似性情報値を受け取ることができるタイムシフト計算340を含むことができる。
例えば、タイムシフト計算340は、どの対のゼロクロス値シーケンスについて、またはどの対のゼロクロス値サブシーケンスについて最大の類似性が生じるかを決定することができる。換言すれば、タイムシフト計算は、複数の信号セクションまたは複数のゼロクロス値シーケンスに対して類似性情報を使用することができる。
オプションで、装置300は、1つまたは複数の追加の特徴値を決定または計算するように構成され得る特徴値決定器/特徴値計算機350も備えることができる。1つ以上の追加の特徴値はそれぞれ、第1の信号セクションまたは第2の信号セクションの一部(またはブロック)を記述または表すことができる。例えば、第1のゼロクロス値シーケンス322および第2のゼロクロス値シーケンス324の各ゼロクロス値に関連する1つの追加の特徴値があり得る。
従って、ゼロクロス値シーケンスの比較に加えて、類似性情報332を取得するために、1つ以上の追加の特徴値シーケンスを比較することができる。例えば、それぞれがn個の値を含む第1のゼロクロス値シーケンス322と第2のゼロクロス値シーケンス324との間の比較は、ゼロクロス値シーケンス比較330によって計算されて、第1の部分類似性情報を得ることができる。また、それぞれn個の特徴値からなる第1の特徴値シーケンスと第2の特徴値シーケンスとを比較して、第2の部分比較結果を得ることができる。最後に、第2の部分比較結果(または部分類似性情報)における第1の部分比較結果(または第1の部分類似性情報)を組合せて類似性情報332を取得してもよい。従って、ある第1の信号セクションとある第2の信号セクションとの比較のために、ある第1の信号セクションに関連するゼロクロス値シーケンスおよび追加の特徴値シーケンスが比較において使用されてもよく、第2のゼロクロス値シーケンスおよび第2の追加の特徴値シーケンスも同様に比較において使用され得る。そこで、第1ゼロクロス値シーケンスと第2ゼロクロス値シーケンスとの比較結果は、第1付加特徴値シーケンスと第2付加特徴値シーケンスとの比較結果とを組み合わせて、類似性情報を求めてもよい。その結果、第1の信号セクションの各部分またはブロックは、2つの代表値、ゼロクロス値および追加の特徴値によって表され、第2の信号セクションの各ブロックも少なくとも2つの代表値、すなわちゼロクロス値と追加の特徴値によって表される。2つのタイプの代表(ゼロクロス値および追加の特徴値)を使用することによって、比較の信頼性を向上させることができ、その結果、類似性情報322はより信頼できると見なすことができる。類似性情報332は、第1の部分比較結果と第2の部分比較結果との種々の組合せにより導出することができる。例えば、第1の部分比較結果と第2の部分比較結果との平均および/または加重平均を計算することができる。あるいは、第1の部分比較結果および第2の部分比較結果の最小値を用いて類似性情報332を取得してもよい。しかしながら、第1の部分比較結果および第2の部分比較結果から類似性情報332を導出するために、他の線形または非線形結合手法を使用することができる。
4.図4による実施例
以下では、図4を参照して、類似性情報の決定例について説明する。
図4は、第1の線410において、第1の信号の表現を示す。横座標412は時間を記述する。図から分かるように、信号は2つの連続した重複しないセクション420、422(「セクション1」、「セクション2」)に細分される。第1のセクション420は、時間的にn=3の重複しないブロック(部分としても示される)422、424、426に細分される。ブロック422、424、426の各々は、時間軸と交差する垂直線によって示される一組のサンプル値を含む。
第1のゼロクロス値「ゼロクロス値1」は、第1のブロック422内に時間的に存在する「信号1」のサンプル値に基づいて決定または計算される。同様に、時間的に第2のブロック424内にあるサンプル値に基づいて、第2のゼロクロス値「ゼロクロス値2」が決定または計算される。さらに、第3のゼロクロス値「ゼロクロス値3」は、第3のブロック426内に時間的に存在するサンプル値に基づいて決定または計算される。
同様に、さらなるゼロクロス値(「ゼロクロス値4」、「ゼロクロス値5」、「ゼロクロス値6」)は、第4のブロック432、第5ブロック434または第6ブロック436にある「信号1」のサンプルに基づいて計算される。従って、ゼロクロス値のそれぞれは、それが計算された信号値または信号サンプルのそれぞれのブロックの表現値と見なすことができる。
さらに、第1のゼロクロス値シーケンスは第1の信号(信号1)の第1のセクション420に関連し、第2のゼロクロス値シーケンスは第1の信号(信号1)の第2のセクション430に関連すると言える。例えば、第1のゼロクロス値シーケンスは、第1のブロック422に関連するゼロクロス値、第2のブロック424に関連するゼロクロス値、および第3のブロック426に関連するゼロクロス値を含む。第2のゼロクロス値シーケンスは、第4のブロック432に関連するゼロクロス値、第5のブロック434に関連するゼロクロス値、および第6のブロック436に関連するゼロクロス値を含む。第1のゼロクロス値シーケンスを参照番号450で示し、第2のゼロクロス値シーケンスを参照番号456で示す。第1のゼロクロス値シーケンスおよび第2のゼロクロス値シーケンスは、ゼロクロス情報114、またはゼロクロス値シーケンス214、または第1および第2のゼロクロス値シーケンス322、324に対応し得ることに留意されたい。従って、第1のゼロクロス値シーケンスおよび第2のゼロクロス値シーケンスは、ゼロクロス情報決定110またはゼロクロス値決定器210、320によって提供されてもよい。さらに、第1のゼロクロス値シーケンスと第2のゼロクロス値シーケンスとは、比較120またはゼロクロス値シーケンス比較220、330によって比較されてもよい。例えば、第1のゼロクロス値シーケンスと第2のゼロクロス値シーケンスとは、相関計算を用いて比較されてもよい。あるいは、本明細書で説明するように、2つの値のシーケンスを比較するために他の概念を使用してもよい。
従って、(第1のゼロクロス値シーケンスが基づく)第1のセクション420と(第2のゼロクロス値シーケンスが基づく)第2のセクション430との間の類似性を表す(または記述する)類似性値が得られる。換言すれば、類似性値は、比較されたゼロクロス値シーケンスが基づく入力信号のそれらのセクションの類似性を表す。
別の例として、第1の信号(信号1)の重なり合う部分の比較が参照番号440に示されている。図からわかるように、信号ブロックまたは信号セクション「ブロック1」、「ブロック2」、「ブロック3」、および「ブロック4」を含む第3のセクションは、信号ブロックまたは信号部分「ブロック4」、「ブロック5」、「ブロック6」及び「ブロック7」を含む第4のセクション「セクション4」と比較される。前述の場合と同様に、1つのゼロクロス値が前記ブロック「ブロック1」から「ブロック7」のそれぞれに関連付けられ、ゼロクロス値は「ゼロクロス値1a」から「ゼロクロス値7a」で示される。
従って、第3のゼロクロス値シーケンスはゼロクロス値1aから4aを含み、第4のゼロクロス値シーケンスはゼロクロス値4aから7aを含む。従って、第3のゼロクロス値シーケンスと第4のゼロクロス値シーケンスとを比較することができ、ゼロクロス値1aはゼロクロス値4aと比較され、ゼロクロス値2aはゼロクロス値5a等と比較される。従って、単一の信号の重畳するセクション(セクション3およびセクション4)を比較することが可能であり、ここでこれらのセクションは「重畳する」ゼロクロス値シーケンスによって表される。当然ながら、2つ(またはそれ以上)のゼロクロス値シーケンスに共通するゼロクロス値を複数回計算する必要はない。むしろ、各ゼロクロス値を一度だけ計算し、比較のために比較されるべき信号セクションに対応するゼロクロス値のサブセットを選択することで当然ながら十分である。
5.図5による実施例
信号(またはその一部)の比較の実行については、後に図5を参照しながら説明する。比較は、例えば、相互相関に対応することができ、比較されるべき信号セクションのブロック(または部分)は、ゼロクロス値によって表される。
参照番号510の表示は、第1の信号のセクション520を示し、このセクションは、第1のブロック522、第2のブロック524、および第3のブロック526を含み、ブロック522、524、526は、例えば、信号セクション520の重複していない直後の時間部分である。ブロック522、524、526のそれぞれは、信号が時間離散的である場合にはいくつかの信号サンプルを含むことができ、信号サンプルは時間軸512(横座標)と交差する垂直線によって表される。第1の信号の第1のゼロクロス値(ゼロクロス値1,1)は第1のブロック522に関連付けられ、第1の信号の第2のゼロクロス値(ゼロクロス値1,2)は第2のブロック524に関連付けられる。そして、第3のゼロクロス値(ゼロクロス値1,3)は第3のブロック526に関連付けられる。
同様に、第2の信号があり、これは第1の信号とは異なり、参照番号530で表されている。横座標532は時間を記述する。第2の信号の信号セクション(本明細書では「第2の信号セクション」540として示される)が比較のために選択される。第2の信号540は、「ゼロクロス値2、3」、「ゼロクロス値2、4」および「ゼロクロス値2、5」とも呼ばれるブロック542、544、546を含む。従って、ゼロクロス値「ゼロクロス値1,1」、「ゼロクロス値1,2」、および「ゼロクロス値1,3」を含む第1のゼロクロス値シーケンスは、比較のために選択された第1の信号の(第1の)信号セクション520に関連付けられる。同様に、ゼロクロス値「ゼロクロス値2,3」「ゼロクロス値2,4」「ゼロクロス値2,5」を含む第2のゼロクロス値シーケンスが、第2の信号の(第2の)信号セクション540に関連付けられており、前記(第2の)セクション540が、比較のために選択されている。これにより、第1ゼロクロス値シーケンスと第2ゼロクロス値シーケンスとを比較して、第1の信号セクション520と第2の信号セクション540との類似性を表す類似性情報を得ることができる。さらに、第1の信号セクション520のブロックまたは部分は第1のゼロクロス値シーケンスの個々の値によって表され、第2の信号セクション540のブロックまたは部分は第2のゼロクロス値シーケンスの個々の値によって表される。
さらに結論すると、それぞれが第1の信号および第2の信号の多数の個々のサンプル値を含むフル信号セクション520、540の比較は、ゼロクロス値シーケンスの比較によって置き換えられる。しかしながら、ゼロクロス値シーケンスの値の数は、典型的には、ゼロクロス値シーケンスによって表される信号セクションの信号サンプル値の数よりはるかに少ない。例えば、信号セクションを表すのに必要とされるゼロクロス値の数は、信号セクションの時間離散表現の信号サンプルの数よりも、10倍、またはさらに大きな倍数でさえよりも少なくてもよい。従って、ゼロクロス値シーケンスの比較は、信号サンプル値によって表される信号セクションの比較よりもはるかに少ない時間で済む。
6.図6による実施例
図6は、例えばオーディオ信号またはビデオ信号のような信号からゼロクロス値をどのように導出するかの概略図を示す。
信号のセクションは参照番号610で表される。横座標612は時間を表し、縦座標614は信号値を表す。信号の時間的発達は曲線620によって表現されている。
曲線が時間連続曲線620として示されているとしても、信号は当然十分な時間分解能を有する時間離散サンプルによっても表され得る。
しかしながら、信号セクション630は比較のために(任意に)定義される。開始時間t0および終了時間t3によって定義されるこの信号セクション630は、3つの時間部分またはブロックに細分され、第1のブロック632は時間t0で開始し、時間t1で終了し、第2のブロック634は時間t1で開始し、時間t2で終了し、第3ブロック636は時間t2で開始し、時間t3で終了する。ご覧のように、ゼロクロスは容易に識別することができる。ゼロクロスは、考慮中の信号の値が「ゼロ線」、すなわち縦座標612と交差する点である。立上りゼロクロスは、立下りゼロクロスと区別することができる。例えば、立上りゼロクロスは、信号値がゼロである点であり、信号値は、前記ゼロクロスの直前に負であり、時間連続信号について容易に決定され得るように、信号値はゼロクロスの直後に正である。しかしながら、時間離散信号の場合、最初のサンプルが負の値をとり、直後のサンプル値が正の値をとる場合、ゼロクロスが識別され得る。最初のサンプル値が負の値を取り、直後のサンプル値がゼロ値を取り、別の直後のサンプル値が正の値を取る場合、立上りゼロクロスも識別され得る。
立下りゼロクロスは、信号値がゼロクロス直前に正であり、信号値がゼロクロス直後に負である場合に、信号値がゼロ値をとる点である。これは、時間連続信号では簡単に識別できる。時間離散信号の場合、最初のサンプル値が正の値をとり、直後の2番目のサンプル値が負の値をとることがわかった場合、立下りゼロクロスが識別できる。また、特別な場合として、第1のサンプル値が正の値をとり、直後の第2のサンプル値がゼロの値をとり、そして別の直後の第3のサンプル値が負の値をとる場合、立下りゼロクロスが識別され得る。
例えば、第1のブロック632を参照すると、3つの立上りゼロクロス(「x」で印を付けた)を識別することができる。また、3つの立下りゼロクロス(「・」でマークされている)も識別できる。上述のように、識別は、時間連続信号(例えば、アナログ回路を使用)と時間離散信号(例えば、前述のようにデジタル評価を使用)の両方に対して可能である。
第2のブロック634を参照すると、6つの立上りゼロクロスおよび5つの立下りゼロクロスが識別され得ることが分かる。第3のブロック636では、4つの立上りゼロクロスおよび5つの立下りゼロクロスが識別され得る。
ゼロクロス値決定器およびゼロクロス値シーケンス比較の実際の実施態様に応じて、異なるブロック内のいくつかの立上りゼロクロスおよび/または個々のブロック内のいくつかの立下りゼロクロスは、別々の特徴として考えることができる。いくつかの実施形態では、異なるブロック内のいくつかの立上りゼロクロスのみが評価される。他の実施形態では、個々のブロック内の立下りゼロクロスの数のみが評価される。いくつかの実施形態では、個々のブロック内のいくつかの立上りゼロクロスと、個々のブロック内のいくつかの立下りゼロクロスとの両方が評価される。しかしながら、いくつかの他の実施形態では、(異なるブロック内のゼロクロスの数の合計がゼロクロス値シーケンスを構成するという点で)個々のブロック内のゼロクロスの総数が評価される。
(番号6、11および9のシーケンスの形態の)ゼロクロス値シーケンスの例は、参照番号650で示される。
従って、ゼロクロス値シーケンス6、11、9は、例えば、「セクション1」630に関連付けることができる。信号の別の部分、または別の信号の別の部分は、別のゼロクロス値シーケンス(例えば、シーケンス7、12、8)によって表すことができる。当然、ゼロクロス値シーケンスは異なる長さも同様に取り得る。
従って、ゼロクロス値シーケンス比較によって実行される比較は、単一信号の異なるセクションに関連する、または比較される異なる信号のセクションに関連するゼロクロス値シーケンスに基づいて実行されてもよい。
7.図7による方法
図7は、1つまたは複数の入力信号に基づいて類似性情報を決定するための方法のブロック概略図を示す。方法700は、1つ以上の入力信号のうちの少なくとも1つの複数の部分について、入力信号のそれぞれの部分内のゼロクロスの数を記述するゼロクロス情報を決定すること710を含む。方法700はまた、類似性情報を決定するために、ゼロクロス情報に基づいて比較を実行すること720を含む。
方法700は、装置100、200、300に関して上述したものと同じ考察に基づいていることに留意すべきである。方法700は、例えばそれぞれの装置に関して、本明細書に記載された特徴および機能のいずれかによって補足され得る。
8.応用
本発明による実施形態は、様々な技術的装置に適用することができる。例えば、上述の装置は、オーディオ信号、ビデオ信号、物理的センサからのセンサ信号、または他の任意の電気的または光学的信号を分析するための信号分析器において使用することができる。同様に、本明細書に記載の装置は、オーディオ信号、ビデオ信号、物理量を感知する物理的センサからのセンサ信号、または他の電気信号もしくは光信号を処理するためのシグナルプロセッサにおいて使用することができる。
一例として、本明細書に記載の装置は、オーディオ信号を調整するためのオーディオプロセッサにおいて使用されてもよい。あるいは、本明細書に記載の装置は、ピッチ決定に使用することができ、その場合、本明細書に記載の装置は、異なる信号セクションを比較することを含む「自己相関」機能を実行することができる。
しかしながら、オーディオエンコーダまたはオーディオデコーダを用いた本明細書に記載の装置の多くの異なる用途を実施することができる。
9.更なる態様と結論
本発明による実施形態は、ブロック内のゼロクロス(例えば、符号の変化として定義される)の数が非常にロバストな推定のための表現値として識別されたという発見に基づいている。例えば、ブロック内のゼロクロスの数を表す値は、いくつかの「周囲の」サンプル(例えば、それぞれのブロックのサンプル)を表すことができる。符号のすべての変化(またはすべてのゼロクロス)が使用されるのか、あるいは単に負から正への変化(立上りゼロクロス)または正から負への変化(立下りゼロクロス)が使用されるかどうかはあまり重要でないことがわかった。従って、代表値(例えば、入力信号のブロックのサンプルを表す値)は、(入力信号の)そのブロック内の符号の変化の数を含む。この方法が機能するためには、カウント(例えばゼロクロスのカウント)の前に定数成分(DC成分)が信号から(例えば入力信号からまたは複数の入力信号から)除去されることが好ましい。この一定成分の除去は、「DC除去」または「DCフィルタリング」と見なすことができる。
代表値のデータストリーム(すなわち、例えばゼロクロス値シーケンスのような、1つ以上の信号の異なるブロック内のゼロクロスの数を表す値を含むデータストリーム)は、ストリーム間の待ち時間(例えば、異なるゼロクロス値シーケンス間の待ち時間)を計算するために相互相関(例えば、比較120またはゼロクロス値シーケンス比較220、330への)に供給されてもよい。その後、結果にブロックサイズn(例えば、サンプルにおける入力信号のブロックのサイズを表す)を掛けて、実際のオフセット(例えば、サンプル単位での2つの入力信号間のタイムシフト)に達することができる。
相互相関が有効な結果を提供することができるためには、一定の成分(例えば、「DC成分」)または平均もまた、両方のデータストリームから(例えば、両方のゼロクロス値シーケンスから)除去されるべきである。これは、例えば、DC除去/フィルタリング226またはDC除去/フィルタリング326、328によって実行することができる。ゼロクロスの総数を使用する場合、すべての値が正になることがある(または、例外的なケースではゼロになることもある)。ただし、一連の正の値を使用すると、場合によっては相関から意味のある結果を得ることができない。
しかしながら、本明細書に記載の方法は相互相関に限定されない。自己相関を使用するアプリケーションにも使用できる。例えば、そのような自己相関を利用することができるゼロクロス値シーケンス比較220が参照される。
方法の任意の拡張として、ブロック当たり2つの代表値が使用されてもよい。例えば、1つの代表値が、正から負への多数の変化(例えば、ブロック内の多数の立下りゼロクロス)を別々に保存(または表現)し、1つが負から正への多数の変化(たとえば、立上りゼロクロス)を別々に保存(または表現)し得る。追加の処理能力が同時に実行される相関(1つの相関がいくつかの立上りゼロクロスを表すゼロクロス値シーケンスに作用し、1つの相関がいくつかの立下りゼロクロスを表すゼロクロス値シーケンスに作用し得る)に対して利用可能である場合両方の結果が比較され得、信頼性の尺度が得られ得るので、ロバスト性はさらに増大する。場合によっては、両方の値がほぼ同じであることに注意すべきである。しかしながら、場合によっては、この概念が役立つ。従って、追加の特徴が使用される場合、以下に説明されるように、特徴が異なることがしばしば好まれる。
試験結果は、これらの方法では、ブロックサイズがロバスト性に関してバックグラウンドに後退することを示した。従って、主な(または場合によっては唯一の)決定要素は、それぞれのアプリケーションでどの精度を達成するかである。
また、本明細書に記載の装置および方法は、相関させるべきすべての信号タイプに使用できることに留意すべきである。本明細書で説明される概念は、オーディオ信号に使用されるときにその概念が特に有利な結果をもたらすとしても、オーディオ用途に限定されない。
以下では、いくつかのオプションの拡張について説明する。
特に、本明細書に記載の実施形態では、1つ以上のさらなる特徴を任意に使用することができる。
本明細書に記載の方法は、異なる特徴を使用することによって修正および拡張することができる。例えば、オーディオ信号処理において、信号を記述するために使用され得る信号から計算された値は特徴として識別される。これには、ゼロクロスの数またはゼロクロス率が含まれる。両方とも本発明の実施形態において同等に使用され得る。換言すれば、本明細書に記載のゼロクロス値は、入力信号のそれぞれの部分におけるゼロクロスの数、または入力信号のブロックにおける時間単位当たりのゼロクロスの(平均)数を表すことができる。
さらに、(時間領域における)ゼロクロスの数から計算することができる特徴に加えて、他の特徴も時間領域または周波数領域において計算することができる。追加の特徴または特徴値のそのような決定は、例えば、図3の参照番号350に示されている。周波数領域で計算するために、離散フーリエ変換(または異なる周波数領域変換または時間領域-周波数領域変換)を使用することによって、サンプルの各ブロックを周波数領域に転送することができ、特徴および特徴値は、計算されたスペクトルから決定される。これらの特徴は、例えば、スペクトル平坦度測定値および/またはスペクトルフラックス(またはスペクトルフラックス値)を含む。スペクトルフラックスは、2つの後続スペクトル間(例えば、入力信号の後続ブロックに関連するスペクトル間)の変化の尺度であり、両方のスペクトルの差のベクトルノルム(例えば、L2ノルム)から、または、2つのスペクトルベクトル間の距離の尺度から計算される。さらなる可能な特徴は、LPC係数(線形予測符号化係数)を含む。
さらに、(ゼロクロス値に加えて)1つ以上の入力信号をダウンサンプリングすることによって得られた値を追加の特徴として使用することができる。単純なダウンサンプリングとは別に、他の表現値が使用されてもよい。例としては、ブロックのエネルギー、サンプルの平均値、または波高率などがある。ブロックのこれらの表現は、広範なテストデータセットに対して単独で採用された場合に信頼性のある結果を提供しないとしても、ゼロクロス値を追加の特徴値として補うことができる。
しかしながら、他の特徴値も、1つ以上の入力信号に基づいてブロック(または部分)の周波数領域表現から抽出することができることに留意すべきである。例えば、スペクトル最大値の位置は特徴量によって表すことができる。あるいは、いくつかのスペクトルピークは特徴値によって表すことができる。別の選択肢として、スペクトルが周波数にわたってどのように変化するかを記述するスペクトル傾斜は、特徴値によって表すことができる。
これらの追加の特徴または特徴値は、ゼロクロス値シーケンスおよびゼロクロス値以外の特徴を表す追加の特徴値を含む特徴値シーケンスが比較に使用されているという点で、特徴値シーケンス比較において(例えば、特徴値シーケンス比較220または特徴値シーケンス比較330において)使用されてもよい。
時間オフセットを計算するためにさらなる機能がオプションで使用され得ることに留意されたい。これらのさらなる機能は、自己相関または相互相関に加えて、あるいは自己相関または相互相関の代わりとして使用することができる。(例えば、2つの入力信号間の)時間オフセットを決定するために、相関関数が計算されてもよい。
あるいは、「平均振幅差関数」(AMDF)が決定されてもよい。
原則として、時間オフセットは、信号(または信号の一部)の表現x(t)をタイムシフト表現x(t+d)と比較することによって決定することができ、変数dは時間オフセットである。例えば、x1(t)をx1(t+d)またはx2(t+d)と比較することができ、ここでx1は第1の信号であり、x2は第2の信号である。表現xは、本明細書に記載の本発明による信号(または2つ以上の信号のうちの1つ)またはダウンサンプリングされた信号または特徴に基づく表現であり得る。時間オフセットは、x(t)とx(t+d)との間(またはx1(t)とx2(t+d)との間)の類似性を最大にするdに対応する。
相関は、ブロックからの各サンプルをタイムシフトされたブロックからの各サンプルで乗算し、続いて全ての積を加算することによって計算することができる。これは、両方のブロックをベクトルと見なすと、これらのスカラ積(内積)に相当する。
例えば、L1ノルムまたはユークリッド距離など、代替の類似性尺度を使用することができる。L1ノルムを使用する場合、x(t)とx(t+d)の間、x1(t)とx1(t+d)の間、またはx1(t)とx2(t+d)の間の要素ごとの差の平均値が計算される。
換言すれば、入力信号x1に基づいて自己相関を実行するために、信号部分x1(t)とx1(t+d)との間の類似性は、「自己相関遅れ」dの異なる値に対して決定されなければならず、どのdについて類似値が最大値をとるかが決定されなければならない。x1(t)は第1のゼロクロス値シーケンスによって表され、x1(t+d)は第2のゼロクロス値シーケンスによって表され、第2のゼロクロス値シーケンスは選択されたdに依存する。第1のゼロクロス値シーケンスと第2のゼロクロス値シーケンスとを異なるdの値について比較することによって、第1のゼロクロス値シーケンスおよび第2のゼロクロスシーケンス(これはすべて異なる値dに対して信号x1に属する)がどの値dについて最も類似しているかを決定することができる。その結果、類似度を最大化するdの値を決定することができる。
あるいは、x1(t)とx2(t)の2つの入力信号間の相互相関を決定することができる。x1(t)およびx2(t+d)に関連する信号セクションは、例えば、x1(t)およびx2(t+d)に関連するゼロクロス値シーケンスを比較することによって、dの異なる値について比較され得る。それぞれのゼロクロス値シーケンスの比較の結果は、それぞれの信号x1(t)とx2(t+d)の類似性に対する良い結論を可能にする。
従って、(例えば、自己相関、相互相関または他の比較関数を使用して)ゼロクロス値シーケンスを比較することによって、基礎となる信号部分x1(t)およびx1(t+d)またはx1(t)およびx2(t+d)間の直接比較の良好な推定値である数値結果が得られる。
以下では、いくつかのさらなるコメントを提供し、いくつかのさらなる任意の拡張について簡単に説明する。
サンプルデータに対して使用された場合、サンプルと正確な相関でさえも誤検出(誤った検出)をもたらすことに留意すべきである。これらの誤った検出は、本明細書で論じられるゼロクロス法を使用しても現れない。従って、最初にゼロクロス法を使用することに基づく反復概念または方法を使用することによって、サンプル精度の相関結果を改善することができる。例えば、本明細書に記載のゼロクロスアプローチを使用してより粗い結果が得られたら、サンプル精度の相関を使用することができる。従って、本明細書に記載の概念は、計算量を最適化することを超える利点、すなわちアルゴリズム的利点も含むことができる。
さらに、本明細書に開示された実施形態は、相関結果に関して信頼性情報を決定する信頼性チェックブロック(またはステップ)によって任意に補ってもよい。例えば、スペクトル平坦性またはスペクトル平坦度は、相関結果にわたって(例えば、自己相関関数にわたって、または相互相関関数にわたって)計算することができる。スペクトル平坦性の尺度は、相関結果の品質に対する品質尺度として役立つ。ピークがその周囲よりも高くなるほど、結果の信頼性が高くなる。換言すれば、信頼性チェックブロックは、自己相関関数(例えば自己相関関数222)または相互相関関数(例えば相互相関関数332)のスペクトル平坦性の尺度を計算し、スペクトル平坦性の尺度からの信頼性情報(それぞれの相関関数の信頼性を記述する)を導出することができる。
さらに、本明細書に開示されている実施形態は、反復サーチを実行するようにオプションで拡張することができる。例えば、ゼロクロス値の各々がそのような比較的大きいブロックを表すように、第1ステップにおいて(例えば、少なくとも1つの入力信号の部分のうちの)比較的大きいブロックサイズを使用することができる。従って、(例えば、類似性情報の)粗い結果が得られるかもしれず、それは小さなタイムシフトに対してあまり敏感ではない。続いて、(例えば、少なくとも1つの入力オーディオ信号の部分の)比較的小さいブロックサイズを(例えば、第2のステップで)使用して、洗練された類似性情報を取得することができる。第2ステップで使用されるサーチ範囲(例えば、ゼロクロス値シーケンスが計算される範囲)は、第1ステップの結果に依存し得る。従って、(それぞれのゼロクロス値が関連付けられている)比較的大きなブロック、したがって比較的大きなサーチ範囲を使用する第1のステップは、第2のステップで使用されるサーチ範囲を決定するために使用でき、第2のステップにおけるサーチ範囲は(例えば、第2のステップで使用されるブロックサイズが小さいため)第1のステップのサーチ範囲よりも小さくてもよい。
結論として、ゼロクロス値またはゼロクロス値シーケンスを使用することによって、1つ以上の技術的に意味のある信号(例えば、オーディオ信号、ビデオ信号等)の自己相関または相互相関の結果を近似することを可能にするいくつかの実施形態が説明され、複雑さを小さく保つことができ、その結果の品質は典型的に非常に良好である。
上述のように、本発明による実施形態は待ち時間の測定に使用できることにも留意すべ
きである。
10.実装方法
いくつかの態様が装置の文脈で説明されてきたが、これらの態様が対応する方法の説明も表していることは明らかであり、ブロックまたは装置は方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの文脈で説明された態様はまた、対応する装置の対応するブロックまたは項目または特徴の説明を表す。方法ステップのいくつかまたはすべては、たとえばマイクロプロセッサ、プログラム可能なコンピュータまたは電子回路などのハードウェア装置によって(または使用して)実行することができる。いくつかの実施形態では、そのような装置によって1つ以上の最も重要な方法ステップを実行することができる。
特定の実施要件に応じて、本発明の実施形態はハードウェアまたはソフトウェアで実施することができる。実施は、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働することができる)制御信号がそこに記憶されている電子的に読取り可能なデジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリを使用して実行することができる。従って、デジタル記憶媒体はコンピュータ可読であり得る。
本発明によるいくつかの実施形態は、本明細書に記載の方法のうちの1つが実行されるように、プログラマブルコンピュータシステムと協働することができる電子的に読取り可能な制御信号を有するデータキャリアを含む。
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法のうちの1つを実行するように動作可能である。プログラムコードは、例えば機械可読キャリアに格納することができる。
他の実施形態は、機械可読キャリアに格納された、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを含む。
換言すれば、本発明の方法の一実施形態は、従って、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
従って、本発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを記録したデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体または記録媒体は、通常、有形および/または非一時的である。
従って、本発明の方法のさらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。データストリームまたは一連の信号は、たとえばインターネットなどのデータ通信接続を介して転送されるように構成されてもよい。
さらなる実施形態は、本明細書で説明された方法のうちの1つを実行するように構成された、または実行するように適合された処理手段、たとえばコンピュータ、またはプログラム可能な論理デバイスを含む。
さらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
本発明によるさらなる実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを(例えば、電子的または光学的に)レシーバに転送するように構成された装置またはシステムを含む。レシーバは、例えば、コンピュータ、モバイル機器、メモリ機器などであり得る。装置またはシステムは、例えば、コンピュータプログラムをレシーバに転送するためのファイルサーバを含み得る。
いくつかの実施形態では、プログラマブルロジックデバイス(例えばフィールドプログラマブルゲートアレイ)を使用して、本明細書に記載の方法の機能の一部または全部を実行することができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載の方法のうちの1つを実行するためにマイクロプロセッサと協働し得る。一般に、方法は、任意のハードウェア装置によって実行されることが好ましい。
本明細書に記載の装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組合せを使用して実施することができる。
本明細書に記載の装置、または本明細書に記載の装置の任意の構成要素は、少なくとも部分的にハードウェアおよび/またはソフトウェアで実施することができる。
本明細書に記載の方法または、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータとの組合せを使用して実行することができる。
本明細書に記載の方法または本明細書に記載されている装置の任意の構成要素は、少なくとも部分的にハードウェアおよび/またはソフトウェアによって実行することができる。
一実施形態は、本明細書で説明されるように、1つ以上の入力信号に基づいて類似性情報を決定するための装置を作成する。
別の実施形態は、本明細書に記載または特許請求されている装置の機能のいずれかを実行するための方法を作成する。
他の実施形態は、前記方法を実行するためのコンピュータプログラムを作成する。
上述の実施形態は、本発明の原理を説明するための例示にすぎない。本明細書に記載された構成および詳細の修正および変形は、他の当業者には明らかであろうことが理解される。従って、差し迫った特許請求の範囲によってのみ限定されることが意図されており、本明細書の実施形態の記述および説明のために提示された具体的な詳細によっては限定されない。

Claims (25)

  1. 1つ以上の入力信号(112;212;312;314)に基づいて類似性情報(122;222;332)を決定するための装置(100;200;300)であって、
    前記装置は、前記1つ以上の入力信号のうちの少なくとも1つの信号の複数の部分について、それぞれの部分(422,424,426,432,434,436;522,524,526,542,544,546)におけるゼロクロスの数を記述するゼロクロス情報(114;214;322;324)を決定するように構成され、
    前記装置は、前記類似性情報を決定するために、前記ゼロクロス情報に基づいて比較を行うように構成され、
    前記装置は、複数の信号ブロックについて信号ブロックあたり2つ以上の代表値を決定するように構成され、
    前記2つ以上の代表値は前記信号ブロックの特徴を記述し、
    前記2つ以上の代表値は、ゼロクロス情報であるゼロクロス値を含み、
    前記装置は、前記類似性情報を決定するために、前記2つ以上の代表値に基づいて前記比較を実行するように構成され、
    前記装置は、複数の信号ブロックについて、第1のタイプの代表値のシーケンスに基づいて第1の比較を実行し、前記複数の信号ブロックについて、第2のタイプの代表値のシーケンスに基づいて第2の比較を実行するように構成され、
    前記装置は、信頼性情報を得るために、前記第1の比較の結果と前記第2の比較の結果とを比較するように構成される、
    装置。
  2. 前記装置は、前記ゼロクロス情報(114;214;322;324)として、前記1つ以上の入力信号のうちの前記少なくとも1つの信号の複数の部分(422,424,426,432,434,436;522,524,526,542,544,546)についてのゼロクロスの総数、または立上りゼロクロスの数、または立下りゼロクロスの数を決定するように構成される、請求項1に記載の装置(100;200;300)。
  3. 前記装置は、前記ゼロクロス情報(114;214;322;324)として、前記1つ以上の入力信号のうちの前記少なくとも1つの信号の複数の部分(422,424,426,432,434,436;522,524,526,542,544,546)についてのゼロクロス率を決定するように構成される、請求項1に記載の装置(100;200;300)。
  4. 前記装置(100;200;300)は、少なくとも1つのゼロクロス値が、前記1つ以上の入力信号のうちの前記少なくとも1つの信号の複数の部分の各部分(422,424,426,432,434,436;522,524,526,542,544,546)に関連付けられるように、前記ゼロクロス情報(114;214;322;324)を決定するように構成される、請求項1ないし3のうちの1つに記載の装置。
  5. 前記装置は、第1の信号セクション(420;520)のための第1のゼロクロス値シーケンス(114,214,322,450)を決定するように構成され、ここで前記第1の信号セクションは複数の信号ブロック(422,424,426;522,524,526)を含み、かつ、前記第1のゼロクロス値シーケンスは、前記第1の信号セクションの前記信号ブロックの各々と関連付けられた1つ以上のゼロクロス値を含み、また、
    前記装置は、第2の信号セクション(430;540)のための第2のゼロクロス値シーケンス(114,214,324,456)を決定するように構成され、ここで前記第2の信号セクションは複数の信号ブロック(432,434,436;542,544,546)を含み、かつ、前記第2のゼロクロス値シーケンスは、前記第2の信号セクションの前記信号ブロックの各々と関連付けられた1つ以上のゼロクロス値を含む、
    請求項1ないし4の1つに記載の装置(100;200;300)。
  6. 前記装置は、複数のゼロクロス値を含む第1のゼロクロス値シーケンス(322;450)と複数のゼロクロス値を含む第2のゼロクロス値シーケンス(324;456)とを比較し、第1の信号セクション(420)と第2の信号セクション(430)との間の類似性を記述する類似性情報を得るように構成され、
    前記第1のゼロクロス値シーケンスは前記第1の信号セクションに対応し、前記第2のゼロクロス値シーケンスは前記第2の信号セクションに対応し、また、
    前記ゼロクロス値は前記ゼロクロス情報を構成する、
    請求項1ないし5の1つに記載の装置(100;200;300)。
  7. 前記装置は、前記第1のゼロクロス値シーケンス(322;450)および前記第2のゼロクロス値シーケンス(324;456)を使用して相関値を計算して、前記類似性情報(122;222;332)を得るように構成される、あるいは、
    前記装置は、前記第1のゼロクロス値シーケンス(322;450)および前記第2のゼロクロス値シーケンス(324;456)を使用して平均振幅差値を計算して、前記類似性情報(122;222;332)を得るように構成される、あるいは、
    前記装置は、前記第1のゼロクロス値シーケンス(322;450)と前記第2のゼロクロス値シーケンス(324;456)との間の差のノルムを計算して、前記類似性情報(122;222;332)を得るように構成される、あるいは、
    前記装置は、前記第1のゼロクロス値シーケンス(322;450)と前記第2のゼロクロス値シーケンス(324;456)との間のユークリッド距離を計算して、前記類似性情報(122;222;332)を得るように構成される、
    請求項6に記載の装置(100;200;300)。
  8. 前記装置は、前記第1のゼロクロス値シーケンスまたはその一部と、前記第2のゼロクロス値シーケンスのタイムシフトされた複数のバージョンまたは前記第2のゼロクロス値シーケンスのタイムシフトされた部分との間の複数の差分測定値を計算して、前記第1のゼロクロス値シーケンスまたはその一部と前記第2のゼロクロス値シーケンスのタイムシフトされたバージョンまたは前記第2のゼロクロス値シーケンスのタイムシフトされた部分との間の最大類似性を提供するタイムシフトに関する情報を得るように構成される、
    請求項6に記載の装置(100;200;300)。
  9. 前記装置は、前記第1のゼロクロス値シーケンス(322;450)および前記第2のゼロクロス値シーケンス(324;456)を用いて相関関数を計算して、前記第1のゼロクロス値シーケンスまたはその一部と前記第2のゼロクロス値シーケンスのタイムシフトされたバージョンまたはその一部との間の最大類似性を提供するタイムシフトに関する情報(232;342)を得るように構成される、あるいは、
    前記装置は、前記第1のゼロクロス値シーケンスおよび前記第2のゼロクロス値シーケンスを用いて平均振幅差関数を計算して、前記第1のゼロクロス値シーケンスの部分と前記第2のゼロクロス値シーケンスのタイムシフトされた部分とを比較し、前記第1のゼロクロス値シーケンス(x1(t);322;450)またはその一部と前記第2のゼロクロス値シーケンス(x2(t);322;456)のタイムシフトされたバージョン(x2(t+d))またはその一部との間の最大類似性を提供するタイムシフト(d)に関する情報を得るように構成される、
    請求項6または8に記載の装置(100;200;300)。
  10. 前記装置は、前記第1のゼロクロス値シーケンスと前記第2のゼロクロス値シーケンスとを比較する前に、前記第1のゼロクロス値シーケンス(114;214;322)および/または前記第2のゼロクロス値シーケンス(324)から定数成分を除去するように構成される、請求項5ないし9の1つに記載の装置(100;200;300)。
  11. 前記装置は、前記ゼロクロス情報を決定する前に、前記1つ以上の入力信号(112;212;312;314)から定数成分を除去する、および/または前記1つ以上の入力信号にハイパスフィルタリングを適用するように構成される、請求項1ないし10の1つに記載の装置(100;200;300)。
  12. 前記代表値は、信号ブロックごとに、それぞれの信号ブロックにおける立上りゼロクロスの数を記述する正ゼロクロス値およびそれぞれの信号ブロックにおける立下りゼロクロスの数を記述する負ゼロクロス値を含む、請求項1ないし11の1つに記載の装置(100;200;300)。
  13. 前記装置は、それぞれの信号ブロックの周波数領域表現を使用して、信号ブロックごとに決定される2つ以上の代表値のうちの1つを決定するように構成される、請求項1ないし12の1つに記載の装置(100;200;300)。
  14. 前記装置は、信号ブロックごとに決定される前記2つ以上の代表値のうちの1つとして、スペクトル平坦性値を決定するように構成される、請求項1ないし13の1つに記載の装置(100;200;300)。
  15. 前記装置は、信号ブロックごとに決定される前記2つ以上の代表値のうちの1つとして、それぞれの信号ブロックのスペクトルの平坦度を記述するスペクトル平坦性値を決定するように構成される、請求項1ないし13の1つに記載の装置(100;200;300)。
  16. 前記装置は、信号ブロックごとに決定される前記2つ以上の代表値のうちの1つとしてスペクトルフラックス値を決定するように構成され、
    前記スペクトルフラックス値は、単一の定量値の形式で、2つの連続する信号ブロックのスペクトル間の変化を記述する、
    請求項1ないし15の1つに記載の装置(100;200;300)。
  17. 前記装置は、信号ブロックごとに決定される前記2つ以上の代表値のうちの1つとして、それぞれの信号ブロックについて線形予測係数(LPC)を決定するように構成される、請求項1ないし16の1つに記載の装置(100;200;300)。
  18. 前記装置は、前記1つ以上の入力信号(112;212;312,314)として1つ以上の音声信号または1つ以上のビデオ信号を受信して、前記1つ以上の音声信号または前記1つ以上のビデオ信号に基づいて前記ゼロクロス情報(114;214;322,324)を決定するように構成される、請求項1ないし17の1つに記載の装置(100;200;300)。
  19. 前記装置は、音声信号またはビデオ信号に関する自己相関情報を得るために前記類似性情報(122;222;322)を使用するように構成される、または、
    前記装置は、2つの音声信号または2つのビデオ信号に関する相互相関情報を得るために前記類似性情報を使用するように構成される、または、
    前記装置は、2つの音声信号間の最良のアライメントを得るためのタイムシフト(232,342)を決定するために、または2つのビデオ信号間の最良のアライメントを得るためのタイムシフト(232,342)を決定するために、前記類似性情報を使用するように構成される、
    請求項1ないし18の1つに記載の装置(100;200;300)。
  20. 前記装置は、前記1つ以上の入力信号の類似した領域間のタイムシフトを表す情報を得るために、第1のステップにおいて第1のブロックサイズを使用して第1のゼロクロス情報を決定して、前記第1のゼロクロス情報に基づいて前記比較を実行するように構成され、かつ、
    前記装置は、前記1つ以上の入力信号の類似した領域間のタイムシフトを表すリファインされた情報を得るために、第2のステップにおいて第2のブロックサイズを使用して第2のゼロクロス情報を決定するように構成され、
    前記第2のゼロクロス情報が決定される範囲は、前記第1のステップにおいて得られる前記1つ以上の入力信号の類似した領域間のタイムシフトを表す情報に依存し、かつ、前記第2のブロックサイズは前記第1のブロックサイズより小さい、
    請求項1ないし19の1つに記載の装置(100;200;300)。
  21. 1つ以上の入力信号に基づいて類似性情報を決定するための方法(700)であって、
    前記方法は、前記1つ以上の入力信号のうちの少なくとも1つの信号の複数の部分のそれぞれの部分におけるゼロクロスの数を記述するゼロクロス情報を決定するステップ(710)を含み、
    前記方法は、前記類似性情報を決定するために、前記ゼロクロス情報に基づいて比較を実行するステップ(720)を含み、
    前記方法は、複数の信号ブロックについて、信号ブロックあたり2つ以上の代表値を決定するステップを含み、
    前記2つ以上の代表値は前記信号ブロックの特徴を記述し、
    前記2つ以上の代表値は、ゼロクロス情報であるゼロクロス値を含み、
    前記方法は、前記類似性情報を決定するために、前記2つ以上の代表値に基づいて前記比較を実行するステップを含み、
    前記方法は、複数の信号ブロックについて第1のタイプの代表値のシーケンスに基づいて第1の比較を実行するステップと、前記複数の信号ブロックについて第2のタイプの代表値のシーケンスに基づいて第2の比較を実行するステップとを含み、
    前記方法は、信頼性情報を得るために、前記第1の比較の結果と前記第2の比較の結果とを比較するステップを含む、
    方法。
  22. コンピュータプログラムがコンピュータ上で実行されるときに、請求項21に記載の方法を実行するためのコンピュータプログラム
  23. 1つ以上の入力信号(112;212;312;314)に基づいて類似性情報(122;222;332)を決定するための装置(100;200;300)であって、
    前記装置は、前記1つ以上の入力信号のうちの少なくとも1つの信号の複数の部分について、それぞれの部分(422,424,426,432,434,436;522,524,526,542,544,546)におけるゼロクロスの数を記述するゼロクロス情報(114;214;322;324)を決定するように構成され、
    前記装置は、前記類似性情報を決定するために、前記ゼロクロス情報に基づいて比較を行うように構成され、
    前記装置は、前記1つ以上の入力信号の類似した領域間のタイムシフトを表す情報を得るために、第1のステップにおいて第1のブロックサイズを使用して第1のゼロクロス情報を決定して、前記第1のゼロクロス情報に基づいて前記比較を実行するように構成され、かつ、
    前記装置は、前記1つ以上の入力信号の類似した領域間のタイムシフトを表すリファインされた情報を得るために、第2のステップにおいて第2のブロックサイズを使用して第2のゼロクロス情報を決定するように構成され、
    前記第2のゼロクロス情報が決定される範囲は、前記第1のステップにおいて得られる前記1つ以上の入力信号の類似した領域間のタイムシフトを表す情報に依存し、かつ、前記第2のブロックサイズは前記第1のブロックサイズより小さい、
    装置。
  24. 1つ以上の入力信号に基づいて類似性情報を決定するための方法(700)であって、
    前記方法は、前記1つ以上の入力信号のうちの少なくとも1つの信号の複数の部分について、それぞれの部分におけるゼロクロスの数を記述するゼロクロス情報を決定するステップ(710)を含み、
    前記方法は、前記類似性情報を決定するために、前記ゼロクロス情報に基づいて比較を行うステップ(720)を含み、
    前記方法は、前記1つ以上の入力信号の類似した領域間のタイムシフトを表す情報を得るために、第1のステップにおいて第1のブロックサイズを使用して第1のゼロクロス情報を決定して、前記第1のゼロクロス情報に基づいて前記比較を実行するステップを含み、かつ、
    前記方法は、前記1つ以上の入力信号の類似した領域間のタイムシフトを表すリファインされた情報を得るために、第2のステップにおいて第2のブロックサイズを使用して第2のゼロクロス情報を決定するステップを含み、
    前記第2のゼロクロス情報が決定される範囲は、前記第1のステップにおいて得られる前記1つ以上の入力信号の類似した領域間のタイムシフトを表す情報に依存し、かつ、前記第2のブロックサイズは前記第1のブロックサイズより小さい、
    方法。
  25. コンピュータプログラムがコンピュータ上で実行されるときに、請求項24に記載の方法を実行するためのコンピュータプログラム。
JP2021078687A 2016-05-20 2021-05-06 類似性情報決定装置、類似性情報決定方法、自己相関情報決定装置、相互相関情報決定装置およびコンピュータプログラム Active JP7317888B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP16170744.3 2016-05-20
EP16170744 2016-05-20
EP16199181.5A EP3246824A1 (en) 2016-05-20 2016-11-16 Apparatus for determining a similarity information, method for determining a similarity information, apparatus for determining an autocorrelation information, apparatus for determining a cross-correlation information and computer program
EP16199181.5 2016-11-16
JP2018560989A JP6962664B2 (ja) 2016-05-20 2017-05-18 類似性情報決定装置、類似性情報決定方法、自己相関情報決定装置、相互相関情報決定装置およびコンピュータプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2018560989A Division JP6962664B2 (ja) 2016-05-20 2017-05-18 類似性情報決定装置、類似性情報決定方法、自己相関情報決定装置、相互相関情報決定装置およびコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2021157180A JP2021157180A (ja) 2021-10-07
JP7317888B2 true JP7317888B2 (ja) 2023-07-31

Family

ID=56117481

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018560989A Active JP6962664B2 (ja) 2016-05-20 2017-05-18 類似性情報決定装置、類似性情報決定方法、自己相関情報決定装置、相互相関情報決定装置およびコンピュータプログラム
JP2021078687A Active JP7317888B2 (ja) 2016-05-20 2021-05-06 類似性情報決定装置、類似性情報決定方法、自己相関情報決定装置、相互相関情報決定装置およびコンピュータプログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2018560989A Active JP6962664B2 (ja) 2016-05-20 2017-05-18 類似性情報決定装置、類似性情報決定方法、自己相関情報決定装置、相互相関情報決定装置およびコンピュータプログラム

Country Status (11)

Country Link
US (1) US10565284B2 (ja)
EP (2) EP3246824A1 (ja)
JP (2) JP6962664B2 (ja)
KR (1) KR102306332B1 (ja)
CN (1) CN109478198B (ja)
AU (1) AU2017266384B2 (ja)
BR (1) BR112018073889B1 (ja)
CA (1) CA3024772C (ja)
MX (1) MX2018014113A (ja)
RU (1) RU2747442C2 (ja)
WO (1) WO2017198794A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2305792B1 (en) 2008-06-27 2016-04-20 Bioverde Inc. Cryopreservative composition for cell and tissue
EP3246824A1 (en) * 2016-05-20 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for determining a similarity information, method for determining a similarity information, apparatus for determining an autocorrelation information, apparatus for determining a cross-correlation information and computer program
CN111341302B (zh) * 2020-03-02 2023-10-31 苏宁云计算有限公司 一种语音流采样率确定方法及装置
TWI766259B (zh) * 2020-03-27 2022-06-01 莊龍飛 運動課程評分方法與系統、電腦程式產品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003132041A (ja) 2001-10-22 2003-05-09 Sony Corp 信号処理方法及び装置、信号処理プログラム、並びに記録媒体
JP2008257020A (ja) 2007-04-06 2008-10-23 Alpine Electronics Inc メロディーの類似度算出方法及び類似度算出装置
JP2009511980A (ja) 2005-10-17 2009-03-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ入力信号についての特徴のセットを導出する方法
JP2011065093A (ja) 2009-09-18 2011-03-31 Toshiba Corp オーディオ信号補正装置及びオーディオ信号補正方法
JP2012032677A (ja) 2010-08-02 2012-02-16 Sony Corp テンポ検出装置、テンポ検出方法およびプログラム
JP2012134715A (ja) 2010-12-21 2012-07-12 Sony Corp コンテンツ再生装置および方法、並びにプログラム
US20120250830A1 (en) 2011-03-29 2012-10-04 Microsoft Corporation Conference signal anomaly detection

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5846396A (ja) * 1981-09-16 1983-03-17 株式会社日立製作所 音声信号検出装置
JPS607459A (ja) * 1983-06-27 1985-01-16 松下電器産業株式会社 音響装置
JPS62194298A (ja) * 1986-02-21 1987-08-26 株式会社日立製作所 ピツチ抽出方式
JPH02203397A (ja) * 1989-02-02 1990-08-13 Toshiba Corp 有音・無音検出方式
JPH0689095A (ja) * 1992-09-08 1994-03-29 Nippon Telegr & Teleph Corp <Ntt> 音響信号選択装置
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US9191260B1 (en) * 1999-04-05 2015-11-17 Lightworks Ii, Llc Method and apparatus to determine a match between signals
TW564400B (en) * 2001-12-25 2003-12-01 Univ Nat Cheng Kung Speech coding/decoding method and speech coder/decoder
US8024390B2 (en) * 2005-07-01 2011-09-20 Schneider Electric USA, Inc. Automated data alignment based upon indirect device relationships
BRPI0617432A2 (pt) * 2005-10-17 2011-07-26 Koninkl Philips Electronics Nv mÉtodos para calcular uma mÉtrica de similaridade, e um fator de ponderaÇço, software, e, dispositivo eletrânico para calcular uma mÉtrica de similaridade
JP2007292940A (ja) * 2006-04-24 2007-11-08 Toyota Motor Corp 音声識別装置及び音声識別方法
US8064552B2 (en) * 2008-06-02 2011-11-22 Harris Corporation Adaptive correlation
JP2012203351A (ja) * 2011-03-28 2012-10-22 Yamaha Corp 子音識別装置、およびプログラム
DE102014011424A1 (de) * 2014-07-31 2016-02-04 Airbus Operations Gmbh Technik der zerstörungsfreien Prüfung
EP3246824A1 (en) * 2016-05-20 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for determining a similarity information, method for determining a similarity information, apparatus for determining an autocorrelation information, apparatus for determining a cross-correlation information and computer program

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003132041A (ja) 2001-10-22 2003-05-09 Sony Corp 信号処理方法及び装置、信号処理プログラム、並びに記録媒体
JP2009511980A (ja) 2005-10-17 2009-03-19 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ入力信号についての特徴のセットを導出する方法
JP2008257020A (ja) 2007-04-06 2008-10-23 Alpine Electronics Inc メロディーの類似度算出方法及び類似度算出装置
JP2011065093A (ja) 2009-09-18 2011-03-31 Toshiba Corp オーディオ信号補正装置及びオーディオ信号補正方法
JP2012032677A (ja) 2010-08-02 2012-02-16 Sony Corp テンポ検出装置、テンポ検出方法およびプログラム
JP2012134715A (ja) 2010-12-21 2012-07-12 Sony Corp コンテンツ再生装置および方法、並びにプログラム
US20120250830A1 (en) 2011-03-29 2012-10-04 Microsoft Corporation Conference signal anomaly detection

Also Published As

Publication number Publication date
US10565284B2 (en) 2020-02-18
AU2017266384B2 (en) 2020-05-14
BR112018073889B1 (pt) 2024-03-12
WO2017198794A1 (en) 2017-11-23
AU2017266384A1 (en) 2018-12-06
CN109478198A (zh) 2019-03-15
CA3024772A1 (en) 2017-11-23
JP2021157180A (ja) 2021-10-07
KR20190008925A (ko) 2019-01-25
KR102306332B1 (ko) 2021-09-29
JP2019523901A (ja) 2019-08-29
EP3458973A1 (en) 2019-03-27
US20190095398A1 (en) 2019-03-28
CA3024772C (en) 2021-05-04
CN109478198B (zh) 2023-09-22
RU2018145032A (ru) 2020-06-22
BR112018073889A8 (pt) 2023-01-31
BR112018073889A2 (pt) 2019-02-26
RU2747442C2 (ru) 2021-05-05
RU2018145032A3 (ja) 2020-06-22
JP6962664B2 (ja) 2021-11-05
EP3246824A1 (en) 2017-11-22
MX2018014113A (es) 2019-06-17

Similar Documents

Publication Publication Date Title
JP7317888B2 (ja) 類似性情報決定装置、類似性情報決定方法、自己相関情報決定装置、相互相関情報決定装置およびコンピュータプログラム
US10418051B2 (en) Indexing based on time-variant transforms of an audio signal&#39;s spectrogram
JP5826291B2 (ja) 音声信号からの特徴フィンガープリントの抽出及びマッチング方法
KR100873396B1 (ko) 오디토리 이벤트에 기초한 특성을 이용하여 오디오를비교하는 방법
Bayya et al. Spectro-temporal analysis of speech signals using zero-time windowing and group delay function
KR100713366B1 (ko) 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치
KR101875477B1 (ko) 정보의 인코딩에 대한 개념
CN110718228A (zh) 语音分离方法、装置、电子设备及计算机可读存储介质
US8983082B2 (en) Detecting musical structures
Kumar et al. Gender classification using pitch and formants
CN106910494B (zh) 一种音频识别方法和装置
Farouk et al. Spectral analysis of speech signal and pitch estimation
CN110168641B (zh) 用于确定音高信息的装置和方法
CN115862685B (zh) 一种实时语音活动的检测方法、装置和电子设备
US11763805B2 (en) Speaker recognition method and apparatus
Ponraj et al. Extraction of speech signal based on power normalized cepstral coefficient and mel frequency cepstral coefficient: A comparison
Daniels Tempo Estimation and Causal Beat Tracking Using Ensemble Learning
Tao et al. Audio Tampering Detection Based on Quantization Artifacts
Samiappan et al. Epoch Extraction Using Hilbert–Huang Transform for Identification of Closed Glottis Interval
CN118016093A (zh) 一种基于跨模态损失的目标语音分离方法及系统
CN103811011A (zh) 音频弦波检测方法和装置
Ghazvini et al. Pitch period detection using second generation wavelet transform

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210607

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220607

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220902

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230327

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230719

R150 Certificate of patent or registration of utility model

Ref document number: 7317888

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150