JP2008518270A - オーディオ信号中の音符を検出する方法、システム及びコンピュータプログラムプロダクト - Google Patents

オーディオ信号中の音符を検出する方法、システム及びコンピュータプログラムプロダクト Download PDF

Info

Publication number
JP2008518270A
JP2008518270A JP2007538927A JP2007538927A JP2008518270A JP 2008518270 A JP2008518270 A JP 2008518270A JP 2007538927 A JP2007538927 A JP 2007538927A JP 2007538927 A JP2007538927 A JP 2007538927A JP 2008518270 A JP2008518270 A JP 2008518270A
Authority
JP
Japan
Prior art keywords
edge
detected
edges
time domain
detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007538927A
Other languages
English (en)
Inventor
ウォーカー,ジョン・キュー,ザ・セカンド
シュワラー,ピーター・ジェイ
グロス,アンドリュー・エイチ
Original Assignee
ゼンフ・ステューディオズ,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ゼンフ・ステューディオズ,インコーポレイテッド filed Critical ゼンフ・ステューディオズ,インコーポレイテッド
Publication of JP2008518270A publication Critical patent/JP2008518270A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/086Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for transcription of raw audio or music data to a displayed or printed staff representation or to displayable MIDI-like note-oriented data, e.g. in pianoroll format

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

音符を検出する方法、システム及び/又はコンピュータプログラムプロダクトは、オーディオ信号を受信し、長時間に亘ってオーディオ信号の複数個の周波数領域表現を生成する。時間領域表現は複数個の周波数領域表現から生成される。複数個のエッジが時間領域表現内で検出され、音符が時間領域表現の特性に基づいて音符に対応するものとして複数個のエッジのうちの一つを選択することにより検出される。

Description

本発明はデータ信号処理に関し、特に、データ信号中の着目している信号の検出に関する。
エンターテイメント業界では、映画製作の様々な態様で現実感のあるコンピュータグラフィックス(CG)を使用することが知られている。視覚領域内の自然な挙動のための多数のアルゴリズムが映画のため開発されている。たとえば、ジュラシック・パークのような映画では、恐竜がどのように見えるか、筋肉が骨格に関連してどのように動くか、及び、光が皮膚からどのように反射されるか、を決定するためにアルゴリズムが開発された。しかし、オーディオ、特に音楽の分野では、類似したタイプの問題は比較的取り扱われないままにされている。必要なステップは、音楽演奏中に起こる事柄を、演奏の細かいニュアンスが再現されることを可能にする正確な測定量に正しく採譜するための能力である。
音楽を特性化することは特に難しい問題であろう。典型的に、波形オーディオ(WAV)フォーマットから楽器デジタルインターフェイス(MIDI)フォーマットへの、音楽の「自動採譜」を提供することが試みる様々なアプローチがなされている。コンピュータ音楽家は、一般に、デジタル化された波形の歌曲を対応するMIDIフォーマットの音符に変換することを「WAV−to−MIDI」と呼ぶ。録音物のソースはアナログでもデジタルでもよく、変換プロセスは、レコード、テープ、CD、MP3ファイルなどから始まる。従来の音楽家は、一般に、このような歌曲の変換を「自動採譜」と呼ぶ。手動採譜技術は、典型的に、たとえば、即興ジャズ演奏を楽譜に書くため、録音物を繰り返し聴き、自分が聴き取った音符を楽譜上に注意深く写し取る熟練した音楽家によって使用される。
多数の学術団体が非営利的な状況において一部の問題を考察している。その上、様々な企業が、WAV−to−MIDI復号化用のソフトウェア、たとえば、Digital Ear(商標)、intelliScore(商標)、Amazing MIDI、AKoff(商標)、MB TRANS(商標)及びTranscribe!(商標)を提供する。これらの製品は、一般に、音楽家が記録物から簡単な楽譜を作成することを助けるために作曲家及びアマチュアに焦点を合わせ、音符ピッチ及び長さを決定する能力を含む。しかし、これらの知られている製品は、一般に、同時に2個以上の音符を処理する際に信頼性が低い。その上、これらの製品は、一般に、音楽の特性の全範囲を扱えない。たとえば、ピアノの場合、音符特性は、ピッチと、長さと、ストライク速度及びリリース速度と、キーアングルと、ペダルとを含む。自動採譜に関する学術研究もまた、たとえば、フィンランドのタンベレ工科大学において行われている。自動採譜に関する知られている研究は、一般に、音楽演奏の記録保存特性をもたらしていない。
レコード会社の保管庫及び個人コレクションには100年に亘る記録物が存在する。数多くの偉大な記録物はそれらを品質不良にさせた何らかの方法で損なわれているので、決してリリースされることがない。生演奏は、しばしば、バックグラウンドノイズ又は調子はずれのピアノ弦のため、商業的にリリースできない場合が多い。一昔前の数多くのアナログテープは、テープバインダを作る際に使用される化学式のために劣化している。アナログテープもまた、カセットレコーダのような低品質装置で記録されたので、決してリリースされることがない。同様に、数多くの望ましいスタジオ記録物も、それらの記録セッション中の楽器又は設備の問題に起因して、決してリリースされることがない。
レコーディング業界は、1980年代初頭のCDに続く、次の民生フォーマットのセット、すなわち、高品位サラウンドサウンドに着手している。新しいフォーマットは、DVD−オーディオ(DVD−A)ビデオ及びスーパーオーディオCD(SACD)を含む。今日使用されているホームサラウンドサウンドシステムは3300万台であり、この台数は高品位TVと共に急速に増加している。レコード業界における課題は、旧式オーディオ素材を再リリースのための最新式サウンドにすることである。このような変換の候補は、特に、1955年以前のモノラル記録物、マルチチャンネルマスターを伴わないステレオ記録物、一般的に粗悪なテープバインダ形成に起因して今では劣化している1970年台及び1980年代のマスターテープ、及び、サラウンドサウンドDVDとして発行された、ビデオキャプチャーと組み合わされたこれらのうちの何れかを含む。
別の音楽関連レコーディング分野は、印刷された楽譜からMIDIを作成する。たとえば、テキスト文書用の光学式文字読み取り装置(OCR)のように、音楽家が楽譜をスキャナに置き、走査された画像に基づいてその楽譜を音楽走査アプリケーションソフトウェアによってデジタル化されたフォーマットに変換させることを可能にするアプリケーションソフトウェアを提供することが知られている。同様にアプリケーション記譜ソフトウェアはMIDIファイルを印刷された楽譜に変換できることが知られている。
MIDIからWAVへの変換用のアプリケーションソフトウェアも知られている。パーソナルコンピュータ上のメディアプレーヤーは、典型的に、MIDIファイルを演奏する。使用するサンプル(アコースティック楽器のデジタル記録物の断片)が優れているほど、再生が典型的により良好に聞こえる。MIDIは、当初、少なくとも部分的には、たとえば、Korg、Kurzweil、Roland、及び、Yamahaから入手可能な(弦又はハンマーをもたない)MIDI電子ピアノのような電子楽器に、演奏細部を記述するために設計された。
本発明の一部の実施形態は、オーディオ信号を受信し、長時間に亘ってオーディオ信号の複数個の周波数領域表現を生成する、音符を検出する方法、システム、及び/又は、コンピュータプログラムプロダクトを提供する。時間領域表現は複数個の周波数領域表現から生成される。複数個のエッジが時間領域表現内で検出され、音符が時間領域表現の特性に基づいて音符に対応するものとして複数個のエッジのうちの一つを選択することにより検出される。
本発明のその他の実施形態では、音符を検出する方法、システム、及び/又は、コンピュータプログラムプロダクトは、オーディオ信号を受信し、長時間に亘ってオーディオ信号の周波数領域表現の複数の組を生成し、それぞれの組が異なるピッチと関連付けられている。複数個の候補音符は、周波数領域表現の組に基づいて特定され、候補音符のそれぞれがピッチと関連付けられている。共通の関連した出現時間を有する異なるピッチをもつ候補音符の集まりはグループ分けされ、グループ分けされた候補音符に関連付けられた強度が決定される。ピッチの変化に伴う決定された強度の変化によって定められる勾配が決定され、音符が決定された勾配に基づいて検出される。
本発明のさらなる実施形態では、音符を検出する方法は、オーディオ信号を受信するステップを含む。不均一な周波数境界は、異なるピッチに対応する複数個の周波数範囲を提供するため定義される。長時間に亘ってオーディオ信号の周波数領域表現の複数の組が生成され、それぞれの組が異なるピッチのうちの一つと関連付けられている。音符は周波数領域表現の複数の組に基づいて検出される。
本発明のさらに別の実施形態では、信号エッジを検出する方法、システム、及び/又は、コンピュータプログラムプロダクトは、信号エッジ及びノイズ生成エッジを含むデータ信号を受信する。データ信号は、第1のエッジ検出データを提供するために第1のタイプのエッジ検出器を通じて処理され、第2のエッジ検出データを提供するために、第1のタイプのエッジ検出器とは異なる、第2のタイプのエッジ検出器を通じて処理される。データ信号中のエッジのうちの一つは、第1のエッジ検出データ及び第2のエッジ検出データに基づいて信号エッジとして選択される。第3のエッジ検出器がさらに利用されることがある。
本発明のさらなる実施形態では、音符を検出する方法、システム、及び/又は、コンピュータプログラムプロダクトは、オーディオ信号を受信し、長時間に亘ってオーディオ信号の複数個の周波数領域表現を生成する。時間領域表現は複数個の周波数領域表現から生成される。時間領域表現の滑らかさの尺度が計算され、音符が滑らかさの尺度に基づいて検出される。
本発明の別の実施形態では、音符を検出する方法、システム、及び/又は、コンピュータプログラムプロダクトは、オーディオ信号を受信し、長時間に亘ってオーディオ信号の複数個の周波数領域表現を生成する。時間領域表現は複数個の周波数領域表現から生成される。出力信号が、受信されたオーディオ信号に基づいてエッジ検出器からさらに生成される。時間領域表現と関連付けられた特性化パラメータが計算され、エッジ検出器からの出力信号と関連付けられた特性化パラメータが計算される。音符は、時間領域表現の計算された特性化パラメータ及びエッジ検出器からの出力信号の計算された特性化パラメータに基づいて検出される。
本発明は、次に、本発明の例示的な実施形態が示されている添付図面を参照して以下で完全に説明されている。しかし、本発明は、数多くの異なる形でも具現化され、本書に記載された実施形態に限定されるように解釈されるべきではなく、むしろ、これらの実施形態は、本開示内容が十分かつ完全になり、本発明の範囲を当業者に十分に伝えるように掲載されている。類似した番号は全体を通じて類似した要素を参照している。本明細書で使用されているように、用語「及び/又は」は、一つ以上の関連した列挙された項目のありとあらゆる組み合わせを含む。
本明細書で使用される術語は、特定の実施形態を記述することのみを目的とし、本発明の限定となることが意図されていない。本明細書において使用されているように、単数形「a」、「an」及び「the」は、前後関係が明瞭に他を示さない限り、複数形もまた含むことが意図されている。用語「備える(comprises)」及び/又は「備えている(comprising)」は、本明細書において使用されるとき、記載された特長、整数、ステップ、動作、要素、及び/又は、コンポーネントの存在を明示するが、一つ以上のその他の特長、整数、ステップ、動作、要素、コンポーネント、及び/又は、それらのグループの存在又は追加を排除しないことがさらに理解される。
特に断らない限り、本明細書で使用される(技術用語及び科学用語を含む)すべての用語は、本発明が属する分野における当業者によって一般に理解されている意味と同じ意味をもつ。一般に使用されている辞書に定義されているような用語は、当分野の文脈におけるそれらの意味と矛盾しない意味をもつように解釈されるべきであり、本書において明白に定義されない限り、理想化された、又は、過度に形式的な意味で解釈されないことがさらに理解される。
当業者によって認められるように、本発明は、方法、データ処理システム、及び/又は、コンピュータプログラムプロダクトとして具現化される。したがって、本発明は、本明細書ではすべてが広く「回路」又は「モジュール」のように呼ばれている、完全にハードウェアによる実施形態、完全にソフトウェアによる実施形態、又は、ソフトウェアの態様とハードウェアの態様を組み合わせる実施形態の形をしてもよい。さらに、本発明は、コンピュータ使用可能な記憶媒体上の、媒体に埋め込まれたコンピュータ使用可能なコードを有するコンピュータプログラムプロダクトの形をしている。ハードディスク、CD−ROM、光学式記憶装置、インターネット若しくはイントラネットをサポートする媒体のような伝送媒体、又は、磁気記憶装置を含む適当なコンピュータ読取可能な媒体が利用される。
本発明の動作を実行するコンピュータプログラムコードはJAVA(登録商標)7、Smalltalk又はC++のようなオブジェクト指向プログラミング言語で記述される。しかし、本発明の動作を実行するコンピュータプログラムコードは、Cプログラミング言語のような従来型の手続き型プログラミング言語で記述してもよく、VisualBasicのようなビジュアル指向プログラミング環境で記述してもよい。PHP、Python、XULなどのような動的スクリプト言語もまた使用されてもよい。本発明の動作を実行するコンピュータプログラムコードを提供するためにプログラミング言語の組み合わせを使用することも可能である。
プログラムコードは、スタンドアローンソフトウェアパッケージとして、完全に又は部分的にユーザのコンピュータ上で動き、部分的にユーザのコンピュータ上とリモートコンピュータ上とで動き、又は、完全にリモートコンピュータ上で動く。後者のシナリオでは、リモートコンピュータは、ローカル・エリア・ネットワーク(LAN)若しくはワイド・エリアネット・ワーク(WAN)を介してユーザのコンピュータに接続され、又は、(たとえば、インターネット・サービス・プロバイダを使用してインターネットを介して)外部コンピュータへの接続が行われてもよい。
本発明は、本発明の一部の実施形態による方法、システム、及び/又は、コンピュータプログラムプロダクトのフローチャート図及び/又はブロック図を参照して、ある程度後述される。説明図の各ブロック、及び、ブロックの組み合わせがコンピュータプログラム命令によって実施され得ることが理解される。これらのコンピュータプログラム命令は、コンピュータ又はその他のプログラマブルデータ処理装置のプロセッサによって実行する命令がブロック又は複数のブロックにおいて指定された機能/作用を実施する手段を作成するような機械を製造するために、汎用コンピュータ、専用コンピュータ、又は、その他のプログラマブルデータ処理装置のプロセッサに供給されてもよい。
これらのコンピュータプログラム命令は、コンピュータ読み取り可能なメモリに格納された命令がブロック又は複数のブロックにおいて指定された機能/作用を実施する命令手段を含む製品を生成するように、コンピュータ又はその他のプログラマブルデータ処理装置に特定の方法で機能するように命令することができるコンピュータ読み取り可能なメモリに格納されてもよい。
コンピュータプログラム命令は、コンピュータ又はその他のプログラマブル装置上で動く命令がブロック又は複数のブロックにおいて指定された機能/作用を実施するステップを提供するように、コンピュータで実施されるプロセスを生成するため一連の動作ステップをコンピュータ又はその他のプログラマブル装置上で実行させるためにコンピュータ又はその他のプログラマブルデータ処理装置にロードされてもよい。
本発明の実施形態は、図1〜13を参照してこれから説明される。本書に記載されているように、本発明の一部の実施形態は、エッジを検出する方法、システム及びコンピュータプログラムプロダクトを提供する。さらに、本発明の特定の実施形態は、音符の検出を提供し、たとえば、MIDIのようなデジタルフォーマットへの楽譜の自動採譜と関連して使用されてもよい。このような演奏の操作及び再生は、MIDIフォーマットのような音符に基づくデジタルフォーマットへの変換によって促進されてもよい。
コンピュータテクノロジーを使用して、本発明の種々の実施形態による音符の検出は、非常に現実感のある再生と向上した双方向性とを提供する形においてオーディオテクノロジーを進歩させることにより、どのようにして音楽が作成され、解析され、維持されるかを変更してもよい。たとえば、本発明の一部の実施形態は、ピアノ記録物のための光学式文字認識(OCR)に類似した能力を提供する。このような実施形態では、ピアノ記録物は、ピアノ記録物を作成するために使用される打鍵及びペダル動作に逆変換されてもよい。これは、たとえば、対応するコンピュータ制御されたグランドピアノ上で高度な現実感を伴って再生される高分解能MIDIフォーマットで行われてもよい。
換言すると、本発明の一部の実施形態は、記録物を容易に操作できるフォーマットへ戻す復号化を可能にしてもよい。そのようにすることは、歴史的な記録物保管庫内の資産価値を解明することにより音楽業界のためになる。このような記録物は、優れたホール内の正しく調律されたコンサートグランドピアノ上で再演奏することができる新しい演奏に再生利用される。主要な音楽製作会社は、その結果、現代的なサウンドで自分たちの作品を再記録できる。音楽製作会社は、今日の高品位サラウンドサウンドスーパーオーディオCD(SACD)、又は、DVD−オーディオ(DVD−A)のような多様な記録フォーマットを使用し、バックカタログから記録物を再リリースすることが可能である。音楽製作会社は、再リリースの際に最新のデジタル権利管理を使用することを選択することも可能である。
次に、図1を参照して、本発明の一部の実施形態によるシステムで使用するため適したデータ処理システムのブロック図が説明される。図1に示されているように、データ処理システム30の典型的な実施形態は、マイクロホン、キーボード又はキーパッドのような入力装置32(複数可)、ディスプレイ34、及び、プロセッサ38と通信するメモリ36を含む。データ処理システム30は、スピーカー44、及び、やはりプロセッサ38と通信するI/Oデータポート46(複数可)をさらに含んでもよい。I/Oデータポート46は、データ処理システム30と別のコンピュータシステム又はネットワークとの間で情報を転送するため使用される。これらのコンポーネントは、数多くの従来型のデータ処理システムで使用されるコンポーネントのような、本書に記載されているように動作するために構成された従来型のコンポーネントでもよい。
図2は、本発明の一部の実施形態によるシステム、方法、及び/又は、コンピュータプログラムプロダクトを説明するデータ処理システムのブロック図である。プロセッサ38は、アドレス/データバス48を介してメモリ36と通信する。プロセッサ38は、マイクロプロセッサのような市販プロセッサ又はカスタムプロセッサでもよい。メモリ36は、データ処理システム30の機能を実施するため使用されるソフトウェア及びデータを格納するメモリ装置の全体的な階層を表している。メモリ36は、限定されることはないが、以下のタイプの装置、すなわち、キャッシュ、ROM、PROM、EPROM、EEPROM、フラッシュメモリ、SRAM、及び/又は、DRAMを含むことができる。
図2に示されているように、メモリ36は、データ処理システム30において使用されるソフトウェア及びデータの数個のカテゴリー、すなわち、オペレーティングシステム52、アプリケーションプログラム54、入力/出力(I/O)装置ドライバ58、及び、データ60を含んでもよい。当業者によって認められるように、オペレーティングシステム52は、ニューヨーク州アーモンク市所在のInternational Business Machines CorporationからのOS/2、AIX、若しくは、System 390と、ワシントン州レッドモンド所在のMicrosoft CorporationからのWindows(登録商標)95、Windows(登録商標)98、Windows(登録商標)2000、若しくは、Windows(登録商標)XPと、Unix(登録商標)と、Linuxと、Sun Solarisと、Apple Macintosh OS Xなどのような、データ処理システムと共に使用するために適したどのようなオペレーティングシステムでもよい。I/O装置ドライバ58は、典型的に、I/Oデータポート46(複数可)及びある種のメモリ36コンポーネントのような装置と通信するために、アプリケーションプログラム54によってオペレーティングシステム52を介してアクセスされるソフトウェアルーチンを含む。アプリケーションプログラム54は、データ処理システム30の種々の機能を実施するプログラムを例示する。最後に、データ60は、アプリケーションプログラム54、オペレーティングシステム52、I/O装置ドライバ58、及び、メモリ36に備わり得るその他のソフトウェアプログラムによって使用される静的データ及び動的データを表わす。
図2においてさらに分かるように、アプリケーションプログラム54は、周波数領域モジュール62と、時間領域モジュール64と、エッジ検出モジュール65と、音符検出モジュール66とを含んでいてもよい。周波数領域モジュール62は、本発明の一部の実施形態では、限定されるものではないが、高速フーリエ変換(FFT、DFT、DTFT、STFTなど)、ウェーブレットに基づく変換(ウェーブレット、ウェーブレットパケットなど)の変換を使用して、及び/又は、限定されるものではないが、線形最小二乗法、非線形最小二乗法、高次Yule−Walker法、Pisarenko法、MUSIC法、ESPRIT法、最小ノルム法などのようなスペクトル推定技術、又は、長時間に亘ってオーディオ信号のその他の表現を使用して、周波数領域表現の複数の組を生成する。各組は、異なる時間に取得された特有の周波数と関連付けられてもよい。時間領域モジュール64は、周波数領域表現の各組(すなわち、長時間に亘る特有の周波数のFFTデータのプロット)から時間領域表現を生成してもよい。エッジ検出モジュール65は、時間領域モジュール64からの時間領域表現(複数可)において複数個のエッジを検出してもよい。最後に、音符検出モジュール66は、時間領域表現(複数可)の特性に基づいて音符に対応するものとしてエッジのうちの一つを選択することにより音符を検出する。種々のアプリケーションモジュールの動作は、図3〜13のフローチャート図に例示された実施形態を参照してさらに説明される。
メモリ36のデータ部60は、図2に例示された実施形態に示されているように、周波数境界データ67と、音符勾配パラメータデータ69と、パラメータ重みデータ71とを含んでもよい。周波数境界データ67は、周波数領域モジュール62によって周波数領域表現を生成する不均一な周波数境界を提供するため使用されてもよい。音符勾配パラメータデータ69は、本明細書でさらに説明されるように、エッジ検出においてエッジ検出モジュール65によって利用されてもよい。最後に、パラメータ重みデータ71は、エッジ検出モジュール65からのいずれのエッジが音符に対応するかを決定するために、音符検出モジュール66によって使用されてもよい。
本発明の実施形態は、アプリケーションプログラムとデータ等との間の特有の分割に関して図2に例示されているが、本発明は、本書に記載された動作を実行する能力のあるあらゆる構成を包含するので、図2の構成に限定されるものとして解釈されるべきではない。たとえば、エッジ検出64及び音符検出66は、別々のアプリケーションとして例示されているが、アプリケーションによって提供される機能は、単一のアプリケーションにおいて提供されてもよく、又は、3個以上のアプリケーションにおいて提供されてもよい。
上記の音楽の自動採譜に対する様々な知られたアプローチは、ラプラス変換、高速フーリエ変換(FFT)、離散フーリエ変換(DFT)、又は、短時間フーリエ変換(STFT)のようなデジタル信号処理(DSP)動作で、オーディオ信号を処理する。この初期処理に対する代替的なアプローチは、ガンマトーンフィルタ、バンドパスフィルタなどを含む。DSPからの周波数領域情報は、次に、音符特定プロセスへ、典型的に、知られている入力オーディオ信号のうちのある形に基づいて訓練されたニューラルネットワークへ供給される。
その一方、本書に記載されているように、本発明の一部の実施形態は、エッジ検出モジュール65によるエッジ検出を経由して周波数領域データを処理し、次に、検出されたエッジに基づいて音符検出モジュール66による音符検出を実行する。換言すると、複数個のエッジは、周波数領域情報からの特定のピッチに対し生成された時間領域表現において検出される。時間領域表現は長時間に亘る特定のピッチに対する周波数領域表現の組に対応し、時間領域表現の分解能は、FFTのような周波数領域表現を生成する際に使用される分解能ウィンドウに依存することが理解される。換言すると、立ち上がりエッジは、特定の時間に特定の周波数バンド(ピッチ)で現れるエネルギーに対応する。
音符検出は、その後、音符(すなわち、基音)を倍音から識別し、ブリード及び/又はノイズ信号をその他のソースから識別するために、検出されたエッジを処理する。検出された音符に関するさらなる情報は、音符に対応することが分かったエッジの検出の時間と関連付けられた開始時間に加えて、時間領域表現から決定されてもよい。たとえば、最大振幅及び長さが検出された音符に対して決定され、その特性は、たとえば、ピアノ打鍵の場合に、ストライク速度、長さ、及び/又は、リリース速度のような音符の能力をさらに特性化する。ピッチは、検出された音符を含む時間領域表現を構築するため使用される周波数領域表現の周波数バンドに基づいて特定されてもよい。
さらに本書において説明されるように、本発明の実施形態と共に使用するため適したエッジ検出のための様々な技術が知られているが、本発明の一部の実施形態は、様々なタイプの複数のエッジ検出器による時間領域表現の処理のような、エッジ検出に対する新しいアプローチを利用する。1台のエッジ検出器は時間領域表現中にエッジが存在することを特定する一次ソースとして取り扱われ、その他のエッジ検出器は、照合のため利用され、及び/又は、一次エッジ検出器からの検出されたエッジの方が音符と対応する可能性が高いということを示すヒントとして利用され、その情報が後続の音符検出動作中に使用されてもよい。次いで、3台のエッジ検出器を利用する構成の一例が説明される。
本明細書で使用されるようなエッジ検出器が、データ中に存在するエッジと関連付けられた鋭い立ち上がりを検出するために設定された形状検出器を指すことは理解される。(2番目の音符がはるかに小さな立ち上がりを有する場合の繰り返される音符のような)ある種のケースでは、エッジは容易に検出されず、エッジ検出は、繰り返される音符のピークの頂点における上限のようなその他の形状の検出に基づいている。
本例の第1の、すなわち、一次エッジ検出器は、一般的に2オクターブの音域に亘って出現する典型的な音符に対して期待される立ち上がりエッジ勾配におおよそ対応する立ち上がりエッジ勾配に調整された従来型のエッジ検出器である。しかし、各ピッチは、エッジ検出によって処理された異なる時間領域表現に対応するので、エッジ検出器は、処理されている時間領域表現に対応する特定のピッチの音符に対し期待される勾配に調整され、その後、他の時間領域表現のため再調整される。音楽の自動採譜は時間に敏感でなくてもよいので、異なるピッチの並列処理のための複数台の別々に調整された一次エッジ検出器を設けるのではなく、再較正される一般的なエッジ検出器が使用される。エッジ検出器は、検出された開始とピーク時間との中間にある点に基づいて、検出された立ち上がりエッジの開始時間を選択するためにも調整され、開始時間検出の変動を低減されてもよい。
周波数領域表現を生成するサンプル周期は、周波数領域表現から生成される対応する時間領域表現の時間分解能を増大させるために減少させてもよいことがさらに理解される。たとえば、本発明者は10ミリ秒の分解能を利用することに成功したが、ある種の例では、検出された音符の開始時間のより一層正確な特定を行うために、分解能を1ミリ秒まで増大させることが望ましい。しかし、そのようにすることは、周波数領域表現の生成の際に必要とされるデータ処理の量を増加させることが理解される。
本発明の複数台のエッジ検出器の実施形態の本例を続けると、第2のエッジ検出器は、エッジ内のエネルギーではなく、エッジの形状に反応する検出器であってもよい。換言すると、入力信号の正規化は、異なる形状を有するより「明瞭な」エッジのさらに一層大きなエネルギーレベルとは違って、立ち上がりエッジの特定の形状の検出に対する感度を高めるために行われてもよい。この特定の例では、第3のエッジ検出器もまた「ヒント」(すなわち、第1のエッジ検出器によって検出されたエッジの照合)を提供するために使用される。第3のエッジ検出器は、一次エッジ検出器と同様に、エネルギーに反応するエッジ検出器であるが、しかし、エッジを検出するためにより多くのエネルギーを必要とするように構成してもよい。たとえば、第1のエッジ検出器は、10個のデータ点に亘り、各々が10ミリ秒である(合計が100ミリ秒である)解析ウィンドウを有し、第3のエッジ検出器は、30個のデータ点の(合計が300ミリ秒である)解析ウィンドウを有してもよい。
より長時間の解析ウィンドウの特定の長さが、たとえば、検出された音符を生成する楽器の特性に基づいて選択されてもよい。ピアノは、たとえば、典型的に、少なくとも約150ミリ秒の音符長を有するので、ピアノ譜は、第1のエッジ検出器の解析ウィンドウより長く続き、したがって、第3のエッジ検出器によって解析されるときに付加的なエネルギーを供給することが期待されるが、時間信号中のノイズパルスは解析ウィンドウの拡張によって付加的なエネルギーを供給しなくてもよい。
本明細書でさらに説明されるように、本発明の種々の実施形態では、一旦エッジが検出されると、エッジが検出された時間領域表現の複数個の特性化パラメータが音符を検出する際に使用するため生成されてもよい。このような特性化パラメータの特有の例は、図中のフローチャート図を参照して本発明の種々の実施形態を説明した後に記載される。
図3は、たとえば、アプリケーションプログラム54によって実行されてもよい本発明の一部の実施形態による音符を検出する動作を説明する。図3の実施形態において分かるように、動作は長時間に亘ってオーディオ信号の複数個の周波数領域表現を生成することによりブロック300で始まる。時間領域表現(複数可)は、複数個の周波数領域表現から生成される(ブロック310)。時間領域表現は、周波数領域表現を提供するために、FFTなどを生成する際にサンプリングのため使用される分解能によって決定された分解能で、長時間に亘ってプロットされた所与の周波数バンド(ピッチ)に対するブロック310からの周波数領域情報であってもよい。複数個のエッジが時間領域表現(複数可)中で検出される(ブロック315)。音符は、ブロック310において生成された時間領域表現(複数可)の特性に基づいて音符に対応するものとして複数個のエッジのうちの一つを選択することにより検出される。
本発明は、長時間に亘って複数個の周波数領域表現から生成された単一の時間領域表現中の単一の音符の検出を包含するが、音楽の自動採譜は、典型的に、異なるピッチを有する複数個の異なる音符の捕捉を伴うことが理解される。よって、ブロック300における動作は、長時間に亘ってオーディオ信号の周波数領域表現の複数の組を生成する動作を伴ってもよく、各組は異なるピッチと関連付けられている。さらに、ブロック310における動作は、周波数領域表現の各組から複数個の時間領域表現を生成する動作を含んでもよく、各時間領域表現は異なるピッチのうちの一つと関連付けられている。複数個のエッジは、異なる音符、ブリード、又は、音符の倍音と関連付けられた一つ以上の時間領域表現においてブロック315で検出されてもよい。
ブロック320で音符を検出する動作は、音符の長さを決定する動作を含んでもよい。長さは音符を生成する機械的な作用と関連付けられている。たとえば、機械的な作用は、ピアノ上の打鍵である。
図3の実施形態に関して上述されたように、周波数領域データは、特定の音楽ピッチに対応する複数個の周波数に対して生成されてもよい。本発明の一部の実施形態では、周波数領域データの生成は、自動ピッチ追跡をさらに含んでもよい。楽器には、典型的に、音符が演奏されるときに生成される一次(基本)周波数が存在する。この一次周波数は、一般に倍音を伴う。楽器が調律されているとき、各音符/ピッチに対応する周波数は、典型的に、所定のスケールの組によって定義される。しかし、多数の要因によって、この一次周波数(したがって、同様に倍音)が期待周波数から逸れてもよい(たとえば、楽器に関する音符は調子が外れる)。よって、調子が外れる音符に適応するため処理中にピッチ追跡を提供することが望ましい。
本発明の一部の実施形態では、ピッチ追跡は、調子が外れる音符を追跡するために、周波数追跡アルゴリズム(たとえば、位相ロックループ、等化アルゴリズムなど)を使用して行われてもよい。1つの処理モジュールが一次周波数と各倍音のため設けられてもよい。複数の周波数発生器(たとえば、ピアノ上で使用される複数の弦、又は、ギター上の異なる弦)の場合、複数の処理モジュールが一次周波数及び対応する倍音のそれぞれのため設けられてもよい。一次周波数が変化すると、対応する変化が典型的に関連した倍音追跡処理モジュールのそれぞれに組み込まれる必要があるので、通信が各追跡エンティティの間で行われる。
ピッチ追跡は、未加工データに(事前)実施され、適用されるか、又は、処理の適応中に並列に行われる。代替的に、音符が初期採譜パスから欠けていることが判定されると、ピッチ追跡プロセスが事後に適用される。ピッチ追跡プロセスは、その後に、調子が外れているために損失が存在する音符だけに適用される。本発明のその他の実施形態では、手動修正(手動ピッチ追跡)が、本書に記載された自動ピッチ追跡に代わる手段として、同様に周波数ドリフト問題を補償するために適用され得る。
音符を検出する本発明のさらなる実施形態が、次に、図4のフローチャート図を参照して説明される。動作は、図4の実施形態の場合、オーディオ信号を受信することから始まる(ブロック400)。長時間に亘ってオーディオ信号の周波数領域表現の複数の組が生成される(ブロック410)。周波数領域表現の各組は異なるピッチと関連付けられる。複数個の候補音符が周波数領域表現の組に基づいて特定される(ブロック420)。各候補音符はピッチと関連付けられる。
共通の関連した出現時間を有する異なるピッチを伴う候補音符がグループ分けされる(ブロック430)。候補音符のグループと関連付けられた強度が決定される(ブロック440)。ピッチの変化に伴う決定された強度の変化によって定められた勾配が次に決定される(ブロック450)。音符は、その後、決定された勾配に基づいて検出される(ブロック460)。よって、図4において説明された実施形態の場合、基本音符のピーク強度と基本音符の倍音との間の相対的な強度関係が、ノイズ、倍音、ブリードなどと対照されて、オーディオ信号中の音符の存在を識別するために使用される。
本発明のその他の実施形態では、倍音と基本音符との間の関係は、図4を参照して説明されたように勾配情報を生成することなく、音符検出に利用されることが理解される。よって、複数個のエッジが2個以上の別個の時間領域表現中で検出される場合、音符の検出は、音符の基音に対応するものとして最初の時間領域表現中のエッジのうちの一つを特定し、音符の倍音に対応するものとして別の時間領域表現中のエッジのうちの一つを特定する動作を含んでもよい。よって、基音から倍音を識別するために、倍音の範囲の全域に亘るピッチの増加に伴って強度変化を比較する必要がない。
本発明のさらなる実施形態による音符の検出の動作は次に図5のフローチャート図を参照して説明される。図5の実施形態に関して示されているように、動作は、オーディオ信号を受信することによりブロック500で始まる。不均一な周波数境界が異なるピッチに対応する複数個の周波数域を提供するために定義される(ブロック510)。このような不均一な周波数境界は、たとえば、周波数境界データ67(図2)に記憶されてもよい。
オーディオ信号の周波数領域表現の複数の組が長時間に亘って生成される(ブロック520)。各組は異なるピッチのうちの一つと関連付けられる。音符は、その後、周波数領域表現の複数の組に基づいて検出される(ブロック530)。
ブロック510における不均一な周波数境界を画定する動作は、音符に対応する複数個の所定のピッチ毎に実質的に均一な分解能を提供するために、不均一な周波数境界を画定する動作を含んでもよい。不均一な周波数境界は、音符の倍音に対応する複数個の所定のピッチ毎に周波数域を提供するためにさらに設けられてもよい。
図5を参照して説明された不均一な周波数境界は、図3及び4を参照して上述された実施形態と共に利用してもよい。よって、不均一な周波数境界は、異なるピッチに対応する周波数領域表現の各組と関連付けられた周波数域を提供するために定義されてもよい。実質的に均一な分解能は、不均一な周波数境界の選択によって、音符に対応する複数個の所定のピッチ毎に設けられてもよい。
本発明の種々の実施形態による信号エッジを検出する動作は次に図6のフローチャート図を参照して説明される。動作は、信号エッジと、ノイズによって生成されたエッジとを含むデータ信号の受信によってブロック600で始まる。データ信号は、第1のエッジ検出データを提供するため、第1のタイプのエッジ検出器による処理である(ブロック610)。本発明の特定の実施形態では、第1のタイプのエッジ検出器は、データ信号中のエッジのエネルギーレベルに反応し、信号エッジの勾配特性に合わされてもよい。たとえば、特定のピッチと関連付けられた音符の音符勾配パラメータは音符勾配パラメータデータ69(図2)に記憶されてもよく、第1のエッジ検出器を較正するために使用されてもよい。第1のタイプのエッジ検出器は、種々のタイプの信号エッジを表す共通勾配特性に合わされてもよく、又は、それぞれの勾配特性が、音楽的に異なる音符と関連付けられた信号エッジのような、様々なタイプの信号エッジを表す複数個の勾配特性に合わされることもある。
データ信号表現は、異なるエッジ保護データを提供するために、第1のタイプのエッジ検出器とは異なる第2のタイプのエッジ検出器を通じてさらに処理される(ブロック620)。たとえば、第2のタイプのエッジ検出器は、データ信号中で検出されたエッジの形状に反応するように正規化されてもよい。
第1及び第2のエッジ検出器に加えて、ブロック630に示されているように、本発明の一部の実施形態では、データ信号は第3のエッジ検出を通じてさらに処理される。第3のエッジ検出器は、第1のエッジ検出器と同じタイプのエッジ検出器でも構わないが、より長時間の解析ウィンドウを有する。第3のエッジ検出器のためのより長時間の解析ウィンドウは、信号エッジと関連付けられた特性長さと少なくとも同じ長さになるように選択されてもよい。たとえば、信号エッジがピアノ鍵の打鍵によって生成されたことが期待されるエッジに対応するとき、鍵の機械的特性は、鍵によって打鍵された音符から期待される長さの範囲を制限してもよい。したがって、第3のエッジ検出器は、第1のタイプのエッジ検出器より高いエネルギーレベル閾値に基づいてエッジを検出してもよい。よって、本発明の一部の実施形態では、第3のエッジ検出データの組が第1及び第2のエッジ検出データに加えて提供される。
データ信号中のエッジのうちの一つが、第1のエッジ検出データ、第2のエッジ検出データ、及び/又は、第3のエッジ検出データに基づいて、信号エッジとして選択される(ブロック640)。本発明の特定の実施形態では、ブロック640での動作は、第1のエッジ検出データ中で検出されたエッジと第2のエッジ検出データ及び/又は第3のエッジ検出データ中で検出されたエッジとの対応関係に基づいてエッジが信号エッジに対応する可能性を増加させる動作を含む。ピアノのような楽器の場合、第3のエッジ検出器のためのより長時間の解析ウィンドウは約300ミリ秒であってもよい。
図6を参照して説明された信号エッジ検出動作は、本発明のその他の実施形態に関して上述されたような音符の検出に適用されてもよいことが理解される。よって、第1のタイプのエッジ検出器は音符の勾配特性に合わせられてもよく、第2のタイプのエッジ検出器は、一つの時間領域表現中の音符によって形成されたエッジの状態に応答するように正規化されてもよい。第1のタイプのエッジ検出器は音符の範囲を表す勾配特性に合わせられてもよく、共通勾配特性はエッジ検出に使用されるか、又は、それぞれが異なる音符を表す複数個の勾配特性に合わせられてもよい。本発明の特定の実施形態では、開始時間を音符の検出と関連付けるとき、開始時間は、開始やピーク点自体ではなく、音符と関連付けられた検出されたエッジの開始とピークとの中間にある点に対応するように選択されてもよい。
音符を検出する動作が、次に、図7のフローチャート図を参照して本発明のさらなる実施形態に関して説明される。図7に示された実施形態では、動作はオーディオ信号を受信することによりブロック700で始まる。長時間に亘ってオーディオ信号の複数個の周波数領域表現が生成される(ブロック710)。時間領域表現は複数個の周波数領域表現から生成される(ブロック720)。時間領域表現の滑らかさの尺度が次に計算される(ブロック730)。音符はその後に滑らかさの尺度に基づいて検出されてもよい(ブロック740)。本発明者は、時間領域表現中の信号の滑らかさ特性は、ノイズ信号と音符とを区別するため特に効果的な特性化パラメータであってもよいことを発見した。時間領域表現内の曲線のような滑らかさの尺度を生成する方法の様々な特定の実施形態が、次に、図8を参照して説明される。
図8の図解された実施形態に示されているように、動作は、時間領域表現の、自然対数のような、対数を計算することによりブロック800で始まる。時間領域表現の自然対数の移動平均関数がその後に計算される(ブロック810)。ブロック800から計算された自然対数とブロック810からの移動平均関数は、次に、滑らかさの尺度を与えるために比較されてもよい。たとえば、図8に図解された特定の実施形態では、比較動作は、それぞれの時点での自然対数と移動平均関数との間の差を決定する動作を含む(ブロック820)。決定された差は、次に、滑らかさの尺度を与えるために計算ウィンドウに亘って加算される(ブロック830)。たとえば、オーディオ信号は、FFTデータの時間領域表現を提供するために時間シーケンス内に配列されたFFTを使用して処理されてもよい。
raw(t)=S(t)+N(t)
式中、Fraw(t)はFFTデータの時間領域表現であり、S(t)は信号であり、N(t)はノイズである。自然対数のような対数は、下記の通り取得される。
ln(ti)=ln(Fraw(ti))
自然対数の平均関数は下記の通り生成される。
final(ti)=(Fln(ti-1)+Fln(ti)+Fln(ti+1))/3
最終的に、滑らかさの尺度関数(var10d)が、平均関数と自然対数との間の差の10点平均として生成される。この滑らかさの尺度の特定の実施例では、より小さな値は曲線に関するより滑らかな形状を示す。
ブロック840に示されているように、その他の方法が滑らかさの尺度を特定するため利用される。たとえば、ブロック840に示された動作では、滑らかさの尺度は、自然対数中の特定されたピークの周りのカウント時間ウィンドウ内で自然対数中の勾配方向の変化の回数を決定することにより決定されてもよい。
本発明のなおさらなる実施形態による音符を検出する動作が、次に、図9を参照して説明される。図9に示されているように、動作はオーディオ信号を受信することによりブロック900で始まる。オーディオ信号の複数個の周波数領域表現が長時間に亘って生成される(ブロック910)。時間領域表現は次に複数個の周波数領域表現から生成される(ブロック920)。オーディオ信号はエッジ検出器を通じてさらに処理され、エッジ検出器からの出力信号が受信されたオーディオ信号に基づいて生成される(ブロック930)。
特性化パラメータは、時間領域表現と関連付けて計算される(ブロック940)。上述の通り、特性化パラメータは、第1のエッジ検出器を通じて検出されたエッジ毎に、又は、エッジ検出器からの出力信号のための最小振幅閾値規準を満たすエッジ毎に計算されるてもよい。特性化パラメータは時間領域表現に関して生成されてもよく、後述されるように本発明の一部の実施形態ではエッジ検出器からの出力信号に関しても生成されてもよい。適当な特性化パラメータの例示的な組が次に本発明の特定の実施形態に関して説明される。この特定の実施形態では、時間領域表現に基づく特性化パラメータは、最大振幅、長さ、及び、波形特性を含む。波形特性は、前縁形状、1次微分、及び、降下(すなわち、ピーク振幅を過ぎた固定時点で振幅が減衰した量)を含む。その他のパラメータは、ピーク振幅までの時間、滑らかさの尺度、滑らかさの尺度のランレングス(すなわち、(例外を全く許さないか、若しくは、限られた個数の例外を許す)閾値規準に満たない行内の滑らかな点の個数)、ピーク振幅で始まる各方向における滑らかさの尺度のランレングス、宣言された最小から宣言された最大までの相対的なピーク振幅、及び/又は、滑らかさの尺度におけるピーク振幅の前後の区間の方向変化数を含む。
様々な特性化パラメータが本発明のその他の実施形態において与えられてもよい。たとえば、本発明の一部の実施形態では、時間領域表現と関連付けられた特性化パラメータは、少なくとも、閾値規準を満たす滑らかさの尺度のランレングスと、時間領域表現のうちの一つの最大強度に対応するピークポイントで始まる閾値規準を満たす滑らかさの尺度のピークランレングスと、最大強度と、長さと、波形特性と、最大強度と関連付けられた時間と、及び/又は、決定された最小ピーク時間強度値から決定された最大ピーク時間強度値までの相対的な強度とのうちの少なくとも1つを含む。
エッジ検出器からの出力信号と関連付けられた特性化パラメータは、図9の実施形態に関しても計算される(ブロック950)。エッジ検出器の出力のための特性化パラメータは、ピーク振幅、ピークから第1のオフセット時間及び第2のオフセット時間における振幅、及び/又は、最大ランレングスだけでなく、出現の時間もまた含んでもよい。これらのパラメータは、たとえば、二重ピーク信号が非常に短いウィンドウ内に出現する場合に、ピークのうち強度が低い方のピークを別個のエッジの表れであるとして廃棄するために使用されてもよい。特性化パラメータは第2又は第3のエッジ検出器からの出力信号に基づいても生成されてもよい。たとえば、第2又は第3のエッジ検出器からのより広い出力信号パルスは、検出されたエッジが音符に対応するより高い可能性と相関する傾向があることが発明者によって発見された。本発明のその他の実施形態では、エッジを含む時間領域表現に対応するエッジ検出信号と関連付けられた特性化パラメータは、最大強度、最大強度時間から各方向に第1の所定の時間オフセットでの強度、最大強度時間から各方向における第1の所定の時間オフセットとは異なる第2の所定の時間オフセットでの強度、及び/又は、勾配方向に変化がない各方向におけるピーク強度点からのエッジ検出信号の幅のうちの少なくとも一つを含む。
音符は、その後に、時間領域表現の計算された特性パラメータ及びエッジ検出器からの出力信号の計算された特性パラメータに基づいて検出される(ブロック960)。よって、図9に示された特定の実施形態では、エッジ検出器信号特性は、エッジの検出だけでなく、音符の検出に関係した決定プロセスにおいても利用される。しかし、本発明のその他の実施形態では、音符は感知されたオーディオ信号の周波数領域表現から生成された時間領域表現だけに基づいて検出されてもよく、エッジ検出器出力信号は音符検出プロセス内で評価されるべきエッジを特定する目的のためだけに使用されてもよいことが理解される。
本発明のさらなる実施形態による音符を検出する動作が、次に、図10のフローチャート図を参照して説明される。図10の実施形態では、検出されたエッジをエッジ検出65(図2)から音符検出モジュール66(図2)へ供給する前に、各エッジはブロック1000〜1015によって処理される。エッジ毎に(ブロック1000)、エッジ検出信号(すなわち、エッジ検出器出力のパルス)中のエッジ信号の強度が検出され、エッジ信号の強度が閾値規準を満たすかどうかが決定される(ブロック1010)。エッジ信号の強度が閾値規準を満たさないならば、関連付けられたエッジは、検出されるべき信号エッジ/音符であることを表すエッジとしての検討対象から廃棄/外され、次のエッジが処理のため選択される(ブロック1015)。たとえば、ブロック1010で適用された閾値規準は、音符を生成する楽器と関連付けられた最小強度に対応してもよい。たとえば、ピアノ上の打鍵は、そのようにソフトな打鍵だけに限られる。
ブロック1010で閾値規準を満たすエッジ毎に、特性化パラメータが計算される(ブロック1020)。より詳細には、ブロック1020における特性化パラメータは、時間領域表現内で検出されたエッジと関連付けられた期間中の時間領域表現に基づくことが理解される。換言すると、特性化パラメータは、解析のためエッジを特定するために利用されたエッジ検出器の出力信号ではなく、時間領域表現内の信号の形状及びその他の特性に基づいている。よって、特性化パラメータが、時間領域表現に基づいて生成され、エッジ検出器によって検出された個々のエッジと関連付けられるように、エッジ検出器出力は、時間を基準として時間領域表現に同期させられる。音符は、その後に、時間領域表現の計算された特性化パラメータに基づいて検出される(ブロック1030)。
本発明のさらなる実施形態が、次に、図11のフローチャート図を参照して説明される。図11は、音符を倍音、ブリード、及び/又は、その他のノイズから識別する種々の異なる評価動作を含む、音符を検出する動作の特定の実施形態を説明する。しかし、本発明の様々な実施形態において、これらの種々の評価動作の様々な組み合わせが利用されてもよく、必ずしも記述された動作のすべてが音符を検出するために本発明の種々の実施形態において実行されなくても構わないことが理解される。図11を参照して説明される動作の特定の組み合わせは、当業者が、音符検出に関係した様々な動作のそれぞれを単独で、又は、記述されたその他の方法と組み合わせて実施することを可能にするため提供される。これらの多種多様な動作のさらなる詳細は図12及び13を参照して説明される。
次に、図11の特定の実施形態を参照すると、音符検出に関係した動作は、本書においてピークヒント処理と称される処理によってブロック1100で始まる。このような状況においてピークヒントは、第1又は一次エッジ検出器からの出力信号中で検出されたエッジの方が音符又はその他の望ましい信号エッジの存在を表している可能性が高いという、第2及び第3のエッジ検出器出力からの「ヒント」を指す。
よって、図6に示された多重エッジ検出器の実施形態に関連して、ブロック1100における動作は、第2のエッジ検出器からの出力中で検出エッジ毎に、特定の検出エッジより高い強度を有する検出エッジからのずれが最小時間より短い隣接エッジが第2のエッジ検出データ中で検出されないときに、検出エッジを第2のエッジ検出データ中に維持する動作を含んでもよい。換言すると、第2又は第3のエッジ検出器からの検出エッジは、検出エッジ自体より大きな強度を有する時間的に接近した隣接オブジェクト(検出エッジ/ピーク)が存在しないならば、有効であるとして取り扱われてもよい。たとえば、時点1000での検出エッジが3.5という振幅を有し、一方、4.0という振幅をもつエッジが時点1010で検出されるならば、この時点1010における隣接ピークは時点1000におけるピークより大きな強度を有し、このことは、先行するピークが無効であることを示してもよい。このような選別は、たとえば、音符からブリードを分離してもよい。ブロック1100での動作は、有効であるとして特定されたオブジェクト(ピーク/エッジ)が有効ピークという結論を補強するために対応するブリードを有するかどうかを決定しようとしてもよい。
ブロック1100におけるピークヒント処理のさらなる動作は、検出されたエッジと関連付けられた幅が閾値規準を満たさないときに検出されたエッジを第2のエッジ検出データ中に維持する動作を含んでもよい。換言すると、独立して、エッジのピーク点の前後の幅が非常に狭い場合、このことは、検出されたピーク/エッジが有効なヒントではないことを示唆してもよい。本発明の特定の実施形態では、第2又は第3のエッジ検出器からのエッジは、一方の規準だけを満たすことが必要であり、必ずしも両方の規準を満たさなくてもよい。
ブロック1100におけるピークヒントの処理の後に続いて、ピークヒントが対照される(ブロック1110)。ブロック1110における動作は、最初に、第1のエッジ検出データ中の検出エッジが第2の検出データ中に維持された検出エッジと対応するかどうかを決定する動作と、次に、第1のエッジ検出データ中の検出エッジが第2のエッジ検出データ中の対応する維持された検出エッジであると決定されたときに、第1のエッジ検出データ中の検出エッジの方が音符に対応している可能性が高いということを決定する動作とを含んでもよい。よって、ブロック1110における動作は、第1のエッジ検出器によって特定された各エッジを最初から最後まで処理する動作と、ブロック1100からのおそらく有効なピークヒントの組の中に、時間的に十分に接近し、処理されている第1のピーク検出器からのエッジ特定の音符/ピッチと一致するピークヒントが存在するかどうか(すなわち、同じピッチに対応し、同時に出現し、ピークヒントが第1のエッジ検出器によって検出されたエッジが音符に対応するという可能性を増大させるということを示唆するかどうか)を決定するために、ブロック1100からの、おそらく有効なピークヒントの組を最初から最後まで調べる動作と、を含んでもよい。
ブロック1120における動作は、検出されるべき基本音符からブリードを識別するためにブリードを特定する動作に関係する。ブロック1120における動作は、検出エッジ毎に、検出エッジが検出エッジの時間領域表現と関連したピッチのブリードと関連付けられたピッチに対応するときとほぼ同時に別の複数の検出エッジが出現しているかどうかを決定する動作を含む。検出エッジと複数のエッジの中の別のエッジとのうちで強度の小さい方は、別のエッジが検出エッジの時間領域表現と関連したピッチのブリードと関連付けられていると決定されるならば、廃棄される。換言すると、ピークA(すなわち、あらゆるピーク)毎に、ピークB毎に(すなわち、組の中のあらゆる他のピークを参照)、ピークが時間的に接近し、(たとえば、音符を生成する鍵盤上で)隣接したピッチであるならば、関連した隣接ピークのうちでピーク値振幅が小さい方をブリードとして廃棄する。その上、本発明の一部の実施形態では、ブリードの検出は維持されたピークが音符である可能性がより高いということを示唆するので、音符である可能性の値は維持されたピークに対して増加させられる。
ブロック1130における動作は、検出ピーク(エッジ)において倍音を計算する動作に関係する。図11に示された実施形態では、倍音がブロック1130で計算されるが、倍音の廃棄に関係した動作は、ブロック1140〜1170における介在する動作がブロック1130で倍音として計算されたピークが実際に基本であると決定した後にブロック1180で行われる。ブロック1130における動作は、検出エッジ毎に、検出エッジと共通の関連した出現時間を有する複数の検出エッジの中のその他の検出エッジが検出エッジの時間領域表現と関連したピッチの倍音に対応するかどうかを決定する動作を含んでもよい。その後に、複数の検出エッジの中のその他の検出エッジが倍音に対応すると決定されたときに、検出エッジが音符に対応する可能性はより高いということが決定されてもよい。同様に、複数の検出エッジの中に倍音に対応するその他の検出エッジが存在しないということが決定されたとき、検出エッジが音符に対応する可能性は低い。その上、検出エッジ自体が別の検出エッジの倍音に対応していることが決定されたとき、検出エッジが音符に対応していることが見出される可能性は低い。
本発明の特定の実施形態では、倍音計算動作は、一つ以上の倍音が存在するかどうかを決定するために第1倍音から第8倍音まで実行されてもよい。換言すると、動作は、ピークA毎(組の中のピーク毎)に、ピークB毎(組の中の別のピーク毎)に、倍音毎(番号1−8毎)に、ピークBがピークAの倍音であるならば、ピークBがピークAの倍音のうちの1つに対応していることを特定する動作を含んでもよい。
本発明の一部の実施形態では、ブロック1130における動作は、ピーク毎に、図4の実施形態に関して上述されたように、倍音の勾配を計算する動作をさらに含んでもよい。一般に、基音からの累進的な倍音をもつ負の勾配は、より高いピッチが検出されたピークがより低いピッチのピークの倍音に対応することを示すことがわかった。簡単な線形最小二乗当てはめ近似が勾配を決定する際に使用されてもよい。
ノイズピークの廃棄に関係する動作は図11のブロック1140で実行される。音符であるかどうかを決定するため、さらに評価される可能性があるピーク/エッジを限定するために可能性のあるノイズピークを飛ばす種々のアプローチは、多種多様な代替的なアプローチに基づいている。アプローチとは無関係に、検出された複数個のエッジ/ピークに対して、ブロック1140における動作は、検出エッジに対応する時間領域表現と関連付けられた特性化パラメータに基づいて、検出エッジが音符ではなくノイズに対応するかどうかを決定する動作と、ノイズに対応することが決定されたときに、検出されたエッジを廃棄する動作とを含む。検出エッジがノイズに対応するかどうかの決定は、たとえば、スコアに基づくか、周知の音符から生成されたデータに基づいて開発された決定木タイプの推論ルールの組に基づくか、及び/又は、ある種別の固定されたルールの組の形式に基づいていてもよい。
ブロック1140において検出エッジがノイズに対応するかどうかを決定する動作に対するスコアに基づくアプローチの特定の実施形態は、図12のフローチャート図に示されている。図12に示されているように、検出エッジの時間領域表現と関連付けられた特性化パラメータが対応する閾値規準を満たすかどうかが決定される(ブロック1200)。このような決定は、上述されたようにエッジに対して生成された複数個の特性化パラメータのそれぞれについて行われてもよい。特性化パラメータは、それらの対応する閾値規準を満たすということが決定されるならば、それぞれの特性化パラメータのための割り当てられた重み値に基づいて重み付けされる(ブロック1210)。重み付けパラメータは、たとえば、パラメータ重みデータ71(図2)から獲得される。重み付き特性化パラメータは加算される(ブロック1220)。次に、加算された重み付き特性化パラメータが閾値規準を満たさないならば、検出エッジはノイズに対応するということが決定される(ブロック1230)。図11のブロック1110で生成されたピークヒント情報は重み付けされてもよく、ブロック1140で検出エッジがノイズに対応するかどうかを決定する際に使用されてもよいことに注意する必要がある。上述のように、ブロック1140における動作は、図12の特定の実施形態について記述されているように進行する必要はなく、たとえば、周知の音符から生成された基準特性化パラメータに基づいて生成されたルール決定木に基づいていてもよいことが理解される。
図11のブロック1150における動作は、図11を参照して説明された先行する動作とは異なり、先行する動作に基づいて飛ばされたピーク/エッジをもう一度追加することを目的とする。特に、ブロック1140で飛ばされたピークは、ルールに基づいて、ブロック1150で再び追加されてもよい。特に、ブロック1150における動作は、維持された検出エッジのピーク強度を、同じ時間領域表現からの隣接した、廃棄された検出エッジのピーク強度と比較する動作を含んでもよい。隣接した、廃棄された検出エッジは、対応する維持された検出エッジより大きな強度を有するならば維持される。換言すると、ブロック1140の解析は、時間ピーク内に維持された隣接ピークではなく、拒絶されたピークがさらなる処理のため使用されるべきであるかどうかを決定するために、隣接ピーク及び時間ピークを見つけるため、個別のエッジ/ピークから拡張される。
ブロック1160において、重複するピークが二重のピーク/エッジの存在を特定するために比較される。たとえば、ピークが、周知のピアノによって生成されたオーディオ信号から時点1000で現れ、200の長さを有し、第2のピークが時点1100で現れ、200の長さを有するならば、一方のピッチの鍵だけが打鍵された可能性があるので、両方のピークは音符であるということはなく、2個の重複するピークのうちの良い方を選び、他方を廃棄することが適切である。良い方のピークの選択は、強度などを含む様々な規準に基づいていてもよい。
ブロック1160における重複するピークを比較する動作は、次に、図13のフローチャート図によって示された本発明の特定の実施形態に関してさらに記述される。同じ時間領域表現内の各検出エッジの出現の時間及び長さが決定される(ブロック1300)。検出エッジの重なり合いは、検出エッジの出現の時間及び長さに基づいて検出される(ブロック1310)。次に、重複する検出エッジのうちでどちらの検出エッジの方が音符に対応する可能性が高いかが決定される(ブロック1320)。音符に対応する可能性が高い方ではない重複エッジが廃棄される(ブロック1330)。
図11を再度参照すると、付加的なピークが公理によって廃棄される(ブロック1170)。換言すると、時間領域表現内の検出エッジ/ピークと関連した期間の時間領域表現と関連付けられた特性化パラメータが評価され、決定された特性化パラメータのうちの一つが、音符を生成する機械的な作用の周知の特性に基づき得る、関連付けられた閾値規準を満たさないならば、検出エッジ/ピークは廃棄される。たとえば、ある適当な特性化パラメータはピーク振幅/強度不良である。特定の楽器でそのようにソフトに音符を演奏することは物理的にのみ可能であるため、検出された強度は、所与のピッチの対応する速度にマッピングされ、打鍵の負の速度が検出されるならば、たとえば、ピアノ鍵の負の速度の打鍵を行うことは不可能であるので、エッジ/ピークは公理によって拒絶される。ブロック1170における動作はさらに、たとえば、ブリードを廃棄するステップ、ピアノ鍵盤のような楽器によって演奏され得ないピッチが関連付けられているピーク/エッジを廃棄するステップなどを含んでもよい。換言すると、ブロック1170において適用された公理は、一般に、検出されるべき音符を生成する楽器と関連付けられた特性に基づいている。
ブロック1130に関して上述されているように、その他の記述されたエッジ廃棄動作に続いて、倍音に対応する検出エッジがブロック1180において廃棄される。
最後に、MIDIファイル又は検出された音符のその他のデジタル記録物が書き込まれてもよい(ブロック1190)。換言すると、上記の動作は、一般に、個別の音符を検出する動作に関して説明されているが、楽譜に関連付けられた複数個の音符が検出されてもよく、ブロック1190までの動作は楽譜のためのMIDIファイルなどを生成してもよいことが理解される。たとえば、周知の高品質MIDIファイル規格を用いると、開始時間、長さ、(ノートオン速度、及び、ノートオン速度と長さとに基づいて決定されるさらなるノートオフ速度にマッピングされてもよい)ピーク値といった音符を特性化する詳細な情報が音符毎に保存される。音符情報は対応する音符のピッチをさらに含む。
本発明の種々の実施形態に関して上述されているように、音符の長さが決定されてもよい。本発明の特定の実施形態による長さを決定する動作が次に説明される。長さ決定プロセスは、特に、音符の長さを計算する動作と、音符と関連付けられたエンベロープの形状及び減衰率を決定する動作とを含んでもよい。これらの計算は、音符を生成するために演奏されている楽器に依存するピーク形状を考慮してもよい。これらの計算は、信号の形状、音符が演奏されてから対応する周波数信号が出現するまでの遅延、どの程度激しく又は急いで音符が演奏されたかといった物理的な要因をさらに考慮してもよく、これらは、減衰特性及び消滅特性における可能な変化のような、遅延及び周波数に依存する態様を変えてもよい。
本書中で使用されているように、用語「エンベロープ」は単一周波数(又は周波数変換のビン)のフーリエデータを指す。音符は、フーリエデータが激しく変化してもよく、又、(一般に一次ピークより小さな)複数のピークを収容するより長い期間のイベントであり、一般的にある程度の量のノイズが存在してもよい。エンベロープは、フーリエデータ自体でもよく、又は、フーリエデータの近似/理想版でもよい。エンベロープは、音符の長さが終わっていることを示唆する、演奏されている音符が弱められ始める時を明確にするため使用されてもよい。ノイズが低減され、演奏されている隣接した音符からの影響が低減又は除去されると、音符のエンベロープは、(時間的に先行する)左側の鋭い立ち上がりと共に出現してもよく、その後に、ピークと、暫くの間の緩やかな減衰とが続き、音符の減衰を示すグラフ中の下降と共に終了する。
本発明の一部の実施形態では、長さ計算動作は、音符が演奏される長さを決定する。この決定は種々の要因を伴ってもよい。これらの要因の中に、演奏される音符に関係した周波数のスペクトル(すなわち、基本周波数及び倍音)が存在する。これらの信号要素は、時間及び周波数において限定された形状の組を有してもよい。重要な要因は音符の要素のエンベロープの減衰率である。これらの要素の波形のエンベロープは、より高い速度で減衰を開始してもよく、このことは、ある種の減衰要因が導入されていることを示す。たとえば、ピアノ上で、鍵が開放されていたかもしれない。これらのエンベロープは、たとえば、音響と演奏されている楽器とに依存して、楽器に対して複数の形式を有してもよい。エンベロープは、同時に演奏されている他の音符が何であるかに依存してさらに変化する。
演奏されている楽器に依存して、一般に、考慮されるべき物理的な要因もまた存在する。たとえば、一般に、弦が引っ張られるか、又は、叩かれる時と、弦が音を出し始める時との間には遅延が存在する。音符を演奏するために使用される力はタイミングにも影響を与える(たとえば、ピアノ鍵をより激しく押すと、一般に、ハンマーが弦を叩くまでの時間が短くなる)。本発明の一部の実施形態では、周波数に依存する応答もまた考慮される。長さ計算に影響を与えるその他の要因の中には、減衰と消滅の変化率があり、たとえば、フルートの場合には、典型的に、演奏者が吹き込みを止めたか、又は、演奏者が演奏されている音符を変更したかに依存して、音符の減衰に顕著な差がある。
本発明の一部の実施形態における長さ決定プロセスは、候補音符、たとえば、基本周波数上の開始点で始まる。開始点は、その周波数のエンベロープのピークでもよい。アルゴリズムは時間的に前向きに進み、(相対的な最小値及び最大値を伴う第1及び第2の微分関数と曲率関数のような)減衰と曲率の関数の個数を計算し、これらは、その後に、終了条件を探しながら評価される。終了条件の例には、減衰率の著しい変化、(信号の下降又は上昇として現れる)新しい音符の開始などが含まれる。区別可能な長さ値が、信号エンベロープの最後の変化に対して、滑らかなエンベロープ変化に基づいて生成されてもよい。これらの終了条件、及び、長さが計算される方法は、エンベロープの形状に依存してもよい、エンベロープの形状は、ソース楽器と音符の生成中の音響条件とに依存する数種類がある。
倍音周波数は、音符の長さ、及び、倍音情報が利用可能である時に関する有用な情報(たとえば、倍音周波数で演奏されている音符が無い)をさらに有してもよく、倍音周波数は基本周波数解析のチェック/照合を行うために評価されてもよい。
長さ決定プロセスは、ノイズ、演奏されている隣接した音符などのような信号中の無関係の情報も解明してもよい。信号干渉源は、信号のピーク若しくはピットに出現し、又は、信号のスパイクとして出現してもよい。ある種のケースでは、実際には干渉パターンに他ならない音符の終わりと間違えられるかもしれない鋭い下向きのスパイクが存在する。同様に、演奏中の隣接した音符は、一般に、新しい音符の始まりと間違えられる可能性があるブリードピークの原因になる。
図1〜13のフローチャート図及びブロック図は、本発明の種々の実施形態によるシステム、方法、及び、コンピュータプログラムプロダクトの可能な実施のアーキテクチャ、機能、及び、動作を説明する。さらに注意すべき点は、ある種の代替的な実施では、ブロック内に記載された機能が図に記載された順序に反して起こり得ることである。たとえば、連続的に示されている2個のブロックは、実際には、関連した機能性に依存して、実質的に同時に実行され、又は、時には逆順で実行されることがある。ブロック図及び/又はフローチャート図の各ブロックと、ブロック図及び/又はフローチャート図中のブロックの組み合わせは、指定された機能又は作用を実行する専用ハードウェアに基づくシステム、又は、専用ハードウェアとコンピュータ命令との組み合わせによって実施され得ることがさらに理解される。
多数の代替及び変更が、本発明の精神及び範囲から逸脱することなく、本開示の恩恵を受けた当業者によってなされる。したがって、説明された実施形態は例示の目的のためだけに記載され、特許請求の範囲に記載されている発明を限定するように解釈されるべきでないことが理解されるべきである。したがって、特許請求の範囲は、逐語的に記載された要素の組み合わせだけでなく、実質的に同じ結果を得るために実質的に同じ方法で実質的に同じ機能を実行するあらゆる均等な要素をも含むように解釈されるべきである。よって、特許請求の範囲は、具体的に説明され、記載された事項、概念的に均等である事項、及び、さらに本発明の本質的な発想を組み込む事項を含むことが理解されるべきである。
本発明の実施形態で使用するため適した典型的なデータ処理システムのブロック図である。 本発明の一部の実施形態を組み込む典型的なデータ処理システムのより詳細なブロック図である。 本発明の種々の実施形態による音符を検出する動作を説明するフローチャートである。 本発明の種々の実施形態による音符を検出する動作を説明するフローチャートである。 本発明の種々の実施形態による音符を検出する動作を説明するフローチャートである。 本発明の一部の実施形態によるエッジを検出する動作を説明するフローチャートである。 本発明の一部の実施形態による音符を検出する動作を説明するフローチャートである。 本発明の一部の実施形態による滑らかさを測定する動作を説明するフローチャートである。 本発明のさらなる実施形態による音符を検出する動作を説明するフローチャートである。 本発明のさらなる実施形態による音符を検出する動作を説明するフローチャートである。 本発明のさらなる実施形態による音符を検出する動作を説明するフローチャートである。 本発明のさらなる実施形態による音符を検出する動作を説明するフローチャートである。 本発明のさらなる実施形態による音符を検出する動作を説明するフローチャートである。

Claims (67)

  1. 音符を検出する方法であって、
    長時間に亘ってオーディオ信号の複数個の周波数領域表現を生成するステップと、
    前記複数個の周波数領域表現から時間領域表現を生成するステップと、
    前記時間領域表現内で複数個のエッジを検出するステップと、
    前記時間領域表現の特性に基づいて前記音符に対応するものとして前記複数個のエッジのうちの一つを選択することにより前記音符を検出するステップと、
    を備える方法。
  2. 複数個の周波数領域表現を生成するステップが、各組が異なるピッチと関連付けられている、長時間に亘る前記オーディオデータ信号の周波数領域表現の複数の組を生成するステップを備え、
    時間領域表現を生成するステップが、前記各組から、各時間領域表現が前記異なるピッチのうちの一つと関連付けられている、複数個の時間領域表現を生成するステップを備え、
    複数個のエッジを検出するステップが少なくとも一つの前記時間領域表現内で複数個のエッジを検出するステップを備える、請求項1に記載の方法。
  3. 複数個のエッジを検出するステップが、少なくとも2個の前記時間領域表現内でエッジを検出するステップを備え、
    音符を検出するステップが、
    前記音符の基音に対応するものとして前記時間領域表現のうちの第1の時間領域表現内で前記エッジのうちの一つを特定するステップと、
    前記音符の倍音に対応するものとして前記時間領域表現のうちの異なる時間領域表現内で前記エッジのうちの一つを特定するステップと、
    を備える、請求項2に記載の方法。
  4. 音符を検出するステップが、
    共通の関連した出現時間を有する異なるピッチと関連付けられた時間領域表現からのエッジをグループ分けするステップと、
    前記グループ分けされたエッジと関連付けられた強度を決定するステップと、
    ピッチの変化に伴う前記決定された強度の変化によって定められる勾配を決定するステップと、
    前記決定された勾配に基づいて音符を検出するステップと、
    を備える、請求項2に記載の方法。
  5. 音符を検出するステップが前記音符の長さを決定するステップをさらに備える、請求項2に記載の方法。
  6. 前記長さが前記音符を生成する機械的な作用と関連付けられている、請求項5に記載の方法。
  7. 前記機械的な作用が打鍵を含む、請求項6に記載の方法。
  8. 長時間に亘って前記オーディオ信号の周波数領域表現の複数の組を生成するステップが、
    異なるピッチに対応する前記周波数領域表現の各組と関連付けられた周波数域を提供するために不均一な周波数境界を画定するステップと、
    周波数領域表現の各組が前記周波数域のうちの対応する一つに基づいている前記周波数領域表現の組のうちのそれぞれの組について長時間に亘って周波数領域表現を生成するステップと、
    を備える、請求項2に記載の方法。
  9. 不均一な周波数境界を画定するステップが、不均一な周波数境界を画定して、音符に対応する複数個の所定のピッチのそれぞれのための実質的に均一な分解能を提供するステップを備える、請求項8に記載の方法。
  10. 不均一な周波数境界を画定するステップが、不均一な周波数境界を画定して、音符の倍音に対応する複数個の所定のピッチのそれぞれのための周波数域を提供するステップをさらに備える、請求項9に記載の方法。
  11. 前記時間領域表現内で複数個のエッジを検出するステップが、
    第1のエッジ検出データを提供するために第1のタイプのエッジ検出器を通じて前記時間領域表現を処理するステップと、
    第2のエッジ検出データを提供するために前記第1のタイプのエッジ検出器とは異なる第2のタイプのエッジ検出器を通じて前記時間領域表現を処理するステップと、
    を備え、
    前記音符を検出するステップが、前記第1のエッジ検出データ及び前記第2のエッジ検出データに基づいて、前記音符に対応するものとして前記複数個のエッジのうちの一つを選択するステップを含む、請求項2に記載の方法。
  12. 前記音符を検出するステップが、前記第1のエッジ検出データにおいて検出されたエッジと前記第2のエッジ検出データにおいて検出されたエッジとの間の対応関係に基づいて、エッジが前記音符に対応する可能性を増大させるステップを備える、請求項11に記載の方法。
  13. 前記第1のタイプのエッジ検出器が、前記時間領域表現の一つにおけるエッジのエネルギーレベルに応答し、音符の勾配特性に合わせられ、前記第2のタイプのエッジ検出器が、前記時間領域表現の一つにおいてエッジの形状に応答するように正規化される、請求項12に記載の方法。
  14. 前記第1のタイプのエッジ検出器が音符の範囲を表す勾配特性に合わせられ、
    複数個のエッジを検出するステップが共通の勾配特性を使用して前記時間領域表現のうちの異なる時間領域表現内で複数個のエッジを検出するステップを備える、請求項13に記載の方法。
  15. 前記第1のタイプのエッジ検出器が複数個の勾配特性に合わせられ、複数個の勾配特性のうちのそれぞれが異なる音符を表し、
    複数個のエッジを検出するステップが前記複数個の勾配特性のうちの対応する勾配特性を使用して前記時間領域表現のうちの異なる時間領域表現内で複数個のエッジを検出するステップを備える、請求項13に記載の方法。
  16. 複数個のエッジを検出するステップが、検出されたエッジを前記検出されたエッジの開始とピークの中間にある点に対応する時間と関連付けるステップを備える、請求項13に記載の方法。
  17. 前記時間領域表現内で複数個のエッジを検出するステップが、第3のエッジ検出データを提供するために、前記第1のタイプのエッジ検出器に対応するが、前記第1のタイプのエッジ検出器より高いエネルギーレベル閾値に基づいてエッジを検出するように、より長時間の解析ウィンドウが関連付けられている、第3のエッジ検出器を通じて前記時間領域表現を処理するステップを備え、
    前記音符を検出するステップが、前記第1のエッジ検出データ中で検出されたエッジと前記第3のエッジ検出データ中で検出されたエッジとの間の対応関係に基づいて、エッジが前記音符に対応する可能性を増大させるステップを備える、
    請求項13に記載の方法。
  18. 前記より長時間の解析ウィンドウが前記音符を生成する楽器と関連付けられた特性的な長さと少なくとも同じ長さであるように選択される、請求項17に記載の方法。
  19. 前記より長時間の解析ウィンドウが300ミリ秒を有している、請求項18に記載の方法。
  20. 複数個のエッジを検出するステップが、
    前記時間領域表現のうちのそれぞれの時間領域表現に基づいてエッジ検出信号を受信するステップと、
    前記エッジ検出信号中のエッジ信号の強度を検出するステップと、
    前記エッジ信号の前記強度が閾値規準を満たさないならば、エッジの指標として前記エッジ信号を考慮しないステップと、
    を含む、請求項2に記載の方法。
  21. 前記閾値規準が前記音符を生成する楽器と関連付けられた最小強度に対応する、請求項20に記載の方法。
  22. 音符を検出するステップが、
    前記時間領域表現のうちの一つにおいて前記検出された複数個のエッジのうちの一つと関連付けられた期間に前記時間領域表現のうちの前記一つと関連付けられた特性化パラメータを計算するステップと、
    前記時間領域表現の前記計算された特性化パラメータに基づいて前記音符を検出するステップと、
    を備える、請求項2に記載の方法。
  23. 前記時間領域表現のうちの一つにおいて前記検出された複数個のエッジの内の一つと関連付けられた期間に前記時間領域表現のうちの前記一つと関連付けられたパラメータを特性化するステップが、前記時間領域表現のうちの前記一つの滑らかさの尺度を計算するステップを含む、請求項22に記載の方法。
  24. 滑らかさの尺度を計算するステップが、
    前記期間の少なくとも一部の間に前記時間領域表現のうちの前記一つの対数を計算するステップと、
    前記時間領域表現のうちの前記一つの前記対数の移動平均関数を計算するステップと、
    前記滑らかさの尺度を提供するために前記計算された対数と移動平均関数を比較するステップと、
    を備える、請求項23に記載の方法。
  25. 前記計算された対数と移動平均関数を比較するステップが、
    前記対数と前記移動平均関数との間の差を決定するステップと、
    前記滑らかさの尺度を提供するために計算ウィンドウに亘って前記決定された差を加算するステップと、
    を備える、請求項24に記載の方法。
  26. 計算された対数と移動平均関数を比較するステップは、前記検出された複数個のエッジのうちの前記一つに対応する対数において特定されたピークの周りのカウント時間ウィンドウ内での対数の勾配方向変化の個数を決定するステップをさらに備える、請求項25に記載の方法。
  27. 前記時間領域表現のうちの前記一つと関連付けられた特性化パラメータが、閾値規準を満たす前記滑らかさの尺度のランレングスと、前記時間領域表現のうちの前記一つの最大強度に対応するピーク点で始まる閾値規準を満たす前記滑らかさの尺度のピークランレングスと、最大強度と、長さと、波形形状特性と、最大強度と関連付けられた時間と、及び/又は、決定された最小ピーク時間強度値から決定された最大ピーク時間強度値への相対的な強度とのうちの少なくとも1つを含む、請求項22に記載の方法。
  28. 音符を検出するステップが、前記検出された複数のエッジのうちの一つと関連付けられた期間に前記時間領域表現のうちの前記一つに対応する前記エッジ検出信号のうちの一つと関連付けられた特性化パラメータを計算するステップをさらに備え、
    前記音符を検出するステップが前記エッジ検出信号の前記計算された特性化パラメータに基づいて前記音符を検出するステップをさらに備える、
    請求項27に記載の方法。
  29. 前記時間領域表現のうちの一つに対応する前記エッジ検出信号のうちの一つと関連付けられた前記特性化パラメータが、最大強度と、各方向における前記最大強度時間からの第1の所定の時間オフセットにおける強度と、各方向における前記最大強度時間からの前記第1の所定の時間オフセットとは異なる第2の所定の時間オフセットにおける強度と、及び/又は、勾配方向に変化がない各方向におけるピーク強度点からの前記エッジ検出信号の幅とのうちの少なくとも一つを含む、請求項28に記載の方法。
  30. より高い強度が関連付けられた前記検出されたエッジからずれた最小時間未満に前記第2のエッジ検出データ中に隣接エッジが検出されないとき、及び/又は、前記検出されたエッジと関連付けられた幅が閾値規準を満たさないとき、前記音符を検出するステップが検出されたエッジを前記第2のエッジ検出データ中に維持するステップを備える、請求項11に記載の方法。
  31. 前記音符を検出するステップが、
    前記第1のエッジ検出データ中の検出エッジが前記第2のエッジ検出データ中に維持された検出エッジと対応するかどうかを決定するステップと、
    前記第1のエッジ検出データ中の検出エッジが前記第2のエッジ検出データ中に維持された検出エッジに対応すると決定されたとき、前記第1のエッジ検出データ中の前記検出されたエッジの方が前記音符に対応している可能性が高いと決定するステップと、
    を備える、請求項30に記載の方法。
  32. 前記音符を検出するステップが、検出されたエッジに対し、
    前記検出されたエッジとほぼ同時に出現する前記複数個の検出されたエッジのうちの別の検出されたエッジが、前記検出されたエッジの前記時間領域表現と関連付けられたピッチのブリードと関連付けられたピッチに対応するかどうかを決定するステップと、
    前記複数個の検出されたエッジのうちの前記別の検出されたエッジが前記検出されたエッジの前記時間領域表現と関連付けられた前記ピッチのブリードと関連付けられるべきであると決定されるならば、前記検出されたエッジと前記複数個の検出されたエッジのうちの前記別の検出されたエッジとの両者のうちの強度が低い方を廃棄するステップと、
    を備える、請求項2に記載の方法。
  33. 前記音符を検出するステップが、検出されたエッジに対し、
    前記検出されたエッジと共通の関連した出現時間を有する前記複数の検出されたエッジのうちのその他の検出されたエッジが前記検出されたエッジの前記時間領域表現と関連付けられた前記ピッチの倍音に対応するかどうかを決定するステップを備え、
    前記複数の検出されたエッジのうちのその他の検出されたエッジが倍音に対応すると決定されたときに、前記検出されたエッジが前記音符に対応する可能性が高いと決定するステップとを備え、
    前記複数の検出されたエッジのうちのその他の検出されたエッジの中に倍音に対応するエッジがないと決定されたときに、前記検出されたエッジが前記音符に対応する可能性が低いと決定するステップと、前記検出されたエッジが前記複数個の検出されたエッジのうちの別の検出されたエッジの倍音に対応すると決定されたときに、前記検出されたエッジが前記音符に対応する可能性が低いと決定するステップと、のうちの少なくとも1つのステップをさらに備える、
    請求項2に記載の方法。
  34. 前記複数の検出されたエッジのうちのその他の検出されたエッジが前記検出されたエッジの前記時間領域表現と関連付けられた前記ピッチの倍音に対応するかどうかを決定するステップが、
    前記複数個の検出されたエッジのうちのその他の検出されたエッジを、前記検出されたエッジと共通の関連した出現時間を有する異なるピッチと関連付けられた時間領域表現から、グループ分けするステップと、
    前記グループ分けされたエッジと関連付けられた強度を決定するステップと、
    ピッチの変化に伴う前記決定された強度の変化によって定められる勾配を決定するステップと、
    前記複数個の検出されたエッジのうちの前記その他の検出されたエッジが前記決定された勾配に基づいて前記検出されたエッジの倍音に対応するかどうかを決定するステップと、
    をさらに備える、請求項33に記載の方法。
  35. 前記音符を検出するステップが、前記検出された複数個のエッジのうちの前記一つに対し、
    前記検出されたエッジが、前記時間領域表現のうちの前記一つと関連付けられた前記特性化パラメータに基づいて、音符ではなくノイズに対応するかどうかを決定するステップと、
    ノイズに対応すると決定されたときに、前記検出されたエッジを廃棄するステップと、
    を備える、請求項27に記載の方法。
  36. 前記検出されたエッジがノイズに対応するかどうかを決定するステップが、
    前記時間領域表現のうちの前記一つと関連付けられた前記特性化パラメータが対応する閾値規準を満たすかどうかを決定するステップと、
    それぞれの特性化パラメータに割り当てられた重み付け値に基づいて、対応する閾値規準を満たすことが決定された前記時間領域表現のうちの前記一つと関連付けられた前記特性化パラメータを重み付けするステップと、
    前記重み付けされた特性化パラメータを加算するステップと、
    前記加算され重み付けされた特性化パラメータが閾値規準を満たさないときに、前記検出されたエッジがノイズに対応すると決定するステップと、
    を備える、請求項35に記載の方法。
  37. 前記検出されたエッジがノイズに対応するかどうかを決定するステップが、周知の音符から生成された基準特性化パラメータに基づいて生成されたルール決定木に基づいて、前記検出されたエッジがノイズに対応するかどうかを決定するステップを備える、請求項34に記載の方法。
  38. 前記音符を検出するステップが、
    維持された検出エッジのピーク強度を同じ時間領域表現からの隣接する廃棄された検出エッジのピーク強度と比較するステップと、
    前記隣接する廃棄された検出エッジが対応する維持された検出エッジより大きな強度を有するならば、前記隣接する廃棄された検出エッジを維持するステップと、
    をさらに備える、請求項35に記載の方法。
  39. 前記音符を検出するステップが、
    同じ時間領域表現内の前記検出されたエッジのそれぞれの出現時間及び長さを決定するステップと、
    前記検出されたエッジの前記出現時間及び長さに基づいて検出されたエッジの重複を検出するステップと、
    前記重複する検出されたエッジの中で音符に対応する可能性が高い方を決定するステップと、
    音符に対応する可能性が高くない方の重複するエッジを廃棄するステップと、
    をさらに備える、請求項2に記載の方法。
  40. 前記音符を検出するステップが、
    前記時間領域表現のうちの一つにおいて前記検出された複数個のエッジのうちの一つと関連付けられた期間に前記時間領域表現のうちの前記一つと関連付けられた特性化パラメータを決定するステップと、
    前記決定された特性化パラメータのうちの一つが前記音符を生成する機械的な作用の周知の特性に基づく関連付けられた閾値規準を満たさないならば、前記検出された複数個のエッジのうちの前記一つを廃棄するステップと、
    をさらに備える、請求項2に記載の方法。
  41. 前記周知の特性がストライク速度を含み、
    特性化パラメータを決定するステップが、
    前記期間に前記時間領域表現のうちの前記一つと関連付けられたピーク強度を測定するステップと、
    前記測定されたピーク強度に基づいて、前記音符を生成する前記機械的な作用の推定ストライク速度を決定するステップと、
    を備え、
    前記検出された複数個のエッジのうちの前記一つを廃棄するステップが、前記推定ストライク速度がゼロ未満であるならば、前記検出された複数個のエッジのうちの前記一つを廃棄するステップを備える、
    請求項40に記載の方法。
  42. 前記周知の特性が前記音符を生成する楽器のピッチ範囲を含み、
    特性化パラメータを決定するステップが前記時間領域表現のうちの前記一つと関連付けられたピッチを決定するステップを備え、
    前記検出された複数個のエッジのうちの前記一つを廃棄するステップが、前記決定されたピッチが前記ピッチ範囲の外側にあるならば、前記検出された複数個のエッジのうちの前記一つを廃棄するステップを備える、
    請求項40に記載の方法。
  43. 前記音符を検出するステップが、あらゆるその他のエッジ廃棄動作の後に続いて、倍音に対応する検出されたエッジを廃棄するステップをさらに備える、請求項33に記載の方法。
  44. 音符を検出するステップが楽譜と関連付けられた複数個の音符を検出するステップを備え、
    前記楽譜のMIDIファイルを生成するステップをさらに備える、請求項2に記載の方法。
  45. 前記MIDIファイル内の前記音符のそれぞれが、長さ、音符ストライク速度及び/又は音符リリース速度のうちの少なくとも1つと、開始時間と、ピッチとによって特徴付けられる、請求項44に記載の方法。
  46. 前記音符ストライク速度が前記音符に対応する検出されたエッジのピーク強度値に基づき、前記音符リリース速度が前記音符ストライク速度及び前記長さに基づく、請求項45に記載の方法。
  47. 複数個の周波数領域表現を生成するステップが複数個の高速フーリエ変換(FFT)を生成するステップを備える、請求項2に記載の方法。
  48. 前記FFTが少なくとも約10ミリ秒の分解能を有する、請求項47に記載の方法。
  49. 周波数領域のための選択された時間ウィンドウに対し、エッジが検出された前記FFTの期待される音符と関連付けられた範囲が、前記音符の開始時間及び/又は長さをさらに評価するために、少なくとも約1ミリ秒の分解能を有するFFTに基づいてさらに評価される、請求項48に記載の方法。
  50. 音符を検出するシステムであって、
    長時間に亘ってオーディオ信号の複数個の周波数領域表現を生成する周波数領域モジュールと、
    前記複数個の周波数領域表現から時間領域表現を生成する時間領域モジュールと、
    前記時間領域表現内で複数個のエッジを検出するエッジ検出モジュールと、
    前記時間領域表現の特性に基づいて前記音符に対応するものとして前記複数個のエッジのうちの一つを選択することにより前記音符を検出する音符検出モジュールと、
    を備えるシステム。
  51. コンピュータ読み取り可能なプログラムコードが内部に具現化されたコンピュータ読み取り可能な媒体を備える、音符を検出するコンピュータプログラムプロダクトであって、
    前記コンピュータ読み取り可能なプログラムコードが、
    長時間に亘ってオーディオ信号の複数個の周波数領域表現を生成するように構成されたコンピュータ読み取り可能なプログラムコードと、
    前記複数個の周波数領域表現から時間領域表現を生成するように構成されたコンピュータ読み取り可能なプログラムコードと、
    前記時間領域表現内で複数個のエッジを検出するように構成されたコンピュータ読み取り可能なプログラムコードと、
    前記時間領域表現の特性に基づいて前記音符に対応するものとして前記複数個のエッジのうちの一つを選択することにより前記音符を検出するように構成されたコンピュータ読み取り可能なプログラムコードと、
    を備える、コンピュータプログラムプロダクト。
  52. 音符を検出する方法であって、
    各組が異なるピッチと関連付けられている、長時間に亘るオーディオ信号の周波数領域表現の複数の組を生成するステップと、
    前記周波数領域表現の組に基づいて、各候補音符がピッチと関連付けられている複数個の候補音符を特定するステップと、
    共通の関連した出現時間を有する異なるピッチをもつ前記候補音符をグループ分けするステップと、
    前記グループ分けされた候補音符と関連付けられた強度を決定するステップと、
    ピッチの変化に伴う前記決定された強度の変化によって定められた勾配を決定するステップと、
    前記決定された勾配に基づいて前記音符を検出するステップと、
    を備える方法。
  53. 音符を検出する方法であって、
    異なるピッチに対応する複数個の周波数範囲を提供するために不均一な周波数境界を画定するステップと、
    各組が前記異なるピッチのうちの一つのピッチと関連付けられている、長時間に亘るオーディオデータ信号の周波数領域表現の複数の組を生成するステップと、
    前記周波数領域表現の複数の組に基づいて前記音符を検出するステップと、
    を備える方法。
  54. 不均一な周波数境界を画定するステップが、音符に対応する複数個の所定のピッチ毎に実質的に均一な分解能を提供するために不均一な周波数境界を画定するステップを備える、請求項53に記載の方法。
  55. 不均一な周波数境界を画定するステップが、音符の倍音に対応する複数個の所定のピッチ毎に周波数範囲を提供するために不均一な周波数境界を画定するステップをさらに備える、請求項54に記載の方法。
  56. 信号エッジを検出する方法であって、
    前記信号エッジ及びノイズによって生成されたエッジを含むデータ信号を受信するステップと、
    第1のエッジ検出データを提供するために第1のタイプのエッジ検出器を通じて前記データ信号を処理するステップと、
    第2のエッジ検出データを提供するために、前記第1のタイプのエッジ検出器とは異なる、第2のタイプのエッジ検出器を通じて前記データ信号を処理するステップと、
    前記第1のエッジ検出データ及び前記第2のエッジ検出データに基づいて前記信号エッジとして前記データ信号中の前記エッジのうちの一つを選択するステップと、
    を備える方法。
  57. 前記エッジのうちの一つを選択するステップが、前記第1のエッジ検出データ中で検出されたエッジと前記第2のエッジ検出データ中で検出されたエッジとの間の対応関係に基づいて、エッジが前記信号エッジに対応する可能性を増大させるステップを備える、請求項56に記載の方法。
  58. 前記第1のタイプのエッジ検出器が、前記データ信号中のエッジのエネルギーレベルに応答し、前記信号エッジの勾配特性に合わせられ、前記第2のタイプのエッジ検出器が前記データ信号中で検出されたエッジの形状に応答するように正規化される、請求項57に記載の方法。
  59. 前記信号エッジが複数個の異なるタイプの信号エッジのうちの一つであり、
    前記第1のタイプのエッジ検出器が前記異なるタイプの信号エッジを表す共通勾配特性に合わせられ、
    前記エッジのうちの一つを選択するステップが、前記共通勾配特性を使用して前記信号エッジとしてエッジのうちの一つを選択するステップを備える、
    請求項58に記載の方法。
  60. 前記信号エッジが複数個の異なるタイプの信号エッジのうちの一つであり、
    前記第1のタイプのエッジ検出器が、各勾配特性が異なるタイプの信号エッジを表す複数個の勾配特性に合わせられ、
    前記エッジのうちの一つを選択するステップが、前記複数個の勾配特性のうちの対応する勾配特性を使用して前記信号エッジとして複数個のエッジを選択するステップを備える、
    請求項58に記載の方法。
  61. 第3のエッジ検出データを提供するために、前記第1のタイプのエッジ検出器に対応するが、前記第1のタイプのエッジ検出器より高いエネルギーレベル閾値に基づいてエッジを検出するように、より長時間の解析ウィンドウが関連付けられている第3のエッジ検出器を通じて前記データ信号を処理するステップをさらに備え、
    前記エッジのうちの一つを選択するステップが、前記第1のエッジ検出データ中で検出されたエッジと前記第3のエッジ検出データ中で検出されたエッジとの間の対応関係に基づいて、エッジが前記信号エッジに対応する可能性を増大させるステップを備える、
    請求項58に記載の方法。
  62. 前記より長時間の解析ウィンドウが前記信号エッジと関連付けられた特性長さと少なくとも同じ長さであるように選択される、請求項61に記載の方法。
  63. 音符を検出する方法であって、
    長時間に亘ってオーディオ信号の複数個の周波数領域表現を生成するステップと、
    前記複数個の周波数領域表現から時間領域表現を生成するステップと、
    前記時間領域表現の滑らかさの尺度を計算するステップと、
    前記滑らかさの尺度に基づいて前記音符を検出するステップと、
    を備える方法。
  64. 滑らかさの尺度を計算するステップが、
    前記時間領域表現の対数を計算するステップと、
    前記時間領域表現の前記対数の移動平均関数を計算するステップと、
    前記滑らかさの尺度を提供するために前記計算された対数と移動平均関数を比較するステップと、
    を備える、請求項63に記載の方法。
  65. 前記計算された対数と移動平均関数を比較するステップが、
    前記対数と前記移動平均関数との間の差を決定するステップと、
    前記滑らかさの尺度を提供するために、計算ウィンドウに亘って前記決定された差を加算するステップと、
    を備える、請求項64に記載の方法。
  66. 前記計算された対数と移動平均関数を比較するステップが、前記対数中の特定されたピークの周りのカウント時間ウィンドウ内の前記対数の勾配方向変化の個数を決定するステップをさらに備える、請求項65に記載の方法。
  67. 音符を検出する方法であって、
    長時間に亘ってオーディオ信号の複数個の周波数領域表現を生成するステップと、
    前記複数個の周波数領域表現から時間領域表現を生成するステップと、
    受信されたオーディオ信号に基づいてエッジ検出器から出力信号を生成するステップと、
    前記時間領域表現と関連付けられた特性化パラメータを計算するステップと、
    前記エッジ検出器からの前記出力信号と関連付けられた特性化パラメータを計算するステップと、
    前記時間領域表現の前記計算された特性化パラメータと前記エッジ検出器からの前記出力信号とに基づいて前記音符を検出するステップと、
    を備える方法。
JP2007538927A 2004-10-29 2005-09-27 オーディオ信号中の音符を検出する方法、システム及びコンピュータプログラムプロダクト Pending JP2008518270A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/977,850 US7598447B2 (en) 2004-10-29 2004-10-29 Methods, systems and computer program products for detecting musical notes in an audio signal
PCT/US2005/034527 WO2006049745A1 (en) 2004-10-29 2005-09-27 Methods, systems and computer program products for detecting musical notes in an audio signal

Publications (1)

Publication Number Publication Date
JP2008518270A true JP2008518270A (ja) 2008-05-29

Family

ID=35632548

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007538927A Pending JP2008518270A (ja) 2004-10-29 2005-09-27 オーディオ信号中の音符を検出する方法、システム及びコンピュータプログラムプロダクト

Country Status (5)

Country Link
US (2) US7598447B2 (ja)
EP (1) EP1805751A1 (ja)
JP (1) JP2008518270A (ja)
CA (1) CA2585467A1 (ja)
WO (1) WO2006049745A1 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7598447B2 (en) * 2004-10-29 2009-10-06 Zenph Studios, Inc. Methods, systems and computer program products for detecting musical notes in an audio signal
US8093484B2 (en) * 2004-10-29 2012-01-10 Zenph Sound Innovations, Inc. Methods, systems and computer program products for regenerating audio performances
KR100735444B1 (ko) * 2005-07-18 2007-07-04 삼성전자주식회사 오디오데이터 및 악보이미지 추출방법
JP4672474B2 (ja) * 2005-07-22 2011-04-20 株式会社河合楽器製作所 自動採譜装置及びプログラム
US8184835B2 (en) * 2005-10-14 2012-05-22 Creative Technology Ltd Transducer array with nonuniform asymmetric spacing and method for configuring array
WO2008095190A2 (en) * 2007-02-01 2008-08-07 Museami, Inc. Music transcription
US8067252B2 (en) * 2007-02-13 2011-11-29 Advanced Micro Devices, Inc. Method for determining low-noise power spectral density for characterizing line edge roughness in semiconductor wafer processing
US7838755B2 (en) * 2007-02-14 2010-11-23 Museami, Inc. Music-based search engine
US8494842B2 (en) * 2007-11-02 2013-07-23 Soundhound, Inc. Vibrato detection modules in a system for automatic transcription of sung or hummed melodies
US8494257B2 (en) 2008-02-13 2013-07-23 Museami, Inc. Music score deconstruction
DE102008013172B4 (de) * 2008-03-07 2010-07-08 Neubäcker, Peter Verfahren zur klangobjektorientierten Analyse und zur notenobjektorientierten Bearbeitung polyphoner Klangaufnahmen
WO2009117133A1 (en) * 2008-03-20 2009-09-24 Zenph Studios, Inc. Methods, systems and computer program products for regenerating audio performances
US9037474B2 (en) * 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
US8358744B2 (en) 2009-02-27 2013-01-22 Centurylink Intellectual Property Llc Teletypewriter (TTY) for communicating pre-stored emergency messages to public safety answering points (PSAPS)
US8017854B2 (en) * 2009-05-29 2011-09-13 Harmonix Music Systems, Inc. Dynamic musical part determination
WO2011018095A1 (en) * 2009-08-14 2011-02-17 The Tc Group A/S Polyphonic tuner
WO2011090843A2 (en) * 2010-01-22 2011-07-28 Si X Semiconductor Inc. Drum and drum-set tuner
US8309834B2 (en) * 2010-04-12 2012-11-13 Apple Inc. Polyphonic note detection
US20130152767A1 (en) * 2010-04-22 2013-06-20 Jamrt Ltd Generating pitched musical events corresponding to musical content
US20120095729A1 (en) * 2010-10-14 2012-04-19 Electronics And Telecommunications Research Institute Known information compression apparatus and method for separating sound source
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
US20120294457A1 (en) * 2011-05-17 2012-11-22 Fender Musical Instruments Corporation Audio System and Method of Using Adaptive Intelligence to Distinguish Information Content of Audio Signals and Control Signal Processing Function
CN103890837A (zh) 2011-11-30 2014-06-25 泛音实验室股份有限公司 鼓和架子鼓调谐装置
GB201202515D0 (en) 2012-02-14 2012-03-28 Spectral Efficiency Ltd Method for giving feedback on a musical performance
JP2013205830A (ja) * 2012-03-29 2013-10-07 Sony Corp トーン成分検出方法、トーン成分検出装置およびプログラム
US9263060B2 (en) * 2012-08-21 2016-02-16 Marian Mason Publishing Company, Llc Artificial neural network based system for classification of the emotional content of digital music
US9153221B2 (en) 2012-09-11 2015-10-06 Overtone Labs, Inc. Timpani tuning and pitch control system
US8921677B1 (en) 2012-12-10 2014-12-30 Frank Michael Severino Technologies for aiding in music composition
US9402173B2 (en) * 2013-12-06 2016-07-26 HTC Marketing Corp. Methods and apparatus for providing access to emergency service providers
US9552741B2 (en) * 2014-08-09 2017-01-24 Quantz Company, Llc Systems and methods for quantifying a sound into dynamic pitch-based graphs
CN105590629B (zh) * 2014-11-18 2018-09-21 华为终端(东莞)有限公司 一种语音处理的方法及装置
WO2017058893A1 (en) * 2015-09-29 2017-04-06 Swineguard, Inc. Warning system for animal farrowing operations
US9711121B1 (en) * 2015-12-28 2017-07-18 Berggram Development Oy Latency enhanced note recognition method in gaming
US10249209B2 (en) 2017-06-12 2019-04-02 Harmony Helper, LLC Real-time pitch detection for creating, practicing and sharing of musical harmonies
US11282407B2 (en) 2017-06-12 2022-03-22 Harmony Helper, LLC Teaching vocal harmonies
US11627721B2 (en) * 2017-12-29 2023-04-18 Swinetech, Inc. Improving detection, prevention, and reaction in a warning system for animal farrowing operations
CN110599987A (zh) * 2019-08-25 2019-12-20 南京理工大学 基于卷积神经网络的钢琴音符识别算法
CN111415681B (zh) * 2020-03-17 2023-09-01 北京奇艺世纪科技有限公司 一种基于音频数据确定音符的方法及装置
CN113744760B (zh) * 2020-05-28 2024-04-30 小叶子(北京)科技有限公司 一种音高识别方法、装置、电子设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5585228A (en) * 1978-12-22 1980-06-27 Yokogawa Hokushin Electric Corp Musical sound analyzer
JPH04261592A (ja) * 1991-01-07 1992-09-17 Brother Ind Ltd 自動採譜装置
JPH05273964A (ja) * 1992-03-30 1993-10-22 Brother Ind Ltd 自動採譜装置等に用いられるアタック時刻検出装置
JP2001027895A (ja) * 1999-07-14 2001-01-30 Canon Inc 信号分離方法及び装置
JP2001125562A (ja) * 1999-10-27 2001-05-11 Natl Inst Of Advanced Industrial Science & Technology Meti 音高推定方法及び装置
JP2002278544A (ja) * 2001-03-22 2002-09-27 Yamaha Corp 採譜方法および採譜装置
JP2003099067A (ja) * 2001-09-21 2003-04-04 Yamaha Corp 波形データ編集方法、波形データ編集装置、プログラムおよび波形メモリの生産方法
JP2003162282A (ja) * 2001-11-28 2003-06-06 Yamaha Corp 演奏情報生成方法、演奏情報生成装置およびプログラム
JP2003255951A (ja) * 2002-03-04 2003-09-10 Yamaha Corp 波形処理方法および装置
WO2003088534A1 (en) * 2002-04-05 2003-10-23 International Business Machines Corporation Feature-based audio content identification
JP2004021027A (ja) * 2002-06-18 2004-01-22 Yamaha Corp 演奏音制御方法及び装置
JP2004526203A (ja) * 2001-04-10 2004-08-26 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 音楽信号を音符基準表記に変換する方法及び装置、並びに、音楽信号をデータバンクに照会する方法及び装置

Family Cites Families (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4377961A (en) * 1979-09-10 1983-03-29 Bode Harald E W Fundamental frequency extracting system
US4273023A (en) * 1979-12-26 1981-06-16 Mercer Stanley L Aural pitch recognition teaching device
US4463650A (en) * 1981-11-19 1984-08-07 Rupert Robert E System for converting oral music to instrumental music
US4457203A (en) * 1982-03-09 1984-07-03 Wright-Malta Corporation Sound signal automatic detection and display method and system
US4633748A (en) * 1983-02-27 1987-01-06 Casio Computer Co., Ltd. Electronic musical instrument
US4479416A (en) * 1983-08-25 1984-10-30 Clague Kevin L Apparatus and method for transcribing music
US4665790A (en) * 1985-10-09 1987-05-19 Stanley Rothschild Pitch identification device
US4688464A (en) * 1986-01-16 1987-08-25 Ivl Technologies Ltd. Pitch detection apparatus
US5038658A (en) * 1988-02-29 1991-08-13 Nec Home Electronics Ltd. Method for automatically transcribing music and apparatus therefore
JP2775651B2 (ja) * 1990-05-14 1998-07-16 カシオ計算機株式会社 音階検出装置及びそれを用いた電子楽器
US5349130A (en) * 1991-05-02 1994-09-20 Casio Computer Co., Ltd. Pitch extracting apparatus having means for measuring interval between zero-crossing points of a waveform
US5210366A (en) * 1991-06-10 1993-05-11 Sykes Jr Richard O Method and device for detecting and separating voices in a complex musical composition
US5357045A (en) * 1991-10-24 1994-10-18 Nec Corporation Repetitive PCM data developing device
US5812688A (en) * 1992-04-27 1998-09-22 Gibson; David A. Method and apparatus for using visual images to mix sound
US5567901A (en) * 1995-01-18 1996-10-22 Ivl Technologies Ltd. Method and apparatus for changing the timbre and/or pitch of audio signals
US5719344A (en) * 1995-04-18 1998-02-17 Texas Instruments Incorporated Method and system for karaoke scoring
US5619004A (en) * 1995-06-07 1997-04-08 Virtual Dsp Corporation Method and device for determining the primary pitch of a music signal
JP3424787B2 (ja) * 1996-03-12 2003-07-07 ヤマハ株式会社 演奏情報検出装置
US5693903A (en) * 1996-04-04 1997-12-02 Coda Music Technology, Inc. Apparatus and method for analyzing vocal audio data to provide accompaniment to a vocalist
US7297856B2 (en) * 1996-07-10 2007-11-20 Sitrick David H System and methodology for coordinating musical communication and display
US7333863B1 (en) * 1997-05-05 2008-02-19 Warner Music Group, Inc. Recording and playback control system
JP3502247B2 (ja) * 1997-10-28 2004-03-02 ヤマハ株式会社 音声変換装置
US6140568A (en) * 1997-11-06 2000-10-31 Innovative Music Systems, Inc. System and method for automatically detecting a set of fundamental frequencies simultaneously present in an audio signal
US7162046B2 (en) * 1998-05-04 2007-01-09 Schwartz Stephen R Microphone-tailored equalizing system
US5986199A (en) * 1998-05-29 1999-11-16 Creative Technology, Ltd. Device for acoustic entry of musical data
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US7096186B2 (en) * 1998-09-01 2006-08-22 Yamaha Corporation Device and method for analyzing and representing sound signals in the musical notation
US6725108B1 (en) * 1999-01-28 2004-04-20 International Business Machines Corporation System and method for interpretation and visualization of acoustic spectra, particularly to discover the pitch and timbre of musical sounds
US6787689B1 (en) * 1999-04-01 2004-09-07 Industrial Technology Research Institute Computer & Communication Research Laboratories Fast beat counter with stability enhancement
US6124544A (en) * 1999-07-30 2000-09-26 Lyrrus Inc. Electronic music system for detecting pitch
US6355869B1 (en) * 1999-08-19 2002-03-12 Duane Mitton Method and system for creating musical scores from musical recordings
AU2001243484A1 (en) * 2000-03-08 2001-09-17 Lyrrus Inc. Doing Business As G- Vox On-line notation system
US7317958B1 (en) * 2000-03-08 2008-01-08 The Regents Of The University Of California Apparatus and method of additive synthesis of digital audio signals using a recursive digital oscillator
JP4399961B2 (ja) * 2000-06-21 2010-01-20 ヤマハ株式会社 楽譜画面表示装置及び演奏装置
FI20001592A (fi) * 2000-07-03 2002-04-11 Elmorex Ltd Oy Nuottipohjaisen koodin generointi
US6856923B2 (en) * 2000-12-05 2005-02-15 Amusetec Co., Ltd. Method for analyzing music using sounds instruments
CA2742644C (en) * 2001-02-20 2016-04-12 Caron S. Ellis Multiple radio signal processing and storing method and apparatus
JP3744366B2 (ja) * 2001-03-06 2006-02-08 ヤマハ株式会社 楽曲データに基づく音楽記号自動決定装置、楽曲データに基づく楽譜表示制御装置、および、楽曲データに基づく音楽記号自動決定プログラム
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
KR100412196B1 (ko) * 2001-05-21 2003-12-24 어뮤즈텍(주) 악보 추적 방법 및 그 장치
AU2001270365A1 (en) * 2001-06-11 2002-12-23 Ivl Technologies Ltd. Pitch candidate selection method for multi-channel pitch detectors
US7314994B2 (en) * 2001-11-19 2008-01-01 Ricoh Company, Ltd. Music processing printer
KR100455751B1 (ko) * 2001-12-18 2004-11-06 어뮤즈텍(주) 연주악기의 소리정보를 이용한 음악분석장치
US7202407B2 (en) * 2002-02-28 2007-04-10 Yamaha Corporation Tone material editing apparatus and tone material editing program
US20030220787A1 (en) * 2002-04-19 2003-11-27 Henrik Svensson Method of and apparatus for pitch period estimation
US7366659B2 (en) * 2002-06-07 2008-04-29 Lucent Technologies Inc. Methods and devices for selectively generating time-scaled sound signals
EP1529279A1 (en) * 2002-08-02 2005-05-11 Koninklijke Philips Electronics N.V. Method and apparatus to improve the reproduction of music content
CN1703734A (zh) * 2002-10-11 2005-11-30 松下电器产业株式会社 从声音确定音符的方法和装置
JP3891111B2 (ja) * 2002-12-12 2007-03-14 ソニー株式会社 音響信号処理装置及び方法、信号記録装置及び方法、並びにプログラム
US7272551B2 (en) * 2003-02-24 2007-09-18 International Business Machines Corporation Computational effectiveness enhancement of frequency domain pitch estimators
US20040193429A1 (en) * 2003-03-24 2004-09-30 Suns-K Co., Ltd. Music file generating apparatus, music file generating method, and recorded medium
US7323629B2 (en) * 2003-07-16 2008-01-29 Univ Iowa State Res Found Inc Real time music recognition and display system
US20050047607A1 (en) * 2003-09-03 2005-03-03 Freiheit Ronald R. System and method for sharing acoustical signal control among acoustical virtual environments
SG120121A1 (en) * 2003-09-26 2006-03-28 St Microelectronics Asia Pitch detection of speech signals
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
KR100552693B1 (ko) * 2003-10-25 2006-02-20 삼성전자주식회사 피치검출방법 및 장치
TWI282970B (en) * 2003-11-28 2007-06-21 Mediatek Inc Method and apparatus for karaoke scoring
US7442870B2 (en) * 2004-01-02 2008-10-28 Apple Inc. Method and apparatus for enabling advanced manipulation of audio
US20050222847A1 (en) * 2004-03-18 2005-10-06 Singhal Manoj K System and method for time domain audio slow down, while maintaining pitch
US20050209847A1 (en) * 2004-03-18 2005-09-22 Singhal Manoj K System and method for time domain audio speed up, while maintaining pitch
CN1998045A (zh) * 2004-07-13 2007-07-11 松下电器产业株式会社 音调频率估计装置以及音调频率估计方法
KR100590561B1 (ko) * 2004-10-12 2006-06-19 삼성전자주식회사 신호의 피치를 평가하는 방법 및 장치
US7949520B2 (en) * 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
JP4840141B2 (ja) * 2004-10-27 2011-12-21 ヤマハ株式会社 ピッチ変換装置
US7598447B2 (en) 2004-10-29 2009-10-06 Zenph Studios, Inc. Methods, systems and computer program products for detecting musical notes in an audio signal
US8093484B2 (en) * 2004-10-29 2012-01-10 Zenph Sound Innovations, Inc. Methods, systems and computer program products for regenerating audio performances
US20060112812A1 (en) * 2004-11-30 2006-06-01 Anand Venkataraman Method and apparatus for adapting original musical tracks for karaoke use
US8476518B2 (en) * 2004-11-30 2013-07-02 Stmicroelectronics Asia Pacific Pte. Ltd. System and method for generating audio wavetables
KR100713366B1 (ko) * 2005-07-11 2007-05-04 삼성전자주식회사 모폴로지를 이용한 오디오 신호의 피치 정보 추출 방법 및그 장치
KR100735444B1 (ko) * 2005-07-18 2007-07-04 삼성전자주식회사 오디오데이터 및 악보이미지 추출방법
GB0523946D0 (en) * 2005-11-24 2006-01-04 King S College London Audio signal processing method and system
KR100724736B1 (ko) * 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치
KR100653643B1 (ko) * 2006-01-26 2006-12-05 삼성전자주식회사 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치
US8874439B2 (en) * 2006-03-01 2014-10-28 The Regents Of The University Of California Systems and methods for blind source signal separation
KR100770839B1 (ko) * 2006-04-04 2007-10-26 삼성전자주식회사 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
KR100735343B1 (ko) * 2006-04-11 2007-07-04 삼성전자주식회사 음성신호의 피치 정보 추출장치 및 방법
US8010350B2 (en) * 2006-08-03 2011-08-30 Broadcom Corporation Decimated bisectional pitch refinement
US7514620B2 (en) * 2006-08-25 2009-04-07 Apple Inc. Method for shifting pitches of audio signals to a desired pitch relationship
US8036767B2 (en) * 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
WO2008095190A2 (en) * 2007-02-01 2008-08-07 Museami, Inc. Music transcription
US8321211B2 (en) * 2008-02-28 2012-11-27 University Of Kansas-Ku Medical Center Research Institute System and method for multi-channel pitch detection
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
CA2729744C (en) * 2008-06-30 2017-01-03 Constellation Productions, Inc. Methods and systems for improved acoustic environment characterization
US20100169085A1 (en) * 2008-12-27 2010-07-01 Tanla Solutions Limited Model based real time pitch tracking system and singer evaluation method
CN102016530B (zh) * 2009-02-13 2012-11-14 华为技术有限公司 一种基音周期检测方法和装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5585228A (en) * 1978-12-22 1980-06-27 Yokogawa Hokushin Electric Corp Musical sound analyzer
JPH04261592A (ja) * 1991-01-07 1992-09-17 Brother Ind Ltd 自動採譜装置
JPH05273964A (ja) * 1992-03-30 1993-10-22 Brother Ind Ltd 自動採譜装置等に用いられるアタック時刻検出装置
JP2001027895A (ja) * 1999-07-14 2001-01-30 Canon Inc 信号分離方法及び装置
JP2001125562A (ja) * 1999-10-27 2001-05-11 Natl Inst Of Advanced Industrial Science & Technology Meti 音高推定方法及び装置
JP2002278544A (ja) * 2001-03-22 2002-09-27 Yamaha Corp 採譜方法および採譜装置
JP2004526203A (ja) * 2001-04-10 2004-08-26 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 音楽信号を音符基準表記に変換する方法及び装置、並びに、音楽信号をデータバンクに照会する方法及び装置
JP2003099067A (ja) * 2001-09-21 2003-04-04 Yamaha Corp 波形データ編集方法、波形データ編集装置、プログラムおよび波形メモリの生産方法
JP2003162282A (ja) * 2001-11-28 2003-06-06 Yamaha Corp 演奏情報生成方法、演奏情報生成装置およびプログラム
JP2003255951A (ja) * 2002-03-04 2003-09-10 Yamaha Corp 波形処理方法および装置
WO2003088534A1 (en) * 2002-04-05 2003-10-23 International Business Machines Corporation Feature-based audio content identification
JP2004021027A (ja) * 2002-06-18 2004-01-22 Yamaha Corp 演奏音制御方法及び装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6011023204; R. Keren, Y. Y. Zeevi, D. Chazan: 'Automatic Transcription of Polyphonic Music using the Multiresolution Fourier Transform' Proceedings of the 9th Mediterranean Electrotechnical Conference Vol.1, 19980518, p.654-657 *
JPN6011023206; Toshiyuki Tanaka, Yasuyuki Tagami: 'Automatic MIDI Data Making from Music WAVE Data Performed by 2 Instruments using Blind Signal Separa' Proceedings of the 41st SICE Annual Conference Vol.1, 20020805, p.451-456 *

Also Published As

Publication number Publication date
WO2006049745A1 (en) 2006-05-11
US20060095254A1 (en) 2006-05-04
US8008566B2 (en) 2011-08-30
CA2585467A1 (en) 2006-05-11
US7598447B2 (en) 2009-10-06
EP1805751A1 (en) 2007-07-11
US20100000395A1 (en) 2010-01-07

Similar Documents

Publication Publication Date Title
JP2008518270A (ja) オーディオ信号中の音符を検出する方法、システム及びコンピュータプログラムプロダクト
US8093484B2 (en) Methods, systems and computer program products for regenerating audio performances
Brossier Automatic annotation of musical audio for interactive applications
US8022286B2 (en) Sound-object oriented analysis and note-object oriented processing of polyphonic sound recordings
EP2115732B1 (en) Music transcription
US8592670B2 (en) Polyphonic note detection
Marolt A mid-level representation for melody-based retrieval in audio collections
US9779706B2 (en) Context-dependent piano music transcription with convolutional sparse coding
US20060075883A1 (en) Audio signal analysing method and apparatus
JP2004526203A (ja) 音楽信号を音符基準表記に変換する方法及び装置、並びに、音楽信号をデータバンクに照会する方法及び装置
WO2017057531A1 (ja) 音響処理装置
Barbancho et al. Transcription of piano recordings
Hartquist Real-time musical analysis of polyphonic guitar audio
JP6252421B2 (ja) 採譜装置、及び採譜システム
Peterschmitt et al. Pitch-based solo location
JP7224013B2 (ja) コード認識方法、コード認識プログラム、及びコード認識システム
WO2009117133A1 (en) Methods, systems and computer program products for regenerating audio performances
Wieczorkowska et al. Playing in unison in the random forest
Han et al. AUTOMATIC DRUM TRANSCRIPTION
Chaisri Extraction of sound by instrument type and voice from music files

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110510

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110810

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130208

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130702