JP5100089B2 - 3d検索アルゴリズムを用いる楽曲情報検索 - Google Patents

3d検索アルゴリズムを用いる楽曲情報検索 Download PDF

Info

Publication number
JP5100089B2
JP5100089B2 JP2006303896A JP2006303896A JP5100089B2 JP 5100089 B2 JP5100089 B2 JP 5100089B2 JP 2006303896 A JP2006303896 A JP 2006303896A JP 2006303896 A JP2006303896 A JP 2006303896A JP 5100089 B2 JP5100089 B2 JP 5100089B2
Authority
JP
Japan
Prior art keywords
music
hypo
melody
character string
lyrics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006303896A
Other languages
English (en)
Other versions
JP2007183921A (ja
Inventor
ケンプ、トーマス
Original Assignee
ソニー ドイチュラント ゲゼルシャフト ミット ベシュレンクテル ハフツング
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー ドイチュラント ゲゼルシャフト ミット ベシュレンクテル ハフツング filed Critical ソニー ドイチュラント ゲゼルシャフト ミット ベシュレンクテル ハフツング
Publication of JP2007183921A publication Critical patent/JP2007183921A/ja
Application granted granted Critical
Publication of JP5100089B2 publication Critical patent/JP5100089B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/135Library retrieval index, i.e. using an indexing scheme to efficiently retrieve a music piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/005Algorithms for electrophonic musical instruments or musical processing, e.g. for automatic composition or resource allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/005Algorithms for electrophonic musical instruments or musical processing, e.g. for automatic composition or resource allocation
    • G10H2250/015Markov chains, e.g. hidden Markov models [HMM], for musical processing, e.g. musical analysis or musical composition
    • G10H2250/021Dynamic programming, e.g. Viterbi, for finding the most likely or most desirable sequence in music analysis, processing or composition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrophonic Musical Instruments (AREA)

Description

本発明は、楽曲情報検索システムに関し、詳しくは、例えば、データベースに保存された、演奏され、歌われ、又はハミングされたメロディに関して、情報を検索するシステムに関する。
楽曲データベースに問い合わせを行う従来の手法では、ユーザは、楽曲のタイトル、演奏者の名称、又は特定の曲に関する他の何らかの情報をタイプする必要があるという制約があり、楽曲データベースに保存される楽曲の数が増加するに従って、ユーザが聴きたい曲を発見することが困難になってきている。
コンテンツベースの検索法の具体例として、ハミング検索(query-by-humming:以下、QbHという。)がある。QbHシステムは、特に、所望の楽曲を検索するために、歌、ハミング又は口笛をクエリとして受け付け、例えば、楽曲ライブラリから、ユーザがタイトル又は作曲家を覚えていない楽曲を発見することを目的とする。
初期のQbHシステムの1つは、1995年にエー・ギアス(A. Ghias)、ジェイ・ロガン(J. Logan)、ディー・チャンバリン(D. Chamberlin)及びビー・シー・スミス(B. C. Smith)が論文「"Query by Humming, Musical Information Retrieval in an Audio Database" (Proc.of ACM Multimedia Conf., pp. 231-236, 1995)」で発表している。このQbHシステムにより、ユーザは、メロディさえ知っていれば、楽曲を見つけることができる。この手法は、大きな楽曲データベースにおいて特定の楽曲を検索する際の非常に高速で有効なクエリ法を提供する。
図1a〜図1c、図2a及び図2bに示すように、QbHシステムは、基本的に、ハミングされたメロディを入力データとして受け取り、このメロディを統合型データベースに保存されている楽曲と比較する。QbHシステムの出力データは、通常、類似度順に分類された楽曲の格付けされたリストである。したがって、リスト内の最初の楽曲が、検索された楽曲である。比較は、同じ種類の2つのメディアの間で実行する必要があるため、ハミングされたメロディ及びデータベースのファイルは、比較可能なフォーマットに変換する必要がある。このため、ハミングされたメロディは、まず、音楽的表記に変換され、この音楽的表記から関連情報が抽出される。歌の一節からノート情報を抽出する処理は、「デスクリプション」とも呼ばれる。図2bに示すように、保存された楽曲の楽譜を含むデータベースに保存されたファイルは、同じデスクリプション処理を行う。これにより、ファイルから音楽的キー特性(デスクリプタ)が抽出され、変換されたハミングされたメロディと同じフォーマットのファイルの新たなデータベースが作成される。
近年のQbHの研究は、主に、メロディ表現、類似尺度及び照合処理に焦点を当てている。幾つかの研究では、ピッチ輪郭(pitch contour)(メロディの音程及び音程方向を意味する)のみを用いて楽曲を表現している。3状態QbHシステム(three-state QbH system)、所謂「UDSシステム」は、一般的な人は正しくハミングできないという仮定に基づいている。これには、2つの原因がある。第1に、ユーザがハミングする曲を間違って覚えているためであり、第2に、正しく覚えている曲でもハミングする音程を誤るためである。この仮定に基づいて、研究者らは、これらの種類の誤差をサポートするUDSシステムを開発した。
UDSシステムは、ハミングされたチューンのU、D及びSの文字列へのトランスクリプションによって得られた音楽的表記記譜のデスクリプションを含み、この文字列と、データベースに保存されている楽曲に由来するUDS文字列とを比較する。デスクリプションは、ハミングされたチューンの認識された音符間の音程に基づいている。図3a〜図3cに示すように、昇音程は、文字U(up)によってコード化され、降音程は、文字D(down)によってコード化され、「ヌル音程」(完全一度)は、文字S(same)によってコード化される。そして、同じデスクリプションを、データベースに保存された様々な楽曲のメロディに適用し、ハミングされたチューンに由来するUDS文字列と、保存された各メロディのUDS文字列とを比較する。
この手法は、ハミングされた楽曲のメロディの特定の音ではなく、音程方向に基づいているため、このシステムは、ハミングされたメロディのキーに関係なく動作し、ハミングされたチューンの音程方向が正しい限り、音程の誤りを許容する。この結果、QbHシステムでは、ハミングする人は、昇音程(U)、降音程(D)及び完全一度を意味する所謂「ヌル音程」(S)を区別できるように歌い分ければよい。
従来の技術の簡単な説明
大容量データベースから楽曲情報を検索し、及びタイトルを選択するために、これまで、2つの技術が用いられてきた。1つの技術は、ユーザが発声したタイトルの名称を直接認識する音声認識である。しかしながら、音声認識は、誤認識率が比較的高い。一方、メロディの一部をユーザがハミングし(歌い又は口笛を吹き)、このメロディ自体を用いて、データベースに対する検索クエリを実行するハミング検索(query-by-humming)も研究されている。自動音声認識システム及びハミング検索システムは、適用された分類子の出力レベルにおいて、周知の重み付けスキームを用いて容易に組み合わせることができるが、この場合、幾つかの重み付け係数を決定する必要がある。しかしながら、このような手法では、2台の完全な認識システムが必要であり、最終段階で情報を併合するため、効率的な枝刈りができず、したがって、演算コストが高い。更に、このようなシステムは、両方のシステムが期待する種類の入力が行われなかった場合、例えば、単に歌詞を発声しただけで、ハミングしていない場合、又は、単にハミングしただけで、歌詞を発声していない場合等には、適切に動作しない。
各音楽ファイルについて、保存された楽曲のメロディの音程方向の対応するUDS文字列を作成するためには、メロディからこの情報を抽出するスクリプトを実現する必要がある。このトランスクリプションは、メロディを表すオーディオ信号を特定の音にセグメント化し、このオーディオ信号の有声部分及び無声部分を調べることによって、信号を音のシーケンスに変換する処理を含む。歌の場合、人間が聴く音は、信号の有声部分であり、この部分は、実際には、母音、母音変異又は二重母音(図4参照)によって生成される。信号の有声部分は、基本周波数が歌われた音の周波数である周期信号である。信号の無声部分は、ランダムに生成された雑音によく似ている。この無声部分は、主に子音によって構成される。図4に示すように、これらの2種類の信号を識別することは極めて容易である。
UDSシステムを作成するために、UNIX(登録商標)コマンド及び包括的なCライブラリを含むUNIX環境のために用いられる音声分析及び処理ツールの包括的なセットであるエントロピ信号処理システム(Entropic Signal Processing System:ESPS)から「get_f0」関数を用いた。この関数は、「.wav」信号を入力として、有声部分の場合、サンプル信号の周波数を出力し、無声部分の場合、ゼロを出力する。これにより、ベクトルが得られ、このベクトルから、音の周波数、音長及びメロディの特定の音符間の休符の長さを抽出することができる(図5参照)。
図6に示すように、音の基音周波数は、時間と共に大きく変化する。音の基音周波数を抽出するには、測定された基音周波数の最大値、最小値、平均値又はメジアンを選択する等、幾つかの手法がある。もちろん、どの手法が正しいか、ハミングする人が意図する実際の基音周波数はどれか、を知ることはできない。これらの手法の全てを検査する必要があるが、ここでの目的は、実際に機能し、ある手法から他の手法への結果が僅かにしか違わないシステムを作成することであり、現在、平均値を用いるシステムと、メジアンを用いるシステムの2つのシステムが実現されている。
ここで、トランスクライブされたハミングされたメロディを「メロディ輪郭」として記述する必要がある。これは、既にMIDIファイルのために提案されているように、ESPSの出力ファイルを処理し、UDSコーディングによって各音程を符号化することによって実現される。
ハミングされたチューンのデスクリプションと、MIDIファイルのデスクリプションとを比較するために、ソニー株式会社によって開発されたASRシステムのための自動音声認識の分野で用いられているツールである「janus」の「アラインメント」関数を適用できる。この関数は、ビタビアルゴリズムに基づいており、2つの文字列を比較し、これらの文字列内のどの文字が置換され、削除され、挿入されたか、及びどの文字が正しいかを返す。以下では、仮定文字列(hypothesis string)を参照文字列(reference string)に比較する具体例を用いて、このアルゴリズムを説明する。
まず、8×8のアラインメント行列Dを作成する。図8aに示すように、仮定文字列(「USSSDSDU」)を行座標として設定し、参照文字列(「UDSSUDSU」)を列座標として設定する。削除(deletion:del)、挿入(insertion:ins)及び置換(substitution:sub)について、コスト係数w(a,b)を設定する。ここで、3種類の全ての誤り(「sub」、「del」及び「ins」)について、コスト係数を1とする。正しい状況では、コスト係数を0とする。図7aに示すように、置換又は正しい状況では、アラインメント行列を対角線に沿って移動し、適切なコスト係数w(a,b)を加算する。削除の場合、行列を水平に移動し、これによりコスト係数1を加算する(図7b)。一方、挿入の場合、行列を垂直に移動し、これにより、コスト係数1を加算する(図7c)。
次に、行列の第1のセルを埋める。このために、仮定(HYPO)の第1の文字を参照文字列(REF)の第1の文字と比較する。これらが同じである場合、これは置換であり、それぞれの行列のセルにコスト1を設定する。これらが異なる場合、これは正しい状況であり、行列のセルには、コスト0を設定する。
そして、下から上に、及び右から左に、行列の全体を処理し、3つの種類の誤りを考慮し、最も低いコストを有するものをセルに充てる。
図7dに示す具体例における不明なセルに書き込みを行うために、全ての可能性(「sub」、「del」及び「ins」)を考慮し、これらの可能性のそれぞれのコスト係数を算出する必要がある(図7e〜図7g)。最低のコスト係数は、置換誤差のためのコスト係数である。したがって、このコスト係数を適用する。セルが第1の行に位置する場合は、挿入誤差のみしか算出できない。セルは、第1の列に位置する場合は、削除誤差のみしか計算できない。最低のコスト係数が2回以上検出された場合は、置換を削除に優先させ、削除を挿入に優先させる規則に従って誤りを適用する。
最終的に正しいパスを発見するために(図8b参照)、最後の列の最低のコスト係数から開始され、アラインメント行列を戻る後方追跡アルゴリズムを実行する。図8cの表は、この具体例におけるアラインメント関数の出力値を示している。このパスの総コストは、3である。
類似尺度の計算(S5c)は、例えば、以下のステップによって特徴付けられる。
まず、k番目の仮定文字列a、例えば(U,S,S,S,D,S,D,U)の文字インデクスiを列の座標として設定し、参照文字列b、例えば(U,D,S,S,U,D,S,U)の文字インデクスjを行列の行の座標として設定し(S6a1)、累加されたコスト係数di,j=f(di−1,j,di,j−1,di−1,j−1,w(a,b))をアラインメント行列Dのセルに埋めるスキームに基づいて、アラインメント行列Dの各(i,j)要素を算出及び設定することによってアラインメント行列Dを埋め(S6a2)、(N−1)×(N−1)のアラインメント行列Dを作成(S6a)する。
ビタビ探索アルゴリズムに基づいて、参照文字列(REF)を全ての保存されたメロディの仮定文字列(HYPO,HYPO,・・・,HYPO,・・・,HYPOM−1)と比較し、参照文字列(REF)のどの文字がk番目の仮定文字列HYPOに密接に一致するかを示す文字列及び/又はコスト係数w(a,b)のシーケンスを返すアラインメント関数を実行する(S6b)。
そして、アラインメント関数によって導出された追跡パスに沿って、アラインメント行列の最後の列の最低のコスト係数から開始され、アラインメント行列の第1の行及び第1の列に向かってアラインメント行列を戻る後方追跡アルゴリズムを実行する(S6c)。
QbHシステムでは、通常、ユーザは、楽曲を歌い、ハミングし、口笛を吹くために、楽曲のメロディを知っている必要があり、すなわち、楽曲は、基本的なメロディを有している必要がある(したがって、QbHシステムは、例えば、ラップのようなメロディが明確ではない曲の検索には使えない)。更に、ハミングによるクエリは、通常、歌が上手くないユーザには不向きである。一方、ユーザが楽曲を歌い、ハミングし、又は口笛を吹く際の調音の自由度を高めると、比較の効果が低下する。図3b及び図3cに示すように、2つの完全に異なるメロディが、全く同じUDSデスクリプションを有することもある。このように、楽曲データベースに保存された楽曲に高速且つ正確にアクセスする技術は、未だ実現されていない。
上述の課題に鑑み、本発明の目的は、データベースに保存された楽曲に関する情報を検索するために適用できる効率的なクエリ方法を提供することである。
この目的は、独立請求項に定義された特徴によって達成される。本発明の中心的概念を発展させた有利な特徴は、従属請求項に定義されている。
本発明は、歌われ、ハミングされ又は口笛で吹かれた曲の一部、楽器(例えば、電子キーボード)で演奏されたメロディの一部及び/又は楽曲の歌詞の少なくとも一部を発声する発話者の声を含むアナログオーディオシーケンスの形式のクエリを処理し、メロディを解析及び認識した後に、楽曲に関するテキストによる背景情報を検索するコンテンツベースの楽曲情報検索システム、特にハミング検索(QbH)データベースシステムを提供する。この背景情報には、例えば、楽曲のタイトル、作品番号、作曲家、発表日、存在すれば、献呈の辞、演奏者、作曲家の全作品及び生涯に関する更なる情報等が含まれる。
以下、図2b、及び図9〜図11cを参照して、本発明の実施の形態を詳細に説明する。図1a〜図11cにおける参照符号の意味は、添付の表に記載してある。
本発明の第1の実施の形態であるコンテンツベースの楽曲情報検索システムは、図2bに示すように、歌われ、ハミングされ又は口笛で吹かれた曲の記録された部分102、楽器によって演奏されたメロディの記録された部分300a、楽曲の歌詞の一部102”を発声する話者の記録された声400を含むアナログオーディオシーケンス102、300aの形式のクエリを処理し、オーディオシーケンス102、300aを解析及び認識した後に、楽曲情報検索システムの統合型データベース103、105に保存された音楽ファイルに関して、テキストによる背景情報を検索する。楽曲情報検索システムは、例えば、前記の楽曲情報検索システムを含むことができる。アナログオーディオシーケンス102、300aが入力される(S1)マイクロホン101と、例えば、特定の音符の半音番号、メロディの音程及び/又は音程方向、メロディのリズムが構成される音符及び休符の音長、メロディの調、ビート、テンポ、音量、緩急法(アゴーギク)、ダイナミクス、フレージング、アーティキュレーション、音色及び器楽編成、楽器によって演奏された伴奏和音のハーモニー及び/又は電子音響効果を含む音楽的キー特性を、アナログオーディオシーケンス102、300aから抽出(S2a)、解析(S2b)及び認識(S2c)する自動楽曲分類(認識)システム100’と、記録された楽曲の歌詞102”の発話された部分400からの話者の声及び発音の音響音声学的音声特性を抽出(S4a)及び解析(S4b)し、歌詞102”の構文及び意味を認識する(S4c)自動音声認識システム104”とを備える。
照合エンジン106は、3次元探索空間に対してビタビ探索アルゴリズムを実行することによって、オーディオシーケンス102、300aのメロディ及び歌詞の、データベース103、105に事前に保存されている様々な音楽ファイルのメロディ及び歌詞に対する類似の度合いを示す類似尺度を算出する(S3a)。そして、照合エンジン106は、検索された音楽ファイルの格付けされたリスト107を生成する(S3b)。
本発明に基づく3D探索空間は、時間を表す第1の次元(t)と、音響音声学的音声特性の適切なコーディングを表す第2の次元(S)と、音楽的キー特性の適切なコーディングを表す第3の次元(H)とを有する。
このように、本発明は、音声認識システム及びQbHシステムの2つのシステムを1つに統合することを提案する。これらの2つのシステムを用いて、例えば、ユーザが楽曲の歌詞の一節を歌い、残りの歌詞を覚えていないため、これに続けて、メロディだけを「ダ・ダ・ダ」とハミングした場合等、混合された入力データ(音声及び/又は曲)を処理することができる。そして、システムへの未知の入力は、3次元ビタビ検索によって評価される。このアルゴリズムは、両方の手法をハイブリッドシステムに統合し、入力が純粋な音声又は純粋なハミングである場合、2つの基本システムのいずれか一方と同等に機能し、入力が混合された入力(例えば、部分的なハミング及び歌、又は部分的なハミング及び部分的な発話)である場合、より高い精度を実現する。評価を行う際、入力データ(音声又はハミング)の性質は、暗示的に判定されるので、入力データの性質(種類)に関する如何なる事前の知識も不要である。
これは、一般的に使用されている2次元探索空間に代えて、図9に示すように、3次元探索空間を用いて実現される。上述したように、探索空間の第1の次元は、時間軸であり、第2の次元は、楽曲タイトルを構成する個々の単語の音素であり、第3の次元は、総合的な情報の適切なコーディング、例えば、ハミングされたメロディの音符のピッチレベル間を半音単位の相対的音高差で記述するコーディングである。
なお、このコーディングは、一例に過ぎず、本発明は、このようなコーディングに限定されるわけではない。
本発明に基づくQbHシステムは、入力データを受け取ると、音声認識のための前処理及びハミング検索のための前処理を個別に実行し、検出されたノートを選択されたコーディングに変換する。2つの前処理によって、経時的に算出された2つの特徴ベクトルが生成される。
時間軸(次元)に「t」のラベルを付し、音声認識音素軸に「S」のラベルを付し、ハミング検索軸(次元)に「H」のラベルを付した場合、検索は、三次元空間(t,S,H)で行われる。基本的には、S軸上の楽曲の歌詞からの単語jの状態をSとし、H軸の上のトーンシーケンスjの状態をHとして、ポイント(0,0,0)からポイント(T,S,H)に至る最良のパスを発見する必要がある。なお、ユーザは、メロディの一部だけをハミングし、又は楽曲のタイトルの一部だけを発声する場合もあるので、S及びHは、必ずしも単語又はトーンシーケンスの最終状態を示しているわけではない。
ピッチ情報の復号処理は、典型的なQbHシステムと同様であり、ビタビ検索、例えば、動的時間伸縮(dynamic time warping:DTW)アルゴリズムを用いて、事前に保存されている参照楽曲とハミングされたメロディの間で、最良のアラインメントを発見することができる。
音声情報については、標準的な音声認識装置と非常に似た復号処理を行うことができる。標準的な自動音声認識装置(automatic speech recognizer:ASR)との主な違いは、全ての楽曲の全ての単語の全ての音節が、代替発音「ダ(da)」を有するという点である。例えば、有名なビートルズ楽曲「Yesterday」は、「イエスタデイ」と発音しても「ダダダ」と発音してもよい。換言すれば、あらゆる単語の発音変化形として、その単語の「ダダダ」と歌われたバージョンが存在する。これは、現実に、メロディを知っていても、その歌詞を完全には知らない人が多いために有効である。もちろん、このような人も、歌詞の一部を知っていることが多い。このため、QbHシステムには、「アット・ザ・リバーズ・オブ・バビロン、ダダダダ−ダダダダ・ウェン・ウィー・リメンバー・ダダダ("At the rivers of Babylon, da, da, da, da da, da, da, da, when we remember da, da, da", )」といった種類の入力が行われることがある。ここで、少なくとも「ダダダ」の部分は、対応する楽曲のメロディに合わせてハミングされる(歌われる)。文法ベースの音声認識装置を使用し、上述した具体例のように、ユーザが歌詞の一部を覚えておらず、幾つかの単語を忘れ、他の幾つかの単語を知っており、忘れた歌詞の一部についても、対応するメロディだけは覚えているような場合、歌詞のあらゆる単語から「ダ」を繰り返す状態への更なる遷移を許容するように文法を拡張できる。この手法により、純粋なハミングの場合、全ての歌詞が枝刈りされ、「ダ」の状態だけが有効なまま残るため、ASRアルゴリズムを著しく簡潔にすることができ、一方、個々の単語に発音バリエーションが多くある場合、如何なる有効な枝刈りも行われず、全ての単語が個別に解析される。
ここまでの処理では、探索空間のH軸及びS軸は、互いに個別に取り扱われ、この観点から、このシステム全体は、「ダ」で構成された単語を追加した標準の音声認識装置と、QbHシステムとの単なる組合せであるとみなすこともできる。しかしながら本発明では、効率を更に高めるために、検索処理において、特に、例えば、ハミングされた3つおきのトーン等、非同期的な期間でこれらの2つのシステムをリンクする。このリンクステップは、基本的には、相互枝刈りステップであり、これは、リンクステップの間、H軸から得られる所定の楽曲メロディ(例えば、ビートルズの「イエスタデイ」のメロディ)の現在の最良の部分的パススコアを同じ楽曲の歌詞の最良の部分的パススコア(S軸から得られる)に結合することを意味する。そして、この結合されたスコアを、他の全ての楽曲メロディ(これらは、それぞれの曲の対応する歌詞と結合されている)についての他の全ての結合されたスコアと比較する。なお、枝刈りステップでは、全ての結合されたスコアを相互に比較し、最良のスコアと、この最良のスコアから確率差分ΔPだけ異なる全てのスコアのみを残し、他の全てを枝刈りする。また、S軸上のアイテムについても同様の枝刈りを行うことができる。このように、1つの枝刈りステップにより、S軸仮定とH軸仮定の両方が枝刈りされ、これにより、枝刈りステップ以降では、有効な仮説の数が削減される。この組合せによって、以下の目的(ケースA〜ケースD)が達成される。
A)ここでは、ユーザが曲の最初から最後までを歌ったと仮定する。この場合、歌詞及びメロディの両方からの情報を利用でき、復号は、S軸及びH軸の両方に沿って実行される。リンクされた枝刈りは、両方の次元が照合されるので、特に有効であり、正しい楽曲については、生じる可能性が低い2つの確率が組み合わされ、他の任意の楽曲については、歌詞が大きく異なるために、S軸上での確率が低くなり、又はメロディが大きく異なるために、H軸上での確率が低くなる(又は、メロディ及び歌詞の両方について確率が低くなる)。S確率及びH確率は結合され、結合された確率は、他の如何なる楽曲の結合された確率より遙かに低くなるため、枝刈りは非常に効率的である。この結果、結合されたASRシステム及びQbHシステムは、互いの知識及び利益を効果的に組み合わせ、有望でない仮説を除外できるため、復号処理を速めることができる。
B)ここでは、ユーザは、歌詞を忘れ、メロディのみを覚えているため、歌詞に代えて、「ダダダ」を繰り返すことによってハミングすると仮定する。この場合、S軸上の情報は、非常に不明瞭である。「ダ」状態の繰り返しを含む文法では、他の全てのより複雑な歌詞が除外されるため、短い期間が経過した後に、この状態が有効になる。これは、全ての異なる楽曲がS軸上で同じスコアを得ることを意味する。通常、H軸に沿った検索は、標準のQbHシステムと同様に実行される。リンクステップでは、ハミングからの情報は、全ての曲について確率が等しいために無価値な歌詞からの情報と結合され、このリンクは、H軸の枝刈りには役立たない。この結果、システムは、純粋なQbHシステムと殆ど同じ負荷で実行され、追加される負荷は、S軸上で単一の仮定を検討するためのS軸の復号に由来する僅かな負荷のみである。
C)ここでは、ユーザは、楽曲のメロディをハミングせず、単に楽曲タイトルを発声したとする。この場合、S軸とH軸とを逆にすれば、上述したケースBと同様の状況となり、これは、全体の復号がS軸上で行われ、H軸は、如何なる追加的な情報も提供しないことを意味する。したって僅かなオーバヘッドのみで、純粋なASRと同様の結果を得ることができる。
D)最後に、ユーザが知っている歌詞の一部を発声し又は歌い、残りの部分を「ダダダ」でハミングしたと仮定する。これは、ケースAとケースBの組合せである。楽曲の第1の部分では、ケースAにおいて説明した効率的な枝刈りが実行される。第2の部分については、ハミングからの情報は完全に利用できるが、歌詞に関する情報はなく、したがって、リンクステップは、(歌詞/ハミングを結合して効率的なリンク枝刈りが行われているために)既に候補が効果的に絞り込まれている集合から純粋なQbHシステムによる処理を開始することとなる。
このように、本発明に基づくシステムは、全ての種類の混合された入力を僅かなオーバヘッドで処理することができ、ケースAのように完全に混合された入力データに対して効果的な復号を提供する。更なる利点として、本発明に基づくシステムは、時間と共に特性が変化する入力データ(例えば、ケースDのように、一部で歌詞を発声し、メロディの一部がハミングされた場合)を処理することができる。
本発明が提案する手法に基づく、音声入力(102、300a)に基づいて楽曲情報を検索する楽曲情報検索方法の手順を図9a及び図9bの2つのフローチャートに示す。この楽曲情報検索方法は、楽曲シーケンスの定義されたセットを、関連する情報と共に予め保存するステップ(S11a)と、音声400及び/又は楽曲情報102、300aを入力し(S11b)、音声及び楽曲情報を表すコーディングを、第3の次元が時間(t)である3次元探索空間の第1の次元(S)及び第2の次元(H)として配列するステップ(S11c)と、3次元探索空間でビタビ検索を実行し、楽曲シーケンスのセットから、入力された音声(400)及び/又は楽曲情報に最も一致する楽曲シーケンスを発見するステップ(S11d)とを有する。
3次元探索空間においてコーディングとして表現される前に、音声情報400及び/又は楽曲情報の102又は300aは、個別に前処理される(S12)。
本発明の一実施の形態では、ビタビ検索を実行するステップ(S11d)は、入力され、コード化された音声及び/又は楽曲情報を、予め保存された楽曲シーケンスに個別に照合することによって、音声情報400及び楽曲情報102、300aのそれぞれに対して部分的な検索を実行し、予め保存されている楽曲シーケンスについて、楽曲情報のための1つの部分的なスコアと、音声情報のための1つの部分的なスコアとを作成するステップ(S13a)と、2つの部分的なスコアを結合し、各予め保存されている楽曲シーケンスについて総合的なスコアを生成するステップ(S13b)とを含む。
更に、本発明は、歌われ、ハミングされ又は口笛で吹かれた曲の記録された部分102、楽器によって演奏されたメロディの記録された部分300a、楽曲の歌詞の一部102”を発声する話者の記録された声400を含むアナログオーディオシーケンス102、300aの形式のクエリを処理し、オーディオシーケンス102、300aを解析及び認識した後に、楽曲情報検索システムの統合型データベース103、105に保存された音楽ファイルに関して、テキストによる背景情報を検索する方法を提供する。図10aに示すように、この方法は、以下のステップを含む。
アナログオーディオシーケンス102、300a、400を記録する(S1)。
記録された楽曲の歌詞102”の発話された部分から話者の声及び発音の音響音声学的音声特性を抽出(S4a)及び解析(S4b)し、時間次元及び音響音声学的音声特性の適切なコーディングのための次元を有する2次元探索空間に対してビタビ探索アルゴリズムを実行することによって歌詞102”のトランスクリプションを認識する(S4c)。
時間次元及び音楽的キー特性の適切なコーディングのための次元を有する2次元探索空間に関してビタビ探索アルゴリズムを実行することによって、アナログオーディオシーケンス102、300a、400から上述した音楽的キー特性を抽出(S2a)、解析(S2b)及び認識(S2c)する。
図10bは、音楽的キー特性を抽出(S2a)、解析(S2b)及び認識(S2c)する処理手順の詳細なフローチャート1000bを示している。まず、Nを1以上の整数として、N個の音符及び/又は休符を含む歌われた又はハミングされた楽曲102及び/又は演奏されたメロディ300aの認識された音程及び/又は音程方向を、「メロディ参照文字列」(melody reference string:以下、REFという。)である3つの状態を有する第1の文字列によって符号化する(S5a)。REFの要素(U,D,S)は、現在の音が前の音より高い(U)又は低い(D)か、これらの2音が完全一度(S)の音程であるかを示す。これに代えて、他の適切な如何なる種類のコーディングによって音程を符号化してもよい。次に、楽譜がデータベース103、105に保存され、3つの状態を有する第2の文字列によって符号化された、N個の音符及び/又は休符からなる先に解析されたメロディの符号化された音程及び/又は音程方向を、「メロディ仮定文字列」と呼ばれる複数(M個)の保存された文字列から検索する(S5b)。「メロディ仮定文字列」は、以下のように表される。
HYPO,HYPO,・・・,HYPO,・・・,HYPOM−1
メロディ仮定文字列の要素(U,D,S)は、上述の通りである。ここでも、他の適切な如何なる種類のコーディングによって音程を符号化してもよい。そして、システムは、(N−1)×(N−1)のアラインメント行列Dを用いて、記録されたオーディオシーケンス102のメロディと、データベース103、105に保存されている様々な音楽ファイルのメロディとの間の類似の度合いを示す類似尺度を算出する(S5c)。アラインメント行列Dは、k番目のメロディ仮定文字列a:=(音程,・・・,音程N−1∈{U,D,S}N−1の文字インデクスiを列座標として有し、メロディ参照文字列b:=(音程,・・・,音程N−1∈{U,D,S}N−1の文字インデクスjを行座標として有する。そして、類似値の降順にソートされた、データベース103、105に保存されているファイルの格付けされたリスト107を生成する(S5d)。
図10b−1は、音響音声学的音声特性を抽出(S4a)及び解析(S4b)する処理の詳細なフローチャートを示している。まず、記録された楽曲の歌詞102”の発話された部分400から認識された、Pを1以上の整数として、P個の音素からなる音素を「音声参照文字列」(REF)と呼ばれる第1の文字列によって符号化する(S5a’)次に、P個の音素からなり、第2の文字列によって符号化された、先に解析された音声信号の音素を、「音声仮定文字列」HYPOs0,HYPOs1,HYPOs2,・・・,HYPOs,k,・・・,HYPOs,Q−1と呼ばれる複数(Q個)の予め保存されている文字列から検索する(S5b’)。
次に、システムは、P×Pのアラインメント行列Dsを用いて記録されたオーディオシーケンス102の音声信号と、データベースに保存された様々な音声信号との間の類似の度合いを示す類似尺度を算出する(S5c’)。アラインメント行列Dsは、k番目の音声仮定文字列as:=(音素,・・・,音素の文字インデクスiを列座標とし、上述した音声参照文字列bs:=(音素,・・・,音素の文字インデクスjを行座標とする。そして、類似値の降順にソートされた、データベースに保存されているファイルの格付けされたリスト107を生成する(S5d’)。
図10cに示すように、記録されたオーディオシーケンス102のメロディと、データベース103に保存された様々な音楽ファイルのメロディとの間の類似の度合いを示す類似尺度を算出するステップ(S5c)は、以下のステップを含んでいてもよい。
まず、k番目の仮定文字列a:=(音程,・・・,音程N−1の文字インデクスiを列の座標として設定し、参照文字列b:=(音程,・・・,音程N−1の文字インデクスjを行列の行の座標として設定し(S6a1)、累加されたコスト係数di,j=f(di−1,j,di,j−1,di−1,j−1,w(a,b))をアラインメント行列Dのセルに埋めるスキームに基づいて、アラインメント行列Dの各(i,j)要素を算出及び設定することによってアラインメント行列Dを埋め(S6a2)、(N−1)×(N−1)のアラインメント行列Dを作成(S6a)する。
ビタビ探索アルゴリズムに基づいて、メロディ参照文字列(REF)を全ての保存されたメロディのメロディ仮定文字列(HYPO,HYPO,・・・,HYPO,・・・,HYPOM−1)と比較し、参照文字列(REF)のどの文字がk番目の仮定文字列HYPOに密接に一致するかを示す文字列及び/又はコスト係数w(a,b)のシーケンスを返すアラインメント関数を実行する(S6b)。
そして、アラインメント関数によって導出された追跡パスに沿って、アラインメント行列Dの最後の列の最低のコスト係数から開始され、アラインメント行列の第1の行及び第1の列に向かってアラインメント行列を戻る後方追跡アルゴリズムを実行する(S6c)。
図10c−1に示すように、記録されたオーディオシーケンス102の音声信号と、全ての保存された音声信号との間の類似の度合いを示す類似尺度を算出するステップS5c’は、以下のステップを含んでいてもよい。
k番目の音声仮定文字列as:=(音素,・・・,音素の文字インデクスiを列座標に設定し、音声参照文字列bs:=(音素,・・・,音素の文字インデクスjを列座標に設定し(S6a1’)、P個の累加されたコスト係数di,jを埋め込む埋込スキームに基づいて、アラインメント行列Dsの各要素(i,j)を算出及び設定し、アラインメント行列Dsのセルを埋める(S6a2’)ことによって、P×Pのアラインメント行列Dsを作成する(S6a’)。
ビタビ探索アルゴリズムに基づいて、音声参照文字列(REF)と、全ての保存された音声信号の音声仮定文字列HYPOs0,HYPOs1,・・・,HYPOs,k,・・・,HYPOs,Q−1とを比較し、音声参照文字列REFのどの文字が、k番目の音声仮定文字列HYPOs,kの文字に密接に一致するかを示す一連の文字及び/又はコスト係数w(a,b)のシーケンスを返すアラインメント関数を適用する(S6b’)。
アラインメント関数によって導出された追跡パスに沿って、アラインメント行列Dsの最後の列の最低のコスト係数から開始され、アラインメント行列Dsの第1の行及び第1の列に向かってアラインメント行列を戻る後方追跡アルゴリズムを実行する(S6c’)。
本発明の更なる実施の形態として、楽曲情報検索方法は、時間に対応する第1の次元(t)と、音響音声学的音声特性の適切なコーディングに対応する第2の次元(S)と、音楽的キー特性の適切なコーディングに対応する第3の次元(H)とを有する3次元探索空間に関してビタビ探索アルゴリズムを実行することによって、記録されたオーディオシーケンス102、300aのメロディ及び歌詞と、データベース103、105に保存された様々な音楽ファイルのメロディ及び歌詞との間の類似の度合いを示す類似尺度を算出し(S9c)、音楽ファイルの格付けされたリスト107を生成する(S9d)。これにより、話者の声及び発音の音響音声学的音声特性、及び歌われ、口笛で吹かれ又はハミングされたチューン102及び/又は演奏されたメロディ300aの音楽的キー特性が同時に抽出され(S8a)、解析され(S8b)、認識される(S8c)。
図11bは、この音響音声学的音声特性及び音楽的キー特性を抽出(S8a)、解析(S8b)及び認識(S8c)する処理の詳細なフローチャート1100bを示している。まず、Nを1以上の整数として、N個の音符及び/又は休符からなる歌われ又はハミングされたチューン102及び/又は演奏されたメロディ300aについて認識された音程方向を各要素が音間の音程及び/又は音程方向を表す「メロディ参照文字列」(REF)と呼ばれる第1の文字列によって符号化する(S5a)。次に、楽譜がデータベース103、105に保存され、第2の文字列によって符号化されたN個の音符及び/又は休符からなる先に解析された符号化されたメロディを、上述と同様の要素からなる「メロディ仮定文字列」HYPO,HYPO,・・・,HYPO,・・・,HYPOM−1と呼ばれる複数(M個)の保存された文字列から検索する(S5b)。同様に、記録された楽曲の歌詞102”の発話された部分400から認識された、Pを1以上の整数として、P個の音素からなる音素を「音声参照文字列」(REF)である第1の文字列によって符号化し、音声参照文字列(REF)をメロディ参照文字列REFに結合し、結合された参照文字列(REFms)を生成する(S9a)。更に、P個の音素からなり、第2の文字列によって符号化された、先に解析された音声信号の音素を、「音声仮定文字列」(HYPOs0、HYPOs1,HYPOs2,・・・,HYPOs,k,・・・,HYPOs,Q−1)である複数(Q個)の予め保存されている文字列から検索し、音声仮定文字列をメロディ仮定文字列に結合し、結合された仮定文字列(HYPOms0,HYPOms1,HYPOms2,・・・,HYPOms,k,・・・,HYPOms,M+Q−1)を生成する(S9b)。
そして、このシステムは、列座標としてk番目の結合された仮定文字列(ams:=(音程,・・・,音程N−1,音素,・・・,音素)の文字インデクスiを有し、行座標として結合された参照文字列(bms:=(音程,・・・,音程N−1,音素,・・・,音素)の文字インデクスjを有する(N+P−1)×(N+P−1)のアラインメント行列(Dms)の形式で、単一の2次元探索空間を用いて、記録されたオーディオシーケンス102のメロディ及び歌詞と、データベースに保存された様々な音楽ファイルのメロディ及び歌詞との間の類似の度合いを示す類似尺度を算出し(S9c)、類似値の降順にソートされた、データベースに保存されているファイルの格付けされたリスト107を生成する(S9d)。
図11cに示すように、記録されたオーディオシーケンス102のメロディ及び歌詞と、データベース103に保存された音楽ファイルのメロディ及び歌詞との間の類似の度合いを示す類似尺度を算出するステップ(S9c)は、以下のステップを含んでいてもよい。
まず、k番目の仮定文字列amsの文字インデクスiを列座標として設定し、参照文字列bmsの文字インデクスjを行座標として設定し(S6a1)、アラインメント行列Dmsのセルに累加されたコスト係数di,j=f(di−1,j,di,j−1,di−1,j−1,w(a,b))を埋め込む埋込スキームに基づいて、アラインメント行列Dmsの各要素(i,j)を算出及び設定してアラインメント行列Dmsを埋める(S6a2)ことによって、(N+P−1)×(N+P−1)のアラインメント行列Dmsを作成する(S10a)。
次に、ビタビ探索アルゴリズムに基づいて、結合された参照文字列REFmsと、保存されている全てのメロディ及び歌詞の結合された仮定文字列HYPOms0,HYPOms1,HYPOms2,・・・,HYPOms,k,・・・,HYPOms,M+Q−1とを比較し、結合された参照文字列REFmsのどの文字が、k番目の結合された仮定文字列HYPOms,kに密接に一致するかを示す文字列及び/又はコスト係数w(a,b)のシーケンスを返すアラインメント関数を適用する(S10b)。
そして、アラインメント関数によって導出された追跡パスに沿って、アラインメント行列Dmsの最後の列の最低のコスト係数から開始され、アラインメント行列の第1の行及び第1の列に向かってアラインメント行列を戻る後方追跡アルゴリズムを実行する(S10c)。
アラインメント行列Dmsの要素di,jは、以下の式によって表される埋込スキームに基づいて算出される。
Figure 0005100089
ここで、ケース#1に基づくk番目の仮定文字列(HYPOms,k)の文字aの削除に関連するコスト係数をw(a,0)とし、ケース#3に基づく結合された参照文字列(REFms)への文字bの挿入に関連するコスト係数をw(0,b)とし、ケース#2に基づくk番目の結合された仮定文字列(HYPOms,k)の要素aの結合された参照文字列(REFms)の要素bへの置換に関連するコスト係数をw(a,b)とし、a=bの場合、w(a,b)を0に設定し、a≠bの場合、w(a,b)を0より大きな値に設定し、初期条件を
Figure 0005100089
とする。
本発明の更なる実施の形態として、本発明は、コンピュータ装置上で実行され、上述した楽曲情報検索方法を実現するコンピュータソフトウェアプログラム製品を提供する。
Figure 0005100089
Figure 0005100089
Figure 0005100089
Figure 0005100089
Figure 0005100089
従来のハミング検索(QbH)楽曲情報検索システムのシステムの構成要素のインタラクションを示すブロック図である。 従来のハミング検索(QbH)楽曲情報検索システムのシステムの構成要素のインタラクションを示すブロック図である。 従来のハミング検索(QbH)楽曲情報検索システムのシステムの構成要素のインタラクションを示すブロック図である。 QbH楽曲情報検索システムの概略図である。 QbH楽曲情報検索システムの概略図である。 ハミングされたメロディの一部の楽譜、音長、音高(半音)番号、調、メロディの特定のノートの間の音程、音程の方向(U=上昇、D=下降、S=同じ音高)、各音程に関連する平均率の半音番号が示された曲の一節を示す図である。 ダイアトニックスケール(Cメジャースケール)において、三度上昇、二度下降を繰り返すシーケンスの楽譜、音程及び音程方向を示す一節を示す図である。 上昇シーケンスを逆行(水平反転)させた下降シーケンスの楽譜、音程及び音程方向を示す一節を示す図である。 楽曲の歌詞の単語を発声する話者の声によって生成される音素に基づく有声音及び有声音の変化を示す音声信号の振幅A対時間tのグラフ図である。 ハミングされたクリスマスソング「ジングルベル」のメロディの基本周波数についてのエントロピ信号処理システム(ESPS)のピッチ追跡関数「get_f0」の出力を示す図である。 100Hzのサンプリングレートfsにおいて、単一のハミング音の周波数変動Df(Hz)対時間t(ms)を示すグラフ図である。 音程及び/又は音程方向Dh(Dh∈{U,D,S}及びi=0,1,2,・・・,N−2)が行列の列のi座標として設定されたN個の音符からなる仮定メロディHYPOと、音程及び/又は音程方向Dr(Dr∈{U,D,S}及びj=0,1,2,・・・,N−2)が行列の行のj座標として設定されたN個の音符からなるハミングされた参照メロディREFとの要素dijが、差分の累加されたコスト係数である(N−1)×(N−1)アラインメント行列D(N=3)と共にコスト係数w(a,b)=1の置換処理を示す図である。 上述の(N−1)×(N−1)アラインメント行列Dと共にコスト係数w(a,0)=1の削除処理を示す図である。 上述の(N−1)×(N−1)アラインメント行列Dと共にコスト係数w(0,b)=1の挿入処理を示す図である。 要素dijが、音程及び/又は音程方向Dh0=「U」及びDh1=「S」が行列の列のi座標として設定された3つのノートからなる仮定メロディHYPOと、音程及び/又は音程方向Dr=「U」及びDr=「D」が行列の行のj座標として設定された3つのノートからなるハミングされた参照メロディREFとの間の差分の累加されたコスト係数である2×2アラインメント行列Dの具体例を示す図である。 要素d0,0=0、d1,0=1、d0,1=1を有する上述の2×2アラインメント行列Dと共にコスト係数w(a,b)=1の置換処理を示す図である。 要素d0,0=0、d1,0=1、d0,1=1を有する上述の2×2アラインメント行列Dと共にコスト係数w(a,0)=1の削除処理を示す図である。 要素d0,0=0、d1,0=1、d0,1=1を有する上述の2×2アラインメント行列Dと共にコスト係数w(0,b)=1の挿入処理を示す図である。 要素dijが、音程方向が行列の列のi座標として設定された9つのノートからなる仮定メロディHYPOと、音程方向が行列の行のj座標として設定された9つのノートからなるハミングされた参照メロディREFとの間の差分の累加されたコスト係数である要素が埋められた8×8アラインメント行列Dの具体例を示す図である。 上述の要素が埋められた8×8アラインメント行列D及び動的時間伸縮(DTW)アルゴリズムに基づいて、要素(7,7)から要素(0,0)に行列を戻ることによって発見された総コストが最小の最善のパス(破線)を示す図である。 ハミングされた参照メロディREF及び仮定メロディHYPOの音程及び/又は音程方向Dh及びDrと、DTWアラインメント関数の出力シーケンスである音程及び/又は音程方向の一致(C)、及び削除され(D)、挿入され(I)又は置換された(S)音程及び/又は音程方向を示すタグ要素(DTAGS)と、コスト係数w(a,b)とを示す図である。 音程及び/又は音程方向を表すUDSコードが第1の軸(H軸)に適用され、楽曲歌詞の認識された音素がデカルト座標系の第2の軸(S軸)に適用され、デカルト座標系の第3の軸(t−軸)に時間が適用された、N個の歌われたメロディの3次元表現を示す図である。 900aは、アナログオーディオシーケンスの形式のクエリを処理する手順を示すフローチャートである。 900bは、アナログオーディオシーケンスの形式のクエリを処理する手順を示すフローチャートである。 時間次元及び音響音声学的音声特性の適切なコーディング(例えば、隠れマルコフモデル、HMM)のための次元を有する2次元探索空間及び時間次元及び音楽的キー特性の適切なコーディングのための次元を有する第2の2次元探索空間に対する第2のビタビ探索アルゴリズムの2つの2次元探索空間に対して2つのビタビ探索アルゴリズムを実行することによってアナログオーディオシーケンスの形式のクエリを処理する詳細な手順を示すフローチャートである。 時間次元及び音響音声学的音声特性の適切なコーディング(例えば、隠れマルコフモデル、HMM)のための次元を有する2次元探索空間及び時間次元及び音楽的キー特性の適切なコーディングのための次元を有する第2の2次元探索空間に対する第2のビタビ探索アルゴリズムの2つの2次元探索空間に対して2つのビタビ探索アルゴリズムを実行することによってアナログオーディオシーケンスの形式のクエリを処理する詳細な手順を示すフローチャートである。 時間次元及び音響音声学的音声特性の適切なコーディング(例えば、隠れマルコフモデル、HMM)のための次元を有する2次元探索空間及び時間次元及び音楽的キー特性の適切なコーディングのための次元を有する第2の2次元探索空間に対する第2のビタビ探索アルゴリズムの2つの2次元探索空間に対して2つのビタビ探索アルゴリズムを実行することによってアナログオーディオシーケンスの形式のクエリを処理する詳細な手順を示すフローチャートである。 時間次元及び音響音声学的音声特性の適切なコーディング(例えば、隠れマルコフモデル、HMM)のための次元を有する2次元探索空間及び時間次元及び音楽的キー特性の適切なコーディングのための次元を有する第2の2次元探索空間に対する第2のビタビ探索アルゴリズムの2つの2次元探索空間に対して2つのビタビ探索アルゴリズムを実行することによってアナログオーディオシーケンスの形式のクエリを処理する詳細な手順を示すフローチャートである。 時間次元及び音響音声学的音声特性の適切なコーディング(例えば、隠れマルコフモデル、HMM)のための次元を有する2次元探索空間及び時間次元及び音楽的キー特性の適切なコーディングのための次元を有する第2の2次元探索空間に対する第2のビタビ探索アルゴリズムの2つの2次元探索空間に対して2つのビタビ探索アルゴリズムを実行することによってアナログオーディオシーケンスの形式のクエリを処理する詳細な手順を示すフローチャートである。 時間次元(t)と、音響音声学的音声特性の適切なコーディング(例えば、隠れマルコフモデル、HMM)のための次元(S)と、音楽的キー特性の適切なコーディングのための次元(H)とを有する3次元探索空間に対して単一のビタビ探索アルゴリズムを実行することによってクエリを処理する詳細な手順を示すフローチャートである。 時間次元(t)と、音響音声学的音声特性の適切なコーディング(例えば、隠れマルコフモデル、HMM)のための次元(S)と、音楽的キー特性の適切なコーディングのための次元(H)とを有する3次元探索空間に対して単一のビタビ探索アルゴリズムを実行することによってクエリを処理する詳細な手順を示すフローチャートである。 時間次元(t)と、音響音声学的音声特性の適切なコーディング(例えば、隠れマルコフモデル、HMM)のための次元(S)と、音楽的キー特性の適切なコーディングのための次元(H)とを有する3次元探索空間に対して単一のビタビ探索アルゴリズムを実行することによってクエリを処理する詳細な手順を示すフローチャートである。

Claims (10)

  1. 音声入力(102、300a)に基づいて、楽曲情報を検索する楽曲情報検索方法において、
    楽曲シーケンスの定義されたセットを、関連する情報と共に予め保存するステップ(S11a)と、
    マイクロフォン(101)を用いて、音声及び楽曲情報の少なくとも1つを有するオディオ入力をレコードし上記オディオ入力を表すコーディングを、第3の次元が時間(t)である3次元探索空間の第1の次元(S)及び第2の次元(H)として配列するステップ(S11c)であって、上記オディオ入力の上記第1次元のコーディングを得るために、自動アクスティック音声認識システム(104)によって上記オディオ入力からアクスティック音声特性を抽出し、上記オディオ入力の上記第2次元のコーディングを得るために、自動楽曲分類システム(100)によって上記オディオ入力から楽曲キー特性を抽出する、上記配列するステップ、
    楽曲シーケンスのセットから、レコードされた上記オディオ入力に最も一致する楽曲シーケンスを検索するために、照合エンジン(106)によって上記3次元検索空間で検索を行うステップ(S11d)とを有し、
    上記3次元検索空間での検索は、上記オディオ入力のアクスティック音声特性と上記楽曲キー特性を同期的に検索することである、楽曲情報検索方法。
  2. 上記入力された音声(400)及び/又は楽曲情報(102、300a)は、それぞれ、3次元探索空間のコーディングとして表される前に、個別に前処理される(S12)ことを特徴とする請求項1記載の楽曲情報検索方法。
  3. データベース(103、105)に予め保存されている音楽ファイルのメロディ及び歌詞に対する上記入力された音声及び楽曲情報の類似の度合いを示す類似尺度を算出するステップ(S9c)と、
    それぞれの類似尺度に応じて音楽ファイルを格付けした上記音楽ファイルの格付けされたリスト(107)を生成するステップ(S9d)とを更に有する請求項1又は2記載の楽曲情報検索方法。
  4. Nを1以上の整数として、N個の音符及び/又は休符を含む歌われた又はハミングされた楽曲102及び/又は演奏されたメロディ300aを「メロディ参照文字列」(REF)である第1の文字列によって符号化するステップ(S5a)と、
    楽譜がデータベース(103、105)に保存され、第2の文字列によって符号化されたN個の音符及び/又は休符からなる先に解析された符号化されたメロディを、「メロディ仮定文字列」(HYPO,HYPO,・・・,HYPO,・・・,HYPOM−1)である複数(M個)の保存された文字列から検索するステップ(S5b)と、
    記録された楽曲の歌詞102”の発話された部分400から認識された、Pを1以上の整数として、P個の音素からなる音素を「音声参照文字列」(REF)である第1の文字列によって符号化し、該音声参照文字列(REF)をメロディ参照文字列REFに結合し、結合された参照文字列(REFms)を生成するステップ(S9a)と、
    P個の音素からなり、第2の文字列によって符号化された、先に解析された音声信号の音素を、「音声仮定文字列」(HYPOs0,HYPOs1,HYPOs2,・・・,HYPOs,k,・・・,HYPOs,Q−1)である複数(Q個)の予め保存されている文字列から検索し、該音声仮定文字列を上記メロディ仮定文字列に結合し、結合された仮定文字列(HYPOms0、HYPOms1、HYPOms2,HYPOms,k,・・・,HYPOms,M+Q−1)を生成するステップ(S9b)と、
    列座標としてk番目の結合された仮定文字列(ams:=(音程,・・・,音程N−1,音素,・・・,音素)の文字インデクスiを有し、行座標として結合された参照文字列(bms:=(音程,・・・,音程N−1,音素,・・・,音素)の文字インデクスjを有する(N+P−1)×(N+P−1)のアラインメント行列(Dms)の形式で、単一の2次元探索空間を用いて、上記記録されたオーディオシーケンス102のメロディ及び歌詞と、上記データベースに保存された様々な音楽ファイルのメロディ及び歌詞との間の類似の度合いを示す類似尺度を算出するステップ(S9c)とを有する請求項3記載の楽曲情報検索方法。
  5. 上記類似尺度を算出するステップ(S9c)は、
    k番目の仮定文字列(ams:=(音程,・・・,音程N−1,音素,・・・,音素)の文字インデクスiを列座標として設定し、参照文字列(bms:=(音程,・・・,音程N−1,音素,・・・,音素)の文字インデクスjを行座標として設定し(S6a1)、上記アラインメント行列(Dms)のセルに累加されたコスト係数(di,j=f(di−1,j,di,j−1,di−1,j−1,w(a,b)))を埋め込む埋込スキームに基づいて、該アラインメント行列の各要素(i,j)を算出及び設定して該アラインメント行列(Dms)を埋める(S6a2)ことによって、(N+P−1)×(N+P−1)のアラインメント行列(Dms)を作成するステップ(S10a)と、
    ビタビ探索アルゴリズムに基づいて、結合された参照文字列(REFms)と、保存されている全てのメロディ及び歌詞の結合された仮定文字列(HYPOms0,HYPOms1,HYPOms2,・・・,HYPOms,k,・・・,HYPOms,M+Q−1)とを比較し、結合された参照文字列(REFms)のどの文字が、k番目の結合された仮定文字列(HYPOms,k)に密接に一致するかを示す文字列及び/又はコスト係数(w(a,b))のシーケンスを返すアラインメント関数を適用するステップ(S10b)と、
    上記アラインメント関数によって導出された追跡パスに沿って、上記アラインメント行列(Dms)の最後の列の最低のコスト係数から開始され、該アラインメント行列の第1の行及び第1の列に向かって該アラインメント行列を戻る後方追跡アルゴリズムを実行するステップ(S10c)とを有することを特徴とする請求項4記載の楽曲情報検索方法。
  6. Figure 0005100089
    として表される埋込スキームに基づいて、上記アラインメント行列(Dms)の要素(di,j)を算出し、
    ケース#1に基づくk番目の仮定文字列(HYPOms,k)の文字aの削除に関連するコスト係数をw(ai,0)とし、
    ケース#3に基づく結合された参照文字列(REFms)への文字bの挿入に関連するコスト係数をw(0,b)とし、
    ケース#2に基づくk番目の結合された仮定文字列(HYPOms,k)の要素aの結合された参照文字列(REFms)の要素bへの置換に関連するコスト係数をw(a,b)とし、a=bの場合、w(a,b)を0に設定し、a≠bの場合、w(a,b)を0より大きな値に設定し、
    初期条件を
    Figure 0005100089
    とするステップ(S7)を有する請求項5記載の楽曲情報検索方法。
  7. 音声入力(102、300a)に基づく楽曲情報検索システムにおいて、
    楽曲シーケンスの定義されたセットを、関連する情報と共に予め保存する(S11a)データベース(103、105)と、
    音声及び楽曲情報の少なくとも1つを有するオディオ入力を入力するマイクロフォン101と
    上記オディオ入力を表すコーディングを、第3の次元が時間(t)である3次元探索空間の第1の次元(S)及び第2の次元(H)として配列するコーディング手段(100’、104”)であって、上記第1次元のコーディングを得るために、自動アクスティック音声認識システム(104)によって上記オディオ入力からアクスティック音声特性を抽出し、上記第2次元のコーディングを得るために、自動楽曲分類システム(100)によって前記オディオ入力から楽曲キー特性を抽出する、上記コーディング手段と、
    上記3次元探索空間の検索を実行し、楽曲シーケンスのセットから、上記入力されたオディオ入力に最も一致する楽曲シーケンスを検索する(S11d)照合手段(106)とを備え、
    上記3次元検索空間での検索は、上記オディオ入力のアクスティック音声特性と上記楽曲キー特性を同期的に検索することである、音楽情報検索システム。
  8. 上記コーディング手段(100’、104”)は、
    アナログオーディオシーケンス(102、300a)から、音楽的キー特性を抽出(S2a)、解析(S2b)及び認識(S2c)する自動楽曲認識システム(100’)と、
    記録された楽曲の歌詞(102”)の発話された部分(400)から話者の声及び発音の音響音声学的音声特性を抽出(S4a)及び解析(S4b)し、該歌詞(102”)の構文及び意味を認識する(S4c)自動音声認識システム(104”)とを備えることを特徴とする請求項7記載の音楽情報検索システム。
  9. 上記照合手段(106)は、上記3次元探索空間に対してビタビ探索アルゴリズムを実行することによって、上記入力されたオーディオシーケンス(102、300a)のメロディ及び歌詞と、上記データベース(103、105)に保存された様々な音楽ファイルのメロディ及び歌詞との類似の度合いを示す類似尺度を算出し、上記音楽ファイルの格付けされたリスト(107)を生成する(S3b)演算手段(S3a)を備えることを特徴とする請求項7又は8記載の楽曲情報検索システム。
  10. コンピュータ装置上で実行されて、請求項1乃至6いずれか1項記載の楽曲情報検索方法を実現するコンピュータプログラムが格納されているコンピュータ読み取り可能な記録媒体。
JP2006303896A 2005-11-09 2006-11-09 3d検索アルゴリズムを用いる楽曲情報検索 Expired - Fee Related JP5100089B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP05024429A EP1785891A1 (en) 2005-11-09 2005-11-09 Music information retrieval using a 3D search algorithm
EP05024429.2 2005-11-09

Publications (2)

Publication Number Publication Date
JP2007183921A JP2007183921A (ja) 2007-07-19
JP5100089B2 true JP5100089B2 (ja) 2012-12-19

Family

ID=36001134

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006303896A Expired - Fee Related JP5100089B2 (ja) 2005-11-09 2006-11-09 3d検索アルゴリズムを用いる楽曲情報検索

Country Status (3)

Country Link
US (1) US7488886B2 (ja)
EP (1) EP1785891A1 (ja)
JP (1) JP5100089B2 (ja)

Families Citing this family (112)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004034375A1 (en) * 2002-10-11 2004-04-22 Matsushita Electric Industrial Co. Ltd. Method and apparatus for determining musical notes from sounds
US7271329B2 (en) * 2004-05-28 2007-09-18 Electronic Learning Products, Inc. Computer-aided learning system employing a pitch tracking line
DE102005005536A1 (de) * 2005-02-07 2006-08-10 Sick Ag Codeleser
EP1785891A1 (en) * 2005-11-09 2007-05-16 Sony Deutschland GmbH Music information retrieval using a 3D search algorithm
EP1955139A4 (en) * 2005-11-10 2009-11-11 Melodis Corp SYSTEM AND METHOD FOR STORING AND RETRIEVING INFORMATION NOT BASED ON TEXT
DE602006008570D1 (de) * 2006-02-10 2009-10-01 Harman Becker Automotive Sys System für sprachgesteuerte Auswahl einer Audiodatei und Verfahren dafür
KR100735820B1 (ko) * 2006-03-02 2007-07-06 삼성전자주식회사 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
US7459624B2 (en) 2006-03-29 2008-12-02 Harmonix Music Systems, Inc. Game controller simulating a musical instrument
US7772478B2 (en) * 2006-04-12 2010-08-10 Massachusetts Institute Of Technology Understanding music
US20070276668A1 (en) * 2006-05-23 2007-11-29 Creative Technology Ltd Method and apparatus for accessing an audio file from a collection of audio files using tonal matching
US20110208703A1 (en) * 2006-05-24 2011-08-25 Damien Fisher Selectivity estimation
WO2008030197A1 (en) * 2006-09-07 2008-03-13 Agency For Science, Technology And Research Apparatus and methods for music signal analysis
CN102610222B (zh) * 2007-02-01 2014-08-20 缪斯亚米有限公司 音乐转录的方法,系统和装置
US20090288547A1 (en) * 2007-02-05 2009-11-26 U.S. Music Corporation Method and Apparatus for Tuning a Stringed Instrument
US7838755B2 (en) * 2007-02-14 2010-11-23 Museami, Inc. Music-based search engine
US8116746B2 (en) * 2007-03-01 2012-02-14 Microsoft Corporation Technologies for finding ringtones that match a user's hummed rendition
US8283546B2 (en) * 2007-03-28 2012-10-09 Van Os Jan L Melody encoding and searching system
EP1975866A1 (en) 2007-03-31 2008-10-01 Sony Deutschland Gmbh Method and system for recommending content items
US20090024388A1 (en) * 2007-06-11 2009-01-22 Pandiscio Jill A Method and apparatus for searching a music database
US7625284B2 (en) * 2007-06-14 2009-12-01 Harmonix Music Systems, Inc. Systems and methods for indicating input actions in a rhythm-action game
US8678896B2 (en) 2007-06-14 2014-03-25 Harmonix Music Systems, Inc. Systems and methods for asynchronous band interaction in a rhythm action game
US7945441B2 (en) * 2007-08-07 2011-05-17 Microsoft Corporation Quantized feature index trajectory
US8065293B2 (en) * 2007-10-24 2011-11-22 Microsoft Corporation Self-compacting pattern indexer: storing, indexing and accessing information in a graph-like data structure
JP5147389B2 (ja) * 2007-12-28 2013-02-20 任天堂株式会社 楽曲提示装置、楽曲提示プログラム、楽曲提示システム、楽曲提示方法
US8084677B2 (en) * 2007-12-31 2011-12-27 Orpheus Media Research, Llc System and method for adaptive melodic segmentation and motivic identification
KR101504522B1 (ko) * 2008-01-07 2015-03-23 삼성전자 주식회사 음악 저장/검색 장치 및 방법
US8494257B2 (en) 2008-02-13 2013-07-23 Museami, Inc. Music score deconstruction
EP2101501A1 (en) * 2008-03-10 2009-09-16 Sony Corporation Method for recommendation of audio
US8097801B2 (en) * 2008-04-22 2012-01-17 Peter Gannon Systems and methods for composing music
MX2011000165A (es) * 2008-07-09 2011-04-26 Xtreme Mobility Inc Sistema y metodo para un deposito inalambrico seguro.
US20100057452A1 (en) * 2008-08-28 2010-03-04 Microsoft Corporation Speech interfaces
US8392190B2 (en) 2008-12-01 2013-03-05 Educational Testing Service Systems and methods for assessment of non-native spontaneous speech
JP5593608B2 (ja) * 2008-12-05 2014-09-24 ソニー株式会社 情報処理装置、メロディーライン抽出方法、ベースライン抽出方法、及びプログラム
JP5127982B2 (ja) * 2009-02-27 2013-01-23 三菱電機株式会社 音楽検索装置
US8664501B2 (en) * 2009-03-19 2014-03-04 JCT Products, LLC Vocal tuning device for microphones
TWI385645B (zh) * 2009-05-18 2013-02-11 Chunghwa Telecom Co Ltd The system and method of singing with the voice of the interactive voice interface
US20100304810A1 (en) * 2009-05-29 2010-12-02 Harmonix Music Systems, Inc. Displaying A Harmonically Relevant Pitch Guide
US7982114B2 (en) * 2009-05-29 2011-07-19 Harmonix Music Systems, Inc. Displaying an input at multiple octaves
US8017854B2 (en) * 2009-05-29 2011-09-13 Harmonix Music Systems, Inc. Dynamic musical part determination
US7923620B2 (en) * 2009-05-29 2011-04-12 Harmonix Music Systems, Inc. Practice mode for multiple musical parts
US20100304811A1 (en) * 2009-05-29 2010-12-02 Harmonix Music Systems, Inc. Scoring a Musical Performance Involving Multiple Parts
US8026435B2 (en) * 2009-05-29 2011-09-27 Harmonix Music Systems, Inc. Selectively displaying song lyrics
US8076564B2 (en) * 2009-05-29 2011-12-13 Harmonix Music Systems, Inc. Scoring a musical performance after a period of ambiguity
US8080722B2 (en) * 2009-05-29 2011-12-20 Harmonix Music Systems, Inc. Preventing an unintentional deploy of a bonus in a video game
US8449360B2 (en) 2009-05-29 2013-05-28 Harmonix Music Systems, Inc. Displaying song lyrics and vocal cues
US7935880B2 (en) 2009-05-29 2011-05-03 Harmonix Music Systems, Inc. Dynamically displaying a pitch range
US8465366B2 (en) 2009-05-29 2013-06-18 Harmonix Music Systems, Inc. Biasing a musical performance input to a part
US10357714B2 (en) 2009-10-27 2019-07-23 Harmonix Music Systems, Inc. Gesture-based user interface for navigating a menu
US9981193B2 (en) 2009-10-27 2018-05-29 Harmonix Music Systems, Inc. Movement based recognition and evaluation
CN102074233A (zh) * 2009-11-20 2011-05-25 鸿富锦精密工业(深圳)有限公司 乐曲辨识系统及方法
TWI467567B (zh) * 2009-11-26 2015-01-01 Hon Hai Prec Ind Co Ltd 樂曲辨識系統及方法
US8442977B2 (en) * 2010-02-16 2013-05-14 Honeywell International Inc. Distance-space embedding for multi-descriptor matching and retrieval
US8874243B2 (en) 2010-03-16 2014-10-28 Harmonix Music Systems, Inc. Simulating musical instruments
US9280598B2 (en) * 2010-05-04 2016-03-08 Soundhound, Inc. Systems and methods for sound recognition
US9358456B1 (en) 2010-06-11 2016-06-07 Harmonix Music Systems, Inc. Dance competition game
EP2579955B1 (en) 2010-06-11 2020-07-08 Harmonix Music Systems, Inc. Dance game and tutorial
US8562403B2 (en) 2010-06-11 2013-10-22 Harmonix Music Systems, Inc. Prompting a player of a dance game
US8805683B1 (en) 2012-02-24 2014-08-12 Google Inc. Real-time audio recognition protocol
CN101930732B (zh) * 2010-06-29 2013-11-06 中兴通讯股份有限公司 基于用户输入语音的乐曲生成方法及装置、智能终端
US8158870B2 (en) 2010-06-29 2012-04-17 Google Inc. Intervalgram representation of audio for melody recognition
KR20130106812A (ko) * 2010-07-21 2013-09-30 스펙트랄마인드 게엠베하 미디어 아이템들을 편성하고 시각화하는 방법 및 시스템
US9024166B2 (en) 2010-09-09 2015-05-05 Harmonix Music Systems, Inc. Preventing subtractive track separation
JP5728888B2 (ja) * 2010-10-29 2015-06-03 ソニー株式会社 信号処理装置および方法、並びにプログラム
US8584197B2 (en) * 2010-11-12 2013-11-12 Google Inc. Media rights management using melody identification
US8584198B2 (en) * 2010-11-12 2013-11-12 Google Inc. Syndication including melody recognition and opt out
CA2724297C (en) 2010-12-14 2013-11-12 Xtreme Mobility Inc. System and method for authenticating transactions through a mobile device
US9596237B2 (en) 2010-12-14 2017-03-14 Salt Technology, Inc. System and method for initiating transactions on a mobile device
CN102541965B (zh) * 2010-12-30 2015-05-20 国际商业机器公司 自动获得音乐文件中的特征片断的方法和系统
US8996557B2 (en) 2011-05-18 2015-03-31 Microsoft Technology Licensing, Llc Query and matching for content recognition
CN102497400A (zh) * 2011-11-30 2012-06-13 上海博泰悦臻电子设备制造有限公司 车载收音设备的音乐媒体信息获取方法和系统
US9384734B1 (en) 2012-02-24 2016-07-05 Google Inc. Real-time audio recognition using multiple recognizers
US9208225B1 (en) 2012-02-24 2015-12-08 Google Inc. Incentive-based check-in
US9280599B1 (en) 2012-02-24 2016-03-08 Google Inc. Interface for real-time audio recognition
CA2909081C (en) 2012-04-16 2022-05-10 Salt Technology Inc. Systems and methods for facilitating a transaction using a virtual card on a mobile device
US20140032537A1 (en) * 2012-07-30 2014-01-30 Ajay Shekhawat Apparatus, system, and method for music identification
US8680383B1 (en) * 2012-08-22 2014-03-25 Henry P. Taylor Electronic hymnal system
CN103885949B (zh) * 2012-12-19 2017-07-07 中国科学院声学研究所 一种基于歌词的歌曲检索系统及其检索方法
US20140229894A1 (en) * 2013-02-12 2014-08-14 Daisy, Llc Systems and methods for generating playlists based on user feedback
US20140344956A1 (en) * 2013-05-19 2014-11-20 Thomas Garben System and method for processing song, music, and/or lyric information for copyright registration
KR20150072597A (ko) * 2013-12-20 2015-06-30 삼성전자주식회사 멀티미디어 장치 및 이의 음악 작곡 방법, 그리고 노래 보정 방법
US9672843B2 (en) * 2014-05-29 2017-06-06 Apple Inc. Apparatus and method for improving an audio signal in the spectral domain
US11132983B2 (en) 2014-08-20 2021-09-28 Steven Heckenlively Music yielder with conformance to requisites
US10587594B1 (en) * 2014-09-23 2020-03-10 Amazon Technologies, Inc. Media based authentication
US10133537B2 (en) 2014-09-25 2018-11-20 Honeywell International Inc. Method of integrating a home entertainment system with life style systems which include searching and playing music using voice commands based upon humming or singing
US9390695B2 (en) * 2014-10-27 2016-07-12 Northwestern University Systems, methods, and apparatus to search audio synthesizers using vocal imitation
CN104657438A (zh) * 2015-02-02 2015-05-27 联想(北京)有限公司 信息处理方法及电子设备
US20180158469A1 (en) * 2015-05-25 2018-06-07 Guangzhou Kugou Computer Technology Co., Ltd. Audio processing method and apparatus, and terminal
CN106815230B (zh) 2015-11-27 2019-05-14 腾讯科技(深圳)有限公司 歌词页面生成方法及装置
CN107203571B (zh) * 2016-03-18 2019-08-06 腾讯科技(深圳)有限公司 歌曲旋律信息处理方法和装置
US11354510B2 (en) 2016-12-01 2022-06-07 Spotify Ab System and method for semantic analysis of song lyrics in a media content environment
US10360260B2 (en) * 2016-12-01 2019-07-23 Spotify Ab System and method for semantic analysis of song lyrics in a media content environment
WO2018173295A1 (ja) 2017-03-24 2018-09-27 ヤマハ株式会社 ユーザインタフェース装置及び方法、並びに音操作システム
CN107368609B (zh) * 2017-08-10 2018-09-04 广州酷狗计算机科技有限公司 获取多媒体文件的方法、装置及计算机可读存储介质
CN107863095A (zh) * 2017-11-21 2018-03-30 广州酷狗计算机科技有限公司 音频信号处理方法、装置和存储介质
CN108364656B (zh) * 2018-03-08 2021-03-09 北京得意音通技术有限责任公司 一种用于语音重放检测的特征提取方法及装置
CN108922505B (zh) * 2018-06-26 2023-11-21 联想(北京)有限公司 信息处理方法及装置
US10803242B2 (en) * 2018-10-26 2020-10-13 International Business Machines Corporation Correction of misspellings in QA system
CN109785859B (zh) * 2019-01-31 2024-02-02 平安科技(深圳)有限公司 基于语音分析的管理音乐的方法、装置和计算机设备
CN111986698B (zh) * 2019-05-24 2023-06-30 腾讯科技(深圳)有限公司 音频片段的匹配方法、装置、计算机可读介质及电子设备
US10891872B1 (en) * 2019-06-18 2021-01-12 School of Rock, LLC Method and apparatus of music education
CN110875057B (zh) * 2019-08-26 2022-03-15 上海慧敏医疗器械有限公司 一种基于icf框架的构音语音功能损伤等级转换器
CN111078842A (zh) * 2019-12-31 2020-04-28 北京每日优鲜电子商务有限公司 查询结果的确定方法、装置、服务器及存储介质
CN111737513B (zh) * 2020-05-06 2022-03-25 华南理工大学 一种针对海量音乐数据的哼唱检索系统
CN111782864B (zh) * 2020-06-30 2023-11-07 腾讯音乐娱乐科技(深圳)有限公司 演唱音频分类方法及计算机程序产品、服务器、存储介质
CN111863030A (zh) * 2020-07-30 2020-10-30 广州酷狗计算机科技有限公司 音频检测方法及装置
CN112133266A (zh) * 2020-09-21 2020-12-25 腾讯音乐娱乐科技(深圳)有限公司 歌词集合的生成方法及装置
CN113392262A (zh) * 2020-11-26 2021-09-14 腾讯科技(北京)有限公司 音乐识别方法、推荐方法、装置、设备及存储介质
CN112712783B (zh) * 2020-12-21 2023-09-29 北京百度网讯科技有限公司 生成音乐的方法和装置、计算机设备和介质
CN113744763B (zh) * 2021-08-18 2024-02-23 北京达佳互联信息技术有限公司 确定相似旋律的方法和装置
CN115762546A (zh) * 2021-09-03 2023-03-07 腾讯科技(深圳)有限公司 音频数据处理方法、装置、设备以及介质
EP4213145A1 (en) * 2022-01-14 2023-07-19 Vestel Elektronik Sanayi ve Ticaret A.S. Device and method for triggering a music identification application
CN115862603B (zh) * 2022-11-09 2023-06-20 北京数美时代科技有限公司 一种歌曲语音识别方法、系统、存储介质和电子设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5874686A (en) * 1995-10-31 1999-02-23 Ghias; Asif U. Apparatus and method for searching a melody
JPH09212480A (ja) * 1996-01-31 1997-08-15 Yamaha Corp 雰囲気情報生成装置およびカラオケ装置
US5739451A (en) * 1996-12-27 1998-04-14 Franklin Electronic Publishers, Incorporated Hand held electronic music encyclopedia with text and note structure search
US5963957A (en) * 1997-04-28 1999-10-05 Philips Electronics North America Corporation Bibliographic music data base with normalized musical themes
FI20002161A (fi) * 2000-09-29 2002-03-30 Nokia Mobile Phones Ltd Menetelmä ja järjestelmä melodian tunnistamiseksi
DE10058811A1 (de) * 2000-11-27 2002-06-13 Philips Corp Intellectual Pty Verfahren zur Identifizierung von Musikstücken
US7003515B1 (en) * 2001-05-16 2006-02-21 Pandora Media, Inc. Consumer item matching method and system
US6528715B1 (en) * 2001-10-31 2003-03-04 Hewlett-Packard Company Music search by interactive graphical specification with audio feedback
JP3798991B2 (ja) * 2002-02-25 2006-07-19 日本電信電話株式会社 音声信号検索方法,音声信号検索装置,そのプログラムおよびそのプログラムの記録媒体
WO2004049188A1 (en) * 2002-11-28 2004-06-10 Agency For Science, Technology And Research Summarizing digital audio data
CN100454298C (zh) * 2003-12-08 2009-01-21 皇家飞利浦电子股份有限公司 旋律数据库搜索
EP1785891A1 (en) * 2005-11-09 2007-05-16 Sony Deutschland GmbH Music information retrieval using a 3D search algorithm
JP4622829B2 (ja) * 2005-11-29 2011-02-02 日本ビクター株式会社 楽曲検索再生装置、楽曲検索再生方法、印象語設定プログラム

Also Published As

Publication number Publication date
JP2007183921A (ja) 2007-07-19
US20070131094A1 (en) 2007-06-14
EP1785891A1 (en) 2007-05-16
US7488886B2 (en) 2009-02-10

Similar Documents

Publication Publication Date Title
JP5100089B2 (ja) 3d検索アルゴリズムを用いる楽曲情報検索
Mesaros et al. Automatic recognition of lyrics in singing
Serra et al. Chroma binary similarity and local alignment applied to cover song identification
Gómez et al. Melody description and extraction in the context of music content processing
US20100198760A1 (en) Apparatus and methods for music signal analysis
Casey et al. The importance of sequences in musical similarity
Unal et al. Challenging uncertainty in query by humming systems: a fingerprinting approach
JP5326169B2 (ja) 音声データ検索システム及び音声データ検索方法
Mesaros et al. Recognition of phonemes and words in singing
Osmalsky et al. Neural networks for musical chords recognition
Khadkevich et al. Use of Hidden Markov Models and Factored Language Models for Automatic Chord Recognition.
Wang et al. Improving query-by-singing/humming by combining melody and lyric information
Putri et al. Music information retrieval using Query-by-humming based on the dynamic time warping
Nakano et al. A drum pattern retrieval method by voice percussion
Gajjar et al. Computational musicology for raga analysis in Indian classical music: a critical review
Shih et al. A statistical multidimensional humming transcription using phone level hidden Markov models for query by humming systems
Zhu et al. Musical genre classification by instrumental features
Barthet et al. Speech/music discrimination in audio podcast using structural segmentation and timbre recognition
Chen et al. Popular song and lyrics synchronization and its application to music information retrieval
Lee A system for acoustic chord transcription and key extraction from audio using hidden Markov models trained on synthesized audio
Valero-Mas et al. Analyzing the influence of pitch quantization and note segmentation on singing voice alignment in the context of audio-based Query-by-Humming
Kharat et al. A survey on query by singing/humming
Patel Music Retrieval System Using Query-by-Humming
Wang et al. Music information retrieval system using lyrics and melody information
Zhang et al. Chord Recognition using Instrument Voicing Constraints.

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20081002

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20081106

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090723

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111018

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120925

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151005

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees