JP2004534274A - 内容ベースのマルチメディア情報検索で使用するためデジタル表示で音楽情報を表示する方法およびシステム - Google Patents
内容ベースのマルチメディア情報検索で使用するためデジタル表示で音楽情報を表示する方法およびシステム Download PDFInfo
- Publication number
- JP2004534274A JP2004534274A JP2003511140A JP2003511140A JP2004534274A JP 2004534274 A JP2004534274 A JP 2004534274A JP 2003511140 A JP2003511140 A JP 2003511140A JP 2003511140 A JP2003511140 A JP 2003511140A JP 2004534274 A JP2004534274 A JP 2004534274A
- Authority
- JP
- Japan
- Prior art keywords
- music
- score
- database
- valley
- peak
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
- G06F16/634—Query by example, e.g. query by humming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Abstract
本発明は内容ベースのオーディオ/音楽検索およびその他の内容ベースのマルチメディア情報検索に関する。1つの特徴では、本発明は内容ベースの情報のインデックス化と検索で使用するのに適したデジタル表示でオーディオ/音楽情報を表す方法を提供し、これはオーディオ/音楽の少なくとも1つの特性の最大値および最小値にそれぞれ対応する1組のピークとバレーを含んでいる第1の表示を決定し、ピークとバレー間の相対的な差を表す値を含んでいる第2の表示を決定するステップを含んでいる。本発明は内容ベースの音楽検索のための方法およびシステムを与える。音楽スコアデータベースは実際の音楽の歌の特有の表示を行うように構成されている。スコアキーワードは音楽の歌の特徴として音楽スコアから抽出される。本発明はハミングにより入力された問合わせを問合わせキーワードへ自動的に変換する方法も提供する。抽出された問合わせキーワードは関連する音楽の歌を検索するため音楽のスコアデータベース中の既存のスコアキーワードと一致される。音楽の歌と実際の音楽の歌の間に正確な対応が存在するので、検索の正確性は他の低レベルの特性ベースの音楽検索方法と比較して非常に改良される。
【選択図】図6a
【選択図】図6a
Description
【技術分野】
【0001】
本発明は、内容ベースのオーディオ/音楽検索、およびマルチメディア情報がオーディオ/音楽を含んでいる場合の他の内容ベースのマルチメディア情報の検索に関する。
【背景技術】
【0002】
インターネットに関するコンピュータネットワークおよび技術の急速な進歩はデジタルマルチメディアのデータ集収の大きさを急激に増加している。効率的なブラウジング、サーチ、検索を可能にするためにこのような情報を効率的に組織する方法は過去数十年間、活発な研究分野であり、現在も続いている。種々の種類の内容ベースのイメージおよびビデオ検索方法は1990年代初期以来進歩している。正確性と速度は検索方法を評価するための2つの重要な指標性能である。内容ベースのイメージおよびビデオ検索と比較して、内容ベースのオーディオ検索、特に音楽の検索は、生のデジタルオーディオデータが名称、ファイルフォーマット、サンプリングレートのような最も未発達なフィールドが取付けられた特徴のないバイトの集合であり、これは内容ベースの検索を容易に可能にしないので特別な挑戦を与える。現在の内容ベースのオーディオ検索方法は内容ベースのイメージ検索と同一のアイディアにしたがう。第1に、特徴ベクトルはデータベース中のオーディオの音響の特徴を抽出することにより構成される。第2に、同じ特徴は問合わせから抽出される。最後に、データベースの関連するオーディオは問合わせとデータベースとの間の特徴の一致にしたがってランクされる。
【0003】
米国特許第5,918,223 号明細書はデータファイルの内容に基づいてオーディオファイルの解析および比較を行うシステムを開示している。オーディオデータの解析によれば典型的にマルチメディアデータベースまたはワールドワイドウェブに記憶されている個々のオーディオファイル間の類似性を区分しランクするために使用されることのできる1組の数値(特徴ベクトル)が発生される。解析はまたユーザ規定クラスのメンバである1組のオーディオファイルの解析に基づいて、オーディオファイルのユーザ規定クラスの記述を容易にする。システムは1つの長い音内の音を発見することができ、オーディオ記録が自動的に一連の短いオーディオセグメントに分割されることを可能にする。
【0004】
Stan Z. Liの“Content-based Classification and Retrieval of Audio Using the Nearest Line method ”と題する出版物(IEEE Transactions on Speech and Audio Processing 公認、1999年)は内容ベースのオーディオ区分および検索方法を開示している。これは最隣の特徴ライン(NFL)と呼ばれる新しいパターンの区分方法に基づいている。NFLでは、1クラス当り多数のプロトタイプにより与えられる情報が探求されている。これは問合わせが各プロトタイプに個々に比較される最隣の近傍(NN)区分と対照的である。オーディオ表示に関して、知覚およびセプストラル特性とそれらの組合わせが考慮される。
【0005】
J. Foot の“Content-based Retrieval of Music and Audio”と題する出版物(Proc. of SPIE 、3229巻、1997年、 138〜147 頁)はオーディオ特徴として12メル周波数セプストラル係数(MFCC)とエネルギを使用する方法を開示する。ツリー構造のベクトル量子化装置は特徴ベクトル空間をディスクリートな数の領域または“ビン”に区画するために使用される。音のヒストグラム間のユークリッドまたはコサイン距離は比較され、区分はNNルールを使用して行われる。
【発明の開示】
【発明が解決しようとする課題】
【0006】
既存の方法の1つの問題は、雑音が特徴の抽出のプロセスで誘発されるためこれらは満足できる検索の正確度を得ることができないと考えられることである。さらに従来技術の方法は特徴ベクトル空間が大きくなるならば時間がかかると考えられる。
【課題を解決するための手段】
【0007】
1つの特徴では、本発明は内容ベースの情報のインデックス化と検索で使用するのに適したデジタル表示でオーディオ/音楽情報を表す方法を提供し、これはオーディオ/音楽の少なくとも1つの特性の最大値および最小値にそれぞれ対応する1組のピークおよびバレーを含んでいる第1の表示を決定し、ピークとバレーとの間の相対的な差を表す値を含んでいる第2の表示を決定するステップを含んでいる。
【0008】
別の特徴では、本発明はオーディオ/音楽スコアデータベースを作成する方法を提供し、これはオーディオ/音楽スコアデータベースとオーディオ/音楽データベースとの間にリンクが設けられるように実際の音楽の歌を特有に表すためにオーディオ/音楽スコアを使用し、オーディオ/音楽スコアを表すために1組のデジタル値を含んでいる曲線を使用し、オーディオ/音楽スコアデータベースをインデックスするために曲線のピークとバレーを使用するステップを含んでいる。
【0009】
さらに別の特徴では、本発明はオーディオ/音楽スコアをスコアキーワードに変換する方法を提供し、これは、ゼロの音調を除去するようにオーディオ/音楽音調を表す1組のデジタル値を含んでいるスコア曲線を予め処理し、スコア曲線のピークとバレーを検出し、各ピーク/バレーとバレー/ピーク対との間の距離を計算し、スコアキーワードとして機能するように基準点としてのピークおよびバレーと、ピークおよびバレーの音調ヒストグラムとを使用するステップを含んでいる。
【0010】
さらに別の特徴では、本発明は前述の方法にしたがって動作する内容ベースの情報検索で使用するためのシステムを提供する。
【0011】
本質的に、本発明は特徴的な相対差値を含むオーディオ/音楽情報の表示が内容ベースの音響/音楽情報を表示し、インデックスしおよび/または検索する比較的正確で迅速な手段を提供する認識から生まれている。これらの相対的な差値が比較的複雑ではない特徴表示を与えることも発見された。
【0012】
好ましい実施形態では、本発明の方法はさらに第1の表示のヒストグラムを決定するステップを含んでいる。
【0013】
好ましくは、第1の表示のヒストグラムは所定の時間インターバルにおけるピークまたはバレーのポピュレーションまたは継続時間の表示を含んでいる。
【0014】
好ましくは、ピークの相対差値はピークのすぐ後のバレーの大きさと、ピークの大きさとの差により与えられ、バレーの相対差値はバレーのすぐ後のピークの大きさと、バレーの大きさとの差により与えられる。
【0015】
別の好ましい実施形態では、本発明の方法は第2の表示のヒストグラムを決定するステップをさらに含んでいる。
【0016】
好ましくは、オーディオ/音楽情報は音楽のスコアである。この実施形態では、本発明の方法は第1の表示を決定するステップを行う前に音楽スコアを予め処理するステップをさらに含んでおり、これは音楽スコアからゼロの音調を除去し、除去されたゼロの音調により残された任意のギャップを埋めるために残りのゼロではない音調を接合することを含んでいる。
【0017】
好ましくは、オーディオ/音楽情報は音響信号であり、音響信号は肉声またはハミング信号であってもよい。この実施形態では、本発明の方法は第1の表示を決定するステップを行う前に音響信号を予め処理するステップを含んでおり、それは音響信号をデジタル信号へ変換し、雑音をデジタル信号から除去し、雑音のないデジタル信号にピッチ検出を受けさせ、ピッチ検出されたデジタル信号にインターバルまたは音調検出を受けさせるステップを含んでいる。ピッチ検出は雑音のないデジタル信号のウィンドウされたフーリエ変換と自動相関を含んでいる。インターバルまたは音調検出はピッチ検出されたデジタル信号の対数的なスケールを含んでいる。
【0018】
好ましくは、オーディオ/音楽特性は音量レベル、ピッチ、インターバル情報のうちの任意の1以上である。
【0019】
別の好ましい実施形態では、本発明は音楽スコアデータベースを作成する方法が提供され、この方法は、音楽スコアと実際の音楽トラックとの間にリンクを設けるように音楽スコアで特有に実際の音楽トラックを表示し、検索キーワードを形成するため前述の方法にしたがって音楽スコアを表示し、検索キーワードをデータベースに記憶するステップを含んでいる。
【0020】
本発明の好ましい実施形態では、音楽スコアデータベースを作成する方法は、データベースで記憶するために少なくとも1つのインデックスを作成するステップをさらに含んでおり、少なくとも1つのインデックスは音楽スコア全体に対応するグローバル特徴を含み、グローバル特徴は第2の表示のヒストグラムを含んでいる。
【0021】
別の好ましい実施形態では、本発明は音楽スコアデータベースにおける音楽情報の検索のために音響入力から問合わせキーワードを作成する方法を提供し、この方法は前述の方法にしたがってデジタル表示で音響入力を表示するステップを含んでいる。
【0022】
さらに別の好ましい実施形態では、本発明は、問合わせキーワードをデータベースのキーワードと整合することによって前述したように音楽スコアデータベースを作成する方法にしたがって作成された音楽スコアデータベースから音楽情報を検索する方法を提供し、この方法は、関連しないデータベースのキーワードを除去するために、前述したように問合わせキーワードを作成する方法にしたがって作成された問合わせキーワードを各音楽スコアに対応するグローバルな特徴と比較し、問合わせの第2の表示を各データベースキーワードの第2の表示と比較し、問合わせの第1の表示のヒストグラムを各データベースキーワードの第1の表示のヒストグラムと比較するステップを含んでいる。
【0023】
好ましい実施形態では、本発明は音楽のスコアデータベースを組織するためのインデックスの作成方法を提供し、この方法は完全な実際の音楽の歌のグローバルな特徴を構成するステップを含んでおり、グローバルな特徴は各ピーク/バレーとバレー/ピーク対との間の距離値のヒストグラムである。
【0024】
さらに別の好ましい実施形態では、本発明はハミングの形態の音響入力を自動的に問合わせキーワードに変換する方法を提供し、この方法は音響入力をデジタル信号へ変換し、デジタル信号からピッチを検出し、ピッチを音調に変換し、ピッチの曲線により音響入力を表示し、小さいピークとバレーを除去することによりピッチ曲線をスムーズにし、ピッチ曲線のピークとバレーを検出し、以下のステップにしたがってピークとバレーを使用して問合わせキーワードを発生する。その使用するステップは、
・各ピーク/バレーおよびバレー/ピーク対との間の距離を計算し、
スコアキーワードとして機能するように基準点としてのピークおよびバレーと、ピークおよびバレーの音調ヒストグラムとを使用する。
【0025】
別の好ましい実施形態では、本発明は問合わせキーワードを音楽のスコアキーワードに整合する方法を提供し、この方法は関連しない音楽スコアキーワードを除去するためグローバル特徴をチェックし、問合わせのピーク/バレー距離値のシーケンスと音楽スコアキーワードのピーク/バレー距離値を整合し、ヒストグラムの交差により音調ヒストグラムと整合するステップを含んでいる。
【0026】
説明した従来技術に関連する問題を克服する検索の正確性および速度を改良するための内容ベースの音楽検索方法を提供することが望ましい。音楽データベースから抽出されたキーワードを整合するためにハミングにより入力された問合わせを問合わせキーワードへ変換する方法を提供することも望ましい。データベースを組織化する効率的なインデックス化方法を提供し、問合わせキーワードをデータベースキーワードに整合させる頑丈な類似性一致方法を提供することはさらに望ましい。
【0027】
[スコアキーワード抽出およびデータベース構造]
内容ベースの検索の正確性を改良するため、データベース構造は非常に重要である。伝統的な内容ベースのオーディオ/音楽検索方法では、データベースはオーディオ/音楽クリップから特徴を抽出し、各オーディオ/音楽クリップの特徴ベクトルを生成することにより構成される。特徴抽出が近似的なプロセスであり、全ての種類のオーディオ/音楽の特徴を正確に表すために幾つかの特徴を使用することは困難であるので、このプロセスで導入される雑音は検索結果の正確性に明確に影響する。1実施形態では、本発明はデータベースの構成方法を提案する。イメージおよびビデオと異なって、音楽の歌は作曲家により作成され、したがって各音楽のピースはその音楽を特有に特徴付けることのできる音楽スコアを有する。この事実に基づいて、実際の音楽の歌の特徴として音楽スコアからスコアキーワードを抽出する。低レベルの特徴と比較して、音楽スコアキーワードはより効率的な音楽表示である。音楽の最も重要な特性を捕捉し、音楽検索のためにデータベース側の雑音を劇的に減少することができる。
【0028】
[問合わせ処理]
本発明の別の実施形態では、伝統的なテキストベースの問合わせ方法とは異なる問合わせ方法を提供する。ユーザはマイクロホンにより音楽または歌のピースをハミングすることによって問合わせを入力できる。入力された問合わせは本発明の方法を問合わせに適用することによって問合わせキーワードに自動的に変換される。抽出された問合わせキーワードはデータベース中のスコアキーワードと整合される。検索結果は問合わせとスコアキーワードとの類似性にしたがってランクされる。
【0029】
[インデックス化および一致]
小さい音楽データベースでハミングによる問合わせを行うとき、ハミング音響からのデータベース中の全ての音楽の歌に対する類似性尺度を計算し、その後所望結果に一致する音楽の歌を選択することは容易である。しかしながら、大きいデータベースではこれは高価すぎる。実際の応用では、音楽データベースは数千または数万の歌を通常含んでいる。内容ベースの音楽検索を大きいサイズの音楽集収に調節可能にし検索の速度を上げることを可能にするため、効率的なインデックス化技術を開発する必要がある。本発明では、データベースを組織するために効率的なインデックス化方式を提供する、これは大きいデータベースで高速度の検索を実現できる。
【0030】
内容ベースの音楽検索の正確性に影響する別の重要な要素は整合の方法である。問合わせを入力するユーザが音楽の専門家であることを確認できないので、特にメモリからハミングするとき一般人が歌を正確にハミングすることは困難である。それ故、ハミングによる音楽を検索するために適用される任意のキーワード整合方法は問合わせ側のエラーを許容しなければならない。本発明の1実施形態では、さらに高い検索の正確度を得るため、ユークリッドではない類似性の尺度が使用される。これはユークリッド測定がある聴覚内容の人間の知覚を効率的にシミュレートしないという考慮に基づいている。ユークリッドではない尺度はヒストグラム交差、コサイン、相関等を含んでいる。他方で、本発明の実施形態で使用されるインデックス化技術もまたユークリッドではない類似性尺度をサポートできる。
【発明を実施するための最良の形態】
【0031】
本発明のこれらおよび他の特徴と利点は添付図面を伴って使用する以下の説明から当業者に容易に明白になるであろう。
図1はサーバとクライアントとの間の通信のシステム構造を示している。デジタル音楽内容を記憶するためサーバには1または幾つかの音楽データベースが存在する。各音楽データベースに対応するスコアキーワードを含んだ音楽スコアデータベースが存在する。サーバ側のサービスにはクライアントからの問合わせを受信し、問合わせキーワードを音楽スコアデータベース中のスコアキーワードと整合し、関連する音楽の歌を検索し、それらをクライアントへ送信することが含まれている。クライアント側のサービスには音楽検索エンジン、問合わせ処理、音楽ブラウジングが含まれている。ユーザはマイクロホンによってハミングを音楽検索エンジンに入力できる。問合わせ処理モジュールは問合わせから問合わせキーワードを抽出し、問合わせキーワードをインターネットによってサーバへ送信する。サーバが検索された音楽の歌をクライアントへ返送したとき、音楽ブラウジングツールはユーザがこれらの歌を明白に観察し、容易に聞くことを可能にする。
【0032】
図2は音楽スコアデータベースの構造を示している。音楽スコアデータベースは実際の音楽の歌を含んでいる音楽データベースに対応する。音楽スコアデータベースの記録フィールドは音楽のタイトル、歌手、音楽のタイプ、スコアキーワード、音楽データベースに記憶されている実際の音楽への連係を含んでいる。
【0033】
図3はスコアデータベース構造のブロック図を示している。これは3つのステップ、即ちスコアメロディの処理、スコアキーボードの発生、スコアキーボードのインデックス化からなる。
【0034】
このモジュールへの入力は音楽の歌に対応する音楽スコアであり、これは音楽のデータベースにも挿入される。音楽スコアは音楽の複合情報を提供し、音楽のアーティストが音楽を一度作成すると入手可能になる。音楽のスコアは基本的にどの音調が何時、どのぐらいの長さで演奏されるかを特定する。したがって音楽のスコアはデジタル形態で容易に表示されることができる。各音調を1つの整数で表示し、大きい整数は高い音調に対応する。2つの隣接する音調の距離は1セミトーンであり、2つの音調を表す2つの整数間の距離も1である。各音調の時間情報は4分の1ビート(またはさらに細かい単位)の整数倍で測定される。
【0035】
音楽スコア情報はスコアメロディ処理モジュールとそれに続くキーワード発生モジュールにより処理される。2つのモジュールは個々の図面(図4および図5)により示されている。スコアキーワードの抽出後、これらはスコアデータベースの効率的な記憶および検索の目的でインデックスされることができる。
【0036】
図4はスコアメロディ処理モジュールのフローチャートを示している。音楽のスコアは最初に予め処理され、曲線に変換され、x軸は時間でありy軸は音調レベルである。相対的な音調変化だけが重要であるので、各音調の絶対値は無視される。音楽のスコアでは、ゼロ(0)音調が存在し、これは無音を表す。0音調はスコア曲線から除去され、除去された0音調の前および後の音調は単に接続される。第2に、スコア曲線のピークおよびバレーが検出される。ピークは前および後にそれに接続された2つの両音調よりも高い音調として定義される。類似のことはバレーの定義である。これらのピークおよびバレーは音楽のインデックス化と検索で使用される非常に重要な特性点である。スコア曲線とそのピークおよびバレーの1例が図6aに示されている。
【0037】
図5はスコアキーワード発生のフローチャートを示している。スコア曲線のピークおよびバレーの検出後、各ピークおよび各バレーに対して値が計算される。ピークでは、値はそのすぐ後のバレーとそのピーク自体との差であり、値は正である。バレーでは、値はそのすぐ後のピークとそのバレー自体との差であり、負の値である。ピークとバレーの値のシーケンスは音楽検索で使用される特徴の第1の部分である。図6aの下方の図はピークとバレーをそれらの関連する値と共に示している。
【0038】
その後、音調ヒストグラムは各ピークおよび各バレーについて計算されている。音調ヒストグラムは時間インターバル中に与えられる音調の数または長さの情報を含んでいる。時間インターバルは一定の時間期間であるか開始するピーク/バレーからそれに続くx番目のピーク/バレーまでである。図6cはこの例において第1のピークの音調ヒストグラムを示している。この例において1つのピーク/バレーから4番目のピーク/バレーまでのインターバルを使用する。
【0039】
完全な歌のピークおよびバレーの特徴値はまたヒストグラムに統計的に記憶され、音楽のグローバル特徴として使用される。これは整合の第1のステップとして使用されることができる。ヒストグラムと検索された音楽との間に一致が存在しないならば、さらに他の特徴と一致することは必要ではない。これは検索プロセスの速度を上げることができる。
【0040】
図6aは音楽スコアのピースに対応する1例のスコア曲線である。検出されたピークおよびバレーとそれらの特徴値も示されている。図6bは完全な音楽のピースの検出されたピーク/バレーである。下方の図はグローバルな特徴を示しており、これはピーク/バレー特徴のヒストグラムである。図6cはスコア曲線の第1のピークに対応する抽出されたスコアキーワードである。この図では、ヒストグラムの原点は6であり、ビン6が開始音調(この例では最初のピーク)の音調値に対応していることを意味する。
【0041】
図7は問合わせキーワード抽出のブロック図を示している。ハミングにより入力された問合わせは音響信号である。これは音響カード等のA/D変換装置によりデジタル信号に変換される。デジタル信号は環境雑音を除去するために前処理機構を通過する。その後、ピッチ検出とインターバル検出が処理されたデジタル信号に適用される。スムースなピッチおよびインターバル曲線を得るため、ピッチメロディ処理は抽出されたピッチおよびインターバル情報に対して行われる。最終的に問合わせキーワードはピッチおよびインターバル曲線にしたがって発生される。
【0042】
ピッチ検出はウィンドウ処理されたフーリエ変換と自動相関により行われる。
【0043】
検出されたピッチ値の対数的なスケーリングによりインターバル検出または音調検出が行われる。音調検出後、音調値の時間変化はスコア音調値の時間変化に匹敵する。入力されたハミング問合わせはピッチ曲線で表されることができる。さらに特徴を抽出するためにこのピッチ曲線が使用される。
【0044】
ピッチメロディ処理はスコア曲線(図8)のようにピッチ曲線のピーク/バレーを検出する。
【0045】
最終的な問合わせキーワード発生はスコア曲線と同一のプロセスを使用して行われ、図5に示されている。
【0046】
図8はピッチメロディ処理のフローチャートを示している。ピッチ曲線は小さい値の変化を除去することにより最初にスムースにされる。その後、ピーク/バレー検出はスムースにされたピッチ曲線について行われる。インデックス化プロセスまたはスコアキーワードプロセスに類似して、問合わせキーワードの抽出もまたピーク/バレー値の変化と音調ヒストグラムを計算する。これらの特性はその後、整合プロセスで使用される。
【0047】
図9aは図6aの音楽スコアのピースと同一のハミングから変換されたデジタル問合わせ信号である。図9bは図9aからの検出されたピッチおよびインターバル曲線である。検出されたピーク/バレー値も示されている。図9cは図9bの情報にしたがった抽出されたピッチキーワードである。
【0048】
図10aは図6aの音楽スコアのピースと同一のハミングから変換された別のデジタル問合わせ信号である。図10bは図10aからの検出されたピッチおよびインターバル曲線である。対応するピーク/バレー値も示されている。図10cは図10bの情報にしたがって抽出されたスコアキーワードである。図9、図10および図6から、スコア/ピッチ曲線または問合わせキーワードとスコアキーワードは類似していることが分かる。
【0049】
図11はスコアキーワードと問合わせキーワード間の整合のブロック図を示している。抽出された問合せキーワードは整合アルゴリムの使用によりデータベース中のスコアキーワードと比較される。検索結果は問合わせキーワードとスコアキーワードとの類似性にしたがってランクされ、ユーザに戻される。
【0050】
図12はキーワード整合のステップを示している。ステップ1では、問合わせからの検出されたピーク/バレー値はスコアキーワードのピーク/バレー値と比較される。この比較はピーク/バレー値の累積された距離を測定することにより行われる。距離がしきい値よりも小さいならば、更に類似性測定が行われ、そうでなければ、整合は次の候補にスキップする。差はピーク/バレー値のシーケンス、例えば5値で測定され、5値の差は最終的な距離を形成するように合計され、その後しきい値と比較される。
【0051】
ステップ2で、音調ヒストグラムが比較される。ヒストグラムの交差は問合わせと候補との類似性の測定に使用される。類似性は最も高い類似から低い類似への順序で検索結果をリストするようにランクされることができる。
【図面の簡単な説明】
【0052】
【図1】本発明を使用した音楽データベース検索システムにおけるサーバとクライアントとの間の通信のシステム構造を示している図。
【図2】図1の音楽スコアデータベースの構造を示している図。
【図3】スコアデータベース構造のブロック図。
【図4】スコアデータベース構造で行われたスコアメロディ処理を示している図。
【図5】スコア/ピッチキーワード抽出のフローチャート。
【図6a】音楽スコアのピース、メロディ曲線、抽出されたスコアキーワードの1例を示している図。
【図6b】音楽スコアのピース、メロディ曲線、抽出されたスコアキーワードの1例を示している図。
【図6c】音楽スコアのピース、メロディ曲線、抽出されたスコアキーワードの1例を示している図。
【図7】問合わせ処理およびキーワード抽出のフローチャート。
【図8】問合わせ処理で行われるピッチメロディ処理のフローチャート。
【図9a】デジタル問合わせ信号、検出されたピッチおよびインターバル曲線、抽出されたスコアキーワードの1例を示している図。
【図9b】デジタル問合わせ信号、検出されたピッチおよびインターバル曲線、抽出されたスコアキーワードの1例を示している図。
【図9c】デジタル問合わせ信号、検出されたピッチおよびインターバル曲線、抽出されたスコアキーワードの1例を示している図。
【図10a】別のデジタル問合わせ信号、検出されたピッチおよびインターバル曲線、抽出されたスコアキーワードの1例を示している図。
【図10b】別のデジタル問合わせ信号、検出されたピッチおよびインターバル曲線、抽出されたスコアキーワードの1例を示している図。
【図10c】別のデジタル問合わせ信号、検出されたピッチおよびインターバル曲線、抽出されたスコアキーワードの1例を示している図。
【図11】スコアキーワードと問合わせキーワード間の整合方法のブロック図。
【図12】整合アルゴリズムのフローチャート。
【0001】
本発明は、内容ベースのオーディオ/音楽検索、およびマルチメディア情報がオーディオ/音楽を含んでいる場合の他の内容ベースのマルチメディア情報の検索に関する。
【背景技術】
【0002】
インターネットに関するコンピュータネットワークおよび技術の急速な進歩はデジタルマルチメディアのデータ集収の大きさを急激に増加している。効率的なブラウジング、サーチ、検索を可能にするためにこのような情報を効率的に組織する方法は過去数十年間、活発な研究分野であり、現在も続いている。種々の種類の内容ベースのイメージおよびビデオ検索方法は1990年代初期以来進歩している。正確性と速度は検索方法を評価するための2つの重要な指標性能である。内容ベースのイメージおよびビデオ検索と比較して、内容ベースのオーディオ検索、特に音楽の検索は、生のデジタルオーディオデータが名称、ファイルフォーマット、サンプリングレートのような最も未発達なフィールドが取付けられた特徴のないバイトの集合であり、これは内容ベースの検索を容易に可能にしないので特別な挑戦を与える。現在の内容ベースのオーディオ検索方法は内容ベースのイメージ検索と同一のアイディアにしたがう。第1に、特徴ベクトルはデータベース中のオーディオの音響の特徴を抽出することにより構成される。第2に、同じ特徴は問合わせから抽出される。最後に、データベースの関連するオーディオは問合わせとデータベースとの間の特徴の一致にしたがってランクされる。
【0003】
米国特許第5,918,223 号明細書はデータファイルの内容に基づいてオーディオファイルの解析および比較を行うシステムを開示している。オーディオデータの解析によれば典型的にマルチメディアデータベースまたはワールドワイドウェブに記憶されている個々のオーディオファイル間の類似性を区分しランクするために使用されることのできる1組の数値(特徴ベクトル)が発生される。解析はまたユーザ規定クラスのメンバである1組のオーディオファイルの解析に基づいて、オーディオファイルのユーザ規定クラスの記述を容易にする。システムは1つの長い音内の音を発見することができ、オーディオ記録が自動的に一連の短いオーディオセグメントに分割されることを可能にする。
【0004】
Stan Z. Liの“Content-based Classification and Retrieval of Audio Using the Nearest Line method ”と題する出版物(IEEE Transactions on Speech and Audio Processing 公認、1999年)は内容ベースのオーディオ区分および検索方法を開示している。これは最隣の特徴ライン(NFL)と呼ばれる新しいパターンの区分方法に基づいている。NFLでは、1クラス当り多数のプロトタイプにより与えられる情報が探求されている。これは問合わせが各プロトタイプに個々に比較される最隣の近傍(NN)区分と対照的である。オーディオ表示に関して、知覚およびセプストラル特性とそれらの組合わせが考慮される。
【0005】
J. Foot の“Content-based Retrieval of Music and Audio”と題する出版物(Proc. of SPIE 、3229巻、1997年、 138〜147 頁)はオーディオ特徴として12メル周波数セプストラル係数(MFCC)とエネルギを使用する方法を開示する。ツリー構造のベクトル量子化装置は特徴ベクトル空間をディスクリートな数の領域または“ビン”に区画するために使用される。音のヒストグラム間のユークリッドまたはコサイン距離は比較され、区分はNNルールを使用して行われる。
【発明の開示】
【発明が解決しようとする課題】
【0006】
既存の方法の1つの問題は、雑音が特徴の抽出のプロセスで誘発されるためこれらは満足できる検索の正確度を得ることができないと考えられることである。さらに従来技術の方法は特徴ベクトル空間が大きくなるならば時間がかかると考えられる。
【課題を解決するための手段】
【0007】
1つの特徴では、本発明は内容ベースの情報のインデックス化と検索で使用するのに適したデジタル表示でオーディオ/音楽情報を表す方法を提供し、これはオーディオ/音楽の少なくとも1つの特性の最大値および最小値にそれぞれ対応する1組のピークおよびバレーを含んでいる第1の表示を決定し、ピークとバレーとの間の相対的な差を表す値を含んでいる第2の表示を決定するステップを含んでいる。
【0008】
別の特徴では、本発明はオーディオ/音楽スコアデータベースを作成する方法を提供し、これはオーディオ/音楽スコアデータベースとオーディオ/音楽データベースとの間にリンクが設けられるように実際の音楽の歌を特有に表すためにオーディオ/音楽スコアを使用し、オーディオ/音楽スコアを表すために1組のデジタル値を含んでいる曲線を使用し、オーディオ/音楽スコアデータベースをインデックスするために曲線のピークとバレーを使用するステップを含んでいる。
【0009】
さらに別の特徴では、本発明はオーディオ/音楽スコアをスコアキーワードに変換する方法を提供し、これは、ゼロの音調を除去するようにオーディオ/音楽音調を表す1組のデジタル値を含んでいるスコア曲線を予め処理し、スコア曲線のピークとバレーを検出し、各ピーク/バレーとバレー/ピーク対との間の距離を計算し、スコアキーワードとして機能するように基準点としてのピークおよびバレーと、ピークおよびバレーの音調ヒストグラムとを使用するステップを含んでいる。
【0010】
さらに別の特徴では、本発明は前述の方法にしたがって動作する内容ベースの情報検索で使用するためのシステムを提供する。
【0011】
本質的に、本発明は特徴的な相対差値を含むオーディオ/音楽情報の表示が内容ベースの音響/音楽情報を表示し、インデックスしおよび/または検索する比較的正確で迅速な手段を提供する認識から生まれている。これらの相対的な差値が比較的複雑ではない特徴表示を与えることも発見された。
【0012】
好ましい実施形態では、本発明の方法はさらに第1の表示のヒストグラムを決定するステップを含んでいる。
【0013】
好ましくは、第1の表示のヒストグラムは所定の時間インターバルにおけるピークまたはバレーのポピュレーションまたは継続時間の表示を含んでいる。
【0014】
好ましくは、ピークの相対差値はピークのすぐ後のバレーの大きさと、ピークの大きさとの差により与えられ、バレーの相対差値はバレーのすぐ後のピークの大きさと、バレーの大きさとの差により与えられる。
【0015】
別の好ましい実施形態では、本発明の方法は第2の表示のヒストグラムを決定するステップをさらに含んでいる。
【0016】
好ましくは、オーディオ/音楽情報は音楽のスコアである。この実施形態では、本発明の方法は第1の表示を決定するステップを行う前に音楽スコアを予め処理するステップをさらに含んでおり、これは音楽スコアからゼロの音調を除去し、除去されたゼロの音調により残された任意のギャップを埋めるために残りのゼロではない音調を接合することを含んでいる。
【0017】
好ましくは、オーディオ/音楽情報は音響信号であり、音響信号は肉声またはハミング信号であってもよい。この実施形態では、本発明の方法は第1の表示を決定するステップを行う前に音響信号を予め処理するステップを含んでおり、それは音響信号をデジタル信号へ変換し、雑音をデジタル信号から除去し、雑音のないデジタル信号にピッチ検出を受けさせ、ピッチ検出されたデジタル信号にインターバルまたは音調検出を受けさせるステップを含んでいる。ピッチ検出は雑音のないデジタル信号のウィンドウされたフーリエ変換と自動相関を含んでいる。インターバルまたは音調検出はピッチ検出されたデジタル信号の対数的なスケールを含んでいる。
【0018】
好ましくは、オーディオ/音楽特性は音量レベル、ピッチ、インターバル情報のうちの任意の1以上である。
【0019】
別の好ましい実施形態では、本発明は音楽スコアデータベースを作成する方法が提供され、この方法は、音楽スコアと実際の音楽トラックとの間にリンクを設けるように音楽スコアで特有に実際の音楽トラックを表示し、検索キーワードを形成するため前述の方法にしたがって音楽スコアを表示し、検索キーワードをデータベースに記憶するステップを含んでいる。
【0020】
本発明の好ましい実施形態では、音楽スコアデータベースを作成する方法は、データベースで記憶するために少なくとも1つのインデックスを作成するステップをさらに含んでおり、少なくとも1つのインデックスは音楽スコア全体に対応するグローバル特徴を含み、グローバル特徴は第2の表示のヒストグラムを含んでいる。
【0021】
別の好ましい実施形態では、本発明は音楽スコアデータベースにおける音楽情報の検索のために音響入力から問合わせキーワードを作成する方法を提供し、この方法は前述の方法にしたがってデジタル表示で音響入力を表示するステップを含んでいる。
【0022】
さらに別の好ましい実施形態では、本発明は、問合わせキーワードをデータベースのキーワードと整合することによって前述したように音楽スコアデータベースを作成する方法にしたがって作成された音楽スコアデータベースから音楽情報を検索する方法を提供し、この方法は、関連しないデータベースのキーワードを除去するために、前述したように問合わせキーワードを作成する方法にしたがって作成された問合わせキーワードを各音楽スコアに対応するグローバルな特徴と比較し、問合わせの第2の表示を各データベースキーワードの第2の表示と比較し、問合わせの第1の表示のヒストグラムを各データベースキーワードの第1の表示のヒストグラムと比較するステップを含んでいる。
【0023】
好ましい実施形態では、本発明は音楽のスコアデータベースを組織するためのインデックスの作成方法を提供し、この方法は完全な実際の音楽の歌のグローバルな特徴を構成するステップを含んでおり、グローバルな特徴は各ピーク/バレーとバレー/ピーク対との間の距離値のヒストグラムである。
【0024】
さらに別の好ましい実施形態では、本発明はハミングの形態の音響入力を自動的に問合わせキーワードに変換する方法を提供し、この方法は音響入力をデジタル信号へ変換し、デジタル信号からピッチを検出し、ピッチを音調に変換し、ピッチの曲線により音響入力を表示し、小さいピークとバレーを除去することによりピッチ曲線をスムーズにし、ピッチ曲線のピークとバレーを検出し、以下のステップにしたがってピークとバレーを使用して問合わせキーワードを発生する。その使用するステップは、
・各ピーク/バレーおよびバレー/ピーク対との間の距離を計算し、
スコアキーワードとして機能するように基準点としてのピークおよびバレーと、ピークおよびバレーの音調ヒストグラムとを使用する。
【0025】
別の好ましい実施形態では、本発明は問合わせキーワードを音楽のスコアキーワードに整合する方法を提供し、この方法は関連しない音楽スコアキーワードを除去するためグローバル特徴をチェックし、問合わせのピーク/バレー距離値のシーケンスと音楽スコアキーワードのピーク/バレー距離値を整合し、ヒストグラムの交差により音調ヒストグラムと整合するステップを含んでいる。
【0026】
説明した従来技術に関連する問題を克服する検索の正確性および速度を改良するための内容ベースの音楽検索方法を提供することが望ましい。音楽データベースから抽出されたキーワードを整合するためにハミングにより入力された問合わせを問合わせキーワードへ変換する方法を提供することも望ましい。データベースを組織化する効率的なインデックス化方法を提供し、問合わせキーワードをデータベースキーワードに整合させる頑丈な類似性一致方法を提供することはさらに望ましい。
【0027】
[スコアキーワード抽出およびデータベース構造]
内容ベースの検索の正確性を改良するため、データベース構造は非常に重要である。伝統的な内容ベースのオーディオ/音楽検索方法では、データベースはオーディオ/音楽クリップから特徴を抽出し、各オーディオ/音楽クリップの特徴ベクトルを生成することにより構成される。特徴抽出が近似的なプロセスであり、全ての種類のオーディオ/音楽の特徴を正確に表すために幾つかの特徴を使用することは困難であるので、このプロセスで導入される雑音は検索結果の正確性に明確に影響する。1実施形態では、本発明はデータベースの構成方法を提案する。イメージおよびビデオと異なって、音楽の歌は作曲家により作成され、したがって各音楽のピースはその音楽を特有に特徴付けることのできる音楽スコアを有する。この事実に基づいて、実際の音楽の歌の特徴として音楽スコアからスコアキーワードを抽出する。低レベルの特徴と比較して、音楽スコアキーワードはより効率的な音楽表示である。音楽の最も重要な特性を捕捉し、音楽検索のためにデータベース側の雑音を劇的に減少することができる。
【0028】
[問合わせ処理]
本発明の別の実施形態では、伝統的なテキストベースの問合わせ方法とは異なる問合わせ方法を提供する。ユーザはマイクロホンにより音楽または歌のピースをハミングすることによって問合わせを入力できる。入力された問合わせは本発明の方法を問合わせに適用することによって問合わせキーワードに自動的に変換される。抽出された問合わせキーワードはデータベース中のスコアキーワードと整合される。検索結果は問合わせとスコアキーワードとの類似性にしたがってランクされる。
【0029】
[インデックス化および一致]
小さい音楽データベースでハミングによる問合わせを行うとき、ハミング音響からのデータベース中の全ての音楽の歌に対する類似性尺度を計算し、その後所望結果に一致する音楽の歌を選択することは容易である。しかしながら、大きいデータベースではこれは高価すぎる。実際の応用では、音楽データベースは数千または数万の歌を通常含んでいる。内容ベースの音楽検索を大きいサイズの音楽集収に調節可能にし検索の速度を上げることを可能にするため、効率的なインデックス化技術を開発する必要がある。本発明では、データベースを組織するために効率的なインデックス化方式を提供する、これは大きいデータベースで高速度の検索を実現できる。
【0030】
内容ベースの音楽検索の正確性に影響する別の重要な要素は整合の方法である。問合わせを入力するユーザが音楽の専門家であることを確認できないので、特にメモリからハミングするとき一般人が歌を正確にハミングすることは困難である。それ故、ハミングによる音楽を検索するために適用される任意のキーワード整合方法は問合わせ側のエラーを許容しなければならない。本発明の1実施形態では、さらに高い検索の正確度を得るため、ユークリッドではない類似性の尺度が使用される。これはユークリッド測定がある聴覚内容の人間の知覚を効率的にシミュレートしないという考慮に基づいている。ユークリッドではない尺度はヒストグラム交差、コサイン、相関等を含んでいる。他方で、本発明の実施形態で使用されるインデックス化技術もまたユークリッドではない類似性尺度をサポートできる。
【発明を実施するための最良の形態】
【0031】
本発明のこれらおよび他の特徴と利点は添付図面を伴って使用する以下の説明から当業者に容易に明白になるであろう。
図1はサーバとクライアントとの間の通信のシステム構造を示している。デジタル音楽内容を記憶するためサーバには1または幾つかの音楽データベースが存在する。各音楽データベースに対応するスコアキーワードを含んだ音楽スコアデータベースが存在する。サーバ側のサービスにはクライアントからの問合わせを受信し、問合わせキーワードを音楽スコアデータベース中のスコアキーワードと整合し、関連する音楽の歌を検索し、それらをクライアントへ送信することが含まれている。クライアント側のサービスには音楽検索エンジン、問合わせ処理、音楽ブラウジングが含まれている。ユーザはマイクロホンによってハミングを音楽検索エンジンに入力できる。問合わせ処理モジュールは問合わせから問合わせキーワードを抽出し、問合わせキーワードをインターネットによってサーバへ送信する。サーバが検索された音楽の歌をクライアントへ返送したとき、音楽ブラウジングツールはユーザがこれらの歌を明白に観察し、容易に聞くことを可能にする。
【0032】
図2は音楽スコアデータベースの構造を示している。音楽スコアデータベースは実際の音楽の歌を含んでいる音楽データベースに対応する。音楽スコアデータベースの記録フィールドは音楽のタイトル、歌手、音楽のタイプ、スコアキーワード、音楽データベースに記憶されている実際の音楽への連係を含んでいる。
【0033】
図3はスコアデータベース構造のブロック図を示している。これは3つのステップ、即ちスコアメロディの処理、スコアキーボードの発生、スコアキーボードのインデックス化からなる。
【0034】
このモジュールへの入力は音楽の歌に対応する音楽スコアであり、これは音楽のデータベースにも挿入される。音楽スコアは音楽の複合情報を提供し、音楽のアーティストが音楽を一度作成すると入手可能になる。音楽のスコアは基本的にどの音調が何時、どのぐらいの長さで演奏されるかを特定する。したがって音楽のスコアはデジタル形態で容易に表示されることができる。各音調を1つの整数で表示し、大きい整数は高い音調に対応する。2つの隣接する音調の距離は1セミトーンであり、2つの音調を表す2つの整数間の距離も1である。各音調の時間情報は4分の1ビート(またはさらに細かい単位)の整数倍で測定される。
【0035】
音楽スコア情報はスコアメロディ処理モジュールとそれに続くキーワード発生モジュールにより処理される。2つのモジュールは個々の図面(図4および図5)により示されている。スコアキーワードの抽出後、これらはスコアデータベースの効率的な記憶および検索の目的でインデックスされることができる。
【0036】
図4はスコアメロディ処理モジュールのフローチャートを示している。音楽のスコアは最初に予め処理され、曲線に変換され、x軸は時間でありy軸は音調レベルである。相対的な音調変化だけが重要であるので、各音調の絶対値は無視される。音楽のスコアでは、ゼロ(0)音調が存在し、これは無音を表す。0音調はスコア曲線から除去され、除去された0音調の前および後の音調は単に接続される。第2に、スコア曲線のピークおよびバレーが検出される。ピークは前および後にそれに接続された2つの両音調よりも高い音調として定義される。類似のことはバレーの定義である。これらのピークおよびバレーは音楽のインデックス化と検索で使用される非常に重要な特性点である。スコア曲線とそのピークおよびバレーの1例が図6aに示されている。
【0037】
図5はスコアキーワード発生のフローチャートを示している。スコア曲線のピークおよびバレーの検出後、各ピークおよび各バレーに対して値が計算される。ピークでは、値はそのすぐ後のバレーとそのピーク自体との差であり、値は正である。バレーでは、値はそのすぐ後のピークとそのバレー自体との差であり、負の値である。ピークとバレーの値のシーケンスは音楽検索で使用される特徴の第1の部分である。図6aの下方の図はピークとバレーをそれらの関連する値と共に示している。
【0038】
その後、音調ヒストグラムは各ピークおよび各バレーについて計算されている。音調ヒストグラムは時間インターバル中に与えられる音調の数または長さの情報を含んでいる。時間インターバルは一定の時間期間であるか開始するピーク/バレーからそれに続くx番目のピーク/バレーまでである。図6cはこの例において第1のピークの音調ヒストグラムを示している。この例において1つのピーク/バレーから4番目のピーク/バレーまでのインターバルを使用する。
【0039】
完全な歌のピークおよびバレーの特徴値はまたヒストグラムに統計的に記憶され、音楽のグローバル特徴として使用される。これは整合の第1のステップとして使用されることができる。ヒストグラムと検索された音楽との間に一致が存在しないならば、さらに他の特徴と一致することは必要ではない。これは検索プロセスの速度を上げることができる。
【0040】
図6aは音楽スコアのピースに対応する1例のスコア曲線である。検出されたピークおよびバレーとそれらの特徴値も示されている。図6bは完全な音楽のピースの検出されたピーク/バレーである。下方の図はグローバルな特徴を示しており、これはピーク/バレー特徴のヒストグラムである。図6cはスコア曲線の第1のピークに対応する抽出されたスコアキーワードである。この図では、ヒストグラムの原点は6であり、ビン6が開始音調(この例では最初のピーク)の音調値に対応していることを意味する。
【0041】
図7は問合わせキーワード抽出のブロック図を示している。ハミングにより入力された問合わせは音響信号である。これは音響カード等のA/D変換装置によりデジタル信号に変換される。デジタル信号は環境雑音を除去するために前処理機構を通過する。その後、ピッチ検出とインターバル検出が処理されたデジタル信号に適用される。スムースなピッチおよびインターバル曲線を得るため、ピッチメロディ処理は抽出されたピッチおよびインターバル情報に対して行われる。最終的に問合わせキーワードはピッチおよびインターバル曲線にしたがって発生される。
【0042】
ピッチ検出はウィンドウ処理されたフーリエ変換と自動相関により行われる。
【0043】
検出されたピッチ値の対数的なスケーリングによりインターバル検出または音調検出が行われる。音調検出後、音調値の時間変化はスコア音調値の時間変化に匹敵する。入力されたハミング問合わせはピッチ曲線で表されることができる。さらに特徴を抽出するためにこのピッチ曲線が使用される。
【0044】
ピッチメロディ処理はスコア曲線(図8)のようにピッチ曲線のピーク/バレーを検出する。
【0045】
最終的な問合わせキーワード発生はスコア曲線と同一のプロセスを使用して行われ、図5に示されている。
【0046】
図8はピッチメロディ処理のフローチャートを示している。ピッチ曲線は小さい値の変化を除去することにより最初にスムースにされる。その後、ピーク/バレー検出はスムースにされたピッチ曲線について行われる。インデックス化プロセスまたはスコアキーワードプロセスに類似して、問合わせキーワードの抽出もまたピーク/バレー値の変化と音調ヒストグラムを計算する。これらの特性はその後、整合プロセスで使用される。
【0047】
図9aは図6aの音楽スコアのピースと同一のハミングから変換されたデジタル問合わせ信号である。図9bは図9aからの検出されたピッチおよびインターバル曲線である。検出されたピーク/バレー値も示されている。図9cは図9bの情報にしたがった抽出されたピッチキーワードである。
【0048】
図10aは図6aの音楽スコアのピースと同一のハミングから変換された別のデジタル問合わせ信号である。図10bは図10aからの検出されたピッチおよびインターバル曲線である。対応するピーク/バレー値も示されている。図10cは図10bの情報にしたがって抽出されたスコアキーワードである。図9、図10および図6から、スコア/ピッチ曲線または問合わせキーワードとスコアキーワードは類似していることが分かる。
【0049】
図11はスコアキーワードと問合わせキーワード間の整合のブロック図を示している。抽出された問合せキーワードは整合アルゴリムの使用によりデータベース中のスコアキーワードと比較される。検索結果は問合わせキーワードとスコアキーワードとの類似性にしたがってランクされ、ユーザに戻される。
【0050】
図12はキーワード整合のステップを示している。ステップ1では、問合わせからの検出されたピーク/バレー値はスコアキーワードのピーク/バレー値と比較される。この比較はピーク/バレー値の累積された距離を測定することにより行われる。距離がしきい値よりも小さいならば、更に類似性測定が行われ、そうでなければ、整合は次の候補にスキップする。差はピーク/バレー値のシーケンス、例えば5値で測定され、5値の差は最終的な距離を形成するように合計され、その後しきい値と比較される。
【0051】
ステップ2で、音調ヒストグラムが比較される。ヒストグラムの交差は問合わせと候補との類似性の測定に使用される。類似性は最も高い類似から低い類似への順序で検索結果をリストするようにランクされることができる。
【図面の簡単な説明】
【0052】
【図1】本発明を使用した音楽データベース検索システムにおけるサーバとクライアントとの間の通信のシステム構造を示している図。
【図2】図1の音楽スコアデータベースの構造を示している図。
【図3】スコアデータベース構造のブロック図。
【図4】スコアデータベース構造で行われたスコアメロディ処理を示している図。
【図5】スコア/ピッチキーワード抽出のフローチャート。
【図6a】音楽スコアのピース、メロディ曲線、抽出されたスコアキーワードの1例を示している図。
【図6b】音楽スコアのピース、メロディ曲線、抽出されたスコアキーワードの1例を示している図。
【図6c】音楽スコアのピース、メロディ曲線、抽出されたスコアキーワードの1例を示している図。
【図7】問合わせ処理およびキーワード抽出のフローチャート。
【図8】問合わせ処理で行われるピッチメロディ処理のフローチャート。
【図9a】デジタル問合わせ信号、検出されたピッチおよびインターバル曲線、抽出されたスコアキーワードの1例を示している図。
【図9b】デジタル問合わせ信号、検出されたピッチおよびインターバル曲線、抽出されたスコアキーワードの1例を示している図。
【図9c】デジタル問合わせ信号、検出されたピッチおよびインターバル曲線、抽出されたスコアキーワードの1例を示している図。
【図10a】別のデジタル問合わせ信号、検出されたピッチおよびインターバル曲線、抽出されたスコアキーワードの1例を示している図。
【図10b】別のデジタル問合わせ信号、検出されたピッチおよびインターバル曲線、抽出されたスコアキーワードの1例を示している図。
【図10c】別のデジタル問合わせ信号、検出されたピッチおよびインターバル曲線、抽出されたスコアキーワードの1例を示している図。
【図11】スコアキーワードと問合わせキーワード間の整合方法のブロック図。
【図12】整合アルゴリズムのフローチャート。
Claims (25)
- 内容ベースの情報のインデックス化と検索で使用するのに適したデジタル表示でオーディオ/音楽情報を表す方法において、
a)オーディオ/音楽の少なくとも1つの特性の最大値および最小値にそれぞれ対応する1組のピークおよびバレーを含んでいる第1の表示を決定し、
b)ピークとバレーとの間の相対的な差を表す値を含んでいる第2の表示を決定するステップを含んでいる方法。 - c)第1の表示のヒストグラムを決定するステップをさらに含んでいる請求項1記載の方法。
- 第1の表示のヒストグラムは所定の時間インターバルにおけるピークまたはバレーのポピュレーションまたは継続時間の表示を含んでいる請求項2記載の方法。
- ピークの相対差値は、
ピークのすぐ後のバレーの大きさと、そのピークの大きさとの差により与えられ、
バレーの相対差値は、
バレーのすぐ後のピークの大きさと、そのバレーの大きさとの差により与えられる請求項1記載の方法。 - d)第2の表示のヒストグラムを決定するステップをさらに含んでいる請求項1記載の方法。
- オーディオ/音楽情報は音楽のスコアである請求項1記載の方法。
- ステップa)を行う前に音楽スコアを予め処理するステップをさらに含んでおり、これは、
音楽スコアからゼロの音調を除去し、
除去されたゼロの音調により残された任意のギャップを埋めるために残りのゼロではない音調を接合することを含んでいる請求項6記載の方法。 - オーディオ/音楽情報は音響信号である請求項1記載の方法。
- 音響信号は肉声またはハミング信号である請求項8記載の方法。
- ステップa)を行う前に音響信号を予め処理するステップを含んでおり、これは,
音響信号をデジタル信号へ変換し、
雑音をデジタル信号から除去し、
雑音のないデジタル信号にピッチ検出を受けさせ、
ピッチ検出されたデジタル信号についてインターバルまたは音調検出を行うステップを含んでいる請求項8記載の方法。 - ピッチ検出は雑音のないデジタル信号のウィンドウされたフーリエ変換および自己相関を含んでいる請求項10記載の方法。
- インターバルまたは音調検出はピッチ検出されたデジタル信号を対数的にスケールするステップを含んでいる請求項10記載の方法。
- オーディオ/音楽の特性は、
音量レベルと、
ピッチと、
インターバル情報のうちの任意の1以上である請求項1記載の方法。 - 音楽スコアデータベースを作成する方法において、
音楽スコアと実際の音楽トラックとの間にリンクを設けるように音楽スコアで特有に実際の音楽トラックを表示し、
検索キーワードを形成するために請求項6に記載の方法にしたがって音楽スコアを表示し、
検索キーワードをデータベースに記憶するステップを含んでいる方法。 - データベースで記憶するため少なくとも1つのインデックスを作成するステップをさらに含んでおり、少なくとも1つのインデックスは音楽スコア全体に対応するグローバル特徴を含み、グローバル特徴は第2の表示のヒストグラムを含んでいる請求項14記載の方法。
- 音楽スコアデータベースにおける音楽情報の検索のために音響入力から問合わせキーワードを作成する方法において、
請求項8記載の方法にしたがってデジタル表示で音響入力を表示するステップを含んでいる方法。 - 問合わせキーワードをデータベースのキーワードと整合することによって請求項14に記載されている方法にしたがって作成された音楽スコアデータベースからオーディオ/音楽情報を検索する方法において、
a.関連しないデータベースのキーワードを除去するため、請求項16に記載されている方法にしたがって作成された問合わせキーワードを各音楽スコアに対応するグローバル特徴と比較し、
b.問合わせの第2の表示を各データベースキーワードの第2の表示と比較し、
c.問合わせの第1の表示のヒストグラムを各データベースキーワードの第1の表示のヒストグラムと比較するステップを含んでいる方法。 - 音楽スコアデータベースを作成する方法において、
(a)音楽スコアデータベースと音楽データベースとの間にリンクが設けられるように実際の音楽の歌を特有に表すために音楽スコアを使用し、
(b)音楽スコア情報を表すため1組のデジタル値を含んでいる曲線を使用し、
(c)音楽スコアデータベースをインデックスするために曲線のピークとバレーを使用するステップを含んでいる方法。 - 音楽スコアをスコアキーワードに変換する方法において、
(a)ゼロの音調を除去するように音楽音調を表す1組のデジタル値を含んでいるスコア曲線を予め処理し、
(b)スコア曲線のピークとバレーを検出し、
(c)各ピーク/バレーおよびバレー/ピーク対間の距離を計算し、
(d)スコアキーワードとして機能するように基準点としてのピークおよびバレーと、ピークおよびバレーの音調ヒストグラムとを使用するステップを含んでいる方法。 - 請求項18記載の方法にしたがって作成された音楽のスコアデータベースを組織するためのインデックスの作成方法において、
a.完全な実際の音楽の歌に対してグローバル特徴を構成するステップを含んでおり、グローバル特徴は各ピーク/バレーとバレー/ピーク対との間の距離値のヒストグラムである作成方法。 - ハミングの形態の音響入力を自動的に問合わせキーワードに変換する方法において、
a.音響入力をデジタル信号へ変換し、
b.デジタル信号からピッチを検出し、
c.ピッチを音調に変換し、
d.ピッチの曲線により音響入力を表示し、
e.小さいピークとバレーを除去することによりピッチ曲線をスムーズにし、
f.ピッチ曲線のピークとバレーを検出し、
g.請求項19のステップc)およびd)にしたがってピークとバレーを使用して問合わせキーワードを生成するステップを含んでいる方法。 - 請求項21記載の問合わせキーワードを請求項19記載の音楽のスコアキーワードと整合させる方法において、
a.関連しない音楽スコアキーワードを除去するために請求項20記載の方法にしたがって構成されたグローバル特徴をチェックし、
b.問合わせのピーク/バレー距離値のシーケンスと音楽スコアキーワードのピーク/バレー距離値を整合させ、
c.ヒストグラムの交差により音調ヒストグラムを整合させるステップを含んでいる方法。 - 請求項1記載の方法にしたがって動作する内容ベースの情報検索において使用するシステム。
- 請求項18記載の方法にしたがって動作する内容ベースの情報検索において使用するシステム。
- 請求項19記載の方法にしたがって動作する内容ベースの情報検索において使用するシステム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/SG2001/000044 WO2003005242A1 (en) | 2001-03-23 | 2001-03-23 | Method and system of representing musical information in a digital representation for use in content-based multimedia information retrieval |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004534274A true JP2004534274A (ja) | 2004-11-11 |
Family
ID=20428916
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003511140A Pending JP2004534274A (ja) | 2001-03-23 | 2001-03-23 | 内容ベースのマルチメディア情報検索で使用するためデジタル表示で音楽情報を表示する方法およびシステム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20040093354A1 (ja) |
JP (1) | JP2004534274A (ja) |
TW (1) | TW513641B (ja) |
WO (1) | WO2003005242A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010097870A1 (ja) * | 2009-02-27 | 2010-09-02 | 三菱電機株式会社 | 音楽検索装置 |
Families Citing this family (90)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0107104D0 (en) * | 2001-03-21 | 2001-05-09 | Netpd Ltd | Method and apparatus for identifying electronic files |
US7715934B2 (en) * | 2003-09-19 | 2010-05-11 | Macrovision Corporation | Identification of input files using reference files associated with nodes of a sparse binary tree |
US20050203851A1 (en) * | 2003-10-25 | 2005-09-15 | Macrovision Corporation | Corruption and its deterrence in swarm downloads of protected files in a file sharing network |
US20050108378A1 (en) * | 2003-10-25 | 2005-05-19 | Macrovision Corporation | Instrumentation system and methods for estimation of decentralized network characteristics |
US20050114709A1 (en) * | 2003-10-25 | 2005-05-26 | Macrovision Corporation | Demand based method for interdiction of unauthorized copying in a decentralized network |
US20050089014A1 (en) * | 2003-10-27 | 2005-04-28 | Macrovision Corporation | System and methods for communicating over the internet with geographically distributed devices of a decentralized network using transparent asymetric return paths |
WO2005050615A1 (en) * | 2003-11-21 | 2005-06-02 | Agency For Science, Technology And Research | Method and apparatus for melody representation and matching for music retrieval |
US7877810B2 (en) * | 2004-03-02 | 2011-01-25 | Rovi Solutions Corporation | System, method and client user interface for a copy protection service |
US8090698B2 (en) | 2004-05-07 | 2012-01-03 | Ebay Inc. | Method and system to facilitate a search of an information resource |
DE102004049457B3 (de) * | 2004-10-11 | 2006-07-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren und Vorrichtung zur Extraktion einer einem Audiosignal zu Grunde liegenden Melodie |
DE102004049477A1 (de) * | 2004-10-11 | 2006-04-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren und Vorrichtung zur harmonischen Aufbereitung einer Melodielinie |
US7809943B2 (en) | 2005-09-27 | 2010-10-05 | Rovi Solutions Corporation | Method and system for establishing trust in a peer-to-peer network |
US9477658B2 (en) | 2005-10-26 | 2016-10-25 | Cortica, Ltd. | Systems and method for speech to speech translation using cores of a natural liquid architecture system |
US10535192B2 (en) | 2005-10-26 | 2020-01-14 | Cortica Ltd. | System and method for generating a customized augmented reality environment to a user |
US11386139B2 (en) | 2005-10-26 | 2022-07-12 | Cortica Ltd. | System and method for generating analytics for entities depicted in multimedia content |
US9646005B2 (en) | 2005-10-26 | 2017-05-09 | Cortica, Ltd. | System and method for creating a database of multimedia content elements assigned to users |
US11620327B2 (en) | 2005-10-26 | 2023-04-04 | Cortica Ltd | System and method for determining a contextual insight and generating an interface with recommendations based thereon |
US8818916B2 (en) | 2005-10-26 | 2014-08-26 | Cortica, Ltd. | System and method for linking multimedia data elements to web pages |
US11019161B2 (en) | 2005-10-26 | 2021-05-25 | Cortica, Ltd. | System and method for profiling users interest based on multimedia content analysis |
US10360253B2 (en) | 2005-10-26 | 2019-07-23 | Cortica, Ltd. | Systems and methods for generation of searchable structures respective of multimedia data content |
US10698939B2 (en) | 2005-10-26 | 2020-06-30 | Cortica Ltd | System and method for customizing images |
US11361014B2 (en) | 2005-10-26 | 2022-06-14 | Cortica Ltd. | System and method for completing a user profile |
US9639532B2 (en) | 2005-10-26 | 2017-05-02 | Cortica, Ltd. | Context-based analysis of multimedia content items using signatures of multimedia elements and matching concepts |
US9218606B2 (en) | 2005-10-26 | 2015-12-22 | Cortica, Ltd. | System and method for brand monitoring and trend analysis based on deep-content-classification |
US8326775B2 (en) | 2005-10-26 | 2012-12-04 | Cortica Ltd. | Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof |
US11003706B2 (en) | 2005-10-26 | 2021-05-11 | Cortica Ltd | System and methods for determining access permissions on personalized clusters of multimedia content elements |
US8266185B2 (en) | 2005-10-26 | 2012-09-11 | Cortica Ltd. | System and methods thereof for generation of searchable structures respective of multimedia data content |
US10621988B2 (en) | 2005-10-26 | 2020-04-14 | Cortica Ltd | System and method for speech to text translation using cores of a natural liquid architecture system |
US9191626B2 (en) | 2005-10-26 | 2015-11-17 | Cortica, Ltd. | System and methods thereof for visual analysis of an image on a web-page and matching an advertisement thereto |
US10193990B2 (en) | 2005-10-26 | 2019-01-29 | Cortica Ltd. | System and method for creating user profiles based on multimedia content |
US10585934B2 (en) | 2005-10-26 | 2020-03-10 | Cortica Ltd. | Method and system for populating a concept database with respect to user identifiers |
US9747420B2 (en) | 2005-10-26 | 2017-08-29 | Cortica, Ltd. | System and method for diagnosing a patient based on an analysis of multimedia content |
US10380267B2 (en) | 2005-10-26 | 2019-08-13 | Cortica, Ltd. | System and method for tagging multimedia content elements |
US10191976B2 (en) | 2005-10-26 | 2019-01-29 | Cortica, Ltd. | System and method of detecting common patterns within unstructured data elements retrieved from big data sources |
US10776585B2 (en) | 2005-10-26 | 2020-09-15 | Cortica, Ltd. | System and method for recognizing characters in multimedia content |
US11216498B2 (en) | 2005-10-26 | 2022-01-04 | Cortica, Ltd. | System and method for generating signatures to three-dimensional multimedia data elements |
US9031999B2 (en) | 2005-10-26 | 2015-05-12 | Cortica, Ltd. | System and methods for generation of a concept based database |
US10848590B2 (en) | 2005-10-26 | 2020-11-24 | Cortica Ltd | System and method for determining a contextual insight and providing recommendations based thereon |
US11604847B2 (en) | 2005-10-26 | 2023-03-14 | Cortica Ltd. | System and method for overlaying content on a multimedia content element based on user interest |
US10607355B2 (en) | 2005-10-26 | 2020-03-31 | Cortica, Ltd. | Method and system for determining the dimensions of an object shown in a multimedia content item |
US10180942B2 (en) | 2005-10-26 | 2019-01-15 | Cortica Ltd. | System and method for generation of concept structures based on sub-concepts |
US11403336B2 (en) | 2005-10-26 | 2022-08-02 | Cortica Ltd. | System and method for removing contextually identical multimedia content elements |
US10691642B2 (en) | 2005-10-26 | 2020-06-23 | Cortica Ltd | System and method for enriching a concept database with homogenous concepts |
US9372940B2 (en) | 2005-10-26 | 2016-06-21 | Cortica, Ltd. | Apparatus and method for determining user attention using a deep-content-classification (DCC) system |
US10372746B2 (en) | 2005-10-26 | 2019-08-06 | Cortica, Ltd. | System and method for searching applications using multimedia content elements |
US10635640B2 (en) | 2005-10-26 | 2020-04-28 | Cortica, Ltd. | System and method for enriching a concept database |
US10380623B2 (en) | 2005-10-26 | 2019-08-13 | Cortica, Ltd. | System and method for generating an advertisement effectiveness performance score |
US9384196B2 (en) | 2005-10-26 | 2016-07-05 | Cortica, Ltd. | Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof |
US9953032B2 (en) | 2005-10-26 | 2018-04-24 | Cortica, Ltd. | System and method for characterization of multimedia content signals using cores of a natural liquid architecture system |
US10387914B2 (en) | 2005-10-26 | 2019-08-20 | Cortica, Ltd. | Method for identification of multimedia content elements and adding advertising content respective thereof |
US10949773B2 (en) | 2005-10-26 | 2021-03-16 | Cortica, Ltd. | System and methods thereof for recommending tags for multimedia content elements based on context |
US10614626B2 (en) | 2005-10-26 | 2020-04-07 | Cortica Ltd. | System and method for providing augmented reality challenges |
US9767143B2 (en) | 2005-10-26 | 2017-09-19 | Cortica, Ltd. | System and method for caching of concept structures |
US10380164B2 (en) | 2005-10-26 | 2019-08-13 | Cortica, Ltd. | System and method for using on-image gestures and multimedia content elements as search queries |
US11032017B2 (en) | 2005-10-26 | 2021-06-08 | Cortica, Ltd. | System and method for identifying the context of multimedia content elements |
US10742340B2 (en) | 2005-10-26 | 2020-08-11 | Cortica Ltd. | System and method for identifying the context of multimedia content elements displayed in a web-page and providing contextual filters respective thereto |
US8312031B2 (en) | 2005-10-26 | 2012-11-13 | Cortica Ltd. | System and method for generation of complex signatures for multimedia data content |
US8086722B2 (en) * | 2005-12-21 | 2011-12-27 | Rovi Solutions Corporation | Techniques for measuring peer-to-peer (P2P) networks |
US8108452B2 (en) * | 2006-01-12 | 2012-01-31 | Yahoo! Inc. | Keyword based audio comparison |
US7459624B2 (en) | 2006-03-29 | 2008-12-02 | Harmonix Music Systems, Inc. | Game controller simulating a musical instrument |
US20150052155A1 (en) * | 2006-10-26 | 2015-02-19 | Cortica, Ltd. | Method and system for ranking multimedia content elements |
US10733326B2 (en) | 2006-10-26 | 2020-08-04 | Cortica Ltd. | System and method for identification of inappropriate multimedia content |
EP2115732B1 (en) | 2007-02-01 | 2015-03-25 | Museami, Inc. | Music transcription |
WO2008101130A2 (en) * | 2007-02-14 | 2008-08-21 | Museami, Inc. | Music-based search engine |
EP2173444A2 (en) | 2007-06-14 | 2010-04-14 | Harmonix Music Systems, Inc. | Systems and methods for simulating a rock band experience |
US8494257B2 (en) | 2008-02-13 | 2013-07-23 | Museami, Inc. | Music score deconstruction |
US20100304811A1 (en) * | 2009-05-29 | 2010-12-02 | Harmonix Music Systems, Inc. | Scoring a Musical Performance Involving Multiple Parts |
US8449360B2 (en) | 2009-05-29 | 2013-05-28 | Harmonix Music Systems, Inc. | Displaying song lyrics and vocal cues |
US8465366B2 (en) | 2009-05-29 | 2013-06-18 | Harmonix Music Systems, Inc. | Biasing a musical performance input to a part |
US8017854B2 (en) * | 2009-05-29 | 2011-09-13 | Harmonix Music Systems, Inc. | Dynamic musical part determination |
US7935880B2 (en) | 2009-05-29 | 2011-05-03 | Harmonix Music Systems, Inc. | Dynamically displaying a pitch range |
US8080722B2 (en) * | 2009-05-29 | 2011-12-20 | Harmonix Music Systems, Inc. | Preventing an unintentional deploy of a bonus in a video game |
US20100304810A1 (en) * | 2009-05-29 | 2010-12-02 | Harmonix Music Systems, Inc. | Displaying A Harmonically Relevant Pitch Guide |
US7923620B2 (en) * | 2009-05-29 | 2011-04-12 | Harmonix Music Systems, Inc. | Practice mode for multiple musical parts |
US8026435B2 (en) * | 2009-05-29 | 2011-09-27 | Harmonix Music Systems, Inc. | Selectively displaying song lyrics |
US7982114B2 (en) * | 2009-05-29 | 2011-07-19 | Harmonix Music Systems, Inc. | Displaying an input at multiple octaves |
US8076564B2 (en) * | 2009-05-29 | 2011-12-13 | Harmonix Music Systems, Inc. | Scoring a musical performance after a period of ambiguity |
TWI396105B (zh) * | 2009-07-21 | 2013-05-11 | Univ Nat Taiwan | 用於模擬個體差異之個人化資訊檢索之數位資料處理方法及其電腦裝置可讀式資訊儲存媒體與資訊檢索系統 |
US8401683B2 (en) * | 2009-08-31 | 2013-03-19 | Apple Inc. | Audio onset detection |
US9981193B2 (en) | 2009-10-27 | 2018-05-29 | Harmonix Music Systems, Inc. | Movement based recognition and evaluation |
WO2011056657A2 (en) | 2009-10-27 | 2011-05-12 | Harmonix Music Systems, Inc. | Gesture-based user interface |
KR100978914B1 (ko) | 2009-12-30 | 2010-08-31 | 전자부품연구원 | Svr 기반 복 수의 매칭 알고리즘을 결합한 음원 검색 시스템 및 방법 |
US8874243B2 (en) | 2010-03-16 | 2014-10-28 | Harmonix Music Systems, Inc. | Simulating musical instruments |
EP2579955B1 (en) | 2010-06-11 | 2020-07-08 | Harmonix Music Systems, Inc. | Dance game and tutorial |
US9358456B1 (en) | 2010-06-11 | 2016-06-07 | Harmonix Music Systems, Inc. | Dance competition game |
US8562403B2 (en) | 2010-06-11 | 2013-10-22 | Harmonix Music Systems, Inc. | Prompting a player of a dance game |
US9024166B2 (en) | 2010-09-09 | 2015-05-05 | Harmonix Music Systems, Inc. | Preventing subtractive track separation |
US9122753B2 (en) | 2011-04-11 | 2015-09-01 | Samsung Electronics Co., Ltd. | Method and apparatus for retrieving a song by hummed query |
US10290027B2 (en) * | 2014-09-29 | 2019-05-14 | Pandora Media, Llc | Dynamically selected background music for personalized audio advertisement |
CN105895079B (zh) * | 2015-12-14 | 2022-07-29 | 天津智融创新科技发展有限公司 | 语音数据的处理方法和装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0683390A (ja) * | 1992-08-31 | 1994-03-25 | Yamaha Corp | 音声分析方法 |
JPH10307580A (ja) * | 1997-05-06 | 1998-11-17 | Nippon Telegr & Teleph Corp <Ntt> | 音楽検索方法および装置 |
US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
JPH11175097A (ja) * | 1997-12-16 | 1999-07-02 | Victor Co Of Japan Ltd | ピッチ検出方法及び装置、判定方法及び装置、データ伝送方法、並びに記録媒体 |
JPH11272274A (ja) * | 1998-03-19 | 1999-10-08 | Tomoya Sonoda | 歌声による曲検索法 |
JPH11305795A (ja) * | 1998-04-24 | 1999-11-05 | Victor Co Of Japan Ltd | 音声信号処理装置及び情報媒体 |
JP2000035796A (ja) * | 1998-05-07 | 2000-02-02 | Canon Inc | 音楽情報処理装置及び方法 |
JP2000187671A (ja) * | 1998-12-21 | 2000-07-04 | Tomoya Sonoda | ネットワ―クを利用した歌声による曲検索システム及び検索時に用いる歌声の入力端末装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1987002816A1 (en) * | 1985-10-30 | 1987-05-07 | Central Institute For The Deaf | Speech processing apparatus and methods |
JPH11203790A (ja) * | 1998-01-06 | 1999-07-30 | Pioneer Electron Corp | 記録媒体情報読取装置 |
EP0944033B1 (en) * | 1998-03-19 | 2003-05-28 | Tomonari Sonoda | Melody retrieval system and method |
US6941321B2 (en) * | 1999-01-26 | 2005-09-06 | Xerox Corporation | System and method for identifying similarities among objects in a collection |
US6542869B1 (en) * | 2000-05-11 | 2003-04-01 | Fuji Xerox Co., Ltd. | Method for automatic analysis of audio including music and speech |
US6990453B2 (en) * | 2000-07-31 | 2006-01-24 | Landmark Digital Services Llc | System and methods for recognizing sound and music signals in high noise and distortion |
US7031980B2 (en) * | 2000-11-02 | 2006-04-18 | Hewlett-Packard Development Company, L.P. | Music similarity function based on signal analysis |
-
2001
- 2001-03-23 WO PCT/SG2001/000044 patent/WO2003005242A1/en active Application Filing
- 2001-03-23 JP JP2003511140A patent/JP2004534274A/ja active Pending
- 2001-04-04 TW TW090108191A patent/TW513641B/zh not_active IP Right Cessation
-
2003
- 2003-09-23 US US10/670,083 patent/US20040093354A1/en not_active Abandoned
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0683390A (ja) * | 1992-08-31 | 1994-03-25 | Yamaha Corp | 音声分析方法 |
US5918223A (en) * | 1996-07-22 | 1999-06-29 | Muscle Fish | Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information |
JPH10307580A (ja) * | 1997-05-06 | 1998-11-17 | Nippon Telegr & Teleph Corp <Ntt> | 音楽検索方法および装置 |
JPH11175097A (ja) * | 1997-12-16 | 1999-07-02 | Victor Co Of Japan Ltd | ピッチ検出方法及び装置、判定方法及び装置、データ伝送方法、並びに記録媒体 |
JPH11272274A (ja) * | 1998-03-19 | 1999-10-08 | Tomoya Sonoda | 歌声による曲検索法 |
JPH11305795A (ja) * | 1998-04-24 | 1999-11-05 | Victor Co Of Japan Ltd | 音声信号処理装置及び情報媒体 |
JP2000035796A (ja) * | 1998-05-07 | 2000-02-02 | Canon Inc | 音楽情報処理装置及び方法 |
JP2000187671A (ja) * | 1998-12-21 | 2000-07-04 | Tomoya Sonoda | ネットワ―クを利用した歌声による曲検索システム及び検索時に用いる歌声の入力端末装置 |
Non-Patent Citations (4)
Title |
---|
C.FRANCU, C.G.NEVILL-MANNING: "Distance Metrics and Indexing Strategies for a Digital Libarary of popular Music", MULTIMEDIA AND EXPO,2000.ICME 2000. 2000 IEEE INTERNATIONAL CONFERENCE ON, vol. 2, JPN6010055700, 2000, US, pages 889 - 892, XP010513152, ISSN: 0001735050, DOI: 10.1109/ICME.2000.871502 * |
GHIAS, PROCEEDINGS OF ACM MULTIMEDIA, JPN5003016008, 5 November 1995 (1995-11-05), pages 231 - 236, ISSN: 0001735052 * |
KIM, IEEE TENCON, DIGITAL SIGNAL PROCESSING APPLICATIONS PROCEEDINGS, JPN5003016006, 26 November 1996 (1996-11-26), pages 107 - 112, ISSN: 0001735051 * |
STAN Z. LI: "Content-Based Audio Classification and Retrieval Using the Nearest Feature Line Method", IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, vol. Vol.8 No.5 September 2000, JPN6010055698, September 2000 (2000-09-01), US, pages 619 - 625, ISSN: 0001735053 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010097870A1 (ja) * | 2009-02-27 | 2010-09-02 | 三菱電機株式会社 | 音楽検索装置 |
JPWO2010097870A1 (ja) * | 2009-02-27 | 2012-08-30 | 三菱電機株式会社 | 音楽検索装置 |
JP5127982B2 (ja) * | 2009-02-27 | 2013-01-23 | 三菱電機株式会社 | 音楽検索装置 |
Also Published As
Publication number | Publication date |
---|---|
TW513641B (en) | 2002-12-11 |
US20040093354A1 (en) | 2004-05-13 |
WO2003005242A1 (en) | 2003-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004534274A (ja) | 内容ベースのマルチメディア情報検索で使用するためデジタル表示で音楽情報を表示する方法およびシステム | |
Bartsch et al. | To catch a chorus: Using chroma-based representations for audio thumbnailing | |
KR100838674B1 (ko) | 오디오 핑거프린팅 시스템 및 방법 | |
US7544881B2 (en) | Music-piece classifying apparatus and method, and related computer program | |
US8805657B2 (en) | Music searching methods based on human perception | |
Serra et al. | Audio cover song identification and similarity: background, approaches, evaluation, and beyond | |
JP4945877B2 (ja) | 高い雑音、歪み環境下でサウンド・楽音信号を認識するシステムおよび方法 | |
Casey et al. | The importance of sequences in musical similarity | |
CN110010159B (zh) | 声音相似度确定方法及装置 | |
Ghosal et al. | Music classification based on MFCC variants and amplitude variation pattern: a hierarchical approach | |
Zhang et al. | System and method for automatic singer identification | |
Ghosal et al. | Song/instrumental classification using spectrogram based contextual features | |
KR20060019096A (ko) | 허밍 기반의 음원 질의/검색 시스템 및 그 방법 | |
Karydis et al. | Audio indexing for efficient music information retrieval | |
Xu et al. | Automatic music video summarization based on audio-visual-text analysis and alignment | |
Cai et al. | Two-layer large-scale cover song identification system based on music structure segmentation | |
Jun et al. | Music segmentation and summarization based on self-similarity matrix | |
Vaglio et al. | The words remain the same: Cover detection with lyrics transcription | |
Reiss et al. | Benchmarking music information retrieval systems | |
Cui et al. | Quest: querying music databases by acoustic and textual features | |
Ong | Towards automatic music structural analysis: identifying characteristic within-song excerpts in popular music | |
JP2004531758A (ja) | 信号識別子の抽出方法及びその装置、信号識別子からデータベースを作成する方法及びその装置、及び、検索時間信号を参照する方法及びその装置 | |
Chung et al. | Design of a content based multimedia retrieval system. | |
Bozzon et al. | A music recommendation system based on semantic audio segments similarity | |
Ong | Computing structural descriptions of music through the identification of representative excerpts from audio files |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100928 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110301 |