JP2007213058A

JP2007213058A - 歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置、システム、及びその方法

Info

Publication number: JP2007213058A
Application number: JP2007018826A
Authority: JP
Inventors: Sung-Jung Cho; 誠貞趙; Shokei Sai; 崔　昌　圭; Hye-Jeong Lee; ▲へ▼ 汀李; Yeun-Bae Kim; 淵培金
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2006-02-10
Filing date: 2007-01-30
Publication date: 2007-08-23
Also published as: CN101017502A; US20070186754A1; CN101017502B; EP1821286B1; US7792831B2; KR20070081368A; EP1821286A1

Abstract

【課題】歌詞を分析して繰り返される文字列及びパラグラフを抽出して、歌詞についての情報をツリー構造で提供する歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置、システム、及びその方法を提供する。
【解決手段】オーディオファイルのメタデータから歌詞情報を抽出する歌詞抽出部と、抽出された歌詞情報に基づいて、間奏区間及び繰り返される文字列を抽出する文字列情報抽出部と、抽出された繰り返される文字列に基づいてパラグラフを抽出し、抽出されたパラグラフのうち、同じ繰り返しパターンを持つパラグラフの集合を抽出するパラグラフ抽出部と、オーディオファイルに対する間奏区間、文字列及びパラグラフをツリー構造で生成して提供する歌詞構造生成部とを備える。
【選択図】図７

Description

本発明は、歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置、システム、及びその方法に係り、より詳細には、歌詞を分析して繰り返される文字列及びパラグラフを抽出して、歌詞についての情報をツリー構造で提供する歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置、システム、及びその方法に関する。

最近デジタル方式でエンコーディングされたオーディオファイルを再生できる携帯用オーディオファイルプレーヤーの使用はありふれたことである。すなわち、半導体メモリ装置上に保存されたデジタル方式でエンコーディングされたオーディオファイルを処理できる比較的小型のハンドヘルド装置が評判になった。

また、携帯用オーディオファイルプレーヤーでより一層データ保存容量に対する需要が増加するにつれて、小型化された大容量ハードドライブを含む次世代プレーヤーが開発されて評判になっている。

オーディオファイルプレーヤーでデジタルオーディオファイルは、まずそのデータをオーディオＣＤ、インターネット、または他のデジタルオーディオ装置からパソコンにダウンロードすることでデータ保存装置にローディングされる。その後、このデータは、普通は選択されたエンコーディングフォーマットによって圧縮されて、そのオーディオファイルプレーヤーと関連したデータ保存装置にローディングされる。

また、オーディオファイルは、再生中に選択されたエンコーディングフォーマットによって、オーディオファイルプレーヤーにより圧縮解除／デコーディングされる。オーディオファイルの圧縮及び圧縮解除のための各種のエンコーディングフォーマットが利用可能である。このようなエンコーディングフォーマットには、ＭＰ３及びＭＰ３Ｐｒｏがあるが、これに限定されるものではない。

ＭＰ３エンコーディングされたオーディオファイルファイルの場合、データファイルにはＩＤ３タグという特別なフレームセットが先頭または後端に付加される。ここで、ＩＤ３タグは、説明テキストとオーディオファイルと関連した他のデータを含む。例えば、ＩＤ３タグは、音楽題目（Ｔｉｔｌｅ）、アーティスト（Ａｒｔｉｓｔ）、アルバム名（Ａｌｂｕｍ）、作曲年度（Ｙｅａｒ）、音楽ジャンル（Ｇｅｎｒｅ）、及びコメント（Ｃｏｍｍｅｎｔ）などの情報を含むことができる。ＩＤ３タグ情報はＩＤ３タグに含まれた情報に基づいて、特定のオーディオファイルファイルを検索、分類及び選択するのに有効であり、また、ＩＤ３タグ情報がたびたびテキスト文字として保存されているために、この情報は、オーディオファイルプレーヤーのディスプレイ画面に表示されうる。

しかし、技術の発展と共にいろいろな独立した機器が一つで統合されて行く傾向にあり、その大きさはかえって小型化される傾向にある。これにより、オーディオファイルプレーヤーの大きさも徐々に小型化されてディスプレイの大きさが小さくなるにつれて、ディスプレイを見ながら小さくて稠密に配列されているボタンを操作して曲目を選択することは、ユーザに相当な面倒さを誘発させるという問題点がある。

また、オーディオファイルプレーヤーに保存されたオーディオファイルの数が多くなるにつれて、ユーザが聞こうとするオーディオファイルを検索するには長時間がかかるという問題点がある。

これに、ユーザが検索しようとするオーディオファイルを効率的に検索するために、曲名、歌手の名前全体あるいはイニシャルに対する音声認識を通じてオーディオファイルを提供する方法、ハミングのような音楽のメロディを利用した検索方法、及びオーディオファイルの特性を表現するフィンガープリントを作成して現在音楽と類似した特徴（歌手／アルバム／メロディ）を持つオーディオファイルを提供する方法が利用されている。

しかし、前記のような方法をユーザが所有しているオーディオファイルの分類及び特徴に依存して検索を行い、ユーザが検索しようとするファイルに対して完全な形態の情報を記憶していなければならない。

また、ユーザが利用を所望するオーディオファイルを直接再生させて確認する場合、オーディオファイルの最初の部分（すなわち、オーディオファイルの前奏部分）から再生されることによって、ユーザは再生されているオーディオファイルを認知するのに長時間がかかるという問題点がある。

特許文献１は、ＭＰ３方式でオーディオデータをＣＤなどの記録媒体に収録する時、あらかじめ各曲のイントロ、歌詞の繰り返し部分などの曲特徴部分をＩＤ３タグデータ中に記録しておき、プレーヤーを再生すれば、ＩＤ３タグデータのうち特定の項目を検索し、曲特徴部分を含む検索情報リストを作成するオーディオプレーヤーを開示しているが、これは、該当オーディオファイルの情報に基づいてツリー構造を生成し、ユーザのサービス要請時に生成されたツリー構造の情報を利用して該当サービス区間を提供する技術については全く言及していない。
日本公開特許２００２−０７４９１１号公報

本発明は、所定の歌詞情報を分析して繰り返される文字列及びパラグラフを抽出して、歌詞についての情報をツリー構造で提供するところにその目的がある。

本発明の他の目的は、抽出された歌詞構造に基づいて歌詞の主題部を提供することによって、オーディオファイルの選曲にかかる時間を短縮させることである。

本発明の目的は、以上で言及した目的に制限されず、言及されていない他の目的は下の記載から当業者に明確に理解されうる。

前記目的を達成するために、本発明の一実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置は、オーディオファイルのメタデータから歌詞情報を抽出する歌詞抽出部と、前記抽出された歌詞情報に基づいて、間奏区間及び繰り返される文字列を抽出する文字列情報抽出部と、前記抽出された繰り返される文字列に基づいてパラグラフを抽出し、前記抽出されたパラグラフのうち、同じ繰り返しパターンを持つパラグラフの集合を抽出するパラグラフ抽出部と、前記オーディオファイルに対する間奏区間、文字列及びパラグラフをツリー構造で生成して提供する歌詞構造生成部と、を備える。

また、本発明の一実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出する方法は、オーディオファイルのメタデータから歌詞情報を抽出するステップと、前記抽出された歌詞情報に基づいて間奏区間及び繰り返される文字列を抽出するステップと、前記抽出された繰り返される文字列に基づいてパラグラフを抽出するステップと、前記抽出されたパラグラフのうち、同じ繰り返しパターンを持つパラグラフの集合を抽出するステップと、前記オーディオファイルに対する間奏区間、文字列及びパラグラフをツリー構造で生成するステップと、を含む。

その他の実施例の具体的な事項は詳細な説明及び図面に含まれている。

本発明の歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置、システム、及びその方法によれば、次のような効果が一つあるいはそれ以上ある。

所定オーディオファイルに対する歌詞を分析して繰り返される文字列及びパラグラフを抽出して、歌詞についての情報をツリー構造で提供することによって、ユーザのサービス要請時にさらに迅速で好適な区間を提供できる。

また、抽出された歌詞構造に基づいてユーザのオーディオファイル検索要請時に歌詞の主題部を提供することによって、ユーザがオーディオファイルを選曲するのにかかる時間を短縮できる。

また、歌詞に基づいて繰り返される文字列及びパラグラフを抽出することによって、音楽信号の波形を分析する方法に比べて主題部の抽出時に時間及び計算量を低減できる。

本発明の利点及び特徴、そしてこれを達成する方法は添付された図面に基づいて詳細に後述されている実施例を参照すれば明確になる。しかし、本発明は以下で開示される実施例に限定されるものではなく、この実施例から外れて多様な形に具現でき、本明細書で説明する実施例は本発明の開示を完全にし、本発明が属する技術分野で当業者に発明の範ちゅうを完全に報せるために提供されるものであり、本発明は請求項及び発明の詳細な説明によってのみ定義される。一方、明細書全体に亙って同一な参照符号は同一な構成要素を示す。

以下、添付された図面を参照して本発明の望ましい実施形態を詳細に説明する。

図１は、本発明の一実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置の内部ブロック図を示すものである。本発明で歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置は、所定オーディオデータを再生できる携帯用装置を例として説明する。ここで、携帯用装置は、携帯電話、ＰＡＤ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔｓ）及びＭＰ３（ＭＰＥＧＡｕｄｉｏＬａｙｅｒ−３）などをいう。

図示したように、歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置は、歌詞抽出部１１０、前処理部１２０、文字列情報抽出部１３０、パラグラフ抽出部１４０、歌詞構造生成部１５０、及び制御部１６０を備えて構成される。

この時、本実施例で使われる“部”という用語は、ソフトウェアまたはＦＰＧＡまたはＡＳＩＣのようなハードウェア構成要素を意味し、“部”は所定の役割を行う。しかし、“部”はソフトウェアまたはハードウェアに限定されるものではない。“部”はアドレッシングできる保存媒体に位置すべく構成されても良く、１つまたはそれ以上のプロセッサーを再生させるように構成されても良い。したがって、一例として“部”はソフトウェア構成要素、オブジェクト向けソフトウェア構成要素、クラス構成要素及びタスク構成要素のような構成要素と、プロセス、関数、属性、プロシージャー、サブルーチン、プログラムコードのセグメント、ドライバー、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ及び変数を含む。構成要素と“部”内で提供される機能はより少数の構成要素及び“部”に結合されるか、追加的な構成要素と“部”にさらに分離されうる。のみならず、構成要素及び“部”はディバイスまたは保安マルチメディアカード内の１つまたはそれ以上のＣＰＵを再生させるように具現されることもある。

歌詞抽出部１１０は、オーディオファイルのメタデータから歌詞情報を抽出する。

例えば、歌詞抽出部１１０は、ＩＤ３タグバージョン２、及びウォーターマークなどで保存されているメタデータから歌詞情報を抽出する。

前処理部１２０は、歌詞抽出部１１０から抽出した歌詞情報に含まれている付加情報を削除する。ここで、付加情報は、歌詞情報を除外したあらゆる情報であり、例えば、特殊文字（すなわち、−、＿、（）、＜＞、及び…など）、文章符号（すなわち、’、及び”など）及び空いている空間（すなわち、分かち書き）などをいう。

また、前処理部１２０は、英文の大小文字をいずれも小文字に変換する前処理を行い、歌詞情報のうちラップ部分を含む文字列を探して歌詞情報から分離する前処理を行う。ここで、前処理部１２０は、歌詞情報と共に提供される時間情報及び文字列に含まれた音節の数を通じてラップ部分を判断する。以下、図２で前処理を行う例を後述する。

文字列情報抽出部１３０は、前処理部１２０を通じて前処理された歌詞情報に基づいて、間奏区間及び歌詞情報から繰り返される文字列を抽出する。ここで、歌詞情報は所定の文字列単位で提供され、文字列情報抽出部１３０は、それぞれの文字列に基づいて間奏区間及び繰り返される文字列を抽出する。また、文字列情報抽出部１３０は、間奏区間抽出部１３１、及び文字列繰り返し回数抽出部１３２を備えて構成される。

間奏区間抽出部１３１は、歌詞情報内から間奏区間に対するキーワードを抽出するものであり、文字列内のキーワードと同じ単語を抽出する。ここで、キーワードは、‘間奏中’‘間奏’、及び‘ｉｎｔｅｒｌｕｄｅ’と理解されうる。以下、図３で、歌詞情報内から間奏区間に対するキーワードを抽出する例を後述する。

文字列繰り返し回数抽出部１３２は、各文字列の相互間の距離を計算して繰り返す文字列を抽出するものであり、ここで相互間の距離は、文字列間の同一如何、及び文字列間の重なる程度（すなわち、類似度）などを比較して、所定臨界値以上（例えば、７０％）ならば、同一であると判断する。また、文字列繰り返し回数抽出部１３２は、各文字列の相互間の距離を計算するために、下記の（式１）及び（式２）を利用する。

下記の（式１）は、音節の数がＩである第１文字列Ｓ_Ｉと、音節の数がＪである第２文字列Ｓ_Ｊとの間の相互距離ｓｉｍ（ＳＩ，ＳＪ）を計算する公式である。

ここで、

は、比較される二つの文字列内に含まれた音節のうち、同じ音節の数であり、ｍａｘ（Ｉ，Ｊ）は、比較される二つの文字列のうち、音節の数が多い文字列内に含まれた音節の数である。また、文字列間の相互距離を計算した結果値が７０％以上である場合、比較した二つの文字列は類似（または同一）していると判断し、相互距離を計算した結果値が７０％以下である場合、比較した二つの文字列は類似（または同一）していないと判断する。ここで、計算した結果の値と比較する参照値は７０％に固定されず、曲歌詞に含まれたタイピングエラーなどの特性によって調整されうる。

また、比較する各文字列に含まれたそれぞれの音節間の類似度ａ（i，j）は、下記の（式２）の通りである。

ここで、

は、比較される音節が同一か否かを表すものであり、比較される音節が同じ場合に‘１’の値を持ち、比較される音節が同一でない場合に‘０’の値を持つ。

したがって、（式１）及び（式２）を利用して各文字列の相互間の距離を計算でき、計算された値に基づいて繰り返される文字列を抽出できる。以下、図４で、各文字列の相互間の距離を計算及び繰り返される文字列を抽出する例を後述する。

パラグラフ抽出部１４０は、文字列情報抽出部１３０により抽出された繰り返される文字列に基づいてパラグラフを抽出し、抽出されたパラグラフのうち、繰り返しパターンが同じ連続したパラグラフの集合を抽出する。ここで、パラグラフは、同じ繰り返し回数を持つ連続した文字列の集合をいい、同じ繰り返しパターンを持つパラグラフの集合は、‘拡張されたパラグラフ’という。また、パラグラフ抽出部１４０は、第１パラグラフ抽出部１４１及び第２パラグラフ抽出部１４２を備えて構成される。

第１パラグラフ抽出部１４１は、文字列情報抽出部１３０により抽出された繰り返される文字列に基づいてパラグラフを抽出する。ここで、パラグラフを抽出するアルゴリズムは、ダイナミックプログラミング探索アルゴリズムを利用する。

例えば、１２個の文字列Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｃ、Ｄ、Ｅ、Ａ、Ｂ、Ｃ、Ｄが存在する場合、文字列情報抽出部１３０を通じて、Ａ文字列は２回、Ｂ文字列は２回、Ｃ文字列は３回、Ｄ文字列は３回、及びＥ文字列は２回繰り返されることが分かる。

次いで、第１パラグラフ抽出部１４１は、繰り返される文字列のうち、同じ繰り返し回数を持って連続した文字列をパラグラフとして抽出する。

例えば、連続した文字列Ｃ、Ｄは３回繰り返され、またＣ文字列とＤ文字列もそれぞれ３回繰り返されるので、パラグラフとして抽出される。しかし、連続した文字列Ｂ、Ｃの場合には２回繰り返され、文字列Ｂの繰り返し回数は２回、Ｃの繰り返し回数は３回であり、互いに繰り返し回数が異なるのでパラグラフとして抽出されない。以下、図５でパラグラフを抽出する例を後述する。

第２パラグラフ抽出部１４２は、第１パラグラフ抽出部１４１が抽出したパラグラフのうち、同じ繰り返しパターンを持つパラグラフの集合（以下、‘拡張されたパラグラフ’という）を抽出する。ここで、拡張されたパラグラフは、連続したパラグラフの集合であり、２つ以上のパラグラフを含む。以下、図６を参照して拡張されたパラグラフを抽出する例を後述する。

歌詞構造生成部１５０は、所定歌詞に対して分析された情報をツリー構造で配置するものである。ここで、ツリー構造で提供される分析された情報は、歌詞内の節（例えば、１節、２節、３節など）情報、題目情報、文字列情報、パラグラフ、及び拡張されたパラグラフなどをいう。以下、図７を参照して、所定歌詞がツリー構造で配置された例を後述する。

制御部１６０は、歌詞構造生成部１５０が生成したツリー構造に基づいてユーザの要請に応じるサービスを提供する。

例えば、制御部１６０は、ユーザのオーディオファイル検索時に該当オーディオファイルの主題部を抽出した後、抽出された主題部を出力するか、ユーザの音楽要約サービス要請時に設定された時間情報に適した区間を出力する。ここで、オーディオファイルの主題部は、ユーザにおいては曲中で最も記憶に残る部分、曲中で最も印象深い部分をいい、作曲者においては強調したい主題を含む部分をいい、歌手においては最も感情を入れて歌う部分をいう。以下、図５Ｄを参照してオーディオファイルの主題部を抽出する例を後述する。

また、制御部１６０は、歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置に含まれた各部１１０ないし１５０の全般的な動作を制御する。

図２は、本発明の他の実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置のうち、前処理部を通じて前処理過程を行う例を示す図面である。

図２の（ａ）に示したように、所定歌詞情報には複数の文字列が存在し、各文字列には複数の音節が含まれている。また、各文字列内には該当文字列が始まる時間情報２１が含まれることもある。

図２の（ａ）に示した歌詞情報のうち、第９文字列の歌詞情報は、‘Ｆｌｙ（Ｍｙｂａｂｙ）世の中が何と言っても’という音節を含む。以後、前処理部１２０が前処理を行えば、図２の（ｂ）に示したように第９文字列は、‘ｆｌｙ世の中が何と言っても’に変換される。

したがって、前処理過程を通じて空いている空間と、特殊文字及び特殊文字内に含まれた内容は削除され、英文の大小文字は小文字に変換される。

次いで、図２の（ｂ）に示したように第３文字列の開始時間と第４文字列の開始時間とに基づいて、第３文字列に割り当てられた時間内に再生される音節の数を判断する。

判断結果、第３文字列と第４文字列とが再生されるのにかかる時間は類似しているということが分かり、また第３文字列に含まれた音節の数は、第４文字列に含まれた音節の数より多いということが分かる。これに、第３文字列はラップ部分と判断される。

また、第４文字列と第５文字列とを比較した結果、第４文字列と第５文字列とが再生されるのにかかる時間は類似しているということが分かり、また第４文字列に含まれた音節の数は、第５文字列に含まれた音節の数より多いということが分かる。これに、第４文字列はラップ部分と判断される。

したがって、前処理過程を通じて図２の（ｃ）に示したように、ラップ部分（すなわち、第３文字列３、及び第４文字列）は歌詞情報から分離されて別途に処理される。

図３は、本発明のさらに他の実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置のうち、間奏区間抽出部が歌詞情報内から間奏区間に対するキーワードを抽出する例を示す図面である。

図示されたように、間奏区間抽出部１３１は、複数の文字列で構成された歌詞情報のうち、‘間奏中’というキーワードと同じ単語が存在するかどうかを検索する。ここで、間奏区間抽出部１３１は、文字列単位でキーワードを検索する。

検索結果、所定の文字列にキーワードと同じ単語が存在すれば、間奏区間抽出部１３１は、検索されたキーワード（例えば、間奏中）が含まれた文字列に基づいて、歌詞情報を１節、２節、３節に分ける。ここで、歌詞情報を間奏区間を基準に分離した節（例えば、１節、２節、３節）情報は、今後の歌詞構造の生成時に利用される。

図４は、本発明のさらに他の実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置のうち、文字列繰り返し回数抽出部が各文字列の相互間の距離を計算及び繰り返される文字列を抽出する例を示す図面である。

図４Ａに図示したように、第１文字列には‘ＡＢＣＢＥＣＤ’という音節が含まれており、第２文字列には‘ＡＢＡＢＣＤ’という音節が含まれている。ここで、第１文字列と第２文字列との類似度を測定するために、前記（式２）を利用する。

まず、第１文字列の最初の音節であるＡと第２文字列の最初の音節であるＡとの類似度を計算すれば、

である。しかし、ａ（１，０）、ａ（０，１）及びａ（０，０）は定義されていないので、これらは‘０’に見なされる。

一方、第１文字列の最初の音節であるＡと第２文字列の最初の音節であるＡとは同一であるので、

は１の値を持つ。したがって、ａ（１，１）は１の値を持つ。

また、第１文字列の６番目音節であるＣと第２文字列の３番目音節であるＡとの類似度

であるが、ａ（６，２）、ａ（５，３）及びａ（５，２）は２であり、

は０であるので、ａ（６，３）は２値を持つ。

すなわち、比較しようとする音節周辺値（例えば、上側、左側、及び対角線方向に位置した値）と比較しようとする音節との同一如何に基づいて、それぞれの音節に対する類似度を求めることができる。

したがって、第１文字列と第２文字列とに含まれたあらゆる音節間の類似度を測定した結果、５値が出る。

これに、結果値５に基づいて同じ音節を検索する過程を説明すれば、図４Ａに示したように、文字列繰り返し回数抽出部１３２は、基準値（例えば、５）の左側方向または上側対角線方向に位置した値のうち、基準値（例えば、５）より大きいか、または同じ値があるかをチェックする。ここで、基準値より大きい値または同じ値が存在する場合、存在する値が位置した方向に移動し、基準値より小さな値が存在する場合には上側対角線方向に移動する。

チェック結果、基準値（例えば、５）より大きいか、または同じ値が存在していないために、上側対角線位置（すなわち、ａ（６，５））に移動する。また、移動した位置に存在する基準値（例えば、４）と周辺に位置した値とをチェックした結果、基準値より大きいか、または同じ値が存在していないために、上側対角線位置（すなわち、ａ（５，４））に移動する。

次いで、基準値（例えば、３）の左側方向（すなわち、ａ（４，４））に基準値と同じ値が存在するので、方向を左側に移動させる。

次いで、基準値の周辺に基準値（例えば、３）より大きい値または同じ値が存在していないため、上側対角線方向に移動し、移動した位置（すなわち、ａ（３，３））の左側及び上側対角線方向に基準値（例えば、２）と同じ値が存在するので、対角線方向に移動する。

次いで、移動した位置（すなわち、ａ（２，２））の周辺に基準値（例えば、２）より大きい値または同じ値が存在していないので、上側対角線方向（すなわち、ａ（１，１））に移動する。

これにより、（式２）を利用して計算された同じ音節の数は５つであり、同じ音節は、移動した位置に存在する音節（すなわち、Ａ、Ｂ、Ｂ、Ｃ、Ｄ）である。

したがって、第１文字列及び第２文字列の相互距離を計算するために、（式１）に該当値を代入する。ここで、同じ音節の数である

は５個であり、第１文字列の音節の数は７個、第２文字列に含まれた音節の数は６個であるので、ｍａｘ（Ｉ，Ｊ）は７になる。

すなわち、

である。したがって、第１文字列と第２文字列との相互距離は７１％であるので、類似していると判断する。

図４Ｂは、前記のように文字列の相互距離に基づいて生成された所定歌詞情報内に含まれた文字列の繰り返し回数を示すテーブルである。

文字列繰り返し回数抽出部１３２は、各文字列間の相互距離に基づいてそれぞれの文字列に対する繰り返し回数を共に記録したテーブルを生成する。

すなわち、各文字列間の相互距離が７０％以上である場合、類似（または同一）していると判断して、文字列の繰り返し回数をチェックし、チェックされた繰り返し回数をテーブル形態で保存する。ここで、文字列の繰り返し回数情報が記録されたテーブルはパラグラフ抽出時に利用される。

図５は、本発明のさらに他の実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置のうち、第１パラグラフ抽出部がパラグラフを抽出する例を示す図面である。

図５Ａに図示したように、i軸とj軸とに同じ文字列Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｃ、Ｄ、Ｅ、Ｂ、Ｃ、Ｄが羅列されている。ここで、i軸とj軸とを対角線５１で分けた場合、対角線５１を基準に上側及び下側は対称であるため、上側部分のみパラグラフを抽出する過程を行い、下側５２の部分はパラグラフを抽出する過程を行わない。

また、文字列情報抽出部１３０を通じてそれぞれの文字列を比較して同じ文字列を検索した結果、対角線方向で同じ値（例えば、１）が連続で現れる文字列が存在する。この時、同じ値（例えば、１）が連続で現れる文字列を‘Ｓ’という。

この後、第１パラグラフ抽出部１４１は、図５Ｂに示したように行（ｒｏｗ）に位置したＣ文字列に対するパラグラフ如何をチェックする。チェック結果、行に位置したＣ、Ｄ、Ｅ文字列と、列に現れたＣ及びＤ文字列とに対して‘Ｓ’が存在するということが分かる。これに、第１パラグラフ抽出部１４１は、‘Ｓ’に含まれた文字列のうち、小数の文字列をパラグラフ５３と選択する。すなわち、行及び列に位置したＣ、Ｄ文字列がパラグラフとなる。

次いで、パラグラフとして抽出が完了した行に境界線５４をひいて、境界線５４内に含まれたパラグラフとして抽出が完了した行に対する値（すなわち、１）を‘０’に変更する（図５Ｃ参照）。

次いで、第１パラグラフ抽出部１４１は、行（ｒｏｗ）に位置したＥ文字列、及び行の最後に位置したＤ文字列までパラグラフ抽出を行う。

図５Ｄは、第１パラグラフ抽出部１４１が抽出したパネルグラフィックをテーブルで示した図面である。すなわち、所定の文字列に対する繰り返し回数が１以上である文字列をそれぞれのパラグラフで分類しておいた。

例えば、‘ｇｏｏｄｌａｄｙ’を含む文字列は１１回繰り返されるので、パラグラフ（すなわち、Ｐ０）に設定され、‘白い小さな手のあなた／胸騒ぎして’という音節を含む文字列は６回繰り返されるので、パラグラフ（すなわち、Ｐ１）に設定される。

また、図５Ｄを参照して、所定オーディオファイルの主題部を抽出する例を説明する。

例えば、ユーザが所定オーディオファイルを検索しようとする場合には、制御部１６０は、該当オーディオファイルのツリー構造で該当オーディオファイルの主題部を抽出する。ここで、オーディオファイルの主題部は、ユーザにおいては曲中から最も記憶に残る部分、曲中から最も印象深い部分をいい、作曲者においては強調したい主題を含む部分をいい、歌手においては最も感情を多く載せて歌う部分をいう。以下、図５Ｄを参照して主題部を抽出する例を後述する。

次いで、抽出された音楽の主題部をユーザに出力することによって、ユーザがさらに迅速で該当音楽を認知できるようにして音楽を選曲する時間を短縮できる。

所定オーディオファイルの主題部を抽出する方法で、各パラグラフ別に下記のような５つの特徴を抽出して利用できる。

第１の特徴は、パラグラフ抽出部１４０が抽出したパラグラフに基づいて最も多く繰り返されるパラグラフの数から所定パラグラフの繰り返し数を引いたことである。

例えば、図５Ｄに示したテーブルを参照して説明すれば、最も多く繰り返されるパラグラフの数は１１であり、所定パラグラフＩＤが０である場合、１１−１１＝０になる。また、所定パラグラフＤＩが１である場合には１１−６＝５になる。また、所定パラグラフＤＩが２である場合には１１−５＝６になる。

第２の特徴は、全体歌詞内に含まれた文字列のうち繰り返される文字列の長さの比率である。
例えば、図５Ｄに示したテーブルを参照して説明すれば、全体文字列の長さは４８であり、Ｐ０の文字列の長さは１であり、Ｐ１の文字列の長さは２である。したがって、Ｐ０の文字列の長さ比率は１／４８であり、Ｐ１の文字列の長さ比率は２／４８である。

第３の特徴は、全体歌詞内に含まれた文字列のうち、特定パラグラフに含まれる文字列をいずれも合わせた長さである。
例えば、Ｐ０の文字列の長さは１であり、Ｐ１の文字列の長さは２である。この時、Ｐ０は１１回繰り返されて総文字列の長さが１１であり、Ｐ１は６回繰り返されて総文字列の長さが１２になる。

第４の特徴は、パラグラフが現れたあらゆる節の種類である。
例えば、Ｐ０の場合には１節、２節、３節にいずれも現れる。

第５の特徴は、パラグラフが間奏前に始まるか、間奏後に始まるかということである。

以上の５つの特徴を総合的に考慮して、パラグラフ中で繰り返し回数が多く、文字列の長さが長くて、全体歌詞内の文字列長さの総和が大きく、多くの節に出現し、間奏前／後に現れるものを選択して、主題部に抽出する。

このようなパラグラフ間の特徴を比較する方法では、簡単な比較規則を使用することもでき、音楽専門家があらかじめ設定しておいた主題部と比較して、パターン認識技法を使用して比較規則を自動生成することもある。

図６は、本発明のさらに他の実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置のうち、第２パラグラフ抽出部が拡張されたパラグラフを抽出する例を示す図面である。

図示したように、パラグラフＩＤを２つ（すなわち、ｎ＝２）から最大８つ（すなわち、ｎ＝８）を順に結合して繰り返し回数をチェックする。ここでは、ｎ＝２からｎ＝４まで結合した例を説明する。

したがって、ｎ＝２の０，１とｎ＝３の０，１，０との繰り返し回数を比較した結果、繰り返し回数が同一でないので、パラグラフ０，１及びパラグラフ０，１，０は、拡張されたパラグラフ（ＥｘｔｅｎｄｅｄＰａｒａｇｒａｐｈ：ＥＰ）になる。この後、ｎ＝３の０，１，０はｎ＝４の０，１，０，２と再び繰り返し回数を比較せねばならない。

次いで、ｎ＝２の１，０とｎ＝３の１，０，２との繰り返し回数を比較した結果、繰り返し回数が同一であるので、ｎ＝２の１，０は拡張されたパラグラフではなく、ｎ＝３の１，０，２は拡張されたパラグラフになる。この後、ｎ＝３の１，０，２はｎ＝４の０，１，０，２と再び繰り返し回数を比較せねばならない。

次いで、ｎ＝２の０，２とｎ＝３の０，２，０との繰り返し回数を比較した結果、繰り返し回数が同一であるので、ｎ＝２の０，２は拡張されたパラグラフではなく、ｎ＝３の０，２，０は拡張されたパラグラフになる。この後、ｎ＝３の０，２，０はｎ＝４の１，０，２，０と再び繰り返し回数を比較せねばならない。

次いで、ｎ＝３の０，１，０とｎ＝４の０，１，０，２との繰り返し回数を比較した結果、繰り返し回数が同一であるので、ｎ＝３の０，１，０は拡張されたパラグラフではなく、ｎ＝４の０，１，０，２は拡張されたパラグラフになる。

次いで、ｎ＝３の１，０，２と、０，２，０と、及び２，０，１は、ｎ＝４の０，１，０，２と、１，０，２，０と、及び０，２，０，１と比較する。比較結果、ｎ＝３の１，０，２と、０，２，０と、及び２，０，１はいずれもパラグラフではない。

したがって、ｎ＝２ないしｎ＝８に対して拡張されたパラグラフの抽出過程を行った結果、パラグラフ０，１と、０，１，０，２と０，１，０，２，０，１と及び０，１，０，２，０，１，０，２が拡張されたパラグラフになる。

図７は、本発明のさらに他の実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置で、所定歌詞の情報をツリー構造で配置した例を示す図面である。

図示したように、歌詞構造生成部１５０は、前処理部１２０、文字列情報抽出部１３０、及びパラグラフ抽出部１４０が抽出した所定歌詞についての文字列情報７１、拡張されたパラグラフ７２、歌詞の節（すなわち、１節、２節、３節など）情報７３、及び題目情報７４をツリー形態で提供される。

したがって、ユーザのオーディオファイル再生要請時にツリー形態で提供される分析された情報に基づいて、ユーザが所望する区間の情報を直ちに提供でき、またユーザの音楽要約サービス要請時に、ユーザにより指定された時間ほどのオーディオファイルを提供できる。

図８は、本発明のさらに他の実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出する方法を示すフローチャートである。

まず、歌詞抽出部１１０は、オーディオファイルのメタデータから歌詞情報を抽出する（Ｓ８００）。ここで、歌詞抽出部１１０は、ＩＤ３タグバージョン２、及びウォーターマークなどに保存されているメタデータから題目及び歌詞情報を抽出する。

次いで、抽出された歌詞情報を前処理部１２０に伝送すれば、前処理部１２０は、伝送された歌詞情報に前処理を行う（Ｓ８１０）。すなわち、前処理過程を通じて歌詞情報以外の情報である特殊文字（すなわち、−、＿、（）、＜＞、及び…など）、文章符号（すなわち、’、及び”など）、空いている空間（すなわち、分かち書き）、及びラップ部分などが削除され、英文の大文字は小文字に変換される。

次いで、文字列情報抽出部１３０は、前処理部１２０で前処理した歌詞情報に基づいて、間奏区間及び歌詞情報で繰り返される文字列を抽出する（Ｓ８２０、Ｓ８３０）。

例えば、歌詞情報内に含まれた文字列から間奏区間に対するキーワード（例えば、間奏中）を抽出し、また各文字列の相互間の距離を計算して繰り返される文字列を抽出する。ここで相互間の距離は、文字列間の同一如何、及び文字列間の重なる程度などを比較して、所定臨界値以上（例えば、７０％）であれば、同一であると判断する。これについての詳細な説明は、図３及び図４を通じて前述したので、省略する。

次いで、パラグラフ抽出部１４０は、文字列情報抽出部１３０により抽出された繰り返される文字列に基づいてパラグラフを抽出する（Ｓ８４０）。ここで、パラグラフを抽出するアルゴリズムは、ダイナミックプログラミング探索アルゴリズムを利用する。

例えば、Ａ文字列は１回、Ｂ文字列は２回、Ｃ文字列は３回、Ｄ文字列は３回、及びＥ文字列は２回繰り返される場合、パラグラフ抽出部１４０は、Ｃ文字列とＤ文字列とをパラグラフとして抽出する。これについての詳細な説明は、図５を通じて前述したので省略する。

次いで、第２パラグラフ抽出部１４２は、第１パラグラフ抽出部１４１が分類したパラグラフのうち、同じ繰り返しパターンを持つパラグラフ（すなわち、拡張されたパラグラフ）の集合を抽出する（Ｓ８５０）。ここで、拡張されたパラグラフは連続したパラグラフの集合であり、一つ以上のパラグラフを含む。これについての詳細な説明は図６を通じて前述したので省略する。

次いで、歌詞構造生成部１５０は、所定歌詞に対する歌詞内の節分配（例えば、１節、２節、３節など）、題目情報、文字列情報、及び拡張されたパラグラフなどをツリー構造で配置する（Ｓ８６０）。

例えば、ユーザが所定オーディオファイルを検索しようとする場合には、制御部１６０は、該当オーディオファイルのツリー構造に基づいて主題部を抽出した後、該当主題部をユーザに出力することによって、ユーザがさらに迅速で該当音楽を認知できるようにして音楽を選曲する時間を短縮させる。

また、ユーザが音楽要約サービスを要請して所定オーディオファイルの聞きたい時間（例えば、２０秒）を指定する場合、制御部１６０は、該当オーディオファイルのツリー構造に基づいて、ユーザにより設定された時間に該当する部分（例えば、２０秒に該当する拡張されたパラグラフ部分）を出力する。

図９は、本発明のさらに他の実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出するシステムの内部ブロック図を示す図面である。ここで、本発明で歌詞の繰り返しパターンに基づいて歌詞構造を抽出するシステムを適用した装置としては、所定オーディオデータを再生できるＭＰ３兼用携帯電話を例として説明する。すなわち、歌詞の繰り返しパターンに基づいて歌詞構造を抽出する技術を適用したＭＰ３兼用携帯電話を説明することである。

図示したように、キー入力部２００、歌詞構造抽出部１００、オーディオファイル管理部３００、出力部４００、及び制御部５００を備えて構成される。

キー入力部２００は、ユーザの選択により発生する所定のキー信号が入力される。ここで、キー信号は、通話のための各種機能キー信号、数字キー信号、及びオーディオファイル（例えば、ＭＰ３）を再生させるための動作キー（例えば、録音キー、再生及び停止キーなど）信号として理解されうる。

歌詞構造抽出部１００は、所定オーディオファイルに対する歌詞を分析して繰り返される文字列を抽出し、抽出された繰り返される文字列に基づいてパラグラフ及び拡張されたパラグラフを抽出した後、該当歌詞についての情報をツリー構造で提供する。ここで、歌詞構造抽出部１００は、前記図１で説明した歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置を異なって表現したものである。これに、歌詞構造抽出部１００は、図１を通じて前述したので省略する。

オーディオファイル管理部３００は、オーディオファイルの保存及び再生などの動作実行を管理するものであり、ここで、オーディオファイルはＭＰ３をいう。また、オーディオファイル管理部３００は、Ｄ／Ａ（Ｄｉｇｉｔａｌ−ｔｏ−Ａｎａｌｏｇ）変換器３１０、デコーダ３２０、及びメモリ３３０を備える。

デコーダ３２０は、ＳＴＭｉｃｒｏｅｌｅｃｔｒｏｎｉｃｓ社製のＳＴＡ０１３であり、ＭＰ３フォーマットで圧縮されたオーディオデータをＰＣＭ形態のデータに復元する。

Ｄ／Ａ変換器３１０は、デコーダ３２０から出力されるＰＣＭ形態のオーディオデータをアナログオーディオ信号に変換して、左チャンネルオーディオ信号であるＬ−オーディオと右チャンネルオーディオ信号であるＲ−オーディオとを、出力部４００を通じて出力する。

メモリ３３０は、ＭＰ３フォーマットに変換されたデジタルオーディオデータ及びそれに関連した付加情報を保存する。

出力部４００は、送受信された音声信号及びオーディオファイル管理部３００を通じて出力される音響を出力する。

制御部５００は、歌詞の繰り返しパターンに基づいて歌詞構造を抽出するシステムに含まれた各部１００ないし４００の全般的な動作を制御する。

以上、添付図を参照して本発明の実施例を説明したが、本発明が属する技術分野で当業者ならば本発明がその技術的思想や必須特徴を変更せずとも他の具体的な形に実施されうるということが理解できるであろう。したがって、前述した実施例は全ての面で例示的なものであって、限定的なものではないと理解せねばならない。

本発明は、携帯用オーディオファイルプレーヤーに好適に用いられる。

本発明の一実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置の内部ブロック図である。本発明の他の実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置のうち、前処理部を通じて前処理過程を行う例を示す図面である。本発明のさらに他の実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置のうち、間奏区間抽出部が歌詞情報内で間奏区間に対するキーワードを抽出する例を示す図である。本発明のさらに他の実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置のうち、文字列繰り返し回数抽出部が各文字列の相互間の距離を計算及び繰り返される文字列を抽出する例を示す図である。本発明のさらに他の実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置のうち、文字列繰り返し回数抽出部が各文字列の相互間の距離を計算及び繰り返される文字列を抽出する例を示す図である。本発明のさらに他の実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置のうち、第１パラグラフ抽出部がパラグラフを抽出する例を示す図である。本発明のさらに他の実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置のうち、第１パラグラフ抽出部がパラグラフを抽出する例を示す図である。本発明のさらに他の実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置のうち、第１パラグラフ抽出部がパラグラフを抽出する例を示す図である。本発明のさらに他の実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置のうち、第１パラグラフ抽出部がパラグラフを抽出する例を示す図である。本発明のさらに他の実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置のうち、第２パラグラフ抽出部が拡張されたパラグラフを抽出する例を示す図である。本発明のさらに他の実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置で、所定歌詞の情報をツリー構造で配置した例を示す図である。本発明のさらに他の実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出する方法を示すフローチャートである。本発明のさらに他の実施形態による歌詞の繰り返しパターンに基づいて歌詞構造を抽出するシステムの内部ブロック図を示す図である。

符号の説明

１１０歌詞抽出部
１２０前処理部
１３０文字列情報抽出部
１４０パラグラフ抽出部
１５０歌詞構造生成部
１６０制御部

Claims

オーディオファイルのメタデータから歌詞情報を抽出する歌詞抽出部と、
前記抽出された歌詞情報に基づいて、間奏区間及び繰り返される文字列を抽出する文字列情報抽出部と、
前記抽出された繰り返される文字列に基づいてパラグラフを抽出し、前記抽出されたパラグラフのうち、同じ繰り返しパターンを持つパラグラフの集合を抽出するパラグラフ抽出部と、
前記オーディオファイルに対する間奏区間、文字列及びパラグラフをツリー構造で生成して提供する歌詞構造生成部と、を備える歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置。
前記文字列情報抽出部は、
前記抽出された歌詞情報内に含まれた文字列から間奏区間に対するキーワードを抽出する間奏区間抽出部と、
前記抽出された歌詞情報内に含まれたそれぞれの文字列の相互間の距離を計算して、繰り返す文字列を抽出する文字列繰り返し回数抽出部と、をさらに備える請求項１に記載の歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置。
前記文字列の相互間の距離を計算する数式は、

ここで、

は、比較される二つの文字列内に含まれた音節のうち、同じ音節の数であり、ｍａｘ（Ｉ，Ｊ）は、比較される二つの文字列のうち、音節の数が多い文字列内に含まれた音節の数である請求項２に記載の歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置。
前記文字列内に含まれた音節間の類似度を計算する数式は、

ここで、i及びjは、それぞれの音節を表し、

は、比較される音節が同一か否かを表す請求項３に記載の歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置。
前記パラグラフ抽出部は、
前記抽出された繰り返される文字列のうち、同じ繰り返し回数を持つ連続した文字列に基づいてパラグラフを抽出する第１パラグラフ抽出部と、
前記第１パラグラフ抽出部が抽出したパラグラフのうち、同じ繰り返しパターンを持つパラグラフの集合を抽出する第２パラグラフ抽出部と、をさらに備える請求項１に記載の歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置。
前記抽出された歌詞情報に含まれている付加情報を削除する前処理部と、
前記生成されたツリー構造に基づいて該当オーディオファイルの主題部を抽出する制御部と、を備える請求項１に記載の歌詞の繰り返しパターンに基づいて歌詞構造を抽出する装置。
オーディオファイルのメタデータから歌詞情報を抽出するステップと、
前記抽出された歌詞情報に基づいて間奏区間及び繰り返される文字列を抽出するステップと、
前記抽出された繰り返される文字列に基づいてパラグラフを抽出するステップと、
前記抽出されたパラグラフのうち、同じ繰り返しパターンを持つパラグラフの集合を抽出するステップと、
前記オーディオファイルに対する間奏区間、文字列及びパラグラフをツリー構造で生成するステップと、を含む歌詞の繰り返しパターンに基づいて歌詞構造を抽出する方法。
前記歌詞情報から繰り返される文字列を抽出する数式は、

ここで、

は、比較される二つの文字列内に含まれた音節のうち、同じ音節の数であり、ｍａｘ（Ｉ，Ｊ）は、比較される二つの文字列のうち、音節の数が多い文字列内に含まれた音節の数である請求項７に記載の歌詞の繰り返しパターンに基づいて歌詞構造を抽出する方法。
前記文字列内に含まれた音節間の類似度を計算する数式は、

ここで、i及びjは、それぞれの音節を表し、

は、比較される音節が同一か否かを表す請求項８に記載の歌詞の繰り返しパターンに基づいて歌詞構造を抽出する方法。
前記抽出された歌詞情報に含まれている付加情報を削除する前処理過程を行うステップをさらに含む請求項７に記載の歌詞の繰り返しパターンに基づいて歌詞構造を抽出する方法。
前記生成されたツリー構造に基づいて、該当オーディオファイルの主題部を抽出するステップをさらに含む請求項７に記載の歌詞の繰り返しパターンに基づいて歌詞構造を抽出する方法。
ユーザの選択により発生する所定のキー信号が入力されるキー入力部と、
前記入力されたキー信号がオーディオファイルの要請信号であれば、該当オーディオファイルの動作実行を管理するオーディオファイル管理部と、
前記オーディオファイルに対する歌詞を分析して繰り返される文字列及びパラグラフを抽出して、歌詞についての情報をツリー構造で提供する歌詞構造抽出部と、を備える歌詞の繰り返しパターンに基づいて歌詞構造を抽出するシステム。