JP3987427B2 - 楽曲要約処理方法、楽曲要約処理装置、楽曲要約処理プログラム及びそのプログラムを記録した記録媒体 - Google Patents
楽曲要約処理方法、楽曲要約処理装置、楽曲要約処理プログラム及びそのプログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP3987427B2 JP3987427B2 JP2002371244A JP2002371244A JP3987427B2 JP 3987427 B2 JP3987427 B2 JP 3987427B2 JP 2002371244 A JP2002371244 A JP 2002371244A JP 2002371244 A JP2002371244 A JP 2002371244A JP 3987427 B2 JP3987427 B2 JP 3987427B2
- Authority
- JP
- Japan
- Prior art keywords
- music
- summary processing
- similarity
- subject
- song
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Auxiliary Devices For Music (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- Electrophonic Musical Instruments (AREA)
Description
【発明の属する技術分野】
本発明は、処理対象となる課題曲を要約する楽曲要約処理方法及びその装置と、その楽曲要約処理装置の実現に用いられる楽曲要約処理プログラム及びそのプログラムを記録した記録媒体とに関し、特に、楽曲全体の雰囲気を反映したような形態で楽曲全体を縮めることができるようにする楽曲要約処理方法及びその装置と、その楽曲要約処理装置の実現に用いられる楽曲要約処理プログラム及びそのプログラムを記録した記録媒体とに関する。
【0002】
【従来の技術】
楽曲全体の雰囲気を反映したような形態で楽曲全体を縮めることができるようにする技術が構築されると、様々な有効利用が期待できる。
【0003】
例えば、従来のオンラインCDショップ(OCS)では、予めメール会員から各個人の嗜好や希望をアンケートで収集しておき、そのデータに基づいてOCS側で推薦曲や推薦CDを選別して、各個人に宣伝を行っている。これは、毎週毎週、膨大な量の新曲や推薦曲の全曲を各個人に送るわけにはいかないからである。
【0004】
このような従来のOCSでは、2つの機会損失が発生している。それは、楽曲の一部抜粋だけではその楽曲の全体の雰囲気を伝え損ねているという損失と、会員が気に入るかも知れない新曲をOCS側で捨ててしまっているという損失である。
【0005】
このような場合に、楽曲全体の雰囲気を反映したような形態で楽曲全体を縮めることができるようにする技術が構築されると、この2つの機会損失を最小に抑えられることになる。
【0006】
また、例えば5人でカラオケボックスで2時間歌う場合を考える。カラオケボックスでは、最後の10分頃になると、お店から「お客さん、あと10分です」のインターホンがかかる。このような場合、「じゃあ、1人1曲ずつ歌って終わりにするか」という段取りになる場合が非常に多いが、そうなると2時間という時間制限を越えてしまう。
【0007】
このような場合に、楽曲全体の雰囲気を反映したような形態で楽曲全体を縮めることができるようにする技術が構築されると、1人1曲を2分などに要約することが可能になるので、2時間という時間制限を守りつつ1人1曲ずつ全員が歌えるようになる。これは、店にとっても客にとってもメリットがあると考えられる。
【0008】
また、ピアノレッスンにおいて、生徒が新曲に取り組む際、通常、教師はその生徒に新曲の大まかなイメージを与えるために、模範演奏を行なう。その模範演奏は、全曲を弾く場合もあるが、新曲の大まかなイメージを与えるために、むしろ要所だけをかいつまんで弾く方が効果的な場合もある。
【0009】
このような場合に、楽曲全体の雰囲気を反映したような形態で楽曲全体を縮めることができるようにする技術が構築されると、より効率的に新曲の大まかなイメージを与えることが可能となる。
【0010】
以上に説明した具体例からも分かるように、楽曲全体の雰囲気を反映したような形態で楽曲全体を縮めることができるようにする技術が構築されると、様々な有効利用が期待できる。
【0011】
しかしながら、従来の音楽システムの主要タスクは作曲、編曲、演奏にある。これらに加えて、最近では、音楽検索の需要が高まり、目標とする旋律に類似した旋律をデータベースから探し出すタスク(音楽検索)の研究が盛んである。実際、音楽検索というテーマだけで国際会議が開催されるほど研究者が多い。カラオケなどで稼働しビジネスとして成立しているシステムもある。
【0012】
いずれにしろ、従来の音楽システムの主要タスクは作曲、編曲、演奏と、最近需要の高まっている検索であり、楽曲の要約を取り扱った先行研究は殆どないというのが実情である。
【0013】
本発明者が調べた限りでは、楽曲を与えると、それを元に要約を生成するシステムとしては、下記に示す非特許文献1で報告されているLoganとChuが提案したものしかない。
【0014】
このLoganとChuが提案したシステムでは、楽曲中で最も目立って記憶に残る部分(キーフレーズと呼ぶ)とは最も繰り返されている部分であると仮定する。そして、その仮定に基づいて、オーディオ信号から楽曲の特徴を計算して、最も繰り返されている部分をキーフレーズとして抽出し、その抽出したキーフレーズをもって要約を行うようにしている。
【0015】
しかし、キーフレーズは聴取者の嗜好や感性に大きく左右されるので、この仮定は常に正しいとは限らない。さらに、LoganとChuが提案したシステムでは、楽曲全体の構成や雰囲気を反映したような要約を生成することはできない。
【0016】
一方、商業的な場面での要約はすべて人手に頼っており、その楽曲中の特徴的、印象的な部分(サビなど)の先頭から、あるいは楽曲の開始部分(一般にイントロと呼ばれる)から時間の許す限り再生することにより要約としている。
【0017】
つまり、商業的な場面で行われている従来手法の要約は、楽曲全体を縮めるのではなく、その一部分を抜き出して来て、それをもって要約としている。もちろん、編曲家の手による作品としての要約も利用されているが、人手によるためコストは非常に高い。
【0018】
【非特許文献1】
Logan,B.,and Chu,S.,Music Summarization using Key Phrases, In Proceedings of ICASSP 2000.
【非特許文献2】
平田,青柳.音楽理論GTTMに基づく多声音楽の表現手法と基本演算.情報処理学会論文誌,Vol.43,No.2,pp.277-286(2002).
【非特許文献3】
Lerdahl,F.,and Jackendoff,R.,Generative Theory of Tonal Musi c,The MIT Press(1983).
【特許文献1】
特開2002−236484
【0019】
【発明が解決しようとする課題】
上述したように、楽曲の要約を取り扱った先行研究は殆どないというのが実情である。
【0020】
非特許文献1で報告されているLoganとChuが提案したシステムでは、最も繰り返されている部分をキーフレーズとして抽出し、その抽出したキーフレーズをもって要約を行うようにしているが、キーフレーズは聴取者の嗜好や感性に大きく左右されるので、このようにして作成された要約が常に適切なものとは限られないという問題がある。
【0021】
さらに、LoganとChuが提案したシステムでは、楽曲全体の構成や雰囲気を反映したような要約を生成することはできないという問題がある。
【0022】
しかも、LoganとChuが提案したシステムでは、バッチ方式(楽曲を与えると一括変換で要約を生成する方式)を用いており、ユーザとの対話は行わない。これから、キーフレーズをうまく検出するために、オフラインでパラメータの微調整を行うことが要求されることになる。
【0023】
一方、商業的な場面で行われている要約は、楽曲の一部をそのまま抜き出してくるだけだったので、楽節や楽章の構成を反映した要約は生成できないという問題がある。
【0024】
本発明はかかる事情に鑑みてなされたものであって、楽曲全体の雰囲気を反映したような形態で楽曲全体を縮めることができるようにする新たな楽曲要約処理技術の提供を目的とする。
【0025】
【課題を解決するための手段】
本発明の楽曲要約処理装置は、楽曲全体の雰囲気を反映したような要約の生成を実現するために、(イ)処理対象となる課題曲に対して、音楽理論に基づく楽曲分析を行う分析手段と、(ロ)分析手段による楽曲分析の結果に基づいて、課題曲をそれを表現するオブジェクト項に変換する変換手段と、(ハ)変換手段により変換されたオブジェクト項間の包摂関係を用いて、課題曲の各楽曲部分同士の類似度を判定する判定手段と、(ニ)判定手段による類似度判定結果に基づいて、課題曲の要約のための削除対象として可能となる楽曲部分を特定する特定手段と、(ホ)特定手段による特定結果に基づいて、課題曲を要約する要約手段とを備えるように構成する。
【0026】
以上の各処理手段はコンピュータプログラムで実現できるものであり、このコンピュータプログラムは、半導体メモリなどの記録媒体に記録して提供したり、ネットワークを介して提供することができる。
【0027】
次に、このように構成される本発明の楽曲要約処理装置の処理について説明する。
【0028】
(イ)分析手段の処理
分析手段は、処理対象となる課題曲が与えられると、楽曲全体の雰囲気を反映したような要約の生成を実現するために、音楽理論に基づく楽曲分析を行う。
【0029】
例えば、GTTM(generative theory of total music)のタイムスパン簡約(ある楽曲をタイムスパン簡約するとは、楽曲中の重要でない音を削除することを意味する)を用いて、2つの音の内のどちらの方が重要であるのかを決定しながら、課題曲を構成する音のグルーピング構造を決定することで、課題曲の楽曲分析を行うのである。
【0030】
図1左側に、簡単な旋律とそのタイムスパン簡約木を示す。タイムスパン簡約木は二進木であり、重要な方の枝を primary枝、そうでない方の枝を secondary枝と呼ぶ。タイムスパン簡約木を用いたグルーピングは楽曲全体が1つのグループになるまで続けられ、タイムスパン簡約木の最下端の枝には五線譜上の各音(和音や単音)が現れる。 primary枝及び secondary枝で支配される時間幅は、headと呼ばれる1つの音/和音で代表される(ここではC4)。
【0031】
本発明者は、GTTMの記述に基づく新たな楽曲表現法を提案したが(非特許文献2,特許文献1参照)、この提案した楽曲表現法では、タイムスパン簡約木と、ポリフォニー(単旋律に解釈されるホモフォニーが組み合わされたもので、ホモフォニーだけのものも含む)に含まれる各音の時間情報とを表現することができる。
【0032】
各音の時間情報を表現する必要があるのは、図2に示すような場合に、どちらも primary枝及び secondary枝で記述される音が同じとなることで、時間情報を導入しないと両者を区別できなくなるからである。この時間情報には、各音の発音時刻や音価だけでなく、注目している音とその周囲の音との時間関係を含む。なお、図1では時間情報については図示していない。
【0033】
この提案した楽曲表現法の時間構造が依拠する直感は、発音時刻の時間差を抽象化すると発音順序になる、というものである。すなわち、図3に示すように、発音時刻の時間差を抽象化すると発音順序になることに着目して、時間情報を表現するようにしている。
【0034】
図1右側の旋律はC4音のみからなり、同図左側の旋律より、タイムスパン簡約に関して抽象的と見なせる(左側の旋律は右側の旋律よりも具体的である)。この旋律の抽象・具体関係を包摂関係(半順序)の一種と見なし、説明の便宜上、集合の包含関係を表す“⊆”という記号で表現する。
【0035】
LerdahlとJackendoff(非特許文献3参照)によると、headの値には4通りの設定法がある。図1でのhead値の設定法は“ordinary”であり、図4(アルベルティ・バス)でのhead値の設定法は“fusion”である。head値の設定法も分析された旋律の解釈に依存する。
【0036】
ここで、GTTMが扱う旋律は理論的な理由でホモフォニーに限定されているが、本発明では、図5に示すように、ホモフォニーでタイムスパン簡約を行って代表音を決定し、それらの代表音をタイムスパン簡約することで、時間的な重畳を許す2つのポリフォニーの間にタイムスパン簡約としての順序を付与するようにしている。
【0037】
(ロ)変換手段の処理
GTTM分析を行って、タイムスパン簡約木の形、headの値、時間構造を決定して、その分析結果を、非特許文献2や特許文献1に記載するGTTMの記述に基づく楽曲表現法によって表現すると、タイムスパン簡約の抽象・具体関係は、演繹オブジェクト指向データベース(DOOD)におけるオブジェクト項の包摂関係として自動的に表現される。
【0038】
これから、変換手段は、分析手段による楽曲分析の結果に基づいて、課題曲をそれを表現するオブジェクト項に変換する。
【0039】
ここで、DOODは、対象をオブジェクトとその属性の集合からなるオブジェクト項として表現するものであり、属性の欠落や属性の型宣言を記述するために一階述語論理を拡張した手法であって、演繹規則によって項間の包摂関係を定義することができ、この包摂関係によって、曖昧な項とそうでない項とを形式的に結び付けることが可能となる。
【0040】
このオブジェクト項への変換によって、例えば、図1に示す2つの旋律を、非特許文献2や特許文献1に記載するGTTMの記述に基づく楽曲表現法によってあるデータ構造として表現すると、この2つの旋律間に包摂関係が成り立つことが自動的に判定できる。
【0041】
このとき、もし旋律に異なる分析結果を与えると、タイムスパン簡約木の形、headの値、時間構造も変わり、異なる包摂関係が成立する。
【0042】
このことから分かるように、変換手段により変換されたオブジェクト項は、単なる記号の順序関係から生成されるものではなくて、楽曲分析の結果に基づいて生成されるものであって、楽曲の旋律の音楽的構造を反映したものとなっている。
【0043】
(ハ)判定手段の処理
判定手段は、変換手段により変換されたオブジェクト項間の包摂関係を用いて、課題曲の各楽曲部分同士の類似度を判定する。
【0044】
例えば、オブジェクト項間の共通部分の最小上界(least upper bound, lub)を求めて、その最小上界により失われる情報の大きさを評価することで、課題曲の各楽曲部分同士の類似度を判定する。
【0045】
このとき、楽曲の持つ異なる音楽的側面に対しての複数の閾値を使って、最小上界により失われる情報の大きさを多面的に評価することで、課題曲の各楽曲部分同士の類似度を判定することがある。
【0046】
ここで、最小上界lub(x,y)とは、オブジェクト項x,yが与えられたときに“min({z|x⊆z∧y⊆z})”と定義され、全てのx,yについて、“x⊆lub(x,y)”及び“y⊆lub(x,y)”が成り立つ。
【0047】
すなわち、最小上界lub(x,y)とは、xとyよりも共通に大きい要素の中で最も小さいものとして定義されるものであり、直感的には、2つのポリフォニーの最大共通部分を計算する。
【0048】
判定手段は、この最小上界lubを使って、2つの旋律に共通部分が多ければ多いほど、お互いにより類似していると判定する。
【0049】
音楽理論は、長年に渡る人間の音楽認知の観察、定式化、検証の上に成り立っている。本発明では、定評のある音楽理論GTTMと理論的な取り扱いが容易な知識表現手法DOODとを用いることで、十分な情報量を持った内部表現(オブジェクト項)を実現しつつ、2つのオブジェクト項の共通部分をとる最も基本的な演算である最小上界を適用して、2つのオブジェクト項(つまり楽曲)の類似度を判定するようにしている。
【0050】
このように、オーディオ信号ではなく楽譜相当の情報(例えば、標準MIDIファイル(SMF)形式など)を入力可能として、十分な情報量を持つ内部表現を利用した類似度判定を行っており、高次の音楽的な情報を精度よく得ることができるようになる。
【0051】
これに対して、従来の楽曲類似度判定アルゴリズムで用いられている内部表現では、高々音符(あるいは音符の集合)の間に同時、前、後という単純で平板な基本関係しか与えていないので、音楽理論が教えるような多声音楽の階層的な解釈や構造を表現できない。よって、楽曲の類似度を判定する際も、従来法では楽曲が持つ階層的な解釈や構造を考慮できないという問題がある。
【0052】
(ニ)特定手段の処理
特定手段は、判定手段による類似度判定結果に基づいて、互いに類似する楽曲部分を特定することで、課題曲の要約のための削除対象として可能となる楽曲部分を特定する。
【0053】
本発明の楽曲要約処理装置では、傷の付いたレコード盤上での針飛びで生ずる速聴きのような方法で楽曲を要約することを実現する。ただし、その針飛びは任意の場所で生ずるのではなくて、楽曲の区切り個所において音楽的に正しく生ずるようにする。
【0054】
このような針飛びを実現するために、本発明の楽曲要約処理装置では、図6に示すように、互いに類似する楽曲部分の一部を削除することで課題曲を要約するという構成を採る。
【0055】
そこで、特定手段は、判定手段による類似度判定結果に基づいて、互いに類似する楽曲部分を特定することで、課題曲の要約のための削除対象として可能となる楽曲部分を特定するのである。
【0056】
(ホ)要約手段の処理
要約手段は、例えば、課題曲のどの楽曲部分とどの楽曲部分とが類似するのかをディスプレイに明示出力して、対話処理に従って、課題曲の要約のために削除すべき楽曲部分を決定することで課題曲を要約する。
【0057】
楽曲全体の構成を反映した要約結果は、要約を行うユーザの嗜好や主観に依存する。
【0058】
これから、本発明の楽曲要約処理装置では、音楽理論によって支えられる部分とユーザの嗜好や主観に依存する部分とを区別して、音楽理論によって支えられる部分については自動化が容易であるので自動化を行い、一方、ユーザの嗜好や主観に依存する部分は自動化が困難な面があるので、ユーザの意図を効率良く取り込むために、必要に応じてユーザとインタラクションを行うことで課題曲を要約するという構成を採るものである。
【0059】
以上に説明した分析手段/変換手段/判定手段/特定手段/要約手段の処理に従って、本発明の楽曲要約処理装置によれば、楽曲全体の雰囲気を反映したような形態を実現しつつ、あたかも傷の付いたレコード盤上での針飛びで生ずる速聴きのような形でもって楽曲全体を縮めることができるようになる。
【0060】
【発明の実施の形態】
以下、実施の形態に従って本発明を詳細に説明する。
【0061】
本実施形態例の説明に入る前に、本実施形態例の実現のために用いられる技術について説明する。
【0062】
〔1〕実施形態例の実現のために用いられる技術の説明
〔1−1〕演繹オブジェクト指向データベースについての一般的な説明
演繹オブジェクト指向データベース(DOOD:Deductive Object-Oriented Database) は、知識表現の一手法である。演繹オブジェクト指向データベースにおけるオブジェクト項の一般形は、
種類(属性1の名前=属性1の値,属性2の名前=属性2の値,…)
のようになっている。
【0063】
例えば、リンゴについて、赤いリンゴ、小さいリンゴという2つの概念(実体)を表現する場合を考える。ともに種類はリンゴである。「リンゴ」の場合、特にそれ以上の特徴はないので、
リンゴ
と記述する。
【0064】
「赤いリンゴ」は、単なるリンゴに色が赤いという特徴が付加されたものである。そこで、
リンゴ(色=赤)
と記述する。また、「小さいリンゴ」は、サイズが小さいという特徴が付加されたと考えられるので、
リンゴ(サイズ=小さい)
と記述する。以上から明らかなように、「大きくて青いリンゴ」の表現は、
リンゴ(サイズ=大きい、色=青)
となる。
【0065】
実際のオブジェクト項では、属性値にオブジェクト項を書くことで、より複雑な概念や実体を表現することができる。
【0066】
なお、素性構造も本質的には演繹オブジェクト指向データベースと同じ概念であり、本明細書の全体において統一的な説明のため演繹オブジェクト指向データベースの用語を用いて説明するが、本明細書でいう演繹オブジェクト指向データベースには、素性構造の技術概念が含まれる。本明細書において、「演繹オブジェクト指向データベース」は「素性構造」と、「オブジェクト項」は「素性項」と読み替えることができる。
【0067】
以上のように、オブジェクト項は o( …, l = v,…) と記述される。oは基本オブジェクト項、l=vは属性、lは属性ラベル、vは属性値を表す。
【0068】
属性には固有と非固有の2種類がある。固有属性とは、オブジェクトの識別に使用される属性であり、非固有属性とは、そうでない属性である。記法上は、
o(…,l=v, …)/( …,m=w, …)
のように、"/" の左側に固有属性、右側に非固有属性を書く。例えば、「o(a=1)/(b=2)」と「o(a=1)/(c=3)」は、同一のオブジェクトである。
【0069】
〔1−2〕一般的な包摂関係の説明
本システムでは、音楽的な対象間に成り立つ順序関係を、オブジェクト項間の包摂関係に対応付けることにより、包摂関係を用いて対象間の相対的類似度を計算する。また、本システムにおいて、包摂関係は、オブジェクト項間の共通部分の抽出や、オブジェクト項の抽象化、具体化などの演算などに用いられる。以下では、この包摂関係についての説明を行う。なお、説明の便宜上、包摂関係を集合の包含関係と同様な記号⊆で表すことにする。
【0070】
包摂関係とは、「情報量が多いオブジェクト⊆情報量が少ないオブジェクト」ということを意味している。「具体的なオブジェクト⊆抽象的なオブジェクト」、または「特殊⊆一般」と言い換えてもよい。
【0071】
簡単な例で説明する。「リンゴ」と「赤いリンゴ」を表現するオブジェクト項間の包摂関係を考える。「赤いリンゴ」のほうが「リンゴ」より「赤い」という特徴がある分だけ具体的で情報が多いとみなせる。このようなとき、
リンゴ(色=赤)⊆リンゴ
と表記する。
【0072】
一般に、s⊆tとなるためには、次の2つの条件のいずれか一方または両方が成立することが必要である。
【0073】
条件1.s=k(…,l=v,…)、かつt=k(…)
〔例: リンゴ(色=赤)⊆リンゴ〕
sの方にl=vという属性が余計に付加されている。他の属性に関しては、sとtは同じ属性名と属性値を持っている。
【0074】
条件2.s=k(…,l=v,…)、かつt=k(…,l=w,…)、かつv⊆w
〔例:人間(住所=東京(区=新宿))⊆人間(住所=東京)〕
sもtも同じ名前の属性lを持っているが、その属性値の間にv⊆wという関係が成り立っている。
【0075】
〔1−3〕包摂関係の定義
オブジェクト項間の包摂関係は、以下に説明する演繹規則によって定義される。今、
o1 =p(…,lm =v,…),o2 =q(…,ln =w,…)とすると、
o1 ,o2 間の包摂関係は、
o1 ⊆o2 ←p⊆q∧∀n∃lm (lm =ln ∧v⊆w)
のように定義される。つまり、o1 の基本項(p)とo2 の全ての属性(ln )について、それらが全て具体的であるならば、o1 の方が具体的あるいはo2 の方が抽象的であるという意味である。
【0076】
さらに、o1 ,o2 がオブジェクト項を要素に持つ集合の場合、o1 ,o2 間の包摂関係として様々な定義が考えられる。以下に、代表的な2つを演繹規則として記述する。
【0077】
o1 ⊆H o2 ←∀si ∈o1 ∃tj ∈o2 si ⊆tj
o1 ⊆S o2 ←∀tj ∈o2 ∃si ∈o1 si ⊆tj
ここで、「⊆H 」は、いわゆる集合のHoare順序に、「⊆S 」は、Smyth順序に等しい。例えば、
{b,d}⊆H {a,b,c,d}
{a,b,c,d}⊆S {b,d}
のようになる。Hoare順序は、集合要素間に選言の意味がある場合に用いられ、Smyth順序は、連言の意味がある場合に用いられる。
【0078】
〔1−4〕最小上界および最大下界の定義
オブジェクト項x,yが与えられたとき、xとyの最小上界 (least upper bound, lub) とは、
min({z|x⊆z∧y⊆z}) であり、「lub(x,y)」と書く。
【0079】
lubの直観的な意味は、ある二つのオブジェクトに共通で抽象的なオブジェクトのうち、最も具体的なものであり、積集合を計算するイメージである。すなわち、xとyよりも共通に大きい要素の中で最も小さいものである。いわば、積集合あるいは最小公倍数のようなものと考えてよい。
【0080】
最大下界 (greatest lower bound, glb)についても同様に定義できる。オブジェクト項x,yが与えられたとき、xとyの最大下界とは、
max({z|z⊆x∧z⊆y})であり、「glb(x,y)」と書く。
すなわち、xとyよりも共通に小さい要素の中で最も大きいものである。いわば、和集合あるいは最大公約数のようなものと考えてよい。
【0081】
演繹オブジェクト指向データベースでは、lubをjoin、glbをmeetとも呼ぶ。上で定義したオブジェクト項の領域は⊆に関して完備束を構成する。lubが以下で説明する本システムを構成するときの基本演算子となる。
【0082】
〔1−5〕一つの音の表現
本表現法では、音楽的な対象のうち、単なる1音、C、C5を演繹オブジェクト指向データベースを用いて以下のような項として表現する。
前述の包摂関係を用いると、これらの音を表現するオブジェクト項間に、
note(pitch=C,octave=5)⊆note(pitch=C) ⊆note
のような包摂関係が自動的に成立する。
【0083】
〔1−6〕和音の表現
本表現法では、音楽的な対象のうち、和音を集合として表現する。そして、集合もオブジェクト項の一種と定義する。
【0084】
例えば、和音は以下のような項(集合項)として表現される。
一つの音の場合と同様、このようにオブジェクト項として表現された和音の間には、
のような包摂関係が自動的に成立する。
【0085】
〔1−7〕和音の列の表現
N個の和音からなる和音の列の表現には、以下の方法a,bの2通りが考えられる。ここでは、読み易さのために、各和音をchord1 ,chord2 のように表記する。
方法aは、個々の和音ごとに異なる属性を割り当てる方法である。方法bは、個々の和音を要素とするような線形リンク構造([…]で表記)をある属性の属性値として持たせる方法である。
【0086】
〔1−8〕多声旋律の表現
旋律や和音を構成する複数の音が楽曲の一部あるいは全体を構成する。ここでは、そのような楽曲の一部あるいは全体を多声旋律と呼ぶ。
【0087】
本システムでは、演繹オブジェクト指向データベース(DOOD)に基づいて多声旋律を表現するためのオブジェクト項を導入する。オブジェクト項の抽象化、具体化が、多声旋律の簡単化、複雑化にうまく対応するようにオブジェクト項を設計しなければならない。
【0088】
〔1−9〕グルーピング構造の表現
楽曲のグルーピング構造を表現するために、GTTMのタイムスパン簡約木(Time-Span Reduction Tree)を利用する。図7にグルーピング構造の例を示す。タイムスパン簡約木は、ボトムアップに楽曲構造的に重要な音 (和音) と、隣接する重要でない音 (和音) とをまとめて (グルーピングして) 行く様子を表現している。
【0089】
ここでは簡単化のためタイムスパン簡約木は二進木とし、重要な音を primary、そうでない音を secondaryと呼ぶ。グルーピングされた primaryと secondaryは、ある一つの音 (和音) で代表され、それをheadと呼ぶ。primary/secondary とheadの関係には、primary, fusion, transformational の3通りがある。
【0090】
タイムスパン簡約木の末端のノード (葉) は、ある時刻に生起した音 (和音) を表し、primary/secondary を持たない。タイムスパン簡約木では primaryの生起時刻が1段上のグルーピング構造の生起時刻となる。あるタイムスパン簡約木から primaryや secondaryの枝を削除すると、より簡単なタイムスパン簡約木が得られる。
【0091】
〔1−10〕時間構造の表現
まず、楽曲における時間構造の抽象化、具体化の関係について考察する。通常、定量的な記述を抽象化すると定性的な記述が得られる。多声旋律中に現われる各音の生起時刻は定量的に決められるが、これを抽象化した定性的な記述とは「順序」であると考えられる。これは、厳密な時刻が分からなくても、先か後かの順番だけ記述されているという状況である。
【0092】
さらに順序は、縮退によって条件の緩い抽象的で簡単な順序になる。例えば、「イベントaが先でイベントbが後」という順序を縮退すると、「イベントaはイベントbより先あるいは同時」という順序が得られる。
【0093】
以上の考察から、時間構造のモデルは、時刻に関する定量的な情報と順序に関する情報とを分離して記述できなければならないことが分かる。
【0094】
本システムで提案する時間構造の例を図8に示す。図中 p, q, r, s はイベントである。まずイベントpの生起時刻を基準と仮定する。次にイベントsに着目すると、sはpと+ωの間に生起し (順序に関する情報) 、pから3拍半の時刻に生起する (時刻に関する定量的な情報) 。同様にqはpとsの間に生起し、pから1拍目、rはqとsの間に生起し、sから半拍目の場所に位置している。さらに、rの時刻が縮退する先は楽曲的により重要な拍であり (この場合はs) 、それが「→」で示されている。
【0095】
〔1−11〕各オブジェクトの属性と属性値
本システムで実際に用いるオブジェクト項の構文規則を図9に示す。
【0096】
この構文において、objclass(name1:objclass1,…)のobjclassはオブジェクトクラス名、name1 は固有属性名、objclass1 は属性値のオブジェクトクラス名あるいはデータ型という意味である。オブジェクトを構成する際に必須の属性と必須でない属性があり、必須でない属性名の左肩には&を付けた。
【0097】
小文字で始まる語はオブジェクト名を表し、大文字で始まる語はそれ以外のデータやデータ型を表す。Integer は整数の集合を表し、C..Bはドからシまでの7の音名からなる集合を表し、After , Beforeは予約語であり、+ωは正の無限大の時刻、−ωは負の無限大の時刻の意味である。x|yは、xまたはyという意味である。{x}はxからなる集合を表す。
【0098】
オブジェクト項 chordのnotes 属性は和音を構成する個々の音を表し、duration属性は和音が鳴っている時間的長さを表す。notes 属性の値が singleton集合の時、それは単音と等価である。noteオブジェクトの noteNumber 属性では、音高がMIDIノートナンバによって表現されている。
【0099】
この eventオブジェクトは、時間的に重複するグルーピング構造も記述できるという点において、GTTMのタイムスパン簡約木の拡張になっている。
【0100】
〔1−12〕event オブジェクトに関する包摂関係
event オブジェクトは、上述したグルーピング構造と時間構造のモデルを実現している。つまり、モデルにおける抽象化、具体化の操作がオブジェクト項の包摂関係に対応付けられている。
【0101】
グルーピング構造に関する抽象化は、楽曲構造上、重要でない音を削除することであり、これはprimary 属性や secondary属性を削除することに対応する。
【0102】
時間構造に関する抽象化は2通りある。一つは定量的な時刻の情報を削除することであり、これはdifference属性を削除することに対応する。もう一つは、拍節構造的により重要な隣接する拍に時刻が縮退することであり、このために以下のような新しい包摂関係を導入する。
【0103】
ある時刻を表現するオブジェクト項 t (t ⊆ temp)があるとき、t.reference によって指定される拍の方が拍節構造的により重要な拍である。したがって、tがt.(t.reference) に縮退すると、時間構造はより抽象的 (簡略) になることが分かる。つまり、t ⊆ t.(t.reference)である。ここで、t.reference の指定は、グルーピング構造と整合しなくてはならないことに注意されたい。
【0104】
図8の例では、時刻 tr は、
temp(after=tq, before=ts, reference=Before, difference=8分音符) というオブジェクト項で記述できるので、 tr ⊆ ts となる。
【0105】
〔2〕実施形態例の説明
次に、本発明の実施形態例について詳細に説明する。
【0106】
図10に、本発明を具備する楽曲要約処理装置1の持つ機能構成の一実施形態例を図示する。
【0107】
この図に示すように、本発明の楽曲要約処理装置1は、処理対象となる課題曲を要約して出力する処理を行うものであって、楽曲入力装置2と入出力装置3と楽曲出力装置4とに接続されて、楽曲入力部10と、タイムスパン簡約分析部11と、オブジェクト項変換部12と、作業用メモリ域13と、オブジェクト項間類似度判定部14と、楽曲要約部15とを備える。
【0108】
楽曲入力装置2は、処理対象となる課題曲を入力する装置である。入力する方法としては、楽譜の形式で入力する方法、楽曲のエディタから入力する方法、MIDIデータとして入力する方法、音声入力により入力する方法など種々の方法があり、いずれの入力方法を用いてもよい。入出力装置3は、マウスやディスプレイを有してユーザとの間の対話手段として機能する。楽曲出力装置4は、要約結果の楽曲を出力する装置であり、スピーカによる出力、楽譜の形式による出力、MIDIデータによる出力など出力方法は問わない。
【0109】
楽曲入力部10は、楽曲入力装置2から入力されてくる楽曲を受け取ることで、処理対象となる課題曲を入力する。
【0110】
タイムスパン簡約分析部11は、GTTMのタイムスパン簡約を用いて、入力された課題曲に対して音楽理論に基づく楽曲分析を行う。
【0111】
オブジェクト項変換部12は、タイムスパン簡約分析部11により生成されたタイムスパン簡約木に従って、課題曲を演繹オブジェクト指向データベースのオブジェクト項に変換することで、課題曲をそれを表現するオブジェクト項に変換して、それを作業用メモリ域(内部,外部)13に保存する。
【0112】
オブジェクト項間類似度判定部14は、作業用メモリ域13に保存されているオブジェクト項間の包摂関係を用いて、課題曲の各楽曲部分同士の類似度を判定する。
【0113】
楽曲要約部15は、オブジェクト項間類似度判定部14により得られた類似度判定結果に基づいて、課題曲の要約のための削除対象として可能となる楽曲部分を特定し、その楽曲部分をディスプレイに明示出力してユーザと対話することで、最終的に削除する楽曲部分を決定することにより課題曲を要約する。
【0114】
図11に、タイムスパン簡約分析部11の実行する処理フローの一例を図示し、図12に、オブジェクト項間類似度判定部14の実行する処理フローの一例を図示し、図13及び図14に、楽曲要約部15の実行する処理フローの一例を図示する。
【0115】
次に、これらの処理フローに従って、このように構成される本発明の楽曲要約処理装置1の実行する処理について説明する。
【0116】
〔2−1〕タイムスパン簡約分析部11の処理
タイムスパン簡約分析部11は、楽曲入力部10の入力した課題曲の要約要求が発行されると、図11の処理フローに示すように、先ず最初に、ステップ10で、楽曲入力部10の入力した課題曲を読み込み、続くステップ11で、その読み込んだ課題曲の楽譜情報を入出力装置3のディスプレイに表示する。
【0117】
続いて、ステップ12で、読み込んだ課題曲の全ての音を発音時刻順にソートして、デフォルトのタイムスパン簡約木(次に発音時刻の早い音が左secondary 枝となる形で生成する)を生成し、それを課題曲の楽譜情報に対応付けて入出力装置3のディスプレイに表示する。
【0118】
続いて、ステップ13で、ユーザと対話することでディスプレイに表示しているタイムスパン簡約木を編集することにより、課題曲の旋律に合った形でタイムスパン簡約木を作成する。
【0119】
すなわち、図15に示すように、ユーザと対話することでディスプレイに表示しているタイムスパン簡約木を編集し、これにより、音楽家の意図を表す多声旋律について、隣接した音同士をボトムアップにまとめ上げていくことで、図16(A)に示すようなタイムスパン簡約木を作成していくのである。
【0120】
このようにして作成したタイムスパン簡約木は、図9に示したオブジェクト項の構文規則に従って、DOODのオブジェクト項表現により内部表現されることになる。例えば、図16(A)の最初の3個の音符に着目すると、その部分のタイムスパン簡約木は図16(B)に示すようになり、その多声旋律の内部構造は図16(C)に示すように表される。これに対応するオブジェクト項表現は図16(D)のようになる。ここでは、event を“e”、headを“hd”、primary を“p”、secondary を“s”と簡略化して表現している。
【0121】
続いて、ステップ14で、ユーザと対話することでディスプレイに表示しているタイムスパン簡約木に時間構造を付与する。
【0122】
すなわち、図17に示すように、ユーザと対話することでディスプレイに表示しているタイムスパン簡約木に時間構造を付与するのである。
【0123】
図18に、時間構造の分析例を示す。図18の例では、音要素t1を基準にして時間構造を分析している。図18では、tempを“t”、after を“aft”、beforeを“bfr”、reference を“ref”、differenceを“diff”と簡略化して表現している。例えば、図18のt4オブジェクト項表現において、t4は、t1の後にあり、正の無限大の時刻(+ω)より前にあることを示している。また、ref=aftであるので、先行する拍のほうが後続の拍より重要な拍であることを示している。diff=3は、t1との時間差が3拍であることを示している。
【0124】
続いて、ステップ15で、オブジェクト項変換部12を起動して、処理を終了する。
【0125】
このようにして、タイムスパン簡約分析部11は、楽曲入力部10の入力した課題曲の要約要求が発行されると、課題曲についてのタイムスパン簡約木と時間構造ネットワークを作成することで課題曲の楽曲分析を実行するのである。
【0126】
〔2−2〕オブジェクト項変換部12の処理
このタイムスパン簡約分析部11による課題曲の楽曲分析を受けて、オブジェクト項変換部12は、図9に示すオブジェクト項の構文規則に従って、オブジェクト項変換部12により生成されたタイムスパン簡約木と時間構造ネットワークをオブジェクト項表現に翻訳して、それを作業用メモリ域13に保存する。
【0127】
図19に、多声旋律のオブジェクト項表現の例を示す。図19(A)に示す内部構造を持つ多声旋律をオブジェクト項表現すると、図19(B)に示すようになる。なお、ここでは前述した予約語の簡略化記法に加えて、chord を“chd”、notes を“nts”、noteを“nt”、noteNumberを“nn”、durationを“dur”と簡略化して表現している。
【0128】
〔2−3〕オブジェクト項間類似度判定部14の処理
オブジェクト項間類似度判定部14は、オブジェクト項変換部12によりオブジェクト項が生成されると、図12の処理フローに示すように、先ず最初に、ステップ20で、ユーザと対話することで類似度判定に用いるパラメータを設定する。具体的には、類似度判定の対象となる楽曲部分のサイズSと、そのマージンMと、3つの閾値TN,TA,TT とを設定する。
【0129】
これらのパラメータの設定については、課題曲の楽譜情報を表示する画面に、スライダーなどを表示してユーザと対話することで行う。
【0130】
この楽曲部分のサイズSについては複数の値を設定することが可能であり、例えば、2,4,8,16拍というように設定する。サイズSが4拍で、マージンMが10%の場合、類似度判定の対象となる楽曲部分のサイズは3.6拍から4.4拍の間に限られることになる。
【0131】
続いて、ステップ21で、判定対象となる全ての楽曲部分を処理したのか否かを判断して、処理していないことを判断するときには、ステップ22に進んで、判定対象となる未処理の楽曲部分(設定されたサイズを持つ)を選択する。
【0132】
すなわち、課題曲の中から判定対象となる未処理の楽曲部分を選択するのである。このとき、任意の楽曲部分を選択できる訳ではなくて、タイムスパン簡約木の木構造に従って選択可能となる楽曲部分が規定されることになるので、その条件の許す楽曲部分を選択することになる。
【0133】
続いて、ステップ23で、類似度判定の相手先となる全ての楽曲部分を処理したのか否かを判断して、処理していないことを判断するときには、ステップ24に進んで、判定の相手先となる未処理の楽曲部分(設定されたサイズを持つ)を選択する。
【0134】
すなわち、課題曲の中から判定先となる未処理の楽曲部分を選択するのである。このとき、任意の楽曲部分を選択できる訳ではなくて、タイムスパン簡約木の木構造に従って選択可能となる楽曲部分が規定されることになるので、その条件の許す楽曲部分を選択することになる。
【0135】
続いて、ステップ25で、判定対象となる楽曲部分のオブジェクト項と、判定先となる楽曲部分のオブジェクト項との間の最小上界lubを求める。
【0136】
例えば、図20(A)〜(E)に示すように、2つのオブジェクト項間の最小上界lubを求めるのである。
【0137】
ここで、図20(A)に示す例は、C4G4とC4という単純な2つの旋律の最小上界lubの計算の例である。これら2つの旋律のタイムスパン簡約木は示してあるが、時間構造は省略した。ここでは、「旋律C4G4⊆旋律C4」という包摂関係が成立しており、最小上界lubの結果は旋律C4である。
【0138】
また、図20(B)に示す例では、2つの旋律の中央の音は各々D4,F4であり、これらは音高やタイムスパン木に関して照合しない(従って時間構造に関しても照合しない)ので、最小上界lubの結果にはこれらD4,F4の音は含まれない。
【0139】
また、図20(C)の例は、音高が同じだが音価が異なるような例である。この最小上界lubの結果は、音価の情報が確定しないC4,F4,G4が音列を作り、最後が四分音符のC5であるような旋律である。つまり、結果の抽象的な旋律は、入力の2つの旋律から得られる旋律の内、最も共通部分が多い旋律となっている。C4,F4,G4は、音高は確定しているが音価が不確定という意味で不完全である。
【0140】
また、図20(D)の例は、ともにC4を含むD4C4とC4G4という2つの旋律の最小上界lubの計算の例である。時間情報も考慮する必要があるので、旋律の開始時刻を適切に揃えてから最小上界lubを計算する。この図の例では、C4直前の小節線を揃えてから最小上界lubを計算しており、最小上界lubの結果は旋律C4となる。
【0141】
また、図20(E)の例は、図20(D)の例と同じ音列であるが開始時刻が異なる旋律の最小上界lubの結果を示している。開始時刻が異なることで共通部分を持たず、その結果、最小上界lubは空(Tと書く)となる。
【0142】
この最小上界lubは、入力の2つの旋律の最大共通部分を計算するので、計算結果が入力と等しい場合には、lubを計算したことによる情報の損失がなく、その2つの旋律は等価である(最も類似している)と考えられる。逆に、計算結果がTの場合には、入力の旋律の情報が全て失われたことを意味しており、入力の2つの旋律は無関係である(全く類似していない)と考えられる。
【0143】
そこで、オブジェクト項間類似度判定部14は、最小上界lubの計算によって失われた情報(タイムスパン簡約木に関するものと時間構造に関するものとがある)の量をもって、2つの旋律の類似度を計測することとする。
【0144】
これから、ステップ25で、判定対象となる楽曲部分のオブジェクト項と、判定先となる楽曲部分のオブジェクト項との間の最小上界lubを求めると、続いて、ステップ26で、その求めた最小上界lubを使って、その2つの楽曲部分P,Qの間の類似度の尺度RN,RA,RT を、
R$ (P,Q)=|lub(P,Q)|$ /max(|P|$,|Q|$ )
但し、$=N,A,T
という算出式に従って算出する。
【0145】
ここで、|P|N はPに含まれる音の総数、|P|A はPのnoteオブジェクトに含まれる属性の総数、|P|T はPの時間オブジェクトに含まれる属性の総数、|Q|N はQに含まれる音の総数、|Q|A はQのnoteオブジェクトに含まれる属性の総数、|Q|T はQの時間オブジェクトに含まれる属性の総数を示している。
【0146】
1つの音(noteオブジェクト)は2つの属性(音高/音価と発音時刻)を持つので、well-formed(Tを含まないよう)なPに関して|P|A =2×|P|N となる。同様に、1つの時間オブジェクトは4つの属性(先行音、後続音、注目音、時間差分)を持つので、well-formed(Tを含まないよう)なPに関して|P|T =4|P|N となる。
【0147】
RN とRA はタイムスパン簡約木に関連しており、RT は時間構造に関連している。RN は、不完全な音でも1つの音と見なして、音のレベルでのタイムスパン簡約木の類似度を表している。RA は、属性のレベルでのタイムスパン簡約木の類似度を表しており、lubの結果に含まれる全ての音について、音高と音価の属性がどの程度確定しているかを示す。同様に、RT は、属性のレベルでの時間構造の類似度を表しており、lubの結果に含まれる全ての音の発音時間について、上述の時間オブジェクトの4つの属性がどの程度確定しているかを示す。但し、音の属性、時間構造の属性は全て同じ重みで定量化する。
【0148】
最小上界lubの算出例について説明するならば、P=Qの場合には、RN =RA =RT =1.0と算出される。逆にlub(P,Q)=Tの場合には、RN =RA =RT =0.0と算出される。また、P⊆Qの場合、|P|$ ≧|Q|$ ($=N,A,T)なので、R$ (P,Q)=|Q|$ /|P|$ と算出される。
【0149】
また、図20(B)の場合、先頭の音が時間の基準になることで、先頭の音については時間構造の属性として1つしか持たないことを考慮して、
RN =(1+1)/(1+1+1)=2/3
RA =(2+2)/(2+2+2)=2/3
RT =(1+4*1)/(1+4*1+4*1)=5/9
と算出される。
【0150】
また、図20(C)の場合、lubで算出したC4F4G4が発音時刻に関する情報を失っており、さらに、先頭の音が時間の基準になることで、先頭の音については時間構造の属性として1つしかなく、これに加えて、lubで算出したC4F4G4が時間差分の情報を失っていることを考慮して、
RN = (1+1+1+1)/(1+1+1+1)=1.0
RA = (1+1+1+2*1)/(2*1+2*1+2*1+2*1)=5/8
RT =(3*1+3*1+3*1+1)/(1+4*1+4*1+4*1)=10/13
と算出される。
【0151】
また、図20(D)の場合、先頭の音が時間の基準になることで、先頭の音については時間構造の属性として1つしか持たないことを考慮して、
RN =1/(1+1)=1/2
RA =2/(2+2)=1/2
RT =1/(1+4*1)=1/5
と算出される。
【0152】
このようにして、ステップ26で、判定対象となる楽曲部分Pと判定先となる楽曲部分Qとの間の類似度の尺度RN,RA,RT を算出すると、続いて、ステップ27で、その算出した類似度の尺度RN,RA,RT を使い、その2つの楽曲部分P,Qの間に、例えば、
RN (P,Q)>TN ∧RT (P,Q)>TT ∧RA (P,Q)>TA
TN,TA,TT :ステップ20で設定した閾値
という条件が成立する場合には、その2つの楽曲部分P,Qが類似するという判定を行うことで、その2つの楽曲部分P,Qが類似するのか否かを判定する。
【0153】
このように、楽曲の持つ異なる音楽的側面に対しての複数の閾値を使って、2つの楽曲部分P,Qが類似するのか否かを判定することで、音楽家の意図に沿った形で、2つの楽曲部分P,Qが類似するのか否かを判定するのである。
【0154】
続いて、ステップ28で、判定対象となる楽曲部分Pと判定先となる楽曲部分Qとが類似するという判定が得られたのか否かを判断して、類似するという判定が得られた場合には、ステップ29に進んで、その類似すると判定した楽曲部分の楽曲位置情報を記録してから、次の判定先となる楽曲部分を処理すべくステップ23に戻り、一方、類似しないという判定が得られた場合には、ステップ29の処理を行うことなく、次の判定先となる楽曲部分を処理すべくステップ23に戻る。
【0155】
そして、ステップ23〜ステップ29の処理を繰り返していくことで、ステップ23で、判定の相手先となる全ての楽曲部分を処理したことを判断すると、次の判定対象となる楽曲部分を処理すべくステップ21に戻る。
【0156】
そして、ステップ21〜ステップ29の処理を繰り返していくこで、ステップ21で、判定対象となる全ての楽曲部分を処理したことを判断すると、ステップ30に進んで、ステップ29で記録した類似する楽曲部分の楽曲位置情報を通知しつつ、楽曲要約部15を起動して、処理を終了する。
【0157】
このようにして、オブジェクト項間類似度判定部14は、オブジェクト項変換部12により課題曲を表現するオブジェクト項が生成されると、オブジェクト項間の包摂関係を用いて課題曲の各楽曲部分同士の類似度を判定して、類似する楽曲部分の楽曲位置情報を通知しつつ、楽曲要約部15を起動するように処理するのである。
【0158】
ここで、図12の処理フローでは、類似度判定の対象となる楽曲部分のサイズSが1つであることを想定したが、このサイズSとして複数の値が設定される場合には、各サイズSについて楽曲部分を切り出して類似度判定を行うことになる。また、図12の処理フローでは説明しなかったが、同一の楽曲部分の組み合わせについては何度も類似度判定を行わないように制御する処理を行うことになる。
【0159】
〔2−4〕楽曲要約部15の処理
楽曲要約部15は、オブジェクト項間類似度判定部14から起動されると、図13及び図14の処理フローに示すように、先ず最初に、ステップ40で、オブジェクト項間類似度判定部14から通知される類似する楽曲部分の楽曲位置情報に従って、課題曲の楽譜情報を表示する画面に、どの楽曲部分とどの楽曲部分とが類似するのかということを明示出力する。
【0160】
例えば、色付きの短冊を使って類似楽曲部分を明示出力することなどにより、課題曲のどの楽曲部分とどの楽曲部分とが類似するのかということを明示出力するのである。
【0161】
続いて、ステップ41で、ユーザ操作が行われるのを待って、ユーザ操作が行われたことを検出すると、ステップ42に進んで、ユーザから類似する楽曲部分の試聴要求が発行されたのか否かを判断して、この試聴要求が発行されたことを判断するときには、ステップ43に進んで、試聴要求のある楽曲部分を楽曲出力装置4に出力してから、ステップ41に戻る。
【0162】
一方、ステップ42で、ユーザから類似する楽曲部分の試聴要求が発行されたのではないことを判断するときには、ステップ44に進んで、ユーザから類似する楽曲部分の削除要求が発行されたのか否かを判断して、この削除要求が発行されたことを判断するときには、ステップ45に進んで、削除要求のある楽曲部分を削除してから、ステップ41に戻る。
【0163】
一方、ステップ44で、ユーザから類似する楽曲部分の削除要求が発行されたのではないことを判断するときには、ステップ46で進んで、ユーザから削除した楽曲部分の復活要求が発行されたのか否かを判断して、この復活要求が発行されたことを判断するときには、ステップ47に進んで、復活要求のある削除した楽曲部分を復活させてから、ステップ41に戻る。
【0164】
一方、ステップ46で、ユーザから削除した楽曲部分の復活要求が発行されたのではないことを判断するときには、ステップ48に進んで、ユーザから課題曲の要約要求が発行されたのか否かを判断して、課題曲の要約要求が発行されたことを判断するときには、ステップ49に進んで、削除した楽曲部分を取り除くことで要約した課題曲を楽曲出力装置4に出力する。
【0165】
このとき、課題曲の楽譜情報を表示する画面に、どの楽曲部分が削除されているのかを明示出力するとともに、課題曲の要約率を出力することになる。
【0166】
この要約した課題曲の出力を受けて、ユーザは、その課題曲の要約でよい場合には、終了要求を発行し、その課題曲の要約でよくない場合には、やり直し要求を発行し、その課題曲の要約から要約処理を継続していく場合には、要約処理の継続要求を発行する。
【0167】
これから、ステップ49で要約した課題曲を出力すると、続くステップ50で、これに応答してユーザ操作が行われるのを待って、ユーザ操作が行われたことを検出すると、ステップ51に進んで、ユーザから終了要求が発行されたのか否かを判断して、ユーザから終了要求が発行されたことを判断するときには、課題曲の要約が完成したことを判断して、処理を終了する。
【0168】
一方、ステップ51で、ユーザから終了要求が発行されたのではないことを判断するときには、ステップ52に進んで、ユーザからやり直し要求が発行されたのか否かを判断して、ユーザからやり直し要求が発行されたことを判断するときには、ステップ53に進んで、課題曲を初期状態(削除した楽曲部分を全て復活させる)に戻してから、ステップ41に戻る。
【0169】
一方、ステップ52で、ユーザからやり直し要求が発行されたのではないことを判断するとき、すなわち、ユーザから継続要求が発行されたことを判断するときには、ステップ53の処理を行うことなく、ステップ41に戻る。
【0170】
そして、ステップ48で、ユーザから課題曲の要約要求が発行されたのではないことを判断するときには、ステップ54に進んで、ユーザから要求された処理を実行してから、ステップ41に戻る。
【0171】
このようにして、楽曲全体の構成を反映した要約結果はユーザの嗜好や主観に依存することを考慮して、楽曲要約部15は、オブジェクト項間類似度判定部14により得られた類似度判定結果に基づいて、課題曲の要約のための削除対象として可能となる楽曲部分を特定し、その楽曲部分をディスプレイに明示出力してユーザと対話することで、最終的に削除する楽曲部分を決定することにより課題曲を要約するのである。
【0172】
以上説明したように、図10のように構成される本発明の楽曲要約処理装置1では、音楽理論によって支えられる部分とユーザの嗜好や主観に依存する部分とを区別して、音楽理論によって支えられる部分については自動化が容易であるので自動化を行い、一方、ユーザの嗜好や主観に依存する部分は自動化が困難な面があるので、ユーザの意図を効率良く取り込むために、必要に応じてユーザとインタラクションを行うことで課題曲を要約するように処理することになる。
【0173】
図示実施形態例に従って本発明を説明したが、本発明はこれに限定されるものではない。例えば、実施形態例では、類似すると判定した楽曲部分をユーザに明示してユーザとインタラクションを行うことで課題曲を要約するという構成を採ったが、規定のアルゴリズムに従って、類似すると判定した楽曲部分の内の一部を自動的に削除することで課題曲を要約するという構成を採ることも可能である。
【0174】
【発明の効果】
以上説明したように、本発明では、互いに類似する楽曲部分の一部を削除することにより課題曲を要約することで、あたかも傷の付いたレコード盤上での針飛びで生ずる速聴きのような形でもって楽曲全体を縮めることを実現することになるが、この実現にあたって、音楽理論に基づく楽曲分析を行い、音楽家の意図を表す楽曲部分について類似するのか否かを判定することで、その針飛びを楽曲の区切り個所において音楽的に正しく生ずるようにする。
【0175】
この構成に従って、本発明によれば、楽曲全体の雰囲気を反映したような形態を実現しつつ、あたかも傷の付いたレコード盤上での針飛びで生ずる速聴きのような形でもって楽曲全体を縮めることができるようになる。
【0176】
現実に我々が普段耳にする楽曲の多くは、キーフレーズを唯一に特定するのが困難である。よって、この部分がサビであると特定するのは難しく、またリスナーの嗜好によっても変化する。
【0177】
これから、本発明の実現する、全体構成をできるだけ残しつつ楽曲全体を縮めるような自然な形の要約は極めて有効であり、様々な有効利用が期待できる。
【図面の簡単な説明】
【図1】タイムスパン簡約木の説明図である。
【図2】タイムスパン簡約木の説明図である。
【図3】発音時刻を抽象化する場合の説明図である。
【図4】タイムスパン簡約木の説明図である。
【図5】ポリフォニーのタイムスパン簡約の説明図である。
【図6】本発明による楽曲要約方法の説明図である。
【図7】タイムスパン簡約木の説明図である。
【図8】楽曲に付与する時間構造の説明図である。
【図9】オブジェクト項の構文規則の説明図である。
【図10】本発明を具備する楽曲要約処理装置の持つ機能構成の一実施形態例である。
【図11】タイムスパン簡約分析部の実行する処理フローである。
【図12】オブジェクト項間類似度判定部の実行する処理フローである。
【図13】楽曲要約部の実行する処理フローである。
【図14】楽曲要約部の実行する処理フローである。
【図15】タイムスパン簡約分析部の実行する処理の説明図である。
【図16】タイムスパン簡約木のオブジェクト項表現の説明図である。
【図17】タイムスパン簡約分析部の実行する処理の説明図である。
【図18】楽曲に付与する時間構造の説明図である。
【図19】タイムスパン簡約木のオブジェクト項表現の説明図である。
【図20】最小上界の算出例の説明図である。
【符号の説明】
1 楽曲要約処理装置
2 楽曲入力装置
3 入出力装置
4 楽曲出力装置
10 楽曲入力部
11 タイムスパン簡約分析部
12 オブジェクト項変換部
13 作業用メモリ域
14 オブジェクト項間類似度判定部
15 楽曲要約部
Claims (19)
- 処理対象となる課題曲を要約する楽曲要約処理方法であって、
課題曲に対して、音楽理論に基づく楽曲分析を行う過程と、
上記楽曲分析の結果に基づいて、課題曲をそれを表現するオブジェクト項に変換する過程と、
上記オブジェクト項間の包摂関係を用いて、課題曲の各楽曲部分同士の類似度を判定する過程と、
上記類似度判定結果に基づいて、課題曲の要約のための削除対象として可能となる楽曲部分を特定する過程と、
上記特定結果に基づいて、課題曲を要約する過程とを備えることを、
特徴とする楽曲要約処理方法。 - 請求項1に記載の楽曲要約処理方法において、
上記楽曲分析を行う過程では、2つの音の内のどちらの方が重要であるのかを決定しながら、課題曲を構成する音のグルーピング構造を決定することで、課題曲の楽曲分析を行うことを、
特徴とする楽曲要約処理方法。 - 請求項1に記載の楽曲要約処理方法において、
上記類似度を判定する過程では、上記オブジェクト項間の最小上界を求めて、その最小上界により失われる情報の大きさを評価することで、課題曲の各楽曲部分同士の類似度を判定することを、
特徴とする楽曲要約処理方法。 - 請求項3に記載の楽曲要約処理方法において、
上記類似度を判定する過程では、楽曲の持つ異なる音楽的側面に対しての複数の閾値を使って、上記最小上界により失われる情報の大きさを多面的に評価することで、課題曲の各楽曲部分同士の類似度を判定することを、
特徴とする楽曲要約処理方法。 - 請求項1ないし4のいずれか1項に記載の楽曲要約処理方法において、
上記削除対象を特定する過程では、互いに類似する楽曲部分を削除可能な楽曲部分として特定することを、
特徴とする楽曲要約処理方法。 - 請求項1ないし4のいずれか1項に記載の楽曲要約処理方法において、
上記課題曲を要約する過程では、課題曲のどの楽曲部分とどの楽曲部分とが類似するのかをディスプレイに明示出力して、対話処理に従って、課題曲の要約のために削除すべき楽曲部分を決定することで課題曲を要約することを、
特徴とする楽曲要約処理方法。 - 処理対象となる課題曲を要約する楽曲要約処理装置であって、
課題曲に対して、音楽理論に基づく楽曲分析を行う手段と、
上記楽曲分析の結果に基づいて、課題曲をそれを表現するオブジェクト項に変換する手段と、
上記オブジェクト項間の包摂関係を用いて、課題曲の各楽曲部分同士の類似度を判定する手段と、
上記類似度判定結果に基づいて、課題曲の要約のための削除対象として可能となる楽曲部分を特定する手段と、
上記特定結果に基づいて、課題曲を要約する手段とを備えることを、
特徴とする楽曲要約処理装置。 - 請求項7に記載の楽曲要約処理装置において、
上記楽曲分析を行う手段は、2つの音の内のどちらの方が重要であるのかを決定しながら、課題曲を構成する音のグルーピング構造を決定することで、課題曲の楽曲分析を行うことを、
特徴とする楽曲要約処理装置。 - 請求項7に記載の楽曲要約処理装置において、
上記類似度を判定する手段は、上記オブジェクト項間の最小上界を求めて、その最小上界により失われる情報の大きさを評価することで、課題曲の各楽曲部分同士の類似度を判定することを、
特徴とする楽曲要約処理装置。 - 請求項9に記載の楽曲要約処理装置において、
上記類似度を判定する手段は、楽曲の持つ異なる音楽的側面に対しての複数の閾値を使って、上記最小上界により失われる情報の大きさを多面的に評価することで、課題曲の各楽曲部分同士の類似度を判定することを、
特徴とする楽曲要約処理装置。 - 請求項7ないし10のいずれか1項に記載の楽曲要約処理装置において、
上記削除対象を特定する手段は、互いに類似する楽曲部分を削除可能な楽曲部分として特定することを、
特徴とする楽曲要約処理装置。 - 請求項7ないし10のいずれか1項に記載の楽曲要約処理装置において、
上記課題曲を要約する手段は、課題曲のどの楽曲部分とどの楽曲部分とが類似するのかをディスプレイに明示出力して、対話処理に従って、課題曲の要約のために削除すべき楽曲部分を決定することで課題曲を要約することを、
特徴とする楽曲要約処理装置。 - 処理対象となる課題曲を要約する楽曲要約処理装置の実現に用いられる楽曲要約処理プログラムであって、
課題曲に対して、音楽理論に基づく楽曲分析を行う手段と、
上記楽曲分析の結果に基づいて、課題曲をそれを表現するオブジェクト項に変換する手段と、
上記オブジェクト項間の包摂関係を用いて、課題曲の各楽曲部分同士の類似度を判定する手段と、
上記類似度判定結果に基づいて、課題曲の要約のための削除対象として可能となる楽曲部分を特定する手段と、
上記特定結果に基づいて、課題曲を要約する手段として、コンピュータを機能させるための楽曲要約処理プログラム。 - 請求項13に記載の楽曲要約処理プログラムにおいて、
上記楽曲分析を行う手段は、2つの音の内のどちらの方が重要であるのかを決定しながら、課題曲を構成する音のグルーピング構造を決定することで、課題曲の楽曲分析を行うことを、
特徴とする楽曲要約処理プログラム。 - 請求項13に記載の楽曲要約処理プログラムにおいて、
上記類似度を判定する手段は、上記オブジェクト項間の最小上界を求めて、その最小上界により失われる情報の大きさを評価することで、課題曲の各楽曲部分同士の類似度を判定することを、
特徴とする楽曲要約処理プログラム。 - 請求項15に記載の楽曲要約処理プログラムにおいて、
上記類似度を判定する手段は、楽曲の持つ異なる音楽的側面に対しての複数の閾値を使って、上記最小上界により失われる情報の大きさを多面的に評価することで、課題曲の各楽曲部分同士の類似度を判定することを、
特徴とする楽曲要約処理プログラム。 - 請求項13ないし16のいずれか1項に記載の楽曲要約処理プログラムにおいて、
上記削除対象を特定する手段は、互いに類似する楽曲部分を削除可能な楽曲部分として特定することを、
特徴とする楽曲要約処理プログラム。 - 請求項13ないし16のいずれか1項に記載の楽曲要約処理プログラムにおいて、
上記課題曲を要約する手段は、課題曲のどの楽曲部分とどの楽曲部分とが類似するのかをディスプレイに明示出力して、対話処理に従って、課題曲の要約のために削除すべき楽曲部分を決定することで課題曲を要約することを、
特徴とする楽曲要約処理プログラム。 - 請求項13ないし18のいずれか1項に記載の楽曲要約処理プログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002371244A JP3987427B2 (ja) | 2002-12-24 | 2002-12-24 | 楽曲要約処理方法、楽曲要約処理装置、楽曲要約処理プログラム及びそのプログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002371244A JP3987427B2 (ja) | 2002-12-24 | 2002-12-24 | 楽曲要約処理方法、楽曲要約処理装置、楽曲要約処理プログラム及びそのプログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004205575A JP2004205575A (ja) | 2004-07-22 |
JP3987427B2 true JP3987427B2 (ja) | 2007-10-10 |
Family
ID=32810173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002371244A Expired - Fee Related JP3987427B2 (ja) | 2002-12-24 | 2002-12-24 | 楽曲要約処理方法、楽曲要約処理装置、楽曲要約処理プログラム及びそのプログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3987427B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102004047069A1 (de) | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks |
DE102004047032A1 (de) * | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Bezeichnen von verschiedenen Segmentklassen |
KR100725018B1 (ko) | 2005-11-24 | 2007-06-07 | 삼성전자주식회사 | 음악 내용 자동 요약 방법 및 그 장치 |
JP4682375B2 (ja) * | 2006-03-10 | 2011-05-11 | 株式会社国際電気通信基礎技術研究所 | 簡約楽譜作成装置および簡約楽譜作成プログラム |
JP2008145564A (ja) * | 2006-12-07 | 2008-06-26 | Casio Comput Co Ltd | 自動編曲装置および自動編曲プログラム |
JP4983506B2 (ja) * | 2007-09-25 | 2012-07-25 | ヤマハ株式会社 | 楽曲加工装置およびプログラム |
JP5051539B2 (ja) * | 2008-02-05 | 2012-10-17 | 独立行政法人科学技術振興機構 | モーフィング楽曲生成装置及びモーフィング楽曲生成用プログラム |
-
2002
- 2002-12-24 JP JP2002371244A patent/JP3987427B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004205575A (ja) | 2004-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7788279B2 (en) | System and method for storing and retrieving non-text-based information | |
Stowell et al. | Detection and classification of acoustic scenes and events | |
US7925669B2 (en) | Method and apparatus for audio/video attribute and relationship storage and retrieval for efficient composition | |
US7522967B2 (en) | Audio summary based audio processing | |
JPH06110945A (ja) | 音楽データベース作成装置及びその検索装置 | |
US20060065102A1 (en) | Summarizing digital audio data | |
CN112231499A (zh) | 一种视频配乐智能系统 | |
CN104008747A (zh) | 用于检测和弦的设备和方法 | |
CN104380371A (zh) | 用于生成输入音乐数据的伴奏的装置、系统和方法 | |
JP3987427B2 (ja) | 楽曲要約処理方法、楽曲要約処理装置、楽曲要約処理プログラム及びそのプログラムを記録した記録媒体 | |
Collins | Computational Analysis of Musical Influence: A Musicological Case Study Using MIR Tools. | |
CN113178182A (zh) | 信息处理方法、装置、电子设备及存储介质 | |
Leman | Musical audio-mining | |
JP2001155467A (ja) | 編集処理装置、及び編集処理プログラムが記憶された記憶媒体 | |
JP5085577B2 (ja) | プレイリスト作成装置、楽曲再生装置、プレイリスト作成方法およびプレイリスト作成プログラム | |
Duignan | Computer mediated music production: A study of abstraction and activity | |
Kelly | Evaluation of melody similarity measures | |
JP3610017B2 (ja) | 事例に基づく編曲処理方法,事例に基づく編曲処理プログラムおよび事例に基づく編曲処理プログラムの記録媒体 | |
Eigenfeldt et al. | Towards a generative electronica: Human-informed machine transcription and analysis in maxmsp | |
JP3778270B2 (ja) | 選択履歴管理情報、選択履歴情報、情報記憶媒体、及びユーザーインターフェース補助システム | |
JP4906274B2 (ja) | メタデータ統合装置及びメタデータ統合プログラム | |
Chiba et al. | What is a'note'? Agreement and disagreement in transcriptions of Japanese folk songs | |
Peeters et al. | A Multimedia Search and Navigation Prototype, Including Music and Video-clips. | |
Maršík et al. | KaraMIR: A project for cover song identification and singing voice analysis using a karaoke songs dataset | |
Della Ventura | Analytical techniques for the identification of a musical score: The musical dna |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051005 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070622 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070710 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070712 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100720 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100720 Year of fee payment: 3 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100720 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110720 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120720 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |