JP2009244567A - メロディライン特定システムおよびプログラム - Google Patents

メロディライン特定システムおよびプログラム Download PDF

Info

Publication number
JP2009244567A
JP2009244567A JP2008090623A JP2008090623A JP2009244567A JP 2009244567 A JP2009244567 A JP 2009244567A JP 2008090623 A JP2008090623 A JP 2008090623A JP 2008090623 A JP2008090623 A JP 2008090623A JP 2009244567 A JP2009244567 A JP 2009244567A
Authority
JP
Japan
Prior art keywords
image
data
thinned
frequency component
thinning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008090623A
Other languages
English (en)
Inventor
Tomohiko Sato
友彦 佐藤
Mitsuharu Kayama
満春 佳山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2008090623A priority Critical patent/JP2009244567A/ja
Publication of JP2009244567A publication Critical patent/JP2009244567A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】対象楽曲に含まれる各種成分それぞれのメロディラインを特定できるようにすること。
【解決手段】対象楽曲における周波数成分それぞれとその強度との分布を時間軸に沿ってプロットしてなる分布画像を、二値化,細線化,グループ化といった画像処理的手法で解析することにより、それぞれ対象楽曲における所定メロディの推移をメロディラインとして表してなるメロディデータを生成する(s130〜s190)。このメロディデータで表されるメロディラインは、時間軸に沿って推移する周波数成分をその成分の種類に拘わらずグループ化したものであるため、対象楽曲に含まれるメインとなる音声成分(ヴォーカルなど),サブ的な音声成分(コーラスなど),音声成分以外の成分などといった成分の種類に拘わらず、それぞれの成分におけるメロディラインを容易に特定することができるようになる。
【選択図】図2

Description

本発明は、所定の対象楽曲における時間軸に沿ったメロディの推移であるメロディラインを特定できるようにするためのメロディライン特定システムに関する。
近年、対象楽曲から特定の音成分の時間軸に沿った軌跡を推定する技術が提案されている。それは、対象楽曲において優勢な音高の時間軸に沿った軌跡をマルチエージェントモデルにおけるエージェントそれぞれにより追跡し、それらにおいて最も信頼度の高いエージェントが持つ優勢な基本周波数の推移を、特定の音成分(音源)の時間軸に沿ったメロディライン(軌跡)として特定する、といった技術(以下「音高推定技術」という)である(特許文献1参照)。
特許第3413634号公報
ところで、対象楽曲に音声が含まれている場合には、その対象楽曲の成分の中で音声成分が最も優勢に推移することが一般的であることから、上述した音高推定技術では、その対象楽曲における音声成分のメロディラインを特定することができる。
ただ、対象楽曲には、メインとなる音声成分(ヴォーカルなど)だけでなく、サブ的な音声成分(コーラスなど)や音声成分以外の成分も含まれているため、これら成分におけるメロディラインについても個別に特定できるようにすることが望ましい。
本発明は、このような課題を解決するためになされたものであり、その目的は、対象楽曲に含まれる各種成分それぞれのメロディラインを特定できるようにするための技術を提供することである。
上記課題を解決するためには、所定の対象楽曲における時間軸に沿ったメロディの推移であるメロディラインを特定するためのメロディライン特定システムを、以下に示す第1の構成(請求項1)のようにするとよい。
この構成においては、前記対象楽曲における周波数成分それぞれとその強度との分布を、横軸に時間をとり、縦軸に周波数をとって、該周波数それぞれに対応する周波数成分をその強度に応じた大きさで分布させてなるグラフにつき、該グラフを示す分布データを、前記対象楽曲に基づいて生成する分布生成手段と、該分布生成手段により生成された分布データに基づいて、該分布データで示されるグラフを画像化してなる分布画像を所定のしきい値で二値化してなる画像であって、そのしきい値以上の強度を有する周波数成分のみが分布されてなる二値化画像を特定可能な二値化データを生成する二値化手段と、該二値化手段により生成された二値化データに基づいて、該二値化データで特定される二値化画像において縦軸方向に連続する周波数成分を単一の周波数成分のみとしてなる画像であって、その横軸に沿った周波数成分の推移が細線化されてなる細線化画像を特定可能な細線化データを生成する細線化手段と、該細線化手段により生成された細線化データに基づいて、それぞれ該細線化データで特定される細線化画像の横軸に沿って連続する周波数成分で形成されるオブジェクトそれぞれを、該オブジェクトの端部において隣接するオブジェクト同士を同一グループに属するものとしてグループ化することにより、同一グループのオブジェクトが、それぞれ前記対象楽曲における所定メロディの推移を示すメロディライ
ンであることを示すメロディデータを生成するグループ化手段と、を備えている。
この構成では、対象楽曲における周波数成分それぞれとその強度との分布を時間軸に沿ってプロットしてなる分布画像を、二値化,細線化,グループ化といった画像処理的手法で解析することにより、それぞれ対象楽曲における所定メロディの推移をメロディラインとして表してなるメロディデータを生成する。
このメロディデータで示されるメロディラインは、時間軸に沿って推移する周波数成分をその成分の種類に拘わらずグループ化したものであるため、対象楽曲に含まれるメインとなる音声成分(ヴォーカルなど),サブ的な音声成分(コーラスなど),音声成分以外の成分などといった成分の種類に拘わらず、それぞれの成分におけるメロディラインを容易に特定することができるようになる。
さらに、こうして特定したメロディラインに沿った周波数成分を対象楽曲における成分から抽出すれば、そのメロディラインに係る成分を適切に抽出することができ、また、そのメロディラインに沿った周波数成分を対象楽曲における成分から除去すれば、そのメロディラインに係る成分が除去された楽曲を生成することができる。
なお、この構成において、「分布データ」とは、グラフにおける分布を特定可能なデータであればよく、例えば、そのグラフにおける周波数成分の分布をその強度に応じた明度の画像として示した画像データや、そのグラフにおける分布をパラメータとして登録したデータテーブルなどとすればよい。
また、この分布データで示されるグラフとは、例えば、対象楽曲の時間軸に沿った位置それぞれにおいて、そこで分布している周波数成分およびその強度を解析し、そうして解析された強度(分布画像における明度)により各周波数成分を順次プロットしてなるものとすればよい。
また、上述した音高推定技術を利用し、対象楽曲から優勢な(最も強度が大きい)基本周波数の軌跡(時間軸に沿った遷移状態;以下同様)を推定すると共に、その推定の過程において算出される基本周波数の候補となるパラメータθの集合に基づいて高調波の軌跡を推定し(特許文献1の段落0022〜0029参照)、こうして推定された軌跡に沿った成分を、その強度により順次プロットしてなるものとしてもよい。
また、上記構成において、「メロディデータ」とは、同一グループのオブジェクトがメロディラインであることを示すデータであればよく、例えば、メロディラインを画像として表した画像データや、メロディラインの推移をパラメータとして登録したデータテーブルなどとすればよい。
また、このメロディデータを生成する際のグループ化とは、例えば、オブジェクト群における1以上のオブジェクトそれぞれが時間軸に沿って接続された一体のオブジェクトとなるようにグループ化することが考えられる。また、メロディの推移を表す画像データとしてメロディデータを生成した場合であれば、オブジェクト群における1以上のオブジェクトそれぞれが、同一グループであることを示す色(同一の色)で着色された画像としたり、同一グループであることをあらわす表示が付された画像としたり、といったことによりこれらをグループ化することも考えられる。
また、上記構成において、「二値化データ」とは、二値化画像を特定可能なデータであればよく、例えば、二値化画像そのものを示したデータや、二値化された分布画像で示される周波数成分の分布をパラメータとして登録したデータテーブルなどとすればよい。
この二値化画像は、例えば、単純に分布画像をしきい値で二値化してなるものであってもよいが、分布画像においてしきい値以上の強度となっている周波数成分のうち、より強度の高い周波数成分が優先的に残るような二値化が実施されたものとしてもよい。
このためには、上記構成を以下に示すようにした第2の構成(請求項2)のようにするとよい。
この構成において、前記二値化手段は、前記二値化画像として次のような画像を特定可能な二値化データを生成する。
[二値化画像] 前記分布画像において分布する周波数成分のうち、前記しきい値以下の強度となっている周波数成分を除去した後、横軸に沿った単位時間毎に、縦軸に沿って連続する複数の周波数成分で形成される画像領域それぞれを処理対象領域として規定し、該処理対象領域それぞれについて、該処理対象領域内における最大の強度に対する一定割合未満の強度となっている周波数成分が除去されるように二値化を実施してなる画像
この構成であれば、単にしきい値以上の強度となっているだけでなく、処理対象領域内における最大の強度に対する割合として定めた値に応じて、より大きな強度の周波数成分が優先的に残るような二値化画像を特定可能な二値化データを生成することができる。
これにより、処理対象領域内から強度が充分に高くない周波数成分,具体的にいえばノイズと推定できるような強度の小さい周波数成分が除去されてなる二値化画像を示す二値化データを生成することができる。
なお、この構成における「処理対象領域内における最大の強度に対する割合」としては、上記のようにノイズと推定できるような成分を除去できる程度の充分に高い値(例えば、90〜99%など)を設定しておけばよい。
また、上記各構成において、「細線化データ」とは、細線化画像を特定可能なデータであればよく、例えば、細線化画像そのものを示した画像データや、細線化された二値化画像で示される周波数成分の分布を登録したデータテーブルなどとすればよい。
また、この細線化画像は、単純に縦軸方向に連続する周波数成分が単一の周波数成分のみとなる(換言すれば単一の周波数成分のみが残る)ような周知の細線化を実施したものとすればよいが、二値化データを生成する前の分布画像における強度を考慮して細線化を実施したものとしてもよい。
このためには、例えば、上記各構成を以下に示すようにした第3の構成(請求項3)のようにすることが考えられる。
この構成において、前記細線化手段は、前記細線化画像として次のような画像を特定可能な細線化データを生成する。
[細線化画像] 前記二値化画像における横軸に沿った単位時間毎に、縦軸に沿って連続する周波数成分で形成される画像領域をそれぞれ処理対象領域として規定し、該処理対象領域それぞれについて、前記分布画像における同一領域内で最も強度が高い周波数成分に対応する周波数成分以外の周波数成分を除去するように細線化を実施してなる画像
この構成では、細線化画像を、二値化画像における処理対象領域に対し、分布画像における同一領域内で最も強度が高かった周波数成分が残るような細線化を実施してなる画像とすることにより、この細線化画像を、二値化画像を生成する前の分布画像における強度
を考慮したものとすることができる。
また、上記各構成において細線化データを生成するに際しては、時間方向に沿った周波数成分の連続性を考慮した細線化を実施した細線化画像を示すものとすることが望ましく、このためには、例えば、上記各構成を以下に示すようにした第4の構成(請求項4)のようにすることが考えられる。
この構成において、前記細線化手段は、前記細線化画像として次のような画像を特定可能な細線化データを生成する。
[細線化画像] 前記二値化画像における横軸に沿った単位時間毎に、縦軸に沿って連続する周波数成分で形成される画像領域をそれぞれ処理対象領域として規定し、該処理対象領域それぞれについて、該処理対象領域に対して時間軸上で隣接する別の周波数成分と最も近接している周波数成分以外の周波数成分を除去するように細線化を実施してなる画像
この構成であれば、細線化画像を、特定の時間において縦軸に沿って連続する周波数成分のうち、時間軸上で隣接する別の周波数成分と最も近接している周波数成分が残るような細線化を実施してなるものとすることができる。
また、この構成においては、時間軸上で隣接する別の周波数成分であれば、時間軸上前後のいずれであっても、それに隣接している周波数成分が残るような細線化が実施されてなる細線化画像とすればよい。ただ、時間軸に沿って成分が推移する対象楽曲は、各周波数成分が時間経過に伴ってどの周波数成分から推移してきたかよりも、時間経過に伴ってどの周波数成分へと推移するかが重要といえるため、この点を考慮して上記第4の構成を以下に示す第5の構成(請求項5)のようにするとよい。
この構成において、前記細線化手段は、前記細線化画像として次のような画像を特定可能な細線化データを生成する。
[細線化画像] 前記処理対象領域それぞれについて、該処理対象領域に対して時間軸上“後”において隣接する別の周波数成分と最も近接している周波数成分以外の成分を除去するように細線化を実施してなる画像
この構成であれば、細線化画像を、特定の時間において縦軸に沿って連続する周波数成分のうち、時間軸上“後”において隣接する別の周波数成分と最も近接している周波数成分が残るような細線化を実施してなるものとすることができる。
ところで、上述した二値化データおよび細線化データの生成については、適切なしきい値に基づいて1回のみ実施されたものとすればよいが、そのしきい値を変更しつつ繰り返し実施されたものとしてもよい。
このための構成としては、例えば、上記各構成を以下に示す第6の構成(請求項6)のようにすることが考えられる。
この構成においては、前記二値化手段による二値化画像の生成に際して用いられるしきい値を順に小さく変更しながら、該二値化手段による二値化データの生成,および,前記細線化手段による細線化データの生成を、その変更させるべきしきい値の数だけ繰り返し実施させる繰り返し手段,を備えている。そして、前記細線化手段は、前記細線化画像として以下に示す画像を特定可能な細線化データを生成して、前記グループ化手段は、前記繰り返し手段による繰り返しの実施が終了した時点で、前記細線化手段により生成された細線化データで特定される細線化画像に基づいて前記オブジェクトのグループ化を実施する。
[細線化画像] 前記二値化データで特定される二値化画像において縦軸方向に連続する周波数成分を、先に生成した前記細線化データで特定される細線化画像において細線化された周波数成分が優先的に残るように細線化してなる画像
この構成であれば、二値化に際してのしきい値が順に小さく変更されながら、そのしきい値による二値化データの生成および細線化データの生成が繰り返し実施され、その繰り返しが全てのしきい値に対して実施された後、その実施が終了した時点における細線化データで特定される細線化画像に基づいてオブジェクトのグループ化を実施することができる。
二値化に際してのしきい値が大きい場合には、分布画像において強度が高い周波数成分のみが二値化画像において残ることとなるが、このような周波数成分は、そのしきい値未満のしきい値で分布画像を二値化した場合でも当然その二値化画像において残るはずである。
そして、そのような周波数成分は、後に実施する二値化で初めて残るようになる周波数成分よりも周波数成分としての強度が高いことから、後に実施する二値化で初めて残るようになる周波数成分と同等に取り扱ってしまうと、二値化画像における縦軸に沿って連続する周波数成分のうち、強度が低い周波数成分のみが残るような細線化が実施されてしまう可能性がある。このような強度の低い周波数成分は、実際のメロディラインから外れた周波数成分である可能性が相対的に高くなるため、細線化に際して必ずしも優先的に残すべきものとはいえない。
これに関し、上記構成では、そのような二値化画像において縦軸方向に連続する周波数成分のうち、先に生成した細線化画像において残されているのと同一の周波数成分が優先的に残る(つまり細線化の結果に拘らずその周波数成分が残される)ような細線化が実施された細線化画像となるため、強度が低くて実際のメロディラインから外れた周波数成分が残ることを効果的に防止することができる。
また、上記各構成においては、二値化データを生成するに際し、分布データで示されるグラフの画像をそのまま用いて二値化を実施したものとすればよいが、最終的に特定すべきメロディの種類が決まっている場合には、分布画像の画像領域のうち、そのメロディにおいて推移しうる周波数成分に対応する領域のみが残るように二値化を実施したものとすれば充分である。
このためには、例えば、上記各構成を以下に示すようにした第7の構成(請求項7)のようにすることが考えられる。
この構成においては、前記分布生成手段により生成された分布データで示されるグラフを画像化した分布画像が、以下に示すような画像となるように前記分布データを修正する画像修正手段,を備えている。そして、前記二値化手段は、前記画像修正手段により修正された分布データに基づいて前記二値化データを生成する。
[画像修正手段による修正後の分布画像] 前記分布画像のうち、前記対象楽曲における特定メロディが推移しうる周波数成分以外の周波数成分に対応する画像領域の周波数成分の強度が、一定以下に小さくされてなる画像
この構成では、分布画像のうち、対象楽曲において特定のメロディが推移しうる周波数成分以外の周波数成分(該当周波数成分)に対応する画像領域の強度(明度)を小さくしておくことができるため、その強度を二値化のしきい値より小さく設定しておけば、その後の二値化画像に該当周波数成分が残らないようにすることができる。
これにより、分布画像の画像領域のうち、そのメロディにおいて推移しうる周波数成分に対応する領域のみに基づく二値化データの生成が実施されるため、分布画像の画像領域全体で二値化データを生成する場合と比べて処理対象となる画像領域が少なくなる結果、効率よく二値化データを生成することができる。
また、上記課題を解決するためには、上記第1〜第7のいずれかの構成におけるメロディライン特定システムの備える全ての手段としてコンピュータシステムを機能させるためのプログラム(請求項8)としてもよい。
このプログラムにより制御されるコンピュータシステムであれば、上記第1〜第8のいずれかの構成におけるメロディライン特定システムと同様の作用,効果を得ることができる。
なお、上述したプログラムは、コンピュータシステムによる処理に適した命令の順番付けられた列からなるものであって、各種記録媒体や通信回線を介してメロディライン特定システムや、これを利用するユーザに提供されるものである。
以下に本発明の実施形態を図面と共に説明する。
(1)ハードウェア構成
メロディライン特定システム1は、図1に示すように、システム全体を制御する制御部11,各種情報を記憶する記憶部13,ネットワーク2を介した通信を制御する通信部15,キーボードやディスプレイなどからなるユーザインタフェース(U/I)部17,記録メディアを介して情報を入出力するメディアドライブ19などを備えた周知のコンピュータシステムである。
このメロディライン特定システム1は、ユーザインタフェース部17または通信部15を介して外部から所定の指令を受けた際、制御部11が記憶部13に記憶されたプログラムに従って各種処理を実行することによって、本発明のピッチシフトシステムとしての機能を発揮する。
なお、本実施形態では、メロディライン特定システム1が単体のコンピュータシステムにより構成されているが、それぞれ協調して動作する複数のコンピュータシステムにより構成できることはいうまでもない。
(2)制御部11によるメロディデータ応答処理
以下に、制御部11が記憶部13に記憶されたプログラムに従って実行するメロディデータ応答処理の処理手順を、図2に基づいて説明する。このメロディデータ応答処理は、ユーザインタフェース部17を介して規定の操作が行われた,または,通信部15を介してネットワーク2からの指令を受けた際に起動される。
このメロディデータ応答処理が起動されると、まず、所定の楽曲(以降「対象楽曲」という)を再生するための楽曲データが取得される(s110)。ここでは、ユーザインタフェース部17への操作を介して指定された楽曲データが記憶部13やメディアドライブ19(つまり記録メディア)から取得される、または、通信部15を介して指令と共に受信された楽曲データが取得される。
次に、上記s110にて取得された楽曲データで示される対象楽曲に基づいて、この対象楽曲における周波数成分それぞれの強度に応じた分布を時間軸に沿ってプロットしたグラフを示す分布データが生成される(s120)。ここでは、対象楽曲における周波数成
分それぞれとその強度との分布を時間軸に沿ってプロットしたグラフであり、その横軸に時間をとり、縦軸に周波数をとって、該周波数それぞれに対応する周波数成分をその強度に応じた大きさで分布させてなるグラフを示すデータが生成される。
具体的には、対象楽曲の時間軸に沿った位置それぞれにおいて、そこで分布している周波数成分およびその強度を解析し、そうして解析された強度により各周波数成分を順次プロットする、といった手順により生成される。
なお、ここでは、上述した音高推定技術を利用し、対象楽曲から優勢な(最も強度が大きい)基本周波数の軌跡(時間軸に沿った遷移状態;以下同様)を推定すると共に、その推定の過程において算出される基本周波数の候補となるパラメータθの集合に基づいて高調波の軌跡を推定し(特許文献1の段落0022〜0029参照)、こうして推定された軌跡に沿った成分を、その強度により順次プロットする、といった手順により生成することとしてもよい。 次に、上記s120にて生成された分布データで示されるグラフを画像化してなる分布画像が、所望するメロディが推移しうる周波数帯域以外の周波数成分に対応する画像領域の強度を一定以下に小さくしてなる画像となるように、分布データが修正される(s130)。
ここで「所望するメロディ」が対象楽曲に含まれる音声のメロディである場合を例示すると、その音声における周波数帯域(例えば、数十Hz〜1kHz程度)外にある周波数成分に対応する画像領域が、その強度(画素としての明度)が一定以下に小さくなるように(本実施形態では明度「0」となるように)分布データが修正される(図3(b)参照)。
次に、あらかじめ用意された複数のしきい値のうち、以降の処理で使用される対象しきい値として第i番目のしきい値が選択される(s140)。ここでいう「第i番目」とは、このs140が行われた回数に応じた番数となるものであり、このs140が本メロディガイドライン表示処理の起動後最初に行われる場合であれば、「第1番目」となり、それ以降、このs140が行われる毎にインクリメントされた番数(第2番目,第3番目,…,第n番目)となる。
また、上述の「しきい値」とは、以降の処理でノイズ成分とみなして除去すべき成分(画素)の最大強度を示すものであり、本実施形態では、分布画像の強度範囲(最大から最小の範囲)に対する割合で規定され、その割合の高い順に若い番数が割り当てられている。なお、この「しきい値」は、分布画像の強度範囲に対する割合で規定する以外に、除去すべき成分の最大強度そのもので規定してもよい。
次に、上記s130で修正された分布データで示されるグラフを画像化してなる分布画像が、その強度(つまり明度)が対象しきい値未満となっている周波数成分(画素)の強度を「0%」にして対象しきい値未満となっている成分(ノイズ成分)が除去されてなる画像となるように、分布データが修正される(s150)。こうして、ノイズ成分が除去されてなる分布画像として、複数の対象しきい値(60%,45%,30%)それぞれを使用した場合におけるものを図4(a)〜(c)に示す。
次に、上記s150で修正された分布データに基づいて、この分布データで示されるグラフを画像化してなる分布画像を二値化してなる二値化画像を特定可能な二値化データが生成される(s160)。
ここでは、まず、分布画像における横軸に沿った単位時間毎に、縦軸に沿って連続するそれぞれ強度「0%」より大きな複数の周波数成分で形成される画像領域それぞれが処理
対象領域として規定される(図5(a)参照)。そして、こうして規定した処理対象領域それぞれについて、その処理対象領域内における最大の強度に対する一定割合(本実施形態では98%)未満の強度となっている周波数成分を除去するように二値化が実施される(図5(b)参照)。こうして、対象しきい値に対する一定割合以上の強度を有する周波数成分のみが分布された二値化画像を示す二値化データが生成される。
なお、本実施形態においては、上記s150,s160により段階的に二値化が実施されるように構成されているが、これら処理の代わりに、対象しきい値未満となっている周波数成分の強度を「0%」とし、それ以外の周波数成分の強度を「100%」とする周知の二値化を実施することとしてもよい。
次に、上記s160で生成された二値化データに基づいて、この二値化データで示される二値化画像を細線化してなる細線化画像を示す細線化データが実施される(s170)。ここでは、二値化画像において縦軸方向に連続する複数の周波数成分が単一の周波数成分のみとされる(換言すれば単一の周波数成分のみが残される)ことにより、横軸に沿った周波数成分の推移を細線化してなる細線化画像が生成され、この細線化画像を示す細線化データが生成される。
より具体的には、まず、二値化画像における横軸に沿った単位時間毎に、縦軸に沿って連続する複数の成分画素で形成される画像領域がそれぞれ処理対象領域として規定される。続いて、この処理対象領域それぞれについて、その領域における周波数成分のうち、直前に実施されたs170にて生成した細線化画像の同一領域において細線化された周波数成分と同じ周波数成分が優先的に残る(つまり細線化の結果に拘らずその周波数成分が残される)ように細線化される。そして、この細線化後において周波数成分が縦軸に沿って連続している処理対象領域それぞれについて、上記s120で生成された分布画像における同一領域内で最も強度が高い周波数成分に対応する周波数成分を除いた周波数成分が除去される(画素としての明度が「0%」とされる)。こうして、横軸に沿った周波数成分の推移を細線化して表した細線化画像が生成される(図5(c)参照)。
なお、ここでは、細線化の実施後において周波数成分が縦軸に沿って連続している処理対象領域それぞれについて、分布画像における同一領域内で最も強度が高い周波数成分と同じ周波数成分を除いた周波数成分を除去しているが、例えば、処理対象領域に対して時間軸上(特に時間軸上“後”)で隣接する別の周波数成分と最も近接している周波数成分以外の周波数成分が除去されることとしてもよい。
次に、あらかじめ用意された複数のしきい値のうち、上述した処理で対象しきい値として使用されていない未使用しきい値が残っているか否かがチェックされ(s180)、未使用しきい値が残っていると判定された場合には(s180:YES)、プロセスがs140へ戻り、以降、未使用しきい値全てについて上記s140〜s180が実施される。
なお、本実施形態では、このように複数のしきい値を選択的に使用して繰り返し二値化データの生成および細線化データの生成を実施するように構成されているが、これらについては、適切なしきい値に基づいて1回のみ実施することとしてもよい。つまり、上記s180を行うことなく、直ちにプロセスが次の処理(s190)へと移行するようにしてもよい。
その後、上記s180で未使用しきい値が残っていないと判定された場合には(s180:NO)、直前に実施されたs170にて生成された細線化データに基づいて、この細線化データで示される細線化画像(図6参照)の横軸に沿って連続する周波数成分で形成された1以上のオブジェクトについてのグループ化が実施される(s190)。
ここでは、それぞれ細線化画像の横軸に沿って連続する周波数成分で形成されるオブジェクトそれぞれが、そのオブジェクトの端部において隣接するオブジェクト同士を同一グループに属するものとしてグループ化される。具体的には、例えば、隣接するオブジェクトそれぞれが時間軸に沿って接続された一体のオブジェクトとなるようにする。また、メロディの推移を表す画像データとしてメロディデータを生成した場合であれば、オブジェクト群における1以上のオブジェクトを同一のグループであることを示す色(同一の色)で着色された画像とする、同一グループであることを示す表示を付す、ようにしてもよい。そして、こうして各オブジェクトがグループ化されてなるメロディ画像を示すメロディデータが生成される。
そして、上記s190にて生成されたメロディデータが、本メロディデータ応答処理の起動の契機となった指令に対する応答として返される(s200)。ここでは、ユーザインタフェース部17への操作を介して指定された記憶領域(記憶部13や記録メディア内の記憶領域)に対してメロディデータが記憶されたり、そのメロディデータがユーザインタフェース部17の表示部に表示されたり、通信部15を介して楽曲データを送信してきた送信元に対して画像データが返信されたりすることで、画像データが応答として返される。
なお、上述した各処理では、分布データ,二値化データ,細線化データおよびメロディデータが、それぞれ画像データとして生成されるように構成される場合を例示したが、これらデータは、それぞれグラフ,二値化画像,細線化画像,メロディ画像における周波数成分の分布をパラメータとして登録したデータテーブルなどとして生成されるものとしてもよい。
(3)作用,効果
このように構成された実施形態では、対象楽曲における周波数成分それぞれとその強度との分布を時間軸に沿ってプロットしてなる分布画像を(図3(a))、二値化,細線化,グループ化といった画像処理的手法で解析することにより、それぞれ対象楽曲における所定メロディの推移をメロディラインとして表してなるメロディデータを生成する(図2のs130〜s190)。
このメロディデータに表されたメロディラインは、時間軸に沿って推移する周波数成分をその成分の種類に拘わらずグループ化したものであるため、対象楽曲に含まれるメインとなる音声成分(ヴォーカルなど),サブ的な音声成分(コーラスなど),音声成分以外の成分などといった成分の種類に拘わらず、それぞれの成分におけるメロディラインを容易に特定することができるようになる。
さらに、こうして特定したメロディラインに沿った周波数成分を対象楽曲における成分から抽出すれば、そのメロディラインに係る成分を適切に抽出することができ、また、そのメロディラインに沿った周波数成分を対象楽曲における成分から除去すれば、そのメロディラインに係る成分が除去された楽曲を生成することができる。
また、上記実施形態では、分布画像において単にしきい値以上の強度となっているだけでなく、処理対象領域内における最大の強度に対する割合として定めた値に応じて、より高い強度の周波数成分が優先的に残るような二値化画像としている(図2のs150,s160,図5(a),(b)参照)。これにより、処理対象領域内から強度が充分に高くない周波数成分,具体的にいえばノイズと推定できるような強度の小さい周波数成分を除去したうえで、二値化画像を示す二値化データを生成することができる。
また、上記実施形態では、二値化画像における処理対象領域に対し、分布画像における
同一領域内で最も強度が高い周波数成分が残るような細線化を実施することにより(図2のs170)、二値化画像を生成する前の画像である分布画像における強度が考慮された細線化画像を示す細線化データを生成することができる(図5(c)参照)。
また、上記実施形態では、特定の時間において縦軸に沿って連続する周波数成分のうち、時間軸上で隣接する別の周波数成分と最も近接している周波数成分が残るような細線化を実施したものとすることもできる(図2のs170)。
ここで、時間軸上“後”において隣接する別の周波数成分と最も近接している周波数成分が残るような細線化を実施するようにすれば、時間軸に沿って成分が推移するという対象楽曲の性質を考慮した細線化を実施したものとすることができるようになる。
また、上記実施形態においては、二値化に際してのしきい値が順に小さく変更されながら、そのしきい値による二値化データの生成および細線化データの生成が繰り返し実施され(図2のs140〜s180)、その繰り返しが全てのしきい値に対して実施された後(同図s180「NO」)、その実施が終了した時点における細線化データで示される細線化画像に基づいてオブジェクトのグループ化を実施することができる(同図s190)。
二値化に際してのしきい値が大きい場合には、分布画像において強度が高い周波数成分のみが二値化画像において残ることとなるが、このような周波数成分は、そのしきい値未満のしきい値で分布画像を二値化した場合でも当然その二値化画像において残るはずである(図7参照)。
そして、そのような周波数成分は、後に実施する二値化で初めて残るようになる周波数成分よりも強度が高いことから、後に実施する二値化で初めて残るようになる周波数成分と同等に取り扱ってしまうと、二値化画像における縦軸に沿って連続する周波数成分のうち、強度が低い周波数成分のみが残るような細線化が実施されてしまう可能性がある。このような強度の低い周波数成分は、実際のメロディラインから外れた周波数成分である可能性が相対的に高くなるため、細線化に際して必ずしも優先的に残すべきものとはいえない。
このような問題に対し、上記実施形態では、そのような二値化画像において縦軸方向に連続する周波数成分のうち、先に生成した細線化画像において残されているのと同一の周波数成分が優先的に残るような細線化を実施することにより、強度が低くて実際のメロディラインから外れた周波数成分が残ることを効果的に防止できるようにしている。
また、上記実施形態においては、分布画像のうち、所望するメロディが推移しうる周波数帯域以外の周波数成分に対応する画像領域の強度を低く修正したうえで、二値化および細線化を実施している(図2のs130)。
このように、対象楽曲において所望するメロディが推移しうる周波数成分以外の周波数成分(該当周波数成分)に対応する画像領域の強度を低くしておくことにより、その後の二値化画像に該当周波数成分が残らないようにすることができる。これにより、分布画像の画像領域のうち、そのメロディにおいて推移しうる周波数成分に対応する領域のみが残るように効率よく二値化を実施することができるようになる。
(4)本発明との対応関係
以上説明した実施形態において、図2のs120が本発明における分布生成手段であり、同図s160が本発明における二値化手段であり、同図s170が本発明における細線化手段であり、同図s190が本発明におけるグループ化手段であり、同図s140,s
180が本発明における繰り返し手段であり、同図s130が本発明における画像修正手段である。
メロディライン特定システムのハードウェア構成を示す図 メロディデータ応答処理を示すフローチャート 分布画像を示す図 ノイズ成分が除去されてなる分布画像を示す図 分布画像,二値化画像,細線化画像それぞれの同一領域を示す図 細線化画像を示す図 それぞれ異なるしきい値に基づいて生成された二値化画像を示す図
符号の説明
1…メロディライン特定システム、2…ネットワーク、11…制御部、13…記憶部、15…通信部、17…ユーザインタフェース部、19…メディアドライブ。

Claims (8)

  1. 所定の対象楽曲における時間軸に沿ったメロディの推移であるメロディラインを特定するためのメロディライン特定システムであって、
    前記対象楽曲における周波数成分それぞれとその強度との分布を時間軸に沿ってプロットしたグラフであり、その横軸に時間をとり、縦軸に周波数をとって、該周波数それぞれに対応する周波数成分をその強度に応じた大きさで分布させてなるグラフにつき、該グラフを示す分布データを、前記対象楽曲に基づいて生成する分布生成手段と、
    該分布生成手段により生成された分布データに基づいて、該分布データで示されるグラフを画像化してなる分布画像を所定のしきい値で二値化してなる画像であって、そのしきい値以上の強度を有する周波数成分のみが分布されてなる二値化画像を特定可能な二値化データを生成する二値化手段と、
    該二値化手段により生成された二値化データに基づいて、該二値化データで特定される二値化画像において縦軸方向に連続する周波数成分を単一の周波数成分のみとしてなる画像であって、その横軸に沿った周波数成分の推移が細線化されてなる細線化画像を特定可能な細線化データを生成する細線化手段と、
    該細線化手段により生成された細線化データに基づいて、それぞれ該細線化データで特定される細線化画像の横軸に沿って連続する周波数成分で形成されるオブジェクトそれぞれを、該オブジェクトの端部において隣接するオブジェクト同士を同一グループに属するものとしてグループ化することにより、同一グループのオブジェクトが、それぞれ前記対象楽曲における所定メロディの推移を表したメロディラインであることを示すメロディデータを生成するグループ化手段と、
    を備えていることを特徴とするメロディライン特定システム。
  2. 前記二値化手段は、前記二値化画像として次のような画像を特定可能な二値化データを生成する
    ことを特徴とする請求項1に記載のメロディライン特定システム。
    [二値化画像] 前記分布画像において分布する周波数成分のうち、前記しきい値以下の強度となっている周波数成分を除去した後、横軸に沿った単位時間毎に、縦軸に沿って連続する複数の周波数成分で形成される画像領域それぞれを処理対象領域として規定し、該処理対象領域それぞれについて、該処理対象領域内における最大の強度に対する一定割合未満の強度となっている周波数成分が除去されるように二値化を実施してなる画像
  3. 前記細線化手段は、前記細線化画像として次のような画像を特定可能な細線化データを生成する
    ことを特徴とする請求項1または2に記載のメロディライン特定システム。
    [細線化画像] 前記二値化画像における横軸に沿った単位時間毎に、縦軸に沿って連続する周波数成分で形成される画像領域をそれぞれ処理対象領域として規定し、該処理対象領域それぞれについて、前記分布画像における同一領域内で最も強度が高い周波数成分に対応する周波数成分以外の周波数成分を除去するように細線化を実施してなる画像
  4. 前記細線化手段は、前記細線化画像として次のような画像を特定可能な細線化データを生成する
    ことを特徴とする請求項1または2に記載のメロディライン特定システム。
    [細線化画像] 前記二値化画像における横軸に沿った単位時間毎に、縦軸に沿って連続する周波数成分で形成される画像領域をそれぞれ処理対象領域として規定し、該処理対象領域それぞれについて、該処理対象領域に対して時間軸上で隣接する別の周波数成分と最も近接している周波数成分以外の周波数成分を除去するように細線化を実施してなる画像
  5. 前記細線化手段は、前記細線化画像として次のような画像を特定可能な細線化データを
    生成する
    ことを特徴とする請求項4に記載のメロディライン特定システム。
    [細線化画像] 前記処理対象領域それぞれについて、該処理対象領域に対して時間軸上“後”において隣接する別の周波数成分と最も近接している周波数成分以外の成分を除去するように細線化を実施してなる画像
  6. 前記二値化手段による二値化画像の生成に際して用いられるしきい値を順に小さく変更しながら、該二値化手段による二値化データの生成,および,前記細線化手段による細線化データの生成を、その変更させるべきしきい値の数だけ繰り返し実施させる繰り返し手段,を備えており、
    前記細線化手段は、前記細線化画像として以下に示す画像を特定可能な細線化データを生成して、
    前記グループ化手段は、前記繰り返し手段による繰り返しの実施が終了した時点で、前記細線化手段により生成された細線化データで特定される細線化画像に基づいて前記オブジェクトのグループ化を実施する
    ことを特徴とする請求項1から5のいずれかに記載のメロディライン特定システム。
    [細線化画像] 前記二値化データで特定される二値化画像において縦軸方向に連続する周波数成分を、先に生成した前記細線化データで特定される細線化画像において細線化された周波数成分が優先的に残るように細線化してなる画像
  7. 前記分布生成手段により生成された分布データで示されるグラフを画像化した分布画像が、以下に示すような画像となるように前記分布データを修正する画像修正手段,を備えており、
    前記二値化手段は、前記画像修正手段により修正された分布データに基づいて前記二値化データを生成する
    ことを特徴とする請求項1から6のいずれかに記載のメロディライン特定システム。
    [画像修正手段による修正後の分布画像] 前記分布画像のうち、前記対象楽曲における特定メロディが推移しうる周波数成分以外の周波数成分に対応する画像領域の周波数成分の強度が、一定以下に小さくされてなる画像
  8. 請求項1から7のいずれかに記載の全ての手段として機能させるための各種処理手順をコンピュータシステムに実行させるためのプログラム。
JP2008090623A 2008-03-31 2008-03-31 メロディライン特定システムおよびプログラム Pending JP2009244567A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008090623A JP2009244567A (ja) 2008-03-31 2008-03-31 メロディライン特定システムおよびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008090623A JP2009244567A (ja) 2008-03-31 2008-03-31 メロディライン特定システムおよびプログラム

Publications (1)

Publication Number Publication Date
JP2009244567A true JP2009244567A (ja) 2009-10-22

Family

ID=41306528

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008090623A Pending JP2009244567A (ja) 2008-03-31 2008-03-31 メロディライン特定システムおよびプログラム

Country Status (1)

Country Link
JP (1) JP2009244567A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120124638A1 (en) * 2010-11-12 2012-05-17 Google Inc. Syndication including melody recognition and opt out
US20120123831A1 (en) * 2010-11-12 2012-05-17 Google Inc. Media rights management using melody identification
US8908881B2 (en) 2010-09-30 2014-12-09 Roland Corporation Sound signal processing device

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05233810A (ja) * 1992-02-24 1993-09-10 Nippon Telegr & Teleph Corp <Ntt> 領域抽出方法
JPH09265540A (ja) * 1996-03-29 1997-10-07 Oji Paper Co Ltd 画像処理装置および方法
WO2006039992A1 (de) * 2004-10-11 2006-04-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Extraktion einer einem audiosignal zu grunde liegenden melodie

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05233810A (ja) * 1992-02-24 1993-09-10 Nippon Telegr & Teleph Corp <Ntt> 領域抽出方法
JPH09265540A (ja) * 1996-03-29 1997-10-07 Oji Paper Co Ltd 画像処理装置および方法
WO2006039992A1 (de) * 2004-10-11 2006-04-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Extraktion einer einem audiosignal zu grunde liegenden melodie

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8908881B2 (en) 2010-09-30 2014-12-09 Roland Corporation Sound signal processing device
US20120124638A1 (en) * 2010-11-12 2012-05-17 Google Inc. Syndication including melody recognition and opt out
US20120123831A1 (en) * 2010-11-12 2012-05-17 Google Inc. Media rights management using melody identification
US8584197B2 (en) * 2010-11-12 2013-11-12 Google Inc. Media rights management using melody identification
US8584198B2 (en) * 2010-11-12 2013-11-12 Google Inc. Syndication including melody recognition and opt out
US9129094B2 (en) 2010-11-12 2015-09-08 Google Inc. Syndication including melody recognition and opt out
US9142000B2 (en) 2010-11-12 2015-09-22 Google Inc. Media rights management using melody identification
US9396312B2 (en) 2010-11-12 2016-07-19 Google Inc. Syndication including melody recognition and opt out

Similar Documents

Publication Publication Date Title
JP5605066B2 (ja) 音合成用データ生成装置およびプログラム
JP6791258B2 (ja) 音声合成方法、音声合成装置およびプログラム
JP2020003537A (ja) オーディオ抽出装置、学習装置、カラオケ装置、オーディオ抽出方法、学習方法及びプログラム
CN107005724A (zh) 信息处理装置、信息处理方法和程序
US20210074267A1 (en) Machine learning method, audio source separation apparatus, and electronic instrument
JP2020003536A (ja) 学習装置、自動採譜装置、学習方法、自動採譜方法及びプログラム
JP2010217883A (ja) マスキング音生成装置、マスキングシステム、マスキング音生成方法、およびプログラム
JPWO2014112110A1 (ja) 音声合成装置、電子透かし情報検出装置、音声合成方法、電子透かし情報検出方法、音声合成プログラム及び電子透かし情報検出プログラム
KR20180063227A (ko) 오디오 컨텐츠의 동적 변경
JP2009244567A (ja) メロディライン特定システムおよびプログラム
JP2012022121A (ja) 音声合成装置
US20150051911A1 (en) Method for dividing letter sequences into pronunciation units, method for representing tones of letter sequences using same, and storage medium storing video data representing the tones of letter sequences
JP2004240077A (ja) 楽音制御装置、映像制御装置及びプログラム
JP2007148172A (ja) 声質制御装置および方法およびプログラム記憶媒体
JP2020021098A (ja) 情報処理装置、電子機器及びプログラム
JP2005108105A (ja) 画像処理装置及び方法
JP5862667B2 (ja) 波形処理装置、波形処理方法および波形処理プログラム
JP5131130B2 (ja) 追従性評価システム,カラオケシステムおよびプログラム
JP2009025402A (ja) 楽曲加工装置およびプログラム
JP6683103B2 (ja) 音声合成方法
JP6028489B2 (ja) 動画再生装置、動画再生方法、及びプログラム
JP5378944B2 (ja) 音声処理装置およびプログラム
JP5262875B2 (ja) 追従性評価システム,カラオケシステムおよびプログラム
JP2009031565A (ja) 楽音及び映像生成装置
JP2018189736A (ja) カラオケ装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110823

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111220