JP5515342B2 - 音波形抽出装置、およびプログラム - Google Patents

音波形抽出装置、およびプログラム Download PDF

Info

Publication number
JP5515342B2
JP5515342B2 JP2009062970A JP2009062970A JP5515342B2 JP 5515342 B2 JP5515342 B2 JP 5515342B2 JP 2009062970 A JP2009062970 A JP 2009062970A JP 2009062970 A JP2009062970 A JP 2009062970A JP 5515342 B2 JP5515342 B2 JP 5515342B2
Authority
JP
Japan
Prior art keywords
sound waveform
section
value
index value
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009062970A
Other languages
English (en)
Other versions
JP2010217408A (ja
Inventor
ビースァン オン
セバスチャン シュトライヒ
慶太 有元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2009062970A priority Critical patent/JP5515342B2/ja
Publication of JP2010217408A publication Critical patent/JP2010217408A/ja
Application granted granted Critical
Publication of JP5515342B2 publication Critical patent/JP5515342B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、既存の楽曲の音波形から新たな楽曲の素材となる音波形を抽出する技術に関する。
既存の楽曲から抽出した音波形をパッチワークのように繋げて新たな楽曲を作成することが一般に行われている。例えば、特許文献1には、複数の楽曲の各々を拍に同期した時点で区切って得られる各音波形を素材として新たな楽曲を生成する技術が開示されている。
特開2008−129135号公報
このようにパッチワークのように素材(音波形)を繋げて新たな楽曲を作成する場合、例えば連続的に音が変化しているなど所望の態様で音が変化している素材を選んで使用したいといったニーズがあった。しかし、従来は各素材の音を実際に聴いてみなければ音がどのように変化しているのかを把握することができず、膨大な数の素材のうちから所望の態様で音が変化しているものを探し出すことは略不可能であった。
本発明は上記課題に鑑みて為されたものであり、既存の楽曲の音波形から所望の態様で音が変化している区間の音波形を素材として抽出し、新たな楽曲の作成に利用することを可能にする技術を提供することを目的する。
上記課題を解決するため本発明は、楽曲の音波形をフレーム単位で解析し、各フレームの音波形からそのフレームの音響的な特徴を示す特徴量を算出する特徴量算出手段と、連続する所定数のフレームからなる区間毎に当該区間内での前記特徴量の変化の大きさおよび前記特徴量の変化の滑らかさに応じた指標値を算出する指標値算出手段と、前記指標値が予め設定された値(目標値)となっている区間の音波形を前記楽曲の音波形から抽出する音波形抽出手段とを有することを特徴とする音波形抽出装置、およびコンピュータを上記各手段として機能させることを特徴とするプログラムを提供する。
本発明によれば、既存の楽曲の音波形から上記指標値算出手段により算出される指標値が予め設定された目標値となっている区間の音波形が新たな楽曲の素材として抽出される。ここで、上記指標値は、既存の楽曲の音波形についてフレーム毎に算出される特徴量の変化の大きさや変化の滑らかさを示す値である。例えば、上記特徴量としてピッチを用いるようにすれば上記指標値は所定数のフレーム内でのピッチの変化の大きさおよび滑らかさを示すため、上記目標値に応じてピッチが滑らかに上昇している区間の音波形や、逆に、ピッチが滑らかに下降している区間の音波形が新たな楽曲の素材として抽出される。また、音量を上記特徴量として用いると、上記指標値は所定数のフレーム内での音量の変化の大きさおよび変化の滑らかさを示すため、上記目標値に応じて音量が滑らかに増加してゆく区間の音波形や、逆に、音量が滑らかに減少してゆく区間の音波形が新たな楽曲の素材として抽出される。
上記指標値算出手段による指標値の算出態様としては種々のものが考えられる。例えば、連続する所定数のフレームからなる区間の末尾のフレームにおける特徴量と当該区間の先頭のフレームにおける特徴量の差を当該区間における特徴量の最大値と最小値の差で規格化(除算)して当該区間についての指標値を算出する態様や、当該区間における特徴量の最大値と最小値の差をより大きな値に補正し、その補正後の値で当該区間の末尾のフレームにおける特徴量と当該区間の先頭のフレームにおける特徴量の差を規格化して当該区間についての指標値を算出する態様が考えられる。また、後者の態様においては、連続する所定数のフレームからなる区間における特徴量のばらつきの大きさ(例えば、上記所定数のフレーム内での上記変化量の分散や標準偏差)が予め定められた第1の閾値よりも大きい場合、または当該区間における特徴量の最大値と最小値の差が予め定められた第2の閾値よりも小さい場合に、当該区間における特徴量の最大値と最小値の差をより大きな値に補正して上記指標値を算出するとしても良い。また、これらの態様の他に、連続する所定数のフレームの先頭のものから順に、互いに隣接するフレーム間の特徴量の変化量を算出し、その変化量の平均値をその変化量のばらつきの大きさで補正した後に、その補正値を所定の範囲(例えば、−1から1の範囲など)に収まる値に規格化して上記指標値とする態様も考えられる。
この発明の一実施形態である音波形抽出装置100の構成例を示す図である。 同音波形抽出装置100の制御部110が音波形抽出プログラムにしたがって実行する処理の流れを示すフローチャートである。 同制御部110が実行する特徴量算出処理SA100の一例を説明するための図である。 同制御部110が実行するおよび指標値算出処理SA110の一例を説明するための図である。 複数のフレームに亘る特徴量の変化態様と指標値の時間変化の関係を示す図である。 音波形抽出処理SA120にて制御部110が表示部140に表示させるユーザインタフェース画面の一例を示す図である。
以下、本発明の実施形態について図面を参照しつつ説明する。
(A:構成)
図1は、本発明の一実施形態に係る音波形抽出装置100の構成例を示すブロック図である。この音波形抽出装置100は、既存の楽曲の音波形から新たな楽曲の素材となる音波形を抽出する装置である。この音波形抽出装置100の利用者は、既存の楽曲中で音響的な特徴量(例えば、ピッチや音量など)が滑らかに変化している区間の音波形を新たな楽曲の素材として抽出することができる。図1に示すように、音波形抽出装置100は、制御部110、インタフェース群120、操作部130、表示部140、記憶部150、および、これら構成要素間のデータ授受を仲介するバス160を有している。
制御部110は、例えばCPU(Central Processing Unit)である。制御部110は、記憶部150に格納されている音波形抽出プログラムを実行することにより、音波形抽出装置100の制御中枢の役割を果たす。この音波形抽出プログラムにしたがって制御部110が実行する処理については後に詳細に説明する。
インタフェース群120は、ネットワークを介して他の装置との間でデータ通信を行うためのネットワークインタフェースや、CD−ROM(Compact Disk-Read Only Memory)などの外部記録媒体との間でデータの授受を行うためのドライバを含んでいる。本実施形態では、インタフェース群120のうちの適切なものを介して楽曲の音波形を示す楽曲データ(楽曲の波形を所定のサンプリング周期でサンプリングしたサンプル列)が入力される。本実施形態では、インタフェース群120を介して入力される楽曲データの表す音波形が新たな楽曲の素材となる音波形の抽出元となるのである。なお、上記楽曲データとしてアナログ形式のオーディオ信号が与えられる場合には、A/D変換器を介して入力するようにすれば良い。
操作部130は、例えばマウスなどのポンティングデバイスや複数のキーを備えたキーボードなどであり、各種の入力操作を利用者に行わせるためのものである。操作部130は、利用者により為された操作を示すデータを制御部110に与える。これにより操作部130に対して利用者が行った操作の内容が制御部110に伝達される。表示部140は、例えば液晶ディスプレイとその駆動回路である。この表示部140には、音波形抽出装置100の利用を促すためのユーザインタフェース画面(図6参照)が表示される。
記憶部150は、図1に示すように、揮発性記憶部150aと不揮発性記憶部150bを含んでいる。揮発性記憶部150aは、例えばRAM(Random Access Memory)であり、各種プログラムを実行するためのワークエリアとして利用される。一方、不揮発性記憶部150bは、例えばハードディスクである。不揮発性記憶部150bには、前述した音波形抽出プログラムが格納されている他、新たな楽曲の素材として抽出した音波形の波形データの集合体である素材データベース(図示略)が格納される。図2は、音波形抽出プログラムにしたがって制御部110が実行する処理の流れを示すフローチャートである。図2に示すように、音波形抽出プログラムにしたがって制御部110が実行する処理には、特徴量算出処理SA100、指標値算出処理SA110および音波形抽出処理SA120の3つの処理が含まれる。これら3つの処理の詳細については後に明らかにするが、その概要は以下の通りである。
図2の特徴量算出処理SA100は、インタフェース群120を介して入力される楽曲データの表す音波形を所定時間長(或いは、所定サンプル数)のフレーム単位で解析し、各フレームの音波形からそのフレームの音響的な特徴を示す特徴量を算出する処理である。前述したように、この特徴量算出処理SA100にてフレーム毎に算出する特徴量の一例としてはピッチや音量が挙げられる。この特徴量算出処理SA100にてどのような特徴量を算出するのかについては、音波形抽出装置100の工場出荷時点で予め定めておいても良く、また、予め定められた複数種の特徴量のうちから音波形抽出装置100の使用のたびに利用者に選択させるようにしても良い。
指標値算出処理SA110は、連続する所定数のフレーム(例えば、5フレームや8フレームなど)からなる区間毎に、当該区間内での特徴量の変化の大きさおよび変化の滑らかさに応じた指標値を算出する処理である。そして、音波形抽出処理SA120は、指標値算出処理SA110にて算出された指標値が利用者により設定された値となっている区間の音波形を上記楽曲データの表す音波形から抽出する処理である。
以上が音波形抽出装置100の構成である。
(B:動作)
以下、特徴量算出処理SA100にて算出する特徴量として、新たな楽曲の素材となる音波形の抽出元の楽曲を構成する複数のパートのうちの特定のパートのピッチを採用した場合を例にとって音波形抽出装置100が実行する動作を説明する。ここで、複数のパートのうちから特定のパートを指定させる態様の具体例としては、例えば、そのパートの担当楽器の演奏音の周波数帯域を示す値(例えば、上限周波数および下限周波数)で指定させる態様が考えられる。なお、インタフェース群120を介して入力される楽曲データの表す音には、各パートの演奏音が含まれているため、上記のように周波数範囲を指定するだけでは上記特定のパートの音のみを抽出することは一般にはできないのであるが、本実施形態では上記特定のパートのピッチ変化を高い確度で追跡するための工夫が為されている。
図3は、特徴量算出処理SA100の流れを説明するための図である。この特徴量算出処理SA100では、まず、インタフェース群120を介して入力された楽曲データを所定の時間長(サンプル数)ずつのフレームに区切り、フレーム毎に高速フーリエ変換(Fast Fourier Transform:以下、FFT)を施して振幅スペクトラムを算出する処理が実行される。例えば、図3では、楽曲の先頭に位置するフレームを「0番目のフレーム」とした場合における、n番目のフレームについてFFTを施し振幅スペクトラムを算出する場合について例示されている。
次いで、特徴量算出処理SA100では、各フレームの振幅スペクトラムを解析して特徴量を算出し、フレーム毎に算出された特徴量を書き込んだ特徴量テーブルを生成する処理が実行される。前述したように本実施形態では、特徴量として特定のパートのピッチが採用されるため、各フレームの振幅スペクトラムから当該パートに属すると推定される音のピッチが抽出され、そのピッチを示すデータを格納した特徴量テーブルが生成される。
図3には、特徴量算出処理SA100で生成される特徴量テーブルの一例が示されている。この特徴量テーブルには、フレーム番号が若いものから順に、そのフレームの振幅スペクトラムの特定の周波数帯域(上記特定のパートに対応する周波数帯域)に現れているローカルピークのうちで振幅値が上位N(本実施形態では、5)番目までのN個のローカルピークの中心周波数が格納される。図3では、n番目のフレームの振幅スペクトラムの特定の周波数帯域でi番目に振幅値が大きいローカルピークの中心周波数がfniで表されている。ここで、ローカルピークとは振幅スペクトラムを表すグラフにて振幅値が増加から減少に転じている箇所のことである。
ここで、各フレームの特定の周波数帯域に現れているローカルピークのうち、上位5番目までの振幅値を有するもののみに着目するのは、他のパートの演奏音や雑音により現れているローカルピークを排除するためである。これは、上記特定のパートの担当楽器ほど、そのパートに対応する周波数帯域に属する音を高い音量で放音していると考えられるからである。なお、図3に示す特徴量テーブルを生成するために、何番目までのローカルピークに着目するのかについては他のパートの演奏音や雑音の大きさとの兼ね合いで定めるようにすれば良い。また、本実施形態では、各フレームの特定の周波数帯域に現れているローカルピークのみに着目したが、振幅スペクトラムに現れているすべてローカルピークのうちで上位5番目までの振幅値を有するものに着目しても勿論良い(この場合は、楽曲全体でピッチが滑らかに変化している区間を新たな楽曲の素材として切り出すこととなる)。
以上が特徴量算出処理SA100の内容である。
次いで、指標値算出処理SA110について説明する。
指標値算出処理SA110は、特徴量算出処理SA100にて算出した特徴量の時間変化を追跡する処理と、その追跡結果から特徴量の時間変化の態様を示す指標値を算出する処理とに大別される。図4は前者の処理内容を説明するための図であり、図5は後者の処理にて算出される指標値について説明するための図である。
指標値算出処理SA110では、まず、特徴量算出処理SA100にて生成した特徴量テーブル(図3参照)の格納内容から、特徴量の時間変化を表す特徴量変化追跡テーブル(図4参照)が以下の要領で生成される。すなわち、制御部110は、まず、フレーム番号が若いものから順に、特徴量テーブルに格納されている5つの中心周波数のうちで振幅値が最も大きいローカルピークの中心周波数を予め定められた閾値fth1と比較し、当該中心周波数がはじめて当該閾値fth1を下回るフレームのフレーム番号NAを特定する。ここで、特徴量テーブルに格納されている5つの中心周波数のうちで振幅値が最も大きいローカルピークの中心周波数に着目するのは、振幅値が最も大きいローカルピークは、利用者に指定されたパートの担当楽器の演奏音に対応している可能性が高いと考えられるからである。また、閾値fth1の具体的な値については、利用者により指定されたパートの担当楽器の演奏音の周波数帯域との関係で定めれば良い(例えば、基本周波数成分および倍音成分が適宜含まれるように定めれば良い)。
上記のようにしてフレーム番号NAが特定されると、制御部110は、そのフレームから予め定められた範囲(例えば、10フレームの範囲)で、振幅値の最も大きいローカルピークの中心周波数が最も低くなっているもの(但し、当該中心周波数が閾値fth2(fth2<fth1:本実施形態では、fth2=0)を上回っていることが条件)のフレーム番号NBを特定する。前述したように、振幅値が最も大きいローカルピークは、利用者により指定されたパートの担当楽器の演奏音に対応している可能性が高いと考えられる。したがって、上記の要領でフレーム番号NBを特定することで、上記担当楽器が基本周波数の演奏音を奏でている区間が特定されると考えられる。なお、本実施形態では閾値fth2=0としたが、この閾値fth2についても利用者により指定されたパートの担当楽器の演奏音の周波数帯域との関係で定めるようにしても良い。また、本実施形態のように閾値fth2を0とする態様においては、特徴量テーブル(図3参照)に格納されているfk1(k:フレーム番号)のうちで最小のもののフレーム番号kを上記NBとしても勿論良い。
次いで、制御部110は、フレーム番号kが0〜NA−1までのフレームについては、そのフレーム番号kと、特徴量テーブル(図3参照)に格納されている中心周波数fk1とを対応付けて特徴量変化追跡テーブルに書き込む。フレーム番号NAのフレームについては、制御部110は、そのフレーム番号NAと周波数fNB1(すなわち、フレーム番号NBに関して特徴量テーブルに格納されているローカルピークの中心周波数のうち、振幅が最大のローカルピークの中心周波数)とを対応付けて特徴量変化追跡テーブルに書き込む。フレーム番号kがNA+1以降のフレームについては、制御部110は以下の要領で特徴量変化追跡テーブルに書き込む周波数を選択する。すなわち、制御部110は、まず、フレーム番号k(k≧NA+1)のフレームに関して特徴量テーブルに格納されている5種類の周波数fki(i=1〜5)のうち、一つ手前のフレーム(すなわち、フレーム番号がk−1のフレーム)について特徴量変化追跡テーブルに書き込んだ周波数に最も近いものを選択する。そして、制御部110は、このようにして選択した周波数をフレーム番号kに対応付けて特徴量変化追跡テーブルに書き込む。これにより、図4に示す特徴量変化追跡テーブルが得られるのである。前述したように、フレーム番号NAに対応付けて特徴量変化追跡テーブルに格納されている周波数fNB1は、利用者により指定されたパートの担当楽器の基本周波数と考えられる。したがって、上記のようにして特徴量変化追跡テーブルを生成することによって、フレーム番号がNA+1以降のフレームについては、利用者により指定されたパートの基本周波数の時間変化が追跡されていると期待される。
次いで、制御部110は、5フレームや8フレームなど連続する所定数のフレームからなる区間毎に、当該区間内での特徴量の変化態様(増加しているのか、減少しているのか、また、その変化は滑らかであるのか否かなど)を示す指標値Xを上記特徴量変化追跡テーブルの格納内容を利用して算出する。ここで指標値Xの算出態様としては、種々の態様が考えられる。例えば、上記区間を構成する所定数のフレームの先頭のものから順に、互いに隣接するフレーム間の特徴量の変化量(すなわち、k+1番目のフレームの特徴量とk番目のフレームの特徴量との差)を算出し、その変化量の平均値をその変化量のばらつきの大きさ(例えば、分散や標準偏差)で補正した後に、その補正後の値を−1から1などの所定の範囲に収まるように規格化して指標値Xとする態様が考えられる。本実施形態では、以下の式(1)にしたがって上記指標値Xを算出する。
X=(End−Begin)/(MAX−MIN+fastP×VAR+slowP)・・・(1)
式(1)の右辺の構成要素の意味は夫々以下の通りである。
Endは上記所定数フレームからなる区間の末尾のフレームにおける特徴量(特徴量変化追跡テーブルに書き込まれている中心周波数)であり、Beginは同区間の先頭のフレームにおける特徴量である。MAXは上記区間における特徴量の最大値であり、MINは同区間における特徴量の最小値である。VARは上記区間において互いに隣接するフレーム間の特徴量の変化量のばらつきの大きさを表す値(本実施形態では、互いに隣接するフレーム間の特徴量の差分についての分散)である。そして、fastPは、上記区間内での特徴量の変化のばらつきが大きすぎる場合に課されるペナルティを表す値であり、slowPは上記区間内での特徴量の変化が緩やかすぎる場合に課されるペナルティを表す値である。これらfastPおよびslowPは、何れも正の固定値である。これらペナルティに応じて、上記区間における特徴量の最大値と最小値の差はより大きな値に補正される。つまり、式(1)は、上記区間における特徴量の最大値と最小値の差をより大きな値に補正し、その補正後の値で、同区間の末尾のフレームにおける特徴量と先頭のフレームにおける特徴量の差を規格化(除算)して指標値Xを算出することを意味するのである。このように特徴量の変化のばらつきや変化のゆるやかさに応じたペナルティを課す理由については後に明らかにする。
例えば、図5(A)に示すように、特徴量が単調に増加している場合、MAX=End、MIN=Beginであり、かつVARは略ゼロとなるから、式(1)にしたがって算出される指標値Xは、正の値(MAXとMINの差がslowPに比べて大きければ大きいほど1に近い値)となる。逆に、図5(B)に示すように、特徴量が単調に減少している場合、式(1)にしたがって算出される指標値Xは、負の値(MAXとMINの差がslowPに比べて大きければ大きいほど−1に近い値)となる。これに対して、図5(C)に示すように、上記所定数フレームからなる区間内の前半では特徴量が次第に減少し、その後増加に転じてEndとBeginが略等しくなっている場合(すなわち、EndとBeginの差が略ゼロの場合)には、式(1)にしたがって算出される指標値Xは略ゼロになる。つまり、式(1)にしたがって算出される指標値Xは、その値が1に近いほど特徴量が滑らかに増加していることを表し、その値が−1に近いほど特徴量が滑らかに減少していることを表し、その値が0に近い場合には上記所定数のフレームに亘って特徴量があまり変化していないか、または特徴量の変化が滑らかではないことを表すのである。
ここで、特徴量の変化のばらつきが大きすぎる場合や特徴量の変化が緩やかすぎる場合にペナルティを課す理由は以下の通りである。特徴量の変化のばらつきの大きさや特徴量の変化の緩やかさを考慮せずに常に(End−Begin)を(MAX−MIN)で除算(規格化)して指標値Xを算出するとしたならば、図5(E)に示すように所定数のフレームの末尾の部分で特徴量が急激に変化している場合や図5(F)に示すように特徴量の変化が小さい場合についても指標値Xの値は1になり、図5(A)に示す変化態様と区別がつかなくなる。そこで、本実施形態では、図5(E)に示す変化態様や図5(F)に示す変化態様と図5(A)に示す変化態様とを指標値Xの値で区別することができるようにするために特徴量の変化のばらつきの大きさや特徴量の変化の緩やかさに応じてぺナルティを課すこととしたのである。また、図5(F)に示す変化態様では、(MAX−MIN)は0に近い値となり、VARも略0となるから、slowPに正の固定値を設定しないとゼロ除算の危険もあるが、slowPに正の固定値を設定することでゼロ除算の危険を回避することもできる。
なお、本実施形態では、fastPおよびslowPとして正の固定値を用いたが、所定数フレームからなる区間における特徴量のばらつきの大きさが所定の閾値th1を超えた場合にfastPに正の固定値をセットし、その他の場合(すなわち、上記ばらつきの大きさが閾値th1以下である場合)には、fastPにゼロをセットするとしても良い。同様に、所定数フレームからなる区間における特徴量の最大値と最小値との差が所定の閾値th2より小さい場合にslowPに正の固定値をセットし、その他の場合(すなわち、上記差が閾値th2以上である場合)にはslowPにゼロをセットするとしても良い。また、本実施形態では、MAXとMINの差に特徴量の変化のばらつきの大きさや特徴量の変化の緩やかさに応じた値を加算してその補正を行ったが、特徴量の変化のばらつきの大きさや特徴量の変化の緩やかさに応じた値を乗算することで補正を行っても勿論良い。
このように、本実施形態では、特徴量の変化のばらつきの大きさと特徴量の変化の緩やかさの各々に応じてペナルティを課したが、何れか一方についてのみペナルティを課しても良い。例えば、特徴量の変化のばらつきの大きさに関してだけペナルティを課す場合には、式(1)において常にslowP=0とすれば良く、逆に、特徴量の変化の緩やかさに関してだけペナルティを課す場合には常にfastP=0とすれば良い。また、上記所定数フレームの区間内で特徴量が増加傾向にあるのか、減少傾向にあるのか、それともどちらでもないのかを大まかに判別することができれば良い場合には、特徴量の変化のばらつきの大きさや特徴量の変化の緩やかさに応じたペナルティを課す必要はなく、(End−Begin)を(MAX−MIN)で除算(規格化)して指標値Xを算出すれば良い。
以上が指標値算出処理SA110の内容である。
次いで、音波形抽出処理SA120の内容について説明する。
この音波形抽出処理SA120では、制御部110は、まず、新たな楽曲の素材として切り出す区間を利用者に指定させるためのユーザインタフェース画面を表示部140に表示させる。図6は、表示部140に表示されるユーザインタフェース画面の一例を示す図である。図6に示すように、このユーザインタフェース画面には、2つの表示領域(表示領域A01およびA02)と入力領域I01と、仮想ボタンB01とが配置されている。
図6の表示領域A01には、インタフェース群120を介して入力された楽曲データの表す音波形が表示され、表示領域A02には、指標値算出処理SA110にて所定数のフレーム毎に算出された指標値の時間変化を表すグラフが上記音波形と時間軸Tを共通にして表示される。音波形抽出装置100の利用者は、表示領域A02に表示されるグラフを参考に上記楽曲データの表す楽曲の音波形から新たな楽曲の素材として抽出すべき音波形の区間を指標値で指定することができる。例えば、ピッチが滑らかに上昇している区間の抽出を所望する場合には、指標値が略1になっている区間を表示領域A02に表示されるグラフにて指定すれば良く、逆に、ピッチが滑らかに下降している区間の抽出を所望する場合には、同指標値が略−1になっている区間を指定すれば良い。なお、新たな楽曲の素材として抽出すべき音波形の区間を指標値で指定する際には、抽出を所望する区間の指標値についての目標値を操作部130の操作により数値で入力させるとしても勿論良い。
図6の入力領域I01には、新たな楽曲の素材として切り出す音波形を一意に識別するための識別子(例えば、当該音波形に付与する名称を表す文字列)が操作部130に対する操作により入力される。このような識別子を入力させるようにしたのは、新たな楽曲の素材として複数の音波形を切り出す場合に、それらを容易に区別することができるようにするためである。本実施形態では、上記識別子を利用者に入力させるようにしたが、素材の抽出元の楽曲の名称を表す文字列とその音波形の開始時刻および終了時刻を表す文字列とを連結して上記識別子を自動生成するようにしても良い。
そして、図6の仮想ボタンB01は、利用者により設定された指標値を有する区間の音波形の波形データと、その音波形を一意に識別する識別子とを対応付けて記憶する処理の実行を制御部110に対して指示するための仮想操作子である。仮想ボタンB01がクリックされると、制御部110は、インタフェース群120を介して入力された楽曲データ(サンプル列)のうち、指標値算出処理SA110にて算出された指標値Xが利用者により設定された値となっている区間のサンプル列(すなわち、当該区間の音波形を示す波形データ)のコピーを生成し、当該コピーサンプル列に上記識別子を対応付けて不揮発性記憶部150bに書き込む。なお、本実施形態では、指標値Xが利用者により設定された値となっている区間の音波形を表す波形データとその音波形を一意に識別する識別子とを対応付けて不揮発性記憶部150bに格納することで新たな楽曲の素材となる音波形の抽出を実現した。しかし、上記楽曲データと時間軸を共通にするデータトラックであって、指標値Xが利用者により設定された値となっている区間の開始時刻および終了時刻を示す情報と上記識別子とを格納したデータトラックを生成し、このデータトラックを上記楽曲データと対応付けて不揮発性記憶部150bに格納することで新たな楽曲の素材となる音波形の抽出を実現しても良い。
以上が音波形抽出処理SA120の内容である。
以上説明したように本実施形態に係る音波形抽出装置100によれば、ピッチが滑らかに変化している区間や音量が滑らかに変化している区間の音波形を既存の楽曲から抽出し、新たな楽曲の素材とすることが容易になる。また、上記のようにして切り出される波形データの集合(素材データベース)をインタフェース群120のうちの適切なものを介して通信回線経由で他の装置へ送信しても良く、また、インタフェース群120のうちの適切なものを介してCD−ROMなどの記録媒体に書き込み、その記録媒体を配布しても良い。
(C:他の実施形態)
以上、本発明の一実施形態について説明したが、かかる実施形態に以下に述べる変形を加えても勿論良い。
(1)上述した実施形態では、新たな楽曲の素材として抽出する音波形を示す値(指標値についての目標値)を、ユーザインタフェース画面(図6参照)の表示内容を参考に利用者に指定させた。しかしながら、上記目標値を予め設定した状態で音波形抽出プログラムの実行を開始させるようにしても良く、このような態様においては、図6に示すようなユーザインタフェース画面の表示を制御部110に実行させる必要はない。また、上述した実施形態では、指標値Xが利用者により設定された値となっている区間の音波形を表す波形データとその音波形を一意に識別する識別子とを対応付けて不揮発性記憶部150bに格納することで素材データベースを生成した。しかし、指標値Xが利用者により設定された値となっている区間毎にその波形データとその指標値Xとを対応付けて不揮発性記憶部150bに格納して素材データベースを構成し、指標値Xをキーとしてその素材データベースから所望の態様で音が変化している音波形の波形データを読み出すようにしても勿論良い。
(2)上述した実施形態では、特徴量算出処理SA100にて算出する特徴量としてピッチを採用したが、音量や他の種類の特徴量を採用しても勿論良い。例えば、音量を特徴量として採用する場合には、フレーム毎に音量(ラウドネス)を算出し、その算出値をフレーム番号と対応付けて揮発性記憶部150aに書き込むことで特徴量変化追跡テーブルを生成すれば良い。このように音量を特徴量として選択すると、音量が滑らかに増加してゆく区間(すなわち、音がフェードインする区間)や音量が滑らかに減少してゆく区間(すなわち、音がフェードアウトする区間)を新たな楽曲の素材として切り出すことが可能になる。
また、ピッチや音量の他の特徴量としては、スペクトラルクレストやスペクトラルフラットネス、コードストレングスなどを用いることが考えられる。スペクトラルクレストとスペクトラルフラットネスは、スペクトラルエナジの平坦さを示す特徴量である。スペクトラルクレストは、フレーム内でのスペクトラルエナジの最大値を同フレーム内での平均値で除算して算出され、スペクトラルフラットネスは、フレーム内でのスペクトラルエナジの幾何平均(相乗平均)を算術平均(相加平均)で除算して算出される。スペクトラルエナジが平坦であるほどノイズのような音を表すと考えられる。したがって、特徴量算出処理SA100にて算出する特徴量としてスペクトラルクレストやスペクトラルフラットネスを採用すると、次第にノイズのようになってゆく音などを新たな楽曲の素材として切り出すことが可能になる。また、コードストレングスは、コード感の有無(すなわち、調和的であるか否か)を示す特徴量である。特徴量算出処理SA100にて算出する特徴量としてコードストレングスを採用すると、次第にコード感が薄れてゆく音や、逆に、次第にコード感が強くなってゆく音を新たな楽曲の素材として切り出すことが可能になる。さらに、複数種の特徴量から算術演算により求まる新たな特徴量、または1または複数種の特徴量から関数演算により求まる新たな特徴量を定義し、当該新たな特徴量の時間変化を追跡しても良いことは勿論である。
(3)上述した実施形態では、式(1)にしたがって算出される指標値Xの時間変化を示すグラフを楽曲の音波形と共通の時間軸で表示することで、そのグラフから特徴量が滑らかに増加(或いは減少)している区間を把握することができるようにした。しかし、所定数のフレーム内で特徴量がどの程度変化しているのかを示す数値(すなわち、特徴量の変化量)を表示させても良い。例えば、特徴量算出処理SA100にて算出する特徴量が特定のパートのピッチである場合、上記変化量をセント値に換算して表示させるようにすれば良い。このようにピッチの変化量をセント値に換算して表示させるようにすると、指標値算出処理SA110にて基本周波数ではなく倍音の周波数の時間変化が追跡されている場合であっても、そのパートのピッチが概ね何オクターブ変化しているのかを把握することができる。
(4)上述した実施形態では、操作部130および表示部140を音波形抽出装置100の構成要素としたが、これらは必ずしも必須ではない。例えばキーボードやマウスなどの入力装置をインタフェース群120のうちの適当なものを介して接続し、この入力装置に操作部130の役割を担わせても良い。同様に、液晶ディスプレイとその駆動回路とを含む表示装置をインタフェース群120のうちの適当なものを介して接続し、この表示装置に表示部140の役割を担わせても良い。
(5)上述した実施形態では、制御部110に、特徴量算出処理SA100、指標値算出処理SA110および音波形抽出処理SA120を実行させる音波形抽出プログラムが不揮発性記憶部150bに予め格納されていた。しかし、CD−ROMなどのコンピュータ読み取り可能な記録媒体に上記音波形抽出プログラムを書き込んで配布しても良く、また、インターネットなどの電気通信回線経由のダウンロードにより上記音波形抽出プログラムを配布しても良い。このようにして配布される音波形抽出プログラムにしたがって、パーソナルコンピュータなどの一般的なコンピュータを作動させることで、そのコンピュータを音波形抽出装置100として機能させることが可能になるからである。
(6)上述した実施形態では、本発明に係る音波形抽出装置100の特徴である3つの処理(すなわち、特徴量算出処理SA100、指標値算出処理SA110および音波形抽出処理SA120)をソフトウェアで実現した。しかし、特徴量算出処理SA100を実行する特徴量算出手段、指標値算出処理SA110を実行する指標値算出手段、および音波形抽出処理SA120を実行する音波形抽出手段の各々を電子回路で構成し、これら電子回路を組み合わせて音波形抽出装置を構成しても良い。
100…音波形抽出装置、110…制御部、120…インタフェース群、130…操作部、140…表示部、150…記憶部、150a…揮発性記憶部、150b…不揮発性記憶部、160…バス。

Claims (8)

  1. 楽曲の音波形をフレーム単位で解析し、各フレームの音波形からそのフレームの音響的な特徴を示す特徴量を算出する特徴量算出手段と、
    連続する所定数のフレームからなる区間毎に当該区間内での前記特徴量の変化の大きさおよび前記特徴量の変化の滑らかさに応じた指標値を算出する指標値算出手段と、
    前記指標値に基づき、前記特徴量が単調に増加または単調に減少している区間の音波形を前記楽曲の音波形から抽出する音波形抽出手段と
    を有することを特徴とする音波形抽出装置。
  2. 楽曲の音波形をフレーム単位で解析し、各フレームの音波形からそのフレームの音響的な特徴を示す特徴量を算出する特徴量算出手段と、
    連続する所定数のフレームからなる区間毎に当該区間内での前記特徴量の変化の大きさおよび前記特徴量の変化の滑らかさに応じた指標値を算出する指標値算出手段と、
    前記指標値が利用者により指定された値となっている区間の音波形を前記楽曲の音波形から抽出する音波形抽出手段と
    を有することを特徴とする音波形抽出装置。
  3. 楽曲の音波形をフレーム単位で解析し、各フレームの音波形からそのフレームの音響的な特徴を示す特徴量を算出する特徴量算出手段と、
    連続する所定数のフレームからなる区間毎に当該区間内での前記特徴量の変化の大きさおよび前記特徴量の変化の滑らかさに応じた指標値を算出する指標値算出手段と、
    前記指標値が予め設定された値となっている区間の音波形を前記楽曲の音波形から抽出する音波形抽出手段と、を備え、
    前記指標値算出手段は、
    前記連続する所定数のフレームからなる区間の末尾のフレームにおける前記特徴量と当該区間の先頭のフレームにおける前記特徴量の差を、当該区間における前記特徴量の最大値と最小値の差、または当該差をより大きな値に補正した補正値で規格化して当該区間についての前記指標値を算出する
    ことを特徴とする音波形抽出装置。
  4. 前記指標値算出手段は、
    前記連続する所定数のフレームからなる区間の末尾のフレームにおける前記特徴量と当該区間の先頭のフレームにおける前記特徴量の差を、当該区間における前記特徴量の最大値と最小値の差、または当該差をより大きな値に補正した補正値で規格化して当該区間についての前記指標値を算出する
    ことを特徴とする請求項1または請求項2に記載の音波形抽出装置。
  5. 前記指標値算出手段は、
    前記連続する所定数のフレームからなる区間における前記特徴量のばらつきが予め定められた第1の閾値よりも大きい場合、または当該区間における前記特徴量の最大値と最小値の差が予め定められた第2の閾値よりも小さい場合に、前記最大値と最小値の差をより大きな値に補正する
    ことを特徴とする請求項3または請求項4に記載の音波形抽出装置。
  6. コンピュータを、
    楽曲の音波形をフレーム単位で解析し、各フレームの音波形からそのフレームの音響的な特徴を示す特徴量を算出する特徴量算出手段と、
    連続する所定数のフレームからなる区間毎に当該区間内での前記特徴量の変化の大きさおよび前記特徴量の変化の滑らかさに応じた指標値を算出する指標値算出手段と、
    前記指標値に基づき、前記特徴量が単調に増加または単調に減少している区間の音波形を前記楽曲の音波形から抽出する音波形抽出手段
    として機能させることを特徴とするプログラム。
  7. コンピュータを、
    楽曲の音波形をフレーム単位で解析し、各フレームの音波形からそのフレームの音響的な特徴を示す特徴量を算出する特徴量算出手段と、
    連続する所定数のフレームからなる区間毎に当該区間内での前記特徴量の変化の大きさおよび前記特徴量の変化の滑らかさに応じた指標値を算出する指標値算出手段と、
    前記指標値が利用者により指定された値となっている区間の音波形を前記楽曲の音波形から抽出する音波形抽出手段
    として機能させることを特徴とするプログラム。
  8. コンピュータを、
    楽曲の音波形をフレーム単位で解析し、各フレームの音波形からそのフレームの音響的な特徴を示す特徴量を算出する特徴量算出手段と、
    連続する所定数のフレームからなる区間毎に当該区間内での前記特徴量の変化の大きさおよび前記特徴量の変化の滑らかさに応じた指標値を算出する手段であって、前記連続する所定数のフレームからなる区間の末尾のフレームにおける前記特徴量と当該区間の先頭のフレームにおける前記特徴量の差を、当該区間における前記特徴量の最大値と最小値の差、または当該差をより大きな値に補正した補正値で規格化して当該区間についての前記指標値を算出する指標値算出手段と、
    前記指標値が予め設定された値となっている区間の音波形を前記楽曲の音波形から抽出する音波形抽出手段
    として機能させることを特徴とするプログラム。
JP2009062970A 2009-03-16 2009-03-16 音波形抽出装置、およびプログラム Expired - Fee Related JP5515342B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009062970A JP5515342B2 (ja) 2009-03-16 2009-03-16 音波形抽出装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009062970A JP5515342B2 (ja) 2009-03-16 2009-03-16 音波形抽出装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2010217408A JP2010217408A (ja) 2010-09-30
JP5515342B2 true JP5515342B2 (ja) 2014-06-11

Family

ID=42976355

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009062970A Expired - Fee Related JP5515342B2 (ja) 2009-03-16 2009-03-16 音波形抽出装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP5515342B2 (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06318033A (ja) * 1993-05-06 1994-11-15 Matsushita Electric Ind Co Ltd 発声訓練装置
JP3750533B2 (ja) * 2001-02-05 2006-03-01 ヤマハ株式会社 波形データ録音装置および録音波形データ再生装置
JP3815347B2 (ja) * 2002-02-27 2006-08-30 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
EP1646035B1 (en) * 2004-10-05 2013-06-19 Sony Europe Limited Mapped meta-data sound-playback device and audio-sampling/sample processing system useable therewith
JP4432893B2 (ja) * 2004-12-15 2010-03-17 ヤマハ株式会社 声質判定装置、声質判定方法、および声質判定プログラム
JP4480650B2 (ja) * 2005-09-08 2010-06-16 ローランド株式会社 ピッチ制御装置及びピッチ制御プログラム
JP4613923B2 (ja) * 2007-03-30 2011-01-19 ヤマハ株式会社 楽音処理装置およびプログラム

Also Published As

Publication number Publication date
JP2010217408A (ja) 2010-09-30

Similar Documents

Publication Publication Date Title
EP3047484B1 (en) Recommending audio sample combinations
JP5228432B2 (ja) 素片検索装置およびプログラム
US7371954B2 (en) Tuner apparatus for aiding a tuning of musical instrument
CN101645268A (zh) 一种演唱和演奏的计算机实时分析系统
JP5333517B2 (ja) データ処理装置およびプログラム
JP6252147B2 (ja) 音響信号分析装置及び音響信号分析プログラム
JP3669129B2 (ja) 音信号分析装置及び方法
JP6281211B2 (ja) 音響信号のアライメント装置、アライメント方法及びコンピュータプログラム
JP5515342B2 (ja) 音波形抽出装置、およびプログラム
US11087732B2 (en) Oscillatory timbres for musical synthesis through synchronous ring modulation
JP5515317B2 (ja) 楽曲処理装置、およびプログラム
JP4134961B2 (ja) 音信号分析装置及び方法
JP5585320B2 (ja) 歌唱音声評価装置
JP4479735B2 (ja) 演奏装置およびプログラム
JP2013231881A (ja) カラオケ採点システム
JP4623028B2 (ja) 曲編集装置およびプログラム
JP5573975B2 (ja) 楽曲処理装置、およびプログラム
JP4784184B2 (ja) 音響信号処理装置及びプログラム
WO2021226800A1 (zh) 音律播放方法、用户端及存储介质
JP4486051B2 (ja) カラオケbgm演奏システム
JP4182889B2 (ja) コード構成音高決定装置及びプログラム
Fragkopoulos et al. Note Recognizer: Web Application that Assists Music Learning by Detecting and Processing Musical Characteristics from Audio Files or Microphone in Real-Time
JP6175034B2 (ja) 歌唱評価装置
JP6754243B2 (ja) 楽音評価装置
JP3888371B2 (ja) 音信号分析装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130430

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140317

R150 Certificate of patent or registration of utility model

Ref document number: 5515342

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees