JP2009244703A

JP2009244703A - 楽曲編集システムおよびプログラム

Info

Publication number: JP2009244703A
Application number: JP2008092723A
Authority: JP
Inventors: Tomohiko Sato; 友彦佐藤; Hidehito Kitamura; 秀仁北村; Noriaki Asemi; 典昭阿瀬見
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2008-03-31
Filing date: 2008-03-31
Publication date: 2009-10-22

Abstract

【課題】楽曲の成分から音声成分を除去するにあたり、本来音声成分ではない成分が除去されないようにする。
【解決手段】
所定の歌詞の文字それぞれを発声してなる音声が含まれた楽曲（対象楽曲）において、一定以上の音量で推移する基本周波数，および，これに対応する高調波の時間軸に沿った軌跡を音声成分の軌跡として推定する軌跡推定手段１３０と、軌跡推定手段１３０により推定された軌跡のうち、対象楽曲に対応する歌詞の文字それぞれが発声されるべき時間軸上の位置で形成される区間（音声存在区間）のみからなる区間軌跡を抽出する軌跡抽出手段１５０と、対象楽曲から、軌跡抽出手段１５０により抽出された区間軌跡における基本周波数および高調波それぞれに対応する成分を除去する成分除去手段１７０と、を備えている。
【選択図】図２

Description

本発明は、楽曲を編集するための楽曲編集システムに関する。

近年、楽曲から特定の音成分の時間軸に沿った軌跡を推定する技術が提案されている。それは、楽曲において優勢な音高の時間軸に沿った軌跡をマルチエージェントモデルにおけるエージェントそれぞれにより追跡し、それらにおいて最も信頼度の高いエージェントが持つ優勢な基本周波数の推移を、特定の音成分（音源）の時間軸に沿った軌跡（メロディーライン）として推定する、といった技術（以下「音高推定技術」という）である（特許文献１参照）。

なお、この音高推定技術においては、基本周波数の軌跡を推定することだけでなく、その推定の過程において算出される基本周波数の候補となるパラメータθの集合に基づいて高調波の軌跡を推定することもできる（特許文献１の段落００２２〜００２９参照）。
特許第３４１３６３４号公報

ところで、楽曲に、文字を発声してなる音声が含まれている場合には、その楽曲の成分の中で音声成分が最も優勢に推移することが一般的であるため、このような楽曲に対して上述した音高推定技術により推定した軌跡は、その楽曲における音声成分の軌跡ということができる。

そうすると、こうして推定した軌跡における成分（基本周波数成分）を楽曲の成分から除去すれば、音声成分が除去された楽曲のデータを生成することも可能といえる。
ただ、上述した音高推定技術により推定される軌跡は、楽曲において最も優勢な成分の推移を追跡するものであるため、この軌跡における成分を除去するに際しては、本来音声成分ではない成分が除去されないように工夫を施すことが望ましい。

本発明は、このような課題を解決するためになされたものであり、その目的は、楽曲の成分から音声成分を除去するにあたり、本来音声成分ではない成分が除去されないようにするための技術を提供することである。

上記課題を解決するためには、楽曲を編集するための楽曲編集システムを以下に示す第１の構成（請求項１）のようにするとよい。
この構成においては、所定の歌詞の文字それぞれを発声してなる音声が含まれた楽曲（以降「対象楽曲」という）において、一定以上の音量で推移する基本周波数，および，該基本周波数に対応する高調波の時間軸に沿った軌跡を音声成分の軌跡として推定する軌跡推定手段と、該軌跡推定手段により推定された軌跡のうち、前記対象楽曲に対応する歌詞の文字それぞれが発声されるべき時間軸上の位置で形成される区間（以降「音声存在区間」という）のみからなる区間軌跡を抽出する軌跡抽出手段と、前記対象楽曲から、前記軌跡抽出手段により抽出された区間軌跡における基本周波数および高調波それぞれに対応する成分を除去する成分除去手段と、を備えている。

この構成に係る楽曲編集システムでは、まず、対象楽曲において、一定以上の音量で推移する基本周波数，および，これに対応する高調波の時間軸に沿った軌跡を音声成分の軌跡として推定する。この軌跡の推定に際しては、上述した特許文献１に記載の技術に基づいて優勢な基本周波数の軌跡を推定すると共に、その推定の過程において算出される基本周波数の候補となるパラメータθの集合に基づいて高調波の軌跡を推定すればよい（特許文献１の段落００２２〜００２９参照）。

対象楽曲に文字を発声してなる音声が含まれている場合には、その成分の中で音声成分が最も優勢に推移することが一般的であるため、このような対象楽曲について上記のように推定した軌跡は、楽曲における音声成分の軌跡といえる。

特に、音声成分に占める大部分が基本周波数および高調波で構成された母音および子音の成分であることに照らすと、上記のように基本周波数および高調波の時間軸に沿った推移を軌跡として推定すれば、音声成分に占める大部分の軌跡を推定できることになる。

ただ、上記のように推定した軌跡は、楽曲において最も優勢な成分の時間軸に沿った推移を追跡するものであるため、本来音声成分が含まれていない区間であるにも拘わらず、この区間にあたかも成分の推移があるような軌跡が推定されてしまう恐れがある。

そこで、上記構成では、上記のように推定した軌跡のうち、対象楽曲に対応する歌詞の文字それぞれが発声されるべき時間軸上の位置で形成される区間（音声存在区間）のみからなる区間軌跡を抽出することにより、上記のように推定した音声成分の軌跡から音声成分が含まれていない区間を除去している。

このように、対象楽曲に含まれる音声成分の軌跡として、本来音声成分が含まれていない区間が除外されてなる軌跡（区間軌跡）を推定することができるため、この軌跡における基本周波数および高調波それぞれに対応する成分を元の対象楽曲から除去することによって、本来音声成分でない成分が除去されてしまうことを防止しつつ、対象楽曲から適切に音声成分を除去することができる。

この構成においては、音声成分の軌跡を推定するに際し、対象楽曲をそのまま用いることとすればよいが、その推定の精度を高める意味では、その推定に先立って音声成分を強調しておくことが望ましい。

このように音声成分を強調するための方法については特に限定されないが、例えば、前記対象楽曲が、複数チャネルそれぞれの成分により音空間における各音成分の定位を規定している場合においては、上記構成を以下に示す第２の構成（請求項２）のようにすることが考えられる。

この構成においては、前記対象楽曲における各音成分の定位状態に基づいて、該対象楽曲を音声成分が強調されてなる強調楽曲に変換する強調変換手段，を備えている。そして、前記軌跡推定手段は、前記強調変換手段により変換された強調楽曲における音声成分の軌跡を推定する。

この構成であれば、各音成分の定位状態に基づいて対象楽曲における音声成分を強調することにより、音声成分が優勢な基本周波数および高調波となりやすくなる結果、音声成分の軌跡を推定するに際しての精度を高めることができる。

なお、この構成において、各音成分の定位状態に基づく強調楽曲への変換に際しては、単純に各チャネルそれぞれの成分を加算することにより、この成分からなる楽曲を強調楽曲とすればよい。

ただし、対象楽曲における音声成分が各チャネルにおいて同位相になっていないと、単純に加算しただけでは、必ずしも音声成分が強調さされるとは限らない。そのため、各チャネルにおける音声成分を同位相にしたうえで、強調楽曲への変換を行うようにすることが望ましい。

ここで、前記対象楽曲が、左右チャネルそれぞれの成分により音空間における各音成分の定位を規定している場合について考えると、この場合には、上記構成を、以下に示す第３の構成（請求項３）のようにするとよい。

この構成において、前記強調変換手段は、前記対象楽曲における音声成分が左右チャネルにおいて同位相となるように、左右チャネルのいずれか一方の成分（関数ｘＬ＿０［ｔ］，ｘＲ＿０［ｔ］で示される（ｔは時間軸上の位置；以下同様））における位相を相対的に時間差Δｔだけ遅らせたうえ、下記の式１または式２のように、これら成分を加算することによって、前記対象楽曲を音声成分が強調された強調楽曲（関数ｘ＿１［ｔ］で示される）に変換する。

ｘ＿１［ｔ］＝ｘＬ＿０［ｔ］＋ｘＲ＿０［ｔ＋Δｔ］ … （式１）
ｘ＿１［ｔ］＝ｘＬ＿０［ｔ＋Δｔ］＋ｘＲ＿０［ｔ］ … （式２）
この構成であれば、対象楽曲における音声成分が各チャネルにおいて同位相になっていなかったとしても、左右チャネルそれぞれにより規定される音声成分を同位相にした（つまり中心に定位するようにした）うえで、これら左右チャネルの成分を加算して音声成分を強調することができる。

この構成において、左右チャネルにおける音声成分を同位相とするような時間差Δｔは、対象楽曲毎に実験的に求めることとしてもよいし、数学的に算出することとしてもよい。

この後者のためには、例えば、以下に示す第４の構成（請求項４）のようにすることが考えられる。
この構成において、前記強調変換手段は、前記対象楽曲における左右チャネルの成分（関数ｘＬ＿０［ｔ］，ｘＲ＿０［ｔ］）について、下記の式３または式４により算出されるφが最大になる時間差τを前記時間差Δｔとして前記強調楽曲への変換を行う。

φ［τ］＝∫（ｘＬ＿０［ｔ］・ｘＲ＿０［ｔ＋τ］）ｄｔ … （式３）
φ［τ］＝∫（ｘＬ＿０［ｔ＋τ］・ｘＲ＿０［ｔ］）ｄｔ … （式４）
この構成であれば、音声成分が同位相になるような左右チャネルの成分の時間差Δｔを必要に応じて算出したうえで、これに基づいて音声成分を強調することができる。

また、上記のように音声成分を強調する構成において、この強調後の対象楽曲に基づいて音声成分の軌跡を推定するに際しては、この対象楽曲をその推定に適した状態としておくことが望ましい。

ここでいう「適した状態」としては、例えば、音声成分の軌跡を推定するのに適したサンプリング周波数にサンプリング周波数変換を行った状態が考えられ、このような状態とするためには、上記各構成を以下に示す第５の構成（請求項５）のようにすればよい。

この構成においては、前記強調変換手段により変換された強調楽曲に対し、前記軌跡推定手段による軌跡の推定に適したサンプリング周波数となるようにサンプリング周波数変換を行うリサンプリング手段，を備えている。そして、前記軌跡推定手段は、前記リサンプリング手段によりサンプリング周波数変換がなされた強調楽曲における音声成分の軌跡を推定する。

この構成であれば、音声成分の軌跡を推定するに先立ち、対象楽曲におけるサンプリング周波数をその推定に適したサンプリング周波数に変換しておくことができるため、より適切に軌跡の推定を実施できるようになる。

また、上記各構成において区間軌跡を抽出するための具体的な構成は特に限定されないが、例えば、以下に示す第６の構成（請求項６）のようにすることが考えられる。
この構成において、前記軌跡抽出手段は、前記軌跡推定手段により推定された軌跡における時間軸に沿った位置のうち、前記対象楽曲に対応する歌詞の文字が発声されるべき時間軸上の位置それぞれで形成される区間を前記音声存在区間として前記区間軌跡を抽出する。

この構成では、基本周波数および高調波の軌跡おける時間軸上の位置のうち、対象楽曲に対応する歌詞の文字が発声されるべき時間軸上の位置それぞれで形成される区間を音声存在区間として区間軌跡を抽出することができる。

より具体的には、この構成を以下に示す第７の構成（請求項７）のようにするとよい。
この構成においては、前記軌跡推定手段により推定された軌跡における時間軸に沿った位置のうち、前記対象楽曲に対応する歌詞の文字が発声されるべき時間軸上の位置それぞれに「１」がセットされ、それ以外の位置それぞれに「０」がセットされた窓関数ｗｉｎ［ｔ］（ｔは時間軸上の位置；以下同様）を、前記音声存在区間を示す関数として生成する区間生成手段，を備えている。

そして、前記軌跡推定手段は、音声成分における基本周波数の軌跡を示す関数Ｆ０［ｔ］と、音声成分における高調波の軌跡を示す関数Ｇ［ｔ，ｍ］（ｍは高調波の次数；以下同様）と、を推定して、前記軌跡抽出手段は、下記の式５，式６のように、前記軌跡推定手段により推定された関数Ｆ０［ｔ］，Ｇ［ｔ，ｍ］それぞれに、前記区間生成手段により生成された窓関数ｗｉｎ［ｔ］を乗算し、該乗算して得られる関数Ｆ０’［ｔ］，Ｇ’［ｔ，ｍ］を、前記区間軌跡を示す関数として算出する。

Ｆ０’［ｔ］＝Ｆ０［ｔ］・ｗｉｎ［ｔ］ … （式５）
Ｇ’［ｔ，ｍ］＝Ｇ［ｔ，ｍ］・ｗｉｎ［ｔ］ … （式６）
この構成では、音声存在区間を示す窓関数ｗｉｎ［ｔ］を、音声成分の軌跡を示す関数Ｆ０［ｔ］，Ｇ［ｔ，ｍ］に乗算することにより、その軌跡から抽出された区間軌跡を示す関数を算出することができる。

ところで、上述したように、音声成分に占める大部分は、基本周波数および高調波など調波構造をなす母音および子音の成分であるが、一部の子音に調波構造をなさない成分があるため、このような成分を対象楽曲から除去すべき成分として特定できることが望ましい。

このためには、例えば、上記構成を以下に示す第８の構成（請求項８）とすればよい。
この構成においては、前記対象楽曲において調波構造となっていない成分を抽出し、該抽出してなる非調波成分のうち、前記音声存在区間内において所定のしきい値以上のレベルとなっている成分を、前記対象楽曲に含まれる子音成分として抽出する子音抽出手段と、を備えている。そして、前記成分除去手段は、前記対象楽曲から、前記軌跡抽出手段により抽出された区間軌跡における基本周波数および高調波それぞれに対応する成分と、前記子音抽出手段により抽出された子音成分と、を除去する。

この構成であれば、対象楽曲において調波構造となっていない特定の成分を子音成分として抽出したうえで、これを元の対象楽曲から除去することができるようになる。
より具体的には、この構成を以下に示す第９の構成（請求項９）のようにするとよい。

この構成においては、前記軌跡推定手段により推定された軌跡における時間軸に沿った位置のうち、前記対象楽曲に対応する歌詞の文字が発声されるべき時間軸上の位置それぞれに「１」がセットされ、それ以外の位置それぞれに「０」がセットされた窓関数ｗｉｎ［ｔ］（ｔは時間軸上の位置；以下同様）を、前記音声存在区間を示す関数として生成する区間生成手段，を備えている。

そして、前記子音抽出手段は、前記対象楽曲の成分を示す関数ｘ＿０［ｔ］に基づいて前記非調波成分を示す関数ｘ＿２［ｔ］を算出した後、下記の式７のように、該関数ｘ＿２［ｔ］に、前記区間生成手段により生成された窓関数ｗｉｎ［ｔ］を乗算し、該乗算して得られる関数ｘ＿３［ｔ］を、前記対象楽曲に含まれる子音成分を示す関数として算出する。

ｘ＿３［ｔ］＝ｘ＿２［ｔ］・ｗｉｎ［ｔ］ … （式７）
この構成では、音声存在区間を示す窓関数ｗｉｎ［ｔ］を、非調波成分を示す関数ｘ＿２［ｔ］に乗算することにより、対象楽曲に含まれる子音成分を関数として算出することができる。

また、上記各構成において、対象楽曲から音声成分を除去するにあたっては、対象楽曲から該当成分それぞれを一括して除去することとすればよいが、複数の手段により段階的に除去することとしてもよい。

この後者のためには、例えば、上記各構成を以下に示す第１０の構成（請求項１０）のようにするとよい。
この構成において、前記成分除去手段は、前記対象楽曲から、前記軌跡抽出手段により抽出された区間軌跡における基本周波数および高調波それぞれに対応する成分を除去する第１成分除去手段と、前記対象楽曲から、前記子音抽出手段により抽出された子音成分を除去する第２成分除去手段と、からなる。

この構成であれば、対象楽曲からの基本周波数および高調波に対応する成分それぞれの除去と、対象楽曲からの子音成分の除去と、をそれぞれ独立した手段により段階的に除去することができる。この場合、各成分に応じて適切な除去の方法を採用することができるため、より適切に対象楽曲から音声成分を除去することができるようになる。

この構成における第１成分除去手段による除去の方法については特に限定されないが、例えば、以下に示す第１１の構成（請求項１１）のようにすることが考えられる。
この構成において、前記第１成分除去手段は、前記軌跡抽出手段により抽出された区間軌跡における基本周波数および高調波それぞれに対応する成分を減衰させるフィルタ特性を有するフィルタ関数ｆｉｌを生成した後、下記の式８のように、前記対象楽曲の成分を示す関数ｘ＿０［ｔ］と、前記フィルタ関数ｆｉｌと、の畳み込み積分を行うことにより、前記対象楽曲から前記区間軌跡における基本周波数および高調波それぞれに対応する成分を除去してなる成分を示す関数ｘ＿４［ｔ］を特定する。

ｘ＿４［ｔ］＝ｘ＿０［ｔ］＊ｆｉｌ（＊は、畳み込み積分の意） … （式８）
この構成であれば、対象楽曲における成分のうち、区間軌跡における基本周波数および高調波それぞれに対応する成分をフィルタ特性で減衰させることにより、これら成分を除去することができる。

さらに、この構成は、以下に示す第１２の構成（請求項１２）のように構成するとよい。
この構成において、前記第１成分除去手段は、前記軌跡抽出手段により抽出された区間軌跡における基本周波数および高調波それぞれに対応する成分を減衰させるべき時間軸上の位置それぞれについて、その成分と、該当位置より所定時間だけ前の前記区間軌跡における基本周波数および高調波それぞれに対応する成分で規定される残響成分と、を減衰させるフィルタ特性を有するフィルタ関数ｆｉｌを生成する。

この構成であれば、対象楽曲における成分のうち、子音成分だけでなく、音声の残響成分についても併せて減衰させることにより、これら成分を除去することができる。
また、上記課題を解決するためには、上記第１〜第１２のいずれかの構成における楽曲編集システムの備える全ての手段としてコンピュータシステムを機能させるためのプログラム（請求項１３）としてもよい。

このプログラムにより制御されるコンピュータシステムであれば、上記第１〜第１２のいずれかの構成における楽曲編集システムと同様の作用，効果を得ることができる。
なお、上述したプログラムは、コンピュータシステムによる処理に適した命令の順番付けられた列からなるものであって、各種記録媒体や通信回線を介して楽曲編集システムや、これを利用するユーザに提供されるものである。

以下に本発明の実施形態を図面と共に説明する。
（１）ハードウェア構成
楽曲編集システム１は、図１に示すように、システム全体を制御する制御部１１，各種情報を記憶する記憶部１３，ネットワーク２を介した通信を制御する通信部１５，キーボードやディスプレイなどからなるユーザインタフェース（Ｕ／Ｉ）部１７，記録メディアを介して情報を入出力するメディアドライブ１９などを備えた周知のコンピュータシステムである。

この楽曲編集システム１は、ユーザインタフェース部１７または通信部１５を介して外部から所定の指令を受けた際、制御部１１が記憶部１３に記憶されたプログラムに従って各種処理を実行することによって、本発明の楽曲編集システムとしての機能を発揮する。

なお、本実施形態では、楽曲編集システム１が単体のコンピュータシステムにより構成されているが、それぞれ協調して動作する複数のコンピュータシステムにより構成できることはいうまでもない。
（２）機能ブロック
以下、上述したプログラムの実行に伴って発揮される機能をその処理手順に沿って可視的に表現した機能ブロックを図２に基づいて説明する。

まず、外部からの指令を受けて、処理対象となる楽曲（以降「対象楽曲」という）を再生するための楽曲データ（入力楽曲データ），および，その対象楽曲に対応する歌詞（以降「対象歌詞」）を示す歌詞データが取得される。

ここでは、外部からの指令に応じた入力楽曲データおよび歌詞データが、通信部１５（つまりネットワーク２）またはメディアドライブ１９（つまり記録メディア）を介して、または、記憶部１３に記憶されているデータの中から取得される。

なお、ここで取得される入力楽曲データは、所定の歌詞の文字それぞれを発声してなる音声が含まれた対象楽曲を再生するためのデータであり、この対象楽曲は、複数チャネル（本実施形態では左右チャネル）それぞれの成分（関数ｘＬ＿０［ｔ］，ｘＲ＿０［ｔ］で示される，ｔは時間軸上の位置；以下同様）により音空間における各音成分の定位を規定した楽曲である。

こうして取得された入力楽曲データ（で示される対象楽曲）は、後述する強調変換手段１１０，子音抽出手段１６０，成分除去手段１７０それぞれに渡され、歌詞データ（で示される対象歌詞）は、後述する区間生成手段１４０に渡される。
（２−１）強調変換手段１１０
上述した対象楽曲を受けた強調変換手段１１０は、この対象楽曲を音声成分が強調された強調楽曲に変換する。

具体的には、対象楽曲における音声成分が左右チャネルにおいて同位相となるように、左右チャネルのいずれか一方の成分（関数ｘＬ＿０［ｔ］，ｘＲ＿０［ｔ］）における位相を相対的に時間差Δｔだけ遅らせたうえ、下記の式１または式２のように、これら成分を加算することによって、対象楽曲を音声成分が強調された強調楽曲（関数ｘ＿１［ｔ］で示される）に変換する。このように左右チャネルの成分を加算していることから、強調楽曲は単一チャネル（つまりモノラル）の成分からなるものとなる。

ｘ＿１［ｔ］＝ｘＬ＿０［ｔ］＋ｘＲ＿０［ｔ＋Δｔ］ … （式１）
ｘ＿１［ｔ］＝ｘＬ＿０［ｔ＋Δｔ］＋ｘＲ＿０［ｔ］ … （式２）
この式１，式２における時間差Δｔは、対象楽曲毎に実験的に求めたものを使用することとしてもよいし、数学的に算出することとしてもよい。この後者のためには、例えば、下記の式３または式４により算出されるφが最大になる時間差τを時間差Δｔとすることが考えられる。

φ［τ］＝∫ｘＬ＿０［ｔ］・ｘＲ＿０［ｔ＋τ］ｄｔ … （式３）
φ［τ］＝∫ｘＬ＿０［ｔ＋τ］・ｘＲ＿０［ｔ］ｄｔ … （式４）
こうして変換された強調楽曲（関数ｘ＿１［ｔ］）は、後述するリサンプリング手段１２０に渡される。
（２−２）リサンプリング手段１２０
強調変換手段１１０に変換されてなる強調楽曲（関数ｘ＿１［ｔ］）を渡されたリサンプリング手段１２０は、強調楽曲に対し、軌跡推定手段１３０による軌跡の推定に適したサンプリング周波数となるようにサンプリング周波数変換を行う。

ここでは、例えば、対象楽曲におけるサンプリング周波数が、軌跡推定手段１３０による軌跡の推定に適したサンプリング周波数よりも高ければ、そのサンプリング周波数を下げるべくサンプリング周波数変換（ダウンサンプリング）が実施され、軌跡推定手段１３０による軌跡の推定に適したサンプリング周波数よりも低ければ、そのサンプリング周波数を上げるべくサンプリング周波数変換（アップサンプリング）が実施される。

こうしてサンプリング周波数変換が行われた強調楽曲（関数ｘ＿１’［ｔ］）は、軌跡推定手段１３０に渡される。
（２−３）軌跡推定手段１３０
リサンプリング手段１２０によりサンプリング周波数変換された強調楽曲を受けた軌跡推定手段１３０は、その対象楽曲において一定以上の音量で推移する基本周波数の軌跡（関数Ｆ０［ｔ］で示される）と、その基本周波数に対応する高調波の軌跡（関数Ｇ［ｔ，ｍ］，ｍは高調波の次数；以下同様）と、を推定する。

ここでは、上述した特許文献１に記載の技術に基づいて優勢な基本周波数の軌跡を推定すると共に、その推定の過程において算出される基本周波数の候補となるパラメータθの集合に基づいて高調波の軌跡を推定する（特許文献１の段落００２２〜００２９参照）。

こうして推定された軌跡（関数Ｆ０［ｔ］，Ｇ［ｔ，ｍ］）は、後述する区間生成手段１４０，軌跡抽出手段１５０それぞれに渡される。
（２−４）区間生成手段１４０
軌跡推定手段１３０に推定された軌跡（関数Ｆ０［ｔ］，Ｇ［ｔ，ｍ］），および，歌詞データを受けた区間生成手段１４０は、その軌跡における時間軸に沿った位置のうち、歌詞データで示される対象歌詞の文字が発声されるべき時間軸上の位置それぞれに「１」がセットされ、それ以外の位置それぞれに「０」がセットされた窓関数ｗｉｎ［ｔ］を、対象歌詞の文字それぞれが発声されるべき時間軸上の位置で形成される区間（以降「音声存在区間」という）を示す関数として生成する。

具体的には、軌跡推定手段１３０に推定された軌跡における時間軸上の位置のうち、対象歌詞の各文字が発声された場合における基本周波数および高調波のパターンと近似している時間軸上の位置に、その文字が発声されるべき位置を示す「１」を割り当て、それ以外の位置に「０」を割り当てていくことにより、窓関数ｗｉｎ［ｔ］が生成される。

こうして特定された音声存在区間（窓関数ｗｉｎ［ｔ］）は、後述する軌跡抽出手段１５０，子音抽出手段１６０それぞれに渡される。
（２−５）軌跡抽出手段１５０
軌跡推定手段１３０に推定された軌跡（関数Ｆ０［ｔ］，Ｇ［ｔ，ｍ］），および，区間生成手段１４０により特定された音声存在区間（窓関数ｗｉｎ［ｔ］）を受けた軌跡抽出手段１５０は、その軌跡のうち、音声存在区間のみからなる区間軌跡を抽出する。

ここでは、下記の式５，式６のように、軌跡推定手段１３０により推定された関数Ｆ０［ｔ］，Ｇ［ｔ，ｍ］それぞれに、区間生成手段１４０により生成された窓関数ｗｉｎ［ｔ］を乗算し、こうして得られる関数Ｆ０’［ｔ］，Ｇ’［ｔ，ｍ］を、区間軌跡を示す関数として算出する。

Ｆ０’［ｔ］＝Ｆ０［ｔ］・ｗｉｎ［ｔ］ … （式５）
Ｇ’［ｔ，ｍ］＝Ｇ［ｔ，ｍ］・ｗｉｎ［ｔ］ … （式６）
こうして特定された区間軌跡（関数Ｆ０’［ｔ］，Ｇ’［ｔ，ｍ］）は、後述する成分除去手段１７０に渡される。
（２−６）子音抽出手段１６０
上述した対象楽曲，および，区間生成手段１４０により生成された音声存在区間（窓関数ｗｉｎ［ｔ］）を受けた子音抽出手段１６０は、対象楽曲において調波構造となっていない成分を抽出し、こうして抽出した非調波成分のうち、音声存在区間内において所定のしきい値以上のレベルとなっている成分を、対象楽曲に含まれる子音成分として抽出する。

具体的には、まず、対象楽曲における時間軸上の位置それぞれについて、その位置のスペクトル分布において調波構造となっている成分を除去してなる成分それぞれを抽出した後、下記の式７，式８のように、こうして抽出された非調波成分を示す関数ｘＬ＿２［ｔ］，ｘＲ＿２［ｔ］に窓関数ｗｉｎ［ｔ］を乗算し、こうして得られる関数ｘＬ＿３［ｔ］，ｘＲ＿３［ｔ］を、対象楽曲に含まれる子音成分を示す関数として特定する。

ｘＬ＿３［ｔ］＝ｘＬ＿２［ｔ］・ｗｉｎ［ｔ］ … （式７）
ｘＲ＿３［ｔ］＝ｘＲ＿２［ｔ］・ｗｉｎ［ｔ］ … （式８）
こうして特定された子音成分（関数ｘＬ＿３［ｔ］，ｘＲ＿３［ｔ］）は、後述する成分除去手段１７０に渡される。
（２−７）成分除去手段１７０
上述した対象楽曲，軌跡抽出手段１５０により抽出された区間軌跡（関数Ｆ０’［ｔ］，Ｇ’［ｔ，ｍ］），および，子音抽出手段１６０により抽出された子音成分（関数ｘＬ＿３［ｔ］，ｘＲ＿３［ｔ］）を受けた成分除去手段１７０は、まず、第１成分除去手段１７２によって、対象楽曲における成分から区間軌跡における基本周波数および高調波それぞれに対応する成分を除去した後、第２成分除去手段１７４によって、対象楽曲における成分から子音成分を除去する。

この第１成分除去手段１７２は、まず、区間軌跡における基本周波数および高調波それぞれに対応する成分を減衰させるフィルタ特性（ノッチフィルタとしての特性）を有するフィルタ関数ｆｉｌを生成する。

このフィルタ関数ｆｉｌは、全ての周波数で振幅が１となるフラットな周波数スペクトル（Ｌ［ｆ］＝１，ｆは周波数）を初期特性とし、この初期特性のうち、区間軌跡における基本周波数および高調波ｍ’・ｆ０（ｍ’は基本周波数の次数１および高調波の次数２以上，ｆ０は基本周波数）に該当する周波数の特性（Ｌ［ｍ’・ｆ０］）を、その成分（Ｆ０’［ｔ］またはＧ’［ｔ，ｍ］）の逆数を乗じた特性（Ｌ［ｍ’・ｆ０］＝１／Ｆ０’［ｔ］または１／Ｇ’［ｔ，ｍ］）に修正することにより最終的なフィルタ特性が規定される。

このフィルタ特性は、区間軌跡における基本周波数および高調波それぞれに対応する成分を減衰させるべき時間軸上の位置それぞれについて、その成分だけでなく、該当位置より所定時間だけ前の区間軌跡における基本周波数および高調波それぞれに対応する成分で規定される残響成分を併せて減衰させる特性としてもよい。

この場合には、所定時間だけ前の区間軌跡における基本周波数および高調波それぞれに対応する成分を、その時間に応じて減衰させたうえで、これを残響成分として規定し、その残響成分に対応する周波数の特性を、その残響成分の逆数を初期特性に乗じた特性となるように修正すればよい。この場合、対象楽曲における成分のうち、子音成分だけでなく、音声の残響成分についても併せて減衰させることにより、これら成分を除去できる。

そして、下記の式９，式１０のように、対象楽曲の成分を示す関数ｘＬ＿０［ｔ］，ｘＲ＿０［ｔ］と、フィルタ関数ｆｉｌと、の畳み込み積分を行うことにより、対象楽曲から区間軌跡における基本周波数および高調波それぞれに対応する成分が除去されてなる成分（関数ｘＬ＿４［ｔ］，ｘＲ＿４［ｔ］で示される）を算出する。

ｘＬ＿４［ｔ］＝ｘＬ＿０（ｔ）＊ｆｉｌ … （式９）
ｘＲ＿４［ｔ］＝ｘＲ＿０（ｔ）＊ｆｉｌ … （式１０）
（＊は、畳み込み積分の意）
また、第２成分除去手段１７４は、第１成分除去手段１７２に算出された成分（関数ｘＬ＿４［ｔ］，ｘＲ＿４［ｔ］）から、さらに子音成分を除去する。

具体的には、下記の式１１，式１２に示すように、第１成分除去手段１７２に生成された成分を示す関数ｘＬ＿４［ｔ］，ｘＲ＿４［ｔ］から、それぞれ子音成分を示す関数ｘＬ＿３［ｔ］，ｘＲ＿３［ｔ］を減算することにより、第１成分除去手段１７２に特定された成分から子音成分が除去されてなる出力成分（関数ｘＬ［ｔ］，ｘＲ［ｔ］で示される）を生成する。

ｘＬ［ｔ］＝ｘＬ＿４［ｔ］−ｘＬ＿３［ｔ］ … （式１１）
ｘＲ［ｔ］＝ｘＲ＿４［ｔ］−ｘＲ＿３［ｔ］ … （式１２）
そして、こうして生成された出力成分（関数ｘＬ［ｔ］，ｘＲ［ｔ］）を示す楽曲データ（出力楽曲データ）が記憶部１３に記憶される、または、通信部１５やメディアドライブ１９を介して外部に転送される。
（３）作用，効果
上記構成に係る楽曲編集システム１では、対象楽曲において、一定以上の音量で推移する基本周波数，および，これに対応する高調波の時間軸に沿った軌跡を音声成分の軌跡として推定する（軌跡推定手段１３０）。

対象楽曲に文字を発声してなる音声が含まれている場合には、その成分の中で音声成分が最も優勢に推移することが一般的であるため、このような対象楽曲について上記のように推定した軌跡は、楽曲における音声成分の軌跡といえる。特に、基本周波数および高調波で構成された母音および子音の成分は、音声成分の大部分を占めるため、上記のように基本周波数および高調波の時間軸に沿った推移を軌跡として推定するということは、音声成分に占める大部分の軌跡を推定できることになる。

そこで、上記実施形態では、上記のように推定した軌跡のうち、対象歌詞の文字それぞれが発声されるべき時間軸上の位置で形成される区間（音声存在区間）のみからなる区間軌跡を抽出することにより、上記のように推定した音声成分の軌跡から音声成分が含まれていない区間を除去している（軌跡抽出手段１５０）。

このように、対象楽曲に含まれる音声成分の軌跡として、本来音声成分が含まれていない区間が除外されてなる軌跡（区間軌跡）を推定することができるため、この軌跡における基本周波数および高調波それぞれに対応する成分を対象楽曲から除去することによって（成分除去手段１７０）、本来音声成分でない成分が除去されてしまうことを防止しつつ、対象楽曲から適切に音声成分を除去することができる。

また、上記実施形態では、強調変換手段１１０が、対象楽曲における各音成分の定位状態に基づいて、対象楽曲を音声成分が強調されてなる強調楽曲に変換しており、軌跡推定手段１３０が、この強調楽曲における音声成分の軌跡を推定している。

このように、各音成分の定位状態に基づいて対象楽曲における音声成分を強調することにより、音声成分が優勢な基本周波数および高調波となりやすくなる結果、音声成分の軌跡を推定するに際しての精度を高めることができる。

また、上記実施形態において、強調変換手段１１０は、対象楽曲における音声成分が左右チャネルにおいて同位相としたうえで、これら成分を加算することによって、音声成分が強調された強調楽曲を生成している。

これにより、対象楽曲における音声成分が各チャネルにおいて同位相になっていなかったとしても、左右チャネルそれぞれにより規定される音声成分を同位相にした（つまり中心に定位するようにした）うえで、これら左右チャネルの成分を加算して音声成分を強調することができる。

また、上記実施形態において、強調変換手段１１０は、音声成分が同位相になるような左右チャネルの成分の時間差Δｔを必要に応じて算出したうえで、これに基づいて音声成分を強調することができる。

また、上記実施形態においては、軌跡推定手段１３０による音声成分の軌跡を推定するに先立ち、リサンプリング手段１２０が、対象楽曲におけるサンプリング周波数をその推定に適したサンプリング周波数に変換しているため、より適切に軌跡の推定を実施できるようになる。

また、上記実施形態においては、軌跡抽出手段１５０によって、基本周波数および高調波の軌跡おける時間軸上の位置のうち、対象楽曲に対応する歌詞の文字が発声されるべき時間軸上の位置それぞれで形成される区間を音声存在区間として区間軌跡を抽出できる。

具体的には、音声存在区間を示す窓関数ｗｉｎ［ｔ］を、音声成分の軌跡を示す関数Ｆ０［ｔ］，Ｇ［ｔ，ｍ］に乗算することにより、その軌跡から抽出された区間軌跡を示す関数を算出することができる。

また、上記実施形態においては、子音抽出手段１６０が、対象楽曲において調波構造となっていない成分を抽出し、こうして抽出してなる非調波成分のうち、音声存在区間内において所定のしきい値以上のレベルとなっている成分を、対象楽曲に含まれる子音成分として抽出する。

具体的には、音声存在区間を示す窓関数ｗｉｎ［ｔ］を、非調波成分を示す関数ｘ＿２［ｔ］に乗算することにより、対象楽曲に含まれる子音成分を関数として算出する。そのため、こうして抽出された子音成分を成分除去手段１７０（第２成分除去手段１７４）によって対象楽曲から除去することで、対象楽曲から非調波の子音成分までも除去することができる。

また、上記実施形態においては、成分除去手段１７０が、まず、第１成分除去手段１７２によって、対象楽曲から区間軌跡における基本周波数および高調波それぞれに対応する成分を除去した後、第２成分除去手段１７４によって、対象楽曲から子音成分を除去している。

このように、対象楽曲からの基本周波数および高調波に対応する成分それぞれの除去と、対象楽曲からの子音成分の除去と、をそれぞれ独立した手段により段階的に除去することができるため、各成分に応じて適切な除去の方法を採用することで、より適切に対象楽曲から音声成分を除去することができるようになる。

また、第１成分除去手段１７２では、対象楽曲における成分のうち、区間軌跡における基本周波数および高調波それぞれに対応する成分をフィルタ特性で減衰させることにより、これら成分を除去することができる。

楽曲編集システムのハードウェア構成を示すブロック図楽曲編集システムにおいて発揮される機能を図示した機能ブロック図

符号の説明

１…楽曲編集システム、２…ネットワーク、１１…制御部、１３…記憶部、１５…通信部、１７…ユーザインタフェース部、１９…メディアドライブ、１１０…強調変換手段、１２０…リサンプリング手段、１３０…軌跡推定手段、１４０…区間生成手段、１５０…軌跡抽出手段、１６０…子音抽出手段、１７０…成分除去手段、１７２…第１成分除去手段、１７４…第２成分除去手段。

Claims

所定の歌詞の文字それぞれを発声してなる音声が含まれた楽曲（以降「対象楽曲」という）において、一定以上の音量で推移する基本周波数，および，該基本周波数に対応する高調波の時間軸に沿った軌跡を音声成分の軌跡として推定する軌跡推定手段と、
該軌跡推定手段により推定された軌跡のうち、前記対象楽曲に対応する歌詞の文字それぞれが発声されるべき時間軸上の位置で形成される区間（以降「音声存在区間」という）のみからなる区間軌跡を抽出する軌跡抽出手段と、
前記対象楽曲から、前記軌跡抽出手段により抽出された区間軌跡における基本周波数および高調波それぞれに対応する成分を除去する成分除去手段と、を備えている
ことを特徴とする楽曲編集システム。
前記対象楽曲が、複数チャネルそれぞれの成分により音空間における各音成分の定位を規定している場合において、
前記対象楽曲における各音成分の定位状態に基づいて、該対象楽曲を音声成分が強調されてなる強調楽曲に変換する強調変換手段，を備えており、
前記軌跡推定手段は、前記強調変換手段により変換された強調楽曲における音声成分の軌跡を推定する
ことを特徴とする請求項１に記載の楽曲編集システム。
前記対象楽曲が、左右チャネルそれぞれの成分により音空間における各音成分の定位を規定している場合において、
前記強調変換手段は、前記対象楽曲における音声成分が左右チャネルにおいて同位相となるように、左右チャネルのいずれか一方の成分（関数ｘＬ＿０［ｔ］，ｘＲ＿０［ｔ］で示される（ｔは時間軸上の位置；以下同様））における位相を相対的に時間差Δｔだけ遅らせたうえ、下記の式１または式２のように、これら成分を加算することによって、前記対象楽曲を音声成分が強調された強調楽曲（関数ｘ＿１［ｔ］で示される）に変換する
ことを特徴とする請求項２に記載の楽曲編集システム。
ｘ＿１［ｔ］＝ｘＬ＿０［ｔ］＋ｘＲ＿０［ｔ＋Δｔ］ … （式１）
ｘ＿１［ｔ］＝ｘＬ＿０［ｔ＋Δｔ］＋ｘＲ＿０［ｔ］ … （式２）
前記強調変換手段は、前記対象楽曲における左右チャネルの成分（関数ｘＬ＿０［ｔ］，ｘＲ＿０［ｔ］）について、下記の式３または式４により算出されるφが最大になる時間差τを前記時間差Δｔとして前記強調楽曲への変換を行う
ことを特徴とする請求項３に記載の楽曲編集システム。
φ［τ］＝∫ｘＬ＿０［ｔ］・ｘＲ＿０［ｔ＋τ］ｄｔ … （式３）
φ［τ］＝∫ｘＬ＿０［ｔ＋τ］・ｘＲ＿０［ｔ］ｄｔ … （式４）
前記強調変換手段により変換された強調楽曲に対し、前記軌跡推定手段による軌跡の推定に適したサンプリング周波数となるようにサンプリング周波数変換を行うリサンプリング手段，を備えており、
前記軌跡推定手段は、前記リサンプリング手段によりサンプリング周波数変換がなされた強調楽曲における音声成分の軌跡を推定する
ことを特徴とする請求項２から４のいずれかに記載の楽曲編集システム。
前記軌跡抽出手段は、前記軌跡推定手段により推定された軌跡における時間軸に沿った位置のうち、前記対象楽曲に対応する歌詞の文字が発声されるべき時間軸上の位置それぞれで形成される区間を前記音声存在区間として前記区間軌跡を抽出する
ことを特徴とする請求項１から５のいずれかに記載の楽曲編集システム。
前記軌跡推定手段により推定された軌跡における時間軸に沿った位置のうち、前記対象楽曲に対応する歌詞の文字が発声されるべき時間軸上の位置それぞれに「１」がセットされ、それ以外の位置それぞれに「０」がセットされた窓関数ｗｉｎ［ｔ］（ｔは時間軸上の位置；以下同様）を、前記音声存在区間を示す関数として生成する区間生成手段，を備えており、
前記軌跡推定手段は、音声成分における基本周波数の軌跡を示す関数Ｆ０［ｔ］と、音声成分における高調波の軌跡を示す関数Ｇ［ｔ，ｍ］（ｍは高調波の次数；以下同様）と、を推定して、
前記軌跡抽出手段は、下記の式５，式６のように、前記軌跡推定手段により推定された関数Ｆ０［ｔ］，Ｇ［ｔ，ｍ］それぞれに、前記区間生成手段により生成された窓関数ｗｉｎ［ｔ］を乗算し、該乗算して得られる関数Ｆ０’［ｔ］，Ｇ’［ｔ，ｍ］を、前記区間軌跡を示す関数として算出する
ことを特徴とする請求項６に記載の楽曲編集システム。
Ｆ０’［ｔ］＝Ｆ０［ｔ］・ｗｉｎ［ｔ］ … （式５）
Ｇ’［ｔ，ｍ］＝Ｇ［ｔ，ｍ］・ｗｉｎ［ｔ］ … （式６）
前記対象楽曲において調波構造となっていない成分を抽出し、該抽出してなる非調波成分のうち、前記音声存在区間内において所定のしきい値以上のレベルとなっている成分を、前記対象楽曲に含まれる子音成分として抽出する子音抽出手段と、を備えており、
前記成分除去手段は、前記対象楽曲から、前記軌跡抽出手段により抽出された区間軌跡における基本周波数および高調波それぞれに対応する成分と、前記子音抽出手段により抽出された子音成分と、を除去する
ことを特徴とする請求項１から７のいずれかに記載の楽曲編集システム。
前記軌跡推定手段により推定された軌跡における時間軸に沿った位置のうち、前記対象楽曲に対応する歌詞の文字が発声されるべき時間軸上の位置それぞれに「１」がセットされ、それ以外の位置それぞれに「０」がセットされた窓関数ｗｉｎ［ｔ］（ｔは時間軸上の位置；以下同様）を、前記音声存在区間を示す関数として生成する区間生成手段，を備えており、
前記子音抽出手段は、前記対象楽曲の成分を示す関数ｘ＿０［ｔ］に基づいて前記非調波成分を示す関数ｘ＿２［ｔ］を算出した後、下記の式７のように、該関数ｘ＿２［ｔ］に、前記区間生成手段により生成された窓関数ｗｉｎ［ｔ］を乗算し、該乗算して得られる関数ｘ＿３［ｔ］を、前記対象楽曲に含まれる子音成分を示す関数として算出する
ことを特徴とする請求項８に記載の楽曲編集システム。
ｘ＿３［ｔ］＝ｘ＿２［ｔ］・ｗｉｎ［ｔ］ … （式７）
前記成分除去手段は、
前記対象楽曲から、前記軌跡抽出手段により抽出された区間軌跡における基本周波数および高調波それぞれに対応する成分を除去する第１成分除去手段と、
前記対象楽曲から、前記子音抽出手段により抽出された子音成分を除去する第２成分除去手段と、からなる
ことを特徴とする請求項８または請求項９に記載の楽曲編集システム。
前記第１成分除去手段は、前記軌跡抽出手段により抽出された区間軌跡における基本周波数および高調波それぞれに対応する成分を減衰させるフィルタ特性を有するフィルタ関数ｆｉｌを生成した後、下記の式８のように、前記対象楽曲の成分を示す関数ｘ＿０［ｔ］と、前記フィルタ関数ｆｉｌと、の畳み込み積分を行うことにより、前記対象楽曲から前記区間軌跡における基本周波数および高調波それぞれに対応する成分を除去してなる成分を示す関数ｘ＿４［ｔ］を特定する
ことを特徴とする請求項１０に記載の楽曲編集システム。
ｘ＿４［ｔ］＝ｘ＿０［ｔ］＊ｆｉｌ（＊は、畳み込み積分の意） … （式８）
前記第１成分除去手段は、前記軌跡抽出手段により抽出された区間軌跡における基本周波数および高調波それぞれに対応する成分を減衰させるべき時間軸上の位置それぞれについて、その成分と、該当位置より所定時間だけ前の前記区間軌跡における基本周波数および高調波それぞれに対応する成分で規定される残響成分と、を減衰させるフィルタ特性を有するフィルタ関数ｆｉｌを生成する
ことを特徴とする請求項１１に記載の楽曲編集システム。
請求項１から１２のいずれかに記載の楽曲編集システムの備える全ての手段としてコンピュータシステムを機能させるためのプログラム。