JP5273080B2

JP5273080B2 - 歌声分離装置、及びプログラム

Info

Publication number: JP5273080B2
Application number: JP2010078666A
Authority: JP
Inventors: 典昭阿瀬見; 誠司黒川
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 2010-03-30
Filing date: 2010-03-30
Publication date: 2013-08-28
Anticipated expiration: 2030-03-30
Also published as: JP2011209593A

Description

本発明は、歌声を含む複数の音が重畳した混合音から、歌声を分離する歌声分離装置、及びプログラムに関する。

従来、楽曲中にて演奏された楽器音と歌声とが重畳した混合音から、歌声の時間軸に沿った推移（即ち、メロディ）を抽出する装置が知られている（特許文献１参照）。
この特許文献１に記載の装置において、歌声は、時間軸に沿った軌跡が連続し、かつ混合音の中音域及び高音域にて最もパワーが大きい調波構造を有すると仮定されている。

その仮定の下、特許文献１に記載された装置では、歌声が存在する周波数帯域に制限された混合音を、一定時間長の時間窓を時間軸上でずらしながら周波数スペクトルを算出し、算出されたスペクトルからそれぞれの周波数を基本周波数とする調波構造成分の存在確率を反復推定により計算し、各基本周波数に対する調波構造成分の確率密度の変化（確率密度関数）を導出する。そして、確率密度関数の時間軸に沿った推移において、確率密度関数の値が閾値以上となるピークを、それぞれ、時間軸に沿って追跡して信頼度を導出する。その導出された各ピークの信頼度の中で、値が最も大きい信頼度に対応する基本周波数の軌跡を、歌声の時間軸に沿った推移（即ち、メロディ）として出力する。

特開２００１−１２５５６２号

ところで、日本語の子音の中には、調波構造を有していないものがある。このとき、歌声が調波構造を有するものと仮定して歌声を抽出する特許文献１に記載の装置では、調波構造成分と非調波構造成分の両方を有する歌声と演奏音とを含んだ混合音から、その調波構造を有していない歌声の成分を分離することができないという問題がある。

そこで、本発明は、歌声の周波数構造に拘わらず、歌声と演奏音とを含む混合音から、歌声を抽出可能な歌声分離装置、及びプログラムを提供することを目的とする。

上記目的を達成するためになされた本発明の歌声分離装置は、楽音取得手段と、楽音解析手段と、歌唱音取得手段と、歌唱音解析手段と、振幅導出手段と、区間推移導出手段と、歌声分離手段とを備えている。

この本発明の歌声分離装置では、楽音取得手段が、楽曲を歌唱した際の歌声に加えて、当該楽曲にて演奏された楽器の楽器音が含まれる楽音の音圧が時間軸に沿って推移した波形を表すデータとして予め用意された音響データから、楽音の音圧が時間軸に沿って推移した波形である楽音推移を取得して、その取得された楽音推移に含まれる周波数と各周波数の強さとを表す周波数スペクトルを時間軸に沿って配した楽音スペクトログラムを、楽音解析手段が導出する。また、歌唱音取得手段が、楽音取得手段で取得した楽音推移に対応する音響データによって表される楽曲を、音響データに含まれる歌声とは少なくとも異なるタイミングで歌唱した際の歌声である歌唱音を録音した歌声データから、当該歌唱音の音圧が時間軸に沿って推移した歌唱音推移を取得し、その取得した歌唱音推移に含まれる周波数と各周波数の強さとを表す周波数スペクトルを時間軸に沿って配した歌唱音スペクトログラムを、歌唱音解析手段が、歌唱音推移における発声の開始タイミングから終了タイミングまでの期間である分析区間毎に導出する。

さらに、振幅導出手段が、歌唱音解析手段にて導出された各分析区間での歌唱音スペクトログラムを構成する周波数スペクトルの各周波数の強さと、当該分析区間に対応する楽音スペクトログラムを構成する周波数スペクトルの各周波数の強さとの比を表す振幅比率を導出し、その導出された振幅比率それぞれを、当該分析区間に対応する楽音スペクトログラムを構成する周波数スペクトルの各周波数の強さに乗じた結果である分離スペクトルから、時間軸に沿った音圧の推移である区間推移を、区間推移導出手段が導出する。これと共に、歌声分離手段が、区間推移導出手段にて導出された区間推移を楽曲の時間軸に沿って配することで、楽音推移における歌声の音圧が時間軸に沿って推移した歌声推移を生成する。

このような本発明の歌声分離装置にて導出される分離スペクトルは、楽音推移に含まれる歌声の周波数とその歌声の周波数の強さとを表すものとなる。したがって、このような分離スペクトルから導出される区間推移は、分析区間での楽音推移に含まれている歌声の音圧が時間軸に沿って推移した波形となる。

よって、本発明の歌声分離装置によれば、歌声の周波数構造に関わらず、歌声推移を生成することができる。つまり、本発明の歌声分離装置によれば、調波構造を有していない歌声が含まれる楽音推移であっても、その楽音推移から歌声推移を生成することができる。

通常、楽音推移における歌声の音圧の時間軸に沿った推移（以下、楽音波形とする）と、歌唱音の音圧の時間軸に沿った推移（以下、歌唱波形とする）とは、略合同である。しかし、楽曲を歌唱する場合、歌唱者が同一であっても、常に同じようには歌唱できないことや異なる歌唱者が歌唱することを考慮すると、歌唱波形は、楽音波形との間に、周波数軸や時間軸に沿ってズレを有する可能性がある。

そこで、本発明の歌声分離装置では、請求項２に記載のように、範囲特定手段が、歌唱音解析手段にて導出された各分析区間の歌唱音スペクトログラムを楽音解析手段にて導出された楽音スペクトログラムに照合して、当該歌唱音スペクトログラムが時間軸に沿って最も一致する楽音スペクトログラムでの範囲を特定しても良い。この場合、本発明の歌声分離装置における振幅導出手段は、範囲特定手段にて特定された楽音スペクトログラムでの範囲を、各分析区間に対応する楽音スペクトログラムとしても良い。

このような本発明の歌声分離装置では、各分析区間の歌唱音スペクトログラムの周波数の強さと、各歌唱音スペクトログラムが時間軸に沿って最も一致する範囲での楽音スペクトログラムの周波数の強さとを用いて振幅比率を導出する。このため、本発明の歌声分離装置によれば、歌唱波形が楽音波形との間に時間軸に沿ったズレを有していても、歌声推移を精度良く抽出できる。すなわち、本発明の歌声分離装置によれば、歌唱推移の質に拘わらず、歌声推移を生成することができる。

また、本発明の歌声分離装置では、請求項３に記載のように、周波数推定手段が、楽音取得手段にて取得した楽音推移に含まれる歌声の基本周波数が時間軸に沿って推移した周波数推移を推定し、周波数補正手段が、歌唱音取得手段にて取得された歌唱音推移の各分析区間における基本周波数が、周波数推定手段にて推定された周波数推移のうち、当該分析区間に対応する区間での基本周波数に一致するように、当該分析区間での歌唱音スペクトログラムを周波数軸に沿って補正した補正スペクトログラムを生成しても良い。この場合、本発明の歌声分離装置における振幅導出手段は、周波数補正手段にて生成された補正スペクトログラムそれぞれを、各分析区間での歌唱音スペクトログラムとしても良い。

このような本発明の歌声分離装置によれば、振幅比率の導出に、基本周波数が一致するように（即ち、周波数軸に沿って）補正された歌唱音スペクトログラムを用いる。このため、本発明の歌声分離装置によれば、歌唱波形が楽音波形との間に周波数軸に沿ったズレを有していても、歌声推移を生成できる。

本発明の歌声分離装置では、請求項４に記載のように、記憶制御手段が、区間推移導出手段にて導出された区間推移を楽音推移から減算した残留楽音推移を導出して、その導出した残留楽音推移を記憶装置に記憶すると共に、区間推移導出手段にて区間推移が導出される毎に、更新手段が、その導出された区間推移を記憶装置に記憶された残留楽音推移から減算して、当該記憶装置に記憶された残留楽音推移を更新しても良い。

このような本発明の歌声分離装置によれば、楽音推移から全ての区間推移（即ち、歌声推移）を減算すると、楽曲にて演奏された楽器の音圧の時間軸に沿った推移が残留楽音推移として残る。つまり、本発明の歌声分離装置によれば、楽曲中に歌声が含まれていないカラオケ用の楽曲を生成することができる。

本発明の歌声分離装置における楽音解析手段が、楽音推移に含まれる歌声の基本周波数が時間軸に沿って推移した周波数推移を推定する場合、歌唱解析手段は、請求項５に記載のように、歌唱音取得手段にて取得した歌唱音推移における基本周波数が時間軸に沿って推移する歌唱周波数推移を推定し、その推定された歌唱周波数推移が、周波数推移に連動して予め規定された規定値以上変化するタイミングである始端、及びその始端に対応する終端を特定して、始端と終端との間の区間を分析区間としても良い。

このような本発明の歌声分離装置によれば、分析区間を、楽音推移に連動した区間とすることができる。しかも、本発明の歌声分離装置によれば、分析区間を簡易な方法で特定することができる。

本発明は、コンピュータを歌声分離装置として機能させるためのプログラムであっても良い。
本発明が、このようなプログラムとしてなされている場合、本発明のプログラムは、請求項６に記載されたように、音響データから楽音推移を取得する楽音取得手順と、その取得された楽音推移から楽音スペクトログラムを導出する楽音解析手順と、歌声データから歌唱音推移を取得する歌唱音取得手順と、その取得した歌唱音推移から歌唱音スペクトログラムを、分析区間毎に導出する歌唱音解析手順と、その導出された各分析区間での歌唱音スペクトログラム、及び当該分析区間に対応する区間における楽音スペクトログラムに基づいて、振幅比率を導出する振幅導出手順と、その導出された振幅比率それぞれを、当該分析区間に対応する楽音スペクトログラムを構成する周波数スペクトルの各周波数の強さに乗じた結果である分離スペクトルを、時間軸に沿った音圧の推移に変換した区間推移を導出する区間推移導出手順と、その導出した区間推移を時間軸に沿って配することで、歌声推移を生成する歌声分離手順とをコンピュータに実行させる必要がある。

このようになされた本発明のプログラムであれば、例えば、ＤＶＤ−ＲＯＭ、ＣＤ−ＲＯＭ、ハードディスク等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを、請求項１に記載された歌声分離装置として機能させることができる。

実施形態における歌声分離装置の概略構成を示すブロック図である。楽音の音圧の推移を示す説明図である。歌声分離装置の制御部が実行する歌声分離処理の処理手順を示すフローチャートである。歌声分離処理において導出されるスペクトログラムの概要を示す説明図である。歌声分離処理において実行される時間補正、及び周波数補正の概要を示す説明図である。歌声分離処理において実行される分離スペクトルを導出する方法の概要を示す説明図である。歌声分離処理において実行される歌声推移を生成する方法の概要を示す説明図である。

以下に本発明の実施形態を図面と共に説明する。
本発明が適用された歌声分離装置は、楽曲を歌唱した歌声を含む楽音の音圧が時間軸に沿って推移した波形を表す音響データから、歌声の音圧が時間軸に沿って推移した波形である歌声推移を分離・抽出する装置であり、図１に示す情報処理装置１０によって構成されている。
〈歌声分離装置の構成について〉
図１に示すように、情報処理装置１０は、音響データ読取部１２と、入力受付部１３と、表示部１４と、音声入力部１５と、音声出力部１６と、記憶部１７と、制御部２０とを備えている。

このうち、音響データ読取部１２は、記憶媒体に記憶されている音響データから、時間軸に沿って音響データに対応する楽曲を順次読み取る装置（例えば、ＣＤやＤＶＤの読取装置）である。その音響データは、図２に示すような楽音の音圧が時間軸に沿って推移したアナログ波形を標本化（サンプリング）することで生成されている。なお、アナログ波形には、楽曲を歌唱した際の歌声に加えて、当該楽曲にて演奏された楽器の楽器音が含まれている。

そして、入力受付部１３は、外部からの操作に従って情報や指令の入力を受け付ける入力機器（例えば、キーボードやポインティングデバイス）である。表示部１４は、画像を表示する表示装置（例えば、液晶ディスプレイやＣＲＴ等）である。また、音声入力部１５は、音声を電気信号に変換して制御部２０に入力する装置（いわゆるマイクロホン）である。音声出力部１６は、制御部２０からの電気信号を音声に変換して出力する装置（いわゆるスピーカ）である。

また、記憶部１７は、記憶内容を読み書き可能に構成された不揮発性の記憶装置（例えば、ハードディスク装置）である。この記憶部１７には、音響データに対応する楽曲が歌唱された際の歌声を録音した音（以下、歌唱音とする）である歌声データや、処理プログラムが少なくとも格納されている。その歌声データは、歌声の音圧が時間軸に沿って推移した歌声波形を標本化（サンプリング）することで生成されている。

さらに、制御部２０は、ＲＯＭ２１と、ＲＡＭ２２と、ＣＰＵ２３とを少なくとも有した周知のコンピュータを中心に構成されている。
このうち、ＲＯＭ２１は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するものである。また、ＲＡＭ２２は、処理プログラムやデータを一時的に格納するものである。そして、ＣＰＵ２３は、ＲＯＭ２１やＲＡＭ２２に記憶された処理プログラムに従って各処理（各種演算）を実行する。

なお、本実施形態では、制御部２０が実行する処理プログラムとして、歌声データを用いて、音響データから歌声推移ｖｏｗｆを分離・抽出するものが、予め用意されている。以下、本実施形態では、音響データから歌声推移ｖｏｗｆを分離・抽出する処理を歌声分離処理と称す。
〈歌声分離処理の処理内容について〉
次に、制御部２０が実行する歌声分離処理について説明する。

この歌声分離処理は、入力受付部１３を介して、当該歌声分離処理を起動するための起動指令が入力されると、実行が開始される。
そして、図３に示すように、歌声分離処理は、起動されると、音響データに基づいて、楽音の音圧が時間軸に沿って推移した波形である楽音推移ｔｕｗｆ（ｔｉ）を取得する（Ｓ１１０）。具体的に、本実施形態では、音響データ読取部１２にて読み取った当該楽曲を再生して、その再生した音声（即ち、楽音）を音声出力部１６から出力する。そして、音声入力部１５を介して入力された音声をサンプリングすることで楽音推移ｔｕｗｆ（ｔｉ）を取得する。なお、符合ｔｉは、時間軸に沿って楽音をサンプリングした順番である。

続いて、Ｓ１１０にて取得した楽音推移ｔｕｗｆを、予め規定された時間長ＷＬである分析時間窓ｔｗｉ毎に周波数解析し、その周波数解析の結果をＲＡＭ２２（または記憶部１７）に記憶する。（Ｓ１２０）。

ただし、本実施形態の周波数解析は、周知の離散フーリエ変換（ＤＦＴ：ｄｉｓｃｒｅｔｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）によって実施される。その離散フーリエ変換は、楽音推移ｔｕｗｆの開始時刻から終了時刻までの期間を、予め規定された時間長であるシフト幅ＷＳＬ（ただし、シフト幅ＷＳＬ＜＜分析時間窓の時間長ＷＬ）で、時間軸に沿って分析時間窓ｔｗｉをシフトすることを繰り返しながら実行される。このため、Ｓ１２０での周波数解析の結果、楽音推移ｔｕｗｆの各分析時間窓ｔｗｉに含まれている周波数毎に、その周波数の強さ（以下、スペクトル振幅値とする）ｔｕｓｐ（ｔｗｉ，ｆｉ）が、周波数解析の結果として導出される。ただし、スペクトル振幅値ｔｕｓｐは、実数部及び虚数部それぞれについて導出される。また、符合ｆｉは、周波数の区分（即ち、ＤＦＴによって導出される周波数の区分：単位［ｂｉｎ］）である。

すなわち、本実施形態では、スペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）を、対数軸にて表した周波数軸に沿って配置することで複素（周波数）スペクトルを導出する。そして、その複素スペクトルのスペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）を絶対値とした振幅スペクトルを、時間軸に沿って配置したスペクトログラム（図４（Ａ）参照、以下、楽音スペクトログラムとする）を導出する。なお、図４（Ａ）に示す楽音スペクトログラムでは、色の濃淡によってスペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）の大きさを表した。

続いて、楽音推移ｔｕｗｆ（ｔｉ）に含まれる歌声の基本周波数ｆ０を分析時間窓ｔｗｉ毎に推定し、その推定した基本周波数ｆ０が時間軸に沿って推移した周波数推移ｖｆ０（ｔｗｉ）を導出する（Ｓ１３０）。本実施形態のＳ１３０では、周波数推移ｖｆ０を導出する方法として、例えば、特開２００１−１２５５６２号公報に記載された方法を用いても良い。その方法とは、歌声が存在する周波数帯域に制限された混合音を、一定時間長の時間窓を時間軸上でずらしながら周波数スペクトルを算出し、算出されたスペクトルからそれぞれの周波数を基本周波数とする調波構造成分の存在確率を反復推定により計算し、各基本周波数に対する調波構造成分の確率密度の変化（確率密度関数）を導出する。そして、確率密度関数の時間軸に沿った推移において、値が閾値以上となるピークを、それぞれ、時間軸に沿って追跡することで導出された信頼度の中で、値が最も大きい信頼度に対応する基本周波数を、基本周波数ｆ０として推定するものである。

さらに、記憶部１７に記憶されている歌声データに基づいて、歌唱音の音圧が時間軸に沿って推移した波形である歌唱音推移ｕｖｗｆ（ｔｉ）を取得する（Ｓ１４０）。その取得した歌唱音推移ｕｖｗｆ（ｔｉ）の基本周波数ｆ０を分析時間窓ｔｗｉ毎に推定し、その推定した基本周波数ｆ０が時間軸に沿って推移した歌声周波数推移ｕｖｆ０（ｔｗｉ）を導出する（Ｓ１５０）。このＳ１５０では、例えば、歌声データを周波数解析し、その周波数解析の結果（例えば、周波数スペクトル）と、予め用意された櫛歯構造モデルとを照合する周知の手法により、基本周波数ｆ０を推定しても良い。

そして、歌声周波数推移ｕｖｆ０（ｔｗｉ）に基づいて、歌唱音推移ｕｖｗｆ（ｔｉ）にて、特定の歌詞に対して発声が開始された発声開始タイミングｓｓｉ（ｓｉ）から、当該発声が終了された発声終了タイミングｓｅｉ（ｓｉ）までの区間それぞれである歌声素片ｓｉ（本発明の分析区間に相当）を特定する（Ｓ１６０）。本実施形態のＳ１６０では、Ｓ１３０にて導出された周波数推移ｖｆ０（ｔｗｉ）と連動して、歌声周波数推移ｕｖｆ０（ｔｗｉ）が、予め規定された規定値以上変化するタイミングを発声開始タイミングｓｓｉ（ｓｉ）とし、その発声開始タイミングｓｓｉ（ｓｉ）の次の発声開始タイミングｓｓｉ（ｓｉ＋１）から、予め設定された設定時間前のタイミングを発声終了タイミングｓｅｉ（ｓｉ）としている。

続いて、歌声素片のインデックス番号ｓｉを初期値（本実施形態では、０）に設定する（Ｓ１７０）。続いて、設定されている歌声素片のインデックス番号（以下、設定インデックスとする）ｓｉが、歌声素片の最大のインデックス番号（以下、最終インデックス）ＳＮ未満であるか否かを判定する（Ｓ１８０）。

そのＳ１８０での判定の結果、設定インデックスｓｉが最終インデックスＳＮ未満であれば（Ｓ１８０：ＹＥＳ）、設定インデックスｓｉを１つインクリメントする（Ｓ１９０）。続いて、Ｓ１９０にてインクリメントされた設定インデックスｓｉに対応する歌声素片ｓｉにおける歌唱音推移ｕｖｗｆ（ｔｉ）を取得する（Ｓ２００）。

そして、Ｓ２００で取得した歌声素片ｓｉにおける歌唱音推移ｕｖｗｆ（ｔｉ）を周波数解析する（Ｓ２１０）。ただし、本実施形態の周波数解析は、離散フーリエ変換によって実施され、その離散フーリエ変換は、歌唱音推移ｕｖｗｆ（ｔｉ）の開始から終了まで（即ち、１つの歌声素片ｓｉを形成する発声開始タイミングｓｓｉ（ｓｉ）から発声終了タイミングｓｅｉ（ｓｉ）まで）の期間について、分析時間窓ｔｗｉをシフト幅ＷＳＬで時間軸に沿ってシフトさせることを繰り返しながら実行される。

このような周波数解析の結果、Ｓ２１０では、歌唱音推移ｕｖｗｆ（ｔｉ）における各分析時間窓ｔｗｉに含まれる周波数毎に、その周波数の強さ（即ち、スペクトル振幅値）ｖｓｓｐ（ｔｗｉ，ｆｉ）が、実数部及び虚数部の両方について導出される。すなわち、本実施形態では、スペクトル振幅値ｖｓｓｐ（ｔｗｉ，ｆｉ）を、対数軸にて表した周波数軸に沿って配置することで複素（周波数）スペクトルを導出する。そして、その複素スペクトルのスペクトル振幅値ｖｓｓｐを絶対値とした振幅スペクトルを、時間軸に沿って配置したスペクトログラム（図４（Ｂ）、以下、歌唱音スペクトログラムと称す）を導出する。なお、図４（Ｂ）の歌唱音スペクトログラムでは、色の濃淡によってスペクトル振幅値ｖｓｓｐ（ｔｗｉ，ｆｉ）の大きさを表した。

続いて、図５（Ａ）に示すように、歌声素片ｓｉでの歌声周波数推移ｕｖｆ０（ｔｗｉ）（即ち、基本周波数ｆ０）が、当該歌声素片ｓｉに対応する期間での周波数推移ｖｆ０（即ち、基本周波数ｆ０）に一致するように、Ｓ２１０にて導出された歌唱音スペクトログラムを構成するスペクトル振幅値ｖｓｓｐ（ｔｗｉ，ｆｉ）を周波数軸に沿ってシフトする（Ｓ２２０）。

続いて、Ｓ１２０にて導出された楽音スペクトログラムを構成するスペクトル振幅値ｔｕｓｐに対して、Ｓ２２０にて周波数がシフトされた歌唱音スペクトログラムを構成するスペクトル振幅値ｖｓｓｐ（ｔｗｉ，ｆｉ）の相関値が、時間軸に沿って最大となる楽音スペクトログラム上での期間（以下、特定範囲とする）を特定する（Ｓ２３０）。

具体的に、本実施形態のＳ２３０では、歌声素片ｓｉの発声開始タイミングｓｓｉ（ｓｉ）が、楽音スペクトログラムの時間軸に沿って最初に含まれる分析時間窓ｔｗｉのインデックス番号ｓｓｔｗｉを、下記（１）式により特定する。なお、（１）式に示す関数ｒｏｕｎｄは、小数点以下を四捨五入した整数値を返す関数である。

そして、下記（２）式により、楽音スペクトログラムを構成する全範囲でのスペクトル振幅値ｔｕｓｐに対して、歌唱音スペクトログラムを構成するスペクトル振幅値ｖｓｓｐ（ｔｗｉ，ｆｉ）の相関値が最大となる分析時間窓ｔｗｉを特定する。ただし、下記（２）式にて特定される時間ズレ量ｄｔｗｉは、上述した相関値が最大となる分析時間窓ｔｗｉが、分析時間窓ｓｓｔｗｉから、時間軸に沿って何番目であるかを表すものである。なお、（２）式に示す関数ａｒｇｍａｘは、括弧内の関数（本実施形態では、相関値）が最大となる変数ｐを返す関数である。

すなわち、本実施形態のＳ２３０では、図５（Ｂ）に示すように、（１）式によって特定されたインデックス番号ｓｓｔｗｉに対応する分析時間窓ｔｗｉを原点として、歌唱音スペクトログラムを構成するスペクトル振幅値ｖｓｓｐを時間軸に沿って移動させながら相関値が最大となる時間ズレ量ｄｔｗｉを導出する。そして、その時間ズレ量ｄｔｗｉをインデックス番号ｓｓｔｗｉに加算した分析時間窓ｓｓｔｗｉ＋ｄｔｗｉを原点とし、Ｓ２２０にて周波数がシフトされた歌唱音スペクトログラムを構成するスペクトル振幅値ｖｓｓｐ（ｔｗｉ，ｆｉ）に対応するスペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）の範囲を特定範囲としている。

続いて、ＲＡＭ２２（または記憶部１７）に記憶されている全てのスペクトル振幅値ｔｕｓｐのうち、特定範囲におけるスペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）と、Ｓ２２０にて周波数がシフトされた歌唱音スペクトログラムを構成するスペクトル振幅値ｖｓｓｐ（ｔｗｉ，ｆｉ）との比を表す振幅比率ｋｒ（ｔｗｉ，ｆｉ）を導出する（Ｓ２４０）。具体的に、Ｓ２４０では、振幅比率ｋｒは、複素スペクトルの絶対値に対して、各分析時間窓ｔｗｉにおける周波数の区分ｆｉ毎に導出する。ただし、本実施形態における振幅比率ｋｒは、特定範囲におけるスペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）が、スペクトル振幅値ｖｓｓｐ（ｔｗｉ，ｆｉ）よりも小さければ、その値を「１」とし、スペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）が、スペクトル振幅値ｖｓｓｐ（ｔｗｉ，ｆｉ）よりも大きければ、両スペクトル振幅値の比としている。

続いて、ＲＡＭ２２（または記憶部１７）に記憶されている全範囲でのスペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）のうち、特定範囲におけるスペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）に、Ｓ２４０にて導出した振幅比率ｋｒを乗算したスペクトル振幅値ｖｓｃｐｓｐ（ｔｗｉ，ｆｉ）（本発明の分離スペクトルに相当）を導出する（Ｓ２５０）。このＳ２５０では、具体的に、図６（Ａ）及び図６（Ｂ）に示すように、複素スペクトルの実数部及び虚数部における各分析時間窓ｔｗｉのスペクトル振幅値ｔｕｓｐに、各分析時間窓ｔｗｉに対応する振幅比率ｋｒを乗算する。この振幅比率ｋｒの乗算は、周波数区分ｆｉ毎に実施される。

なお、図６中において、実線は、分離スペクトルとして導出されたスペクトル振幅値ｖｓｃｐｓｐ（ｔｗｉ，ｆｉ）であり、破線は、楽音スペクトログラムを構成するスペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）である。

さらに、記憶部１７に記憶されているスペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）を、下記（３）式に基づいて更新する（Ｓ２６０）。

すなわち、Ｓ２５０にて導出されたスペクトル振幅値ｖｓｃｐｓｐ（ｔｗｉ，ｆｉ）を、特定範囲でのスペクトル振幅値ｔｕｓｐから減算して、新たなスペクトル振幅値ｔｕｓｐを導出している。なお、（３）式において、添え字ｏｌｄは、更新前のスペクトル振幅値ｔｕｓｐであることを表し、添え字ｎｅｗは、更新後のスペクトル振幅値ｔｕｓｐであることを表す。

続いて、Ｓ２５０にて導出された分離スペクトルのスペクトル振幅値ｖｓｃｐｓｐ（ｔｗｉ，ｆｉ）を逆離散フーリエ変換（ＩＤＦＴ：ｉｎｖｅｒｓｅｄｉｓｃｒｅｔｅＦｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）して、区間推移ｖｓｃｐｗｆ（ｔｉ）を導出する（Ｓ２７０）。その導出した区間推移ｖｓｃｐｗｆ（ｔｉ）に基づいて、下記（４）式に従って、歌声推移ｖｏｗｆ_oldを歌声推移ｖｏｗｆ_newへと更新する（Ｓ２８０）。ただし、添え字ｏｌｄは、更新前の歌声推移ｖｏｗｆであることを表し、添え字ｎｅｗは、更新後の歌声推移ｖｏｗｆであることを表す。また、ｓｓｉ（ｓｉ）＋ｄｔｉは、時間ズレ量ｄｔｗｉを、歌声推移ｖｏｗｆの時間軸に沿ったサンプリングの順番に変換したものである。

すなわち、本実施形態のＳ２８０では、図７（Ａ）に示すように、初期値（本実施形態では、ゼロ波形）に設定されていた特定範囲での歌声推移ｖｏｗｆ_oldを、図７（Ｂ）に示すように、区間推移ｖｓｃｐｗｆへと置き換えることで、歌声推移ｖｏｗｆ_newへと更新している。

その後、Ｓ１８０へと戻る。そのＳ１８０では、設定インデックスｓｉが、最終インデックスＳＮ未満であれば（Ｓ１８０：ＹＥＳ）、Ｓ１８０からＳ２８０のステップを繰り返す。そして、設定インデックスｓｉが、最終インデックスＳＮ以上となると（Ｓ１８０：ＮＯ）、歌声推移ｖｏｗｆを記憶部１７に記憶して（Ｓ２９０）、本歌声分離処理を終了する。すなわち、全ての歌声素片ｓｉについて、音響データから歌声推移ｖｏｗｆ（ｍｔｉ，ｔｉ）を生成して分離し終えると、本歌声分離処理を終了する。

つまり、本実施形態の歌声分離処理では、スペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）に対して、１つの歌声素片ｓｉから導出されたスペクトル振幅値ｖｓｓｐ（ｔｗｉ，ｆｉ）の相関値が最大となる特定範囲を特定する。そして、特定範囲において、振幅比率ｋｒを導出して、その導出された振幅比率ｋｒを、スペクトル振幅値ｔｕｓｐ（ｔｗｉ，ｆｉ）に乗算することで、歌声素片ｓｉに対応する期間での楽音推移ｔｕｗｆに含まれる歌声の複素スペクトルを表す分離スペクトルのスペクトル振幅値ｖｓｃｐｓｐ（ｔｗｉ，ｆｉ）を導出する。

さらに、その分離スペクトルのスペクトル振幅値ｖｓｃｐｓｐ（ｔｗｉ，ｆｉ）を逆フーリエ変換して、区間推移ｖｓｃｐｗｆを導出し、その導出された区間推移ｖｓｃｐｗｆにて、歌声推移ｖｏｗｆにおける特定範囲を置換することで、歌声推移ｖｏｗｆを更新する。
［実施形態の効果］
以上説明したように、本実施形態の歌声分離装置１０にて導出される分離スペクトルのスペクトル振幅値ｖｓｃｐｓｐ（ｔｗｉ，ｆｉ）は、楽音推移ｔｕｗｆに含まれる歌声の周波数毎に、その周波数の強さを表す。このスペクトル振幅値ｖｓｃｐｓｐ（ｔｗｉ，ｆｉ）を逆フーリエ変換することで、区間推移ｖｓｃｐｗｆを導出する歌声分離装置１０によれば、歌声の周波数構造に関わらず、歌声推移ｖｏｗｆを生成することができる。つまり、歌声分離装置１０によれば、調波構造を有していない歌声成分が含まれる楽音推移ｔｕｗｆであっても、その楽音推移ｔｕｗｆから歌声推移ｖｏｗｆを抽出することができる。

特に、本実施形態の歌声分離装置１０では、振幅比率ｋｒを導出する際に、歌唱音スペクトログラムを構成するスペクトル振幅値ｖｓｓｐと、楽音スペクトログラムを構成するスペクトル振幅値ｔｕｓｐとの相関値が最大となるように、スペクトル振幅値ｖｓｓｐを時間軸に沿ってシフトしている。これと共に、振幅比率ｋｒを導出する際に、歌声素片ｓｉでの基本周波数が、当該歌声素片ｓｉに対応する期間での周波数推移ｖｆ０に一致するように、スペクトル振幅値ｖｓｓｐを周波数軸に沿ってシフトしている。

これらのことから、歌声分離装置１０によれば、楽音推移ｔｕｗｆと、歌唱音推移ｕｖｗｆとの間に、時間軸及び周波数軸のうちの少なくとも一方に沿ったズレが存在していても、歌声推移ｖｏｗｆを精度良く抽出できる。換言すれば、歌唱音推移ｕｖｗｆの質に拘わらず、歌声推移ｖｏｗｆを抽出することができる。

なお、本実施形態の歌声分離装置１０では、楽音推移ｔｕｗｆから全ての区間推移ｖｓｃｐｗｆ（即ち、歌声推移ｖｏｗｆ）を分離すると、楽曲にて演奏された楽器の楽器音の音圧が時間軸に沿って推移した波形が残る。つまり、歌声分離装置１０によれば、楽曲中に歌声が含まれていないカラオケ用の楽曲を生成することができる。
［その他の実施形態］
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。

例えば、上記実施形態では、歌声データ及び音響データを、それぞれ個別のデータとして情報処理装置１０にて取得していたが、歌声データ及び音響データの取得方法は、これに限るものではなく、歌声データ及び音響データを、対応する楽曲毎に１つの組として、公衆通信網を用いて外部から組単位で取得しても良い。

また、音響データに基づいて楽音推移ｔｕｗｆを取得する方法は、音声出力部１６から出力された楽音が音声入力部１５を介して入力されることに限らない。例えば、楽音の時間軸に沿った波形を表す楽音信号（電気信号）を、音響データ読取部１２や制御部２０が生成し、その生成された楽音信号に従って音声出力部１６が鳴動するように、情報処理装置１０が構成されている場合、音響データ読取部１２や制御部２０が生成した楽音信号を楽音推移ｔｕｗｆとして取得しても良い。

更に、歌声素片ｓｉの発音開始タイミングｓｓｉ（ｓｉ）および発声終了タイミングｓｅｉ（ｓｉ）は、本実施形態のＳ１６０で歌声周波数推移ｕｖｆ０（ｔｗｉ）のみに基づいて特定されているが、歌声歌唱音推移ｕｖｗｆ（ｔｉ）のパワー（振幅絶対値）の時間変化も併用して特定してもよい。この場合には、同じ音高が複数続くことで歌声周波数推移により歌声素片ｓｉが特定できない時間領域があっても、パワーの変化に基づいて特定することができる、という効果がある。
［実施形態と特許請求の範囲との対応関係］
最後に、上記実施形態の記載と、特許請求の範囲の記載との関係を説明する。

上記実施形態の歌声分離処理におけるＳ１１０が、本発明の楽音取得手段に相当し、歌声分離処理のＳ１２０が、本発明の楽音解析手段に相当する。そして、歌声分離処理のＳ１４０が、本発明の歌唱音取得手段に相当し、歌声分離処理のＳ１６０，Ｓ２００，Ｓ２１０が、本発明の歌唱音解析手段に相当し、歌声分離処理のＳ２４０が、本発明の振幅導出手段に相当する。さらに、歌声分離処理のＳ２５０，Ｓ２７０が、本発明の区間推移導出手段に相当し、歌声分離処理のＳ２８０が、本発明の歌声分離手段に相当する。

また、歌声分離処理のＳ２２０が、本発明の範囲特定手段に相当し、歌声分離処理のＳ１３０が周波数推定手段に相当し、歌声分離処理のＳ１５０，Ｓ２３０が、本発明の周波数補正手段に相当する。

さらに、歌声分離処理のＳ２６０が、本発明の記憶制御手段に相当し、歌声分離処理のＳ２７０が、本発明の更新手段に相当する。

１０…情報処理装置（歌声分離装置）１２…音響データ読取部１３…入力受付部１４…表示部１５…音声入力部１６…音声出力部１７…記憶部２０…制御部２１…ＲＯＭ２２…ＲＡＭ２３…ＣＰＵ

Claims

楽曲を歌唱した際の歌声に加えて、当該楽曲にて演奏された楽器の楽器音が含まれる楽音の音圧が時間軸に沿って推移した波形を表すデータとして予め用意された音響データから、前記楽音の音圧が時間軸に沿って推移した波形である楽音推移を取得する楽音取得手段と、
前記楽音取得手段で取得された楽音推移に含まれる周波数と各周波数の強さとを表す周波数スペクトルを時間軸に沿って配した楽音スペクトログラムを導出する楽音解析手段と、
前記楽音取得手段で取得した楽音推移に対応する音響データによって表される楽曲を、前記音響データに含まれる歌声とは少なくとも異なるタイミングで歌唱した際の歌声である歌唱音を録音した歌声データから、当該歌唱音の音圧が時間軸に沿って推移した歌唱音推移を取得する歌唱音取得手段と、
前記歌唱音取得手段にて取得した歌唱音推移に含まれる周波数と各周波数の強さとを表す周波数スペクトルを時間軸に沿って配した歌唱音スペクトログラムを、前記歌唱音推移における発声の開始タイミングから終了タイミングまでの期間である分析区間毎に導出する歌唱音解析手段と、
前記歌唱音解析手段にて導出された各分析区間での前記歌唱音スペクトログラムを構成する周波数スペクトルの各周波数の強さと、当該分析区間に対応する前記楽音スペクトログラムを構成する周波数スペクトルの各周波数の強さとの比を表す振幅比率を導出する振幅導出手段と、
前記振幅導出手段で導出された振幅比率それぞれを、当該分析区間に対応する前記楽音スペクトログラムを構成する周波数スペクトルの各周波数の強さに乗じた結果である分離スペクトルから、時間軸に沿った音圧の推移である区間推移を導出する区間推移導出手段と、
前記区間推移導出手段にて導出した区間推移を前記楽曲の時間軸に沿って配することで、前記楽音推移における歌声の音圧が時間軸に沿って推移した歌声推移を生成する歌声分離手段と
を備えることを特徴とする歌声分離装置。
前記歌唱音解析手段にて導出された各分析区間の歌唱音スペクトログラムを前記楽音解析手段にて導出された楽音スペクトログラムに照合して、当該歌唱音スペクトログラムが時間軸に沿って最も一致する前記楽音スペクトログラムでの範囲を特定する範囲特定手段を備え、
前記振幅導出手段は、
前記範囲特定手段にて特定された楽音スペクトログラムでの範囲を、各分析区間に対応する前記楽音スペクトログラムとすることを特徴とする請求項１に記載の歌声分離装置。
前記楽音取得手段にて取得した楽音推移に含まれる歌声の基本周波数が時間軸に沿って推移した周波数推移を推定する周波数推定手段と、
前記歌唱音取得手段にて取得した歌唱音推移の各分析区間における基本周波数が、前記周波数推定手段にて推定された周波数推移のうち、当該分析区間に対応する区間での基本周波数に一致するように、当該分析区間での歌唱音スペクトログラムを周波数軸に沿って補正した補正スペクトログラムを生成する周波数補正手段と
を備え、
前記振幅導出手段は、
前記周波数補正手段にて生成された補正スペクトログラムそれぞれを、各分析区間での歌唱音スペクトログラムとすることを特徴とする請求項１または請求項２に記載の歌声分離装置。
前記区間推移導出手段にて導出された区間推移を前記楽音推移から減算した残留楽音推移を導出して、その導出した残留楽音推移を記憶装置に記憶する記憶制御手段と、
前記区間推移導出手段にて区間推移が導出される毎に、その導出された区間推移を前記記憶装置に記憶された残留楽音推移から減算して、当該記憶装置に記憶された残留楽音推移を更新する更新手段と
を備えることを特徴とする請求項１から請求項３のいずれか一項に記載の歌声分離装置。
前記楽音解析手段は、
前記楽音取得手段にて取得した楽音推移に含まれる歌声の基本周波数が時間軸に沿って推移した周波数推移を推定し、
前記歌唱音解析手段は、
前記歌唱音取得手段にて取得した歌唱音推移における基本周波数が時間軸に沿って推移する歌唱周波数推移を推定し、その推定された歌唱周波数推移が、前記周波数推移に連動して予め規定された規定値以上変化するタイミングである始端、及びその始端に対応する終端を特定して、前記始端と前記終端との間の区間を前記分析区間とすることを特徴とする請求項１から請求項４のいずれか一項に記載の歌声分離装置。
楽曲を歌唱した際の歌声に加えて、当該楽曲にて演奏された楽器の楽器音が含まれる楽音の音圧が時間軸に沿って推移した波形を表すデータとして予め用意された音響データから、前記楽音の音圧が時間軸に沿って推移した波形である楽音推移を取得する楽音取得手順と、
前記楽音取得手順で取得された楽音推移に含まれる周波数と各周波数の強さとを表す周波数スペクトルを時間軸に沿って配した楽音スペクトログラムを導出する楽音解析手順と、
前記楽音取得手順で取得した楽音推移に対応する音響データによって表される楽曲を、前記音響データに含まれる歌声とは少なくとも異なるタイミングで歌唱した際の歌声である歌唱音を録音した歌声データから、当該歌唱音の音圧が時間軸に沿って推移した歌唱音推移を取得する歌唱音取得手順と、
前記歌唱音取得手順にて取得した歌唱音推移に含まれる周波数と各周波数の強さとを表す周波数スペクトルを時間軸に沿って配した歌唱音スペクトログラムを、前記歌唱音推移における発声の開始タイミングから終了タイミングまでの期間である分析区間毎に導出する歌唱音解析手順と、
前記歌唱音解析手順にて導出された各分析区間での前記歌唱音スペクトログラムを構成する周波数スペクトルの各周波数の強さと、当該分析区間に対応する前記楽音スペクトログラムを構成する周波数スペクトルの各周波数の強さとの比を表す振幅比率を導出する振幅導出手順と、
前記振幅導出手順で導出された振幅比率それぞれを、当該分析区間に対応する前記楽音スペクトログラムを構成する周波数スペクトルの各周波数の強さに乗じた結果である分離スペクトルを、時間軸に沿った音圧の推移に変換した区間推移を導出する区間推移導出手順と、
前記区間推移導出手順にて導出した区間推移を時間軸に沿って配することで、前記楽音推移における歌声の音圧が時間軸に沿って推移した歌声推移を生成する歌声分離手順と
をコンピュータに実行させることを特徴とするプログラム。