JP2012118234A - 信号処理装置,及びプログラム - Google Patents

信号処理装置,及びプログラム Download PDF

Info

Publication number
JP2012118234A
JP2012118234A JP2010266993A JP2010266993A JP2012118234A JP 2012118234 A JP2012118234 A JP 2012118234A JP 2010266993 A JP2010266993 A JP 2010266993A JP 2010266993 A JP2010266993 A JP 2010266993A JP 2012118234 A JP2012118234 A JP 2012118234A
Authority
JP
Japan
Prior art keywords
waveform
accompaniment sound
sound
compression
music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010266993A
Other languages
English (en)
Inventor
Tomohiko Sato
友彦 佐藤
Noriaki Asemi
典昭 阿瀬見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP2010266993A priority Critical patent/JP2012118234A/ja
Publication of JP2012118234A publication Critical patent/JP2012118234A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】楽曲の楽曲波形から分離した伴奏音波形における振幅の揺らぎを抑制すること。
【解決手段】伴奏音波形の振幅と音符再生波形の振幅との比の時間軸に沿った変化を表す振幅比変化を導出し(S150)、予め規定された特定区間に対して、歌声波形の振幅の時間軸に沿った変化を表す歌声変化と、振幅比変化との相関を表す波形類似度を1つ導出する(S160)。その波形類似度が規定値以上であれば(S170:YES)、対象楽曲に対し対数圧縮が実行されているものと判断し、その対数圧縮に用いた圧縮関数を推定して(S180)、その圧縮関数の逆関数(以下、圧縮逆関数とする)を導出する(S190)。このような圧縮逆関数を楽曲波形に乗算し、対象楽曲に対して実行されていた対数圧縮を解除した後(S200)、解除楽曲波形に対して音源分離を実行し、対数圧縮の実行が解除された伴奏音波形を生成する(S210)。
【選択図】図2

Description

本発明は、楽曲波形から伴奏音に対応する波形を生成する信号処理装置、及びプログラムに関する。
従来、楽曲を構成する音が時間軸に沿って推移した波形である楽曲波形の振幅を調整する技術として、音量(即ち、振幅)が変化する幅を一定の範囲内に抑制するように、予め規定した圧縮関数を用いて楽曲波形の振幅を圧縮・伸張する対数圧縮(いわゆるコンプレッサ処理)が知られている(例えば、特許文献1参照)。
そして、一般的な楽曲は、当該楽曲を構成する音として、歌声と伴奏音とを含んでおり、歌声が聞き取りやすいように、歌声の音量(振幅)自体が、伴奏音の音量よりも大きくなるように作成されている。さらに、このような歌声が主となる楽曲では、息継ぎ、感情の抑揚などによって、曲中の波形の振幅の時間的変化も大きくなる傾向がある。
このため、一般的な楽曲に対して対数圧縮を実行する際に用いられる圧縮関数は、歌声の振幅、即ち、楽曲波形の歌声成分における最大値と最小値との差(ダイナミックレンジ)に応じて決定される。
特開平09−7301号公報
ところで、対数圧縮は、1つの圧縮関数によって、楽曲の全期間に渡る楽曲波形全体に対して実行される。
このため、この対数圧縮が実行される楽曲に、伴奏音が含まれているものの、歌声が含まれていない区間が存在すると、対数圧縮後における当該区間での伴奏音に対応する波形(以下、伴奏音に対応する波形を伴奏音波形とする)は、振幅が大きくなるように伸張される。一方、伴奏音と歌声との両方が含まれている区間では、対数圧縮後における当該区間での伴奏音波形は、振幅が小さくなるように圧縮される。
よって、対数圧縮を実行した楽曲波形全体から、歌声に対応する波形を除去して抽出した伴奏音波形は、楽曲にて歌声が含まれていた区間と、歌声が含まれていなかった区間とで、その伴奏音波形の振幅が大きく揺らぐことになる。
そして、このような伴奏音波形を再生した音(即ち、伴奏音)は、音量(音圧)の変化が大きく、聴き苦しいという問題があった。
そこで、本発明は、楽曲の楽曲波形から分離した伴奏音波形における振幅の揺らぎを抑制することを目的とする。
上記目的を達成するためになされた本発明の信号処理装置では、伴奏音が演奏されると共に歌唱される歌唱区間、及び1つの歌唱区間に時間軸に沿って連続する区間として伴奏音が演奏されるものの非歌唱である非歌唱区間を少なくとも有し、伴奏音及び歌唱された歌声を楽音として構成した対象楽曲における楽音の音圧が時間軸に沿って推移した楽曲波形を、楽曲波形取得手段が取得する。
そして、対象楽曲における伴奏音を構成する個々の音に対応する音符を少なくとも配した楽譜を表すと共に、各音符の演奏音の強さを指示する強さ指示を有した楽譜データを、楽譜取得手段が取得する。
さらに、伴奏音生成手段が、楽曲波形取得手段で取得した楽曲波形から、伴奏音の音圧が時間軸に沿って推移した伴奏音波形、及び、歌声の音圧が時間軸に沿って推移した歌声波形を生成し、再生波形生成手段が、楽譜取得手段で取得した楽譜データによって表される個々の音符に対応する演奏音が時間軸に沿って推移した音符再生波形を生成する。
振幅比導出手段が、伴奏音生成手段で生成した伴奏音波形と、再生波形生成手段で生成した音符再生波形との振幅の比の時間軸に沿った推移を表す振幅比変化を導出すると、類似度導出手段が、振幅比導出手段で導出された振幅比変化と、伴奏音生成手段で生成した歌声波形の振幅の時間軸に沿った変化を表す歌声変化との一致度合いが高いほど値が大きい波形類似度を、時間軸に沿って互いに対応し、かつ歌唱区間及び非歌唱区間を少なくとも含む特定区間に対して1つ導出する。
その導出した波形類似度が、予め規定した規定値以上であれば、圧縮関数推定手段が、対数圧縮の圧縮関数を推定し、解除波形生成手段が、圧縮関数推定手段で推定した圧縮関数に基づいて、該圧縮関数の逆関数である圧縮逆関数を導出し、少なくとも、圧縮逆関数を対象波形に適用することで、対数圧縮を解除した伴奏音波形である解除波形を生成する。
ここで、対数圧縮が実行された対象楽曲の特定区間における歌声波形,伴奏音波形,音符再生波形,振幅比変化をそれぞれ、図3(A)〜(D)に示す。なお、図3(A)〜(D)では、対象楽曲における特定区間として、歌唱区間、非歌唱区間、歌唱区間の順に時間軸に沿って推移する区間を想定している。
このような特定区間を想定すると、伴奏音生成手段にて生成される歌声波形は、図3(A)に示すように、歌唱区間における音圧(ここでは、振幅の絶対値)は大きいものの、非歌唱区間における音圧は小さく、歌唱区間と非歌唱区間との間での音圧の変化が大きくなる。また、伴奏音生成手段にて生成される伴奏音波形は、図3(B)に示すように、歌唱区間における音圧は小さいものの、非歌唱区間における音圧は大きく、歌唱区間と非歌唱区間との間での音圧の変化が、歌声波形とは相対する方向である。
通常、楽曲における伴奏音は、楽曲の最初から最後まで演奏されるため、楽譜データにおいても、歌唱区間と非歌唱区間との両方に伴奏音に対応する音符が配される。しかも、強さ指示は、音量(音圧)の最大値と最小値との差が、歌声波形における音圧の最大値と最小値との差に比べて遥かに小さくなるように設定されることが一般的である。
よって、再生波形生成手段によって生成される音符再生波形は、図3(C)に示すように、歌唱区間であるか非歌唱区間であるかに拘わらず、音圧が略一定で音圧の変化が小さな波形となる。
さらに、振幅比変化導出手段にて導出される振幅比変化は、伴奏音波形と音符再生波形との振幅の比の時間軸に沿った変化であるため、図3(D)に示すように、歌唱区間における値は大きいものの、非歌唱区間における値は小さく、歌唱区間と非歌唱区間との間での値の変化が大きくなる。
つまり、対象楽曲に対数圧縮が実行されていれば、振幅比変化と歌声波形とが相似となり(即ち、類似し)、波形類似度の値が大きなものとなる。
次に、対数圧縮が未実行である対象楽曲の特定区間における歌声波形,伴奏音波形,音符再生波形,振幅比変化をそれぞれ、図4(A)〜(D)に示す。この図4(A)〜(D)においても、特定区間として、歌唱区間、非歌唱区間、歌唱区間の順に時間軸に沿って推移する区間を想定している。
対数圧縮が未実行であっても、伴奏音生成手段にて生成される歌声波形は、対数圧縮が実行された対象楽曲から生成した歌声波形と同様に、図4(A)に示すような波形となる。
しかし、一般的な楽曲における伴奏音は、楽曲の最初から最後まで略同じ音量で演奏されるため、対象楽曲に対し対数圧縮が実行されていない場合、歌唱区間であるか非歌唱区間であるかに拘わらず、音圧が略一定で、変化が小さなものとなる。このため、対数圧縮が未実行である場合には、伴奏音生成手段にて生成される伴奏音波形は、図4(B)に示すように、歌唱区間における音圧と、非歌唱区間における音圧との差が小さく、時間軸に沿って音圧が略一定となる(即ち、音符再生波形と同様の波形となる)。
また、楽譜データは、対象楽曲に対する対数圧縮が実行されているか否かに拘わらず、同一に構成されているため、再生波形生成手段によって生成される音符再生波形は、図4(C)に示すような波形(即ち、上記図3(C)に示す波形と同じ波形)となる。
したがって、対象楽曲に対し対数圧縮が未実行であれば、振幅比変化導出手段にて導出される振幅比変化は、図4(D)に示すように、時間軸に沿って値がほとんど変化せず一定となる。
つまり、対象楽曲に対数圧縮が実行されていなければ、振幅比変化と歌声波形とが相似とならず、波形類似度の値が小さなものとなる。
本発明の信号処理装置によれば、このような特性を用いて、波形類似度が規定値以上であれば、対象楽曲に対数圧縮が実行されているものと判定することができる。つまり、本発明の信号処理装置によれば、対象楽曲に対して対数圧縮が実行されているか否かを判定することができる。
さらに、本発明の信号処理装置によれば、対象楽曲に対数圧縮が実行されていれば、その対数圧縮に用いた圧縮関数の逆関数を圧縮逆関数として推定し、その圧縮逆関数を用いて解除波形を生成することができる。
この結果、本発明の信号処理装置によれば、対象楽曲の楽曲波形から分離した伴奏音波形、即ち、解除波形における振幅の揺らぎを抑制することができる。
なお、ここで言う歌声変化とは、歌声波形の振幅の時間軸に沿った変化を表すものであり、例えば、歌声波形そのものでも良いし、その他の指標でも良い。
本発明の解除波形生成手段は、楽曲波形を対象波形とし、該対象波形に圧縮逆関数を乗算することで生成した波形から、歌声波形を除去することで解除波形を生成してもよい(請求項2)。
このような信号処理装置によって生成される解除波形は、対数圧縮が実行される前の楽曲波形から、歌声波形を除去したものであるため、確実に、対数圧縮が実行される前の伴奏音波形とすることができる。
なお、歌声波形を除去する方法としては、音源分離などによって、対象波形から歌声波形を分離除去することや、対象波形から対象楽曲にて演奏される楽器毎の伴奏音波形を分離し、それらの分離した個々の伴奏音波形を合成することなどが考えられる。
また、本発明の解除波形生成手段は、伴奏音生成手段で生成した伴奏音波形を対象波形とし、該対象波形に圧縮逆関数を乗算することで生成した波形を解除波形として生成しても良い(請求項3)。
このような信号処理装置によれば、解除波形を生成するために必要な処理を少なくすることができ、ひいては、解除波形を生成するまでに要する時間を短縮できる。
なお、本発明において規定値とは、振幅比変化と歌声変化との一致度合いが、基準となるレベル以上であることを表す値として予め規定されたものであることが好ましいが、請求項2または3に係る発明においては、振幅比変化と歌声変化との一致度合いが、基準となるレベル未満であることを表す値として予め規定されたものであっても良い。
後者の場合、波形類似度の値(即ち、対数圧縮が実施されているか否か)に拘わらず、圧縮関数を推定して圧縮逆関数を導出することになる。つまり、この場合、対象楽曲に対して対数圧縮が実行されていなければ、推定される圧縮関数は、伴奏音波形が、対象楽曲における伴奏音波形として元来生成されていた波形に維持されるような関数となる。そして、その圧縮関数の逆関数が圧縮逆関数として導出されるため、対象楽曲における伴奏音波形(即ち、元々、振幅の揺らぎが小さい波形)として元来生成されていた波形が、解除波形として維持(生成)される。
したがって、このような方法であっても、対象楽曲の楽曲波形から分離した伴奏音波形における振幅の揺らぎを抑制することができる。
ところで、本発明における振幅比導出手段は、特定区間よりも短く、かつ時間軸に沿って連続するように設定された単位区間毎に、伴奏音波形の振幅の代表値である伴奏音代表値、及び音符再生波形の振幅の代表値である再生代表値を導出し、対応する単位区間における伴奏音代表値と、再生代表値との比の時間軸に沿った推移を、振幅比変化として導出しても良い。この場合、本発明の類似度導出手段は、単位区間毎に、歌声波形の振幅の代表値である歌声代表値を導出し、その導出した歌声代表値の時間軸に沿った推移を歌声変化として、波形類似度を導出する(請求項4)。
このような信号処理装置によって導出された振幅比変化及び歌声変化は、代表値同士の変化の傾向を表すものであるため、各波形の細かな差異を吸収することができ、波形類似度の導出精度を向上させることができる。
なお、ここで言う代表値とは、単位区間における代表的な値であり、例えば、単位区間における個々の振幅値の二乗和平均の平方根でも良いし、単位区間における個々の振幅値を相加平均することで求めた値(いわゆる平均値)でも良いし、単位区間における個々の振幅値のうちの中央値(メディアン)でも良い。
さらに、本発明における圧縮関数推定手段は、伴奏音生成手段にて生成した歌声波形における複数の振幅値に基づく回帰分析によって、圧縮関数を推定しても良い(請求項5)。
このような圧縮関数推定手段において、回帰分析として、例えば、線形回帰(最小二乗法)を用いれば、圧縮関数の推定精度を実用的なレベルとすることができる。
なお、ここで言う回帰分析とは、前述した最小二乗法に限るものではなく、その他の手法でも良い。
なお、本発明における特定区間は、対象楽曲における時間軸に沿った全区間、または楽曲を構成する各フレーズに対応する区間であっても良い(請求項6)。
このような区間を特定区間とすれば、その特定区間に含まれる音の数を多数とすることができ、多数の音に基づいて波形類似度を導出することで、対象楽曲に対し対数圧縮が実行されているか否かを、精度良く判定することができる。
ここで言う楽曲を構成する各フレーズとは、例えば、Aメロや、Bメロ、サビといった区間である。
ところで、本発明は、コンピュータを信号処理装置として機能させるためのプログラムとしてなされていても良い。
本発明が、プログラムとしてなされている場合、そのプログラムは、楽曲波形を取得する楽曲波形取得手順と、楽譜データを取得する楽譜取得手順と、楽曲波形取得手順で取得した楽曲波形から、伴奏音波形、及び、歌声波形を生成する伴奏音生成手順と、音符再生波形を生成する再生波形生成手順と、伴奏音生成手順で生成した伴奏音波形と、再生波形生成手順で生成した音符再生波形との振幅の比の時間軸に沿った推移を表す振幅比変化を導出する振幅比導出手順と、振幅比導出手順で導出された振幅比変化と、伴奏音生成手順で生成した歌声波形の振幅の時間軸に沿った変化を表す歌声変化との一致度合いが高いほど値が大きい波形類似度を、互いに対応し、かつ歌唱区間及び非歌唱区間を少なくとも含む特定区間に対して1つ導出する類似度導出手順と、その導出した波形類似度が、予め規定した規定値以上であれば、対数圧縮の圧縮関数を推定する圧縮関数推定手順と、その推定した圧縮関数に基づいて、該圧縮関数の逆関数である圧縮逆関数を導出し、少なくとも、圧縮逆関数を対象波形に適用することで、対数圧縮を解除した伴奏音波形である解除波形を生成する解除波形生成手順とを、コンピュータに実行させる必要がある。
本発明のプログラムが、このようになされていれば、例えば、DVD−ROM、CD−ROM、ハードディスク等のコンピュータ読み取り可能な記録媒体に記録し、必要に応じてコンピュータにロードさせて起動することや、必要に応じて通信回線を介してコンピュータに取得させて起動することにより用いることができる。そして、コンピュータに各手順を実行させることで、そのコンピュータを、請求項1に記載された信号処理装置として機能させることができる。
本発明が適用された信号処理装置の概略構成を示すブロック図である。 制御部が実行する伴奏波形生成処理の処理手順を示すフローチャートである。 本発明の原理を説明するための説明図である。 本発明の原理を説明するための説明図である。
以下に本発明の実施形態を図面と共に説明する。
本発明が適用された信号処理装置は、予め生成された1つの楽曲(以下、対象楽曲とする)における楽音の音圧が時間軸に沿って推移した波形である楽曲波形w(k)に対し、信号処理を実行する装置である。この信号処理装置は、本実施形態では、図1に示す情報処理装置10によって構成されている。
また、対象楽曲は、歌を含む楽曲(例えば、ポップスや、演歌、オペラなど)であり、歌唱することで生じた歌声と、少なくとも一つの楽器を演奏することで生じた伴奏音とを楽音として含むものである。そして、対象楽曲は、伴奏音が演奏されると共に歌唱される歌唱区間、及び1つの歌唱区間に時間軸に沿って連続する区間として伴奏音が演奏されるものの非歌唱である非歌唱区間を少なくとも有している。
このうち、歌唱区間は、例えば、対象楽曲を構成する各フレーズ(例えば、対象楽曲がポップスであれば、AメロやBメロ,サビ)を一つの単位としても良い。この場合、非歌唱区間は、各フレーズの間に設けられる間奏に相当する区間であることが好ましい。また、歌唱区間は、各フレーズよりも短い時間軸に沿った区間を一つの単位としても良い。この場合、非歌唱区間は、各フレーズにおいて、歌詞が規定されていないものの伴奏音が規定されている小節などであることが好ましい。
〈信号処理装置について〉
図1に示すように、情報処理装置10は、通信部11と、音響データ読取部12と、入力受付部13と、表示部14と、音声入力部15と、音声出力部16と、音源モジュール17と、記憶部18と、制御部20とを備えている。
このうち、通信部11は、情報処理装置10をネットワーク(例えば、専用回線やWAN)に接続し、その接続されたネットワークを介して外部と通信を行うものである。
音響データ読取部12は、記憶媒体(例えば、CDやDVD)に記憶されている音響データを時間軸に沿って順次読み取る装置(例えば、CDやDVDの読取装置)である。その音響データは、楽曲波形w(k)を標本化(サンプリング)したデータである。
そして、入力受付部13は、外部からの操作に従って情報や指令の入力を受け付ける入力機器(例えば、キーボードやポインティングデバイス)である。表示部14は、画像を表示する表示装置(例えば、液晶ディスプレイやCRT等)である。また、音声入力部15は、音声を電気信号に変換して制御部20に入力する装置(いわゆるマイクロホン)である。音声出力部16は、制御部20からの電気信号を音声に変換して出力する装置(いわゆるスピーカ)である。
さらに、音源モジュール17は、楽曲における伴奏音を構成する個々の音に対応する音符を少なくとも配した楽譜を表す楽譜データに基づいて、音源からの音を模擬した音(以下、演奏音)を出力する装置である。本実施形態においては、音源モジュール17は、周知のMIDI(Musical Instrument Digital Interface)音源によって構成されている。そして、音源モジュール17において、演奏音として音が模擬される音源は、鍵盤楽器(例えば、ピアノやパイプオルガンなど)、弦楽器(例えば、バイオリンやビオラ、ギター、琴など)、打楽器(例えば、ドラムやシンバル、ティンパニー、木琴など)、及び管楽器(例えば、クラリネットやトランペット、フルート、尺八など)などであり、予め登録されている。
次に、楽譜データは、楽曲を区別するデータである識別データと、当該楽曲にて用いられる音源(楽器)それぞれの楽譜を表す楽譜トラックとを少なくとも有している。本実施形態における楽譜データは、周知のMIDI規格によって表されている。
このうち、各楽譜トラックは、音源モジュール17が出力する演奏音について規定されており、音源(楽器)に応じてインデックス番号が割り振られている。その楽譜トラックに規定される内容として、少なくとも、音源モジュール17が演奏音を出力する期間(以下、音符長)、及び個々の演奏音の音高(いわゆるノートナンバー)、個々の演奏音の強さ(いわゆるアタック、ベロシティ、ディケイなど)がある。
ただし、楽譜トラックでの音符長は、当該演奏音の出力を開始するまでの当該楽曲の演奏開始からの時刻を表す出力タイミング(いわゆるノートオンタイミング)と、当該演奏音の出力を終了するまでの当該楽曲の演奏開始からの時刻を表す終了タイミング(いわゆるノートオフタイミング)とによって規定されている。
また、記憶部18は、記憶内容を読み書き可能に構成された不揮発性の記憶装置(例えば、ハードディスク装置)である。この記憶部18には、処理プログラムや、通信部11を介して取得された楽譜データが少なくとも格納される。
さらに、制御部20は、電源が切断されても記憶内容を保持する必要がある処理プログラムやデータを格納するROM21と、処理プログラムやデータを一時的に格納するRAM22と、ROM21やRAM22に記憶された処理プログラムに従って各処理(各種演算)を実行するCPU23とを少なくとも有した周知のコンピュータを中心に構成されている。
なお、本実施形態における処理プログラムとして、対象楽曲についての音響データ、及び対象楽曲についての楽譜データに基づいて、対象楽曲に対して対数圧縮が実行されているか否かを判定した結果、対数圧縮が実行されていれば、対数圧縮が解除され、かつ伴奏音の音圧が時間軸に沿って推移した波形である解除波形を、対象楽曲についての音響データから分離して生成する伴奏波形生成処理を、制御部20が実行するものが予め用意されている。
〈伴奏波形生成処理について〉
図2は、制御部20が実行する伴奏波形生成処理の処理手順を示したフローチャートである。
この伴奏波形生成処理は、入力受付部13を介して、当該伴奏波形生成処理を起動するための起動指令が入力されると、実行が開始されるものである。
そして、伴奏波形生成処理は、起動されると、図2に示すように、音響データ読取部12にて対象楽曲Zの音響データを読み取ることで、対象楽曲Zの楽曲波形w(k)を取得する(S110)。
続いて、記憶部18に記憶されている楽譜データの中から、対象楽曲Zに対応する楽譜データを特定して取得する(S120)。なお、楽譜データの特定は、対象楽曲Zに対応する識別データを有した楽譜データを検出することで行えばよい。
そして、対象楽曲Zにおける歌声の音圧が時間軸に沿って推移した歌声波形vo(k)を、対象楽曲Zの楽曲波形w(k)から分離し、その分離した歌声波形vo(k)と、対象楽曲Zにおける伴奏音の音圧が時間軸に沿って推移した伴奏音波形yw(k)とを生成する(S130)。
この歌声波形vo(k)と伴奏音波形yw(k)とを生成する方法は、周知の手法であるため、ここでの詳しい説明は省略するが、例えば、楽曲波形w(k)において、優勢な調波構造成分における基本周波数F0を推定し、その基本周波数F0に対応する調波構造成分を抽出して生成した波形を歌声波形vo(k)とし、楽曲波形w(k)から歌声波形vo(k)を分離した残りの波形を伴奏音波形yw(k)として生成しても良い。この場合、優勢な調波構造成分における基本周波数F0を推定する方法として、周知のPreFEst(例えば、特開2009−186687号公報参考)を用いても良い。
また、歌声波形vo(k)と伴奏音波形yw(k)とは、周知の手法により、楽譜データにおける個々の楽譜トラックに基づいて、個々の楽器を演奏した音を、対象楽曲Zの楽曲波形w(k)から分離した結果、残った波形を歌声波形vo(k)として生成し、その分離した各楽器の音の時間軸に沿った推移を表す波形を全て合成することで生成した波形を、伴奏音波形yw(k)として生成しても良い。
伴奏波形生成処理では、続いて、S120にて取得した対象楽曲Zの楽譜データに表された個々の音符に対応する演奏音が時間軸に沿って推移した音符再生波形xw(k)を生成する(S140)。なお、S120にて取得した対象楽曲Zの楽譜データに、歌唱すべきメロディライン(いわゆるガイドメロディ)を表す楽譜トラックが含まれていれば、本実施形態のS140では、そのメロディラインを表す楽譜トラックを除いた全ての楽譜トラックに表された音符に従って、音符再生波形xw(k)を生成する。
この音符再生波形xw(k)を生成する方法は、音源モジュール17にて読み出した個々の演奏音が時間軸に沿って推移した信号を、音符再生波形xw(k)として取得しても良いし、楽譜データに従って、音源モジュール17に個々の演奏音を時間軸に沿って出力させ、その出力された演奏音を音声入力部15を介して受け付けることで音符再生波形xw(k)として生成しても良い。
続いて、互いに対応する単位区間p毎に、伴奏音波形yw(k)の振幅と音符再生波形xw(k)の振幅との比の時間軸に沿った変化を表す振幅比変化ar(p)を導出する(S150)。
本実施形態におけるS150では、具体的に、時間軸に沿って連続するように設定された個々の単位区間p毎に、伴奏音波形yw(k)の振幅の代表値である伴奏音代表値、及び音符再生波形xw(k)の振幅の代表値である再生代表値を導出する。そして、互いに対応する単位区間pにおける伴奏音代表値と、再生代表値との比の時間軸に沿った変化を振幅比変化ar(p)として導出する。
本実施形態における、より具体的な振幅比変化ar(p)の導出方法として、対応する単位区間pにおける伴奏音代表値(以下、ayw(p)とする)と、再生代表値(以下、axw(p))とを、下記(1)式に代入することが考えられる。
Figure 2012118234
なお、伴奏音代表値及び再生代表値それぞれは、単位区間pにおける代表的な値(即ち、代表値)であり、例えば、単位区間pにおける個々の振幅値の二乗和平均の平方根でも良いし、単位区間pにおいてサンプリングした個々の振幅値を相加平均することで求めた値(いわゆる平均値)でも良いし、単位区間pにおいてサンプリングした個々の振幅値のうちの中央値(メディアン)でも良い。
続いて、時間軸に沿って互いに対応する区間として予め規定された特定区間に対して、振幅比変化ar(p)と、歌声波形vo(k)の振幅の時間軸に沿った変化を表す歌声変化avo(p)との相関を表す波形類似度αを1つ導出する(S160)。なお、本実施形態における特定区間として、対象楽曲の全期間が規定されていても良いし、対象楽曲における少なくとも一つのフレーズが規定されていても良い。
本実施形態におけるS160では、具体的に、単位区間p毎に、歌声波形vo(k)の振幅の代表値である歌声代表値を導出し、その歌声代表値の時間軸に沿った変化を歌声変化avo(p)として導出する。
そして、下記(2)式に基づいて、特定区間に対して、一つの波形類似度αを導出する。下記(2)式におけるmean(x)は、配列xの相加平均を意味する。
Figure 2012118234
この(2)式によって導出される波形類似度αは、振幅比変化ar(p)と歌声変化avo(p)との一致度合いが高いほど、即ち、対象楽曲Z上での互いに対応する区間における振幅比変化ar(p)と歌声変化avo(p)との変化の傾向が一致するほど、値が大きくなる(ここでは、最大相関のときに値が「1」)。一方、振幅比変化ar(p)と歌声変化avo(p)との一致度合いが高いほど、即ち、対象楽曲Z上での互いに対応する区間における振幅比変化ar(p)と歌声変化avo(p)との変化の傾向が反対であるほど、値が小さくなる(ここでは、値が「−1」となる)。
このような波形類似度αが、予め規定された規定値Th以上であるか否かを判定した結果、波形類似度αが規定値Th未満であれば(S170:NO)、対象楽曲Zに対して対数圧縮が実行されていないものと判断して、本伴奏波形生成処理を終了する。
一方、波形類似度αが規定値Th以上であれば(S170:YES)、対象楽曲Zに対し対数圧縮が実行されているものと判断し、その対数圧縮に用いた圧縮関数を推定する(S180)。なお、本実施形態における規定値Thは、対象楽曲Zに対し対数圧縮が実行されていることを表す波形類似度であり、振幅比変化ar(p)と歌声変化avo(p)との一致度合いが、基準レベル以上であることを表す値として、予め実験などで求めた値である。
本実施形態のS180では、具体的に、対象楽曲Z上で時間軸に沿って互いに対応する複数の時刻における、伴奏音波形yw(k)の振幅の絶対値y(k)、及び音符再生波形xw(k)の振幅の絶対値x(k)を一つの組(ペア)として導出する。その導出した絶対値y(k)及び絶対値x(k)(好ましくは、3組以上の絶対値y(k)及び絶対値x(k))から、下記(3)式に示す対数関数を近似式とした最小二乗法により、圧縮関数を推定する。
Figure 2012118234
なお、最小二乗法は、周知の手法であるため、詳しい説明は省略するが、通常、下記(4)式、及び(5)式に従って近似式の係数A,Cを導出して、圧縮関数を推定する。
Figure 2012118234
続いて、S180にて推定した圧縮関数について、その圧縮関数の逆関数(以下、圧縮逆関数Fとする)を導出する(S190)。この圧縮逆関数Fの導出は、対数圧縮を実行後の楽曲波形w(k)の振幅をypとし、対数圧縮を実行前の楽曲波形w(k)の振幅をxp(xp=F(yp))として、下記(6)式によって実施される。
Figure 2012118234
このような圧縮逆関数Fを楽曲波形w(k)に乗算し、対象楽曲Zに対して実行されていた対数圧縮を解除する(S200)。これにより、対数圧縮の実行が解除された楽曲波形(以下、解除楽曲波形cw(k)とする)が導出される。この解除楽曲波形cw(k)は、下記(7)式によって表される。ただし、(7)式中のsign(x)は、変数xの符号関数であり、xが負であれば「−1」を、xが正であれば「1」を返す。
Figure 2012118234
このようにして導出された解除楽曲波形cw(k)に対して音源分離を実行し、対数圧縮の実行が解除された伴奏音波形(以下、解除波形とする)を生成する(S210)。
このS210において生成される解除波形は、S130における伴奏音波形yw(k)の生成方法と同様、例えば、解除楽曲波形cw(k)において、優勢な調波構造成分における持つ基本周波数F0を推定し、その基本周波数F0に対応する調波構造成分を抽出して生成した波形を歌声波形vo(k)とし、楽曲波形w(k)から歌声波形vo(k)を分離した残りの波形を解除波形として生成しても良い。また、周知の手法により、楽譜データにおける個々の楽譜トラックに基づいて、解除楽曲波形cw(k)から分離した各楽器の音の時間軸に沿った推移を表す波形を全て合成することで生成した波形を、解除波形として生成しても良い。
その後、本伴奏波形生成処理を終了する。
[実施形態の効果]
つまり、上記「課題を解決するための手段」に記載した通り、対象楽曲Zに対数圧縮が実行されていれば、振幅比変化ar(p)と歌声変化avo(p)(ひいては、歌声波形vo(k))とが相似となり(即ち、類似し)、波形類似度αの値が大きなものとなる。一方、対象楽曲に対数圧縮が実行されていなければ、振幅比変化ar(p)と歌声変化avo(p)(ひいては、歌声波形vo(k))とが相似とならず、波形類似度αの値が小さなものとなる。
情報(信号)処理装置10によれば、このような特性を用いて、波形類似度αが規定値Th以上であれば、対象楽曲Zに対数圧縮が実行されているものと判定すること、即ち、対象楽曲Zに対して対数圧縮が実行されているか否かを判定することができる。
さらに、情報(信号)処理装置10によれば、対象楽曲Zに対数圧縮が実行されていれば、その対数圧縮に用いた圧縮関数の逆関数を圧縮逆関数Fとして推定し、その圧縮逆関数Fを用いて解除波形を生成することができる。
この結果、情報(信号)処理装置10によれば、対数圧縮の実行が解除された対象楽曲Zの楽曲波形(即ち、解除楽曲波形cw(k))から分離した伴奏音波形、即ち、解除波形における振幅の揺らぎを抑制することができる。
このような解除波形は、対数圧縮が実行される前の楽曲波形w(k)から、歌声波形vo(k)を除去したものであるため、確実に、対数圧縮が実行される前の伴奏音波形とすることができる。
また、本実施形態の情報(信号)処理装置10によって導出される振幅比変化ar(p)と歌声変化avo(p)とは、代表値同士の変化の傾向を表すものであるため、各波形の細かな差異を吸収することができ、波形類似度αの導出精度を向上させることができる。
このため、対象楽曲Zに対して対数圧縮が実行されているか否かの判定精度を向上させることができる。
なお、本実施形態の伴奏波形生成処理においては、圧縮関数の推定に、線形回帰(最小二乗法)を用いているため、推定される圧縮関数の精度を実用的なレベルとすることができる。
[その他の実施形態]
以上、本発明の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において、様々な態様にて実施することが可能である。
例えば、上記実施形態の伴奏波形生成処理では、解除波形を生成するために、楽曲波形w(k)に圧縮逆関数Fを乗算して、対象楽曲Zに対して実行されていた対数圧縮を解除した後(S200)、その対数圧縮の実行を解除した解除楽曲波形cw(k)に対して音源分離等を実行していた(S210)が、解除波形を生成する方法は、これに限るものではない。
すなわち、S200とS210とを一つのステップに統合し、その統合したステップにおいて、伴奏波形生成処理のS130にて生成した伴奏音波形yw(k)に圧縮逆関数Fを乗算した結果(即ち、波形)を、解除波形として生成しても良い。
このように解除波形を生成すれば、解除波形を生成するために必要な処理を少なくすることができ、ひいては、解除波形を生成するまでに要する時間を短縮できる。
また、S210にて生成する波形は、解除波形に限るものではなく、解除楽曲波形cw(k)において、楽器それぞれの音の音圧が時間軸に沿って推移した個々の波形であっても良い。
上記実施形態では、圧縮関数の推定を最小二乗法にて実施したが、圧縮関数を推定する方法は、最小二乗法に限るものではなく、最小二乗法以外の回帰分析であっても良い。
また、2組の絶対値y(k)及び絶対値x(k)から、圧縮関数を導出しても良い。この場合、上記(3)式に、絶対値y(k)及び絶対値x(k)の組それぞれを代入した結果について、連立方程式を解くことで、係数A,Cを導出すれば、圧縮関数を推定することができる。
更に言えば、複数組の絶対値y(k)及び絶対値x(k)を二次元平面(ここでは、X−Y平面)に投影した際に、X軸に沿って規定した区間毎に、絶対値y(k)の代表値を導出し、その代表値をX軸に沿ってスムージングすることで生成した線によって表される関数を、圧縮関数として推定しても良い。
また、歌声変化avo(p)は、歌声波形vo(k)の振幅の時間軸に沿った変化を表すものであれば、例えば、歌声波形vo(k)そのものでも良いし、その他の指標でも良い。
なお、上記実施形態における規定値Thは、振幅比変化ar(p)と歌声変化avo(p)との一致度合いが、基準レベル以上であることを表す値として規定されていたが、規定値Thは、振幅比変化ar(p)と歌声変化avo(p)との一致度合いが、基準レベル未満であることを表す値として規定されていても良い。
この場合、波形類似度αの値(即ち、対数圧縮が実施されているか否か)に拘わらず、圧縮関数を推定して圧縮逆関数Fを導出することになる。つまり、この場合、対象楽曲に対して対数圧縮が実行されていなければ、導出される圧縮逆関数は、対数圧縮の実行を解除した伴奏音波形が、対象楽曲における伴奏音波形として元来生成されていた波形に維持されるような関数となる。この結果、対象楽曲における伴奏音波形(即ち、元々、振幅の揺らぎが小さい波形)として元来生成されていた波形が、解除波形として維持(生成)される。
したがって、このような方法であっても、対象楽曲の楽曲波形から分離した伴奏音波形における振幅の揺らぎを抑制することができる。
[実施形態と特許請求の範囲との対応関係]
最後に、上記実施形態の記載と、特許請求の範囲の記載との対応関係を説明する。
上記実施形態の伴奏波形生成処理におけるS110が、本発明の楽曲波形取得手段に相当し、伴奏波形生成処理におけるS120が、本発明の楽譜取得手段に相当し、伴奏波形生成処理におけるS130が、伴奏音生成手段に相当し、伴奏波形生成処理におけるS140が、再生波形生成手段に相当する。そして、伴奏波形生成処理におけるS150が、本発明の振幅比導出手段に相当し、伴奏波形生成処理におけるS160が、本発明の類似度導出手段に相当し、伴奏波形生成処理におけるS170,S180が、本発明の圧縮関数推定手段に相当し、伴奏波形生成処理におけるS190〜S210が、本発明の解除波形生成手段に相当する。
10…情報処理装置(信号処理装置) 11…通信部 12…音響データ読取部 13…入力受付部 14…表示部 15…音声入力部 16…音声出力部 17…音源モジュール 18…記憶部 20…制御部 21…ROM 22…RAM 23…CPU

Claims (7)

  1. 伴奏音が演奏されると共に歌唱される歌唱区間、及び1つの歌唱区間に時間軸に沿って連続する区間として伴奏音が演奏されるものの非歌唱である非歌唱区間を少なくとも有し、前記伴奏音及び歌唱された歌声を楽音として構成した対象楽曲における楽音の音圧が時間軸に沿って推移した楽曲波形を取得する楽曲波形取得手段と、
    前記対象楽曲における伴奏音を構成する個々の音に対応する音符を少なくとも配した楽譜を表すと共に、各音符の演奏音の強さを指示する強さ指示を有した楽譜データを取得する楽譜取得手段と、
    前記楽曲波形取得手段で取得した楽曲波形から、前記伴奏音の音圧が時間軸に沿って推移した伴奏音波形、及び、前記歌声の音圧が時間軸に沿って推移した歌声波形を生成する伴奏音生成手段と、
    前記楽譜取得手段で取得した楽譜データによって表される個々の音符に対応する演奏音が時間軸に沿って推移した音符再生波形を生成する再生波形生成手段と、
    前記伴奏音生成手段で生成した伴奏音波形と、前記再生波形生成手段で生成した音符再生波形との振幅の比の時間軸に沿った推移を表す振幅比変化を導出する振幅比導出手段と、
    前記振幅比導出手段で導出された振幅比変化と、前記伴奏音生成手段で生成した歌声波形の振幅の時間軸に沿った変化を表す歌声変化との一致度合いが高いほど値が大きい波形類似度を、時間軸に沿って互いに対応し、かつ前記歌唱区間及び前記非歌唱区間を少なくとも含む特定区間に対して1つ導出する類似度導出手段と、
    前記類似度導出手段で導出した波形類似度が、予め規定した規定値以上であれば、前記対数圧縮の圧縮関数を推定する圧縮関数推定手段と、
    前記圧縮関数推定手段で推定した圧縮関数に基づいて、該圧縮関数の逆関数である圧縮逆関数を導出し、少なくとも、前記圧縮逆関数を対象波形に適用することで、前記対数圧縮を解除した伴奏音波形である解除波形を生成する解除波形生成手段と
    を備えることを特徴とする信号処理装置。
  2. 前記解除波形生成手段は、
    前記楽曲波形取得手段で取得した楽曲波形を前記対象波形とし、該対象波形に圧縮逆関数を乗算することで生成した波形から、歌声波形を除去することで前記解除波形を生成する
    ことを特徴とする請求項1に記載の信号処理装置。
  3. 前記解除波形生成手段は、
    前記伴奏音生成手段で生成した伴奏音波形を前記対象波形とし、該対象波形に圧縮逆関数を乗算することで生成した波形を前記解除波形として生成する
    ことを特徴とする請求項1に記載の信号処理装置。
  4. 前記振幅比導出手段は、
    前記特定区間よりも短く、かつ時間軸に沿って連続するように設定された単位区間毎に、前記伴奏音波形の振幅の代表値である伴奏音代表値、及び前記音符再生波形の振幅の代表値である再生代表値を導出し、対応する単位区間における伴奏音代表値と、再生代表値との比の時間軸に沿った推移を、前記振幅比変化として導出し、
    前記類似度導出手段は、
    前記単位区間毎に、前記歌声波形の振幅の代表値である歌声代表値を導出し、その導出した歌声代表値の時間軸に沿った推移を前記歌声変化として、前記波形類似度を導出する
    ことを特徴とする請求項1〜請求項3のいずれか一項に記載の信号処理装置。
  5. 前記圧縮関数推定手段は、
    前記伴奏音生成手段にて生成した歌声波形における複数の振幅値に基づく回帰分析によって、前記圧縮関数を推定する
    ことを特徴とする請求項1から請求項4のいずれか一項に記載の信号処理装置。
  6. 前記特定区間は、
    前記対象楽曲における時間軸に沿った全区間、または楽曲を構成する各フレーズに対応する区間であることを特徴とする請求項1〜請求項5のいずれか一項に記載の信号処理装置。
  7. 伴奏音が演奏されると共に歌唱される歌唱区間、及び1つの歌唱区間に時間軸に沿って連続する区間として伴奏音が演奏されるものの非歌唱である非歌唱区間を少なくとも有し、前記伴奏音及び歌唱された歌声を楽音として構成した対象楽曲における楽音の音圧が時間軸に沿って推移した楽曲波形を取得する楽曲波形取得手順と、
    前記対象楽曲における伴奏音を構成する個々の音に対応する音符を少なくとも配した楽譜を表すと共に、各音符の演奏音の強さを指示する強さ指示を有した楽譜データを取得する楽譜取得手順と、
    前記楽曲波形取得手順で取得した楽曲波形から、前記伴奏音の音圧が時間軸に沿って推移した伴奏音波形、及び、前記歌声の音圧が時間軸に沿って推移した歌声波形を生成する伴奏音生成手順と、
    前記楽譜取得手順で取得した楽譜データによって表される個々の音符に対応する演奏音が時間軸に沿って推移した音符再生波形を生成する再生波形生成手順と、
    前記伴奏音生成手順で生成した伴奏音波形と、前記再生波形生成手順で生成した音符再生波形との振幅の比の時間軸に沿った推移を表す振幅比変化を導出する振幅比導出手順と、
    前記振幅比導出手順で導出された振幅比変化と、前記伴奏音生成手順で生成した歌声波形の振幅の時間軸に沿った変化を表す歌声変化との一致度合いが高いほど値が大きい波形類似度を、互いに対応し、かつ前記歌唱区間及び前記非歌唱区間を少なくとも含む特定区間に対して1つ導出する類似度導出手順と、
    前記類似度導出手順で導出した波形類似度が、予め規定した規定値以上であれば、前記対数圧縮の圧縮関数を推定する圧縮関数推定手順と、
    前記圧縮関数推定手順で推定した圧縮関数に基づいて、該圧縮関数の逆関数である圧縮逆関数を導出し、少なくとも、前記圧縮逆関数を対象波形に適用することで、前記対数圧縮を解除した伴奏音波形である解除波形を生成する解除波形生成手順とを、
    コンピュータに実行させることを特徴とするプログラム。
JP2010266993A 2010-11-30 2010-11-30 信号処理装置,及びプログラム Pending JP2012118234A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010266993A JP2012118234A (ja) 2010-11-30 2010-11-30 信号処理装置,及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010266993A JP2012118234A (ja) 2010-11-30 2010-11-30 信号処理装置,及びプログラム

Publications (1)

Publication Number Publication Date
JP2012118234A true JP2012118234A (ja) 2012-06-21

Family

ID=46501142

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010266993A Pending JP2012118234A (ja) 2010-11-30 2010-11-30 信号処理装置,及びプログラム

Country Status (1)

Country Link
JP (1) JP2012118234A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106898369A (zh) * 2017-02-23 2017-06-27 上海与德信息技术有限公司 一种音乐播放方法及装置
CN111667805A (zh) * 2019-03-05 2020-09-15 腾讯科技(深圳)有限公司 一种伴奏音乐的提取方法、装置、设备和介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106898369A (zh) * 2017-02-23 2017-06-27 上海与德信息技术有限公司 一种音乐播放方法及装置
CN111667805A (zh) * 2019-03-05 2020-09-15 腾讯科技(深圳)有限公司 一种伴奏音乐的提取方法、装置、设备和介质
CN111667805B (zh) * 2019-03-05 2023-10-13 腾讯科技(深圳)有限公司 一种伴奏音乐的提取方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
KR100949872B1 (ko) 악곡 연습 지원 장치, 악곡 연습 지원 장치의 제어 방법, 악곡 연습 지원 장치를 제어하는 제어 방법을 컴퓨터로 실행시키는 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체
JP4910854B2 (ja) こぶし検出装置、こぶし検出方法及びプログラム
WO2017057531A1 (ja) 音響処理装置
JP4900017B2 (ja) ビブラート検出装置、ビブラート評価装置、ビブラート検出方法、ビブラート評価方法およびプログラム
JP5292702B2 (ja) 楽音信号生成装置及びカラオケ装置
JP2012118234A (ja) 信号処理装置,及びプログラム
JP2017181793A (ja) 音響処理装置、及びプログラム
JP5782972B2 (ja) 情報処理システム,プログラム
JP5418518B2 (ja) 楽曲データ修正装置
JP5267495B2 (ja) 楽器音分離装置、及びプログラム
JP6056799B2 (ja) プログラム、情報処理装置、及びデータ生成方法
JP6252420B2 (ja) 音声合成装置、及び音声合成システム
WO2020158891A1 (ja) 音信号合成方法およびニューラルネットワークの訓練方法
JP6075314B2 (ja) プログラム,情報処理装置,及び評価方法
JP5413380B2 (ja) 楽曲データ修正装置
JP4048249B2 (ja) カラオケ装置
JP6252421B2 (ja) 採譜装置、及び採譜システム
JP5418525B2 (ja) カラオケ装置
JP6406182B2 (ja) カラオケ装置、及びカラオケシステム
JP5983670B2 (ja) プログラム、情報処理装置、及びデータ生成方法
JP5810947B2 (ja) 発声区間特定装置、音声パラメータ生成装置、及びプログラム
JP5569307B2 (ja) プログラム、及び編集装置
JP3656726B2 (ja) 楽音信号発生装置及び楽音信号発生方法
JP6304092B2 (ja) 表示制御装置、及びプログラム
JP5034471B2 (ja) 楽音信号発生装置及びカラオケ装置